UNIDAD 1 DISTRIBUCIONES DE FRECUENCIA 1.1 1.1
CONC CONCEP EPTO TO DE DE ESTA ESTADÍ DÍST STIC ICA A Y SU CLA CLASI SIFI FICA CACI CION ON
¿Qué es la estadíst!a" Cuando coloquialmente se habla de estadística, se suele pensar en una relación de datos numéricos numéricos presentada presentada de forma forma ordenada y sistemática. sistemática. Esta idea es la consecuencia del concepto popular que existe sobre el término y que cada vez está más extendido debido a la influencia de nuestro entorno, ya que hoy día es casi imposible que cualquier medio de difusión, periódico, radio, televisión, etc, no nos aborde aborde diari diariamen amente te con cualqu cualquier ier tipo tipo de inform informaci ación ón estadí estadísti stica ca sobre sobre accidentes de tráfico, índices de crecimiento de población, turismo, tendencias políticas, etc. ólo cuando nos adentramos en un mundo más específico como es el campo de la invest investi!a i!ació ción n de las Cienci Ciencias as ociale ociales" s" #edici #edicina, na, $iolo! $iolo!ía, ía, %sicol %sicolo!í o!ía, a, ... ... empezamos a percibir que la Estadística no sólo es al!o más, sino que se convierte en la &nica herramienta que, hoy por hoy, permite dar luz y obtener resultados, y por tanto beneficios, en cualquier tipo de estudio, cuyos movimientos y relaciones, por su variabilidad intrínseca, no puedan ser abordadas desde la perspectiva de las leyes deterministas. %odríamos, desde un punto de vista más amplio, definir la estadística como la ciencia que estudia cómo debe emplearse la información y cómo dar una !uía de acción en situaciones prácticas que entra'an incertidumbre. (a Estadíst!a se ocupa de los métodos y procedimientos para reco!er, clasificar, resumir, hallar re!ularidades y analizar los datos, siempre y cuando la variabilidad e incertidumbre sea una causa intrínseca de los mismos) así como de realizar inferencias a partir de ellos, con la finalidad de ayudar a la toma de decisiones y en su caso formular predicciones. %odríamos por tanto clasificar la Estadística en descriptiva, cuando los resultados del análisis no pretenden ir más allá del con*unto de datos, e inferencial cuando el ob*etivo del estudio es derivar las conclusiones obtenidas a un con*unto de datos más amplio.
Clas#!a!$% de la Estadíst!a Estadíst!a
Ciencia que reco!e y or!aniza datos de forma sistemática. +atos numéricos sistemáticamente recolectados y or!anizados.
Estadíst!a des!&'t(a
r!anización de los datos en tablas y !ráficas. e encar!a de establecer los parámetros que definen una población.
Estadíst!a )ate)*t!a
Comparación de medidas calculadas mediante distribuciones de probabilidades"
Estadíst!a %+ 'a&a)ét&!a %ruebas estadísticas aplicadas cuando se supone que los datos -no- se distribuyen normalmente. Estadíst!a 'a&a)ét&!a
1.,
%ruebas estadísticas aplicadas cuando se supone que los datos se distribuyen normalmente.
RECOPILACION DE DE DA DATOS
Re!+ Re!+'l 'la! a!$ $% % de dat+ dat+ss- +eber +eberá á diri diri!i !irs rse e al re!is re!istr tro o de aque aquellllos os hecho hechoss que que permitan conocer y analizar lo que realmente sucede en la unidad o tema que se investi!a. Esto consiste en la recolección, síntesis, or!anización y comprensión de los datos que se requieren. e conocen dos tipos de fuentes" %rimarias" que contienen información ori!inal no abreviada ni traducida. ecundarias" obras de referencia que auxilian al proceso de investi!ación. e conoce otra división que se conforma por las si!uientes fuentes +ocumentales +e campo.
FICAS BIBLIO/R0FICAS DE TRABA2O Y E3ERO/R0FICAS (as fuentes de recolección de datos son todos los re!istros de aquellos hechos que permitan conocer y analizar lo que realmente sucede en el tema que se investi!a. Concluida la parte preparatoria de la investi!ación se inicia la fase de recopilación de datos. %ara recabar la información existente sobre el tema, el investi!ador se auxilia de instrumentos como las fichas de traba*o) hay diversos tipos de fichas de traba*o como" ichas de traba*o para fuentes documentales, fichas de traba*o de una revista, fichas de traba*o de un periódico, para investi!ación de campo, para observación, fichas biblio!ráficas y hemero!ráficas. ENCUESTA CUESTIONARIO Y ENTRE4ISTA /Entrevista" esta herramienta consiste básicamente en reunirse una o varias personas y cuestionarlas en forma adecuada para obtener información.
Estadíst!a des!&'t(a
r!anización de los datos en tablas y !ráficas. e encar!a de establecer los parámetros que definen una población.
Estadíst!a )ate)*t!a
Comparación de medidas calculadas mediante distribuciones de probabilidades"
Estadíst!a %+ 'a&a)ét&!a %ruebas estadísticas aplicadas cuando se supone que los datos -no- se distribuyen normalmente. Estadíst!a 'a&a)ét&!a
1.,
%ruebas estadísticas aplicadas cuando se supone que los datos se distribuyen normalmente.
RECOPILACION DE DE DA DATOS
Re!+ Re!+'l 'la! a!$ $% % de dat+ dat+ss- +eber +eberá á diri diri!i !irs rse e al re!is re!istr tro o de aque aquellllos os hecho hechoss que que permitan conocer y analizar lo que realmente sucede en la unidad o tema que se investi!a. Esto consiste en la recolección, síntesis, or!anización y comprensión de los datos que se requieren. e conocen dos tipos de fuentes" %rimarias" que contienen información ori!inal no abreviada ni traducida. ecundarias" obras de referencia que auxilian al proceso de investi!ación. e conoce otra división que se conforma por las si!uientes fuentes +ocumentales +e campo.
FICAS BIBLIO/R0FICAS DE TRABA2O Y E3ERO/R0FICAS (as fuentes de recolección de datos son todos los re!istros de aquellos hechos que permitan conocer y analizar lo que realmente sucede en el tema que se investi!a. Concluida la parte preparatoria de la investi!ación se inicia la fase de recopilación de datos. %ara recabar la información existente sobre el tema, el investi!ador se auxilia de instrumentos como las fichas de traba*o) hay diversos tipos de fichas de traba*o como" ichas de traba*o para fuentes documentales, fichas de traba*o de una revista, fichas de traba*o de un periódico, para investi!ación de campo, para observación, fichas biblio!ráficas y hemero!ráficas. ENCUESTA CUESTIONARIO Y ENTRE4ISTA /Entrevista" esta herramienta consiste básicamente en reunirse una o varias personas y cuestionarlas en forma adecuada para obtener información.
/Cue /Cuest stio ionar nario io"" está están n cons constititu tuid idos os por por seri series es de pre! pre!un unta tass escr escrititas, as, predefinidas, secuenciadas y separadas por capítulos o temática específica. /Encuesta" la recolección de información se hace a través de formularios, los cuales tienen aplicación en aquellos problemas que se pueden investi!ar por por méto método doss de obse observ rvaci ación, ón, anál anális isis is de fuent fuentes es docum documen enta tale less y demá demáss sistemas de conocimiento.
AN0LISIS E INTERPRETACI5N DE INFOR3ACI5N (a interpretación de los resultados de la inda!ación lleva inmediatamente a la solución. El análisis del instrumento de recolección de información de campo 0encuesta1, fue utilizando el análisis individual de pre!untas que se realiza con base en los porcenta*es que alcanzan las distintas respuestas de cada pre!unta. %ara llevar llevar a cabo este tipo de análisis se dise'o una forma donde se tabulan las respuestas en base a la cantidad de personas que contestaron cada respuesta y el porcenta*e que representa del total de la muestra. REDACCI5N Y PRESENTACI5N DEL INFOR3E El ob*etivo del informe es presentar a los lectores el proceso que se realizó para presentar una solución al problema planteado, para lo cual es necesario hacer la presentación del problema, los métodos empleados para su estudio, los resultados obtenidos, obtenidos, las conclusiones conclusiones a las que se lle!aron y las recomendaci recomendaciones ones en base a estas. Con respecto a la estructura del informe, ésta es sencilla y si!ue fielmente los pasos fundamentales del dise'o de la investi!ación, ya que el informe debe ser la respuesta a lo planteado por el dise'o de investi!ación.
1.6 1.6
DIST DISTRI RIB BUCIO UCION N DE FRECU RECUEN ENCI CIA A
Dst&7u!$% de F&e!ue%!as Cuando la información información que se tiene es un !ran volumen, volumen, resulta muy conveniente ordenar y a!rupar los datos para mane*arlos de acuerdo a la distribución de frecuencias la cual consiste en a!rupar los datos en clases o cate!orías que estarán definidas por un límite mínimo y uno máximo de variación, mostrando en cada clase el n&mero de elementos que contiene o sea la frecuencia.
1.6.1 ISTO/RA3AS ISTO/RA3AS POLÍ/ONOS POLÍ/ONOS DE FRECUENCIA FRECUENCIA O2I4A Representación Gráfica
El patr patrón ón de vari variac ació ión n de los los dato datoss pued puede e apre apreci ciar arse se me*o me*orr repr represe esent ntan ando do !ráficamente la información contenida en el cuadro.
2eneralmente los !ráficos empleados para representar distribuciones de frecuencias son " los polí!onos de frecuencias, !ráficos de barras, histo!ramas, o*ivas y !ráficos de bastones
st+8&a)a on !ráficos construidos de barras verticales sin separaciones entre sí. %ara construir un histo!rama, se define una escala horizontal apropiada y en ella se marcan los límites reales de todas las clases de la distribución que se quiere representar. (a escala no necesita comenzar en cero, pero si un intervalo de clase antes del límite inferior de la clase más ba*a. (as frecuencias se representan en la escala vertical, la cual si debe comenzar en cero, no tener cortes o interrupciones y ser lo suficientemente amplia para incluir la mayor de las frecuencias. +efinidas las escalas, se procede a trazar el !ráfico como en el e*emplo.
P+lí8+%+ de #&e!ue%!as El polí!ono consiste en marcar sobre cada clase un punto, tomando como occisa el punto medio de la clase y como ordenada la frecuencia. Esos puntos se unen lue!o con secciones de rectas y la fi!ura resultante es el polí!ono.
Las O9(as Estas son en realidad polí!onos que utilizan las frecuencias acumuladas con la salvedad de que las ordenadas no se levanten sobre el punto medio de la clase, sino sobre el límite inferior o superior se!&n se haya acumulado 0ascendente o descendente1. Esto se hace porque debido al procedimiento de acumulación, la frecuencia -menos-, para un cierta clase, incluye todas las frecuencias menores que el límite superior de esa clase) y la acumulada -mas de-, todas las frecuencias mayores que el límite inferior de la clase.
1.:
3EDIDAS DE TENDENCIA CENTRAL PARA UN CON2UNTO DE DATOS Y DATOS A/RUPADOS
(os fenómenos bioló!icos no suelen ser constantes, por lo que será necesario que *unto a una medida que indique el valor alrededor del cual se a!rupan los datos, se asocie una medida que ha!a referencia a la variabilidad que refle*e dicha fluctuación. En este sentido pueden examinarse varias características, siendo las más comunes" (a tendencia central de los datos) (a dispersión o variación con respecto a este centro) (os datos que ocupan ciertas posiciones. (a simetría de los datos. (a forma en la que los datos se a!rupan.
F8u&a- #edidas representativas de un con*unto de datos estadísticos
3 lo lar!o de este capítulo, y si!uiendo este orden, iremos estudiando los estadísticos que nos van a orientar sobre cada uno de estos niveles de información" valores alrededor de los cuales se a!rupa la muestra, la mayor o menor fluctuación alrededor de esos valores, nos interesaremos en ciertos valores que marcan posiciones características de una distribución de frecuencias así como su simetría y su forma.
1.:.1 3EDIA 3EDIA PONDERADA (a )eda a&t)ét!a de una variable estadística es la suma de todos sus posibles valores, ponderada por las frecuencias de los mismos. Es decir, si la tabla de valores de una variable X es 4 ni
f i
x 5
n5
f 5
...
...
...
x k
nk
f k
la media es el valor que podemos escribir de las si!uientes formas equivalentes"
i los datos no están ordenados en una tabla, entonces
(a media tiene las si!uientes características" Es el centro de !ravedad de la distribución y es &nica para cada distribución. Cuando aparecen valores extremos y poco si!nificativos 0demasiado !randes o demasiado peque'os1, la media puede de*ar de ser representativa. 6o tiene sentido en el caso de una variable cualitativa ni cuando existen datos a!rupados con al!&n intervalo no acotado. %ara variables a!rupadas, los x i serán las marcas declase de cada intervalo. 3demás, la media cumple las si!uientes propiedades" i se suma una constante a todos los valores, la media aumenta en dicha constante. i se multiplican todos los valores de la variable por una constante, la media queda multiplicada por dicha constante.
O7se&(a!$% 7emos supuesto implícitamente en la definición de media que tratábamos con una variable X discreta. i la variable es continua tendremos que cambiar los valores de x i por las marcas de clase correspondientes. En !eneral, la media aritmética obtenida a partir de las marcas de clase ci , diferirá de la media obtenida con los valores reales, x i . Es decir, habrá una perdida de precisión que será tanto mayor cuanto mayor sea la diferencia entre los valores reales y las marcas de clase, o sea, cuanto mayores sean las lon!itudes ai , de los intervalos.
P&+'+s!$% (a suma de las diferencias de la variable con respecto a la media es nula, es decir,
+emostración $asta desarrollar la sumatoria para obtener
Este resultado nos indica que el error cometido al aproximar un valor cualquiera de la variable, por e*emplo x 5, mediante el valor central , es compensado por los demás errores"
i los errores se consideran con si!no positivo, en este caso no pueden compensarse. Esto ocurre si tomamos como medida de error al!una de las si!uientes"
que son cantidades estrictamente positivas si al!&n
.
E9e)'l+ btener las desviaciones con respecto a la media en la si!uiente distribución y comprobar que su suma es cero. l i 85 8 l i ni 9 8 59
5
59 8 :9 :
:9 8 ;9 < ;9 8 <9 ;
S+lu!$%l i8 5 8 l i
ni
9 8 59
5
x i x i ni
=
=
85>
85>
59 8 :9 :
5= ;9
8>
85?
:9 8 ;9 <
:= 599
@5
@<
;9 8 <9 ;
;= 59=
@55
@;;
nA59
(a media aritmética es"
Como se puede comprobar sumando los elementos de la <ima columna,
3edas 8e%e&al;adas En función del tipo de problema varias !eneralizaciones de la media pueden ser consideradas. 7e aquí al!unas de ellas aplicadas a unas observaciones x 5, ..., x n"
La )eda 8e+)ét&!a , es la media de los lo!aritmos de los valores de la variable"
(ue!o
i los datos están a!rupados en una tabla, entonces se tiene"
La )eda a&)$%!a , se define como el recíproco de la media aritmética de los recíprocos, es decir,
%or tanto,
La )eda !uad&*t!a , es la raíz cuadrada de la media aritmética de los cuadrados"
1.:., 3EDINA Consideramos una variable discreta X cuyas observaciones en una tabla estadística han sido ordenadas de menor a mayor. (lamaremos )eda%a, Med al primer valor de la variable que de*a por deba*o de sí al de las observaciones. %or tanto, si n es el n&mero de observaciones, la mediana corresponderá a la observación Bn:D@5, donde representamos por
la parte entera de un n&mero.
F8u&a- Cálculo !eométrico de la mediana
En el caso de variables continuas, las clases vienen dadas por intervalos, y aquí la fórmula de la mediana se complica un poco más 0pero no demasiado1" ea 0 l i 85,l iD el intervalo donde hemos encontrado que por deba*o están el de las observaciones. Entonces se obtiene la mediana a partir de las frecuencias absolutas acumuladas, mediante interpolación lineal 0teorema de hales1.
O7se&(a!$% (a relación Corresponde a definir para cada posible observación, , su frecuencia relativa acumulada, F 0 x 1, por interpolación lineal entre los valores F 0l j 851 A F j 85 y F 0l j 1 A F j de forma que
+e este modo, Med es el punto donde
. Esto equivale a decir que la
mediana divide al histo!rama en dos partes de áreas i!uales a
.
O7se&(a!$% Entre las propiedades de la mediana, vamos a destacar las si!uientes" Como medida descriptiva, tiene la venta*a de no estar afectada por las observaciones extremas, ya que no depende de los valores que toma la variable, sino del orden de las mismas. %or ello es adecuado su uso en distribuciones asimétricas. Es de cálculo rápido y de interpretación sencilla. 3 diferencia de la media, la mediana de una variable discreta es siempre un valor de la variable que estudiamos 0e*. (a mediana de una variable número de hijos toma siempre valores enteros1. i una población está formada por : subpoblaciones de medianas Med 5 y Med :, sólo se puede afirmar que la mediana, Med , de la población está comprendida entre Med 5 y Med :
El mayor defecto de la mediana es que tiene unas propiedades matemáticas complicadas, lo que hace que sea muy difícil de utilizar en inferencia estadística. Es función de los intervalos esco!idos. %uede ser calculada aunque el intervalo inferior o el superior no ten!a límites. (a suma de las diferencias de los valores absolutos de n puntuaciones respecto a su mediana es menor o i!ual que cualquier otro valor. Este es el equivalente al teorema de FGni! 0proposición :.51 con respecto a la media, pero donde se considera como medida de dispersión a"
E9e)'l+ ea X una variable discreta que ha presentado sobre una muestra las modalidades
i cambiamos la <ima observación por otra anormalmente !rande, esto no afecta a la mediana, pero si a la media"
En este caso la media no es un posible valor de la variable 0discreta1, y se ha visto muy afectada por la observación extrema. Este no ha sido el caso para la mediana.
E9e)'l+ btener la media aritmética y la mediana en la distribución ad*unta. +eterminar !ráficamente cuál de los dos promedios es más si!nificativo. l i8 5 8 l i ni 9 8 59
H9
59 8 :9
?9
:9 8 ;9
;9
;9 8 599
:9
599 8 =99 59
S+lu!$%l i 85 8 l i
ni
ai
x i
x i ni
Ni
9 8 59
H9
59
=
;99
H9
59 8 :9
?9
59
5=
5.:99
5<9 ?9
:9 8 ;9
;9
59
:=
I=9
5I9 ;9
;9 8 599
:9
I9
H=
5.;99
5>9 :,>
599 8 =99 59
<99 ;99 ;.999
H9
:99 9,:=
nA:99
(a media aritmética es"
(a primera frecuencia absoluta acumulada que supera el valor n:A599 es Ni A5<9. %or ello el intervalo mediano es B59):91. 3sí"
%ara ver la representatividad de ambos promedios, realizamos el histo!rama de la fi!ura :.;, y observamos que dada la forma de la distribución, la mediana es más representativa que la media.
F8u&a- %ara esta distribución de frecuencias es más representativo usar como estadístico de tendencia central la mediana que la media.
1.:.6 3ODA (a moda se suele definir como el valor más frecuente. En el caso de una variable no a!rupada, es el valor de la variable que más se repite. En el caso de una variable a!rupada por intervalos de i!ual amplitud se busca el intervalo de mayor frecuencia 0intervalo o clase modal1 y se aproxima la moda por el valor obtenido al aplicar la fórmula
donde" (i85 es el límite inferior del intervalo modal. ni es la frecuencia absoluta del intervalo modal. ni85 es la frecuencia absoluta del intervalo anterior al intervalo modal. ni@5 es la frecuencia absoluta del intervalo posterior al intervalo modal. ci es la amplitud del intervalo. (a moda cumple que
%uede ser que exista más de una moda. En dicho caso, se dice que la distribución es bimodal, trimodal, ..., se!&n el n&mero de valores que presentan la mayor frecuencia absoluta. (a moda es menos representativa que la media, a excepción de las distribuciones con datos cualitativos. i los intervalos no tienen la misma amplitud, se busca el intervalo de mayor densidad de frecuencia 0que es el cociente entre la frecuencia absoluta y la amplitud del intervalo"
1 y se calcula con la fórmula anterior.
(lamaremos )+da a cualquier máximo relativo de la distribución de frecuencias, es decir, cualquier valor de la variable que posea una frecuencia mayor que su anterior y su posterior.
F8u&a- Cálculo !eométrico de la moda
En el caso de variables continuas es más correcto hablar de intervalos modales. Jna vez que este intervalo, 0l i 85, l iD , se ha obtenido, se utiliza la si!uiente fórmula para calcular la moda, que está motivada en la fi!ura :.<"
O7se&(a!$% +e la moda destacamos las si!uientes propiedades" Es muy fácil de calcular. • %uede no ser &nica. • Es función de los intervalos ele!idos a través de su amplitud, n&mero y • límites de los mismos. 3unque el primero o el <imo de los intervalos no posean extremos inferior • o superior respectivamente, la moda puede ser calculada.
1.:.: RELACION ENTRE 3EDIA 3EDIANA Y 3ODA En el caso de distribuciones unimodales, la mediana está con frecuencia comprendida entre la media y la moda 0incluso más cerca de la media1. En distribuciones que presentan cierta inclinación, es más aconse*able el uso de la mediana. in embar!o en estudios relacionados con propósitos estadísticos y de inferencia suele ser más apta la media. Keamos un e*emplo de cálculo de estas tres ma!nitudes.
E9e)'l+ Consideramos una tabla estadística relativa a una variable continua, de la que nos dan los intervalos, las marcas de clase ci , y las frecuencias absolutas, ni . Lntervalo ci ni s 9 88 :
5 :
: 88 <
; 5
< 88 H
= <
H 88 ?
I ;
? 8 59
> :
%ara calcular la media podemos a'adir una columna con las cantidades suma de los términos de esa columna dividida por nA5: es la media"
. (a
Lntervalo ci ni Ni s 9 88 :
5
: :
:
: 88 <
;
5 ;
;
< 88 H
=
< <
:9
H 88 ?
I
; 59 :5
? 8 59
>
: 5: 5?
5:
H<
(a mediana es el valor de la variable que de*a por deba*o de sí a la mitad de las n observaciones, es decir H. Construimos la tabla de las frecuencias absolutas acumuladas, Ni , y vemos que eso ocurre en la modalidad tercera, es decir,
%ara el cálculo de la , lo primero es encontrar los intervalos modales, buscando los máximos relativos en la columna de las frecuencias absolutas, ni . Kemos que hay dos modas, correspondientes a las modalidades i A 5, i A;. En el primer intervalo modal, 0 l 9,5DA09,:D, la moda se calcula como
El se!undo intervalo modal es 0l :,l ;DA0<)HD, siendo la moda el punto perteneciente al mismo que se obtiene como"
En este caso, como se ve en la fi!ura :.=, la moda no toma un valor &nico, sino el con*unto
1.=
3EDIDAS DE DISPERSI5N PARA UN CON2UNTO DE DATOS Y DATOS A/RUPADOS
Lma!ina que tenemos ; con*untos de personas y nos dicen que en todos los casos, la media del peso es ==. Mi!nifica esto que los tres con*untos de datos son i!uales o similaresN Conse!uimos los datos ori!inales y nos encontramos con que las observaciones son las si!uientes" 2rupo 5" == == == == == == == 2rupo :" H; 2rupo ;" ;>
= = =
>
=
H
=
=
I
=
<
=
=
I 5 ;
> I 5 ; 5
; < = H I
; < = H I
; < = H I
Entonces Mcómo podemos detectar esas diferencias entre los con*untos de datosN %arece que las medidas de centralización no nos proporcionan información suficiente en muchas situaciones, así que debemos encontrar al!una otra cantidad que nos di!a cómo de le*os están los datos entre ellos y de la media, es decir, nos sur*e la necesidad de medir la dispersión de los datos. (o primero que vemos es que en el primer caso todos los datos son i!uales, en el se!undo hay más diferencia entre el mayor y el menor, y en el tercero más a&n que en el se!undo. Exactamente tenemos que ==8==A9 H;8A;: 3 esta cantidad la llamamos rango de los datos. in embar!o, aunque es muy fácil de calcular, no se usa demasiado, porque si hay un sólo valor muy !rande o muy peque'o, el ran!o varía mucho, así que no siempre es una medida &til. MCómo podríamos encontrar un n&mero que nos dé una aproximación de la distancia de los datos a la mediaN %ues podemos calcular todas las diferencias 0en valor absoluto1 entre las observaciones y la media y lue!o calcular la media de esas diferencias. 3 esta cantidad la llamamos desviación media. Calculemos la desviación media del !rupo : de datos, tenemos
in embar!o, habitualmente se usa otra medida de la variabilidad, que responde a la media de los cuadrados de las desviaciones de los datos respecto a la media, así conse!uimos que las desviaciones mayores influyan más que las peque'as. %ero vamos a ver la definición ri!urosa de todos estos conceptos.
1.=.1 RAN/O Ra%8+" mide la amplitud de los valores de la muestra y se calcula por diferencia entre el valor más elevado y el valor más ba*o. 1.=., DES4IACION 3EDIA
1.=.6 4ARIAN>A 4a&a%;a" #ide la distancia existente entre los valores de la serie y la media. e calcula como sumatoria de las diferencias al cuadrado entre cada valor y la media, multiplicadas por el n&mero de veces que se ha repetido cada valor. El sumatorio obtenido se divide por el tama'o de la muestra.
(a varianza siempre será mayor que cero. #ientras más se aproxima a cero, más concentrados están los valores de la serie alrededor de la media. %or el contrario, mientras mayor sea la varianza, más dispersos están.
1.=.: DES4IACION ESTANADAR
1.?
COEFICIENTE DE 4ARIACI5N
1.<
COEFICIENTE DE ASI3ETRÍA DE PEARSON
+iremos que una distribución es simétrica cuando su mediana, su moda y su media aritmética coincidan. Claramente las distribuciones de los e*emplos de los niveles de colinesterasa y del n de hijos no son por tanto, simétricas. +iremos que una distribución es asim!trica a la derecha si las frecuencias 0absolutas o relativas1 descienden más lentamente por la derecha que por la izquierda. i las frecuencias descienden más lentamente por la izquierda que por la derecha diremos que la distribución es asim!trica a la i"#uierda. Existen varias medidas de la asimetría de una distribución de frecuencias. 3quí estudiaremos dos de ellas. a. C+e#!e%te de As)et&ía de Pea&s+% e define como"
siendo cero cuando la distribución es simétrica, positivo cuando existe asimetría a la derecha y ne!ativo cuando existe asimetría a la izquierda. En el e*emplo del número de hijos 3p es i!ual a
indicando una li!era asimetría a la izquierda en la distribución de frecuencias correspondiente. +e la misma manera, para el e*emplo de los niveles de colinesterasa también se observa una li!era asimetría a la izquierda, al ser
+e la definición se observa que este coeficiente solo se podrá utilizar cuando la distribución sea unimodal. (a otra medida de asimetría que veremos no presenta este inconveniente
UNIDAD , INTREODUCCION A LA PROBABILIDAD Y 4ALOR ESPERADO
,.1 INTRODUCCION A LA PROBABILIDAD En la sociedad francesa de 5H=9 el *ue!o era un entretenimiento corriente, sin demasiadas restricciones le!ales. En este entretenimiento están las raíces de la teoría de la probabilidad , pues cada vez se introducido *ue!os mas complicados que de*aron de sentir la necesidad de un método para calcularla probabilidad de !anar en cada *ue!o. (a probabilidad se obtiene dividiendo el n&mero de casos favorables entre el n&mero de los casos posibles, por tanto la probabilidad de obtener oros al extraer al azar una carta de una bara*a es 59<9 A 5< y se admitían que al repetir la fracción <99 veces, devolviendo la carta a la bara*a tras cada extracción, sería muy poco usual que la frecuencia relativa de los oros obtenidos estuviesen ale*adas de 5<. Jn *u!ador apasionado, el caballero +e #éré, encontró un desacuerdo entre las frecuencias relativas de la veces que !anaba 8 valores observados realmente 8 y el valor de la correspondiente probabilidad de !anar que el mismo había calculado. Consultó esta discrepancia en %arís con el famoso matemático y filósofo %ascal, quien se interesó por los problemas que le proponía +e #éré y comenzó una correspondencia epistolar sobre cuestiones probabilísticas con otros matemáticos ami!os, sobre todo con ermat. Esta correspondencia puede considerarse el ori!en de la teoría de probabilidades. %ronto %ascal y ermat probaron el desacuerdo de +e #éré se debía a que era erróneo el calculo de probabilidad que había hecho, ya que +e #éré se había equivocado al considerar como equiprobables casos que no le eran, y sólo cuando los casos posibles son equiprobables tiene sentido aplicar la definición dada de probabilidad. El desarrollo de la teoría de probabilidades tiene otro punto de referencia en 5I5;, en que se publica la obra $%rs conjectandi$ 0El arte de la Con*etura1 de O. $ernoulli, donde estudia la distribución binominal y su célebre teoría que da para esta distribución la expresión matemática de la propiedad de estabilidad de las frecuencias relativas. tro hito es la se!unda edición de la obra -he +octrine of Chances- 0(a doctrina de las probabilidades1 aparecidas en 5I;? y debida al hu!onote francés +e #oivre, que por motivos reli!iosos huyó de rancia refu!iándose en Ln!laterra, donde vivió de la resolución de problemas de *ue!os de azar. En la obra se'alada aparecen las primeras indicaciones sobre las distribución normal de probabilidades.
En 5?5: (aplace publica su famosa - &heoríe %nal'ti#ue des probabilit!s$ , que contiene una exposición completa y sistemática de la teoría matemática de los *ue!os de azar, además de una !ran cantidad de aplicaciones de la teoría de la probabilidad a muchas cuestiones científicas y prácticas. ras la obra de (aplace se extendieron las aplicaciones de su obra otras ramas de la Ciencia durante el si!lo 4L4, y así, 2auss y (aplace independientemente aplicaron la teoría de la probabilidad al análisis de los errores de medida en las observaciones físicas y astronómicas, #axPell, $oltzmann y 2ibbs aplicaron la probabilidad en su obra $Mec(nica )stadística$* que ha sido fundamental en distintas partes de la ísica moderna. Qa durante nuestro si!lo las aplicaciones de la teoría de la probabilidad se han extendido por los más variados campos, como !enética, economía, psicolo!ía... ambién, y pese al éxito de las aplicaciones, se oyeron voces críticas a la definición clásica de probabilidad, que exi!ía -a priori- saber, o suponer, que todos los casos posibles eran i!ualmente favorables. 3demás en ciertos casos era imposible aplicar la definición clásica de probabilidad, como puede suceder al intentar calcular la probabilidad de que una chincheta cai!a con la punta hacia arriba, o de que un hombre de ;9 a'os muera el próximo a'o. i bien la matemática cambió profundamente de forma entre las dos !uerras mundiales, también es cierto que buena parte de la matemática que si!uió a la e!unda 2uerra #undial consistía en el comienzo de al!o radicalmente nuevo que anunciaba una nueva era. (a teoría de con*untos y la teoría de la medida han ido invadiendo a lo lar!o del si!lo 44 una parte cada vez más extensa de la matemática, pero pocas de sus ramas se han visto afectadas tan profundamente por esta tendencia como la teoría de probabilidades, a la que $orel había dedicado ya en 5>9> sus $)l!ments de la th!orie des probabilit!s$ . El primer a'o del nuevo si!lo se anunciaba ya propicio para las aplicaciones de la teoría de probabilidades tanto a la fisica como a la !enética, puesto que en 5>95 publicaba 2lbbs su obra )lementar' +rinciples in ,tatistical Mechanics* y el mismo a'o fue fundada la revista -iometrika por Farl %earson 05?=I85>;H1. rancis 2alton 05?::85>551 fue muy precoz y un estadístico nato que estudió los fenómenos de re!resión) en 5>99 %earson en la universidad de (ondres popularizó el criterio de la Rchi8cuadradoS. Jno de los títulos de %oincaré había sido el de -profesor de cálculo de probabilidades-, lo que indicaba un interés creciente por el tema. En Tusia se inició el estudio de las cadenas de sucesos eslabonados, especialmente en 5>9H85>9I, por obra de 3ndrei 3ndreyevich #arUov 0o #arUoff, 5?=H85>::1, discípulo de chebycheff y coeditor de las euvres 0: vols., 5?>>8 5>9<1 de su maestro. En la teoría cinética de los !ases y en muchos fenómenos sociales y bioló!icos, la probabilidad de un suceso depende frecuentemente de los resultados anteriores, y especialmente desde mediados de este si!lo las cadenas de #arUov de probabilidades eslabonadas se han estudiado muy detalladamente.
En su b&squeda de una fundamentación matemática para la teoría de probabilidades en expansión, los estadísticos encontraron a mano las herramientas necesarias, y hoy no es posible ya dar una exposición ri!urosa de la teoría de probabilidades sin utilizar los conceptos de función medible y de las teorías de inte!ración modernas. En Tusia mismo, por e*emplo, A%d&el N!+lae(!@ +l)+8+&+## hizo importantes pro!resos en la teoría de procesos de #arUov 05>;51 y dio solución a una parte del sexto problema de 7ilbert, en el que se pedía una fundamentación axiom(tico de la teoría de probabilidades, utilizando la medida de (ebes!ue. El análisis clásico se había ocupado principalmente de funciones continuas, mientras que los problemas de probabilidades !eneralmente se refieren a casos discretos. (a teoría de la medida y las sucesivas extensiones del concepto de inte!ral se adaptaban perfectamente a conse!uir una asociación más estrecha entre el análisis y la teoría de probabilidades, especialmente a partir de mediados del si!lo, cuando (aurent chPartz 05>5=8 1, de la universidad de %arís, !eneralizó el concepto de diferenciación mediante su teoría de distribuciones 05>=985>=51.
,.1.1 DEFINICION Y EPRESI5N P&+7a7ldad rama de las matemáticas que se ocupa de medir o determinar cuantitativamente la posibilidad de que ocurra un determinado suceso. (a probabilidad está basada en el estudio de la combinatoria y es fundamento necesario de la estadística. (a probabilidad de un resultado se representa con un n&mero entre 9 y 5, ambos inclusive. (a probabilidad 9 indica que el resultado no ocurrirá nunca, y la probabilidad 5, que el resultado ocurrirá siempre. El cálculo matemático de probabilidades se basa en situaciones teóricas en las cuales puede confi!urarse un espacio muestral cuyos sucesos elementales ten!an todos la misma probabilidad. %or e*emplo, al lanzar un dado ideal, la probabilidad de cada una de las caras es 5H. 3l lanzar dos dados, la probabilidad de cada uno de los resultados es 5;H. En estos casos, la probabilidad de un suceso cualquiera , se calcula mediante la re!la de (aplace"
%BD A n&mero de sucesos elementales de n&mero total de sucesos elementales (a expresión anterior se suele expresar del si!uiente modo"
%BD A n&mero de casos favorables a n&mero de casos posibles (a aplicación de la re!la de (aplace en casos elementales es muy sencilla. %or e*emplo, en la experiencia de lanzar un dado" %BV:, ;, <, =WD A <H pues V:, ;, <, =W tiene < sucesos elementales y la experiencia admitía, en total, seis posibilidades. in embar!o, la aplicación de esta re!la en experimentos más comple*os requiere el uso de la combinatoria. %or e*emplo, al extraer tres cartas de una bara*a y ver la probabilidad de que las tres sean tréboles, el n&mero total de sucesos elementales es C=:; A 0=:X=5X=910;X:X51 A ::.599. (os casos favorables son C5;;A 05;X5:X5510;X:X51 A :?H. %or tanto, la probabilidad pedida es" %BTE TY$(ED A :?H::.599 A 5<;55.9=9 (a resolución de este tipo de problemas se simplifica notablemente si consideramos Zsacar tres naipes[ como una experiencia compuesta por tres experiencias simples" Zsacar un naipe y después otro y después otro[.
,., E4ENTOS 3UTUA3ENTE ECLUYENTES Y NO ECLUYENTES Cuando se realiza un experimento, que es cualquier proceso que produce un resultado o una observación, se van a obtener un con*unto de valores. 3 este con*unto de valores que puede tomar una variable se le denomina espacio muestral. %or e*emplo" i se tiene un dado cualquiera, el espacio muestral 0)M1 es )MAV5,:,;,<,=,HW. i existen más de una variable, el espacio muestral está formado por las combinaciones de valores de cada una de las variables. i tomamos un subcon*unto cualquiera del espacio muestral tenemos lo que se denomina un evento, y si éste consta de un solo elemento entonces es un evento elemental. Como se puede uno ima!inar, existen eventos que siempre, no importa el n&mero de experimentos o su situación, ocurren, y en cambio existen otros que nunca ocurren. (os que siempre ocurren son los eventos se!uros, y los que nunca son los eventos imposibles. in embar!o, no todos los resultados son al azar, pues si un experimento es cualquier proceso entonces los resultados pueden tomar cualquier tipo de valor.
%or esta razón, se define como experimento aleatorio al proceso en el que se pueden predecir con certeza la ocurrencia de sus eventos, con excepción del se!uro o del imposible. 7ay que hacer la observación que esta definición habla en términos !enerales y no específicamente sobre al!&n experimento en particular. 3 aquélla variable que está asociada a un experimento de este tipo se le denomina variable aleatoria. En cambio, a un experimento no aleatorio se le denomina experimento determinístico. Cuando hablamos de varios eventos dentro del mismo experimento se pueden dar varios casos. i dos o más eventos no pueden ocurrir simultáneamente, se llaman eventos mutuamente excluyentes, es decir, que la intersección de ambos eventos es vacía. %or otro lado, en ocasiones un evento o más eventos dependen de otro evento previo, es decir, un evento % ocurre dado que ocurrió un evento -. i existe este tipo de relación entre eventos se dice que son eventos dependientes o condicionados 0el evento % depende del evento -, o el resultado del evento % está condicionado al resultado del evento -1. %or otro lado, si no existe tal relación entre eventos se dice que son eventos independientes. (os criterios de dependencia o de independencia se definirán más adelante, en términos de probabilidad condicional.
,.6 RE/LAS DE ADICION P&%!'+ de ad!$% upon!amos que un evento 3 se puede realizar de -m- maneras y otro evento $ se puede realizar de -n- maneras diferentes, además, no es posible que ambos eventos se realicen *untos 03\ $ A \ 1, entonces el evento 3 o el evento $ se realizarán de 0 m @ n1 maneras.
E9e)'l+ 1Jn repuesto de automóvil se venden en H tiendas en la Kictoria o en ? tiendas de $re'a.M+e cuántas formas se puede adquirir el repuestoN
S+lu!$% %or el principio de adición" Kictoria ó $re'a
H formas @ ? formas A 5< formas
E9e)'l+ ,e desea cruzar un río, para ello se dispone de ; botes, : lanchas y 5 deslizador. M+e cuantas formas se puede cruzar el río utilizando los medios de transporte se'aladosN
S+lu!$% 3plicando el principio de adición se tiene" $ote , lancha , deslizador ;ó:ó5 ] maneras A ; @ : @ 5 A H
,.: E4ENTOS CONDICIONAL
INDEPENDIENTES
DEPEDIENTES
PROBABILIDAD
Eventos independientes" dos eventos 3 y $ son independientes sisé la ocurrencia o no ocurrencia afecta la probabilidad asi!nada a la ocurrencia del otro. 3l!unas veces es sencillo determinar la independencia por e*emplo los dos eventos considerados se refieren a ensayos no relacionados tales como el lanzamiento de dos monedas de diferente denominación en consecuencia los resultados con ambas monedas son independientes. (a falta de independencia o sea la dependencia es demostrada por la si!uiente ilustración considérese el experimento donde se lanzan dos dados y se observa los dos eventos la suma es i!ual a 59 y n&mero doble que se establece %0591A;;HA55:, %0doble1AH;HA5H Mla ocurrencia de 59 afecta la probabilidad de dobleN Considérese esta pre!unta de la manera si!uiente" a ocurrido una suma i!ual a 59 debe de ser uno de los resultados si!uientes B0<,H1,0=,=1,0H,<1D una de estas tres posibilidades es n&mero doble. En consecuencia debe concluirse que -%- 0doble sabiendo que ha ocurrido un diez1, escrita %0doble591, es i!ual a 5; ya que un tercio es distinta a la probabilidad de un doble puede concluirse que el evento 59 afecta la probabilidad de un n&mero doble así un doble y 59 son eventos dependientes. El símbolo %03$1A%0$31A%$. Considérese la probabilidad condicional. ómese, por e*emplo, el experimento donde se lanza un dado" AB5,:,;,<,=,HD en este experimento pueden definirse dos
eventos como 3 A-ocurre un <-, y $A-ocurre un n&mero par-. Entonces %031A5H, el evento 3 se satisface exactamente por uno de los seis muéstrales i!ualmente probables en . (a probabilidad condicional de 3 dado $, %03$1, se encuentra de manera similar, pero ya no es este caso el espacio muestral. Esto puede verse de la manera si!uiente" se lanza un dado sin que se pueda ver, aunque recibe la información de que el n&mero obtenido sea par, es decir que ha ocurrido el evento $. Esta es la condición dada, conociéndola a uno se la pide asi!nar la probabilidad del evento -ocurre un <-. ólo haqy tres posibilidades en el nuevo espacio muestral 0reducido1, B:,<,HD. Cada uno de los tres resultados es i!ualmente probable" en consecuencia %03 $1A5;.
,.= RE/LAS DE 3ULTIPLICACI5N Te!la de la multiplicación C3 2E6ET3( ean 3 y $ dos eventos definidos en el espacio muestral . Entonces " %03 y $1A%031.%0$31 o bien %03 y $1A%0$1.%03$1 i los eventos 3 y $ son independientes, el caso !eneral de la re!la de la multiplicación 0la fórmula anterior1. Te!la de la multiplicación C3 E%ECL3( ean 3 y $ dos eventos definidos en el espacio muestral . i 3 y $ son eventos independientes entonces" %03 y $1A%031.%0$1 Esta fórmula puede ser !eneralizada. i 3,$,C)...)! son eventos independientes, entonces" %03 y $ y C y ... y 21A%031.%0$1.%0C1...%02A 7ay al!unos problemas, o parte de al!unos problemas en los que la respuesta tiene que ver con multiplicar probabilidades. Keamos un e*emplo. El producto que nos surte el proveedor 3 tiene un =^ de probabilidad de estar defectuoso, mientras que el que nos surte el proveedor $ tiene un 5=^ de probabilidad de estar defectuoso. +ebido al empaque, es
imposible distin!uir entre el producto del proveedor 3 y el del $. En el almacén hay 599 unidades del producto y vamos a seleccionar una al azar. abiendo que <9^ de las unidades nos las surtió 3 y el resto $, Mqué probabilidad hay de que la unidad seleccionada sea defectuosaN %ara calcular la probabilidad, es conveniente ver que lo que estamos haciendo tiene dos etapas que se van a cubrir de manera secuencial" %rimero se esco!e una unidad que puede ser del proveedor 3 o del $. Jna vez esco!ida la unidad ésta puede ser defectuosa o nó. btener una unidad defectuosa se puede hacer por cualquiera de estos dos caminos" En la primera etapa esco!emos un producto del proveedor 3 y en la se!unda etapa resulta defectuoso. %rimero esco!emos del $ y lue!o resulta defectuoso. Esta partición del problema se ve me*or en lo que se llama un dia!rama de árbol. +etalles en el pizarrón. (a probabilidad de obtener un producto defectuoso es la suma de las probabilidades de los dos eventos se'alados. %ara calcular la probabilidad del primer evento necesitamos combinar las probabilidades de ambas etapas" %0proveedor 31 A 9.<9 y %0defect._provedor 31 A 9.9=. (a manera correcta de combinarlas es multiplicándolas. 3hora vamos a ver por qué) de los cien productos, <9 son del proveedor 3 y de ellos el =^ es defectuoso. Esto nos da : artículos, del total de 599, que son defectuosos y surtidos por el proveedor 3. +e la misma manera, la probabilidad de la se!unda posibilidad es" %0proveedor $1 A 9.H9 multiplicada por %0defect._proveedor $1 A 9.5= lo cual nos da >^. (a probabilidad que necesitábamos" %0defect.1 A 9.9: @ 9.9> A 9.55 En la solución de este problema usamos la re!la de que para calcular la probabilidad de un evento que se hace en dos etapas hay que multiplicar la probabilidad de la primera etapa por la condicional de la se!unda etapa dado el resultado de la primera. tro e*emplo es el si!uiente) una mecanó!rafa muy eficiente tiene una probabilidad de 9.95 de producir al!&n error por cada pá!ina que escribe y cada pá!ina es independiente. i nos escribe un documento de ; pá!inas, que
probabilidad hay de que no ten!a nin!&n error. 3quí nuestro resultado involucra ; etapas 0no nada más dos1" 5a., :a. y ;a. pá!inas. (a probabilidad de un documento perfecto es" %05a.bien1%0:a.bien_5a.bien1%0;a.bien_5a.y:a.bien1 y, por la independencia de la pá!inas, las ; probabilidades son i!uales a 9.>>. Esto da 9.>I. Cuando los eventos en sucesión, son independientes, el cálculo de la probabilidad `se simplifica
,.? DIA/RA3A DEL ARBOL Da8&a)as de *&7+l Tepresenta !ráficamente la re!la de la multiplicación. +e un punto a la izquierda salen n5 rectas de 5ra !eneración. +e cada una de estas ramas salen n : de :da !eneración y asi sucesivamente. (a re!la de la multiplicación muestra el numero total de ramas que tiene el árbol.
En los problemas de probabilidad y en especial en los de probabilidad condicionada, resulta interesante y práctico or!anizar la información en una tabla de contin!encia o en un dia!rama de árbol. (as tablas de contin!encia y los dia!ramas de árbol están íntimamente relacionados, dado uno de ellos podemos construir el otro. Jnas veces, los datos del problema permiten construir fácilmente uno de ellos y a partir de él podemos construir el otro, que nos ayudará en la resolución del problema. Conversión de una tabla en dia!rama de árbol (as tablas de contin!encia están referidas a dos características que presentan cada una dos o más sucesos.
% -
+0 %
En el caso de los sucesos %* * - y +0 % , expresados en frecuencias absolutas, relativas o probabilidades 3( +0 % 1 la tabla, adopta la forma ad*unta.
3( -1
+0
-1
1 +0
1
+0
1
+0 - 1 +0
1
5
+icha tabla adopta la forma del dia!rama de árbol del dibu*o. En éste, a cada uno de los sucesos % y se les ha asociado los sucesos - y .
obre las ramas del dia!rama de árbol se han anotado las probabilidades condicionadas correspondientes, deducidas de las relaciones análo!as a"
,.< CO3BINACIONES Y PER3UTACIONES C+)7%a!+%es Es una selección de r ob*etos de n dados sin atender a la ordenación de los mismos. Es decir, es la obtención de subco*untos, de r elementos cada uno, a partir de un con*unto inicial de n elementos. (a denotaremos con / nr , n/ r ó
.
P+& e9e)'l+- i tomamos el mismo con*unto %AVa,b,c,d W, Mcuántos subcon*untos de : elementos cada uno se pueden obtenerN 7aciéndolos se obtienen" Va,bW, Va,cW, Va,d W, Vb,cW, Vb,d W, Vc,d W. on seis los subcon*untos.
En !eneral, si de n ob*etos dados se hacen combinaciones de r ob*etos cada una, el n&mero de combinaciones obtenidas son"
/ nr A n/ r A
o, que es lo mismo,
/ nr A n/ r A
En )xcel la función C#$L630n,r1 calcula las combinaciones de n ob*etos tomando r de ellos. Es cada uno de los diferentes arre!los que se pueden hacer con parte o todos los elementos de un con*unto dado sin considerar el orden en su ubicación El n&mero de combinaciones de -%- elementos diferentes tomados de e% , con % ,está dada por"
E9e)'l+ 1i disponemos de = puntos no colineales ,Mcuál es el máximo n&mero de trián!ulos que se podrán formarN
S+lu!$% %ara dibu*ar un trián!ulo solo es necesario ; puntos en el plano, lue!o se esco!erán ; puntos 0U A ;1 de un total de ? puntos 0n A =1. 3demás no importa el orden, ya que el trian!ulo 3$C es i!ual al C$3) por lo tanto se trata de una combinación.
%ara ver el !ráfico seleccione la opción $a*ar traba*o del men& superior
E9e)'l+ ,-
Jna se'ora tiene ; frutas " manzana, fresa y pi'a. MCuántos sabores diferentes de *u!o podrá preparar con estas frutas N %ara ver el !ráfico seleccione la opción $a*ar traba*o del men& superior resa 01 , %i'a 0%1 , #anzana 0#1
S+lu!$%3ét+d+ 1 - e% #+&)a 8&*#!aG Cuando se esco!e una fruta de las tres, los sabores son ;" F P 3 Cuando se esco!e : de las tres frutas, los sabores son ;" FP F3 P3 Cuando se esco!e las ; frutas los sabores son 5" FP3
T+tal de sa7+&es d#e&e%tes - 6 H 6 H 1 < 3ét+d+ , - E)'lea%d+ !+)7%a!+%esG e puede esco!er una fruta de las tres $ : frutas de las tres $ las tres frutas de las tres, además en este caso no importa el orden) por lo tanto usamos el principio de adición aplicado a la combinación" ] maneras diferentes A
] maneras diferentes A
T+tal de sa7+&es d#e&e%tes - 6 H 6 H 1 < E9e)'l+ 6e desea formar un comité de I seleccionando < físicos y ; matemáticos de un !rupo de ? físicos y H matemáticos.M+e cuantas maneras podrá seleccionarseN
S+lu!$%5 eleccionamos < físicos entre ? en formas
:o eleccionamos ; matemáticos entre H en
3plico el principio de multiplicación x
A I9 x :9 A 5<99
Pe&)uta!$% Es un arre!lo de todos o parte de un con*unto de ob*etos considerando el orden en su ubicación) cuando en el arre!lo solo entran parte de los elementos del con*unto se llama (a&a!$% . Es importante resaltar que el orden es una característica importante en la permutación, cuando variamos el orden de los elementos se dice que permutamos dichos elementos.
E9e)'l+ +eterminar los diferentes arre!los o permutaciones que se pueden hacer con las letras a, b y c tomadas de dos en dos
S+lu!$% 3ét+d+ 1ea el con*unto " Va, b, cW , entonces los arre!los pueden ser" a7 7a. a! !a 7! !7 6&mero de arre!los A H
3ét+d+ ,- '&%!'+ de )ult'l!a!$%G %ara ver el !ráfico seleccione la opción $a*ar traba*o del men& superior ] arre!los A ; x : A H
Te+&e)a 1- Pe&)uta!$% l%eal !+% ele)e%t+s d#e&e%tesG -El n&mero de permutaciones de - %- ob*etos diferentes, tomados en !rupos de elementos 0siendo U \ n1 y denotado por
, estará dado por"
%ara ver el !ráfico seleccione la opción $a*ar traba*o del men& superior ) donde" n, U 6 y 9 \ U \ n Estas permutaciones son llamados lineales , porque los ob*etos son ordenados en una línea recta de referencia
E9e)'l+En una carrera de <99metros participan 5: atletas. M+e cuantas formas distintas podrán ser premiados los tres primeros lu!ares con medalla de oro , plata y bronceN
S+lu!$% 3ét+d+ 1 - E)'lea%d+ el '&%!'+ de )ult'l!a!$% ro %lata $ronce %ara ver el !ráfico seleccione la opción $a*ar traba*o del men& superior 59 x > x ? ] maneras A I:9
3ét+d+ ,- usa%d+ la #$&)ula de 'e&)uta!$% l%ealG e busca las diferentes ternas 0U A ;1 que se pueden formar con los 59 atletas 0n A 591
%ara ver el !ráfico seleccione la opción $a*ar traba*o del men& superior
Te+&e)a ,- Pe&)uta!$% l%eal !+% ele)e%t+s &e'etd+sG El n&mero de permutaciones 0%1 distintas de -n- elementos tomados de -n- en -nen donde hay un primer !rupo de n 5 ob*etos i!uales entre si) n: ob*etos i!uales
entre si de un se!undo tipo y así sucesivamente hasta n U ob*etos i!uales entre si de un <imo tipo, entonces"
E9e)'l+ M+e cuántas maneras distintas se podrán ordenar las si!uientes fi!urasN %ara ver el !ráfico seleccione la opción $a*ar traba*o del men& superior
S+lu!$%Como entran todos los elementos del con*unto y estos se repiten, se trata de una permutación con repetición, donde n5 A ; 0tres círculos1, n : A : 0dos cuadrados1 , n; A 5 0un trián!ulo1, n< A 50 un rombo1, lue!o"
A
Pe&)uta!$% C&!ula& on a!rupaciones donde no hay primero ni <imo elemento, por hallarse todos en una línea cerrada. %ara hallar el n&mero de permutaciones circulares que se pueden formar con -n- ob*etos distintos de un con*unto, hay que considerar fi*a la posición de un elemento, los n 5 restantes podrán cambiar de lu!ar de 0n 51 ormas diferentes tomando todas las posiciones sobre la circunferencia relativa al primer punto. El n&mero de permutaciones circulares será"
E9e)'l+1 M+e cuántas formas diferentes puede sentarse al rededor de una mesa circular un padre y sus = hi*osN
S+lu!$% -
e trata de una permutación circular "
E9e)'l+ ,M+e cuántas maneras diferentes se podrán ubicar las cifras del 5 al I en la si!uiente fi!uraN %ara ver el !ráfico seleccione la opción $a*ar traba*o del men& superior
S+lu!$% Este problema se puede resolver como la con*unción de dos eventos" '&)e&+ ubico una cifra en el centro 0I posibilidades1 J se8u%d+ las otras H cifras, las cuales por ordenarse en una circunferencia se podrán permutar de 0H 5 1 ormas , por lo tanto" ] de maneras A I x = A I x 5:9 A ?<9
,.K ANALISIS CO3BINATORIO En ocasiones el traba*o de enumerar los posibles sucesos que ocurren en una situación dada se convierte en al!o difícil de lo!rar o, simplemente, tedioso. El análisis combinatorio, o cálculo combinatorio, permite enumerar tales casos o sucesos y así obtener la probabilidad de eventos más comple*os. En el caso de que existan más de un suceso a observar, habría que contar el n&mero de veces que pueden ocurrir todos los sucesos que se desean observar, para ello se utiliza el '&%!'+ #u%da)e%tal de !+%te+" i un suceso se puede presentar de n5 formas, y otro se puede presentar de n: formas, entonces el n&mero de formas en que ambos sucesos pueden presentarse en ese orden es de n5Xn:. En otras palabras, basta multiplicar el n&mero de formas en que se pueden presentar cada uno de los sucesos a observar. Este principio nos remite automáticamente al #a!t+&al de un n&mero natural, que se puede pensar como una función con dominio los n&meros naturales *unto con el cero y codominio los n&meros naturales. El factorial de un n&mero n, denotado n, se define como"
3hora, n es muy !rande el proceso de cálculo se vuelve tedioso y muy car!ado, incluso para una computadora, por lo que se utiliza la a'&+)a!$% de St&l%8 a nM "
donde e2:.I5?:?..., que es la base de los lo!aritmos neperianos. En )xcel existe la función 3C0n1 que calcula el factorial de un n&mero entero no ne!ativo n. En el análisis combinatorio se definen las permutaciones, con o sin repetición, y las combinaciones.
,. TEORE3A DE BAYES En el a'o 5IH;, dos a'os después de la muerte de &homas -a'es 05I9:85IH51, se publicó una memoria en la que aparece, por vez primera, la determinación de la probabilidad de las causas a partir de los efectos que han podido ser observados. El cálculo de dichas probabilidades recibe el nombre de teorema de $ayes.
Te+&e)a de BaJes ea %3* % 4* ...*% n un sistema completo de sucesos, tales que la probabilidad de cada uno de ellos es distinta de cero, y sea - un suceso cualquier del que se conocen las probabilidades condicionales +0-5% 1i . entonces la probabilidad +0% 5-1 i viene dada por la expresión"
En los problemas relacionados con la probabilidad, y en particular con la probabilidad condicionada, así como con la probabilidad total y el teorema de $ayes, es aconse*able que, con la información del problema, construyas una tabla de contin!encia o un dia!rama de árbol.
El Te+&e)a de BaJes viene a se!uir el proceso inverso al que hemos visto en el eorema de la probabilidad total"
eorema de la probabilidad total" a partir de las probabilidades del suceso 3 0probabilidad de que llueva o de que ha!a buen tiempo1 deducimos la probabilidad del suceso $ 0que ocurra un accidente1. eorema de $ayes" a partir de que ha ocurrido el suceso $ 0ha ocurrido un accidente1 deducimos las probabilidades del suceso 3 0Mestaba lloviendo o hacía buen tiempoN1. (a fórmula del eorema de $ayes es"
ratar de explicar estar fórmula con palabras es un !alimatías, así que vamos a intentar explicarla con un e*emplo. +e todos modos, antes de entrar en el e*ercicio, recordar que este teorema también exi!e que el suceso 3 forme un sistema completo.
E*ercicio 5" El parte meteoroló!ico ha anunciado tres posibilidades para el fin de semana" a1 ue llueva" probabilidad del =9^. b1 ue nieve" probabilidad del ;9^ c1 ue haya niebla" probabilidad del :9^. e!&n estos posibles estados meteoroló!icos, la posibilidad de que ocurra un accidente es la si!uiente" a1 i llueve" probabilidad de accidente del 59^. b1 i nieva" probabilidad de accidente del :9^ c1 i hay niebla" probabilidad de accidente del =^. Tesulta que efectivamente ocurre un accidente y como no estabamos en la ciudad no sabemos que tiempo hizo 0nevó, llovío o hubo niebla1. El teorema de $ayes nos permite calcular estas probabilidades" (as probabilidades que mane*amos antes de conocer que ha ocurrido un accidente se denominan -probabilidades a priori- 0lluvia con el H9^, nieve con el ;9^ y niebla con el 59^1.
Jna vez que incorporamos la información de que ha ocurrido un accidente, las probabilidades del suceso 3 cambian" son probabilidades condicionadas % 03$1, que se denominan -probabilidades a posteriori-. Kamos a aplicar la fórmula"
a1 %robabilidad de que estuviera lloviendo"
(a probabilidad de que efectivamente estuviera lloviendo el día del accidente 0probabilidad a posteriori1 es del I5,<^. b1 %robabilidad de que estuviera nevando"
(a probabilidad de que estuviera nevando es del :5,<^. c1 %robabilidad de que hubiera niebla"
(a probabilidad de que hubiera niebla es del I,5^.
,.1 4ALOR ESPERADO O ESPERAN>A 3ATE30TICA ea X una v.a. discreta. e denomina es'e&a%;a )ate)*t!a de X o (al+&
es'e&ad+, y se denota bien
o bien
, a la cantidad que se expresa como"
donde
es el con*unto numerable de índices de los valores que puede tomar la
variable 0por e*emplo para un n&mero finito de valores de la v.a. o bien para una cantidad infinita numerable de los mismos. i X es una v.a. continua, se define su esperanza a partir de la función de densidad como si!ue"
O7se&(a!$% Tecordamos que si
y por tanto tiene sentido calcular su esperanza matemática"
%or las analo!ías existente entre la definición de media aritmética y esperanza matemática, las propiedades de linealidad de la primera se trasladan a la se!unda, como es inmediato comprobar"
UNIDAD 6
TIPOS DE DISTRIBUCIONES 4ARIABLES ALEATORIAS DISCRETAS Y CONTINUAS 6.1 BINO3IAL e dice que una v.a. X si!ue una leJ 7%+)al de parámetros n y p, si es la suma de n v.a. independientes de $ernouilli con el mismo parámetro, p"
,
Esta definición puede interpretarse en el si!uiente sentido" upon!amos que realizamos n pruebas de $ernouilli, X i, donde en todas ellas, la probabilidad de éxito es la misma 0 p1, y queremos calcular el n&mero de éxitos, X , obtenidos el el total de las n pruebas. u ley de probabilidad es H.5 .
6.11 PROPIEDADES- 3EDIA 4ARIAN>A Y DES4IACI5N ESTANDAR upon!amos que un experimento aleatorio tiene las si!uientes características" En cada prueba del experimento sólo son posibles dos resultados" el suceso 3 0éxito1 y su contrario 0fracaso1. El resultado obtenido en cada prueba es independiente de los resultados obtenidos anteriormente. (a probabilidad del suceso 3 es constante, la representamos por p, y no varía de una prueba a otra. (a probabilidad de es 58 p y la representamos por # . El experimento consta de un n&mero n de pruebas. odo experimento que ten!a estas características diremos que si!ue el modelo de la distribución $inomial. 3 la variable X que expresa el n&mero de éxitos obtenidos en cada prueba del experimento, la llamaremos variable aleatoria binomial. (a variable binomial es una variable aleatoria discreta, sólo puede tomar los valores 9, 5, :, ;, <, ..., n suponiendo que se han realizado n pruebas. Como hay que considerar todas las maneras posibles de obtener U8éxitos y 0n8U1 fracasos debemos calcular éstas por combinaciones 0n&mero combinatorio n sobre U1.
(a distribución $inomial se suele representar por -0n*p1 siendo n y p los parámetros de dicha distribución. unción de %robabilidad de la v.a. $inomial unción de probabilidad de la distribución $inomial o también denominada función de la distribución de $ernoulli 0para nA51. Kerificándose" 9 \ p \ 5
Como el cálculo de estas probabilidades puede resultar al!o tedioso se han construido tablas para al!unos valores de n y p que nos facilitan el traba*o. %arámetros de la +istribución $inomial
unción de +istribución de la v.a. $inomial
siendo U el mayor n&mero entero menor o i!ual a x i. Esta función de distribución proporciona, para cada n&mero real x i, la probabilidad de que la variable 4 tome valores menores o i!uales que x i. El cálculo de las 0x1 A p0 4 \x1 puede resultar laborioso, por ello se han construido tablas para al!unos valores de n y p que nos facilitan el traba*o. ea 4 una variable aleatoria discreta correspondiente a una distribución binomial.
%or tanto, su función de distribución es
El modo más simple de calcular la función afirma que la función característica de la suma de variables independientes es el producto de las funciones características de estas"
(os principales momentos de X los calculamos más fácilmente a partir de 0prop. pá!ina =1 que de su propia definición"
E9e)'l+ Jn médico aplica un es. a 59 alumnos de un cole!io para detectar una enfermedad cuya incidencia sobre una población de ni'os es del
. (a
sensibilidad del test es del y la especificidad del . MCual es la probabilidad de que exactamente a cuatro personas le de un resultado positivoN i en la muestra hay cuatro personas a las que el test le da positivo, Mcuál es la probabilidad de que entre estas, exactamente dos estén sanasN Calcular la probabilidad de que el test suministre un resultado incorrecto para dos personas. Calcular la probabilidad de que el resultado sea correcto para más de I personas.
S+lu!$%(os datos de que disponemos son"
donde ) , & @, y & 8 tienen el sentido que es obvio. i queremos saber a cuantas personas el test le dará un resultado positivo, tendremos que calcular , para lo que podemos usar el teorema de la probabilidad total 0estar enfermo y no estarlo forman una colección exhaustiva y excluyente de sucesos1"
ea X 5 la v.a. que contabiliza el n&mero de resultados positivos. Es claro que llamando
, se tiene que X si!ue una distribución binomial
%or ello la probabilidad de que a cuatro personas le de el resultado del test positivo es"
i queremos calcular a cuantas personas les dará el test un resultado positivo aunque en realidad estén sanas, hemos de calcular previamente el índice predictivo de falsos positivos"
, o sea,
Es importante observar este resultado. 3ntes de hacer los cálculos no era previsible que si a una persona el test le da positivo, en realidad tiene una probabilidad aproximadamente del de estar sana. ea X : la variable aleatoria que contabiliza al n&mero de personas al que el test le da positivo, pero que están sanas en realidad. Entonces
J
%or <imo vamos a calcular la probabilidad p; de que el test de un resultado erróneo, que es"
(a variable aleatoria que contabiliza el n&mero de resultados erróneos del test es
Como la probabilidad de que el test sea correcto para más de siete personas, es la de que sea incorrecto para menos de ;, se tiene
6.1., /RAFICA F8u&a- unción de probabilidad de una variable binomial cuándo n es peque'o.
F8u&a- unción de probabilidad de una variable binomial cuando n es !rande.
6., POISSON
(a +istribución de %oisson se llama así en honor a imeón +ennis %oisson 05I?585?<91, francés que desarrolló esta distribución basándose en estudios efectuados en la <ima parte de su vida. (a distribución de %oisson se emplea para describir varios procesos, entre otros la distribución de las llamadas telefónicas que lla!an a un conmutador, la demanda 0necesidades1 de servicios en una institución asistencial por parte de los pacientes, los arribos de los camiones y automóviles a la caseta de cobro y el n&mero de accidentes en un cruce. (os e*emplos citados tienen un elemento en com&n, pueden ser descritos por una variable aleatoria discreta que asume valores enteros 09,5,:,;,<,= y así sucesivamente1.
6.,.1 PROPIEDADES- 3EDIA 4ARIAN>A Y DES4IACI5N ESTANDAR El n&mero de enfermos que lle!an a un consultorio en cierto intervalo de tiempo será de 9,5,:,;,<,= o al!&n otro n&mero entero. +e manera análo!a, si se cuenta el n&mero de automóviles que lle!an a una caseta de cobro durante un periodo de diez minutos, el n&mero será entero. Características de los procesos que producen una distribución de la probabilidad de %oisson. El n&mero de vehículos que pasan por una caseta de cobro en las horas de mayor tráfico sirve como e*emplo para mostrar las características de una distribución de probabilidad de %oisson. El promedio 0media1 de los arribos de vehículos por hora de !ran tráfico puede estimarse a partir de los datos anteriores del tráfico. i dividimos las horas de !ran tráfico en periodos 0intervalos1 de un se!undo cada uno, encontraremos que los si!uientes enunciados son verdaderos" a1 (a probabilidad de que exactamente un vehículo lle!ue por se!undo a una caseta individual es un n&mero muy peque'o y es constante para que cada intervalo de un se!undo. b1 (a probabilidad de que dos o más vehículos lle!uen en un intervalo de un se!undo es tan reducida que podemos asi!narle un valor cero. c1 El n&mero de vehículos que lle!an en determinado intervalo de un se!undo es independiente del momento en que el intervalo de un se!undo ocurre durante la hora de !ran tráfico. d1 El n&mero de lle!adas en cualquier intervalo de un se!undo no depende del n&mero de arribos de cualquier otro intervalo de un se!undo. 3hora bien, podemos !eneralizar partiendo de las cuatro condiciones que hemos descrito en este e*emplo, si estas condiciones se cumplen nos apoyaremos en una distribución de probabilidad de %oisson para describirlos.
C*l!ul+ de '&+7a7ldades )eda%te la dst&7u!$% de P+ss+%. (a distribución de %oisson, se!&n hemos se'alado, se refiere a ciertos procesos que pueden ser descritos con una variable aleatoria discreta. (a letra 4 suele representar esa variable y puede además asumir valores enteros 09,5,:,; etc..1 . Jtilizamos la letra 4 may&scula para representar la variable aleatoria y la x min&scula para desi!nar un valor específico que puede asumir la 4 may&scula. (a probabilidad de exactamente x ocurrencias en una distribución de %oisson se calcula mediante la fórmula" %0x1 A λ x / e8λ x x
A (ambda 0n&mero medio de ocurrencias por intervalo de tiempo1 elevada a la potencia x. λ
e8λ A eA :.I5?:? elevado a la potencia de lambda ne!ativa. x A x factorial. E*emplo " upón!ase que estamos investi!ando la se!uridad de un crucero muy peli!roso. (os archivos de la policía indican una media de cinco accidentes por mes en él. El n&mero de accidentes está distribuido conforme a la distribución de %oisson, y la división de se!uridad en carreteras quiere calcular la probabilidad de exactamente 9,5,:,; y < accidentes en un mes determinado. 3plicando la fórmula anterior" %091 A 0=19 0e8=1 9 A 9.99HI< %051 A 0=15 0e8=1 5 A 9.9;;I9 %0:1 A 0=1: 0e8=1 : A 9.9?<:= %0;1 A 0=1; 0e8=1 ; A 9.5<9<: %0<1 A 0=1< 0e8=1 < A 9.5I==: %ara saber cual es la probabilidad en ; o menos, sumaremos las probabilidades de 9,5,:,; lo que será i!ual a " %091 A 9.99HI<
%051 A 9.9;;I9 %0:1 A 9.9?<:= %0;1 A 9.5<9<: %0; o menos1 A 9.:H=55 +ado que la probabilidad de que haya ; o menos accidentes es de 9.:H=55 entonces entonces la probabilidad probabilidad de que ocurran ocurran más de tres debe ser A 5 9.:H=55 9.:H=55 A 9.I;>. (a distribución de %oisson como una aproximación a la distribución binomial. 3l!u 3l!una nass vece veces, s, si se dese desea a evit evitar ar el tedi tedios oso o trab traba* a*o o de calc calcul ular ar las las distribuciones binomiales, se puede usar a cambio la de %oisson, pero debe cumplir con ciertas condiciones como " nA:9 pAg9.9= En los casos en que se satisfacen tales condiciones, podemos sustituir la media de la distribución binomial en lu!ar de la media de la distribución de %oisson de modo que la fórmula quedaría así" %0x1 A 0np1 4 / e8np x
6.,., /RAFICA
6.6 IPER/EO3ETRICA (os experimentos experimentos que tienen tienen este tipo de distribución distribución tienen las si!uientes si!uientes características" a1 3l realiza realizarr un experi experimen mento to con este tipo tipo de distri distribuci bución, ón, se esperan esperan dos tipos de resultados. b1 (as probabi probabilid lidade adess asociadas asociadas a cada uno de los result resultados ados no son constantes. c1 Cada Cada ensayo ensayo o repetici repetición ón del experim experiment ento o no es indepen independien diente te de los demás. d1 El n&mero n&mero de repetic repeticiones iones del experime experimento nto 0n1 es constante.
6.6.1 PROPIEDADES- 3EDIA 4ARIAN>A Y DES4IACI5N ESTANDAR E*emplo" En una urna urna o reci recipi pien ente te hay un total total de N ob*etos, entre los cuales hay una cant cantid idad ad a de ob*etos ob*etos que son defectuo defectuosos sos,, si se selecci selecciona onan n de esta urna n ob*eto ob*etoss al azar, y sin reemplaz reemplazo, o, Mcuál es la probabili probabilidad dad de obtene obtenerr x ob*etos defectuososN
olución" (ue!o)
p( x , n ) =
a
C x * N a C n −
N
x
−
C n
donde" p0 x ob*etos defectuosos de entre n seleccionados x ,n1 A probabilidad de obtener x ob*etos a
C x * N − a C n− x =
muestras de n ob*etos en donde hay x que que son defectuosos y n6x
buenos C n = δ =
todas las muestras posibles de seleccionar de n ob*etos tomadas de entre N ob*etos en total A espacio muestral N
Considerando que en la urna hay un total de 59 ob*etos, ; de los cuales son defectuosos, si de seleccionan < ob*etos al azar, Mcuál es la probabilidad de que : sean defectuososN olución" 6 A 59 ob*etos en total a A ; ob*etos defectuosos n A < ob*etos seleccionados en muestra x A : ob*etos defectuosos deseados en la muestra 3! p( x = 2 , n = 4 ) =
3
C 2*10 − 3 C 4 − 2 10
=
3
C 2* 7 C 2
C 4
10
C 4
=
*
7!
( 3 − 2 )!2! ( 7 − 2 )!2! = 10! ( 10 − 4 )!4!
3! =
*
7!
1! 2! 5! 2! 10! 6!4!
donde"
3 x 2 x1! =
*
7 x 6 x5!
1! 2! 5!2! 10 x9 x8 x 7 x 6! 6! 4!
3 x 2 x 7 x 6 =
10 x 9 x8 x 7
*
4! 2! 2!
=
3 x 2 x7 x6 10 x9 x8 x 7
=
probabilidad asociada a cada muestra de < ob*etos que se seleccionaron, con lo que se demuestra que las probabilidades no son constantes 4! 2!2!
=
formas o maneras de obtener : ob*etos defectuosos entre los < seleccionados A muestras de < ob*etos entre los que : son defectuosos Como se observa en el desarrollo de la solución del problema, la pretensión es demostrar que las probabilidades asociadas a cada uno de los resultados no son constantes. (ue!o la probabilidad de obtener : ob*etos defectuosos entre los < seleccionados al azar sería"
=
3 x 2 x7 x 6 10 x9 x8 x7
*
4!
252
2!2!
=
5040
*
24 4
6048 =
20160
=
0.30
E9e)'l+s5. %ara evitar que lo descubran en la aduana, un via*ero ha colocado H tabletas de narcótico en una botella que contiene > píldoras de vitamina que son similares en apariencia. i el oficial de la aduana selecciona ; tabletas aleatoriamente para analizarlas, a1 MCuál es la probabilidad de que el via*ero sea arrestado por posesión de narcóticosN, b1 MCuál es la probabilidad de que no sea arrestado por posesión de narcóticosN.
olución" a1 6 A >@H A5= total de tabletas a A H tabletas de narcótico n A ; tabletas seleccionadas x A 9, 5, :, o ; tabletas de narcótico A variable que nos indica el n&mero de tabletas de narcótico que se puede encontrar al seleccionar las ; tabletas p0via*ero sea arrestado por posesión de narcóticos1 A p0de que entre las ; tabletas seleccionadas haya 5 o más tabletas de narcótico1 =
p( x
=
1 ,2ó3tabletas ; n
=
3 )
=
6
C 1* 9 C 2 C 3 15
+
6
C 2* 9 C 1 C 3 15
+
6
C 3* 9 C 0 C 3 15
=
=
( 6 )( 36 ) 455
+
( 15 )( 9 ) 455
+
( 20 )( 1 ) 455
=
216 + 135 + 20 455
371 =
455
=
0.81538
otra forma de resolver) p0el via*ero sea arrestado por posesión de narcóticos1 A 5 p0de que entre las tabletas seleccionadas no haya una sola de narcótico1 =
1 − p( x
=
0; n
3 )
=
= 1−
6
C 0* 9 C 3 15
=
1−
( 1 )( 84 ) 455
= −0
.184615
=
C 3
=
0.815385
b1 p0no sea arrestado por posesión de narcóticos1 =
p( x
=
=
0; n
( 1 )( 84 ) 455
=
=
3 )
=
6
C 0* 9 C 3 C 3 15
=
0.184615
:. +e un lote de 59 proyectiles, < se seleccionan al azar y se disparan. i el lote contiene ; proyectiles defectuosos que no explotarán, Mcuál es la probabilidad de que , a1 los < explotenN, b1 al menos : no explotenN olución" a1 6 A 59 proyectiles en total a A I proyectiles que explotan n A < proyectiles seleccionados x A 9, 5, :, ; o < proyectiles que explotan A variable que nos define el n&mero de proyectiles que explotan entre la muestra que se dispara p( x
=
4; n
=
4 )
=
7
C 4* 3C 0 C 4 10
=
( 35 )( 1 ) 210
35 =
210
=
0.16667
b1 6 A 59 proyectiles en total a A ; proyectiles que no explotan n A < proyectiles seleccionados x A 9, 5, : o ; proyectiles que no explotan p0al menos : no exploten1 A p0 : o más proyectiles no exploten1 A p0x A : o ;) nA<1 A
=
3
C 2* 7 C 2 +3 C 3* 7 C 1 C 4 10
=
( 3 )( 21 ) + ( 1 )( 7 ) 210
=
63 + 7 210
70 =
210
=
0.333333
;. a1 MCuál es la probabilidad de que una mesera se reh&se a servir bebidas alcohólicas &nicamente a dos menores de edad si verifica aleatoriamente solo = identificaciones de entre > estudiantes, de los cuales < no tienen la edad suficienteN, b1 MCual es la probabilidad de que como máximo : de las identificaciones pertenezcan a menores de edadN olución" a1 6 A > total de estudiantes a A < estudiantes menores de edad n A = identificaciones seleccionadas x A variable que nos define el n&mero de identificaciones que pertenecen a personas menores de edad x A 9, 5, :, ; o < identificaciones de personas menores de edad p( x
=
2 , n
=
5 )
4
C 2 * 5 C 3
=
=
C 5 9
( 3 )( 10 ) 126
=
0.238095
6 A > total de estudiantes a A < estudiantes menores de edad n A = identificaciones seleccionadas x A variable que nos define el n&mero de identificaciones que pertenecen a personas menores de edad x A 9, 5, :, ; o < identificaciones de personas menores de edad
7G
p( x
=
0 ,1 ,2; n
=
5 )
=
4
C 0* 5 C 5 + 4 C 1* 5 C 4 + 4 C 2* 5 C 3 C 5 9
=
1 + 20 + 60 126
81 =
126
=
=
( 1 )( 1 ) + ( 4 )( 5 ) + ( 6 )( 10 ) 126
=
0.64286
6.6., /RAFICA 6.: NOR3AL En otras ocasiones, al considerar distribuciones binomiales, tipo $0n,p1, para un mismo valor de p y valores de n cada vez mayores, se ve que sus polí!onos de frecuencias se aproximan a una curva en -forma de campana-.
6.:.1 PROPIEDADES- 3EDIA 4ARIAN>A Y DES4IACI5N ESTANDAR
DISTRIBUCI5N NOR3AL + !a)'a%a de /aussLa'la!e En resumen, la importancia de la distribución normal se debe principalmente a que hay muchas variables asociadas a fenómenos naturales que si!uen el modelo de la normal /aracteres morfológicos de individuos 0personas, animales, plantas,...1 de
una especie, p.e*m. tallas, pesos, enver!aduras, diámetros, perímetros,... /aracteres fisiológicos, por e*emplo" efecto de una misma dosis de un
fármaco, o de una misma cantidad de abono. /aracteres sociológicos, por e*emplo" consumo de cierto producto por un
mismo !rupo de individuos, puntuaciones de examen. /aracteres psicológicos, por e*emplo" cociente intelectual, !rado de
adaptación a un medio,... )rrores cometidos al medir ciertas ma!nitudes. 7alores estadísticos muestrales, por e*emplo " la media. tras distribuciones como la binomial o la de %oisson son aproximaciones
normales, ... Q en !eneral cualquier característica que se obten!a como suma de muchos factores.
FUNCI5N DE DENSIDAD Empleando cálculos bastante laboriosos, puede demostrarse que el modelo de la #u%!$% de de%sdad que corresponde a tales distribuciones viene dado por la fórmula
(a distribución normal queda definida por dos 'a&*)et&+s, su media y su desviación típica y la representamos así
FUNCI5N DE DISTRIBUCI5N %uede tomar cualquier valor 08 \, @ \1 on más probables los valores cercanos a uno central que llamamos media
Conforme nos separamos de ese valor , la probabilidad va decreciendo de i!ual forma a derecha e izquierda 0es simétrica1. Conforme nos separamos de ese valor , la probabilidad va decreciendo de forma más o menos rápida dependiendo de un parámetro , que es la desviación típica.
TIPIFICACI5N
%or tanto su función de densidad es
y su función de distribución es
siendo la representación !ráfica de esta función
a la variable se la denomina variable tipificada de X , y a la curva de su función de densidad curva normal tipificada.
Ca&a!te&íst!a de la dst&7u!$% %+&)al t'#!ada &edu!da est*%da&G • • • • •
6o depende de nin!&n parámetro u media es 9, su varianza es 5 y su desviación típica es 5. (a curva f0x1 es simétrica respecto del e*e Q iene un máximo en este e*e iene dos puntos de inflexión en z A5 y z A 85
6.:., /RAFICA
FUNCION DE DENSIDAD
Representación gráfica de esta función de densidad
FUNCION DE DISTRIBUCI5N 0x1 es el área sombreada de esta !ráfica
TIPIFICACI5N
3 la variable se la denomina variable tipificada de X , y a la curva de su función de densidad curva normal tipificada.
6.= APROI3ACION DE LO NOR3AL A LA BINO3IAL
A'&+)a!$% de la dst&7u!$% 7%+)al '+& la %+&)al Jna dstribución binomial -0n*p1 se puede aproximar por una distribución normal, siempre que n sea !rande y p no esté muy próxima a 8 o a 3. (a aproximación consiste en utilizar una distribución normal con la misma media y desviación típica que la distribución binomial. En la practica se utiliza la aproximación cuando "
En cuyo caso "
Q tipificando se obtiene la normal estándar correspondiente"
6.=.1 PROPIEDADES- 3EDIA 4ARIAN>A Y DES4IACI5N ESTANDAR A'&+)a!$% de la B%+)al '+& la N+&)al Te+&e)a de De Moivre) +emostró que ba*o determinadas condiciones 0para n !rande y tanto p como # no estén próximos a cero1 la distribución $inomial $0n, p1 se puede aproximar mediante una distribución normal
+ebemos tener en cuenta que cuanto mayor sea el valor de n, y cuanto más próximo sea p a 9.=, tanto me*or será la aproximación realizada. Es decir, basta con que se verifique
!racias a esta aproximación es fácil hallar probabilidades binomiales, que para valores !randes de n resulten muy laboriosos de calcular. 7ay que tener en cuenta que para realizar correctamente esta transformación de una variable discreta 0binomial1 en una variable continua 0normal1 es necesario hacer una corrección de continuidad.
6.=., /RAFICA A'&+)a!$% de la dst&7u!$% 7%+)al '+& la %+&)al Kamos a representar en un sistema de referencia distribuciones binomiales para distintos valores de n y pA9,;.
ueremos aproximar estas distribuciones a una distribución normal estándar "
e puede apreciar en los !ráficos anteriores como a medida que aumenta n me*ora el parecido de las !ráficas de barras de las distribuciones binomiales 0discretas1 a la !ráfica de la distribución normal estándar 0continua1, pero con el inconveniente de que se produce un desplazamiento hacia la derecha de la distribución binomial a medida que aumenta n. Este inconveniente se evita, corri!iendo la variable aleatoria, j , restando la media 0para corre!ir el desplazamiento1 y dividiendo por la desviación típica0para a*ustar la dispersión1 "
3 la nueva variable, x j le asi!namos b0n,p,*1. b0n,p,*1. (a representac representación, ión, para el caso, n A :I9 y pA9,; , del dia!rama de barras de la binomial corre!ida y de la función de densidad de la distribución normal estándar es "
Cuando n aumenta, aumenta, la lon!itud lon!itud de las barras disminuye, disminuye, cosa ló!ica, porque la suma de las lon!itudes lon!itudes de todas las barras es 5 0función 0función de probabilida probabilidad d definida sobre una variable aleatoria discreta1 ) mientras que el área ba*o la función de densidad 0definida sobre una variable aleatoria continua1 de la distribución normal estandar, también es 5. %ara a*ustar ambas funciones, tendríamos que conse!uir que la suma de las áreas de los rectán!ulos que forman el dia!rama de barras fuera 5. Como la distancia entre las barras barras es constante y la suma de las alturas alturas de todas las barras es 5, el área ba*o los rectán!ulos del dia!rama de barras es i!ual a la distancia entre barras consecutivas.
:.1 DEFINICION DE 3UESTREO C+%!e't+ de )uest&e+
El muestreo es una herramienta de la investi!ación científica. u función básica es determinar que parte de una realidad en estudio 0población o universo1 debe examinarse con la finalidad de hacer inferencias sobre dicha población. El error que se comete debido a hecho de que se obtienen conclusiones sobre cierta realidad a partir de la observación de sólo una parte de ella, se denomina error de muestreo. btener una muestra adecuada si!nifica lo!rar una versión simplificada de la población, que reproduzca de al!&n modo sus ras!os básicos.
:.1.1 TIPOS DE 3UESTREOS ESTRATIFICADO Y CON/LO3ERADO
ALEATORIO
SISTE3ATI>ADOS
3uest&e+ aleat+&+ s)'le El procedimiento empleado es el si!uiente" 51 e asi!na asi!na un n&mero n&mero a cada indivi individuo duo de la la población. población.
:1 3 través través de al!&n medio medio mecáni mecánico co 0bolas 0bolas dentro dentro de una bolsa, bolsa, tablas tablas de n&meros aleatorios, n&meros aleatorios !enerados con una calculadora u orde ordena nado dor, r, etc. etc.11 se eli! eli!en en tant tantos os su*e su*eto toss como como sea sea nece necesa sari rio o para para completar el tama'o de muestra requerido. Este procedimiento, atractivo por su simpleza, tiene poca o nula utilidad práctica cuando la población que estamos mane*ando es muy !rande. Empeza Empezarem remos os defini definiend endo o Población, como un con*unto de individuos que se pueden identificar por separado. e puede pensar en una población concreta que realmente realmente existe, como en una conceptual conceptual que no exista exista ni que existirá existirá *amás. En ambos ambos casos, casos, el interé interéss se centra centrará rá casi casi exclusi exclusivam vament ente e en las poblac poblacion iones es n&meros. Jna población puede ser discreta o continua, dependiendo de que el con*unto de n&meros referidos sea discreto o continuo. Jna población es discreta si consta de un n&mero finito o fi*o de elementos, medidas u observaciones. %or e*emplo los pesos netos de :9 latas de at&n. 3 diferencia de las poblaciones discretas, las poblaciones continuas contienen una infinidad de elementos. Este es el caso de cuando observamos una variable continua y hay una infinidad de resultados distintos. ambién es el caso de las alturas de los estudiantes de la Jniversidad. Jn método para obtener una muestra sencilla aleatoria de una población es el si!uiente" el empleo de una tabla de n&meros aleatorios. Estas tablas son listas de cifras del 9 al >, colocados de tal manera que si se eli!e al azar una posición
cualquiera de la tabla, cada dí!ito tiene una posibilidad i!ual de aparecer en dicha posición. Es fácil seleccionar una muestra al azar de un con*unto de n&meros, empleando estas tablas como se muestra en el si!uiente e*emplo" bte btene nerr una una mues muestr tra a senc sencil illa la alea aleato tori ria a de tama tama9o 9o : de una una clas clase e de ;8 estudiantes. ,uponer #ue los estudiantes estudiantes est(n numerados del 3 al ;8 en la listad de la clase.
olución " vamos a una tabla de n&meros aleatorios, y esco!emos un punto de comienzo. Entonces leemos a lo lar!o de la fila desde este punto, tomando las cifras por pare*as 0o de una columna de dos cifras hacia aba*o1, obteniendo los n&meros así"
1, =;, ,=, I;, <>, ?:, ;=, 1=, 1, ;:, >I, K En la serie ele!imos ele!imos sólo los n&meros comprendidos comprendidos entre el 5 y el ;9, i!norando i!norando los otros //// %ara ver la idea de muestreo aleatorio en una población finita de tama'o 6, primero veamos cuantas muestras distintas se pueden tomar de tama'o n. El n&mero de muestras distintas es
%or e*emplo si 6A5: y nA :
muestras distintas. Con base en el resultado de que hay
muestras distintas de tama'o n de una población finita de tama'o 6, podemos defi defini nirr como como muestr muestra a aleato aleatoria ria o muestr muestra a aleato aleatoria ria simple simple de una población finita" <=na muestra muestra de tama9o n de una población población finita finita de tama9o N es una variable variable aleatoria si se selecciona de manera tal #ue cada una de las
muestras posibles tienen la misma probabilidad
de ser seleccionada. %or e*emplo si una población consistente en lo 6A = elementos a*e*i* o* u 0que podrían ser los in!resos anuales de cinco personas, los pesos de = vacas,.....1 hay
muestras posibles de tama'o n A ; . estas constan de los elementos"
aei
aeo
aeu
aio
aiu
aou
eio
eiu
eou
iou
si seleccionamos una de esas muestras de forma que esta muestra ten!a probabilidad 559 de ser ele!ida, decimos que dicha muestra es aleatoria. En la práctica el describir todas las posibles muestras seria complicado si 6 y n son !randes. %or e*emplo si n A < y 6 A :99 tendríamos H<,H?<,>=9 muestras distintas. %or suerte podemos realizar una muestra aleatoria, sin necesidad de describirlas todas. $asta con numerar los 6 elementos de la población y retirar una a una hasta completar los n8 elementos de la muestra. Este procedimiento también da una probabilidad de
de ser seleccionada la muestra por los que sería aleatoria. 3hora bien si la población es infinita" diremos que" =na muestra de tama9o n de una población infinita es aleatoria si consta de valores de variables aleatorias independientes #ue tienen la misma distribución.
%or e*emplo si lanzamos un dado 5: veces y obtenemos :, =, =, ;, ;, ;, =, 5, H, 5,<, 5. Estos n&meros constituyen una variable aleatoria si son valores aleatoria
independientes que tienen la misma distribución de probabilidad f0x1 A 5H para xA 5,:,;,<,=,H
3uest&e+ aleat+&+ sste)*t!+ Este procedimiento exi!e, como el anterior, numerar todos los elementos de la población, pero en lu!ar de extraer n n&meros aleatorios sólo se extrae uno. e parte de ese n&mero aleatorio i, que es un n&mero ele!ido al azar, y los elementos que inte!ran la muestra son los que ocupa los lu!ares i, i@U, i@:U, i@;U,...,i@0n851U, es decir se toman los individuos de U en U, siendo U el resultado de dividir el tama'o de la población entre el tama'o de la muestra" UA 6n. El n&mero i que empleamos como punto de partida será un n&mero al azar entre 5 y U. El ries!o este tipo de muestreo está en los casos en que se dan periodicidades en la población ya que al ele!ir a los miembros de la muestra con una periodicidad constante 0U1 podemos introducir una homo!eneidad que no se da en la población. Lma!inemos que estamos seleccionando una muestra sobre listas de 59 individuos en los que los = primeros son varones y los = <imos mu*eres, si empleamos un muestreo aleatorio sistemático con UA59 siempre seleccionaríamos o sólo hombres o sólo mu*eres, no podría haber una representación de los dos sexos.
3uest&e+ aleat+&+ est&at#!ad+ rata de obviar las dificultades que presentan los anteriores ya que simplifican los procesos y suelen reducir el error muestral para un tama'o dado de la muestra. Consiste en considerar cate!orías típicas diferentes entre sí 0estratos1 que poseen !ran homo!eneidad respecto a al!una característica 0se puede estratificar, por e*emplo, se!&n la profesión, el municipio de residencia, el sexo, el estado civil, etc.1. (o que se pretende con este tipo de muestreo es ase!urarse de que todos los estratos de interés estarán representados adecuadamente en la muestra. Cada estrato funciona independientemente, pudiendo aplicarse dentro de ellos el muestreo aleatorio simple o el estratificado para ele!ir los elementos concretos que formarán parte de la muestra. En ocasiones las dificultades que plantean son demasiado !randes, pues exi!e un conocimiento detallado de la población. 0ama'o !eo!ráfico, sexos, edades,...1. (a distribución de la muestra en función de los diferentes estratos se denomina afi*ación, y puede ser de diferentes tipos"
3fi*ación imple" 3 cada estrato le corresponde i!ual n&mero de elementos muéstrales. 3fi*ación %roporcional" (a distribución se hace de acuerdo con el peso 0tama'o1 de la población en cada estrato. 3fi*ación ptima" e tiene en cuenta la previsible dispersión de los resultados, de modo que se considera la proporción y la desviación típica. iene poca aplicación ya que no se suele conocer la desviación. i tenemos información a cerca de una población 0es decir de su composición1 y esta es importante para nuestra investi!ación, podemos me*orar el muestreo aleatorio por medio de la estratificación. Este es un procedimiento que consiste en estratificar o dividir la población en un numero de subpoblaciones o estratos. Q seleccionamos de cada estrato una muestra aleatoria. Este procedimiento se conoce como muestreo aleatorio 0simple1 estratificado. upon!amos una población de tama'o 6 que se divide en U estratos cuyos tama'os son" 65, 6:, .....,6U 065 @6: @.....@6U A61 %ara obtener una distribución proporcional hemos de tener en cuenta que "
de donde se obtiene que
para yA5,:,;,<,.... U donde nA tama'o de la muestra. Esta seria una distribución proporcional, pero hay otras formas de distribuir porciones de una muestra entre los distintos estratos, que serían" 8 +istribución óptima. 8 Estratificación cruzada. 8 #uestreo por cuotas.
Dst&7u!$% $'t)aEn la +istribución optima, no sólo se mane*a el tama'o del estrato, como en la distribución proporcional, sino que también se mane*a la variabilidad 0o cualquier otra característica pertinente1 del estrato. (a idea de la +istribución óptima, trata de *u!ar no sólo con el tama'o del estrato, sino que también pretende *u!ar con la variabilidad del mismo, de forma que parece ló!ico que los estratos de mayor variabilidad le correspondan muestras mayores. i 5, :, ;, ...., U son las desviaciones típicas de los U8estratos podemos explicar tanto los tama'os de los estratos, así como su variabilidad.
de donde se obtienen los tama'os muestrales de la distribución óptima o +istribución de 6eyman 0su inventor1 que se obtienen por la fórmula"
para yA5,:,...., U nA n5@n:@.......@nU
Est&at#!a!$% !&u;ada(a estratificación no se limita a una variable &nica de clasificación o una característica y las poblaciones a menudo se estratifican atendiendo a diversos criterios de ordenación o clasificación. 3sí por e*emplo si queremos realizar un estudio entre los alumnos de distintos centros de EE. ##. podríamos estratificar la muestra atendiendo al nivel de estudios, al sexo, a la especialidad,.... 3sí parte de la muestra se dedicaría a los alumnos de sexo femenino del 5 de $achillerato técnico, otra parte a los alumnos de sexo masculino de 5 $achillerato artístico, y así sucesivamente. 3sí y hasta cierto punto una estratificación de este tipo, llamada estratificación cruzada, incrementará la precisión de las estimaciones y otras !eneralizaciones que se usan com&nmente en el muestreo de opinión y las investi!aciones de mercado.
3uest&e+ '+& !u+tasEn el muestreo estratificado, el costo de la toma de muestras aleatorias de los estratos individuales es tan alto, que a los encuestadores sólo se les dan cuotas que deben cubrir de los diferentes estratos, con al!una restricciones 0si no es que nin!una1 %or e*emplo si se quiere hacer un sondeo sobre la me*ora de los servicios de salud, por e*emplo se le pide que encueste a 59 mu*eres de entre ;= y
<= a'os que sean asalariadas, :9 hombres de entre ;9 y <= a'os que vivan en pisos de ; o < habitaciones, a ; hombres de mas de H9 a'os que estén *ubilados.... esto es lo que se determina un muestreo por cuotas y es relativamente económico, lo &nico es que las muestras resultantes no cumplen las características esenciales de las muestras aleatorias. %or tanto estos muestreos, por cuotas en esencia son muestras de opinión, pero no son válidos para realizar un estudio estadístico formal.
3uest&e+ aleat+&+ '+& !+%8l+)e&ad+s (os métodos presentados hasta ahora están pensados para seleccionar directamente los elementos de la población, es decir, que las unidades muéstrales son los elementos de la población. En el muestreo por con!lomerados la unidad muestral es un !rupo de elementos de la población que forman una unidad, a la que llamamos con!lomerado. (as unidades hospitalarias, los departamentos universitarios, una ca*a de determinado producto, etc., son con!lomerados naturales. En otras ocasiones se pueden utilizar con!lomerados no naturales como, por e*emplo, las urnas electorales. Cuando los con!lomerados son áreas !eo!ráficas suele hablarse de -muestreo por áreas-. El muestreo por con!lomerados consiste en seleccionar aleatoriamente un cierto numero de con!lomerados 0el necesario para alcanzar el tama'o muestral establecido1 y en investi!ar después todos los elementos pertenecientes a los con!lomerados ele!idos. %ara ilustrar esta clase de muestreo, supon!amos que una !ran empresa quiere estudiar los patrones variables de los !astos familiares de una ciudad como $uenos 3ires. 3l intentar elaborar los pro!ramas de !astos de una muestra de 5:99 familias, nos encontramos con la dificultad de realizar un muestreo aleatorio simple, 0es complicado tener una lista actualizada de todos los habitantes de una ciudad1. Jna manera de tomar una muestra en esta situación es dividir el área total 0$uenos 3ires en este caso1 en áreas más peque'as que no se solapen 0%or e*emplo códi!o postal, barrios, manzanas etc..1 En este caso seleccionaríamos al!unas áreas al azar y todas las familias 0o muestras de éstas1 que residen en estos códi!os postales, barrios o manzanas, constituirían la muestra definitiva. En este tipo de muestreo, llamado )uest&e+ '+& !+%8l+)e&ad+s , se divide la población total en un n&mero determinado de subdivisiones relativamente peque'as y se seleccionan al azar al!unas de estas subdivisiones o con!lomerados, para incluirlos en la muestra total. i estos con!lomerados coinciden con áreas !eo!ráficas, este muestreo se llama también )uest&e+ '+& *&eas.
3unque las estimaciones basadas en el muestreo por con!lomerados, por lo !eneral no son tan fiables como las obtenidas por muestreos aleatorios simples del mismo tama'o, son más baratas. Kolviendo al e*emplo anterior, es mucho más económico visitar a familias que viven en el mismo vecindario, que ir visitando a familias que viven en un área muy extensa. En la práctica se pueden combinar el uso de varios de los métodos de muestreo que hemos analizados para un mismo estudio.
4e%ta9as e %!+%(e%e%tes de l+s dst%t+s t'+s de )uest&e+ '&+7a7líst!+
C3T3CETLLC3
KE63O3 •
•
Aleat+&+ s)'le
e selecciona una muestra de tama'o n de una población de 6 unidades, cada elemento tiene una probabilidad de inclusión i!ual y conocida de n6.
Sste)*t!+
Conse!uir un listado de los 6 elementos de la población +eterminar muestral n.
•
•
•
tama'o
+efinir un intervalo UA 6n. Ele!ir un n&mero aleatorio, r, entre 5 y U
•
L6C6KE6LE6E
encillo y de fácil comprensión. Tequiere que se Cálculo rápido posea de antemano de medias y un listado completo varianzas. de toda la población. Cuando e basa en la se traba*a con teoría muestras peque'as estadística, y es posible que no por tanto represente a la existen población paquetes adecuadamente. informáticos para analizar los datos ácil de aplicar. i la constante de está 6o siempre es muestreo necesario tener asociada con el de un listado de fenómeno las toda la interés, estimaciones población. obtenidas a partir la muestra Cuando la de población está pueden contener ses!o de selección ordenada si!uiendo una
0rA arranque aleatorio1. eleccionar los elementos de la lista. •
Est&at#!ad+
En ciertas ocasiones resultará conveniente estratificar la muestra se!&n ciertas variables de interés. %ara ello debemos conocer la composición estratificada de la población ob*etivo a hacer un muestreo. Jna vez calculado el tama'o muestral apropiado, este se reparte de manera proporcional entre los distintos estratos definidos en la población usando una simple re!la de tres.
•
e obtienen estimaciones más precisa
•
u ob*etivo es conse!uir una muestra lo más seme*ante posible a la población en lo que a la o las variables estratificadoras se refiere. Es muy eficiente cuando la población es muy !rande y dispersa.
•
e realizan varias fases de muestreo sucesivas 0polietápico1 necesidad de C+%8l+)e&ad+ (a listados de las unidades s de una etapa se limita a aquellas unidades de muestreo seleccionadas en la etapa anterior.
tendencia conocida, ase!ura una cobertura de unidades de todos los tipos. iende a ase!urar que la muestra represente adecuadamente a la población en función de unas variables seleccionadas.
•
6o es preciso tener un listado de toda la población, sólo de las unidades primarias de muestreo.
•
e ha de conocer la distribución en la población de las variables utilizadas para la estratificació n.
•
El error estándar es mayor que en el muestreo aleatorio simple o estratificado.
•
El cálculo del error estándar es comple*o.
UNIDAD : 3UESTREO Y ESTI3ACIONES :., CONCEPTO DE DISTRIBUCI5N DE 3UESTREO DE LA 3EDIA :.,.1 DISTRIBUCION 3UESTRAL DE LA 3EDIA CON DES4IACI5N ESTANDAR CONOCIDA Y DESCONOCIDAD i tenemos una muestra aleatoria de una población 60, 1, se sabe 0eorema del límite central1 que la fdp de la media muestral es también normal con media y varianza :n. Esto es exacto para poblaciones normales y aproximado 0buena aproximación con n;91 para poblaciones cualesquiera. Es decir típico, o error estándar de la media.
es el error
MCómo usamos esto en nuestro problema de estimaciónN 5 problema" 6o hay tablas para cualquier normal, sólo para la normal A9 y A5 0la llamada z1) pero haciendo la transformación 0llamada tipificación1
una normal de media y desviación se transforma en una z. (lamando z al valor de una variable normal tipificada que de*a a su derecha un área ba*o la curva de , es decir, que la probabilidad que la variable sea mayor que ese valor es 0estos son los valores que ofrece la tabla de la normal1
podremos construir intervalos de la forma
para los que la probabilidad es 5 8 .
eniendo en cuenta la simetría de la normal y manipulando al!ebraícamente
que también se puede escribir
o, haciendo énfasis en que
es el error estándar de la media,
Tecuérdese que la probabilidad de que esté en este intervalo es 5 8 . 3 un intervalo de este tipo se le denomina intervalo de confianza con un nivel de confianza del 59905 8 1^, o nivel de si!nificación de 599^. El nivel de confianza habitual es el >=^, en cuyo caso A9,9= y z :A5,>H. 3l valor estimación puntual y se dice que
se le denomina
es un estimador de .
E*emplo" i de una población normal con varianza < se extrae una muestra aleatoria de tama'o :9 en la que se calcula se puede decir que tiene una probabilidad de 9,>= de estar comprendida en el intervalo
que sería el intervalo de confianza al >=^ para
En !eneral esto es poco &til, en los casos en que no se conoce tampoco suele conocerse :) en el caso más realista de : desconocida los intervalos de confianza se construyen con la t de tudent 0otra fdp continua para la que hay tablas1 en lu!ar de la z.
o, haciendo énfasis en que
es el error estándar estimado de la media,
Este manera de construir los intervalos de confianza sólo es válido si la variable es normal. Cuando n es !rande 0;91 se puede sustituir t por z sin mucho error.
:.,., DISTRIBUCION 3UESTRAL DE LA DIFERENCIA ENTRE DOS 3EDIAS CON DES4IACI5N ESTANDAR CONOCIDAD Y DESCONOCIDA Dst&7u!$% 3uest&al de D#e&e%!a de 3edas upon!a que se tienen dos poblaciones distintas, la primera con media 5 y desviación estándar 5, y la se!unda con media : y desviación estándar :. #ás a&n, se eli!e una muestra aleatoria de tama'o n 5 de la primera población y una muestra independiente aleatoria de tama'o n: de la se!unda población) se calcula la media muestral para cada muestra y la diferencia entre dichas medias. (a colección de todas esas diferencias se llama distribución muestral de las diferencias entre medias o la distribución muestral del estadístico
(a distribución es aproximadamente normal para n5 ; 9 y n: ;9. i las poblaciones son normales, entonces la distribución muestral de medias es normal sin importar los tama'os de las muestras. E*emplo" En un estudio para comparar los pesos promedio de ni'os y ni'as de sexto !rado en una escuela primaria se usará una muestra aleatoria de :9 ni'os y otra de := ni'as. e sabe que tanto para ni'os como para ni'as los pesos si!uen una distribución normal. El promedio de los pesos de todos los ni'os de sexto !rado de esa escuela es de 599 libras y su desviación estándar es de 5<.5<:, mientras que el promedio de los pesos de todas las ni'as del sexto !rado de esa escuela es de ?= libras y su desviación estándar es de 5:.:
+atos" 5
A 599 libras
A ?= libras
:
5
A 5<.5<: libras
:
A 5:.:
n5 A :9 ni'os n: A := ni'as %or lo tanto, la probabilidad de que el promedio de los pesos de la muestra de ni'os sea al menos :9 libras más !rande que el de la muestra de las ni'as es 9.59=H.
E*emplo" Jno de los principales fabricantes de televisores compra los tubos de rayos catódicos a dos compa'ías. (os tubos de la compa'ía 3 tienen una vida media de I.: a'os con una desviación estándar de 9.? a'os, mientras que los de la $ tienen una vida media de H.I a'os con una desviación estándar de 9.I. +etermine la probabilidad de que una muestra aleatoria de ;< tubos de la compa'ía 3 ten!a una vida promedio de al menos un a'o más que la de una muestra aleatoria de <9 tubos de la compa'ía $. ,olución>
+atos" A I.: a'os
3
A H.I a'os
$
3
A 9.? a'os
$
A 9.I a'os
n3 A ;< tubos n$ A <9 tubos
E*emplo" e prueba el rendimiento en Um( de : tipos de !asolina, encontrándose una desviación estándar de 5.:;Um( para la primera !asolina y una desviación estándar de 5.;IUm( para la se!unda !asolina) se prueba la primera !asolina en ;= autos y la se!unda en <: autos.
a. MCuál es la probabilidad de que la primera !asolina de un rendimiento promedio mayor de 9.<=Um( que la se!unda !asolinaN b. MCuál es la probabilidad de que la diferencia en rendimientos promedio se encuentre entre 9.H= y 9.?;Um( a favor de la !asolina 5N. ,olución>
En este e*ercicio no se cuenta con los parámetros de las medias en nin!una de las dos poblaciones, por lo que se supondrán que son i!uales. +atos" 5
A 5.:; Fm(to :
A 5.;I Fm(to
n5 A ;= autos n: A <: autos
(a probabilidad de que la diferencia en rendimientos promedio en las muestras se encuentre entre 9.H= y 9.?; Fm(to a favor de la !asolina 5 es de 9.955I.
:.,.6 DISTRIBUCION 3UESTRAL DE LA PROPORCION Dst&7u!$% )uest&al de P&+'+&!+%es
Existen ocasiones en las cuales no estamos interesados en la media de la muestra, sino que queremos investi!ar la proporción de artículos defectuosos o la proporción de alumnos reprobados en la muestra. (a distribución muestral de proporciones es la adecuada para dar respuesta a estas situaciones. Esta distribución se !enera de i!ual manera que la distribución muestral de medias, a excepción de que al extraer las muestras de la población se calcula el estadístico proporción 0pAxn en donde -x- es el n&mero de éxitos u observaciones de interés y -n- el tama'o de la muestra1 en lu!ar del estadísitico media.
Jna población binomial está estrechamente relacionada con la distribución muestral de proporciones) una población binomial es una colección de éxitos y fracasos, mientras que una distribución muestral de proporciones contiene las posibilidades o proporciones de todos los n&meros posibles de éxitos en un experimento binomial, y como consecuencia de esta relación, las afirmaciones probabilísticas referentes a la proporción muestral pueden evaluarse usando la aproximación normal a la binomial, siempre que np = y n058p1 =. Cualquier evento se puede convertir en una proporción si se divide el n&mero obtenido entre el n&mero de intentos.
/e%e&a!$% de la Dst&7u!$% 3uest&al de P&+'+&!+%es upon!a que se cuenta con un lote de 5: piezas, el cual tiene < artículos defectuosos. e van a seleccionar = artículos al azar de ese lote sin reemplazo. 2enere la distribución muestral de proporciones para el n&mero de piezas defectuosas. Como se puede observar en este e*ercicio la %roporción de artículos defectuosos de esta población es <5:A5;. %or lo que podemos decir que el ;;^ de las piezas de este lote están defectuosas. El n&mero posible de muestras de tama'o = a extraer de una población de 5: elementos es 5:C=AI>:, las cuales se pueden des!losar de la si!uiente manera"
A&tí!ul+s Bue%+s
A&tí!ul+s 3al+s
N)e&+ de P&+'+&!$% )a%e&as e% las de a&tí!ul+s ue se 'uede de#e!tu+s+ +7te%e& la )uest&a
5
<
<=A9.?
?
:
;
;=A9.H
?
;
:
:=A9.<
?
<
5
5=A9.:
?
=
9
9=A9
?C=/
T+tal
C5/
<,
%ara calcular la media de la distribución muestral de proporciones se tendría que hacer la sumatoria de la frecuencia por el valor de la proporción muestral y dividirla entre el n&mero total de muestras. Como podemos observar la media de la distribución muestral de proporciones es i!ual a la %roporción de la población.
P
'
ambién se puede calcular la desviación estándar de la distribución muestral de proporciones" : (a varianza de la distribución binomial es A npq, por lo que la varianza de la : distribución muestral de proporciones es p A0%q1n. i se sustituten los valores en esta fórmula tenemos que , este valor no coincide con el de 9.5H?5, ya que nos falta a!re!ar el factor de corrección para una población finita y un muestreo sin reemplazo"
(a fórmula que se utilizará para el cálculo de probabilidad en una distribución muestral de proporciones está basada en la aproximación de la distribución normal a la binomial . Esta fórmula nos servirá para calcular la probabilidad del comportamiento de la proporción en la muestra. E*emplo" e ha determinado que H9^ de los estudiantes de una universidad !rande fuman ci!arrillos. e toma una muestra aleatoria de ?99 estudiantes. Calcule la probabilidad de que la proporción de la muestra de la !ente que fuma ci!arrillos sea menor que 9.==. olución" Este e*ercicio se puede solucionar por dos métodos. El primero puede ser con la aproximación de la distribución normal a la binomial y el se!undo utilizando la fórmula de la distribución muestral de proporciones. 3proximación de la distribución normal a la binomial" +atos" nA?99 estudiantes pA9.H9 xA 0.==10?991 A <<9 estudiantes p0x <<91 A N #ediaA npA 0?99109.H91A 9
p0x <<91 A 9.995I. Este valor si!nifica que existe una probabilidad del 9.5I^ de que al extraer una muestra de ?99 estudiantes, menos de <<9 fuman ci!arrillos.
Dst&7u!$% 3uest&al de P&+'+&!+%es +atos" nA?99 estudiantes %A9.H9 pA 9.== p0p 9.==1 A N
:.,.: DISTRIBUCION 3UESTRAL DE LA DIFERENCIA DE DOS PROPORCIONES Dst&7u!$% 3uest&al de D#e&e%!a de P&+'+&!+%es #uchas aplicaciones involucran poblaciones de datos cualitativos que deben compararse utilizando proporciones o porcenta*es. 3 continuación se citan al!unos e*emplos"
Educación.8 MEs mayor la proporción de los estudiantes que aprueban matemáticas que las de los que aprueban in!lésN #edicina.8 MEs menor el porcenta*e de los usuarios del medicamento 3 que presentan una reacción adversa que el de los usuarios del fármaco $ que también presentan una reacción de ese tipoN 3dministración.8 M7ay diferencia entre los porcenta*es de hombres y mu*eres en posiciones !erenciales. Ln!eniería.8 MExiste diferencia entre la proporción de artículos defectuosos que !enera la máquina 3 a los que !enera la máquina $N Cuando el muestreo procede de dos poblaciones binomiales y se traba*a con dos proporciones muestrales, la distribución muestral de diferencia de proporciones es aproximadamente normal para tama'os de muestra !rande 0n 5p5 =, n5q5 =,n:p: = y n:q: =1. Entonces p5 y p: tienen distribuciones muestrales aproximadamente normales, así que su diferencia p 58p: también tiene una distribución muestral aproximadamente normal.
E*emplo" (os hombres y mu*eres adultos radicados en una ciudad !rande del norte difieren en sus opiniones sobre la promul!ación de la pena de muerte para personas culpables de asesinato. e cree que el 5:^ de los hombres adultos están a favor de la pena de muerte, mientras que sólo 59^ de las mu*eres adultas lo están. i se pre!unta a dos muestras aleatorias de 599 hombres y 599 mu*eres su opinión sobre la promul!ación de la pena de muerte, determine la probabilidad de que el porcenta*e de hombres a favor sea al menos ;^ mayor que el de las mu*eres. ,olución>
+atos"
%7 A 9.5: %# A 9.59 n7 A 599 n# A 599 p0p78p# 9.9;1 A N e recuerda que se está incluyendo el factor de corrección de 9.= por ser una distribución binomial y se está utilizando la distribución normal.
e concluye que la probabilidad de que el porcenta*e de hombres a favor de la pena de muerte, al menos ;^ mayor que el de mu*eres es de 9.<=H:. E*emplo" Jna encuesta del $oston Colle!e constó de ;:9 traba*adores de #ichi!an que fueron despedidos entre 5>I> y 5>?<, encontró que :9^ habían estado sin traba*o durante por lo menos dos a'os. upón!ase que tuviera que seleccionar otra muestra aleatoria de ;:9 traba*adores de entre todos los empleados despedidos entre 5>I> y 5>?<. MCuál sería la probabilidad de que su porcenta*e muestral de traba*adores sin empleo durante por lo menos dos a'os, difiera del porcenta*e obtenido en la encuesta de $oston Colle!e, en =^ o másN olución" En este e*ercicio se cuenta &nicamente con una población, de la cual se están extrayendo dos muestras y se quiere saber la probabilidad de la diferencia de los
porcenta*es en esas dos muestras, por lo que se debe de utilizar la distribución muestral de proporciones con %5A %:, ya que es una misma población. tra de las situaciones con la cual nos topamos es que desconocemos la proporción de traba*adores despedidos entre 5>I> y 5>?< que estuvieron desempleados por un período de por lo menos dos a'os, sólo se conoce la p5A 9.:9 ya que al tomar una muestra de ;:9 traba*adores se observó esa proporción. En la fórmula de la distribución muestral de proporciones para el cálculo de probabilidad se necesita saber las proporciones de las poblaciones, las cuales en este e*ercicio las desconocemos, por lo que se utilizará el valor de 9.:9 como una estimación puntual de %. En el si!uiente tema se abordará el tema de estimación estadística y se comprenderá el porque estamos utilizando de esa manera el dato. ambién debe de comprenderse la pre!unta que nos hace este problema, Mcuál sería la probabilidad de que su porcenta*e muestral de traba*adores sin empleo durante por lo menos dos a'os, difiera del porcenta*e obtenido en la encuesta de $oston Colle!e, en =^ o másN, la palabra difiera quiere decir que puede existir una diferencia a favor de la muestra uno, o a favor de la muestra dos, por lo que se tendrán que calcular dos áreas en la distribución y al final sumarlas.
+atos" p5 A 9.:9 n5 A ;:9 traba*adores n: A ;:9 traba*adores %5 A %:
(a probabilidad de que su proporcion muestral de traba*adores sin empleo durante por lo menos dos a'os, difiera del porcenta*e obtenido en la encuesta de $oston Colle!e, en 9.9= o más es de 9.5:H9. E*emplo" e sabe que ; de cada H productos fabricados por la máquina 5 son defectuosos y que : de cada = ob*etos fabricados por la máquina : son defectuosos) se toman muestras de 5:9 ob*etos de cada máquina" a. Mcuál es la probabilidad de que la proporción de artículos defectuosos de la máquina : rebase a la máquina 5 en por lo menos 9.59N b. Mcuál es la probabilidad de que la proporción de artículos defectuosos de la máquina 5 rebase a la máquina : en por lo menos 9.5=N ,olución>
+atos" %5 A ;H A 9.= %: A := A 9.< n5 A 5:9 ob*etos n: A 5:9 ob*etos a. p0p:8p5 9.591 A N
tra manera de hacer este e*ercicio es poner %58%:"
(a probabilidad de que exista una diferencia de proporciones de artículos defectuosos de por lo menos 59^ a favor de la máquina : es de 9.9955. b. p0p58p: 9.5=1AN
(a probabilidad de que exista una diferencia de proporciones de artículos defectuosos de por lo menos 5=^ a favor de la máquina 5 es de 9.:;=I.
:.6 TEORE3A DEL LÍ3ITE CENTRAL %ara muestras !randes, se puede obtener una aproximación cercana de la distribución muestral de la media con una distribución normal. eniendo en cuenta que ya sabemos la media y desviación típica de la distribución muestral, podemos decir que"
xAy
para muestras aleatorias infinitas con media y desviación típica y n !rande, entonces"
es un valor de una variable 609,51 Este teorema es muy importante, puesto que *ustifica el uso de los métodos de la curva normal en una !ran cantidad de problemas. se utiliza para poblaciones infinitas y para poblaciones finitas cuando n a pesar de ser !rande representa una porción muy peque'a de la población. Es difícil se'alar con precisión qué tan !rande debe ser n de modo que podamos aplicar el eorema Central del límite, pero a no ser que la distribución sea muy Lnusual, por lo !eneral se considera que n A;9 es lo suficientemente alto. Keamos el mismo e*emplo anterior aplicando el eorema Central del (ímite.
(a probabilidad se obtiene por medio del área marcada de la zona !ris, específicamente por medio del área de la 609,51 entre"
lo que consultando en las tablas da una probabilidad de 9,>=<<. 3sí sustituimos la afirmación de que la probabilidad es Zcomo mínimo 9,I=[ por una aseveración más firme de que la probabilidad es aproximadamente de 9,>= 0 de que la muestra aleatoria de tama'o nAH< de la población de referencia difiera de la de la población menos de = unidades1 ambién se puede usar el teorema Central del límite para poblaciones finitas, pero una descripción precisa de las situaciones en que se puede hacer esto, sería más bien complicada. El uso apropiado más com&n es en el caso en que n es !rande y n6 es peque'a. Este es el caso de la mayoría de las encuestas políticas.
:.:. TIPOS DE ESTI3ACI5N Y SUS CARACTERÍSTICAS ESTI3ACION
El ob*etivo principal de la estadística inferencial es la est)a!$%, esto es que mediante el estudio de una muestra de una población se quiere !eneralizar las conclusiones al total de la misma. Como vimos en la sección anterior, los estadísticos varían mucho dentro de sus distribuciones muéstrales, y mientras menor sea el error estándar de un estadístico, más cercanos serán unos de otros sus valores. Existen dos tipos de estimaciones para parámetros) puntuales y por intervalo. Jna est)a!$% 'u%tual es un &nico valor estadístico y se usa para estimar un parámetro. El estadístico usado se denomina est)ad+& . Jna est)a!$% '+& %te&(al+ es un ran!o, !eneralmente de ancho finito, que se espera que conten!a el parámetro.
Est)a!$% Pu%tual (a inferencia estadística está casi siempre concentrada en obtener al!&n tipo de conclusión acerca de uno o más parámetros 0características poblacionales1. %ara hacerlo, se requiere que un investi!ador obten!a datos muestrales de cada una de las poblaciones en estudio. Entonces, las conclusiones pueden estar basadas en los valores calculados de varias cantidades muestrales . %o e*emplo, representamos con 0parámetro1 el verdadero promedio de resistencia a la ruptura de conexiones de alambres utilizados para unir obleas de semiconductores. %odría tomarse una muestra aleatoria de 59 conexiones para determinar la resistencia a la ruptura de cada una, y la media muestral de la resistencia a la ruptura se podía emplear para sacar una conclusión acerca del valor de . +e forma similar, si es la varianza de la distribución de resistencia a la ruptura, el valor de la varianza muestral s : se podría utilizar pra inferir al!o acerca de
.
Cuando se analizan conceptos !enerales y métodos de inferencia es conveniente tener un símbolo !enérico para el parámetro de interés. e utilizará la letra !rie!a para este propósito. )l objetivo de la estimación puntual es seleccionar sólo un número* basados en datos de la muestra* #ue represente el valor m(s ra"onable de .
Jna muestra aleatoria de ; baterías para calculadora podría presentar duraciones observadas en horas de x5A=.9, x:AH.< y x;A=.>. El valor calculado de la duración media muestral es A =.II, y es razonable considerar =.II como el valor más adecuado de .
Jna est)a!$% 'u%tual de un parámetro es un sólo n&mero que se puede considerar como el valor más razonable de . (a estimación puntual se obtiene al seleccionar una estadística apropiada y calcular su valor a partir de datos de la muestra dada. (a estadística seleccionada se llama est)ad+& 'u%tual de .
El símbolo 0theta sombrero1 suele utilizarse para representar el estimador de y la estimación puntual resultante de una muestra dada. Entonces se lee como -el estimador puntual de es la media muestral -. El enunciado -la estimación puntual de
es =.II- se puede escribir en forma abreviada
.
E*emplo" En el futuro habrá cada vez más interés en desarrollar aleaciones de #! de ba*o costo, para varios procesos de fundición. En consecuencia, es importante contar con métodos prácticos para determinar varias propiedades mecánicas de esas aleaciones. Examine la si!uiente muestra de mediciones del módulo de elasticidad obtenidos de un proceso de fundición a presión" <<.: <;.> <<.I <<.: <<.9 <;.? <<.H <;.5 upon!a que esas observaciones son el resultado de una muestra aleatoria. e desea estimar la varianza poblacional muestral"
. Jn estimador natural es la varianza
En el me*or de los casos, se encontrará un estimador para el cual siempre. in embar!o, es una función de las 4i muestrales, por lo que en sí misma una variable aleatoria. Entonces el estimador preciso sería uno que produzca sólo peque'as diferencias de estimación, de modo que los valores estimados se acerquen al valor verdadero. %ropiedades de un $uen Estimador
I%ses8ad+. e dice que un estimador puntual
es un estimador inses!ado de
si
, para todo valor posible de . En otras palabras, un estimador inses!ado es aquel para el cual la media de la distribución muestral es el parámetro estimado. i se usa la media muestral para estimar la media poblacional , se sabe que la
, por lo tanto la media es un estimador inses!ado.
E#!e%te + !+% (a&a%;a )í%)a. upon!a que 5 y : son dos estimadores inses!ados de . Entonces, aun cuando la distribución de cada estimador esté centrada en el valor verdadero de , las dispersiones de las distribuciones alrededor del valor verdadero pueden ser diferentes. Entre todos los estimadores de que son inses!ados, seleccione al que ten!a varianza mínima. El resultante recibe el nombre de est)ad+& %ses8ad+ !+% (a&a%;a )í%)a 0#KJE, minimum variance unbiased estimator1 de . En otras palabras, la eficiencia se refiere al tama'o de error estándar de la estadística. i comparamos dos estaíisticas de una muestra del mismo tama'o y tratamos de decidir cual de ellas es un estimador mas eficiente, esco!eríamos la estadística que tuviera el menor error estándar, o la menor desviación estándar de la distribución de muestreo. iene sentido pensar que un estimador con un error estándar menor tendrá una mayor oportunidad de producir una estimación mas cercana al parámetro de población que se esta considerando.
Como se puede observar las dos distribuciones tienen un mismo valor en el parámetro sólo que la distribución muestral de medias tiene una menor varianza, por lo que la media se convierte en un estimador eficiente e inses!ado.
C+@e&e%!a. Jna estadística es un estimador coherente de un parámetro de población, si al aumentar el tama'o de la muestra se tiene casi la certeza de que el valor de la estadística se aproxima bastante al valor del parámetro de la población. i un estimador es coherente se vuelve mas confiable si tenemos tama'os de muestras mas !randes. Su#!e%!a. Jn estimador es suficiente si utiliza una cantidad de la información contenida de la muestra que nin!&n otro estimador podría extraer información adicional de la muestra sobre el parámetro de la población que se esta estimando.
Es decir se pretende que al extraer la muestra el estadístico calculado conten!a toda la información de esa muestra. %or e*emplo, cuando se calcula la media de la muestra, se necesitan todos los datos. Cuando se calcula la mediana de una muestra sólo se utiliza a un dato o a dos. Esto es solo el dato o los datos del centro son los que van a representar la muestra. Con esto se deduce que si utilizamos a todos los datos de la muestra como es en el caso de la media, la varianza, desviación estándar, etc) se tendrá un estimador suficiente.
Est)a!$% '+& I%te&(al+s Jn estimado puntual, por ser un sólo n&mero, no proporciona por sí mismo información al!una sobre la precisión y confiabilidad de la estimación. %or e*emplo, ima!ine que se usa el estadístico para calcular un estimado puntual de la resistencia real a la ruptura de toallas de papel de cierta marca, y supon!a que A >;::.I. +ebido a la variabilidad de la muestra, nunca se tendrá el caso de que A . El estimado puntual nada dice sobre lo cercano que esta de . Jna alternativa para reportar un solo valor del parámetro que se esté estimando es calcular e informar todo un intervalo de valores factibles, un estimado de intervalo o intervalo de confian"a 0?/1. Jn intervalo de confianza se calcula siempre seleccionando primero un nivel de confianza, que es una medida de el !rado de fiabilidad en el intervalo. Jn intervalo de confianza con un nivel de confianza de >=^ de la resistencia real promedio a la ruptura podría tener un límite inferior de >5H:.= y uno superior de >. Entonces, en un nivel de confianza de >=^, es posible tener cualquier valor de entre >5H:.= y >. Jn nivel de confianza de >=^ implica que >=^ de todas las muestras daría lu!ar a un intervalo que incluye o cualquier otro parámetro que se esté estimando, y sólo =^ de las muestras producirá un intervalo erróneo. Cuanto mayor sea el nivel de confianza podremos creer que el valor del parámetro que se estima está dentro del intervalo. Jna interpretación correcta de la -confianza de >=^- radica en la interpretación frecuente de probabilidad a lar!o plazo" decir que un evento 3 tiene una probabilidad de 9.>=, es decir que si el experimento donde 3 está definido re realiza una y otra vez, a lar!o plazo 3 ocurrirá >=^ de las veces. %ara este caso el >=^ de los intervalos de confianza calculados contendrán a
.
Esta es una construcción repetida de intervalos de confianza de >=^ y se puede observar que de los 55 intervalos calculados sólo el tercero y el <imo no contienen el valor de . +e acuerdo con esta interpretación, el nivel de confianza de >=^ no es tanto un enunciado sobre cualquier intervalo en particular, más bien se refiere a lo que sucedería si se tuvieran que construir un !ran n&mero de intervalos seme*antes.
E%!+%t&a& ; a 'a&t& de u% %(el de !+%#a%;a Existen varias tablas en las cuales podemos encontrar el valor de z, se!&n sea el área proporcionada por la misma. En esta sección se realizará un e*emplo para encontrar el valor de z utilizando tres tablas diferentes. E*emplo" Encuentre el valor de z para un nivel de confianza del >=^. ,olución 3>
e utilizará la tabla que tiene el área ba*o la curva de 8 !ráficamente sería"
hasta z. i lo vemos
El nivel de confianza bilateral está dividido en partes i!uales ba*o la curva"
En base a la tabla que se esta utilizando, se tendrá que buscar el área de 9.>I=, ya que cada extremo o cola de la curva tiene un valor de 9.9:=.
%or lo que el valor de z es de 5.>H. ,olución 4>
i se utiliza una tabla en donde el área ba*o la curva es de 9 a z"
En este caso sólo se tendrá que buscar adentro de la tabla el área de 9.H.
,olución ;>
%ara la tabla en donde el área ba*o la curva va desde z hasta
e busca el valor de 9.9:= para encontrar z de 5.>H.
"
Lndependientemente del valor del 6ivel de Confianza este será el procedimiento a se!uir para localizar a z. En el caso de que no se encuentre el valor exacto se tendrá que interpolar.
Est)a!$% 'a&a la 3eda Es conocido de nosotros durante este curso, que en base a la distribución muestral de medias que se !eneró en el tema anterior, la formula para el calculo
de probabilidad es la si!uiente" . Como en este caso no conocemos el parámetro y lo queremos estimar por medio de la media de la muestra, sólo se despe*ará de la formula anterior, quedando lo si!uiente"
+e esta formula se puede observar que tanto el tama'o de la muestra como el valor de z se conocerán. se puede obtener de la tabla de la distribución normal a partir del nivel de confianza establecido. %ero en ocasiones se desconoce por lo que en esos casos lo correcto es utilizar otra distribución llamada -t- de student si la población de donde provienen los datos es normal. %ara el caso de tama'os de muestra !rande se puede utilizar una estimación puntual de la desviación estándar, es decir i!ualar la desviación estándar de la muestra a la de la población 0sA 1. E*emplos" 5. e encuentra que la concentración promedio de zinc que se saca del a!ua a partir de una muestra de mediciones de zinc en ;H sitios diferentes es de :.H !ramos por mililitro. Encuentre los intervalos de confianza de >=^ y >>^ para la concentración media de zinc en el río. upon!a que la desviación estándar de la población es 9.;. ,olución>
(a estimación puntual de es A :.H. El valor de z para un nivel de confianza del >=^ es 5.>H, por lo tanto"
%ara un nivel de confianza de >>^ el valor de z es de :.=I= por lo que el intervalo será más amplio"
El intervalo de confianza proporciona una estimación de la presición de nuestra estimación puntual. i es realmente el valor central de intervalo, entonces estima sin error. (a mayor parte de las veces, sin embar!o, no será exactamente i!ual a y la estimación puntual es errónea. (a ma!nitud de este error será el valor absoluto de la diferencia entre y , y podemos tener el nivel de confianza de que esta diferencia no excederá
. Como se puede observar en los resultados del e*ercicio se tiene un error de estimación mayor cuando el nivel de confianza es del >>^ y más peque'o cuando se reduce a un nivel de confianza del >=^. :. Jna empresa eléctrica fabrica focos que tienen una duración aproximadamente distribuida de forma normal con una desviación estándar de <9 horas. i una muestra de ;9 focos tiene una duración promedio de I?9 horas, encuentre un intervalos de confianza de >H^ para la media de la población de todos los focos que produce esta empresa. ,olución>
Con un nivel de confianza del >H^ se sabe que la duración media de los focos que produce la empresa está entre IH= y IH= horas.
;. (a prueba de corte ses!ado es el procedimiento más aceptado para evaluar la calidad de una unión entre un material de reparación y su sustrato de concreto. El artículo -estin! the $ond $etPeen Tepair #aterials and Concrete ubstrate- informa que, en cierta investi!ación, se obtuvo una resistencia promedio muestral de 5I.5I 6mm:, con una muestra de observaciones de resistencia al corte, y la desviación estándar muestral fue ;.:? 6mm:. Jtilice un nivel de confianza inferior del >=^ para estimar la media real de la resistencia al corte. ,olución>
En este e*ercicio se nos presentan dos situaciones diferentes a los e*ercicios anteriores. (a primera que desconoce la desviación estándar de la población y la se!unda que nos piden un intervalo de confianza unilateral. El primer caso ya se había comentado y se solucionará utilizando la desviación estándar de la muestra como estimación puntual de si!ma. %ara el intervalo de confianza unilateral, se car!ará el área ba*o la curva hacia un solo lado como si!ue"
Esto quiere decir que con un nivel de confianza de >=^, el valor de la media está en el intervalo 05H.;>, 1.
UNIDAD = CONTROL ESTADÍSTICO DE PROCESO
=., CONTROL ESTADÍSTICO
(a idea tradicional de inspeccionar el producto final y eliminar las unidades que no cumplen con las especificaciones una vez terminado el proceso, se reemplaza por una estrate!ia más económica de prevención antes y durante del proceso industrial con el fin de lo!rar que precisamente estos productos lle!uen al consumidor sin defectos. 3sí las variaciones de calidad producidas antes y durante el proceso pueden ser detectadas y corre!idas !racias al empleo masivo de 2ráficas de Control. e!&n este nuevo enfoque, existen dos tipos de variabilidad. El primer tipo es una variabilidad aleatoria debido a -causas al azar- o también conocida como -causas comunes-. El se!undo tipo de variabilidad, en cambio, representa un cambio real en el proceso atribuible a -causas especiales-, las cuales, por lo menos teóricamente, pueden ser identificadas y eliminadas. (os !ráficos de control ayudan en la detección de modelos no naturales de variación en los datos que resultan de procesos repetitivos y dan criterios para detectar una falta de control estadístico. Jn proceso se encuentra ba*o control estadístico cuando la variabilidad se debe sólo a -causas comunes-. (os !ráficos de control de hePart son básicamente de dos tipos) !ráficos de control por variables y !ráficos de control por atributos. %ara cada uno de los !ráficos de control, existen dos situaciones diferentes) a1 cuando no existen valores especificados y b1 cuando existen valores especificados. e denominan -por variables- cuando las medidas pueden adoptar un intervalo continuo de valores) por e*emplo, la lon!itud, el peso, la concentración, etc. e denomina -por atributos- cuando las medidas adoptadas no son continuas) e*emplo, tres tornillos defectuosos cada cien, ; paradas en un mes en la fábrica, seis personas cada ;99, etc. 3ntes de utilizar las 2ráficas de Control por variables, debe tenerse en consideración lo si!uiente" a.8 El proceso debe ser estable b.8 (os datos del proceso deben obedecer a una distribución normal c.8 El n&mero de datos a considerar debe ser de aproximadamente :9 a := sub!rupos con un tama'o de muestras de < a =, para que las muestras consideradas sean representativas de la población. d.8 (os datos deben ser clasificados teniendo en cuenta que, la dispersión debe ser mínima dentro de cada sub!rupo y máxima entre sub!rupos e.8 e deben disponer de tablas estadísticas
(as etapas que deben tomarse en cuenta para me*orar el proceso están esquematizadas en la si!uiente fi!ura"
El si!uiente e*emplo ense'a cómo utilizar estas !ráficas 2ráficas de Control 4 y T, por variables 0sin valores especificados1 En la si!uiente tabla se muestran los pesos de los sobres de un determinado alimento. Cada media hora se realizan < mediciones por muestra, sumando un total de :9 muestras. (os límites de tolerancia son 9,=;H9 0(1 y 9,<=?9 0(L1 Con esto se pretende evaluar el comportamiento del proceso y hacer un control del mismo respecto a su localización y dispersión, con el ob*eto que el proceso cumpla con las especificaciones preestablecidas.
%rimero debemos calcular las medias tanto de la media de cada muestra 04 doble raya1 como la de su amplitud o recorrido 0T1
%ara
ello
utilizamos
las
si!uientes
fórmulas"
donde 4 0doble raya1 A 9,<>I9 y T 0raya1 A 9,9::< %ara construir los 2ráficos de Control por variables, se tiene que tener en cuenta que al determinar si un proceso está ba*o -control estadístico-, siempre se debe analizar primero la !ráfica T. Como los límites de control en la !ráfica 4 0raya1dependen de la amplitud promedio, podrían haber causas especiales en la !ráfica T que produzcan comportamientos anómalos en la !ráfica 4 0raya1, a&n cuando el centrado del proceso esté ba*o control. %ara el !ráfico T, se tiene que" (ímite Central 0(C1 A T 0raya1A 9,9::< (ímite uperior de Control 0(C1 %ara ver la fórmula seleccione la opción $a*ar traba*o del men& superior
donde (C A 9,9=55, el valor de + se consi!ue en una tabla estadística 0para este caso es :,:?: con un tama'o de !rupo n A <1. (ímite Lnferior de Control 0(LC1 %ara ver la fórmula seleccione la opción $a*ar traba*o del men& superior donde (LC A 9, porque para todo proceso en que se considera un n g I, el (LC no se indica en la !ráfica. El !ráfico T es el si!uiente"
Como se puede apreciar, el !ráfico T no presenta variaciones fuera del límite superior,por lo tanto la dispersión de los datos es aceptable para calcular el !ráfico 4 0raya1. %ara el !ráfico 4 0raya1, se tiene que" (ímite Central 0(C1 A 4 0doble raya1A 9,<>I9 %ara ver la fórmula seleccione la opción $a*ar traba*o del men& superior (ímite uperior de Control 0(C1 donde (C A 9,=5;;, el valor de 3: se consi!ue en una tabla estadística 0para este casoel valor es 9,I:> con un tama'o n A<1. (ímite Lnferior de Control 0(LC1 donde (LC A 9,9I El !ráfico 4 0raya1es el si!uiente"
Como se puede apreciar un punto queda fuera del ran!o calculado, por lo tanto el proceso se encuentra fuera de control estadístico. En este caso, habría que investi!ar y eliminar la causa asi!nable, que podría haberse debido al uso de al!&n material defectuoso o una mala lectura del instrumento. Este dato debe eliminarse de la !ráfica y recalcular todo de nuevo pero sin considerar el sub!rupo ?. 6ota.8 Esto no siempre es así, si los puntos fuera de control son de tal ma!nitud, entonces no queda más remedio que una vez encontrada y eliminadas las causas en la práctica, habría que repetir el proceso, reco!iendo nuevos datos. +espués de la corrección, los resultados son" 2ráfico T corre!ido T 0raya1 A (C A 9,9:;5 (C A 9,9=:I y (LC A 9 2ráfico 4 0raya1 corre!ido 4 0doble raya1 A (C A 9,<>I> (C A 9,=5
%ara ver la fórmula seleccione la opción $a*ar traba*o del men& superior Como se puede apreciar en ambos !ráficos, ahora el proceso se encuentra en -control estadístico-. Cálculo de la Capacidad del %roceso (a capacidad del proceso sólo puede ser evaluada en el caso de que el proceso se encuentre ba*o control estadístico. y se puede definir como aquellos límites dentro de los cuales la &nica fuente de variación son las causas comunes o aleatorias del sistema. %or lo tanto, es un estado ideal para el buen funcionamiento de todo el sistema lo!rar que todos sus procesos sean estables. LC% A Cp A Lndice de Capacidad del %roceso %ara ver la fórmula seleccione la opción $a*ar traba*o del men& superior donde ( es el límite superior de tolerancia y (L el límite inferior de tolerancia. i!ma sombrero es la desviación estándar estimada, y es i!ual a" %ara ver la fórmula seleccione la opción $a*ar traba*o del men& superior El valor de la constante d: se obtiene a partir de tablas estadísticas. En este caso d: A :,9=> para n A <. i!ma sombrero A 9,955: y Cp A 5,5=> e!&n el convenio, un proceso" Es capaz si Cp A 5 6o es capaz si Cp g 5 %or lo tanto, el %TCE E C3%3 (o que se debe conse!uir para lo!rar una me*ora sustancial es que el Cp sea mayor que 5,;;. 3l!unos autores se'alan incluso que un Cp 5,= es más fiable para dar -se!uridad- acerca de la estabilidad del proceso. in embar!o, antes de cualquier me*ora debemos primero calcular el centramiento del proceso. Centramiento del %roceso Es evidente que el valor de Cp no depende del promedio del proceso, ya que este promedio puede ser el resultado de un error sistemático en el sistema, es decir,