Probabilidad y estadística José Luis Poveda Macías Ingeniero Físico Maestro en Educación
Distribuciones muestrales •
Población y muestr m uestra a
•
Media muestr muestral al
•
Teorema del d el límite límite central
•
Distribuci Dis tribución ón mues muestr tral al de medias.
•
Distribuci Dis tribución ón muestr muestral al de propor proporciones ciones..
Introducción •
•
•
Anteriormente, habíamos supuesto Anteriormente, s upuesto que el número de individuos era el número total de elementos existente. Ahora supondremos que esto no es cierto cierto,, es decir, que tomamos una muestra de un conjunto de elementos más grande, que se le conoce como población. ¡Tomen esto siempre en cuenta!
Población •
La población es el conjunto de elementos que tienen una determinada característica y que se desea relacionar con alguna variable.
•
¡No tienen que ser s er personas!
•
La población puede ser de cualquier tamaño.
Muestra •
•
Para poder realizar inferencias sobre una población, es necesario seleccionar a algunos de sus elementos. La muestra debe ser aleatoria para que los resultados sean confiables dentro de la población que se examina.
Definición •
Si X 1, …, X n son variables aleatorias independientes de una distribución común F , entonces constituyen una muestra de dicha distribución.
Suposiciones del muestreo •
•
Existe una distribución de probabilidad que se apegue a las muestras, de tal forma que se puedan considerar como variables aleatorias independientes a ésta. Los datos muestrales se toman aleatoriamente para que sean representativos de la población.
Muestreo aleatorio
Media y varianza muestral •
•
•
Si se tiene una población, es posible calcular la media y varianza para una muestra. Recordando que cada variable es independiente de los demás, el valor esperado es:
+ ⋯ + ഥ La varianza de un conjunto de variables aleatorias es: + ⋯ + ഥ ഥ á
¿Muestreo con o sin reposición? •
•
Con reposición: Se aplica lo anterior Sin reposición: Si el tamaño de la muestra es pequeño (n ≤ 30), o la población no es muy grande con respecto a la muestra ( n N ) es necesario considerar un factor de ajuste que se multiplica a la desviación estándar dado por la expresión:
<
− −
Si n
≪ N , la expresión tiende a 1.
Teorema del límite central
Teorema del límite central •
•
Este teorema indica que la media de un gran número de variables aleatorias independientes se distribuye aproximadamente normal, sin importar la distribución original de los datos. Es decir, sea X 1 , X 2 , …, X n, una sucesión de variables aleatorias independientes y distribuidas con media μ y varianza σ 2; para n grande, se distribuye normal, con media μ y varianza :
ഥ , ~
ത /
Teorema del límite central •
Además, para n grande:
•
n no tiene un valor específico, pero la literatura
ഥ − ~ , /
propone por lo general n = 30 y n = 50 como las cantidades mínimas de datos para ser considerado “grande”.
Distribución muestral de medias •
Sea X 1 , X 2 , …, X n , una muestra de una población normal (o suficientemente grande) con media μ y varianza σ2. Y sean:
ഥ Τ = ഥ σ ( − ) = − •
La distribución de la media muestral
ത
tiene las siguientes propiedades:
ഥ ഥ / =
•
La media muestral se distribuirá entonces de la siguiente forma:
ഥ − / ~ ,
Ejemplo El número de clientes que entra en una tienda cada día, durante un periodo de 5 años, es una variable aleatoria de media 100 y desviación típica 10. ¿Cuál es la probabilidad de que el número medio de clientes que entran a la tienda, diariamente, durante un periodo de 30 días, este entre 95 y 105?
Ejemplo •
Lo primero es determinar la población y la muestra que se quiere analizar. En este caso, nuestra “población” consiste en los días que ha estado abierta la tienda.
Ejemplo •
•
•
Nuestra población es “5 años” (Es decir, 1826 días) Nuestra muestra es de 30 días. La variable aleatoria que se quiere hallar tiene media 100 y desviación estándar
•
ത
1.8
La media muestral de clientes se calcula con una curva normal tipificada:
ത − 100 1.8
Ejemplo •
ത se encuentre entre
Se desea hallar la probabilidad de que 95 y 105 clientes:
95 ≤ ത ≤ 105 ത 95−100 − 100 105 − 100 1.8 ≤ 1.8 ≤ 1.8 −2.78 ≤ ҧ ≤ 2.78
•
•
Ese valor se ubica en la tabla, y se obtiene que la probabilidad entonces es de: 0.9946 O sea, en ese periodo de 30 días, se puede considerar como prácticamente seguro que llegarán entre 95 y 105 clientes diarios.
Actividad 1 •
Un guardabosque, que estudia los efectos de la fertilización en ciertos bosques de pinos en el sureste, está interesado en estimar el promedio de área de la base de los pinos. Al estudiar áreas basales de pinos similares durante muchos años, descubrió que estas mediciones (en pulgadas cuadradas) están distribuidas normalmente con desviación estándar aproxima de 4 pulgadas cuadradas. Si el guardabosque muestrea n = 9 arboles, encuentra la probabilidad de que la media muestral se encuentre a no más de 2 pulgadas cuadradas de la media poblacional.
Distribución muestral de proporciones •
•
•
Existen casos en los que se conoce el porcentaje o una proporción asociado a una muestra.
ෝ
Todas las proporciones definen a la variable aleatoria . puede calcularse a partir de la siguiente ecuación:
ෝ
ෝ
Donde x es el número de observaciones de interés y n el tamaño de la muestra.
Proporción muestral •
En un caso de muestreo con reemplazamiento con proporción muestral p y variables aleatorias de tamaño n, la proporción muestral tiene como propiedades:
( ) ෝ ෝ ෝ (− ) ( ) ෝ ෝ (− ) á
Proporción muestral •
Al usar variables discretas, la media de la proporción se distribuye:
(−) ෝ~ ,
•
•
Donde
es la proporción de la población.
Sin embargo, si n es suficientemente grande, se puede aproximar este resultado a la normal, obteniéndose:
ෝ − (−) ~ ,
•
>
Por lo general, esto es aplicable cuando y . De no serlo, se debe usar el enfoque exacto.
− >
Proporción muestral sin reemplazamiento •
Tal como en el caso de la media muestral, se introduce un factor de compensación a la desviación estándar que dado por la expresión:
≪
− −
≥
Si n N, la expresión tiende a 1, y si n 30, se puede considerar como un muestreo con reposición.
Ejemplo •
El 25% de los trabajadores estadounidenses está afiliado a un sindicato. ¿Cuál es la probabilidad de que en una muestra aleatoria de 100 trabajadores estadounidenses, al menos el 20% pertenezca a un sindicato?
Ejemplo •
•
•
El tamaño de la muestra es mayor que 30, y la población es mucho mayor que n = 100. La variable aleatoria tiene de media p = 0.25 y desviación estándar:
(−) (0.25)(0.75) ≈ 0.0433 100 − 0.25 0.0433
Sin embargo, hay que considerar que los votantes son una variable aleatoria discreta.
Ejemplo •
•
Para tomar en cuenta esa consideración es necesario considerar el 0.5 que hay que restar a una aproximación, y dividirlo entre el total de la muestra, de forma que se obtiene una nueva proporción:
. ෝ 0.195
Entonces:
Ejemplo •
Con la tabla normal tipificada:
− 0.25 0.195 − 0.25 ≥ 0.195 0.0433 ≥ 0.0433 ≈ ( ≥ −1.27) Esto da como resultado 0.8980
Actividad 1 •
Una máquina se apaga para repararla si una muestra aleatoria de 100 piezas seleccionadas de la producción diaria de la maquina contiene al menos 15% de piezas defectuosas. Si en un día determinado la máquina está produciendo solo 10% de piezas defectuosas, ¿cuál es la probabilidad de que sea apagada?
Probabilidad y estadística José Luis Poveda Macías Ingeniero Físico Maestro en Educación
Distribuciones de diferencias •
•
Distribución de sumas y diferencias de medias. Distribución de sumas y diferencias de proporciones.
Distribución de sumas y diferencias de medias •
•
En muchas ocasiones, se requiere analizar resultados de dos poblaciones distintas. Cuando sucede esto, podemos usar sumas y diferencias de medias para lograrlo. Para esto, se considera que:
± ± ± + ഥ ഥ ഥ ഥ ± − ± ~ , +
Ejemplo Dos compañías fabrican lubricantes de alta temperatura, para el mismo mercado. La compañía A anuncia que, en promedio, su lubricante deja de ser efectivo a 505 °F, con una desviación estándar de 10 °F. La compañía B anuncia que su producto tiene una media de 475 °F, con una desviación estándar de 7 °F. Suponga que una muestra de tamaño 30 para la primera compañía (A) y otra independiente, de tamaño 30, para la segunda (B) son extraídas aleatoriamente. •
•
•
¿Cuál es la probabilidad de que la diferencia en temperatura promedio de falla para las dos muestras esté entre 25 y 35 °F?
Ejemplo •
Primero debemos definir cada uno de los valores:
505°, 475°, 10°, 7° 30, 30 Aplicamos la fórmula: ഥ ഥ − − − +
•
Ejemplo •
•
ഥ − ഥ sea el valor 25 − 505 − 475 −2.24 10 + 7 30 30 Repetimos para el valor superior (35) 35 − 505 − 475 10 7 2.24 + 30 30 Primero hacemos que inferior (25).
Ejemplo •
Se ubican ambos valores en la tabla de la curva normal.
Se suman ambos y se obtiene entonces que la probabilidad es de:
−2.24 ≤ ≤ 2.24 2 0.4875 .
Actividad 1 •
Los resistores que se han de usar en un circuito tienen un promedio de resistencia de 200 ohms y desviación estándar de 10 ohms. Suponga que 25 de estos resistores se seleccionan aleatoriamente para usarse en un circuito. –
–
¿Cuál es la probabilidad de que la resistencia promedio para los 25 resistores esté entre 199 y 202 ohms? Encuentra la probabilidad de que la resistencia total no exceda de 5100 ohms.
Distribución de sumas y diferencias de proporciones •
•
•
Tal como ocurre en el caso de las medias, se pueden calcular sumas y diferencias de proporciones. Para ello, utilizamos fórmulas semejantes a las anteriores:
± ± ± + ෝ ෝ ± − ± ~ , + Para usar esta aproximación, debe ocurrir que > , > , > y > .
Ejemplo •
•
•
A y B lanzan volados. Cada uno tira 50 monedas.
A ganará el juego si le caen 5 águilas, o más que B; de lo contrario, B gana.
Determine la probabilidad de que A gane un juego particular.
Ejemplo •
Sean p A y pB la proporción de águilas obtenidas por A y B. Si suponemos que las monedas no están trucadas, la probabilidad de que caiga águila es ½, entonces:
− 0 2 − + 50 0.10
•
Si aproximamos a una normal, 5 o más águilas implica que se debe considerar a partir de 4.5, entonces al sacar las diferencias de proporciones se obtiene 0.09.