INSTITUCIÓN UNIVERSITARIA ANTONIO JOSÉ CAMACHO TALLER DISTRIBUCIÓN NORMAL
Temas: Distribución normal estándar Aplicaciones de la distribución normal La primera parte de la guía de este tema contiene orientaciones sobre la distribución normal, en la segunda se proponen ejercicios a desarrollar en el foro pensamiento aleatorio y aquellos para resolver en el segundo encuentro.
f(X )
1 2
e ( x )
2
/ 2 2
, -
DISTRIBUCIÓN DE PROBABILIDAD NORMAL (Lectura independiente, puede recurrir a algún texto)
En esta ecuación:
La distribución normal fue reconocida por primera vez por el francés Abraham de Moivre (1667-1754). Posteriormente, Carl Friedrich Gauss (1777-1855) elaboró desarrollos más profundos y formuló la ecuación de la curva; de ahí que también se la conozca, más comúnmente, como la "campana de Gauss".
e=2.71828 y =3.1416 son las constantes que se utilizan frecuentemente en matemáticas. Los dos parámetros que definen la distribución normal son (la media) y 2 (Varianza), de este parámetro se obtiene con ayuda de la raíz cuadrada la (la desviación estándar) Se denota Z N (,2).
Una de las distribuciones teóricas mejor estudiadas en los textos de estadística y más utilizada en la práctica es la distribución normal, también llamada Distribución Gaussiana o Campana de Gauss. Su importancia se debe fundamentalmente a la frecuencia con la que distintas variables asociadas a fenómenos naturales y cotidianos siguen, aproximadamente, está distribución. Como se mencionó anteriormente, algunas distribuciones de datos de la vida real tienen la forma de una montaña, es decir se pueden aproximar por una distribución de frecuencias con formas de una campana que se conoce como la curva normal. Ver la figura 1.
Figura 1. Forma de la Distribución normal, curva normal o campana de Gauss. La distribución normal es la más importante en la estadística. La comprensión de los conceptos relacionados con esta distribución constituye un gran avance en los conocimientos de probabilidad y estadística. La función de densidad normal está dada por:
Las siguientes son algunas de las características más importantes de la distribución normal: 1. Es simétrica respecto a su media (): La curva hacia cualquiera de los lados de es una imagen de espejo de la del otro lado. Según esto, para este tipo de variables existe una probabilidad de un 50% de observar un dato mayor que la media, y un 50% de observar un dato menor. 2. La media, la mediana y la moda son iguales y coinciden con el pico más alto de la distribución. 3. El área total bajo la curva sobre el eje X es igual al 100%. Si juntamos esto con el dato de la simetría, el 50% del área está a la derecha de la media, y el otro 50% está a la izquierda. 4. Si se levantan líneas perpendiculares a una distancia de una desviación estándar desde la media hacia ambos lados, el área delimitada será aproximadamente, 68% del área total (ver figura 2). De la misma manera a 2 desviaciones estándar se encuentra aproximadamente el 95.5% de los datos (ver figura 3) y a 3 desviaciones estándar el 99.7% de los datos (ver figura 4).
1
DISTRIBUCIÓN NORMAL ESTÁNDAR (Trabajar con la tabla Normal Estándar (Z))
68%
Tiene una media igual a cero (=0) y una varianza igual a 1 (2=1). Se denota Z N (0, 1). La ecuación para la distribución normal estándar, z, se escribe:
Figura 2. En una distribución normal aproximadamente el 68% de los datos se encuentra a una desviación estándar de la media.
f ( z)
1 2
e z
0.2
95.5% +2
Figura 3. En una distribución normal aproximadamente el 95.5% de los datos se encuentra a dos desviaciones estándar de la media.
/2 , - < z<
Para calcular la probabilidad de que z tome un valor entre dos puntos cualesquiera sobre el eje horizontal, por ejemplo, z0 y z1, se debe calcular el área bajo una curva. Esto debe hacerse por medio de cálculo integral. En el caso de la normal univariada, para calcular el área entre 0.2 y 0.7, es necesario calcular la siguiente integral: 0. 7
- 2
2
f ( z) dz
Por fortuna, no es necesario efectuar está operación, porque existen tablas disponibles que proporcionan los resultados de todas las integraciones en las que se pueda estár interesado. Estás tablas están incluidas en cualquiera de los textos de probabilidad y estadística. Para trabajar los siguientes ejemplos, utilizaremos la Tabla de la distribución normal estándar Z. Está tabla presenta áreas de la curva normal P ( z z0 ). Los valores en el cuerpo de la tabla son áreas entre - y z0. Ejemplo 1:
99.7%
Para utilizar la tabla normal estándar, el primer paso es graficar el área solicitada. -3
+3
Figura 4. En una distribución normal aproximadamente el 99.7% de los datos se encuentra a tres desviaciones estándar de la media
5. La distribución normal es realmente una familia de distribuciones. Los parámetros y 2 determinan completamente la distribución normal. Es decir, por cada valor diferente de y 2 se especifica una distribución normal diferente. Los valores diferentes de trasladan la gráfica de la distribución a lo largo del eje de la variable x. Los valores de 2 determinan el grado de aplanamiento o levantamiento de la gráfica de la distribución. (Entre más pequeña 2 más puntuda será la gráfica y entre menos valor tenga 2 más aplanada será la gráfica)
Dada la distribución normal estándar, calcular: P (Z < 2.33) =?
=0
2.33
Solución: como el z0 solicitado es mayor que cero, buscamos en la Tabla los valores de Z positivos: En la columna marcada como z nos ubicamos en la fila correspondiente al número 2.30; estando en dicha fila nos vamos hacia la derecha y nos ubicamos en la columna marcada al inicio como 0.03 (2.30 + 0.03 = 2.33); el valor que intercepta la fila 2.30 y la columna 0.03, es el área solicitada. Es decir, P (Z < 2.33 ) = 0.9901. 2
Ejemplo 2: Veamos la simetría de la distribución normal: Calcular P (Z < - 0.55 ) y P (Z > 0.55)
a) Para hallar una probabilidad o área intermedia, es decir: P(z0 < Z < z1), al área mayor se le restá el área menor. En general: P(z0 < Z < z1) = P(Z < z1) - P(Z< z0) a) P(-1.96 < Z < 1.96) = P(Z < -1.96) – P(Z < 1.96) = 0.9750 – 0.025 = 0.95 b) P(0 < Z < 1.77) = P(Z < 1.77) – P(Z < 0) = 0.9616 – 0.5000 = 0.4616
-0.55
c)
P(-2.05 < Z < -1.10) = P(Z < -1.10) – P(Z < -2.05) = 0.1357 – 0.0202 = 0.1155
b) Para hallar un valor de Z, dada el área: a) b) c) d) e) f)
0.55
Solución: P (Z < -0.55) = 0.2912. Búsquese en la Tabla para valores de Z negativos la intersección de la fila -0.50 con la columna 0.05. P (Z > 0.55) = 1 - P (Z < 0.55 ) = 1 – 0.7088 = 0.2912 Por la simetría de la distribución normal, se cumple que: P (Z < - 0.55) = P (Z > 0.55) = 0.2912. Ejemplo 3: Calcular la probabilidad de que una Z, sacada al azar, tenga un valor entre -2.87 y 2.64.
-2.87
0
2.64
P(Z < 1.96) = 0.9750 Z0.9750 = 1.96 P(Z < -1.64) = 0.0505 Z0.0505 = -1.64 P(Z < -0.86) = 0.1949 Z0.1949 = -0.86 P(Z < 1.05) = 0.8531 Z0.8531 = 1.05 P(Z < -2.57) = 0.0051 Z0.0051 = -2.57 P(Z < 2.9) = 0.9981 Z0.9981 = 2.9
APLICACIONES DE LA DISTRIBUCIÓN NORMAL ESTÁNDAR (Trabajo en el aula y de forma independiente) Estandarizar una variable es convertir una variable aleatoria con distribución normal, con cualquier media y cualquier varianza a una normal estándar con media 0 y varianza 1. Generalmente, los investigadores después de medir variables cuantitativas, desean hacer "extrapolaciones" a la población de donde obtuvieron las muestras de mediciones que representan sus datos. Estás extrapolaciones implican poder estimar las probabilidades de ocurrencia de algunos eventos de interés dentro del rango de valores que toma su variable cuantitativa. Para poder hacer esto, se debe primero establecer la forma de distribución que tienen los datos (para esto existen pruebas estadística específicas que no trataremos en este curso). Cuando se sabe que las mediciones recogidas se ajustan a una distribución normal de probabilidades, se puede "estandarizar" dicha variable, es decir; se llevan los datos a la forma de una normal estándar aplicando el siguiente cambio de variable con la ecuación:
z
Solución: Al dibujar el área solicitada, nos damos cuenta que es necesaria la siguiente operación: P (-2.87 < Z < 2.64) = P (Z < 2.64) - P (Z < - 2.87).
x
Donde es la media aritmética que toma la variable en la población y es su desviación estándar poblacional.
Por tanto, P (-2.87 < z < 2.64) = 0.9959 - 0.0021 = 0.9938. Ejemplo 4:
3
La vida media de una lámpara, según el fabricante, es de 68 meses, con una desviación típica de 5 meses. Se supone que se distribuye según una distribución normal en un lote de 10.000 lámparas.
= P (Z
75 68 5
) - P (Z
65 68 ) 5 = P ( Z < 1,40) - P ( Z < -0,60) = 0,9192 – 0,2743 = 0,6450
a) ¿cuál es la variable aleatoria? ¿cuáles son los parámetros? ¿Qué porcentaje de lámparas se estropearán antes de 60 meses? b) ¿Cuántas lámparas superarán previsiblemente los 75 meses? c) ¿Qué porcentaje de lámparas duraran entre 65 y 75 meses? d) ¿Cuánto tiempo durará el 10% de las lámparas menos duraderas?
El 64,5% de las lámparas duraran entre 65 y 75 meses.
Solución:
Llamemos k el valor a encontrar, luego:
a) Llamando X la variable aleatoria de la vida de una lámpara (en meses), tenemos que: X N (68, 25) y necesitamos calcular la P( X < 60).
P(X < k) = 0.10
d) ¿Cuánto tiempo durará el 10% de las lámparas menos duraderas?
Por otro lado:
P (Z
De esta distribución normal no tenemos tabla, pero creando la variable aleatoria z
x , la convertiremos
en una distribución normal estándar. Entonces: P( X < 60 ) = P ( Z
60 68 ) 5
= P ( Z 1,60) = 0,0548 Así, se estima que 5.48% del total de lámparas duraran menos de 60 meses. b) Necesitamos calcular la P( X > 75). Siguiendo el mismo proceso de estandarización, se tiene que: P( X > 75 ) = 1 - P ( Z < 75 ) = 1-P(Z
75 68 ) 5
= 1 - P ( Z < 1,40) = 1 – 0,9192 = 0,0808 Luego, el 8,08% de las lámparas duraran al menos 75 meses. De las 10.000 lámparas aproximadamente 808 duraran más de 75 meses (multiplique n * la probabilidad encontrada).
k 68 ) = 0.10 5
De la tabla de la normal estándar se sabe que: P(Z < -1.28) = 0.10, luego
k 68 = -1.28, y al despejar k se tiene k = 61,6 meses. 5 La fórmula que se utiliza en estos casos es despejar x de la ecuación: z
x
Entonces: x z Ejemplo 5: Supóngase que los diámetros de los árboles de ciertas especies de un bosque, distribuyen normalmente con media de 8 pulgadas y desviación estándar de 2 pulgadas. Si se define que un árbol tiene un diámetro inusualmente grande cuando tiene más de 12 pulgadas: calcule la probabilidad de encontrar un árbol de diámetro inusualmente grande.
c) ¿Qué porcentaje de lámparas duraran entre 65 y 75 meses? P (65 < X < 75) = ? Estandarizando en ambos lados de la ecuación se tiene que: P( 65 < X < 75 ) = P(X < 75 ) - P(X < 65 ) = P (del mayor) – P (del menor)
=8
12
4
Solución: Llamando X la variable aleatoria de las medidas de los diámetros, tenemos que: X N ( 8, 4 ) y necesitamos calcular la P( X > 12 ). De esta distribución normal no tenemos tabla, pero creando la variable aleatoria z
x , la convertiremos
= 1- P ( Z
12 8 ) 2
= 1- P ( Z 2 ) = 1 - 0.977 = 0.023 Así, se estima que 2.3% del total de árboles de esta área tienen un diámetro inusualmente grande.
en una distribución normal estándar. Entonces: P( X > 12 ) =
1 - P ( X 12 )
EJERCICIOS DEL TALLER Resolver los ejercicios pares y publicar en la plataforma de acuerdo con los tiempos asignación realizada por el docente.
y la
Ejercicio # 1: Verifique los siguientes resultados: En general, para una probabilidad o área menor que Z, es decir: P(Z < z 0), se busca directamente el valor de la tabla, indique ¿Cuál de los tres resultados está errado?:
Ejercicio # 4: Completar:
a) b) c) d)
P(Z < 1.25) = 0.8944 P(Z < -2.57) = 0.0851 P(Z < -0.86) = 0.1949 Ninguno
Ejercicio # 2: Verifique los siguientes resultados: Para hallar una probabilidad o área mayor que Z, es decir: P(Z > z0), a la unidad (1) se le resta el valor de la tabla, indique ¿Cuál de los tres resultados está errado?: a) P(Z > 1.25)=0.1056 b) P (Z > -1.96)=0.9550 c) P (Z > 0.75)=0.2266 d) Ninguno
a) Alrededor del 68% del área por debajo de la curva b)
normal se encuentra dentro de una desviación estándar de la media. Aproximadamente 95.5% del área por debajo de la curva normal se encuentra dentro de dos desviaciones estándar de la media.
Ejercicio #5: El tiempo promedio (en minutos) que tardaron 15 operarios en familiarizarse con el manejo de una nueva máquina adquirida por la empresa fue de 5.4 con una desviación estándar de 2.2. ¿Cuál es la varianza del tiempo que tardan los operarios en aprender a operar la nueva máquina? Ejercicio 6
Ejercicio # 3: Indique, ¿cuál de los siguientes es verdadero?: a) P (Z < 0.55)=0.5088 b) P (Z > 1.25)=0.2056 c) P (-1.64 < Z < 1.64)=0.9495-0.0505=0.899 d. Ninguno
Considere el experimento que consiste en lanzar un dado en dos ocasiones consecutivas a. Escriba el espacio muestral:
P{1.1, 1.2, 1.3, 1.4, 1.5, 1.6, 2.1, 2.2, 2.3, 2.4, 2.5, 2.6, 3.1, 3.2, 3.3, 3.4, 3.5, 3.6, 4.1, 4.2, 4.3, 4.4, 4.5, 4.6 5
5.1, 5.2, 5.3, 5.4, 5.5, 5.6, 6.1, 6.2, 6.3, 6.4, 6.5, 6.6.}=36 b. Realice la suma de las probabilidades de cada uno de los eventos del espacio muestral.
R: p(s)= p (1.1) + (1.2) + (1.3) + (1.4) + (1.5) + (1.6) (2.1) + (2.2) + (2.3) + (2.4) + (2.5) + (2.6) (3.1) + (3.2) + (3.3) + (3.4) + (3.5) + (3.6) (4.1) + (4.2) + (4.3) + (4.4) + (4.5) + (4.6) (5.1) + (5.2) + (5.3) + (5.4) + (5.5) + (5.6) P (s)= 1/36= 0.0277 P (s)=0.0277 x 36= 1
Ejercicio # 7: Un estudio sobre el colesterol en hombres entre 20 y 24 años de edad reveló un nivel promedio de 180 mg/dl con una desviación estándar de 15. Si se selecciona un trabajador aleatoriamente, ¿cuál es la probabilidad de que su nivel de colesterol sea Inferior a 170 mg/dl?
Ejercicio # 8: Verifique los siguientes resultados: En general, para una probabilidad o área menor que Z, es decir: P(Z < z0), se busca directamente el valor de la tabla indique ¿Cuál de los tres resultados está errado? a) b) c) d)
P(Z < -0.20) = 0.6207 P(Z < 1.05) = 0.8531 P(Z < 2.9) = 0.9981 Ninguno.
Ejercicio # 9: Verifique los siguientes resultados: Para hallar una probabilidad o área mayor que Z, es decir: P(Z > z0), a la unidad (1) se le resta el valor de la tabla, indique ¿Cuál de los tres resultados está errado?: a) b) c) d)
P(Z > 1.25) = 1 - P(Z < 1.25) = 1 - 0.8944 = 0.1056 P(Z > -2.57) = 1 - P(Z < -2.57) = 1 - 0.0051= 0.9949 P(Z > -0.86) = 1 - P(Z < -0.86) = 1 - 0.2549= 0.7451 Ninguno.
Ejercicio # 10: Indique, ¿cuál de los siguientes es verdadero?: a) P (Z < 2.04)=0.500 b) P (Z > 0.75)=0.2266
c) P (0.55 < Z < 2.55)=0.9946-0.6088=0.2858 e) Ninguno. Ejercicio # 11: a) Cerca del ________% del área por debajo de la curva normal está dentro de tres desviaciones estándar de la media. b) Indique falso o verdadero a la siguiente afirmación: el área bajo la curva de la distribución de probabilidad normal estándar menos a uno Ejercicio # 12: Los puntajes logrados en una prueba de aptitud para estudiantes de Administración siguen una distribución aproximadamente normal, con una media de 500 y una varianza de 10.000. ¿Cuál es la desviación estándar de los puntajes?
R: p x=10.000 µ=500 δ=? √10.000=100 La desviación estándar de los puntajes de es 100
Ejercicio 13 Considere el experimento que consiste repartir dos premios entre tres personas (Juan, Carlos, Andrés) de forma aleatoria.
a. Escriba el espacio muestral b. Realice la suma de las probabilidades de cada uno de los eventos del espacio muestral. Ejercicio # 14: Un estudio sobre el colesterol en hombres entre 20 y 24 años de edad reveló un nivel promedio de 180 mg/dl con una desviación estándar de 15. Si se selecciona un trabajador aleatoriamente, ¿cuál es la probabilidad de que su nivel de colesterol ea superior a 190 mg/dl?
R: P (Z>0.66) = 0.2578= 25.78% la probabilidad de que su nivel de colesterol sea superior a 190 es del 25.78%
Ejercicio # 15: Verifique los siguientes resultados: En general, para una probabilidad o área menor que Z, es decir: P(Z < z0), se busca directamente el valor de la tabla indique, ¿Cuál de los tres resultados está errado?: a) P(Z < -0.86) = 0.1949 6
b) P(Z < -0.20) = 0.4207 c) P(Z < 1.05) = 0.3531 d) Ninguno
Considere el experimento que consiste en el resultado de un partido de futbol. a. Escriba el espacio muestral
Ejercicio # 16: Verifique los siguientes resultados: Para hallar una probabilidad o área mayor que Z, es decir: P(Z > z0), a la unidad (1) se le resta el valor de la tabla, indique ¿Cuál de los tres resultados está errado?: a) b) c) d)
P(Z > -0.20) = 1 - P(Z < -0.20) = 1 - 0.107= 0.893 P(Z > 1.05) = 1 - P(Z < 1.05) = 1 - 0.8531= 0.1469 P(Z > 2.9) = 1 - P(Z < 2.9) = 1 - 0.9981= 0.0019 Ninguno
Ejercicio # 17: Indique ¿cuál de los siguientes es verdadero?: a) P (Z < -0.55)=0.2912 b) P (Z > 0.75)=0.2966 c) P(0.45 < Z < 1.58)=0.8429-0.6736=0.2693 d) Ninguno Ejercicio # 18:
R: P (s) {Ganar (1), perder (0), empatar (1.1)} b. Realice la suma de las probabilidades de cada uno de los eventos del espacio muestral.
R: P (1) + (0) + (1.1) P (s) = 1/3=0.333333333 P (s) = 0.333333333x=1 c.
Realice la suma de las probabilidades de cada uno de los eventos del espacio muestral.
Ejercicio 21: Un estudio sobre el colesterol en hombres entre 20 y 24 años de edad reveló un nivel promedio de 180 mg/dl con una desviación estándar de 15. Si se selecciona un trabajador aleatoriamente, ¿cuál es la probabilidad de que su nivel de colesterol se encuentre entre 170 mg/dl y 195 mg/dl?
a) ¿Qué diferencia hay entre la distribución normal y la distribución normal estándar?
R: En la distribución normal los dos parámetros que la definen son la media y la Varianza, mientras que para la distribución normal estándar estos valores están comprendidos entre 0 y 1 así: para la media =0 y para la varianza = 1 b) Menciona al menos 3 características de la distribución normal. R: a. Es simétrica respecto a su media. c.
La media, la mediana y la moda son iguales y coinciden con el pico más alto de la distribución
c. El área total bajo la curva sobre el eje X es igual al 100%. Ejercicio # 19: Los puntajes logrados en una prueba de aptitud para estudiantes de Administración siguen una distribución aproximadamente normal, con una media de 25 y una varianza de 9. ¿Cuál es la desviación estándar de los puntajes? Ejercicio 20:
7