El siguiente material se encuentra en etapa de corrección y no deberá ser considerado una versión final. Para hacer comentarios y sugerencias, o reportar errores, enviar mail a Alejandro D. Zylberberg
Versión Actualizada al: 1 de junio de 2004
Teorema central del límite Si
X
es el promedio de una muestra de tamaño n de una población con media
X Z = σ
−µ
µy
n
desvío estándar σ, entonces la variable aleatoria tiene una distribución aproximadamente normal estándar, bajo las siguientes condiciones: • Si n > 30, la distribución de z es aproximadamente normal estándar sin importar la distribución de las x. • Si n ≤ 30, la distribución de z es aproximadamente aproximadamente normal solamente si la distribución de las x no difiere mucho de la distribución normal (por ejemplo: si es simétrica). • Si la distribución de las x es normal, la distribución de z es normal sin importar el valor de n.
Distribución de la suma de variables aleatorias Si se tienen n variables aleatorias independientes e idénticamente distribuidas, y el valor de n cumple con las condiciones enunciadas más arriba, el teorema central del límite permite hallar la distribución de la suma de dichas variables, de la siguiente manera:
∑ X n
i
X = i =1 n
Si a la suma de las X i (la variable cuya distribución queremos encontrar) la llamamos Y, entonces queda:
X =
Y n
Reemplazándolo en la Z dada por el teorema central del límite, queda:
Y
−µ = Z = n σ n
1 n
(Y − nµ )
σ n
= Y
− nµ nσ
Lo que quedó lo podemos ver como la estandarización de una cierta variable normal Y (en realidad es aproximadamente normal). Si "desestandarizamos" nos queda que Y, es decir, la suma de todas las variables X i, es una variable µ = nµ ; σ Y = n σ Y normal con: Este es el mismo resultado que habíamos obtenido para la suma de normales, con la diferencia de que ahora tenemos la condición de que n debe ser lo suficientemente grande. En conclusión, la suma de una determinada cantidad de variables aleatorias independientes e idénticamente distribuidas resulta ser una variable normal en caso de que las variables sean normales, y aproximadamente normal en caso de que no sean normales pero n sea lo suficientemente grande. A continuación vemos la forma de la distribución de la suma de n variables uniformes, para varios valores de n:
n=1
n=2
n=3
n = 14
Suma de variables uniformes En la práctica, la suma de 4 variables aleatorias uniformes independientes e idénticamente distribuidas se considera aproximadamente normal.
Problemas típicos 1) El peso en kg. de cada pieza es una variable aleatoria X distribuida según:
1 < < 1 x 5 f X ( x) = 4 0 ∀ otro x ¿Cuál es la media y la varianza del peso de un lote de 100 piezas? Resolución: El peso de cada pieza es una variable aleatoria X i. Todas esas X i están idénticamente distribuidas según la f dada y se suponen independientes. Entonces la suma del peso de 100 piezas, como 100 ≥ 30, es aproximadamente una variable aleatoria normal con media 100 µ X y desvío 10 σX. A partir de la distribución que nos dan para las X i, calculamos que: µ X = 3 ; σX = 4/3 Si llamamos Y al peso del lote de 100 piezas, entonces la media de Y es µ Y = 100 µ X = 300, y la varianza de Y es σ2Y = (10 σX)2 = 178.
2) El tiempo que se tarda en llevar a cabo una operación es una variable aleatoria con media = 10 minutos y desvío = 2 minutos. a) ¿Cuál es la probabilidad de que se tarde menos de 9 horas en realizar 49 operaciones? b) ¿Cuál es la probabilidad de que el tiempo promedio por operación sea menor a 9 minutos? Resolución: a) El tiempo que se tarda en llevar a cabo cada operación es una variable aleatoria X con media 10 minutos y desvío 4 minutos. La suma de los tiempos de 49 de esas operaciones es una variable aleatoria aproximadamente normal con media 49 µ X = 490 minutos y desvío 7 σX = 28 minutos. Si a dicha suma la llamamos Y, nos están pidiendo:
− Φ 540 490 = Φ (1.79 ) = 0.963 28
P(Y < 9 horas) = P(Y < 540 minutos) = F Y(540) = b) Podemos hacerlo de dos formas: • La primera es usando la versión enunciada del teorema central del límite, que nos dice que si tenemos n ≥ 30 variables aleatorias independientes e idénticamente distribuidas, entonces la distribución de su promedio es aproximadamente normal
σ
con media µ y desvío donde µ y que estamos promediando. Entonces: n
σ son la media y el desvío de las variables
9 − µ P( X < 9 minutos ) = FX (9) = Φ = Φ(− 1.75)= 1 − Φ(1.75) = 0.04 σ n
• La otra forma consiste en ver que si Y (la suma) sigue una distribución normal,
i
entonces Y/n (el promedio) también sigue una distribución normal, porque es una constante (1/n) multiplicada por una variable normal. Según estudiamos en este capítulo, W=Y/n tiene una distribución normal con media µ Y /n y desvío σY /n. Luego la probabilidad de que W sea menor a 9 minutos es: P ( W < 9 minutos
− µ Y 9 n ) = FZ (9) = Φ σY n
= Φ (− 1.75) = 1 − Φ (1.75) = 0.04
3) La NASA está planeando una misión tripulada a la Luna. La duración de cada tanque de oxígeno es una variable aleatoria con media 6 horas y desvío 1 hora. ¿Cuántos tanques se deben llevar, para que la probabilidad de que alcance el oxígeno para una misión de 10 días sea del 99,9%? Resolución: Para una misión de 10 días se necesitan 240 horas de oxígeno. Tenemos que ver cuántos tanques hay que sumar para que la probabilidad de que superen 240 horas sea 0,999. Para sumar las duraciones de los tanques, vamos a usar el teorema central del límite. Pero es necesario destacar que una de las condiciones del teorema central del límite es que la cantidad de variables que se suman sea 30 ó más. Y en este caso desconocemos la cantidad de variables que estamos sumando (justamente es eso lo que queremos averiguar). Observemos que 240 / 6 = 40, con lo cual es medianamente razonable suponer que la cantidad de tanques que sumaremos será mayor a 30. Y=
∑X n
i
1
Aclarado esto, si donde las X i son las duraciones de los tanques, e Y es lo suficientemente grande (suponemos que se cumple) entonces Y es aproximadamente una variable aleatoria normal con media 6n y desvío 1 Planteamos: P(Y
n
.
> 240 ) = 0,999
240 − 6n = 0.999 n − Φ 240 6n = 0.001 n 240 − 6n = z 0.001 = −3.09
1 − Φ
n
Resolviendo obtenemos que n debería valer 43,39. Si n pudiera valer ese número, la probabilidad sería exactamente 0,999. Pero n debe ser un número entero. Si redondeamos para abajo, la probabilidad de que el oxígeno alcance sería menor a 0.999, y eso no cumple con lo pedido. Por lo tanto, debemos redondear para arriba y responder que hay que llevar 44 tanques. Ese resultado verifica 44 ≥ 30 con lo cual fue legítimo aplicar el teorema central del
límite.
4) Un programador se alimenta a base de chocolates. Su consumo diario de calorías es una variable aleatoria con media 2000 calorías y desvío 40 calorías. Si cada chocolate provee una cantidad de calorías que es una variable aleatoria con media 1000 calorías y desvío 25 calorías, ¿Cuántos chocolates debería comprarse para poder estar encerrado un mes programando un sistema y que la probabilidad de tener que salir a comprar más chocolates sea solamente 0.01? Resolución: Llamaremos X i al consumo de calorías del i-ésimo día, y Y j a aporte de calorías del j-ésimo chocolate. A = ∑ Xi 30
Por el teorema central del límite, si
1
entonces A es aproximadamente 30
normal con media 30.2000 = 60000 y desvío .40 = 219,09. Para hacer lo mismo con la cantidad de chocolates, debemos suponer que serán 30 o más chocolates. Como 60000/1000 = 60 >> 30, es bastante razonable suponer B = ∑ Y j n
que serán más de 30 chocolates, con lo cual si
j=1
entonces B es n
aproximadamente normal con media n.1000 y desvío .25. Luego podemos plantear que la probabilidad de que no le alcancen los chocolates debe ser 0.01, es decir: P(A > B) = 0.01 P(A - B > 0) = 0.01 Si tomamos C = A - B, resulta que por ser combinación lineal de normales C también es normal. Calculamos sus parámetros:
µ C = µ A − µ B = 60000 − 1000 n σC = σ2A + σ2B =
48000
+ 625 n
Continuamos: P(C > 0) = 0.01
1 − P(C < 0) = 0.01
0 − (60000 − 1000 n ) = 0.01 + 48000 625n 0 − (60000 − 1000 n ) = z 0.01 = −2,33 48000 + 625n
1 − Φ
Resolviendo, obtenemos n = 59.32 Si n pudiera valer exactamente 59.32, entonces la probabilidad de que los chocolates no alcancen sería exactamente 0,01. A mayor n, menor probabilidad de que no alcancen, y a menor n, mayor probabilidad de que no alcancen. Si redondeáramos para abajo, la probabilidad sería mayor de 0.01, por lo tanto
debemos redondear para arriba y responder 60. Vemos que además 60 ≥ 30, con lo cual fue lícito usar el teorema central del límite para sumar las calorías de los chocolates.
5) Una persona utiliza diariamente para lavar sus platos una cantidad de detergente que es una variable aleatoria con media 5 ml y desvío 1 ml. ¿Qué capacidad debería tener una botella de detergente para que la probabilidad de que le dure un mes sea del 98% ? Resolución: Si X es el consumo en un mes, debemos buscar C tal que se cumpla: P(X < C) = 0,98 Si Yi es el consumo de cada día, la suma del consumo de 30 días será aproximadamente normal con media 30 µ Y = 150 y desvío
C − 150 = 0,98 30
30
σ
Y
=
30
. Luego:
P (X < C) = FX (C) = Φ C − 150 30
= z 0,98 = 2.0537
C = 161,2 Luego la botella debería tener al menos 161,2 ml.
Este material se encuentra en etapa de corrección y no deberá ser considerado una versión final. Para hacer comentarios y sugerencias, o reportar errores, enviar mail a Alejandro D. Zylberberg Versión Actualizada al: 1 de junio de 2004