PRUEBA DE BONDAD DE AJUSTE BINOMIAL Si un ingeniero de control de calidad toma una muestra de 10 neumáticos que salen de una línea de ensamblaje y él desea verificar sobre la base de los datos que siguen, los números de llantas con defectos observadas en 200 días, si es cierto que el 5 de todos los neumáticos tienen defecto! es decir, si el muestrea una "oblaci#n binomial con n $ 10 y $ %05 9úmero de unidades con defecto 0 1 2 # más
9úmero de muestras 1> 5 8
1% &sta &stabl blec ecer er la la 'i" 'i"#t #tesi esiss (o) *a "oblaci#n es binomial (a) *a "oblaci#n no es binomial 2% &stabl &stablece ecerr la estadí estadístic sticaa de "rueba "rueba k
χ
2
=
∑ i =1
+i $ &i $ . $ m$
[ f
oi
− f ei
]
2
f ei
alor observado en la i-ésimo celda% alor es"erado en la i-ésimo celda% /ategorías o celdas%
arámetros
% % efinir el nivel de significancia y la 3ona de rec'a3o
g,l $ 4- m 1 $ 6 0- 17 $ 5%88 9ivel de significancia $ 0%05 2 2 :ona de rec'a3o $ ; χ < χ ≥ 5%887 m $ 0 "orque no se necesito estimar ningún "arámetro =% /alcul /alculo o de la estad estadísti ística ca de de "rueb "ruebaa
k
χ
2
=
∑
[ f
oi
− f ei
]
2
f ei
i =1
ara "oder calcular las frecuencias es"eradas tenemos que calcular las "robabilidades utili3aremos la formula de la binomial f 6 x7 ( xn ) π x 6 1 π 7 n x =
−
donde n $ 10
π
f 607
=
( )0%05 10 0
0
−
$ 0%05
61 0%05710 −
−
0
$ %588
1 10 −1 f 617 = ( 10 1 ) 0%05 6 1 − 0%057 $ %15
y la "robabilidad de 2 # más $ 1%0 - %588 - %15 $ %0>? a'ora ya "odemos encontrar las frecuencias es"eradas) 200 6 %5887 $ 118%> 2006%157 $ ? 200 6%0>?7 $ 1@%2
Al a"licar la formula se tiene) 2
χ =
61> − 118%>7 2 118%>
+
65 − ?%07 2 ?
+
68
− 1@%27
1@%2
2
$ >%2?
5% /omo >%2? >%2? es mayor mayor que que 5%88, se rec'a3a rec'a3a la 'i"#tesis 'i"#tesis nula nula con un nivel nivel de significancia de 0%05% ?% /onc /onclu lusi si# #n Se concluye que el "orcentaje verdadero de neumáticos con defecto no es el 5%
UNIDAD: PRUEBA DE BONDAD DE AJUSTE Pruebas de tablas de contingencias En muchas ocasiones, los n elementos de una muestra de población pueden clasificarse de acuerdo con dos criterios diferentes. Por ello interesa conocer si los dos métodos de clasificación son estadísticamente independientes; por ejemplo, podemos considerar la población de ingenieros graduado y tal vez deseemos determinar si el salario inicial es independiente de las disciplinas académicas. upóngase !ue el primer método de clasificación tiene r niveles y !ue el segundo método de clasificación tiene c niveles. ea o ij la frecuencia observada para el nivel i del primer método de clasificación y el nivel j del segundo método de clasificación. "os datos aparecerían, en general, como en la tabla. #na tabla de tales características se llama com$nmente tabla de contingencia r % c. Estamos interesados en probar la hipótesis de !ue los métodos de clasificación de renglón y de columna son independientes. i rechazamos esta hipótesis, concluimos !ue hay cierta interacción entre los dos criterios de clasificación. "os procedimientos de prueba e&actos son difíciles de obtener, pero una estadística de prueba apro&imada es valida para n grande. upóngase las o ij como variables variables aleatorias aleatorias multinomiales y pij como la probabilidad probabilidad de de !ue un elemento elegido al azar cae en la celda ijesima, dado !ue las dos clasificaciones son independientes. Entonces pij ' u iv j , donde u i es la probabilidad de !ue un elemento elegido al azar caiga en el renglón de clase i y v j es la probabilidad de !ue un elemento seleccionado en forma aleatoria caiga en la columna de clase j. "uego, suponiendo independencia , los estimadores de m(&ima probabilidad de u i y v j son)
*i '
+ij
* j '
+ij
Una tabla de contingencia r c olumnas
/englones
-
...
c
-
+--
+-
...
+-c
+-
+
...
+c
...
...
...
...
...
r
+r-
+r
...
+rc
En consecuencia, el n$mero esperado de cada celda es
Eij ' n*iv j '
+ij
+ij
Entonces, para n grande, la estadística
%0 '
1 % 2r 3 -4 2c 3 -4
5pro&imadamente, 5pro&imadamente, y rechazaría rechazaríamos mos la hipótesis hipótesis de independencia independencia si si %0 6 %a, 2r 3 -4 2c 3 -4. Prueba de bondad de a!uste de !i"cuadrada El procedimiento de prueba re!uiere una muestra aleatoria de tama7o n de la variable aleatoria %, cuya función de densidad densidad de de probabilidad se desconoce. Estas n observaciones se arreglan en un histograma de frecuencias, teniendo 8 intervalos de clase. ea 0 - la frecuencia observada en el intervalo de la clase iesimo. 9e la distribución de probabilidad hipotética, calculamos la frecuencia esperada en el intervalo de clase iesimo, denotada E -. "a estadística de prueba es)
%0 ' Puede demostrar !ue %: 0 sigue apro&imadamente la distribución ji cuadrada con 81p1- grados de libertad libertad,, donde p representa el numero de par(metros de la distribución hipotética estimada por el medio de estadística de muestra. Esta apro&imación se mejora cuando n aumenta. /echazaríamos la hipótesis de !ue % se ajusta ala distribución hipotética si %: 06%: 81p1#n punto !ue debe advertirse en la aplicación de este procedimiento de prueba se refiere ala magnitud de las frecuencias esperadas. i estas frecuencias esperadas son demasiado pe!ue7as, entonces %: 0 no reflejan la desviación de las observaciones respecto alas esperadas, si no solo las mas pe!ue7as de las frecuencias esperadas. y ? se utilizan ampliamente como mínimos. i la frecuencia esperada es demasiado pe!ue7a, puede combinarse con la frecuencia esperada en un intervalo de clase adyacente. "as frecuencias observadas correspondientes se combinaran también en ese caso, y 8 se reducir( en -.
frecuencias estimadas pueden estimarse sin !ue sea necesario estimular ning$n par(metro a partir de los datos de muestra, la prueba resultante de bondad de ajuste de la ji cuadrada tendr( 81p1-'-0101-'@ grados de libertad. otal 0-=>?FGH@n IIIIIIIIIIIII IIIIIIIIIIIIIIIIIII IIIIIIIIIIIII IIIIIIIIIIIIII IIIIIIIIIIIII IIIIIIIIIIIII IIIIIIIIIIIIII IIIIIIIIIIIIII IIIIIIIIII III Jrecuencia +bservada + @> @= -- -0- -0> @? -00 @@ -0H @> -000 Jrecuencias Esperada E -00 -00 -00 -00 -00 -00 -00 -00 -00 -00 -000 IIIIIIIIIIIII IIIIIIIIIIIIIIIIIII IIIIIIIIIIIII IIIIIIIIIIIIII IIIIIIIIIIIII IIIIIIIIIIIII IIIIIIIIIIIIII IIIIIIIIIIIIII IIIIIIIIII III El valor valor esperado esperado de la estadística de prueba es
%0 '
'
Puesto !ue % '-F.@ no somos capaces de rechazar la hipótesis de !ue los datos proviene de una distribución uniforme discreta. En consecuencia, el generador de n$meros aleatorios parece estar trabajando en forma satisfactoria. %& Test Test de 'ol#og 'ol#ogoro oro(" ("S#i S#irno rno( ( Para la aplicación del test se7alado, es necesario determinar la Jrecuencia observada acumulada. Para la frecuencia observada en el caso especial de Kumbel, se ordena la información de menor a mayor y se aplica)
9onde) Jn 2&4) frecuencia observada acumulada. n)
#na vez determinadas ambas frecuencias, se obtiene el supremo de las diferencias entre ambas, en la i1ésima posición de orden, !ue se denomina 9.
"uego, asumiendo un valor de significancia, se recurre a la tabla de valores críticos de 9 en la prueba de bondad de ajuste de Molmogorov1mirnov, y considerando el tama7o de la muestra, se establece lo siguiente) i 9 N 9 tabla, se acepta !ue 2el ajuste es adecuado, con el nivel de confiabilidad asumido. )&
Proble#as
E!ercicio %. %. 5nte la sospecha de !ue el h(bito de fumar de una embarazada puede influir en el peso de su hijo al nacer, se tomaron dos muestras, una de fumadoras y otra de no fumadoras, y se clasificó a sus hijos en tres categorías en función de su peso en relación con los percentiles O -0 y O@0 de la población. El resultado se e&presa en la tabla siguiente)
Peso del ni7o Aad Aadre re fum fumad ador oraB aB eno enorr de O -0
Entre O-0 y O@0
ayor de O @0
i
--G
?@
-@
->
-->G
--G
AQay una evidencia significativa a favor de la sospecha a la vista de los resultados de la muestraB
PRUEBA *+I"*UADRADA PARA LA BONDAD DEL AJUSTE A lo largo de este curso nos ocu"amos de la "rueba de 'i"#tesis estadísticas acerca de "arámetros de una "oblaci#n como , y P. 5hora se considera una prueba para determinar si una población tiene una distribución teórica específica. "a prueba se basa en !ué tan buen ajuste se tiene entre la frecuencia de ocurrencia de las observaciones en una muestra observada y las frecuencias esperadas !ue se obtienen a partir de la distribución hipotética.
"a formula !ue se utilizar( para calcular el valor de chi1cuadrada es igual a la de la sección anterior, con el mismo concepto de grados de libertad. Ejemplo) -. #na moneda moneda fue lanzad lanzada a al aire -000 -000 series, series, de ? veces veces cada serie serie y se observó el n$mero de caras de cada serie. El n$mero de series en los !ue se presentaron 0, -, -, =, > y ? caras se muestra en la siguiente tabla. N,#ero de series N,#ero de caras
0
=H
-
->>
=>
=
HG
>
-F>
?
?
otal 2% 3. >. ?. ?%
-.recuencia obser(ada/
%000
5justar una distribución binomial a los datos con un ' 0.0?. Soluci Solución: ón: Q0; "os datos se ajustan a una distribución binomial. Q-; "os datos no se ajustan a una distribución binomial. Para obtener los valores esperados se tiene !ue utilizar la formula de la distribución binomial) , donde n en este ejercicio vale ?, p y q son las probabilidades respectivas de cara y sello en un solo lanzamiento de la moneda. Para calcular el valor de p, se sabe !ue 'np en una distribución binomial, por lo !ue ' ?p.
G. Para la distribuc distribución ión de frecuenc frecuencias ias observa observada, da, la media media del n$mero n$mero de caras es) H.
@. Por lo tanto tanto
. 5sí pues, pues, la distribuci distribución ón binomial binomial
ajustada viene dada por p2&4 ' . -0. 5l seguir esta fórmula se calcula la probabilidad de obtener caras, seg$n el valor de la variable aleatoria. "a probabilidad multiplicada por -000 nos dar( el valor esperado. e resumen los resultados en la tabla siguiente) N,#ero de caras -1/
P-1 caras/
2recuencia es$erada
2recuencia obser(ada
0
0.0==
==.
=H
-
0.-F-@
-F-.@
->>
0.=-F
=-F.
=>
=
0.=0HG
=0H.G
HG
>
0.-?0G
-?0.G
-F>
?
0.0@>
@.>
?
--.Para los grados de libertad el valor de m ser( uno, ya !ue se tuvo !ue estimar la media de la población para poder obtener el valor de p y así poder calcular los valores esperados. -.Krados de libertad) 81-1m ' F1-1- ' >
-=. ->./egla de decisión) 15% i %/ @.>@ no se rechaza Qo. -F. -F. i %/ 6@.>@ se rechaza Q o. -G.(lculos)
-H.
Rustificación y decisión) 18% omo el G.?> no es mayor a @.>@, no se rechaza Q0 y se concluye con un ' 0.0? !ue el ajuste de los datos a una distribución binomial es bueno. 0. e propone !ue el n$mero de defectos en las tarjetas de circuito impreso sigue una distribución Poisson. e re$ne una muestra aleatoria de F0 tarjetas de circuito impreso y se observa el n$mero de defectos. "os resultados obtenidos son los siguientes) N,#ero de de.ectos
2recuencia obser(ada
0
=
-
-?
@
= ó m(s
>
21% Auestran estos datos suficiente evidencia para decir !ue provienen de una distribución PoissonB. Qaga la prueba de la bondad del ajuste con un ' 0.0?. 22.Solución: =.Q0; "a forma de la distribución de los defectos es Poisson. >.Q-; "a forma de la distribución de los defectos no es Poisson. ?. "a media de la distribución Poisson propuesta en este ejemplo es desconocida y debe estimarse a partir de los datos contenidos en la muestra.
F. G. 5 partir de la distribución Poisson con par(metro 0.G?, pueden calcularse las probabilidades asociadas con el valor de &. Esto es la fórmula de la Poisson es) H. @. on esta fórmula se calculan las probabilidades, mismas !ue se multiplican por F0 para obtener los valores esperados. N,#ero de de.ectos
Probabilidad
0
0.>G
2recuencia es$erada H.=
2recuencia obser(ada =
-
0.=?>
-.>
-?
0.-==
G.@H
@
= ó m(s
0.0>-
.>F
>
=0. Puesto !ue la frecuencia esperada en la $ltima celda es menor !ue ?, se combinan las dos $ltimas celdas. N,#ero de de.ectos
2recuencia es$erada
2recuencia obser(ada
0
H.=
=
-
-.>
-?
ó m(s
-0.>>
-=
=-. "os grados de libertad serían =1-1-'-, debido a !ue la media de la distribución Poisson fue estimada a partir de los datos.
=. ==./egla de decisión) =% i %/ =.H> no se rechaza Qo. =?. =?. i %/ 6=.H> se rechaza Q o. =F.(lculos)
=G. =H.Rustificación y decisión) 8% omo el .@> no es mayor a =.H>, no se rechaza Q0 y se concluye con un ' 0.0? !ue la distribución de defectos en las tarjetas de circuito impreso es Poisson. =0% Pruebe la hipótesis de !ue la distribución de frecuencia de las duraciones de baterías dadas en la siguiente tabla, se puede apro&imar mediante una distribución normal con media ' =.? y desviación est(ndar
'0.G. #tilice un
' 0.0?. "ímites de clase
2recuencias obser(adas
-.>? 3 -.@?
-.@? 3 .>?
-
.>? 3 .@?
>
.@? 3 =.>?
-?
=.>? 3 =.@?
-0
=.@? 3 >.>?
?
>.>? 3 >.@?
=
Solución:
e procede a elaborar el histograma, para visualizar los datos)
omo se puede observar el histograma tiene una forma !ue aparenta ser normal, se probar( esta hipótesis. Q0; "os datos provienen de una distribución normal. Q-; "os datos no provienen de una distribución normal. En este ejercicio en particular se cuenta con la media y desviación est(ndar de la población, por lo !ue no se tiene !ue estimar. En caso de !ue no se tuviera, se estimarían a partir de los datos agrupados con las fórmulas !ue se vieron en la #nidad CCC del curso de probabilidad y estadística, tomando en cuenta !ue para los grados de libertad el valor de m sería , ya !ue se estimaría la media y la desviación est(ndar.
e proceder( a calcular los valores de z para encontrar las probabilidades en la tabla. /ecordando !ue , se sustituye el valor de & por los límites de clase comenzando con el límite de -.@?
L3#ite real
P-1/
-.@?
1.-
P2& P2&
-.@? -.@?44 ' 0.00.0-=? =?? ?
.>?
1-.?0
P2& P2&
.>? .>?44 ' 0.0F 0.0FFH FH0 0
.@?
10.G@
P2& P2&
.@? .@?44 ' 0.0.->G >GF F
=.>?
10.0G
P2& P2&
=.>? =.>?44 ' 0.>G 0.>G-0 0
=.@?
0.F>
P2& P2&
=.@? =.@?44 ' 0.F 0.F-0 -0@ @
>.>?
-.=F
P2& P2&
>.>? >.>?44 ' 0.0H 0.0HF@ F@-
"a razón por la cual se comienza con el límite de -.@? y se termina con el límite de >.>?, es por!ue la suma de todas las probabilidades debe ser -, bajo la curva normal. 5 continuación se muestra muestra la curva normal con sus respectivas respectivas probabilidades, seg$n los limites reales. "as probabilidades !ue no se muestran en la tabla anterior y est(n en la curva se calcularon por diferencias.
P2-.@? P2-.@?
&
.>?4 .>?4 ' 0.0FFH 0.0FFH10. 10.0-= 0-=??= ??= ' 0.0?= 0.0?=?> ?>
P2.>? P2.>?
&
.@?4 .@?4 ' 0.->G 0.->GF10 F10.0F .0FFH FH ' 0.->G@ 0.->G@?= ?=
P2.@? P2.@?
&
=.>?4 =.>?4 ' 0.>G0.>G-10. 10.-> ->GF GF ' 0.?G= 0.?G=> >
P2=.>? P2=.>?
&
=.?04 =.?04 ' 0.?010 0.?010.>G .>G- ' 0.0G@ 0.0G@
P2=.?0 P2=.?0
&
=.@?4 =.@?4 ' 0.?010 0.?010.F .F-0@ -0@' ' 0.=H 0.=H@@-
P2=.@? P2=.@?
&
>.>?4 >.>?4 ' 0.F-0 0.F-0@10 @10.0H .0HF@F@-? ? ' 0.-G> 0.-G>-G -G
on estas probabilidades se calcular(n los valores esperados, multiplicando cada probabilidad por >0. "ímites de clase
2recuencias obser(adas
Probabilidad
2recuencia es$erada
-.>? 3 -.@?
0.0-=??
0.?>-
-.@? 3 .>?
G-
0.0?=?
.-=0-F
.>? 3 .@?
>
0.->G@?
?.@-H-
.@? 3 =.>?
-?
0.?G=>
-0.@=F0
=.>? 3 =.@?
-0
0.FFH-
-0.FG>0
0.-G>-G
F.@FFH0
0.0HF@-
=.>GFF0
=.@? 3 >.>?
H?
>.>? 3 >.@?
=
Krados de libertad) 81-1m ' >1-10 ' =
/egla de decisión) i %/ G.H-? no se rechaza Qo. i %/ 6G.H-? se rechaza Q o.
(lculos)
Rustificación y decisión) omo el =.0F no es mayor de G.H-?, no se rechaza Q0 y se concluye con un ' 0.0? !ue el ajuste de los datos a una distribución normal es bueno.