ESTADÍSTICA INFERENCIAL I UNIDAD 4 UNIDAD IV
PRUEBAS DE BONDAD DE AJUSTE Y PRUEBAS PRUEB AS NO PARAMETRICAS 4.1 BONDAD DE AJUSTE Las pruebas de bondad de ajuste tratan de verificar si el conjunto de datos se puede ajustar o afirmar que proviene de una determinada distribución. Las pruebas básicas que pueden aplicarse son: la ji-cuadrada y la prueba de Smir Smirno novv-Ko Kolm lmog ogor orov ov.. Ambas mbas prue prueba bass caen caen en la cate catego gor ra a de lo que que en estadstica se denominan pruebas de !"ondad de Ajuste# y miden$ como el nombre lo indica$ el grado de ajuste que e%iste entre la distribución obtenida a partir de la muestra y la distribución teórica que se supone debe seguir esa muestra. Ambas pruebas están basadas en la &ipótesis nula de que no &ay diferen diferencia ciass signif significat icativa ivass entre entre la distri distribuc bución ión muestr muestral al y la teóric teórica$ a$ ' ( es la distribución que se supone sigue la muestra aleatoria. La &ipótesis alternativa siempre se enuncia como que los datos no siguen la distribución supuesta. 'ablamos de bondad de ajuste cuando tratamos de comparar una distribución de frecu frecuenc encia ia obse observa rvada da con con los los valore valoress corre correspo spond ndie ient ntes es de una una dist distri ribuc bució ión n esperad esperada a o teóric teórica. a. Algun Algunos os estudi estudios os produce producen n resulta resultados dos sobre sobre los que no pode podemo moss afir afirma marr que que se cont contri ribu buye yen n norm normal alme ment nte$ e$ es deci decirr con con form forma a acampanada concentradas sobre la media. Su fórmula es la siguiente: k
χ
2
=
∑
[ f
oi
i =1
fo i
− f ei
f ei
) *alor *alor observado en la i-+simo dato.
Página 1
]
2
ESTADÍSTICA INFERENCIAL I UNIDAD 4 fe i
) *alor *alor esperado en la i-+simo dato.
k )
,ategoras o celdas.
m
arámetros estimados sobre la base de los datos de la muestra
)
Los grados de libertad vienen dados por: gl) K-m-. ,riterio de decisión es el siguiente: 2
2
χ ≥ χ t ; K − m−1
Se rec&a/a H ( cuando
. 0n caso contrario se acepta.
1onde t representa el valor proporcionado por las tablas$ seg2n el nivel de significación elegido. ,uanto más se apro%ima a cero el valor de c&i-cuadrada$ más ajustadas están ambas distribuciones.
Página 2
ESTADÍSTICA INFERENCIAL I UNIDAD 4 fe i
) *alor *alor esperado en la i-+simo dato.
k )
,ategoras o celdas.
m
arámetros estimados sobre la base de los datos de la muestra
)
Los grados de libertad vienen dados por: gl) K-m-. ,riterio de decisión es el siguiente: 2
2
χ ≥ χ t ; K − m−1
Se rec&a/a H ( cuando
. 0n caso contrario se acepta.
1onde t representa el valor proporcionado por las tablas$ seg2n el nivel de significación elegido. ,uanto más se apro%ima a cero el valor de c&i-cuadrada$ más ajustadas están ambas distribuciones.
Página 2
ESTADÍSTICA INFERENCIAL I UNIDAD 4
4.1.1 ANALISIS JI-CUADRADA 0s consi conside derad rada a como como una una prue prueba ba no param param+t +tric rica a que mide mide la disc discrep repan anci cia a 3bondad de ajuste4 entre una distribución observada a partir de la muestra y otra teórica que se supone debe seguir esa muestra$ indicando en qu+ medidas las dife diferen renci cias as e%is e%iste tent ntes es entre entre amba ambass se deben deben al a/ar a/ar en el cont contra rast ste e de la &ipótesis. 0sta 0sta prue prueba ba se basa basa en la &ip &ipótes ótesis is nul nula ' ( de que que no &ay &ay dife difere renc ncia iass significativas entre la distribución muestral y la teórica. La estructura básica de la prueba para la bondad de ajuste se muestra en la siguiente tabla: ,lases
5recuencia observada
5recuencia esperada
Foi 1
Fe1
6
Foi 2 2
Fe2
.
.
.
.
.
.
k
Foik n
7otal
Fek n
1onde para calcular la 5recuencia esperada se tiene: 2
χ =
( foi − fei )2 fei
5órmula para el análisis de ji-cuadrada foi =total total de valor valores es del interv interval alo o k
2
χ =
∑ − i 1
( foi− fei )2 fei
fei =numer numero o esperad esperado o de valore valoress enelinterva en elintervalo lo k =numer numero o de interv intervalo aloss de clase clase
Página 3
ESTADÍSTICA INFERENCIAL I UNIDAD 4 Interpretación: cuanto mayor sea el valor de ji-cuadrada menos creble es la
&ipótesis nula '(. 1e la misma forma$ cuanto más se apro%iman acero el valor de 2
χ $ más ajustadas están las distribuciones. 2
χ =0
2
χ > 0
'( se acepta
'( se rec&a/a
4.1.2 PRUEBA DE INDEPENDENCIA La prueba de independencia trata de la comparación de dos situaciones en las cuales podemos esperar que sean dependientes o independientes$ esto quiere decir que$ pueden o no estar relacionados sus datos debido a muc&os factores que pueden influir en ellos$ o bien$ un problema no tenga relación con otro. Su objetivo es determinar si alguna situación es afectada por otra$ basándose en datos estadsticos y valores probabilstico obtenidos de la fabulación de datos o de pronósticos por medio de formulas y tablas$ para esto se basa en un nivel de significancia en un caso y en el otro a comparar$ vali+ndonos de tablas de contingencia para obtener frecuencias esperadas y poder aplicarlas$ para as obtener datos comparativos que son determinantes en la decisión de independencia. ara todas las pruebas de independencia$ las &ipótesis son: '(: las dos variables de clasificación son independientes. ': las dos variables de clasificación son dependientes. Los m+todos para poner a prueba ' ( contra ' son id+nticos a los usados para poner a prueba las diferencias entre proporciones poblacionales basados en la prueba de
6
. 1e nuevo compararemos las frecuencias observadas con las
esperadas$ las obtenidas bajo el supuesto de que ' ($ para determinar que tan grande debe ser el alejamiento permitido para que la &ipótesis de independencia pueda rec&a/arse. Si el valor del estadstico de prueba 6 es mayor o igual que el Página 4
ESTADÍSTICA INFERENCIAL I UNIDAD 4
valor critico calculado$ ya no podremos suponer que pueda resultar de dos variables de clasificación independientes$ siendo esta la ra/ón de que todas las pruebas de 6 sobre independencia sean de cola derec&a. La estadstica de prueba que será utili/ada en la toma de una decisión acerca de la &ipótesis nula es ji cuadrado X 6. Los valores de ji-cuadrada se obtienen con la siguiente fórmula: 2
χ =
∑
2
(Oi −ei )
i
ei
ra!"# !$ l%&$r'a! ( ) *r-1+,*-1+ r$u$/%a E#0$ra!a ) T"'al !$ la "lum/a , T"'al !$l r$/ló/ ra/ '"'al
Cara'$r#'%a# X 6 toma valores no negativos8 es decir$ puede ser cero o positiva. X 6 no es sim+trica8 es asim+trica &acia la derec&a. 0%isten muc&as distribuciones X 6 como en el caso de la distribución t$ &ay una distribución$ X 6 diferente para cada valor de los grados de libertad. 9os dan una tabla de contingencia. 0l procedimiento de la prueba ji-cuadrada puede tambi+n utili/arse para probar la &ipótesis de independencia de dos variables de clasificación.
E3$m0l": Supóngase que desea determinar si las opiniones de los residentes votantes del estado de llinois respecto a una nueva reforma impositiva son independientes de sus niveles de ingreso. ;na muestra aleatoria de ((( votantes registrados del estado de llinois se clasifica de acuerdo con sus ingresos como bajo$ medio y alto Página 5
ESTADÍSTICA INFERENCIAL I UNIDAD 4
y si están a favor o en contra de la nueva reforma impositiva. Las frecuencias observadas se presentan en la siguiente tabla$ la cual se conoce como una tabla de contingencia. Tabla de contingencia 2 x 3
9ivel de ingresos "ajo
=edio
Alto
7otal
A favor
>6
6
6(
?B>
0n contra
?@
>
(
@(6
7otal
C
?
(((
A una tabla de contingencia con r renglones y c columnas se le conoce como una tabla r % c 3!r % c” se lee r por c 4$ a los totales de renglones y columnas en la tabla anterior se les denomina frecuencia marginales. La decisión de aceptar o rec&a/ar la &ipótesis nula$ ' ($ de independencia entre la opinión de votantes respecto a la nueva reforma de impuestos y su nivel de ingresos se basan en que tan bien se ajustan las frecuencias observadas en cada una de las C celdas de la tabla$ y las frecuencias que se esperaran para cada celda bajo la suposición de que '( es verdadera. ara encontrar estas frecuencias esperadas$ defnanse los siguientes eventos:
L: una persona seleccionada esta en el nivel bajo de ingresos. M: una persona seleccionada esta en el nivel medio de ingresos. : una persona seleccionada esta en el nivel alto de ingresos. : una persona seleccionada está a favor de la nueva reforma fiscal. A: una persona seleccionada está en contra de la nueva reforma fiscal.
Página 6
ESTADÍSTICA INFERENCIAL I UNIDAD 4
Al utili/ar las frecuencias marginales$ es posible escribir las siguientes estimaciones de probabilidad: P ( L ) =
P ( F )=
598 1000
$
336 1000
P ( A )=
$
P ( M ) =
351 1000
$
P ( H ) =
313 1000
$
402 1000
A&ora si '( es verdadera y las dos variables son independientes$ debe tenerse: 3L 54 ) 3L4 354 )
( )( )
3L A4 ) 3L4 3A4 )
( )( ) $
⌒
⌒
336
598
1000
1000
336
402
1000
1000
$
3= 54 ) 3=4 354 )
( )( ) $
3= A4 ) 3=4 3A4 )
( )( ) $
⌒
⌒
351
598
1000
1000
351
402
1000
1000
3' 54 ) 3'4 354 )
( )( ) $
3' A4 ) 3'4 3A4 )
( )( ) .
⌒
⌒
313
598
1000
1000
313
402
1000
1000
Las frecuencias esperadas se obtienen al multiplicar cada probabilidad de una celda por el n2mero total de observaciones. ,omo antes$ estas frecuencias se redondean a un decimal de esta manera el n2mero esperado de votantes de bajos Página 7
ESTADÍSTICA INFERENCIAL I UNIDAD 4
ingresos en la muestra y que favorecen la nueva reforma impositiva$ se estima que es:
( )( ) 336
598
1000
1000
% (( )
( 336 ) ( 598 ) 1000
) 6((.B
,uando '( es verdadera. La regla general para obtener la fr$u$/%a $#0$ra!a de cualquier celda la proporciona la siguiente fórmula:
r$u$/%a E#0$ra!a ) T"'al !$ la "lum/a , T"'al !$l r$/ló/ ra/ '"'al La frecuencia esperada para cada celda se registra entre par+ntesis a un lado del valor observado real en la siguiente tabla. 9ótese que la suma de las frecuencias esperadas en cualquier renglón o columna da el total marginal o apropiado. 9ivel de ingresos "ajo
=edio
Alto
7otal
A favor
>636((.B4
636(B.B4
6(3>D.64
?B>
0n contra
?@3?.4
>3@.4
(36?.>4
@(6
7otal
C
?
(((
0n el ejemplo$ se necesitan calcular 2nicamente las dos frecuencias esperadas del renglón de arriba de la tabla y entonces encontrar las otras por sustracción. 0l numero de grados de libertad asociado a la prueba ji cuadrada que se utili/a aqu es igual al n2mero de frecuencias de celdas que pueden llenarse libremente cuando se dan los totales marginales y el gran total8 en este ejemplo ese n2mero es 6. ;na formula simple que proporciona el n2mero correcto de grados de libertad es:
( ) *r-1+,*-1+
Página 8
ESTADÍSTICA INFERENCIAL I UNIDAD 4
de aqu que$ para este ejemplo * ) 36-4E3-4 ) 6 grados de libertad. ara probara la &ipótesis nula de independencia$ se utili/a el siguiente criterio de decisión:
Prueba De Independencia:
,alc2lese: 2
χ =
∑ i
2
(Oi −ei ) ei
1onde la sumatoria se e%tiende a todas las celdas rc en la tabla de contingencia r x c . Si
2
χ >
2
χ α con v ) 3r-43c-4 grados de libertad se rec&a/a la &ipótesis
nula de independencia en el nivel de significancia F8 de lo contrario$ se acepta la &ipótesis nula. Al aplicar este criterio a este ejemplo$ se encuentra que: 2
χ =
(182 −200.9)2 200.9
5
(213− 209.9)2
5
209.9
2
5
( 138−141.1 ) 141.1
(203−187.2 )2 187.2
5
(154 −135.1)2
2
5 P
≅
(110−125.8 ) 125.8
9.92
Página 9
) 6.78
135.1
ESTADÍSTICA INFERENCIAL I UNIDAD 4
1e la tabla de *alores crticos de las distribuciones
6
resulta que
2
χ 0.05
) ?.BB
para v) 36-4 3-4 ) 6 grados de libertad. La &ipótesis nula se rec&a/a. Se concluye que la opinión de un votante referente a la nueva reforma fiscal y su nivel de ingresos no son independientes. 0s importante recordar que el estadstico sobre el cual se basa la decisión tiene una distribución que solo se apro%ima por la distribución G cuadrada. Los valores calculados
6
dependen de las frecuencias de la celda y$ en
consecuencia$ son discretos. La distribución ji cuadrada continua parece apro%imar muy bien la distribución muestral discreta de % 6 en la medida en la que el numero de grados de libertad sea mayor que . 0n una tabla de contingencia de 6 % 6$ donde se tiene 2nicamente un grado de libertad$ se aplica una corrección que recibe el nombre !$ "rr$%ó/ !$ a'$# 0ara "/'%/u%!a! . La formula corregida se convierte entonces en:
2
∑
χ ( corregida )= 2
i
(|Oi − ei|−0.5 ) ei
Si las frecuencias esperadas de celdas son grandes$ los resultados corregidos y sin corregir son casi los mismos. ,uando las frecuencias esperadas están entre ? y ($ debe aplicarse la corrección de Hates. ara frecuencias esperadas menores que ?$ debe utili/arse la prueba e%acta de 5is&er-rIin. Sin embargo$ puede evitarse el uso de la prueba 5is&er-rIin al seleccionar una muestra grande.
Página 10
ESTADÍSTICA INFERENCIAL I UNIDAD 4
4.1.; PRUEBA DE LA BONDAD DEL AJUSTE 0s considerada como una prueba no param+trica que mide la discrepancia entre una distribución observada y otra teórica$ indicando en qu+ medida las diferencias e%isten entre ambas. 0n este tema se describe un procedimiento formal para probar la bondad de ajuste basado en la distribución ji- cuadrada. 0l procedimiento de prueba requiere una muestra aleatoria de tamaJo n de la población cuya distribución de probabilidad es desconocida. stas n observaciones se ordenan en un &istograma de frecuencia$ con k intervalos de clase. Sea i la frecuencia observada en el intervalo de clase i . Se calcula la frecuencia esperada a partir de la distribución de probabilidad &ipot+tica$ para el intervalo de clase i -+simo$ denotado por 0i $ el estadstico de k
2
prueba es:
χ 0=
∑ = i
1
( Oi − Ei )
2
Ei
Página 11
ESTADÍSTICA INFERENCIAL I UNIDAD 4 2
χ 0
ara demostrar que si la población sigue la distribución &ipot+tica propuesta$
tiene$ apro%imadamente$ una distribución ji-cuadrada en donde los grados de libertad vienen dados por: gl) K-m-1 donde m representa el numero de parámetros de la distribución &ipot+tica$ estimados por los estadsticos muestrales. 0sta apro%imación mejora conforme n se incrementa. 0l criterio de decisión es el siguiente: 2 2 Se rec&a/a H ( cuando el valor del estadstico de prueba χ 0 > χ α , k − p−1 . 0n caso
contrario se acepta. 1onde t representa el valor proporcionado por las tablas$ seg2n el nivel de significación elegido. ,uanto más se apro%ima a cero el valor de ji-cuadrada$ más ajustadas están ambas distribuciones. ;n punto que cabe destacar en la aplicación de este procedimiento de prueba se refiere a la
magnitud de las frecuencias esperadas. Si +stas frecuencias
esperadas son muy pequeJas$ entonces el estadstico de prueba
2
χ 0
no
reflejará la desviación de las frecuencias observadas y las esperadas$ no 2nicamente la pequeJa magnitud de las frecuencias esperadas. 9o &ay consenso generali/ado en cuanto al valor mnimo de las frecuencias esperadas$ pero valores de $ @ y ? se usan ampliamente como mnimos. Algunos autores proponen que una frecuencia esperada podra ser tan pequeJa$ como o 6$ siempre que la mayora de ellas e%cedan ?. ,uando una frecuencia esperada sea muy pequeJa$ puede cambiarse con la frecuencia esperada de un intervalo de clase adyacente. Las frecuencias observadas correspondientes tambi+n se combinaran$ y k se
Página 12
ESTADÍSTICA INFERENCIAL I UNIDAD 4
reducira una unidad. 9o es necesario que los intervalos de clase tengan la misma anc&ura. Ejemplo:
;na distribución continua. ;n ingeniero está probando una fuente de poder usada en una computadora notebooM. ;tili/ando F ) (.(?$ el quiere determinar si una distribución normal describe adecuadamente el voltaje de salida. 1e una muestra aleatoria de n ) (( unidades obtiene las estimaciones muestrales de la media y la desviación estándar % ) ?.(@ * y s ) (.(> *. ;na práctica com2n cuando se construyen los intervalos de clase para la distribución de frecuencia usada en la prueba ji-cuadrada de la bondad del ajuste es elegir los limites de clase de las celdas de tal modo que las frecuencias esperadas E i = np i sean iguales para todas lsa celdas o intervalos de clase. ara usar este m+todo$ los limites de clase a0 ,a1,…,ak de los k intervalos de clase se elegiran de tal modo que todas las probabilidades ai
P1
)
P ( ai−1 ≤ X ≤ ai ) =
∫ f ( ) d
ai −1
sean iguales. Suponga que se decide usar k ) > intervalos de clase. ara la distribución normal estándar$ los intervalos que dividen la escala en oc&o segmentos igualmente factibles son N ($ (.64$ N(.6$ (.CD?4$ N(.CD?$ .?4$ N.?$ !
4 y los cuatro intervalos !reflejados# al otro lado de cero.
ara cada intervalo pi ) O> ) (.6?$ por lo que las frecuencias esperadas de las celdas son E i = npi ) ((3(.6?4 ) 6.?. La tabla completa de las frecuencias observadas y las esperadas se presenta a continuación:
I/'$r(al" !$ la#$ % < 4.4! @.B@> P x < @.B>C @.B>C P x Q ?.(@ ?.(@ P x Q ?.(@(
fr$u$/%a "$r(a!a i 12
@ 6 Página 13
fr$u$/%a "$r(a!a E i 12."
6.? 6.? 6.?
ESTADÍSTICA INFERENCIAL I UNIDAD 4
?.(@( P x Q ?.(CC ?.(CC P x Q ?.(B@ ?.(B@ P x < ?.6 ?.6 P x T"'al$#
6 6
6.? 6.? 6.?
14
12."
199
199
La cota del primer intervalo de clase es x R .?s ) @.B@>. ara el segundo intervalo de clase es N x R .?s$ x R (.CD?s4$ y as sucesivamente. uede aplicarse el procedimiento de prueba de &ipótesis de oc&o pasos en este problema. . La variable de inter+s es la forma de la distribución del voltaje de la fuente de poder. 6. '(: la forma de la distribución es normal. . ': la forma de la distribución no es normal. @. F ) (.(? ?. el estadstico de la prueba es:
k
2
χ 0=
∑ = i 1
( Oi − Ei )2 Ei
C. puesto que se estimaron dos parámetros de la distribución normal$ el estadstico ji-cuadrada anterior tiene k-p-1 ) >-6- ) ? grados de libertad. or lo tanto$ se rec&a/ará ' ( si
2
χ 0
2
χ 0.05,5
D. cálculos 8
2 0
χ =
∑ = i 1
( Oi − Ei )2 Ei
(12−12.5 )2 (14 −12.5 )2 (14 −12.5)2 ¿ + + "+ =0.64 12.5
12.5
12.5
Página 14
) .(D
ESTADÍSTICA INFERENCIAL I UNIDAD 4
>. conclusiones: puesto que
2
χ 0 ) (.C@ Q
2
χ 0.05,5
) .(D no puede
rec&a/arse '( y no &ay evidencia robusta que indique que el voltaje de salida no tenga una distribución normal. 0l valor del estadstico jicuadrada
2
χ 0 ) (.C@ es ) (.B>C.
4.1.4 TABLAS DE CONTINENCIA 0n muc&as ocasiones$ los n elementos de una muestra de una población pueden clasificarse con base en dos criterios diferentes. 0ntonces es de inter+s saber si los dos m+todos de clasificación son estadsticamente independientes. Página 15
ESTADÍSTICA INFERENCIAL I UNIDAD 4
Suponga que el primer m+todo de clasificación tiene r niveles y que el segundo tiene c niveles. Será #i$ la frecuencia observada del nivel i del primer m+todo de clasificación y el nivel $ del segundo m+todo de clasificación. Los datos apareceran$ en general$ como en la siguiente tabla. A una tabla como esta se le llama 'a&la !$ "/'%/$/%a r < .
TABLA DE CONTINENCIA r x c C"lum/a# 6 T 6 T
c
6
6
66
T
6c
. . .
. . .
. . .
. . .
. . .
r
rl
r2
T
rc
R$/l"/$#
c
0n estadstica las 'a&la# !$ "/'%/$/%a se emplean para registrar y anali/ar la relación entre dos o más variables$ &abitualmente de naturale/a cualitativa 3nominales u ordinales4. Sea % i$ la probabilidad de que un elemento seleccionado al a/ar est+ en la celda i$, dado que las dos clasificaciones son independientes. 0ntonces pi$ ) &i ' $ , donde &i es la probabilidad de que un elemento seleccionado al a/ar este en la clase del renglón i y ' $ es la probabilidad de que un elemento seleccionado al a/ar est+ en la clase de la columna $. a&ora bien$ con el supuesto de independencia$ los estimadores de &i ( ' $ son u^ i=
1
c
∑o
n #=1
i#
v^ # =
1
n
r
o ∑ = i
i#
1
or lo tanto$ la frecuencia esperada de cada celda es Ei# =n u^ i v^ #=
1
c
r
o ∑o ∑ =
n #=1
i#
i#
i 1
0ntonces$ para n grande$ el estadstico Página 16
ESTADÍSTICA INFERENCIAL I UNIDAD 4
r
2
χ 0=
c
∑ ∑ = = i
1
#
( Oi#− Ei# )
2
Ei#
1
7iene una distribución ji-cuadrada apro%imada con 3 r-4 3 c-4 grados de libertad si la &ipótesis nula es verdadera. or lo tanto$ la &ipótesis de independencia se rec&a/ara si el valor observado del estadstico de prueba
2
χ 0 e%cediera
2
χ α , ( r−1)(c −1)
.
ara calcular grados de libertad se tiene la siguiente fórmula: gl) 3r-43c-4
NOTA: 0l cálculo de grados de libertad nos dará la pauta para calcular el valor total de frecuencias.
E3$m0l":
Página 17
ESTADÍSTICA INFERENCIAL I UNIDAD 4
;na compaJa tiene que elegir entre tres planes de pensiones. La administración quiere saber si la preferencia por los planes es independiente de la clasificación laboral y desea usar F ) (.(?. 0n la siguiente tabla se muestran las opiniones de una muestra aleatoria de ?(( empleados.
Pla/ !$ 0$/#%ó/
6
totales
7rabajadores asalariados
C(
@(
@(
@(
7rabajadores por &ora
@(
C(
C(
C(
7otales
6((
6((
((
?((
Cla#%f%a%ó/ la&"ral
ara encontrar las frecuencias esperadas$ primero debe calcularse u^ =( 340 / 500 ) ) (.C>$ u^ =( 160 / 500 )=¿ (.6$ v^ =( 200 / 500 )=¿ (.@( y 1
2
100 / 500=¿
v^ 3=¿
1
(.6(. A&ora pueden calcularse las frecuencias esperadas con la
ecuación Ei# =n u^ i v^ # =
1
c
r
o ∑o ∑ =
n #= 1
i#
i
i#
1
or ejemplo$ el n2mero esperado de trabajadores asalariados que prefieren el plan de pensión es Ei# =n u^ i v^ #=500 ( 0.68 ) ( 0.40 )=136 0n la siguiente tabla se muestran las frecuencias esperadas.
Pla/ !$ 0$/#%ó/ Cla#%f%a%ó/ la&"ral 7rabajadores asalariados
6
totales
C
C
C>
@(
Página 18
ESTADÍSTICA INFERENCIAL I UNIDAD 4
7rabajadores por &ora 7otales
C@
C@
6
C(
6((
6((
((
?((
A&ora puede aplicarse el procedimiento de prueba de &ipótesis de oc&o pasos en este problema. . La variable de inter+s es la preferencia de los empleados entre los planes de pensiones. 6. '(: la preferencia es independiente de la clasificación laboral asalariado o por &oras. . ': la preferencia no es independiente de la clasificación laboral asalariado o por &oras. @. F ) (.(? ?. el estadstico de prueba es r
2
χ 0=
c
∑ ∑ = = i
1
#
2
( Oi# − Ei# ) Ei#
1
C. puesto que r ) 6 y c ) $ los grados de libertad de ji-cuadrada son 2
2
χ 0 χ 0.05,2 ) ?.BB
3r-14 3c-14) 34364 ) 6$ se rec&a/ara '( si
D. cálculos 2
2
χ 0=
3
∑ ∑ = = i
1
#
2
( Oi# − Ei# ) Ei#
1
2
¿
(160−136 ) 136
2
2
2
2
2
(140−136 ) ( 40 −68 ) (40 −64 ) (60−64 ) (60 −32) + + + + + = 49.63 136
>. conclusiones: puesto que
68
2
64
χ 0 ) @B.C
64
32
2
χ 0.05,2=5.99 $ se rec&a/ará la
&ipótesis de independencia y se concluye que la preferencia por los planes de pensiones no es independiente de la clasificación laboral. 0l valor % para 2
χ 0 ) @B.C es % ) .CD % ( -.
Página 19
ESTADÍSTICA INFERENCIAL I UNIDAD 4
Página 20
ESTADÍSTICA INFERENCIAL I UNIDAD 4
4.1.8 SOT=ARE ESTAD>STICO Los m+todos estadsticos cambiaron con la aparición de los ordenadores. 1esde sus orgenes$ las computadoras se &an empleado en el procedimiento estadstico de datos. 0l procesamiento estadstico es una necesidad muy frecuente en diversas áreas. 1ada esta estandari/ación de necesidades se &an elaborado paquetes estadstico que difieren entre si en los aspectos de capacidad$ facilidad de uso$ subprogramas incorporados$ computadoras en las que se pueden ejecutar$ apoyo 3documentación4 y precio. 1entro del grupo de paquetes estadsticos mundialmente conocidos$ podemos destacar$ además de S7A<7U
Página 21
ESTADÍSTICA INFERENCIAL I UNIDAD 4
0%isten muc&os otros paquetes$ como LS<0L$ SA1$ S7A7A,'$ =97A"$ LSA$ S<S$ A"S7A7 y otros más$ que con más o menos profundidad tocan la mayor parte de las materias estadsticas. or otro lado encontramos otra &erramienta que se utili/a para reali/ar cálculos estadsticos.
La "3a !$ Clul" E<$lCal puede convertirse en una poderosa &erramienta para crear entornos de aprendi/aje que enrique/can la representación 3modelado4$ comprensión y solución de problemas$ en el área de la estadstica y probabilidad. 0%cel ofrece funcionalidades que van más allá de la tabulación$ cálculo de fórmulas y Uraficación de datos: 0n inferencia estadstica calcula los intervalos de confian/a$ el tamaJo de la muestra y se puede aplicar al contraste de &ipótesis$ tanto en el bilateral como en el unilateral. La instalación del programa es muy sencilla$ además =icrosoft 0%cel incluye un comando para el análisis de datos$ dentro de las V&erramientas para el análisisV$ su uso es poco com2n$ ya que no se tiene cuidado de instalar todas las funciones dentro de las V&erramientasV$ perdiendo la oportunidad de utili/ar un medio poderoso para el estudio dentro de la estadstica.
Página 22
ESTADÍSTICA INFERENCIAL I UNIDAD 4
4.2 PRUEBA NO PARAMETRICA La mayor parte de los procedimientos de prueba de &ipótesis que se presentan en las unidades anteriores se basan en la suposición de que las muestras aleatorias se seleccionan de poblaciones normales. Afortunadamente$ la mayor parte de estas pruebas a2n son confiables cuando e%perimentamos ligeras desviaciones de la normalidad$ en particular cuando el tamaJo de la muestra es grande. 7radicionalmente$ estos procedimientos de prueba se denominan m!todos param!tricos. 0n esta sección se consideran varios procedimientos de prueba
alternativos$ llamados no param!tricos ó m!todos de distribución libre $ que a menudo no suponen conocimiento de ninguna clase acerca de las distribuciones de las poblaciones fundamentales$ e%cepto que +stas son continuas. Los procedimientos no param+tricos o de distribución libre se usan con mayor frecuencia por los analistas de datos. 0%isten muc&as aplicaciones en la ciencia y la ingeniera donde los datos se reportan no como valores de un continuo sino más bien en una escala ordinal tal que es bastante natural asignar rangos a los datos. Se debe seJalar que &ay desventajas asociadas con las pruebas no param+tricas. 0n primer lugar no utili/an la información que proporciona la muestra$ y por ello una prueba no param+trica será menos eficiente que el procedimiento param+trico correspondiente$ cuando se pueden aplicar ambos m+todos. 0n consecuencia$ para lograr la misma eficiencia$ una prueba no param+trica requerirá la correspondiente prueba param+trica. ,omo se indicó anteriormente$ ligeras divergencias de la normalidad tienen como resultado desviaciones menores del ideal para las pruebas param+tricas estándar.
Página 23
ESTADÍSTICA INFERENCIAL I UNIDAD 4 E"E#P$ .-
1os jueces deben clasificar cinco marcas de cerve/a de muc&a demanda mediante la asignación de un grado de a la marca que se considera que tiene la mejor calidad global$ un grado 6 a la segunda mejor$ etc+tera. Se puede utili/ar entonces una prueba no param+trica para determinar donde e%iste alg2n acuerdo entre los dos jueces. Se debe seJalar que &ay varias desventajas asociadas con las pruebas no param+tricas. 0n primer lugar$ no utili/an la información que proporciona la muestra$ y por ello una prueba no param+trica será menos eficiente que el procedimiento param+trico correspondiente$ cuando se pueden aplicar ambos m+todos. 0n consecuencia$ para lograr la misma potencia$ una prueba no param+trica requerirá la correspondiente prueba no param+trica. ,omo se indicó antes$ ligeras divergencias de la normalidad tienen como resultado desviaciones menores del ideal para las pruebas param+tricas estándar. 0sto es cierto en particular para la prueba t y la prueba F . 0n el caso de la prueba t y la prueba F $ el valor citado puede ser ligeramente erróneo si e%iste una violación moderada de la suposición de normalidad. 0n resumen$ si se puede aplicar una prueba param+trica y una no param+trica al mismo conjunto de datos$ debemos aplicar la t+cnica param+trica más eficiente. Sin embargo$ se debe reconocer que las suposiciones de normalidad a menudo no se pueden justificar$ y que no siempre se tienen mediciones cuantitativas.
Página 24
ESTADÍSTICA INFERENCIAL I UNIDAD 4
4.2.1 ESCALA DE MEDICION D$f%/%%ó/ !$ $#ala ,ualquier recurso para determinar la magnitud o cantidad de un objeto o &ec&o de cualquier clase8 instrumento para asignar un n2mero o guarismo que indicará cuánto &ay de algo8 un recurso de medición que provee un conjunto de normas 3numeradas de acuerdo con ciertas reglas de trabajo4 con las que se puede comparar el objeto que será medido$ para asignarle un n2mero o valor matemático que represente su magnitud. 0l t+rmino es de amplia aplicación: una escala de alguna clase está incluida en toda medición o estimación. mplcito en cada caso &ay un conjunto de reglas para asignar n2meros o valores: son estas reglas las que dan significado a las cantidades. Los objetos pueden ser perceptuales o conceptuales. La escala de medida de una caracterstica tiene consecuencias en la manera de presentación de la información y el resumen. La escala de medición-grado de precisión de la medida de la caracterstica tambi+n determina los m+todos estadsticos que se usan para anali/ar los datos. or lo tanto$ es importante definir las caractersticas por medir. La# $#ala# !$ m$!%%ó/ m# fr$u$/'$# #"/ la#
#%u%$/'$#: E#ala N"m%/al.- 9o poseen propiedades cuantitativas y sirven 2nicamente para identificar las clases. Los datos empleados con las escalas nominales constan generalmente de la frecuencia de los valores o de la tabulación de n2mero de casos en cada clase$ seg2n la variable que se está estudiando. 0l nivel nominal permite mencionar similitudes y diferencias entre los casos particulares. Los datos evaluados en una escala nominal se llaman tambi+n Vobservaciones cualitativasV$ debido a que describen la calidad de una persona o cosa estudiada$ u Vobservaciones categóricasV porque los valores se agrupan en categoras. or lo regular$ los datos nominales o cualitativos se describen en t+rminos de porcentaje o proporciones. ara e%&ibir este tipo de información se usan con mayor frecuencia tablas de contingencia y gráficas de barras. Página 25
ESTADÍSTICA INFERENCIAL I UNIDAD 4
E#ala Or!%/al .- Las clases en las escalas ordinales no solo se diferencian unas de otras 3caracterstica que define a las escalas nominales4 sino que mantiene una especie de relación entre s. 7ambi+n permite asignar un lugar especfico a cada objeto de un mismo conjunto$ de acuerdo con la intensidad$ fuer/a$ etc.8 presentes en el momento de la medición. ;na caracterstica importante de la escala ordinal es el &ec&o de que$ aunque &ay orden entre las categoras$ la diferencia entre dos categoras adyacentes no es la misma en toda la e%tensión de la escala. Algunas escalas consisten en calificaciones de m2ltiples factores que se agregan despu+s para
llegar
a
un
ndice
general.
1ebe mencionarse brevemente una clase espacial de escala ordinal llamada Vescala de posiciónV$ donde las observaciones se clasifican de mayor a menor 3o viceversa4. Al igual que en las escalas nominales$ se emplean a menudo porcentajes y proporciones en escalas ordinales.
E#ala !$ I/'$r(al" .-
E#ala !$ Raó/ .- ,onstituye el nivel óptimo de medición$ posee un cero verdadero como origen$ tambi+n denominada escala de proporciones. La e%istencia de un cero$ natural y absoluto$ significa la posibilidad de que el objeto estudiado care/ca de propiedad medida$ además de permitir todas las operaciones aritm+ticas y el uso de n2meros representada cantidades reales de la
propiedad
medida.
,on esto notamos que esta escala no puede ser usada en los fenómenos psicológicos$ pues no se puede &ablar de cero inteligencia o cero aprendi/aje$ etc.
Página 26
ESTADÍSTICA INFERENCIAL I UNIDAD 4
4.2.2 METODOS ESTAD>STICOS CONTRA NO PARAMETRICOS .- 0L ,AS 10 1S =;0S7
ESTADÍSTICA INFERENCIAL I UNIDAD 4
L"# m'"!"# $#'a!#'%"# /" 0aram'r%"# a!$ua!"# 0ara $#'"# a#"# #"/:
6.-0L ,AS 10 K =;0S7
Página 28
ESTADÍSTICA INFERENCIAL I UNIDAD 4
E/ $l a#" /" 0aram'r%" '$/$m"#:
Página 29
ESTADÍSTICA INFERENCIAL I UNIDAD 4
EJEMPLO: ;na compaJa de ta%is trata de decidir si el uso de llantas radiales en lugar de llantas regulares con cinturón mejora la economa de combustible.se equipan C automóviles con llantas radiales y se manejan por un recorrido de prueba establecido. Sin cambiar de conductores$ se equipan los mismos autos con las llantas regulares con cinturón y se manejan una ve/ más por el recorrido de prueba.se registra el consumo de gasolina$ en Milómetros por litro$ de la siguiente manera:
Au'"mó(%l 6 @ ? C D > B ( 6 @ ? C
Lla/'a# ra!%al$# @.6 @.D C.C D.( C.D @.? ?.D C.( D.@ @.B C. ?.6 ?.D C.B C.> @.B
lla/'a# "/ %/'uró/ @. @.B C.6 C.B C.> @.@ ?.D ?.> C.B @.B C.( @.B ?. C.? D. @.>
Wodemos concluir en el nivel de significancia de (.(? que los autos equipados con llantas radiales obtienen mejores economas de combustible que los equipados con llantas regulares con cinturónX Página 30
ESTADÍSTICA INFERENCIAL I UNIDAD 4
S"lu%ó/: representemos con
Y y Y6 los Milómetros por litro promedio
para los autos equipados con llantas radiales y con cinturón$ respectivamente.
1. 2. ;. 4. 8.
F: Y- Y6) (
1: Y- Y6 G 9 F) (.(? E#'a!#'%a !$ 0ru$&a : variable binomial < con p) Z Clul"#: despu+s de reempla/ar cada diferencia positiva con un smbolo ! [ \\ y cada diferencia negativa con un smbolo V-$ y despu+s descartar las dos diferencias cero $obtenemos la secuencia [ - [ - [ - [ - [ - [ - [ - [ - [ -[ - [
ara la que n) @ y % ). ,on el uso de la apro%imación de la curva normal$ encontramos que
]) (.? R D ) .>D
H@O6
H entonces ) 3^ _ 4 ` 3 ].>D4) (.((D
. DECISION: rec&a/ar " y concluir que$ en promedio$ las llantas radiales mejoran la economa de combustible.
4.2.; PRUEBA DE OLMOOROK SMIRNOK
Página 31
ESTADÍSTICA INFERENCIAL I UNIDAD 4
0
es continuo$ es necesario apro%imar
F 0 ( )
mediante el agrupamiento de los datos observados en un n2mero finito de intervalos de clase. 0ste requisito de agrupar los datos implica tener una muestra más o menos grande. 1e esta manera$ la prueba de bondad de ajuste c&icuadrada se encuentra limitada cuando
F 0 ( )
es continua y la muestra
aleatoria disponible tiene un tamaJo pequeJo. ;na prueba de bondad de ajuste más apropiada que la c&i-cuadrada cuando F ( ) es continua$ es la basad en 0
la estadstica de Kolmogorov R Smirnov. La prueba de Kolmogorov R Smirnov no necesita que los datos se encuentren agrupados y es aplicable a muestras de tamaJo pequeJo. sta se basa en una comparación entre las funciones de distribución acumulativa que se observa en la muestra ordenada y la distribución propuesta bajo la &ipótesis nula. Si esta comparación revela una diferencia suficientemente grande entre las funciones de distribución muestral y propuesta$ entonces la &ipótesis nula de que la distribución es F 0 ( ) $ se rec&a/a. H 0 : F ( )¿ F 0( )
,onsid+rese la &ipótesis nula por
especifica en forma completa. 1enótese por
X ( 1) , X (2) ," , X ( n)
ordenadas de una muestra aleatoria de tamaJo distribución acumulativa muestral como
{
0
< (1 ) ,
$ n ( )= k / n ( k ) ≤ < (k + 1) , 1 % n &
Página 32
$ en donde
n
F 0 ( )
se
a las observaciones
y defnase la función de
ESTADÍSTICA INFERENCIAL I UNIDAD 4
0n otras palabras$ para cualquier valor ordenado de la muestra aleatoria$ $ n ( )
es la proporción del n2mero de valores en la muestra que son iguales o
menores a . Ha que F 0 ( ) se encuentra completamente especificada$ es posible evaluar a F ( ) para alg2n valor deseado de $ y entonces compara 0
este 2ltimo con el valor correspondiente de
$ n ( )
. Si la &ipótesis nula es
verdadera$ entonces es lógico esperar que la diferencia sea relativamente pequeJa. La estadstica de Kolmogorov R Smirnov se define como 'n=
La estadstica
'n
m( |$ n ( )− F 0 ( )| .
tiene una distribución que es independiente del modelo
propuesto bajo la &ipótesis nula. or esta ra/ón$ se dice 'n es una estadstica independiente de la distribución. Lo anterior da como resultado que la función de distribución para cualquier
F 0 ( )
. 0n la tabla G del ap+ndice$ se proporcionan
los valores cuantiles superiores de
'n
para varios valores de la muestra. 0l
lector debe notar que los valores asintóticos de
dn
que se encuentran en la
parte inferior de la tabla proporcionan una adecuada apro%imación para los valores de n mayores de ?(. ara un tamaJo
(
P 'n >
∝
del error de tipo i, la región crtica es de la forma
)
c =∝ & √ n
Página 33
ESTADÍSTICA INFERENCIAL I UNIDAD 4
1e acuerdo con lo anterior$ la &ipótesis H se rec&a/a si para alg2n valor 0
observado del valor 'n
se encuentra dentro de la región crtica de tamaJo
α&
,omo se &i/o anteriormente$ la estadstica de Kolmogorov R Smirnov es$ en general$ superior a la prueba de bondad de ajuste c&i R cuadrada cuando los datos involucran una variable aleatoria continua$ debido a que no es necesario agrupar los datos. Además$ la prueba de Kolmogorov R Smirnov tiene la atractiva propiedad de ser aplicable a muestras de tamaJo pequeJo. or otro lado$ la estadstica se encuentra limitada$ ya que el modelo propuesto bajo
H 0
debe
especificarse en forma completa. La estadstica de Kolmogorov R Smirnov no se aplica a todos aquellos casos para los que as observaciones no son in&erentemente cuantitativas a consecuencia de las ambigedades que pueden surgir cuando se ordenan las observaciones.
4.2.4 PRUEBA DE ANDERSON-DARLIN. 0sta prueba compara la función de distribución acumulada emprica de los datos de su muestra con la distribución esperada si los datos son normales. Si esta diferencia observada es suficientemente grande$ la prueba rec&a/ará la &ipótesis nula de normalidad en la población. 0n estadstica$ la 0ru$&a !$ A/!$r#"/-Darl%/ es una prueba no param+trica sobre si los datos de una muestra provienen de una distribución especfica. La fórmula para el estadstico A determina si los datos
3observar
que los datos se deben ordenar4 vienen de una distribución con función acumulativa 5 A6 ) 9 S 1onde: Página 34
ESTADÍSTICA INFERENCIAL I UNIDAD 4
0l estadstico de la prueba se puede entonces comparar contra las distribuciones del estadstico de prueba 3dependiendo que 5 se utili/a4 para determinar el -valor.
4.2.8 PRUEBA DE RYAN-JOINER 0sta prueba eval2a la normalidad calculando la correlación entre sus datos y las puntuaciones normales de sus datos. Si el coeficiente de correlación se encuentra cerca de $ es probable que la población sea normal. La estadstica de
Página 35
ESTADÍSTICA INFERENCIAL I UNIDAD 4
4.2. PRUEBA DE SAPPIRO =IL 0n estadstica$ la prueba de S&appiroRilM$ se usa para contrastar la normalidad de un conjunto de datos. Se plantea como &ipótesis nula que una muestra X $...$ X n proviene de una población normalmente distribuida. Se considera uno de las
pruebas más potentes para el contraste de normalidad$ sobre todo para muestras pequeJas 3nQ(4. 0l estadstico de la prueba de S&appiro R ilM es:
1onde: •
(i)
) con el subndice i entre par+ntesis es el n2mero que ocupa la i-
)sima posición en la muestra8 •
•
) 3 x [ ... [ x n4 O n es la media muestral8 Las constantes ai se calculan
Página 36
ESTADÍSTICA INFERENCIAL I UNIDAD 4
1onde:
Siendo m$...$ mn son los valores medios del estadstico ordenado$ de variables aleatorias independientes e
id+nticamente
distribuidas$ muestreadas
de
distribuciones normales. * es la matri/ de covarian/as de ese estadstico de orden. La &ipótesis nula se rec&a/ará si + es demasiado pequeJo.
CONCLUSION 1e esta manera concluyo que &ay que tener muy substancial tener siempre en cuenta la escala de medición que se está utili/ando$ pues no todos los procedimientos estadsticos son apropiados para cualquier análisis. 0n general$ las variables estadsticas se clasifican en variables continuas o cuantitativas y variables discretas o cualitativas$ seg2n el nivel de escala en que est+n medidas. Las variables continuas se refieren a magnitudes medidas en escala de intervalos o de ra/ón$ mientras que las variables discretas comprenden magnitudes medidas en escalas de nivel nominal y ordinal. or otro lado puedo concluir que las pruebas no param+tricas se encargan de estudiar las pruebas y modelos estadsticos cuya distribución no se ajusta8 o sea que no asumen ning2n parámetro de las variables mu+strales$ por eso es muy importante el conocimiento de las pruebas no param+tricas$ ya que se aplica en la administración debido a la prueba de la tabla de contingencia como la de bondad de ajuste anali/an datos nominales u ordinales. 0stas pruebas$ se usan ampliamente en las aplicaciones de negocios$ lo que demuestra la importancia de la &abilidad para manejar datos categóricos o jerarqui/ados además de los cuantitativos. Página 37
ESTADÍSTICA INFERENCIAL I UNIDAD 4
BIBLIORA>A robabilidad y estadstica aplicadas a la ingeniera. 6 edición =ontgomery
Página 38