pruebas de bondad de ajsute y pruebas no parametricas

ESTADÍSTICA INFERENCIAL I UNIDAD 4 UNIDAD IV

PRUEBAS DE BONDAD DE AJUSTE Y PRUEBAS PRUEB AS NO PARAMETRICAS 4.1 BONDAD DE AJUSTE Las pruebas de bondad de ajuste tratan de verificar si el conjunto de datos se puede ajustar o afirmar que proviene de una determinada distribución. Las pruebas básicas que pueden aplicarse son: la ji-cuadrada y la prueba de Smir Smirno novv-Ko Kolm lmog ogor orov ov.. Ambas mbas prue prueba bass caen caen en la cate catego gor ra a de lo que que en estadstica se denominan pruebas de !"ondad de Ajuste# y miden$ como el nombre lo indica$ el grado de ajuste que e%iste entre la distribución obtenida a partir de la muestra y la distribución teórica que se supone debe seguir esa muestra. Ambas pruebas están basadas en la &ipótesis nula de que no &ay diferen diferencia ciass signif significat icativa ivass entre entre la distri distribuc bución ión muestr muestral al y la teóric teórica$ a$ ' ( es la distribución que se supone sigue la muestra aleatoria. La &ipótesis alternativa siempre se enuncia como que los datos no siguen la distribución supuesta. 'ablamos de bondad de ajuste cuando tratamos de comparar una distribución de frecu frecuenc encia ia obse observa rvada da con con los los valore valoress corre correspo spond ndie ient ntes es de una una dist distri ribuc bució ión n esperad esperada a o teóric teórica. a. Algun Algunos os estudi estudios os produce producen n resulta resultados dos sobre sobre los que no pode podemo moss afir afirma marr que que se cont contri ribu buye yen n norm normal alme ment nte$ e$ es deci decirr con con form forma a acampanada concentradas sobre la media. Su fórmula es la siguiente: k

χ

2

=

∑

[ f

oi

i =1

fo i

− f ei

f ei

) *alor *alor observado en la i-+simo dato.

Página 1

]

2

ESTADÍSTICA INFERENCIAL I UNIDAD 4 fe i

) *alor *alor esperado en la i-+simo dato.

k )

,ategoras o celdas.

m

arámetros estimados sobre la base de los datos de la muestra

)

Los grados de libertad vienen dados por: gl) K-m-. ,riterio de decisión es el siguiente: 2

2

χ ≥ χ t ; K − m−1

Se rec&a/a H ( cuando

. 0n caso contrario se acepta.

1onde t representa el valor proporcionado por las tablas$ seg2n el nivel de significación elegido. ,uanto más se apro%ima a cero el valor de c&i-cuadrada$ más ajustadas están ambas distribuciones.

Página 2

ESTADÍSTICA INFERENCIAL I UNIDAD 4 fe i

) *alor *alor esperado en la i-+simo dato.

k )

,ategoras o celdas.

m

arámetros estimados sobre la base de los datos de la muestra

)

Los grados de libertad vienen dados por: gl) K-m-. ,riterio de decisión es el siguiente: 2

2

χ ≥ χ t ; K − m−1

Se rec&a/a H ( cuando

. 0n caso contrario se acepta.

1onde t representa el valor proporcionado por las tablas$ seg2n el nivel de significación elegido. ,uanto más se apro%ima a cero el valor de c&i-cuadrada$ más ajustadas están ambas distribuciones.

Página 2

ESTADÍSTICA INFERENCIAL I UNIDAD 4

4.1.1 ANALISIS JI-CUADRADA 0s consi conside derad rada a como como una una prue prueba ba no param param+t +tric rica a que mide mide la disc discrep repan anci cia a 3bondad de ajuste4 entre una distribución observada a partir de la muestra y otra teórica que se supone debe seguir esa muestra$ indicando en qu+ medidas las dife diferen renci cias as e%is e%iste tent ntes es entre entre amba ambass se deben deben al a/ar a/ar en el cont contra rast ste e de la &ipótesis. 0sta 0sta prue prueba ba se basa basa en la &ip &ipótes ótesis is nul nula ' ( de que que no &ay &ay dife difere renc ncia iass significativas entre la distribución muestral y la teórica. La estructura básica de la prueba para la bondad de ajuste se muestra en la siguiente tabla: ,lases 

5recuencia observada

5recuencia esperada

Foi 1

Fe1

6

Foi 2 2

Fe2

.

.

.

.

.

.

k

Foik n

7otal

Fek n

1onde para calcular la 5recuencia esperada se tiene: 2

χ =

( foi − fei )2 fei

5órmula para el análisis de ji-cuadrada foi =total total de valor valores es del interv interval alo o k

2

χ =

∑ − i 1

( foi− fei )2 fei

fei =numer numero o esperad esperado o de valore valoress enelinterva en elintervalo lo k =numer numero o de interv intervalo aloss de clase clase

Página 3

ESTADÍSTICA INFERENCIAL I UNIDAD 4 Interpretación: cuanto mayor sea el valor de ji-cuadrada menos creble es la

&ipótesis nula '(. 1e la misma forma$ cuanto más se apro%iman acero el valor de 2

χ $ más ajustadas están las distribuciones. 2

χ =0

2

χ > 0

'( se acepta

'( se rec&a/a

4.1.2 PRUEBA DE INDEPENDENCIA La prueba de independencia trata de la comparación de dos situaciones en las cuales podemos esperar que sean dependientes o independientes$ esto quiere decir que$ pueden o no estar relacionados sus datos debido a muc&os factores que pueden influir en ellos$ o bien$ un problema no tenga relación con otro. Su objetivo es determinar si alguna situación es afectada por otra$ basándose en datos estadsticos y valores probabilstico obtenidos de la fabulación de datos o de pronósticos por medio de formulas y tablas$ para esto se basa en un nivel de significancia en un caso y en el otro a comparar$ vali+ndonos de tablas de contingencia para obtener frecuencias esperadas y poder aplicarlas$ para as obtener datos comparativos que son determinantes en la decisión de independencia. ara todas las pruebas de independencia$ las &ipótesis son: '(: las dos variables de clasificación son independientes. ': las dos variables de clasificación son dependientes. Los m+todos para poner a prueba ' ( contra ' son id+nticos a los usados para poner a prueba las diferencias entre proporciones poblacionales basados en la prueba de

6 

. 1e nuevo compararemos las frecuencias observadas con las

esperadas$ las obtenidas bajo el supuesto de que ' ($ para determinar que tan grande debe ser el alejamiento permitido para que la &ipótesis de independencia pueda rec&a/arse. Si el valor del estadstico de prueba  6 es mayor o igual que el Página 4


valor critico calculado$ ya no podremos suponer que pueda resultar de dos variables de clasificación independientes$ siendo esta la ra/ón de que todas las pruebas de  6 sobre independencia sean de cola derec&a. La estadstica de prueba que será utili/ada en la toma de una decisión acerca de la &ipótesis nula es ji cuadrado X 6. Los valores de ji-cuadrada se obtienen con la siguiente fórmula: 2

χ =

∑

2

(Oi −ei )

i

ei

ra!"# !$ l%&$r'a! ( ) *r-1+,*-1+ r$u$/%a E#0$ra!a ) T"'al !$ la "lum/a , T"'al !$l r$/ló/ ra/ '"'al

Cara'$r#'%a#  X 6 toma valores no negativos8 es decir$ puede ser cero o positiva.  X 6 no es sim+trica8 es asim+trica &acia la derec&a.  0%isten muc&as distribuciones X 6 como en el caso de la distribución t$ &ay una distribución$ X 6 diferente para cada valor de los grados de libertad.  9os dan una tabla de contingencia. 0l procedimiento de la prueba ji-cuadrada puede tambi+n utili/arse para probar la &ipótesis de independencia de dos variables de clasificación.

E3$m0l": Supóngase que desea determinar si las opiniones de los residentes votantes del estado de llinois respecto a una nueva reforma impositiva son independientes de sus niveles de ingreso. ;na muestra aleatoria de ((( votantes registrados del estado de llinois se clasifica de acuerdo con sus ingresos como bajo$ medio y alto Página 5


y si están a favor o en contra de la nueva reforma impositiva. Las frecuencias observadas se presentan en la siguiente tabla$ la cual se conoce como una tabla de contingencia. Tabla de contingencia 2 x 3

9ivel de ingresos "ajo

=edio

Alto

7otal

A favor

>6

6

6(

?B>

0n contra

?@

>

(

@(6

7otal

C

?



(((

A una tabla de contingencia con r renglones y c columnas se le conoce como una tabla r % c 3!r % c” se lee r por c 4$ a los totales de renglones y columnas en la tabla anterior se les denomina frecuencia marginales. La decisión de aceptar o rec&a/ar la &ipótesis nula$ ' ($ de independencia entre la opinión de votantes respecto a la nueva reforma de impuestos y su nivel de ingresos se basan en que tan bien se ajustan las frecuencias observadas en cada una de las C celdas de la tabla$ y las frecuencias que se esperaran para cada celda bajo la suposición de que '( es verdadera. ara encontrar estas frecuencias esperadas$ defnanse los siguientes eventos:

L: una persona seleccionada esta en el nivel bajo de ingresos. M: una persona seleccionada esta en el nivel medio de ingresos. : una persona seleccionada esta en el nivel alto de ingresos. : una persona seleccionada está a favor de la nueva reforma fiscal. A: una persona seleccionada está en contra de la nueva reforma fiscal.

Página 6


Al utili/ar las frecuencias marginales$ es posible escribir las siguientes estimaciones de probabilidad: P ( L ) =

P ( F )=

598 1000

$

336 1000

P ( A )=

$

P ( M ) =

351 1000

$

P ( H ) =

313 1000

$

402 1000

A&ora si '( es verdadera y las dos variables son independientes$ debe tenerse:  3L 54 )  3L4  354 )

( )( )

 3L A4 )  3L4  3A4 )

( )( ) $

⌒

⌒

336

598

1000

1000

336

402

1000

1000

$

 3= 54 )  3=4  354 )

( )( ) $

 3= A4 )  3=4  3A4 )

( )( ) $

⌒

⌒

351

598

1000

1000

351

402

1000

1000

 3' 54 )  3'4  354 )

( )( ) $

 3' A4 )  3'4  3A4 )

( )( ) .

⌒

⌒

313

598

1000

1000

313

402

1000

1000

Las frecuencias esperadas se obtienen al multiplicar cada probabilidad de una celda por el n2mero total de observaciones. ,omo antes$ estas frecuencias se redondean a un decimal de esta manera el n2mero esperado de votantes de bajos Página 7


ingresos en la muestra y que favorecen la nueva reforma impositiva$ se estima que es:

( )( ) 336

598

1000

1000

% (( )

( 336 ) ( 598 ) 1000

) 6((.B

,uando '( es verdadera. La regla general para obtener la fr$u$/%a $#0$ra!a de cualquier celda la proporciona la siguiente fórmula:

r$u$/%a E#0$ra!a ) T"'al !$ la "lum/a , T"'al !$l r$/ló/ ra/ '"'al La frecuencia esperada para cada celda se registra entre par+ntesis a un lado del valor observado real en la siguiente tabla. 9ótese que la suma de las frecuencias esperadas en cualquier renglón o columna da el total marginal o apropiado. 9ivel de ingresos "ajo

=edio

Alto

7otal

A favor

>636((.B4

636(B.B4

6(3>D.64

?B>

0n contra

?@3?.4

>3@.4

(36?.>4

@(6

7otal

C

?



(((

0n el ejemplo$ se necesitan calcular 2nicamente las dos frecuencias esperadas del renglón de arriba de la tabla y entonces encontrar las otras por sustracción. 0l numero de grados de libertad asociado a la prueba ji cuadrada que se utili/a aqu es igual al n2mero de frecuencias de celdas que pueden llenarse libremente cuando se dan los totales marginales y el gran total8 en este ejemplo ese n2mero es 6. ;na formula simple que proporciona el n2mero correcto de grados de libertad es:

( ) *r-1+,*-1+

Página 8


de aqu que$ para este ejemplo * ) 36-4E3-4 ) 6 grados de libertad. ara probara la &ipótesis nula de independencia$ se utili/a el siguiente criterio de decisión:

Prueba De Independencia:

,alc2lese: 2

χ =

∑ i

2

(Oi −ei ) ei

1onde la sumatoria se e%tiende a todas las celdas rc en la tabla de contingencia r x c . Si

2

χ >

2

χ α con v ) 3r-43c-4 grados de libertad se rec&a/a la &ipótesis

nula de independencia en el nivel de significancia F8 de lo contrario$ se acepta la &ipótesis nula. Al aplicar este criterio a este ejemplo$ se encuentra que: 2

χ =

(182 −200.9)2 200.9

5

(213− 209.9)2

5

209.9

2

5

( 138−141.1 ) 141.1

(203−187.2 )2 187.2

5

(154 −135.1)2

2

5 P

≅

(110−125.8 ) 125.8

9.92

Página 9

) 6.78

135.1


1e la tabla de *alores crticos de las distribuciones

6 

resulta que

2

χ 0.05

) ?.BB

para v) 36-4 3-4 ) 6 grados de libertad. La &ipótesis nula se rec&a/a. Se concluye que la opinión de un votante referente a la nueva reforma fiscal y su nivel de ingresos no son independientes. 0s importante recordar que el estadstico sobre el cual se basa la decisión tiene una distribución que solo se apro%ima por la distribución G cuadrada. Los valores calculados

6 

dependen de las frecuencias de la celda y$ en

consecuencia$ son discretos. La distribución ji cuadrada continua parece apro%imar muy bien la distribución muestral discreta de % 6 en la medida en la que el numero de grados de libertad sea mayor que . 0n una tabla de contingencia de 6 % 6$ donde se tiene 2nicamente un grado de libertad$ se aplica una corrección que recibe el nombre !$ "rr$%ó/ !$ a'$# 0ara "/'%/u%!a! . La formula corregida se convierte entonces en:

2

∑

χ ( corregida )= 2

i

(|Oi − ei|−0.5 ) ei

Si las frecuencias esperadas de celdas son grandes$ los resultados corregidos y sin corregir son casi los mismos. ,uando las frecuencias esperadas están entre ? y ($ debe aplicarse la corrección de Hates. ara frecuencias esperadas menores que ?$ debe utili/arse la prueba e%acta de 5is&er-rIin. Sin embargo$ puede evitarse el uso de la prueba 5is&er-rIin al seleccionar una muestra grande.

Página 10


4.1.; PRUEBA DE LA BONDAD DEL AJUSTE 0s considerada como una prueba no param+trica que mide la discrepancia entre una distribución observada y otra teórica$ indicando en qu+ medida las diferencias e%isten entre ambas. 0n este tema se describe un procedimiento formal para probar la bondad de ajuste basado en la distribución ji- cuadrada. 0l procedimiento de prueba requiere una muestra aleatoria de tamaJo n de la población cuya distribución de probabilidad es desconocida. stas n observaciones se ordenan en un &istograma de frecuencia$ con k intervalos de clase. Sea  i la frecuencia observada en el intervalo de clase i . Se calcula la frecuencia esperada a partir de la distribución de probabilidad &ipot+tica$ para el intervalo de clase i -+simo$ denotado por 0i $ el estadstico de k

2

prueba es:

χ 0=

∑ = i

1

( Oi − Ei )

2

Ei

Página 11

ESTADÍSTICA INFERENCIAL I UNIDAD 4 2

χ 0

ara demostrar que si la población sigue la distribución &ipot+tica propuesta$

tiene$ apro%imadamente$ una distribución ji-cuadrada en donde los grados de libertad vienen dados por: gl) K-m-1 donde m representa el numero de parámetros de la distribución &ipot+tica$ estimados por los estadsticos muestrales. 0sta apro%imación mejora conforme n se incrementa. 0l criterio de decisión es el siguiente: 2 2 Se rec&a/a H ( cuando el valor del estadstico de prueba χ 0 > χ α , k − p−1 . 0n caso

contrario se acepta. 1onde t representa el valor proporcionado por las tablas$ seg2n el nivel de significación elegido. ,uanto más se apro%ima a cero el valor de ji-cuadrada$ más ajustadas están ambas distribuciones. ;n punto que cabe destacar en la aplicación de este procedimiento de prueba se refiere a la

magnitud de las frecuencias esperadas. Si +stas frecuencias

esperadas son muy pequeJas$ entonces el estadstico de prueba

2

χ 0

no

reflejará la desviación de las frecuencias observadas y las esperadas$ no 2nicamente la pequeJa magnitud de las frecuencias esperadas. 9o &ay consenso generali/ado en cuanto al valor mnimo de las frecuencias esperadas$ pero valores de $ @ y ? se usan ampliamente como mnimos. Algunos autores proponen que una frecuencia esperada podra ser tan pequeJa$ como  o 6$ siempre que la mayora de ellas e%cedan ?. ,uando una frecuencia esperada sea muy pequeJa$ puede cambiarse con la frecuencia esperada de un intervalo de clase adyacente. Las frecuencias observadas correspondientes tambi+n se combinaran$ y k se

Página 12


reducira una unidad. 9o es necesario que los intervalos de clase tengan la misma anc&ura. Ejemplo:

;na distribución continua. ;n ingeniero está probando una fuente de poder usada en una computadora notebooM. ;tili/ando F ) (.(?$ el quiere determinar si una distribución normal describe adecuadamente el voltaje de salida. 1e una muestra aleatoria de n ) (( unidades obtiene las estimaciones muestrales de la media y la desviación estándar % ) ?.(@ * y s ) (.(> *. ;na práctica com2n cuando se construyen los intervalos de clase para la distribución de frecuencia usada en la prueba ji-cuadrada de la bondad del ajuste es elegir los limites de clase de las celdas de tal modo que las frecuencias esperadas E i = np i sean iguales para todas lsa celdas o intervalos de clase. ara usar este m+todo$ los limites de clase a0 ,a1,…,ak de los k intervalos de clase se elegiran de tal modo que todas las probabilidades ai

P1

)

P ( ai−1 ≤ X ≤ ai ) =

∫ f (  ) d

ai −1

sean iguales. Suponga que se decide usar k ) > intervalos de clase. ara la distribución normal estándar$ los intervalos que dividen la escala en oc&o segmentos igualmente factibles son N ($ (.64$ N(.6$ (.CD?4$ N(.CD?$ .?4$ N.?$ !

4 y los cuatro intervalos !reflejados# al otro lado de cero.

ara cada intervalo pi ) O> ) (.6?$ por lo que las frecuencias esperadas de las celdas son E i = npi ) ((3(.6?4 ) 6.?. La tabla completa de las frecuencias observadas y las esperadas se presenta a continuación:

I/'$r(al" !$ la#$ % < 4.4! @.B@> P x < @.B>C @.B>C P x Q ?.(@ ?.(@ P x Q ?.(@(

fr$u$/%a "&#$r(a!a  i 12

@ 6  Página 13

fr$u$/%a "&#$r(a!a E i 12."

6.? 6.? 6.?


?.(@( P x Q ?.(CC ?.(CC P x Q ?.(B@ ?.(B@ P x < ?.6 ?.6 P x T"'al$#

6  6

6.? 6.? 6.?

14

12."

199

199

La cota del primer intervalo de clase es x R .?s ) @.B@>. ara el segundo intervalo de clase es N x R .?s$ x R (.CD?s4$ y as sucesivamente. uede aplicarse el procedimiento de prueba de &ipótesis de oc&o pasos en este problema. . La variable de inter+s es la forma de la distribución del voltaje de la fuente de poder. 6. '(: la forma de la distribución es normal. . ': la forma de la distribución no es normal. @. F ) (.(? ?. el estadstico de la prueba es:

k

2

χ 0=

∑ = i 1

( Oi − Ei )2 Ei

C. puesto que se estimaron dos parámetros de la distribución normal$ el estadstico ji-cuadrada anterior tiene k-p-1 ) >-6- ) ? grados de libertad. or lo tanto$ se rec&a/ará ' ( si

2

χ 0



2

χ 0.05,5

D. cálculos 8

2 0

χ =

∑ = i 1

( Oi − Ei )2 Ei

(12−12.5 )2 (14 −12.5 )2 (14 −12.5)2 ¿ + + "+ =0.64 12.5

12.5

12.5

Página 14

) .(D


>. conclusiones: puesto que

2

χ 0 ) (.C@ Q

2

χ 0.05,5

) .(D no puede

rec&a/arse '( y no &ay evidencia robusta que indique que el voltaje de salida no tenga una distribución normal. 0l valor  del estadstico jicuadrada

2

χ 0 ) (.C@ es  ) (.B>C.

4.1.4 TABLAS DE CONTINENCIA 0n muc&as ocasiones$ los n elementos de una muestra de una población pueden clasificarse con base en dos criterios diferentes. 0ntonces es de inter+s saber si los dos m+todos de clasificación son estadsticamente independientes. Página 15


Suponga que el primer m+todo de clasificación tiene r niveles y que el segundo tiene c niveles. Será #i$ la frecuencia observada del nivel i del primer m+todo de clasificación y el nivel $ del segundo m+todo de clasificación. Los datos apareceran$ en general$ como en la siguiente tabla. A una tabla como esta se le llama 'a&la !$ "/'%/$/%a r < .

TABLA DE CONTINENCIA r x c C"lum/a#  6 T   6 T

c

6

6

66

T

6c

. . .

. . .

. . .

. . .

. . .

r

rl

r2

T

rc

R$/l"/$#

c

0n estadstica las 'a&la# !$ "/'%/$/%a se emplean para registrar y anali/ar la relación entre dos o más variables$ &abitualmente de naturale/a cualitativa 3nominales u ordinales4. Sea % i$ la probabilidad de que un elemento seleccionado al a/ar est+ en la celda i$, dado que las dos clasificaciones son independientes. 0ntonces pi$ ) &i ' $ , donde &i es la probabilidad de que un elemento seleccionado al a/ar este en la clase del renglón i y ' $ es la probabilidad de que un elemento seleccionado al a/ar est+ en la clase de la columna $. a&ora bien$ con el supuesto de independencia$ los estimadores de &i ( ' $ son u^ i=

1

c

∑o

n #=1

i#

v^ # =

1

n

r

o ∑ = i

i#

1

or lo tanto$ la frecuencia esperada de cada celda es Ei# =n u^ i v^ #=

1

c

r

o ∑o ∑ =

n #=1

i#

i#

i 1

0ntonces$ para n grande$ el estadstico Página 16


r

2

χ 0=

c

∑ ∑ = = i

1

#

( Oi#− Ei# )

2

Ei#

1

7iene una distribución ji-cuadrada apro%imada con 3 r-4 3 c-4 grados de libertad si la &ipótesis nula es verdadera. or lo tanto$ la &ipótesis de independencia se rec&a/ara si el valor observado del estadstico de prueba

2

χ 0 e%cediera

2

χ α , ( r−1)(c −1)

.

ara calcular grados de libertad se tiene la siguiente fórmula: gl) 3r-43c-4

NOTA: 0l cálculo de grados de libertad nos dará la pauta para calcular el valor total de frecuencias.

E3$m0l":

Página 17


;na compaJa tiene que elegir entre tres planes de pensiones. La administración quiere saber si la preferencia por los planes es independiente de la clasificación laboral y desea usar F ) (.(?. 0n la siguiente tabla se muestran las opiniones de una muestra aleatoria de ?(( empleados.

Pla/ !$ 0$/#%ó/ 

6



totales

7rabajadores asalariados

C(

@(

@(

@(

7rabajadores por &ora

@(

C(

C(

C(

7otales

6((

6((

((

?((

Cla#%f%a%ó/ la&"ral

ara encontrar las frecuencias esperadas$ primero debe calcularse u^ =( 340 / 500 ) ) (.C>$ u^ =( 160 / 500 )=¿ (.6$ v^ =( 200 / 500 )=¿ (.@( y 1

2

100 / 500=¿

v^ 3=¿

1

(.6(. A&ora pueden calcularse las frecuencias esperadas con la

ecuación Ei# =n u^ i v^ # =

1

c

r

o ∑o ∑ =

n #= 1

i#

i

i#

1

or ejemplo$ el n2mero esperado de trabajadores asalariados que prefieren el plan de pensión  es Ei# =n u^ i v^ #=500 ( 0.68 ) ( 0.40 )=136 0n la siguiente tabla se muestran las frecuencias esperadas.

Pla/ !$ 0$/#%ó/ Cla#%f%a%ó/ la&"ral 7rabajadores asalariados



6



totales

C

C

C>

@(

Página 18


7rabajadores por &ora 7otales

C@

C@

6

C(

6((

6((

((

?((

A&ora puede aplicarse el procedimiento de prueba de &ipótesis de oc&o pasos en este problema. . La variable de inter+s es la preferencia de los empleados entre los planes de pensiones. 6. '(: la preferencia es independiente de la clasificación laboral asalariado o por &oras. . ': la preferencia no es independiente de la clasificación laboral asalariado o por &oras. @. F ) (.(? ?. el estadstico de prueba es r

2

χ 0=

c

∑ ∑ = = i

1

#

2

( Oi# − Ei# ) Ei#

1

C. puesto que r ) 6 y c ) $ los grados de libertad de ji-cuadrada son 2

2

χ 0  χ 0.05,2 ) ?.BB

3r-14 3c-14) 34364 ) 6$ se rec&a/ara '( si

D. cálculos 2

2

χ 0=

3

∑ ∑ = = i

1

#

2

( Oi# − Ei# ) Ei#

1

2

¿

(160−136 ) 136

2

2

2

2

2

(140−136 ) ( 40 −68 ) (40 −64 ) (60−64 ) (60 −32) + + + + + = 49.63 136

>. conclusiones: puesto que

68

2

64

χ 0 ) @B.C 

64

32

2

χ 0.05,2=5.99 $ se rec&a/ará la

&ipótesis de independencia y se concluye que la preferencia por los planes de pensiones no es independiente de la clasificación laboral. 0l valor % para 2

χ 0 ) @B.C es % ) .CD % ( -.

Página 19


Página 20


4.1.8 SOT=ARE ESTAD>STICO Los m+todos estadsticos cambiaron con la aparición de los ordenadores. 1esde sus orgenes$ las computadoras se &an empleado en el procedimiento estadstico de datos. 0l procesamiento estadstico es una necesidad muy frecuente en diversas áreas. 1ada esta estandari/ación de necesidades se &an elaborado paquetes estadstico que difieren entre si en los aspectos de capacidad$ facilidad de uso$ subprogramas incorporados$ computadoras en las que se pueden ejecutar$ apoyo 3documentación4 y precio. 1entro del grupo de paquetes estadsticos mundialmente conocidos$ podemos destacar$ además de S7A<7U
Página 21


0%isten muc&os otros paquetes$ como LS<0L$ SA1$ S7A7A,'$ =97A"$ LSA$ S<S$ A"S7A7 y otros más$ que con más o menos profundidad tocan la mayor parte de las materias estadsticas. or otro lado encontramos otra &erramienta que se utili/a para reali/ar cálculos estadsticos.

La "3a !$ Clul" E<$lCal puede convertirse en una poderosa &erramienta para crear entornos de aprendi/aje que enrique/can la representación 3modelado4$ comprensión y solución de problemas$ en el área de la estadstica y probabilidad. 0%cel ofrece funcionalidades que van más allá de la tabulación$ cálculo de fórmulas y Uraficación de datos:  0n inferencia estadstica calcula los intervalos de confian/a$ el tamaJo de la muestra y se puede aplicar al contraste de &ipótesis$ tanto en el bilateral como en el unilateral.  La instalación del programa es muy sencilla$ además =icrosoft 0%cel incluye un comando para el análisis de datos$ dentro de las V&erramientas para el análisisV$ su uso es poco com2n$ ya que no se tiene cuidado de instalar todas las funciones dentro de las V&erramientasV$ perdiendo la oportunidad de utili/ar un medio poderoso para el estudio dentro de la estadstica.

Página 22


4.2 PRUEBA NO PARAMETRICA La mayor parte de los procedimientos de prueba de &ipótesis que se presentan en las unidades anteriores se basan en la suposición de que las muestras aleatorias se seleccionan de poblaciones normales. Afortunadamente$ la mayor parte de estas pruebas a2n son confiables cuando e%perimentamos ligeras desviaciones de la normalidad$ en particular cuando el tamaJo de la muestra es grande. 7radicionalmente$ estos procedimientos de prueba se denominan m!todos param!tricos. 0n esta sección se consideran varios procedimientos de prueba

alternativos$ llamados no param!tricos ó m!todos de distribución libre $ que a menudo no suponen conocimiento de ninguna clase acerca de las distribuciones de las poblaciones fundamentales$ e%cepto que +stas son continuas. Los procedimientos no param+tricos o de distribución libre se usan con mayor frecuencia por los analistas de datos. 0%isten muc&as aplicaciones en la ciencia y la ingeniera donde los datos se reportan no como valores de un continuo sino más bien en una escala ordinal tal que es bastante natural asignar rangos a los datos. Se debe seJalar que &ay desventajas asociadas con las pruebas no param+tricas. 0n primer lugar no utili/an la información que proporciona la muestra$ y por ello una prueba no param+trica será menos eficiente que el procedimiento param+trico correspondiente$ cuando se pueden aplicar ambos m+todos. 0n consecuencia$ para lograr la misma eficiencia$ una prueba no param+trica requerirá la correspondiente prueba param+trica. ,omo se indicó anteriormente$ ligeras divergencias de la normalidad tienen como resultado desviaciones menores del ideal para las pruebas param+tricas estándar.

Página 23

ESTADÍSTICA INFERENCIAL I UNIDAD 4 E"E#P$ .-

1os jueces deben clasificar cinco marcas de cerve/a de muc&a demanda mediante la asignación de un grado de  a la marca que se considera que tiene la mejor calidad global$ un grado 6 a la segunda mejor$ etc+tera. Se puede utili/ar entonces una prueba no param+trica para determinar donde e%iste alg2n acuerdo entre los dos jueces. Se debe seJalar que &ay varias desventajas asociadas con las pruebas no param+tricas. 0n primer lugar$ no utili/an la información que proporciona la muestra$ y por ello una prueba no param+trica será menos eficiente que el procedimiento param+trico correspondiente$ cuando se pueden aplicar ambos m+todos. 0n consecuencia$ para lograr la misma potencia$ una prueba no param+trica requerirá la correspondiente prueba no param+trica. ,omo se indicó antes$ ligeras divergencias de la normalidad tienen como resultado desviaciones menores del ideal para las pruebas param+tricas estándar. 0sto es cierto en particular para la prueba t y la prueba F . 0n el caso de la prueba t y la prueba F $ el valor  citado puede ser ligeramente erróneo si e%iste una violación moderada de la suposición de normalidad. 0n resumen$ si se puede aplicar una prueba param+trica y una no param+trica al mismo conjunto de datos$ debemos aplicar la t+cnica param+trica más eficiente. Sin embargo$ se debe reconocer que las suposiciones de normalidad a menudo no se pueden justificar$ y que no siempre se tienen mediciones cuantitativas.

Página 24


4.2.1 ESCALA DE MEDICION D$f%/%%ó/ !$ $#ala ,ualquier recurso para determinar la magnitud o cantidad de un objeto o &ec&o de cualquier clase8 instrumento para asignar un n2mero o guarismo que indicará cuánto &ay de algo8 un recurso de medición que provee un conjunto de normas 3numeradas de acuerdo con ciertas reglas de trabajo4 con las que se puede comparar el objeto que será medido$ para asignarle un n2mero o valor matemático que represente su magnitud. 0l t+rmino es de amplia aplicación: una escala de alguna clase está incluida en toda medición o estimación. mplcito en cada caso &ay un conjunto de reglas para asignar n2meros o valores: son estas reglas las que dan significado a las cantidades. Los objetos pueden ser perceptuales o conceptuales. La escala de medida de una caracterstica tiene consecuencias en la manera de presentación de la información y el resumen. La escala de medición-grado de precisión de la medida de la caracterstica tambi+n determina los m+todos estadsticos que se usan para anali/ar los datos. or lo tanto$ es importante definir las caractersticas por medir. La# $#ala# !$ m$!%%ó/ m# fr$u$/'$# #"/ la#

#%u%$/'$#: E#ala N"m%/al.- 9o poseen propiedades cuantitativas y sirven 2nicamente para identificar las clases. Los datos empleados con las escalas nominales constan generalmente de la frecuencia de los valores o de la tabulación de n2mero de casos en cada clase$ seg2n la variable que se está estudiando. 0l nivel nominal permite mencionar similitudes y diferencias entre los casos particulares. Los datos evaluados en una escala nominal se llaman tambi+n Vobservaciones cualitativasV$ debido a que describen la calidad de una persona o cosa estudiada$ u Vobservaciones categóricasV porque los valores se agrupan en categoras. or lo regular$ los datos nominales o cualitativos se describen en t+rminos de porcentaje o proporciones. ara e%&ibir este tipo de información se usan con mayor frecuencia tablas de contingencia y gráficas de barras. Página 25


E#ala Or!%/al .- Las clases en las escalas ordinales no solo se diferencian unas de otras 3caracterstica que define a las escalas nominales4 sino que mantiene una especie de relación entre s. 7ambi+n permite asignar un lugar especfico a cada objeto de un mismo conjunto$ de acuerdo con la intensidad$ fuer/a$ etc.8 presentes en el momento de la medición. ;na caracterstica importante de la escala ordinal es el &ec&o de que$ aunque &ay orden entre las categoras$ la diferencia entre dos categoras adyacentes no es la misma en toda la e%tensión de la escala. Algunas escalas consisten en calificaciones de m2ltiples factores que se agregan despu+s para

llegar

a

un

ndice

general.

1ebe mencionarse brevemente una clase espacial de escala ordinal llamada Vescala de posiciónV$ donde las observaciones se clasifican de mayor a menor 3o viceversa4. Al igual que en las escalas nominales$ se emplean a menudo porcentajes y proporciones en escalas ordinales.

E#ala !$ I/'$r(al" .-
E#ala !$ Raó/ .- ,onstituye el nivel óptimo de medición$ posee un cero verdadero como origen$ tambi+n denominada escala de proporciones. La e%istencia de un cero$ natural y absoluto$ significa la posibilidad de que el objeto estudiado care/ca de propiedad medida$ además de permitir todas las operaciones aritm+ticas y el uso de n2meros representada cantidades reales de la

propiedad

medida.

,on esto notamos que esta escala no puede ser usada en los fenómenos psicológicos$ pues no se puede &ablar de cero inteligencia o cero aprendi/aje$ etc.

Página 26


4.2.2 METODOS ESTAD>STICOS CONTRA NO PARAMETRICOS .- 0L ,AS 10 1S =;0S7

L"# m'"!"# $#'a!#'%"# /" 0aram'r%"# a!$ua!"# 0ara $#'"# a#"# #"/:

6.-0L ,AS 10 K =;0S7
Página 28


E/ $l a#" /" 0aram'r%" '$/$m"#:

Página 29


EJEMPLO: ;na compaJa de ta%is trata de decidir si el uso de llantas radiales en lugar de llantas regulares con cinturón mejora la economa de combustible.se equipan C automóviles con llantas radiales y se manejan por un recorrido de prueba establecido. Sin cambiar de conductores$ se equipan los mismos autos con las llantas regulares con cinturón y se manejan una ve/ más por el recorrido de prueba.se registra el consumo de gasolina$ en Milómetros por litro$ de la siguiente manera:

Au'"mó(%l  6  @ ? C D > B (  6  @ ? C

Lla/'a# ra!%al$# @.6 @.D C.C D.( C.D @.? ?.D C.( D.@ @.B C. ?.6 ?.D C.B C.> @.B

lla/'a# "/ %/'uró/ @. @.B C.6 C.B C.> @.@ ?.D ?.> C.B @.B C.( @.B ?. C.? D. @.>

Wodemos concluir en el nivel de significancia de (.(? que los autos equipados con llantas radiales obtienen mejores economas de combustible que los equipados con llantas regulares con cinturónX Página 30


S"lu%ó/: representemos con

Y y Y6 los Milómetros por litro promedio

para los autos equipados con llantas radiales y con cinturón$ respectivamente.

1. 2. ;. 4. 8.

F: Y- Y6) (

1: Y- Y6 G 9 F) (.(? E#'a!#'%a !$ 0ru$&a : variable binomial < con p) Z Clul"#: despu+s de reempla/ar cada diferencia positiva con un smbolo ! [ \\ y cada diferencia negativa con un smbolo V-$ y despu+s descartar las dos diferencias cero $obtenemos la secuencia [ - [ - [ - [ - [ - [ - [ - [ - [ -[ - [

ara la que n) @ y % ). ,on el uso de la apro%imación de la curva normal$ encontramos que

]) (.? R D ) .>D

H@O6

H entonces ) 3^ _ 4 `  3 ].>D4) (.((D

. DECISION: rec&a/ar " y concluir que$ en promedio$ las llantas radiales mejoran la economa de combustible.

4.2.; PRUEBA DE OLMOOROK  SMIRNOK

Página 31


0

es continuo$ es necesario apro%imar

F 0 (  )

mediante el agrupamiento de los datos observados en un n2mero finito de intervalos de clase. 0ste requisito de agrupar los datos implica tener una muestra más o menos grande. 1e esta manera$ la prueba de bondad de ajuste c&icuadrada se encuentra limitada cuando

F 0 (  )

es continua y la muestra

aleatoria disponible tiene un tamaJo pequeJo. ;na prueba de bondad de ajuste más apropiada que la c&i-cuadrada cuando F (  ) es continua$ es la basad en 0

la estadstica de Kolmogorov R Smirnov. La prueba de Kolmogorov R Smirnov no necesita que los datos se encuentren agrupados y es aplicable a muestras de tamaJo pequeJo. sta se basa en una comparación entre las funciones de distribución acumulativa que se observa en la muestra ordenada y la distribución propuesta bajo la &ipótesis nula. Si esta comparación revela una diferencia suficientemente grande entre las funciones de distribución muestral y propuesta$ entonces la &ipótesis nula de que la distribución es F 0 (  ) $ se rec&a/a. H 0 : F (  )¿ F 0(  )

,onsid+rese la &ipótesis nula por

especifica en forma completa. 1enótese por

X ( 1) , X (2) ," , X ( n)

ordenadas de una muestra aleatoria de tamaJo distribución acumulativa muestral como

{

0

 <  (1 ) ,

$ n (  )= k / n  ( k ) ≤  <  (k + 1) , 1  %  n &

Página 32

$ en donde

n

F 0 (  )

se

a las observaciones

y defnase la función de


0n otras palabras$ para cualquier valor ordenado  de la muestra aleatoria$ $ n (  )

es la proporción del n2mero de valores en la muestra que son iguales o

menores a  . Ha que F 0 (  ) se encuentra completamente especificada$ es posible evaluar a F (  ) para alg2n valor deseado de  $ y entonces compara 0

este 2ltimo con el valor correspondiente de

$ n (  )

. Si la &ipótesis nula es

verdadera$ entonces es lógico esperar que la diferencia sea relativamente pequeJa. La estadstica de Kolmogorov R Smirnov se define como 'n=

La estadstica

'n

m( |$ n (  )− F 0 (  )| . 

tiene una distribución que es independiente del modelo

propuesto bajo la &ipótesis nula. or esta ra/ón$ se dice 'n es una estadstica independiente de la distribución. Lo anterior da como resultado que la función de distribución para cualquier

F 0 (  )

. 0n la tabla G del ap+ndice$ se proporcionan

los valores cuantiles superiores de

'n

para varios valores de la muestra. 0l

lector debe notar que los valores asintóticos de

dn

que se encuentran en la

parte inferior de la tabla proporcionan una adecuada apro%imación para los valores de n mayores de ?(. ara un tamaJo

(

P 'n >

∝

del error de tipo i, la región crtica es de la forma

)

c =∝ & √ n

Página 33


1e acuerdo con lo anterior$ la &ipótesis H se rec&a/a si para alg2n valor  0

observado del valor 'n

se encuentra dentro de la región crtica de tamaJo

α&

,omo se &i/o anteriormente$ la estadstica de Kolmogorov R Smirnov es$ en general$ superior a la prueba de bondad de ajuste c&i R cuadrada cuando los datos involucran una variable aleatoria continua$ debido a que no es necesario agrupar los datos. Además$ la prueba de Kolmogorov R Smirnov tiene la atractiva propiedad de ser aplicable a muestras de tamaJo pequeJo. or otro lado$ la estadstica se encuentra limitada$ ya que el modelo propuesto bajo

H 0

debe

especificarse en forma completa. La estadstica de Kolmogorov R Smirnov no se aplica a todos aquellos casos para los que as observaciones no son in&erentemente cuantitativas a consecuencia de las ambigedades que pueden surgir cuando se ordenan las observaciones.

4.2.4 PRUEBA DE ANDERSON-DARLIN. 0sta prueba compara la función de distribución acumulada emprica de los datos de su muestra con la distribución esperada si los datos son normales. Si esta diferencia observada es suficientemente grande$ la prueba rec&a/ará la &ipótesis nula de normalidad en la población. 0n estadstica$ la 0ru$&a !$ A/!$r#"/-Darl%/ es una prueba no param+trica sobre si los datos de una muestra provienen de una distribución especfica. La fórmula para el estadstico A determina si los datos

3observar

que los datos se deben ordenar4 vienen de una distribución con función acumulativa 5 A6 )  9  S 1onde: Página 34


0l estadstico de la prueba se puede entonces comparar contra las distribuciones del estadstico de prueba 3dependiendo que 5 se utili/a4 para determinar el -valor.

4.2.8 PRUEBA DE RYAN-JOINER 0sta prueba eval2a la normalidad calculando la correlación entre sus datos y las puntuaciones normales de sus datos. Si el coeficiente de correlación se encuentra cerca de $ es probable que la población sea normal. La estadstica de
Página 35


4.2. PRUEBA DE SAPPIRO  =IL 0n estadstica$ la prueba de S&appiroRilM$ se usa para contrastar la normalidad de un conjunto de datos. Se plantea como &ipótesis nula que una muestra X $...$ X n proviene de una población normalmente distribuida. Se considera uno de las

pruebas más potentes para el contraste de normalidad$ sobre todo para muestras pequeJas 3nQ(4. 0l estadstico de la prueba de S&appiro R ilM es:

1onde: •

 (i)

) con el subndice i entre par+ntesis es el n2mero que ocupa la i-

)sima posición en la muestra8 •

•

) 3 x  [ ... [ x n4 O n es la media muestral8 Las constantes ai se calculan

Página 36


1onde:

Siendo m$...$ mn son los valores medios del estadstico ordenado$ de variables aleatorias independientes e

id+nticamente

distribuidas$ muestreadas

de

distribuciones normales. * es la matri/ de covarian/as de ese estadstico de orden. La &ipótesis nula se rec&a/ará si + es demasiado pequeJo.

CONCLUSION 1e esta manera concluyo que &ay que tener muy substancial tener siempre en cuenta la escala de medición que se está utili/ando$ pues no todos los procedimientos estadsticos son apropiados para cualquier análisis. 0n general$ las variables estadsticas se clasifican en variables continuas o cuantitativas y variables discretas o cualitativas$ seg2n el nivel de escala en que est+n medidas. Las variables continuas se refieren a magnitudes medidas en escala de intervalos o de ra/ón$ mientras que las variables discretas comprenden magnitudes medidas en escalas de nivel nominal y ordinal. or otro lado puedo concluir que las pruebas no param+tricas se encargan de estudiar las pruebas y modelos estadsticos cuya distribución no se ajusta8 o sea que no asumen ning2n parámetro de las variables mu+strales$ por eso es muy importante el conocimiento de las pruebas no param+tricas$ ya que se aplica en la administración debido a la prueba de la tabla de contingencia como la de bondad de ajuste anali/an datos nominales u ordinales. 0stas pruebas$ se usan ampliamente en las aplicaciones de negocios$ lo que demuestra la importancia de la &abilidad para manejar datos categóricos o jerarqui/ados además de los cuantitativos. Página 37


BIBLIORA>A  robabilidad y estadstica aplicadas a la ingeniera. 6 edición =ontgomery
Página 38

pruebas de bondad de ajsute y pruebas no parametricas

Recommend Documents