Análisis de ji-cuadrada Introducción. Estamos interesados en determinar si los datos disponibles de una muestra aleatoria simple de tamaño n corresponden a cierta distribución teórica. El primer paso a realizar consiste en descomponer el recorrido de la distribución teórica en un número fnito de subconjuntos: A1, A2, ..., Ak. espu!s, clasifcar las obser"aciones mu!strales, se#ún el subconjunto a $ue pertenezcan. %, por último, comparar las &recuencias obser"adas de cada Ai con las probabilidades $ue les corresponder'an con la distribución teórica a contrastar.
An(lisis )upon#amos $ue tenemos un número k de clases en las cuales se *an ido re#istrado un total de n obser"aciones +n ser( pues el tamaño muestral. enotaremos enotaremos las &recuencias obser"adas obser"adas en cada clase por -1, -2, ..., - k +-i es el número de "alores en la clase Ai . )e cumplir(: -1 -2 ... - k / n 0o $ue $ueremos es comparar las &recuencias obser"adas con las &recuencias esperadas +teóricas, a las $ue denotaremos por E1, E2, ..., E k . )e cumplir(: E1 E2 ... E k / n
30A)E 1 30A)E 2 ... 30A)E 9 otal otal
E34E53IA -6)E7AA -1 -2 .. . -k n
E34E53IA E)8EAA E1 E2 ... Ek 5
)e tratar( a*ora de decidir si las &recuencias obser"adas est(n o no en concordancia con las &recuencias esperadas +es decir, si el número de resultados obser"ados en cada clase corresponde apro;imadamente al número esperado. 8ara comprobarlo, *aremos uso de un contraste de *ipótesis usando la distribución 3*i
-bser"ar $ue este "alor ser( la suma de k números no ne#ati"os. El numerador de cada t!rmino es la di&erencia entre la &recuencia obser"ada = la &recuencia esperada. 8or tanto, cuanto m(s cerca est!n entre s' ambos "alores m(s pe$ueño ser( el numerador, = "ice"ersa. El denominador permite relati"izar el
tamaño del numerador. 0as ideas anteriores su#ieren $ue, cuanto menor sean el "alor del estad'stico >2?, m(s co*erentes ser(n las obser"aciones obtenidas con los "alores esperados. 8or el contrario, "alores #randes de este estad'stico indicar(n &alta de concordancia entre las obser"aciones = lo esperado. En este tipo de contraste se suele rec*azar la *ipótesis nula +los "alores obser"ados son co*erentes con los esperados cuando el estad'stico es ma=or $ue un determinado "alor cr'tico. 5otas: +1 El "alor del estad'stico >2? se podr( apro;imar por una distribución 3*i< cuadrado cuando el tamaño muestral n sea #rande +n @ B, = todas las &recuencias esperadas sean i#uales o ma=ores a C +en ocasiones deberemos a#rupar "arias cate#or'as a fn de $ue se cumpla este re$uisito. +2 0as obser"aciones son obtenidas mediante muestreo aleatorio a partir de una población particionada en cate#or'as. 4n e;perimento multinomial es la #eneralización de un e;perimento binomial: 1. 3onsiste en n pruebas id!nticas e independientes. 2. 8ara cada prueba, *a= un número k de resultados posibles. . 3ada uno de los k posibles resultados tiene una probabilidad de ocurrencia pi asociada +p1 p2 ... pk / 1, la cual permanece constante durante el desarrollo del e;perimento. D. El e;perimento dar( lu#ar a un conjunto de &recuencias obser"adas +-1, -2, ..., -k para cada resultado. -b"iamente, -1 -2 ... -k / n. En ocasiones estaremos interesados en comparar los resultados obtenidos al realizar un e;perimento multinomial con los resultados esperados +teóricos. Ello nos permitir( saber si nuestro modelo teórico se ajusta bien o no a las obser"aciones. 8ara ello, recurriremos a la distribución 3*i
con k 1 #rados de
libertad. 8odemos calcular cada &recuencia esperada +teórica multiplicando el número total de pruebas n por la probabilidad de ocurrencia asociada, es decir: Ejemplo: En cierta m($uina E;pendedora de e&rescos e;isten D canales $ue e;piden el mismo tipo de bebida. Estamos interesados en a"eri#uar si la elección de cual$uiera de estos canales se *ace de &orma aleatoria o por el contrario e;iste
al#ún tipo de pre&erencia en la selección de al#uno de ellos por los consumidores. 0a si#uiente tabla muestra el número de bebidas "endidas en cada uno de los D canales durante una semana. 3ontrastar la *ipótesis de $ue los canales son seleccionados al azar a un ni"el de si#nifcación del CF.
3anal 1 2 D
5úmero de bebidas consumidas mediante este e;pendedor 1 22 1G 1H
)olución: 8ara realizar el contraste de 6ondad de Ajuste debemos calcular las &recuencias esperadas de cada suceso bajo la *ipótesis de uni&ormidad entre los "alores. )i la selección del canal &uera aleatoria, todos los canales tendr'an la misma probabilidad de selección = por lo tanto la &recuencia esperada de bebidas "endidas en cada uno de ellos deber'a ser apro;imadamente la misma. 3omo se *an "endido en total HB re&rescos, la &recuencia esperada en cada canal es
El estad'stico del contraste ser'a:
Este "alor debemos compararlo con el "alor cr'tico de la distribución 1/ #rados de libertad. Este "alor es:
con +D<
+/H.G1
8uesto $ue el "alor del estad'stico +2.D es menor $ue el "alor cr'tico, no podemos rec*azar la *ipótesis de $ue los datos se ajustan a una distribución uni&orme. Es decir, $ue los canales son seleccionados aleatoriamente entre los consumidores.
Prueba de Kolmogorov-Smirnov (KS) ipótesis a contrastar:
B: 0os datos analizados si#uen una distribución J. 1: 0os datos analizados no si#uen una distribución J. Estad'stico de contraste: donde:
K
es el i
ordenado pre"iamente de menor a ma=or. K
es un estimador de la probabilidad de obser"ar "alores menores o
i#uales $ue ;i. K
es la probabilidad de obser"ar "alores menores o i#uales $ue
cuando
es cierta.
As' pues, es la ma=or di&erencia absoluta obser"ada entre la &recuencia acumulada obser"ada = la &recuencia acumulada teórica , obtenida a partir de la distribución de probabilidad $ue se especifca como *ipótesis nula. )i los "alores obser"ados son similares a los esperados , el "alor de ser( pe$ueño. 3uanto ma=or sea la discrepancia entre la distribución emp'rica = la distribución teórica, ma=or ser( el "alor de . 8or tanto, el criterio para la toma de la decisión entre las dos *ipótesis ser( de la &orma:
onde el "alor
)iendo
se eli#e de tal manera $ue:
el ni"el de si#nifcación del contraste.
8ara el c(lculo pr(ctico del estad'stico deben obtenerse:
% a partir de estos "alores:
A su "ez, el "alor de
depende del tipo de distribución a probar = se
encuentra tabulado. En #eneral es de la &orma:
onde
= k+n se encuentran en las tablas si#uientes:
Ejemplo 1: eterminar si los "alores de la primera columna se con&orman a una distribución normal:
+media: D.1 "arianza: 1.G2
3omo el "alor / B.21L M B.2L2, no se rec*aza B = se acepta $ue los datos se distribu=en normalmente.
Prueba de Anderson-Darling 0a prueba de Anderson<arlin# es utilizada para probar si un conjunto de datos mu!strales pro"ienen de una población con una distribución de probabilidad continua espec'fca +por lo #eneral la distribución normal. 0a prueba de Anderson<arlin# se basa en la comparación de la distribución de probabilidades acumulada emp'rica +resultado de los datos con la distribución de probabilidades acumulada teórica +defnida en B.
I8NE)I): B: 0as "ariables aleatorias en un estudio si#uen una distribución normal +O, P. a: 0as "ariables aleatorias en un estudio no si#uen una distribución normal +O, P. E)AQ)I3- E 84E6A: El estad'stico de A2 est( dado por la si#uiente &ormula:
Ejemplo basado en E;cel: 2B números al azar: 1R CC B HR RH HC LC RB HH 22 DC 1L CH
LL B R1 GG CG 2R GL )acar media = des"iación est(ndar: O / CG.HC S / B.BC
P / 2L.G 7alor critico / B.HC2
3reación de la primera = se#unda columna: 1 i
2 (2i-1)
1 2 D C L H G R 1B 11 12 1 1D 1C
1 C H R 11 1 1C 1H 1R 21 2 2C 2H 2R
1L 1H 1G 1R 2B
1 C H R
0os datos se ordenan de menor a ma=or + = de ma=or a menor +D. 3
4
Y i Y n1-i
1L
RH
1R
R1
22
RB
2R
GG
B
GL
B
HR
DC
HH
CC
HC
CH
LL
CG
LC
LC
CG
LL
CH
HC
CC
HH
DC
HR
B
GL
B
GG
2R
RB
22
R1
1R
RH
1L
eterminar T de las columnas = D. ónde: est(ndar.
U: dato muestral. O: media muestral. V: des"iación
5ota: los "alores de la columna L son los mismos $ue la columna C, solo est(n ordenados in"ersamente. ! #i
" #n1-i
<1.C11H <1.DBD1 <1.2RLC <1.BDCC <1.BBRL <1.BBRL
1.RD 1.1HG2 1.1D2 1.BHBL B.RRGR B.HDHG B.LHL1 B.LBD B.2G1C B.2DCH
1.1D2 <1.2RLC 1.1HG2 <1.DBD1 1.RD <1.C11H
0os "alores para las columnas de H = G, son obtenidos de la tabla de distribución normal acumulada. En E;cel utiliza la &unción: / I).5-J +"alor, media, des"iación est(ndar, Acum 7alor: "alor cu=a distribución se desea obtener. Jedia: media aritm!tica de la distribución. es"iación est(ndar: des"iación est(ndar de la distribución. Acum: 7alor ló#ico $ue determina la &orma de la &unción. Ar#umento 7EAE- para obtener la distribución acumulada. $ &(Yi)
B.BLC B.BGB1 B.BRHD B.1DHR B.1CL B.1CL B.1GL B.DCCB B.DGL B.DRHR B.CRHB B.L1BR B.H2H2 B.HCBC B.HH2H B.GD11 B.GCHG B.GH
% &(Y n1i)
B.R1G2 B.GGBL B.GH B.GCHG B.GD11 B.HH2H B.HCBC B.H2H2 B.L1BR B.CRHB B.DRHR B.DGL B.DCCB B.1GL B.1CL B.1CL B.1DHR B.BRHD
B.GGBL B.R1G2
B.BGB1 B.BLC
WW 3on la utilización de un so&tXare =a no es necesario las columnas C = L.
0as columna R = 1B se determina con lo#aritmos neperiano, para columna R se determina directo +05+M"alor columna H@ = columna 1B se determina 05++1 < M"alor columna G@ posteriormente se determina el resultado del lo#aritmo neperiano. '
1 *(1*(&(Yi)) &(Y n1-i))
<2.H2GG <2.C2DB <2.2RB <1.R112 <1.GCCH <1.GCCH <1.1DG
<2.CBD1 <2.12CL <2.BLL2 <1.RCBH <1.GR <1.DG1C <1.GG <1.2RRB
0a última columna de la tabla se determina con la si#uiente &ormula:
11 Si
)e suman los "alores de )i +3olumna 11:
Aplicación del estad'stico de Anderson<arlin#: A2 / < 5 ) A2 / <+2B +<2B.DR1L / B.DR1CL
3-5304)I-5E): El "alor estad'stico +A 2 / B.DR1L es menor al "alor critico +A 2critico / B.HC2, por lo tanto no se rec*aza la *ipótesis nula. 8or lo tanto los datos obser"ados tienen una naturaleza de distribución normal.
Prueba de S+a,iro-il. En estad'stica, el est de )*apiroYilk se usa para contrastar la normalidad de un conjunto de datos. )e plantea como *ipótesis nula $ue una muestra ;1,..., ;n pro"iene de una población normalmente distribuida. ue publicado en 1RLC por )amuel )*apiro = Jartin Yilk.1 )e considera uno de los test m(s potentes para el contraste de normalidad, sobre todo para muestras pe$ueñas +nMB. El estad'stico del test es:
onde:
onde:
)iendo m1,..., mn son los "alores medios del estad'stico ordenado, de "ariables aleatorias independientes e id!nticamente distribuidas, muestreadas de distribuciones normales. 7 es la matriz de co"arianzas de ese estad'stico de orden. 0a *ipótesis nula se rec*azar( si Y es demasiado pe$ueño. Interpretación: )iendo la *ipótesis nula $ue la población est( distribuida normalmente, si el p<"alor es menor a al&a +ni"el de confanza entonces la *ipótesis nula es rec*azada +se conclu=e $ue los datos no "ienen de una distribución normal. )i el p<"alor es ma=or a al&a, no se rec*aza la *ipótesis = se conclu=e $ue los datos si#uen una distribución normal.
Prueba de /0an- oiner 0a prueba de =an < Zoiner es usada para probar si una muestra "iene de una distribución espec'fca. Esta prueba es una modifcación de la prueba de 9olmo#oro"<)mirno" donde se le da m(s peso a las colas de la distribución $ue la prueba de 9olmo#oro"<)mirno" .En estad'stica, la prueba de =an < Zoiner es una prueba no param!trica sobre si los datos de una muestra pro"ienen de una distribución espec'fca. =an
8uesto $ue la media de los "alores de b es B, se puede simplifcar esta e;presión para:
0a prueba resultante est( mu= altamente correlacionada con el de )*apiro