Capıtulo 2 ´
juste. e. Pruebas de bondad de a just 2.1
Pruebas de a juste simples.
Dadas las observaciones ( X 1 , . . . , X n on F , deon n ) independientes, con distribuci´ ´tesis nula H 0 : “F = F 0 ”. En principio, la hipo ´tesis seamos probar la hipo ´ H : “F = F 0 ”, pero es posible que dentro de esta alternativa alternativa sera ´ltiple haya algunas distribuciones para las que nos interese especialmen mu esp ecialmen te que la prueba tenga una buena potencia. otesis ´ ´ A la hipotesis otesis H 0 se la llama hip ´ de ajuste de la distribucion on F 0 al ´ modelo del cual proviene la muestra. Las pruebas de H 0 se llaman pruebas de ajuste . ´s A lo largo del Siglo XIX, los modelos aleatorios aleatori os se volvieron volvieron cada vez ma as necesarios para describir la naturaleza. Un modelo frecuentes y cada vez m´ se consideraba adecuado en tanto no presentara incoherencias evidentes con los resultad resultados os de la experiencia. en en 1999 surgio ´ la primera prueba de aj Reci´en ajuste, uste, a partir de la cual los cient´ıficos pudieron poner a prueba sus modelos e incluso seleccionar entre ´menos, cu cu´ ´ varios modelos propuestos para un mismo feno ales con adecuados y ales cu´ cu ´ ales no lo son. Esa primera prueba es la llamada prueba χ 2 de Pearson . ales
2.2
Generalidades sobre las pruebas de a juste.
´n dada p or Para decidir si se rechaza H 0 :“F = F 0 ” a partir partir de la la informacio informac io la muestra aleatoria simple X 1 , . . . , X n n de F , resulta natural estimar F po r ´n con F 0 . medio de la muestra, y comparar la estimacio ´ El estimador de maxima axima verosimilitud de F es la distribuci´ on de probabilion
17
18
Capıtulo ´
Enrique M. Caba n ˜ a. 2: Pruebas de bondad de ajuste.
ˆ , entonces la probabilidad ˆ para la que, si Y , . . . , Y es una muestra de F dades F n 1 de que resulte { Y1 , . . . , Y n } = { X 1 , . . . , X n } es m´ axima. Esta probabilidad es ˆ tiene probabilidades p , . . . , p concentradas en X , . . . , X , ´lo si F positiva so n 1 1 n n y vale n ! i =1 p i , cuando las X i (i = 1 . . . , n ) son todas diferentes. ´n n El m´ aximo de este producto, con la condicio =1 p i ≤ 1, se produce i cuando todas las probabilidades son iguales: p 1 = . . . = p n = 1 /n . ˆ es la distribuci´ Como consecuencia, F on emp´ırica F n . Cuando F n es cercana a F 0 , no hay razones para rechazar H 0 . En cambio, cuando F n dista mucho de F 0 , vamos a rechazar H 0 . ´s utilizadas tengan como No debe extran ˜ arnos entonces que las pruebas ma regi´ on cr´ıtica { (X 1 , . . . , X n ) : d (F n , F 0 ) > constante } , donde d es una distancia entre probabilidades, o una seudo - distancia, como suele llamarse a una funci´ on con las propiedades de una distancia, excepto la que establece que d (F, G ) = 0 implica F = G . Las pruebas que incluimos en las secciones siguientes resultan de elegir adecuadamente d . La primera de ellas ha sido analizada en § ??. Las otras dos han sido presentadas en § ??, en el marco de aplicaciones del proceso em p´ırico, y ahora las estudiaremos con mayor detenimiento.
.
2.3
Prueba χ 2 de a juste.
´tesis H 0 “F = F 0 ” a partir de una muestra aleatoria simple Para probar la hipo X 1 , . . . , X n de F , Karl Pearson propuso el siguiente procedimiento, que es en ´n realidad una prueba de ˜ 0 “Para cada uno de los intervalos I de una particio finita P de R, se cumple F (I ) = F 0 (I )”, y, como consecuencia, una prueba ´n P sea suficientemente fina. aproximada de H 0 en la medida que la particio Llamemos p 0 al vector de las probabilidades F 0 (I ) correspondientes a los intervalos de P , y p al de las probabilidades F (I ). Entonces, ˜ 0 equivale a “p = p 0 ”. Esta u ´ltima es una hipo ´tesis simple sobre el par´ ametro p de la distribuci´ on multinomial(n, p ) del vector M cuyas componentes son las frecuencias M (I ) = nF n (I ) = n =1 1{ X ∈ I } , I ∈ P . i El Denotemos ahora P = { I1 , . . . , I k } , y p 0,j = F 0 (I j ), M j = M (I j ). esta d´ıstico de Pearson es
.
i
k
k 2 2 (nF n (I (M j ) − np 0,j ) j − EM j ) = Q n = . np E M ,j 0 j j = 1 = 1 j
.
.
Su distribuci´ on bajo H 0 depende de n y p 0 , y puede obtenerse en cada caso ´n multinomial, o por simediante el c´ alculo directo a partir de la distribucio mulaci´ on. Su distribuci´ ´tica para n → ∞ es χ 2 con k − 1 grados on asinto
Licenciatura en Estad ´ ıstica. 2 2.3. Prueba χ .
19
´n siguiente se aportan argumentos basados en la de libertad. En la seccio utilizaci´ ´n normal asinto ´tica de la multinomial, o bien en on de la distribucio ´tico del cociente de verosimilitudes, para obtener la el comportamiento asinto ´n asinto ´tica. mencionada distribucio
2.3.1
La distribucion aproximada del estadıstico de Pearson para n grande. ´
´
La esperanza de 1{ X ∈ I } es P{ X1 cias Cov(1{ X ∈ I } , 1{ X ∈ J } ) valen
∈ I } ,
i
i
de modo que EM = np . Las covarian-
i
E1{ X ∈ I } 1{ X ∈ J } − E1{ X ∈ I } E1{ X ∈ J } i
i
i
i
= P{ X i ∈ I, X i ∈ J } − P{ Xi ∈ I } P { X i ∈ J }
de manera que
VarM = n Σ, con Σ = diagp − pp tr.
´n asinto ´El Teorema del L´ımite Central permite deducir que la distribucio tica de 1 (M − np ) es Normal(0 , Σ). La matriz Σ es singular, porque cuando ´n u = (1, 1,n . . . , 1)tr , Σu = diagpu − pp tr u = 0. El recorrido de la transformacio tr tr lineal x → Σx es ortogonal a u , porque u Σx = x Σu = 0. a contenido con probabiliObservemos que un vector Z ∼ Normal(0 , Σ) est´ ⊥ dad 1 en el complemento ortogonal u de u , ya que la variable aleatoria ( u, Z ) = u trZ tiene esperanza Eu trZ = 0 y variancia Varu trZ = u trΣu = 0. Llamemos Π a la matriz de la proyeccio´n ortogonal sobre el complemento de ´n u , es decir, Π = I − uu tr /n . Denotamos por T a la matriz de la transformacio ´ cleo al subespacio generado por lineal que, como la asociada a Σ, tiene por nu ⊥ ⊥ u , y recorrido u , y cuya restricci´on a u es la inversa de la restricci´on de Σ al mismo subespacio, es decir, T Σ = Π. Un c´ alculo directo permite verificar − − 1 1 que T = Π(diagp ) Π, ya que Π(diagp ) ΠΣ = Π(diagp )− 1 (diagp − pp tr) = Π(I − up tr ) = Π. ´lo es orEl c´ alculo anterior permite confirmar que el recorrido de Σ no so ⊥ togonal a u sino que es u . Como Σ es sim´etrica, T tambi´en lo es, y tiene una ra´ız cuadrada sim´etrica T 1 / 2 . El vector T 1 / 2 Z tiene variancia T 1 / 2 Σ(T 1/ 2 )tr = Π, y ¦ T 1 / 2 Z ¦2 = Z tr T Z ∼ χ 2k −1 . ´tica Por lo tanto la forma cuadra
1 1 Q = √ (M − np )tr (diagp ) − 1 √ (M − np ) = n n
k
(M i − np i )2 np i =1 i
.
Enrique M. Caba n ˜ a. Capıtulo 2: Pruebas de bondad de ajuste. ´tica χ 2 con k − 1 grados de libertad, cuando P consta tiene distribuci´ on asinto de k intervalos. ´n cr´ıtica Por este motivo, la prueba con regio
20
´
Q >
2
k −1 ,1− α
tiene nivel asint´ otico α para n grande.
2.3.2
Una deduccion alternativa de la distribucion asintotica de Q ba jo H 0 . ´
´
´
´n anterior puede reemplazarse por el El argumento constructivo de la seccio ´s directo, pero basado en un artificio que resulta explicable siguiente, mucho ma una vez que se conoce el resultado. oticamente Normal(0 , Σ), de modo que Hemos visto que 1n (M − np ) es asint´ deseamos establecer que, si Y ∼ Normal(0 , Σ), entonces Q ∞ = Y tr(diagp )− 1 Y = ¦ (diagp )− 1 / 2 Y 2 tiene distribuci´ on χ 2 con k − 1 grados de lib ertad. tr Consideremos ahora un vector Z = (Z 1 , . . . , Z k√ normal en Rk . ) √ t´ıpico tr Su proyecci ´ on sobre el vector de norma uno v = ( p 1 , . . . , p k ) es vv tr Z , ´n sobre el complemento ortogonal de v es y, como consecuencia, su proyeccio tr Z − vv Z . Por tratarse de la proyeccio´n de un vector normal t´ıpico sobre un 2 subespacio de dimensi ´ on k − 1, se cumple ¦ Z − vv trZ 2 ∼ χ k . −1 tr tr La variancia de la proyeccio´n es Var(I − vv )Z = (I − vv )VarZ (I − vv tr) = (I − vv tr)2 = I − vv tr. Por otra parte, la variancia de (diagp )− 1 / 2 Y es (diagp )− 1 / 2 Σ(diagp )− 1 / 2 I − (diagp )− 1 / 2 pp tr(diagp )− 1 / 2 = I − vv tr. En resumen, ´n, (diagp )− 1 / 2 Y y la proyecci´ on (I − vv tr)Z de Z tienen la misma distribucio 1/ 2 2 − ¦ tiene la misma disy esto nos permite concluir que Q ∞ = ¦ (diagp ) ´n, es decir, χ 2k − 1. tribuci ´ on que la norma al cuadrado de la proyeccio
2.3.3
Analisis a partir del cociente de verosimilitudes. ´
´tesis nula H 0 Consideremos la prueba del cociente de verosimilitudes de la hipo “p = p 0 ” contra la alternativa H 1 “p = p 0 ”, a partir de las observaciones M de la distribuci´ on multinomial (n, p ). M h k n ! La verosimilitud de la muestra es ıstico de k h =1 p h , y el estad´ h=1
M h !
m´ axima verosimillitud de p es M/n , de modo que el cociente de v erosimilitudes k
vale λ =
h=1 k h=1
M
p 0 ,hh
(M h /n ) M h
.
a en el espacio de para ´metro p est´ ´metros Θ formado por los vectores El para ´n de este espacio es k − 1. de Rk cuya suma de componentes vale 1. La dimensio
Licenciatura en Estad ´ ıstica. 21 2 2.3. Prueba χ . ´n asinto ´tica de − 2 log λ es χ 2 con k − 1 grados Como consecuencia, la distribucio de lib ertad. Vamos a calcular k
− 2 log λ = 2
.
M h log(M h /np 0,h ).
h =1
El desarrollo de Taylor log(1 + x ) = x − 1 x 2 + Ax 3 , A acotado, nos conduce a 2
3 1 2 + A (M h /np 0,h − 1) log(M h /np 0,h ) = (M h /np 0,h − 1) − (M h /np 0,h − 1) 2
y entonces k
− 2 log λ = 2
.
1 2
2 3 M h [(M h /np 0,h − 1) ]. 0,h − 1) − (M h /np 0,h − 1) + A (M h /np
h =1
El sumando que contiene la constante A se acota por k
M h M h − np 0,h k (M h − np 0,h )2 M h (M h /np 2A 0,h − 1) ≤ 2A max h np 0,h np 0,h np 0,h h =1 h =1
.
.
3
≤ 2A
oticamente equivalente a de modo que − 2 log λ es asint´ k
2
.
1 2
2 M h [(M h /np 0,h − 1) − (M h /np 0,h − 1) ] =
h =1
∼
=2
k
.
. M h
h =1 k
=
. h =1
(M h
k 2 M h h − 1 =2 − 2n np 0,h np 0,h h =1
.
.
k k np 0,h ) 2 (M h − np 0,h ) 2 + (M h − np 0,h ) = . np 0,h np 0,h h =1 h =1 −
.
Concluimos como consecuencia que t´ otica χ 2k − 1 para n grande.
.
.
(M h − np 0 ,h )2 k h =1 np 0 ,h
tiene distribuci´ on asin-
22
Capıtulo ´
2.3.4
Enrique M. Caba n ˜ a. 2: Pruebas de bondad de ajuste.
La seleccion de los intervalos de particion. ´
´
La arbitrariedad con que puede partirse el recorrido de la variable aleatoria es una caracter´ıstica que da a la prueba χ 2 una gran versatilidad, y, al mismo tiempo, constituye una debilidad de la misma. Lo primero llega al extremo ´ n cambio, la prueba es aplicable al ajuste de distribuciones de que, sin ningu multivariantes, por ejemplo. Lo segundo es causa de que los diferentes criterios para el disen ˜ o de la prueba sean relativamente complicados. Estos criterios se vuelven relativamente simples cuando la meta es con´n que se aproxime seguir una prueba cuyo estad´ıstico tenga una distribucio r´ ´tica (este no es un argumento de calidad de cara ´cter apidamen te a la asinto esta d´ıstico, sino simplemente de comodidad para el usuario). En ese caso, estudios emp´ıricos muestran que conviene utilizar ( k ) clases con iguales probabilidades (1 /k ), con valor esperado de observaciones por clase (n/k ) no de´s pequen masiado pequen ˜ o, al menos 1 o 2 (tanto mayor cuanto ma ˜ o sea el nivel de la prueba). ´n tradicional, popularizada hace varias d´ ecadas, que esUna recomendacio tudios posteriores han mostrado que es excesivamente conservativa, es que la ´ mero de observaciones en cada clase de la particio ´n sea al esperanza del nu ´n de Mann y Wald para k celdas equiprobables, es menos 5. Una recomendac io . 2 (Φ− 1 (1 − α )) 2 cuando la muestra tiene taman ˜ o n (grande) elegir k = 4 5 2n / y el nivel de la prueba es α .
2.3.5
Los valores crıticos. ´
´n de particiones con iguales probabilidades, es Es recomendable la utilizacio tr 1 decir, p 0 = k (1, 1, . . . , 1) . En ese caso, los valores cr´ıticos c α tales que P{ Q n > c α } = α
(2.1)
dependen s´ olo de n, k . ´ que Q n es una variable aleatoria discreta, que so ´lo puede Se observara ´ mero finito de valores. Por ese motivo, la ecuacio ´n (2.1) debe asumir un nu reemplazarse por P{ Q n > c α } ≤ α , P{ Q n
≥ c α } > α .
Esto implica que c α es uno de los valores que alcanza la variable aleatoria Q n . Si estos valores se ordenan de manera creciente: q 1 < q 2 < . . . < q m , entonces m m Q n = q Q n = q c α = q j (α ) cuando j } > α , y j } ≤ α . j (α ) P{ j (α )+1 P{ = =
.
.
Licenciatura en Estad ´ ıstica. 2 2.3. Prueba χ .
23
Tabla 2.1: Valores de k dados por la f ´ ormula de Mann y Wald, y esperanza ´ mero de observaciones por celda en cada caso. del nu α = .10
n
k
20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 150 200 250 300 350 400 450 500
14 15 16 17 18 19 20 21 21 22 23 23 24 25 25 26 26 31 35 38 41 43 46 48 50
n/k 1.4286 1.6667 1.8750 2.0588 2.2222 2.3684 2.5000 2.6190 2.8571 2.9545 3.0435 3.2609 3.3333 3.4000 3.6000 3.6538 3.8462 4.8387 5.7143 6.5789 7.3171 8.1395 8.6957 9.3750 10.0000
α = .05
k 12 14 15 16 16 17 18 19 19 20 21 21 22 22 23 23 24 28 31 34 37 39 41 43 45
n/k 1.6667 1.7857 2.0000 2.1875 2.5000 2.6471 2.7778 2.8947 3.1579 3.2500 3.3333 3.5714 3.6364 3.8636 3.9130 4.1304 4.1667 5.3571 6.4516 7.3529 8.1081 8.9744 9.7561 10.4651 11.1111
α = . 01
k 11 12 13 14 14 15 16 16 17 17 18 18 19 19 20 20 21 24 27 30 32 34 36 38 39
n/k 1.8182 2.0833 2.3077 2.5000 2.8571 3.0000 3.1250 3.4375 3.5294 3.8235 3.8889 4.1667 4.2105 4.4737 4.5000 4.7500 4.7619 6.2500 7.4074 8.3333 9.3750 10.2941 11.1111 11.8421 12.8205
24
Capıtulo ´
k
Enrique M. Caba n ˜ a. 2: Pruebas de bondad de ajuste.
50
45
α = .10
40
α = .05 35
α = .01
30
25
20
15
10 0
50
1 00
150
200
250
300
350
400
450
500
n .
´fico de k = 4 Figura 2.1: Gra
5
2 (Φ− 1 (1 − α ))2 para α = .1, .05 y .01 2n /
´n basada La Tabla 2.2 indica valores de c α estimados mediante una sim ulacio en 10.000 replicaciones, correspondientes a α = 5% para varios valores de n, k , ´tico en la l´ınea n = ∞ . Los resultados muestran e incluye el valor asinto ´n resultante de reemplazar c α por el valor l´ımite cuando que la aproximacio n → ∞ es buena. Muestran tambi´en que se requiere una simulaci ´on m´as ´mero considerablemente mayor de replicaciones, para precisa, basada en un nu ´n de c en funci´ describir adecuadamente la evolucio on de n , ya que resulta m´ as razonable atribuir las fluctuaciones observadas a medida que n crece a ´n que al comportamiento de los verdaderos valores los errores de la simulacio cr´ıticos.
2.4
Prueba de a juste de Kolmogorov.
´ mero de la revista Giornale dell’Istituto Italiano degli Attuari, En el mismo nu que dirig´ıa F. P. Cantelli, de enero de 1933, aparecieron un art´ıculo de V. Glivenko 1 en el que muestra la validez del hoy llamado Lema de Glivenko Cantelli y el art´ıculo en que A. N. Kolmogorov propone la prueba que lleva su nombre 2 1
Sulla determinazione empirica delle leggi di probabili ta , pp. 92-99. Sulla determinazione empirica di una legge di distribuzione, pp. 83 - 91. `
2
Licenciatura en Estad ´ ıstica. 2.4. Prueba de Kolmogorov.
25
Tabla 2.2: Valores cr´ıticos para la prueba χ 2 de Pearson de nivel 5%, correspondientes a k clases equiprobables, y muestras de taman ˜ o n . n 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 ∞
k 3 5.2000 6.2000 5.2000 6.1000 5.8400 5.6000 5.7143 6.0500 5.7333 5.9200 6.1455 6.1000 5.9385 5.9429 6.0800 6.0250 6.0941 6.0667 5.9579 6.0200 5.9915
4
5
6
7
8
9
10
11
7.6000 7.6667 7.6000 7.4800 7.8667 7.6286 7.6000 7.5333 7.7600 7.6182 7.6000 7.6769 7.8286 7.5067 7.4000 7.8471 7.6889 7.6947 7.6000 7.8147
9.0000 8.6667 9.0000 9.2000 9.3333 9.4286 9.2500 9.5556 9.4000 9.6364 9.3333 9.5385 9.4286 9.4667 9.5000 9.2941 9.6667 9.2632 9.6000 9.4877
10.4000 11.0000 10.6000 10.7600 11.2000 10.7714 11.0000 10.8667 10.9600 10.7818 10.8000 10.7846 10.9143 11.0000 11.0500 10.9294 10.9333 10.9158 10.8800 11.0705
12.5333 12.2000 12.2400 12.4667 12.4000 12.5000 12.7111 12.4400 12.5818 12.8000 12.4308 12.4000 12.6400 12.4000 12.4235 12.3556 12.8000 12.5600 12.5916
14.3333 13.6000 14.3600 13.7333 14.1429 14.0000 13.8444 14.0000 14.0909 13.8667 14.1385 14.1143 14.0667 13.8000 13.9176 14.1778 14.0526 13.9200 14.0671
15.6000 15.1000 14.9600 15.6000 15.1429 15.3500 15.2000 15.5200 15.5273 15.6000 15.4462 15.3714 15.1200 15.4000 15.6941 15.6000 15.3684 15.2000 15.5073
16.3333 17.0000 17.0000 16.6667 16.7143 16.5000 16.5556 16.8000 17.1818 16.6667 16.6923 17.1429 16.8667 17.0000 17.0000 16.6667 16.8947 16.6000 16.9190
17.4000 17.6800 18.4000 18.1143 18.3000 18.3111 18.2000 18.4000 18.1000 18.0923 18.3143 18.1333 18.4500 18.1412 18.5333 18.3579 17.9200 18.3070
12 19.6000 19.6400 19.6000 19.5143 19.4000 19.2667 19.6000 19.8364 19.6000 19.3692 19.4857 19.5600 19.6000 19.6118 19.6000 19.3158 19.7600 19.6751
13 20.3000 21.2800 21.1333 20.3429 21.1000 21.1556 20.7200 21.3455 20.6000 20.8000 20.6286 21.2000 20.7500 20.9882 20.9333 20.9053 20.9000 21.0261
14
15
16
17
18
19
20
22.6000 22.2667 22.2000 22.3000 22.5111 22.2400 22.1273 22.1333 22.2308 22.0000 22.2533 22.2000 22.2235 22.3111 22.4526 22.6400 22.3620
23.6000 24.0000 22.8571 23.7500 24.0000 23.8000 23.8182 23.5000 23.8462 23.8571 23.6000 23.5000 23.5294 23.6667 23.5789 23.6000 23.6848
24.2800 25.4667 24.8857 24.8000 24.3333 25.5200 24.4182 24.8000 24.8462 25.0857 25.0533 25.2000 25.1176 25.2000 25.0842 24.8000 24.9958
26.6667 26.6857 26.3000 25.6444 26.1600 26.2909 26.1333 25.7538 26.1714 26.3200 26.2500 26.4000 26.3556 26.1474 26.1400 26.2962
27.6000 28.2571 27.5000 27.4000 27.7600 27.1455 27.6000 27.7692 27.7143 27.0000 28.0000 27.4471 27.2000 27.2105 27.4400 27.5871
29.5333 28.5143 29.3500 28.8889 29.0400 28.9455 29.3000 28.8308 29.3429 28.6133 29.2500 28.7765 29.0667 29.2000 28.8200 28.8693
30.0000 29.5714 30.0000 30.1111 30.0000 30.4545 30.0000 30.0769 30.0000 29.8000 30.0000 30.0588 30.0000 30.2632 30.0000 30.1435
n 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 ∞
k
26
Capıtulo ´
Enrique M. Caba n ˜ a. 2: Pruebas de bondad de ajuste.
Tabla 2.3: Valores cr´ıticos del estad´ıstico de Kolmogorov medio de una simulaci ´ on basada en 200.000 replicaciones. α
√ nD obtenidos por
α
α
n
10%
5%
n
10%
5%
n
10%
5%
5 6 7 8 9 10 11 12 13
1.136 1.144 1.154 1.157 1.162 1.167 1.167 1.168 1.176
1.258 1.271 1.279 1.285 1.292 1.295 1.297 1.299 1.307
14 15 16 17 18 19 20 25 30
1.176 1.177 1.179 1.183 1.184 1.181 1.183 1.188 1.191
1.307 1.307 1.310 1.314 1.316 1.312 1.314 1.320 1.326
35 40 45 50 60 70 80 100
1.197 1.201 1.202 1.206 1.203 1.205 1.205 1.209 1.224
1.330 1.337 1.335 1.334 1.336 1.341 1.339 1.340 1.358
∞
El esta d´ıstico √ de Kolmogorov es D = sup | Fn (x ) − F (x )| , la prueba tiene regi´ on cr´ıtica nD > c n (α ), con c n (α ) elegido para que el nivel sea α , y en el art´ıculo mencionado, Kolmogorov muestra ´n de D cuando se cumple H 0 “F = F 0 ” es la misma (i) que la distribucio ´n F 0 continua, y para cualquier distribucio (ii) que limn →∞ c n (α ) = c (α ), soluci´ on de α = 2
.
∞
=1
2 2
(− 1) j −1 e− 2j c (α ).
´n de c n (α ) con n . La Tabla 2.3 describe de manera emp´ırica la variacio Un c´ alculo exacto de la probabilidad g n (a ) = P{ Dn > a } pod r´ıa hacerse integrando la densidad n ! de la distribuci´ on de probabilidades de la muestra ´n ordenada U (1) , U (2) , . . . , U (n ) de la distribuci´ on uniforme en [0, 1], en la regio definida por las desigualdades | Fn (u ) − u | < a , 0 < u < 1. Se trata de un ´ mero infinito de desigualdades, una para cada u en [0, 1], pero para que to das nu se cumplan basta que los puntos de coordenadas (U (i ) , (i − 1) /n ), (U (i ), i/n ), en en la banda { (u, y ) : 0 < u < 1, u − a < y < u + a }. i = 1, 2, . . . , n est´ Para que esto ocurra es necesario y suficiente que los puntos medios de los ´fico de la funci ´ segmentos verticales del gra on de distribuci´ on emp´ırica - todos ellos de longitud 1 /n - disten menos de a − 1/ 2n de la diagonal, de manera ´rea, volumen ...) que 1 − g n (a ) es el producto de n ! por la medida (longitud, a n de la regi´ on de R formada por los puntos u = (u 1 , . . . , u n ) que verifican las ecuaciones 2 )/n − u i | < a − | (i − 1/ 1/ 2n, i = 1, 2 . . . , n .
Licenciatura en Estad ´ ıstica. 2.4. Prueba de Kolmogorov.
27
n de la densidad con- alculo directo mediante la inte gr ac i o Ejemplo 2.4.1 El c ´ ´ junta es inabordable para valores grandes de n como lo muestra e l siguiente an alisis os: para algunos valores p eq ue n ˜ ´ n = 1 Las desigualdades se reducen a | 1/ 2 − u | < a − 1/ 2, que define para a > 1/ 2 un intervalo de longitud min(2a − 1, 1). De all´ı resulta g 1 (a ) = ´n x + = max( x, 0) indica la 1 − min(2 a − 1, 1) = 2(1 − a )+ (la notacio parte positiva de x ). n = 2 Las desigualdades | 1/ 4 − u 1 | < a − 1/ 4, | 3/ 4 − u 2 | < a − 1/ 4 definen 2 ´n con [0, 1] tiene lado 2( a − 4) cuando un cuadrado cuya interseccio 1/ 4 + (a − 4) = a , 1/ 4 < a ≤ 1/ 2. Luego, para 1/ 2 < a ≤ 1, el lado es 1/ 1/ y para a > 1 la intersecci ´ on es todo el cuadrado unitario, y el lado es constante igual a 1.
u 2
/ / / /
3/ 4
/ / / / / / / / / / / / / / / /
´n para el ca ´lculo de la distribucio ´n de D 2 . Figura 2.2: Regiones de integracio ´n contenidos en el primer caso en la reg io ´n de inEstos cuadrados esta ≤ ≤ ≤ ´n o recorrido de la variable 0 u 1 u 2 tegracio 1, y en el segundo
28
Enrique M. Caba n ˜ a. Capıtulo 2: Pruebas de bondad de ajuste. ´n un tria ´ngulo de a ´rea 2(a − 2)2 . Como caso tienen fuera de esa regio 1/ consecuencia, ´
g 2 (a ) =
2 + 4a − 8a 2 1/ 2) 2 = 1 − 2(2a − 1/ 2)2 ) 1 − 2(a 2 − 2(a − 1/ 0
si 1/ 4 < a ≤ 1/ 2 si 1/ 2 < a ≤ 1 si 1 < a.
´ficos de las funciones g 1 y g 2 obtenidas en La Figura 2.3 muestra los gra ´n en de g 3 y g 4 calculadas mediante integracio el Ejemplo precedente, y tambi´ num´erica.
g 1
g 2 g 4
g 3
´n gra ´fica de g n (a ) = P{ Dn > a } para n = 1, 2, 3, 4. Figura 2.3: Representac io
Pruebas de a juste de Cramer - von Mises.
2.5
´
Los estad´ısticos de Cram´er - von Mises son de la forma ¸
Q n = n
∞ −∞
¸
(F n (x ) − F 0 (x ))
2
ψ (F 0 (x )) dF 0 (x )
∞
= −∞
2 b n (F 0 (x ))ψ (F 0 (x ))dF 0 (x ),
(2.2)
Licenciatura en Estad ´ ıstica. 2.5. Pruebas de Cramer - von Mises.
29
´
donde F n es la funci´ on de distribuci ´ on emp´ırica de una la muestra aleatoria simple X 1 , . . . , X n de cierta distribuci´ on F que suponemos con tinua. El cambio de variables u = F 0 (x ) permite escribirlos de manera equiv alente 1 como Q n = n 0 (F n (F 0− 1 (u )) − u )2 ψ (u )du . Dado que las variables U i = F 0 (X i ) ´n uniforme, y que la constituyen una muestra aleatoria simple de la distribucio − 1 funci ´ on en escalera F n (F 0 (u )) es la funci´ on de distribuci´ on emp´ırica de esa ´ ltima escritura muestra que la distribucio ´n de Q no depende muestra, esta u de F 0 cuando F = F 0 . Muestra tambi´en que la distribuci´ on l´ımite para n → ∞ del estad´ıstico Q n 1 2 es la de 0 b (u )ψ (u )du , donde b es un puente browniano t´ıpico. Llamemos X (1) , . . . , X (n ) a los estad´ısticoa de orden que se obtienen ordenando la muestra de menor a mayor. El estad´ıstico Q n puede calcularse teniendo en cuenta que en cada intervalo de la forma (X (i ) , X (i +1) ), la funci´ on ´n vale para i = 0, 1, . . . , n con F n (x ) es constante, igual a i/n . Esta observacio ´n podemos la convenci ´ on X (0) = −∞ , X (n +1) = ∞ . A partir de esta observacio escribir ¸
¸
n
X (i+1)
¸
.
Q n = n
=0 i
X (i)
n
(
F x ))
− 0 (
n
2
ψ (F 0 (x ))dF 0 (x )
F 0 (X (i+1) ) i ( − u )2 ψ (u )du. n =0 F 0 (X (i) ) i ¸
.
= n
El c´ alculo expl´ıcito de estas integrales, cuya eventual dificultad depende de la selecci ´ on de la funci ´ on ψ , permite reducir la expresi ´ on que define al estad´ıstico Q n a una suma finita que depende de la muestra a trav´es de las variables aleatorias uniformes F 0 (X i ). Encontramos de nuevo de esta manera que la al sea la distribucio ´n F 0 . So ´lo depende de distribuci´ on de Q n no depende de cu´ n y de cu´al sea la funci ´on ψ .
2.5.1
El estadıstico de Cramer - von Mises propiamente dicho. ´
´
La prueba propuesta por Cram´er y von Mises se basa en el esta d´ıstico (2.2) correspondiente a ψ (u ) = u . El estad´ıstico se calcula en la forma n
.
Q n = n
=0 i
¸
F 0 (X (i+1) ) F 0 (X (i) )
(
i
n
n −
.
2
u ) du = n
=0 i
¸
F 0 (X (i+1) ) F 0 (X (i) )
(
2 i
n 2
2iu
−
n
2
+ u )du
n 1 n 2 2 2 = [F 0 (X (i +1) ) − F 0 (X (i ) )] + n i [F 0 (X (i +1) ) − F 0 (X (i ) )] − i n i =0 i =0
¸
.
.
1 0
u 2 du
30
Capıtulo ´
Enrique M. Caba n ˜ a. 2: Pruebas de bondad de ajuste.
n +1 n n 1 n +1 1 n 2 2 2 (i − 1) F 0 (X (i )) − (i − 1)F 0 (X (i ) )+ iF 02 (X (i ))+ = i F 0 (X (i ) ) − n i =1 n i =0 3 =2 =1 i i
.
.
.
.
n 2 1 n (1 − 2i )F 0 (X (i )) − n + = + n n i =1
.
n
=
2i − 1 F 0 (X (i )) − 2n
.. =1 i
n .
=
. 1 2
2i − F 0 (X (i ) ) − 2n
. =1 i
n
.2
. n
.
−
=1 i
=1 i
=1 i
2
i
i
1 + − 4n 2 n 2 n 2
. +
n (n + 1) n (n + 1)(2n + 1) + 2n 2 6n 2
2i 1 F 0 (X (i )) − 2n
n 3
F 02 (X (i ) ) +
−
..
=
n
.
.2
+
n 3 n n + 4n 2 3
−
1 . 12n
Sobre la distribucion asintotica del estadıstico de Cramer - von Mises.
2.5.2
´
´
´
´
1
Ya hemos observado que Q n converge en ley a Q = 0 b 2 (u )du . Para describir la distribuci´ on de Q , tomemos una sucesi´ on de funciones f 1 , . . . , f n , . . . que constituyan un sistema ortonormal completo en el espacio L = { f : [0, 1] → R : 1 Ef 2 (U ) < ∞ , U ∼ Unif[0, 1]} , con el producto interno ( f , g ) = 0 f (u )g (u )du . 1 En ese caso, del desarrollo de Fourier b (u ) = ∞ i ( u ) 0 f i (v ) b ( v ) dv re=1 f i 1 2 1 ∞ 2 2 = 0 b (u )du = i =1( 0 f sulta ¦ b¦ i (v )b (v ) dv ) . 1 Las variables 0 f on normal conjunta, con espei (v )b (v ) dv tienen distribuci´ ranzas cero y covariancias ¸
¸
.
.
¸
¸
¸
¸
1
¸
E
0
1
¸
f i (v ) b (v )dv
f j (v )b (v )dv =
0
1
¸
1
¸
f i ( u )[
0
0
(Eb (u )b (v ))f j (v )dv ]du.
Esta expresi ´ on se simplificar´ıa notablemente si se cumpliera 1
¸
(Eb (u )b (v )) f j (v )dv = λ j f j (u )
0
(2.3)
´ n valor de λ j , porque en ese caso tendr´ıamos para algu 1
¸
Cov( 0
1
¸
)b (u )du, f i ( u
0
¸
f i (v )b (v ) dv ) =
0
.
1
f j f j (u )du i (u ) λ
0, λi ,
si i = j, si i = j.
Vamos a verificar que las funciones f j pueden elegirse de manera que se cumpla (2.3), es decir: 1
¸
0
(u ∧ v − uv )f j (v )dv = λ j f j (u ).
Licenciatura en Estad ´ ıstica. 2.5. Pruebas de Cramer - von Mises.
31
´
Veamos en primer lugar qu´e funciones f cumplen ¸
λf (u )
1
u
¸
(u ∧ v − uv )f (v )dv = (1 − u )
=
vf (v )dv + u
0
0
¸
1
f (v )(1
−
v )dv.
u
´n una vez, encontramos Al derivar esta ecuacio ¸
t
λf (u ) =
u
¸
vf (v )dv + u (1
u )f (u ) + 1
¸
vf (v )dv +
= − 0
f (v )(1
−
v )dv − u (1 − u )f (u ),
u
0 ¸
1
1
u
f (v )dv.
tt ´n muestra que f debe cumplir√ f (u ). Las λf (u ) = − √ Una nueva derivacio soluciones de esta ecuaci ´ on son de la forma a cos( u/ λ) + b sin(u/ λ). La ecuaci ´ on de partida muestra que f (0) = f (1) = 0, y esto implica que, de las funciones trigonom´ etricas indicadas, s´ olo podemos conservar las de la √ 2 2 forma f 1 /λi = i π . Para que las funciones f i tengan i ( u ) = b i sin(u/ λi ), con√ norma 1, se requiere elegir b i = 2. Es conocido que el sistema de las funciones trigonom´ etricas 1, sin(nt ), cos(nt ) (n = 1, 2, . . .) es un sistema completo en el intervalo [− π , π ], y, de manera equivalente, que 1, sin(n π u ), cos(n π u) (n = 1, 2, . . .) son un sistema com1 pleto en [− 1, 1]. Esto significa que cuando − 1 f 2 (x )dx < ∞ , f coincide en L2 ([− 1, 1]) con su desarrollo en serie de Fourier. 1 ˜ igual a Por este motivo, si 0 f 2 (u )du < ∞ , entonces la funci ´ on impar f f en [0, 1] coincide en L2 ([− 1, 1]) con su desarrollo en serie de Fourier, que es un desarrollo de senos, po rq ue los co eficientes de los cosenos son todos nulos, ˜ es impar . Esto implica que f coincide en L2 ([0, 1]) en [0, 1] con debido a que f su desarrollo en serie de Fourier de senos. √ Un c´ alculo directo muestra que las funciones f ) = 2 sin(n π u) cumplen i ( u las condiciones que muestran que 01 b 2 (u )du tiene la distribuci´ on de la suma ∞ 1 Z 2 , con Z 1 , Z 2 , . . . i.i.d. normales t´ıpicas. Se trata de una distribucio´n 2 2 i ¸
¸
¸
.
i =1 i π
con puntos de contacto con las distribuciones χ 2 . En vez de una suma finita de cuadrados de variables normales t´ıpicas independientes, como es el caso de las distribuciones χ 2 , se trata de una suma infinita de tales cuadrados, pero multiplicados por coeficientes diferentes, que tienden a cero de modo que la ∞ 1 6) es finita. = 1/ variancia (que en este caso vale 2 2
.
i =1
2.5.3
i π
La prueba de Anderson y Darling.
El estad´ıstico de Anderson - Darling integra los cuadrados b 2n de los apartamientos del proceso emp´ırico respecto de su esperanza (nula bajo H 0 ) medidos
Enrique M. Caba n ˜ a. Capıtulo 2: Pruebas de bondad de ajuste. 2 en relaci´ on a Varb (x ) = F 0 (x )(1 − F 0 (x )). En otras palabras, se utiliza n ψ ( F 0 (x )) = F (x )(11− F 0 (x )). 0 Como en el caso de la Prueba de Cram´er - von Mises, puede obtenerse una ormula para calcular el estad´ıstico f ´
32
´
1
¸
2
A n =
0
2 b n (F 0 (x )) dF 0 (x ) F 0 (x )(1 − F 0 (x ))
´tica, que es la de mediante una suma finita, y puede describirse la ley asinto 1 b 2 (u ) 0 u (1− u ) du como la de una serie del mismo tipo que la encontrada en el caso de Cran´er - von Mises. ¸
Pruebas de a juste a la familia F = {L(µ + σ X ) : L(X ) = F 0, µ ∈ R, σ ∈ R+} .
2.6
1 n Para probar H 0 :“F ∈ F ”, pueden estimarse µ y σ 2 mediante µ ˆ = n i =1 X i , X − µ 1 n σ ˆ 2 = n i =1 (X i − µ ˆ )2 . Luego se tipifica la muestra en la forma Y i = σ 2 y ´n F 0 , adaptada a la se aplica a Y 1 , . . . , Y n una prueba de ajuste a la distribucio circunstancia de que la muestra tipifi cada no es i.i.d., ya que las variables no 2 son independientes, puesto que en todas intervienen µ ˆ y σ ˆ . 1 (X ) ¯ = xdF n (x ) = µ + √ El promedio de la muestra µ ˆ = X n xdb n se expresa convenientemente a partir de la funcio ´n de distribuci´ on emp´ırica o del proceso emp´ırico. 1 n 2 ¯ )2 Lo mismo ocurre con el estimador de la variancia, σ ˆ = n i =1 (X i − X .2 . 1 2 2 1 2 (X ) (X ) ¯ √ db − ( ) ( xdb (x − µ ) . = x − X dF n x ) = σ +
.
.
i
ˆ
ˆ
¸
¸
.
¸
¸
¸
n
n
estimado Introducimoe el proceso emp ´ıri co
n
n
. 1 n . . 1 n . ¯ ≤ y { } Y √ F F (y ) (y ) y 1 − 1 − ( ) = = X ≤ X sy { + } 0 0 n n i =1 n i =1
ˆ b
.
.
i
1 n = √ 1 s n i =1 { Z ≤ y +( − 1)y +
..
i
σ
¯ − µ X σ
−
}
i
F 0 (y ) .
El proceso emp´ırico de las variables tipificadas Z 1 = es
. 1 n . b n (x ) = √ 1{ Z ≤ x } − F 0 (x ) . n i =1 (Z )
´n Con la notacio
y n = y +
.
. s σ
i
¯ − µ X − 1 y + ,
.
σ
.
X 1− µ , σ
. . ., Z n =
X n − µ σ
Licenciatura en Estad ´ ıstica. 2.6. Pruebas de Cramer - von Mises.
33
´
escribimos
ˆ b
(Z ) n (y ) = b (y n ) +
n b (nX ) (x )
Como consecuencia, de
¯ − µ X σ
s 2 1 = 1 + √ 2 σ n
√ n (F 0 (y n )
= b (n Z )
1 = √ n 2
F 0 (y )) .
. x µ . −
, obtenemos
σ
¸
zd b( n Z ) (z ),
1 z db n (z ) − n
¸
−
(Z )
.
¸
(Z )
zd bn
.2
,
y entonces 1 y n = y + √ n
y zd bn (z ) + √ 2 n
¸
¸
(Z )
√ (Z ) z 2 db n / n ). (z ) + o (1
Como consecuencia, si F 0 tiene densidad f 0 , podemos escribir
.
¸
ˆ b
n (y )
(Z )
= b n (y n ) +
y zd b n (z ) + 2
¸
(Z )
√ / n ). z db n (z ) f 0 (y ) + o (1 (Z )
2
.
(Z ) Puesto que b n tiene la distribuci´ on asint´ otica del puente browniano b (F 0 ) ´n l´ımite del proceso emp´ırico asociado a F 0 , bajo “F = F 0 ”, la distribucio en gaussiana. El l´ımite de las covariancias muestra estimado ˆb n (y ) es tambi´ ´tica es la de que esta distribuci´ on asinto
.
¸
(F 0 )
b
(y ) +
(F 0 )
zd b
y (z ) + 2
¸
2
(F 0 )
z db
.
(z ) f 0 (y ).
(2.4)
´ que el procedimiento de estimacio ´n de los para ´metros proSe observara ´n porciona estimadores que no son invariantes respecto de la transformacio ´n de los esta d´ısticos que can´ onica X → F 0 (X ). Por ese motivo, la distribucio ˆ ´s predescriben el taman on F 0 , o ma ˜ o de b n no es independiente de la distribuci´ cisamente, no es independiente de la familia de distribuciones de probabildad que interviene en la hip´ otesis nula de ajuste. Por ese motivo, los procedimien´n de los valores cr´ıticos tos basados en lo que precede requieren la determinacio para cada F 0 en particular. ´loga puede realizarse para cualquier otra familia de disUna prueba ana tribuciones que sea la m´ınima familia cerrada bajo cambios de posicio´n o de disp ersi´ ´n F 0 dada. Por lo que acabamos de on que contiene a una distribucio indicar, el procedimiento es el mismo, pero los valores cr´ıticos tienen que ser calculados nuevamente, para cada familia.
34
Capıtulo ´
2.6.1
Un ejemplo: liefors.
Enrique M. Caba n ˜ a. 2: Pruebas de bondad de ajuste.
La prueba de normalidad de Lil-
ˆ = sup | F ˆ − Φ| , donde F ˆ (y ) = ´n del esta d´ıstico de Kolmogorov D La utilizacio n n n 1 n i =1 1{ Y ≤ y } dentro del contexto precedente, conduce a la llamada Prueba d e n
.
i
ˆ n > c Lilliefors de regi´ on cr´ıtica D ˆn (α ). ´n normal, Intuitivamente, es de esperar que, si la muestra tiene distribucio as cerca de la distribuci´ la muestra tipificada estimada est´e m´ on normal t´ıpica 2 ´metros, ya que µ que la muestra tipificada con los verdaderos para ˆ y σ ˆ son ´n normal que mejor se ajusta a la muestra, en ametros de la distribucio los par´ particular, mejor que la verdadera distribucio ´n que dio lugar a la muestra. Este argumento no es concluyente, ya que los estimadores son los que ma´n normal, y no los que ximizan la verosimilitud, en el caso de la distribucio ´n es correcta: Lilliefors minimizan la distancia de Kolmogorov. Pero la intuicio ˆ ´n de D n , y sus tablas lo confirman. obtuvo emp´ıricamente la distribucio ´loga de Lilliefors, para la cual tambi´ en ha calExiste una propuesta ana ´tesis nula de que la culado tablas de los valores cr´ıticos, para probar la hipo distribuci´ on es exponencial. El estad´ıstico de la prueba de normalidad de Lilliefors suele escribirse en la forma ˆ (x )| , Ln = sup | Fn (x ) − F ˆ es la distribuci´ donde F on normal cuyas media y variancia son las estimadas, ˆ (x ) = P { µ ) σ es decir, con Z normal t´ıpica, F ˆ + σ ˆ Z ≤ x } = Φ((x − µ ˆ / ˆ ), pero el 1 n ) σ ˆ / ˆ conduce a escribir F n (x ) = n i =1 1 { X ≤ x} cambio de variables Y i = (X i − µ 1 n ˆ ((x − µ ˆ (( x − µ ) σ ) σ ˆ / ˆ ) y entonces Ln = sup | F ˆ / ˆ ) − = n i =1 1{ Y ≤ (x −µ / ) σ } = F n n
.
.
i
ˆ
i
ˆ
ˆ . Φ((x − µ ) σ ˆ / ˆ )| = D n
En resumen es equivalente utilizar la muestra tipifi cada estimada, y com- ıpi ca n , o comparar directamente la dis- normal t ´ pararla con la distribuc i o ´ ıri ca con la distribuc i o n normal estimada . tribuci ´ on emp ´ ´