Anderson Darling

C URSO

Ma rzo , 20 07 Vo lum en 1 , Número 5

DE

ESTADÍSTICA Sociedad Española Sociedad Española de Bioquímica Clínica y Patología Molecular (SEQC), Calle Padilla 268, despacho 68, 08025-Barcelona, http://www.seqc.es

Indice Indice Cuarta Sesión Presencial Foro “Curso de Estadística SEQC” Nuevos documentos en la web Nombres propios: Gertrude Mary Cox El test de Anderson Darling El test de Anderson-Darling en Excel®

1 1 1 2 3 4 5

El test de Anderson Darling en

9

TERCERA SESIÓN PRESENCIAL

Existe la posibilidad de concertar plazas de hotel y desplazamiento contactando con Ana López, Ana López Top Congress Padilla, 323 - 325 Entlo. Desp. 65 A 08025 Barcelona Tfo. +34 93 450 88 32 Fax. +34 940 46 74 79 Email. [email protected] www.topcongress.es

Cuarta Sesión Presencial

Fecha:

17-18

Octubre

2007,

Sevilla (CONGRESO DEL LABORATORIO CLÍNICO) Fechas: 15-16 de Mayo 2007 Aula de Informática Facultad de Económicas Universidad de Santiago de Compostela Coincidiendo con

Foro “Curso de Estadística SEQC” La empresa Cometatech que desarrolla las páginas Web de la SEQC está ultimado la aplicación “Foro” que está activa desde el 30 de Enero. Para acceder a ella,

JORNADAS DEL COMITÉ CIENTIFICO DE LA SEQC

JORNADA DE TOXICOLOGIA “Memorial Margarita Engel”

Se

pulsa en

Y seguidamente

III SYPOSIUM INTERNACIONAL FESTEM

en

Vol. 1, núm. 5, Pág. 2

Curso de estadística Aparece la pantalla “LISTA DE ordenados desde el más reciente

MENSAJES”

Nuevos documentos en la web “Modulo 2”:Desde el 1 de Marzo, 2007:

Pulsando

en

puede

introducirse

un

nuevo

mensaje;

pulsando en aparecen mensajes que hayan entrado una vez iniciada la sesión; y

pulsando en

se visualizan las conexiones entre mensajes y respuestas.

Marcando el mensaje que se desea leer (por ejemplo la “bienvenida” del Director de la Web) aparece esta pantalla:

Presentaciones en la Sesión de Madrid (2 de Febrero 2007) •

ANOVA

•

INFERENCIA

•

NO PARAMETRICA & BONDAD DE AJUSTE

•

REGRESION

• TAMAÑO MUESTRAL Nota: estas presentaciones se facilitan sólo a título orientativo. Sacadas de contexto pueden ser difíciles de entender y aplicar. En un plazo breve de tiempo se publicaran notas y ejercicios completos como guía de estudio.

"Ejemplos de ANOVA con SPSS"

y la posibilidad de responderle pulsando

en

Por el momento se trata de un foro sin moderador, de modo que cada mensaje entra directamente sin filtro. Agradeceremos mucho cualquier sugerencia para mejorar esta vía de comunicación.

•

ANOVA_EJEMPLO_PPT

•

ANOVA_SINTAXIS

•

ANOVA_VISOR

•

CHb3

Desde el 15 de Abril, 2007: •

ANOVA Notas

•

INFERENCIA Notas

•

ESTADISTICA ROBUSTA Notas

•

BONDAD DE AJUSTE Notas

•

COMPARACION Notas

Curso de estadística

Nombres propios: Gertrude Mary Cox

Gertrude Cox (1900-1978) Nació en Dayton, Iowa, U.S.A., se graduó en matemáticas y se doctoró en estadística por la Universidad de su estado natal, Iowa. Su capacidad de trabajo, organización y tenacidad fueron legendarias. Entre 1931 y 1933 trabajó en la Universidad de California en Berkeley, regresando a Iowa para ayudar George Snedecor en la conducción del recién creado Laboratorio de Estadística de su Universidad, convirtiéndose en profesor ayudante de investigación en 1939. En 1940 fue nombrada para fundar el departamento de estadística Experimental en la Universidad Estatal de Carolina del Norte en Raleigh, que dirigió hasta 1949 y cuya sede actual lleva su nombre. Desde entonces hasta su jubilación en 1965, participó en la organización de la institución que hoy se conoce como Research Triangle Park en Chapel Hill, NC. Desde 1945 a 1956 dirigió el Biometrics Bulletin de la sección de Biometría de la American Statistical Association (ASA) (que después sería la revista Biometrics, órgano de la Sociedad Internacional de Biometría, fundada por ella en 1947. Fue la primera mujer elegida en la junta del International Statistical Institute (1949). En 1956 fue elegida Presidente de la ASA. Su principal aportación a la estadística fue en el campo del diseño experimental. Su propósito fue siempre hacer de la estadística una ciencia práctica y aplicable tanto en la agricultura como en la investigación biológica. En 1950 publicó con W. G. Cochran Experimental Designs, un libro muy influyente y de permanente actualidad.




El test de Anderson Darling

Hipótesis nula

Introducción

población que se distribuye normalmente, con media y varianza no especificadas. H1 : La distribución de la que procede la muestra

Fue descrito en 1952 por Theodore W. Anderson y Donald A. Darling (1, 2).

H 0 : La muestra { x1 , x2 ," , xn } procede de una

{ x1 , x2 ," , xn }

no es normal.

Cálculo del estadístico A2 A2 = − n − S Donde: S

S =

es: n

∑ i =1

2i − 1 ln F ( X i ) + ln F ( X n +1− i ) ; n

(

)

n es muestral;

el

efectivo,

el

tamaño

F ( X • ) es la función de distribución

acumulada.

Realización del test 1. Ordenar los datos de

{ x1 , x2 ," , xn } Es uno de los tests estadísticos más utilizados(3) para detectar la mayoría de alejamientos de la normalidad. Puede utilizarse en tamaños muestrales de n ≥ 25 observaciones.

Utilización Se utiliza para valora si una muestra procede de una distribución específica. Al igual que el test de Kolmogorov-Smirnov (KS) o el de Shapiro–Wilk (SW), el test de Anderson-Darling (AD) no concluyen que la distribución sea normal, sino que los datos examinados “hacen improbable que la distribución no sea la normal”. El test de AD es una modificación del test de KS en la que se da mayor ponderación a las colas que en este último. Utiliza distribuciones específicas para calcular la región crítica. Esto hecho presenta la ventaja de hacerlo más sensible, pero la desventaja de que debe ser calculado para cada tipo de distribución.

La muestra es aleatoria.

de menor a mayor:

{

→ x(1) , x( 2) ," , x( n )

}

2. Calcular la media x y la desviación típica s de las observaciones 3. Estandarizar los datos (transformarlos a un conjunto de media 0 y desviación típica 1):

xi − x s

xi′ =

4. Calcular la probabilidad pi de la distribución acumulada de

xi′ : pi = Pr ( xi ) , conociendo la

significación de xi′ . 2

2*

5. Calcular A o, para muestras pequeñas, A :

A2 = −

(

n

)

1 ∑ ( 2 i −1) ln ( pi ) + ln (1− pn +1−i ) − n n i =1

NOTA 1: Si s = 0 o cualquier pi = 0 ó pi = 1 entonces A indefinido).

2

no

puede

calcularse

(es

2

6. Comparar con el valor crítico de A en la Tabla I: si la hipótesis hace referencia a la normalidad1, entonces el valor crítico es 0,752. Si A > 0, 752 , se rechaza la hipótesis de normalidad con un 2

1

Suposiciones

{X }

El test de Anderson Darling puede utilizarse para comprobar otras distribuciones teóricas (lognormal, exponencial, logística, de Weibull…). Cada una de estas distribuciones tiene sus propios valores críticos.


Curso de estadística riesgo α = 0, 05 . Para muestras pequeñas se puede calcular el denominado “estadístico de 2*

Anderson-Darling ajustado”, A , multiplicando

A2 por un factor que depende de n : 0, 75 2, 25   A2* = A2 1 + + 2  n n   Interpretación 2

El valor crítico de A es (4): α 0,1 0,05 0,025 2 0,631 0,752 0,873 A

0,01 1,035

Puede interpretarse W como el cuadrado del coeficiente de correlación entre los valores ordenados de la muestra Los

valores

{ai ,"}

{x( ) ,"} i

son

y

{ai ,"} .

aproximadamente

proporcionales a las puntuaciones normales

{mi ,"} .

Por tanto, W mediría la fuerza del diagrama de probabilidad.

Potencia Estudios de simulación por el método de Monte Carlo han demostrado que posee buena potencia para una amplia gama de distribuciones alternativas. El test de Shapiro Wilk es el que presenta prestaciones más cercanas al AD.

Limitaciones El test AD sólo es aplicable a un número reducido de distribuciones: normal, lognormal, exponencial, Weibull y logística.

Alternativas Test de bondad de ajuste de Kolmogorov-Smirnov (o test de Lilliefors); Test de bondad de ajuste ji–cuadrado; Test de normalidad de Shapiro-Francia; Test de normalidad de D’Agostino–Pearson; Test de normalidad de Stephens.

Referencias 1. Anderson TW, Darling DA. Asymptotic Theory of Certain "Goodness of Fit" Criteria Based on Stochastic Processes. The Annals of Mathematical Statistics 1952;23(2):193-212.

2. Anderson TW, Darling DA. A Test of Goodness of Fit. Journal of the American Statistical Association 1954;49(268):765-769. 3. Stephens MA. EDF Statistics for Goodness of Fit and Some Comparisons. Journal of the American Statistical Association 1974;69(347):730737. 4. D'Agostino RB, Stephens MA, editors. Goodness-of-fit techniques. New York: Marcel Dekker; 1986.

Ejemplo Se dispone de los siguientes n = 20 resultados de determinar la concentración catalítica de AST en una muestra aleatoria de individuos presuntamente sanos: 31,8 42,4 28,0 33,0 35,1 38,8 34,4 36,8 43,7 32,1 36,0 32,4 32,3 38,7 35,1 35,9 38,6 36,6 38,0 29,0 Antes de decidir qué estrategia de producción de valores de referencia se desea saber si se distribuyen normalmente.

El test de Anderson-Darling en MS Excel®

El complemento “Análisis de Datos” de Excel® 97 no dispone de ninguna función específica para realizar el test AD. Se puede recurrir a varias posibilidades: 1. Programar el cálculo; 2. Utilizar una calculadora on line; 3. Utilizar un complemento ad hoc, como Analyse it!®.

1. Programación Esta forma de proceder es tediosa pero sirve para ilustrar el proceso Procedimiento: (a) En la columna A (desde A1 hasta A20) se ha generado una serie correlativa de enteros desde 1 hasta n (en el ejemplo, de 1 a 20); (b) En la columna B se introducen los datos a analizar y se procede a ordenarlos de menor a mayor: marcando con el cursor y pulsando la

. (Para una mayor claridad el tecla resultado de la ordenación se presenta en la columna C); (c) Calcular la media y la desviación típica. En Excel® es sencillo: basta con introducir en la


Curso de estadística celda donde se desee (en el ejemplo, C23) la función =PROMEDIO(B1:B20) y =DESVEST(B1:B20) (en el ejemplo, en C24), seguidas de

E; (d) Estandarizar los datos ordenados de la columna C: en D1 se introduce: =(C1-$C$23)/$C$24 y

E,

que corresponde a la fórmula

xi′ =

xi − x s

⇒

[C1]

=

[C1] − [C23] [C24]

C

(

Pulsando

)

C se utiliza el cursor para

extender la expresión al resto de las 20 observaciones. (j) En la celda H22 se va a calcular la suma de estos valores: =SUMA(H1:H20) es decir:

∑ ( 2 i − 1) ( ln ( p ) + ln (1− p i

i =1

=

n + i −1

))

n

∑ [ Ai] = [ A1] + [ A1] + " + [ A20] i =1

(k) En la celda H23 ya se puede calcular el 2

estadístico A : =-H22/A20-A20

se utilizar el

cursor para extender la expresión al resto de las 20 observaciones. (g) En la celda F1 debe introducirse la expresión: =1-F3 que se utilizará en el cálculo de

C

=

= ( 2 × [ A1] −1) × ln ([ E1]) + ln ([ G1])

n

la expresión al resto de las 20 observaciones. (e) Hallar el valor de la probabilidad según la distribución normal acumulada de observar la frecuencia relativa D1. (f) En la celda E1, mediante la siguiente expresión: =DISTR.NORM(E1;0;1;VERDADERO), donde: 0 es el valor de la media; 1 el de la desviación típica estandarizada; y “VERDADERO” instruye a Excel a considerar la distribución aculada en lugar de la sencilla (para esta opción se requiere el parámetro FALSO).

Pulsando la tecla

( 2 i − 1) ( ln ( p i ) + ln (1 − p n+ i −1 ) )

C extender

Mediante el cursor y la tecla

Pulsando la tecla

(i) En la celda H1 se introduce la expresión: =(2*A1-1)*(LN(E1)+LN(G1)) que corresponde a la fórmula:

2

A .

seleccionando la opción abrir la ventana:

para

se utiliza el

cursor para extender la expresión al resto de las 20 observaciones. (h) En las celdas G1:G20 se copia el contenido del intervalo F1:F202 y se ordena de menor a mayor con

2

.

Esto se consigue marcando con el cursor el

intervalo

F1:F20,

pulsando

Cc,

desplazando el cursor a G1 mientras el intervalo parpadea, desplegando (con el botón derecho del ratón

) el menú contextual

en la que se seleccionará la opción

y

se aceptará pulsando en para obtener como resultado la copia de los valores, pero no de la fórmula, del intervalo F1:F20.


Curso de estadística que corresponde a la expresión:

∑ ( 2 i − 1) ( ln ( p ) + ln (1− p n

A = =

i

i =1

n " A1 + A1 + + [ A20] [ ] [ ] 20

n + i −1

2. Utilización de una calculadora

))

En

−n

− 20

= 0, 2057 (l) Puesto que n = 20 es un tamaño muestral pequeño, se calcula el estadístico corregido

A*2 introduciendo en H24 la expresión: =H23*(1+0,75/A20+2,25/A20^2) que corresponde a: 2   3   3 = A 1 + +    4n  2n     2   3   3 = [ H23] 1 + +    4 [ A20]  2 [ A20]    

*2

2

A

http://www.kevinotto.com/RSS/templates/Anders on-Darling Normality Test Calculator.xls puede hallarse una hoja de cálculo de uso muy sencillo para utilizar con un máximo de 100 datos. El procedimiento es el siguiente: Tras copiar los datos (marcándolos con el cursor y pulsando

Cc y desplazándose a la celda

A31 de esta hoja de cálculo), aparecen los cálculos intermedios, el resumen y a la significación del estadístico: Test Hypotheses Data is not normally distributed (no difference between H0: the data and random data) HA: Data is normally distributed. Count OK? 20 Number of data points S

B

C

D

E

F

G

H

1

1 31,8

28,0 -1,859 0,032 0,969 0,020

-7,358

2

2 35,1

29,0 -1,597 0,055 0,945 0,041 -18,285

3

3 43,7

31,8 -0,911 0,181 0,819 0,203 -16,520

4

4 32,3

32,1 -0,823 0,205 0,795 0,206 -22,136

5

5 38,6

32,3 -0,770 0,221 0,780 0,213 -27,513

6

6 42,4

32,4 -0,764 0,223 0,780 0,265 -31,160

7

7 38,8

33,0 -0,608 0,272 0,728 0,364 -30,098

8

8 32,1

34,4 -0,270 0,394 0,606 0,389 -28,151

9

9 38,7

35,1 -0,080 0,468 0,532 0,445 -26,651

10

10 36,6

35,1 -0,074 0,471 0,530 0,452 -29,406

11

11 28,0

35,9

0,120 0,548 0,452 0,530 -25,990

12

12 34,4

36,0

0,137 0,555 0,445 0,532 -28,082

13

13 36,0

36,6

0,282 0,611 0,389 0,606 -24,820

14

14 35,1

36,8

0,349 0,636 0,364 0,729 -20,759

15

15 38,0

38,0

0,630 0,736 0,264 0,778 -16,207

16

16 33,0

38,6

0,795 0,787 0,213 0,779 -15,159

17

17 36,8

38,7

0,819 0,794 0,206 0,795 -15,203

18

18 32,4

38,8

0,832 0,797 0,203 0,819 -14,927

19

19 35,9

42,4

1,741 0,959 0,041 0,944

-3,643

20

20 29,0

43,7

2,049 0,980 0,020 0,968

-2,046

0,2057 AD test statistic 0,214554 AD* test statistic

p-value calculations p1

0,000000

p2

0,000000

p3

0,849697

3. Utilizando el complemento Analyse-it! Cuando se dispone del complemento comercial de se procederá de la Excel® siguiente forma para calcular el test de AD: (a) Copiar los datos en una columna, por ejemplo de A2:A21 incluyendo en la celda A1 el título de la variable (por ejemplo “AST”):

21 22 23 24

708,8 med SD

35,4 4,018

suma -404,11 A

2

0,206

A*

2

0,2146

-404,11367

35,438 Mean 4,018 Sigma

A

Seems OK...

Ya que 0, 206 ≤ 0, 75 se concluye que la hipótesis nula (la distribución es normal) no puede ser rechazada. (b) Marcarlos

con el cursor:


Curso de estadística normalidad,

desplegando

la

opción

:

seleccionando

:

y aceptando con . El resultado son los siguientes gráficos (histograma, diagrama de cajas y diagrama de normalidad) En la barra de herramientas de Excel®, pulsar

para abrir el siguiente menú

despleglable:

Seleccionar la opción abrirá el siguiente submenú:

que

Seleccionar la opción que abrirá la siguiente ventana de diálogo

En este menú debe seleccionar la variable, el intervalo de confianza y el percentil del diagrama (generalmente son útiles los valores presentados por defecto) y la prueba de


Curso de estadística la estadística descriptiva:

El test de Anderson Darling en Los paquetes de funciones que se instalan con no contienen una función específica para realizar el test AD. Sin embargo, una de las mayores ventajas de es que existen numerosas contribuciones de usuarios puestas a libre disposición de la comunidad científica donde es posible hallar muchas aplicaciones. El test de AD es un ejemplo. Para cargar esta aplicación debe conseguirse el “paquete” que contiene esta función. Interrogando a Google:

y el cálculo del estadístico de AD y su significación, junto con el valor y significación de los parámetros de forma de la distribución:

se consigue la información necesaria ya en las primeras opciones. Por ejemplo, en: www.biostat.wustl.edu/archibes/html/snews/2005-04/msg00065.html aparece el nombre del paquete denominado “nortest” relacionado con la función “test de Anderson Darling”:

Pulsar

principal de

en el marco izquierdo de la web , http://cran.r-project.org/:

Pulsar en la opción para abrir la página donde se dan las instrucciones y la lista de paquetes disponibles. Esta lista está a continuación del mensaje:

Vol. 1, núm. 5, Pág. 10


En la lista “nortest”: y pulsar

deberá

localizarse

el

paquete

para entrar en esta página:

Página que informa del contenido del paquete (cinco pruebas “omnibus” para comprobar la normalidad), de su autor y de la versión de que soporta dicho paquete. Para saber si en realidad contiene la prueba buscada, debe pulsarse

en:

Una vez decida la opción de utilizar esta función, debe descargarse el fichero pulsando

y seguirse las instrucciones para que se grabe en el subdirectorio “library” del directorio donde está el

para que aparezca el índice de pruebas:

programa instalación

.

Típicamente,

de

en se

habrá

durante la

la

carpeta creado

subcarpeta correspondiente al software

la

:

Es recomendable leer las instrucciones de utilización que se obtienen abriendo

el fichero de instrucciones:

Ya en la consola de pulsar en la barra de herramientas para desplegar el siguiente menú:

Vol. 1, núm. 5, Pág. 11

Curso de estadística Seleccionar

y aceptar

. pulsando Para entrar los datos (originalmente en una hoja de cálculo Excel®3) copiados en el “clipboard” de Windows se escribe en la consola de y Seleccionar la opción

E

Para comprobar que la lectura es correcta, se

teclea

y

E

que devuelve el vector

(columna) de datos: para abrir una ventana convencional de Windows para seleccionar y abrir ficheros. Una vez aparece el

seccionado y abierto siguiente mensaje en la consola

:

Una vez que ha “desempaquetado” y comprobado la funcionalidad de “nortest” debe ser cargado a la sesión actual. Para ello pulsar

en la barra de herramientas.

En el menú:

pulsar para abrir la siguiente ventana:

Si se desea información de la sintaxis (que está en la documentación descargada en ) debe escribirse para obtener empiezan con:

y varias

páginas

de

E

ayuda

que

y que contiene información sobre parámetros:

que contiene todos los paquetes disponibles (básicos y descargados) en el ordenador.

3

Eventualmente se habrá pasado por Word® para suprimir la estructura de tabla por la de texto libre y substituir las comas por puntos decimales.

Vol. 1, núm. 5, Pág. 12


sintaxis:

y limitaciones (por ejemplo, número mínimo de datos = 7). Por tanto, escribiendo4

y

E se devuelve el resultado buscado:

De igual forma se puede aplicar los restantes test de normalidad:

4

La sintaxis “x[,1]” indica que el tests debe aplicarse a la primera columna del archivo “x”. Entrando únicamente “x” se produce un error.

Anderson Darling

Recommend Documents