C URSO
Ma rzo , 20 07 Vo lum en 1 , Número 5
DE
ESTADÍSTICA Sociedad Española Sociedad Española de Bioquímica Clínica y Patología Molecular (SEQC), Calle Padilla 268, despacho 68, 08025-Barcelona, http://www.seqc.es
Indice Indice Cuarta Sesión Presencial Foro “Curso de Estadística SEQC” Nuevos documentos en la web Nombres propios: Gertrude Mary Cox El test de Anderson Darling El test de Anderson-Darling en Excel®
1 1 1 2 3 4 5
El test de Anderson Darling en
9
TERCERA SESIÓN PRESENCIAL
Existe la posibilidad de concertar plazas de hotel y desplazamiento contactando con Ana López, Ana López Top Congress Padilla, 323 - 325 Entlo. Desp. 65 A 08025 Barcelona Tfo. +34 93 450 88 32 Fax. +34 940 46 74 79 Email.
[email protected] www.topcongress.es
Cuarta Sesión Presencial
Fecha:
17-18
Octubre
2007,
Sevilla (CONGRESO DEL LABORATORIO CLÍNICO) Fechas: 15-16 de Mayo 2007 Aula de Informática Facultad de Económicas Universidad de Santiago de Compostela Coincidiendo con
Foro “Curso de Estadística SEQC” La empresa Cometatech que desarrolla las páginas Web de la SEQC está ultimado la aplicación “Foro” que está activa desde el 30 de Enero. Para acceder a ella,
JORNADAS DEL COMITÉ CIENTIFICO DE LA SEQC
JORNADA DE TOXICOLOGIA “Memorial Margarita Engel”
Se
pulsa en
Y seguidamente
III SYPOSIUM INTERNACIONAL FESTEM
en
Vol. 1, núm. 5, Pág. 2
Curso de estadística Aparece la pantalla “LISTA DE ordenados desde el más reciente
MENSAJES”
Nuevos documentos en la web “Modulo 2”:Desde el 1 de Marzo, 2007:
Pulsando
en
puede
introducirse
un
nuevo
mensaje;
pulsando en aparecen mensajes que hayan entrado una vez iniciada la sesión; y
pulsando en
se visualizan las conexiones entre mensajes y respuestas.
Marcando el mensaje que se desea leer (por ejemplo la “bienvenida” del Director de la Web) aparece esta pantalla:
Presentaciones en la Sesión de Madrid (2 de Febrero 2007) •
ANOVA
•
INFERENCIA
•
NO PARAMETRICA & BONDAD DE AJUSTE
•
REGRESION
• TAMAÑO MUESTRAL Nota: estas presentaciones se facilitan sólo a título orientativo. Sacadas de contexto pueden ser difíciles de entender y aplicar. En un plazo breve de tiempo se publicaran notas y ejercicios completos como guía de estudio.
"Ejemplos de ANOVA con SPSS"
y la posibilidad de responderle pulsando
en
Por el momento se trata de un foro sin moderador, de modo que cada mensaje entra directamente sin filtro. Agradeceremos mucho cualquier sugerencia para mejorar esta vía de comunicación.
•
ANOVA_EJEMPLO_PPT
•
ANOVA_SINTAXIS
•
ANOVA_VISOR
•
CHb3
Desde el 15 de Abril, 2007: •
ANOVA Notas
•
INFERENCIA Notas
•
ESTADISTICA ROBUSTA Notas
•
BONDAD DE AJUSTE Notas
•
COMPARACION Notas
Curso de estadística
Nombres propios: Gertrude Mary Cox
Gertrude Cox (1900-1978) Nació en Dayton, Iowa, U.S.A., se graduó en matemáticas y se doctoró en estadística por la Universidad de su estado natal, Iowa. Su capacidad de trabajo, organización y tenacidad fueron legendarias. Entre 1931 y 1933 trabajó en la Universidad de California en Berkeley, regresando a Iowa para ayudar George Snedecor en la conducción del recién creado Laboratorio de Estadística de su Universidad, convirtiéndose en profesor ayudante de investigación en 1939. En 1940 fue nombrada para fundar el departamento de estadística Experimental en la Universidad Estatal de Carolina del Norte en Raleigh, que dirigió hasta 1949 y cuya sede actual lleva su nombre. Desde entonces hasta su jubilación en 1965, participó en la organización de la institución que hoy se conoce como Research Triangle Park en Chapel Hill, NC. Desde 1945 a 1956 dirigió el Biometrics Bulletin de la sección de Biometría de la American Statistical Association (ASA) (que después sería la revista Biometrics, órgano de la Sociedad Internacional de Biometría, fundada por ella en 1947. Fue la primera mujer elegida en la junta del International Statistical Institute (1949). En 1956 fue elegida Presidente de la ASA. Su principal aportación a la estadística fue en el campo del diseño experimental. Su propósito fue siempre hacer de la estadística una ciencia práctica y aplicable tanto en la agricultura como en la investigación biológica. En 1950 publicó con W. G. Cochran Experimental Designs, un libro muy influyente y de permanente actualidad.
Vol. 1, núm. 5, Pág. 3
Vol. 1, núm. 5, Pág. 4
Curso de estadística
El test de Anderson Darling
Hipótesis nula
Introducción
población que se distribuye normalmente, con media y varianza no especificadas. H1 : La distribución de la que procede la muestra
Fue descrito en 1952 por Theodore W. Anderson y Donald A. Darling (1, 2).
H 0 : La muestra { x1 , x2 ," , xn } procede de una
{ x1 , x2 ," , xn }
no es normal.
Cálculo del estadístico A2 A2 = − n − S Donde: S
S =
es: n
∑ i =1
2i − 1 ln F ( X i ) + ln F ( X n +1− i ) ; n
(
)
n es muestral;
el
efectivo,
el
tamaño
F ( X • ) es la función de distribución
acumulada.
Realización del test 1. Ordenar los datos de
{ x1 , x2 ," , xn } Es uno de los tests estadísticos más utilizados(3) para detectar la mayoría de alejamientos de la normalidad. Puede utilizarse en tamaños muestrales de n ≥ 25 observaciones.
Utilización Se utiliza para valora si una muestra procede de una distribución específica. Al igual que el test de Kolmogorov-Smirnov (KS) o el de Shapiro–Wilk (SW), el test de Anderson-Darling (AD) no concluyen que la distribución sea normal, sino que los datos examinados “hacen improbable que la distribución no sea la normal”. El test de AD es una modificación del test de KS en la que se da mayor ponderación a las colas que en este último. Utiliza distribuciones específicas para calcular la región crítica. Esto hecho presenta la ventaja de hacerlo más sensible, pero la desventaja de que debe ser calculado para cada tipo de distribución.
La muestra es aleatoria.
de menor a mayor:
{
→ x(1) , x( 2) ," , x( n )
}
2. Calcular la media x y la desviación típica s de las observaciones 3. Estandarizar los datos (transformarlos a un conjunto de media 0 y desviación típica 1):
xi − x s
xi′ =
4. Calcular la probabilidad pi de la distribución acumulada de
xi′ : pi = Pr ( xi ) , conociendo la
significación de xi′ . 2
2*
5. Calcular A o, para muestras pequeñas, A :
A2 = −
(
n
)
1 ∑ ( 2 i −1) ln ( pi ) + ln (1− pn +1−i ) − n n i =1
NOTA 1: Si s = 0 o cualquier pi = 0 ó pi = 1 entonces A indefinido).
2
no
puede
calcularse
(es
2
6. Comparar con el valor crítico de A en la Tabla I: si la hipótesis hace referencia a la normalidad1, entonces el valor crítico es 0,752. Si A > 0, 752 , se rechaza la hipótesis de normalidad con un 2
1
Suposiciones
{X }
El test de Anderson Darling puede utilizarse para comprobar otras distribuciones teóricas (lognormal, exponencial, logística, de Weibull…). Cada una de estas distribuciones tiene sus propios valores críticos.
Vol. 1, núm. 5, Pág. 5
Curso de estadística riesgo α = 0, 05 . Para muestras pequeñas se puede calcular el denominado “estadístico de 2*
Anderson-Darling ajustado”, A , multiplicando
A2 por un factor que depende de n : 0, 75 2, 25 A2* = A2 1 + + 2 n n Interpretación 2
El valor crítico de A es (4): α 0,1 0,05 0,025 2 0,631 0,752 0,873 A
0,01 1,035
Puede interpretarse W como el cuadrado del coeficiente de correlación entre los valores ordenados de la muestra Los
valores
{ai ,"}
{x( ) ,"} i
son
y
{ai ,"} .
aproximadamente
proporcionales a las puntuaciones normales
{mi ,"} .
Por tanto, W mediría la fuerza del diagrama de probabilidad.
Potencia Estudios de simulación por el método de Monte Carlo han demostrado que posee buena potencia para una amplia gama de distribuciones alternativas. El test de Shapiro Wilk es el que presenta prestaciones más cercanas al AD.
Limitaciones El test AD sólo es aplicable a un número reducido de distribuciones: normal, lognormal, exponencial, Weibull y logística.
Alternativas Test de bondad de ajuste de Kolmogorov-Smirnov (o test de Lilliefors); Test de bondad de ajuste ji–cuadrado; Test de normalidad de Shapiro-Francia; Test de normalidad de D’Agostino–Pearson; Test de normalidad de Stephens.
Referencias 1. Anderson TW, Darling DA. Asymptotic Theory of Certain "Goodness of Fit" Criteria Based on Stochastic Processes. The Annals of Mathematical Statistics 1952;23(2):193-212.
2. Anderson TW, Darling DA. A Test of Goodness of Fit. Journal of the American Statistical Association 1954;49(268):765-769. 3. Stephens MA. EDF Statistics for Goodness of Fit and Some Comparisons. Journal of the American Statistical Association 1974;69(347):730737. 4. D'Agostino RB, Stephens MA, editors. Goodness-of-fit techniques. New York: Marcel Dekker; 1986.
Ejemplo Se dispone de los siguientes n = 20 resultados de determinar la concentración catalítica de AST en una muestra aleatoria de individuos presuntamente sanos: 31,8 42,4 28,0 33,0 35,1 38,8 34,4 36,8 43,7 32,1 36,0 32,4 32,3 38,7 35,1 35,9 38,6 36,6 38,0 29,0 Antes de decidir qué estrategia de producción de valores de referencia se desea saber si se distribuyen normalmente.
El test de Anderson-Darling en MS Excel®
El complemento “Análisis de Datos” de Excel® 97 no dispone de ninguna función específica para realizar el test AD. Se puede recurrir a varias posibilidades: 1. Programar el cálculo; 2. Utilizar una calculadora on line; 3. Utilizar un complemento ad hoc, como Analyse it!®.
1. Programación Esta forma de proceder es tediosa pero sirve para ilustrar el proceso Procedimiento: (a) En la columna A (desde A1 hasta A20) se ha generado una serie correlativa de enteros desde 1 hasta n (en el ejemplo, de 1 a 20); (b) En la columna B se introducen los datos a analizar y se procede a ordenarlos de menor a mayor: marcando con el cursor y pulsando la
. (Para una mayor claridad el tecla resultado de la ordenación se presenta en la columna C); (c) Calcular la media y la desviación típica. En Excel® es sencillo: basta con introducir en la
Vol. 1, núm. 5, Pág. 6
Curso de estadística celda donde se desee (en el ejemplo, C23) la función =PROMEDIO(B1:B20) y =DESVEST(B1:B20) (en el ejemplo, en C24), seguidas de
E; (d) Estandarizar los datos ordenados de la columna C: en D1 se introduce: =(C1-$C$23)/$C$24 y
E,
que corresponde a la fórmula
xi′ =
xi − x s
⇒
[C1]
=
[C1] − [C23] [C24]
C
(
Pulsando
)
C se utiliza el cursor para
extender la expresión al resto de las 20 observaciones. (j) En la celda H22 se va a calcular la suma de estos valores: =SUMA(H1:H20) es decir:
∑ ( 2 i − 1) ( ln ( p ) + ln (1− p i
i =1
=
n + i −1
))
n
∑ [ Ai] = [ A1] + [ A1] + " + [ A20] i =1
(k) En la celda H23 ya se puede calcular el 2
estadístico A : =-H22/A20-A20
se utilizar el
cursor para extender la expresión al resto de las 20 observaciones. (g) En la celda F1 debe introducirse la expresión: =1-F3 que se utilizará en el cálculo de
C
=
= ( 2 × [ A1] −1) × ln ([ E1]) + ln ([ G1])
n
la expresión al resto de las 20 observaciones. (e) Hallar el valor de la probabilidad según la distribución normal acumulada de observar la frecuencia relativa D1. (f) En la celda E1, mediante la siguiente expresión: =DISTR.NORM(E1;0;1;VERDADERO), donde: 0 es el valor de la media; 1 el de la desviación típica estandarizada; y “VERDADERO” instruye a Excel a considerar la distribución aculada en lugar de la sencilla (para esta opción se requiere el parámetro FALSO).
Pulsando la tecla
( 2 i − 1) ( ln ( p i ) + ln (1 − p n+ i −1 ) )
C extender
Mediante el cursor y la tecla
Pulsando la tecla
(i) En la celda H1 se introduce la expresión: =(2*A1-1)*(LN(E1)+LN(G1)) que corresponde a la fórmula:
2
A .
seleccionando la opción abrir la ventana:
para
se utiliza el
cursor para extender la expresión al resto de las 20 observaciones. (h) En las celdas G1:G20 se copia el contenido del intervalo F1:F202 y se ordena de menor a mayor con
2
.
Esto se consigue marcando con el cursor el
intervalo
F1:F20,
pulsando
Cc,
desplazando el cursor a G1 mientras el intervalo parpadea, desplegando (con el botón derecho del ratón
) el menú contextual
en la que se seleccionará la opción
y
se aceptará pulsando en para obtener como resultado la copia de los valores, pero no de la fórmula, del intervalo F1:F20.
Vol. 1, núm. 5, Pág. 7
Curso de estadística que corresponde a la expresión:
∑ ( 2 i − 1) ( ln ( p ) + ln (1− p n
A = =
i
i =1
n " A1 + A1 + + [ A20] [ ] [ ] 20
n + i −1
2. Utilización de una calculadora
))
En
−n
− 20
= 0, 2057 (l) Puesto que n = 20 es un tamaño muestral pequeño, se calcula el estadístico corregido
A*2 introduciendo en H24 la expresión: =H23*(1+0,75/A20+2,25/A20^2) que corresponde a: 2 3 3 = A 1 + + 4n 2n 2 3 3 = [ H23] 1 + + 4 [ A20] 2 [ A20]
*2
2
A
http://www.kevinotto.com/RSS/templates/Anders on-Darling Normality Test Calculator.xls puede hallarse una hoja de cálculo de uso muy sencillo para utilizar con un máximo de 100 datos. El procedimiento es el siguiente: Tras copiar los datos (marcándolos con el cursor y pulsando
Cc y desplazándose a la celda
A31 de esta hoja de cálculo), aparecen los cálculos intermedios, el resumen y a la significación del estadístico: Test Hypotheses Data is not normally distributed (no difference between H0: the data and random data) HA: Data is normally distributed. Count OK? 20 Number of data points S
B
C
D
E
F
G
H
1
1 31,8
28,0 -1,859 0,032 0,969 0,020
-7,358
2
2 35,1
29,0 -1,597 0,055 0,945 0,041 -18,285
3
3 43,7
31,8 -0,911 0,181 0,819 0,203 -16,520
4
4 32,3
32,1 -0,823 0,205 0,795 0,206 -22,136
5
5 38,6
32,3 -0,770 0,221 0,780 0,213 -27,513
6
6 42,4
32,4 -0,764 0,223 0,780 0,265 -31,160
7
7 38,8
33,0 -0,608 0,272 0,728 0,364 -30,098
8
8 32,1
34,4 -0,270 0,394 0,606 0,389 -28,151
9
9 38,7
35,1 -0,080 0,468 0,532 0,445 -26,651
10
10 36,6
35,1 -0,074 0,471 0,530 0,452 -29,406
11
11 28,0
35,9
0,120 0,548 0,452 0,530 -25,990
12
12 34,4
36,0
0,137 0,555 0,445 0,532 -28,082
13
13 36,0
36,6
0,282 0,611 0,389 0,606 -24,820
14
14 35,1
36,8
0,349 0,636 0,364 0,729 -20,759
15
15 38,0
38,0
0,630 0,736 0,264 0,778 -16,207
16
16 33,0
38,6
0,795 0,787 0,213 0,779 -15,159
17
17 36,8
38,7
0,819 0,794 0,206 0,795 -15,203
18
18 32,4
38,8
0,832 0,797 0,203 0,819 -14,927
19
19 35,9
42,4
1,741 0,959 0,041 0,944
-3,643
20
20 29,0
43,7
2,049 0,980 0,020 0,968
-2,046
0,2057 AD test statistic 0,214554 AD* test statistic
p-value calculations p1
0,000000
p2
0,000000
p3
0,849697
3. Utilizando el complemento Analyse-it! Cuando se dispone del complemento comercial de se procederá de la Excel® siguiente forma para calcular el test de AD: (a) Copiar los datos en una columna, por ejemplo de A2:A21 incluyendo en la celda A1 el título de la variable (por ejemplo “AST”):
21 22 23 24
708,8 med SD
35,4 4,018
suma -404,11 A
2
0,206
A*
2
0,2146
-404,11367
35,438 Mean 4,018 Sigma
A
Seems OK...
Ya que 0, 206 ≤ 0, 75 se concluye que la hipótesis nula (la distribución es normal) no puede ser rechazada. (b) Marcarlos
con el cursor:
Vol. 1, núm. 5, Pág. 8
Curso de estadística normalidad,
desplegando
la
opción
:
seleccionando
:
y aceptando con . El resultado son los siguientes gráficos (histograma, diagrama de cajas y diagrama de normalidad) En la barra de herramientas de Excel®, pulsar
para abrir el siguiente menú
despleglable:
Seleccionar la opción abrirá el siguiente submenú:
que
Seleccionar la opción que abrirá la siguiente ventana de diálogo
En este menú debe seleccionar la variable, el intervalo de confianza y el percentil del diagrama (generalmente son útiles los valores presentados por defecto) y la prueba de
Vol. 1, núm. 5, Pág. 9
Curso de estadística la estadística descriptiva:
El test de Anderson Darling en Los paquetes de funciones que se instalan con no contienen una función específica para realizar el test AD. Sin embargo, una de las mayores ventajas de es que existen numerosas contribuciones de usuarios puestas a libre disposición de la comunidad científica donde es posible hallar muchas aplicaciones. El test de AD es un ejemplo. Para cargar esta aplicación debe conseguirse el “paquete” que contiene esta función. Interrogando a Google:
y el cálculo del estadístico de AD y su significación, junto con el valor y significación de los parámetros de forma de la distribución:
se consigue la información necesaria ya en las primeras opciones. Por ejemplo, en: www.biostat.wustl.edu/archibes/html/snews/2005-04/msg00065.html aparece el nombre del paquete denominado “nortest” relacionado con la función “test de Anderson Darling”:
Pulsar
principal de
en el marco izquierdo de la web , http://cran.r-project.org/:
Pulsar en la opción para abrir la página donde se dan las instrucciones y la lista de paquetes disponibles. Esta lista está a continuación del mensaje:
Vol. 1, núm. 5, Pág. 10
Curso de estadística
En la lista “nortest”: y pulsar
deberá
localizarse
el
paquete
para entrar en esta página:
Página que informa del contenido del paquete (cinco pruebas “omnibus” para comprobar la normalidad), de su autor y de la versión de que soporta dicho paquete. Para saber si en realidad contiene la prueba buscada, debe pulsarse
en:
Una vez decida la opción de utilizar esta función, debe descargarse el fichero pulsando
y seguirse las instrucciones para que se grabe en el subdirectorio “library” del directorio donde está el
para que aparezca el índice de pruebas:
programa instalación
.
Típicamente,
de
en se
habrá
durante la
la
carpeta creado
subcarpeta correspondiente al software
la
:
Es recomendable leer las instrucciones de utilización que se obtienen abriendo
el fichero de instrucciones:
Ya en la consola de pulsar en la barra de herramientas para desplegar el siguiente menú:
Vol. 1, núm. 5, Pág. 11
Curso de estadística Seleccionar
y aceptar
. pulsando Para entrar los datos (originalmente en una hoja de cálculo Excel®3) copiados en el “clipboard” de Windows se escribe en la consola de y Seleccionar la opción
E
Para comprobar que la lectura es correcta, se
teclea
y
E
que devuelve el vector
(columna) de datos: para abrir una ventana convencional de Windows para seleccionar y abrir ficheros. Una vez aparece el
seccionado y abierto siguiente mensaje en la consola
:
Una vez que ha “desempaquetado” y comprobado la funcionalidad de “nortest” debe ser cargado a la sesión actual. Para ello pulsar
en la barra de herramientas.
En el menú:
pulsar para abrir la siguiente ventana:
Si se desea información de la sintaxis (que está en la documentación descargada en ) debe escribirse para obtener empiezan con:
y varias
páginas
de
E
ayuda
que
y que contiene información sobre parámetros:
que contiene todos los paquetes disponibles (básicos y descargados) en el ordenador.
3
Eventualmente se habrá pasado por Word® para suprimir la estructura de tabla por la de texto libre y substituir las comas por puntos decimales.
Vol. 1, núm. 5, Pág. 12
Curso de estadística
sintaxis:
y limitaciones (por ejemplo, número mínimo de datos = 7). Por tanto, escribiendo4
y
E se devuelve el resultado buscado:
De igual forma se puede aplicar los restantes test de normalidad:
4
La sintaxis “x[,1]” indica que el tests debe aplicarse a la primera columna del archivo “x”. Entrando únicamente “x” se produce un error.