Prueba q de Dixon

PRUEBA Q DE DIXON: DETECCIÓN DE UN VALOR ALEJADO O DATOS SOSPECHOSOS Teoría En un conjunto de mediciones repedas de una candad fsica o química, uno o más de los valores obtenidos pueden dierir considerablemente de la mayoría del resto. En este caso siempre hay una uerte movación para eliminar esos valores desviados y no incluirlos en ningn cálculo posterior !por ejemplo, del valor medio y " o de la desviación estándar#. Esto sólo se permite si los valores sospechosos pueden caracteri$arse %legímamente% %legímamente% como valores a&picos. 'or lo general, un dato sospechoso se de(ne como una observación que se genera a parr de un modelo dierente o una distribución dierente de la que era el principal %cuerpo% de datos. )unque esta de(nición implica que un valor a&pico se puede encontrar en cualquier lugar dentro del rango de observaciones, es natural sospechar y e*aminar como posibles valores a&picos sólo los valores e*tremos. El recha$o de las observaciones sospechosas debe basarse e*clusivamente e*clusivamente en un criterio objevo y no en movos subjevos o intuivos. Esto puede lograrse uli$ando pruebas estadíscamente estadíscamente sólidas para %la detección de valores e*tremos%. +a prueba  de -i*on es la prueba más simple de este po y suele ser la nica descrita en los libros de te*to de uímica )nalíca en los capítulos de tratamiento tratamiento de datos. Esta prueba nos permite e*aminar si una !y sólo una# observación de un pequeo conjunto de observaciones repedas !&picamente !&picamente / a 01# puede ser %legímamente% recha$ada o no. 2test se basa en la distribución estadísca de las muestras de datos ordenados, e*traídos de la misma población normal. 'or lo tanto, una distribución normal !gaussiana# de los datos se supone cada ve$ que se aplica esta prueba. En el caso de la detección y el recha$o de un dato sospechoso, 2test no puede volver a aplicarse en el conjunto de las observaciones restantes.

Cómo se ap!"a e Q#$es$ En ocasiones, un dato no es coherente con los resultados. 3e puede usar el test  como ayuda para decidir si se reene o descarta un dato sospechoso. -icho test se lleva a cabo de la siguiente manera4 0# se ordenan ordenan los datos datos en orden orden creciente creciente para para seleccionar seleccionar el valor valor discordan discordante, te, * 0, *5,*/, 6, *7 !supuesto discordante#. 5# 3e calcul calcula a la la div diverg ergen encia cia 8 *7 9 :720 y el recorrido de la serie 8 * 7 9 *0 /# El valor valor de la diverge divergencia ncia se divide divide entre entre el recorri recorrido do de la serie serie para para obtener obtener el calculada el criterio para para recha$ar el dato dato es  calculada calculada ;  tabulada tabulada , 05.?@, 05.>@ y 0 5.?A. Bes el 05.>@ un Cpunto recha$ableD. 'ara 'ara aplicar el test .

El recorrido es la dispersion total de los datos. +a divergencia es la dierencia entre el valor sospechoso y el valor mas pro*imo. 3i  calculada ;  tabulada , el punto sospechoso se descarta. 'ara los numeros del ejemplo anterior, calculada 8 1.00"1.51 8 1.==. en la tabla se ve que Fabulada 8 1.>?. puesto que  calculada G  tabulada , el punto sospechoso se debe retener. E*iste una probabilidad mayor que el 01H de que el 05.>@ sea un miembro de la misma poblacion que los otros ? numeros . !la tabla se basa en un nivel de con(an$a de I1H. 3i  calculada ;  tabulada hay que descartar el punto sospechoso#. )lgunos sosenen que no se debe descartar nunca un dato a menos que se sepa que e*iste un error en el procedimiento que condujo a esa medida parcular. Jtros reperan la medida sospechosa varias veces mas, para tener mayor con(an$a de si la medida realmente esta o no uera de lo esperable. +a decision depende de uno, y es por tanto una cueson personal.

TESTS DE %ISHER & DE STUDENT +os tests de Kisher y de 3tudent sirven para comparar las medias y las varian$as de dos muestras gaussianas. Letomemos el ejemplo del tratamiento desnado a disminuir los niveles de colesterol en sangre. 3e miden los niveles de colesterol en una población de control sin tratamiento, se hace lo mismo en un grupo de individuos despuMs del tratamiento. El nivel promedio de colesterol despuMs del tratamiento es inerior !eso es lo que se espera# al nivel promedio del grupo de control. El problema es saber si la dierencia observada basta para recha$ar la hipótesis colesterol.

, es decir que el tratamiento no ene ningn eecto sobre el nivel de

'ara el modelo probabilista se consideran dos muestras independientes4

es una muestra de la ley

es una muestra de la ley

,

.

-enotamos por4

y

las medias empíricas,

y empíricas.

las varian$as

El resultado teórico que permite comparar las medias empíricas, presupone el hacer la

hipótesis que las varian$as teóricas

y

son iguales. El objevo del test de Kisher es

comprobar esta hipótesis4

3egn el teorema /.0, los cocientes de las varian$as empíricas por las varian$as e*actas siguen leyes de chi2cuadrado. El cociente ponderado de dos variables aleatorias independientes que siguen leyes de chi2cuadrado sigue una ley de Kisher.

Teorema '(' El cociente4

sigue la ley de Kisher

.

El estadígrao del test de Kisher es4

3i

es verdad,

observado para recha$o al umbral

sigue la ley

. 3e recha$ará

es muy grande o muy pequeo. Es, por tanto, untest bilateral cuya regla de es4 Lecha$o

de

si el valor

Najo la hipótesis de la igualdad de las varian$as, el teorema que presentamos a connuación, permite evaluar las dierencias entre medias empíricas.

Teorema '() 3i

, la variable aleatoria4

sigue la ley de 3tudent

.

Este resultado permite hacer un test de la hipótesis4

comparando el valor que toma el estadígrao4

con los cuanles de la ley de 3tudent

. Este procedimiento lleva el

nombre de test de 3tudent. 3upongamos que entre los

pacientes del grupo de control se

observó un nivel promedio de colesterol de mg"dl. En los

mg"dl con una desviación estándar de

pacientes con tratamiento se observó un promedio de

desviación estándar de

mg"dl con una

mg"dl. El estadígrao del test de Kisher toma el valor

, que

corresponde a un p2valor !para el test bilateral# de4

En consecuencia se aceptará la hipótesis de la igualdad de las varian$as. El estadígrao del test de 3tudent toma el valor

, con un p2valor de4

3e recha$a

al umbral

, la disminución de la tasa de colesterol es considerada

como signi(cava.

+a hipótesis de normalidad, bajo la cual se emplean los tests de Kisher y 3tudent, no siempre es válida. 'ara muestras de gran tamao, el Oeorema del +ímite
Teorema '(*
converge a la ley normal

y

enden a in(nito, la ley de la variable aleatoria4

.

Letomemos los datos del ejemplo anterior. El estadígrao4

toma el valor

, cuyo p2valor con respecto a la ley

es4

RE+LA DE )D Co,"ep$o Legla ?d es un mMtodo para recha$ar un valor dudoso, e*ige disponer de un grupo de cuatro más de ? valores.

-Cómo se .a"e/ 

')3J 0 Escogemos el nmero que creemos se podrá recha$ar de la secuencia de valores. Ejemplo4 0252/2?2@



Lecha$amos el nmero @ por estar más alejado de los demás ')3J 5 Pacemos la media con los valores nuevos. Q*i"n Ejemplo4 0252/2?



!0R5R/R?#"?8 5.= ')3J / Pacemos la desviación media de los valores. Q":i2*med" 4 n !3iempre en valor absoluto# Ejemplo4 0252/2? 025.=80.= 525.=81.= /25.=81.= ?25.=80.=



!0.=R1.=R1.=R0.=#"?8 0 ')3J ? 0# Sulplicamos por cuatro la desviación media. dm8 0 0*?8? 5# +e restamos al valor recha$ado de la serie, la media de los valores. Talor recha$ado8 @ Sedia8 5.= @25.=8 ?.=



')3J =
RESULTADO 3i valor rech. 2 *med ; dm *? podremos recha$ar el valor pensado inicialmente. En nuestro caso4 v. rech. 2 *med 8 ?.= dm *?8 ?

Prueba q de Dixon

Recommend Documents