PRUEBA Q DE DIXON: DETECCIÓN DE UN VALOR ALEJADO O DATOS SOSPECHOSOS Teoría En un conjunto de mediciones repedas de una candad fsica o química, uno o más de los valores obtenidos pueden dierir considerablemente de la mayoría del resto. En este caso siempre hay una uerte movación para eliminar esos valores desviados y no incluirlos en ningn cálculo posterior !por ejemplo, del valor medio y " o de la desviación estándar#. Esto sólo se permite si los valores sospechosos pueden caracteri$arse %legímamente% %legímamente% como valores a&picos. 'or lo general, un dato sospechoso se de(ne como una observación que se genera a parr de un modelo dierente o una distribución dierente de la que era el principal %cuerpo% de datos. )unque esta de(nición implica que un valor a&pico se puede encontrar en cualquier lugar dentro del rango de observaciones, es natural sospechar y e*aminar como posibles valores a&picos sólo los valores e*tremos. El recha$o de las observaciones sospechosas debe basarse e*clusivamente e*clusivamente en un criterio objevo y no en movos subjevos o intuivos. Esto puede lograrse uli$ando pruebas estadíscamente estadíscamente sólidas para %la detección de valores e*tremos%. +a prueba de -i*on es la prueba más simple de este po y suele ser la nica descrita en los libros de te*to de uímica )nalíca en los capítulos de tratamiento tratamiento de datos. Esta prueba nos permite e*aminar si una !y sólo una# observación de un pequeo conjunto de observaciones repedas !&picamente !&picamente / a 01# puede ser %legímamente% recha$ada o no. 2test se basa en la distribución estadísca de las muestras de datos ordenados, e*traídos de la misma población normal. 'or lo tanto, una distribución normal !gaussiana# de los datos se supone cada ve$ que se aplica esta prueba. En el caso de la detección y el recha$o de un dato sospechoso, 2test no puede volver a aplicarse en el conjunto de las observaciones restantes.
Cómo se ap!"a e Q#$es$ En ocasiones, un dato no es coherente con los resultados. 3e puede usar el test como ayuda para decidir si se reene o descarta un dato sospechoso. -icho test se lleva a cabo de la siguiente manera4 0# se ordenan ordenan los datos datos en orden orden creciente creciente para para seleccionar seleccionar el valor valor discordan discordante, te, * 0, *5,*/, 6, *7 !supuesto discordante#. 5# 3e calcul calcula a la la div diverg ergen encia cia 8 *7 9 :720 y el recorrido de la serie 8 * 7 9 *0 /# El valor valor de la diverge divergencia ncia se divide divide entre entre el recorri recorrido do de la serie serie para para obtener obtener el calculada el criterio para para recha$ar el dato dato es calculada calculada ; tabulada tabulada , 05.?@, 05.>@ y 0 5.?A. Bes el 05.>@ un Cpunto recha$ableD. 'ara 'ara aplicar el test .
El recorrido es la dispersion total de los datos. +a divergencia es la dierencia entre el valor sospechoso y el valor mas pro*imo. 3i calculada ; tabulada , el punto sospechoso se descarta. 'ara los numeros del ejemplo anterior, calculada 8 1.00"1.51 8 1.==. en la tabla se ve que Fabulada 8 1.>?. puesto que calculada G tabulada , el punto sospechoso se debe retener. E*iste una probabilidad mayor que el 01H de que el 05.>@ sea un miembro de la misma poblacion que los otros ? numeros . !la tabla se basa en un nivel de con(an$a de I1H. 3i calculada ; tabulada hay que descartar el punto sospechoso#. )lgunos sosenen que no se debe descartar nunca un dato a menos que se sepa que e*iste un error en el procedimiento que condujo a esa medida parcular. Jtros reperan la medida sospechosa varias veces mas, para tener mayor con(an$a de si la medida realmente esta o no uera de lo esperable. +a decision depende de uno, y es por tanto una cueson personal.
TESTS DE %ISHER & DE STUDENT +os tests de Kisher y de 3tudent sirven para comparar las medias y las varian$as de dos muestras gaussianas. Letomemos el ejemplo del tratamiento desnado a disminuir los niveles de colesterol en sangre. 3e miden los niveles de colesterol en una población de control sin tratamiento, se hace lo mismo en un grupo de individuos despuMs del tratamiento. El nivel promedio de colesterol despuMs del tratamiento es inerior !eso es lo que se espera# al nivel promedio del grupo de control. El problema es saber si la dierencia observada basta para recha$ar la hipótesis colesterol.
, es decir que el tratamiento no ene ningn eecto sobre el nivel de
'ara el modelo probabilista se consideran dos muestras independientes4
es una muestra de la ley
es una muestra de la ley
,
.
-enotamos por4
y
las medias empíricas,
y empíricas.
las varian$as
El resultado teórico que permite comparar las medias empíricas, presupone el hacer la
hipótesis que las varian$as teóricas
y
son iguales. El objevo del test de Kisher es
comprobar esta hipótesis4
3egn el teorema /.0, los cocientes de las varian$as empíricas por las varian$as e*actas siguen leyes de chi2cuadrado. El cociente ponderado de dos variables aleatorias independientes que siguen leyes de chi2cuadrado sigue una ley de Kisher.
Teorema '(' El cociente4
sigue la ley de Kisher
.
El estadígrao del test de Kisher es4
3i
es verdad,
observado para recha$o al umbral
sigue la ley
. 3e recha$ará
es muy grande o muy pequeo. Es, por tanto, untest bilateral cuya regla de es4 Lecha$o
de
si el valor
Najo la hipótesis de la igualdad de las varian$as, el teorema que presentamos a connuación, permite evaluar las dierencias entre medias empíricas.
Teorema '() 3i
, la variable aleatoria4
sigue la ley de 3tudent
.
Este resultado permite hacer un test de la hipótesis4
comparando el valor que toma el estadígrao4
con los cuanles de la ley de 3tudent
. Este procedimiento lleva el
nombre de test de 3tudent. 3upongamos que entre los
pacientes del grupo de control se
observó un nivel promedio de colesterol de mg"dl. En los
mg"dl con una desviación estándar de
pacientes con tratamiento se observó un promedio de
desviación estándar de
mg"dl con una
mg"dl. El estadígrao del test de Kisher toma el valor
, que
corresponde a un p2valor !para el test bilateral# de4
En consecuencia se aceptará la hipótesis de la igualdad de las varian$as. El estadígrao del test de 3tudent toma el valor
, con un p2valor de4
3e recha$a
al umbral
, la disminución de la tasa de colesterol es considerada
como signi(cava.
+a hipótesis de normalidad, bajo la cual se emplean los tests de Kisher y 3tudent, no siempre es válida. 'ara muestras de gran tamao, el Oeorema del +ímite
Teorema '(*
converge a la ley normal
y
enden a in(nito, la ley de la variable aleatoria4
.
Letomemos los datos del ejemplo anterior. El estadígrao4
toma el valor
, cuyo p2valor con respecto a la ley
es4
RE+LA DE )D Co,"ep$o Legla ?d es un mMtodo para recha$ar un valor dudoso, e*ige disponer de un grupo de cuatro más de ? valores.
-Cómo se .a"e/
')3J 0 Escogemos el nmero que creemos se podrá recha$ar de la secuencia de valores. Ejemplo4 0252/2?2@
Lecha$amos el nmero @ por estar más alejado de los demás ')3J 5 Pacemos la media con los valores nuevos. Q*i"n Ejemplo4 0252/2?
!0R5R/R?#"?8 5.= ')3J / Pacemos la desviación media de los valores. Q":i2*med" 4 n !3iempre en valor absoluto# Ejemplo4 0252/2? 025.=80.= 525.=81.= /25.=81.= ?25.=80.=
!0.=R1.=R1.=R0.=#"?8 0 ')3J ? 0# Sulplicamos por cuatro la desviación media. dm8 0 0*?8? 5# +e restamos al valor recha$ado de la serie, la media de los valores. Talor recha$ado8 @ Sedia8 5.= @25.=8 ?.=
')3J =
RESULTADO 3i valor rech. 2 *med ; dm *? podremos recha$ar el valor pensado inicialmente. En nuestro caso4 v. rech. 2 *med 8 ?.= dm *?8 ?