Puntaje muestral Z. El puntaje z muestral es una medida de posición relativa definida por: puntaje z =
x− x´ s
Un puntaje Z lo que hace es decirnos a cuántas unidades de desviación estándar del promedio está un puntaje determinado, o sea, no contamos en cantidad de puntos, sino en cantidades de desviaciones estándar. Para utilizar el puntaje Z requerimos que la distribución sea normal y conocer el promedio y la desviación estándar de los puntajes. El puntaje z es una valiosa herramienta para determinar si es probable que una observación particular se presente con frecuencia, o si es improbable y puede ser considerada como resultado atípico. De acuerdo con el teorema de Chebyshev y la Regla empírica,
al menos 75% y más probablemente 95% de las observaciones están a no más de dos desviaciones estándar de su media: su puntaje z está entre -2 y+2. Las observaciones con puntaje z mayores a 2 en valor absoluto se presentan menos del 5 % del tiempo y son consideradas un tanto improbables.
al menos 89% y más probablemente 99.7% de las observaciones están a no más de tres desviaciones estándar de su media: sus puntajes z están entre -3 y +3. Las observaciones con puntaje z mayores a 3 en valor absoluto se presentan menos del 1% del tiempo y son consideradas muy poco probables.
Percentil. El percentil es una medida de tendencia central usada en estadística que indica, una vez ordenados los datos de menor a mayor, el valor de la variable por debajo del cual se encuentra un porcentaje dado de observaciones en un grupo de observaciones. Por ejemplo, el percentil 20º es el valor debajo del cual se encuentran el 20 por ciento de las observaciones.
Se representan con la letra P. Para el percentil p-ésimo, donde la i toma valores del 1 al 99. El p % de la muestra son valores menores que él y el (100-p) % restante son mayores.
P25 = Q1.
P50 = Q2 = mediana.
P75 = Q3. Cuartil Los cuartiles son los tres valores de la variable que dividen a un conjunto de datos ordenados en cuatro partes iguales. Q 1 , Q 2 y Q 3 determinan los valores correspondientes al 25%, al 50% y al 75% de los datos. Q 2 coincide con la mediana. Cálculo de cuartiles muestrales:
Cuando las mediciones están dispuestas en orden de magnitud, el cuartil inferior, Q 1 , es el valor de x en la posición .25(n+1), y el cuartil superior, Q 3 , es el valor de x en la posición .75(n+1).
Cuando .25(n+1) y .75(n+1) no son enteros, los cuartiles se encuentran por interpolación, usando los valores de la dos posiciones adyacentes.
Rango intercuartil (IQR). El rango intercuartílico es una medida de variabilidad adecuada cuando la medida de posición central empleada ha sido la mediana. Se define como la diferencia entre el tercer cuartil (Q3) y el primer cuartil (Q1), es decir: IQR = Q3 - Q1. A la mitad del rango intercuartil se le conoce como desviación cuartil (DQ): DQ = IQR/2= (Q3 - Q1)/2. Se usa para construir los diagramas de caja y bigote (box plots).
Resumen de cinco números. El resumen de cinco números consta del número más pequeño, el cuartil inferior, la mediana, el cuartil superior, y el número más grande, presentados en orden de menor a mayor: Min Q1 Mediana= Q 2 Q3 Max Por definición, un cuarto de las mediciones del conjunto de datos se encuentra entre cada uno de los cuatro pares adyacentes de números. Gráfica de caja. Es un gráfico, basado en cuartiles, mediante el cual se visualiza un conjunto de datos. Está compuesto por un rectángulo, la "caja", y dos brazos, los "bigotes". Es un gráfico que suministra información sobre los valores mínimo y máximo, los cuartiles Q 1 , Q 2 o mediana y Q 3 , y sobre la existencia de valores atípicos y la simetría de la distribución. Primero es necesario encontrar la mediana para luego encontrar los 2 cuartiles restantes. Construcción de una gráfica de caja:
Calcule la mediana, los cuartiles superior e inferior y el IQR para el conjunto de datos.
Trace una recta horizontal que represente la escala de medición. Forme una caja un poco arriba de la recta horizontal con los extremos derecho e izquierdo en Q 1 y Q 3 . Trace una recta vertical que pase por la caja en la ubicación de la mediana.
Delimite: Límite inferior= Q 1 -1.5(IQR), Límite superior= Q 3 +1.5(IQR).
Marque cualesquier resultado atípicos con un asterisco (*) en la gráfica.
Prolongue rectas horizontales llamadas bigotes desde los extremos de la caja a las observaciones más pequeñas y más grandes que no sean resultados atípicos.
Problemas.
2.43 Encuentre el resumen de cinco números y el IQR para estos datos: 19, 12, 16, 0, 14, 9, 6, 1, 12, 13, 10, 19, 7, 5, 8 Solución:
Se ordenan las n=15 mediciones: 0, 1, 5, 6, 7, 8, 9, 10, 12, 12, 13, 14, 16, 19, 19. Posición de mediana, Q1 y Q2 son:
.5 ( n+1 )=.5 ( 16 ) =8
De modo
m=10 ,
MÍNIMO
0
Q1
6
Q2= MEDIANA Q3
10
MÁXIMO
22
IQR=Q3−Q1=14−6=8
14
.25 ( n+1 )=.25 ( 16 )=4 .75 ( n+1 )=.75 ( 16 )=12 que: Q1=6 y , Q3=14.
2.44 Construya una gráfica de caja para estos datos e identifique los resultados atípicos: 25, 22, 26, 23, 27, 26, 28, 18, 25, 24, 12 Solución:
Se ordenan las n=11 mediciones: 12, 18, 22, 23, 24, 25, 25, 26, 26, 27, 28 Posición de mediana, Q1 y Q2 son:
.5 ( n+1 )=.5 ( 12 )=6 .25 ( n+1 )=.25 ( 12 )=3 .75 ( n+1 )=.75 ( 12 )=9
De modo que: m=25 , IQR=Q3−Q1=26−22=4
Límites superior e inferior:
L. inferior: L. superior:
22−( 1.5 ) ( 4 )=16 26+ ( 1.5 ) ( 4 )=32
Q1=22 y ,Q3=26.
2.45 Construya una gráfica de caja para estos datos e identifique los resultados atípicos: 3, 9, 10, 2, 6, 7, 5, 8, 6, 6, 4, 9, 22 Solución:
Se ordenan n=13 mediciones: 2, 3, 4, 5, 6, 6, 6, 7, 8, 9, 9, 10, 22 Posición de mediana, Q1 y Q2 son:
.5 ( n+1 )=.5 ( 14 )=7 .25 ( n+1 )=.25 ( 14 )=3.5 .75 ( n+1 )=.75 ( 14 )=10.5
De modo que:
m=6 ,
IQR=Q3−Q1=9−4.5=4.5
Límites superior e inferior:
L. inferior:
4.5−( 1.5 ) ( 4.5 )=−2.5
L. superior:
9+ ( 1.5 ) ( 4.5 )=15.75
Q1=4+ ( .5 )=4.5 y ,Q3 =9.
2.47 Concentración de mercurio en delfines. Los científicos del medio ambiente están cada vez más preocupados por la acumulación de elementos tóxicos en mamíferos marinos, así como en el paso de esos elementos a los descendientes de esos animales. El delfín de franjas (Stenella coeruleoalba), considerado el principal depredador en la cadena alimenticia marina, fue objeto de este estudio. Las concentraciones de mercurio (microgramos/gramo) en los hígados de 28 delfines de franjas machos fueron como sigue: 1.70 1.72 8.80 5.90 101.00 85.40 118.00
183.00 168.00 218.00 180.00 264.00 481.00 485.00
221.00 406.00 252.00 329.00 316.00 445.00 278.00
286.00 315.00 241.00 397.00 209.00 314.00 318.00
a. Calcule el resumen de cinco números para los datos. Solución:
Se ordenan las n=28 mediciones: 1.7,1.72,5.9,8.8,85.4,101,118,168,180,183,209,218,221,241,252,264,278,2 86,314,315,316,318,329,397,406,445,481,485.
Posición de mediana, Q1 y Q2 son:
.5 ( n+1 )=.5 ( 29 )=14.5
De modo
MÍNIMO
1.70
Q1
130.5
Q2= MEDIANA
246.5
Q3
317.5
MÁXIMO
485.00
.25 ( n+1 )=.25 ( 29 )=7.25 .75 ( n+1 )=.75 ( 29 )=21.75 que: m=
241.00+252.00 =246.5 , 2
Q1=118+ .25 ( 168−118 ) =130.5 y , Q3=316+.75 ( 318−316 )=317.5
b. Construya una gráfica de caja para los datos. IQR=Q3−Q1=317.5−130.5=187
Límites superior e inferior:
L. inferior:
130.5−( 1.5 ) ( 187 ) =−150
L. superior:
317.5+ ( 1.5 ) ( 187 )=598
c. ¿Hay algún resultado atípico? No
d. Si usted supiera que los primeros cuatro delfines tenían menos de tres años de edad, en tanto que los otros tenían más de ocho años de edad, ¿esta información ayudaría a explicar la diferencia en la magnitud de esas cuatro observaciones? Explique. Sí ayudaría a dar sentido de existencia de 4 observaciones más pequeñas que las demás pero en cualquier caso, el diagrama de caja no lo toma como un resultado atípico.