Estadística para la Investigación Experimental
TEMA 3: Contrastes sobre medias
Contrastes sobre medias en SPSS
1. Introducción 2. Medias 3. Contrastes sobre una muestra muestra 4. Contrastes sobre dos dos muestras independientes independientes 5. Contrastes sobre sobre dos muestras relacionadas
2
1
Recordar: Distribución t-Student
La distribución t-Student es parecida a la Normal.
Se utiliza cuando se desconoce la varianza de la población.
A medida que la muestra es mayor (n>100) es casi equivalente usar t-Student o la normal.
En la t-Student se tiene en cuenta el tamaño de la muestra. Hay una t distinta para cada tamaño de la muestra.
Los g.l. son n-1 cuando hay una muestra, siendo n el tamaño de la muestra.
Si comparamos 2 muestras: g.l = (n1-1) + (n2-1) 3
Introducción
En SPSS, los contrastes paramétricos que se pueden estudiar son aquellos que en las hipótesis hacen referencia a la media de una población normal, cuando tenemos una muestra, dos independientes, o dos relacionadas. Se denomina prueba T.
Procedimientos en SPSS:
• Medias • Prueba T para una muestra. • Prueba T para dos muestras independientes. • Prueba T para muestras relacionadas (apareadas).
Estas pruebas se encuentran en le menú Analizar /Comparar medias
4
2
Introducción
Si la variable categórica tiene tres o más categorías el procedimiento es Análisis de la Varianza (ANOVA de una vía)
Tanto la t de Student como el ANOVA, la variable cuantitativa debe cumplir dos requisitos: a) La variable cuantitativa debe distribuirse según la Ley Normal en cada uno de los grupos que se comparan ( CRITERIO DE “NORMALIDAD”). b) Las varianzas de la distribución de la variable cuantitativa en las poblaciones de las que provienen los grupos que se comparan deben ser homogéneas (CRITERIO DE HOMOCEDASTICIDAD ).
El primero es el más importante. Aunque puede asumirse que se cumple para muestras grandes (n > 100), debe explorarse siempre, con gráficos y pruebas de normalidad. En SPSS las pruebas de normalidad más completas están en la opción “EXPLORAR”. 5
Introducción •
Muestras apareadas o relacionadas: Cuando para cada observación en
un grupo tenemos una observación asociada en el segundo grupo. Ejemplo. Cuando en un grupo tenemos las observaciones de unos pacientes antes del tratamiento, y en el segundo tenemos las observaciones tras el tratamiento.
•
Muestras independientes: Cuando puede suponerse que los individuos
de un grupo de tratamiento han sido extraídos independientemente de los del otro. Ejemplo. Se quiere estudiar si el nivel de hierro es similar en los individuos que padecen una determinada enfermedad frente a los individuos sanos
6
3
Medias en SPSS
•
El procedimiento Medias ofrece, estadísticos descriptivos que pueden calcularse teniendo en cuenta los distintos grupos y subgrupos definidos por una o más variables independientes.
•
Analizar … Comparar medias … Medias
7
Contrastes sobre una muestra Planteamiento de hipótesis:
• Bilateral: H0: La media del grupo es IGUAL a la media de la población H1: La media del grupo NO es Igual a la media de la población
• Unilateral: H0: La media del grupo NO es Mayor a la media de la población H1: La media del grupo es MAYOR a la media de la población ó H0: La media del grupo NO es Menor a la media de la población H1: La media del grupo es MENOR a la media de la población
8
4
Ejemplo: Contrastes sobre una muestra •
El problema más simple que se puede resolver con la t de Student es el referido a una sola muestra, ésta tendría n-1 grados de libertad.
•
Ejemplo: En el fichero “Hábitos” ¿Se puede afirmar que en la población el nº de
hermanos incluido el sujeto (NUMHER) es 3? Planteamiento: H0:
= 3 (la media poblacional vale 3)
H1:
≠ 3 (la media poblacional es diferente a 3)
Se soluciona el problema calculando una cantidad “t”, con una expresión muy parecida a la que se utiliza para calcular “z” usando la normal xt s Sustituir la desviación típica (s) por el error típico
n
de la media 9
Ejemplo: Contrastes sobre una muestra t
xs
2,69 - 3
- 0,31
0,108
0,108
2,86
n Cálculo p-valor: Transformar … Calcular variable …. P = (CDF.T( -2.865,174))*2 Resolución con SPSS y comprobar resultados de la tabla “Prueba para una muestra” Analizar … Comparar medias … Prueba T para una muestra …
Explicar resultados: (contraste de hipótesis, Intervalo de confianza)
10
5
Prueba T de Student para dos muestras independientes
El objetivo estadístico comparar tendrá 2 variables: una variable fija
(categórica dicotómica) que formaran los grupos y una variable aleatoria (numérica) que se desea medir.
A la variable fija se le denomina factor independiente y a la variable numérica: variable dependiente
Contraste de hipótesis: H0: µA = µB H1: µA
µB
11
Prueba T de Student para dos muestras independientes
Se tiene que comprobar si la diferencia que existe entre las dos medias muestrales es debida a la variabilidad aleatoria o al efecto del factor. Para su resolución se aplica la t de Student.
Estadístico t de Student:
t n1
media 1 n2 2
media 2
EEDM
EEDM = Error estándar de la diferencia de medias
12
6
Prueba T de Student para dos muestras independientes
Cálculo del Error estándar de la diferencia de medias (EEDM): 1. Si las varianzas de las muestras son homogéneas Calculamos la varianza ponderada por sus grados de libertad:
Se define EEDM:
EEDM s p
1
1
n1
n2
13
Prueba T de Student para dos muestras independientes
Cálculo del Error estándar de la diferencia de medias (EEDM): 2. Si las varianzas de las muestras no son homogéneas Se utiliza el test t modificado se llama test de Welch
g.l *
2
s12
s 22
n1
n2
s12
2
n1 n1 1 Y el contraste sería:
s 22
2
n2 n2
1
t g.l*
media 1
media 2
s12
s22
n1
n2 14
7
Diagrama de aplicación para dos muestras independientes
Muestras
Independientes
n1 y n2
30
n1 o n2 < 30 Normalidad SI
NO ¿Normalidad al transformar?
Levene Homogeneidad de varianzas
t de Student
Heterogeneidad varianzas t para varianzas desiguales: Welch
SI
NO U de MannWhiney
15
Prueba T de Student para dos muestras independientes
En SPSS
Analizar … Comparar medias … Prueba T Student para dos muestras independientes …
16
8
Ejemplo: Prueba T para muestras independientes
SPSS nos ofrece una tabla con: • Una prueba de homogeneidad de varianzas (la prueba de Levene), que
nos informa sobre el segundo requisito para aplicar la comparación de medias mediante la prueba t de Student: la homogeneidad de varianzas. El programa hace un contraste a través de estadístico F de Snedecor y nos aporta una significación estadística, asociado a la hipótesis nula de que las varianzas son homogéneas. • Una doble salida de la comparación de medias en los dos grupos,
expresada en dos filas: • En la fila superior es cuando han asumido varianzas iguales • En la fila inferior cuando no han asumido varianzas iguales
17
Prueba T de Student para dos muestras independientes
Ejemplo: se compara el nivel de ruidos en dB durante la mañana en una zona de Madrid dividida en la zona centro y zona alrededor del
centro. (Abrir archivo ruidos) Solución (SPSS y Excel)
No comprobar normalidad ya que n 1 y n2 > 30 (n1 =119 y n2 =89)
Analizar … Comparar medias … Prueba T Student para dos muestras independientes …
Comprobar los resultados de las tablas obtenidas con excel y explicación
18
9
Prueba T para muestras independientes
Si no se cumple la Normalidad uno o los dos grupos formados no se
podrá usar t de Student.
Soluciones:
• Transformación variable dependiente. • Test de la U de Mann_Whitney.
19
Prueba T para muestras independientes Transformación variable dependiente
•
Se realiza una transformación de la variable dependiente para conseguir una mayor aproximación a la normalidad.
• La transformación complica la interpretación de los resultados. • Ejemplo: abrir archivo: aceitunas Se desea comprobar la aceptación (precio más calidad) que tienen en el mercado dos tipos de aceites
provenientes de olivares con
diferentes tipos de aceitunas: aceite tipo Picual y aceite tipo Hojiblanca. La valoración de la aceptación se ha obtenido a través de un algoritmo complejo donde intervienen la producción de aceite del olivar, sabores, preferencias de la gente, precio, etc. 20
10
Prueba T para muestras independientes
• Ejemplo: abrir archivo: aceitunas Recordar:
• No se puede usar t-Student si la muestra es pequeña y no se puede asumir la normalidad
Transformación
de
la
variable
dependiente para conseguir la normalidad.
• Recordar la media geométrica. • Utilizar la transformación ln. Conclusión del ejemplo:
La media geométrica de la aceptación es de 1,10 veces superior en el grupo 1 (aceituna Picual).
21
Test de la U de Mann_Whitney • La
U de Mann_Whitney es un procedimiento no paramétrico que
sustituye a la t para comparar las medias de dos grupos independientes.
• Como
requiere ordenar los valores antes de realizar el test, no
compara las dos medias, sino las dos medianas.
• Se debe usar la U de Mann-Whitney si: • Alguna de las dos muestras contiene menos de 30 observaciones y no se puede asumir la normalidad (ni transformando la variable)
• Se trata de una variable ordinal en vez de ser realmente cuantitativa
• La muestra es muy pequeña (<10 observaciones en alguno de los dos grupos) 22
11
Test de la U de Mann_Whitney • El test de Mann_Whitney consiste en ir comparando cada individuo de un grupo con cada individuo del otro para contabilizar el nº de veces que alguien de un grupo presenta un valor superior a alguien de otro.
• Para
facilitar las comparaciones se debe comenzar ordenando en
cada grupo de mayor a menor la variable comparada.
• Una vez hallada cualquiera de las cantidades de U, se puede calcular un valor z que permite hacer un contraste de hipótesis:
23
Test de la U de Mann_Whitney •
Ejemplo: (abrir archivo “abono”)
Se han utilizado dos tipos de abonos para aumentar el peso en gramos en la producción de tomates en dos invernaderos diferentes. El objetivo es conocer la producción de tomates de mayor contenido en peso. Por tanto, se quiere estudiar la influencia del abono en la producción.
Abono 1
Abono 2
120
99
100
70
92
69
87
68
79
55
60
50
55
30
50
9
20
3
Un grupo (2) tiene menos de 10 observaciones.
En SPSS: Clic Analizar … Pruebas no paramétricas … Cuadros de diálogo antiguo … Dos muestras independientes
18 16 15 5
24
12
Test de la U de Mann_Whitney •
Nota:
Con muestras pequeñas (n 30) el SPSS ofrece el nivel crítico bilateral exacto asociado al estadístico U, el cual se obtiene multiplicando por 2 la probabilidad de obtener valores menores o iguales que U (esta probabilidad se calcula utilizando el algoritmo de Dineen y Blakesley, 1973). Con muestras grandes (n > 30), el SPSS ofrece una tipificación del estadístico U (incluyendo corrección por empates) que se distribuye aproximadamente N(0, 1):
25
Prueba T muestras relacionadas
La prueba T para dos muestras relacionadas permite contrastar hipótesis referidas a la diferencia entre dos medias relacionadas. Recordamos que hay emparejamiento si: • Se realizan mediciones repetidas en un mismo individuo • Se compara entre si (de dos en dos) parejas naturales de individuos.
Contraste de hipótesis: H0: µantes = µdespués
H 0 : dif
0
H1: µantes
H 0 : dif
0
µdespués
26
13
Prueba T muestras relacionadas
Desde el punto de vista estadístico, este contraste es idéntico al presentado en el apartado Prueba T para una muestra. La única diferencia existente entre ambos contrastes es que allí teníamos una muestra de puntuaciones obtenida al medir una sola variable y ahora tenemos dos muestras relacionadas (o una muestra de pares de puntuaciones) que convertimos en una sola muestra de diferencias restando las puntuaciones de cada par. El estadístico o prueba T sigue siendo una tipificación de la media muestral de las diferencias Este estadístico T se distribuye según el modelo t de Student con n-1 grados de libertad y, por tanto, nos permite conocer la probabilidad asociada a los diferentes valores que es posible obtener en muestras aleatorias de tamaño n. 27
Prueba T muestras relacionadas Pasos para comparar dos grupos emparejados:
Calcular la variable diferencia entre los valores antes y los valores después de cada unidad de estudio. Cuando el tamaño de la muestra es menor que 30, comprobar si la variable diferencia sigue una distribución Normal - Si sigue una distribución Normal: t de Student para muestras relacionadas - Si no sigue una distribución Normal: Test de Wilcoxon
28
14
Muestras relacionadas: t de Student 3. Calcular el error estándar de la media de la diferencia. EEM
SDIF n
4. Calcular g.l = n-1 5. Calcular t para datos relacionados: t n -1
DIF S DIF n
6. Comparar el valor tabulado t con el valor tabulado de la t de Student
29
Prueba T muestras relacionadas en SPSS
Para contrastar hipótesis sobre dos medias relacionadas: Analizar … Comparar medias … Prueba T para muestras relacionadas …
30
15
Ejemplo Prueba T muestras relacionadas Nota: la conductividad eléctrica es la facilidad de un material para conducir la electricidad. Se mide en -1 m-1. Se quiere realizar un estudio de la mejora del aislamiento eléctrico de una serie de materiales antes y después de un proceso mecánico (compresión). Para ello medimos la conductividad eléctrica antes y después del proceso Obteniéndose los resultados siguientes: Id
Antes
Después
1
4,0
5,6
2
3,9
4,7
3
4,8
4,8
4
5,1
4,9
5
5,6
3,2
6
6,1
4,8
7
6,4
3,7
8
6,4
4,0
9
6,5
6,4
10
6,4
4,8
11
6,4
4,4
12
6,4
3,3
13
6,8
6,0
14
7,6
4,4
15
8,1
6,4
31
Ejemplo Prueba T muestras relacionadas Solución en SPSS
1. Calcular una nueva variable: diferencia 2. Comprobar que la variable diferencia sigue una distribución Normal (Shapiro-Wilk) 3. Analizar … Comparar medias … Prueba T para muestra relacionada Explicación de las tablas obtenidas en SPSS
32
16
Muestras relacionadas: test de Wilcoxon
El test de Wilcoxon es no paramétrico y no requiere ninguna condición de aplicación.
Se debe utilizar si:
• Los datos a comparar son ordinales • Son datos cuantitativos pero la muestra es pequeña (n<30) y además no sigue una distribución normal en la variable diferencia entre las dos mediciones relacionadas.
Si el test t relacionado no se cumple el supuesto de normalidad para la variable “diferencia”, se puede intentar la transformación. Cuando la transformación no se logra la normalidad, se recurrirá al test de Wilcoxon
33
Muestras relacionadas: test de Wilcoxon
Pasos para realizar el test de Wilcoxon
1.
Hallar las diferencias entre cada par de individuos relacionados
2.
Se ordenan las diferencias (en valor absoluto) de menor a mayor.
3.
Se asignan rangos a cada dato (usando su valor absoluto) pero se debe aplicar la corrección por empate, esto es, a cada uno se le asigna un número de orden y a los que estén empatados, se les asigna el rango medio de los que tengan el mismo valor absoluto de la diferencia.
4.
Se suman los rangos de las diferencias negativas por un lado y los de las diferencias positivas por otro.
5.
Se calcula la suma y la media de los rangos.
34
17
Muestras relacionadas: test de Wilcoxon Pasos para realizar el test de Wilcoxon (sigue)
6.
Calcular test “z”.
(k se refiere al número rangos distintos en los que existen empates y ti al número de puntuaciones empatadas en el rango i). El SPSS ofrece el nivel crítico bilateral resultante de multiplicar por 2 la probabilidad de obtener valores menores o iguales que Z.
35
Ejemplo Test de Wilcoxon Una determinada fábrica produjo bombas de extracción de agua por parejas. Se quiere ver el resultado de las bombas después de 10 años, donde unas siguen funcionando actualmente y otras desaparecieron. Se ha valorado la actividad de la bomba de 0 a 3, asignándose “0” a las bombas que no llegaron a utilizarse, “1” a las que se utilizaban esporádicamente, “2” a las que lo hacían regularmente y “3” a las que además de utilizarse regularmente tenían un mantenimiento continuo. Pareja
Bomba A
Bomba B
1
1
0
2
2
1
3
3
1
4
1
0
5
2
1
6
2
1
7
3
2
8
1
2
9
1
1
En SPSS: Clic Analizar … Pruebas no paramétricas … Cuadros de diálogo antiguo … Dos muestras relacionadas
36
18
Muestras relacionadas: test de Wilcoxon
Realizar el ejemplo: - En Excel - En SPSS
37
19