CAPACITACIÓN
“ Aná Análisi lisis s esta estadí dístico stico con co n SPSS” Sesión 4 www.socialis.cl @_socialis
Martes 23 de Junio de 2015 2015
[email protected]
Relator: Re lator: Os Osvaldo valdo Blanco
1
1.- ANOVA DE UN FACTOR
1.- ANOVA DE UN FACTOR
•
•
•
tiene e como como La prueba Anova de un factor tien objetivo comparar medias entre 3 o más grupos. Se trat trata a de conc conclu luir ir si el “fac “facto tor” r” (la (la varia ariabl ble e cualitativa con la cual conformamos los grupos) es determinante o no en la diferencia diferencia de medias. En otras palabras, se busca analizar el compo omport rtam amiient ento de la varia ariabl ble e depe depend ndie ien nte (cuantitativa) (cuantitativa) en los distintos grupos establecidos establecidos por por las categorías de la variable ble cualitativa independiente (factor).
•
De esta forma, co contamos con dos variables: Una Una variab ariable le indep indepen endi dien ente te cuali cualita tati tiv va
nomi nomina nall u ordi ordina nall (lam (lamad ada a facto actor) r) que que determina la conformación conformación de los grupos. Una vari variab able le depen dependi dien ente te cuan cuantit titat ativ iva a Una (intervalo o razón) gracias a la cual obtenemos las medias que comparamos entre los distintos grupos
•
Las hipótesis en la prueba Anova de un factor factor son las siguientes: sigui entes: H0
= No existen diferencias significativas entre
las medias de los distintos grupos, lo cual se explica por el hecho de que el factor no influye en la distribución de los valores de la variable dependiente. H1 = Las Las media mediass de los grup grupos os son disti distint ntas as entre sí, lo que se explica por el hecho de que las puntuaciones o valores de cada grupo están determinadas por el factor. Esto implica que al menos existiría una de las medias que difiere de las demás.
Condiciones para aplicar una prueba Anova •
•
La prueba ANOVA es una prueba paramétrica, es decir, se deben cumplir estrictas condiciones. Los supuestos son esencialmente 3: 1) Muestreo aleatorio independiente, es decir, se supone que los sujetos pertenecientes a todos los grupos conforman una muestra representativa del ru o al cual ertenecen. 2) Normalidad, es decir, que las poblaciones de las cuales se obtuvieron las muestras (grupos) están normalmente distribuidas. Si ello no es así, veremos que nuestros resultados de la prueba de Levene (para la homogeneidad de la varianza) nos indicarán una violación a este supuesto y con ello no podremos seguir nuestro análisis. 3) Homogeneidad de la varianza u Homocedasticidad , el cual tiene relación con la normalidad. Se supone que las poblaciones desde las cuales se extrajeron los grupos tienen la misma varianza. Este supuesto tiene directa implicancia pues en el procedimiento se calcula una varianza común descomponiéndola en 2 componentes.
PROPORCIÓN EXPLICADA DE LA VARIANZA
•
La “variación total” se descompone en variación intra grupo y variación inter grupo. 1)
2)
•
•
La variación inter-grupo es la que nos demuestra que el factor explica en un importante proporción la variabilidad total (aceptando H1) La variación intra-grupo es la variación inexplicada y tiene que ver con variables propias de los sujetos que no se corresponden con el factor analizado. Además, son variables que nunca podemos controlar (muchas veces n s qu era conocer .
La variación inexplicada se calcula a partir de un procedimiento que comprende el cálculo de la varianza de los puntajes individuales respecto de la media de su grupo. La variación explicada está basada en el cálculo de la varianza de las medias grupales respecto de la media global.
Midiendo el efecto del factor: Proporción explicada de la varianza •
•
•
Eta al cuadrado (η2) es una razón entre la suma de cuadrados inter–grupo y la suma de cuadrados total. Por tanto, sirve para determinar si el efecto del factor es grande en términos de la proporción de la . La variación inter-grupo es la variación explicada por la manera como se han distribuidos los valores en función del factor.
POST - HOC
•
•
•
En general, a las técnicas Post Hoc disminuyen la posibilidad de errores de tipo I, (aunque a costa de aumentar el error de tipo II). Dicho de otro modo, es probable que en situaciones donde realmente existan diferencias entre grupos, las pruebas Post Hoc no lo detecten. Las diferencias entre grupos tienen que ser realmente grandes para poder ser reconocidas por estas pruebas.
•
Las pruebas post hoc existentes se clasifican según los siguientes criterios: 1.
TEST DE RANGOS: son aquellas que buscan perecidas.
2.
COMPARACIONES MÚLTIPLES: son las que buscan establecer diferencias entre grupos basándose en diferencias dos a dos.
•
Sin embargo la clasificación recién dada no es estricta, pues pueden haber t cnicas Post Hoc que incluyen las dos categorías al mismo tempo.
Grupos equilibrados y varianzas similares •
Todos los grupos tienen el mismo número de individuos. Podemos asumir que están igualmente dispersos. Diferencia
Honestamente significativa de Tukey HSD de Tuke : Se uede considerar como una
técnica de comparaciones múltiples y a la vez de rangos. Se suele usar cuando se quiere comparar cada grupo con todos los demás y el número de grupos es alto (6 o más). Test de Scheffé: Hace todas las comparaciones posibles. Por ejemplo, el primer grupo con respecto a c/u de los restantes, pero también el primero con respecto al grupo formado por la unión de dos de los restantes, etc.
Grupos desequilibrados •
Es cuando tenemos un número diferente de individuos en cada grupo. Podemos elegir las siguientes pruebas: . T3 de Dunnett. C de Dunnet. Scheffé Games-Howell
Varianzas desiguales •
Cuando la prueba de igualdad de varianzas (Levene) nos hace sospechar que las varianzas no son similares en todos los grupos. Podemos considerar las siguientes pruebas: T2 de Tamhane T3 de Dunnet C de Dunnet Games-Howell. Scheffé *
ANOVA DE 1 FACTOR EN SPSS
Analizar Comparar medias Anova de un factor …
Colocar aquí la variable cuantitativa (dependiente)
Colocar aquí la variable cualitativa (factor)
Clic en Opciones
Clic en: Descriptivos. Prueba de homogeneidad de las varianzas. Gráficos de las medias.
Clic aquí para elegir el contraste Post hoc
Elegir el tipo de prueba Post Hoc según los criterios especificados anteriormente
EJEMPLO DE RECHAZO DE H0
Variable dependiente Descriptives
cantidaddelicencias
obrerosdepl administrativ gerenca Total
95%ConfidenceInte Mean N Mean Std. Devia Std. Err Lower Bo Upper Bo Minimu Maximu 22 17.757 2.565 .5471 16.619 18.895 14.0 22.6 22 20.909 2.871 .612 19.636 22.182 14.0 24.3 . . . . . . . 66 19.601 3.045 .374 18.852 20.349 14.0 25.3
Grupos (niveles del factor) •
•
La tabla nos muestra estadísticos descriptivos tales como medias, desviación estándar y erros estándar. Todo ello para cada nivel de factor (grupo) y para el total.
Test of Homogeneity of Variances
Promedio de repitentespor curso Levene Statistic df1 df2 1.603 4 23
•
•
Sig. .207
Esta tabla nos permite evaluar si violamos o no el supuesto de la homogeneidad de las varianzas (homocedasticidad). Si el valor de “Sig.” fuese menor que un nivel de 0,05 las varianzas de los grupos difieren significativamente. Por tanto, todo el análisis posterior sería en vano.
ANOVA
cantidaddelicencias Sumof Entre grupos Squares BetweenGroup 118.710 WithinGroups 484.227 602.938 Dentro de Total
df
MeanSquar 2 59.355 63 7.686 65
F 7.722
Sig. .001
grupos
•
El contraste resulta significativo, vale decir, hay diferencias entre medias (rechazamos H0). Sig. = 0,001 < 0,05
ANOVA
cantidaddelicencias Sumof Squares BetweenGroups 118.710 WithinGroups 484.227 Total 602.938
•
df
MeanSquare 2 59.355 63 7.686 65
F 7.722
Sig. .001
Para poder establecer la proporción explicada de la varianza (esto es, la proporción de la variación total explicada por el factor) recurrimos al cálculo del estadístico η2 (eta al cuadrado) dividiendo la suma de cuadrados inter-grupo por la suma de cuadrados total. •
Para este ejemplo, el valor η2 se calcula de la siguiente manera:
118.710 / 602.938 = 0.19 Lo que nos indica que un 19% de
por la variación entre grupos.
la varianza total se explica
Post-Hoc con Tukey y Scheffé MultipleComparisons
Dependent Variable: cantidad de licencias Mean Difference (I) tipodeempleado (J) tipodeempleado (I-J) Std. Error Tukey HSD obreros deplanta administrativos * -3.1515 .8359 gerencia * -2.3788 .8359 administrativos obreros deplanta * 3.1515 .8359 gerencia .7727 .8359 gerencia obreros deplanta * 2.3788 .8359 administrativos -. . Scheffe obreros deplanta administrativos * -3.1515 .8359 gerencia * -2.3788 .8359 administrativos obreros deplanta * 3.1515 .8359 gerencia .7727 .8359 gerencia obreros deplanta 2.3788 * .8359 administrativos -.7727 .8359 *.The mean difference is significant at the .05 level. •
•
Sig. .001 .016 .001 .627 .016 . .002 .022 .002 .654 .022 .654
95%ConfidenceInterval Lower Bound Upper Bound -5.1580 -1.1451 -4.3852 -.3723 1.1451 5.1580 -1.2337 2.7792 .3723 4.3852 - . . -5.2472 -1.0558 -4.4745 -.2831 1.0558 5.2472 -1.3230 2.8684 .2831 4.4745 -2.8684 1.3230
Las diferencias que son significativas son marcadas con asterisco * Desde aquí podemos empezar a especificar cuál es la media grupal que se distancia de las otras.
Post-Hoc con Tukey y Scheffé cantidad delicencias
Subset for alpha = .05 tipodeempleado N 1 2 a Tukey HSD obreros deplanta 22 17.7576 gerencia 22 20.1364 administrativos 22 20.9091 Sig. 1.000 .627 a Scheffe obreros deplanta 22 17.7576 gerencia 22 20.1364 administrativos 22 20.9091 Sig. 1.000 .654 Meansforgroupsinhomogeneoussubsetsaredisplayed. a. UsesHarmonic MeanSampleSize= 22.000.
Los obreros de planta conforman un grupo aparte. Gerencia y Administrativos tienden a conformar ambos un grupo distinto de los Obreros.
2.- ANOVA DE 2 O MÁS FACTORES
Técnica que mide los efectos de dos o más variables independientes cualitativas dependiente cuantitativa.
Ejemplo •
•
•
Imaginemos que queremos determinar si existe diferencia significativa entre dos metodologías de preparación para la PSU. El método A consiste en preparar a los alumnos mediante tres grados de intensidad de estudio (8 hrs. al día – 4 hrs. al día – 2 hrs. al día), mientras que el m to o t ene en cuenta e uso e me os tecnológicos (facsímiles vía email – educación a distancia – asistencia presencial con soporte computacional). Ambas metodologías son dos factores o variables independientes que hipotéticamente influirían en los puntajes del rendimiento en la PSU de distinta manera.
•
•
•
•
En el ejemplo recién dado, el investigador podría considerar los puntajes de la PSU y analizarlos en función de un factor por separado. Por ejemplo, el método 1 y los puntajes PSU obtenidos con esta metodología y hacer un análisis Anova de un factor; luego tomar el otro factor y los puntajes PSU y analizarlos mediante otro análisis Anova de un factor por separado. Pese a ue uede ser una buena estrate ia cabe re untarse si acaso no sería más interesante estudiar la combinación de ambos factores y su efecto en los puntajes de la PSU en vez de analizarlos separadamente. Es decir, podría ser mucho más interesante investigar los factores de manera conjunta y así combinar los dos estudios Anova de un factor en uno solo, el cual será este del análisis de la varianza con dos factores (Anova de dos vías o dos factores).
•
•
•
Se trata entonces de explorar los efectos de 2 o más factores para así evaluar las distintas interacciones entre ambos. Mediante este tipo de análisis podemos estudiar los efectos de los dos factores por separado en la variable dependiente (Y) más la interacción entre ambos y los efectos de esta n eracc n en . Vale decir: Efectos de A sobre Y (efecto principal). Efectos de B sobre Y (efecto principal). Efectos de AB sobre Y (efecto de interacción).
El objeto de este tipo de análisis es permitir decidir al investigador si los dos o más factores
•
que no podrían ver si tomáramos a los factores por separado.
•
Cuando se realiza un ANOVA de dos factores, se tienen 3 H0. H0: El factor A no ejerce ningún
efecto en la variabilidad de las puntuaciones. efecto en la variabilidad de las puntuaciones. H0: Los efectos de interacción de AxB no ejercen ningún efecto en la variabilidad de las puntuaciones.
ANOVA DE 2 FACTORES EN SPSS
Analizar Modelo lineal general Univariado …
Colocar aquí la cuantitativa (dependiente)
Colocar aquí las variables cualitativas (factor)
Clic en Post-Hoc y elegir contraste adecuado según los criterios descritos anteriormente.
Una vez elegido el análisis Post Hoc, volver al cuadro principal y hacer Clic en Opciones
Pasar todos los factores y la interacción al campo (mostrar las medias para)
Clic en: Estadísticos
. Estimaciones del tamaño del efecto. Potencia observada. Prueba de homogeneidad .
EJEMPLO ANOVA DOS FACTORES
DescriptiveS tatistics
Between-S ubjectsFactors
R egión económica
1 2 3 4 5 6
Clima predominante
1 2
5 6 7 8 9
•
ValueLabel O CDE Europa O riental A sia/ Pacífico Á frica O riente Medio A mé rica Latina desierto á rido/ desierto r o tropical mediterrá n eo marítimo templado á rtico/ temp.
N 21 14 16 16 16 19 7 5 32 10 4 34 4
Las primeras dos tablas del output son de estadísticas descriptivas: hay un conteo general de los casos para cada grupo de los 2 factores; se calculan medias, desviaciones típicas.
Dependent Variable: Mortalidad infantil (muertes por 1000nacimientos vivos) R egió neconó mica Climapredominante Mean Std. Deviation O CDE á rido 7,300 mediterráneo 7,600 marítimo 9,200 templado 6,881 1,1189 á rtico / temp. 5,933 ,7767 Total 6,910 1,1722 EuropaO riental mediterráneo 15,850 10,1116 marítimo 19,167 2,2546 templado 15,038 4,3266 á rtico / temp. 27,000 Total 16,893 5,4830 A sia/ Pacífico á rido 168,000 tropical 50,789 38,7232 mediterráneo 41,700 52,7502 templado 50,600 36,0636 Total 56,931 46,1738 Á frica desierto 126,000 á rido/ desierto 47,100 tropical 104,400 20,9507 80,000 42,4264 templado 111,000 8,4853 Total 99,944 26,4983 O riente Medio desierto 49,517 19,9922 á rido/ desierto 39,875 21,3009 á rido 30,000 7,0711 mediterráneo 51,250 16,6170 templado 28,800 28,5671 Total 42,294 19,4339 A mé ricaLatina á rido 44,500 13,4350 tropical 40,769 27,3346 mediterráneo 25,200 templado 19,067 5,7839 Total 36,916 24,2839 Total desierto 60,443 34,1869 á rido/ desierto 41,320 18,7280 á rido 54,050 57,8617 tropical 63,472 40,0852 mediterráneo 41,040 34,7120 marítimo 16,675 5,3125 templado 22,433 29,1536 Osvaldo Blanco á rtico / temp. 11,200 10,5524 Sociólogo Total 41, 860 38,7517
N . . .
. .
. .
.
1 1 1 15 3 21 2 3 8 1 14 1 9 2 4 16 1 1 10 2 2 16 6 4 2 2 2 16 2 13 1 3 19 7 5 6 32 10 4 34 4 102
a Levene'sTest of Equality of Error Variances
Dependent Variable: Mortalidad infantil (muertes por 1000 nacimientos vivos) F df1 df2 Sig. 3,209 26 75 ,000 Tests thenull hypothesis that theerror varianceof the dependent variableisequal acrossgroups. a. Design: Intercept+regió n+clima+regió n* clima •
•
•
•
•
•
•
Este es el contraste de Levene para determinar la homogeneidad de varianzas.
Si es significativa (p < varianza.
) entonces se ha violado el supuesto de la homogeneidad de la
α
En este caso la prueba de Levene fue significativa, por lo tanto las varianzas son heterogéneas. Sin embargo, se ha demostrado que en tanto los tamaños grupales sean uniformes, las violaciones del supuesto de homogeneidad de varianza no afectarán mucho los resultados y no pondrán en entre dicho la interpretación. En cambio, si los tamaños de los grupos son desiguales, las consecuencias podrían ser graves e impredecibles (Gardner: 2003: 95). Si vamos a la tabla de estadísticos descriptivos que recién vimos, podemos notar que los grupos tienen tamaños desiguales. No obstante, como este es un ejercicio, simplemente vamos a obviar esta violación al supuesto de la homogeneidad de varianza y vamos a seguir revisando los siguientes resultados.
Testsof Between-S ubjectsEffects
Dependent Variable: Mortalidad infantil (muertes por 1000 nacimientos vivos) TypeIII Sum Source of Squares df MeanSquare F b Corrected Model 113190,500 26 4353,481 8,485 Intercept 89600,884 1 89600,884 174,637 regió n 42358,902 5 8471,780 16,512 clima 7890, 072 7 1127, 153 2, 197 regió n* clima 16363, 821 14 1168, 844 2, 278 Error 38480,230 75 513,070 Total 330400,372 102 Corrected Total 151670,730 101 a. Computedusing alpha = ,05 b. R Squared= ,746(A djustedR Squared= ,658) •
•
•
Sig. ,000 ,000 ,000 , 044 , 012
Partial Eta Squared ,746 ,700 ,524 , 170 , 298
Noncent. Parameter 220,614 174,637 82,560 15, 378 31, 894
O bserved a Power 1,000 1,000 1,000 , 789 , 952
Esta tabla contiene la mayor parte de la información de interés. Para nosotros, serán de interés las columnas “Sig”, “Partial Eta Squared” (eta cuadrada parcial, similar a la eta cuadrada 2), y “Observed Power” (potencia observada). Además, sólo nos interesan los valores para las filas de los dos factores (región y clima), así como para la interacción entre ambos (región * clima).
Testsof Between-S ubjectsEffects
Dependent Variable: Mortalidad infantil (muertes por 1000 nacimientos vivos) Type III Sum Source of Squares df MeanSquare F Corrected Model 113190,500b 26 4353,481 8,485 Intercept 89600,884 1 89600,884 174,637 regió n 42358,902 5 8471,780 16,512 clima 7890, 072 7 1127, 153 2, 197 regió n* clima 16363, 821 14 1168, 844 2, 278 Error 38480,230 75 513,070 Total 330400,372 102 Corrected Total 151670,730 101 a. Computed usingalpha = ,05 b. R Squared= ,746(A djustedR Squared= ,658)
Sig. ,000 ,000 ,000 , 044 , 012
Partial Eta Squared ,746 ,700 ,524 , 170 , 298
Noncent. Parameter 220,614 174,637 82,560 15, 378 31, 894
O bserved a Power 1,000 1,000 1,000 , 789 , 952
Significación para c/u de los efectos (principales y de interacción) •
•
•
•
Los valores de la columna “Sig” son los que usamos para ver la significación de los efectos. El efecto principal de A (región económica) es significativo (Sig = 0,000), por tanto, el factor de la región es un indicador importante como variable independiente a la hora de explicar la variabilidad de la variable dependiente (mortalidad infantil). El clima igual alcanza a ser significativo, aunque con mayor margen de probabilidad de cometer el error tipo I al rechazar H0. Por último, la interacción región * clima es también significativa.
Testsof Between-S ubjectsEffects
Dependent Variable: Mortalidad infantil (muertes por 1000 nacimientos vivos) Type III Sum Partial Eta Noncent. O bserved a Source of Squares df MeanSquare F Sig. Squared Parameter Power b CorrectedModel 113190,500 26 4353,481 8,485 ,000 ,746 220,614 1,000 Intercept 89600,884 1 89600,884 174,637 ,000 ,700 174,637 1,000 regió n 42358,902 5 8471,780 16,512 ,000 ,524 82,560 1,000 clima 7890, 072 7 1127, 153 2, 197 , 044 , 170 15, 378 , 789 regió n* clima 16363,821 14 1168,844 2,278 ,012 ,298 31,894 ,952 Error 38480,230 75 513,070 Total 330400,372 102 Corrected Total 151670,730 101 Porcentaje de la varianza explicada para cada efecto a. Computedusing alpha = ,05 principal y para el de interacción. Es decir, la proporción de b. R Squared= ,746(A djustedR Squared = ,658) la variación total explicada por el factor por separado o por la interacción de ambos factores. •
•
•
•
• •
•
Debemos fijarnos fundamentalmente en los valores de eta cuadrada (2) para el factor A (región económica), el factor B (clima) y la interacción entre ambos (A*B). La lectura de 2 tiene directa relación con determinar primero cuál de los factores tienen efectos significativos (es decir, p < ) En este ejemplo, los tres efectos (los dos efectos principales y el efecto de interacción) son significativos, por tanto, debemos interpretar los tres valores de 2 correspondientes. El efecto de la región tiene un 52,4% de varianza explicada. El clima, apenas un 17%. La interacción entre clima y región económica alcanza a 29,8% El modelo de dos factores (Modelo corregido o Corrected Model) en su conjunto tiene un porcentaje de varianza explicada de la mortalidad infantil que llega a 74,6%.