Prueba 1 Técnicas de Estadística Multivariante
Gloria Fields Programa de Postgrado UNED 2011-2012
Índice Problema 1: Supuestos básicos…………………...………………………………………...……2 Problema 2: Análisis previo de los datos……………….………………………………………..5 Problema 3: Análisis factorial….…...…………………….……………………….……………..7 Problema 4: Regresión logística múltiple…………………….………………………………...14 Problema 5: Análisis multivariante de la varianza (MANOVA)…………….…………………20 Problema 6: Análisis de correlación canónica………………………………………………….22 Problema 7: Análisis cluster………………………………………………….………………...24 Bibliografía……………………………………………………………………………………..30
1
Problema 1 ¿Cuáles son las ”hipótesis básicas” del análisis multivariante? Describa brevemente cada una de ellas e indique el grado de sensibilidad de las técnicas estudiadas a cada uno de estos supuestos. Supuestos básicos estadísticos del análisis multivariante Para las técnicas basadas en la inferencia estadística se deben tener en cuenta los siguientes supuestos básicos: Normalidad Uno de los supuestos básicos de las técnicas multivariantes es el de normalidad multivariante. Ahora bien, puesto que la normalidad multivariante es difícil de contrastar, esta hipótesis se relaja exigiendo a todas las variables que intervienen en el análisis que cumpla el supuesto de normalidad univariante. La normalidad univariante de cada una de las variables del análisis no garantiza la normalidad multivariante, no obstante suele bastar con la normalidad de cada variable, aunque en procesos críticos pueden exigir la normalidad multivariante. La falta de normalidad provoca que los test estadísticos no sean válidos ya que se requiere normalidad para el uno de los estadísticos t y F. La falta de normalidad es a veces resultado del incumplimiento de otros supuestos básicos. Test gráficos de la normalidad Histograma. En este gráfico se comparan los valores de los datos observados con una distribución aproximada a una distribución normal. Gráfico de distribución normal. En este gráfico se compara la distribución acumulada de los valores reales de los datos con la distribución acumulada de una distribución normal. Test estadísticos de normalidad univariante Test de simetría. Test de curtósis. Test de Kolmogorov-Smirnov-Lilliefors Test de Shapiro-Wilks. Soluciones a la no normalidad Transformaciones de datos Homocedasticidad Este supuesto de homocedasticidad se refiere a que las variables dependientes exhiban iguales niveles de varianza a lo largo del rango del predictor de las variables.; esto es, igual dispersión de la varianza de la variable dependiente a lo largo del rango de los valores de las variables independientes Se exige homocedasticidad con el fin de que la varianza de la variable dependiente que se está explicando en la relación de dependencia no se concentre en un limitado rango de los valores independientes. Test gráficos de homocedasticidad Gráfico de residuos Diagrama de caja y bigoes Test estadísticos de homocedasticidad Test de Levene Test M de Box Soluciones a la heterocedasticidad Transformaciones de datos
2
Linealidad La linealidad es un supuesto implícito de todas las técnicas multivariantes basadas en medidas de correlación (regresión múltiple, regresión logística, análisis factorial, etc.). La existencia de relaciones lineales entre las variables hace posible la utilización del coeficiente de correlación lineal como una medida de asociación o interdependencia entre dichas variables. Dado que las correlaciones representan sólo la asociación lineal entre variables, los efectos no lineales no estarán presentes en el valor de la correlación. Identificación de relaciones no lineales Gráfico de dispersión Análisis de los residuos tras aplicar un análisis de regresión múltiple. Soluciones para la no linealidad Transformación de los datos Crear una nueva variable que represente la parte no lineal de la relación Técnicas de análisis multivariante y su sensibilidad a los supuestos básicos estadísticos. Análisis Factorial
Los supuestos de normalidad, homogeneidad y linealidad se pueden obviar siendo conscientes de que su incumplimiento produce una disminución en las correlaciones observadas. Solo es necesaria la normalidad cuando se aplica una prueba estadística a la significación de los factores: sin embargo, raramente se utilizan estas pruebas. Se exige un cierto grado de multicolinealidad, ya que el objetivo del análisis factorial es representar mediante un factor a un grupo de variables correlacionadas. Si no hubiera correlación entre las variables la aplicación de dicho análisis factorial carecería de sentido.
Análisis Discriminante
El incumplimiento del supuesto de normalidad multivariante pueden causar problemas en la estimación de la función discriminante. El incumplimiento del supuesto de igualdad de las matrices de varianza-covarianzas entre grupos (homogeneidad) pueden afectar desfavorablemente al proceso de clasificación. La existencia de multicolinealidad entre las variables puede afectar a los resultados. La no linealidad de algunas relaciones no quedaran reflejadas en la función discriminante a menos que se realicen transformaciones específicas de la variable para representar los efectos no lineales.
Análisis Multivariante de la Varianza (MANOVA)
Si todas las variables que intervienen en el análisis cumplen el supuesto de normalidad univariante entonces el incumplimiento del supuesto de normalidad multivariante es generalmente insignificante. La violación del supuesto de igualdad de matrices de varianza-covarianza entre grupos tiene un mínimo impacto si los grupos son aproximadamente de igual tamaño, esto es, si el tamaño del grupo más grande dividido por el tamaño del grupo más pequeño es menor de 1.5. Si los tamaños difieren más que esta medida se deben corregir la posible existencia de variables distintas. La existencia de falta de linealidad entre las relaciones de algunas de las variables nos lleva a tomar la decisión de incluirlas o no dentro del conjunto de variables dependientes, lo cual tiene como coste el aumento de la complejidad, aunque se incrementa la representatividad. Las variables dependientes no deben presentar alta multicolinealidad entre ellas porque esto solo indica medidas dependientes redundantes y tienden a disminuir la eficiencia estadística.
Correlación Canónica
La normalidad no es un requisito estricto el análisis de correlación canónica ya que se pueden utilizar variables no-normales si la forma de la distribución no disminuye la correlación con otras variables. Pero se requiere normalidad multivariante para los controles de significación de inferencia estadística de cada función canónica. Por lo que ante la incapacidad de disponer de contraste para la normalidad
3
multivariante es necesario la normalidad univariante para cada una de las variables en el análisis. Por tanto la falta de normalidad afecta a la utilización de los contraste de significación. La falta de homocedasticidad disminuye la correlación entre las variables. La linealidad es un requisito imprescindible en el análisis de correlación canónico. El coeficiente de correlación lineal se basa en la relación lineal entre las variables, luego si los valores teóricos (variables canónicas) se relacionan de una manera no lineal, dicha relación no será reflejada por la correlación canónica. La multicolinealidad entre algún conjunto de variables distorsionará la capacidad de la técnica para aislar el impacto de cualquier variable única, haciendo que la interpretación sea menos fiable.
Análisis Cluster
El análisis cluster no es una técnica de inferencia estadística en la que se analizan los parámetros de una muestra en la medida en que puedan ser representativos de una población. Las exigencias de normalidad, linealidad y homogeneidad tienen poco peso en el análisis cluster. La presencia de multicolinealidad en algunas de las variables produce una ponderación implícita de éstas que afecta a los resultados del análisis.
4
Problema 2 ¿Qué pasos daría para poner a punto una base de datos que va a ser objeto de un análisis mediante técnicas estadísticas? Justifique la necesidad de dicho pre-procesamiento de los datos. Análisis gráfico de los datos Mediante el análisis gráfico de los datos se pretende de una manera visual obtener información sobre la forma y características de la distribución de cada una de las variables que constituyen el análisis multivariante; las relaciones bivariantes que existen entre éstas; la existencia de diferencia entre dos o más grupos de una variable para dos o más variables métricas así como la forma de la distribución de los valores para cada grupo; y los perfíles multivariante. Método gráficos utilizados: 1. Forma y características de la distribución Histograma Diagrama de tallo y hojas 2. Relaciones entre variables Gráfico de dispersión Matriz del gráfico de dispersión 3. Diferencias por grupos Diagrama de caja y bigote (Boxplot) 4. Perfíles multivariante Glyphs o metroglyphs Diagrama de barras para cada observación Transformación de Andrew Fourier Caras de Chernoff Análisis de los datos ausentes La presencia de datos ausentes produce un sesgo en la información y afecta al tamaño de la muestra disponible en el análisis lo cual puede producir un impacto considerable en los resultados obtenidos en el análisis estadístico. Por todo ello se hace necesario llevar a cabo una serie de acciones que minimicen los efectos de estos datos ausentes. Un proceso de datos ausente es cualquier evento sistemático externo o acción por parte del investigador que da lugar a la ausencia de datos. Los procesos de datos ausentes pueden ser: Conocidos - Procesos bajo control y que pueden ser identificados explícitamente. Son procesos de datos ausentes conocidos los procesos de datos ausentes prescindibles entre los que destacan los datos censurados. Desconocidos - Acción: tratar de identificar si existe algún patrón que caractericen dicho proceso. • Grado de aleatoriedad presente en los datos ausentes: o No aleatorios o Los datos ausentes obedecen a un proceso aleatorio (MAR) o Los datos ausentes obedecen a un proceso completamente aleatorio (MCAR) • Métodos par el diagnóstico de aleatoriedad en el proceso de datos ausentes o Valorar los datos ausentes para una variable dividiendo la muestra en dos grupos, uno de ellos con los datos ausentes y el otro con los valores válidos y a continuación se realiza un test para determinar si existe diferencia significativa entre los dos grupos. o Correlaciones dicotomizadas o Test conjunto de aleatoriedad de Little.
5
•
Soluciones que tratan con los datos ausentes basadas en la aleatoriedad de los procesos. o Utilizar solo aquellas observaciones con datos completos o Supresión de caso(s) y/o variable(s) o Métodos de imputación o Procedimientos basados en el modelo
Casos atípicos Los casos atípicos son observaciones aisladas cuyo comportamiento se diferencia claramente del comportamiento medio del resto de las observaciones. Los casos atípicos problemáticos pueden distorsionar seriamente los test estadísticos. Los datos atípicos realmente aberrantes no son representativos de la población por lo que están en contra de los objetivos del análisis y deben ser eliminados. Clasificación de los datos atípicos: a) Casos atípicos que surgen de un error de procedimiento. b) Observación que ocurre como consecuencia de un acontecimiento extraordinario. c) Observaciones extraordinarias para los que no se tiene explicación. d) Las observaciones que se sitúan fuera del rango ordinario de cada variable pero que son únicas en su combinación de valores entre las variables. Métodos usados en la detección de atípicos: a) Detección univariante Diagrama de caja y bigote. Diagrama de control. Estadísticos robustos. Contraste formal estadístico para detectar valores atípicos: o Test de Dixon. o Test de Grubs b) Detección bivariante: Diagrama de caja y bigote múltiple que representa distintos gráficos de una variable para diferentes niveles de la otra. Gráfico de dispersión. c) Detección multivariante: La medida de D² de Mahalonobis. Medidas de influencia.
Comprobación de los supuestos subyacentes en los métodos multivariante En el análisis multivariante es importante la comprobación de los supuestos estadísticos subyacentes a las variables que intervienen en él. Entre los supuestos se hallan: La normalidad La homogeneidad o homoscedasticidad La linealidad La ausencia de autocorrelación o correlación serial La ausencia de multicolinealidad El incumplimiento de alguno de estos supuestos provoca sesgos y distorsiones en los resultados de los análisis; por lo que es importante llevar a cabo acciones que detecte y subsanen, si es posible, el incumplimiento de alguno de estos supuestos.
6
Problema 3 Se sospecha que los 5 aspectos (variables): V1, V2, V3, V4 y V5, recogidos en una base datos determinada, se pueden expresar adecuadamente en términos de dos factores subyacentes. Con el fin de descubrir esta hipotética estructura, se han introducido los datos en un programa de ordenador, que ha proporcionado la siguiente salida:
Componentes Principales Variables F1 F2 V1 0.817 -0.157 V2 0.838 -0.336 V3 0.874 0.288 V4 0.838 -0.308 V5 0.762 0.547 Varianza 3.416 0.614 Proporción 0.683 0.123
Rotación (Varimax) F1 F2 0.732 0.395 0.861 0.271 0.494 0.776 0.844 0.292 0.244 0.905 2.294 1.736 0.459 0.347
Comunalidades 0.692 0.815 0.847 0.798 0.879 4.031 0.806
Interprete la información contenida en esta tabla y utilícela para desarrollar el análisis que se pretende. Sugiera, si lo cree conveniente, alguna actuación adicional o alternativa para completar el estudio. Con el fin de mantener un orden en el estudio se han ido introduciendo con encabezamiento en color rojo las sugerencias aportadas para completar el estudio Estudio de las correlaciones Antes de realizar el análisis se lleva a cabo un estudio de las correlaciones con el fin de establecer si es adecuada la aplicación de un análisis factorial, ya que lo que se pretende es que cada grupo de variables con correlación alta sea representado por un factor. Primeramente se calcula la matriz de correlaciones para identificar aquellas que sean estadísticamente significativas para posteriormente continuar con un examen empírico tanto en términos globales como para cada variable con el objetivo de establecer la adecuación del análisis factorial. Por tanto, una vez observada la matriz de correlaciones se procede al estudio del grado de asociación existente entre las variables para lo cual se utilizan varios indicadores de dicho grado: el determinante de la matriz de correlación, el test de Esferidad de Barlett, el índice KMO de Kaiser-Meyer-Oklin, Medida de Suficiencia de Muestreo MSA i y la matriz de correlación anti-imagen. •
Determinante de la matriz de correlación El determinante de la matriz de correlaciones es un indicador del grado de las intercorrelaciones. Si el determinante es muy bajo las correlaciones son muy altas.
•
Test de Esferidad deBarlett El test de Esferidad de Barlett contrasta la hipótesis nula Hₒ=”matriz de correlaciones es la identidad” o “determinante de matriz de correlaciones es igual a 1”. Si las variables estuvieran incorreladas sus coeficientes de correlación serían nulos, por lo que la matriz de correlaciones sería la identidad, y recíprocamente. Luego, en realidad, lo que estamos contrastando es si las variables no están correladas, frente a la alternativa de correlación de al menos algunas de ellas. Así pues, sea R p la matriz de correlaciones poblacional entonces el contraste de Barlett se expresa como: H0 : R p = 1 H1 : R p ≠ 1
7
El estadístico de Barlett tiene la expresión:
2p + 5
Bexp = - n -1 -
ln R
6
donde p es el número de variables y n el tamaño de la muestra. Este estadístico se distribuye bajo la hipótesis nula según una chi-cuadrado con p(p-1)/2 grados de libertad. El incremento del tamaño muestral da lugar a que la prueba de Barlett sea más sensible a la detección de correlaciones entre las variables. Con este test se contrasta la presencia de correlaciones no nulas, no el patrón de esas correlaciones. •
Índice KMO de Kaiser-Meyer-Oklin La medida de la adecuación de la muestra KMO, de Kaiser-Meyer-Oklin, es un índice que comprueba la existencia global de correlación entre las variables observadas a partir de la comparación de las magnitudes de los coeficientes de correlación observados con las magnitudes de los coeficientes de correlación parcial. El índice KMO se calcula como:
∑∑ r KMO = ∑∑ r + ∑∑ a j≠ i
i
i
donde
j≠ i
2 ij
2 ij
i
j≠ i
2 ij
rij son los coeficientes de correlación observados entre las variables i y j; y a ij son los
coeficientes de correlación parcial entre las variables i y j. Si la suma de los coeficientes de correlación parcial al cuadrado entre todas las variables es muy pequeña entonces el índice KMO estará próximo a 1 y el análisis factorial será muy adecuado. La denominada Escala de Kaiser da un baremo sobre la adecuación de realizar un análisis factorial basada en valor del índice KMO.:
0.90 < 0.80 < 0.70 < 0.60 < 0.50 <
•
KMO ≤ 1 KMO ≤ 0.90 KMO ≤ 0.80 KMO ≤ 0.70 KMO ≤ 0.60 KMO ≤ 0.50
Muy bueno Satisfactorio Mediano Mediocre Bajo Inaceptable
Medida de Suficiencia de Muestreo MSAi La medida de suficiencia de muestreo MSA i es análoga al índice KMO pero de forma individualizada para cada variable. Así pues, se define medida de suficiencia de muestreo MSA i para la variable i como:
MSA i
∑r = ∑r +∑a j≠ i
j≠ i
ij
ij
j≠ i
8
ij
Si el valor de MSA i se aproxima a la unidad, la variable i será adecuada para su tratamiento en el análisis factorial con el resto de las variables. Es aconsejable examinar primero los valores MSA i para cada variable y excluir aquellas que sean inaceptables. Una vez que se han eliminados estas variables se puede calcular el KMO y se puede tomar una decisión sobre la continuación del análisis factorial. •
Matriz de correlación anti-imagen La matriz de correlaciones anti-imagen está formada por los negativos de los coeficientes de correlación parcial entre cada par de variables. Si las variables comparten factores comunes este coeficiente deberá ser bajo, puesto que se eliminan los efectos lineales de otras variables. Luego interesa que haya un número alto de coeficientes pequeños. En la diagonal principal aparecen los valores de la medida de suficiencia de muestreo MSA i para cada variable, con lo que esta vez interesa que sean valores cuanto más altos mejor.
Análisis Factorial Se parte de un conjunto de 5 variables V1, V2, V3, V4 y V5, sobre el que se ha realizado un análisis factorial mediante el método de extracción de los factores de las componentes principales. En principio el análisis factorial representa las variables V1, V2, V3, V4 y V5 por otras cinco variables F1, F2, F3, F4 y F5 de tal forma que las primeras están totalmente explicadas por las segundas. Criterios para elección del número de factores o componentes Para la determinación del número de factores a conservar se pueden aplicar alguno de estos criterios: Regla de Kaiser Este criterio consiste en tomar como número de factores el número de valores propios superiores a la unidad. Gráfico de sedimentación El gráfico de sedimentación es una representación de los factores frente a los valores propios. Estos gráficos son generalmente estrictamente decrecientes en los que se observa que los decrecimientos rápidos se producen entre los primeros autovalores y que a partir de un cierto orden de la componente o factor el gráfico empieza a estabilizarse. La zona en la que se estabiliza dicho gráfico suele ser en la que los autovalores toman valores muy pequeños y por tanto asociados a factores menos importantes para la representación de la diversidad. El criterio del gráfico de sedimentación consiste en quedarse justamente con los factores previos a la zona de sedimentación. Varianza total explicada En las dos últimas líneas de la tabla aparecen la varianza y la proporción de varianza explicada por los factores comunes extraídos del análisis.
Se han extraído dos factores F1 y F2. El primero es aquel en el que se proyecta mejor la variabilidad de la muestra y el siguiente es el segundo mejor. La parte de variabilidad que explica cada factor viene dada por el autovalor correspondiente y la suma de todos los autovalores (traza) debe ser 5 que es la varianza total a explicar. La parte de varianza explicada por el primer factor F1 es pues λ1=3.416 y por el segundo factor F2 es λ2=0.614.
9
La cantidad total de varianza explicada por los factores F1 y F2 es:
3.416 + 0.614 = 2.294 + 1.736 = 4.03 El porcentaje de varianza (porcentaje de traza) explicada por el primer factor F1 es
3.416 5
mientras que el segundo factor F2 explica un
0.614 5
⋅ 100 = 68.3% ,
⋅ 100 = 12.3% .
Entre los dos explican un total del 80.6% de la varianza total, ya que:
0.683 + 0.123 = 0.459 + 0.347 = 0.806 Teniendo en cuenta que entre los 5 factores que han sido calculados por el análisis factorial explican un total del 100% de la variabilidad de las variables originales y que entre los dos primeros factores explican un total del 80.6%, se pueden decir, en principio, que en conjunto estos dos factores representan bastante bien a las variables originales. Ahora bien, el primer factor explica un 68.3% lo cual es ya una cantidad bastante aceptable mientras que el segundo factor explica un 12.3% cantidad muy pequeña, con lo que nos podíamos haber quedado con tan solo el primer factor F1, esto depende del investigador y el método de selección del número de factores elegido. Por otro lado decir que el resto de los 3 factores deben explicar poco o prácticamente nada de la variabilidad total; entre estos 3 factores explican un 19.4% de la variabilidad, pero puesto que el tercero explica menos que el segundo y el cuarto menos que el tercero y así sucesivamente, el tercero F3 debe explicar menos del 12.3% de la varianza total, esto es un porcentaje que posiblemente sea ya despreciable. Cargas factoriales En la segunda y en tercera columna figuran las cargas factoriales. De modo que podemos expresar las variables originales en función de los factores F1 y F2 como sigue:
V1 = 0.817F1 - 0.157F2 V2 = 0.838F1 - 0.336F2 V3 = 0.874F1 + 0.288F2 V4 = 0.838F1 - 0.308F2 V5 = 0.762F1 + 0.547F2
La carga factorial lij representa la correlación entre la variable original Vi y su factor Fj. Así pues, 0.874 el la correlación entre la variable V3 y el primer factor F1, luego estas dos variables tienen un alto índice de asociación con lo que el este primer factor explica o representa muy bien a esta variable. Si observamos las cargas factoriales nos percatamos que las correlaciones entre cada una de las variables y el primer factor F1 son bastante altas siendo por el contrario, las correlaciones con el segundo factor, alguna de ellas negativas, son en general bajas, con lo que concluiríamos con que este primer factor representa bastante bien a cada una de estas variables. Hacer notar que el primer factor explica un total del 68.3% de la variabilidad de la variables originales, cantidad bastante aceptable con lo que atendiendo a que su autovalor asociado es λ1=3.416>1, el asociado al segundo factor es λ2=0.614<1 y tomando como criterio de selección del número de factores el de Kaiser según el cual extraeríamos un número de factores igual al número de autovalores mayores que 1, se podía haber extraído un único factor. Se quiere hacer notar que la suma de los cuadrados de las columnas de los factores es igual a los valores propios significativos, es decir la cantidad de varianza explicada por cada uno de los factores. Esto es:
10
Parte de varianza explicada por el primer factor F1:
λ1 = ( 0.817 ) + ( 0.838 ) + ( 0.874 ) + ( 0.838 ) + ( 0.762 ) = 3.416 2
2
2
2
2
Parte de varianza explicada por el segundo factor F2:
λ2 = ( −0.157 ) + ( −0.336 ) + ( 0.288 ) + ( −0.308) + ( 0.547 ) = 0.615 2
2
2
2
2
Por tanto, si lo que se pretende es agrupar unas variables en torno a un factor y otras en torno a otro es necesario realizar una rotación, en este caso se llevado a cabo una varimax. Representación gráfica de los factores Para interpretar mejor los factores se pueden representar las variables originales en el espacio de los dos factores F1 y F2. Dos variables correladas positivamente formarán un ángulo desde el origen de 0 grados; de 180, si lo están negativamente; de 90 si están incorreladas. Rotación Varimax En la solución inicial las cargas factoriales nos informan de la mayor o menor correlación existente entre los factores comunes y cada una de las variables originales. Pero puesto que la esta solución no es única sino que cualquier transformación ortogonal de una solución también lo es, es posible encontrar otra de forma, y dado que hay más variables que factores comunes, que cada factor tenga una correlación alta con un grupo de variables y baja con el resto. De esta manera se podrá interpretarlos mejor. Ya que las rotaciones son transformaciones ortogonales, con la matriz de los factores rotados se trata de que las variables originales tengan una correlación lo más próxima a 1 que sea posible con uno de los factores y correlaciones próximas a 0 con el resto. El método de rotación varimax se basa en maximizar la varianza de los cuadrados de las correlaciones de cada factor con las variables lo cual llevara a polarizar los cuadrados de las cargas factoriales hacia 0 o 1 (dispersarlos lo más posible dentro de su campo de variación) y por tanto hacer que las correlaciones entre variables observadas y factores (cargas factoriales) sean cercana a 0, a +1, o a -1. En las columnas tercera y cuarta aparecen las nuevas cargas factoriales tras haber realizado una rotación varimax. En esta ocasión se pueden expresar las variables originales en función de los factores rotados como:
V1 = 0.732F1 + 0.395F2 V2 = 0.861F1 + 0.271F2 V3 = 0.494F1 + 0.776F2 V4 = 0.844F1 + 0.292F2 V5 = 0.244F1 + 0.905F2 La parte de la varianza total explicada por el primer factor F1 es ahora λ1=2.294 y por el segundo factor F2 es λ2=1.726. Se observa pues como se ha redistribuido la varianza para que el patrón de carga factorial y porcentaje de varianza para cada uno de los factores sean distintos. La cantidad total de varianza explicada por el conjunto de los factores sigue siendo la misma:
3.416 + 0.614 = 2.294 + 1.736 = 4.03
11
En esta ocasión, la proporción de varianza explicada por el primer factor F1 es
2.294 5
⋅ 100 = 45.9% ,
1.736
⋅ 100 = 34.7% . 5 El porcentaje de variabilidad explicada por el conjunto de los factores sigue siendo la misma: mientras que el segundo factor F2 explica un
45.9% + 34.7% = 80.6% Se observa en la tabla como las variables V1, V2 y V4 cargan significativamente sobre el primer factor F1, mientras que las variables V3 y V5 lo hacen sobre el segundo factor F2. En efecto, las variables V1, V2 y V4 están bastante bien representadas por el primer factor F1, ya que la correlaciones de éste con cada una de estas variables es considerablemente alta siendo dichas correlaciones bajas en el segundo factor F2 y marcando una clara diferenciación entre las cargas de una misma variable en un factor y el otro. Así pues, la variable mejor representada por este primer factor F1 es V2 puesto que la correlación entre ambas variables es de 0.861. Análogamente se observa como las variables V3 y V5 están bastante bien representadas por el segundo factor F2, sobretodo la variable V5 que presenta una correlación de 0.905 con este factor. Así pues se observan claramente dos grupos de variables: el formado por las variables V1, V2 y V4 que se agrupan en torno al primer factor F1; y el de las variables V3 y V5 que se agrupan en torno al segundo factor F2. Representación gráfica de los factores rotados De la misma forma que se representan las variables originales en el espacio de los factores se puede hacer en el espacio con los factores rotados permitiéndonos esto una mejor interpretación los factores.
Comunalidades La comunalidad de cada variable Vi es la proporción de la varianza explicada por el conjunto de los m factores, F1, F2,…, Fj extraídos (en nuestro caso j=2). La comunidad de cada variable h² se calcula sumando el cuadrado de las cargas factoriales de dicha variable, es decir, la suma de los cuadrados de los elementos de las filas de la matriz factorial. La comunalidad oscila entre 0 y 1. El 0 indica que los factores comunes no explican nada en absoluto de la variabilidad de la variable en cuestión. El 1 indica que la variable queda totalmente explicada por los factores comunes. Las comunalidades iniciales en el análisis de Componentes Principales son siempre iguales a 1. En los demás métodos de extracción de factores la comunalidad coincide con el coeficiente de correlación múltiple entre cada variable y todas las demás, por tanto la comunalidad inicial es índice de adecuación de la matriz de correlación. Se tiene a modo de ejemplo que:
2 2 2 2 2 h = ( 0.817 ) + ( -0.157 ) = ( 0.732 ) + ( 0.395) = 0.692 Por ello se dice que el conjunto de los factores explica un total del 69.2% de la variabilidad de la variable V1. En nuestro análisis V1 es la variable con menos comuladidad mientras que la variable V5 es la de mayor comunalidad, ya que entre los dos factores explican un total del 87.9 % de su varianza. Por tanto las comunalidades oscila entre un 0,692 y 0.879 luego en conjunto de los factores explican bastante bien a cada una de las variables del análisis.
12
Puntuaciones factoriales Las puntaciones factoriales no son más que el valor que toma cada uno de los individuos en los dos factores seleccionados; esto es, las coordenadas de los casos en el espacio de los factores. Para ello se expresan los factores en función de las variables. Cuando el método de extracción es el de las componentes principales las puntaciones factoriales son exactas, con cualquier otro método se debe calcular estimaciones de las mismas. Una vez obtenido estas expresiones se puede calcular el valor que toma los factores F1 y F2 para cualquiera de los casos sustituyendo el valor de cada una de las variables V1, V2, V3, V4, y V5 en las expresiones. Así pues, para el caso en el que se utiliza el método de las componentes principales los factores quedan definidos en función de las variables mediante la expresión:
lij Vi i=1 λj 6
Fj = ∑
para j=1,2
siendo λj autovalores de la matriz de L’L donde L es la matriz de las cargas factoriales, que como vimos anteriormente expresan la cantidad de varianza explicada por cada uno de los factores, y que tomaban los valores λ1=3.416 y λ2=0.614. luego la matriz de los coeficientes para el cálculo de las puntuaciones en los factores o componentes viene dada por:
V1 V2 V3 V4 V5
F1 0.239 0.245 0.256 0.245 0.223
F2 -0.256 -0.547 0.469 -0.502 0.397
Por tanto, se tiene que:
F1 = 0.239V1 + 0.245V2 + 0.256V3 + 0.245V4 + 0.223V5 F2 = -0.256V1 - 0.547V2 + 0.469V3 - 0.502V4 + 0.397V5
Matriz de correlaciones reproducidas Para el estudio de la bondad de ajuste del análisis se puede utilizar las denominadas correlaciones reproducidas. Una suposición básica subyacente al análisis factorial es que la correlación observada entre las variables puede atribuirse a factores comunes. Por consiguiente, las correlaciones entre variables pueden deducirse o reproducirse a partir de las correlaciones estimadas entre las variables y los factores. A fin de determinar el ajuste del modelo, pueden estudiarse las diferencias entre las correlaciones observadas (como se dan en la matriz de correlación de entrada) y las correlaciones reproducidas (como se estiman a partir de la matriz factorial). Estas diferencias se conocen como residuos. Si el modelo factorial es adecuado, entonces estos residuos deben ser pequeños. Si existe un porcentaje elevado de residuos superiores a una cantidad pequeña prefijada, esto será indicativo de que el modelo factorial estimado no se ajusta a los datos. Se sabe, además, que hay más estabilidad en los resultados si el número de casos por variable es alto.
13
Problema 4 Con el objetivo de obtener una regla para la clasificación de nuevas observaciones, se ajustó un modelo de regresión logística entre 6 atributos cuantitativos y una respuesta binaria. Algunos de los resultados obtenidos son: Coeficientes (Independiente) V1 V2 V3 V4 V5 V6
Valor 101.204 -0.0604 0.0043 0.0257 0.4076 0.0168 -0.1050
Error estándar 40.7243 0.0274 0.0374 0.0331 0.1325 0.0567 0.0417
Wald¹ 2.4851 -2.2064 0.1147 0.777 3.0766 0.2972 -2.5189
(a) Respecto a la técnica mencionada: i. ¿Qué alternativas conoce? Análisis discriminante. ii. ¿En qué criterios basaría su elección? Motivos por los que la regresión logística es una alternativa al análisis discriminante en tanto que la variable dependiente cuente con solo dos categorías: 1) La regresión logística es una técnica multivariante más robusta que el análisis discriminante ya que entre otras cosas está menos influenciada por las diferencias de varianzas-covarianzas entre grupos (supuesto básico del análisis discriminante). 2) En la regresión logística puede tratar fácilmente con variables independientes categóricas mientras que en el análisis discriminante el uso de este tipo de variables crea problemas con la igualdad de varianza-covarianzas. 3) Debido a que los modelos de regresión logística son MLG sus resultados pueden ser interpretados de forma análoga al ajuste de un modelo de regresión lineal múltiple al igual que se pueden utilizar las medidas de diagnóstico caso a caso disponibles para el examen de los residuos (b) ¿Qué información nos proporciona el modelo ajustado sobre el estado de la variable respuesta para un individuo que presente las puntuaciones (40; 72; 82; 4; 2; 1010)? ¿Cuál sería la clasificación más adecuada? Modelo de Regresión Logística Binaria En la tabla se observan los valores de los estimadores de máxima verosimilitud de los coeficientes resultantes de haber ajustado un modelo de regresión logística para la clasificación de casos en una variable dependiente binaria Y (que vamos a suponer que toma los valores 1 y 0) según los valores de 6 variables predictoras cuantitativas V1 , V2 ,..., V 6 . Por tanto el modelo ajustado viene representado por la expresión: 6 p (v) = α + r∑=1 β r v r = 101.204 - 0.0604v1 + 0.0043 v 2 + 0.0257v 3 + 0.4076v 4 + 0.0168v 5 - 0.1050v 6 1 - p ( v )
ln
donde p ( v ) = p ( Y = 1/ V1 = v1 , V2 = v 2 , V3 = v3 , V4 = v 4 , V5 = v5 , V6 = v 6 ) . Siendo p (v) p ( Y = 1/ V1 = v1 , V2 = v 2 , V3 = v3 , V4 = v 4 , V5 = v 5 , V6 = v 6 ) = 1- p ( v ) p ( Y = 0 / V1 = v1 , V2 = v 2 , V3 = v3 , V4 = v 4 , V5 = v5 , V6 = v 6 )
lo que de denomina como odd o ventaja de la respuesta Y=1 para el valor observado v.
14
Por tanto: 6 exp α + ∑ β r v r 1 r=1 = p ( v) = 6 6 1+ exp α + ∑ β r v r 1 + exp -α - ∑ β r v r r=1 r=1
Contraste de Wald En la última columna se observa el valor de estadístico de Wald, el cual es utilizado para el estudio de la significación de los coeficientes. Este estadístico se distribuye, para un tamaño grande de la muestra y bajo la hipótesis nula, aproximadamente según una N(0,1). Para el parámetro constante, el contraste es:
H0 : α = 0 H1 : α ≠ 0
El estadístico de Wald para este contraste es Z =
α* 101.204 * * = = 2.4851 , donde σ ( α ) es el error * * σ ( α ) 40.7243
estándar del estimador del parámetro constante. Si fijamos como nivel de significación γ = 0.05 resulta que Z = 2.4851 ≥ z
γ2
= 1.96 por lo que rechazamos la hipótesis nula de igualdad a cero de la
constante. Por lo tanto, la constante del modelo es significativamente distinta de cero. Procediendo del mismo modo para el resto de los coeficientes β r , r = {1, 2, 3, 4, 5, 6} ; esto es realizando los contrastes:
H0 : βr = 0
Para r = {1, 2, 3, 4, 5, 6}
H1 : β r ≠ 0
Observamos que β1 , β 4 y β 6 son significativamente distintos de cero a un nivel de significación de γ = 0.05 , ya que el valor del estadístico de Wald, Z, para cada una de ellos verifica que
Z ≥ zγ
2
= 1.96 . No ocurriendo lo mismo para los coeficientes β 2 , β 3 y β 5 , para los que no se puede
rechazar la hipótesis nula aceptándose de este modo la alternativa. Por tanto, y bajo estas circunstancias, el modelo de regresión logística múltiple ajustado a los datos quedaría expresado de la siguiente forma:
6 p ( v) ln = α + ∑ β r vr = 101.206 - 0.0604v1 + 0.4076v4 - 0.1050v6 r=1 1- p ( v )
15
Intervalos de confianzas Se construyen los intervalos de confianza aproximados a un nivel de significación del 95% de los coeficientes β i y de la exponencial de los coeficientes exp ( β i ) . El intervalo de confianza aproximado a un nivel de significación del 95% del coeficiente β i viene dado por:
( )
* * * β i ± z γ 2 ⋅ σ βi
( )
* * donde como σ β i se utilizan los errores estándar. Tomando exponenciales en los extremos de estos intervalos se obtienen los intervalos para la exponencial de los coeficientes. Así pues, tras los cálculos se obtienen los siguientes resultados: Coeficiente * β1
95% I.C. (Coef)
( -0.114, -6.696 ⋅ 10 )
95% I.C. Exp(Coef)
( 0.892, 0.993) ( 0.933,1.081) ( 0.962,1.094) (1.159,1.949) ( 0.910,1.135) ( 0.830, 0.977 )
-3
= -0.0604
( -0.07, 0.078) ( -0.039, 0.09) ( 0.148, 0.667 ) ( -0.094, 0.128) ( -0.187, -0.023)
*
β 2 = 0.0043 *
β 3 = 0.0257 *
β 4 = 0.4076 *
β 5 = 0.0168 *
β 6 = -0.1050
De donde observamos como los intervalos de confianza de los coeficientes β 2 , β 3 y β 5 contienen al 0 y como los intervalos de sus exponenciales contienen al 1, lo cual no ocurre para los coeficientes
β4 y
β 6 lo cual viene a corroborar los resultados obtenidos mediante la aplicación del contraste de Wald. Cociente de ventajas El cociente de ventajas de respuesta Y=1 para dos combinaciones diferentes de las variables explicativas v1 = ( v11 ,v12 ,v13 ,v14 ,v15 ,v16 ) y v 2 = ( v21 ,v22 ,v23 ,v24 ,v25 ,v26 ) se define como:
p ( v1 )
θ ( v1 , v 2 ) =
1 - p ( v1 ) p ( v2 )
1 - p ( v2 )
( (
6
exp ∑ β i v1i =
i=1 6
exp ∑ β i v 2i i=1
) )
(
= exp ∑ β i ( v1i - v 2i ) 6
i=1
)
Donde, en este caso se consideraron β 2 = β 3 = β 5 = 0 por no ser significativas. Cuando una de las variables explicativas Vh se incrementa en una unidad, es decir v1h - v 2h = 1 y las otras se controlan haciendo que tomen valores fijos , esto es v1j - v 2j = 0 , ∀j ≠ h , el cociente de ventajas de respuesta Y=1 es entonces:
(
)
θ ( ∆Vh = 1) = exp ∑ β i ( v1i - v 2i ) = exp (β h ) 6
i=1
16
Esto significa que al aumentar en una unidad una de las variables y controlar las demás la ventaja de la respuesta Y=1 queda multiplicada por la exponencial de coeficiente de la variable incrementada. Por tanto exp ( β h ) representa la magnitud de cambio de la probabilidad de la variable respuesta Y=1 frente al a la probabilidad cuando incrementamos en una unidad la variable Vh y dejamos el resto de las variables fijas. De este modo si la exponencial de un parámetro es mayor que 1 la probabilidad de repuesta Y=1 aumenta cuando aumenta la variable correspondiente y se controlan las demás, mientras que si es menor que 1 la relación es la inversa. El cociente de ventajas de la respuesta Y=1 cuando se incrementa la variable V1 es:
θ ( ∆V1 = 1) = exp (β1 ) = e
-0.0604
= 0.9414
Esto quiere decir que por cada aumento de una unidad en la variable V1 la ventaja a favor de la respuesta Y=0 se divide por 10.9414 = 1.0622 . O lo que es lo mismo la ventaja a favor de Y=1 se multiplica por 1.0622 . El cociente de ventajas de la respuesta Y=1 cuando se incrementa la variable V4 es:
θ ( ∆V4 = 1) = exp (β 4 ) = e
0.4076
= 1.5032
Esto quiere decir que por cada aumento de una unidad en la variable V4 la ventaja a favor de la respuesta Y=1 se multiplica por 1.5032 . El cociente de ventajas de la respuesta Y=1 cuando se incrementa la variable V6 es:
θ ( ∆V6 = 1) = exp (β6 ) = e
−0.1050
= 0.9003
Esto quiere decir que la ventaja a favor de la respuesta Y=0 se divide por
1
0.9003 = 1.1107 por cada
aumento de una unidad en la variable V6 . O lo que es lo mismo la ventaja de la respuesta Y=1 se multiplica por 1.1107 . Clasificación del individuo con puntuaciones (40,72,82,4,2,1010) Por tanto, para un individuo que presenta las puntuaciones ( 40, 72, 82, 4, 2,1010 ) se obtiene que: 6 p ( v) ln = α + ∑βr vr = 101.204 - 0.0604v1 + 0.4076v4 - 0.1050v6 = r=1 1- p ( v) = 101.204 − 0.0604 ⋅ 40 + 0.4076 ⋅ 4 − 0.1050 ⋅1010 = −5.6316
Luego
p ( Y = 1 V1 = 40, V2 = 72, V3 = 82, V4 = 4, V5 = 2, V6 = 1010 ) = exp ( −5.6316 ) = 3.58 ⋅10 −3 p ( Y = 0 V1 = 40, V2 = 72, V3 = 82, V4 = 4, V5 = 2, V6 = 1010 )
17
Lo que nos índica que la probabilidad de una respuesta negativa Y=0 es mucho mayor que la de una positiva Y=1. Es decir un individuo que presente las puntuaciones ( 40, 72, 82, 4, 2,1010 ) tiene una probabilidad
1 3.58 ⋅ 10
−3
= 279.33 veces superior a tomar una respuesta negativa Y=0 que a tomar una
positiva Y=1. Esto queda confirmado por la expresión: 6 exp α + ∑ β r v r r=1 = exp(−5.6316) = 3.57 ⋅10−3 p ( Y = 1 V1 = 40, V2 = 72, V3 = 82, V4 = 4, V5 = 2, V6 = 1010 ) = 6 1 + exp ( −5.6316 ) 1+ exp α + ∑ β r v r r=1
Esto es observamos que para estas puntuaciones el individuo tiene probabilidad ≈ 0.0036 de tomar una respuesta positiva Y=1, es decir, prácticamente nula, con lo que concluimos que este individuo tiene una probabilidad muy alta de tomar una respuesta negativa Y=0; más concretamente:
p ( Y = 0 V1 = 40, V2 = 72, V3 = 82, V4 = 4, V5 = 2, V6 = 1010 ) = 1 − 3.57 ⋅10 −3 = 0.99643 Así pues, si elegimos como punto de corte para la clasificación de los individuos el punto 0.5 de modo que los que casos con probabilidad predicha que superen dicho punto de corte se clasifican como positivos Y=1, mientras que aquellos con valores pronóstico menores que el punto de corte se clasifican como negativos Y=0, resulta que el individuo que presenta las puntuaciones ( 40, 72, 82, 4, 2,1010 ) queda claramente clasificado como negativo Y=0. (c) ¿Cómo valoraría la eficacia de la regla de clasificación obtenida? Para la valoración del modelo de regresión logístico primeramente se estudiaría la bondad de ajuste del modelo. Una vez contrastado que el ajuste global de modelo se realizaría un análisis de los residuos y de las observaciones influyentes. Para el estudio de la bondad global del modelo se pueden utilizan los siguientes contraste de bondad de ajuste o la subsiguientes medidas de la bondad.
Contrastes de bondad de ajuste •
Test Chi-cuadrado de Pearson Para contrastar la bondad de ajuste global del modelo cuando el número de observaciones en cada combinación de valores de las variables explicativas es grande se dispone del estadístico χ² chicuadrado de Pearson el cual compara los valores de las probabilidades teóricas con los valores de las probabilidades predichas. Este estadístico se distribuye asintóticamente según una chi-cuadrado con grados de libertad igual a la diferencia entre el número de combinaciones distintas de los valores de las variables y el número de coeficientes estimados.
•
Desvianza o -2LL La desvianza G² o el -2LL es un estadístico similar a la χ² de Pearson. Este estadístico tiene también distribución asintótica chi-cuadrado con los mismos grados de libertad que la chi-cuadrado del estadístico de Pearson. Y también se utiliza cuando el número de observaciones en cada combinación de valores de las variables explicativas es grande Este estadístico es muy utilizado como medida de la mejora de la bondad de ajuste global de un modelo cuando se usan métodos stepwise para la estimación del modelo; así pues, si se utiliza un método stepwise forward y se iintroduce una nueva variable la diferencia entre el -2LL del modelo sin la variable y el -2LL con la variable nos indica cuan ha mejorado el ajuste del modelo con esta nueva variable.
18
•
Test de Hosmer y Lemeshow Cuando no hay un número suficiente de observaciones en cada combinación de valores de las variables explicativas no se puede asumir la distribución chi-cuadrado de Pearson ni la de la desvianza como buenas. La norma para poder usar estos contrastes es que el 80% de las frecuencias estimadas bajo el modelo de regresión sean mayores que cinco y todas mayores que uno. El estadístico de Hosmer y Lemeshow se utiliza después de agrupar adecuadamente los datos en intervalos de modo que su valor depende fuertemente del número de clases resultantes de la agrupación. Este estadístico se distribuye asintóticamente según una chi-cuadrado con grados de libertad G-2, donde G es el número de clases o grupos. Normalmente se toma G=10 construyendo las clases en base a los deciles de las probabilidades estimadas bajo el modelo.
Medidas globales de bondad de ajuste •
Tasa de Clasificaciones Correctas La tasa de clasificaciones correctas es la proporción de individuos clasificados correctamente por el modelo obtenida como cociente entre el número de observaciones clasificadas correctamente y el tamaño muestral N. Un individuo es clasificado correctamente por el modelo de regresión logística cuando su valor observado de respuesta (0 o 1) coincide con el valor estimado por el modelo. Para asignar respuesta Y=1 o Y=0 se elige un punto de corte (cut-off) p ∈ ( 0,1) , de modo que a una observación con valor
X = x s se le estima la respuesta Y=1 si p s ≥ p y se le estima respuesta Y=0 cuando p s < p . •
La R cuadradro de Cox y Snell La R cuadrado de Cox y Snell es un coeficiente de determinación generalizado que se utiliza para estimar la proporción de varianza de la variable dependiente explicada por las variables predictoras (independientes). La R cuadrado de Cox y Snell se basa en la comparación del log de la verosimilitud para el modelo saturado respecto al log de la verosimilitud para un modelo nulo. Sus valores oscilan entre 0 y 1.
•
La R cuadrado de Nagelkerke El R cuadrado de Nagelkerke es una versión corregida de la R cuadrado de Cox y Snell. La R cuadrado de Cox y Snell tiene un valor máximo inferior a 1, incluso para un modelo "perfecto". La R cuadrado de Nagelkerke corrige la escala del estadístico para cubrir el rango completo de 0 a 1.
Estudio de los residuos Para el estudio de los residuos se utilizan dos tipos de residuos definidos respectivamente en base a los estadísticos χ² y G²: residuos de Pearson o residuos estandarizados y los residuos de la desvianza o residuos estudentizados. Una vez estimados los residuos se contrasta su significación estadística. Estudio de la influencia Si algún residuo resultante significativo entonces se estudiaría su influencia mediante la distancias de Cook. Se pueden utilizar otras medidas como las denominadas DFbetas. También, al igual que en la regresión lineal múltiple, se pueden estudiar las influencias a priori o leverage de las observaciones a través de la matriz HAT.
19
Problema 5 Suponga que un investigador trata de contrastar si las condiciones determinadas por los estados de una variable binaria - controlable por él - incluyen en el vector (V1, V2, V3, V4, V5, V6). Con este fin, ha ejecutado un programa informático que le ha proporcionado, entre otros, los siguientes resultados: •
Contraste M de Box: M de Box F gl1 gl2 sig.
•
62.213 1.207 42 6341 0.169
Contrastes de significación Nombre Criterio de Pillai Traza de Hotelling Lambda de Wilks
Valor 0.472 0.637 0.580
F aprox. 2.262 2.229 2.247
gl entre grs. 12 12 12
gl intra grs. 88 84 86
sig. 0.015 0.017 0.016
. (a) ¿Qué conclusiones se pueden obtener? Análisis multivariante de la varianza MANOVA Se ha llevado a cabo un análisis multivariante de la varianza (MANOVA) en el que la variable independiente es un factor con 2 tratamientos o niveles (variable binaria a la le asignamos los valores 0 y 1 sin falta de generalidad) y la variable dependiente es un vector compuesto por 6 variables métricas V1, V2, V3, V4, V5, y V6. Homogeneidad de la varianza Uno de los supuestos básicos que debe cumplirse a la hora de realizar un análisis de este tipo es el de igualdad de las matrices de varianzas-covarianzas entre grupos. Con el fin de contrastar dicha hipótesis se ha llevado a cabo un contraste para el cual se ha utilizado el estadístico M de Box, el cual toma el valor MBexp=62.213. Dicho estadístico se distribuye según una F de Snedecor con 42 y 6341 grados de libertad y tiene p-valor asociado 0.169. Para un nivel de significación α=0.05, se acepta la hipótesis nula de igualdad de las matrices de varianzas-covarianzas puesto que 0.169>0.05. Contraste de significación El análisis multivariante de la varianza con n factores trata de valorar la significación estadística de las diferencias multivariantes entre los grupos, y se basa en que la variabilidad total de la muestra puede descomponerse en la variabilidad debida a las diferencias entre grupos y la debida a las diferencias dentro de los grupos. Para este fin nos encontramos con cuatro estadísticos a partir de los cuales contrastar la hipótesis nula de igualdad de vectores de medias: mrc de Roy, lambda de Wilks, criterio de Pillai y la traza de Hotelling. En la tabla de los contrastes de significación aparecen tres de estos cuatro estadísticos: el criterio de Pillai, la Traza de Hotelling y la Lambda de Wilks. Si llamamos H a la matriz de dispersión multivariante entre los grupos y a E a la matriz de dispersión multivariante dentro de los grupos, estos estadísticos quedan definidos como:
Criterio de Pillai= Traza H ( H + E )
Traza de Hotelling= Traza HE
-1
-1
20
E
Lambda de Wilks= Λ =
H+E
Todas ellos siguen una distribución aproximada F de Snedecor. Así pues, se realiza el contraste de igualdad de medias entre grupos:
( (
0
0
0
0
0
0
H 0 : V1 , V2 , V3 , V4 , V5 , V6 0
0
0
0
0
(
0
0
0
0
0
0
donde V1 , V2 , V3 , V4 , V5 , V6
(
1
1
1
1
)
1
1
1
1
1
'
1
1
1
1
1
≠ V1 , V2 , V3 , V4 , V5 , V6
) )
1
= V1 , V2 , V3 , V4 , V5 , V6
0
H1 : V1 , V2 , V3 , V4 , V5 , V6
) ( ) ( '
1
'
'
'
es el vector de medias para el grupo en el que la variable binaria 1
toma el valor 0 y V1 , V2 , V3 , V4 , V5 , V6
1
)
'
en el que toma el valor 1.
Un nivel de significación de α=0.05 nos llevaría a rechazar la hipótesis nula de igualdad de las medias ya que para todos ellos se verifica que sus p-valores asociados son menores que 0.05. (b) ¿Qué hipótesis condicionan la validez de dichas conclusiones? Para poder llevar a cabo un análisis multivariante de la varianza (MANOVA) se deben cumplir tres supuestos básicos: 1.
Las observaciones deben ser independientes. Si se sospechara que esto no es así se debería establecer en los contrastes a realizar un menor nivel de significación (0.01 o incluso menor). Con lo cual, en el caso que nos ocupa, si existe dependencia en las observaciones nos llevaría a aceptar la hipótesis nula de igualdad de medias, ya que los p-valores asociados a cada uno de los estadísticos calculado son esta vez mayores que 0.01.
2.
Las matrices de varianzas-covarianzas deben ser iguales para todos los grupos de tratamiento. Para contrasta esta hipótesis de igualdad de las matrices de varianza-covarianzas entre grupos se utiliza el contraste M de Box el cual es muy sensible a la falta de normalidad. Por ello es fundamental comprobar la normalidad univariante de todas las variables dependientes antes de llevar a cabo este contraste.
3.
El conjunto de las p-variables debe seguir una distribución normal multivariante. Puesto que no existe un contraste preciso para el contraste de la normalidad multivariante se contrasta la normalidad univariante. Si todas las variables cumplen la hipótesis de normalidad entonces cualquier supuesto incumplimiento de la normalidad multivariante es insignificante. Las violaciones de este supuesto tienen una pequeña influencia si los tamaños muestrales son grandes. Cuando los tamaños muestrales son medianos los incumplimientos pequeños pueden suavizarse siempre y cuando las diferencias sean debidas a asimetrías y no a datos anómalos.
Por tanto y en conclusión los supuestos básicos que condicionan la validez de los resultados son la posible ausencia de independencia en las observaciones que condicionarían en suma manera los contraste de significación de igualdad de medias y la falta de normalidad que afectaría considerablemente al contraste M de Box de igualdad de las matrices de varianza- covarianzas entre los grupos.
21
Problema 6 Suponga que tras un análisis de la correlación canónica, se obtienen las siguientes cargas canónicas: Variables Dependientes Y1 Y2 Variables Independientes X1 X2 X3 X4
Función 1 -0.281 0.878 0.089 0.936 -0.532 -0.254
Función 2 0.960 0.478 0.525 -0.225 -0.636 -0.737
. (a) ¿Qué lectura inmediata tiene la información que aparece en la tabla previa? Análisis de Correlación Canónica Se ha llevado a cabo un análisis de correlación canónica sobre dos conjuntos de variables (Y1,Y2) variables crit erio o dependientes y (X1,X2,X3,X4) variables independientes. Por lo cual se han obtenido 2 = min {2, 4} pares de variables o funciones canónicas o también llamadas valores teóricos. Sean
( U1 , V1 )
la primera pareja de variables canónicas o valores teóricos y
( U 2 , V2 ) a la segunda entonces
U1 y U 2 se expresan como combinaciones lineales de las variables del conjunto (X1,X2,X3,X4) , y, V1 y V2 como combinación de las variables de (Y1,Y2). El grado de asociación entre los dos conjuntos de variables originales viene reflejado por el coeficiente de correlación o el de determinación entre las variables canónicas que forma cada par. El coeficiente de determinación del primer par de variables canónicas ( U1 , V1 ) es siempre mayor que el del segundo par ( U 2 , V2 ) . Cargas Canónicas Las cargas canónicas, también llamadas correlaciones de estructura canónicas, miden la correlación lineal simple entre una variable original observada del conjunto dependiente o independiente y el valor teórico canónico (variable canónica) del conjunto. Así pues, las cargas canónicas vienen dadas por las expresiones:
l kh = ρ ( X k , U h ) para k = {1, 2, 3, 4} h = {1, 2}
(
lij = ρ Yi , Vj
)
para i, j = {1, 2}
Las cargas canónicas reflejan la varianza de la variable observada comparte con el valor teórico canónico y puede ser interpretada como una carga factorial para valorar la contribución relativa de cada variable a cada función canónica. La cantidad de varianza compartida explicada por el primer valor teórico criterio o dependiente viene dada por la cantidad:
( -0.281) + ( 0.878) 2
2
= 0.425
2 En términos generales esto nos indica que este valor teórico no representa muy bien a las variables originales. Una o las dos variables están poco correladas con el valor teórico: en este caso se observa que existe una variable original Y1 cuyo nivel de asociación con el valor teórico es bajo, mientras que por el contrario la otra variable Y2 presenta una alta correlación con dicho valor teórico por lo que ésta variable queda bien representada por él.
22
La cantidad de varianza compartida explicada por el primer valor teórico independiente viene dada por la cantidad:
( 0.089 ) + ( 0.936) 2
2
+ ( 0.532 ) + ( −0.254 ) 2
2
= 0.308
4 Lo cual nos indica que las variables originales independiente presentan en general un nivel de asociación muy bajo con el primer valor teórico independiente. Por lo tanto en general este valor teórico no representa bien a las variables originales. Se observa que las correlaciones entre las variables originales independiente y el primer valor teórico independiente son muy variadas. Así pues, vemos como la variable X2 tiene una alta correlación con el primer valor teórico independiente por lo que esta variable está muy bien representada por este valor. No es así para el resto de las variables; la variable X1 no presenta asociación ninguna con este valor, con lo que no se ve representada en absoluto por él. La cantidad de varianza compartida explicada por el segundo valor teórico criterio o dependiente viene dada por la cantidad:
( 0.960 ) + ( 0.478) 2
2
= 0.575
2 Se observa que en general las variables dependientes no están muy bien representadas por el segundo valor teórico criterio, pero este nivel de asociación es más alto que en el caso del primer valor teórico. Al contrario que en el primer valor teórico criterio, la variable que mejor representa este segundo valor es Y1 con la que tiene una alta correlación 0.960, con lo cual ésta está muy bien representada por este valor. La cantidad de varianza compartida explicada por el segundo valor teórico independiente viene dada por la cantidad:
( 0.525) + ( -0.225) 2
2
+ ( −0.636 ) + ( −0.737 ) 2
2
= 0.318
4 En general, volvemos a tener una baja asociación entre las variables independientes y su segundo valor teórico independiente. Esta cantidad de varianza compartida por este segundo valor teórico es muy similar a la del primer valor teórico. Esta vez observamos que las variables X2, X3 y X4 están correladas negativamente con el segundo valor teórico. La que mejor está representada por el valor teórico es X4 y la que peor, al contrario que con el primer valor teórico, es X2 con una correlación baja.
(b) Obtenga el porcentaje de varianza de las variables dependientes explicado por su primera variable (función) canónica. Para calcular el porcentaje de varianza de las variables dependientes explicado por su primera variable canónica es necesario hallar las cargas cruzadas, las cuales se obtienen multiplicando las cargas factoriales por el coeficiente de correlación entre las primeras variables canónicas. De este modo elevando al cuadrado las cargas cruzadas y multiplicándolas por 100 obtenemos dicho porcentaje.
23
Problema 7 Se parte del siguiente conjunto de datos (artificial). Observaciones 1 2 3 4 5 6 7 8
X1 11 8 9 5 3 8 11 10
X2 10 10 11 4 4 5 11 12
Procedimiento Se va a llevar a cabo un análisis cluster a 8 casos o individuos de los que se han medido dos variables X1 y X2. Para ello se ha utilizado el lenguaje de programación R; y se ha procedido como sigue: •
Con el objetivo de medir la proximidad entre los individuos o casos se ha tomado como medida de disimilitud la distancia euclídea.
•
No se han estandarizado los datos puesto que ambas variables están medidas en la misma escala.
•
Se representan gráficamente a los individuos con el fin de observar los posibles futuros conglomerados
•
Se calcula la matriz de distancia para establecer que individuos están más próximos y por lo tanto serán los primeros en unirse para formar un cluster.
•
Para la clasificación de los individuos en conglomerados se han utilizado varios algoritmos jerárquicos acumulativos: el método del vecino más cercano o single linkage, el método del vecino más lejano o complete linkage, el método de la media o average linkage y el método de Ward.
•
Para representar la estructura jerárquica de la formación de conglomerados se ha utilizado el dendograma. Así pues, se han representado los cuatro dendogramas cada uno de ellos asociado al método utilizado en la formación de los clusters.
•
Finalmente, se han calculado los coeficientes coféneticos para establecer cual es el mejor de los cuatro métodos.
Resultados (a) Represente gráficamente los “puntos” observados. > X1<-c(11,8,9,5,3,8,11,10) > X2<-c(10,10,11,4,4,5,11,12) > Nobs<-c(1,2,3,4,5,6,7,8) Diagrama de dispesión > plot(X1,X2,main="Gráfico de los 'puntos' xlim=c(0,13), ylim=c(0,13), pch=21,bg=”blue”) > text(X1,X2,labels=Nobs, cex=0.8,pos=4,col="red")
24
observados",
col="blue",
12
Gráfico de los 'puntos' observados
8
10
3
7 1
6
X2
8
2
4
6 4
0
2
5
0
2
4
6
8
10
12
X1
Se observa en el gráfico como los puntos pertenecientes a los casos 1, 2, 3, 7 y 8 están próximos pudiendo llegar a formar un conglomerado; así como los casos 4 y 5 pueden llegar a formar otro conglomerado y el caso 6 estaría más cerca del conglomerado formado por los casos 4 y 5 que por los otros. Ahora bien, se deber tener en cuenta que la elección del número de conglomerados, la medida de disimilitud que se elija para medir la proximidad entre los casos y el método que utilizaremos para unir los conglomerados influenciará en el resultado final. (b) Calcule la matriz de distancias Euclídeas entre observaciones. > datos<-matrix(c(X1,X2), ncol=2) > datos [,1] [,2] [1,] 11 10 [2,] 8 10 [3,] 9 11 [4,] 5 4 [5,] 3 4 [6,] 8 5 [7,] 11 11 [8,] 10 12 Matriz de distancias Euclideas > m.distancia<-dist(datos, "eucl") > m.distancia 1 2 3 4 5 2 3.000000 3 2.236068 1.414214 4 8.485281 6.708204 8.062258 5 10.000000 7.810250 9.219544 2.000000 6 5.830952 5.000000 6.082763 3.162278 5.099020 7 1.000000 3.162278 2.000000 9.219544 10.630146 8 2.236068 2.828427 1.414214 9.433981 10.630146
25
6
7
6.708204 7.280110
1.414214
Se observa en la matriz de distancias como los primeros casos que se van a unir para formar un conglomerado son los casos 1 y 7 que corresponden a la mínima distancia entre los pares de casos. También se observa como los pares con distancia más pequeñas son, al margen del señalado, los formados por 7 y 8; 8 y 3; y, 3 y 2. Los pares que presentan mayor distancia son los formados por 5 y 7; 5 y 8; 5 y 1; 4 y 8; 5 y 3; 4 y 7. Teniendo en cuenta que los casos 4 y 5 presentan una distancia pequeña entre todas las distancia podemos concluir que habrán un paso en el proceso de la formación de cluster por el método jerárquico aglomerativo en el que aparecerán entre los cluster dos de ellos: en uno de estos se hallarán los casos 1, 2, 3, 7 y 8 y habrá otro en el que figure el caso 5 y 4. Con respecto al caso 6, se observa que el caso más cercano a él es el 4. (c) Represente, mediante un dendograma, un proceso jerárquico de aglomeración. Métodos jerárquicos Como métodos jerárquicos aglomerativos se han utilizado los siguientes:
Método de la mínima distancia, del vecino más cercano o enlace simple (Single Linkage) Considera como distancia o disimilitud entre dos grupos como la mínima distancia o disimilitud que es posible encontrar entre un objeto de un cluster y un objeto del otro. Este método presenta el efecto llamado “encadenamiento” por el que se favorece la formación de grupos alargados. Puesto que considera la información de objetos extremos la presencia de outliers puede distorsionar la agrupación. No es adecuado para la obtención de grupos compactos pero si lo es para clusters irregulares o alongados.
Método de la máxima distancia, del vecino más alejado o enlace completo (Complete Linkage) Considera como distancia o disimilitud entre dos grupos como la máxima distancia o disimilitud que es posible encontrar entre un objeto de un cluster y un objeto del otro. Este método presenta una excesiva tendencia a producir grupos de igual diámetro y se ve muy distorsionado ante valores atípicos moderados.
Método de la distancia media o enlace promedio (Average Linkage) Considera la distancia o disimilitud entre dos grupos como la distancia o disimilitud media entre todos los pares posibles de objetos (uno de cada cluster). Tiende a producir clusters más compactos. No tiene en cuenta los tamaños de los grupos que se acaban de unir por lo que se está implícitamente sobreponderando a los grupos pequeños e infraponderado a los grandes.
Método de Ward o enlace por mínima varianza Considera como distancia o disimilitud entre dos grupos el menor incremento de varianza residual global, es decir, si en un nivel dado existe un número de clusters de los que se deben elegir dos para una nueva fusión se prueban todas las parejas posibles y se calcula la varianza residual global o intragrupos con cada pareja unida y todos los demás clusters. La pareja de grupo que produzca el mínimo incremento en esta varianza residual será la elegida para su unión en un nuevo nivel. Tiende a formar clusters esféricos o compactos y del mismo tamaño. Requiere una distribución normal multivariante en las variables del análisis.
Dendogramas > > > > > > > > >
cluster1<-hclust(m.distancia,method="single") cluster2<-hclust(m.distancia,method="complete") cluster3<-hclust(m.distancia,method="average") cluster4<-hclust(m.distancia,method="ward") par(mfrow=c(2,2)) plot(cluster1,main="Single",xlab=" ",sub=" ") plot(cluster2,main="Complete",xlab=" ",sub=" ") plot(cluster3,main="Average",xlab=" ",sub=" ") plot(cluster4,main="Ward",xlab=" ",sub=" ")
26
Complete
6
4
5
4
5
Ward 10 15 20
7
1
8
3
2
6
0
5
4 7
1
8
3
2
5
Height
6
4 0
2
Height
6
8
Average
7
1
3
2
8
0
5
7
1
8
3
2
1
4
2
6
4
Height
6
3 2
Height
4
8 10
5
Single
La altura (Height) nos indica la distancia a la que se han unido los clusters. Se observa que en todos ellos, como bien dijimos, que los primeros individuos que se unen son el 1 y 7. Con el método Single los individuos 2, 3, 8 se unen a la misma distancia con el cluster formado por los casos 1 y 7, no ocurriendo lo mismo con el resto de los métodos. Si tomáramos un número de clusters igual a tres para cada uno de los métodos los clusters que se formarían sería el constituido por los casos 2, 3, 8, 1 y 7; otro por 4 y 5; y el último el formado por un único individuo, el 6. Aunque si debemos hacer hincapié a que con el método de Ward, como se observa prácticamente se pueden pasar de tener dos clusters a tener cuatro ya que las distancias a las que se forman el cluster formado por los casos 2, 3, 8, 1 y 7; y el constituido por los individuos 6, 4 y 5 están realmente próximas. Coeficiente cofenético Para la evaluación de los métodos jerárquicos aglomerativos de clasificación se utiliza el llamado coeficiente cofénetico. Este coeficiente es la correlación entre los n(n−1)/2 elementos de la parte superior de la matriz de proximidades o distancias frente a la matriz cofenética C, cuyos cij elementos se definen como aquellos que determinan la proximidad entre los elementos i y j cuando estos se unen en el mismo cluster. De tal forma que este coeficiente cofenético da una medida para elegir que método es el que proporciona mejores resultados, de tal manera que aquel método con un coeficiente más elevado será el que presente menor distorsión en las relaciones originales existentes en los elementos.
27
Se calculan pues los respectivos coeficientes cofenéticos para decidir cual de los métodos es mejor. Para ello, primero calcularemos las matrices cofenéticas de los cuatro métodos y posteriormente la correlación de estas con la matriz de distancias, euclídea en este caso.
> co11<-cophenetic(cluster1) > co12<-cophenetic(cluster2) > co13<-cophenetic(cluster3) > co14<-cophenetic(cluster4) > cor(m.distancia,co11) [1] 0.9024278 > cor(m.distancia,co12) [1] 0.9096401 > cor(m.distancia,co13) [1] 0.9101081 > cor(m.distancia,co14) [1] 0.9019842
Método Coeficiente Cofenético
Single 0.9024278
Complete 0.9096401
Average 0.9101081
Ward 0.9019842
Por lo que concluiríamos que el mejor método es el de Average, con un coeficiente cofenético de 0.9101081, aunque no existen prácticamente diferencias entre los métodos empleados.
28
Bibliografía
J. F. Hair, Jr. R. E. Anderson, R. L. Tathan, W. C. Black, (2007), “Análisis Multivariante”, 5ª ed. Editorial Prentice Hall.
Quitín Martín Martín, Mª Teresa Cabero Morán, Yanira del Rosario de Paz Santana, (2008), “Tratamiento estadístico de datos con SPS”. Editorial Thomson.
César Pérez López, (2004), “Técnicas de análisis multivariante de datos. Aplicaciones con SPSS”. Editorial Prentice Hall.
Daniel Peña, (2002) “Análisis de Datos Multivariantes”. Editorial McGraw-Hill.
29