MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
Elaboró: Dr. Primitivo Reyes Aguilar Marzo de 2007
Pág. 1
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
CONTENIDO 1. Coeficiente de Cronbach 2. Métodos de análisis multivariado 3. ANOVA de K direcciones 4. Análisis multivariado de Varianza (MANOVA) 5. Análisis de Covarianza 6. Análisis Discriminante 7. Análisis de Conglomerados (Clusters) 8. Análisis de componentes principales 9. Análisis Factorial 10. Análisis de Regresión Múltiple 11. Análisis de correspondencia
Pág. 2
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
1. COEFICIENTE DE CRONBACH
Pág. 3
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
1. CÁLCULO DEL COEFICIENTE DE CONFIABILIDAD (FIABILIDAD) ALFA-CRONBACH Existen tres procedimientos para determinar el coeficiente “〈” o alfa : 1. Sobre la base de la varianza de los ítems, con la aplicación de la siguiente fórmulaFórmula:
En donde N representa el número de ítems de la escala, “s2 (Yi)” es igual a la sumatoria de las varianzas de los ítems y “s2x” equivale a la varianza de toda la escala. 2. Sobre la base de la matriz de correlación de los ítems, el procedimiento seríaSería: a) Se aplica la escala. b) Se obtienen los resultados. c) Se calculan los coeficientes de correlación r de Pearson entre todos los ítems (todos contra todos de par en par). d) Se elabora la matriz de correlación con los coeficientes obtenidos. Por ejemploEjemplo:
Pág. 4
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Los coeficientes que se mencionan como “ya fue calculado”, se ubican en la parteParte superior de las líneas horizontales (guiones). Es decir, cada coeficiente se incluye una sola vez y se excluyen los coeficientes que vinculan al ítem o puntuaciónPuntuación consigo misma (1 con 1, 2 con 2, 3 con 3 y 4 con 4).
Pág. 5
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
3. Mediante otra fórmula que se basa en la correlación promedio
Pág. 6
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
2. MÉTODOS DE ANÁLISIS MULTIVARIADO
Pág. 7
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
2. LOS MÉTODOS DE ANÁLISIS MULTIVARIADO Los métodos de análisis multivariado son aquellos en que se analiza la relación entre diversas variables independientes y al menos una dependiente. Son métodos más complejos que requieren del uso de computadoras para efectuar los cálculos necesarios
Entre las técnicas más comunes se encuentran (1) Análisis de componentes principales y factores comunes, (2) regresión y correlación múltiple, (3) análisis discriminante múltiple, (4) análisis multivariado de varianza y covarianza, (5) análisis conjunto, (6) correlación canónica, (7) análisis de clusters, (8) escala multidimensional.
Otras
técnicas
nuevas
incluyen
(9)
análisis
de
correspondencia, (10) modelos de probabilidad lineal tales como el logit y probit, y (11) modelos de ecuación simultaneas / estructurales. A continuación se describen brevemente éstas técnicas.
Análisis de componentes principales y de factores comunes Es un método estadístico que puede usarse para analizar las interrelaciones entre un gran número de variables y explicar esas variables en términos de sus dimensiones subyacentes comunes. El objetivo es hallar la forma de sintetizar la información contenida en un número de variables originales, dentro de un
Pág. 8
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
conjunto más pequeño de variates (factores) con mínima pérdida de información.
Regresión múltiple En un método de análisis adecuado cuando el problema de investigación involucra una variable dependiente única que se presume se relaciona a dos o más variables independientes medibles. El objetivo es predecir el cambio en la variable
dependiente
de
respuesta
con
cambios
en
las
variables
independientes, normalmente con el método de mínimos cuadrados. Por ejemplo se pueden predecir los montos gastados en cenas a partir de ingresos de las familias (variable dependiente), su tamaño, y la edad del padre (variables independientes).
Análisis discriminante múltiple (MDA) Se aplica cuando la variable dependiente es dicotómica (vgr.Vg. hombre – mujer) o multitómica (vgrVg.. Alto – medio – bajo) y por tanto no medible. Como en la regresión las variables independientes deben ser medibles. Se aplica cuando la muestra total se puede dividir en grupos con base en una variable no medible caracterizando varias clases conocidas. Su objetivo es comprender las diferencias entre grupos y predecir la probabilidad de que una entidad (objeto individual) pertenezca a una clase o grupo particular con base en varias variables independientes medibles o métricas. Por ejemplo el análisis discriminante se puede utilizar para distinguir entre innovadores y no innovadores de acuerdo a su perfil demográfico y psicográfico.
Análisis multivariado de varianza y covarianza (MANOVA) Es un método estadístico para explorar simultáneamente la relación entre varias variables categóricas independientes (referidas como tratamientos) y dos o más variables dependientes medibles o métricas. Es una extensión del ANOVA univariado. El análisis multivariado de covarianza (MANCOVA) se
Pág. 9
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
puede usar en conjunto con el MANOVA para remover (después del experimento) el efecto de cualquier variable métrica independiente no controlada (conocida como covariada) en la variable independiente.
Análisis conjunto Se aplica a nuevos productos para evaluar la importancia de los atributos del nuevo producto así como los niveles de cada atributo, mientras que el consumidor evalúa solo unos pocos perfiles del producto como combinaciones de los niveles de producto. Por ejemplo asumir un producto con tres atributos (precio, calidad y color), cada uno en tres niveles posibles (vgrVg.. Rojo, amarillo y azul). En vez de tener que evalurevaluar las 27 combinaciones posibles (3x3x3), se evalúa un subconjunto de 9 o más combinaciones con base en su atractivo para el consumidor, de manera que el investigador no solo conozca la importancia de cada atributo, sino además la importancia de cada nivel (atractivo del rojo vsvs. amarillo vsvs. azul).
Correlación canónica El análisis de correlación puede ser visto como una extensión lógica de la regresión múltiple. Donde se trata de correlacionar simultáneamente varias variables dependientes medibles o métricas y varias variables independientes medibles. El principio es establecer una combinación lineal de cada conjunto de variables (dependientes e independientes) para maximizar la correlación entre los dos conjuntos (obteniendo ponderaciones adecuados para las variables).
Análisis de conglomerados (Clusters) Es una técnica analítica para desarrollar sugrupossubgrupos significativos de individuos u o objetos. Específicamente, el objetivo es clasificar una muestra de entidades (individuos u objetos) en un número más pequeño de grupos más pequeños con base en las similitudes entre entidades. A diferencia del análisis discriminante, los grupos no están definidos, más bien se usa para identificarlos.
Pág. 10
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Normalmente se realiza en tres pasos. El primero es la medición de alguna forma de similitud o asociación entre las entidades para identificar cuantos grupos realmente existen en la muestra. El segundo paso es el proceso en sí de
conglomerados,
donde
las
entidades
se
particionan
en
grupos
(conglomerados o clusters). El paso final es perfilar las personas o variables para determinar su composición. Muchas veces esto último se realiza con el análisis discriminante.
Escala multidimensional El objetivo es transformar los juicios del consumidor de similitud o preferencias (vgrVg.. Preferencia por tiendas o marcas) en distancias representadas en un espacio multidimensional. Si los objetos A y B se juzgan por el consumidor como similares, comparados con cualquier otro par de objetos, la técnica posiciona los objetos A y B de manera que la distancia entre ellos en un espacio multidimensional es más pequeñopequeña que la distancia entre cualquier otro par de objetos. Al final se muestra un mapa perceptual con la posición relativa de los objetos.
Análisis de correspondencia Facilita tanto la reducción dimensional de objetos en un conjunto de atributos y el mapa perceptual de objetos respecto a estos atributos. En su forma más elemental es una tabla de contingencia o tabulación cruzada de dos variables categóricas. Transforma los datos no métricos a un nivel medible y realiza una reducción dimensional (similar al análisis de factores) y un mapa perceptual (similar al análisis multidimensional). Por ejemplo, las preferencias de marcas de los consumidores pueden ser tabuladas contra variables demográficas (vgrVg.. Género, categorías de ingresos, ocupación) indicando cuanta gente prefiere cada una de las marcas que caen en cada categoría de las variables demográficas. Por medio del análisis de correspondencia, la asociación o “correspondencia” de marcas y las características distintivas de aquellos que prefieren las marcas se muestran en
Pág. 11
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
un mapa tridimensional o bidimensional tanto de marcas como de las características que distinguen a aquellos que prefieren cada marca.
Modelos de probabilidad lineal (Análisis Logit) Son una combinación de regresión múltiple y análisis discriminante. Es similar al análisis de regresión múltiple excepto que la variable dependiente es categórica no métrica como en el análisis discriminante.
Modelos de ecuaciones estructurales A veces se refiere como el nombre del software LISREL, es una técnica que permite separar las relaciones del conjunto de variables dependientes. En su forma más sencilla proporciona el modelo más adecuado y la técnica de estimación más eficiente para una serie de ecuaciones de regresión múltiple, evaluadas simultáneamente. Se caracteriza por dos componentes básicos: (1) el modelo estructural y (2) el modelo de medición. El modelo estructural es la “vía” que relaciona variables dependientes e independientes. El modelo de medición permite al investigador a usar varias variables (indicadores) para una variable dependiente e independiente.
Pág. 12
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Los datos para HATCO son los siguientes: Variables / Tipo Percepciones / Medibles (Métricas) X1
Tiempo de entrega - entrega del producto con la orden confirmada
X2
Nivel de precios
- nivel de precio percibido ponderacióndo por
proveedores X3
Flexibilidad de precios
- flexibilidad para negociar precios
X4
Imagen de la empresa
- general
X5
Servicio en general
- nivel necesario para mantener relaciones
X6
Imagen de la fuerza de ventas - general
X7
Calidad del producto – calidad percibida en desempeño o rendimiento
Resultados de compras / Medibles (Métricas) X9
Nivel de utilización - que porcentaje de producto es surtido por Hatco
X10
Nivel de satisfacción – que tan satisfecho esta el cliente con Hatco
Características del comprador / No Medibles (No Métricas) X8
Tamaño de la empresa
- 1- Grande 0 - pequeño
X11
Especificación de compra - 1-Evalúa por el valor total y 0- especificación
X12
Estructura de abastecimiento – 1- centralizado 0 - descentralizado
X13
Tipo de industria
X14
Tipo de situación de compra – 1- nueva 2- modificada 0- tradicional
- 1- industria A
Pág. 13
0 – otras industrias
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
3. ANOVA DE K DIRECCIONES
Pág. 14
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
3. ANOVA (análisis de varianza de k direcciones ) El ANOVA es similar a la regresión en el sentido de que se utiliza para investigar y modelar la relación entre una variable de respuesta y una o más variables independientes. Sin embargo, el ANOVA difiere de la regresión en dos aspectos: las variables independientes son cualitativas (categóricas), y no hay supuestos acerca de la naturaleza de la relación (o sea que el modelo no incluye coeficientes para variables). En efecto el ANOVA extiende la prueba de dos muestras con prueba t para probar la igualdad de dos poblaciones a una hipótesis más general al comparar más de dos medias, versus que no sean iguales. Definición: Es una prueba estadística para evaluar el efecto de dos o más variables independientes sobre una variable dependiente. Responde a esquemas como el que se muestra en la figura:
Constituye una extensión del análisis de varianza unidireccional, solamente queQue incluye más de una variable independiente. Evalúa los efectos por separado de cada variable independiente y los efectos conjuntos de dos o más variables independientes. Pág. 15
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Variables: Dos o más variables independientes y una dependiente. Nivel de medición de las variables: La variable dependiente (criterio) debe estar medida en un nivel por intervalos o razón, y las variables independientes (factores) pueden estar en cualquier nivel de medición, pero expresadas de manera categórica. Interpretación y ejemplo Hi: La similitud en valores, la atracción física y el grado de retroalimentación positiva son variables que inciden en la satisfacción sobre la relación en parejas de novios. Contexto: Muestra de parejas de adultos jóvenes (23-29 años), pertenecientes a estratos económicos altos (n=400). El ANOVA efectuado mediante un paquete estadístico computacional como SPSS produce los siguientes elementos básicos: • Fuente de la variación (source of variation). Es el factor que origina variación en la dependiente. Si una fuente no origina variación en la dependiente, no tiene efectos. • Efectos principales (main effects). Es el efecto de cada variable independiente por
separado;
no
está
contaminado
del
efecto
de
otras
variables
iindependientesindependientes ni de error. Suele proporcionarse la suma de todos los efectos principales. • Interacciones de dos direcciones (2-way interactions). Representa el efecto conjunto de dos variables independientes, aislado de los demás posibles efectos de las variables independientes (individuales o en conjuntos). Suele proporcionarse la suma de los efectos de todas estas interacciones.
Pág. 16
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
• Interacciones de tres direcciones (3-way interactions). Constituye el efecto conjunto de tres variables independientes, aislado de otros efectos. Suele proporcionarse la suma de los efectos de todas estas interacciones. • Puede haber efecto de K-direcciones, esto dependiedepende del número de variables independientes. En nuestro ejemplo, tenemos los resultados siguientes:
TABLA ANOVA VARIABLE DEPENDIENTE: SATISFACCIÓN EN LA RELACIÓN Fuente variación
Estadístico F
Significancia de Fc = P
Efectos principales (main effects
22.51
.001**
SIMILITUD ATRACCIÓN RETROALIM SIMILITUD ATRACCIÓN SIMILITUD RETROALIM ATRACCION RETROALIM SIN – RETROLATRACCION
31.18 21.02 11.84
0.001** 0.001** 0.004**
-4.32
0.04*
2.18
0.11
1.56
0.190
8.01
0.02*
NOTA:
de Suma de Grados de Cuadrados cuadrados libertad medios
Normalmente interesa saber si las razones “F” resultaron o no
significativas; por tanto, sólo se incluyen estos valores. Se recomienda concentrarse en dichos valores y evitar confusiones. Desde luego, el investigador experimentado acostumbra estudiar todos los valores. **— Razón “F” significativa al nivel del 0.01 (p < 0.01) *—Razón “F” significativa al nivel del 0.05 (p < 0.05)
Pág. 17
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Como podemos ver en la tabla, la similitud, la atracción y la retroalimentación tienen un efecto significativo sobre la satisfacción en la relación. Respecto a los efectos de dos variables independientes conjuntas, sólo la similitud y la atracción tienen un efecto, hay un efecto conjunto de las tres variables independientes. La hipótesis de investigación se acepta y la nula se rechaza. Asimismo, se recuerda al lector que en el capítulo 5 del presente disco: Otros diseños experimentales (en el apartado sobre diseños factoriales) se explica la noción de interacción entre variables independientes. Cabe agregar que el ANOVA es un método estadístico propio para los diseños experimentales factoriales.
Ejemplo: Un experimento se realizó para probar cuanto tiempo toma usar un modelo nuevo y un modelo anterior de calculadora. Seis ingenieros trabajando en un problema estadístico y uno de ingeniería se les toma el tiempo para resolver el problema. Los ingenieros se consideran como bloques en el diseño experimental. Hay dos factores: Tipo de problema y modelo de calculadora – cada uno con dos niveles, se hacen experimentos donde esos niveles de los factores se cruzan. Los datos se muestran a continuación: SolveTime 3.1 7.5 2.5 5.1 3.8 8.1 2.8 5.3 3 7.6 2 4.9 3.4 7.8 2.7 5.5
Engineer Jones Jones Jones Jones Williams Williams Williams Williams Adams Adams Adams Adams Dixon Dixon Dixon Dixon
ProbType Stat Stat Eng Eng Stat Stat Eng Eng Stat Stat Eng Eng Stat Stat Eng Eng
Calculator New Old New Old New Old New Old New Old New Old New Old New Old
Pág. 18
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
3.3 6.9 2.5 5.4 3.6 7.8 2.4 4.8
Erickson Erickson Erickson Erickson Maynes Maynes Maynes Maynes
Stat Stat Eng Eng Stat Stat Eng Eng
P. REYES / MARZO 2007
New Old New Old New Old New Old
Las instrucciones de Minitab son las siguientes: 1
Abrir la worksheet EXH_AOV.MTW.
2
Stat > ANOVA > Balanced ANOVA.
3
Responses, poner SolveTime.
4
Model, poner Engineer ProbType | Calculator.
5
En Random Factors, poner Engineer.
6 Click Results. En Display means corresponding to the terms, poner ProbType | Calculator. Click OK cada cuadro de diálogo. Los resultados obtenidos son los siguientes: ANOVA: SolveTime versus Engineer, ProbType, Calculator Factor Engineer ProbType Calculator
Type random fixed fixed
Levels 6 2 2
Values Adams, Dixon, Erickson, Jones, Maynes, Williams Eng, Stat New, Old
Analysis of Variance for SolveTime Source Engineer ProbType Calculator ProbType*Calculator Error Total S = 0.259487
DF 5 1 1 1 15 23
SS 1.053 16.667 72.107 3.682 1.010 94.518
R-Sq = 98.93%
MS F 0.211 3.13 16.667 16.667 72.107 72.107 3.682 3.682 0.067
R-Sq(adj) = 98.36%
Means ProbType Eng Stat Calculator
N 12 12
SolveTime 3.8250 5.4917 N
SolveTime
Pág. 19
P 0.039 247.52 1070.89 54.68
0.000 0.000 0.000
MÉTODOS ESTADÍSTICOS MULTIVARIADOS New Old ProbType Eng Eng Stat Stat
12 12
P. REYES / MARZO 2007
2.9250 6.3917
Calculator New Old New Old
N 6 6 6 6
SolveTime 2.4833 5.1667 3.3667 7.6167
Interpretación de los resultados: Se muestran los factores (fijos y aleatorios), niveles y valores. Después se muestra la tabla de ANOVA, donde se indica de acuerdo al valor P que hay una interacción significativa entre el tipo de problema y el modelo de calculadora, lo que implica que la reducción en tiempo de proceso de la calculadora depende del tipo de problema. En la lista de promedios se observa un menor tiempo entre la calculadora nueva y la anterior.
Pág. 20
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
4. ANÁLISIS MULTIVARIADO DE VARIANZA (MANOVA)
Pág. 21
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
4. ANÁLISIS MULTIVARIADO DE VARIANZA (MANOVA) Es un modelo para analizar la relación entre una o más variables independientes y dos o más variables dependientes. Es decir, es útil para estructuras causales del tipo:
La técnica posee varios usos, entre los que destacan: - Evaluar diferencias entre grupos a través de múltiples variables dependientes (medidas por intervalos o razón). La(s) variable(s) independiente(s) es(son) categórica(s) (no métricas). Tiene el poder de evaluar no solamente las diferencias
totales,
sino
diferencias
entre
las
combinaciones
de
las
dependientes. En este sentido representa una extensión del análisis de varianza (ANOVA) para cubrir casos donde hay más de una variable dependiente y/o cuando las variables dependientes simplemente no pueden ser combinadas. En otras palabras, reconoce si los cambios en la(s) variable(s) independiente(s) tienen un efecto significativo en las dependientes. Señala qué grupos difieren en una variable o en el conjunto de variables dependientes.
Pág. 22
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
- Identificar las interacciones entre las variables independientes y la asociación entre las dependientes. Las tres clases principales del MANOVA son: 1) Hotelling's T. Es parecida a la prueba t (dos grupos) pero con más dependientes: una variable independiente dicotómica y varias dependientes. 2) MANOVA unidireccional. Análogo al ANOVA de una sola vía, pero con más dependientes: una variable independiente multicategórica y varias dependientes. 3) MANOVA factorial. Similar al ANOVA factorial, solamente que con dos o más dependientes: varias independientes categóricas y varias dependientes. Los modelos del MANOVA tienen en común que forman combinaciones lineales de las dependientes que discriminan mejor entre los grupos en un experimento o una situación no experimental. Es una prueba de significancia de las diferencias en los grupos en un espacio multidimensional donde cada dimensión está definida por combinaciones lineales del conjunto de variables dependientes. Una pregunta que suele hacer el estudiante al revisar el MANOVA es ¿por qué no hacemos ANOVAS separados, uno para cada dependiente? La respuesta: las dependientes están correlacionadas muy frecuentemente, por lo cual los resultados de varios ANOVA pueden ser redundantes y difíciles de integrar. He aquí una síntesis de la explicación de Wiersma (1999) sobre este tipo de análisis: Al incluir dos o más variables dependientes simultáneamente no se consideran las diferencias entre las medias en cada variable, sino las diferencias en variables canónicas. El interés no sólo es saber si los grupos definidos por las variables independientes difieren en las variables canónicas, sino conocer la naturaleza de éstas. Una variable canónica es una variable artificial generada a Pág. 23
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
partir de los datos. Representa constructos y se compone de variables reales, las cuales deben ser descritas en términos de variables dependientes. Lo anterior se efectúa por medio de las ponderaciones de los coeficientes de correlación entre una variable dependiente y una variable canónica. Si una ponderación entre la variable canónica y la dependiente es positiva y elevada, significa que altos valores en la dependiente se asocian con altos valores en la canónica. Por ejemplo, si una variable dependiente consiste en puntuaciones a una prueba sobre innovación, y dichas puntuaciones se correlacionan en forma considerable con una variable canónica, inferimos que la variable canónica representa un constructo que involucra esencialmente a la innovación. En los cálculos que se hacen en el MANOVA, se generan variables canónicas hasta que se encuentra que no hay una diferencia estadística significativa entre las categorías o los grupos de las variables independientes; o bien, hasta que se agotan los grados de libertad de las variables independientes (lo que ocurra primero). El número de variables canónicas no puede exceder el número de variables dependientes, pero es común que el número de dependientes sea mayor que el de variables canónicas estadísticamente significativas o los grados de libertad. La hipótesis general de investigación en el MANOVA postula que las medias de los grupos o las categorías de la(s) variable(s) independiente(s) difieren entre sí en las variables canónicas. La hipótesis nula postula que dichas medias serán iguales. Se calculan diversas estadísticas para evaluar ambas hipótesis, entre las que destacan: F (total, toma en cuenta el modelo completo), la prueba Hotelling's TSquare,
T2
(cuando
hay
dos
grupos
formados
por
las
variables
independientes), Wilks' lambda, U (cuando hay más de dos grupos formados por las variables independientes), y Pillai-Bartlett (cuando hay coeficientes canónicos); y si resultan significativas en un nivel de confianza, se acepta la hipótesis de investigación de diferencia de medias. Esto indica que hay, por lo menos, una variable canónica significativa (pero puede haber varias). Si diversas variables canónicas son significativas, esto muestra que se presentan Pág. 24
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
diferencias en las variables canónicas en cuestión, entre los grupos o categorías de las independientes. Los paquetes estadísticos que contiene el MANOVA suelen posicionar a los grupos de las variables independientes por puntuaciones discriminantes; éstas son calculadas con una función discriminante, que es una ecuación de regresión para un compuesto de variables dependientes. A cada grupo se le asigna una puntuación discriminante en cada variable canónica. Las puntuaciones discriminantes de una variable independiente pueden ser cero o tener un valor positivo o negativo. Una puntuación discriminante positiva y elevada para un grupo, indica que éste se coloca por encima de los demás en la respectiva variable canónica. Y deben considerarse las ponderaciones, las cuales son positivas o negativas. Las puntuaciones discriminantes son utilizadas para interpretar las separaciones de los grupos en las variables canónicas, en tanto que las ponderaciones se usan para evaluar y ligar los resultados de las variables dependientes (Wiersma, 1999). Un ejemplo de las ponderaciones de los coeficientes de correlación entre las variables dependientes y las variables canónicas así como puntuaciones discriminantes se muestran en las tablas siguientes:
Pág. 25
las
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Como observamos en la última tabla, se obtuvieron tres constructos subyacentes en las puntuaciones recolectadas de la muestra: motivación intrínseca, atribución de causalidad externa y desempeño laboral. Vemos en la tabla que los grupos (niveles en la empresa) están separados en las tres variables canónicas (los grupos difieren), particularmente en la primera variable canónica (motivación intrínseca) y los obreros ocupan la posición más baja. Las variables dependientes enmarcadas en un recuadro en la primera variable
Pág. 26
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
canónica se ponderaron en ella; en consecuencia, los ejecutivos tienen las puntuaciones más altas en motivación intrínseca medida por la escala mencionada, en atribuciones internas y en sentimientos de éxito en el trabajo. Así se interpretan todas las variables canónicas y dependientes. En el MANOVA se incluyen razones F y análisis de varianza. Algunos paquetes estadísticos agregan una prueba denominada correlación canónica, que es muy similar al MANOVA. Ésta es la máxima correlación que llega a obtenerse entre los conjuntos de puntuaciones y las relaciones entre las variables independientes, entre las variables dependientes y entre los conjuntos de ambas (dependientes e independientes) (Kerlinger, 1979). Las variables en el MANOVA y la correlación canónica asumen que las variables dependientes están medidas en un nivel de intervalos o razón. Tal correlación se interpreta como otras; pero el contexto de interpretación varía de acuerdo con el número de variables involucradas.
Pág. 27
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Ejemplo con Minitab Se realiza un estudio para determinar las condiciones óptimas para extruir película plástica. Se miden tres respuestas – Tear, gloss y opacity – cinco veces en cada combinación de dos factores – tasa de extrusión y cantidad de aditivo – cada grupo se pone en niveles bajos y altos. Se utiliza el MANOVA balanceado para probar la igualdad de las medias. DATOS Tear 6.5 6.2 5.8 6.5 6.5 6.9 7.2 6.9 6.1 6.3 6.7 6.6 7.2 7.1 6.8 7.1 7 7.2 7.5 7.6
Gloss 9.5 9.9 9.6 9.6 9.2 9.1 10 9.9 9.5 9.4 9.1 9.3 8.3 8.4 8.5 9.2 8.8 9.7 10.1 9.2
Opacity 4.4 6.4 3 4.1 0.8 5.7 2 3.9 1.9 5.7 2.8 4.1 3.8 1.6 3.4 8.4 5.2 6.9 2.7 1.9
ExtrusionE xtrusión 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2
Additive 1 1 1 1 1 2 2 2 2 2 1 1 1 1 1 2 2 2 2 2
Instrucciones de Minitab 1
Abrir el archivo EXH_MVAR.MTW.
2
Seleccionar Stat > ANOVA > Balanced MANOVA.
3
En Responses, poner Tear Gloss Opacity.
4
En Model, poner Extrusion | Additive.
Pág. 28
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
5
P. REYES / MARZO 2007
Click Results. En Display of Results, seleccionar Matrices
(hypothesis, error, partial correlations) y Eigen analysis. 6
Click OK en cada cuadro de diálogo.
Los resultados se muestran a continuación: Results for: Exh_mvar.MTW ANOVA: Tear, Gloss, Opacity versus Extrusion, Additive
MANOVA for Extrusion s = 1
m = 0.5
n = 6.0 Test
Criterion
DF
Statistic
F
Num
Denom
P
Wilks'
0.38186
7.554
3
14
0.003
Lawley-Hotelling
1.61877
7.554
3
14
0.003
Pillai's
0.61814
7.554
3
14
0.003
Roy's
1.61877
SSCP Matrix for Extrusion
Tear Gloss Opacity
Tear
Gloss
Opacity
1.740
-1.505
0.8555
-1.505
1.301
-0.7395
0.855
-0.739
0.4205
SSCP Matrix for Error Tear
Gloss
Opacity
Tear
1.764
0.0200
-3.070
Gloss
0.020
2.6280
-0.552
-3.070
-0.5520
64.924
Opacity
Partial Correlations for the Error SSCP Matrix Tear
Gloss
Opacity
Pág. 29
MÉTODOS ESTADÍSTICOS MULTIVARIADOS Tear
1.00000
0.00929
-0.28687
Gloss
0.00929
1.00000
-0.04226
-0.28687
-0.04226
1.00000
Opacity
P. REYES / MARZO 2007
EIGEN Analysis for Extrusion
Eigenvalue
1.619
0.00000
0.00000
Proportion
1.000
0.00000
0.00000
Cumulative
1.000
1.00000
1.00000
Eigenvector Tear Gloss Opacity
1
2
3
0.6541
0.4315
0.0604
-0.3385
0.5163
0.0012
0.0359
0.0302
-0.1209
MANOVA for Additive s = 1
m = 0.5
n = 6.0 Test
Criterion
DF
Statistic
F
Num
Denom
P
Wilks'
0.52303
4.256
3
14
0.025
Lawley-Hotelling
0.91192
4.256
3
14
0.025
Pillai's
0.47697
4.256
3
14
0.025
Roy's
0.91192
SSCP Matrix for Additive Tear
Gloss
Opacity
Tear
0.7605
0.6825
1.931
Gloss
0.6825
0.6125
1.732
Opacity
1.9305
1.7325
4.901
EIGEN Analysis for Additive
Eigenvalue
0.9119
0.00000
0.00000
Proportion
1.0000
0.00000
0.00000
Cumulative
1.0000
1.00000
1.00000
Pág. 30
MÉTODOS ESTADÍSTICOS MULTIVARIADOS Eigenvector
1
2
3
Tear
-0.6330
0.4480
-0.1276
Gloss
-0.3214
-0.4992
-0.1694
Opacity
-0.0684
0.0000
0.1102
P. REYES / MARZO 2007
MANOVA for Extrusion*Additive s = 1
m = 0.5
n = 6.0 Test
Criterion
DF
Statistic
F
Num
Denom
P
Wilks'
0.77711
1.339
3
14
0.302
Lawley-Hotelling
0.28683
1.339
3
14
0.302
Pillai's
0.22289
1.339
3
14
0.302
Roy's
0.28683
SSCP Matrix for Extrusion*Additive Tear
Gloss
Opacity
Tear
0.000500
0.01650
0.04450
Gloss
0.016500
0.54450
1.46850
Opacity
0.044500
1.46850
3.96050
EIGEN Analysis for Extrusion*Additive
Eigenvalue
0.2868
0.00000
0.00000
Proportion
1.0000
0.00000
0.00000
Cumulative
1.0000
1.00000
1.00000
Eigenvector
1
2
3
Tear
-0.1364
0.1806
0.7527
Gloss
-0.5376
-0.3028
-0.0228
Opacity
-0.0683
0.1102
-0.0000
Por default se muestra la tabla para las cuatro pruebas multivariadas (Wilks, Lawley, Hotelling, Pillai y Roy) para cada uno de los términos en el modelo. Los valores s, m y n se utilizan para los cálculos de los estadísticos de prueba Fc, el cual es exacto si s = 1 o 2 de otra forma es aproximado. Pág. 31
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Examinando los valores P de las pruebas para Extrusión y Aditivo se observa que son significativas para un nivel de 0.05, no así la interacción. Las matrices SSCP se usan para evaluar la contribución a la variabilidad de manera similar a la suma de cuadrados en la ANOVA univariada. La matriz SSCP para Extrusion es la suma de cuadrados de la hipótesis y matriz de productos cruzados H para las tres respuestas con el término de modelo Extrusión. Los elementos diagonales de esta matriz, 1.740, 1.301 y 64.924 son las sumas de cuadrados univariados para el término del modelo Extrusión cuando las variables de respuesta son Tear, Gloss y Opacity respectivamente . Los elementos fuera de la diagonal son los productos cruzados. La matriz SSCP para el error es la suma de cuadrados de los errores y productos cruzados E. Los elementos diagonales de la matriz 1.764, 2.6280, y 64.924 son las sumas de cuadrados de los errores para las variables de respuesta Teat, Gloss y Opacity, respectivamente. Los elementos fuera de la diagonal de esta matriz son los productos cruzados. La matriz de correlaciones parciales para el error SSCP, se usa para evaluar que tanto se relacionan las variables de respuesta. Las correlaciones parciales entre Tear y Gloss son pequeñas con 0.00929 y entre Gloss y Opacity -0.04226. Y la correlación parcial entre Tear y Opacity es de -0.28687 tampoco es grande. Como la estructura de las correlaciones es débil, se pueden realizar análisis univariados de ANOVA para cada una de las respuestas. Se puede utilizar el análisis de valores característicos o Eigenvalores, para evaluar como difieren los promedios de las respuestas entre los niveles de los diferentes términos del modelo. El análisis de Eigenvalores es E -1 H donde E es la matriz SCCP del error y H es la matriz SCCP de las variables de respuesta. Estos son los eigenvalores utilizados para calcular las cuatro pruebas de MANOVA. Poner la mayor importancia en los eigenvectores que corresponden a valores altos de eigenvalores. En el ejemplo, el segundo y tercer eigenvalores son pequeños, no significativos. Para ambos factores, Extrusion y Additive, los Pág. 32
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
primeros eigenvalores contienen información similar. Para
Extrusion ies
0.6541, -0.3385, 0.0359 and for Additive it is -0.6630, -0.3214, -0.0684. El mayor valor absoluto dentro de esos eigenvalores corresponde a la respuesta Tear, el segundo a Gloss y el valor para Opacity es pequeño. Esto implica que Tear tiene la mayor diferencia entre los dos niveles de los factores ya sea Extrusion o Additive, el Gloss tiene las siguientes mayores diferencias y op.citp. tiene solo pequeñas diferencias. Para un análisis más general utilizar General MANOVA con diseños balanceados y no balanceados, incluso si se tienen covariados. 1
Seleccionar Stat > ANOVA > General MANOVA.
2
En Responses, seleccionar hasta 50 columnas numéricas conteniendo las
variables de respuesta. 3
En Model, introducir los términos del modelo que se quiera ajustar.
4. Click OK.
Pág. 33
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
5 ANÁLISIS DE COVARIANZA
Pág. 34
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
5. ANÁLISIS DE COVARIANZA Definición: Es un método estadístico que analiza la relación entre una variable dependiente y dos o más independientes, con el que se elimina o controla el efecto de al menos una de estas independientes. Similar al ANOVA, excepto que permite controlar la influencia de una variable independiente, la cual con frecuencia es una característica antecedente que puede variar entre los grupos (Mertens, 2005) o influir los resultados y afectar la claridad de las interpretaciones. Perspectivas o usos: Wildt y Ahtola (1978, pp. 8-9) destacan tres perspectivas para el análisis de covarianza: A. Perspectiva experimental. Se aplica a aquellas situaciones en que el interés del investigador se centra en las diferencias observadas en la variable dependiente, por medio de las categorías de la variable independiente (o variables independientes). Pero el experimentador asume que hay otras variables independientes cuantitativas que contaminan la relación y cuya influencia debe ser controlada.
Pág. 35
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Y el investigador únicamente se interesa por conocer la relación entre las variables independientes categóricas y la variable dependiente. Desea al mismo tiempo remover y controlar el efecto de las variables independientes cuantitativas no categóricas (continuas). Es decir, desea tener un esquema como el de la figura
El objetivo es “purificar la relación entre las independientes categóricas y la Variable dependiente, mediante el control del efecto de las independientes no categóricas o continuas”. Ejemplos de variables independientes categóricas serían: género (masculino, femenino), inteligencia (alta, media, baja), ingreso (menos de un salario mínimo, dos a cuatro salarios mínimos, cinco a 10 salarios mínimos, 11 o más salarios mínimos). Los niveles de medición nominal y ordinal son categóricos en sí mismos, mientras que los niveles de intervalos y razón deben transformarse en categorías más discretas. Estos últimos son en sí: cuantitativos, continuos y de categorías múltiples. Por ejemplo, el ingreso en su “estado natural” (ponderaciones, dólares, euros, etc.) varía de la categoría cero hasta la categoría (K)k, ya que puede haber millones de categorías. Pág. 36
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Variable categórica — unas cuantas categorías o un rango medio. Variable continua — muchas categorías (a veces una infinidad). A dichas variables independientes cuantitativas continuas, cuya influencia se controla, se les denomina “covariables”. Una covariable se incluye en el análisis para remover su efecto sobre la variable dependiente, e incrementar el conocimiento de la relación entre las variables independientes categóricas de interés y la dependiente, lo cual aumenta la precisión del análisis. En esta perspectiva, el análisis de covarianza puede ser concebido primero como un ajuste en la variable dependiente respecto a diferencias en la covariable o las covariables y, posteriormente, como una evaluación de la relación entre las variables independientes categóricas y los valores ajustados de la variable dependiente (Wildt y Ahtola, 1978). En términos de Creswell (2005): El procedimiento “ajusta” las puntuaciones en la dependiente para dar cuenta por la covarianza (por decirlo en términos sencillos: “hace equivalentes a los grupos en la(s) covariable(s)” y controla influencias potenciales que pueden afectar a la variable dependiente). B. Perspectiva de interés por la covariable. Esta perspectiva se ejemplifica con aquellas instancias en las cuales el interés principal se centra en analizar la relación entre la variable dependiente y la covariable (variable cuantitativa continua) o las covariables. Aquí el enfoque es distinto; la influencia que se remueve es la de las variables independientes categóricas. Primero se controla el efecto (en este caso contaminante) de estas variables y después se analiza el efecto “purificado” de las covariables. C. Perspectiva de regresión. En esta tercera perspectiva, tanto las variables independientes categóricas como las covariables resultan de interés para el investigador, quien puede desear examinar el efecto de cada variable Pág. 37
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
independiente (covariables y no covariables, todas) y después ajustar o corregir los efectos de las demás variables independientes. En cualquier caso, el análisis de covarianza elimina influencias no deseadas sobre la variable dependiente. Se puede utilizar en contextos experimentales y no experimentales. La mayoría de las veces la función del ANCOVA es “remover” la varianza compartida entre una o más covariables y la dependiente, de este modo, se valora en su justa dimensión la relación causal entre la(s) variable(s) independiente(s) de interés y la dependiente (Creswell, 2005). Veámoslo conceptualmente pero de forma gráfica con un ejemplo simple: Ejemplo: Estudio: Al investigador le interesa analizar el efecto en el aprendizaje de la computación, por medio un nuevo método para su enseñanza a niños. La hipótesis es: El nuevo método de enseñanza de la computación (MA-RH) provocará un mayor aprendizaje en los niños que un método tradicional. Entonces, implementa el siguiente experimento: A un grupo de infantes los expone al nuevo método de enseñanza de computación (MA-RHS); a otro grupo no lo expone al nuevo método, éste aprende con el método tradicional; finalmente, a un tercer grupo, de control, no recibe ningún tipo de enseñanza en computación. La variable independiente es el tipo de método con tres categorías o niveles (método nuevo, método tradicional y ausencia de método), la dependiente es el aprendizaje en computación (medida por una prueba estandarizada a nivel de intervalos). Se tiene un esquema como el de la figura.
Pág. 38
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Con el experimento el investigador desea conocer la varianza en común entre método y aprendizaje (cuantificarla), la relación XY (pura). Si los niños son asignados al azar a los grupos del experimento y tiene grupos de tamaño aceptable, por el diseño mismo, remueve la influencia de las covariables que pudieran afectar. Pero si no es factible hacerlo y tiene un diseño cuasiexperimental (grupos intactos), debe remover tal influencia con el análisis de covarianza (eliminar al mínimo posible la varianza del aprendizaje no explicada), para evitar que las covariables impidan ver con claridad la relación XY. Por ejemplo, el nivel educativo tecnológico de los padres puede influir (hace variar al aprendizaje) y este efecto debe ser controlado, al introducirlo como covariable.
Pág. 39
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Lo que el investigador desea también se puede expresar gráficamente así:
Wildt y Ahtola (1978, p. 13) definen algunos usos del análisis de covarianza: 1. Incrementar la precisión en experimentos con asignación al azar. Pág. 40
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
2. Eliminar influencias extrañas o contaminantes que pueden resultar cuando las pruebas o los individuos no son asignados al azar a las diferentes condiciones experimentales (grupos de un experimento). 3. Eliminar efectos de variables que confundan o distorsionen la interpretación de resultados en estudios no experimentales. Nivel de medición de las variables: La variable dependiente siempre está medida por intervalos o razón y las variables independientes pueden estar medidas en cualquier nivel. Interpretación: Depende de cada caso específico, ya que el análisis de covarianza efectuado mediante un programa estadístico computacional, produce un cuadro de resultados muy parecido al del análisis de varianza. Los elementos más comunes pueden obssevarseobservarse en la tabla ANOVA. La razón F es, igual que en el análisis de varianza, una razón de varianzas. El razonamiento estadístico es el mismo y F se interpreta igual, incluso se utiliza el mismo cuadro de la distribución F. Solamente que las inferencias y conclusiones se hacen al considerar que las medias de la variable dependiente, a través de las categorías de las variables independientes, se han ajustado, de este modo eliminan el efecto de la covariable o covariables.
Ejemplo: Diseño de investigación que utiliza el análisis de covarianza Hi: Los trabajadores que reciban retroalimentación verbal sobre el desempeño de parte de su supervisor mantendrán un nivel mayor de productividad que los trabajadores que reciban retroalimentación sobre el desempeño por escrito, más aún que los trabajadores que no reciban ningún tipo de retroalimentación. __
__
Hi: X1 > X2 >
__ X3
(verbal) (por escrito) (ausencia)
Pág. 41
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
El investigador plantea un diseño experimental para intentar probar su hipótesis. Sin embargo, no puede asignar aleatoriamente a los trabajadores a los tres grupos del experimento. El diseño sería con grupos intactos (cuasiexperimental) y se esquematizaría así:
Asimismo, el investigador presupone que hay un factor que puede contaminar los resultados (actuar como fuente de invalidación interna): la motivación. Diferencias iniciales en motivación pueden invalidar el estudio. Como la asignación al azar está ausente, no se sabe si los resultados se ven influidos por dicho factor. Entonces, el experimentador decide eliminar o controlar el efecto de la motivación sobre la productividad para conocer los efectos de la variable independiente: tipo de retroalimentación. La motivación se convierte en covariable. El esquema es el que se muestra en la figura
Pág. 42
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Cabe destacar que, para introducir una covariable en el análisis, de preferencia debe medirse antes del inicio del experimento. El análisis de covarianza “quita” a la variabilidad de la dependiente lo que se debe a la covariable. Ajusta la varianza de la variable dependiente en las categorías de la independiente, al basarse en la covariable. En el ejemplo, ajusta la varianza de la productividad debida a la motivación, en las categorías experimentales (tratamientos o grupos). El ajuste se realiza sobre la base de la correlación
entre
la
covariable
y
la
dependiente.
Esto
se
muestra
esquemáticamente en la tabla. Una vez realizado el análisis de covarianza, se evalúa si F es o no significativa. Cuando F resulta significativa se acepta la hipótesis de investigación. Si el resultado fuera: G1 = 35 G2 = 36 La correlación entre la calificación en motivación y las puntuaciones en productividad es la base para el ajuste. G3 = 38 Gl entre = K – 1 = 3 – 1 = 2 Gl intra = N – K = 107 F = 1.70 Comparamos con el valor de la tabla respectiva: en el nivel de 0.05 es igual a 3.07, y nuestra razón F a 1.70 es menor a este valor. Por lo tanto, rechazamos la hipótesis de investigación y aceptamos la hipótesis nula. Esto se contrasta y profundiza con las medias ajustadas de los grupos que proporcione el análisis de covarianza (no las medias obtenidas en el experimento por cada grupo, sino las ajustadas con base en la covariable).
Pág. 43
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Recordemos que SPSS nos proporciona automáticamente la significancia de F.
Ejemplo: Determinar si hay diferencia en la resistencia de una fibra monofilamento producida por tres máquinas diferentes. El diámetro de la fibra parece tener influencia en la resistencia como se muestra abajo (covariado de Y). Datos de resistencia - Y es la respuesta, X es el covariado. Y 36 41 39 42 49 40 48 39 45 44 35 37 42 34 32
X 20 25 24 25 32 22 28 22 30 28 21 23 26 21 15
Maq 1 1 1 1 1 2 2 2 2 2 3 3 3 3 3
La relación entre X y Y es significativa como se observa en la siguiente gráfica: En Minitab: 1. Stat > RegresiónRegression > Fitted line plot 2. Introducir Y y X, seleccionar Linear 3. OK
Pág. 44
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Fitted Line Plot Y = 14.14 + 1.080 X 50
S R-Sq R-Sq(adj)
1.78174 88.1% 87.2%
Y
45
40
35
30 15.0
17.5
20.0
22.5
25.0
27.5
30.0
32.5
X
Para el ANOVA con Covariados, las instrucciones de Minitab son las siguientes: 1. Stat > ANOVA > General Linear Model 2. Introducir en Response Y, en Model X y Maquina 3. En Covariates X 4. En Results en Display Least Square Means corresponding to the terms Maq 5. En Graphs seleccionar Normal plot for residuals 6. OK Los resultados se muestran a continuación: General Linear Model: Y versus Maq Factor Maq
Type fixed
Levels 3
Values 1, 2, 3
Analysis of Variance for Y, using Adjusted SS for Tests Source X Maq Error Total
DF 1 2 11 14
S = 1.59505
Seq SS 305.13 13.28 27.99 346.40
Adj SS 178.01 13.28 27.99
R-Sq = 91.92%
Adj MS 178.01 6.64 2.54
F 69.97 2.61
P 0.000 0.118
R-Sq(adj) = 89.72%
Pág. 45
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
Term Constant X
Coef 17.177 0.9540
SE Coef 2.783 0.1140
T 6.17 8.36
P. REYES / MARZO 2007
P 0.000 0.000
Unusual Observations for Y Obs 7
Y 48.0000
Fit 45.1080
SE Fit 0.7489
Residual 2.8920
St Resid 2.05 R
R denotes an observation with a large standardized residual. Means for Covariates Covariate X
Mean 24.13
StDev 4.324
Least Squares Means for Y Maq 1 2 3
Mean 40.38 41.42 38.80
SE Mean 0.7236 0.7444 0.7879
Conclusión: Se observa que no hay diferencia en las máquinas una vez que eliminamos la variabilidad introducida por el diámetro de la fibra, en caso de no haber tomado en cuenta la covarianza del diámetro en la resistencia, se hubiese concluido al revés, que si hay diferencia en las máquinas, como se muestra a continuación: Con Minitab: 1. Stat > ANOVA > One way 2. Response Y Factor Maquina 3. OK Los resultados son los siguientes: One-way ANOVA: Y versus Maq Source Maq Error Total
DF 2 12 14
S = 4.143
SS 140.4 206.0 346.4
MS 70.2 17.2
F 4.09
R-Sq = 40.53%
P 0.044
R-Sq(adj) = 30.62%
Individual 95% CIs For Mean Based on Pooled
Pág. 46
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
Level 1 2 3
N 5 5 5
Mean 41.400 43.200 36.000
StDev 4.827 3.701 3.808
P. REYES / MARZO 2007
StDev +---------+---------+---------+--------(---------*----------) (---------*---------) (---------*---------) +---------+---------+---------+--------32.0 36.0 40.0 44.0
Pooled StDev = 4.143
Conclusión: Como P value es menor a 0.05 aparentemente si hay diferencia entre máquinas.
Pág. 47
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
7. ANÁLISIS DISCRIMINANTE MÚLTIPLE Y REGRESIÓN LOGÍSTICA
Pág. 48
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
7. ANÁLISIS DISCRIMINANTE MÚLTIPLE Y REGRESIÓN LOGÍSTICA El análisis discriminante, se aplica cuando las variables independientes son medidas por intervalos o razón, y la dependiente es categórica. Tal análisis sirve para predecir la pertenencia de un caso a una de las categorías de la variable dependiente, sobre la base de varias independientes (dos o más). Se utiliza una ecuación de regresión llamada función discriminante. Por ejemplo, si queremos predecir el voto obtenido por dos partidos contendientes (variable dependiente nominal con dos categorías) sobre la base de cuatro variables independientes, aplicaremos el análisis discriminante, para resolver una ecuación de regresión; así se obtienen las predicciones individuales. En el ejemplo, hay dos categorías (votar por A o votar por B); por tanto, los valores a predecir son 0 y 1 (A y B, respectivamente). Si el sujeto obtiene una puntuación más cercana a cero, se predice que pertenece al grupo que votará por A; si logra una puntuación más cercana a 1, se predice que pertenece al grupo que votará por B. Además, se consigue una medida del grado de discriminación del modelo. Usar el Análisis Discrimínate para clasificar observaciones en dos grupos (Análisis discriminante) o más grupos (Análisis discriminante múltiple – MDA) si se tiene una muestra con grupos conocidos. Se puede utilizar también para investigar como contribuyen las variables a la separación de grupos. La regresión logística o Logit Analysis se limita a dos grupos. Para el caso de clasificar las observaciones nuevas en una de dos categorías, la regresión logística puede ser superior al análisis discriminante. Se pueden hacer análisis discriminantes lineales y cuadráticos. Los lineales asumen que todos los grupos tienen la misma matriz de covarianza, los cuadráticos no hacen este supuesto y no son bien comprendidos.
Pág. 49
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Modelo discriminante El problema que atiende la función discriminante es que tanto es posible separar dos o más grupos de individuos, con base en las mediciones realizadas en esos individuos en varias variables. Por ejemplo para el caso de los pájaros que sobrevivieron y los que no sobrevivieron, es interesante considerar si es posible utilizar las dimensiones de sus cuerpos para separar sobrevivientes de no sobrevivientes. En el caso general donde hay m muestras aleatorias de diferentes grupos, de tamaños n1, n2, …., nm y los valores disponibles para p variables X1, X2, …, Xp para cada miembro de la muestra, la forma de los datos para una función de análisis discriminante es : Individuo 1 2 … n1 1 2 … n2 1 2 … nm
X1 X111 X211 …. Xn1,11 X121 X221 ….. Xn2,2,1 X1m1 X1m1 …. Xnm,m1
X2 X112 X212 …. Xn1,12 X122 X222 ….. Xn2,2,2 X1m2 X1m2 …. Xnm,m2
…… …… …… …… …… …… …… …… …… …… …… …… ……
Xp X11p X21p …. Xn1,1p X12p X22p ….. Xn2,2,p X1mp X1mp …. Xnm,mp
Grupo Grupo1
Grupo 2
Grupo m
En este caso los datos no requieren ser estandarizados como en el análisis de componentes principales y análisis factorial, ya que los resultados no son afectados por la escala de los datos.
Pág. 50
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Discriminación por distancia de Mahalanobis Suponiendo que hay g poblaciones y que las distribuciones multivariadas son conocidas para p variables X1, X2,…, Xp. Sea µki la media de la variable Xk en la población i-ésima, y asumiendo que la varianza de Xk tiene el mismo valor Vk, en todas las poblaciones, se define a la distancia entre poblaciones y muestras de Mahalanobis como: p
p
Dij2 = ∑∑( µri −µrj )v rs ( µsi − µsj ) r =1 s =1
Donde V(rs) es el elemento con renglón r-ésimo y columna s-ésima, de la matriz inversa de covarianza para las variables p. También se puede escribir en forma matricial como: x ' =( x1 , x2 ,...., x p )
µ' =( µ1 , µ2 ,....., µp )
Dij2 = (µ i − µ j )'V − 1 (µ i − µ j ) µ 1i µ 2i µi= ..... µ pi µi es el vector de medias para la población i-ésima y V es el vector de covarianza. Una condición es que la V sea similar para todas las poblaciones. La distancia de Mahalanobis se utiliza frecuentemente para medir la distancia de una observación simple multivariada desde el centro de la población de la que emerge la observación. También se puede interpretar como un residuo respecto al centro, con la consideración de que si excede cierto valor se investigue como punto aberrante.
Pág. 51
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Para el modelo discriminante, los vectores promedio de las m muestras pueden ser considerados como estimados de los vectores promedio de los grupos. Pueden calcularse las distancias de mahalanobis de individuos a centros de grupos, y cada individuo puede ser asignado al grupo que le sea más cercano. El grupo final puede ser diferente del grupo del que procede originalmente. El porcentaje de asignación correcta es una indicación clara de que tan bien los grupos pueden ser separados, usando las variables disponibles. El procedimiento puede definirse de manera más clara como sigue: El vector de valores promedio de la muestra del i-ésimo grupo es x ' =( x1i , x2 i ,...., x pi )
La matriz de covarianza para las muestras es:
c11 c12....c1p c21 c22....c2 p C= ................. cp1 c p2....cpp La distancia de Mahalanobis de una observación x' =( x1 , x2 ,......, x p )' al centro del grupo i se estima con:
Di2 = ( x − xi )' C − 1 ( x − xi ) p
p
Di2 = ∑∑( xr − xri )c rs ( xs − xsi ) r =1 s =1
Donde crs es el elemento den la r-ésima fila y la s-ésima columna de C -1. La observación x es asignada al grupo para el cual Di2 tiene el valor más pequeño. Funciones canónicas discriminantes
Pág. 52
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Es a veces útil poder determinar las funciones de las variables X’s que en alguna forma separen los m grupos tan bien como sea posible. El método más sencillo consiste en tomar una combinación lineal de las variables X: Z = a1 X 1 + a2 X 2 +........ + a p X p
Una forma de seleccionar los coeficientes a’s es seleccionar los que den la mayor Fc en una ANOVA. Si se utiliza este método, se encuentran las funciones canónicas discriminantes para cada observación i-ésima que no están correlacionadas entre sí. Z i = ai1 X 1 + ai 2 X 2 +........ + aip X p
La tabla ANOVA para una variable simple y m muestras es la siguiente: Fuente de Variación Entre muestras
Suma de cuadrados B=T–W
Grados de libertad m -1
Dentro
W = ∑∑( xij − x j ) 2 n - m
Cuadrado Medio
F
M1 = B/(m-1)
M1/M2
nj
m
j =1 i =1
de muestras m
nj
T = ∑∑ ( xij − x ) 2 n – 1
Total
j =1 i =1
nj
Tamaño de la muestra j-ésima
n
Número total de observaciones
xij
Es la observación i-ésima de la j-ésima muestra nj
xj = ∑
xij
i =1
m
nj
x = ∑∑
nj
xij
j =1 i =1
n
Media de la muestra j-ésima
Media global de todos los datos
El elemento en la fila r-ésima y columna c-ésima en la matriz T es:
m
nj
t rc = ∑∑( xijr − xr )( xijc − xc ) j =1 i =1
El elemento en la r-ésima fila y c-ésima columna de la matriz W es: Pág. 53
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
m
P. REYES / MARZO 2007
nj
wrc = ∑∑( xijr − x jr )( xijc − x jc ) j =1 i =1
Hallar los coeficientes de las funciones discriminantes canónicas se convierte en un problema de eigenvalores. La matriz de variación dentro de la muestra W y la matriz de suma de cuadrados total T se calculan con las ecuaciones anteriores. Por tanto la matriz entre grupos se determina con: B=T–W Los eigenvalores y los eigenvectores se determinan con la matriz W-1B. Si los eigenvalores λ1>λ2>λ3>..λs entonces λi es la razón de la suma de cuadrados entre grupos a la suma de cuadrados entre grupos para la i-ésima combinación lineal, Zi, mientras que los elementos de los eigenvectores, a’i = (ai1, ai2, ai3, …., aip), son los coeficientes de Zi. Las funciones canónicas discriminantes Z1, Z2,…, Zp son combinaciones lineales de las variables originales seleccionadas de tal forma que Z1 refleje tanta diferencia de grupo como sea posible; Z2 capture tanta diferencia de grupo como sea posible no mostrada por Z1; Z3 capture tanta diferencia de grupo como sea posible que no sea mostrada por Z1 y Z2; etc. Se espera que con las primeras funciones sea suficiente para acumular la mayor parte de las diferencias de grupo. Si y solo si con las primeras dos variables se cumple esta condición, se puede graficar la diferencia entre grupos, graficando las funciones para los individuos de las muestras. El número de variables canónicas es el mínimo entre el número de variables (X’s) y el número de grupos menos uno (m – 1= 2). Para el análisis discrimínate es necesario proporcionar el grupo al que pertenecen al inicio las observaciones.
Para probar la significancia de la prueba, se puede utilizar el estadístico T2, de Hottelling basado en el supuesto de normalidad y variabilidad similar dentro de las muestras. Es decir que las muestras vengan de una distribución mutivariada normal con matrices de covarianza similares.
Pág. 54
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Para probar si la función discriminante canónica Zj varía significativamente de grupo a grupo se utiliza un estadístico Chi cuadrado. Finalmente, se pueden analizar las distancias de Mahalanobis de las observaciones a los centros de los grupos a ser examinados. Deben variar de acuerdo a una distribución Chi cuadrada con p grados de libertad, si exceden el valor crítico, se debe analizar si la observación realmente viene del grupo asignado.
Pág. 55
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Ejemplo: El porcentaje de personas empleadas en nueve diferentes sectores industriales en Europa (Agr = agricultura; Min = minería; Man = Manufactura; Ps = Energía; Con = Construcción; Ser = Servicios; Fin = Finanzas; Sps = Servicios sociales; Tc = Transporte y comunicaciones).
No 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26
Grupo 1 1 1 1 1 1 1 1 1 1 1 2 1 2 2 1 1 2 3 3 3 3 3 3 3 3
Ciudad Bélgica Dinamarca Francia Alemania Occ. Irlanda Italia Luxenburgo Holanda Inglaterra Austria Finlandia Grecia Noruega Portugal España Suecia Suiza Turquía Bulgaria Checa Alemania Ori. Hungría Polonia Rumania Rusia Yugoslavia
Agr 3.3 9.2 10.8 6.7 23.2 15.9 7.7 6.3 2.7 12.7 13.0 41.4 9.0 27.8 22.9 6.1 7.7 66.8 23.6 16.5 4.2 21.7 31.1 34.7 23.7 48.7
Min 0.9 0.1 0.8 1.3 1.0 0.6 3.1 0.1 1.4 1.1 0.4 0.6 0.5 0.3 0.8 0.4 0.2 0.7 1.9 2.9 2.9 3.1 2.5 2.1 1.4 1.5
Man 27.6 21.8 27.5 35.8 20.7 27.6 30.8 22.5 30.2 30.2 25.9 17.6 22.4 24.5 28.5 25.9 37.8 7.9 32.3 35.5 41.2 29.6 25.7 30.1 25.8 16.8
Ps Con Ser Fin Sps Tc 0.9 8.2 19.1 6.2 26.6 7.2 0.6 8.3 14.6 6.5 32.2 7.1 0.9 8.9 16.8 6.0 22.6 5.7 0.9 7.3 14.4 5.0 22.3 6.1 1.3 7.5 16.8 2.8 20.8 6.1 0.5 10.0 18.1 1.6 20.1 5.7 0.8 9.2 18.5 4.6 19.2 6.2 1.0 9.9 18.0 6.8 28.5 6.8 1.4 6.9 16.9 5.7 28.3 6.4 1.4 9.0 16.8 4.9 16.8 7.0 1.3 7.4 14.7 5.5 24.3 7.6 0.6 8.1 11.5 2.4 11.0 6.7 0.8 8.6 16.9 4.7 27.6 9.4 0.6 8.4 13.3 2.7 16.7 5.7 0.7 11.5 9.7 8.5 11.8 5.5 0.8 7.2 14.4 6.0 32.4 6.8 0.8 9.5 17.5 5.3 15.4 5.7 0.1 2.8 5.2 1.1 11.9 3.2 0.6 7.9 8.0 0.7 18.2 6.7 1.2 8.7 9.2 0.9 17.9 7.0 1.3 7.6 11.2 1.2 22.1 8.4 1.9 8.2 9.4 0.9 17.2 8.0 0.9 8.4 7.5 0.9 16.1 6.9 0.6 8.7 5.9 1.3 11.7 5.0 0.6 9.2 6.1 0.5 23.6 9.3 1.1 4.9 6.4 11.3 5.3 4.0
En este caso el número de variables canónicas es el mínimo entre el número de variables (8) y el número de grupos menos uno (m – 1= 2). Las variables canónicas se obtienen a continuación: Las instrucciones de Minitab son las siguientes: 1
Cargar los datos a Minitab
2
Stat > Multivariate > Discriminant Analysis.
3
En Groups, poner SalmonOrigin.
4
En Predictors, poner Freshwater Marine. Click OK.
Los resultados se muestran a continuación: Pág. 56
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Discriminant Analysis: Grupo versus Agr, Min, ... After subtracting group means, Agr is highly correlated with other predictors. After subtracting group means, Man is highly correlated with other predictors. After subtracting group means, Sps is highly correlated with other predictors. Linear Method for Response: Grupo Predictors: Agr, Min, Man, Ps, Con, Ser, Fin, Sps Group Count
1 9
2 9
3 8
Summary of classification True Group 1 2 3 8 1 0 1 8 0 0 0 8 9 9 8 8 8 8 0.889 0.889 1.000
Put into Group 1 2 3 Total N N correct Proportion N = 26
N Correct = 24
Proportion Correct = 0.923
Squared Distance Between Groups 1 2 3
1 0.0000 9.4368 40.1385
2 9.4368 0.0000 20.4832
3 40.1385 20.4832 0.0000
Linear Discriminant Function for Groups Constant Agr Min Man Ps Con Ser Fin Sps
1 -11171 221 284 211 371 287 244 204 255
2 -10821 218 277 208 369 283 239 200 251
Variable Agr Min Man Ps Con Ser
Pooled Mean 19.131 1.2538 27.008 0.90769 8.1654 12.958
3 -10678 217 279 207 371 282 236 199 249
Means for Group 1 2 3 9.533 23.044 25.525 1.0333 0.5556 2.2875 27.167 24.522 29.625 0.92222 0.78889 1.02500 8.4667 8.0556 7.9500 17.022 13.333 7.963
Pág. 57
MÉTODOS ESTADÍSTICOS MULTIVARIADOS Fin Sps
4.0000 20.023
Variable Agr Min Man Ps Con Ser Fin Sps
Pooled StDev 14.37 0.6643 6.969 0.3788 1.699 2.749 2.630 6.148
5.0222 24.511
P. REYES / MARZO 2007
4.5667 18.656
2.2125 16.513
StDev for Group 1 2 3 6.48 20.01 13.15 0.9000 0.2789 0.6600 4.871 8.343 7.274 0.2906 0.3855 0.4528 1.117 2.346 1.330 1.638 3.997 1.869 1.767 2.215 3.681 4.524 7.664 5.803
Pooled Covariance Matrix Agr Min Man Ps Con Ser Fin Sps Sps
Agr 206.455 -1.471 -80.889 -2.568 -13.191 -31.181 -3.479 -59.429 37.798
Min
Man
Ps
Con
Ser
Fin
0.441 1.683 0.087 0.029 0.336 -0.424 -0.748
48.569 0.881 6.269 11.763 -1.216 9.607
0.143 0.042 0.576 0.220 0.424
2.887 2.076 -0.148 1.082
7.555 0.287 6.397
6.916 -1.432
Sps
Covariance matrix for Group 1 Agr Min Man Ps Con Ser Fin Sps Sps
Agr 42.053 -0.800 -15.359 -0.067 0.856 -0.776 -8.537 -14.949 20.466
Min
Man
Ps
Con
Ser
Fin
Sps
0.810 2.522 0.040 -0.156 0.372 -0.312 -2.359
23.727 -0.058 -1.376 -0.809 -0.272 -8.052
0.084 -0.208 0.012 0.074 0.100
1.248 0.920 -0.254 -0.922
2.684 -0.432 -2.050
3.122 5.906
Covariance matrix for Group 2 Agr Min Man Ps Con Ser Fin Sps Sps
Agr 400.228 1.336 -140.614 -5.808 -30.813 -71.357 -31.392 -98.810 58.735
Min
Man
Ps
Con
Ser
Fin
Sps
0.078 -0.459 0.021 0.025 -0.288 0.048 -0.732
69.609 2.090 15.256 25.528 12.865 11.504
0.149 0.437 1.149 0.438 1.131
5.505 4.945 3.830 -0.771
15.978 3.179 16.029
4.908 4.981
Covariance matrix for Group 3 Agr Min Man Ps Con Ser Fin
Agr 172.888 -5.445 -87.525 -1.722 -9.106 -20.013 34.201
Min
Man
Ps
Con
Ser
Fin
0.436 3.172 0.218 0.245 1.009 -1.093
52.914 0.572 4.734 10.401 -18.389
0.205 -0.123 0.565 0.135
1.769 0.119 -4.574
3.494 -2.195
13.547
Pág. 58
Sps
MÉTODOS ESTADÍSTICOS MULTIVARIADOS Sps Sps
-65.256 33.678
1.076
27.621
-0.013
P. REYES / MARZO 2007 5.491
5.042
-17.147
Summary of Misclassified Observations Observation 4**
True Group 1
Pred Group 2
16**
2
1
Group 1 2 3 1 2 3
Squared Distance 11.326 6.373 19.796 5.350 10.989 35.747
Probability 0.077 0.921 0.001 0.944 0.056 0.000
Corrida con SPSS Discriminant Warnings Option ''SEPARATE'' means classification using group covariance matrices of the canonical discriminant functions, not those of the original variables. If there are fewer functions than variables, that makes a difference. Analysis Case Processing Summary Unweighted Cases Valid Excluded Missing or out-of-range group codes At least one missing discriminating variable Both missing or out-of-range group codes and at least one missing discriminating variable Total Total
N 26
Percent 100.0
0
.0
0
.0
0
.0
0 26
.0 100.0
Pág. 59
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Group Statistics
GRUPO 1.00
2.00
3.00
Total
AGR MIN MAN PS CON SER FIN SPS AGR MIN MAN PS CON SER FIN SPS AGR MIN MAN PS CON SER FIN SPS AGR MIN MAN PS CON SER FIN SPS
Mean 9.5929 .8500 27.6214 .9571 8.4214 16.6786 5.1143 24.0786 39.7250 .6000 19.6250 .5000 7.7000 9.9250 3.6750 12.8500 25.5250 2.2875 29.6250 1.0250 7.9500 7.9625 2.2125 16.5125 19.1308 1.2538 27.0077 .9077 8.1654 12.9577 4.0000 20.0231
Std. Deviation 5.3626 .7743 5.0773 .2875 1.0401 1.5783 1.4206 5.3738 19.6736 .2160 9.0205 .2708 3.6102 3.4760 3.2908 2.5981 13.1487 .6600 7.2742 .4528 1.3299 1.8693 3.6806 5.8033 15.5466 .9700 7.0078 .3762 1.6456 4.5753 2.8066 6.8295
Valid N (listwise) Unweighted Weighted 14 14.000 14 14.000 14 14.000 14 14.000 14 14.000 14 14.000 14 14.000 14 14.000 4 4.000 4 4.000 4 4.000 4 4.000 4 4.000 4 4.000 4 4.000 4 4.000 8 8.000 8 8.000 8 8.000 8 8.000 8 8.000 8 8.000 8 8.000 8 8.000 26 26.000 26 26.000 26 26.000 26 26.000 26 26.000 26 26.000 26 26.000 26 26.000
Analysis 1 Summary of Canonical Discriminant Functions Eigenvalues Function 1 2
Eigenvalue % of Variance 11.347a 92.1 a .977 7.9
Cumulative % 92.1 100.0
Canonical Correlation .959 .703
a. First 2 canonical discriminant functions were used in the analysis.
Pág. 60
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Wilks' Lambda Test of Function(s) 1 through 2 2
Wilks' Lambda .041 .506
Chi-square 62.301 13.290
df 16 7
Standardized Canonical Discriminant Function Coefficients Function 1 3.690 -.197 2.038 -.039 .237 1.900 1.047 2.205
AGR MIN MAN PS CON SER FIN SPS
2 .555 .551 .736 .357 -.010 .025 .357 .970
Structure Matrix Function SER FIN AGR MIN PS MAN SPS CON
1
2
.630* .157* -.243 -.265 -.001 -.017 .229 .045
.339 -.032 -.737* .592* .551* .544* .505* .103*
Pooled within-groups correlations between discriminating variables and standardized canonical discriminant functions Variables ordered by absolute size of correlation within function. *. Largest absolute correlation between each variable and any discriminant function Functions at Group Centroids Function GRUPO 1.00 2.00 3.00
1 2.792 -1.234 -4.269
2 .264 -2.150 .613
Unstandardized canonical discriminant functions evaluated at group means
Pág. 61
Sig. .000 .065
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Group covariances of canonical discriminant functions GRUPO 1.00
Function 1 2 1 2 1 2
2.00 3.00
1 .867 -.168 2.340 .242 .672 .209
2 -.168 .737 .242 .726 .209 1.605
The pooled within-groups covariance matrix of the canonical discriminant functions is an identity matrix by definition.
Box's Test of Equality of Covariance Matrices of Canonical Discriminant Functions Log Determinants GRUPO 1.00 2.00 3.00 (identity matrix)
Rank 2 2 2 2
Log Determinant -.492 .495 .035 .000
The ranks and natural logarithms of determinants printed are those of the group covariance matrices of the canonical discriminant functions. Test Results Box's M F
Approx. df1 df2 Sig.
4.673 .629 6 707.141 .707
Tests null hypothesis of equal population covariance matrices of canonical discriminant functions.
Classification Statistics Classification Processing Summary Processed Excluded
Used in Output
26 Missing or out-of-range group codes At least one missing discriminating variable
0 0 26
Pág. 62
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Prior Probabilities for Groups
GRUPO 1.00 2.00 3.00 Total
Prior .538 .154 .308 1.000
Cases Used in Analysis Unweighted Weighted 14 14.000 4 4.000 8 8.000 26 26.000
Separate-Groups Graphs Canonical Discriminant Functions GRUPO = 1 2.5 2.0 1.5 1.0 .5
Function 2
0.0
Group Centroid
-.5
Group Centroid
-1.0 -1.5
1
1.0
1.5
2.0
2.5
3.0
3.5
4.0
4.5
Function 1
Canonical Discriminant Functions GRUPO = 2 -1.0
-1.5
-2.0
Function 2
-2.5
Group Centroid -3.0 Group Centroid -3.5
2
-2.5
-2.0
-1.5
-1.0
-.5
0.0
.5
1.0
Function 1
Pág. 63
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Canonical Discriminant Functions GRUPO = 3 3
2
1
Function 2
0
Group Centroid -1 Group Centroid -2
3
-5.5
-5.0
-4.5
-4.0
-3.5
-3.0
Function 1
Canonical Discriminant Functions 3 2 1
3 1
0
GRUPO
-1
Function 2
Group Centroids
2
-2
3 -3
2
-4
1 -6
-4
-2
0
2
4
6
Function 1
Classification Resultsa
Original
Count
%
GRUPO 1.00 2.00 3.00 1.00 2.00 3.00
Predicted Group Membership 1.00 2.00 3.00 14 0 0 0 4 0 0 0 8 100.0 .0 .0 .0 100.0 .0 .0 .0 100.0
a. 100.0% of original grouped cases correctly classified.
Pág. 64
Total 14 4 8 100.0 100.0 100.0
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Territorial Map Canonical Discriminant Function 2 -6.0 -4.0 -2.0 .0 2.0 4.0 6.0 31 31 31 31 31 31 4.0 31 31 31 31 31 31 2.0 31 31 331 32221 * 332 21 322 21 * .0 332 21 3322 21 322 21 332 21 322 21 332 21 -2.0 322 * 21 332 21 322 21 332 21 322 21 332 21 -4.0 322 21 332 21 22 21 21 21 21 -6.0 21 -6.0 -4.0 -2.0 .0 2.0 4.0 Canonical Discriminant Function 1
6.0 6.0
Symbols used in territorial map Symbol Group Label ------ ----- -------------------1 1 2 2 3 3 * Indicates a group centroid
Canonical Discriminant Functions 3 2 1
3 1
0
GRUPO
Function 2
-1
Group Centroids
2
-2
3 -3
2
-4
1 -6
-4
-2
0
2
Function 1
Pág. 65
4
6
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Ejemplo: Para regular la pesca de salmón, se desea identificar si el pescado es originario de Alaska o de Canadá. Cincuenta peces de cada lugar de origen fueron capturados y pesados cuando vivían en agua dulce y cuando vivieron en agua salada. El objetivo es el de poder identificar si los nuevos pescados vienen de criaderos en Alaska o Canadá. Los datos se muestran a continuación: SalmonOrigin Freshwater
Marine
Alaska
108
368
Alaska
131
355
Alaska
105
469
Alaska
86
506
Alaska
99
402
Alaska
87
423
Alaska
94
440
Alaska
117
489
Alaska
79
432
Alaska
99
403
Alaska
114
428
Alaska
123
372
Alaska
123
372
Alaska
109
420
Alaska
112
394
Alaska
104
407
Alaska
111
422
Alaska
126
423
Alaska
105
434
Alaska
119
474
Alaska
114
396
Alaska Alaska
100 84
470 399
SalmonOrigin Freshwater CanadaCana dá 129 CanadaCana dá 148 CanadaCana dá 179 CanadaCana dá 152 CanadaCana dá 166 CanadaCana dá 124 CanadaCana dá 156 CanadaCana dá 131 CanadaCana dá 140 CanadaCana dá 144 CanadaCana dá 149 CanadaCana dá 108 CanadaCana dá 135 CanadaCana dá 170 CanadaCana dá 152 CanadaCana dá 153 CanadaCana dá 152 CanadaCana dá 136 CanadaCana dá 122 CanadaCana dá 148 CanadaCana dá 90 CanadaCana dá 145 CanadaCana 123
Pág. 66
Marine 420 371 407 381 377 389 419 345 362 345 393 330 355 386 301 397 301 438 306 383 385 337 364
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
Alaska
102
429
Alaska
101
469
Alaska
85
444
Alaska
109
397
Alaska
106
442
Alaska
82
431
Alaska
118
381
Alaska
105
388
Alaska
121
403
Alaska
85
451
Alaska
83
453
Alaska
53
427
Alaska
95
411
Alaska
76
442
Alaska
95
426
Alaska
87
402
Alaska
70
397
Alaska
84
511
Alaska
91
469
Alaska
74
451
Alaska
101
474
Alaska
80
398
Alaska
95
433
Alaska
92
404
Alaska
99
481
Alaska
94
491
Alaska
87
480
dá CanadaCana dá CanadaCana dá CanadaCana dá CanadaCana dá CanadaCana dá CanadaCana dá CanadaCana dá CanadaCana dá CanadaCana dá CanadaCana dá CanadaCana dá CanadaCana dá CanadaCana dá CanadaCana dá CanadaCana dá CanadaCana dá CanadaCana dá CanadaCana dá CanadaCana dá CanadaCana dá CanadaCana dá CanadaCana dá CanadaCana dá CanadaCana dá CanadaCana dá CanadaCana dá CanadaCana dá
P. REYES / MARZO 2007
145
376
115
354
134
383
117
355
126
345
118
379
120
369
153
403
150
354
154
390
155
349
109
325
117
344
128
400
144
403
163
370
145
355
133
375
128
383
123
349
144
373
140
388
150
339
124
341
125
346
153
352
108
339
Las intruccionesinstrucciones de Minitab son las siguientes:
Pág. 67
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
1
Abrir la worksheet EXH_MVAR.MTW.
2
Stat > Multivariate > Discriminant Analysis.
3
En Groups, poner SalmonOrigin.
4
En Predictors, poner Freshwater Marine. Click OK.
Los resultados obtenidos se muestran a continuación: Discriminant Analysis: SalmonOrigin versus Freshwater, Marine Linear Method for Response: SalmonOrigin Predictors: Freshwater, Marine Group Count
Alaska 50
Canada 50
Summary of classification True Group Alaska Canada 44 1 6 50 50 44 49 0.880 0.980
Put into Group Alaska CanadaCanadá Total N N correct Proportion N = 100
49
N Correct = 93
Proportion Correct = 0.930
Squared Distance Between Groups Alaska Canada
Alaska 0.00000 8.29187
Canada 8.29187 0.00000
Linear Discriminant Function for Groups Alaska Canada Constant -100.68 -95.14 Freshwater 0.37 0.50 Marine 0.38 0.33 Summary of Misclassified Observations Observation 1** 2** 12** 13** 30** 32** 71**
Squared Pred Group Group Distance Probability CanadaCanadá Alaska 3.544 CanadaCanadá 2.960 Alaska CanadaCanadá Alaska 8.1131 CanadaCanadá 0.2729 Alaska CanadaCanadá Alaska 4.7470 CanadaCanadá 0.7270 Alaska CanadaCanadá Alaska 4.7470 CanadaCanadá 0.7270 Alaska CanadaCanadá Alaska 3.230 CanadaCanadá 1.429 Alaska CanadaCanadá Alaska 2.271 CanadaCanadá 1.985 CanadaCanadá Alaska Alaska 2.045 CanadaCanadá 7.849
True Group Alaska
Interpretando los resultados Pág. 68
0.428 0.572 0.019 0.981 0.118 0.882 0.118 0.882 0.289 0.711 0.464 0.536 0.948 0.052
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
El Análisis Discriminante identificó correctamente 93 de los 100 peces, a pesar de que la probabilidad de clasificar correctamente un pez de Alaska fue menor (44/50 o 88%) que la probabilidad de clasificar correctamente un pez de Canadá (49/50 o 98%). Para identificar el origen de un pez recientemente capturado depende de cual valor discriminante sea mayor. Se puede correr el análisis discriminante de nuevo y predecir a que grupo pertenecen las nuevas observaciones. El resumen de las observaciones mal clasificadas muestra la distancia al cuadrado desde el punto mal clasificado a los centroides del grupo (vectores medios) y las probabilidades posteriores. Las observaciones son asignadas al grupo con la mayor probabilidad posterior. Si en Options introducimos en Predict membership for: 100 130, la clasificación aparece como: Prediction for Test Observations Observation 1
Squared Pred Group From Group Distance Probability CanadaCanadá Alaska 78.448 0.000 CanadaCanadá 55.194 1.000
Pág. 69
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
El análisis discriminante involucra establecer una “Variable (Variate)”, combinación lineal de dos o más variables independientes que discriminarán mejor entre grupos definidos a priori.
Se logra al poner los pesos de la
“variable” para cada variable de modo de maximizar la varianza entre grupos respecto a la varianza dentro de los grupos. La ecuación de la función discriminante toma la forma de: Z jk = a +W 1X 1k +W 2X 2 k +.... +W nX nk
Donde: Zjk = Valor Z discriminante de la función discriminante J para el objeto K. a = Intersección en eje Y Wi = Peso discriminante para la variable independiente i. Xik = Variable independiente i para el objeto k. La media de un grupo se denomina Centroide, que indica la localización típica de cualquier individuo dentro de un grupo en particular y una comparación de las centroides de los grupos muestra que tan alejados se encuentran en relación a la dimensión considerada.
A
B
A
B
Representación univariada de los valores Z de la función discriminante Las áreas sombreadas son la probabilidad de clasificar erróneamente los objetos entre A y B
Ejemplo con HATCO: Paso 1: Objetivos del análisis discriminante Identificar las percepciones de HATCO que difieren significativamente entre empresas que utilizan los métodos de compra: valor total de compra incluyendo productos y servicios comprados y compra especificada donde se indican las características deseadas del producto y del servicio. Pág. 70
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Paso 2. Diseño de la investigación para el análisis discriminante La variable dependiente es categórica con dos grupos, las variables independientes son X1 a X7 y X11 con los métodos de compra de las empresas. LasLa muestra es de 100 observaciones que supera el mínimo de muestras a variables de 5 a 1, siendo de 10. Se toma una muestra de 40 observaciones para validar el modelo y se utilizan 60 observaciones para la estimación. Paso 3. Supuestos de la función discriminante En la formación de la Variate debe haber normalidad, linealidad, y multicolinealidad y la estimación de la función discriminante (matrices de varianza y covarianza similares). Una prueba de igualdad de covarianza o matrices de dispersión es la prueba M de Box. Paso 4. Estimación del modelo discriminante y evaluación de ajuste Ejemplo con datos de Hatco El ejemplo siguiente utiliza las mismas variables que el análisis discriminante anterior para estimar el modelo. Utilizando los datos de HATCO, la muestra de 100 clientes se divide en dos grupos, uno de 60 para análisis y otro de 40 para validación. La regresión logística es más robusta ante el supuesto de igualdad de varianza covarianza. Para el ejemplo se utilizan las 7 variables X1 a X7 teniendo como respuesta a X11. Instrucciones en Minitab: 1.
Stat > Multivariate > Discriminant Analysis.
2.
En Groups, poner X11. Pág. 71
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
3
P. REYES / MARZO 2007
En Predictors, poner X1 – X7.
4. Click OK. Los resultados se muestran a continuación: Discriminant Analysis: X11 versus X1, X2, X3, X4, X5, X6, X7 Linear Method for Response: X11 Predictors: X1, X2, X3, X4, X5, X6, X7 Group 0 1 Count 25 35 Summary of classification True Group Put into Group 0 1 0 24 2 1 1 33 Total N 25 35 N correct 24 33 Proportion 0.960 0.943 N = 60 N Correct = 57
Proportion Correct = 0.950
Squared Distance Between Groups 0 1 0 0.0000 10.9857 1 10.9857 0.0000 Linear Discriminant Function for Groups 0 1 Constant -55.092 -67.574 X1 12.813 16.539 X2 12.313 14.638 X3 7.780 10.158 X4 3.320 3.639 X5 -21.933 -26.874 X6 -2.326 -2.159 X7 4.389 2.657 Summary of Misclassified Observations Observation 13**
True Group 0
Pred Group 1
17**
1
0
56**
1
0
Group 0 1 0 1 0 1
Squared Distance 6.238 6.032 7.893 15.673 4.753 8.078
Probability 0.474 0.526 0.980 0.020 0.841 0.159
Por medio de SPSS 1. Analize > Clasify > Discriminant 2. Grouping variable X11 (0:1) Independent variables X1 – X7 3. Statistics Univariate ANOVAs Box’s M 4. OK Los resultados se muestran a continuación Tests of Equality of Group Means
Pág. 72
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
X1 X2
Wilks' Lambda .614 .716
F 36.526 22.953
X3
.467
X4
.997
X5 X6 X7
df1
P. REYES / MARZO 2007
1 1
df2 58 58
Sig. .000 .000
66.302
1
58
.000
.145
1
58
.704
.993
.414
1
58
.523
.991
.522
1
58
.473
.528
51.951
1
58
.000
Como se puede observar son significativos X1, X2, X3 y X7. La función discriminante es la siguiente: Standardized Canonical Discriminant Function Coefficients Function X1 X2
1 1.152 .749
X3
.668
X4
.111
X5
-1.153
X6
.042
X7
-.626
La matriz estructural es la siguiente: Structure Matrix Function 1 X3 X7
.643 -.569
X1
.477
X2
-.379
X6
.057
X5
.051
X4
.030 Pooled within-groups correlations between discriminating variables and standardized canonical discriminant functions Variables ordered by absolute size of correlation within function.
Medias de grupos (centroides) de las funciones canónicas discriminantes: Functions at Group Centroids Function X11 .00 1.00
1 -1.933 1.381 Unstandardized canonical discriminant functions evaluated at group means
Pág. 73
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Z=0 N=24
N=33
Zo=-1.933
Z1=1.063
Gráfica de los centroides de grupos
Paso 5. Validación del modelo Con los 40 datos restantes se repite la corrida y se observa que los resultados concuerden:
Pág. 74
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Tests of Equality of Group Means
X1 X2
Wilks' Lambda .546 .934
F 31.628 2.676
X3
.789
X4
.969
X5 X6 X7
df1 1 1
df2 38 38
Sig. .000 .110
10.185
1
38
.003
1.205
1
38
.279
.798
9.611
1
38
.004
.997
.105
1
38
.748
.535
33.043
1
38
.000
Log Determinants
X11 .00 1.00
7 7
Log DeterminantDe terminan -9.872 -6.987
7
-6.367
Rank
Pooled within-groups
The ranks and natural logarithms of determinants printed are those of the group covariance matrices. Test Results Box's M F
Approx.
63.963 1.776
df1
28
df2
3061.289
Sig.
.007 Tests null hypothesis of equal population covariance matrices. Standardized Canonical Discriminant Function Coefficients Function X1 X2
1 1.932 1.525
X3
.294
X4
-.621
X5
-1.698
X6
.934
X7
-.783 Structure Matrix Function 1
X7 X1
-.644 .630
X3
.358
X5
.347
X2
-.183
X4
-.123
X6
-.036
Pág. 75
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Pooled within-groups correlations between discriminating variables and standardized canonical discriminant functions Variables ordered by absolute size of correlation within function. Functions at Group Centroids Function X11 .00 1.00
1 -1.822 1.093 Unstandardized canonical discriminant functions evaluated at group means Prior Probabilities for Groups
X11 .00 1.00 Total
Cases Used in Analysis Unweighted Weighted 15 15.000 25 25.000 40 40.000
Prior .500 .500 1.000
Canonical Discriminant Function 1
Canonical Discriminant Function 1
X11 = 0
X11 = 1 5
5
4
4
3
3
2
2
1
1 Mean = 1.09 Std. Dev. = 1.142 N = 25
0 -2
-1
0
1
2
3
Mean = -1.82 Std. Dev. = 0.692 N = 15
0 -3.0
4
-2.5
-2.0
-1.5
-1.0
Classification Results(a) Predicted Group Membership Original
Count
X11 .00 1.00
%
.00
.00
1.00
Total
15 3
0 22
15 25
100.0
.0
100.0
12.0 88.0 a 92.5% of original grouped cases correctly classified.
100.0
1.00
Pág. 76
-0.5
0.0
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Regresión Logística Una de las ventajas de la regresión logística versus el análisis discriminante es que es menos afectada por las diferencias en varianzas / covarianzas entre los grupos, que es una premisa del análisis discriminante. Otra ventaja es que la regresión logística puede manejar variables independientes categóricas fácilmente, mientras que en el análisis discriminante el uso de variables de apoyo crea problemas con la igualdad de varianza / covarianza. Finalmente la regresión logística es similar a la regresión múltiple en términos de su interpretación e interpretación incluyendo los residuos.
Ejemplo: Un investigador está interesado en comprender el efecto de fumar y el peso en el pulso en reposo, como esta última variable dependiente es categórica (bajo, alto) el análisis de regresión logística es adecuado. You are a researcher who is interested in understanding the effect of smoking and weight upon resting pulse rate. Because you have categorized the response-pulse rateinto low and high, a binary logistic regression analysis is appropriate to investigate the effects of smoking and weight upon pulse rate. Se tiene interés en comprender el efecto de fumar y el peso sobre el pulso (alto y bajo). Los datos utilizados son los siguientes: Weigh RestingPulse Smokes t
Weigh RestingPulse Smokes t
RestingPulse Smokes Weight
Low Low Low Low Low Low High Low Low Low High Low High Low Low
Low Low Low Low Low Low Low Low High Low Low Low Low Low Low
Low Low Low Low Low High Low High High Low Low High Low Low Low
No No Yes Yes No No No No No No Yes No Yes No No
140 145 160 190 155 165 150 190 195 138 160 155 153 145 170
No Yes Yes No No No Yes No Yes No No No Yes Yes Yes
Pág. 77
215 150 145 155 155 150 155 150 180 160 135 160 130 155 150
No No No No No No Yes No Yes No No No No No No
115 102 115 150 110 116 108 95 125 133 110 150 108 155 180
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
Low Low Low Low Low Low Low Low Low High Low Low High High Low High
No Yes Yes Yes No No No No Yes No No Yes No Yes No No
175 175 170 180 135 170 157 130 185 140 120 130 138 121 125 116
Low High Low High Low High High Low Low Low High Low Low High Low Low
P. REYES / MARZO 2007
No No No Yes Yes No Yes Yes No No No No No No No No
148 155 150 140 190 145 150 164 140 142 136 123 155 130 120 130
Low Low Low Low High Low High High Low Low Low Low Low Low High
No No No No Yes No No Yes Yes No No No Yes No Yes
122 120 118 125 135 125 118 150 112 125 190 155 170 145 131
Las instrucciones de Minitab para el ejemplo son: 1. Open worksheet EXH_REGR.MTW. 2. Seleccionar Stat > Regression > Binary Logistic Regression. 3. En Response, poner RestingPulse. En Model, poner Smokes Weight. En Factors (optional), poner Smokes (para predictors categóricos). 4. Click Graphs. Seleccionar Delta chi-square vs probability and Delta chisquare vs leverage. Click OK. 5. Click Results. Seleccionar In addition, list of factor level values, tests for terms with more than 1 degree of freedom, and y 2 additional goodness-of-fit tests. 6. Click OK en cada cuadro de diálogo. Los resultados se muestran a continuación: Results for: Exh_regr.MTW Binary Logistic Regression: RestingPulse versus Smokes, Weight Link Function:
Logit
Observaciones que caen dentro de cada categoría Response Information RestingP
Low High Total
Variable
70 22 92
Value
(Event)
Count
-> Evento de referencia
Factor Information Factor Levels Values
Pág. 78
MÉTODOS ESTADÍSTICOS MULTIVARIADOS Smokes
2 No
P. REYES / MARZO 2007
Yes
Logistic Regression Table Predictor Constant Smokes Yes Weight
Coef -1.987
SE Coef 1.679
Z P -1.18 0.237
-1.1930 0.02502
0.5530 0.01226
-2.16 0.031 2.04 0.041
Odds Ratio 0.30 1.03
95% CI Lower Upper 0.10 1.00
0.90 1.05
Por ser su P value menor a 0.05 son significativos Smoke y Weight El coeficiente de -1.93 para Smoke representa el cambio estimado en el log de P(low pulse)/P(high pulse) cuando el sujeto fuma comparado a cuando no fuma, con el covariado Weight (peso) mantenido constante. El coeficiente de 0.0250 para Weight (peso) es el cambio estimado en el log de P(low pulse)/P(high pulse) con una unidad (lb.) de incremento en peso con el factor Fumar constante. A pesar de que hay evidencia de el parámetro de peso Weight no es cero, la tasa de exceso es muy cercana a uno (1.03), indicando que un incremento de peso de una libra tiene un efecto menor en la tasa de pulso en reposo de la persona. Una diferencia más significativa se puede encontrar si se comparan sujetos con una diferencia de peso mayor, por ejemplo 10 libras, la tasa cambia a 1.28 (1.03 + 0.025*10), indicando que el puso de un sujeto con pulso bajo se incrementa 1.28 veces con cada 10 libras de incremento de peso. Para Smokes, el coeficiente negativo de -1.93 y la tasa de exceso de 0.30 indica que los sujetos que fuman tienden a tener una mayor tasa de pulso en reposo (resting pulse rate) que los sujetos que no fuman. Dados sujetos con el mismo peso, la tasa de exceso puede ser interpretada como el exceso de fumadores en la misma muestra teineido un pulso bajo (low pulse) de 30% de los no fumadores teniendo un pulso bajo (low pulse).
Log-Likelihood = -46.820 Test that all slopes are zero: G = 7.574, DF = 2, P-Value = 0.023
El estadístico G prueba la hipótesis nula de que los coeficientes asociados con los predoctores son iguales a cero versus que esos coeficientes no todos son Pág. 79
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
cero. En es ejemplo con G = 7.574 y P value = 0.023, indican que hay suficiente evidencia que al menos uno de los coeficientes es diferente de cero. Goodness-of-Fit Tests Method Chi-Square Pearson 40.848 Deviance 51.201 Hosmer-Lemeshow 4.745 Brown: General Alternative 0.905 Symmetric Alternative 0.463
DF 47 47 8
P 0.724 0.312 0.784
2 1
0.636 0.496
Estas pruebas de bondad de ajuste con P values de 0.312 a 0.724 indican que no hay evidencia suficiente que indique que el modelo no ajuste a los datos adecuadamente, considerando un nivel de significancia de 0.05. Table of Observed and Expected Frequencies: (See Hosmer-Lemeshow Test for the Pearson Chi-Square Statistic) Value Low Obs Exp High Obs Exp Total
1
2
3
4
Group 5 6
7
4 4.4
6 6.4
6 6.3
8 6.6
8 6.9
6 7.2
5 4.6
4 3.6
3 2.7
1 2.4
1 2.1
3 1.8
9
9
9
9
9
10
8
9
8 8.3
12 12.9
10 9.1
2 1.9
70
2 1.7
3 2.1
0 0.9
0 0.1
22
2
92
10
15
10
10
Total
Esta tabla permit e ver que tan bien ajusta el modelo a los datos, comparando las frecuencias observadas y las frecuencias esperadas, siendo similares indica que no hay evidencia suficiente de que los datos no ajusten bien al modelo, soportado por las pruebas de bondad de ajuste para un nivel de significancia de 0.05. Measures of Association: (Between the Response Variable and Predicted Probabilities) Pairs Concordant Discordant Ties Total
Number 1045 461 34 1540
Percent 67.9% 29.9% 2.2% 100.0%
Summary Measures Somers' D Goodman-Kruskal Gamma Kendall's Tau-a
0.38 0.39 0.14
Esta tabla muestra 1540 pares (70 individuos con un low pulse y 22 con high pulse resultando en 70*22 = 1540) con valores de respuesta diferentes. Con base en el modelo un par es concordante si el individuo con una tasa de pulso baja (low pulse rate) tiene una más alta probabilidad de tener pulso bajo, discrepante de si sucede lo contrario, y empate si las probabilidades son iguales. En este ejemplo el 67.9% de los pares son concordantes y 29% son Pág. 80
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
discrepantes. Se pueden usar estos valores como una medición comparativa de predicción, por ejemplo para comparar ajustes con diferentes conjuntos de predictores o con funciones diferentes de enlace. Se muestran resumenes de pares concordantes y discrepantes de Somers, Goodman-Kriskal Gamma, y Tau de Kendall. Las métricas se encuentran entre 0 y 1 donde los valores mayores indican que el modelo tiene una mejor habilidad predictiva. En este ejemplo el rango va de 0.14 a 0.39 que implica una baja capacidad predictiva.
Pág. 81
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Delta Chi-Square versus Probability
Delta Chi-Square
5 4 3 2 1 0 0.4
0.5
0.6
0.7
0.8
0.9
1.0
Probability
Delta Chi-Square versus Leverage
Delta Chi-Square
5 4 3 2 1 0 0.01
0.06
0.11
0.16
Leverage
Las gráficas del ejemplo de Chi cuadrada versus probabilidad y versus apalancamiento muestran que hay dos puntos que se desvían más allá del límite sugerido de 3.84, indicando situaciones anormales que deben ser investigadas. Con la opción Editor > Brush se puede observar que corresponden a los valores de datos 31 y 66, correspondientes a individuos con un pulso alto, que no fuman, y que tienen pesos menores al promedio (116 y 136 libras).
Pág. 82
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Ejemplo con datos de Hatco El ejemplo siguiente utiliza las mismas variables que el análisis discriminante anterior para estimar el modelo. Utilizando los datos de HATCO, la muestra de 100 clientes se divide en dos grupos, uno de 60 para análisis y otro de 40 para validación. La regresión logística es más robusta ante el supuesto de igualdad de varianza covarianza. Para el ejemplo se utilizan las 7 variables X1 a X7 teniendo como respuesta a X11.
Pág. 83
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
8. Análisis de Conglomerados
Pág. 84
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
8. ANÁLISIS DE CONGLOMERADOS Se cuenta también con el análisis de conglomerados o clusters (técnica para agruparAgrupar los casos o elementos de una muestra en grupos con base en una o másMás variables). Usar Análisis de componentes principales para ayudar a comprender la estructura de datos y/o a formar un pequeño número de variables no correlacionadas (por ejemplo para evitar multicolinealidad en la regresión).
El análisis de conglomerados agrupa individuos u objetos dentro de conglomerados (“Clusters”) de modo que los objetos en el mismo grupo tienen características más similares que las que tienen versus otros grupos. El
“Cluster
Variate”
características
es
utilizadas
el
conjunto
para
de
comparar
variables objetos
representando en
el
análisis
las de
conglomerados. Es decir determina el “carácter de los objetos”. Es la única técnica multivariada que no estima la “variate” empíricamente sino que se especifica por el investigador. “Variate” es la combinación lineal de variables formadas en la técnica multivariada al determinar empíricamente ponderaciones aplicadas al conjunto de variables especificadas por el investigador. El análisis de conglomerados también se ha denominado Análisis Q, Construcción de tipología, Análisis de clasificación, y taxonomía numérica. Esto debido al uso de estas técnicas en diversas áreas como la sicología, biología, sociología, economía, ingeniería, y los negocios. El análisis de conglomerados es parecido al análisis factorial en su propósito de evaluar la estructura. Pero el análisis de conglomerados difiere del análisis factorial en que agrupa objetos, mientras que el análisis factorial se enfoca principalmente a agrupar variables.
Pág. 85
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
El análisis de conglomerados puede hacer reducciones de datos colectados de cuestionarios en una población, a información relacionada con pequeños subgrupos específicos. No tiene bases estadísticas sobre las que se puedan realizar inferencias estadísticas de una muestra a una población, su uso es principalmente como técnica exploratoria. Las soluciones no son únicas y se pueden obtener diversas soluciones variando uno o más elementos del procedimiento.
A. Conglomerados de observaciones Usar conglomerados de observaciones para clasificar observaciones en grupos, cuando inicialmente los grupos son desconocidos. Este procedimiento utiliza un método jerárquico aglomerativo que inicia con todas
las
observaciones
separadas,
cada
una
formando
su
propio
conglomerado. Como primer paso, las dos observaciones más cercanas se unen. En un siguiente paso, ya sea que se adicione una tercera observación a las primeras dos, o dos observaciones diferentes se unan en un conglomerado (cluster) diferente. Este proceso continúa hasta que todos los conglomerados se han unido en uno, sin embargo este último no es útil para propósitos de clasificación.
¿Cómo funciona el análisis de conglomerados? Se ilustra con un ejemplo con datos dbivariados. Suponer que un estudio de mercado trata de determinar segmentos de mercado en base a los patrones de lealtad de marcas (V1) y tiendas (V2), medidas del 0 al 10 en 7 personas (A-G). Variables
V1
V2
A
3
2
B
4
5
C
4
7
D
2
7
E
6
6
Pág. 86
MÉTODOS ESTADÍSTICOS MULTIVARIADOS F
7
7
G
6
4
Variables V1 V2
A 3 2
B 4 5
P. REYES / MARZO 2007
C 4 7
D 2 7
E 6 6
F 7 7
G 6 4
Scatterplot of V2 vs V1 7
D
C
F
E
6 B
V2
5
G
4
Distancia euclidiana de A a B
3 A
2 2
3
4
5
6
7
V1
Para acomodar en grupos se necesita contestar:
¿Cómo se mide la similaridad?, se puede hacer por correlación o proximidad en un espacio de dos dimensiones.
¿Cómo se forman los conglomerados?
¿Cuántos grupos se formarán?
Ejemplo 1: Para medir la similitud se evalúa con la distancia euclidiana (línea recta) entre cada par de observaciones (ver Tabla), entendiendo que las distancias pequeñas indican similaridad, E y F son las más similares (1.414) y la A y F las más diferentes (6.403).
Observ. A
A
B
C
D
Pág. 87
E
F
G
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
B C D E F G
3.162 5.099 5.099 5.000 6.403 3.606
Formamos
2.000 2.828 2.236 3.606 2.236
2.000 2.236 3.000 3.606
conglomerados
ahora
P. REYES / MARZO 2007
4.123 5.000 5.000 con
un
1.414 2.000
3.162
Procedimiento
jerárquico
moviéndose paso a paso para formar un rango completo de soluciones. También se denomina Método Aglomerativo dado que los conglomerados se forman con la combinación de conglomerados existentes. La distancia entre observaciones es:
Paso
1 2 3 4 5 6
Distancia Mínima entre observa-ciones Distancia Mínima entre observaciones
Sol. inicial 1.414 2.000 2.000 2.000 2.236 3.162
Par observado
Solución por conglomerados Miembros en el conglomerado
E-F E-G C-D B-C B-E A==B
A, B,C,D,E,F,G A, B,C,D,E-F,G A, B,C,D,E-F-G A, B,C-D,E-F-G A, B-C-D,E-F-G A,B-C-D-E-F-G A-B-C-D-E-F-G
Núm. Deo. de Conglo merado . 7 6 5 4 3 2 1
Dist.ancia Prom.edio Ddentro del Conglomerado.
Utilizando Minitab: Stat > Multivariate Análisis > Cluster Observations Distance Measured Euclidean Seleccionar Show Dendogram OK
Pág. 88
0 1.414 2.192 2.144 2.234 2.896 3.420
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Proceso de jerarquía de conglomerados
Similarit y
50.61
67.08
83.54
100.00
A
B
C
D Observat ions
E
F
G
Dendrogram with Single Linkage and Euclidean Distance
Dist ance
3.16
2.11
1.05
0.00
1
2
3
4 Observat ions
5
6
7
La similaridad s(ij) entre dos conglomerados i, j se determina como: s (ij ) =100(1 − d (ij ) / d max )
Pág. 89
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Donde Dmax = 6.403 S(E,F) = 100(1 – 1.4142/ 6.403 ) = 77.913 S(C,D) = 100(1 – 2/6.403) = 68.7646 Cluster Analysis of Observations: V1, V2 Euclidean Distance, Single Linkage Amalgamation Steps
Step 1 2 3 4 5 6
Number of clusters 6 5 4 3 2 1
Similarity level 77.9137 68.7652 68.7652 68.7652 65.0785 50.6135
Distance level 1.41421 2.00000 2.00000 2.00000 2.23607 3.16228
Clusters joined 5 6 5 7 3 4 2 3 2 5 1 2
New cluster 5 5 3 2 2 1
Number of obs. in new cluster 2 3 2 3 6 7
Final Partition Number of clusters: 1
Cluster1
Number of observations 7
Within cluster sum of squares 41.4286
Average distance from centroid 2.23187
Maximum distance from centroid 3.77154
Ejemplo 2: Se registran las siguientes características para 14 censos: Población total (Pop), mediana de años escolares (School), empleo total (Employ),empleo en servicios de salud (Health), y valor mediano del valor de la casa (Home). Los datos se muestran a continuación: Pop 5.935 1.523 2.599 4.009 4.687 8.044 2.766 6.538 6.451 3.314 3.777 1.53 2.768 6.585
School 14.2 13.1 12.7 15.2 14.7 15.6 13.3 17 12.9 12.2 13 13.8 13.6 14.9
Employ 2.265 0.597 1.237 1.649 2.312 3.641 1.244 2.618 3.147 1.606 2.119 0.798 1.336 2.763
Health 2.27 0.75 1.11 0.81 2.5 4.51 1.03 2.39 5.52 2.18 2.83 0.84 1.75 1.91
Pág. 90
Home 2.91 2.62 1.72 3.02 2.22 2.36 1.97 1.85 2.01 1.82 1.8 4.25 2.64 3.17
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Se realiza un análisis de components principales para comprender la estructura de datos subyacente. Se usa la matriz de correlación para estandarizar las mediciones dado que no se mide con la misma escala. Las instrucciones de Minitab son las siguientes: 1
Abrir la worksheet EXH_MVAR.MTW.
2
Stat > Multivariate > Principal Components.
3
En Variables, Pop-Home.
4
En Type of Matrix, seleccionar Correlation.
5
Click Graphs y seleccionar Scree plot.
6
Click OK en cada cuadro de diálogo.
Los resultados se muestran a continuación: Principal Component Analysis: Pop, School, Employ, Health, Home Eigenanalysis of the Correlation Matrix Eigenvalue Proportion Cumulative Variable Pop School Employ Health Home
3.0289 0.606 0.606 PC1 -0.558 -0.313 -0.568 -0.487 0.174
1.2911 0.258 0.864 PC2 -0.131 -0.629 -0.004 0.310 -0.701
0.5725 0.114 0.978 PC3 0.008 -0.549 0.117 0.455 0.691
0.0954 0.019 0.998 PC4 0.551 -0.453 0.268 -0.648 0.015
0.0121 0.002 1.000 PC5 -0.606 0.007 0.769 -0.201 0.014
Scree Plot of Pop, ..., Home 3.0
Eigenvalue
2.5 2.0 1.5 1.0 0.5 0.0 1
2
3 Component Number
4
Pág. 91
5
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Interpretando los resultados El primer componente principal tiene varianza (eigenvalor) 3.029 y acumula el 60.6% de la varianza total. Los coeficientes para el PC1 muestran como calcular el nivel del componente principal. PC1 = −.558 Pop − .313 School − .568 Employ − .487 Health + .174 Home Notar que la interpretación de los components principales es subjetiva, sin embargo, frecuentemente surgen patrones obvios. Por ejemplo, se podría pensar que el primer componente represente el efecto del tamaño de la población total, el nivel de escolaridad, empleo y servicios de salud, dado que los coeficientes de estos términos tienen el mismo signo y no son cercanos a cero. El segundo componente tiene varianza 1.2911 y acumula el 25.8% de la variabilidad de los datos. Se calcula de los datos originales usando los coeficientes listados en PC2. Este componente podría ser pensado como nivel de contraste de escolaridad y valor de la casa con salud y empleo de alguna manera. Juntos el primero y segundo componentes representan el 86.4% y 97%, respectivamente, de la variabilidad total. Así, la mayoría de la estructura de datos puede ser capturada en dos o tres dimensiones relevantes. Los componentes remanentes solo tienen una menor proporción de probabilidad y no son importantes. La gráfica Scree proporciona una visión gráfica de lo anterior.
Ejemplo 32: Con los datos de HATCO se utilizan las siete percepciones de clientes para identificar segmentos de clientes. Paso 1: Objetivos del análisis de conglomerados
Pág. 92
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
El objetivo es segmentar objetos (clientes) en grupos con percepciones similares (X1 a X7). Una vez identificados, se pueden aplicar diferentes estrategias para para cada grupo. X1 = Rapidez de entrega X2 = Nivel de precio X3 = Flexibilidad de precio X4 = Imagen del fabricante X5 = Servicio en general X6 = Imagen de la fuerza de ventas X7 = Calidad del producto Paso 2. Diseño del análisis de conglomerados Se identifica si no hay puntos aberrantes en los datos. Se selecciona la medida de similaridad, en este caso la distancia euclidiana al cuadrado. Si se observa multicolinealidad que afecte a las ponderaciones de las variables, entonces se puede utilizar la distancia de Mahalanobis (D2). La estandarización de variables no es importante dado que tienen valores parecidos. Paso 3. Supuestos en el análisis de conglomerados Para el análisis se considera que los datos de la muestra representan a la población de clientes de HATCO. Queda pendiente el efecto de la multicolinealidad en la ponderación implícita de los resultados. Paso 4. Establecer conglomerados y evaluar el ajuste al modelo Con Minitab: 1. Stat > Multivariate > Cluster observations 2. Variables or distance matrix X1 – X7 3. Linkage
method
Ward
(minimizea
conglomerados) 4. Distance Measure Squared Euclidean 5. Seleccionar Show Dendogram 6. Customize Label Y axis with Distances 7. OK Los resultados se muestran a continuación: Pág. 93
la
distancia
dentro
de
los
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Cluster Analysis of Observations: X1, X2, X3, X4, X5, X6, X7 Squared Euclidean Distance, Ward Linkage Amalgamation Steps
Step 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61
Number of clusters 99 98 97 96 95 94 93 92 91 90 89 88 87 86 85 84 83 82 81 80 79 78 77 76 75 74 73 72 71 70 69 68 67 66 65 64 63 62 61 60 59 58 57 56 55 54 53 52 51 50 49 48 47 46 45 44 43 42 41 40 39
Similarity level 100.000 99.987 99.987 99.975 99.949 99.924 99.912 99.912 99.912 99.912 99.874 99.874 99.874 99.836 99.798 99.760 99.760 99.760 99.722 99.722 99.722 99.722 99.684 99.646 99.646 99.646 99.646 99.646 99.646 99.520 99.457 99.457 99.330 99.267 99.153 99.115 98.939 98.812 98.686 98.673 98.673 98.656 98.648 98.591 98.332 97.902 97.877 97.761 97.321 96.355 96.203 95.986 95.818 95.552 95.325 94.826 94.301 94.054 93.996 93.783 93.745
Distance level 0.000 0.010 0.010 0.020 0.040 0.060 0.070 0.070 0.070 0.070 0.100 0.100 0.100 0.130 0.160 0.190 0.190 0.190 0.220 0.220 0.220 0.220 0.250 0.280 0.280 0.280 0.280 0.280 0.280 0.380 0.430 0.430 0.530 0.580 0.670 0.700 0.840 0.940 1.040 1.050 1.050 1.063 1.070 1.115 1.320 1.660 1.680 1.772 2.120 2.885 3.005 3.177 3.310 3.520 3.700 4.095 4.510 4.706 4.751 4.920 4.950
Clusters joined 15 20 5 42 24 27 47 61 19 28 67 90 36 41 51 77 18 92 33 62 25 44 85 87 43 46 38 63 69 81 50 72 56 91 94 98 1 95 16 73 75 99 37 48 11 100 4 89 84 88 23 32 2 83 29 78 3 71 17 64 8 68 12 76 9 74 52 60 10 34 26 59 49 97 7 67 13 21 40 54 82 93 10 30 66 80 36 84 6 70 45 86 39 96 10 53 13 35 50 69 40 45 14 38 9 58 22 55 65 79 10 31 6 52 10 37 14 66 15 19 16 29
Pág. 94
New cluster 15 5 24 47 19 67 36 51 18 33 25 85 43 38 69 50 56 94 1 16 75 37 11 4 84 23 2 29 3 17 8 12 9 52 10 26 49 7 13 40 82 10 66 36 6 45 39 10 13 50 40 14 9 22 65 10 6 10 14 15 16
Number of obs. in new cluster 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 3 2 2 2 3 2 4 2 2 2 4 3 4 4 3 3 2 2 5 4 7 5 4 4
MÉTODOS ESTADÍSTICOS MULTIVARIADOS 62 38 93.594 5.070 4 63 37 92.867 5.645 25 64 36 92.341 6.062 25 65 35 91.633 6.622 18 66 34 90.732 7.335 23 67 33 90.566 7.466 9 68 32 89.797 8.075 11 69 31 89.607 8.225 8 70 30 88.621 9.005 1 71 29 88.537 9.072 13 72 28 87.859 9.608 40 73 27 87.621 9.797 4 74 26 86.484 10.697 3 75 25 86.381 10.778 18 76 24 86.216 10.909 7 77 23 85.195 11.717 16 78 22 85.001 11.870 39 79 21 82.841 13.580 3 80 20 82.550 13.810 9 81 19 81.104 14.954 9 82 18 77.848 17.531 2 83 17 76.996 18.205 8 84 16 67.541 25.688 1 85 15 65.781 27.081 2 86 14 61.257 30.661 7 87 13 60.778 31.040 11 88 12 56.202 34.662 6 89 11 49.784 39.741 2 90 10 42.640 45.395 3 91 9 40.362 47.197 1 92 8 36.171 50.514 1 93 7 29.104 56.107 6 94 6 19.593 63.634 5 95 5 17.930 64.950 1 96 4 -15.826 91.665 2 97 3 -96.701 155.669 2 98 2 -135.645 186.489 1 99 1 -839.878 743.820 1 Final Partition Number of clusters: 1 Within Average cluster distance Number of sum of from observations squares centroid Cluster1 100 996.352 3.05166
P. REYES / MARZO 2007 75 33 26 50 56 12 85 36 51 22 94 24 10 43 15 47 65 57 14 49 4 17 25 40 9 23 8 39 82 18 16 11 7 13 6 3 5 2 Maximum distance from centroid 5.27503
Pág. 95
4 25 25 18 23 9 11 8 1 13 40 4 3 18 7 16 39 3 9 9 2 8 1 2 7 11 6 2 3 1 1 6 5 1 2 2 1 1
4 4 6 6 4 5 4 6 4 5 6 6 9 8 7 6 4 10 10 12 8 8 10 14 19 8 12 18 12 18 24 20 21 29 38 50 50 100
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Proceso de jerarquía de conglomerados
Distance
406.13
270.75
135.38
0.00
1 9551 77 1100 858 747 6113 213 522 55 9 744 997 1276 581 520 3863 668 016 7329 781 892 4 346 50 72 69 8 125 4 4 26 59 33 62 5 42 7 67 9 014 192 8 28 375 9 923 325 6 91 670 5 26 0 8 68 36 4 18 48 8 4 89 24 2 74 0 544 5 86 9498 399 6 65 79 3 7110 34 3053 3748 57 1764 318 293 1
Observat ions
Proceso de jerarquía de conglomerados
Distance
406.13
270.75
135.38
0.00
1 9551 77 1100 858 747 6113 213 522 55 9 744 997 1276 581 520 3863 668 016 7329 781 892 4 346 50 72 69 8 125 4 4 26 59 33 62 5 42 7 67 9 014 192 8 28 375 9 923 325 6 91 670 5 26 0 8 68 36 4 18 48 8 4 89 24 2 74 0 544 5 86 9498 399 6 65 79 3 7110 34 3053 3748 57 1764 318 293 1
Observat ions
Pág. 96
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Proceso de jerarquía de conglomerados
Dist ance
406.13
270.75
135.38
0.00
2 8 3 7 5 9 9 2 3 3 2 5 6 91
6 70 52 60
8 68 36 41 84 88
4 89 24 27 40 54 45 86 9 4 9 8 3 9 9 6 6 5 7 9
3 71 10 34 30 53 37 4 8 57 17 64 31 82 93
Observat ions
Proceso de jerarquía de conglomerados
Dist ance
406.13
270.75
135.38
0.00
1 9 5 5 1 7 7 1 1 0 0 8 5 8 7 4 7 6 1 1 3 2 1 3 5 22 5 5 9 7 4 49 9 7 1 2 7 6 5 8 1 5 2 0 3 8 6 3 6 6 8 0 1 6 7 3 2 9 7 8 18 9 2 43 4 6 50 7 2 6 9 8 1 2 5 4 4 2 6 5 9 3 3 6 2 5 4 2 7 6 7 9 0 14 1 9 28 1
Observat ions
B. Conglomerado de observaciones por K-Medias
Pág. 97
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Esta opción se utiliza de manera similar al conglomerado de observaciones, para clasificar observaciones en grupos cuando no se conocen al inicio. Este procedimiento utiliza la formación de conglomerados no jerárquicos de observaciones de acuerdo al algoritmo de MacQueen. 1 El algoritmo funciona mejor cuando hay suficiente información disponible para hacer asignaciones iniciales de conglomerados adecuadas. El procedimiento de conglomerado por K medias inicia al agrupar observaciones en un número de conglomerados predefinidos. 1. Se evalúa cada observación, moviéndola al conglomerado más cercano, que es el que tiene la distancia euclidiana más pequeña entre la observación y el centroide del conglomerado. 2. Cuando cambia el conglomerado, al ganar o perder alguna observación, se recalcula el centroide del conglomerado. 3. El proceso se repite hasta que no haya más observaciones a mover dentro de un conglomerado diferente. De esta manera, todas las observaciones están en su conglomerado más cercano. De modo diferente a la clasificación jerárquica, es posible que dos observaciones sean partidas en conglomerados diferentes después de que hayan reunido. El procedimiento de K medias trabaja mejor cuando se proporcionan puntos de arranque para los conglomerados adecuados, hay dos formas de hacerlo:
Especificando un número de conglomerados o
Proporcionando una columna de partición inicial que contenga códigos de grupos.
Suponiendo que se sabe que la partición final consistirá de tres grupos, y que las observaciones 2, 5 y 9 pertenecen a esos grupos respectivamente. Para proceder depende de si se especifica el número de conglomerados o se proporciona una columna de partición. 1
R. Johnson and D. Wichern (1992). Applied Multivariate Statistical Methods, Third Edition. Prentice Hall.
Pág. 98
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Si se especifica el número de conglomerados, los datos deben acomodarse de manera que las observaciones 2, 5 y 9 se encuentren al principio de la hoja de trabajo, y especificar 3 como número de conglomerados (Number of clusters).
Si se especifica una columna inicial de partición, no es necesario acomodar los datos. En la columna de partición inicial de la hoja de trabajo, poner los números de grupo 1, 2, y 3, para las observaciones 2, 5, y 9 respectivamente y cero para las otras observaciones.
La partición final depende en gran modo de la partición inicial utilizada, se pueden intentar diferentes particiones.
Ejemplo: Se atrapan, anestesian, y miden ciento cuarenta y tres osos negros. Las mediciones son altura y longitud de la cabeza (Lenght, Head L), peso total y peso de la cabeza (Weight, Weight H.), dimensión del cuello y del cachete (Neck G., Chest G.). Se desea clasificar los 143 osos, como pequeños, de tamaño medio, o grandes. Se sabe que el segundo, setenta y ochoavo, y quincuagésimo (15) oso de la muestra es típico de esas categorías respectivas. Se crea la columna de partición inicial con los tres osos semilla, designados como: 1 = pequeño, 2= tamaño medio y 3= grande y los remanentes osos como cero (desconocidos) para indicar membresía inicial del conglomerado. Después se realiza un análisis de conglomerado por K medias y se guardan las membresías del conglomerado en cada columna denominada BearSize. Los datos se muestran a continuación: No.
Head.L Head.W Neck.G Length Chest.G Weight
BearSiz e
No.
1
10
5
15
45
23
65
1
73
2
11
6.5
20
47.5
24
70
1
3
12
6
17
57
27
74
1
4
12.5
5
20.5
59.5
38
142
5
12
6
18
62
31
121
Head.L Head.W Neck.G Length Chest.G Weight BearSize 15.5
7
28
74
9
5
75
14.5
7
2
76
13.5
2
77
18.5
Pág. 99
76.5
55
446
3
15
46
23
61.5
27
62
1
44
236
8.5
23
2
63.5
44
212
8.5
23.5
2
67.5
42
204
3
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
6
11
5.5
16
53
26
80
1
78
15
7
26
65
40
224
2
7
12
5.5
17
56
30.5
108
1
79
10
4
15.5
48
26
60
1
8
16.5
9
28
67.5
45
344
3
80
10
5
15
41
26
64
1
9
16.5
9
27
78
49
371
3
81
13
7
21
59
34
146
2
10
15.5
8
31
72
54
416
3
82
15.5
6
20.5
60
35
152
2
11
16
8
32
77
52
432
3
83
15.5
9
29
79
50
400
3
12
17
10
31.5
72
49
348
3
84
13.5
7
24.5
62
41
248
2
13
15.5
7.5
32
75
54.5
476
3
85
14.5
6.5
26
70.5
41
278
3
14
17.5
8
32
75
55
478
3
86
15
7
26.5
69
46.5
297
3
15
15
9
33
75
49
386
3
87
16
9
31.5
75
47
350
3
16
15.5
6.5
22
62
35
166
2
88
11.5
5
17
53
30.5
114
1
17
13
7
21
70
41
220
2
89
11.5
5
15
52.5
28
76
1
18
15
6.5
28
78
45
334
3
90
11
4.5
13
46
23
48
1
19
15
7.5
26.5
73.5
41
262
3
91
12
6
19
57
34.5
148
2
20
13.5
8
27
68.5
49
360
3
92
13.5
5
17
58
29
114
1
21
15.5
7
29.3
76
53
416
3
93
13.5
5
17
58
29.5
116
1
22
13.5
7
20
64
38
204
2
94
12.5
7.5
19
60
34
158
2
23
12.5
6
18
58
31
144
2
95
14
6.5
21
63
35
198
2
24
12
8.3
18.5
60.3
32
122
2
96
12
5
19
58.5
33.5
114
1
25
16
9
29
73
44
332
3
97
13
6
17.5
61
33
135
2
26
9
4.5
13
37
19
34
1
98
13.5
5
17
58
29
130
1
27
12.5
4.5
10.5
63
32
140
1
99
12.5
6.5
18
60
30
130
2
28
14
5
21.5
67
37
180
2
100
13.5
6.5
22
64
36
190
2
29
11.5
5
17.5
52
29
105
1
101
14.5
6.5
21.5
64
37
180
2
30
13
8
21.5
59
33
166
2
102
12
6.5
18.5
55.5
27.5
110
1
31
13.5
7
24
64
39
204
2
103
13
6
19.5
61.5
31
140
2
32
14.5
7.5
26.5
66
40
250
3
104
13.5
6
20
63.5
33
144
2
33
9
4.5
12
36
19
26
1
105
13.5
6
20
64
35
160
2
34
13
6
19
59
30
120
2
106
13.5
6.5
22
66.5
35
184
2
35
13
6
19
59
30
114
2
107
11
5
15.5
48.5
25.5
79
1
36
13.5
6.5
23
66.5
38
210
2
108
14.5
6
22.5
67
40
216
2
37
16
9.5
30
72
48
436
3
109
15
8
26.5
71
42.5
302
3
38
12.5
5
19
57.5
32
125
1
110
12
6
19
53.5
32
122
1
39
12.5
6
19
57
34
152
2
111
17
9
29.5
70
45.5
322
3
40
12.5
6.5
19.5
61
36
176
2
112
15.5
8
27
70
47
308
3
41
13
5
20
61
33
132
2
113
15.5
8
20
63
33
154
2
42
13.5
5
18.5
57
35
180
2
114
12
6
18
66.5
34
146
2
43
13
5
17
54
28
90
1
115
13
5.5
19.5
64
35
162
2
44
13
5.5
20.5
57.8
34.5
140
2
116
17.5
8
30
83
49
396
3
45
10
4
13
40
23
40
1
117
13
5
18
55.5
30.5
122
1
46
16
6
24
63
42
220
2
118
13
5.5
19.5
55
32.5
126
2
47
10
4
13.5
43
23
46
1
119
13
6
20.5
57
34
146
2
48
11
5
15
45
25
60
1
120
13
5.5
19.5
61.5
37
156
2
49
13.5
6
22
66.5
34
154
2
121
12.5
6
19.5
58.5
32
142
2
50
13
5.5
17.5
60.5
31
116
2
122
10
4.5
10
43.5
24
29
1
51
13
6.5
21
60
34.5
182
2
123
16.5
8.5
29.5
69
49.5
348
3
52
14.5
5.5
20
61
34
150
2
124
17
8.5
30.5
79.5
48.5
368
3
53
14
6.5
26
65
39
180
2
125
12
5.5
18
54.5
32
116
1
54
13
6
20
63
35
172
2
126
13
6
19
59
34
130
2
55
13.5
6
21
59.5
32.5
150
2
127
14
7
21
66.5
37
160
2
56
11
4
16
50.5
28
90
1
128
13
6.5
20.5
60
36.5
154
2
57
9.5
4.5
16
40
26
65
1
129
16
7.5
28
73
45
316
3
58
13.5
6.5
28
64
48
356
3
130
13.5
5.5
19.5
61
35
158
2
59
14.5
6.5
26
65
48
316
3
131
12.5
5.5
19
56
32
120
1
Pág. 100
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
60
13.5
5.5
19
60.5
34
148
2
132
15.5
8
30.5
75
54
514
3
61
11.5
5.5
17.5
52.5
30
104
1
133
15.5
7.5
25.5
73.5
43
324
3
62
11
5
17
49
29
94
1
134
14.5
7
22
67.5
38
196
2
63
11.5
5
17
47
29.5
86
1
135
12.5
8.5
18
57.3
32.8
140
2
64
13
7
21
59
35
150
2
136
12
5
18
56
32.5
114
1
65
13.5
6
21
64
35
166
2
137
12
5.5
15
51
24
82
1
66
16.5
6.5
27
72
44.5
270
3
138
13
6
22
61
40
230
2
67
14
5.5
24
65
39
202
2
139
15.5
6
23
69
42.5
290
2
68
13.5
6.5
21.5
63
40
202
2
140
15.5
6
23
69
42.5
289
2
69
15.5
7
28
70.5
50
365
3
141
12
4
17.5
59
28.5
128
1
70
11.5
6
16.5
48
31
79
1
142
13.5
6
20
62
32.5
156
2
71
11.5
5
17
50.5
28
90
1
143
16.5
6.5
30
72
49
398
3
Las instrucciones de Minitab son las siguientes: 1
Open worksheet BEARS.MTW.
2
Para crear la columna de partición inicial, seleccionar Calc > Make
Patterned Data > Simple Set of Numbers. 3
En Store patterned data in, nombrar Inicial a la columna de
almacenamiento. 4
En From first value y From last value, poner 0.
5
En List each value, poner 143. Click OK.
6
Ir a la ventana de datos y poner 1, 2, y 3 en los renglones 2, 78 y 15
respectivamente en la columna Inicial. 7
Seleccionar Stat > Multivariate > Cluster K-Means.
8
En Variables, seleccionar 'Head.L'-Weight.
9
En Specify Partition by, seleccionar Initial partition column e Inicial.
10 Seleccionar Standardize variables. 11 Seleccionar Storage. en Cluster membership column, seleccionar BearSize. 12 Click OK en cada uno de los cuadros de diálogo Los resultados se muestran a continuación: Session window output K-means Cluster Analysis: Head.L, Head.W, Neck.G, Length, Chest.G, Weight Standardized Variables Final Partition
Pág. 101
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
K medias clasifica a los 143 osos de la forma siguiente: Number of clusters: 3
Cluster1
Number of observations 41
Within cluster sum of squares 63.075
Average distance from centroid 1.125
Maximum distance from centroid 2.488
Cluster2
67
78.947
0.997
2.048
Cluster3
35
65.149
1.311
2.449
Cluster Centroids Cluster1 -1.0673
Cluster2 0.0126
Cluster3 1.2261
Grand centroid -0.0000
Head.W
-0.9943
-0.0155
1.1943
0.0000
Neck.G
-1.0244
-0.1293
1.4476
-0.0000
Length
-1.1399
0.0614
1.2177
0.0000
Chest.G
-1.0570
-0.0810
1.3932
-0.0000
Weight
-0.9460
-0.2033
1.4974
-0.0000
Variable Head.L
Distances Between Cluster Centroids Cluster1
Cluster2
Cluster3
Cluster1
0.0000
2.4233
5.8045
Cluster2
2.4233
0.0000
3.4388
Cluster3
5.8045
3.4388
0.0000
En general, un conglomerado con una suma de cuadrados pequeña es más compacto que otro con una suma más grande. El centroide es el vector de medias de variables de las observaciones en ese conglomerado y se usa como el punto central del conglomerado La columna BearSize contiene la designación del conglomerado.
Pág. 102
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Ejemplo de HATCO: De Minitab con soluciones por grupos de Conglomerados: 1. Stat > Multivariate > Cluster K Means 2. Variables or distance matrix X1 – X7 3. Number of clusters 2 o 4 4. OK Solución por dos conglomerados K-means Cluster Analysis: X1, X2, X3, X4, X5, X6, X7 Final Partition Number of clusters: 2
Cluster1 Cluster2
Number of observations 52 48
Within cluster sum of squares 315.799 294.132
Average distance from centroid 2.383 2.368
Maximum distance from centroid 4.285 4.279
Cluster Centroids Variable X1 X2 X3 X4 X5 X6 X7
Cluster1 4.3827 1.5808 8.8615 4.9250 2.9577 2.5250 5.9038
Cluster2 2.5750 3.2125 6.8458 5.5979 2.8708 2.8167 8.1271
Grand centroid 3.5150 2.3640 7.8940 5.2480 2.9160 2.6650 6.9710
Distances Between Cluster Centroids Cluster1 Cluster2
Cluster1 0.0000 3.9347
Cluster2 3.9347 0.0000
En esta solución se observa que en el grupo o cluster 1 versus cluster 2, X1 y X3 son mayores. En el caso de las variables X2, X4, X6 y X7 tienen valores más altos en el cluster 2 que en el cluster 1. X5 no muestra diferencia significativa. Por tanto se sugieren dos segmentos, evaluados desde un punto de vista conceptual y práctico. Corriendo con SPSS se tiene: 1. Analyze > Clasify > K Jeans Clusters Pág. 103
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
2. Variables X1 – X7 3. Number of clusters 2 4. OK ANOVA Cluster X1 X2
Mean Square 81.563 66.457
X3 X4 X5
Error df 1 1
Mean Square .930 .766
101.414
1
11.302 .188
X6 X7
df 98 98
F 87.717 86.753
Sig. .000 .000
.923
98
109.816
.000
1
1.178
98
9.596
.003
1
.568
98
.331
.566
2.123
1
.579
98
3.670
.058
123.372
1
1.280
98
96.404
.000
The F tests should be used only for descriptive purposes because the clusters have been chosen to maximize the differences among cases in different clusters. The observed significance levels are not corrected for this and thus cannot be interpreted as tests of the hypothesis that the cluster means are equal.
Solución por cuatro conglomerados K-means Cluster Analysis: X1, X2, X3, X4, X5, X6, X7 Final Partition Number of clusters: 4
Cluster1 Cluster2 Cluster3 Cluster4
Number of observations 34 29 14 23
Within cluster sum of squares 155.126 123.693 54.234 109.941
Average distance from centroid 2.100 2.012 1.833 2.031
Maximum distance from centroid 2.922 3.211 3.051 3.947
Cluster Centroids Variable X1 X2 X3 X4 X5 X6 X7
Cluster1 4.1441 1.5794 8.5765 4.4176 2.8353 2.0882 5.3147
Cluster2 2.0241 2.7655 7.0103 5.1621 2.3655 2.5552 8.2690
Cluster3 3.6143 4.1286 5.9500 6.0643 3.8429 3.1643 7.9500
Cluster4 4.4043 1.9435 9.1826 6.0870 3.1652 3.3522 7.1870
Grand centroid 3.5150 2.3640 7.8940 5.2480 2.9160 2.6650 6.9710
Distances Between Cluster Centroids Cluster1 Cluster2 Cluster3 Cluster4
Cluster1 0.0000 4.2514 5.0504 2.9268
Cluster2 4.2514 0.0000 2.9967 3.7896
Cluster3 5.0504 2.9967 0.0000 4.1141
Cluster4 2.9268 3.7896 4.1141 0.0000
El Cluster 3 es mucho más compacto que el cluster 1, como se indica por la suma de cuadrados.
Pág. 104
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
En este caso se muestra en forma más clara un grupo de patrones con valores altos y otro con valores bajos. Corriendo con SPSS se tiene: 5. Analyze > Clasify > K Jeans Clusters 6. Variables X1 – X7 7. Number of clusters 4 OK ANOVA Cluster X1 X2
Mean Square 37.108 28.530
X3 X4
Error df 3 3
Mean Square .639 .583
37.115
3
15.527
3
X5
7.487
X6
8.242
df 96 96
F 58.055 48.960
Sig. .000 .000
.839
96
44.224
.000
.835
96
18.598
.000
3
.348
96
21.509
.000
3
.355
96
23.204
.000
X7
53.222 3 .928 96 57.330 .000 The F tests should be used only for descriptive purposes because the clusters have been chosen to maximize the differences among cases in different clusters. The observed significance levels are not corrected for this and thus cannot be interpreted as tests of the hypothesis that the cluster means are equal.
C. Conglomerados por variables Usar conglomerados por variables para clasificar variables en grupos, cuando son inicialmente desconocidos. Una razón puede ser reducir su número. Esta técnica puede dar nuevas variables que sean más comprensibles que las que proporciona el análisis de componentes. El procedimiento es jerárquico e inicia con todas las variables por separado, cada una formando su propio conglomerado. En el primer paso, se unen las dos variables más cercanas. Después, ya sea que una tercera variable se agregue a las dos primeras, o se unan en un conglomerado diferente. El proceso continua hasta que todos lo conglomerados se unen en uno.
Pág. 105
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Ejemplo: Se realiza un estudio para determinar el efecto de largo plazo de un cambio en el ambiente en la presión arterial. Los sujetos son 39 peruanos de alrededor de 21 años que han migrado de las montañas de los Andes a ciudades más grandes con menor altura. Se registra la edad (Age), años desde la migración (Years), peso en Kgs. (Weight), estatura en mm (Height), mentón, antebrazo, y pierna en mm (Chin, Forearm, Calf), pulso en latidos por minuto (Pulse), y presión sistólica y diastólica (Systol, Diastol). El objetivo es reducir el número de variables al combinar variables con características similares. Se usa la distancia de correlación, enlace promedio y dendograma.
Los datos son los siguientes:
Peru.Mtw Age 21 22 24 24 25 27 28 28 31 32 33 33 34 35
Years 1 6 5 1 1 19 5 25 6 13 13 10 15 18
Weight 71 56.5 56 61 65 62 53 53 65 57 66.5 59.1 64 69.5
Height 1629 1569 1561 1619 1566 1639 1494 1568 1540 1530 1622 1486 1578 1645
Chin 8 3.3 3.3 3.7 9 3 7.3 3.7 10.3 5.7 6 6.7 3.3 9.3
Pág. 106
Forearm 7 5 1.3 3 12.7 3.3 4.7 4.3 9 4 5.7 5.3 5.3 5
Calf 12.7 8 4.3 4.3 20.7 5.7 8 0 10 6 8.3 10.3 7 7
Pulse 88 64 68 52 72 72 64 80 76 60 68 72 88 60
Systol 170 120 125 148 140 106 120 108 124 134 116 114 130 118
Diastol 76 60 75 120 78 72 76 62 70 64 76 74 80 68
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
35 36 36 37 37 38 38 38 38 39 39 39 41 41 41 42 43 43 43 44 44 45 47 50 54
2 12 15 16 17 10 18 11 11 21 24 14 25 32 5 12 25 26 10 19 18 10 1 43 40
64 56.5 57 55 57 58 59.5 61 57 57.5 74 72 62.5 68 63.4 68 69 73 64 65 71 60.2 55 70 87
1648 1521 1547 1505 1473 1538 1513 1653 1566 1580 1647 1620 1637 1528 1647 1605 1625 1615 1640 1610 1572 1534 1536 1630 1542
3 3.3 3 4.3 6 8.7 5.3 4 3 4 7.3 6.3 6 10 5.3 11 5 12 5.7 8 3 3 3 4 11.3
P. REYES / MARZO 2007
3.7 5 3 5 5.3 6 4 3.3 3 3 6.3 7.7 5.3 5 4.3 7 3 4 3 6.7 4.7 3 3 6 11.7
6.7 11.7 6 7 11.7 13 7.7 4 3 5 15.7 13.3 8 11.3 13.7 10.7 6 5.7 7 7.7 4.3 3.3 4 11.7 11.3
60 72 84 64 72 64 80 76 60 64 64 68 76 60 76 88 72 68 60 74 72 56 64 72 92
138 134 120 120 114 124 114 136 126 124 128 134 112 128 134 128 140 138 118 110 142 134 116 132 152
Las instrucciones de Minitab son las siguientes: 1
Open worksheet PERU.MTW.
2
Choose Stat > Multivariate > Cluster Variables.
3
In Variables or distance matrix, enter Age-Diastol.
4
For Linkage Method, choose Average.
5
Check Show dendrogram. Click OK.
Los resultados son los siguientes: Cluster Analysis of Variables: Age, Years, Weight, Height, Chin, Forearm, ... Correlation Coefficient Distance, Average Linkage Amalgamation Steps
En cada paso se unen dos conglomerados:
Step 1 2 3 4 5 6 7 8 9
Number of clusters 9 8 7 6 5 4 3 2 1
Similarity level 86.7763 79.4106 78.8470 76.0682 71.7422 65.5459 61.3391 56.5958 55.4390
Distance level 0.264474 0.411787 0.423059 0.478636 0.565156 0.689082 0.773218 0.868085 0.891221
Clusters joined 6 7 1 2 5 6 3 9 3 10 3 5 3 8 1 3 1 4
Pág. 107
New cluster 6 1 5 3 3 3 3 1 1
Number of obs. in new cluster 2 2 3 2 3 6 7 9 10
78 86 70 76 80 64 66 78 72 62 84 92 80 82 92 90 72 74 66 70 84 70 54 90 88
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Dendrogram with Average Linkage and Correlation Coefficient Distance 55.44
Similarit y
70.29
85.15
100.00
Age
Years Weight Systol Diastol Chin Forearm Calf Variables
Pulse Height
El dendograma muestra la información de los resultados del proceso de aglomeración en forma de diagrama de árbol, de aquí se sugiere que las algunas variables son similares, y se pueden combinar ya sea promediando sus valores o calculando totales:
Chin, Forearm, Calf son similares y pueden combinarse.
Age y Year son similares pero se investigará la relación. Si los sujetos tienden a migrar a cierta edad entonces las variables pueden contener información similar y pueden combinarse.
El peso y las presiones son similares, sin embargo se decide mantener el peso separado y unir las presiones en una.
Ejemplo con Hatco: Investigando ahora la agrupación de variables se tiene:
En Minitab: 1. Stat > Multivariate > Cluster variables 2. Variables or distance matrix X1 – X7
Pág. 108
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
3. Linkage
method
Ward
P. REYES / MARZO 2007
(minimizea
la
distancia
dentro
de
conglomerados) 4. Distance Measure Correlation 5. Seleccionar Show Dendogram 6. Customize Label Y axis with Distances 7. OK Los resultados se muestran a continuación: Cluster Analysis of Variables: X1, X2, X3, X4, X5, X6, X7 Correlation Coefficient Distance, Ward Linkage Amalgamation Steps
Step 1 2 3 4 5 6
Number of clusters 6 5 4 3 2 1
Similarity level 89.4112 80.5950 73.4873 57.8288 39.4434 -4.3342
Distance level 0.21178 0.38810 0.53025 0.84342 1.21113 2.08668
Clusters joined 4 6 1 5 2 7 1 3 2 4 1 2
New cluster 4 1 2 1 2 1
Number of obs. in new cluster 2 2 2 3 4 7
Dendrogram with Ward Linkage and Correlation Coefficient Distance
Dist ance
2.09
1.39
0.70
0.00
X1
X5
X3
X2 Variables
X7
X4
X6
Se identifican conglomerados en las variables X1 y y X5; X2 y X7; X4 y X6, después entre X1, X5, X3 y X2, X7, X4 y X6 y al final un solo conglomerado.
Pág. 109
los
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Paso 5. Interpretación de los conglomerados Como resultado de un análisis factorial se tiene: Instrucciones en Minitab: 1. Stat > Multivariate > Factor analysis 2. Variables X1 – X7 Method of Extraction Maximum likelihood 3. Rotation Varimax 4. Graphs Scree Plot y Loading Plot for first two factors 5. OK
Factor Analysis: X1, X2, X3, X4, X5, X6, X7 Maximum Likelihood Factor Analysis of the Correlation Matrix * NOTE * Heywood case Unrotated Factor Loadings and Communalities Variable X1 X2 X3 X4 X5 X6 X7
Factor1 0.969 -0.181 0.436 0.133 0.752 0.133 -0.424
Factor2 0.177 -0.984 0.400 -0.301 -0.660 -0.214 -0.400
Communality 0.971 1.000 0.350 0.108 1.000 0.063 0.340
Variance % Var
1.9431 0.278
1.8896 0.270
3.8327 0.548
Rotated Factor Loadings and Communalities Varimax Rotation Variable X1 X2 X3 X4 X5 X6 X7
Factor1 -0.894 0.714 -0.587 0.065 -0.235 0.015 0.577
Factor2 0.414 0.700 -0.075 0.323 0.972 0.251 0.082
Communality 0.971 1.000 0.350 0.108 1.000 0.063 0.340
Variance % Var
2.0468 0.292
1.7859 0.255
3.8327 0.548
Factor Score Coefficients Variable
Factor1
Factor2
Pág. 110
MÉTODOS ESTADÍSTICOS MULTIVARIADOS X1 X2 X3 X4 X5 X6 X7
0.000 1.132 0.000 -0.000 -0.815 -0.000 -0.000
P. REYES / MARZO 2007
-0.000 0.273 -0.000 -0.000 0.832 -0.000 0.000
Loading Plot of X1 , ..., X7 X5
1.0
0.8
Second Fact or
X2
0.6 X1
0.4
X4 X6
0.2 X7
0.0
X3
-1.0
-0.5
0.0 First Fact or
0.5
Para las correlaciones en Minitab: 1. Stat > Basic statistics > Correlations 2. Variables X1 – X7 Show P values 3. OK Correlations: X1, X2, X3, X4, X5, X6, X7 X1 -0.349 0.000
X2
X3
0.476 0.000
-0.472 0.000
X4
0.050 0.618
0.272 0.006
-0.095 0.347
X5
0.612 0.000
0.513 0.000
0.064 0.524
0.299 0.003
X6
0.077 0.446
0.186 0.064
-0.015 0.880
0.788 0.000
0.241 0.016
X7
-0.483 0.000
0.470 0.000
-0.407 0.000
0.200 0.046
-0.055 0.586
X2
X3
X4
X5
Cell Contents: Pearson correlation P-Value
Pág. 111
X6
0.177 0.078
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Al definir los factores que son las dimensiones de las variables que se correlacionan significativamente, se observan dos factores. El primer factor contiene a X1, X2, X3 y X7 y el segundo factor contiene a los aspectos de imagen X4 y X6. En el primer factor X2 y X7 se relacionan inversamente con X1 y X3, es decir que mientras se incrementan unas, las otras bajan. Esto sugiere que altos valores en X1 y X3 implican valores bajos en X2 y X7. O sea que definir conglomerados sólo con base en valores altos o bajos es inapropiado. De la tabla ANOVA para dos conglomerados se observa que solo X5 – Servicio general no es significativa. 10 9 8 7
Cluster
6
1
5
2
4 3 2 1 0 X1
X2
X3
X4
X5
X6
X7
De la gráfica de centros de conglomerados se observa que X4 y X6 tienen valores mayores en el conglomerado 2 que en el 1 y X1, X3 tienen valores mayores en el conglomerado 1 que en el 2 y X2 y X7 son menores. Para el caso de 4 conglomerados, el 1 se divide en 1 y 4 y el 2 se divide en 2 y 3 se tiene:
Pág. 112
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
12 10 8
1 2
6
3 4
4 2 0 X1
X2
X3
X4
X5
X6
X7
En general la aplicación del análisis de conglomerados es un arte más que una ciencia y se deben aplicar criterios objetivos y subjetivos adecuados.
Pág. 113
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
9. ANÁLISIS DE COMPONENTES PRINCIPALES
Pág. 114
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
9. ANÁLISIS DE COMPONENTES PRINCIPALES Introducción El objetivo del análisis es tomar p variables X1, X2, …., Xp algunas de ellas correlacionadas entre sí y encontrar combinaciones de las mismas para producir índices Z1, Z2, ….., Zp que sean no correlacionadas. Z1 muestra la mayor parte de la varianza, seguida de Z2, etc. Se trata de reducir el número de variables X por un pequeño grupo de variables Z. Un ejemplo clásico2 es tratar de caracterizar criminales con base en siete dimensiones corporales. Las dimensiones utilizadas fueron: longitud del dedo izquierdo, longitud de la pierna izquierda, longitud del pie izquierdo, longitud de la cabeza, ancho de la cabeza, ancho y alto de la cara. Como resultados del análisis3 se determinaron tres componentes no correlacionados de esas mediciones, en conjunto acumulaban el 84% de la varianza total de las siete variables originales. Cada uno de los componentes es una combinación lineal de las siete variables originales.
El primero incluye el 54% de la varianza total y se refiere a las dimensiones generales.
El segundo contiene el 25% de la varianza total representa el contraste entre el tamaño de la cabeza y y el resto del cuerpo.
El tercer tiene el 9% de la varianza y contrasta la longitud de la cabeza con su ancho.
Los coeficientes se muestran a continuación: Variables Long. Cabeza Ancho cabeza Ancho cara Long. Dedo izq. Long. Brazo izq. Pie izquierdo Estatura 2 3
Coeficientes Primero Segundo Tercero 0.538 -0.447 -0.712 0.413 -0.784 0.206 0.575 -0.628 0.309 0.853 0.288 0.056 0.888 0.339 0.030 0.878 0.219 0.048 0.849 0.220 0.005
Maxwell, A.E., Multivariate Analysis in Behavioral Research, Chapman and Hall, Londres, 1977. Ibidem
Pág. 115
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
La posibilidad de caracterizar a los criminales con sus dimensiones motivo al desarrollo de los análisis multivariados.
El método de componentes principales Dada la matriz X que representa n observaciones en cada una de las p variables, X1, X2, X3, …., Xp, el propósito del análisis de componentes principales consiste en determinar una nueva variable Z1 que pueda ser utilizada para acumular la varianza de las p X variables. El componente principal Z1 está dado por la combinación lineal de las p X variables por: Z1 = v11 X 1 +v21 X 2 +..... + v p1 X p
Para determinar los coeficientes de Z1 se usa el método de mínimos cuadrados, donde se trata de minimizar la suma de las desviaciones al cuadrado de:
∑ ∑ p
n
j =1
i =1
( xˆij − xij ) 2
Donde: zi1 = ∑v j1 x ij xˆij = a j1 zi1 xij i =1,2,...., n; j =1,2,...., p
Denota las observaciones en X. En notación matricial se trata de determinar los los vectores (p x1) v1 y a1, donde z1 (n x 1) = Xv1 y X = z1a’1 tal que
tr ( X − Xˆ )' ( X − Xˆ )
sea minimizada.
Para la solución de este problema se utilizan los valores característicos o Eigenvalores, dados por: ( X ' X − λI )v = 0
Pág. 116
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Como la magnitud de v es arbitraria, v’v=1. Por tanto la solución al problema son los vectores característicos o eigenvalores λj, j = 1,2,3,…., s y los vectores característicos correspondientes vj, j = 1,2,3,…., s, donde el número de soluciones de s, corresponde al rango de (X’X). Ejemplo:
15 6 2 0 3 Dada la matriz A = 15 4 2 2 3 0 2 2 Los valores característicos o Eigenvalores se obtienen al resolver la ecuación del determinante: | A - λI | = 0, lo cual da en este caso:
15 (6 − λ ) 2 0 3 15 ( 4 − λ ) 2 2 = 0 3 0 (2 − λ ) 2 El polinomio resultante es: 3 15 (6 − λ)(4 − λ)(2 − λ) − (6 − λ) − ( 2 − λ) = 0 2 2
Con sus raíces características o eigenvalores λ = 1, 3 y 8. Los eigenvectores correspondientes se obtienen resolviendo la ecuación
Pág. 117
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
(A -λI)v = 0 para cada uno de los eigenvalores λ. Para el caso de λ = 3 se tiene:
15 (6 − 3) 2 0 v1 15 3 2 ( 4 − 3) 2 v2 = 0 v3 La restricción para que la solución sea única es que: 3 0 2 (2 − 3) v12 + v22 + v32 = 1 Proporciona el eigenvector: 1 v ' = − 2
3 10
9
20
Determinado los otros eigenvectores se tiene la matriz V.
3 1 9 − 28 − 2 14 V = 5 3 12 14 10 35 15 9 1 − 28 20 70 Pág. 118
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
En Matlab se tiene: To get started, select "MATLAB Help" from the Help menu. >> A=[6 sqrt(15/2) 0; sqrt(15/2) 4 sqrt(3/2); 0 sqrt(3/2) 2] A =
6.0000 2.7386 0
2.7386 4.0000 1.2247
0 1.2247 2.0000
>> Lamda=eig(A) Lamda = 1.0000 3.0000 8.0000 >> [V,D]=eig(A) V =
0.3273 -0.5976 0.7319
0.5000 -0.5477 -0.6708
-0.8018 -0.5855 -0.1195
0 3.0000 0
0 0 8.0000
D = 1.0000 0 0 >>
Los s eigenvectores y sus correspondientes eigenvalores proporcionan s soluciones para el componente principal deseado Z1. La solución que corresponde al mínimo requerido emplea el eigenvalor más grande λ1 y su vector correspondiente v1. En particular var(Zi) = λi y las constantes ai1, ai2, …, aip son los elementos del eigenvector correspondiente. Los pasos para hacer un análisis de componentes principales son los siguientes:4 1. Iniciar codificando las variables X1, X2, ….., Xp a que tnegan media cero y desviación estándar uno. 2. Calcular la matriz de covarianza C. Es la matriz de correlación después del paso 1.
4
Bryan, F.J. Manly, Multivariate Statistical Methods, Chapman and Hall, Londres, 1986
Pág. 119
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
1 c12 ..................c1 p c21 1 ........... c2 p C= .............................. c p1 c p 2 ........... 1 Donde cada Cij = Cji es la correlación entre Xi y Xj. De esta manera la suma de los términos diagonales, y la suma de los eigenvalores es igual al número de variables p. 3. Encontrar los eigenvalores λ1, λ2, ……, λp y los correspondientes eignevectores a1, a2, …… , ap. Los coeficientes del i-ésimo componente principal están dados por ai mientras que la varianza es λi. 4. Descartar cualquier componente que solo contenga una pequeña parte de la varianza de los datos (menor o igual a uno). Por ejemplo, iniciando en 20 variables, puede ser que los primeros tres componentes tengan el 90% de la varianza total. Bajo esta base, se pueden ignorar los otros 17 componentes.
Ejemplo: Los datos de las dimensiones de 49 pájaros se muestran a continuación: Tabla y corrida Minitab Los eigenvalores de esta matriz son: 3.616, 0.532, 0.386, 0.302 y 0.164, que suman 5.000, que es igual a la suma de los términos de la diagonal de la matriz C. De la tabla de eigenvectores, se obtienen los coeficientes de los componentes principales. El eigenvalor de un componente principal, indica la varianza de un total de 5.000. Así, para el primer componente principal se tiene:
Pág. 120
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
(3.616/5.000)*100%=72.3%; el segundo tiene 10.6%; el tercero 7.7%, etc. De manera clara, el primer componente es el más importante. El primer componente principal es: Z1 = −0.452 X 1 + 0.462 X 2 + 0.451X 3 + 0.471X 4 + 0.398 X 5
Donde X1 a X5 son las variables estandarizadas. Este es un índice del tamaño de los pájaros. De modo que el 72.3% de la varianza de los datos está relacionada con diferencias en los tamaños. El segundo componente principal es: Z 2 = −0.051X 1 + 0.300 X 2 + 0.325 X 3 + 0.185 X 4 − 0.877 X 5
En este caso contrasta X2, X3 y X4 contra X5, de modo que Z2 será alta si (X2,X3,X4) son altas y (X5) es baja, por tanto puede considerarse que representa la diferencia de forma entre los pájaros. Para calcular Z1, primero se estandarizan las Xi como sigue: X1 = (x1 – Media x1)/ desv. Estad. x1 = (156 – 157.98) / 3.654 X2 = (245 – 241.327)/5.068 = 0.725 X3 = (31.6 – 31.459)/0.795 = 0.177 X4 = (18.5 – 18.469)/0.564 = 0.055 X5 = (20.5 – 20.827)/0.991 = -0.330 Sustituyendo estos valores en las ecuaciones para Z1 y Z2 se tiene: Z1 = 0.064 Z2 = 0.602 De esta misma manera se pueden calcular los otros componentes. Los valores de las coordenadas Z correspondientes a los diferentes pájaros se muestra a continuación.
Pág. 121
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
En la figura se puede observar que los pájaros con valores extremos en dimensiones Z1 tienen menos probabilidades de sobrevivir, lo mismo sucede para valores altos de Z2.
Pág. 122
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Ejemplo: alimentos en las principales ciudades europeas: X1 País 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
X2
RMEAT WMEAT 10.1 1.4 8.9 14 13.5 9.3 7.8 6 9.7 11.4 10.6 10.8 8.4 11.6 9.5 4.9 18 9.9 10.2 3 5.3 12.4 13.9 10 9 5.1 9.5 13.6 9.4 4.7 6.9 10.2 6.2 3.7 6.2 6.3 7.1 3.4 9.9 7.8 13.1 10.1 17.4 5.7 9.3 4.6 11.4 12.5 4.4 5
X3 EGGS 0.5 4.3 4.1 1.6 2.8 3.7 3.7 2.7 3.3 2.8 2.9 4.7 2.9 3.6 2.7 2.7 1.1 1.5 3.1 3.5 3.1 4.7 2.1 4.1 1.2
X4 MILK 8.9 19.9 17.5 8.3 12.5 25 11.1 33.7 19.5 17.6 9.7 25.8 13.7 23.4 23.3 19.3 4.9 11.1 8.6 24.7 23.8 20.6 16.6 18.8 9.5
X5 FISH 0.2 2.1 4.5 1.2 2 9.9 5.4 5.8 5.7 5.9 0.3 2.2 3.4 2.5 9.7 3 14.2 1 7 7.5 2.3 4.3 3 3.4 0.6
Las instrucciones de Minitab son las siguientes: Para un análisis de correlaciones se tiene: 1. Stat > Basic statistics > Correlation 2. Variables X1, X2, X3, X4, X6, X7 3. Display p values 4. OK Los resultados son los siguientes:
Pág. 123
X6 CERL 42.3 28 26.6 56.7 34.3 21.9 24.6 26.3 28.1 41.7 40.1 24 36.8 22.4 23 36.1 27 49.6 29.2 19.5 25.6 24.3 43.6 18.6 55.9
X7 STARCH 0.6 3.6 5.7 1.1 5 4.8 6.5 5.1 4.8 2.2 4 6.2 2.1 4.2 4.6 5.9 5.9 3.1 5.7 3.7 2.8 4.7 6.4 5.2 3
X8
X9
NUTS FR-VEG 5.5 1.7 1.3 4.3 2.1 4 3.7 4.2 1.1 4 0.7 2.4 0.8 3.6 1 1.4 2.4 6.5 7.8 6.5 5.4 4.2 1.6 2.9 4.3 6.7 1.8 3.7 1.6 2.7 2 6.6 4.7 7.9 5.3 2.8 5.9 7.2 1.4 2 2.4 4.9 3.4 3.3 3.4 2.9 1.5 3.8 5.7 3.2
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Correlations: RMEAT, WMEAT, EGGS, MILK, FISH, CERL, STARCH, NUTS, FRVEG RMEAT 0.153 0.465
WMEAT
EGGS
0.586 0.002
0.620 0.001
MILK
0.503 0.010
0.281 0.173
0.576 0.003
FISH
0.061 0.772
-0.234 0.260
0.066 0.755
0.138 0.511
CERL
-0.500 0.011
-0.414 0.040
-0.712 0.000
-0.593 0.002
-0.524 0.007
0.135 0.519
0.314 0.127
0.452 0.023
0.222 0.285
0.404 0.045
-0.533 0.006
NUTS
-0.349 0.087
-0.635 0.001
-0.560 0.004
-0.621 0.001
-0.147 0.483
0.651 0.000
-0.474 0.017
FR-VEG
-0.074 0.724
-0.061 0.771
-0.046 0.829
-0.408 0.043
0.266 0.198
0.047 0.825
0.084 0.688
WMEAT
STARCH
EGGS
MILK
FISH
CERL
STARCH
NUTS
0.375 0.065
Cell Contents: Pearson correlation P-Value
Se observa que varias variables Xi estan correlacionadas entre sí.
Para el análisis de componentes principales se tiene: 1
Cargar los datos de la Tabla.
2
Stat > Multivariate > Principal components
3
En Variables, X1, X2, X3, X4, X6, X7, X8, X9
4
En Number of factors to extract, 3. Seleccionar Correlation Matrix
5 Click Graphs y seleccionar Scree Plot, Score plot for first 2 components Loading plot for first 2 components 8 Click Storage e indicar las columnas donde se guarden los coeficientes y los valores Z (scores) Coef1 Coef 2 y Z1 Z2 9. Click OK en cada uno de los cuadros de diálogo.
Pág. 124
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Los eigenvalores para cada componente son los siguientes: Principal Component Analysis: RMEAT, WMEAT, EGGS, MILK, FISH, CERL, STARCH, NUT Eigenanalysis of the Correlation Matrix PC1 PC2 PC3 PC4 Eigenvalue 4.0064 1.6350 1.1279 0.9547 Proportion 0.445 0.182 0.125 0.106 Cumulative 0.445 0.627 0.752 0.858 PC9 Eigenvalue 0.0991 Proportion 0.011 Cumulative 1.000
PC5 0.4638 0.052 0.910
PC6 0.3251 0.036 0.946
PC7 0.2716 0.030 0.976
PC8 0.1163 0.013 0.989
Se observa que los componentes PC1 y PC2 contienen el 62% de la varianza total. Scree Plot of RMEAT, ..., FR-VEG 4
Eigenvalue
3
2
1
0 1
2
3
4 5 6 Component Number
7
8
9
Valor mínimo a considerar
La composición aproximada de las variables en función de los componentes principales son: Variable RMEAT WMEAT EGGS MILK FISH CERL STARCH NUTS FR-VEG
PC1 -0.303 -0.311 -0.427 -0.378 -0.136 0.438 -0.297 0.420 0.110
PC2 0.056 0.237 0.035 0.185 -0.647 0.233 -0.353 -0.143 -0.536
PC3 0.298 -0.624 -0.182 0.386 0.321 -0.096 -0.243 0.054 -0.408
Que al graficar en función de los dos primeros componentes, se obtiene lo siguiente:
Pág. 125
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Loading Plot of RMEAT, ..., FR-VEG WMEAT
0.1 Second Component
CERL
MI LK
0.2
RMEAT
EGGS
0.0 -0.1
NUTS
-0.2 -0.3
STARCH
-0.4 -0.5
FR-VEG
-0.6
FI SH
-0.7 -0.5
-0.4
-0.3
-0.2
-0.1 0.0 0.1 First Component
0.2
0.3
0.4
Los valores de las variables Z1 y Z2 (scores) calculados son: Z1 3.48537 -1.42267 -1.62203 3.13408 -0.37046 -2.36527 -1.42221 -1.56386 -1.48798 2.23970 1.45744 -2.66348 1.53457 -1.64145 -0.97470 -0.12187 1.70585 2.75681 1.31181 -1.63373 -0.91232 -1.73537 0.78260 -2.09384 3.62301
Z2 1.63048 1.04123 -0.15950 1.30107 0.60267 -0.28545 -0.45030 0.59600 -0.78537 -1.00106 0.81595 0.76371 -0.39899 0.91199 -0.82203 -0.53174 -4.28893 1.11879 -2.55352 0.20738 0.75106 0.09398 0.11077 0.29378 1.03803
Que al graficarlos dan lo siguiente: 1. Graph > Scatterplot > Simple 2. Y Variables Z2 X Variables Z1 3. Labels > Data labels > Use labels form column País 4. OK
Pág. 126
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Se tiene la gráfica siguiente de paisespaíses: Europa occidental
Europa oriental
Balcanes
Scatterplot of Z2 vs Z1 2
1
1
12 24
0
6
14 2 8 2220 3 7 9
4
18 21
11
5
25
23 15
13
16
10
Z2
-1 -2
19
-3 -4
17
-5 -3
-2
-1
0
1
2
3
Z1
Península ibérica
Pág. 127
4
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Ejemplo: Se registran las siguientes características para 14 censos: Población total (Pop), mediana de años escolares (School), empleo total (Employ),empleo en servicios de salud (Health), y valor mediano del valor de la casa (Home). Los datos se muestran a continuación: Pop 5.935 1.523 2.599 4.009 4.687 8.044 2.766 6.538 6.451 3.314 3.777 1.53 2.768 6.585
School 14.2 13.1 12.7 15.2 14.7 15.6 13.3 17 12.9 12.2 13 13.8 13.6 14.9
Employ 2.265 0.597 1.237 1.649 2.312 3.641 1.244 2.618 3.147 1.606 2.119 0.798 1.336 2.763
Health 2.27 0.75 1.11 0.81 2.5 4.51 1.03 2.39 5.52 2.18 2.83 0.84 1.75 1.91
Home 2.91 2.62 1.72 3.02 2.22 2.36 1.97 1.85 2.01 1.82 1.8 4.25 2.64 3.17
Se realiza un análisis de componentes principales para comprender la estructura de datos subyacente. Se usa la matriz de correlación para estandarizar las mediciones dado que no se mide con la misma escala. Las instrucciones de Minitab son las siguientes: 1
Abrir la worksheet EXH_MVAR.MTW.
2
Stat > Multivariate > Principal Components.
3
En Variables, Pop-Home.
4
En Type of Matrix, seleccionar Correlation.
5
Click Graphs y seleccionar Scree plot.
6
Click OK en cada cuadro de diálogo.
Los resultados se muestran a continuación: Principal Component Analysis: Pop, School, Employ, Health, Home
Pág. 128
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Eigenanalysis of the Correlation Matrix Eigenvalue Proportion Cumulative Variable Pop School Employ Health Home
3.0289 0.606 0.606 PC1 -0.558 -0.313 -0.568 -0.487 0.174
1.2911 0.258 0.864 PC2 -0.131 -0.629 -0.004 0.310 -0.701
0.5725 0.114 0.978 PC3 0.008 -0.549 0.117 0.455 0.691
0.0954 0.019 0.998 PC4 0.551 -0.453 0.268 -0.648 0.015
0.0121 0.002 1.000 PC5 -0.606 0.007 0.769 -0.201 0.014
Scree Plot of Pop, ..., Home 3.0
Eigenvalue
2.5 2.0 1.5 1.0 0.5 0.0 1
2
3 Component Number
4
5
Interpretando los resultados El primer componente principal tiene varianza (eigenvalor) 3.029 y acumula el 60.6% de la varianza total. Los coeficientes para el PC1 muestran como calcular el nivel del componente principal. PC1 = −.558 Pop − .313 School − .568 Employ − .487 Health + .174 Home Notar que la interpretación de los componentes principales es subjetiva, sin embargo, frecuentemente surgen patrones obvios. Por ejemplo, se podría pensar que el primer componente represente el efecto del tamaño de la población total, el nivel de escolaridad, empleo y servicios de salud, dado que los coeficientes de estos términos tienen el mismo signo y no son cercanos a cero. El segundo componente tiene varianza 1.2911 y acumula el 25.8% de la variabilidad de los datos. Se calcula de los datos originales usando los Pág. 129
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
coeficientes listados en PC2. Este componente podría ser pensado como nivel de contraste de escolaridad y valor de la casa con salud y empleo de alguna manera. Juntos el primero y segundo componentes representan el 86.4% y 97%, respectivamente, de la variabilidad total. Así, la mayoría de la estructura de datos puede ser capturada en dos o tres dimensiones relevantes. Los componentes remanentes solo tienen una menor proporción de probabilidad y no son importantes. La gráfica Scree proporciona una visión gráfica de lo anterior.
Pág. 130
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
10. ANÁLISIS FACTORIAL
Pág. 131
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
10. ANÁLISIS FACTORIAL De manera similar al análisis de componentes principales, el propósito principal del Análisis factorial es decribirdescribir la variación entre muchas variables, en términos de una pocas variables subyacentes no observables, denominadas factores. De manera diferente al análisis de componentes, en el análisis factorial se especifican un cierto número de factores comunes. Todas las covarianzas o correlaciones se explican por los factores comunes. La varianza no explicada por los factores comunes se asigna los términos de error residual denominados factores únicos, no correlacionados entre sí. La matriz del modelo de análisis factorial asume que la matriz de correlación o de covarianzas se puede dividir en dos partes:
La matriz de factores comunes
La matriz de errores o factores únicos
Mientras que el análisis de componentes principales se enfoca a explicar la vasrianzavarianza de las variables, el análisis factorial se enfoca a la explicación de la covarianza de las variables. Al final obtiene grupos de variables dentro de los cuales las variables son altamente correlacionadas, sin embargo entre diferentes grupos tengan correlación débil. 5 El análisis factorial es un método cuyo propósito principal es definir la estructura subyacente de una matriz de datos. Atiende el problema de analizar la estructura de las interrelaciones (correlaciones) entre un gran número de variables
(vgrVg.. Respuestas de cuestionarios) al definir un conjunto de
dimensiones subyacentes comunes, conocidas como factores. Con el análisis factorial se identifican las dimensiones separadas de la estructura y después se determina que tanto cada variable es explicada por cada dimensión. Una vez que se determinan las dimensiones y se explican las variables por cada dimensión, se puede hacer un resumen y reducción de datos. 6 5
Jonson, J.D., Applied Multivariate Data Analysis: Volume II, Categorical and Multivariate Methods, Spinger Verlag, Nueva York, 1992 6 Hair, Joseph, F, et. Al., Multivariate Data Analysis, 5th. Edition, Prentice Hall International, Nueva Jersey, 1998
Pág. 132
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
El análisis factorial es una técnica de interdependencia en la cual todas las variables son consideradas de manera simultanea, cada una relacionada a las otras, y empleando el concepto de variate, composición lineal de variables. De hecho las variates (factores) se forman para maximizar su explicación de todo el conjunto de variables, no para predecir una variable dependiente(s). Una variate (factor) es una variable dependiente que es función del conjunto total de variables. Se usa el Análisis factorial, de manera similar al análisis de componentes principales, para resumir la estructura de covarianza de los datos en unaunas pocas dimensiones de los mismos. Sin embargo, el énfasis en análisis factorial es la identificación de los “factores subyacentes” que pueden explicar las dimensiones asociadas con la gran variabilidad de los datos. Se pueden tener tres tipos de datos de entrada:
Columnas de datos unitarios
Una Matriz de correlaciones o covarianzas
Columnas conteniendo ponderaciones de factores
Con los datos del ejemplo anterior de Componentes principales, realizar un análisis factorial como sigue: Nos gustaría investigar que “factores” pueden explicar la mayor parte de la variabilidad. Como primer paso del análisis factorial, se utiliza la extracción de componentes principales y se examinan los eigenvalores en gráfica como ayuda para decidir el número de factores.
Modelo matemático A partir de los trabajos de Charles Spearman (1904) al hacer estudios de psicología sobre la teoría de pruebas mentales, formuló un modelo de dos factores: cada resultado de la prueba se forma de dos partes, uno que es común a todas las pruebas (“inteligencia general”) y otro que es específico a la prueba. Posteriormente, se modificó a para permitir que cada resultado de
Pág. 133
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
prueba consistiera de una parte debida a varios factores comunes, además de una parte específica de la prueba. El modelo general de análisis de factores es el siguiente: X i = ai1 F1 + ai 2 F2 + ... + aim Fm + ei
Donde Xi es el resultado i-ésimo de la prueba con media cero y varianza unitaria; ai1, ai2,…, aim son las Cargas factoriales para la i-ésima prueba; F1, F2, …, Fm son los m factores comunes no correlacionados, cada uno con media cero y varianza uno, ei es el error específico para la i-ésima prueba, no correlacionado con los factores comunes. Con este modelo:
Var ( X i ) = a 2i1Var ( F1 ) + a 2i 2Var ( F2 ) + ... + a 2imVar ( Fm ) + Var (ei ) Var ( X i ) = a 2i1 + a 2i 2 + ... + a 2im + Var (ei ) Donde:
a 2i1 + a 2i 2 + ... + a 2im Es llamada la comunalidad de Xi (la parte de la varianza que está relacionada con los factores comunes) mientras que Var(ei)
es denominada la
especificidad de Xi (la parte de su varianza que no está relacionada con los factores comunes). También se puede establecer que la correlación entre Xi y Xj es: rij = ai1a j1 + ai 2 a j 2 +...... + aim a jm
De esta manera dos resultados de prueba están muy correlacionados si tienen valores de carga altos en los mismos factores. Además -1<= aij <= 1, ya que la comunalidad no puede exceder uno. El análisis factorial se hace en tres etapas: Pág. 134
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Etapa 1 – extracción de factores: se determinan cargas o ponderaciones provisionales de los factores aij. Una forma de hacerlo es realizar un análisis de componentes principales y no considerar los componentes principales después de los primeros m, que serán tomados como los m factores. Como regla se pueden tomar los m eigenvalores que excedan a la unidad. Estos factores no están correlacionados entre sí, sin emabargo los factores específicos pueden estar correlacionados entre sí, lo que no afecta si las comunalidades son altas. Con cualquier método que se extraigan las ponderaciones preliminares de los factores, se puede mostrar que no son únicas. Si F1, F2,…, Fm son los factores preliminares, se pueden construir combinaciones lineales de estos de la forma: F1' = d11 F1 + d12 F2 + ..... + d1m Fm F2' = d 21F1 + d 22 F2 + ..... + d 2 m Fm Fm' = d m1 F1 + d m 2 F2 + ..... + d mm Fm
Las combinaciones se pueden hacer de forma que no sean correlacionadas y “expliquen” los datos adecuadamente. Se observa que hay un número infinito de posibles soluciones.
Etapa 2 – Rotación de factores: los factores preliminares se transforman de modo que se identifiquen nuevos factores más fáciles de interpretar. Rotar equivale a seleccionar los coeficientes dij en las ecuaciones anteriores. La rotación puede ser ortogonal u oblicua. Con la rotación ortogonal, los nuevos factores no están correlacionados, tal como los originales. Con rotación oblicua, los nuevos factores están correlacionados. Se espera que las ponderaciones o cargas aij sean casi cero (indicando que Xi no se relaciona con el factor Fj), o muy alejadas de cero (positivas o negativas) indicando que Xi está determinado ampliamente por Xj de manera amplia.
Un método popular de rotación es el Varimax que está basado en el supuesto de que la interpretabilidad del factor j puede ser medido por la
Pág. 135
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
varianza del cuadrado de sus ponderaciones (a1j2, a2j2 ,etc.) donde si la varianza es grande, los valores de aij2 tienden a ser cero o cercanos a la unidad, de esta forma Varimax maximiza la suma de estas varianzas para todos los factores. Los factores rotados se pueden expresar como sigue: F * = (G ' G ) −1 G ' X
Etapa 3 – aacálculo de los factores individuales: son los valores de los factores F1, F2, …, Fm,
para cada una de las observaciones
individuales.
Pág. 136
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
PROCESO DE DECISIÓN DE ANÁLISIS FACTORIAL Paso 1. Objetivos del Análisis factorial El propósito es encontrar una forma de condensar (resumir) la información contenida en un cierto número de variables originales, en un grupo más pequeño de dimensiones nuevas, compuestas o variates (factores) con un mínimo de pérdida de información. Por ejemplo si hay datos de 100 cuestionarios en 10 características, el análisis factorial se aplica a la matriz de correlación de variables y se denomina Análisis Factorial R, para identificar las dimensiones que están latentes o no son fácilmente observables. El análisis factorial también se puede aplicar a una matriz de correlación de los cuestionarios individuales basados en sus características, referido como Análisis Factorial Q, es un método de condensar o combinar un grupo grande de gente en diferentes grupos distintos dentro de una población grande, para esto se utiliza el análisis de conglomerados (clusters).
Paso 2. Diseño del análisis factorial Incluye tres decisiones básicas: (1) cálculo de los datos de entrada (una matiz de correlación) para cumplir con los objetivos especificados de agrupar variables o cuestionarios; (2) el diseño del estudio en términos del número de variables, propiedades de medición de las variables, y el tipo de variables permitidas y (3) el tamaño de muestra necesario (al menos 5 veces el número de variables analizadas), ambos en términos absolutos y como función de del número de variables en el análisis.
Pág. 137
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Paso 3. Supuestos del análisis factorial Es deseable algún grado de multicolinealidad entre variables dado que el objetivo es identificar conjuntos de variables interrelacionadas, no son tan importantes la normalidad, homoestacidad y linealidad a menos que disminuyan significativamente las correlaciones observadas. La matriz de correlación debe indicar valores mayores a 0.3 para aplicar el análisis de correlación. También si las correlaciones parciales entre variables (correlación entre variables cuando el efecto de las otras variables se toma en cuenta) son pequeñas dado que la variable puede explicada por los factores (variates con ponderaciones para cada una de
las variables). Si las
correlaciones parciales son altas, no hay factores subyacentes “verdaderos” y el análisis factorial es inapropiado. La prueba de esfericidad de Bartlett mide la presencia de correlaciones entre las variables, proporciona la probabilidad de que la matriz de correlación tenga correlaciones significativas en algunas de las variables. Otro indicador es el “Measure of Sampling Adequacy (MSA)”, con rango de 0 a 1, donde 0.8 o más es meritorio; 0.07 o más es regular; 0.60 o más es mediocre; 0.50 o más miserable y debajo de 0.50 inaceptable. El supuesto básico en el análisis factorial es que existe una estructura subyacente en el conjunto de variables seleccionadas.
Paso 4. Identificando factores y evaluando el ajuste del modelo Una vez que se especifican las variables y se prepara la matriz de correlación, se toman decisiones en relación a (1) el método de extracción de los factores (análisis de factores comunes versus análisis de componentes) y (2) el número de factores seleccionados para representar la estructura subyacente en los datos.
Pág. 138
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Análisis de componentes El análisis de componentes se usa cuando el objetivo es resumir la mayor parte de la información original (varianza) en un mínimo número de factores para propósitos de predicción. Considera la varianza total y determina factores que contienen pequeñas proporciones de varianza única y, en algunos casos, varianza del error. No se basa en un modelo estadístico específico.7 Análisis factorial En contraste el análisis de factores comunes se utiliza para identificar los factores subyacentes o dimensiones que reflejan aquello que las variables comparten en común. Se basa en un modelo estadístico especial. En este método se tienen tres tipos de varianzas: (1) común, (2) específica (única), y (3) error. La varianza común (communalities) se define como la varianza en una variable que es compartida por todas las demás variables. La varianza específica es la varianza asociada solo con una variable específica. La varianza del error es la varianza debida a la incertidumbre en el proceso de recolección de datos, errores de medición, o componente aleatorio en el fenómeno medido. Criterios para el número de factores a extraer El primer método extrae la combinación de variables explicando la mayor cantidad de varianza y después continúa con combinaciones que representan menos y menos cantidades de varianza. La selección de factores a extraer equivale a enfocar un microscopio, normalmente se hace por prueba y error contrastando los resultados. Criterio de Raíz Latente: su racional es que cualquier factor individual debe contener la varianza de al menos una variable. Como cada variable contribuye con 1 al eigenvalor total o raíz latente. Se seleccionan solo los factores con eigenvalores mayores a uno, cuando se tienen menos de 20 variables, los factores extraídos son pocos. 7
Ibidem
Pág. 139
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Criterio a Priori: en este método el investigador ya tiene una idea clara de los factores a extraer y así lo indica en la computadora. Criterio de porcentaje de varianza: Enfoque basado en lograr un porcentaje acumulado de varianza total extraído por factores sucesivos. Normalmente el proceso para al acumular 95%. Criterio Scree Test: Se usa para identificar el número óptimo de factores que pueden ser extraídos antes de que la cantidad de varianza única empiece a dominar la estructura de varianza común. Eig env alor 1
8
Número de factores
Paso 5. Interpretando los factores Se obtiene la matriz no rotada para estimar el número de factores a extraer. La matriz de factores contiene ponderaciones de factores para cada variable en cada factor. El primer factor puede verse como la mejor combinación lineal incluida en los datos, con cada factor con ponderaciones significativos y acumula la mayor parte de la varianza; el segundo factor es la segunda mejor combinación lineal de variables, sujeta a que es ortogonal al primer factor, se basa en la porción residual de la varianza una vez removido el primero, así sucesivamente.
Pág. 140
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Los ponderaciones de los factores representan la correlación de cada una de las variables y el factor, entre mayores sean, mayor será la representatividad del factor por la variable. La rotación de los factores más simple es una rotación ortogonal, en la cual se mantienen los ejes a 90 grados. Se pueden rotar los ejes sin mantener los 90 grados entre los ejes de referencia. Cuando no hay restricción de ortogonalidad, el procedimiento de rotación se denomina rotación oblicua. +1 Factor II rotado
+1 Factor II sin rotar V1 V2
+1 Factor I sin rotar
-1 V4 V3 V5
+1 Factor I rotado
-1 Factor II
Fig. 1 Rotación ortogonal de factores ( observar la ponderación
o ponderación de factores I y
II en la variable V2, es más clara cuando se rotan los factores)
En la figura se observan dos conglomerados de variables (V1 y V2) y (V3, V4 y V5), sin embargo con los factores sin rotar no es muy obvia su ponderación o ponderación de los factores I y II. Después de la rotación de los ejes de factores, las variables 3, 4 y 5 tienen una ponderación o ponderación fuerte de factor I, y las variables 1 y2 tienen una ponderación o ponderación fuerte en el factor II. Siendo más obvia la distinción entre conglomerados en dos grupos. Métodos de rotación ortogonal En la práctica el objetivo de todos los métodos de rotación es simplificar las filas y columnas de la matriz de factores para facilitar la interpretación. En una Pág. 141
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
matriz de factores las columnas representan factores, con cada renglón correspondiente a la ponderación de las variables a través de los factores. Al simplificar los renglones, se hacen tantos valores en cada fila tan cercanos a cero como sea posible (i.e. maximizando la ponderación de una variable con un factor único). Simplificando las columnas, se hacen tantos valores en las columnas tan cercanos a cero como sea posible (i.e. hacer el máximo número de ponderaciones “altas” como sea posible). Se han desarrollado tres métodos para lo anterior como sigue: Quartimax: para simplificar las filas de la matriz; o sea, que Quartimax se enfoca a rotar los factores iniciales de manera que las variables tengan la mayor ponderación posible de un factor y la mínima de los otros. Aunque este método no ha sido eficiente. Varimax: se centra en simplificar las columnas de la matriz factorial. La máxima simplificación posible se logra cuando solo hay 1’s y 0’s en la columna. Es decir que VARIMAX maximiza la suma de variancias de ponderaciones requeridas de la matriz factorial. Este método ha probado ser un método analítico efectivo para obtener una rotación ortogonal de factores. Equimax: Es un compromiso entre las anteriores. Trata de simplificar los renglones y las columnas, no se utiliza frecuentemente. Métodos de rotación oblicua: Estos métodos son similares a las rotaciones ortogonales excepto que permiten factores correlacionados en vez de mantener la independencia de los factores rotados. En general no hay reglas para seleccionar uno de los métodos anteriores. Criterios para la significancia de ponderación de factores en las variables
Pág. 142
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
De manera práctica si las ponderaciones son de ± 0.30 se considera que cumplen el nivel mínimo; ponderaciones de ± 0.40 son importantes; ± 0.50 o mayores son significativas en la práctica. Como la ponderación del factor es la correlación de la variable y el factor, la ponderación al cuadrado es la cantidad representada de la varianza total por el factor. De esta forma con ± 0.3 se tiene un 10% de explicación y un 0.5 de ponderación denota que un 25% de la varianza es representada por el factor. Evaluando la significancia estadística Con base en un nivel de significancia de 0.05, un nivel de potencia del 80% y errores estándar asumidos se el doble de los coeficientes de correlación convencionales, se tiene la tabla siguiente: Ponderación del factor 0.30 0.35 0.40 0.45 0.50 0.55 0.60 0.65 0.70
Tamaño de muestra requerida para tener significancia 350 300 250 200 150 100 85 70 60
Resumiendo las guías para la significancia de los factores son: (1) entre mayor sea el tamaño de muestra, el valor de ponderación significativo se reduce. (2) Entre más variables sean consideradas en el análisis, más pequeña es la ponderación que se considera significativa. (3) Entre más factores haya, mayor es la ponderación en los factores adicionales para que sea considerada significativa. Cada columna de números en la matriz representa un factor por separado. Las columnas de números representan las ponderaciones para cada una de las variables. Identificar la más alta ponderación para cada variable. Recordar que
Pág. 143
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
para tamaños de muestra similares a 100 se considera significante ± 0.3. La comunalidad para cada variable representa la cantidad de varianza considerada por la solución factorial para cada variable. Evaluar la comunalidad de las variables, es decir identificar las que tengan más del 50%, ya que las que tengan menos no tienen suficiente explicación. El nombre de los factores se desarrolla de manera intuitiva, con base en las variables con una mayor ponderación se consideran más importantes y tienen una mayor influencia para el nombre seleccionado para representar al factor.
Validación del análisis factorial Se trata de evaluar el grado de generalización de los resultados en la población y la influencia potencial de casos individuales en los resultados totales. El alfa de Cronbach es una medida del coeficiente de confiabilidad que evalúa la consistencia de toda la escala. Este índice es la relación positiva del número de ítems en la escala, donde 0.7 se considera adecuado.
Pág. 144
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Ejemplo con datos de alimentos: Continuando con el ejemplo del análisis de componentes que se realizó en el capítulo anterior para el caso de alimentos en diferentes países, se identificaron dos componentes principales que excedían un eigenvalor de 1.0, como sigue:
Scree Plot of RMEAT, ..., FR-VEG 4
Eigenvalue
3
2
1
0 1
2
3
4
5 6 Fact or Number
7
8
9
Parte del archivo de datos se muestra a continuación: País 1 2
RMEAT WMEAT X1 X2 10.1 1.4 8.9 14 Etc.
EGGS X3 0.5 4.3
MILK X4 8.9 19.9
FISH X5 0.2 2.1
CERL X6 42.3 28
STARCH X7 0.6 3.6
NUTS X8 5.5 1.3
Las instrucciones de Minitab son las siguientes: 1
Cargar los datos de tabla de alimentos.
2
Stat > Multivariate > Factor Analysis.
3
En Variables, X1, X2, X3, X4, X6, X7, X8, X9
4
En Number of factors to extract, 4. 5
En Method of Extraction, seleccionar Principal components
6
En Type of Rotation, seleccionar Varimax.
7
Click Graphs y seleccionar Loading plot for first 2 factors y Scree Plot. 8
Click Results y seleccionar Sort loadings.
Pág. 145
FR-VEG X9 1.7 4.3
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
9
P. REYES / MARZO 2007
Seleccionar Storage e indicar columnas para ponderaciones, coeficientes, Z’s, eigenvalores, etc.
10 Click OK en cada uno de los cuadros de diálogo. Los resultados se muestran a continuación: Factor Analysis: RMEAT, WMEAT, EGGS, MILK, FISH, CERL, STARCH, NUTS, FR-VEG Principal Component Factor Analysis of the Correlation Matrix
Los eigenvalores para los factores 1 y 2 son los siguientes: Eigenvalues 4.00644 1.63500 1.12792 0.95466
Factores F1 F2 F3 F4
Unrotated Factor Loadings and Communalities
Con los eigenvalores anteriores, se determina el modelo factorial: Unrotated Factor Loadings and Communalities X1 X2 X3 X4 X5 X6 X7 X8 X9
Variable RMEAT WMEAT EGGS MILK FISH CERL STARCH NUTS FR-VEG
Factor1 -0.606 -0.622 -0.854 -0.756 -0.272 0.876 -0.595 0.841 0.221
Factor2 0.072 0.303 0.045 0.236 -0.827 0.299 -0.451 -0.183 -0.686
Factor3 0.316 -0.663 -0.193 0.410 0.341 -0.102 -0.258 0.058 -0.433
Factor4 0.632 -0.036 0.306 -0.003 -0.211 -0.006 -0.329 0.323 0.451
Communality 0.871 0.918 0.862 0.795 0.919 0.867 0.732 0.849 0.910
Variance % Var
4.0064 0.445
1.6350 0.182
1.1279 0.125
0.9547 0.106
7.7240 0.858
La comunalidad de X1 RMEAT = 0.871 se calcula de la manera siguiente: 0.871 = 0.606^2+0.072^2+0.316^2+0.632^2 Como las comunalidades son relativamente altas (cercanas a la unidad), indica que la mayor parte de la varianza para las variables X1 a X9 se acumula en los factores F1 a F4. Las ponderaciones de los factores que son mayores a |0.5|, sin importar el signo, se analizan para mostrar como se relacionan las variables con los factores. Se puede observar que: la variable X1 se explica fuertemente por los
Pág. 146
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
factores F1 y F4; la variable X2 se explica por los factores F1 y F3; las variables X2 X3, X4, X6, X7 y X8 se relacionan fuertemente al factor 1 y X5 y X9 al factor 2. Esto sugiere que una rotación puede ayudar a definir los factores. Rotated Factor Loadings and Communalities Varimax Rotation Variable X1 RMEAT X2 WMEAT X3 EGGS X4 MILK X5 FISH X6 CERL X7 STARCH X8 NUTS X9 FR-VEG
Factor1 Factor2 Factor3 Factor4 Communality 0.051 -0.931 0.014 0.037 0.871 0.943 -0.127 -0.100 0.050 0.918 0.628 -0.664 0.163 0.020 0.862 0.197 -0.610 0.219 0.579 0.795 -0.226 -0.088 0.921 -0.104 0.919 -0.395 0.549 -0.624 -0.145 0.867 0.515 -0.004 0.683 -0.026 0.732 -0.638 0.263 -0.326 -0.515 0.849 -0.010 0.003 0.178 -0.937 0.910
Variance % Var
2.2054 0.245
2.0749 0.231
1.9273 0.214
1.5165 0.168
7.7240 0.858
Sorted Rotated Factor Loadings and Communalities Variable WMEAT NUTS RMEAT EGGS MILK FISH STARCH CERL FR-VEG
Factor1 0.943 -0.638 0.051 0.628 0.197 -0.226 0.515 -0.395 -0.010
Factor2 -0.127 0.263 -0.931 -0.664 -0.610 -0.088 -0.004 0.549 0.003
Factor3 -0.100 -0.326 0.014 0.163 0.219 0.921 0.683 -0.624 0.178
Factor4 0.050 -0.515 0.037 0.020 0.579 -0.104 -0.026 -0.145 -0.937
Communality 0.918 0.849 0.871 0.862 0.795 0.919 0.732 0.867 0.910
Variance % Var
2.2054 0.245
2.0749 0.231
1.9273 0.214
1.5165 0.168
7.7240 0.858
En este caso las variables X3, X4, X6, X7 y X8 se explican al menos por dos factores, lo cual es mejor. Loading Plot of RMEAT, ..., FR-VEG CERL
0.50
Second Fact or
0.25
NUTS
FR-VEG
0.00
STARCH
FI SH
WMEAT
-0.25 -0.50
MI LK
EGGS
-0.75 RMEAT
-1.00 -0.50
-0.25
0.00 0.25 First Fact or
0.50
Pág. 147
0.75
1.00
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
El modelo queda como sigue: Factor Score Coefficients Variable RMEAT WMEAT EGGS MILK FISH CERL STARCH NUTS FR-VEG
Factor1 -0.208 0.580 0.217 -0.130 -0.256 -0.027 0.259 -0.238 0.103
Factor2 -0.666 0.134 -0.297 -0.248 0.037 0.158 0.254 -0.128 -0.144
Factor3 -0.175 -0.188 -0.095 0.043 0.578 -0.252 0.369 -0.124 0.040
Factor4 -0.154 -0.123 -0.184 0.328 0.005 -0.004 -0.038 -0.292 -0.719
Obteniendo las graficas de Z1 vs. Z2 y Z3 vs. Z4 con los valores de los coeficientes de los factores se tiene:
Z1 -2.08984 1.51952 0.54271 -0.67265 1.12632 0.28382 1.45824 -0.67673 0.03566 -1.73291 1.07856 0.84733 -0.62204 1.20389 -0.87260 1.07154 -1.02013 -0.51952 -0.48351 -0.27184 0.10789 -0.53941 -0.34330 1.23608 -0.66709
Z2 0.21229 -0.14373 -0.78648 0.77630 0.60458 -0.24185 0.86238 -0.14921 -1.84164 -0.89465 1.20405 -1.15498 -0.37440 -0.18081 0.00189 0.81779 1.36441 1.25002 0.41424 -0.39239 -1.21314 -2.17878 0.78311 -0.44858 1.70958
Z3 -1.48719 -0.67295 0.18603 -1.57884 -0.33966 1.21441 0.78301 0.93845 0.00237 -0.40999 -1.09708 -0.08258 -0.59829 -0.31569 1.50818 0.25040 2.63942 -1.03438 1.05124 0.76534 -0.71597 -0.17044 0.21603 0.05799 -1.10980
Z4 0.91607 -0.04645 -0.22398 -0.08663 0.02184 1.14642 0.03869 2.29981 -1.24522 -1.39879 -0.64712 0.51667 -1.17455 0.37021 1.24280 -0.66725 -1.71648 0.40083 -1.81043 1.37725 -0.11354 -0.12795 0.63639 0.00754 0.28389
Pág. 148
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Scatterplot of Z2 vs Z1 2
Yugoslav ia Portugal
1
Rumania
Hungría Polonia Checa Alemania orien
Bulgaria Rusia España
Z2
Albania Noruega Finlandia I talia
0
Holanda Autria
Dinamarca
Suecia
Alemania Occ Bélgica
Grecia
-1
Irlanda
Suiza
Francia
-2
Reino Unido
-2
-1
0
1
2
Z1
Scatterplot of Z4 vs Z3 Finlandia
2 Suecia
1
I rlanda Holanda
Rumania Yugoslav ia
Z4
Noruega Dinamarca
Albania
Bulgaria
0
Alemania orien Checa Alemania Occ
Suiza Autria
Hungría
-1
Rusia
Bélgica Reino Unido Polonia
I talia Francia Grecia Portugal
España
-2 -2
-1
0
1
2
3
Z3
Scatterplot of Z2 vs Z3 2
Yugoslav ia Portugal
Rumania
1
Bulgaria
Polonia Alemania orien Rusia
Hungría Checa
España
Z2
Albania
0
Autria Holanda I talia Alemania Occ Grecia
-1
Suiza
Finlandia Suecia
Noruega
Dinamarca
Bélgica I rlanda
Francia
-2
Reino Unido
-2
-1
0
1
2
Z3
Pág. 149
3
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Scatterplot of Z1 vs Z4 2 Autria Alemania orien Alemania OccHolanda Checa Polonia
1
I rlanda
Hungría
Z1
Bélgica
0 España
Suecia
Rusia Reino Unido Rumania Yugoslav ia
I talia
Finlandia Noruega
Bulgaria
Portugal
-1
Dinamarca
Suiza
Francia
Grecia Albania
-2 -2
-1
0
1 Z4
Pág. 150
2
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Ejemplo con datos de HATCO Prueba de la adecuación del modelo, utilizando Minitab: 1. Stat > Basic statistics > Correlation 2. Variables X1, X2, X3, X4, X6, X7 3. Display p values 4. OK Correlations: X1, X2, X3, X4, X6, X7 X1 -0.349 0.000
X2
X3
0.476 0.000
-0.472 0.000
X4
0.050 0.618
0.272 0.006
-0.095 0.347
X6
0.077 0.446
0.186 0.064
-0.015 0.880
0.788 0.000
X7
-0.483 0.000
0.470 0.000
-0.407 0.000
0.200 0.046
X2
X3
X4
X6
0.177 0.078
Cell Contents: Pearson correlation P-Value
De la matriz, 7 de 15 correlaciones son significativas estadísticamente. El valor de MSA de 0.665 cumple con con el criterio para aplicar el análisis factorial.
Análisis factorial con Minitab:
Las instrucciones de Minitab son las siguientes: 1
Cargar los datos de HATCO.
2
Stat > Multivariate > Factor Analysis.
3
En Variables, X1, X2, X3, X4, X6, X7
4
En Number of factors to extract, 2. 6
6
En Method of Extraction, seleccionar Principal components
En Type of Rotation, seleccionar Varimax.
Pág. 151
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
7
P. REYES / MARZO 2007
Click Graphs y seleccionar Loading plot for first 2 factors y Scree Plot.
8 Click Results y seleccionar Sort loadings. Click OK en cada uno de los cuadros de diálogo. Los resultados se muestran a continuación: Factor Analysis: X1, X2, X3, X4, X6, X7 Principal Component Factor Analysis of the Correlation Matrix Unrotated Factor Loadings and Communalities Variable X1 X2 X3 X4 X6 X7
Factor1 0.618 -0.763 0.695 -0.502 -0.434 -0.761
Factor2 -0.517 0.079 -0.357 -0.793 -0.827 0.170
Communality 0.649 0.588 0.610 0.881 0.873 0.609
Variance % Var
2.4664 0.411
1.7425 0.290
4.2089 0.701
El primer factor contiene la mayor parte de la varianza y es un factor general con alta ponderación en cada variable. Las ponderaciones para el segundo factor muestra tres variables que también tiene alta ponderación (X1, X4 y X6). La interpretación es sumamente difícil y sin significado, por lo que se debe considerar la rotación de factores como sigue: Rotated Factor Loadings and Communalities Varimax Rotation Variable X1 X2 X3 X4 X6 X7
Factor1 -0.783 0.718 -0.781 0.097 0.020 0.758
Factor2 0.188 0.268 0.010 0.934 0.934 0.186
Communality 0.649 0.588 0.610 0.881 0.873 0.609
Variance % Var
2.3231 0.387
1.8858 0.314
4.2089 0.701
Las variables X1, X2 y X3 ponderaciónnponderación significativamente al factor 1 y las variables X4 y X6 ponderaciónnponderación significativamente al factor 2.
Pág. 152
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Si se considera como punto de corte las ponderaciones con ± 0.55 o más, el factor 1 tiene cuatro ponderaciones significativas y el factor 2 tiene 2. Para el factor 1, se ven dos grupos de variables. Las primeras son el nivel de precios (X2) y la calidad del producto (X7) ambas con signos positivos y varían como conjunto. Las otras dos, tiempo de entrega (X1) y flexibilidad de precios (X3) tienen signos negativos también varían como conjunto.
En el factor 1, ambos grupos varían en sentido contrario, tal vez este factor sea el valor básico y representa un compromiso entre percepciones de precio o calidad del producto y percepciones de tiempo de entrega y flexibilidad de precios.
En el factor 2, la variable X4 (imagen de fabricación) y X6 (imagen de la fuerza de ventas) tal vez se pueda agrupar en imagen, ambas variables tienen el mismo signo, actuando en la misma dirección.
La variable X5 (servicio en general) no se incluyó en al análisis. Se tienen ahora dos factores como combinación lineal de las variables para efectos de realización de estudios: Factor Score Coefficients Variable X1 X2 X3 X4 X6 X7
Factor1 -0.356 0.297 -0.343 -0.020 -0.054 0.320
Factor2 0.154 0.097 0.058 0.498 0.503 0.050
Para verificar la validez del modelo se pueden hacer dos grupos de 50 observaciones y comparar sus matrices rotadas.
Pág. 153
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Data 1 – 50: Rotated Factor Loadings and Communalities Varimax Rotation Variable X1_1 X2_1 X3_1 X4_1 X6_1 X7_1
Factor1 -0.827 0.603 -0.686 0.156 0.136 0.702
Factor2 0.085 0.376 -0.177 0.919 0.924 0.201
Communality 0.691 0.506 0.502 0.869 0.871 0.533
Variance % Var
2.0548 0.342
1.9178 0.320
3.9726 0.662
Data 51 – 100: Rotated Factor Loadings and Communalities Varimax Rotation Variable X1_2 X2_2 X3_2 X4_2 X6_2 X7_2
Factor1 0.741 -0.785 0.815 -0.041 0.052 -0.824
Factor2 -0.313 -0.190 -0.154 -0.949 -0.923 -0.154
Communality 0.647 0.652 0.688 0.903 0.854 0.703
Variance % Var
2.5127 0.419
1.9338 0.322
4.4466 0.741
Como se ve las dos rotaciones VARIMAX son comparables en términos de ponderaciones y comunalidades para las seis percepciones. Así se puede asegurar que los resultados son estables dentro de la muestra. De la gráfica Scree Plot con los Eigenvalores de los factores se tiene: Scree Plot of X1 , ..., X7 2.5
Eigenvalue
2.0
1.5
1.0
0.5
0.0 1
2
3 4 Fact or Number
5
6
Sólo dos factores serán mantenidos si se toma como referencia el Eigenvalor de 1 o tres si se toma como referencia el criterio Scree. La gráfica de ponderaciones por variables se muestra a continuación, identificando tres grupos de variables: Pág. 154
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Loading Plot of X1 , ..., X7 X6 X4
0.9 0.8
Second Fact or
0.7 0.6 0.5 0.4 0.3
X2 X1
0.2
X7
0.1 X3
0.0 -1.0
-0.5
0.0 First Fact or
0.5
En resumen se identifican dos dimensiones Valor básico e Imagen, ahora se pueden hacer planes alrededor de estas dos dimensiones en lugar de considerar todas las variables separadas.
Ejemplo con datos del archivo EXH_MVAR Se registran las siguientes características de 14 regiones censadas: población total (Pop), promedio de escolaridad (School), empleo total (Employ), empleo en servicios de salud (Health), y valor promedio de casa (Home). Se desea investigar que “factores” podrían explicar la mayor parte de la variabilidad. Como primer paso del análisis factorial, se usa el método de extracción de componentes principales y se examina la gráfica de eigenvalores (Scree) para apoyarnos en decidir sobre el número de factores. Pop 5.935 1.523 2.599 4.009 4.687 8.044 2.766 6.538 6.451 3.314 3.777
School 14.2 13.1 12.7 15.2 14.7 15.6 13.3 17 12.9 12.2 13
Employ 2.265 0.597 1.237 1.649 2.312 3.641 1.244 2.618 3.147 1.606 2.119
Health 2.27 0.75 1.11 0.81 2.5 4.51 1.03 2.39 5.52 2.18 2.83
Pág. 155
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
1.53 2.768 6.585
13.8 13.6 14.9
0.798 1.336 2.763
P. REYES / MARZO 2007
0.84 1.75 1.91
Las instrucciones de Minitab son las siguientes: 1
Abrir la worksheet EXH_MVAR.MTW.
2
Stat > Multivariate > Factor Analysis.
3
En Variables, poner Pop-Home.
4
Click Graphs y seleccionar Scree plot. Click OK in each dialog box.
Los resultados se muestran a continuación: Factor Analysis: Pop, School, Employ, Health, Home Principal Component Factor Analysis of the Correlation Matrix Unrotated Factor Loadings and Communalities Variable Pop School Employ Health Home
Factor1 -0.972 -0.545 -0.989 -0.847 0.303
Factor2 -0.149 -0.715 -0.005 0.352 -0.797
Factor3 0.006 -0.415 0.089 0.344 0.523
Factor4 0.170 -0.140 0.083 -0.200 0.005
Factor5 -0.067 0.001 0.085 -0.022 0.002
Communality 1.000 1.000 1.000 1.000 1.000
Variance % Var
3.0289 0.606
1.2911 0.258
0.5725 0.114
0.0954 0.019
0.0121 0.002
5.0000 1.000
Factor3 0.011 -0.726 0.155 0.601 0.914
Factor4 1.782 -1.466 0.868 -2.098 0.049
Factor5 -5.511 0.060 6.988 -1.829 0.129
Factor Score Coefficients Variable Pop School Employ Health Home
Factor1 -0.321 -0.180 -0.327 -0.280 0.100
Factor2 -0.116 -0.553 -0.004 0.272 -0.617
Pág. 156
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Scree Plot of Pop, ..., Home 3.0
Eigenvalue
2.5 2.0 1.5 1.0 0.5 0.0 1
2
3 Fact or Number
4
5
Interpretación de resultados Cinco factores describen estos datos perfectamente, pero la meta es reducir el número de factores requeridos para explicar la variabilidad de los datos. La proporción de la variabilidad explicada por los dos últimos factores es mínima (0.019 y 0.002 respectivamente) y pueden ser eliminadas sin afectar al resultado. Los primeros dos factores juntos representan 86% de la variabilidad mientras que tres factores representan 98% de la variabilidad. La cuestión es si usar dos o tres factores, se requieren otras corridas para decidir si usar dos o tres factores. Se seleccionan dos factores como el número que representa los datos del censo en base al análisis de componentes principales. Se realiza una extracción de máxima verisimilitud y rotación varimax para interpretar los factores. Las instrucciones de Minitab son las siguientes: 1
Abrir la worksheet EXH_MVAR.MTW.
2
Stat > Multivariate > Factor Analysis.
3
En Variables, Pop-Home.
4
En Number of factors to extract, 2.
5
En Method of Extraction, seleccionar Maximum likelihood.
Pág. 157
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
6
En Type of Rotation, seleccionar Varimax.
7
Click Graphs y seleccionar Loading plot for first 2 factors.
8
Click Results y seleccionar Sort loadings. Click OK en cada uno de los
cuadros de diálogo. Los resultados se muestran a continuación: Factor Analysis: Pop, School, Employ, Health, Home Maximum Likelihood Factor Analysis of the Correlation Matrix * NOTE * Heywood case Unrotated Factor Loadings and Communalities Variable Pop School Employ Health Home
Factor1 0.971 0.494 1.000 0.848 -0.249
Factor2 0.160 0.833 0.000 -0.395 0.375
Communality 0.968 0.938 1.000 0.875 0.202
Variance % Var
2.9678 0.594
1.0159 0.203
3.9837 0.797
Rotated Factor Loadings and Communalities Varimax Rotation Variable Pop School Employ Health Home
Factor1 0.718 -0.052 0.831 0.924 -0.415
Factor2 0.673 0.967 0.556 0.143 0.173
Communality 0.968 0.938 1.000 0.875 0.202
Variance % Var
2.2354 0.447
1.7483 0.350
3.9837 0.797
Sorted Rotated Factor Loadings and Communalities Variable Health Employ Pop Home School
Factor1 0.924 0.831 0.718 -0.415 -0.052
Factor2 0.143 0.556 0.673 0.173 0.967
Communality 0.875 1.000 0.968 0.202 0.938
Variance % Var
2.2354 0.447
1.7483 0.350
3.9837 0.797
Factor Score Coefficients Variable Pop School Employ Health Home
Factor1 -0.165 -0.528 1.150 0.116 -0.018
Factor2 0.246 0.789 0.080 -0.173 0.027
Pág. 158
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Loading Plot of Pop, ..., Home 1.0
School
0.8 Second Fact or
Pop
0.6
Employ
0.4
0.2
Home
Health
0.0 -0.50
-0.25
0.00
0.25 First Fact or
0.50
0.75
1.00
Estos resultados indican un caso Heywood (las varianzas menores al límite de convergencia especificado se ponen a cero y sus comunalidades a 1). Se tienen tres tablas de ponderaciones y comunalidades: no rotadas, rotadas, ordenadas y rotadas. Los factores no rotados explican el 79.7 de la variabilidad de los datos y los valores de comunalidad indican que todas las variables sin Home están bien representadas por esos dos factores (comunalidad son 0.202 para Home, 0.875 – 1.0 para otras variables). El porcentaje de la variabilidad total representada por los factores no cambia con la rotación, sino después de rotar, pero después de rotar, estos factores son mas claramente balanceados en el porcentaje de variabilidad que ellos representan, siendo 44.7% y 35%, respectivamente. El ordenamiento es realizado por la ponderación máxima absoluta para cualquier factor. Las variables que tienen la mayor ponderación absoluta en el factor 1 se muestran primero en orden. Después las variables con la ponderación mayor en el factor 2 y así sucesivamente. El factor 1 tiene su ponderación mayor positiva en Health (0.924), Employ (0.831) y Pop (0.718), y -0.415 en Home, mientras que la ponderación en School es baja. El factor 2 tiene una ponderación positiva en School de 0.967 y ponderación de 0.556 y 0.673 en Employ y Pop respectivamente, y una ponderación pequeña en Health y Home.
Pág. 159
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Se pueden ver las ponderaciones rotadas gráficamente en la gráfica de ponderaciones (load graph). Ahí se muestra para factor 1 con ponderaciones altas en Pop, Emply, y Health y ponderación negativa en Home. School tiene una ponderación alta positiva para el factor 2 y algo menor para Pop y Employ. De los resultados se puede pensar en que el factor 1 sea un factor relacionado con “Cuidado de la salud – tamaño de la población”. El factor 2 puede ser considerado como un factor relacionado con “educación – tamaño de la población”. En forma adicional Minitab muestra una tabla de coeficientes del factor. Muestran como se calculan los factores. Minitab calcula los valores multiplicando los coeficientes y los datos después de corregirlos centrándolos al restarle sus medias.
Pág. 160
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
10. ANÁLISIS DE REGRESIÓN MÚLTIPLE
Pág. 161
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
10. ANÁLISIS DE REGRESIÓN MÚLTIPLE Es una técnica estadística que se puede usar para analizar la relación entre una variable dependiente simple (respuesta, criterio) y varias variables independientes cuyos valores son conocidos para predecir la variable dependiente. Los pesos denotan la contribución relativa de las variables independientes a la predicción general y facilitar la interpretación de la influencia de cada variable en la predicción, lo que se complica si hay correlación de las variables independientes. El conjunto de variables independientes con sus pesos forma la Variate de regresión, ecuación de regresión o modelo de regresión, que es una combinación lineal de las variables independientes que mejor predicen la variable dependiente. Los supuestos de un análisis de regresión múltiple son los siguientes:
Linealidad del fenómeno medido
Varianza constante de los términos de error
Independencia de los términos de error
Normalidad de la distribución de los términos de error.
Términos clave
Coeficiente ajustado de determinación (R2 ajustada): Es una métrica modificada del coeficiente de determinación que toma en cuenta el número de variables independientes incluidas en la ecuación de regresión y el tamaño de muestra. A pesar de que la adición de variables independientes hace que se incremente el coeficiente de determinación, el coeficiente de determinación ajustado se reduce si las variables independientes tienen poco poder explicativo y/o si los grados de libertad son muy pequeños. Este estadístico es útil para comparar ecuaciones con diferentes números de variables independientes, con diferentes tamaños de muestra, o ambos.
Regresión con todos los posibles subconjuntos: Método de selección de variables en el modelo que considera todas las
Pág. 162
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
combinaciones posibles de las variables independientes. Por ejemplo para cuatro variables, se estiman modelos para una, dos, tres y cuatro variables, identificando el modelo con la mayor capacidad predictiva.
Eliminación hacia atrás: Método de selección de variables en el modelo que inicia con todas las combinaciones posibles de las variables independientes para ir eliminando las que no tienen una contribución significativa a la predicción.
Coeficiente beta: Coeficientes estandarizados de la regresión que permite una comparación directa de su potencia relativa explicatoria de la variable dependiente.
Coeficiente de determinación (R2): Mide la proporción de la varianza de la variable dependiente alrededor de su media que es explicada por las variables predictoras independientes. El coeficiente puede variar entre 0 y 1. Entre mayor sea su valor es mejor la predicción de la variable dependiente.
Colinealidad: Expresión de la relación entre dos (colinealidad) o entre varias (multicolinealidad) variables independientes. Dos variables independientes tienen colinealidad total si coeficiente de correlación es 1 y no tienen colinealidad si coeficiente de correlación es cero.
La
multicolinealidad se presenta cuando una variable independiente está muy correlacionada con otras variables independientes.
Coeficiente de correlación (r.): Coeficiente que indica la fuerza de la asociación entre dos variables medibles. El signo (+) o (-) indica la dirección de la relación. +1 o -1 indica una correlación perfecta positiva (cuando aumenta una variable, aumenta la otra) o negativa (inversa – cuando aumenta una variable, la otra disminuye) y 0 sin correlación.
Grados de libertad: En una regresión simple se estiman dos parámetros, la intersección (b0) y el coeficiente de la regresión para la variable
independiente
(b1).
Por
tanto
los
grados
de
libertad
proporcionan una medida de cómo se restringen los datos para alcanzar un cierto nivel de predicción (n-2). Si el número de grados de libertad es pequeño, la predicción resultante no puede generalizarse, esta será más robusta con un valor alto de grados de libertad.
Pág. 163
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Variable ficticia: Es una variable independiente usada para contabilizar el efecto que tienen diferentes niveles de una variable no medible al predecir la variable dependiente. Para contabilizar los L niveles de una variable independiente no medible, se requieren L-1 variables artificiales. En el caso de Hombre – Mujer se requiere una variable X con valores 0 y 1; para tres niveles se requerirán dos variables X1 y X2.
Adición hacia delante: Método de selección de variables en el modelo que inicia sin las variables independientes para ir agregándolas con base en su contribución a la predicción.
Homoestacidad: Descripción de los datos para los cuales la varianza de los términos de error (e ) aparece constante sobre el rango de valores de la variable independiente. Cuando los términos de error tienen varianza incremental o modulada, se dice que los datos tienen Heteroestacidad.
Observación influyente: Es una observación que tiene una influencia desproporcionada en uno o más aspectos de los estimados de la regresión, puede ser basada en valores extremos de las variables independientes y dependiente o ambas.
Outlier: Es una observación que tiene una diferencia significativa entre el valor real de la variable dependiente y el valor de predicción. Los casos que son muy diferentes ya sea en sus variables independientes o dependiente. Deben analizarse para poder eliminarlas.
Coeficiente de correlación parcial: Valor que mide la fuerza de la relación entre la variable dependiente o criterio y una única variable independiente manteniendo constante los efectos de las otras variables independientes. Es útil para identificar la variable independiente con la mayor capacidad predictiva incremental. Se le asocian los estadísticos parciales de F y t así como su gráfica de regresión parcial.
Potencia: Probabilidad de que se tenga una relación significativa si realmente existe. Complementa el nivel de significancia Alfa.
Error de predicción: Diferencia entre los valores reales y estimados de la variable dependiente para cada observación en la muestra (residuos).
Pág. 164
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Estadístico PRESS: Medida de validación obtenida al eliminar cada observación una a la vez y estimando su valor dependiente con el modelo de regresión estimado con las observaciones remanentes.
Variable de Regresión (variate): Combinación lineal de variables independientes
ponderadas
usadas
para
predecir
la
variable
dependiente.
Error estándar: El valor t de un coeficiente de regresión se obtiene cuando se divide el valor del coeficiente entre el error estándar.
Estimación por pasos: Método de seleccionar variables para inclusión en el modelo de regresión que inicia seleccionando el mejor predictor de la variable dependiente. Las variables independientes adicionales se seleccionan con base de su potencia explicatorio incremental que pueden agregar al modelo de regresión (o en base a sus coeficientes de correlación significativos estadísticamente). También se pueden eliminar variables independientes si su potencia predictiva se reduce a niveles no significativos cuando se agrega otra variable independiente al modelo.
Residuo estudentizado: Para minimizar el efecto de un outlier simple, se calcula la desviación estándar del residuo para la observación i de los estimados de la regresión omitiendo la observación i-ésima.
Tolerancia: Es una medida de colinealidad y multicolinealidad, es: *
TOLi = 1 − Ri2 *
Ri2 es el coeficiente de determinación para la variable de predicción i
por las otras variables independientes. Conforme disminuye el valor de la tolerancia la variable es mejor estimada por las otras variables independientes (colinealidad).
Factor de inflación de varianza (VIF): es un indicador del efecto que las otras variables independientes tienen en el error estándar de un coeficiente de regresión. El factor de inflación de varianza está directamente relacionado al valor de la tolerancia (VIFi = 1 / TOLi). Valores grandes de VIF también indican un alto grado de colinealidad o multicolinealidad entre las variables independientes.
Pág. 165
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Fórmulas: La ecuación de regresión simple es: Yˆ = b0 +b1V1
Donde: bo = Término de intercepción b1 = coeficiente de la regresión. Error de predicción o residuo = diferencia entre valor real y estimado de la variable dependiente. El error estándar del estimado se determina como: SEE =
SSE n −2
Con SSE = Suma de cuadrados del error. n = tamaño de la muestra El intervalo de confianza de predicción se determina como: IC = Yˆ ± t * SEE
La suma de cuadrados total es: SST = SSR + SSE n
n
n
i =1
i =1
i =1
∑ ( yi − y ) 2 = ∑ ( yi − yˆi ) 2 + ∑ ( yˆ i − y ) 2 y = promedio de todas las observaciones yi = valor de la observación individual i y ˆ = valor estimado de la observación i
El coeficiente de determinación se calcula como sigue: R2 =
SSR SST
Para el caso de la regresión múltiple se tiene: Yˆ = b0 + b1V1 + b2V2 + e
Para probar la significancia de la regresión se utiliza el estadístico F:
SSR F=
SSE
dfr dfe
Cada suma de cuadrados dividida entre sus grados de libertad representa la varianza.
Pág. 166
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
DIAGNÓSTICO AVANZADO
Índice de condición: Medición de la cantidad de varianza asociada con un Eigenvalor (valor característico) de manera que un índice grande indica un alto grado de colinealidad.
Distancia de Cook (Di): Medida resumida de la influencia de una observación simple con base en los cambios totales en todos los demás residuos cuando la observación se excluye del proceso de estimación. Los valores mayores a 1 indican influencia significativa de la observación en la estimación de los coeficientes de la regresión.
COVRATIO (razón de covarianza): Mide la influencia de una observación simple en conjunto completo de coeficientes de la regresión. Un valor cercano a 1 indica poca influencia, si (COVRATIO – 1) > ± 3 p/n (p es el número de variables independientes +1 y n es el tamaño de muestra), la observación se considera que tiene influencia.
Residuo excluido (deleted residual): Es el proceso de calcular residuos en los cuales la influencia de cada una de las observaciones se excluye cuando se calcula su residuo. Esto se logra al omitir la i-ésima observación de la ecuación de regresión usada para calcular el valor estimado Y.
DFBETA: Mide el cambio en un coeficiente de la regresión cuando una observación se omite del análisis de la regresión, se establece en términos del coeficiente mismo, también se puede tener una versión estandarizada SDBETA, donde sus valores son ajustados por sus errores estándar, se definen cortes en 1 o 2 correspondientes a niveles de confianza de 0.10 y 0.05 respectivamente.
DFFIT: Mide el impacto de una observación en el ajuste general del modelo, con una versión estandarizada DFFIT. La mejor regla práctica es calsificarclasificar como influenciables cualquier valor SDFFIT > 2 / raizraíz(p/n).
p es el número de variables independientes +1 y n es el
tamaño de muestra.
Eigenvalor (valor característico): Mide la cantidad de varianza contenida en la matriz de correlación de manera que la suma de los eigenvalores es igual al número de variables. También se conoce como raíz latente o raíz característica.
Pág. 167
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Matriz sombrero: Matriz que contiene valores para cada observación en la diagonal conocida como matriz sombrero, que representan el impacto de la variable dependiente observada en su valor estimado por la regresión. Si todas las observaciones tuvieran la misma influencia, tendrían un valor de p/n. Si una observación no tiene influencia, su valor será -1/n, y cuando un valor domina valdrá (n-1)/n. Los valores que exceden a 2p/n para muestra grandes o 3p/n para muestras pequeñas (n<= 30) son candidatos como observaciones influyentes.
Punto palanca (leverage point): Una observación que tiene un impacto sustancial en los resultados de la regresión dadas sus diferencias con otras observaciones en una o más de las variables independientes. La medida más común de estos puntos es el valor sombrero contenido en la matriz sombrero.
Distancia de Malahanobis (D2): Medida de la singularidad de una observación simple con base en las diferencias entre los valores de la observación y los valores promedio para todos los otros casos
de las
variables independientes. La influencia en la regresión por la observación es diferente para una o más variables predictoras, causando un corrimiento en la ecuación de regresión.
Outlier (punto aberrante o lejano): Es una observación que tiene una diferencia sustancial entre sus valores observados y estimados en la variable
dependiente
(un
residuo
grande)
o
entre
sus
variables
independientes y y los de otras observaciones. El objetivo de identificarlos es que pueden representar de manera inapropiada el comportamiento de la población.
Matriz de descomposición – varianza de los coeficientes de regresión: Método para determinar la contribución relativa de cada uno de los eigenvalores a cada uno de los coeficientes estimados. Si dos o más coeficientes están muy asociados con un eigenvalor simple (índice de condición)
indica
que
está
presente
un
nivel
inaceptable
de
multicolinealidad.
Residuo: Medida de la estimación predictiva de una observación simple, calculado como la diferencia del valor observado y el valor estimado de la
Pág. 168
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
variable dependiente. Se asume que los residuos tienen media cero y varianza constante. También sirven para identificar outliers y observaciones influenciables.
Residuos estandarizados: Reescalado de los residuos a una base común dividiendo cada uno de los residuos entre la desviación estándar de los residuos. De esta manera los residuos estandarizados tienen una media de cero y una desviación estándar de uno. Los outliers son identificados como las observaciones que tienen residuos mayores a 1 o 2 para niveles de confianza de 0.10 y 0.05 respectivamente.
Residuos estudentizados: Difieren del residuo estandarizado en la forma de calcular la desviación estándar. Para minimizar la influencia de un outlier simple, la desviación estándar utilizada para estandarizar el residuo i-ésimo se calcula de los estimados de la regresión excluyendo la observación iésima. Esto se hace de manera repetitiva para cada una de las observaciones, cada vez se excluye la observación de los cálculos.
Evaluado la multicolinealidad Corrida con SPSS – V10
Regression Variables Entered/Removed(b) Model 1
Variables Entered
Variables Removed Method
X7, X5, X6, X3, X2, X4, X1(a)
. Enter
a All requested variables entered. b Dependent Variable: X9 Model Summary Model 1
R .879(a)
R Square Adjusted R Square Std. Error of the Estimate .772
.755
a Predictors: (Constant), X7, X5, X6, X3, X2, X4, X1
Pág. 169
4.4508
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
ANOVA(b) Model
Sum of Squares df Mean Square
Regression
6177.812
7
1 Residual
1822.444 92
Total
8000.256 99
F
Sig.
882.545 44.552 .000(a) 19.809
a Predictors: (Constant), X7, X5, X6, X3, X2, X4, X1 b Dependent Variable: X9 Coefficients(a) Unstandardized Coefficients
Standardized Coefficients
Collinearity Statistics t
Beta Model
B
(Constant)
1
Sig.
Std. Error
-9.255
4.949
X1
1.956
2.045
X2
1.280
X3
Tolerance
VIF
-1.870
.065
.287
.957
.341
.027
36.445
2.155
.170
.594
.554
.030
33.176
3.270
.406
.507
8.057
.000
.627
1.596
X4
-3.937E-03
.671
.000
-.006
.995
.347
2.884
X5
4.600
4.012
.384
1.147
.255
.022
45.401
X6
1.230
.954
.106
1.290
.200
.370
2.701
X7
.426
.356
.075
1.198
.234
.629
1.589
a Dependent Variable: X9 Collinearity Diagnostics(a) Variance Proportions Dimension
Eigenvalue
Condition Index
Model 1
(Constant) X1
X2
X3
X4
X5
X6
X7
1
7.533
1.000
.00 .00 .00 .00 .00 .00 .00 .00
2
.251
5.474
.00 .00 .01 .01 .00 .00 .00 .01
3
.106
8.426
.00 .01 .01 .00 .01 .00 .04 .04
4
6.548E-02
10.726
.01 .00 .00 .04 .03 .00 .18 .09
5
2.463E-02
17.489
.01 .01 .01 .31 .00 .00 .00 .53
Pág. 170
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
6
1.219E-02
24.861
.03 .00 .00 .07 .75 .00 .67 .05
7
6.259E-03
34.692
.86 .00 .00 .52 .17 .00 .10 .28
8
8.354E-04
94.959
.09 .97 .97 .05 .04 .99 .01 .00
a Dependent Variable: X9
Faltan conceptos del capítulo 4 y 4ª.
Pág. 171
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Ejemplo: Familia
Tarjetas
1 2 3 4 5 6 7 8 Total
4 6 6 7 8 7 8 10
TamanoTa maño 2 2 4 4 5 5 6 6
Ingreso 14 16 14 17 18 21 17 25
Las instrucciones de Minitab para correr el ejemplo son: 1 2
Cargar datos en Minitab.
2
Stat > Regression > Regression.
3
En Response, seleccionar Tarjetas.
4
En Predictors, seleccionar TamanoTamaño e Ingreso.
5
Click Graphs.
6
En Residuals for Plots, seleccionar Standardized.
7 En Residual Plots, seleccionar Individual Plots. Seleccionar Histogram of residuals, Normal plot of residuals, y Residuals versus fits. Click OK. 8 Click Options. en Display, seleccionar PRESS y predicted R-square. Click OK en cada uno de los cuadros de diálogo. Los resultados se muestran a continuación:
Pág. 172
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Normal Probability Plot of the Residuals (response is Tarjetas) 99
95 90 80
Percent
70 60 50 40 30 20 10 5
1
-3
-2
-1
0 1 St andardized Residual
2
3
Regression Analysis: Tarjetas versus TamanoTamaño, Ingreso The regression equation is
Tarjetas = 0.48 + 0.632 TamanoTamaño + 0.216 Ingreso Predictor Coef SE Coef T Constant 0.482 1.461 0.33 TamanoTamaño 0.6322 0.2523 Ingreso 0.2158 0.1080 2.00 S = 0.780990
R-Sq = 86.1%
PRESS = 8.02177
P 0.755 2.51 0.054 0.102
R-Sq(adj) = 80.6%
R-Sq(pred) = 63.54%
Analysis of Variance Source Regression Residual Error Total Source DF TamanoTamaño Ingreso 1
DF 2 5 7
SS 18.9503 3.0497 22.0000
MS 9.4751 0.6099
F 15.53
P 0.007
Seq SS 1 16.5143 2.4360
Interpretación de resultados Salida de sesión
El valor P en la tabla de ANOVA (0.000) muestra que el modelo estmadoestimado por el procedimiento de regresión es significativo a un alfa de 0.05, indicando que al menos un coeficiente es diferente de cero.
Pág. 173
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Los valores P de los coeficientes estimados para tamanotamaño es de 0.054 indicando que es significativo a un nivel alfa de 0.054. Sugiriendo que el modelo de regresión simple es adecuado.
El valor de R cuadrado indica que los predoctores explican el 87.4% de la varianza en Tarjetas. La R cuadrada ajustada es 85.9%, que representa la contribución del número de predictores en el modelo. Ambos valores indican que el ajuste es adecuado.
El valor pronosticdopronosticado R cuadrado es 78.96%, dado que es parecido a R cuadrado y r cuadrado ajustado, el modelo no parece estar sobreajustado y tiene una buena habilidad de predicción
Las observaciones 4 y 22 se identifican como no usuales dado que el valor estandarizado de los residuos es mayor a 2. Indicando puntos aberantesaberrantes o outliers.
Salida gráfica
El histograma de los residuos muestra un patrón consistente con la distribución normal. El histograma es más efectivo para grupos de más de 50 observaciones. La gráfica de probabilidad normal es más fácil de interpretar con pequeñas muestras.
En la gráfica normal también sobresalen los outliers 4 y 22.
La gráfica de residuos contra valores de predicción muestra que los residuos son más pequeños conforme conforme los valores ajustados se incrementan, indicando que no tienen varianza constante.
Pág. 174
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Ejemplo con datos de Hatco Hacer un estudio de correlación entre las variables independientes: 1
Cargar datos en Minitab.
2
Stat > Basic statistics > Correlation
3
Variables X1 – X7 X9 indicar Show P value
4
OK
Los resultados son los siguientes: Correlations: X1, X2, X3, X4, X5, X6, X7, X9 X1 -0.349 0.000
X2
X3
0.476 0.000
-0.472 0.000
X4
0.050 0.618
0.272 0.006
-0.095 0.347
X5
0.612 0.000
0.513 0.000
0.064 0.524
0.299 0.003
X6
0.077 0.446
0.186 0.064
-0.015 0.880
0.788 0.000
0.241 0.016
X7
-0.483 0.000
0.470 0.000
-0.407 0.000
0.200 0.046
-0.055 0.586
0.177 0.078
X9
0.676 0.000
0.083 0.412
0.556 0.000
0.225 0.024
0.701 0.000
0.257 0.010
X2
X3
X4
X5
X6
X7
-0.192 0.055
Cell Contents: Pearson correlation P-Value
La variable X5 (servicio en general) está más correlacionado con la respuesta X9 con r = 0.701. X1 también está correlacionada con la respuesta sin embargo tiene correlación con X5 por lo que el uso de ambas es cuestionable. Las instrucciones de Minitab para correr el ejemplo son: 1
Cargar datos en Minitab.
2
Stat > Regression > Regression.
Pág. 175
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
3
En Response, seleccionar X9 (utilización del producto).
4
En Predictors, seleccionar X1 – X7.
5
Click Graphs.
6
En Residuals for Plots, seleccionar Standardized.
7 En Residual Plots, seleccionar Individual Plots. Seleccionar Histogram of residuals, Normal plot of residuals, y Residuals versus fits. Click OK. Regression Analysis: X9 versus X1, X2, X3, X4, X5, X6, X7 The regression equation is X9 = - 9.25 + 1.96 X1 + 1.28 X2 + 3.27 X3 - 0.004 X4 + 4.60 X5 + 1.23 X6 + 0.426 X7 Predictor Constant X1 X2 X3 X4 X5 X6 X7
Coef -9.255 1.956 1.280 3.2702 -0.0039 4.600 1.2305 0.4261
S = 4.45075
SE Coef 4.949 2.045 2.155 0.4059 0.6714 4.012 0.9537 0.3557
R-Sq = 77.2%
T -1.87 0.96 0.59 8.06 -0.01 1.15 1.29 1.20
PRESS = 2144.13
P 0.065 0.341 0.554 0.000 0.995 0.255 0.200 0.234
R-Sq(adj) = 75.5%
R-Sq(pred) = 73.20%
Analysis of Variance Source Regression Residual Error Total Source X1 X2 X3 X4 X5 X6 X7
DF 1 1 1 1 1 1 1
DF 7 92 99
SS 6177.81 1822.44 8000.26
MS 882.54 19.81
F 44.55
P 0.000
Seq SS 3659.76 927.88 1424.10 80.48 18.20 38.97 28.43
Unusual Observations Obs 7 11 14 22 55 100
X1 4.60 2.40 3.70 3.40 3.80 2.50
X9 46.000 32.000 38.000 35.000 39.000 33.000
Fit 58.734 41.365 47.833 34.870 33.433 43.721
SE Fit 1.379 1.014 1.098 2.711 2.712 1.049
Residual -12.734 -9.365 -9.833 0.130 5.567 -10.721
St Resid -3.01R -2.16R -2.28R 0.04 X 1.58 X -2.48R
R denotes an observation with a large standardized residual. X denotes an observation whose X value gives it large influence.
Pág. 176
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Normplot of Residuals for X9 Normal Probability Plot of the Residuals (response is X9) 99.9 99 95
Percent
90 80 70 60 50 40 30 20 10 5 1 0.1
-3
-2
-1 0 1 St andardized Residual
2
3
Residuals Versus the Fitted Values (response is X9) 2
St andardized Residual
1
0
-1
-2
-3 20
30
40 Fit t ed Value
50
Pág. 177
60
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
11. ANÁLISIS DE CORRESPONDENCIA
Pág. 178
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
11. Análisis de correspondencia A. Análisis de correspondencia simple El análisis de correspondencia simple ayuda a explorar las relaciones en una clasificación de dos vías. Puede operar también en tres vías y cuatro vías dado que pueden reducirse a tablas de dos vías. Este procedimiento descompone una tabla de contingencia de manera similar a como el análisis de componentes principales descompone datos continuos multivariados. Se realiza un análisis eigen de los datos, y la variabilidad es dividida en dimensiones relevantes y asociada con renglones y/o columnas. El análisis de correspondencia realiza un análisis de componentes principales ponderados en una tabla de contingencia. Si la tabla tiene r renglones y c columnas, el número de dimensiones relevantes es el más pequeño de (r-1) y (c-1). Como con componentes principales, la variabilidad se divide, pero en lugar de particionar la varianza total, el análisis de correspondencia simple particiona el estadístico c2 de Pearson (similar al de la prueba de asociación). Tradicionalmente, el análisis de correspondencia usa c2/n, denominado inercia total o inercia, en lugar de c2. Las inercias asociadas con todos los componentes principales se suman hasta la inercia total. Idealmente, los primeros uno, dos o tres componentes deben contener la inercia total. Los subespacios dimensionales más bajos se expanden por los componentes principales. El primer eje principal se selecciona de manera que contenga la mayor cantidad de inercia; el segundo eje principal se selecciona de manera que contenga la mayor cantidad de la inercia remanente, etc. Los subespacios son anidados, de modo que el mejor subes pació de una dimensión es un subes pació del mejor subespacio de dos dimensiones, etc. La coordenada principal para el perfil del renglón i y compnente (eje) k es la coordenada de la proyección del perfil del renglón i en el componente k. Las coordenadas del renglón estandarizado para el componente k son las
Pág. 179
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
coordenadas principales para el componente k dividido por la raíz cuadrada de la inercia k-ésima. De igual manera, la coordenada principal para el perfil de la columna j y el componente k es la coordenada de la proyección del perfil de columna j en el componente k. Las coordenadas estandarizadas de columna para el componente k son las coordenadas de la columna principal para el componente k dividido por la k-ésima inercia. La tabla de contingencia puede ser analizada en términos de perfiles de renglones y columnas. Un perfil de renglón es una lista proporciones de renglón que se calculan de los números de la tabla de contingencia. Específicamente, el perfil del renglón i es (ni1/ni., ni2/ni.,….,nic/ni.). Un perfil de columna es una lista de proporciones de columna, donde nij, es la frecuencia en el renglón i y la columna j de la tabla y ni., es la suma de las frecuencias en el renglón i. Específicamente, el perfil para la columna j es (n1j/n.j, n2j/n.,, …, nrj/n.j), donde n.j, es la suma de las frecuencias en la columna j. Los dos análisis son matemáticamente equivalentes, el que se seleccione es que sea más natural para un análisis dado. En general, es interesante estudiar como difieren los perfiles de renglón o de columna uno de otro. Los perfiles de renglón son vectores de longitud c y por tanto se encuentran en un espacio dimensional de c-dimensiones (de manera similar, los perfiles de columna se encuentran en un espacio r-dimensional). Como esta dimensión es normalmente alta para permitir una interpretación fácil, se desea encontrar un espacio de menor dimensión (de preferencia no más de dos o tres) que se encuentre cercano a todos los perfiles de renglones (o puntos de perfiles de columnas). Después se pueden proyectar estos puntos de los perfiles en el subespacio y estudiar las proyecciones. Si las proyecciones son cercanas a los perfiles, no se pierde mucha información, trabajando en dos o tres dimensiones permite estudiar los datos más fácilmente y, en particular, permite examinar las gráficas. El proceso es similar a
Pág. 180
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
seleccionar un número pequeño de componentes principales para resumir la variabilidad de los datos continuos. Si d = el más pequeño de (r-1) y (c-1), entonces los perfiles de renglón (o perfiles equivalentes de columna) se encuentran en un subespacio ddimensional del espacio –c-dimensional completo (o su equivalente rdimensional completo). De ésta forma, hay a lo más d componentes.
Ejemplo: Del texto de M. J. Greenacre, Correspondence Analysis in Practice, by p.75. 796 investigadores fueron clasificados en diez disciplinas académicas y cinco categorías de fondos, A es la categoría más alta, D es la categoría más baja y E es categoría sin fondeo. Las disciplinas son renglones y las categorías son columnas. Se desea saber como las disciplinas se comparan unas con otras respecto a las categorías de fondeo, se forma que se realiza un análisis de correspondencia con una orientación a renglones. Como información complementaria se incluye: un renglón para investigadores de museos no incluida en el estudio y un renglón para matemáticas y estadística. Los datos colectados son los siguientes: Archivo Tabl.Mtw CT1 3 1 6 3 10 3 1 0 2 2
CT2 19 2 25 15 22 11 6 12 5 11
CT3 39 13 49 41 47 25 14 34 11 37
CT4 14 1 21 35 9 15 5 17 4 8
CT5 10 12 29 26 26 34 11 23 7 20
RowNames Geology Biochemistry Chemistry Zoology Physics Engineering Microbiology Botany Statistics Mathematics
ColNames A B C D E
Las instrucciones de Minitab son las siguientes: 1
Open worksheet EXH_TABL.MTW.
Pág. 181
RowSupp1 4 12 11 19 7
RowSupp2 4 16 48 12 27
RSNames Museums MathSci
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
2
P. REYES / MARZO 2007
Stat > Multivariate > Simple Correspondence Analysis.
3 Seleccionar en Columns of a contingency table, CT1-CT5. En Row names, seleccionar RowNames. En Column names, seleccionar ColNames. 4
Click Results y seleccionar Row profiles. Click OK.
5 Click Supp Data. En Supplementary Rows, indicar RowSupp1 RowSupp2. En Row names, indicar RSNames. Click OK. 6 Click Graphs. Seleccionar Show supplementary points in all plots. Seleccionar Symmetric plot showing rows only y Asymmetric row plot showing rows and columns. 7
Click OK in each dialog box.
Los resultados se muestran a continuación: Simple Correspondence Analysis: CT1, CT2, CT3, CT4, CT5
Perfiles por renglón: Se muestra la proporción de cada una de las categorías de renglón por columna. Así, de la clase de Geología, 3.5% está en columna A, 22.4% en columna B, etc. La masa de la fila de Geología, 0.107, es la proporción de todas las materias de Geología en el conjunto de datos. Row Profiles Geology Biochemistry Chemistry Zoology Physics Engineering Microbiology Botany Statistics Mathematics Mass
A 0.035 0.034 0.046 0.025 0.088 0.034 0.027 0.000 0.069 0.026 0.039
B 0.224 0.069 0.192 0.125 0.193 0.125 0.162 0.140 0.172 0.141 0.161
C 0.459 0.448 0.377 0.342 0.412 0.284 0.378 0.395 0.379 0.474 0.389
D 0.165 0.034 0.162 0.292 0.079 0.170 0.135 0.198 0.138 0.103 0.162
E 0.118 0.414 0.223 0.217 0.228 0.386 0.297 0.267 0.241 0.256 0.249
Mass 0.107 0.036 0.163 0.151 0.143 0.111 0.046 0.108 0.036 0.098
Análisis de la tabla de contingencia: se muestra la descomposición de la inercia total. Se muestra el resumen de la descomposición de una tabla de contingencia de 10 x 5 en 4 componentes. La columna denominada inercia contiene el valor Chi cuadrada / n para cada componente. De la inercia total, 65.972 / 796 = 0.0829, 47.2% está contenida en el primer componente, 36.66% por el segundo componente, etc. Aquí, 65.972 es el estadístico Chi cuadrada que se debería obtener si se realizara la prueba Chi cuadrada de asociación con esta tabla de contingencia.
Pág. 182
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Analysis of Contingency Table Axis 1 2 3 4 Total
Inertia 0.0391 0.0304 0.0109 0.0025 0.0829
Proportion 0.4720 0.3666 0.1311 0.0303
Cumulative 0.4720 0.8385 0.9697 1.0000
Histogram ****************************** *********************** ******** *
Contribuciones de renglón: como no se especificó el número de componentes, se calculan dos.
La columna Quality, es la proporción de la inercia de renglón representada por los dos componentes. Los renglones Zoology y Geology, con Quality de 0.928 y 0.916, respectivamente, están mejor representados entre los renglones por los dos componentes, mientras que Math tiene la representación más débil con 0.319.
La columna Mass tiene el mimo significado que en la tabla de perfiles de Renglón – la proporción de la clase en el conjunto completo de datos.
La columna denominada Inert, es la proporción en la que contribuye cada renglón en la inercia total. Así, Geology contribuye con 13.7% del estadístico Chi cuadrado total.
Row Contributions ID 1 2 3 4 5 6 7 8 9 10
Name Geology Biochemistry Chemistry Zoology Physics Engineering Microbiology Botany Statistics Mathematics
Qual 0.916 0.881 0.644 0.929 0.886 0.870 0.680 0.654 0.561 0.319
Mass 0.107 0.036 0.163 0.151 0.143 0.111 0.046 0.108 0.036 0.098
ID 1 2 3 4 5 6 7 8 9
Name Geology Biochemistry Chemistry Zoology Physics Engineering Microbiology Botany Statistics
Component Coord Corr -0.303 0.861 0.455 0.762 -0.073 0.510 -0.102 0.083 -0.027 0.006 0.292 0.749 0.110 0.671 0.039 0.029 -0.014 0.007
Inert 0.137 0.119 0.021 0.230 0.196 0.152 0.010 0.067 0.012 0.056
Component Coord Corr -0.076 0.055 -0.180 0.119 -0.038 0.134 0.327 0.846 -0.316 0.880 0.117 0.121 -0.013 0.009 0.179 0.625 -0.125 0.554 -0.107 0.240
2 Contr 0.322 0.248 0.029 0.052 0.003 0.310 0.018 0.005 0.000
Pág. 183
1 Contr 0.016 0.030 0.006 0.413 0.365 0.039 0.000 0.088 0.014 0.029
MÉTODOS ESTADÍSTICOS MULTIVARIADOS 10
Mathematics
0.061
0.079
P. REYES / MARZO 2007
0.012
Renglones suplementarios: esta tabla se puede interpretar de manera similar a la tabla de contribuciones por renglón. Supplementary Rows ID 1 2
Name Museums MathSci
Qual 0.556 0.559
Mass 0.067 0.134
Inert 0.353 0.041
Component Coord Corr 0.314 0.225 -0.112 0.493
1 Contr 0.168 0.043
Component Coord Corr -0.381 0.331 0.041 0.066
2 Contr 0.318 0.007
Contribuciones de columna: aquí se muestra que dos componentes explican la mayoría de la variabilidad en las categorías de fondeo B, D, y E. Las categorías de fondeo A, B, C y D contribuyen más al componente 1, mientras que la categoría sin fondos E, contribuye más al componente 2. Column Contributions ID 1 2 3 4 5
Name A B C D E
Qual 0.587 0.816 0.465 0.968 0.990
Mass 0.039 0.161 0.389 0.162 0.249
Inert 0.187 0.110 0.094 0.347 0.262
Component Coord Corr -0.478 0.574 -0.127 0.286 -0.083 0.341 0.390 0.859 0.032 0.012
1 Contr 0.228 0.067 0.068 0.632 0.006
Component Coord Corr -0.072 0.013 -0.173 0.531 -0.050 0.124 -0.139 0.109 0.292 0.978
2 Contr 0.007 0.159 0.032 0.103 0.699
Gráfica de Renglones: muestra las coordenadas principales de renglón. El componente 1, que mejor explica Zoología y Física, muestra dos clases removidas desde el origen, pero con signo contrario. El componente 1 podrá ser pensado como contraste de las ciencias biológicas y Botánica con la Física. El componente 2 podría pensarse como contraste de Bioquímica e Ingeniería con Geología.
Pág. 184
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Row Plot 0.5
Biochemistry
0.4 Engineering
Component 2
0.3 0.2
Microbiology
0.1 Phy sics
0.0
Mathematics MathSci Statistics
Botany
Chemistry
Zoology
-0.1 -0.2 Geology
-0.3
Museums
-0.4 -0.4 -0.3 -0.2 -0.1 0.0 0.1 0.2 0.3 0.4 0.5 Component 1
Gráfica asimétrica de renglones:
los renglones son escalados en
coordenadas principales y las columnas son escaladas en coordenadas estándar. Entre las clases de fondeo, el Componente 1 contrasta los niveles de fondeo, mientras que el componente 2 contrasta de los que se fondean (A a D) contra los que no se fondean €. Entre las disciplina, la física tiende a tener el mayor nivel de fondeo y la Zoología tiene el fondeo más bajo. La Bioquímica tiende a tener el punto medio del nivel de fondeo, pero es el más alto entre los investigadores sin fondeo. Los museos tienden a estar fondeados, pero en un menor nivel que los investigadores académicos.
Asymmetric Row Plot 2
E
Component 2
1
0
Biochemistry Engineering Microbiology Phy sics MathSciBotany Mathematics Chemistry StatisticsZoology C Geology Museums
A
D
B
-1
-2
-3 -3
-2
-1 0 Component 1
1
2
Pág. 185
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
B. Análisis de correspondencia múltiple El análisis de correspondencia múltiple extiende al análisis de correspondencia simple al caso de tres o más variables categóricas. El análisis de correspondencia múltiple realiza un análisis de correspondencia simple en una matriz de variables indicadoras donde cada columna de la matriz corresponde a un nivel de variable categórica. En vez de tener una tabla de dos vías, la tabla multi vía se resume a una dimensión. Al moverse del procedimiento simple al múltiple. Se gana información en un número potencial mayor de variables, pero se puede perder información en como los renglones y las columnas se relacionan unas con otras.
El análisis de correspondencia múltiple descompone una matriz de variables indicadoras formadas de todas las variables consideradas. No se parece al de correspondencia simple, donde las columnas y renglones son de una variable, aquí todas las clases de variables son contribuyentes de columnas. El análisis de correspondencia múltiple realiza un análisis de componentes principales ponderado de la matriz de variables indicadoras. Si el número de categorías en las j columnas categóricas son c1, c2, …, cj, el número de dimensiones relevantes es la suma de (ci-1), con i = 1, 2, …., j. Como en el análisis de correspondencia simple, el análisis de correspondencia múltiple particiona el estadístico Chi cuadrada de Pearson. A diferencia del análisis de correspondencia simple, no se pueden analizar ya sean los perfiles de renglón o de columna – hay solo perfiles de columnas --. Dado que no hay renglones, este análisis ofrece solo una gráfica – una gráfica de coordenadas de columnas.
Ejemplo: Los accidentes de automóvil se clasifican de acuerdo al tipo de accidente en: colisión o volcadura; severidad del accidente (no severo y severo); si o no el chofer fue expulsado; y el tamaño del coche (pequeño o estándar). Se utiliza el
Pág. 186
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
análisis de correspondencia múltiple para examinar como las categorías en esta tabla de cuatro vías se relacionan unas con otras. 1
Open worksheet EXH_TABL.MTW.
2
Stat > Multivariate > Multiple Correspondence Analysis.
3 Seleccionar Categorical variables, e indicar CarWt DrEject AccType AccSever. 4
En Category names, seleccionar AccNames.
5
Click Graphs. seleccionar Display column plot.
7 Click OK en cada uno de los cuadros de diálogo. Los resultados se muestran a continuación: Multiple Correspondence Analysis: CarWt, DrEject, AccType, AccSever
Análisis de la matriz indicadora: esta tabla da un resumen de la descomposición de las variables. La columna denominada Inercia es el valor de la Chi cuadrada / n contenida por cada componente. De la inercia total de 1, 40.3%, 25.2%, 19.0% y, 15.5% son contenidas en los componentes primero al cuarto respectivamente. Analysis of Indicator Matrix Axis 1 2 3 4 Total
Inertia 0.4032 0.2520 0.1899 0.1549 1.0000
Proportion 0.4032 0.2520 0.1899 0.1549
Cumulative 0.4032 0.6552 0.8451 1.0000
Histogram ****************************** ****************** ************** ***********
Contribuciones de columna: como no se especificó el número de componentes, se calculan dos.
La columna Quality, es la proporción de la inercia de columna representada por los dos componentes. Las categorías tamaño de coche (pequeño, estándar) con Qual = 0.965, mientras que las categorías de expulsión son al menos representadas por Qual = 0.474. Cuando hay solo dos categorías para cada clase, cada una es representada de
Pág. 187
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
manera similar por cualquier componente, pero esto puede no ser cierto para más de dos categorías.
La columna Mass tiene el mismo significado que en la tabla de perfiles de Renglón – la proporción de la clase en el conjunto completo de datos. En este ejemplo CarWt, DrEject, AccType, y AccServer se combinan para una proporción de 0.25.
La columna denominada Inert, es la proporción en la que contribuye cada columna en la inercia total. Las categorías coches pequeños, expulsados, y volcaduras tienen la mayor inercia, sumando 61.4%, que indica que estas categorías están más disociadas de las demás.
Column Contributions ID 1 2 3 4 5 6 7 8
Name Small Standard NoEject Eject Collis Rollover NoSevere Severe
Qual 0.965 0.965 0.474 0.474 0.613 0.613 0.568 0.568
Mass 0.042 0.208 0.213 0.037 0.193 0.057 0.135 0.115
Inert 0.208 0.042 0.037 0.213 0.057 0.193 0.115 0.135
Component Coord Corr 0.381 0.030 -0.078 0.030 -0.284 0.472 1.659 0.472 -0.426 0.610 1.429 0.610 -0.652 0.502 0.769 0.502
1 Contr 0.015 0.003 0.043 0.250 0.087 0.291 0.143 0.168
Component Coord Corr -2.139 0.936 0.437 0.936 -0.020 0.002 0.115 0.002 0.034 0.004 -0.113 0.004 -0.237 0.066 0.280 0.066
2 Contr 0.771 0.158 0.000 0.002 0.001 0.003 0.030 0.036
La información para los compoinentes es como sigue:
La columna denominada Coord da las coordenadas de la columna. Ejec. Y Rollover tienen las coordenadas mayores para el componente 1 y Small tiene la coordenada más grande en valor absoluto para el componente 2. El signo y su tamaño relativo son útiles para interpretar los componentes.
La columna Corr representa la contribución del componente respectivo a la inercia del renglón. Aquí, el Componente 1 contiene de 47 a 61% de la inercia de las categorías de expulsión, tipo de colisión, y severidad del accidente, pero explica solo el 30% de la inercia del tamaño de coche.
Contr, la contribución del renglón a la inercia del eje, muestra Ejec. Y Rollover contribuyendo a la mayoría del, con componente 1 (Contr = 0.250 y 0.291, respectivamente). El componente 2, por otra parte Pág. 188
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
contiene el 93.6% de la inercia de la categoría del tamaño del coche con Small contribuyendo con el 77.1% de la inercia del eje. Gráfica de columna: Como la contribución para el Componente 1 indica, Ejec. Y Rollover están más distantes del origen. Este componente constrasta Ejec. Y Rollover y de alguna manera Severe y NoSevere. El Componente 2 separa Small de las otras categorías. Sin embargo dos componentes pueden no ser adecuados para explicar la variabilidad de esos datos.
Column Plot 2
1 Component 2
Standard
Severe
NoEject Collis NoSevere
0
Eject Rollover
-1
-2
Small
-2
-1
0 Component 1
1
2
Pág. 189
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
12. ESCALADO MULTIDIMENSIONAL
Pág. 190
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
12. Escalado Multidimensional El escalado multidimensional intenta encontrar la estructura de un conjunto de medidas de distancias entre objetos o casos. Esto se logra al asignar observaciones a localidades específicas en un espacio conceptual (de dos o tres dimensiones) de tal manera que las distancias entre puntos en el espacio se ajusten a las diferencias tan cerca como sea posible. En muchos casos, las dimensiones de este espacio conceptual puede ser interpretado y usado posteriormente para interpretar los datos. Si se han medido las variables objetivamente, se puede utilizar el escalado multidimensional como una técnica de reducción de datos. Se puede aplicar también a calificaciones subjetivas de diferencias entre objetos o conceptos. Adicionalmente, el procedimiento puede manejar
datos
no
similares
de
fuentes
múltiples,
como
diferentes
encuestadores o encuestados. Por ejemplo, ¿Cómo percibe la gente las relaciones entre diferentes coches? Si se tienen datos de encuestas indicando calificaciones de similaridad entre diferentes fabricantes y modelos de coches, el escalado multidimensional puede
ser
utilizado
para
identificar
dimensiones
que
describan
las
percepciones de los clientes. Se podría encontrar por ejemplo, que el precio y tamaño de un vehículo define un espacio de dos dimensiones, que contiene las similaridades reportadas por los encuestados. Construyendo un mapa de la matriz de distancias El escalado multidimensional es una técnica que está diseñada para construir un “mapa” mostrando las relaciones entre un número de objetos, dada sólo una tabla de distancias entre ellos. El “mapa” puede estar en una dimensión (si caen en una línea), en dos dimensiones (si los objetos se encuentran en un plano), en tres dimensiones ( si los objetos pueden ser representados por puntos en el espacio), o en un número mayor de dimensiones. Por ejemplo, las distancias entre cuatro objetos A, B, C y D se tiene:
Pág. 191
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
A B C D
A 0 6 6 2.5
B 6 0 9.5 7.8
C 6 9.5 0 3.5
P. REYES / MARZO 2007
D 2.5 7.8 3.5 0
B A
D
C
La distancia al mismo objeto es cero. El objeto puede ser reconstruido con base en las distancias de la matriz. Procedimiento para escalado multidimensional El escalado multidimensional clásico inicia con una matriz de distancias entre n objetos que tienen δij , la distancia del objeto i al objeto j, en el renglón i-ésimo y la columna j-ésima. El número de dimensiones t, para el mapeo de objetos es fijo para una solución en particular. Los pasos que se siguen en los programas computacionales son los siguientes: 1. Una configuración inicial es preparada para los n objetos en t dimensiones, i.e., se asumen las coordenadas (x1, x2, …, xt) para cada objeto en un espacio dimensional t. 2. Se calculan las distancias euclidianas entre los individuos para la configuración. Sea dij la distancia entre individuos i y j. 3. Se hace una regresión de dij sobre δij, la última es la distancia entre individuos i y j con base en los datos de entrada. La regresión puede ser lineal, polinómica o monotónica. Por ejemplo una regresión lineal asume que: d ij = a + bδij + ε
Pág. 192
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
La regresión monotónica asume que si varia delta puede incrementar de la dij o mantenerse constante, sin establecerse una relación entre las variables. Las distancias obtenidas
dˆij = a + bδij
de la regresión se denominan
“disparidades”, que son las distancias δij
escaladas para ajustar a la
configuración de dij tan cerca como sea posible: 4. La bondad de ajuste entre las distancias de la configuración y las disparidades se mide con un estadístico adecuado, que puede ser el STRESS, que es:
STRESS 1 =
{∑ ( d
ij
2 − dˆij ) 2 / ∑ dˆij
}
1/ 2
El término STRESS indica la amplitud a la cual la configuración espacial de puntos tiene que ser estresada para obtener los datos de distancias δij . 5. Las coordenadas (x1, x2, …, xt) de cada objeto se cambia ligeramente para reducir el estrés. Los pasos 2 a 5 se repiten hasta que parece que el estrés no se puede reducir más. Como resultados del análisis se tienen las coordenadas de los n individuos en las t dimensiones. Estas coordenadas pueden utilizarse para dibujar un mapa que muestre como se relacionan los individuos. Es deseable encontrar una buena solución en tres o menos dimensiones, para poder hacer una representación gráfica adecuada.
Ejemplo: Con base en un “mapa” de carreteras de una isla de Nueva Zelanda de 13 ciudades. Como las distancias no son proporcionales a las distancias geográficas no es posible recuperar exactamente el mapa de las carreteras. Los datos son los siguientes:
Pág. 193
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Escalado multidimensional Franza Alejandra Balclutha Blenheim Christchurch Dunedin Josef
Te Greymouth Invercargill Milford Nelson Queenstown anau
Timaru
Alejandra
0
100
485
284
126
233
347
138
248
563
56
173
197
Balclutha
100
0
478
276
50
493
402
89
213
537
156
138
177
Blenheim
485
478
0
201
427
327
214
567
691
73
494
615
300
Christchurch
284
276
201
0
226
247
158
365
489
267
305
414
99
Dunedin
126
50
427
226
0
354
352
139
263
493
192
188
127
Franza_Josef
233
493
327
247
354
0
114
380
416
300
228
366
313
Greymouth
347
402
214
158
352
114
0
493
555
187
341
480
225
Invercargill
138
89
567
365
139
380
493
0
174
632
118
99
266
Milford
248
213
691
489
263
416
555
174
0
756
178
75
377
Nelson
563
537
73
267
493
300
187
632
756
0
572
681
366
Queenstown
56
156
494
305
192
228
341
118
178
572
0
117
230
Te_anau
173
138
615
414
188
366
480
99
75
681
117
0
315
Timaru
197
177
300
99
127
313
225
266
377
366
230
315
0
Corrida con SPSS 1. Analyze > Scale > Multidimensional scaling 2. Pasar todas las variables (dimensions min 2 max 2) 3. Options: Group plots; Individual subject plots; Data Matriz; Model summary 4. OK Los resultados son los siguientes:
Alscal Alscal Procedure Options Data OptionsNumber of Rows (Observations/Matrix). Number of Columns (Variables) . . . Number of Matrices . . . . . . Measurement Level . . . . . . . Data Matrix Shape . . . . . . . Type . . . . . . . . . . . Approach to Ties . . . . . . . Conditionality . . . . . . . . Data Cutoff at . . . . . . . . Model OptionsModel . . . . . . Maximum Dimensionality Minimum Dimensionality Negative Weights . .
. . . .
. . . .
. . . .
13 13 1 Ordinal Symmetric Dissimilarity Leave Tied Matrix .000000
. . . .
. . . .
Euclid 2 2 Not Permitted
Output OptionsJob Option Header . . . . . . Data Matrices . . . . . . . Configurations and Transformations Output Dataset . . . . . . .
. . . .
Printed Printed Plotted Not Created
Pág. 194
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Initial Stimulus Coordinates
.
.
.
Computed
Algorithmic OptionsMaximum Iterations . . Convergence Criterion . Minimum S-stress . . . Missing Data Estimated by Tiestore . . . . . .
. . . . .
. . . . .
. . . . .
30 .00100 .00500 Ulbounds 78
1 2 3 4 5 6 7 8 9 10 11 12 13
6 7 8 9 10 11 12 13
11 12 13
. . . . .
Raw (unscaled) Data for Subject 1 1 2 3 4 .000 100.000 .000 485.000 478.000 .000 284.000 276.000 201.000 .000 126.000 50.000 427.000 226.000 233.000 493.000 327.000 247.000 347.000 402.000 214.000 158.000 138.000 89.000 567.000 365.000 248.000 213.000 691.000 489.000 563.000 537.000 73.000 267.000 56.000 156.000 494.000 305.000 173.000 138.000 615.000 414.000 197.000 177.000 300.000 99.000
5
.000 354.000 352.000 139.000 263.000 493.000 192.000 188.000 127.000
6
7
8
9
10
.000 114.000 380.000 416.000 300.000 228.000 366.000 313.000
.000 493.000 555.000 187.000 341.000 480.000 225.000
.000 174.000 632.000 118.000 99.000 266.000
.000 756.000 178.000 75.000 377.000
.000 572.000 681.000 366.000
11
12
13
.000 117.000 230.000
.000 315.000
.000
Iteration history for the 2 dimensional solution (in squared distances) Young's S-stress formula 1 is used. Iteration S-stress Improvement 1 2 3 4
.08605 .06010 .02596 .05795 .00214 .05730 .00066 Iterations stopped because S-stress improvement is less than .001000 Stress and squared correlation (RSQ) in distances RSQ values are the proportion of variance of the scaled data (disparities) in the partition (row, matrix, or entire data) which is accounted for by their corresponding distances. Stress values are Kruskal's stress formula 1. For matrix
Pág. 195
MÉTODOS ESTADÍSTICOS MULTIVARIADOS Stress
=
.05316
RSQ =
P. REYES / MARZO 2007
.98624
Configuration derived in 2 dimensions Stimulus Coordinates Dimension Stimulus Number 1 2 3 4 5 6 7 8 9 10 11 12 13
Stimulus Name ALEJANDR BALCLUTH BLENHEIM CHRISTCH DUNEDIN FRANZA GREYMO INVERCAR MILFORD NELSON QUEENST TE_ANAU TIMARU
1
2
.7202 .8481 -1.9897 -.9345 .5307 -.6973 -1.3326 1.2799 1.8132 -2.3233 .8088 1.4641 -.1875
-.3136 .7719 .4399 .3452 .5790 -1.2456 -.5697 .3898 -.3440 .0714 -.4895 -.2811 .6461
Optimally scaled data (disparities) for subject 1 2 3 4 1 .000 2 .901 .000 3 2.793 2.793 .000 4 1.807 1.807 1.197 .000 5 .901 .297 2.597 1.533 6 1.533 2.793 2.112 1.533 7 2.112 2.535 1.347 .996 8 .982 .577 3.226 2.215 9 1.533 1.347 3.883 2.793 10 3.157 3.157 .432 1.533 11 .297 .996 2.949 1.941 12 .996 .982 3.528 2.535 13 1.197 1.029 1.941 .753 6 7 8 9 10 11 12 13
6 .000 .901 2.535 2.597 1.941 1.533 2.271 1.941
11 12 13
11 .000 .901 1.533
7
8
.000 2.793 3.157 1.180 2.112 2.793 1.533
.000 .996 3.617 .901 .753 1.533
12
13
.000 1.941
Pág. 196
.000
9
.000 4.157 1.029 .432 2.271
1 5
.000 2.199 2.189 .982 1.533 2.793 1.190 1.190 .901 10
.000 3.226 3.804 2.271
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Derived Stimulus Configuration Euclidean distance model 1.0 timaru blenheim
.5
balcluth dunedin invercar
christch
nelson 0.0
-.5
Dimension 2
te_anau alejandr milford queenst
greymo
-1.0
franza
-1.5 -3
-2
-1
0
1
2
4
5
Dimension 1
Scatterplot of Linear Fit Euclidean distance model 5
4
3
Distances
2
1
0 0
1
2
3
Disparities
Scatterplot of Nonlinear Fit Euclidean distance model 5
4
3
Distances
2
1
0 0
100
200
300
400
500
600
700
Observations
Pág. 197
800
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Transformation Scatterplot Euclidean distance model 5
4
3
Disparities
2
1
0 0
100
200
300
400
500
600
700
800
Observations
Ahora con Minitab: 1. Graph > Scatterplot > Simple 2. Y Variables Z2; X Variables Z1 3. Labels > Data labels > Use labels from column Ciudad 4. OK Scatterplot of Z2 vs Z1 1.0 Balclutha Timaru
0.5
Blenheim
Dunedin I nv ercargill
Christchurch
Nelson
0.0 Te anau
Z2
Alejandra Greymouth
-0.5
Milford
Queenstown
-1.0 Franza Josef
-1.5 -2
-1
0 Z1
Pág. 198
1
2
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Ejemplo HATCO: Paso 1: Objetivos del mapeo perceptual El propósito del estudio es explorar la imagen y competitividad de Hatco, atendiendo las percepciones del mercado sobre Hatco y nueve competidores, así como investigar preferencias, entre clientes potenciales. Paso 2. Diseño del estudio de mapeo perceptual Se hacen entrevistas con 18 gerentes medios de diferentes empresas representantes de la base de clientes potenciales existente en el mercado. Se colectaron tres tipos de datos: juicios de similaridad; calficación de atributos de las organizaciones; y preferencias de cada organización en diferentes situaciones de compra. Datos de similaridad Los juicios de similaridad se realizaron con enfoque de comparación de objetos pareados. Los 45 pares de organizaciones [(10 x 9)/2] se presentaron a los encuestados, quienes indicaron que tan similares eran en una escala de nueve puntos, con 1 “no similar” y 9 “muy similar”, los valores deben ser transformados ya que valores altos de similaridad indican mayor similitud, lo opuesto a una distancia de similaridad. Calificación de atributos Se obtuvieron calificaciones para los ocho atributos de cada organización, incluyendo: calidad, orientación de la dirección, calidad del servicio, rapidez de entrega, nivel de precios, imagen de la fuerza de ventas, flexibilidad de precios, e imagen de manufactura. En este caso, se pidió a cada encuestado seleccionar la organización que mejor caracterizaba el atributo, podrían ser varias organizaciones. Evaluación de preferencias
Pág. 199
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Se evaluaron las preferencias de los encuestados ante tres diferentes situaciones de compra: recompra repetitiva, recompra modificada, y nueva situación de compra. La calificación fue de 1 para la organización más preferida, 2 para la siguiente en importancia, etc. Paso 3. Supuestos en el mapeo perceptual Los
supuestos del
correspondencia)
MSD
tratan
(escalamiento principalmente
múltiple) y con
la
CA
(análisis de
comparabilidad
y
representatividad de los objetos evaluados y de los encuestados. Por lo que deben ser seleccionados cuidadosamente. Pasos 4 y 5. Escalado multidimensional Se especifica un análisis composicional (MDS) y uno composicionla (CA) para la construcción de los mapas preceptúales, se inicia con el MDS. Paso 4: Obtener resultados del MDS y evaluar el ajuste del modelo Los 45 juicios de similaridad de los 18 encuestados se procesaron como matrices separadas, y una matriz de promedios de valores se calculó para ilustrar el patrón de similaridades. Los datos se muestran a continuación: Los datos son los siguientes: EJEMPLO DE MDS Y CA EMPRESA HATCO A HATCO 0 6.61 A 6.61 0 B 6.61 6.61 C 2.33 2.61 D 2.56 2.56 E 4.06 2.39 F 2.5 3.5 G 2.33 2.39 H 2.44 4.94 I 6.17 6.94
B 6.61 6.61 0 3.44 4.11 2.17 4 3.72 6.61 2.83
C 2.33 2.61 3.44 0 6.94 4.06 2.22 2.67 2.5 2.5
D 2.56 2.56 4.11 6.94 0 2.39 2.17 2.61 7.06 2.5
E 4.06 2.39 2.17 4.06 2.39 0 4.06 3.67 5.61 3.5
F 2.5 3.5 4 2.22 2.17 4.06 0 2.28 2.83 6.94
Corrida con SPSS 1. Analyze > Scale > Multidimensional scaling 2. Pasar todas las variables
Pág. 200
G 2.33 2.39 3.72 2.67 2.61 3.67 2.28 0 2.56 2.44
H 2.44 4.94 6.61 2.5 7.06 5.61 2.83 2.56 0 2.39
I 6.17 6.94 2.83 2.5 2.5 3.5 6.94 2.44 2.39 0
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
3 Seleccionar Data are distances; Shape Square Symmetric
Continue
4. Model: Seleccionar Level of measurements Ordinal Dimensions Min 2 Max 2 4. Options: Group plots; Individual subject plots; Data Matrix; Model summary 4. OK Los resultados son los siguientes:
Alscal
Alscal Procedure Options
Data OptionsNumber of Rows (Observations/Matrix). Number of Columns (Variables) . . . Number of Matrices . . . . . . Measurement Level . . . . . . . Data Matrix Shape . . . . . . . Type . . . . . . . . . . . Approach to Ties . . . . . . . Conditionality . . . . . . . . Data Cutoff at . . . . . . . .
10 10 1 Ordinal Symmetric Dissimilarity Leave Tied Matrix .000000
Model OptionsModel . . . . . . Maximum Dimensionality Minimum Dimensionality Negative Weights . .
. . . .
. . . .
. . . .
. . . .
. . . .
Euclid 2 2 Not Permitted
Job Option Header . . . . . . Data Matrices . . . . . . . Configurations and Transformations Output Dataset . . . . . . . Initial Stimulus Coordinates . .
. . . . .
Printed Printed Plotted Not Created Computed
. . . .
30 .00100 .00500 Ulbounds
Output Options-
Algorithmic OptionsMaximum Iterations . . Convergence Criterion . Minimum S-stress . . . Missing Data Estimated by
. . . .
. . . .
. . . .
Pág. 201
MÉTODOS ESTADÍSTICOS MULTIVARIADOS Tiestore .
.
.
.
.
.
.
.
.
P. REYES / MARZO 2007 .
45
Raw (unscaled) Data for Subject 1 1 1 2 3 4 5 6 7 8 9 10
.000 6.610 6.610 2.330 2.560 4.060 2.500 2.330 2.440 6.170 6
6 7 8 9 10
.000 4.060 3.670 5.610 3.500
2 .000 6.610 2.610 2.560 2.390 3.500 2.390 4.940 6.940 7 .000 2.280 2.830 6.940
3
4
.000 3.440 4.110 2.170 4.000 3.720 6.610 2.830
.000 6.940 4.060 2.220 2.670 2.500 2.500
8
9
.000 2.560 2.440
.000 2.390
5
.000 2.390 2.170 2.610 7.060 2.500 10
.000
>Warning # 14654 >The total number of parameters being estimated (the number of stimulus >coordinates plus the number of weights, if any) is large relative to the >number of data values in your data matrix. The results may not be reliable >since there may not be enough data to precisely estimate the values of the >parameters. You should reduce the number of parameters (e.g. request >fewer dimensions) or increase the number of observations. >Number of parameters is 20.
Number of data values is 45
Iteration history for the 2 dimensional solution (in squared distances) Young's S-stress formula 1 is used. Iteration 1 2 3 4 5 6
S-stress .34762 .31655 .30447 .29330 .28544 .27995
Pág. 202
Improvement .03107 .01208 .01116 .00787 .00549
MÉTODOS ESTADÍSTICOS MULTIVARIADOS 7 8
P. REYES / MARZO 2007
.27809 .27736
.00186 .00072
Iterations stopped because S-stress improvement is less than
.001000
Stress and squared correlation (RSQ) in distances RSQ values are the proportion of variance of the scaled data (disparities) in the partition (row, matrix, or entire data) which is accounted for by their corresponding distances. Stress values are Kruskal's stress formula 1.
Stress
For matrix .21711 RSQ =
=
.65041
Configuration derived in 2 dimensions
Stimulus Coordinates Dimension Stimulus Number 1 2 3 4 5 6 7 8 9 10
Stimulus Name HATCO A B C D E F G H I
1
2
1.4421 -.7839 -.9662 .9408 -.7348 -1.6467 .8884 .0380 1.3800 -.5578
.4676 1.3555 -1.5220 -.5781 1.1899 -.0867 .9950 .1487 -.7134 -1.2565
Optimally scaled data (disparities) for subject 1 1 2 3 4 5 6 7 8
.000 2.793 2.793 1.445 1.616 2.793 1.572 1.445
2 .000 2.793 1.621 1.616 1.572 1.796 1.572
Pág. 203
3
.000 1.796 2.793 1.445 2.793 1.949
4
.000 2.793 2.793 1.445 1.621
1 5
.000 1.572 1.445 1.621
MÉTODOS ESTADÍSTICOS MULTIVARIADOS 9 10
1.572 2.793
2.793 2.793
6 6 7 8 9 10
P. REYES / MARZO 2007 2.793 1.621
7
.000 2.793 1.796 2.793 1.796
8
.000 1.445 1.621 2.793
.000 1.616 1.572
Derived Stimulus Configuration Euclidean distance model a d
1.5
f
1.0
hatco
.5
g e
0.0
c
Dimension 2
-.5 -1.0
h
i b
-1.5 -2.0 -2.0
-1.5
-1.0
-.5
0.0
.5
1.0
1.5
Dimension 1
Scatterplot of Linear Fit Euclidean distance model 3.5 3.0 2.5 2.0 1.5
Distances
1.0 .5 0.0 1.4
1.6
1.8
2.0
2.2
2.4
2.6
2.8
Disparities
Pág. 204
3.0
1.572 1.572 9
.000 1.572
2.845 1.572 10
.000
MÉTODOS ESTADÍSTICOS MULTIVARIADOS
P. REYES / MARZO 2007
Scatterplot of Nonlinear Fit Euclidean distance model 3.5 3.0 2.5 2.0 1.5
Distances
1.0 .5 0.0 2
3
4
5
6
7
8
6
7
8
Observations
Transformation Scatterplot Euclidean distance model 3.0 2.8 2.6 2.4 2.2
Disparities
2.0 1.8 1.6 1.4 2
3
4
5
Observations
Pág. 205