Coordinador
TEODORO LUQUE MARTíNEZ PROFESOR TITULAR DE COMERCIALlZACION E INVESTIGACION DE MERCADOS DE LA UNIVERSIDAD DE GRANADA
Técnicas de análisis de datos . . . en lnvestlgaclon de mercaaos /
••/
<00'
."., ...l \)
(~
...., ..j
'\,;,,'
(~~ r;'~
EDICIONES PIRÁMIDE
COLECCIÓN «ECONOMÍA Y EMPRESA» Director: Miguel Santesmases Mestre Catedrático de la Umversidad de Alcalá de Henares
Diseño de cubierta: C. Carabina
Reservados todos los derechos. El contenido de esta obra está protegido por la Ley, que establece
penas de posión y/o multas, además de las correspondientes indemnizaciones por daños y perjuiCIOS,
para quienes reprodujeren, plagiaren, distri-
buyeren o comunicaren públicamente, en todo o en parte, una obra literaria, artística o científica, o su transfonnación, mterpretación o ejecución artístIca fijada en cualquier tipo de soporte o comunicada a través de cualquier otro medio, sm la precep-
tiva autorización.
© Teodoro Luque Martínez © Ediciones Pirámide (Grnpo Anaya. S. A.), 2000 Juan IgnacIo Luca de Tena, 15. 28027 Madrid Teléfono: 91 393 89 89. Fax: 91 742 36 61 DepósIto legal: M. 6.915-2000 ISBN: 84-368-1416-9 Printed in Spam Impreso en Lavel, S. A. Polígono IndustrIal Los Llanos. Gran Canana. 12. Humanes de Madrid (Madrid)
Relación de autores
Salvador del Barría García Profesor de ComercIalización e InvestIgación de Mercados. Departamento de AdlTIlfi1stración de Empresas y Marketmg. Facultad de Ciencias EconólTIlcas y Empresanales. Umversidad de Granada.
Jorge ChIca Olmo Profesor de EconoITÚa Aplicada. Departamento de Economía Aplicada. Facultad de Ciencias EconómIcas y Empresanales. Umversidad de Granada.
Dolores M. Frías Jauúlena Profesora de Comercialización e Investigación de Mercados. Departamento de AdmInIstración de Empresas y Marketmg. Facultad de Ciencias Económicas y Empresanales. Umversidad de Granada.
José Alberto Hermoso GutIérrez Profesor de Economía Aplicada. Departamento de Economía Aplicada. Facultad de Ciencias Económicas y EmpresarIales. Universidad de Granada.
José Ángel Ibáñez Zapata Profesor de Comercialización e Investigación de Mercados. Departamento de AdmmIstración de Empresas y Marketmg. Facultad de Ciencias Económicas y EmpresarIales. Umversidad de Granada.
Teodoro Luque Martínez Profesor de Comercialización e Investigación de Mercados. Departamento de Adrnimstración de Empresas y Marketmg. Facultad de CienCIaS Econórrncas y Empresariales. Universidad de Granada.
Miguel Ángel Rodríguez Malina Profesor de ComercIalización e InvestIgación de Mercados. Departamento de Administración de Empresas y Marketing. Facultad de Ciencias Económicas y Empresariales. Universidad de Granada.
Juan Sánchez Femández Profesor de Comercialización e InvestIgación de Mercados. Departamento de Adrrumstración de Empresas y Marketing. Facultad de CienCIas Económicas y Empresariales. Universidad de Granada.
Gonzalo Sánchez Vizcaíno Profesor de Orgarnzación de Empresas. Departamento de AdmIrnstración de Empresas y Marketing. Facultad de CienCIas Económicas y Empresariales. Universidad de Granada.
índice
prólogo.............................................................................................................................
17
PARTE PRIMERA Introducción
1. Análisis multivariable (Teodoro Luque Martínez) 1. Introducción al análisIs mullivanable................................................................ 2. Concepto y clasificación 2.1. Métodos de mterdependencJa 2.2 Métodos de dependencia ,........................................... 3. AplicacIOnes del análisIs mullivanable 4. Uso de programas informáticos 5. La última fase: el informe.................................................................................. Inventano de términos y conceptos Bibliografía
21 21 22 26 27 29 31 33 35 35
PARTE SEGUNDA Métodos de Interdependencia
© EdiCIones Pirámide
2. Análisis factorial (Teodoro Luque Martínez}............................................
39
1. Introducción 2. Breve referencia histórica................................................................................... 3. El proceso del análisis factorial: lipos............................................................... 3.1. Fase de preparación 3.2. Extracción y selección de los factores 3.3. Interpretación: rotación y representación................................................. 3.4. Evaluación y valoración del análisis........................................................ 3.5. Ejemplo......................................................................................................
39 40 41 41 45 60 65 65
11
Índice
12
4. Esquema de procedimIento 5. Caso práctlco 6. AplicacIOnes y limItacIOnes del análisIs factonal............................................. Inventario de térmmos y conceptos Bibliografía..
76 76 84 86 86
3. Análisis de correspondencias simple y múltiple (Miguel Ángel Rodríguez Molina)...............................................................................................
89
l. Introducción 2. Breve reseña histónca 3. Análisis de correspondencias sImple (ACS) 3.1~' Consideraciones generales 3.2 Formulación del ACS 3.3 Interpretación del análiSIS de correspondencias....................................... 3.4. Esquema general del análisis de correspondencias 3.5. El análisis de correspondencias con ayuda del ordenadof...................... 3.6. Ejemplo 1 3.7. Ejemplo 2 4. Análisis de correspondencias múltlple............................................................... 4.1. Introducción............................................................................................... 4.2. Formn1ación del análisis de correspondencIas mú1tlple 4.3. Ejemplo práctlco (EJEMP-ACM)............................................................. 5. Aplicaciones del análisIs de correspondencias.................................................. Inventano de términos y conceptos Anexo......................................................................................................................... Bibliografía................................................................................................................
89 91 92 92 92 102 111 112 113 121 135 135 136 138 143 145 145 147
4. Análisis cluster (Teodoro Luque MartínezJ...............................................
151
1. Introducción 2. AnálisIs cluster: concepto y característlcas....................................................... 3. Proceso de análisIs cluster 3.1. Fase de preparación 3.2. Determmación de las especificacIOnes..................................................... 3.3. Interpretación de los grupos 3.4. Valoración del análisIs.............................................................................. 4. Esquema del procedimIento 5. Ejemplo de análisIs............................................................................................. 6. Ejemplo de análisis cluster JerárqUIco descendente. Algoritmo de Howard-Harris. 7. AplicacIOnes del análisIs cluster........................................................................ Inventario de térmmos y conceptos Bibliografía..
151 152 155 155 156 167 168 168 169 180
184 186 186
© Ediciones Pirámide
Índice
5. Escalamiento mUltidimenslonal (José Ángel Ibáñez Zapata y Teodoro Luque MartínezJ
189
1. Introducción .. 1.1. ¿Qué es el escalamiento multidimenslOna1? 1.2. Una visión Simplificada del funcionaffilento del escalamiento multidimenslOna1................................................................................................... 1.3. Comparación del escalamiento multidimenslOnal con otras técmcas de mterdependencla........................................................................................ 2. Proceso de elaboración de mapas perceptuales................................................. 2.1. Objetivos y especificacIOnes del escalamiento multidimensional........... 2.2. Supuestos del análiSIS mu1tidimenslOnal.................................................. 2.3. Determinación de una solución para el EMD y evaluación del aJuste.. 2.4. Incorporación de preferencias en el escalamiento multidimenslOnal ..... 2.5. Interpretación de los resultados del escalamiento multidimensional...... 2.6. Validación de los resultados..................................................................... 3. Modelos de escalamiento multidimenslOnal...................................................... 4. Ejemplos prácticos.............................................................................................. 4.1. Escalamiento multidimenslOnal clásICO (EMDC) 4.2. Escalamiento multidimensional cláSICO repetido 4.3. Escalamiento mu1tidimenslOna1 replicado (EMDR) 4.4. Escalaffilento multidimensional ponderado (EMDP)............................... 4.5. Desdoblaffilento multidimensional clásico mterno (DMDC interno) 4.6. Desdoblamiento multidimenslOnal cláSICO externo (DMDC externo) 5. Esquema de procedimiento 6. AplicacIOnes Bibliografía
189 189 191 193 194 194 196 196 199 201 203 203 204 205 212 213 217 228 233 239 240 242
PARTE TERCERA
Métodos de dependenCia
© Ediciones Pirámide
6. Regresión lineal (Jorge Chica Olmo y Dolores M. Frías JamíJenaJ .......
247
l. Introducción . 2. El modelo de regresión lineal.. .. 2.1. Introducción al modelo de regresión Simple .. 2.2. Estimación de los coeficientes del modelo de regresión lineal simple .. 3. El modelo de regresión múltiple .. 3.1. Estimación . 3.2. Interpretación de los coefiCientes estimados . 3.3. Intervalos de confianza y prueba de hipótesis .. 3.4. Bondad del ajuste . 3.5. Importancia relativa de las vanables explicativas . 3.6. Predicción . . 3.7. Variables ficticias 4. Multicolinealidad . .. 4.1. Concepto y consecuencIas
247 248 248 249 251 252 253 254 255 256 258 258 260 260
13
Índice 4.2. Detección................................................................................................... 4.3. SolucIOnes.................................................................................................. 5. Heteroscedaslicidad 5.1. Concepto y consecuencias 5.2. Detección 5.3. Soluciones.................................................................................................. 6. Autocorrelación................................................................................................... 6.1. Concepto y consecuencias 6.2. Detección 6.3. SolucIOnes.................................................................................................. 7. Aplicación 7.1. Caso práclico (Gastofarrna) Inventarlo de térnunos y conceptos Bibliografía
261 262 262 262 262 265 265 265 266 268 269 271 279 280
7. Análisis de la varianza (Teodoro Luque Martínez VJosé Angellbáñez zapata)
281
1. Defimción y características 2. ANOVA.......................... 2.1. ANOVA con un factor (ONE-WAY) 2.2. ANOVA con varios factores 2.3. Diseño por bloques 3. MANOVA........................................................................................................... 3.1. MANOVA con un factor 3.2. MANOVA con varios factores................................................................. 4. Análisis de la covananza 5. Esquema de procedimiento 6. AplicacIOnes y linutaclOnes Inventario de términos y conceptos Bibliografía
281 283 284 293 306 312 313 323 336 341 343 344 345
Segmentación jerárquica (Teodoro Luque Martínez)
347
1. Concepto y clasificación 2. AID (Automalic InteractlOn Detection) 2.1. Caracteríslicas generales.. 2.2. Esquema del procedimiento...................................................................... 3. Ejemplo de AID 4. CHAID (Chi-squared Automalic Interaction Detection) 4.1. Caracteríslicas generales 5. Esquema de procedimento 6. Ejemplo de CHAID (nonunal) 7. Ejemplo de CHAID con variable dependiente politónuca 8. Extensión de CHAID a vanables dependientes ordinales: un caso práctico... 8.1. Una aproximación al CHAID ordinaL...................................................
347 349 349 352 353 356 356 360 361 371 376 376
8.
14
© EdicIOnes Pirámide
Índice
9.
10.
© EdiCiOnes Pirámide
8.2. Ejemplo práctico Inventano de términos y conceptos Bibliografía................................................................................................................
377 381 381
AnálisiS discriminante (Juan sánchez Fernández V Teodoro Luque MartínezJ
383
l. Introducción 2. Fundamentos del análisIs discnminante 2.1. Caracteríslicas de las variables................................................................. 2.2. Relación con otras técmcas 2.3. Tipos de análisIs discnminante 2.4. Interpretación gráfica del análiSIS discriminante 2.5. Utilidad del análisis discnminante 2.6. AsuncIOnes del análisIs discrimmante...................................................... 2.7. RecomendacIOnes respecto a la muestra.................................................. 3. Proceso del análisIs discriminante 3.1. Selección del método para la obtención de las funciones discnmmantes.. 3.2. Evaluación de la significación de las funciones discnmmantes 3.3. Examen de las funciones discrimmantes 3.4. Idoneidad de la clasificación 3.5. Interpretación............................................................................................. 4. Casos 4.1. Ejemplo 1 4.2. Ejemplo 2 5. Esquema de procedimiento en paquetes estadíslicos 6. AplicaCIOnes del análisIs discnmmante
383 383 384 384 385 386 389 389 390 391 393 395 397 400 405 407 407 415 427 427
Regresión logística (Gonzalo Sánchez VízcaínoJ.....................................
431
1. Introducción . 2. Fonnulación del modelo . 2.1. LimitacIOnes del modelo de regresión lineaL .. 2.2. El modelo de regresión logíslica ~ . 3. El modelo mullivariante . 4. El proceso de regresión logíslica . 4.1. Codificación de las vanables independientes categóncas .. 4.2. Contraste de hipótesis sobre la significación de los coeficientes de regresión . 4.3. Medidas de la bondad del ajuste .. 4.4. Interpretación de los resultados .. 4.5. Valores extremos y colinealidad .. 4.6. Selección de las variables mdependientes .. 5. ConsideracIOnes finales . 6. Aplicación práclica . 7. InventarlO de términos y conceptos . Bibliografía .
431 432 432 436 440 440 440 442 445 453 456 458 459 460 467 467
15
Índice 11.
12.
16
Correlaciones canónicas (José Alberto Hermoso cutiérrezJ
469
l. Defimción y características 2. El proceso del análisIs de correlacIOnes canómcas........................................... 2.1. Notación y formulación del problema 2.2. Obtención de las funciones canómcas 2.3. Identificación de las vanables canómcas 2.4. Test de significación 2.5. Interpretacion de las varIable canómcas 3. LimItaciones y aplicacIOnes 4. Esquema del procedimIento 5. Caso práctIco Inventario de térmInos y conceptos Bibliografía................................................................................................................
469 470 470 471 472 473 475 477 478 481 486 486
AnálisiS de ecuaciones estructurales (Salvador del Bamo Careia
V Teodoro Luque MartinezJ
489
l. Introducción 2. Fases para el desarrollo de un modelo de ecuacIOnes estructurales 2.1. Especificación del modelo 2.2. Identificación del modelo 2.3. EstImación del modelo 2.4. Evaluación e Interpretación del modelo................................................... 3. Estrategias de análiSIS de modelos de ecuaciones estructurales....................... 3.1. EstrategIa de modelización confirmatoria................................................ 3.2. EstrategIa de modelización competitiva................................................... 3.3. Estrategia de desarrollo del modelo......................................................... 4. Un caso partIcular de los modelos de ecuacIOnes estructurales: el análiSIS factonal confirmatono , 5. Software para el análiSIS de ecuacIOnes estructurales....................................... 6. Ejemplo práctico de análisis de ecuaCIOnes estructurales................................. 7. La aplicación de los modelos de ecuaciones estructurales a la investIgación de marketIng. Inventario de ténrunos y conceptos Anexo......................................................................................................................... Bibliografía
489 492 492 50 l 504 513 527 527 527 528 528 532 535 550 552 553 555
© EdiCIOnes Pirámide
Prólogo
Llegado el final de esta obra, aunque para el lector sea el comIenzo, es necesano comentar algunos aspectos que tantas veces se comenzaron a esbozar con trazas ImpresIOnistas y que, por últImo y por fin, se concretan en esta presentación. En ella se destilan seguramente de fonna Impresa algunas de las claves que una larga gestación, como ha sido ésta, sIempre genera y que ahora se recuerdan asociadas a fechas señaladas de supuestas vacaCIOnes docentes. Desde hace tIempo el desarrollo alcanzado por los estudios y la investIgación en marketIng, en general, y en la InvestIgación de mercados, en partIcular, Junto con la dinámica profesIOnal en este campo, ha propicIado la aparición de numerosas publicaCIOnes que profundizan en la disciplina. Éstas, cada vez más, son de autores españoles, lo cual, además de ser deseable, era necesario. PrecIsamente el ongen de este libro está en la idea de propíciar al estudiante y al estudioso de la InvestIgación de marketIng en nuestro contexto una publicación que pueda sentIr cercana por los temas, los problemas o los ejemplos que se utilizan. Una vez abordados los fundamentos de la InvestIgación de mercados y todo su proceso, el reto que se presenta es afrontar el análisIs de los datos, la explotación del matenal resultante de la recogida de información. Pues bIen, el objetIvo de esta obra es presentar una caja de herramIentas al InvestIgador, una gama suficientemente amplia de herramientas de análisis que permIta abordar los problemas de InvestIgación más habItuales. Para ello la OrIentación que sIgue se basa en las sIguIentes ideas clave. Una, presentar los diferentes análiSIS con un desarrollo suficiente para comprender su funcIOnamIento. Dos, sImplificar, resumIr la operatorIa a segll1r, utilizando diversos programas InformátIcos para no estar exceSIvamente formateados a uno, lo que sIempre es una limItación. Tres, realizar y explicar una aplicación práctica que posibilita al lector comprobar él mISmo cómo se obtIenen los resultados, por un lado, y la comprensión e Interpretación de todo el proceso, por otro. Habida cuenta de la gama de técnIcas existentes, su selección necesarIamente © EdiCIOnes Pirámide
17
Prólogo
conduce a un grupo reducido. El críteno que mejor define la elección es el de la conveniencIa. Sin embargo, en ello han tenido que ver dos aspectos Importantes: uno, la utilidad y aplicación de la técmca, y otro, la extensión de la obra. Claro está que faltan algunas que son tradicIOnales y otras que son más novedosas. Este últImo es el caso de las técnicas de mmería de datos y de almacenamIento de datos que proporcIOnan posibilidades muy mteresantes de aplicación en la mvestlgación de marketmg. Con los planteamientos referídos, los diferentes coautores nos pusImos a trabaJar. Es de JustICIa reconocer que el programa de doctorado de nuestro departamento, en el que partIcipamos, y las diferentes mvestIgaclOnes emprendidas por el grupo de mvestIgación, al que la mayoría pertenece, ha constituido un Impulso deCISIVo. Por otra parte, han sido Igualmente estImulantes las aplicaCIOnes prácticas realizadas en esta mvestIgación, que han servido para construIr los ejemplos de las diferentes técnicas. En muchas ocasiones los datos tienen su ongen en las mvestigaciones realizadas, aunque a veces adaptados a los objetivos docentes que ahora se persIguen. Estos datos se proporcionan al lector. El resultado esperamos que sea de utilidad para los estudiantes de la licenCIatura de Admmlstración y Dirección de Empresas, de Economía, de SOCIOlogía y demás cIencIas SOCIales que precIsen una aproxImación al análisis multIvanante, pero sobre todo a los estudiantes de la licenCIatura de Investigación y Técmcas de Mercado. También puede resultar útil a los profeSIOnales y a los estudiantes de doctorado; al fin y al cabo, es muy frecuente la utilización de algunas de estas técmcas en los trabajOS de mvestIgación y en las tesIs doctorales. La larga gestación del libro ha supuesto estrechar aún más la relación entre el grupo de compañeros, y sm embargo amIgos, pertenecIentes la mayoría al grupo de investIgación ADEMAR de la Umversidad de Granada y todos a la Facultad de CienCIas EconómIcas y EmpresarIales de Granada. Aunque desde luego son todos los que están, no están todos los que son. Ese saludable clima de trabajO ha favorecido extraordinarIamente la coordinación, aunque también genera una cIerta nostalgIa, en tanto que es difícil que cualqUIer tIempo futuro sea meJor. Pero esto se convierte en un desafío que merece la pena mtentar para evitar la reprehenSIón. Quevedo distmguía tres géneros de personas: los unos que, por hallarse ignorantes, no escriben y estos merecen disculpa por haber callado y alabanza por haberse conocido; otros que no comunican lo que saben: a estos se les ha de tener lástIma de la condición y envidia del ingenio, pidiendo a Dios que los perdone lo pasado y les enmienda lo por venir; los últimos no escriben de miedo a las malas lenguas: estos merecen reprehensión. Granada, febrero de 2000. TEODORO LUQUE MARTÍNEz
18
© Ediciones Pirámide
PARTE PRIMERA Introducción
Anál sis Teodoro Luque Martínez
1.1.
INTRODUCCiÓN AL ANÁLISIS MULTIVARIABLE El proceso de investigación en general, y el de lllvestigación comercIal en partIcular, supone un cOIDunto' de etapas que comIenzan en la fase prevIa con la llldagación prelinunar y la revisión del conocImiento eXIstente sobre algún fenómeno para después concretar los objetIvos y formular hIpótesIs de partida, delimItando el alcance y las características generales de la lllvestigaclón. Sobre estos CImientos se edifica la mvestIgación, es decIr, se llldaga la necesidad de información secundana y/o pnmarla, la forma de obtenerla, el enfoque a adoptar, las tácticas de la investigación y, cuando se recurre a datos pnmarios, se diseña todo el proceso del trabajO de campo, procedimIentos de entreVIsta, característIcas del muestreo, diseño de herranuentas, etc.. para seguidamente pasar a la acción. Después es necesano tratar los problemas de la no respuesta, de los errores tanto de campo como de oficllla, de los datos desaparecidos o de los datos raros o excepcionales. Tras realizar toda esta planificación, ejecutarla y depurar la lllformación, lo SIgUIente es el análisis de los datos obtenidos. Precisamente ésta va a ser la preocupación central en esta obra. Dada la gran variedad de opcIOnes de análisis de datos, es necesano reCUITIr a algún cnterio de clasificación que permIta un mejor manejo de las diferentes POSIbilidades. Un cnterio de clasificación muy utilizado es el del número de variables, en VIrtud del cual se distlllgue entre análiSIS uni, bl o multIvanante según se consideren una, dos o más variables. Pues bIen, nuestro objetivo es centrarnos en el análiSIS multivariable I Aunque las etapas del proceso de lllvestigación, a las que someramente hemos aludido, se presentan de una forma secuencIal y lineal, lo cIerto es que cuando se lleva a cabo la planificación o el diseño se debe tener in mente una idea global y I
© Ediclones Pirámide
Emplearemos los ténninos «ffiultivariante» o «multivariable» mdistintamente.
21
Técnicas de análisls de datos en investigación de mercados completa del proceso. Así, cuando planificamos el trabajo de campo, diseñamos el cuestlOnano o ideamos instrumentos de medida hemos de tener presente los instrumentos de análisIs y sus requerillllentos de aplicación para que la medida que se realice permIta su utilización. Esta recomendación de tener en cuenta el <
2.
CONCEPTO Y CLASIFICACiÓN El interés por el análisis multivariante se extendió entre autores de ramas del conocimiento muy diversas (además de estadístico-matemátIcos, a psicólogos, sociólogos, economIstas, etc.) puesto que los fenómenos relacionados con el comportamiento y los SOCIales, en general, tienen un marcado carácter multldimenslOnaJ. Junto a esto, el deSIgual desarrollo de las técmcas ha facilitado que eXIstan matices en las denommaclOnes o en la clasificación de las técmcas de análiSIS multivariable. Por ejemplo, en un pnnclplO era el modelo lineal general el que centraba gran parte del mterés y desde cuyo pnsma se veían los demás métodos, mcluso para algunos autores el análiSIS multlvanante estaba formado por los otros análisis en los que las variables tenían una naturaleza SImilar. Para algunos autores la consideración de multivariable eXIgía que todas las varIables fueran aleatorias y estuvIeran mterrelaClOnadas y se interpretaran conjuntamente; otros ponían el énfasIs en la necesidad de que sIgUIeran una distribución normal multlvanante. Creemos que estas divergencIas se han decantado por una mterpretación etimológIca del térrmno multlvanable como referido a vanas o múltiples varIables, a pesar de su generalidad. Así, Coincidiendo con una postura de general aceptación, con-
22
© Ediciones Pirámide
Análisis multivariable sideramos como multivariable todos los métodos estadísticos que, sImultáneamente, analizan más de dos varIables en el muestreo de observacIOnes. LógIcamente, el análisis multivariable tiene su origen y es el desarrollo del análisis um y blvanante, pero que, además de Incorporar conceptos de estos análisis, añade otros nuevos como las medidas multivanantes o escalas multi-Ítems. En la delimitación del análisIs multivarIable a emplear resulta convemente como medidas previas, por un lado, examInar las variables para conocer sus característIcas y comprobar si reúnen los reqUIsitos para emplear una técmca determInada y asegurar la pertInencIa y la relevancIa de la inclusión de cada vanable en el análisIs, puesto que a más varIables se puede producIr un sObreaJuste del modelo y además se complica la generalización. Por otro lado, es importante revIsar los datos para comprobar la eXIstencia de casos con datos desaparecidos o con valores extraños con el fin de tratarlos adecuadamente y asegurarse de que el número de casos es suficIente y cumple las condicIOnes de las técmcas específicas con el fin de consegUIr un mvel de significación y un poder aceptables. El análisIs multIvarIable comprende una amplia varIedad de posibilidades. Algunos métodos son de desarrollo relativamente reciente, bien por representar una verdadera novedad o bIen porque se le han incorporado contrastes o varIables con métnca diferente a las que en un pnnclpio admItían. Por tanto, el conjunto de métodos de análisis multivanable, además de por su varIedad, se caractenza por su evolución e innovación facilitadas e Impulsadas por la Informática. Para establecer una clasificación de los métodos multlvarlantes hay tres cntenos a los que se suele reCUrrIr: l.
La distmción o no entre las vanables utilizadas en el análisis da lugar a dos tipos: • Métodos denommados de interdependencia. En ellos no hay distinción entre variables, todas son de una naturaleza similar. Estos métodos son eminentemente descriptivos, por lo que su utilidad reside en su habilidad para sintetizar mfonnación, mostrar la estructura de los datos o establecer clasificacIOnes. Algunos ejemplos son: análisIs factonal, análisIs cluster y escalamiento multidimenslOnal. • Métodos denommados de dependencIa: diferencIan entre VarIables explicativas, mdependientes o predictivas y vanables a explicar o dependientes; en este caso son métodos de carácter explicativo como el análisIs de la varianza, el de regresión o el discnminante.
2.
© EdicIOnes Pirámide
La escala de medida de las variables. Unas veces se reqUIeren vanables que vengan en escala métrica exclusivamente, otras que las variables sean categóncas o mcluso de ambos tipos. Así, en princIpIO el análisIs de regresión reqUIere varIables métncas aunque su desarrollo ha hecho posible la mtroducción de vanables no métncas, mientras que el análisIs de la varIanza exige variables tanto métricas como categóncas.
23
Técnicas de análisis de datos en investigación de mercados 3.
Número de las vanables que se analizan simultáneamente. En el caso de los métodos de mterdependenCla el número de vanables a considerar estará limitado por las posibilidades del programa utilizado (aunque esto prácticamente no supone restncción) y, sobre todo. por los plantearmentos teóncos de la mvestigación. En los métodos de dependencIa el número de vanables consideradas sí es relevante para distmgUlr entre análisis, especIalmente el número de las varIables a explicar. porque las vanables independientes suelen ser vanas en casi todos los casos. Así. la regresIón reqUIere una vanable dependiente, mIentras que el análisis canómco o el multivanable de la varianza precIsan varias vanables dependientes.
La combinación de estos criterios genera un esquema muy útil para pOSICIOnar los diferentes análisIs. Entre los principales. y sm pretensIOnes de exhaustlvldad, destacamos los de las figuras 1.1 y 1.2. Aunque alguno de los análisis es susceptIble de ser colocado también en otra posición dentro de la clasificación, se ha optado por lo que cabe considerar como la posición generalmente más acorde con su naturaleza. Es posible comentar diversos ejemplos; uno concreto lo constItuye el análisis de ecuacIOnes estructurales, en e! cual es nonnal que eXIstan varIaS variables dependientes y varias mdependientes medidas con escala métrica, pero también puede haber vanables no métncas. Esta clasificación es la que suve de guía en el desarrollo de este libro, y en los
r-..r Escala métnca
Análisis faetona! I AnáliSIS cluster
4
Análisis de escalas multidimensionales métnco
Escala de las
variables
~
AnáliSIS de escalas
multidimenSlOllales no métrico
-C
Similitudes
I
PreferencIas
I
Análisis de grupos nométnco
Escala no métnca
Análisis de
4
correspondencias
múltiple
Figura 1.1.
24
Métodos de mterdependencla. © EdiclOoes Pirámide
Análisis multivariable
M' e~ Escala de vanables Métrica ---.. independientes
-
--
No
,----.
Escala de
AnálisIs de la vananza y covarianza Regresión múltiple con variable ficticia Detector automático de interacción
métrica
la vanable f--
dependiente Una
Regresión lineal múltiple
No métrica - .
Escala de
Mé~
Análisis discnminante
Análisis lagit y probit
variables r-independientes
~ AnálisIs discnrnmante con vanable ficticia AnáliSIS conjunto No métrica
Número de vanables dependientes
Mé~ Varias
Escala de Métnca ---.
Escala de ~ vanables f-dependientes
vanables 1-independientes
N~
métnca
No
AnáliSIS multivarIable de la varIanza y de la covarianza
Modelos lag. lineal AnáliSIS de correlaCIOnes canómcas con
métrIca
Figura 1.2.
AnálisIs de correlaCIOnes canó01cas Análisis de ecuaciones estructurales
vartables fictiCIas AnálisIs de ecuaCIOnes estructurales
Métodos de dependenCIa.
siguientes capítulos se detallan algunos de estos análisIs. La selección de los análiSIS comentados responde a un cnterio de conveniencía en el que se ha considerado la utilización de los diferentes análisis en el ámbito económico-empresarial y comercial, sujeta a las restncciones obvias de una obra de estas características que fuerza a una selección. El fin último que onenta esta elección es ofrecer al mvestlgador de marketmg una caja de herramientas sufiCientemente dotada de mstrumentos para responder a las pnncipales necesidades derivadas de la investígación. En concreto, para cada uno de los análiSIS tratados se pretende, y esto constituye los objetivos específicos para cada capítulo, lo siguiente: • POSICionar cada análiSIS en comparación con los demás y conocer sus posibilidades prácticas a pnon. • Exponer los fundamentos de cada análiSIS. • Delimitar el tipo de input o de datos que precisa y el tipo de output o de resultados que proporCiona. • Comprender la forma de llevar cabo el análiSIS con algunos de los programas existentes en el mercado. © EdiCiones Pirámide
25
Técnicas de análisis de datos en Investigación de mercados
• Conocer aplicaciones concretas que se hayan efectuado en diferentes ámbitos, con especIal incidencIa en el económIco-comercIal.
2.1.
Métodos de interdependencia
En éstos no se distmgue entre vanables. La totalidad de las vanables consideradas para el análisIs, cuya seleccIón debe ser Justificable y racional desde un punto de vista teórico y práctIco, tíene el mIsmo tratamiento. Son métodos con un mterés emmentemente descnptivo que permiten un mejor conocimIento de la realidad me" dida por tales variables, que facilita la identificación y el posIcionamIento de las vanables y/o los casos en la estructura considerada o la clasificación de variables o clases en diferentes grupos o !tpos. Análisis factorial A través de las vanables analizadas se consigue una síntesis del fenómeno en estudio, se resume la mformación e identifica lo fundamental de la mIsma revelando la estructura subyacente de los datos. Es útil para identificar los factores o componentes pnncipales de la imagen de una marca o de una organización, de un comportamiento o de una actitud, por cllar algunos ejemplos. Análisis de correspondencias Como el anterior, trata de descubnr y describIr las dimensiones fundamentales de un fenómeno pero con la partIcularidad de que trabaja con varIables categóncas que proporcionan mapas perceptuales que permllen una representación fácilmente comprensible y especialmente mteresante para el posIcionamiento de productos y de caracterís!tcas. Análisis cluster Comprende diferentes técmcas en las que, partiendo de un conjunto de vanables, se obtienen subconjuntos o grupos, ya sea de casos/individuos ya sea de vanables, mtentando que cada uno sea homogéneo mtemamente y lo más diferente posible a los demás. Son técmcas descnptlvas cuya principal aplicación reside en la clasificación u obtenCIón de !tpologías que no están prevIamente identificadas. Análisis de escalamiento multidimensional También comprende un gran número de vanantes. A partir de una matrIz de datos referidos a distanCIas, sImilitudes o preferencIas, ya sean medidos en escalas métncas o en escalas cualitativas (ordinales), se identifican las dimensiones relevantes y permlle VIsualizar los resultados SIendo un mstrumento útil para el pOSICionamIento de objetos y la representación de preferenCIas, por ejemplo.
26
© Ediciones Pirámide
Análisis multivariable
2.2.
Métodos de dependencia
La distlllción entre variables dependientes e Illdependientes debe efectuarse con arreglo a fundamentos teóncos, por conocimiento o expenenclas y estudios antenores. En tal distlllción se adnute que una vanable (independiente o explicativa) condiclOna los valores de otra u otras (dependiente o a explicar) de forma Importante. Por tanto, la inclusión de una variable en una u otra categoría no es siempre obvia o Illcluso puede tratarse de una relación reversible. Entre los métodos de dependencia vamos a comentar los slgmentes.
Análisis de regresión Es susceptible de utilizar cuando contamos con una vanable dependiente métrica y otras vanables Illdependientes métncas, aunque alguna pueda ser categónca (fictiCia). Esto permite explicar el comportamiento de una vanable (por ejemplo, ventas, gastos, etc.) y anticipar sus valores en función de otras (por ejemplo, precio, gasto en publicidad, presupuesto de promoción, remuneración de la fuerza de ventas, etc.) y analizar las IllcldenClas que cada una de éstas tiene en la vanable dependiente.
Análisis de la varianza y de la covarianza Esta denomlllación hace referenCia a diferentes análisIs. Cuando la variable dependiente es métnca y la o las Illdependientes son categóncas se trata de ANOVA, si hay vanas variables dependientes se trata de un análiSIS multivanante de la vananza (MANOVA). Son herramientas muy útiles para diseños experimentales, para medir la incidencia que tienen actuaclOnes sobre precio, promoción o publicidad medidas en térnunos categóncos (alto, medio y bajo, por ejemplo) sobre las ventas. la valoración de un producto, la satisfacción del consumidor y/o del distribuidor, etc., medidas en escala métnca. Cuando además de variables Illdependientes categóncas hay una vanable (o vanas) Igualmente Illdependiente pero métrica (covariable) que covaría con la dependiente, se trata de un análiSIS de la covarianza (ANCOVA); SI además son varias las dependientes, entonces es un análisIs multivariante de la covarianza (MANCOVA).
Segmentación jerárquica En concreto nos ocupamos de dos técmcas. AID (Automatic Interaction Detection) y CHAID (Chl-squared Interaction Detection), que ayudan en el diseño de estrategias de marketing mediante la identificación de segmentos. Para tal identificación de distmgue entre una vanable cnteno o dependiente y otras explicativas o predictoras. El proceso es iterativo y consiste en sucesivas particlOnes de la muestra lmclal de acuerdo con una o más variables predictoras que mejor expliquen la vanable cnteno; así se llega a segmentos que son exhaustivos y mutuamente exclUSIVOS. © Ediciones Pirámide
27
Técnicas de análisis de datos en Investigación de mercados
Análisis discriminante Recurnmos a este análisis SI hay una vanable dependiente que es categónca, con dos (dicotómIca) o más categorías, y las independientes son métricas. Es útil para identificar la categoría o grupo de inclusión de individuos en función de una serie de característlcas métrIcas. Por ejemplo, la distinción entre clientes morosos o no, empresas solventes o no en función de sus característlcas de renta, patrimomo, endeudamIento o, para el segundo caso, de sus indicadOres econónuco-finanCleros. También permite diferenCiar entre clientes potenClales o no según sus gustos o preferencias, estilo de vida, etc.
Regresión logística Es un caso partIcular de la regresión en el cuaJ la variable dependiente es de naturaleza dicotómIca y las independientes son cuantitatlvas o categóncas y no exige restncclOnes tan fuertes sobre la distribución de las variables independientes. Estas peculiaridades la hacen interesante para sItuaciones en las que no cabe aplicar la regresión lineal o el análisIs discriminante.
Correlaciones canónicas Es el caso general entre los métodos de dependencIa. Distingue entre un grupo de variables dependientes y un grupo de variables independientes en ambos casos con escala métrIca. Ahora la partIcularidad princIpal es que son vanas las variables dependientes y vanas las independientes. Es una extensión de la regresión múltiple. En el campo del marketing y de la empresa su utilidad reside en que lo normal es encontrarnos ante una mezcla de acciones en vanables consideradas independientes, que pueden vemr en escala métnca, como preclO, publicidad, fuerza de ventas, promoción a distribuidores, presencIa en puntos de venta, etc., que generan respuestas diversas, que también pueden ser métncas, como ventas, satlsfaCCIón, valoración de marca, valoración de Imagen, notonedad, recuerdo de mensajes, etc.
Análisis de ecuaciones estructurales Un reto constante de la investIgación es consegUlr captar y representar fielmente una realidad con un modelo que SIrva para describir, para explicar y para predecir. Pues bIen, los modelos de ecuaciones estructurales intentan consegUlr este objetlvo mediante la identificación de un entramado de relaclOnes en el que hay variables exógenas y endógenas, vanables independientes, vanables que son el efecto en una relación y la causa en otra, o bIen varIables que no son medidas directamente (latentes), sino que lo son a través de otras. El interés por desarrollar y comprobar la validez de estos modelos es evidente y su aplicabilidad abarca prácticamente a cualqUler fenómeno.
28
© EdiclOnes Pirámide
Análisis muLtivariabLe
3.
APLICACIONES DEL ANÁLISIS MULTIVARIABLE Cada uno de los análisis es susceptible de aplicacIOnes diversas y dada la varíedad existente, el análisis multIvanante goza de enormes posibilidades de aplicacIOnes práctIcas, y es más, en muchas ocaSIOnes complementarlas, mdependientemente de cuál sea la onentación de la investigación. En sentido amplio su utilidad se resume en lo sigUiente: • Descriptiva. Para comprender mejor un fenómeno complejo, para identificar actItudes, etc. • Tipológica. Para clasificar productos o grupos de empresas, establecer tIpologías de consu1I11dores o de distribuidores, defimr clases de comportarmentos, etc. • ExpLicattvo-predictiva. Para explicar comportamientos o situacIOnes, evolución de las ventas, reaCCIOnes de consumidores, de mtermediarios o de la competencia ante aCCIOnes de marketmg-mlx. • Para controlar o segUir la evolución, ya sea de macrovanables o vanables ambientales, ya sean las variables respuesta ante tácticas de la empresa. • Metodológicas. Para el desarrollo de cuestIOnarios, mstrumentos de medida, confección de indicadores, etc. Algunos ejemplos concretos de su aplicación en marketing son: • Innovación y desarrollo de productos. Para la prueba de los diferentes atributos del producto, para la identificación de oportunidades de negocIO, para la defimción de los atributos, para estudios comparativos, desarrollo de modelos de lanzamiento de productos, etc. • En precio. Para el segUimiento de las aCCIOnes en precIos tanto de la empresa como de la competencia, para la identificación de la sensibilidad al preCIO, etc. • En distribución. Para la identificación de aCCIOnes en el canal, para el desarrollo de modelos de gestión del canal, la medida del nivel general de conflicto o de satisfacción en el canal o de actuaciones concretas en el mismo, para la localización de los puntos de venta, etc. • Para la comunicación. Identificación de las claves de los mensajes, pretest y postest de campañas, evaluación de actuacIOnes en comumcación, comparación y seguimiento de las actuacIOnes de la competencia, etc. La cada vez mayor aplicación de estos análisIs en el campo del marketing tiene entre sus justificacIOnes prínclpales las siguientes: 1.
© EdiclOoes Pirámide
El carácter multidimensIOnal de los fenómenos relacionados con el comportamiento de la demanda y de las estrategias de la oferta. El marketing se ocupa de fenómenos con una clara multidimensIOnalidad.
29
Técnicas de análisIs de datos en Investigación de mercados 2.
3.
La Innovación de los métodos multIvanantes, en el sentido de que, aunque estaban desarrollados desde un punto de vista matemático, ha sido importante su divulgación a lllvel de usuano no demaSIado experto en estadística. Estrechamente conectado con lo antenor está otro motivo Importante: el desarrollo de la Informática que ha facilitado el maneJo.
Algunos de los métodos de análisIs multivanante proporcionan resultados tanto desde la perspectiva de las vanables como de los casos analizados, lo cual ennquece el análisIs. Además suelen Incorporar Interesantes posibilidades gráficas que facilitan su comprensión y, lo que no es menos Importante, la comunicación de los resultados. Por otra parte, entre lo que cabría calificar como puntos débiles, destacar que en algunos análisIs no se conoce si la solución obtenida es la mejor posible. En ocaSIOnes las varIantes y opcIOnes que presentan son tantas que no solamente dificultan su comprensión y complican su ejecución, SInO que, a fuerza de tensar operando, es posible llegar a conclUSIOnes no muy coincidentes partIendo de los mIsmos datos. Ante esto hay algunas recomendacIOnes a respetar: 1.
Comprobar que se cumplen los reqUisitos que el análisIs a efectuar exija y que se refieren a características del muestreo, de los casos y de las varIables. Algunos métodos requieren un CIerto grado de relación o de estructura en las variables. En térmInOS generales, se precIsa el cumplimiento de CIertas hipóteSIs de partida (para cada análisis se especificarán con más detalle) como: • Normalidad de las vanables. Su comprobación se efectúa mediante al examen de la kUrtOSIS y aSImetría, utilizando tests como el de KolmogorovSnurnov o el de ShapIro-Wilks, o bIen representacIOnes gráficas de reSIduos Para el caso de la normalidad multIvanante cabe recurrir al test de Marclia. • Homoscedasticidad o Igualdad de vananza en la vanable dependiente, importante condición para el análisIs de la varianza. Su contrastacIón se lleva a cabo mediante tests (Levene, Cochran o M de Box) y representacIOnes gráficas de residuos. • LInealidad: Importante en el análisIs de regresión y otros relaCIOnados. La identificaCIón de. esta característIca se realiza mediante el estudio de los residuos, por ejemplo. • Aleatonedad en los datos. Los datos han de obtenerse con cnteríos aleatonos; una aproximación al cumplimIento de este reqUisito consIste en la representación de medias versus desviacIOnes típIcas. • Ausencia de errores correlacIOnados.
2.
3O
Descnpción detallada del proceso seguido, de los datos o matnz de datos de partida y de la Justificación de las opCIOnes elegidas. © Ediciones Pirámide
Análisis multivariable La ejecución del análisIs de datos en realidad es una etapa o un subproceso que se mcluye dentro de otro de mayor envergadura que es el proceso de mvestIgación, en donde se definen previamente los objetIvos, hipótesIs y demás condicIOnantes que, lógIcamente, también afectan al análisis. En general, en la aplicación de cualqUIer análisIs se distmgue los sigUIentes pasos: 1.
2.
3.
4.
4.
Fase prevza. En primer lugar, se examinan los datos, las variables y los casos y se comprueba que cumplen los requisItos para la aplicación de la técmca. ya sean las hIpótesIs de partida generales (normalidad, homoscedastIcidad, linealidad, etc.) o condicIOnes específicas de la técmca. Fase de desarrollo. Se plantea el modelo o el plan propIO de ejecución adecuado para cada técmca. Se trata de realizar las operacIOnes y los cálculos con las diferentes opcIOnes que cada programa informátIco ofrece (seleccionando métodos de estImación, contrastes o tIpo de rotación, por cItar algunas especificaciones). Contraste de resultados. Obtenidos los pnmeros resultados es necesario evaluar el ajuste del modelo o efectuar el análisIs a postenori, contrastando la bondad general o parCIal del modelo y exammar SI son aceptables los resultados conseguidos. Es frecuente la necesidad de repetIr el proceso para asegurar o mtentar mejorar los resultados obtenidos mediante el re-examen de los datos y de las vanables y su selección, cambIando especificacIOnes (usando otras distancias, otras alternatIvas de estImación, otros tests, en defimtIva, otras característIcas). Interpretación y valoración del análisis. Con los resultados definitIvos se procede a la mterpretación sobre lo que Implican, sobre el grado de cumplimIento de las eXIgencias de la técmca, sobre el ajuste global del modelo y las aprecIacIOnes parciales con respecto a las relacIOnes entre vanables. Además es neceSarIO enjuicIar SI las conclusIOnes son coherentes con la teoría o con el conocImIento que se tenga al respecto y comentar la sensibilidad y la posibilidad de extrapolación de las conclusiones alcanzadas.
USO DE PROGRAMAS INFORMÁTICOS Desde luego el desarrollo de la informátIca, merced a los cambIOs introducidos tanto en hardware como en software, ha hecho posible la utilización generalizada del análisIs mutIvarIable. Aunque algunos análisIs como el de regresión o el de la varianza ya eran utilizados con frecuencIa antes del boom mfonnátIco, la mayoría de los métodos no se aplicarían tanto SI esos cambIOs no se hubIeran producido. El mercado ofrece una amplia gama de paquetes informátIcos que comprenden las prmclpales técmcas de análisIs o la posibilidad de módulos especiales para técmcas menos usuales, que además favorecen la mterconexión con programas de tra-
© Ediciones Pini.mide
31
Técnicas de análisis de datos en inuestigación de mercados tamlento de textos para el traslado de tablas o de gráficos o a bases de datos u otros paquetes estadísticos para completar el análisIs. La forma de operar con estos programas se ha facilitado mucho con entornos como Windows y llega a ser bastante intUItiva. Además, los programas proporcIOnan opcIOnes de ayuda muy útiles que favorecen el aprovechamIento de sus posibilidades. A veces el programa ofrece algunas formas de operar, algunos tests, algún gráfico, en defimtiva, algún tipo de output específico cuya comprensión e mterpretación no plantea problemas consultando su ayuda. Algunos de estos programas son los siguientes: -
DYANE 2 facilita el diseño de cuestIOnarlOS, la grabación y el procesamIento de datos, la tabulación y análiSIS estadísticos de una, dos o múltiples vanabIes. Es un programa especialmente adecuado para la docenCia y la mtroducción a los análiSIS de datos más empleados. BARWIN tiene como fortalezas la tabulaCIón, la flexibilidad y la aSIstencia a la grabación, con un enfoque dingldo más hacia profeSIOnales. SPSS, posiblemente uno de los paquetes más conocidos, utilizados y completos. Las últimas versIOnes en español mcorporan una nueva filosofía de presentación de los resultados y añade tests y gráficos nuevos, pero también cambia algunos que presentaban en versIOnes antenores. Es el programa que se ha utilizado en la mayor parte de los ejemplos. STATISTICA es Igualmente un programa muy completo en su gama de técmcas. Es de destacar entre sus puntos fuertes el soporte gráfico que proporcIOna y la mteractivldad con otros programas. LISREL (Linear Square Relations) es el programa más utilizado en el análiSIS de ecuacIOnes estructurales hasta el punto de que a éste se le llega a denommar análisis LISREL.
En cada capítulo se comenta uno o vanos ejemplos utilizando estos programas, a veces incluso se mezclan las saJidas de uno y otro para mtentar transmitir una visIón más abierta. Además, en ocasIOnes es mteresante compagmar más de un programa para el mIsmo análisis porque uno proporcIOna algún contraste o gráfico que el otro no ofrece y esto hace al análiSIS más completo. Otros programas de interés son STATGRAPHICS, BMDP, SAS o SYSTAT. En la operatona de los diferentes programas cada uno suele tener una filosofía particular, pero para la aplicación de una técnica concreta las especificaCIOnes a mdicar comciden en 10 fundamental y en ténuinos generales. Se resumen en:
2
Santesmases Mestre, M. (1997): DYANE. Diseño y análisis de encuestas en investigación social y
de mercados,
32
Pirámide. © Ediciones Pirámide
AnálisIs multivariable • Selección del fichero de datos. • Selección de variables y casos. Si procede, se indicarán las variables dependientes e Independientes y los códigos. • Indicar especificacIOnes propIas de la técmca y de sus opcIOnes (por ejemplo: distanCIa, rotación, modelo, diseño, método, etc.). • SeleccIOnar pruebas o contrastes específicos de la técnica (por ejemplo: KMO, prueba de Bartlett, M de Box, pruebas de normalidad, etc.). • Mostrar resultados de tIpo general: estadístIcas deSCrIptIvas, correlaciones, gráficos (lustogramas, de cajas, de nube de puntos, etc.). • Mostrar resultados específicos de la técmca como: matrIZ de cargas, coefiCIentes, matrIZ de confusión, tablas resumen de análisIs de efectos, gráficos específicos, etc. • Seleccionar contrastes, medidas a posteriori e Indicadores de ajuste, según proceda.
5.
LA ÚLTIMA FASE: EL INFORME Tras el análisIs de los datos, la últIma fase del proceso de Investigación es la elaboración y presentación del Informe, que constituye el último eslabón del proceso de investigación. El Informe es el documento que recoge y por el que se comumca la Investigación realizada. Adopta formas muy diversas, pero es fundamental y determInante para la valoración que se haga de la Investigación realizada. Una buena Investigación pIerde mucho con un informe mediocre. Como Indica Malhotra (1997, 768), las razones de la ImportancIa del informe y su presentación residen en que: • Son los productos tangibles del esfuerzo de Investigación. Sirve de registro hIstÓrICo. • Las deCISIOnes de la gerencIa están gUIadas por el Informe y su presentación. • Para los gerentes, en muchos casos, la calidad de la Investigación se evalúa por el informe y su presentación. • Afecta a deCISIOnes futuras para realizar las investigaCIOnes. Más que de reglas fijas, en la elaboración del Informe es necesarIO considerar una serIe de recomendaciones y siempre en función del tipo de Informe. Algunas de ellas son: • Tener presente, tanto en su elaboración como en su presentación, el tipo y característIcas de la audienCIa a la que se destIna porque esto lo condiCIOnará bastante. • Cuidar los aspectos formales y la presentación SIn que suponga un exceso o enmascarar el contenido central.
© EdiclOnes Pirámide
33
Técnicas de análisis de datos en Investigación de mercados • Buscar la objetividad en la redacci6n y presentaci6n, pero sobre todo separar lo que constituye mterpretaclOnes u opmlOnes personales, SI es necesano realizarlas. • Esfuerzo de síntesIS, conclsI6n y claridad. • Apoyarse con esquemas, figuras, tablas o gráficos. • Adecuaci6n a las necesidades de mformaci6n y a los objetivos del proceso de investlgaci6n. • Buscar la coherenCIa en su estructura, en su estilo de redacci6n y en los apoyos (tablas, gráficos, etc.). Al fin y al cabo el mforme es una forma de comunIcaci6n entre quien encarga y/o qUIen está mteresado en conocerlo, por un lado, y el mvestIgador, por otro. El mvestIgador, en su pretensi6n de dar a conocer su trabaja, de acuerdo con los objetivos establecidos y las CIrcunstancIas que rodean a su mvestigaci6n, debe CUIdar la codificación que realiza con su redacci6n y presentaci6n y asegurarse de que su mensaje, o contenIdo del mforme, llega correctamente a su público objetivo, así como facilitar los mecanIsmos de retroalimentación necesarios. Los mformes pueden ser de muchos tipos dependiendo de a quién se dirijan, de su estructura o de su objetIVO pnncipal, por citar algunos cnterios. Así, los mformes para publicar precIsan de un cuidado estilo con una revlsi6n Importante de los conocimientos previos, un CIerto detalle técnICO además del ngor en su estructura y contenIdo; mIentras que los mformes técnIcos, también dingidos a personas con cualificaci6n en la matena, destacan por su nIvel de detalles para especIalistas. Sin embargo, los mformes para directivos no reqUIeren tanto desglose y están condicIOnados por la urgente necesidad de captar lo fundamental de una sItuaci6n y facilitar la toma de decIsIOnes, partIendo de la base de que el directivo no tIenen por qué ser un experto en las técnIcas utilizadas y directamente le mteresan las conclUSIOnes y las recomendaciones. En cuanto a la estructura del informe, constituye una referencIa al propIO proceso de investIgaci6n con sus diferentes etapas. No obstante, a veces en el contrato de la mvestIgaci6n ya se especifican característIcas que ha de tener el mforme, plazos de presentaci6n, etc. En general, y de forma breve, se distmgue: 1.
2. 3.
4.
34
Portada, índices (de contenido, tablas y gráficos). Carta de entrega del informe. Resumen gerencial. Es una síntesis, redactada al final, que recoge los aspectos fundamentales extractados, como: objetivos, antecedentes, breve referenCIa al desarrollo de la mvestIgaci6n, resultados, conclUSIOnes y recomendacIOnes. Cuerpo del informe. Comprende el mielO de los contactos mvestIgador/directIvo o qUIen encarga la mvestigaci6n, los planteamIentos prevIOS, antecedentes de la sItuaci6n, detalle de los aspectos metodol6gIcos y de la estrate© EdiclOoes Pirámide
AnálisIs multivariable
5.
6.
gla y táctica de la investigación, la exposición de los análiSIS de datos llevados a cabo, la exposIción y el comentano de los resultados. ConclusIOnes y recomendacIOnes. En muchos casos de consideran dentro del punto anterior. Además deben comentarse las mcidencias y las limitaciones ocurridas o que mciden en la investigación. Anexos. Como cuestionario, modelo de ficha u otras herramientas utilizadas , datos, detalles de muestreo, etc.
INVENTARIO DE TÉRMINOS Y CONCEPTOS • • • • • • • • • • • • • • • •
AnálisIs multivariable. Métodos de mterdependencia. Métodos de dependencIa. AnálisIs factonal. Análisis de correspondencias. AnálisIs cluster. AnálisIs de escalamiento multidimensional. AnálisIs de regresión. AnálisIs de la vananza y de la covarianza. Análisis discnmmante. Regresión logística. Correlaciones canómcas. AnálisIs de ecuaciones estructurales. AplicacIOnes del análisIs multivanable. Programas estadísticos de aplicación. Informe de mvestigación.
BIBLIOGRAFíA Cuadras, C. M. (1991): Métodos de análisIs multivariante. PPU, Barcelona. Churchil1, G. A (1979): Marketing Research. Methodotoglcat Foundations, The Dryden Press, Hinsdale (IL). Dillon, W. R., Madden, T. J., Y Firtle, N. H. (1987): Marketing Research in a Marketing Envzronment, Irwm, Homewood (IL). Evrard, Y.; Pras, B., y Roux, E. (1993): Market. Études et recherches en marketmg, Éditions Nalhan. Hair, J. F.; Anderson, R. E., Tatham, R. L., Y Black, W. C. (1995): Multzvariate Data AnatySIS with Redings, Prentice-Hall IntematlOnal. Englewood Cliffs (NJ). © Ediciones Pirámide
35
Técnicas de análisis de datos en investigación de mercados Kinnear, T. C., y Taylor, J. R. (1989): Investigación de Mercados. Un enfoque aplicado, McGraw-Hill, Bogotá (Colombia). Luque, T. (1997): Investlgación de marketing. Fundamentos, Anel, Barcelona. Ma1hotra, N. K. (1997): Investlgación de mercados. Enfoque práctico, 2.' ed., Prentlce-Hall, México. NOruSIS, M. J. (1986): Advanced Statistic SPSS/PC+, SPSS Inc., Chicago (IL). Sánchez Carrión, J. J. et al. (1984): Introducción a las téCnicas de análisIs multtvanable aplicadas a las clenczas sOCIales, Centro de InvestigacIOnes Sociológicas, Madrid. Santesmases Mestre, M. (1997): DYANE. Diseño y análisis de encuestas en Investigación soczal y de mercados, Pirámide, Madrid. Statlstica for Windows (1995), StatSoft. Urie1, E. (1995): AnálisIs de datos. Senes temporales y análisIs multlvariante, AC, Madrid.
36
© EdiclOnes Pirámide
PARTE SEGUNDA Métodos de interdependencia
Análisis fa Teodoro Luque Martínez
1.
INTRODUCCiÓN En la vida real, y en el ámbIto del marketmg en particular, eX1sten multltud de conceptos que no son directamente observables, como la imagen de una marca o de una entidad, el estilo de vida, el poder de negoc1ación, los conflictos en los canales de distribución, la actItud ante un producto, el atractivo de una zona turístlca o la 1magen de un líder político. Pero, sm embargo, podemos aproximarnos a tales conceptos de manera mdirecta midiendo un conjunto de vanables que sean observables y que nos conduzcan a una síntes1s e mterpretación de tales conceptos. A esto nos ayuda el anális1s factoriaL a entender mejor determmados fenómenos compleJOS. El anális1s factonal es un método de mterdependencia, esto es, no se hace distmción entre var1ables dependientes e mdependientes. Parte de un gran número de vanables para tratar de averiguar S1 tlenen un pequeño número de factores en común que expliquen, bás1camente, lo m1smo que las variables observables de partida. El análisis factorial comprende diferentes métodos que permIten exammar la estructura subyacente en un conjunto de variables y condensar la informac1ón que contlenen, revelando las dimenslOnes fundamentales y, por tanto, simplificando las relaclOnes existentes entre las var1ables observables. En suma, agrupan var1abies observables para formar otras nuevas denominadas factores o factores latentes, que son combmaciones lineales de las antenores, con la menor pérdida de mformac1ón. Para el profesor Cuadras (1991, 83) el anális1s factonal es un método de análiS1S multivanante que mtenta explicar, según un modelo lineal, un conjunto extenso de var1ables observables mediante un número reducido de var1ables hipotétlcas llamadas factores. Un aspecto esenCial del anális1s factonal radica en que los factores no sean directamente observables, obedeciendo a conceptos de naturaleza más abstracta que las vanables origmales. Así, estos métodos se caractenzan por:
© Ediciones Pirámide
39
Técnicas de análisis de datos en investigación de mercados
• Ser métodos descnptlvos y de interdependencIa. • ReducIr la dimensionalidad de un fenómeno tratando de perder la menor mfonnación posible. • Tratar toda la infonnación disponible, son exhaustlvos. • Las escalas han de ser métncas: de intervalos o de razón. • Ser de mterés la representación gráfica que generan para la mterpretación de los resultados. La utilización del análiSIS factorial se resume en dos térmmos clave: reducIr e mterpretar. Al reducir se identifican las dimensiones pnnclpales del fenómeno, y así se consIgue captarlo con un número menor y más operatlvo de variables nuevas que se describen por las observadas. En segundo lugar, la mterpretación de los conceptos que subyacen entre las variables observadas mejora el conocmuento sobre un fenómeno. Por esto, una buena solución factonal sería aquella que fuese SImple en cuanto al número de factores que identifica y fácil de mterpretar. El interés del análiSIS factorial en el plano teónco reside en su utilidad para afrontar los problemas de medida, y de mterpretación, de conceptos no observables de manera directa; mIentras que en el terreno empírico ayuda a identificar vanables representatlvas de un fenómeno para su uso postenor o, incluso, para un nuevo conjunto, con un número menor de vanables, que permIta aplicar otros análisis multlvanables. Tiene un carácter explicatlvo en lugar de predictivo: los factores se calculan con el objeto de explicar lo mejor posible el conjunto de variables pero no con la Idea de predeCIr. Por otro lado, el análiSIS factonal se usa con carácter exploratono para identificar factores, sm restricciones o hipóteSIs previas. Sin embargo, también puede aplicarse con un interés confinnatorio (análisIs factonal confinnatono) cuando se desea verifIcar la existencia de una estructura subyacente en los datos, antIcipada· hlpl'ltétIcamente. Es decIr, cuando por razonamIento teónco, por expenenclas u otras mvestigaciones similares se formulan hIpóteSIs sobre la dimensionalidad o estructura subyacente de un fenómeno es entonces cuando se utiliza el análiSIS factorial para confInnar.
2.
BREVE REFERENCIA HISTÓRICA A partir de los estudios de Galton, a finales del SIglo XIX, y de Pearson, a conuenzos del SIgUIente, sobre las característlcas fíSIcas del cuerpo para identificar a delincuentes, el análiSIS factonal fue aplicado en un principio por pSIcólogos. Spearman desarrolló una teoría de la mteligencla apoyada sobre un factor general (Batlsta, 1984,24, y Cuadras, 1991, 89). Pero lo que hoy se entIende por análisis factorial tiene su ongen, para el profesor Cuadras, en el trabajO publicado por Thurstone en 1931 y sobre todo en su obra Muitipie Factor Anaiysis, en la cual estableció la relación entre las correlaCiones de
40
© Ediciones Pirámide
Análisis factorial las variables y los coeficIentes de la matnz factonal, mtrodujo el concepto de «estructura sImple» y las primeras rotacIOnes en el espacIO de los factores comunes. En 1933 Hotteling, sIgUIendo los trabajos de Pearson, propone un algontmo para hallar dichos ejes, 10 que SIgnificó un gran avance en la diagonalización de matnces slmétncas puesto que requería obtener los vectores y valores propios de la matnz de correlaciones de las p varIables ongmales. Posteriormente han contribuido al desarrollo del análiSIS factonal diversos autores como Rao, KaIser, Burt, Guttman, Lawley y Maxwell, Harman, Joreskog, Benzecn y Lebart et al., entre otros. En la familia de métodos factonales podemos distingUIr el análiSIS en componentes pnnclpales y el análisis factonal clásico o exploratono, por un lado, y el análiSIS de correspondencIas, por otro.
3.
EL PROCESO DEL ANÁLISIS FACTORIAL: TIPOS El análiSIS factonal supone un proceso en el que distmgUlmos VarIas etapas fundamentales; en algunas de ellas se presentan varias formas alternativas de operar, lo que da lugar a diferentes mOdalidades del análisis. Las etapas báSIcas son: 1. 2. 3. 4.
3.1.
Fase de preparación: especificaCIOnes previas. Extracción de los factores y selección. Interpretación: rotación y representación. Evaluación y valoración del análiSIS.
Fase de preparación
Una vez deternunados los objetivos que se persIguen, y vIsta a pnori la convemencia de utilizar un análiSIS factona! para resumIr o sustitUIr mformación, puesto que todo análisis está condicionado por los inputs que utilice, lo pnmero es preparar y revIsar la matena pnma con la que se va a trabajar y sus especificaCIOnes. Las variables La selección de vanables para el análiSIS no debe ser capnchosa, smo que ha de estar justificada con arreglo a antenores investigacIOnes, a estudios que recojan el estado de la cuestión o a razonamIentos teóncos. Por otro lado, las VarIables tIenen que formar un conjunto coherente y susceptible de ser captado mediante unas dimensIOnes fundamentales o factores. Es lógICO que se presenten vanas VarIables que reflejen en mayor medida la estructura subyacente. En defimtiva, el análiSIS debe estar respaldado y refrendado por conocimIento teónco y no eriglfSe en un artificIO estadístico-matemático o informático. No olVIdemos que el programa mformático <
41
Técnicas de análisIs de datos en Investigación de mercados bIes pueda tener y cuya Justificación teónca es labor del analista. Cuando tenemos una base de datos no todas las variables tíenen que formar parte de nuestro análisis factonal: han de seleccIOnarse con cntenos teóricos adecuados y razonados que JUstifiquen su inclusión. Por otro lado, las vanables deben vemr medidas en escala métnca para aplicar análisis factonal puesto que se opera a partIr de una matriz de correlacIOnes. Sin embargo, puede extenderse a variables no métncas utilizando un coefiCIente de correlación adecuado (por ejemplo, el coefiCIente de correlación de rangos de Spearman, de Kendall u otros). Lógicamente, las escalas han de ser comparables, puesto que SI son muy diferentes es convemente estandarizar sus valores para efectuar el análiSIS. Recordemos que se pretende obtener vanables nuevas, latentes o no directamente observables que se forman a partIr de las observables. Luego tIene poco sentido obtener una varIable latente o factor por cada Observable; más bIen al contrano deben ser vanas las vanables observables por cada latente (como orientación unas cuatro o cinco).
Los casos Se recomienda tener al menos 100 casos para efectuar un análiSIS factonal y nunca menos de 50, aunque, como indican Ha¡r et al. (1995), por lo menos se ha de disponer de un número de observaCIOnes cmco veces (o mejor aún 10 veces) al número de variables a analizar. EfectIvamente, cuando el número de vanables es considerable la combmación de correlaciones puede ser muy grande, de manera que en algunos casos pueden darse correlaciones SIgnificatIvas que aparezcan por suerte en el análiSIS. Recordemos que para 25 vanables se tIenen 300 correlaCIOnes (25 x 24)12. En suma, conVIene tener un ratIO de casos por varIable alto para disminUIr el riesgo de situaciones de «sobreaJuste» o ajuste forzado de los datos, en defimtIva, obtener factores o dimenSIOnes específicas de la muestra y, en consecuenCIa, no generalizables.
Correlaciones La eXIstenCIa de una estructura subyacente presupone la existenCIa preVIa de correlaCIOnes entre las vanables observables. Podemos optar bIen por calcular las correlaciones entre vanables o atributos (análiSIS R), bIen por obtener la aSOCIación entre individuos u Objetos (análiSIS Q). Los análiSIS R y Q son los más utilizados, aunque pueden distmgUIrse otros si hacemos mtervemr el momento de medición. Así, partiendo de una base de datos como la de la tabla 2.1, SI nos centraInOS en las correlaciones de las columnas o varIables estaremos efectuando una análiSIS de tIpO R y buscaremos las dimenSIOnes fundamentales en el espacio de las vanables. Mientras que SI utilizamos las correlaciones de las filas o casos será un análiSIS tIpo Q el que se obtenga, los factores se conSIguen del espaCIO de los casos perrmtiendo reagrupar los mdividuos.
42
© EdiCiOnes Pirámide
Análisis factorial TABLA 2.1 Matrzz de datos
•••
1
•. 2
1
.
•••
Yadables Casos
••
.....
.
.
••
1
I
... m
TABLA 2.2 Matriz de correlacIOnes tipo R Variables
1
.
VariableS.
>
•
....
..
......
.... ....
l·••. ••·••.• ••• •••·
1 2
... n
TABLA 2.3 Matrzz de correlaciones tipo Q Casos Casos
2
.
1 2
... m
Para la obtención de un número reducido de factores que reproduzcan y expliquen la Illformación contenida en la matnz de correlaciones tiene que darse cierto nivel de correlación entre las vanables; SI no fuera así el análisis factonal podría no tener sentido. Por tanto, antes de segUIr con el análisis es necesano examlllar la matrIZ de correlaCIOnes para comprobar SI efectlvamente es pertlllente continuar con el mIsmo. Este examen puede realizarse de varias formas:
1.
© EdicIOnes Pirámide
Una aproxImación para comprobar que esta condición se cumple se consigue Inspeccionando visualmente la matnz de correlaCIOnes. Comprobar SI a SImple vIsta el número de correlaCIOnes superiores a 0,5 es conside-
43
Técnicas de análisis de datos en investigación de mercados
2.
rabIe, aunque para diversos autores el valor que se toma como referencIa es 0,3. Otra forma consIste en comprobar que la matrIz de correlaciones es significativamente distmta de la matnz identidad (cuya diagonal es la umdad y los demás térmmos son cero). En caso de que fuera una matnz identidad no habría correlación entre vanables y no tendría sentido segUir con el análisIs factonal. U na prueba que nos permite esta comprobación es el test de esferiCIdad de Bartlett, que es una transformación de la X2 y supone una poblacIón normal multlvarIante: Xia,5(P'-Pl]
=
-[n-
1-
~
(2p + 5)] In IRI
donde: n: Dimensión de la muestra.
p: Número de vanables observadas. R: La matrIz de correlación.
Siendo la hipóteSIS nula y la alternatIva, respectIvamente:
Ha = IR.I = 1 H, = IR.I"" 1 R. es la matnz de correlaCIOnes poblaclOnal.
3.
4.
44
Si se cumple la hIpóteSIs nula, y IR.I = 1, entonces las p vanables observadas son mutuamente no correlacIOnadas. A partIr de un nivel de significaCIón determmado (suele fijarse 0,05) ya no se podría rechazar la hIpóteSIS nula, y nos equivocaríamos en más de un 5% de las ocaSIOnes. En tal caso la muestra procede de una población en la que las vanables no están correlacIOnadas, no hay estructura de correlaCIón y entonces no sería adecuado aplicar el análisis factorial. Coeficiente de correlación parcial. Los coeficIentes de correlaCIón parcial entre pares de variables deben ser pequeños SI las vanables comparten factores comunes. De tal forma que, al elimmar los efectos de las demás vanables, se entiende que los coeficIentes de correlación parcial son estimaciones de las correlaciones entre factores únicos y esto Implica un valor próximo a cero SI se cumple el supuesto de mcorrelación entre factores. El negativo de estos coefiCIentes da lugar a la matnz de correlacIOnes antiimagen cuyos valores en térnunos absolutos deben ser pequeños para que el análisIs tenga sentido llevarlo a cabo. El estadístico de Kalser-Meyer-Olkm, o índice KMO, es un COCIente por el que se compara la magnitud de los coeficientes de correlación observa© Ediciones Pirámide
Análisis factorial dos con los coeficIentes de correlación parcIales para el cOllJunto de las vanables:
para
?;¡:
at:
5.
Coeficiente de correlación sImple entre vanables. CoeficIente de correlación parcial entre vanables.
Si los coeficientes de correlación parcIal son pequeños, el segundo sumando del denominador será muy pequeño comparado con el pnmero y KMO :::: 1. El valor de KMO varIará entre O y 1. Para valores de 0,8 y 0,9 es bueno o muy bueno; 0,7 es un valor intennedio, y 0,5 es el límIte por debajO del cual se considera inaceptable el análisis puesto que las correlacIOnes se darían entre pares de variables, de tal forma que en tales correlacIOnes no llltervendrían otras variables y no habría estructura de correlación. El índice MSA (Measurement of Sampling Adequacy) parte de un cnteno SImilar al antenor, pero para cada una de las variables. ConSIdera sólo los coeficIentes relacionados con la vanable para la que se calcula. Su expresión es:
L ¡¡j MSA, = --:c'*-,-J_-o,,,2 ",2 -
"'- TU
lf:.)
6.
3.2.
+ "'- aij If:.)
Estos valores para cada varIable son los valores de la diagonal de la matnz de correlacIOnes antiimagen y cuya lllterpretación es parecida a la del coefiCIente KMO. También oscila entre O y 1; es lllaceptable para valores lllfenores a 0,5. Las varIables con valores pequeños deben ser elinunadas del análisIs. Coeficiente de correlación múltIple al cuadrado entre una variable y todas las demás (comunalidad) es un llldicador de la eXIstencia de estructura de correlación entre las variables e lllfonna sobre lo bien representada que está una varIable en esa estructura.
Extracción y selección de los factores
Se pretende ahora la reducción de las dimenSIOnes consiguiendo las variables latentes, que son transformaCIOnes matemátIcas exactas de las varIables observadas © EdicIOnes Pirámide
45
Técnicas de análisis de datos en investigación de mercados (componente pnncIpales) o se pueden establecer InferenCIas sobre la estructura de las variables y la fuente de vanación para su obtención. En uno u otro caso los factores se extraen de forma que sean independientes entre sí, o sea, ortogonales o IncOrrelacIOnados. En pnncIpIO, eXIsten dos grandes SolucIones: componentes pnncIpales y análisis factonal clásIco.
3.2.1.
Análisis de componentes principales
Es un tIpO de análisIs que no requiere mnguna hIpótesIs partIcular respecto a la estructura que subyace a las varIables. Se busca la mejor combInación lineal de vanables que recoja una mayor parte de la vananza de los datos. La pnmera componente puede ser considerada como el mejor resumen de las relaciones lineales existentes en los datos. La segunda será el segundo mejor resumen con la c9ndición de que sea ortogonal a la primera, y así suceSIvamente. La solución de componentes pnncipales dará lugar a tantas componentes como vanables haya en el análisIs, a menos que alguna varIable esté perfectamente determmada por el resto de vanables. Explicación gráfica El punto de partida es la covanación entre variables. Gráficamente el tamaño de los ángulos pueden relacIOnarse directamente con el coeficIente de correlación. Cuando dos varIables comciden su coeficIente de correlación es 1, el ángulo que forman es O y su coseno es 1 (-1 para varIables opuestas). Si forman un ángulo de 90° su coseno es O y no están correlacIOnadas, luego son varIables ortogonales. LógIcamente, en tres dimensiones se podría obtener una aproxImación de la representación de tres varIables mdependientes, pero no de cuatro. En el análisis de componentes prmcIpales (ACCPP) empezamos con la matriz de correlacIón entre las varIables; el objetIvo es generar a partIr de ellas un nuevo conjunto de varIables que no estén correlacIonadas entre sí. Veamos un ejemplo: sean cuatro varIables como las recogidas en la figura 2.1 y cuyos ángulos se detallan en la tabla 2.4. TABLA 2.4
Ángulos formados por las varíables
o 23,5474 32,1530 43,5820
46
23,5474 O 19,6456 38,4519
32,1530 19,6456 O 41,7644
43,5820 38,4519 41,7644 O
© EdiclOnes Pirámide
Análisis ractonal
x,
x,
x,
Figura 2.1.
Representación de las variables.
Las correlaciones entre esas vanables VIenen dadas por los cosenos de los ángulos que forman entre ellas. TABLA 2.5 Correlaciones
Suma
I 0,91673 0,84663 0,72439
0,91673 1 0,94179 0,78313
0,84663 0,94179 1 0,74589
0,72439 0,78313 0,74589 1
3,48775
3,64165
3,53431
3,25341
Estos datos son únicamente a título de ejemplo, ya que no tiene mucho sentido reducu un conjunto de cuatro vanables. No obstante, como se puede comprobar presentan cIerta estructura de correlación, no hay más que ver la matriz de correlaciones. El test de esfencidad de Bartlett presenta un lllvel de significación de 0,02832 (menor al que nonnaJmente se toma como referencIa: 0,05) y un KMO bastante bueno de 0,799. El examen de los residuos, de la matriz de correlaciones reproducidas y de las comunalidades también respaldan la idoneidad de aplicar el análisis factorial. © EdicIOnes Pirámide
47
Técnzcas de análisis de datos en investigación de mercados En el hIpotétIco caso de que cada correlación tuvIese un valor 1, la suma total de las correlacIOnes de la tabla sería el número de varIables al cuadrado: 4 2 = 16 (el valor máxImo para una varIable sería 4). Pero dadas las correlacIOnes de nuestro ejemplo el valor de la suma es: 3,48775 + 3,64165 + 3,53431 + 3,25341 = 13,91712
Por lo que la suma total posible para una varIable con la mayor correlación global con todas las varIables en térmmos de distancIa angular -se trata de uua varIable promedio o componente prmcipal- sería: -)13,91712 = 3,7305656
Si la suma de cada variable la dividimos por esa cantidad obtenemos la carga o peso del componente, es deCIr, la correlación o, dicho de otra forma, el coseno del ángulo que cada varIable fonna con la componente principal hallada. Si se eleva al cuadrado se obtiene r:Z Para la varIable Xl = 3,48775/-)13,91712 = 0,934912, Y así se procede con las demás varIables. TABLA 2.6
Valores propIOs y cargas de la primera componente
Suma Suma/3,7305656
Ángulo
?
3,4877 0,9349 20,7860 0,8740
3,6416 0,9761 12,5347 0,9529
3,5343 0,9473 18,6670 0,8975
3,2534 0,8720 29,2970 0,7605
Haciendo ahora la operacIón inversa al coseno obtenemos el ángulo que forma la nueva varIable latente con cada una de las cuatro varIables observadas. Esta nueva componente explica el 87,406% de la prImera variable, el 95,29% de X 2 , el 89,756% de X3 y el 76,0551 % de X4 • En álgebra se calcula el valor propio o eigenvalue de la matrIZ correlaclOnes/ cosenos, obteniéndose para cada componente sumando los pesos al cuadrado de las variables:
A, = 0,87406 + 0,9529 + 0,89756 + 0,760551 = 3,485071 El porcentaje explicado por esta componente de las cuatro varIables sería el 87,1267%, obtenido de la sigUIente forma:
A,In:
48
3,485071/4 = 0,871267 © EdiclOnes Pirámide
Análisis factorial
x,
x,
/ Componente 1 I
I I I
X3
I
i I I I I I I
I
i I
,
i
I
Componente II
Figura 2.2.
Representación de las componentes pnnClpales.
Para explicar la parte que escapa a la pnmera componente hay que calcular otra variable latente. Podemos decIr que la variación no explicada por la primera componente es su vanación residual. La mejor manera de explicar esta variación será en térmmos de una componente que no esté correlacIOnada con la primera, es decir, que se sItúe en ángulo recto u ortogonalmente a ella. Gráficamente bastaria con traTABLA 2.7 Valores propios y cargas para las dos componentes
X, X, X3 X4 Total
© EdiCIOnes Pirámide
110,786 102,534 71,333 60,703
-0,3549 -0,2170 0,3200 0.4893
0,12593 0,04709 0.10244 0,23945
0,8740 0,9529 0,8975 0,7605
0.514928
3.485071
0,9999987 0,99999 0,999993 1
49
Técnicas de análisis de datos en investigación de mercados zar una perpendicular a la obtenida; así se formarla un ángulo de 90° mayor al que formaba la pnmera componente con XI y X2 , respectlVamente. Por otra parte, formaría ángulos de 90° menos el valor del formado entre X3 y X4 y la componente primera, respectlvamente. La componente II explica el 12,59% de XI; el 4,709% de X 2 , el 10,24% de X 3 y el 23,94% de X4 • El porcentaje explicado por la componente II del total es: 0,514928 4
12,8732%
Entre las dos componentes explican casI la totalidad de la mformaclón: 87,1267% + 12,87% = 99,99%. La suma de jos valores propios es 3,485071 + 0,514928 = 3,9999. Si sumamos los pesos al cuadrado de cada variable obtenemos, aproxImadamente, I para cada una de ellas, como se ve en la últlma columna de la tabla 2.7. Es decIr, podemos describír las cuatro VarIables con las dos componentes práctlcamente sm perder mformación. Identificada una componente, conseguimos un nuevo eje y en definItiva un nuevo sIstema de coordenadas en térmmos del cual describImos la posición de los puntos (casos o vanables), tal pOSIción estará definida por las proyeccIOnes desde el punto a la componente.
Explicación del modelo Si partImos de P VarIables observadas: xl' X 2, ... , XP' y tratamos de obtener otras P nuevas vanables (factores latentes o componentes) relaCIOnadas con las primeras de forma que:
= ullx¡ + U¡2X 2 + Yz = u 2 ¡x, + U22X2 + y¡
+ u¡"xp
+ u 2"xp
en general, para la primera componente contando con i observaciones:
Para lo cual han de cumplirse las sigUlentes condicIOnes: -
50
Las componentes y" Yz, ..., yp son variables aleatorias con VarIanzas decrecIentes:
© EdicIOnes Pirámide
Análisis factorial Las componentes Yj han de ser ortogonales, son incorrelacionadas: '<:IJ#/
Los coeficientes o pesos a hj (o cargas) han de cumplir la restncción: '<:1 j
= 1, 2, ..., p
Se puede trabajar con desviaciones respecto de la media, y en tal caso se utiliza la matriz de covananzas, o bIen con vanables tIpificadas (de media O y varIanza 1), y entonces se parte de la matriz de correlaciones. Esto últímo es lo más frecuente, más aún, es recomendable tIpificar las vanables cuando vengan en distIntas unidades (escalas) puesto que de no hacerlo estaremos mezclando medidas muy distintas que deJarian sm sentido nuestro anális¡s. Para un conjunto de n observaciones y expresando mediante matrices: YlI
Xli
X ZI
xp¡
ulI
Y12
X I2
X 22
x p2
uIZ
Yln
x ln
X Zn
x pn
ulp
Es decir, Y¡ =Xu¡
La pnmera componente se calcula considerando que su varIanza ha de ser máxima y que la suma de los pesos sea la unídad. O sea, Var(YI)
= uiVu¡
Siendo V la matriz de covarianzas. Dadas estas restricciones, y utilizando el lagrangiano, se trata de hacer máxIma la varIanza: L = u~ Vu¡ - A(U'U¡ - 1)
por lo que denvando e ¡gualando a cero (expresando la matriz identidad por l),
dL dU I
-=2Vu¡-2Au¡ =0
(V - IJ)u¡ = O © Ediciones Pirámide
51
TéCnlcas de análisis de datos en investigación de mercados
ResolvIendo IV-AlI =0
se obtienen p raíces características o valores propIOs (eingenvatues). Se toma el mayor Al y se obtiene el vector característIco (eigenvector) asocIado a u l • La pnmera componente es la de mayor valor propIO o autovalor de la matnz de covananzas. La segunda componente (y sigUIentes) se calcula por el mIsmo procedimIento con la condicIón de que el vector asocíado sea ortogonal al antenor (o antenores). Así se calculan las p componentes princIpales que son una combinacíón lineal de las vanables origmales. Al proceder de esta manera, es decír, hacíendo máXIma la variabilidad explicada por la pnmera componente, se da lugar a un efecto talla o tamaño, de manera que explica un poco de todas las variables originales. Si la pnmera componente está asocíada a la idea de tamaño, la segunda lo está a la idea de fonna. Ya se detectaron estos efectos en las primeras aplicaCIOnes de este tipo de análiSIS que estudiaban características de objetos relacionadas con tamaños y formas. La vananza de la componente hes:
Una medida de la vanabilidad de las variables observadas la proporcIOna la suma de las varIanzas, que se obtiene mediante la traza de la matriz de covananzas cuya diagonal contiene las vananzas de las vanables. Esto es, p
Traza V = LAh = Al +A2 +"'+A o h=l
La proporcíón de la vanabilidad total que smtetlza una componente se calcula dividiendo su valor propIO por cualqUIera de los térmmos de la Igualdad antenor:
En el caso de trabajar con vanables tipificadas, es decír, con la matriz R, la vananza de cada varIable es la unidad. En consecuencia. la variabilidad total será Igual a la suma o número total de vanables, por lo que la proporcíón de la vanabilidad se calcula para la componente h mediante el cocIente A/p. La correlacíón entre las variables 11l1ciales tipificadas y las componentes vIene dada por r¡h = u h¡ que se recoge en la matriz factonal que facilitan los programas mfonnátlcos. Éstos también proporcIOnan las puntuacIOnes tipificadas obtenidas
¡x:;
52
© Ediciones Pirámide
Análisis factorial al dividir la componente por la raíz cuadrada de su autovalor (factor score coefficíent matrixj, es decir:
-.l..!!L - ~ x + _U_h2_ x . + ... + _u_hp_ x
.p:;: - .p:;:
3.2.2.
li
.p:;:
2,
.p:;:
P'
Análisis factorial 1
El análisIs factorial parte de la distmción de la vanabilidad de las variables observadas, y por tanto de la vananza, en dos tipos: -
Una parte común, explicada por un conjunto de factores comunes que afectan a todas las variables. Bien entendido que no captan toda la variabilidad, smo sólo la común. Una parte específica, exclUSIVa para cada vanable y sin relación con las demás, explicada por factores específicos o úmcos que mforman sobre la especificidad o umcidad de cada vanable. Son factores independientes y ortogonales.
Aunque pertenecen a una misma familia, el análisIs de componentes pnncipales y el factonal no son totalmente eqUIvalentes y su distinción a veces se presenta algo confusa. A esa confusión ha contribuido el que entre los métodos que adoptan la filosofía o modo de proceder del análisIs factonal haya alguno denommado como ejes pnnclpales o como componentes pnnclpales. Pues bIen, a pesar de su parecido hay diferencias entre componentes pnnclpales y cualquiera de los procedimIentos comprendidos en análisis factonal. Destacamos las sIguientes: l.
2.
3.
En análisis factorial los factores explican interrelacIOnes entre variables, recogen la varianza que es común y además hay un factor único por cada vanable que no está relaCIOnado con mnguna otra vanable. Es más adecuado para identificar relaCIOnes entre vanables, lo que precIsa partir de cIertas premIsas. En componentes pnnclpales se persigue explicar la mayor parte de la variabilidad total con el menor número de componentes. Todos los componentes explican toda la varIanza. Es más apropIado para resumIr, para reducir datos. En el modelo factorial las vanables observadas se expresan en función de los factores latentes, y vienen dadas como una función de factores comunes y úmcos o específicos de cada vanable. En componentes princIpales son las componentes (factores o vanables latentes) las que vIenen expresadas en función de las variables observadas y no hay factor úmco. En realidad el análiSIS de componentes pnnclpales puede considerarse como un caso partIcular dentro del análiSIS factorial; a prion estima que la comu-
En muchos casos se le añaden los calificativos de cláSICO, común o exploratorio. © EdicIones Pirámide
53
Técnicas de análisis de datos en Investigación de mercados
nalidad (o parte de la varianza explicada por factores comunes) de las vanables es la unidad (el 100%), Y de ahí que no existan factores específicos. Toda la variabilidad es explicada por factores comunes. En concreto, esto se plasma al tener que optar por reemplazar o no la diagonal principal de la matnz de correlacIOnes por estímaciones de la comunalidad. Si se decide sustitUIr por alguna estímaclón estaremos ante algún tipO de análisIs factorial según el procedimiento de estimación que se siga. Tras elegir la fonna de estimar (por ejemplo, coeficiente de correlación múltlple al cuadrado, mímmos cuadrados generalizados u otras) se calculan los factores y sus pesos o cargas; se vuelven a estimar las comunalidades otra vez en un procedill1lento iterativo que finaliza cuando converge. Es deCir, se repite el proceso hasta que los valores estlmados de las comunalidades no cambian porque una nueva reestlmación proporcIOna valores Iguales. SigUIendo el planteamiento para componentes pnncipales, en el caso de análisIs factorial también se parte de un conjunto p de vanables observadas X" X 2 , .•• , Xv para llegar a otro conjunto F" F2, ..., Fm que llamamos factores 'atentes o factores, de manera que:
= lllF¡ + l12 F2 +
+ llmFm + el
X 2 = '2I F , + l22 F2 +
+ 'ZmFm + e2
X,
siendo: , Fm' Factores comunes. e" e2, , em, Factores úmcos o específicos. 'jh: Cargas factonales o peso que el factor h tiene sobre la vanable J.
F" F 2,
Expresándolo matrlcialmente, el modelo queda:
XI X2
'11
'12
llm
F;
l21
'22
l2m
Fz
Xp
'p, 'p2 ... 'pm Fm
+
el e2 em
es deCir, X=AF+€
54
© Ediciones Pirámide
Análisis factorial SUjeto a las slgmentes hIpótesIs de partida: a)
F ---> Nm(O,1), m ,,;; p
Los m factores comunes (sIempre serán un número menor o como mucho Igual al número de vanables observadas de partida p) tíenen de media O y varianza l. La matnz de covarianzas es la matrIz identídad, luego son factores lllcorrelaclOnados. b)
10---> Np(O, 0.)
Los factores únicos tíenen media cero, están lllcorrelacionados entre sí y su matnz de covarianzas es diagonal o.. e)
X ---> Np(O, L)
Las p varIables observables tíenen media O, si están típificadas se opera con la matnz de correlacIOnes con la diagonal compuesta por unos. ti)
1: A: L: 0.:
Los factores F h y las vanables específicas, ej , están lllcorrelaclOnados. Matriz Matnz Matnz Matriz
identidad. de coeficientes de carga li'" covarianzas de las vanables observadas. covarianzas de las variables específicas.
El problema matemátíco del análisis factoríaJ es descomponer la variabilidad de las variables observadas, matnz L, en dos partes: una relacionada con lo que es común, matriz A, y otra con lo que es específico, matriz o.. De manera que: L=AA' +0.
o lo que es Igual2 , 1
PI2
P21
1
P2m
Pp,
PpZ
1
=
112
121
122
11m IZm
Ip,
Ipz
... Ipm
III
Plm
111
121
112
122
Ip, Ip2
11m
IZm
... Ipm
+
ro 12
O
O
O
Z
ro z
O
O
O
... ro Zp
Al ser Independientes los factores y estando las vanables observadas típificadas en términos de vananza de una vanable j, se puede escribIr: Var (Xi)
= lJl Var (F,) + lA Var (Fz) + ... + IJm Var (Fm) + Var (e)
al tratarse de variables típificadas, 1 = 1;1 + lA + ... + IJm + 2
© Ediciones Pirámide
ro;
Para más detalle véase Uriel (1995).
55
Técnicas de análisis de datos en investigación de mercados A la suma de los m pnmeros sumandos se le denomma comunalidad. La vananza de una vanable se divide en dos partes, la que comparte con las demás vanables o comunalidad (h]) y la que es úmca o específica (ro]): 1 =h]+ ro] Igualmente se puede obtener el coeficIente de correlación entre dos vanables observadas en funcIón de los factores comunes,
Las estimacIOnes de los coeficIentes lhj son las cargas factoriales estimadas, e mdican jo que carga o pesa un factor en la estimación de la comunalidad de la vanable. Sin embargo, la solución factorial no es única. Si en la ecuación de partida en lugar de considerar la matnz A tomamos cualqUIer transfonnación ortogonal (por ejemplo, la multiplicamos por una ortogonal D, la solucIón sería la mIsma. Es decir:
L = AT(AD' + n = AA' + n = L Por otro lado, se puede plantear un problema de identificación al tener que estimar más parámetros que ecuaciones se tienen. Por ejemplo, SI partImos de 8 vanabIes observables dispondremos de [p x (p + 1)]12, o sea [(8 x 9)12], 36 ecuaciones diferentes (dimensión de L); SI los factores comunes fueran 5, tendríamos que estimar los p x m coeficientes de A, más los p de n, en total 48. En tal sItuación no podríamos estimarlos. Estos inconvementes han hecho que se utilice más el análiSIS de componentes pnnclpales, aunque si se utiliza factonal clásico suele llegarse a resultados muy similares, sobre todo cuando el número de variables es elevado, a partir de 30. Hay diversas formas de afrontar esas dificultades que dan lugar a otros tantos procedimientos de extracción de factores 3 ; a)
Métodos de componentes princlpales4
Utiliza componentes tipificadas de fonna que:
expresando la variable J como:
, Se detallan los más usuales proporClOnadOs por paqnetes como SPSS o STATISTICA. 4 Véase UIie! (1995, 351-353).
56
© Ediciones Pirámide
Análisis factorial Dado que el producto uhi.¡x;, es el coeficiente de correlación entre la variable J y la componente h, entonces:
Estas p vanables se desglosan en m vanables más (p - m) variables de forma que:
y puesto que la ecuación del modelo factorial es:
el segundo término de esta ecuación se estima mediante el anterior. Los m factores se estiman mediante las m primeras componentes tipificadas, y los coeficientes se estiman por los coeficientes de correlación, de manera que la comunalidad es: h'2j =
12
1\..';1
12 12 + /1.';2 + ... + /I,,;m = 'iJ2 + r22; + ... + rm12
y la umcidad se obtiene por diferencia 1 b)
h] = ro],
Método de ejes principales (principal axis factoring)
Es parecido al de componentes pnnclpales, pero supone un procedimiento iterativo, La opción que se toma es sustituir la diagonal de las matrices de correlaciones por estimacIOnes de la comunalidad, que para comenzar son los coeficientes de correlación múltiples al cuadrado entre cada variable y las demás, Éste es el punto de partida para obtener las cargas factonales, se retienen m factores y se calcula la comunalidad; a partir de esta estimación se repite el proceso hasta que el resultado converja, esto es, se mantengan los resultados, no haya vanación considerable o bien se alcance un número determmado de iteraciones. c)
Método de los mímmos cuadrados no ponderados
Hace mínima la suma de las diferenCias al cuadrado entre las matrices de correlación reproducida y la observada, Ignorando los elementos de la diagonal. Con esta condición se obtiene un número determmado de factores. d)
Método de mínimos cuadrados generalizados
Opera igual que el antenor pero en este caso las correlaCIOnes se ponderan inversamente a la unicidad o especificidad de las vanables. Así, las correlaCIOnes entre variables con alta especificidad (menor comunalidad) pesan menos en el resultado final que las que tienen baja especificidad (alta comunalidad). © EdiclOnes Pirámide
57
Técnicas de análisis de datos en investigación de mercados
e)
Máxima verosimilitud
Si la muestra procede de una distribucIón normal multivariante proporcIOna estImacIOnes de parámetros que son los más verosímiles a los de la matriz de correlacIOnes observadas. También es un proceso iteratIvo en el que las correlacIOnes están ponderadas Illversamente a la especificidad.
f)
Método alfa
PersIgue maximizar el coeficiente de fiabilidad alfa. Considera los casos como población y las vanables como muestra. En este caso los valores propIOS no se obtIenen como suma de las cargas factonales al cuadrado.
g)
Otros métodos
EXIsten otros como el método del centroide (de los más antIguos), o el método de la imagen que supone una regresIón múltIple de una variable sobre todas las demás. Cuando se utilizan mínimos cuadrados o máXIma verosImilitud y se trata de una distribución normal existe la posibilidad de recumr a test de bondad del ajuste del modelo factonal. Una vez comentada la extraccIón de los factores, lo sIgUIente es determinar su número. Aunque hay algunos cnterios teóricos para onentar la selección del número de factores o componentes, su validez es discutida. Sin embargo, existen diferentes cnterios de naturaleza empínca que nos ayudan en la selección: 1.
2.
3.
4.
58
Fijar a pnon un número de factores determmado. Tiene sentido su utilizacIón cuando se dispone de IllfOnnaClón previa del fenómeno en estudio y, por tanto, del número de factores que se espera identificar. Es simple y cómodo. Fijar un porcentaje mínimo de varianza que se quiere conservar para el análiSIS y, en función de esto, seleCCIOnar el número de ejes. Así, SI el mvel mínimo fijado es del 85% se escogerá un número j de factores cuya suma, ordenados de mayor a menor, suponga una cantidad al menos Igual al 85%. De esta forma se asegura un porcentaje cIerto de VarIanza explicada. Determlllar el número de factores o componentes que representen una proporción dada de la información. Así, podemos calcular el cOCIente 100/p (SIendo p = número de variables observables Illlclales) y entonces seleccIOnar los factores que expliquen una parte mayor a la que le correspondería proporcionalmente según el número total de variables iniCIales. Si hubIera 10 vanables a cada una le correspondería por término medio un 10%, luego las nuevas vanables latentes o factores seleccionados al menos deben explicar ese porcentaje. Gráfico de sedimentación o scree plot (test del codo o de Catell en la versión analítica). ConsIste en representar en abscisas el número de factores y © Edictones Pirámide
AnálisIs factorial en ordenadas el porcentaje explicado por cada factor, seleccionando factores hasta que se llegue a uno cuya no consideración suponga una pérdida de mformación mínima. Normalmente se asemeja a una montaña en cuyo pIe se acumulan los sedimentos, que forman el codo a partir del cual seleCCIOnar un factor más no aporta mucha mformación.
4 3,5 3 00
.9
2,5
00
2
"8 "~ o
~
1,5
0,5
L--------:=======t======J
o
2
3
4
Número de factores
Figura 2.3.
5.
6.
Gráfico de sedimentación (seree plot).
La versión analítica (test de Cattell) consIste en calcular los mcrementos en las diferencIas que se producen en los valores propIOS, seleccionando factores mientras esa diferencia sea positIva. SigUIendo este cnteno suele seleccionarse un factor más que con el cnteno del valor propio. Cnteno del valor propio (test de Kaiser), según el cual se seleCCIOnan o retienen los factores con valores propIOS mayores que l. Tiene su Justificación en que al tratarse de vanables tIpificadas con vananza la unidad, las variables latentes que se retengan han de explicar al menos lo rrusmo que las de partida, es deCIr, deben tener un autovalor igual o mayor que l. Con pocas vanables resulta un cnteno conservador. CriterIO de la fiabilidad por mitades. ConSIste en dividir la muestra en dos partes y proceder a realizar el análiSIs por separado. Se retIenen los factores que tengan una gran correspondencIa en muchos casos.
En general, es recomendable analizar diferentes solUCIOnes con deSIgual número de factores seleCCIOnados para ennquecer la mterpretación. Si se opta por una selección conservadora en cuanto al número de factores, qUIzá no se capten dimensIO© EdicIOnes Pirámide
59
Técnzcas de análisis de datos en investigación de mercados
nes mteresantes del fenómeno en estudio, mientras que lo contrano implica dificultades de mterpretaclón. Por esta razón, y SI prima el mterés en identificar sobre el de reducir, no se debe ser tan conservador en la retención de factores, y convIene escoger alguno más para ver SI contribuye con una aportación que mejore nuestro análiSIS; si no es así sIempre eXIste la posibilidad de supnmirlo y repetir el proceso.
3.3.
Interpretación: rotación y representación
Las vanables obtenidas son latentes, no observables, y su descnpción e mterpretación debe contribUIr a una mejor comprensión del tema objeto del estudio. La mterpretación se efectúa considerando las correlaCIOnes del factor o componente con las variables observadas mícJales (véase la tabla de cargas factonales o factor loading), analizando cuáles de estas variables contribuyen en mayor medida a la formación del mIsmo y a facilitar la Identificación de un nombre para el factor o componente. Es aconsejable comenzar observando la pnmera vanable y de IZqUIerda a derecha, luego la segunda, y así suceSIvamente, aunque algunos programas ya facilitan las cargas agrupadas según su ImportancIa. Se recomIenda valores supenores a 0,5, en térmmos absolutos, para considerar cIerta SIgnificación. A mayor valor mayor ImportancIa para la interpretación. Por otra parte, la significación no permanece malterada según determmadas característIcas; así, a mayor tamaño de la muestra o mayor número de vanables consideradas las cargas precIsan menor valor para que sean consideradas SIgnificativas. La mterpretación supone un ejercicIO en el que se pone de relieve la destreza y habilidad del analista en tanto conocedor del tIpo de anáJisis y del fenómeno en estudio, pero también su imagmación con todas las posibilidades creatIvas y riesgos que esto conlleva. No obstante, se presentan casos en los que el coefiCIente de correlación de las variables imclales con el factor no permite una clara mterpretación por no destacarse algunas vanables espeCIalmente correlaCIOnadas; entonces se puede proceder a efectuar rotaciones para aumentar el valor de los coeficientes de correlación de algunas de las variables con los factores o componentes y facilitar la mterpretación. Diversos autores consideran que el procedimiento de rotación no forma parte del análiSIS de componentes pnncipales. Con los factores o componentes seleccIOnados y tomados dos a dos se obtIenen representacIOnes gráficas que permIten extraer conclusiones. Representación de las variables observadas La representación sobre el plano formado por las componentes F¡ y F 2 de las vanables se hace temendo en cuenta que sus coordenadas son los respectIvos coeficientes de correlación con esos factores. Es frecuente que el gráfico se represente con un círculo cuyo centro es el ongen o centro de gravedad y su radio es la unidad.
60
© Ediciones Pirámide
Análisis factoriaL
F2
x,
x, x, -11----------+----------1
F, +1
Figura 2.4.
En la representación y en la mterpretación conVIene advertlr que un factor que suponga el 45% de la vananza puede no ser mucho, SI se parte de pocas vanables, o ser una cantidad muy considerable si partíamos de 50 variables observadas. Las vanables que están más próximas al círculo (por ejemplo, X2 , X3 , X4 ) estarán bIen representadas, y cuanto más próxImas estén a los factores o componentes más contribuyen a su interpretación y denommación. Por el contrano, cuando no están próxImas al círculo están mal representadas (por ejemplo, X7 , X8 ) y no sIrven para mterpretar las dos componentes consideradas; seguramente estarán correlacIOnadas con otras dimenSIOnes. Representaciones de los individuos
También es posible obtener una representación de los casos mediante las coordenadas sobre los factores considerados (factor scores), lo que pennite identificar grupos de casos con detennmadas característlcas según la dimensión considerada. Sin embargo, se ha de tener presente que los ejes resumen la mformación aportada por el conjunto de los puntos y no la aportada por cada mdividuo aIsladamente. Como ocurre con las vanables, algunos individuos pueden estar mal representados por sus proyeccIOnes sobre el plano factonal. No hay que olvidar la cantidad de mformación que representa cada factor. © EdicIones Pirámide
61
Técnicas de análisis de datos en Investigación de mercados
Cuando el número de mdividuos es muy grande conviene representar centros de gravedad de los grupos para facilitar la mterpretación y hacerla más vIsible. Superponer la representación de casos (o centros de gravedad) y variables o proyectarlos sImultáneamente ayuda a una mejor interpretacíón. Lo verdaderamente importante de esta representacIón es la direccíón representada por el CoeficIente de correlación y no la proxImidad de una vanable con un mdivIduo, o grupo, por los problemas denvados de escala diferente para vanables y casos. Salvo para el análisIs de componentes pnncípales que se pueden calcular exactamente, de las puntuacIones factoriales de los casos solamente se consiguen estImaciones. Así, SPSS proporcíona tres métodos. aunque según qué método no hay garantía de que los factores estén mcorrelados. Es de gran interés obtener estos coeficIentes por la posibilidad de utilizarlos para postenores análisIs en lugar de las variables ongmanamente observadas. Rotación
Como ya se ha comentado, la mdetermínacíón de la solucíón factonal provoca que no se disponga de una úmca solución, el térrmno rotación es catalogado como un eufemIsmo que esconde esa mdeteflllinación en la solución. Con la rotacIón lo que se pretende es modificar artificIalmente las correlacIOnes
F,
~
,,
,,
/
,,
%3
/
n
/ /
,
/ /
"
,,
/
,,
~/
/
Xl
/ /
,, , ----------'*/---------,, /
/
/
/
/
/
/
/ / /
/ / /
/
X2
// /
/
/ /
Figura 2.5.
62
,,
,,
,,
,,
"lo,
,,
F,
,,
Rotación de los ejes. © Ediciones Pirámide
AnálisIs factorIal entre factores y vanables. Así, en el caso de que existan, por ejemplo, tres variables Xl' X2 , X3 que no estén claramente correlacIOnadas con algunos de los factores retenidos corno F" F2 (según se muestra en la figura 2.5), se mueven o rotan esos ejes mantemendo el mismo plano pero ahora definido por F;, F~ (en línea discontmua) de fonna que las variables lleguen a estar claramente correlacIOnadas con alguno de los factores rotados. En el ejemplo de la figura y tras la rotación, las variables X, y X2 están claramente correlacIOnadas con el eje F; y no con F~, mientras que la vanable X3 lo está con F~ y no con F;. Se ha conseguido una solución de más fácil mterpretación; podremos mterpretar F; en función de lo que representen Xl y X 2 , y lo mismo F~ de acuerdo al significado que tenga X3 . El objetivo último de una rotación es obtener factores dotados de significado teónco y, SI es posible, llegar a la estructura factorial más simple posible. Esto supone mtentar que las vanables queden representadas cerca del extremo de algún eje o cerca del origen y que sean pocas las que no se puedan identificar con alguno de los factores, todo ello para evitar o disrmnmr las ambigüedades al mterpretar. Aunque al rotar la mfonnación captada por los factores no varía en su conjunto, el porcentaje de varianza explicada permanece, sí se producen modificacIOnes en cuanto al porcentaje de varianza explicada por cada factor. Hay una vanada gama de tipos de rotación que suele agruparse en dos grandes bloques: los que mantienen la ortogonalidad o la incorrelación entre los ejes (rotación ortogonal o rígida) y los que no (rotación oblicua). Destacamos cuatro vanantes; las tres pnmeras son ortogonales: Varimax es uno de los métodos más utilizados. Intenta mlmrmzar el número de variables que tienen cargas grandes en un factor, para lo cual maxImiza la suma de vananzas de las cargas factonales dentro de cada factor, dejando por colunma cantidades próximas a loa O. Para evitar la exceSiVa influencia en la solución factonal de las vanables con mayor comunalidad, una vanante. denominada Varímax Normalizada, consiste en dividir por la comunalidad de la vanable correspondiente. 2. Quartíma.x; mientras que el antenor pretendía Simplificar las columnas este método lo pretende con las filas. La rotación se plantea para consegUir que una variable tenga una carga alta con un factor y baja con los demás. Maximiza la vananza en la fila de la matriz de cargas factonales. Esto hace que tienda a conseguir un factor general con cargas altas en todas las variables. 3. Equímax; es una solución intennedia entre las antenores, que se pueden combmar ambos métodos y asignar pesos a cada cnterio. En el caso de que estén Igualmente ponderados recibe el nombre de equímax o equamax. 1.
Estos tres tipos de rotación son ortogonales, son más simples pero nada garantiza que la realidad mantenga esa ortogonalidad. La ortogonal es una rotación apro© EdiCIOnes Pirámide
63
Técnicas de análisis de datos en investigación de mercados
piada cuando el pnncipal interés es reducir mformación y sobre todo si se qUIere que los factores estén mcorrelacíonados.
4.
Rotación oblicua. A diferencia de las anteríores, los factores rotan libremente hasta alcanzar la mejor descrípción de la estructura de las vanables, pudiendo estar correlacíonados entre sí; no se mantiene la independencia. La mterpretación y la posible generalización ha de enfocarse con precaución para este tlpo de rotación, para eVitar llegar a cualquIer solución. Es una rotación que resulta mteresante para la identificaCión de constructos sm importar que estén correlacíonados, aunque por otra parte no es fácil una total mcorrelación entre variables.
Tras una rotación oblicua SPSS proporciona vanas matríces:
Factor pattem matrix: matriz de cargas factonales para los datos de comunalidad. Factor structure matrtx: matnz de correlaciones entre vanables y factores. Factor correlation matrix: matnz de correlaciones entre factores. Recordemos que en este caso no se mantlene la incorrelación. Ante la eleCCión de un tlpo de rotación, el mvestlgador debe contemplar tanto aspectos práctlcos como teóncos relatlvos al fenómeno en estudio para consegUIr soluciones factonales fáciles de interpretar y no sólo más sencillas, smo que como ya recomendaba Thurstone: -
Para cada fila de la matnz factorial o vanable, una relación nula con alguno de los factores. Para cada columna de la matnz o factor, vanas vanables mdependientes con cargas nulas. Para cada par de columnas o de factores: • Vanas variables cuyas relacíones son nulas con uno y no con el otro. • Para más de cuatro factores, una gran proporción de varíables tendería a tener cargas nulas en ambas columnas, • Solamente un pequeño número de vanables tendrían cargas no nulas en ambas columnas.
Realizado todo el proceso, y para mayor garantía, es recomendable reVisarlo e incluso mtroducir modificacíones, ya sea elimmando alguna varíable de dudosa convemencla para nuestros propósitos (como oríentación para cada variable debe explicarse al menos el 50% de la varianza), ya sea incorporando otras que mteresen, bien variando el método de extracción o el número de factores seleccionados, bien cambiando el tipo de rotación.
64
© Ediciones Pirámide
AnálisIs factorIal
3.4.
Evaluación y valoración del análisis
En realidad la valoración del análisis se lleva a cabo en dos fases. La pnmera a pnon al Juzgar la pertinencia de realizar el análisis. aspecto ya comentado en la etapa de preparación. La segunda fase tIene lugar a postenon, el procedimiento más empleado es comparar las correlaclOnes ongmales (las observadas) con las reproducidas o estImadas por el modelo factonal; es decir, analizar las diferencias o residuos entre unas y otras. Si los residuos o diferencias son grandes el ajuste no será muy bueno. Por otra parte, también se puede recurnr al análisis factorial confirmatorio o bien repetIr el análisIs con la muestra partIda o con otra distmta.
3.5.
EjemplO
Contmuemos hasta completar el análisIs con el ejemplo que habíamos utilizado en componentes pnnclpales. Su sencillez nos permite desarrollar toda la operatona de análisIs y de ahí su mterés, aunque no tIene sentido proceder a una mterpretación y obtención de concluslOnes práctIcas, que para eso comentaremos un caso práctIco más oportuno y relevante para la mvestIgación de mercados. Al mismo tIempo presentamos las salidas de varlOS programas, resaltando alguna de sus peculiaridades. En concreto destacamos el programa DYANE, del profesor Santesmases (1997), que además del análisIs de componentes principales, que ahora nos ocupa (y otras técmcas de análisIs), facilita el proceso de diseño del cuestIonano; BARBWIN también es amigable para los usuarios, y los más sofistIcados STATISTICA o SPSS. Todos ellos en versión Windows, quedando para el pasado la tediosa tarea de programación y las dificultades con las que los USUariOS tenían que enfrentarse sm sacar, en la mayoría de las veces, todo el provecho de las técnicas. Realicemos el análisIs paso a paso con algunos comentanos adiclOnales. Para comenzar partImos de una matriz de datos y como pnmeros pasos mostramos las estadístIcas descnptIvas y las correlaClOnes. TABLA 2.8 Matriz de datos imclal i .;< ix¡
I
2 3 4 5 6
© EdiclOoes Pirámide
25 30 40 23 29 40
x-2 40 50 60 45 49 55
*'
38 51 58 42 53 54
"; ..
70 83 90 65 72
75
65
Técnicas de análisis de datos en investigación de mercados TABLA 2.9
Estadísticas descriptivas
31,16667 49,83333 49,33333 75,83333
7,30525 7,08284 7,68548 9,15241
TABLA 2.10
Matriz de correlaciones
1,00000 0,91673 0,84663 0,72439
1,00000 0,94179 0,78313
1,00000 0,74589
1,00000
A Simple vista se comprueba que eXiste cierta estructura de correlación. TABLA 2.11
Matriz de correlación inversa
6,37050 -6,63809 0,95314 --0,12717
17,08369 -9,18953 -1,71581
9,00449 -0,21022
2,59263
Deternunante de la matrIZ de correlación (Detenmnant 01 CorrelatlOn Matnx) = 0,0068498.
Test de esfericidad de Bartlett (Bartlett Test 01 Sphericlty)
= 14,1200
(p = 0,0283).
El valor del test de esfencidad de Bartlett indica que el error que cometemos al rechazar la hipóteSIs nula de no correlaCión es de 0,0283, menor que 0,05, que es el valor que suele tomarse como referenCia. En consecuencia se rechaza la hipóteSIs nula, hay correlación. Otro mdicador de la pertmencIa de realizar el análiSIS es el indicador KMO (KaIser-Meyer-Olkin, Measure of Sampling Adequacy) que alcanza un valor de 0,79932. Éste es un valor bastante alto, por lo que la muestra presenta una buena adecuaCión al modelo factona!.
66
© EdiCIOnes Pirámide
Análisís factorial TABLA 2.12 Matriz de covananzas antiimagen (Antz-image Covanance Matrix)
0.15697 -0,06099 0,01662 --'0,00770
0,05854 -0,05974 -0,03874
0,11106 -0,00900
0,38571
Estas matrices no tlenen mucho mterés puesto que son un paso intermedio para obtener la matriz de correlación antiimagen TABLA 2.13 Matriz de correlación antiimagen (Anti-image Correlatíon Matnx)
0,83156 -0,63631 0.12585 -0,03129
0,69642 -0.74092 -0,25781
0.79218 -0,04351
0,96069
Measures oi Sampling Adequacy (MSA) are printed on the diagonal. J ~tailea Significance oi Corretation Matrix: «,» is JJrinted for diagonal etements.
0.00506 0,01674 0.05174
0,00249 0,03272
0,04433
Esta salida de SPS S nos muestra debajo de la diagonal los coefiCientes de correlación parciales entre variables originales. ProporcIOna una medida de la adecuación muestral para cada vanable, que es el valor de la diagonal. Para valores pequeños, por debajo de 0,5, debiera considerarse la eliminación de esa vanable para efectuar el análisis. En nuestro ejemplo estos valores son bastante altos. Junto a esto se proporcIOna mforrnación sobre la significación de la matriz de correlación. Componentes principales
Si optamos por esta forma de extracción de los factores, la comunalidad es la unidad. Todas las vanables están perfectamente recogidas, siempre y cuando con© Ediciones Piramide
67
Técnicas de análisis de datos en investigación de mercados
templemos todas las componentes (en nuestro caso cuatro), porque SI seleccionamos sólo una parte siempre habrá alguna pérdida de mformación. En SPSS comcidiría la solución imclal y final en componentes princIpales. TABLA 2.14 Estadísticas iniciales (Initlal Statlstlcs)
X, X2 X, X4
1,00000 1,00000 1,00000 1,00000
* * *
*
I
2 3 4
3,48555 0,32032 0,15440 0,03974
87,1 95,1 99,0 100,0
87,1 8,0 3,9 1,0
TABLA 2.15
F'actor4
X, X2 X3 X4
0,93658 0,97810 0,94953 0,86608
-0,18883 -0,12249 -0,14292 0,49923
0,28858 -0,04272 -0,26217 0,02361
0,06229 -0,16279 0,09609 0,01 I 13
Hay que advertlr que si utilizamos dos programas distintos puede ocurrir que comcidan los valores de las cargas factoriales, pero que los sIgnos los tengan cambIados. Esto se debe a que se utiliza un algoritmo diferente, pero en lo sustancial no afecta a nuestro análisIs ni a la mterpretación. La tabla anterior muestra la carga o ponderacIón de cada factor en cada una de las vanables, como son factores ortogonales también son los coefiCIentes de correlación entre factores y variables. La matriz de correlacIOnes entre vanables y factores también se llama matriz de estructura factonal, que es eqUIvalente a la factor pattern matrix cuando son ortogonales. La suma al cuadrado para cada variable representa la comunalidad, en este caso siempre 1; así, por ejemplo, para la varIable X,: 0,93658 2 + (-0,18883)2 + 0,28858 2 + 0,06229 2 = 1
Si en lugar de los cuatro se hubIeran seleccionado dos, entonces sería: 0,93658 2 + (-0,18883i
= 0,91284
STATISTICA proporcIOna una tabla donde detalla la comunalidad para cada variable según el número de factores y también proporciona la estlmación por regresión:
68
© Ediciones Pirámide
AnálisIS factorial TABLA 2.16
0,877187 0,956671 0,901604 0,750089
X, X2 X3 X4
0,912842 0,971676 0,922031 0,999319
0,996120 0,973501 0,990766 0,999876
1,000000 1,000000 1,000000 1,000000
0,843026 0,941465 0,888944 0,614291
Los valores propios para cada factor se calculan sumando las cargas al cuadrado de ese factor con todas las vanables. Por ejemplo, para el factor 1: 0,93658 2 + 0,978102 + 0,94953 2 + 0,86608 2 = 3,48556 La correlación entre dos variables se obtIene multIplicando las respectIvas cargas de las vanables para cada factor y sumándolas; así, la correlación entre Xl y X 3 se obtIene: (0,93658 x 0,94953) + (-0,18883 x -0,14292) + (0,28858 x -0,26217) + + (0,06229 x 0,09609) = 0,84663 que es el valor de la correlación que eXIste entre esas dos vanables como se comprueba en la tabla de correlaciones. Las cargas factonales pueden representarse; concretamente, en el plano fonnado por los dos pnmeros factores (FI' F 2 ) obtenemos la representación de la figura. 0,6 0,5 0,4 0,3 N
~
'""
0.2
¡
¡ X4
¡
I
,
,
1
1
1
I
I I
I I
, 1
I 1
1 1
I I
I I
¡
¡
¡
¡
---------{--()------r---------7----------r---------t--- ------~----------+-----------------~----------~---------{----------~---------¿---------~----------+--------I _________ 4I
I
I
I ~ I
I I I I
I I I I
I 4I I
¡ , ~ I
I I I I
, , I ,
1 41 1
I
I ~ I
I 4I I
_
, I I , I I ¡ I I ( I I --------- .. ---------- ... --------- .. ----------... ---------+-- -------~----------+--------I I I I , I 1 1 I I I I I I I I I I I I ,
0,1
---------:----------~----------:----------~----------:----------~----------:---------
0.0
---------~---------+----------:----------+----------:-- --------+----------l---------
-0.1
---------r---------f----------:----------+----------l-- --------+---------:.. :-:---~------
I I I
I I I
I I I
I I I
I I I
I I I
I I I
I I I
:
:
:
:
i
¡
¡
I
I
I
I I I
I I I
I I I
I I I
x'1:·oX3: I
I
\ I I
I I I
O:v
(~2
-0.2 ---------{----------r---------+----------r-------Q.+----------]----------t--------I
¡
,¡
!
¡
-0.3 :t----'--------l--'-------l----'-------l--'--------I--"--l..----'-----l---'--i----'----' 0,84 0,86 0,88 0,90 0,92 0,94 0,96 0,98 1,00 Factor 1
Figura 2.6. © EdiclOnes Pirámide
Gráfico: cargas factoriales F, x F 2• Extracción: componentes prinCipales.
69
Técnicas de análisis de datos en investigación de mercados TABLA 2.17
Estadísticas finales (Final Stattsttcs) V."i.hle , . . . .uo<
"····vaI6re~·:·.p..oPi~:s . ···.I·:·o/ó·\f~:J4~z~:~.'
II (Communality) Comunalidad ,
1,00000 1,00000 1,00000 1,00000
* * * *
1
2 3 4
.),~ "s~ri~nzrt
(Eigenvalue)
(Pet of var)
acumulada
3,48555 0,32032 0,15440 0,03974
87,1 8.0 3,9 1,0
87,1 95,1 99,0 100,0
(Cum Pet.)
Para todas las variables la comunalidad sigue sIendo 1, puesto que estamos en componentes pnncipales y consideramos todos los factores. No será así en análisis factonal. TABLA 2.18
Matriz de correlacIOnes reproducidas (Reproduced Correlation Matnx)
X, X2 X3 X4
x.
x,
x,
x4
1,00000* 0,91673 0,84663 0,72439
0,00000 1,00000* 0,94179 0.78313
0.00000 0,00000 1,00000* 0,74589
0,00000 0,00000 0,00000 1,00000*
The Lower teft triangle contains the reproduced corretatian matnx; the diagonal, reproduced communalities; and the upper right triangle residuals between the observed correlatwns and fhe reproduced corre~
lations. There are O (0,0%) residuals (above diagonal) with absolute values> 0,05. Skipping rotatwn 1 for extraction 1 m analyslS 1.
La matnz de correlacIOnes reproducidas (debaJo de la diagonal) para este caso cOincide con la Imclal y la comunalidad (en la diagonal y para todos los casos es uno); todas las vanables están perfectamente recogidas en el modelo, y por tanto no hay residuos (valores por encima de la diagonal). Esto no sería así con otros procedimientos de extraccIón de los ejes. TABLA 2.19
Matriz de coeficientes de puntuaciones factonales (Factor Score Coefficzent Matrix)
X, X2 X3 X.
70
Faclol' 1
Factor 2
0,26870 0.28061 0,27242 0,24848
-0,58950 -0,38242 -0,44619 1,55855
Faetor~,;
1,86908 -0.27670 -1,69807 0,15293
I
F~ct?;'. 1,56758 -4,09660 2,41821 0,28004
© EdiCIones Pirámide
AnálisIs factorial TABLA 2.20
Matriz de covarianzas para las puntuaciones factoriales estimadas por regresión (Covariance Matrix for Estimated Regression Factor Scores)
Factor 1 Factor 2 Factor 3 Factor 4',
Factor ,
Factor 2
1,00000 0,00000 0,00000 0,00000
1,00000 0,00000 0,00000
1,00000 0,00000
1,00000
4 pe EXAcr factor scores will be saved. Followmg factor scores will be added to the working file: Name
Label
FACI_2 FAC2_2 FAC3_2 FAC4_2
REGR factor REGR factor REGR factor REGR factor
score score score score
1 for 2 for 3 for 4 for
analysis analysis analysis analysis
1. 1. l. 1.
Las puntuaciones factonales sirven para la representación gráfica. Si se qUiere calcular la puntuación de un factor en una observación: sea el factor 1 en la observación i-ésima: (Factor 1), = 0,26870X¡ + 0,28061X2 + 0,27242X3 + 0,24848X4 Estas puntuaciones pueden ser estimadas por vanos procedimientos; en este caso se ha utilizado el de regresión, por lo que se proporcIOna la matnz de covananzas. Cuando se aplica el método las puntuaciones no están tipificadas m mcorrelaclOnadas; no es éste el caso ahora. En SPSS las puntuaciones para cada caso se graban en un fichero con el nombre y etiqueta (name, label) para cada columna como el especificado arriba. Por ejemplo, FACL2 REGR factor score 1 for analysis l. Así se puede proceder a la representación de los casos. En otros programas se dan directamente, como en STATISTICA, que facilita la sigUiente tabla de puntuacIOnes factonales para los diferentes casos: TABLA 2.21
Puntuaciones factoriales (factor scores) 1: l"actorJ
1 2 3 4 5 6
© Ediciones Pirámide
-1,17650 0,21733 1,41951 -1,04593 -0,08681 0,67240
Fa~t(}r2 '.'.
0,69316 1,20879 0,64754 -0,49907 -0,64581 -1,40460
•..
Fact~r
3 . I{F~ct~f"
-1,21295 0,55350 -0,18474 0,46142 1,39598 -1,01321
-0,61970 -0,39695 0,82435 1.59579 -1,05347 -0,35002
71
Técnicas de análisis de datos en Investigación de mercados
Los diversos métodos de obtención de estas puntuaciones factonales pueden presentar valores muy diferentes. En realidad esto es debido a problemas de escala, pero cuando se trasladan a un plano de dos factores las representaciones así obtenidas comciden.
Análisis factorial Si se hubiese optado por un análisIs factonal seleccionando tres factores se producIrían algunas varIantes a partIr de esta decIsión.
TABLA 2.22
Estadístictas imciales (Inttwl Statistics) lflJ,'!Sjrjanza acumulada (Cum Pet.)
X, X2 X3 X4
1,00000 1,00000 1,00000 1,00000
* *
* *
1 2 3 4
3,48555 0,32032 0,15440 0,03974
87,1 8,0 3,9 1,0
87,1 95,1 99,0 100,0
Se extraen tres factores por componentes pnncipales cuya matriz de cargas factoriales es:
TABLA 2.23
Factor Matrix Factor
0,93658 0,97810 0,94953 0,86608
-0,18883 -0,12249 -0,14292 0,49923
0,28858 -0,04272 -0,26217 0,02361
pe extracted 3 factors.
Hasta aquí todo comcide salvo que ahora tenemos tres factores.
72
© EdiclOnes Pirámide
Análisis factorial TABLA 2.24
Estadístlctas finales (Final StatistlcS)
X,
0,99612 0,97350 0,99077 0,99988
X2 X3
X4
* * * *
3,48555 0.32032 0,15440
1 2
3
87,1 8,0 3,9
87,1 95,1 99,0
Ya la comunalidad no es l y su valor para cada varIable comcide con la diagonal de la matnz sIgUIente. TABLA 2.25
Matrtz de correlactón reproductda (reproduced correlatton matrzx)
0,99612* 0,92687 0,84064 0,72370
-0,01014 0,97350* 0,95744 0,78494
0,00599 -0,01564 0,99077* 0,74482
0,00069 -0,00181 0,00107 0,99988*
The lower teft triangLe contams the relJroduced correlatwn malriX; the diagonal, reproduced communalities;· and the upper nght triangle residuals between the observed correlattons and the reproduced corre~ latrons. There are O rO,O%) residuals (above diagonal) with absolute vaLues > 0,05. Skipping rotatwn 1 for extractlOn 1 in analysls 1.
Esta matriz ya es diferente, tenemos estImacIOnes de la comunalidad (diagonal) que no llegan a l puesto que sólo tenemos tres factores. Por ejemplo, para la VarIable X,:
0,93658 2 + (-0,18883)2 + 0,28858 2 = 0,99612 Tampoco las correlacIOnes entre variables (valores por debajO de la diagonal) van a ser las mIsmas que las Ill1CIales; en realidad la diferencia entre las miClales y las reproducidas o residuos (valores por encima de la diagonal) nos da una medida de la bondad de ajuste de la solución factorial. En este caso los residuos son pequeños y podemos afirmar que el ajuste es bueno. Ahora la correlación reproducida entre las varIables Xl y X3 se calcula de la sIgUIente forma:
(0,93658 © Ediciones Pirámide
X
0,94953) + (-0,18883
X
-0,14292) + (0,28858
X
-0,26217) = 0,84064
73
Técnicas de análisis de datos en inuestigación de mercados
La matnz de coeficIentes de puntuacIOnes factonales cOIncide con la comentada antenormente y el procedimIento para estImar las puntuacIOnes factoriales también.
Rotación Si se rotan los factores se producen diferencIas en la matriz de cargas, en la representación y en las puntuaciones factonales. Todo lo cual tIene sus consecuenCIas en la Interpretación de los resultados, aunque ésta es una faceta que no tIene mucho Interés en este ejemplo. Lo que sIgue es la salida de STATISTICA para una rotación Varimax raw.
TABLA 2.26
Matriz de cargas factoriales
Ij;¡/;i,:.< • X, X, X3 X4
Expl. var. PIp. Iotales
Fastof
0,439360 0,674305 0,818523 0,336607 1,431009 0.357752
Factor 2
Factor '3
0,356830 0,421235 0.379546 0.887203 1,235952 0.308988
0,822043 0,584272 0,420393 0,315344 1.293302 0.323326
Se observa una gran diferencia en el porcentaje de vananza explicado por cada factor, aunque el total de vananza explicada entre los tres sea el mismo, es decir, el 99%. Esto da lugar a una representación gráfica muy diferente a la antenor.
TABLA 2.27
Comunalidades con rotación Vanmax raw
De: 111i
factor
0.193037 0,454688 0.669980 0.113304
74
-[ .'
De dos'
! Detrcs'
fa~~ox:~s',,' ! factores 0.320364 0,632127 0.814036 0,900434
0,996120 0.973501 0,990766 0,999876
Múltiple
k. cuadrado
0,843026 0,941465 0.888944 0,614291
© Ediciones Pirámide
Análisis factorial
1,0 r->-----je--;--t!-+-+-+--j---+---+--+-i¡-+-+-+--¡---+--+--+--t-+-+-<-----r
,
,
I
0,9
,i
,
:
,
,
,
,
I
!: ,
----cf-------i--------------f-------------i--------------f-------------i-------------
X4 ¡ : : : : 0,8 - ---- -- --- --- -~--------------~-------------~-------- ----- -~---- ----------{--,
I
I
I
,
: :
:
:
:
: :
I
,
I
I
I I
I I
I I
, ,
0,7 - ------------ i-----------I I I
_
: : --r: -------------i-------------r------------i-------------
0,6 - --------- ----/--- ------ -----~---------- ---i--- ----- ----- ~-------------..¡-------------
0,5
I I
I I
I I
I I
I I
I
I
I
,
I
I
,
I
I
I
:
~
:
%2 :
:
:
:
:
¡
:
0,4
0,5
0,6
0,7
0,8
-------------i--------------r-------------i--------------r--------------¡-------------
0.4
-------------r----~Xl-----+-------------t----------~--~--------------t-l----------
0,3
3 +--+--<--+-+--+--+--+--+--+--+--+--+--+---+--+-+--+--+--+---t~-----<~c-+
0,3
0,9
Factor 1
Figura 2.7,
Gráfico: represenlación de cargas factonales F, x F" Rotación: Varimax raw. Extracción: componentes principales.
TABLA 2,28 Coeficientes de puntuaciones factonales
X, X, X3 X4
Factor 1
Factor 2
Factor. 3
-0,939799 0,503713 1,521852 -0,512223
-0,274083 -0,182535 -0,299731 1,452263
1,718966 0,120435 -0,866523 -0,377844
TABLA 2,29 Puntuaciones factoriales Factorl
1 2 3 4 5 6
© EdiclOnes Pirámide
-1,82371 0,09088 0,50994 -0,13894 1,16007 0,20177
I
F'actor2
i~~~~~r •.~ ••......
0,00117 1,11165 1,31648 -1,00202 -0,64849 -0,77879
-0,099624 -0,755468 0,689405 -0,729790 -0,779154 1,674631
75
Técnicas de análisIs de datos en investigación de mercados
Es recomendable repetir el análisis para otros procedimIentos de extracción (mímmos cuadrados generalizados, ponderados, máxima verosimilitud, ejes princIpales y otros), así como con distintos tIpos de rotacIón para analizar las diferenCIas que se producen.
4.
ESQUEMA DE PROCEDIMIENTO Cualqmer técmca como la que nos ocupa genera una gran cantidad de tablas y de información, por lo que el proceso parece muy enrevesado. Para tratar de sImplificar identificamos los sigmentes pasos: l. 2.
SeleCCIón del fichero de datos y del modulo de análiSIS factorial. Seleccionar las variables que se utilizarán para el análisis. La base de datos contendrá otras variables que no interesen para nuestro estudio factonal. Igualmente es posible seleCCIOnar solamente un subconjunto de casos. 3. Solicitar las estadísticas descriptIvas: medias, desvIaciones, correlaciones. 4. Pedir matrices y test. MatrIces: inversa, antiimagen, de correlacIOnes reproducidas. Test de Bartlett, KMO, MSA para cada variable. 5. Indicar método de extracción (componentes princIpales, alfa, ejes pnncipales, etc.) con especificacIOnes para seleCCIOnar factores: establecer un mímmo para los valores propIOS o dar un número de factores fijo. 6. Indicar las salidas de interés: valores propIOS, comunalidades, gráficos de sedimentación, representación de las cargas factoriales dos a dos o en tres dimensiones, puntuaciones factonales, etc. 7. Fijar las especificacIOnes, si procede, para el tIpo de rotación elegido y pedir las tablas o gráficos de las salidas. 8. Ordenar, seleCCIOnar las tablas y gráficos relevantes para nuestro estudio e ImprinIirlas. 9. Interpretación.
5.
CASO PRÁCTICO Analicemos un caso completoS; Datos del ejemplo AME* Planteamientos previos
Para la toma de determinadas deCISIOnes comerciales a mvel nacIOnal puede interesar SintetIzar las prinCIpales característIcas soclOeconóllÚcas del conjunto de capitales de proVinCIa españolas. Se trata de identificar las dimenSIOnes relevantes que 5
*
76
Este ejemplo está basado en et estudio realizado por Luque y Cordón (1994). Véase fichero AME en la dirección www.ugr.es/~tluque. © EdiclOoes Pirámide
Análisis factonal describen a las capItales de provincIa españolas. De esta forma consegUIremos un número más reducido y operatIvo de varIables, y para ello parece oportuno plantear un análisIs factona!.
Fase de preparación Las variables de partIda se han seleccIOnado de la conocIda publicación del
Anuano del Mercado Español de Banesto en el año 19926 Están relacIOnadas con la población, sItuación socioeconó1lllca e mdicadores comerciales y económICOS. En un pnncIpIO también se contemplaron otras varIables como densidad de población, número de entidades financIeras, número de licencias fiscales de comercio ambulante, de comercio no clasificado y de actIvidades comerCIales (matenas primas agrarIas, alimentación, bebidas y tabaco). Sin embargo, finalmente se desecharon porque al comenzar el análisIs su representación dejó mucho que desear y no estaban bIen captadas. Por otro lado, se realizaron una sene de transfonnacIOnes para refenrlas a una base homogénea. Las varIables utilizadas se detallan en la sIgUIente tabla. TABLA 2.30
Vanables observadas Núrnero
Nombre
1
TURISMO
2
CUOTA
3 4 5 6
ICC1 ICC2 ICC3 CULTURAL
7
DEMOGRAF
8
ECONaMIC
9
RACTIVA
Descripción
'.
'
Índice turístico calcUlado sobre una base nacIOnal de 100.000 unidades (año 1991). Cuota de mercado referida a una base nacional de 100.000 unidades. Índice pnmero de capacidad de compra * Índice segundo de capacidad de compra* Índice tercero de capacidad de compra* Índice cultural calculado sobre una base nacional de 100.000 unidades (se calcula atendiendo al número de alumnos matriculados en EGB, bachillerato y cau en el curso 1990-1991). Índice demográfico, referido a una base nacional de 100.000 unidades y calculado sobre datos del año 1990. Índice económICO, que es un índice complejO calculado con datos de diversas senes temporales correspondientes a los años 1988, 1989, 1990 Y 1991 (también referido a una base nacional de 100.000 unidades). Índice de riqueza activa, calculado como media antmétlca de los tres anteriores y referido a una base naCIOnal de 100.000 unidades.
6 Este tIpo de mfonnación ahora la proporclOoa La Ca1xa mediante el Anuano ComerclaL de España cuyos datos para el año 1998 pueden descargarse y analizarse en Datawm de TESr entrando en su
págma web (www.teslgandia.com). © EdiCIOnes Pirámide
77
Técnicas de análisis de datos en investigación de mercados TABLA 2.30 (continuación) Número
10
Nombre
11
TLFHABIT INNüHABI
12
EGBHABIT
13
TEXTILHA
14
MADERHAB
15
QUIMHAB
16
CüNSTHAB
17
METAL!;!AB
18
MAQUINHA
Número de teléfonos por cada 100.000 habitantes. Número de instrumentos notanales por cada 100.000 habItantes. Número de alumnos matriculados en EGB por cada 100.000 habitantes. Número de licencias fiscales, eXistentes en 1989, calificables dentro del grupo 2 de actividades comerciales por cada 100.000 habitantes. Ídem calificables dentro del grupo 3 de actividades comerCiales. Ídem calificables dentro del grupo 4 de actividades comerciales. Ídem calificables dentro del grupo 5 de actividades comerciales. Ídem calificables dentro del grupo 6 de actividades comerciales. Ídem calificables dentro del grupo 7 de actividades comerCiales.
* ICC1: índice Que tiene por finalidad medir la capacidad de compra de productos de uso y consumo común, caracterizados por su bajo coste Unltano y la posibilidad de adqUIrirlos, normalmente, en cualqUIer clase de estableCImIento. rCC2: Está concebido para artíCUlOS de tIpo medio, es deCIr, para aquellos que. aun no SIendo fuertemente espeCialiZadOS, su uso o consumo ya no depende pnncIpalmente del volumen total de la población, SIllO, en mayor medida que rCCl, de las características económicas y sociales de lOS habitantes. ICC3: Se refiere a productos de uso y consumo especializados y está en función primordial de las condicIOnes sociales y económicas de los habitantes.
Los casos son las cmcuenta capItales de provmcla españolas, que suponen caSI el tnple de vanables. Se trabaja con las correlaCIOnes de las Variables (análiSIS Iipo R). La mspección a simple vista de la matriz de correlaCIOnes ya muestra una cIerta estructura de correlaCión. El valor del KM O se aproxima a 0,8 y el test de esfericidad de Bartlett es 1.652 con un nivel de SignificaCión del 0,00. Con Objeto de Simplificar, sólo se detallan las matrices y tablas relevantes. En consecuencia, se eslima pertmente el análisis a la vista de estos mdicadores que muestran una Importante estructura de correlación. El MSA para cada variable (véase diagonal de la matnz de correlaCIOnes antíImagen) es superior a 0,5, por lo que todas las vanables recogidas están aceptablemente representadas.
78
© EdiCIOnes Pirámide
Análisis factorial TABLA 2.31
Matriz de correlaciones antiimagen
..
..
TURISMO
....
TURISMO CUOTA ICCl ICC2 ICC3 CULTURAL DEMOGRAF ECONOMIC RACTIVA TELHABIT INNOHABI EGBHABIT TEXTILHA MADERHAB QUIMHABI CONSTHAB METALHAB MAQUINHA ..
ECONOMIC RACTIVA TELHABIT INNOHABI EGBHABIT TEXTILHA MADERHAB QUIMHABI CONSTHAB METALHAB MAQUINHA
I
0
QUIMHABI CONSTHAB METALHAB MAQUINHA
© EdiclOnes Pirámide
CUOTA .'.
IC(';l;
ICC2.·
i
•••• '.'
/;-'T;''';O·
' .< ·X..,.... "!~!<
....
,h, :'77'
0,78818 -0,65007 0,42819 -0,51954 0,50038 -0,05073 -0,12574 0,04794 0,23671 -0,14899 -0,07671 -0,05845 0,08101 -0,18243 0,11780 -0,21704 0,06621 0,05426
0,77736 -0,35651 0,45180 -0,46438 -0,25041 0,24292 -0,50681 0,28832 0,05009 0,21131 0,16139 -0,00854 0,11511 -0,09300 0,01068 -0,08085 0,08471
0,55732 -0,95131 0,82513 -0,01052 -0,12092 0,12799 0,01404 0,21457 -0,34627 -0,14955 0,28069 -0,25870 0,13610 -0,12090 -0,11495 -0,02175
0,59134 -0,94959 . -0,00353 0,13396 -0.12755 -0,05677 -0,09323 0.28720 0,04361 -0,22807 0,25768 -0,16861 0,16982 0,06197 0,03198
0,65153 -0,00482 -0,08570 0,07541 0,09465 -0,04687 -0,24215 0,06861 0,19639 -0,23498 0,18628 -0,21062 -0,05347 -0,02880
0,81748 -0,86165 0,32577 -0,00298 0,16623 -0.15387 -0,11199 0,16518 -0,30232 -0,12236 0,04563 0,26220 -0,14515
ECONOMIC
RACTIVA
TELHABIT
INNOHBI
EGBHBIT
TEXILHA ",
0,77186 -0,78801 0,22428 -0,36452 0,09008 -0,18991 0,14832 -0,06839 0,23299 0,18804 -0,30104
0.82918 -0,18158 0,23207 -0,07235 0,24095 -0,41156 0,05776 -0,21370 0,02395 0,14535
0,82253 -0,64345 0,18083 -0.23645 -0,19411 0,10213 0,29685 0,32137 -0,35142
0,77022 -0.27420 0,21170 0,04800 -0,15551 -0,21620 -0,26392 0,24796
0,52484 -0,30376 0,19664 0,14319 -0.20085 0,25069 -0,13476
0,78871 -0,39278 -0,14498 -0,45739 -0,42288 0,13745
0,83631 -0,14299 -0,04719 -0,15837 0,10241
.......
..•••.. /! «
.
QUIMHABI CONSTIlAlJ l\ffiTi\LHAB
0,87760 -0,26668 0,16014 -0,44186
0,81100 0,20936 -0,23125
0,76987 -0,62993
¡VI,.\,QUI~ÜA I
. '"
0,78101 -0,51435 -0,00548 -0,23315 0,26048 -0,00911 -0.09321 0,30181 0,12886 -0,07803 -0,34284 0,24843
.. .;,
0,81008
79
Técnicas de análisis de datos en investigación de mercados Como ya se ha comentado se habían rechazado otras vanables que no estaban bien representadas.
Extracción y selección de factores Utilizando un procedimIento de componentes princIpales y seleccIOnando los factores que tIenen valor propIo superIOr a la unidad, que representan en torno al 90% de la vananza, nos quedamos con cuatro factores. El resto de factores, que son catorce, sólo añaden el 10%. Esta opcIón también es avalada por el gráfico de sedimentación. Veamos las salidas de mayor interés.
10
T-~~-+-~-+--+--+---r-+--+---o--;~~~+--+-+--+-ct
9
.
8
.. .
.
7
..••.................•....••........•••••..•........•..•••........•••......
6
......•••.....•.....•......••••••••••..••••.••••.........•...........
5
4
.. ....•. ." .......••.....•........••.••.•.....•...........•.........•......
3
...........•.......••......•.............••••.•..........•••........•••....
2
..... ....• . ........•••.....••••.............••.•••..................•.....
o o
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16 17 18 19
Número cie valores propIOS
Figura 2.8.
Gráfico de sedimentación.
TABLA 2.32 Valores propIOS (elgenvalues)
1 2
3 4
80
8,321100 4,666013 1,928207 1,108428
46,22833 25,92230 10,71226 6,15794
8,32110 12,98711 t4,91532 16,02375
46,22833 72,15063 82,86289 89,02083
© EdiCIOnes Pirámide
Análisis factorial TABLA 2.33
MatriZ de cargas factoriales (4 factores seleccionados)
TURISMO CUOTA ICC1 ICC2 ICC3 CULTURAL DEMOGRAF ECONOMIC RACTIVA TLFHABIT INNOHABI EGBHABIT TEXTILHA MADERHAB QUIMHAB CONSTHAB METALHAB MAQUINHA ExpL var, Prp, total
0,731367 0,733586 0,578631 0,664590 0,732673 0,723404 0,742733 0,799266 0,790860 0,851984 0,775450 -0,128713 0,579325 0,745415 0,531405 0,487253 0.613798 0,681114 8,321100 0,46f283
--0,567579 --0,628311 0,080188 0,181222 0,191968 -0,650060 -0,630611 -0,560720 -0,543791 0,062520 0,244614 0,280683 0,651571 0,422285 0,710438 0,700282 0,586592 0,598333 4,666013 0,259223
0,053533 0,162049 -0,746734 -0,709650 -0,576027 0,155391 0,168068 0,150590 0,154416 0,023960 -0,227216 -0,025628 0,366409 0,218372 0,209164 0,256446 0,155155 0,196871 1,928207 0,107123
0,047909 -0,001127 0,184059 -0,024951 -0,190753 0,124364 0,10107& 0,062669 0,084371 -0,194747 0,124112 0,934399 0,004728 -0,064819 -0,016338 0.216572 -0,120310 -0,078842 1,108428 0,061579
Como se observa. los dos pnmeros factores explican el 72% de la vananza (46,93 y 25,23%, respectIvamente), aunque el pnmero casI el doble que el segundo. El tercero supone una cuarta parte que el primero (10,71 %) Y el cuarto sólo algo más del 6%. En conjunto suponen una reducción Importante de diecIOcho variables a cuatro perdiendo poca mfonnación: un 10%, por lo que se cumple el objetivo de redUCIr la dimenslOnalidad. Un tercer grupo fonnado por cuatro factores seguía con representacIOnes próximas al 2%; el resto de los factores tenían valores propIOS desprecIables. Observando la matnz de cargas se mterpretan los factores. Salta a la vIsta el número tan grande de cargas elevadas en el pnmer factor. Se da un efecto tamaño para el pnmer factor; no obstante, se podría llegar a extraer interpretacIOnes del SIgnificado de los factores, pero vamos a proceder a una rotación varimax que nos ayudará a conseguir una mterpretación más nítida. Aunque no se reproduzcan las tablas, tras la rotación las varIables sIguen estando bien representadas y los residuos son pequeños, ya que apenas hay un 5% supenores a 0,05. Esta nueva solución rotada explica la misma VarIanza (89,02%), pero ha habido © EdiCIOnes Pirámide
81
Técnicas de análisis de datos en investigación de mercados
TABLA 2.34 Cargas factoriales (Varimax raw)
.i>! TURISMO CUOTA ICC1 ICC2 ICC3 CULTURAL DEMOGRAF ECONOMIC RACTIVA TLFHABIT INNOHABI EGBHABIT TEXTILHA MADERHAB QUIMHAB CONSTHAB METALHAB MAQUINHA Expl. var. Prp. total
F~ctor
0,902172 0,964811 0,182319 0,154391 0,204581 0,987534 0,987674 0,969838 0,956506 0,520570 0,326052 -0,159348 0,047976 0,270384 -0,065969 -0,046743 0,046724 0,100627 6,146866 0,341493
,
0,025567 0,031284 0,059952 0,205425 0,314968 0,001438 0,032532 0,108499 0,116447 0,541203 0,507980 0,073650 0,942466 0,813327 0,892649 0,869628 0,832763 0,894412 5,325677 0,295871
,
"c,
)U,.u.~;;;,
0,206500 0,103798 0,931538 0,954799 0,871763 0,101187 0,102050 0,154082 0,149303 0,383349 0,593490 0,001405 0,045392 0,217534 0,169506 0,105385 0,236669 0,232969 3,358172 0,186565
,;i~\,ct9~ I! 0,070682 0,128729 -0,167738 0,032697 0,202056 0,006438 0,028510 0,061145 0,037079 0,239658 -0.107727 -0,968654 -0,042857 0,062666 -0,034985 -0,266338 0,087722 0,050181 1,193034 0,066280
cambIOs en lo que representa cada factor. Ahora entre el factor 1 y el 2 la diferenCia se ha reducido y ambos factores explican un porcentaje de la varIanza más parecido (34,15 y 29,6%). El tercer factor reduce diferenCIas con los antenores y supone algo más de la mItad que el porcentaje del factor 1. Finalmente, el cuarto apenas sufre modificación cuantItatIva. La representación de las varIables en el plano formado por los dos pnmeros factores muestra qué vanables se encuentran más próxImas (algunas demasIado como para distingUIrlas bIen?) y cuáles más alejadas. Tras la rotacIón ortogonal (varimax) realizada las cargas factoriales se han clanficado y la mterpretación de los factores resulta más evidente. -
Factor l. Está muy correlacIOnado con las variables relativas al volumen de poblacIón y de actividad económIca (CUOTA, TURISMO), con mdicadores de riqueza cultural y económIca. En este eje se oponen las CIUdades de mayor actividad a las de menor, en térmmos cuantitatIvos. Podríamos denormnarlo factor de volumen de actlvidad y tamaño.
, Para procurar que fuera legible se han suprtmido las varIables CUOTA, CULTURAL, DEMOGRAF y RACTIVA, que estaría comcidiendo con ECONOMIC y TURISMO.
82
© EdicIOnes Pirámide
AnálisIs factonal
1,1 -~,---<-:-~-r--;"----j--->---j---+--+--~--,---<---+ I I I 1
QJIMHAB i TEXTILIjIA
,9
°
o
¡
o
¡
i
i
I I t I I I , ---------~-------o--¡-----o-M~QU1NHAi---------~--------- -¡---------y---------
CONSTHAB: o I : : : : ¡ MI}TALHAB: o MAnRRHAB ¡ ¡ i 0,7 ------- --1------ -- --~---------t-------- --¡- ---------;----------:-----------;-- ---- --0,5
0,3
j
I
I
I
1
,
I
¡
1 I ,
I , I I
I I I I
I I I I
1 , ¡ 1
, , 1 ,
I I I ,
I I
, I
I 1
I
I I
I I
:
:
:
:
:
I
,
I
I
---------:----------:------íNNOHABy-t---¿--TLi/HAB'-----¡-T----:----------1--------I I
o
I~C3:
r-------- -~------- --i---------t---------f---------i----------t--- ------i----- ----, :
0, 1 ---------~-o-----
I
'¡CC20' : :
, I
I
I
I
:
:
:I
:I TURISMO
I
:
ECONüMIC
--+------- --J----------i----------f---------..:------ --00-+---------
:I EGBHAFr ,
ICC!:,
I
o
00: 01
: : ¡ I : I : -0,1 +-----'-----l-_-'-----+----'-_-'-----L.---'-_-'--l----'_-I--l----''---'--l -0,4
-0,2
0,0
0,2
0,4
0,6
0,8
1,0
1,2
Factor 1
Figura 2.9.
-
Representación de las cargas factonales F i XF 2 • Rotación: Varimax normalizada. Extracción: componentes pnnclpales.
Factor 2. Se relacíona con las vanables referidas a las licenCiaS fiscales por habttante, es un factor que recoge la actividad fundamentalmente económIca en térmInOS relativos. Es un factor que opone las CIUdades con mayor concentración o mayor número de licenCIas fiscales por habttante a las que tienen una menor concentración o menor número de licenCiaS fiscales por habttante. La denomInación podrá ser: factor de concentración de licencias fiscales. Factor 3. Se centra de manera muy espeCial en los Indicadores de capacidad de compra, opone CIUdades con mayor capacidad de compra a CIUdades con menor capacidad de compra. Es un factor de capaCIdad de compra. Factor 4. Cunosamente sólo se correlacíona de manera destacada con el número de estudiantes de enseñanza primarIa, EGBHABIT; nos Informa sobre la Juventud de la población en cada CIUdad, puesto que es una enseñanza obligatona y el nIvel de escolanzación prácticamente es total. Es un factor de Juventud de la población.
Por simplificar, tampoco se reproducen las puntuaciones factonales para cada caso, pero sí se han representado gráficamente. Las CIUdades se describen por sus InICIales. En la figura no se recogen algunas de ellas por presentar valores extremos que provocan una distorsión de manera que se perdería el detalle del resto de los casos; estas CIUdades son, por un lado, y debido a sus valores altos relacíonados con © EdiclOnes Pirámide
83
Técnlcas de anáLisís de datos en ínvestigación de mercados la capacidad de compra, Palma de Mallorca y Girona, y, por otro lado, en función de su dimensión, Barcelona y Madrid. En el plano 1,2 Valencía y Sevilla se oponen a Guadalajara, Segovla y Huesca en lo que se refiere al factor 1; mIentras que en el factor 2 Orense y Lugo se oponen a Córdoba, Vitona o Bilbao. Igual que se detalla la figura en el plano formado por el factor 1 y por el 2, pueden representarse otros fonnados por combinación de factores diferentes, si bien no todos recogen el mIsmo porcentaje de vanabilidad. Hay que advertIr que los ejes oponen unas ciudades a otras según lo que representan, independientemente del sIgno o del lado del eje en el que se encuentren.
2,0
:
: ü R: o
¡
I
,
: I
1,0
-----------º-i--~A::TF----~--------------:----Q---------~--------------~-------------
0,5
'"
o
""
-0,5
~
:
1,5
¡o
LE'¡
~
1
------------Ee-------------~L_U_----------~-------------J,
so¡
____________ -o
o
o
°L:
T..oo.cS.
0'
lI I
HU :'°0 PAV o Tü : s ABo CC8: I
¡ e :
:..I
Z I 00 o SSPO' o
~-------------
i
¡
:
:
I
'o
. I:
:'
I L
_
v
: I
-------------i-----------AVo----------O--~-------------~--------------~-------------
:
:
:
° :
:
. loBA GR ~ AMA: : eR-.Q.--GC:----'O---O---I--o-----------.. -------------->---------------
: o 0°
--------.Q---~
GU :TE OCA: J &1u " NA OH' \ SEO\ -------------i--------------T--------------:--Ck--------i--------------}-------------i,O 1 8VA 18 1 1 ; 0, : BI: : ________ SG-_~----YI9--CU_~l_--------9----~-~--------------1,5 ° \: \: C O o :: :: :: -------------~--------------t--------------:--------------~--------------t-------------2,0
: ,
: : : \
\
1
-2,5 +-+-_+_-+---I---+----.--+--1---+--->---+-l-~___+_____;~e__<___>__~_I___+__+__+__J -0,2 1,4 -0,6 0,2 0,6 -1,0 1,0 Factor 1
Figura 2.10.
6.
Representación de las CIUdades (rotación vanmax).
APLICACIONES Y LIMITACIONES DEL ANÁLISIS FACTORIAL De todas las variantes a las que nos hemos referido, y a modo de resumen, lo más utilizado es el análisis de componentes princIpales, para seleCCIOnar el número de factores el cnteno del valor propIO y la rotación más frecuente es la varimax. En general, y como ya se ha comentado, las grandes aplicacíones del análisis factonal se resumen en: Reduccíón de mfonnación. Identificación de estructuras subyacentes.
84
© Ediciones Pirámide
Análisís factonal Como paso mtermedio en la obtención de nuevas variables mcorrelaclOnadas para utilizar en posteriores análisIs. En el campo del marketmg y en sus diferentes ámbItos se manejan muchos conceptos (constructos) complejos y no directamente observables, por lo que el análisIs factorial se muestra como una herranuenta susceptible de aplicaclOnes diversas en: -
InvestIgaclOnes sobre productos y sus atributos determmantes.
-
InvestIgaciones sobre imagen corporatIva, de productos o de marca: identificación de los valores atribuidos a la marca o a la imagen.
-
Segmentación: identificación de grupos de consumidores y perfiles según actItudes, preferencias, etc. Identificar estilos de vida.
-
InvestIgación sobre comunicación: identificación de códigos de comumcación relevantes. Estudios sobre precios.
-
Denominar e interpretar dimenslOnes de una medida. Construcción de escalas: para identificar o seleccionar ítems, desarrollar medidas de satIsfacción de distribuidores o representantes.
Algunos ejemplos de aplicacIOnes concretas son los sigUIentes: -
Test de producto y elaboración de cuestlOnanos (Abascal y Grande, 1989).
-
Imagen de los consumidores (Abascal y Grande, 1989).
-
Estudio de imagen y posicionamiento de entidades financIeras (Alonso Rivas y Cruz Roche, 1991).
-
Imagen de la empresa detallista y su percepción por los consumidores (Vázquez Caslelles, 1989).
-
Clasificación tipológica de los mumclplOs de Cataluña con base en una serie de vanables socioeconómicas (BautIsta y EstIvill, 1983 8).
-
CaracterístIcas estructurales del comercio español (Pedret, 1986).
-
PrincIpales atributos de la oferta política sobre los que se decide la votación.
A pesar de que se han Ido antIcIpando las limItaclOnes, habría que subrayar como advertenCIas las sIgUIentes: -
8
© EdiclOnes Pirámide
Cuidado con la utilización de varIables con escalas muy diferentes, puesto que las de mayor varIanza tendrán un peso supenor. Las vanab1es han de ser comparables o susceptibles de ser analizadas conJuntamente. Véase Ballsta (1984, 26 Y ss.).
85
Técnicas de análisis de datos en investigación de mercados
INVENTARIO DE TÉRMINOS Y CONCEPTOS • • • • • • • • • • • • • • •
AnálisIs factonal y análisis en componentes pnnclpales. Factores latentes. Test de esfencidad de Bartlett. CoefiCiente de correlación parcial. Índice KMO. Índice MSA. Valor propIO. Comunalidad. Métodos de análisIs factonal. Gráfico de segmentación. Test de Kaiser. Cargas factoriales. Matnz de covananzas y de correlaCiOnes antiimagen. Matnz de correlaCIOnes reproducidas. RotacIOnes ortogonales y oblicuas.
BIBLIOGRAFíA Aaker, D. A., Y Day, G. S. (1989): Investigación de mercados, McGraw-HiII, México. Abascal, E.. y Grande, 1. (1989): Métodos multivarzantes para la investigación comercial, AneJ, Barcelona. Alonso Rivas, J., y Cruz Roche, 1. (1991): «Esludio de la Imagen y posICIOnamiento de mstltuclOnes finanCieras competidoras en un territono detenmnado», III Encuentro de Profesores Umversitanos de Marketing, Salamanca, septiembre, pp. 608-620. Batista Foguet, J. M.. Y Martínez Anas, M.' del R. (1989): AnáliSIS Multivariable. AnáliSIS en componentes prmcipates, Hispano Europea, Colección ESADE, Barcelona. Batista Foguet, J. M. (1984): «Componentes pnncipales y análiSIS factonal (exploratorío y confirmatono»>, en J. J. Sánchez Carríón, Introducción a las técnicas de análiSIS multivarzable aplicadas a las ciencias SOCiales, Centro de Investigaciones Sociológicas, Madríd. Cuadras, C. M. (1991): Métodos de análiSIS multlvarzante, PPU, Barcelona. Churchill, G. A. (1979): Marketing Research. Methodotoglcat Foundatlons, The Dryden Press, Hinsdale (IL). Dillon, W. R.; Madden, T. J., Y Firtle, N. H. (1987): Marketing Research m a Marketmg Envzronment, Irwm, Homewood (IL). Evrard, Y.. Pras, B., y Roux, E. (1993): Market. Études et recherches en marketing, ÉditlOns Nathan. Harmau, H. H. (1967): Modem factor analYSlS. Umversity of Chicago Press, Chicago (IL).
86
© Ediciones Pirámide
Análisis factorial Halr, J. F.; Anderson, R. E., Tatham, R. L., YBlack, W. C. (1995): Multlvanate Data AnalySIS wlth Redings, Prenhce-Hall IntematlOnal, Englewood Cliffs, NJ. Kinnear, T. c., y Taylor, J. R. (1989): Investigación de mercados. Un enfoque aplicado, McGraw-Hill, Bogotá (Colombia). Lawley, D. N., YMaxwell, A. E. (1971): Factor analysls as statlstlcal method, Amencan EIseVler, Nueva York. Luque Martínez, T., y Cordón Pozo, E. (1994): «Una aplicación del análisIs mulhvarlable a las caracterísllcas socioeconómlcas y comerciales de las capitales de provmcla españolas». ReVIsta Europea de Dirección y Economía de la Empresa, vol. 3, núm. 1, pp. 101-112. Malhotra, N. K. (1993): Marketing Research. An Applied OnentatlOn, Prentice-Hall, Englewood Cliffs (NJ). Norusis, M. J. (1986): Advanced Statlstlc SPSS/PC+, SPSS Inc., Chicago (IL). Ortega, E., et al. (1990): Manual de investigación comercial, Pirámide, Madrid. Sánchez Carrión, J. J., et al. (1984): Introducción a las técmcas de análisis multivariable aplicadas a las cIencias socIales, Centro de InvestigacIOnes SocIOlógicas, Madrid. Santesmases Mestre, M. (1997): DYANE. Diseño y análiSIS de encuestas en investIgación soCIal y de mercados, Pirámide, Madrid. Sanz de la Tajada, L. A. (1990): «El análiSIS mulhvanable». en E. Ortega et al., Manual de investigación comercial, Pirámide, Madrid. Sheth, J. N. (1971): «The Mulllvarlate RevolutlOn in Marketmg Research», Joumal of Marketing, vol. 34, núm. 1, enero, pp. 13-19. Statlstlca for Windows (1995). StatSoft. Stevens, J. (1986): Applied multivariate statlstlcs for the socIal SClences, Hillsdale NJ., Er!baumn. Uriel, E. (1995): AnáliSIS de datos. Senes temporales y análiSIS multivanante, AC, Madrid. Vidosa, J. (1990): «AnálisIs factona!», en E. Ortega et al., Manual de investigación comercial, Pirámide, Madrid.
© EdicIOnes Pirámide
87
Miguel Ángel Rodríguez Melina
1.
INTRODUCCiÓN El análisis de correspondencIas (AC), o también análisIs factorial de correspondencias, es una técllÍca multIvariante que fue desarrollada en la década de los sesenta por J. P. Benzécn y sus colaboradores. El ongen francés de esta técnica explica en parte por qué no se encontraba presente en la mayoría de los paquetes estadístIcos anglosajones. Sin embargo, poco a poco, el análisIs de correspondencIas ha ido extendiéndose en su aplicación y en estos momentos constituye un poderoso InStrumento en los casos en que el investigador tIene que trabajar con datos cualitatIvos. Es una técmca de Interdependencia que no se limita simplemente a describIr un conjunto de datos, SInO que va más allá, trata de descubrir sus dimenSIOnes estructurales, estudiando las sllnilitudes no entre las magnitudes absolutas, sino entre las formas. Además de reducIr las dimenSIOnes, conduce a la obtención de mapas perceptuales; por esto, puede ser clasificada como una técnica de composIción, porque proporcIOna un mapa perceptual basado en la asociación entre objetos y un conJunto de característIcas descnptIvas o atributos (Haír et al., 1995). Lagarde define el análiSIS de correspondencIas como «••• un modo de representación gráfica de las tablas de contIngencIa o, SI se prefiere, de las tablas cruzadas y múltiples. Dicho análisis trata de evidenCIar en uno o en vanos gráficos (generalmente menos de cuatro y habitualmente en uno sólo) la mayor cantidad posible de información contenida en una tabla, fijándose no en los valores absolutos, SInO en las correspondencIas entre las característIcas, es decir, en los vaJores relatIvos»' Como se desprende de estas defimclOnes, las prinCIpales característIcas del análisis de correspondencIas se resumen en: 1.
Está Incluida dentro de los métodos de InterdependencIa. Es deCIr, no eXISte distInción entre variables dependientes e independientes.
Véase Conde (1992). © EdicIOnes Pirámide
89
Técnicas de análisIs de datos en investigación de mercados
2. 3. 4.
Su objetIvo es establecer relaciones entre vanables categóricas dispuestas en una tabla de contingencIa. Trabaja con variables categóricas, es decir, no con mediciones cuantitatIvas SinO con frecuencias. Las relacíones entre las variables se analizan mediante mapas perceptuales muy intUItIvos, que perilllten no sólo reducir el número de variables que interVIenen en el análisIs, SinO estudiar las fonnas que adoptan las relaCIOnes entre las variables.
El análisis de correspondenCIas cOincide con el MDS (multidimensional scaling) en que utiliza datos cualitatIvos, y con el anáJisis factorial en su objetIvo de redUCIr el número de dimensíones para facilitar y sImplificar la interpretacIón de un fenómeno. Sin embargo, a pesar de esta estrecha relaCIón en el objetIvo perseguido, eXIste una diferenCIa fundamental: el análisIs factorial utiliza datos básicamente métricos, mIentras que el análisIs de correspondencias utiliza datos no métricos. Tanto el análisis de correspondenCIas como el MDS pueden representar, en un espacío de menor dimensión que el originalmente dado, un conjunto de datos no métricos, pero la métrIca utilizada es diferente. Mientras que en AC los datos de entrada están medidos en escalas nominales, en MDS vIenen medidos en escalas ordinales o cuantItatIvas. El hecho de que el análisIs de correspondencIas trabaje con datos cualitatIvos le confiere dos característIcas diferenCIales. Por un lado, trabaja con frecuencIas que son el producto del cruce de dos vanables o más. Por otro, cuando se cruzan dos variables, el análisis de correspondencIas utiliza como individuos y variables las distIntas modalidades. Éste es el análisis de correspondencias simple (ACS). Cuando el número de modalidades pertenece a más de dos varIables, el método puede generalizarse. Éste es el análisis de correspondencias múltiple (ACM). Con anteríoridad, el anáJisis de tablas de contingencIa se limItaba a comprobar SI existía asociación entre las varIables estudiadas con el fin de formular algún modelo causal o sImplemente para tratar de observar si eXIstía algún tipo de interrelación, a partir de diferentes tests como la ji-cuadrado (X 2 ). Pero esto no aclara nada sobre qué categorías son las que provocan esta relación y cuáles son aquellas que contribuyen poco a dicha asociacIón, El análisis de correspondencIas pennIte extraer conclusiones de este tIpo, es decIr, define similitudes y disImilitudes entre modalidades de una varIable permItIendo observar cuáles son las categorías que se encuentran relacíonadas. Además, permIte la representación en gráficos fáciles de lllterpretar que vIsualizan las relaCíones obtemdas. Por otra parte, este análisIs puede constItUIr un paso intennedio para la aplicación de otras técnicas como el análisis cluster, el análisis de regresIón o el análisis discriminante. Así, posibilita la aplicacIón a un cOllJunto de datos cualitativos obteniéndose coordenadas métricas en el espacIO que definen los factores. En fin, es un método multIvanante ellllnentemente descriptivo, una herrallllenta
90
© Ediciones Pirámide
Análisis de correspondenciaS simple y múltiple muy útil para el lllvestIgador, sobre todo en estudios de carácter exploratono donde no eXIsten hIpóteSIS definidas preVIamente.
2.
BREVE RESEÑA HISTÓRICA Los orígenes del análiSIS de correspondenCIas se remontan casi 65 años graCIas al trabajO publicado por Hartley (1935), donde se exponía la fórmula que calculaba la correlación entre filas y columnas de una tabla de contlllgencIa. En la década de los trelllta existen también otros trabajos que sugerían ideas SImilares a las de Hartley en el campo de la pSIcometría. En este sentido son de destacar los trabajos de Richardson y Kuder (1933) y Horst (1935). Más tarde, Fisher (1940) desarrolló la mIsma teoría a partIr del análiSIS discnmlllante, utilizando un ejemplo basado en el color del pelo y de los ojos que es cláSICO en los manuales de análiSIS de correspondenCIas. Al mIsmo tIempo, Guttman (1941) trató el caso general de más de dos variables InIciando los pnmeros pasos de 10 que hoy se conoce con el nombre de análiSIS de correspondencIas múltIples. La década de los cincuenta supuso un fuerte Impulso para el desarrollo matemátIco del análiSIS de correspondencias. Además de los trabajOS de Guttman y sus seguidores en el campo de la pSlcometría, aparecen los trabajOS de Hayashi (1950, 1952, 1954, 1968). El desarrollo de los ordenadores supuso también un fuerte empujón para el conocImIento de la téCnIca, ya que todos los procedimIentos matemátIcos desarrolladOS hasta el momento tuvIeron una aplicación lllmediata. Sin embargo, el AC no era tan cOJlocido fuera del campo de la pSIcometría. Fue a partIr del trabajO de Hill(1974) cuando la popularidad de esta téCnIca aumentó. Hill la catalogó como una técnIca multivarJante descuidada. El desarrollo geométrico del análiSIS de correspondencIas tuvo lugar durante la década de los setenta con los trabajos de Benzécn y sus colaboradores. Las aportacIOnes teóncas de Benzécri 2 facilitaron su conocImIento generalizado. Entre tales aportacIOnes destacan: 1.
2. 3.
Su planteamiento lllductIvo, desde lo particular a lo general. Esto permite formular uno de los pnnciplOs de Benzécn: «El modelo se ajusta a los datos, no viceversa». Uso de la geometría para lllterpretar mediante gráficos sencillos la información. RazonamIento matemático nguroso y exhaustIvo en la expresión de las funcIOnes y características de los operadores y operandos.
2 Junto al trabajo de Benzécn. son destacables las obras de Lebar!. Morineau y Tabard (1977) y Lebar!, Morineau y Warwlck (1984), entre otras. Para más detalle sobre la histona del AC véase Mallows and Tukey (1982), Gifi (1981) Y Greenacre (1984).
© EdiclOnes Pirámide
91
Técnicas de análisis de datos en investigación de mercados
3.
ANÁLISIS DE CORRESPONDENCIAS SIMPLE (ACS) 3.1.
Consideraciones generales
El análisIs de correspondencIas sImple parte de una tabla de contmgencIa que contiene dos varIables. con sus diversas modalidades, y cada casilla recoge la frecuenCIa en que se presentan. A partIr de aquí trata de hacer algo parecido al análiSIS de componentes principales, considerando a las filas como los mdividuos y a las columnas como las variables. Aunque SI se cambIan las filas por las columnas en la tabla de contmgencIa la mformación permanece malterada. Igual que el análisIs de componentes princIpales, el ACS trata de explicar la dispersión de la,matriz de varianzas-covarianzas (aunque en este caso se denomina matriz de mercia) a través de un número menor de varIables (factores), pero este análiSIS debe realizarse tanto para las filas como para las columnas. Por tanto, y es una partIcularidad de la técmca, se tienen que llevar a cabo dos análisIs de componentes principales, uno para eL espacIO que definen las filas y otro para el espacio que definen las columnas. En muchos estudios es frecuente que el investIgador precIse utilizar sImultáneamente variables medidas tanto en escalas no métrIcas como métricas. En tal caso. resulta mteresante transformar las variables métricas en otras que no lo sean. De este modo, todas las variables estarían medidas en la mIsma escala (no métrica) y sería posible operar con ellas conjuntamente aplicando ACS o ACM. Un dilema a resolver es establecer el número de clases elegidas y los mtervalos de VarIación de cada clase. El número de clases a defimr siempre resulta polémico. ya que SI es muy reducido hace que se pIerda mucha mformación; además, se agruparían en una ll11sma clase mdividuos posiblemente muy heterogéneos, por lo que las conclusiones serán muy generales. Por el contrarIo, un número de clases muy amplio no está exento de problemas. ya que complica la mterpretación. Tampoco para definir los mtervalos hay reglas fijas a segUIr. Una regla práctica de gran aceptación conSIste en defimr clases que contengan parecido número de efectIvos más que clases con igual intervalo de varIación.
3.2.
Formulación del ACS
Sea una tabla de contingencia (tabla 3.1) donde están representadas las varIables 1, con n categorías, y J, con p, donde la mtersección de una fila y una columna es la frecuencIa con que se presenta la modalidad i de la varIable 1 y la modalidad J de la variable 1. A esta matriZ de frecuencIas la denoll11naremos matriZ K.
92
© Ediciones Pirámide
Análisis de correspondenczas simple y múltiple TABLA 3.1 Matriz de frecuencias absolutas (K)
k ,.
Total col.
k,.J
k
donde
k·1. = ~ k .. ~ IJ J
k..} =
~ L..J
k1)
Es evidente que los valores absolutos no perrmten comparar a dos filas o a dos columnas. Por tanto, nos mteresa expresar la matrrz K en térrmnos relatIvos, dividiendo cada una de las frecuencIas absolutas entre el total de las filas o de las columnas (k). Obtenemos así la matriz de frecuencIas relatIvas (F) (tabla 3.2). TABLA 3.2 Matriz de frecuencias relativas (F) Total fIla
Total col.
© Ediciones Pirámide
12
l
93
Técn¡cas de análisis de datos en investigación de mercados
donde k fu =
¡
k.
~
f,=t=,L,fu ,
If, = ~J = LJL ~ ~ f,. = 1 1.
~.) J
1]
,
J
La suma de las frecuencIas relativas para cada fila nos permIte obtener la frecuencia margInal de cada fila f,,, mientras que la suma para cada columna permIte obtener la frecuencia marginal de cada columna Jr Por otra parte, la ley condicIOnal de una columna j será la forma en que se distribuye su margInal Jj entre las diferentes filas, es decIr, un vector columna que contIene los coefiCIentes f,/f)' Éstas representan cómo se distribuyen las proporciones en que se presentan las característIcas definidas por las filas dada la característica definida por la columna J. A este vector se le denomina «perfil de la columna». Un razonamIento smular podría hacerse para el caso de las filas,
3.2.1.
Distancias entre filas y columnas
El carácter cualitatIvo de las varIables obliga a usar una distancIa distInta a la euclídea. En nuestro caso, para medir la distancIa entre dos filas o entre dos columnas se recurre a la denomInada distancIa Xl. En realidad es una distanCIa euclídea ponderada por la masa de las columnas en caso de que estemos midiendo la distanCIa entre dos filas o ponderada por la masa de las filas en caso de que estemos mIdiendo la distanCIa entre dos colunmas. Se demuestra que con esa ponderación al sumar filas o columnas proporCIOnales, o con perfil SImilar, la distanCIa queda inalterada (pnnciplO de eqUIvalenCIa distribuclOnal). La expresión de la distanCIa entre dos filas , e i' es Igual a: (1)
Paralelamente, la distancia entre dos columnas j y j' se obtiene aplicando la SIguiente expresión: (2)
94
© EdiCIOnes Pirámide
Análisis de correspondencias simple y múltiple
Las distancias no se miden entre dos filas o entre dos columnas, smo que vIenen expresadas con respecto al centro de gravedad definido en cada fila o en cada columna. El centro de gravedad de una fila vIene dado por la masa de la columna if.), mIentras que para una columna es la masa de una fila (J;). Así, el centro de gravedad para una columna podemos defirnr!o como el promedio de las coordenadas de esa columna ponderadas por su masa. Es un vector formado por puntos del tipo:
(3)
La distanCIa de cada columna y de cada fila al centro de gravedad se expresa como sigue:
y
3.2.2.
Inercia de las filas y las columnas
Hasta ahora sabemos medir la distancia de una fila o una columna al centro de gravedad. esto es, a su «media». Sin embargo, esto no es más que parte del cálculo de una vananza o una covananza. Así. en el caso de la varianza, cada diferencIa entre un punto y su media está elevada al cuadrado y está ponderada de la mIsma forma (IIn). En el cálculo de la covananza cada diferencIa entre un punto y el centro de gravedad está ponderada por lln. No obstante, en este último caso la diferencIa entre cada punto y el centro de gravedad no está elevada al cuadrado. Ahora bien, en el ACS las filas o las columnas no reciben la rmsma ponderación. Benzécn aSIgna unas ponderacIOnes que son Iguales a las masas de cada fila o de cada columna. En defirntiva, la dispersión o merCIa de las columnas es la suma de las diferencias de cada punto respecto del centro de gravedad ponderadas por la masa de cada fila. Esto se expresa de la sIgUIente forma:
I=" f.d 2 (,G)=" fI~(fij _t)2 =I(fij-t.Xf¡? '"-'.} J e '"-'.} "f" "xf.J J Ji. . .J Ji. j '
© EdiCIOnes Pirámide
(6)
i,j
95
Técnicas de análisIs de datos en investigación de mercados Análogamente, la dispersIón o merCla de cada fila es la suma de las diferencIas de cada punto respecto de este centro de gravedad ponderadas por la masa de cada columna. Esto es:
1 = L. f,d2(i,G ) = ."
f
L1, ~ -.l. (fij _ f .)2 = L. (fij - ¡; x ¡y ."'¿'" J
f _/
+. Ji.
.J
, • >./
+. x f .J Ji.
(7)
Por tanto, la suma de la merCIa de las filas es Igual a la suma de la merda de las columnas. La matríz de dispersión o matríz de mercla tanto para las columnas como para las filas se expresa como sIgue: para el espacIO que definen los puntos i en RP para el espacIO que definen los puntos) en R"
(8) (9)
donde X es la matnz cuyo ténmno general es:
(10)
Las matnces antenores sQn simétrícas. Al diagonalizar una matrIz sImétrIca, la suma de los autovalores es la traza de la matrIz (V). Recordemos que la traza de la matrIz V viene dada por las varIanzas de las columnas o de las filas, y que la suma de ellas es la mercla o dispersión que tratamos de explicar a través del nuevo espaCIO. En conclusión, los autovalores indican qué parte de esa dispersión vIene explicada por cada dimenSIón (factor) en el nuevo espado. Éste será el próxImo paso. No obstante, antes de esto veamos la reladón que existe entre el estadístIco X2 y la merCIa. De las expresIOnes 6 y 7 se deduce que la mercla de una tabla es Igual al estadístico X2 dividido entre el número de mdividuos encuestados (k). Además, el cocIente entre la contribudón de cada casilla al estadístIco X2 y el número de mdividuos encuestados (k) es Igual a cada uno de los sumandos en el cálculo de la merCIa.
3,2.3.
Diagonalización de las matrices Ve y VF
Obtenidas las matnces de merda para las columnas y para las fIlas, el sIguiente . paso es calcular sus valores y vectores propIOS. Para el espacIO de p dimenSIOnes que definen los puntos fila, es necesarIO diagonalizar la matrIz V p obteniendo sus valores y vectores propIOS que penmtuán calcu-
96
© Ediciones Pirámide
Análisis de correspondencias simple y múltiple
lar las coordenadas de los puntos 1 en RP Estas coordenadas tendrán la sIgUIente expresión:
(11)
donde uc<¡ SImboliza a los vectores propios de VF. Para obtener las coordenadas de los puntos} en el espacio de n dimensIOnes que definen, es necesano calcular los valores y vectores propIOS de la matriz Vc. Así, las coordenadas de los puntos} en R n tendrán la sIgUIente expresión:
(12)
donde vc<' son los vectores propios de Ve' A través de las expresIOnes 11 y 12 obtenemos las coordenadas estandanzadas de las filas y columnas (row and colurnn profiles). ASImIsmo, existen otras formas de expresar las coordenadas antenores:
© Ediciones Pirámide
1.
Coordenadas estandarIzadas de las filas (row profiles). Son Iguales a las que se obtIenen aplicando la expresión 11, pero las coordenadas de las columnas se obtIenen dividiendo las coordenadas de la expresión 12 entre los valores smgulares o raíces cuadradas de los valores propIOS en cada factor. Esta forma de expresar las coordenadas es válida úmcamente cuando queremos mterpretar las filas. Las columnas no deben ser mterpretadas como advIerten algunos programas de ordenador (STATISTICA).
2.
Coordenadas estandanzadas de las columnas (colurnn profiles). Las coordenadas de las columnas son las que se obtIenen aplicando la expresión 12, pero las coordenadas de las filas se obtIenen dividiendo los valores obtemdos con la expresión 11 y los valores singulares de cada factor. Esta fonna de expresar las coordenadas sólo es válida cuando deseemos mterpretar las columnas. Las posicIOnes de las filas no deben ser interpretadas.
3.
Estandanzación canónica. En este caso las coordenadas de las filas y columnas se dividen entre la raíz cuadrada de los valores singulares. La estandarIzación canómca no es usada frecuentemente por los investIgadores aunque los programas de ordenador como SPSS o STATISTICA proporcionan dicha opción.
97
Técnicas de análisis de datos en investigación de mercados
3.2.4.
Relación entre los dos espacios y relaciones baricéntricas
El análisIs general de las matríces VF Y Ve muestra que tienen los mismos valores propios no nulos y que eXIste una relación entre los vectores propIOS que puede expresarse del sigUIente modo: y
(13)
donde 'Aa representa el valor propIO aSOCIado al factor ex. Si sustitUImos las expresIOnes de X y X' en las funcIOnes antenores obtenemos que:
y
G ( ') = a J
rrv
'\j "a o;¡
{T;
(14)
Finalmente, SI se toma el valor de v ai Y de u ai que se denva de las expresIOnes antenores y lo sustItUImos en las expresIOnes (l!) y (12) obtenemos que:
(15.a)
y
(l5.b)
Esto significa que la proyección de los puntos i sobre el espacIO formado por los factores es Igual a la proyección de los puntos j ponderados por un coeficIente 1¡jI1;., que es el peso que tiene cada fila, y por un coeficIente que es la raíz del autovalor. Para el caso de las proyeccIOnes de los puntos J cabría hacer los mismos comentanos. También se ve cómo las coordenadas de los puntos í sobre el eje ex son Iguales al baricentro o centro de gravedad de las coordenadas de los puntos J sobre el mIsmo eje, salvo en un coeficiente de dilataCIón igual a
~. '\j
Aa
Esta relación doblemente bancéntríca penmte demostrar que los autovalores en el análiSIS de correspondencias son inferiores a la unidad. Dicho de otro modo, el
98
© EdiCIOnes Pirámide
AnálisIs de correspondencias simple y múltiple coeficiente de dilatación debe ser supenor a la unidad, ya que en caso contrano el espacIO definido por los puntos 1 estaría contenido en el definido por los puntos J según la expresión l5.a y al revés SI mIramos la expresión l5.b. Este razonamIento lleva a un «absurdo» y, por tanto, debemos conclUIr que el coeficiente de dilatación debe ser mayor que la unidad.
3.2.5.
Reconstrucción de la tabla de frecuencias
También es posible reconstruir la tabla de frecuencIas onginal a partlr de los factores que hemos obtenido de las matnces VF y Ve- Para ello tenemos que elegIr todos los factores y aplicar la sigUIente expresión:
(16)
3.2.6.
Puntos suplementarios
Hay ocasIones en las cuales eXIsten columnas y filas adicIonales que no forman parte de los datos iniCIales pero que son útiles para interpretar aspectos encubiertos de los nusmos. CualqUIer fila (o columna) adicIOnal de una matnz de datos puede POSIcionarse sobre un mapa eXIstente. mientras que el perfil de esta fila (o columna) sea comparable a los perfiles de las filas (o las columnas) que han detenninado el mapa. Por ahora todas las filas y todas las columnas de una tabla de datos se han usado para determinar los ejes y de aquí el mapa. Sin embargo, eXIsten situacIOnes en las interesa elinunar puntos y los ejes se calculan sin que hayan intervenido estos puntos en la formación de los gráficos finales. Habría que pensar que talb-puntos tlenen una pOSIción pero no tlenen masa. Por tanto, su contribución a la inercia sería cero. Tales puntos se llaman puntos suplementanos (o puntos paSIVOS), a diferencIa de los puntos actlvos usuales que tlenen masa posltlva. El uso de puntos suplementanos es útil para: 1.
2.
3.
4. © Ediciones Pirámide
Representar algunas filas o columnas, en especial cuando su número es demaSIado grande. Mostrar grupos distintos de individuos o variables de naturaleza diferente a las analizadas, por ejemplo, al considerar consumidores habituales y no habituales, o la suma de dos filas o dos columnas, etc. Visualizar elementos que perturbaban un análisis antenor y no permitían una interpretación clara de los ejes por ser muy diferentes o tener un gran peso (outliers o puntos aberrantes). Ennquecer el análisis con nuevas variables que faciliten la interpretación.
99
Técnicas de análisis de datos en investigación de mercados
Para proyectar fIlas suplementanas basta aplicar la siguiente expresión: (17)
y para posicIOnar columnas suplementanas: (18)
No hay que olvidar que aunque los puntos suplementanos tIenen una posicíón en el mapa, no contribuyen nada a la formación de éste. Entonces es lógico que su contribución absoluta sea cero. Sin embargo, es posible calcular la calidad de la representación de la fila o columna suplementana, así como su contribución relatIva.
3.2.7.
Calidad de la representación de cada fila o columna
Supongamos que una determlllada tabla de contingencía puede representarse con tres factores. Ello qUIere decIr que SI tomamos estos tres factores no perdemos mnguna lllformación o lllerCIa y, por tanto, la representación de una fila o columna es «perfecta». En efecto, se demuestra que la lllercía también se calcula a través de la sIgUIente expresión: para las filas (19) e ¡nema =
¿ 17 2 (j) X JJ
para las columnas (20)
J
donde 172( i) es la distancia de una fila al centro de coordenadas definido por los factores y 172(j) es la distancIa de una columna al centro de coordenadas definido por los factores. Esta distancia se calcula de la sigUIente forma: 172(i) = ¿[Coordenada (i) en el factor
af
para las filas (21)
a
y
172(j) = ¿[Coordenada (j) en el factor
af
para las columnas (22)
a
100
© EdicIones Pirámide
Análisis de correspondenCIas simple y múltiple Vemos como la mercla en el espacIO mlclal de las filas o columnas se obtlene utilizando las distancIas X2, pero al pasar al espacIO de los factores las distancIas a utilizar son las euclídeas. Ésta es una de las característlcas del análisis de correspondenCIas; es decIr, a partlr de datos cualitallvos hemos pasado a un espacIO donde las coordenadas representan mediciones cuantllallvas. Ahora bIen, SI tomamos úmcamente dos factores, entonces deja de estar representada una parte de la inercIa. Pues bIen, al cocIente entre la mercla de cada fila si se toma un número de factores menor y la inercIa de cada fila tomando todos los factores se conoce con el nombre de calidad de la representación de cada fila. Este cocIente expresa la parte de la mercla de cada fila o columna que es explicada con los factores elegidos. ComentarlOs SImilares cabe hacer para las columnas.
3.2,8.
Contribuciones absolutas y relativas
Las contribUCIOnes sIrven para mterpretar los ejes. La contribución absoluta se define como la proporción de la inercia explicada por un factor debida a una fila o una columna. Para su obtención basta calcular la mercla que explica un determinado factor, es decIr, el autovalor aSOCIado al factor a (A,,) y la inercia explicada por una fila o una columna (expresIOnes 19 y 20, ya que la mercla total es la suma de las merclas de las filas o de las columnas). En resumen, la contribución absoluta se calcula: CTA" (i) =
f;F; (i) A"
= lnercia(i)
lnercia(a)
(23)
Dado que la contribución absoluta de una fila o columna es un porcentaje de la mercla que explica un factor, la suma de las contribUCIones absolutas para todas las filas o todas las columnas en un determinado factor debe ser 1 y depende no sólo de la distanCIa a la que se encuentre el punto, sino también de su peso o ponderación. La contribución relativa expresa la contribución de un factor en la explicación de la fila o la columna. Su expresión es: CTR (i) "
=
F; (i) 2
d (i, G f )
= Distancia de la fila (i) en el factor al origen de coordenadas Distancia total de la fila (i) al ongen de coordenadas
(24)
La contribución relallva es un porcentaje de la distanCIa que separa a una fila o columna en cada uno de los factores. Mide la calidad de representación de la fila o la columna sobre el factor a. La suma de la contribución relallva para cada uno de los factores es Igual a la unidad. © EdicIOnes Pirámide
101
Técnicas de análisis de datos en Investigación de mercados Las filas o las columnas tendrán mayor contribución relativa en un factor a medida que ese factor sea el responsable de la distancIa que separa a la mIsma del ongen de coordenadas. Mientras las contribuclOnes absolutas penruten saber qué vanables son las responsables de la construccIón del eje. las contribuclOnes relatívas muestran cuáles son las características excluslVas de ese factor.
3.3.
Interpretación del análisis de correspondencias
Para lllterpretar correctamente los ejes en un análisIs de correspondencías es necesarío identíficar aquellas filas (o columnas) que mayor partIcIpación tíenen en la formacíón del eje, es decír. que poseen una mayor contribución absoluta. Se examina así el conjunto de puntos que totalizan un determlllado porcentaje en la formación del eje (por ejemplo. el 50%). Asimismo, buscaremos aquellos puntos que están bien representados en los factores, es decIr, aquellos que llenen una alta contribución relativa. y analizaremos sus coordenadas. La lllterpretación del factor se facilita cuando a los puntos con coordenadas posItivas se oponen puntos con coordenadas negallvas. Las categorías pertenecIentes a las filas que estén cerca del origen de coordenadas tienen un perfil muy parecido a la «media», ya que el ongen de coordenadas está formado por el baricentro o centro de gravedad de los perfiles fila. Lo mIsmo sucede para las categorías columna. Si dos filas (columnas) tienen un perfil semejante su sItuación será prÓXIma en el plano y tal vez podrían reunirse en una sola graCIas al pnnclplO de equivalencía distribucional enuncIado anteriormente. Sin embargo. lo contrano no es CIerto ya que depende de la calidad de la representación de esos puntos;
3.3.1.
Elección del número de ejes
Como ocurre en análiSIS factonal. en la elección del número de factores no eXISten reglas fijas. No obstante, suele ser habItual segUlr los siguientes criteríos: -
3
102
ElegIr un número de factores que expliquen un porcentaje «suficiente» de la lllformación para el lllvestígador. No retener nlllgún factor que no explique más de 100/p de la disperSIón. o bIen, no considerar nlllgún factor que no explique más de 100/(P - 1) 3 Otra regla para elegir el número de factores a retener es la que se conoce como descomposlcíón aditíva de la X2 (Cuadras. 1991). Para ello es necesa-
Donde p es el número de filas o columnas de la tabla de frecuencias. © EdiCiOnes Pirámide
Análisis de correspondenelas sImple y múltiple rio calcular el estadístico X2 y descomponerlo según el porcentaje de la mercia que explique cada factor. Entonces puede demostrarse que estos coeficientes sIguen una ji-dos con p + q - 2i + 1 g.d.l., sIendo p el número de columnas, q el número de filas e i el subíndice el autovalor A;. Este último término (i) conuenza con el valor dos ya que se toma como primer autovalor el trIvIal; esto es, Al = O. Lo antenor no debe constitUIr una limitación, ya que a menudo factores que tienen valores propIOs pequeños ayudan a descubnr aspectos difíciles de aprecIar en una tabla de datos. Además, como señala Escofier y Page (1988), los cntenos basados en la mercia (u otros sImilares) no permiten prejuzgar el mterés de los factores, sino que esto depende de elementos exteriores a los datos (objetivos del análisIs, grado de conocimIento del problema estudiado...). Por tanto, sería perjudicIal rechazar, sólo por cntenos estadísticos, un factor que se sabe mterpretar y vIceversa.
3.3.2.
Representación simultánea de las filas y las columnas
Es uno de los temas más controvertidos en el análisIs de correspondencIas. De la literatura al respecto, destacamos dos posturas. La diferencia fundamental entre ambas se refiere al tipo de escala que hay que usar para interpretar las distancIas entre filas y columnas. Una, la de Greenacre (1993) y Hoffman, De Leeuw y Arjunji (1994), defiende que la mterpretaciónde las correspondencIas entre filas y columnas debe partir de la construcción de un mapa aSlmétnco. Otra, la de Carroll, Green y Schaffer (1986; 1987), postula que las distancias entre filas y columnas son comparables SI, partiendo de un mapa SImétrico, se realizan algunas transformacIOnes. La mayoría de los paquetes estadísticos muestran en sus «salidas» mapas que se denomman SImétrICOS y que denvan de las expresiones 11-12. perrmtiendo vIsualizar mejor las posIciones de las filas y de las columnas para llevar a cabo una interpretación de los ejes4 Los mapas asimétricos utilizan una escala ligeramente diferente ya que estandarizan las coordenadas de las filas (row profiles) o las de las columnas (column profiles), pero no ambas sImultáneamente como hacen los mapas simétncos 5 4 Pero hay un precIO que pagar por la convemencia 'de un mapa SImétrico que radica en el peligro de interpretar las distancias fila-columna directamente. Desafortunadamente no es posible deducir por la cercanía de una fila y una columna que la columna y la fila correspondientes están altamente asoCIados en los datos. Una regia de oro interpretando mapas de este tipo es que las distanCIas entre puntos pueden interpretarse cuando los puntos en cuestión estén en el mismo espacio. Cuando se mterpreta un mapa SImétrico debe tenerse SIempre en mente que éstos son una «unión» de dos mapas diferentes (Greenacre. 1993). 5 Para un mayor detalle véase el apartado relativo al cálculO de las coordenadas en este mIsmo capítulo. © EdicIones Pirámide
103
Técnicas de aná/isls de datos en investigación de mercados Por otro lado hay autores que argumentan que las correspondencIas entre filas y columnas pueden derívarse de un mapa slmétnco, no a través de su distancia geométnca, sino a través de su poslcíón relatIva respecto de los factores; es deCIr, por el ángulo formado por sus direcciones desde el ongen: dos categorías en la mIsma dirección (ángulo O) tendrían una máxIma correspondencia (Carrasco et al., 1993). Si el ángulo entre los puntos es agudo « 90°) entonces se dice que los puntos están correlacionados. Esta correlacIón aumenta cuanto más pequeño es el ángulo, llegando a ser máxima cuando es Igual a 0 0 Por el contrano. SI el ángulo es obtuso entonces los puntos están negatIvamente correlacionados. Esta correlación se incrementa cuanto más abIerto es el ángulo que fonnan los puntos y llega a ser máxIma cuando alcanza 1800 Por últImo. SI se trata de un ángulo recto. los puntos comparados no interactúan. Dejando al margen este debate. lo cierto es que la representación sImultánea de filas y columnas es uno de los aspectos más interesantes de la técmca a efectos de su aplicacíón práctIca, por lo que facilita la comprensión de fenómenos estudiados.
3.3.3.
Formas especiales del ACS
Se ha cntIcado al ACS por ofrecer resultados tnvIales que saltan a la vIsta si observamos la tabla de frecuencIas y hacemos unos pocos cálculos. pero en muchos casos esto es consecuencIa de una defiCIente aplicación. Para obtener un mejor aprovechamiento en la aplicación y evItar obviedades es convemente exammar las formas de los gráficos (figura 3.1): Dos grupos de puntos (figura 3.la). Este caso es interesante porque pone de manifiesto la existencia de dos tablas que pueden ser analizadas de forma separada. La pnmera formada por las categorías a la Izquierda del eje de abscisas y la segunda por las categorías situadas a la derecha. Análogos comentarIOS podría hacerse si los grupos de puntos estuviesen sItuados por encima y por debajO del eje de ordenadas. Tres grupos de puntos (figura 3.1b). Este supuesto es SImilar al anteríor pero ahora la tabla puede descomponerse en tres subtablas que pueden ser analizadas de fonna separada. Efecto Guttmann, herradura o arco. El efecto Guttmann aparece sobretodo cuando tratamos con vanables categóncas pero que tIenen un cIerto orden. Ejemplos de lo que comentamos son la edad, los mgresos, los años de una sene cronológIca, etc. Se denomma también efecto herradura o efecto arco porque tIene la forma de una parábola. Así, en el caso del efecto Guttmann cláSICO, es deCIr, sm deSVIaCIOnes (e), el pnmer eje suele ser un factor de dimensión o escala, mIentras que el segundo eje separa a los valores extremos de los valores medios. Si algún punto se sale de esta parábola nos está indicando que tíene un comportamIento diferenciado que debe ser mterpretado por el investIgador (d).
104
© EdiCIOnes Pirámide
Análisis de correspondencias simple y múltiple
o o 00 o o
0 0
o
°0
o
0"0
o
a
o
o
o
o
o o
o
o
o o
o o
o o
o
o
o
o
e
o
o
o
o
d
Adaptado de Conde (1992).
Figura 3.1.
3.3.4.
o 00 o o o
b
o
FUENTE:
000
o o
o o
00
Ejemplos de sItuacIOnes en ACS.
Estabilidad interna y externa
Estabilidad interna
En ocasiones eXisten puntos (filas o columnas) aberrantes u outliers. Su efecto en los gráficos es que concentra mucho los restantes puntos dificultando de esta forma la mterpretación de los mismos. Además su elimmación cambia de forma importante la onentación de los ejes. Tal situación amenaza la estabilidad mterna, que está relacionada con la propia estructura de los datos que contiene la tabla analizada. Es importante comprobar la estabilidad interna, ya que, de lo contrano, podríamos estar alcanzando conclusiones erróneas en la mterpretación de los ejes. EXisten tres modalidades de estabilidad interna (figura 3.2) atendiendo a la mcidencia de un punto outlier (Greenacre, 1984): Estabilidad interna de los ejes. cuando un punto contribuye de forma importante a la formación de un eje. Estos puntos son claramente distmguibles porque suelen tener unas altas coordenadas y también altas contribuciones absolutas Estabilidad mterna en el plano, cuando existe un punto que tiene unas altas coordenadas y contribución en el plano generalmente formado por los dos pnmeros ejes. © Ediciones Pirámide
105
Técnicas de análisis de datos en investigación de mercados Estabilidad mterna cuando un punto tiene unas coordenadas y contribución absoluta elevada en el espacI{) formado por los tres pnmeros ejes.
Punto que permanece en un eje pnnclpal
Punto que permanece en el piano pnnclpal
Punto que permanece fuera del plano pnnclpal
FUENTE: Adaptado de Greenacre (1984)
Figura 3.2.
SituacIOnes de los outliers en el eje, plano y espacIO prIncIpal.
Para detectar el efecto de puntos outliers es necesano Ir elimmándolos uno por uno, repetir el análisIs y ver el efecto que tiene cada uno en la onentación de los ejes, que puede ser: Tanto el plano como los ejes princIpales permanecen estables. Esto quiere decir que tanto la mterpretación del plano como de los ejes no se modifica sensiblemente y los factores sIguen conservando el mIsmo sIgnificado que antes de eliminar el punto. El plano permanece estable pero tanto el eje 1 como el 2 cambIan de onentación mtercambiándose. Entonces existe una alta estabilidad del plano peto no de los ejes. El plano permanece parCIalmente estable ya que, por ejemplo, el eje 1 permanece estable pero el eje 2 cambIa de orientación mtercambiándose con el eje 3.
106
© EdicIones Pirámide
Análisis de correspondencias simple y múltiple El plano es totalmente inestable porque los ejes alcanzan una nueva orientación. La eliminación de un punto supone, por un lado, la pérdida de mercla del punto sobre el nuevo espacIO y, por otro, como consecuenCIa de lo antenor, se produce una variación del centroide que cambIaría la onentación de los ejes o, dicho de otra forma, su posIción en el nuevo espaci06 Para un mayor detalle sobre este aspecto véase anexo al final de capítulo. Estabilidad externa (bootstrapping) Sólo en el caso en que los datos analizados procedan de una muestra aleatona es posible hablar de estabilidad externa, que tiene que ver con el rango de variación de un punto en un mapa del ACS. Si el rango de variación de un punto es muy amplio, entonces se dice que este punto es mestable. Lo contrarIO también es cIerto: SI un punto tiene un rango de varIación pequeño se dice que es estable externamente. Cuando esto ocurre las conclusIOnes son generalizables a la población. Un método para obtener la precIsión de un estimador, y por tanto para evaluar la estabilidad externa, es el bootstrap. Su principal ventaja es que proporcIOna una respuesta rápida en problemas de difícil tratarmento, pero a cambIO requiere de un gran número de cálcUlos que serían demasIado tediosos a no ser por el desarrollo de los programas de ordenador. Consiste en obtener y analizar réplicas de la muestra considerada, Por ejemplo, SI se dispone de una muestra de 100 individuos, la estabilidad externa se verifica tomando muestras de 100 procedentes de la población y realizando el análisIs para cada una de ellas. Si esta operación se realiza n veces, se obtIene un mapa donde cada punto aparece representado n veces. Si ummos los puntos más alejados se obtiene una fonna convexa (convex hull) que, según el tamaño, nos mdicará SI el punto considerado es externamente estable o no. A pesar de todo, lo cierto es que a menudo no se dispone de los datos de los mdividuos pertenecIentes a toda la población7 , por lo que la forma de operar mencIOnada es difícil de llevar a la práctica. Una forma de solventar esta limItación consIste en fijar como población la muestra onginal y aplicar el método de Montecarlo para Ir extrayendo muestras, Si la muestra es de tamaño k entonces se extraen muestras con reemplazamIento de este mIsmo tamaño. Una vez que se han extraído n muestras se lleva a cabo un ACS sobre cada una de ellas, Concluida la etapa antenor, se representan en un mIsmo plano los resultados obtenidos y se trazan las fonnas convexas. Si un punto tiene 6 Escofier y Le Roux (1976) señalan que si la vanación de los ejes es menor de 45' (4) < 45') entonces los ejes antIguos y los nuevos están muy correlacIOnados y no se puede hablar de que sean inestables. El máximo grado de estabilidad ocurre cuando los ejes permanecen en la IDlsma posición y, por tanto, el ángulo 4> es igual a O. De forma análoga, el máXImo grado de mestabilidad se produce cuando 4> ~ 90' Y eXIste una zona borrosa donde el grado de mestabilidad va crecIendo (4) ~ 45'). 7 Si los datos relativos a la población se disponen, es preferible analizar esta última y no una mues-
tra representativa. © EdiCIOnes Pirámide
107
Técnicas de análisis de datos en investigación de mercados una forma convexa muy amplia se dice que este punto es Inestable y que, por tanto, sus conclusiones no se hacen con un alto grado de confianza. De forma análoga, puntos con formas convexas más reducidas Implican un menor grado de variación y sus conclusIOnes pueden tomarse con mayor confianza. Otra forma de obtener las figuras convexas es representando los resultados de cada SimulaCión como puntos suplementanos que, como sabemos, pueden representarse en el mapa de datos ongmal sin que intervengan en la formación de los ejes (Greenacre, 1993).
3.3.5.
Tratamíento de los datos desaparecidos (missing data)
Uno de los problemas más comunes en el tratamiento de cueshonarlOs son los datos ausentes o mlssing data, que Inciden de forma Importante en la determmación de los factores, las coordenadas de las variables, las contribUCIOnes, etc. La forma de tratar los mlsszng data depende pnnclpalmente de tres factores (Escofier y Page, 1988): , 1. El porcentaje de Individuos con respuestas ausentes. 2. El significado que tiene esta «no-respuesta» 3. El papel que interprete la vanable en el análisis (vanable activa o suplementaria). Si las variables Intervienen como suplementarias, entonces los missing data no son un problema especialmente Importante. Caben dos soluciones: crear una nueva modalidad en las variables que contemple la «no-respuesta» y representar gráficamente, o bien representar la tabla disyuntiva Incompleta, es decir, las variables sin crear esta nueva modalidad. La utilización de una u otra alternatJva depende báSicamente del Significado que tenga la «no-respuesta». Así, en algunos estudios es Interesante analizar el porqué de que no se dé respuesta a determInadas cuestIOnes. También es posible que sea la consecuencia de no haber previsto en el cuestlOnano otras alternatJvas. Para los missmg data en las vanables activas es posible utilizar las sigUientes solucIOnes: 1.
108
Crear una modalidad de «no-respuesta» en las variables que contengan missing data. Esta alternativa reqUiere dos condiCIOnes. En primer lugar que la «no-respuesta» sea la consecuenCia de no saber la respuesta, de que el cueshonarlo no contempló determInadas alternahvas o bien porque se rehusó a la respuesta de forma voluntaria por parte del entrevistado. La segunda condición consiste en que el porcentaje de <
Análisis de correspondenczas simple y múltiple 2.
Supnmir a los mdividuos cuyas respuestas al cuestlOnario son incompletas. Esta alternativa es válida cuando eXisten pocos efectivos con respuestas mcompletas, ya que de lo contrario la mfonnación perdida puede ser significativa.
3.
ASignar aleatoriamente respuestas a las cuestiones desconocidas. Esta solución es poco aconsejable, sobretodo cuando el número de efectivos con respuestas mcompletas es demasiado elevado. Además, posee el inconveniente de que desvirtúa y falsea los datos. EXiste aún una cuarta solución, pero ésta es solamente aplicable al caso del análisis de correspondencias múltiple. Consiste en aplicar un análisis de correspondencias múltiple adaptado al caso de datos ausentes, es decir, en sustituir la margmal real por una marginal teónca allí donde intervenga (perfil y peso de las filas, métnca y ongen de los ejes de la nube de puntos, etc.). Esta variante permite que se cumpla una de las condiclOnes fundamentales del ACM, a saber: la margmal de los individuos es constante.
4.
3,3.6,
ValoraCiones y desdoblamientos (ratings and doubling)
En muchas mvestigaclOnes sociales es frecuente medir conceptos como las actitudes, las preferencias, la calidad o el nesgo percibido a través de escalas tipo Likert, donde el encuestado debe mostrar su grado de acuerdo o desacuerdo respecto a las afinnaclOnes que se proponen. En tales SltuaClOnes se pueden tratar este tipo de datos con el ACS, pese a no ser frecuencias, con alguna modificación conocida como desdoblamiento (doubling). Para aclarar lo antenor imaginemos que se tienen datos relativos a la opmión de 200 encuestados sobre algunas marcas de leche. Esta opmión se ha medido en una escala «tipo Likert» de cmco elementos donde I mdica que el entrevistado se muestra muy en desacuerdo con la afinnación propuesta y 5 mdica que se muestra muy de acuerdo. La mfonnación antenor puede resumirse en una tabla de doble entrada donde las filas indican los atributos considerados (sabor, color, calidad, precio, relación con el distribmdor, etc.), mientras que las columnas están fonnadas por las distintas marcas de leche. De la misma forma, el cuerpo central de la tabla estaría formado por las medias de las puntuaclOnes que los mdividuos han otorgado a un determinado atributo y para una detennmada marca (tabla 3.3). El tratamiento directo de los datos que contiene la tabla antenor conduciría a resultados erróneos porque son cuestionables los conceptos de perfil, masa y distancia ji-cuadrado entre puntos. En este sentido, Si dos columnas tienen valoraclOnes extremas (una muy pobre con sólo unos y otra excelente con puntuaclOnes iguales a cmco) pueden tener igual perfil y, por tanto, ocupar posiclOnes idénticas en el mapa. © Ediciones Pirámide
109
:T [' ,1,
J
Técnicas de análisis de datos en investigación de mercados TABLA 3.3 PuntuacIOnes zniciales
Buen sabor Buen color Buena calidad Precio baJo Buena relación con el distribuidor Buenas campañas de publicidad
4 3 5 2 1 3
3 2 5 3 4 2
5 3 4 3 3 5
2 3 4 1 1 4
Pues bIen, el desdoblamiento consIste en crear una nueva variable por cada vanable origmal que representa el extremo opuesto y cuyo valor es el complementano del que posee la variable ongma!. En nuestro ejemplo, los entrevIstados valoran cada uno de los atributos en una escala 1-5. Por comodidad transfonnaremos esta escala en una que varía entre O y 4 restándole a cada casilla que contIene la tabla 3 una unidad. Finalmente, por cada variable onginal crearemos una nueva vanable cuyos valores serán los complementanos de la vanable ongma!. Los resultados de estas operaciones se pueden ver en la tabla 3.4. TABLA 3.4 Desdoblamiento
Buen sabor Mal sabor Buen color Mal color Buena calidad Mala calidad PreclO baJO PreclO alto Buena relación con el distribuidor Mala relación con el distribuidor Buenas campañas de publicidad Malas campañas de publicidad
3 1 2 2 4 O 1 3 O 4 2 2
2 2 1
3 4 O 2 2 3 1 1 3
4 O 2 2 3 1 2 2 2 2 4 O
1 3 2 2 3 1 O 4 O 4 3 1
En esta tabla los conceptos de perfil, masa y distanCIa ji-cuadrado son más JUStificables ya que las marcas tienen las mIsmas masas (24, que es la suma por columnas) y sus perfiles reflejan tanto el tamaño como la fonna de las evaluaCIOnes ongmales. La distancia ji-cuadrado goza de mayor Justificación al demostrarse que
110
© Ediciones Pirámide
AnálisIs de correspondencIas simpl~y múltiple
en una tabla como la antenor las distancia entre dos puntos es una distancía euclídea ponderada por un coeficiente llamado polanzación (Greenacre, 1993). La polanzacíón tiene la siguiente expresión: Polanzación = _-=1__ m(t- m)
(25)
donde: m: Media.
t: Extremo supenor de la escala
Así, cuando la media es un valor cercano al punto medio de la escala (en nuestro ejemplo, 2) la polanzación es baja (0,25) mientras que SI la media está cercana a un punto extremo la polanzación será más alta. En defimtlva, el concepto de polanzacíón lllfluye en la distancia geométrica en una matnz desdoblada. Un caso especial de valoraclOnes mediante escalas de intervalos se produce cuando la escala tiene sólo dos poslclOnes, codificadas como O-l. Entonces el ACS de la tabla desdoblada comcíde exactamente con un análiSIS de correspondencias múltiple. Además, la ponderación que recibe la distancia ji-cuadrado mediante la polanzación es Igual a la vananza, ya que en la distribucíón blllomlal la varianza es Igual a p(l- p).
3,4.
Esquema general del análisis de correspondencias
En resumen, las prlllcipales etapas en ACS son: 1.
Preparar los datos necesanos. Deben estar dispuestos en una tabla de contmgencla donde se cruzan dos vanables con todas sus categorías. 2. La comparación de las filas debe hacerse en ténmnos relativos. Por esta razón se calculan las tablas de los perfiles fila y los perfiles columna. 3. Cada una de estas tablas llldican que las categorías fila están representadas en un plano de p dimenslOnes mientras que las categorías columna lo hacen en un espacío de n dimenslOnes. 4. En cada uno de estos dos espaclOs se calculan los valores y vectores proplOs que servirán para defimr un espacio de menores dimenslOnes que explique una parte de la lllformación contenida en la tabla onglllal. 5. La fase antenor da como resultado dos gráficos que representan a las categorías de las filas y columnas respectivamente. Cada punto tendrá que ser analizado en térmmos de la calidad de su representación y contribución a la formación de los ejes. 6. Finalmente, se representan las filas y columnas en un solo plano de forma © Ediciones Piramide
111
Técnicas de análisis de datos en investigación de mercados que con algunas modificacIOnes en la escala se pueden analizar las correspondenCias entre filas y columnas. Todo esto queda representado en la figura 3.3.
Tabla de contingencia (k¡j) Tabla de frecuencIas relatIvas U;¡)
Tabla de perfiles columna
Tabla de perfiles fila U/Ji)
e
J
t J
J
e
J e e
J
Adaptado de Escofier y Page (1988).
Figura 3.3.
3.5.
e
e
J
FUENTE:
..
Esquema geueral del auálisIS de correspoudeucIas.
El análisis de correspondencias con ayuda del ordenador
La mayoría de los paquetes estadístícos incorporan en los menús de análiSIS multlvariante algún módulo dedicado al análisis de correspondencias, aunque esa mcorporación en algunos casos ha sido reciente porque con antenoridad había que reCUrrIr a los comandos de smtaxls. El propósIto de este apartado es mdicar cuáles son los pasos que hay que segUir en su aplicación.
112
© EdicIOnes Pirámide
AnálisIs de correspondencIas sImple y múltiple
Los paquetes estadísticos más usuales eu entorno Windows conüenen un módulo de análisIs de correspondencIas que facilita extraordinanamente la ejecución. Es el caso de STATISTICA, SPSS o DYANE. En líneas generales los pasos son: l.
Cargar el módulo de análisIs de correspondencias y abnr el fichero que conüene los datos de entrada. En el caso de STATISTICA estos datos pueden estar dispuestos en diferentes formatos: -
2.
3. 4.
3.6.
Tabla de contmgencia, es decIr, filas y columnas donde cada celda conüene la frecuencIa de aparición. Frecuencias con grupos de vanables. Datos sm nmgún üpo de agrupación (raw data).
En los dos últImos casos es necesarIo especificar los códigos de cada variable (fila y columna). ASImIsmo será necesario decidir si se realiza un análisIS de correspondencIas sImple o múltiple. Esto dependerá del número de varIables que se qUIeran analizar. Se deciden las especificacIOnes que se deseen: autovalores, üpo de estandarización, número de dimensiones a retener o porcentaje de mercla a explicar, gráficos, tablas de frecuencIas observadas, esperadas, etc., y adición de filas o columnas suplementarias. Ejecutar el programa. Analizar los resultados.
Ejemplo 1
Se dispone de datos sobre el consumo de cuatro marcas en tres segmentos de consumidores. Estos datos se muestran en la tabla 3.5, donde la intersección entre una fila y una columna representa el número de mdividuos que compran habitualmente la marca 1 y que pertenecen al segmento J. TABLA 3.5 Frecuencias observadas en el consumo de las marcas y segmentos Segmelllo
....
© EdiCIOnes Pirámide
3)
Segmento 2
i/ ,
Total
Marca A Marca B Marca e Marca D
30 30 80 80
30 130 30 30
155 30 30 5
215 190 140 115
Total
220
220
220
660
/
113
Técnicas de análisis de datos en investigación de mercados La simple observación de la tabla anterior muestra que la marca A es consumida principalmente por el segmento 3, que la marca B se consume por el segmento 2 o que el segmento l consume la marca e y D. También se observa que la marca D se compra muy poco por los consumidores del segmento 3. Debido a que los totales de las filas son diferentes, es convemente expresar los datos antenores en porcentajes. Las tablas 3.6 y 3.7 muestran los perfiles de las filas y las columnas, respectivamente. Se comprueba que las conclusiones obtenidas antenormente permanecen Inalteradas, ya que. por ejemplo, la tabla 3.6 muestra que la marca A es comprada por el 72% de los consumidores que pertenecen al segmento 3; o que la marca B lo es por el 68 % de los consumidores del segmento 2. La tabla 3.7 muestra que el segmento l consume principalmente las marcas e y D (73% aproximadamente) y que el segmento 3 consume muy poco la marca D (2,27%). TABLA 3.6
,i
':.,
.....•
Perfil de las filas ..
.
;
'.t·.·..
."i'"
'.3"
f6tár
Marca A Marca B Marca e Marca D
13,95% 15,79% 57,14% 69,57%
13,95% 68,42% 21,43% 26,09%
72,09% 15,79% 21,43% 4.35%
100.00% 100,00% 100,00% 100.00%
Total
33,33%
33,33%
33,33%
100,00%
'"
TABLA 3.7 Perfil de las columnas
Si!"..' . . 1"
1
\
.
>i'?v
.•
",' ...... .
TQtlU
Marca A Marca B Marca e Marca D
13,64% 13.64% 36,36% 36,36%
13,64% 59,09% 13,64% 13,64%
70,45% 13,64% 13,64% 2,27%
32,58% 28,79% 21,21% 17,42%
Total
100,00%
100,00%
100,00%
100.00%
Otra forma de analizar la tabla 5 es calcular la dependencia o Independencia eXistente entre marcas y segmentos mediante el estadístico X2 Su valor determInará SI rechazamos o no la hipóteSIs de Independencia de filas y columnas. En nuestro ejemplo. el estadístico X2 toma el valor de 362,4 con 6 g.d.!., resultando ser significativo. Por tanto. rechazamos la hipóteSIs nula y se concluye que existe asociación entre consumir una marca y pertenecer a un segmento.
114
© EdiclOoes Pirámide
Análisis de correspondencias szmple y múltiple
La tabla 3.8 muestra cómo contribuye cada casilla a la formación de la X2 Las casillas formadas por las mtersecciones marca A-segmento 3, marca B-segmento 2 y marca D-segmento l son las que mayor peso tlenen en el valor de la X2 (58,59%, aproximadamente). En conclusión, los resultados mtmtlvos de la tabla original se mantlenen. TABLA 3.8 Contribución al estadístico X 2
/ .• ,0
·..• ,,: .•1. <.
L"
..,
icé
'. ·.·tl.; ce
;
......
Ji
.l'otal
Marca A Marca B Marca e Marca D
24,22 17,54 23,81 45,29
24,22 70,18 5,95 1,81
96,90 17,54 5,95 28,99
145,35 105,26 35,71 76,09
Total
110,87
102,16
149,38
362,41
.
Otra alternatlva para analizar la asociación entre filas y columnas es representar gráficamente los perfiles. En nuestro caso, los perfiles de las filas se pueden representar en un espacIO de tres dimenSIOnes, mientras que para los perfiles de las columnas el espacIO es de cuatro. La figura 3.4 muestra los perfiles fila y además se
Figura 3.4. © EdiCIOnes Pirámide
Representación de los perfiles fila.
115
Técnicas de análisis de datos en investigación de mercados
ha Incorporado el perfil medio (véase tabla 3.6). También Incluye un triángulo que forman los puntos vértice y que ayuda a Interpretar los resultados. Sin embargo, en un espacIO de tres dimensIOnes es difícil analizar la sItuación de los puntos. Por esta razón hemos elaborado la figura 3.5 como forma alternativa de representar los resultados. Las flechas Indican el sentido en el que crece la escala. A partir de aquí se han posIcionado de nuevos los perfiles de las filas.
Segmenlo 3
M
arc1 O
Media O
MarcaB O
Marca e O MarcaD O
Segmento 2
Figura 3.5.
Segmento 1
Representación de los perfiles fila en un espacio de dos dimensiones.
El ejemplo que vemmos examinando es muy simple ya que se pueden representar los perfiles fila en un espacIO de tres dimenSIOnes. No obstante, cuando el número de columnas crece el problema se toma más complicado y difícil de representar gráficamente. El ACS permIte detectar relaCIOnes entre filas y columnas en tablas de contIngencIa mayores que pueden vIsualizarse a cambIO de perder una parte de la InformaCIón contenida en la mIsma.
3.6.1.
Centros de gravedad e inercia
El análiSIS de correspondenCIas es centrado, esto es, las distanCias entre las filas o entre las columnas se calculan respecto de los centros de gravedad. Para el caso de las columnas, el centro de gravedad estaba formado por los puntos ¡;., mIentras que para las filas eran los puntos f .} . En nuestro ejemplo, el centro de gravedad de las marcas venía dado por las masas de las columnas (0,33; 0,33; 0,33) tal y como se aprecIa en el figura 3.5 y para el caso de los segmentos viene dado por las masas de las filas.
116
© EdiCIones Pirámide
AnálisIs de correspondencIas simple y múltiple Para el cálculo de la merCla se reqUlere obtener previamente la tabla de frecuencias relatIvas (tabla 3.9). La tabla 3.10 muestra la mercla de filas y columnas.
TABLA 3.9 Tabla de frecuencias relatzvas
.. ,
..
.
••..•.• ¡iegrnento
e
111 lii Tótill
S':grnellto 2./ P ./.
i
'~;;i .
Marca A Marca B Marca e Marca D
0,0455 0,0455 0,1212 0,1212
0,0455 0,1970 0,0455 0,0455
0,2348 0,0455 0,0455 0,0076
0,3258 0,2879 0.2121 0,1742
Total
0,3333
0,3333
0,3333
1,0000 ~ "
l'1'I
,,
TABLA 3.10 Inercia de filas y columnas lo
...
Marca A Marca B Marca e Marca D Inercia colUillllas Inercia relativa
Segrn!mto 1
Segmento ••
". ····;Jij··
0,03670 0.02658 0.03608 0.06862 0,16798 0,30592
0,03670 0,10633 0,00902 0.00274 0,15479 0,28190
0,14682 0,02658 0,00902 0,04392 0.22633 0,41218
. /;>
/'
;;Jil~i
0.22023 0.15949 0,05411 0,11528 0,54911
>/,
Inercia.
relativa 0,40106 0,29045 0,09855 0,20995
Por otra parte. eXiste una relación mteresante entre el estadístIco X2 y la merCIa, ya que ésta se consigue dividiendo el pnmero entre el número de efectIvos (k). Si k se mantIene constante, una inercia alta implica una asociación fuerte entre filas y columnas puesto que el estadístico X2 será también grande. En concreto, la amplitud del valor de la mercia puede oscilar entre cero (las filas y columnas son totalmente mdependientes) y el menor número de filas o columnas (máXima dependencia). La tabla 3.10 contIene parte de la información necesana para el cálculo de la matnz de mercla ya que la suma por filas o columnas representa el valor de la vananza. El resto de los elementos que fonnan parte de la matriz de mercla son las covananzas. Ambos, vananzas y COVaflanzas. se calculan de acuerdo a las expresiones 8, 9 Y 10 Y se muestran en las tablas 3,11 y 3.12. © EdiCIOnes Pirámide
117
Técnicas de análisis de datos en investigación de mercados TABLA 3.11 Matriz de inercia en R 4
0,22023 -0,09371 -0,05458 -0,12045
-0,09371 0,15949 -0,04645 -0,02563
-0,12045 -0,02563 0,07463 0,11528
-0,05458 -0,04645 0,05411 0,07463
TABLA 3.12 Matriz de inercia en R3
0,16798 -0,04822 -0,11976
3.6.2.
Segmento 2
Segmento 3
-0,04822 0,15479 -0,10657
-0,11976 -0,10657 0,22633
Diagonalización de las matrices de inercia y coordenadas
La tabla 3.13 contiene los valores y vectores propios que corresponden a la tabla 3.12. Se puede comprobar que los valores propIos de la tabla 3.11 son los mISmos. Sin embargo, los vectores propIOs son diferentes ya que cada grupo determma coordenadas diferentes (f¡jas y columnasl
TABLA 3.13 Valores y vectores propios para la matriZ de
merCla
en R 3
Factor j Autovatores Autovectores
8
0,340499 0,468168 0,345238 -0,813406
0.208612 -0,668943 0,739917 -0,070974
0,000000 -0,577350 -0,577350 -0,577350
Los vectores propIOS de ta tabla 3.11 pueden calcutarse a partIr de los de ta tabla 3.13 usando la
expresión 13.
118
© EdiCIOnes Pirámide
Análisis de correspondencias simple y múltiple
El autovalor asociado al factor 3 es nulo. Por tanto, se prescmde de él, puesto que no contribuye nada a explicar la inerCIa de la tabla de frecuencIas orIginales; además, el vector propio aSOCIado es exactamente la raíz cuadrada de las masas de las columnas. Por otra parte, la tabla 3.14 es otra forma más completa de presentar los resultados ya que relaclOna a los valores proplOs con la inercia de la tabla de frecuencIas. La segunda columna contlene los valores smgulares que no son más que la raíz cuadrada de los valores propios. La últlma columna detalla qué parte del estadístlco X2 es explicada por cada uno de los factores. El prImer factor explica un 62% de la merCIa mientras que el segundo explica el 38% restante. Con dos factores explicamos perfectamente la mercia de tabla origmaL
TABLA 3.14
Autovalores e inercza para las prmcipales dimensiones
Valores Factor 1 Factor 2
¡, ,
r = 362,41; g,d,\' = 6;
Iuercia total = 0,54911 sillglllares
Autovalores
0,5835 0.4567
0,3405 0,2086
I
%
62,0091 37,9909
I
Acumulado 62,0091 100,0000
224,7292 137,6841
El cálculo de las coordenadas reqmere aplicar las expresiones 11 y 12. Sin embargo, hemos preferido estandarizar úmcamente las coordenadas de las filas y no las de las colunmas. La razón de esta forma de operar se debe a que estamos interesados en cómo se consumen las marcas entre los diferentes segmentos (tablas 3,15 y 3.16).
TABLA 3,15
Coordenadas estandarizadas de las filas en los dos pnmeros factores :
<
Factor!
Fador2
-0,81910 0,31472 0,28960 0,65884
-0,07147 0,67451 -0.41380 -0,47703
•••
Marca A Marca B Marca e Marca D
© EdiCiones Piramide
119
\
,
i' ; ,
Técnicas de análisis de datos en Investigación de mercados TABLA 3.16 Coordenadas no estandarizadas para las columnas en los primeros factores
Segmento 1 Segmento 2 Segmento 3
1,158644 -1,281574 0,122930
-0,810891 -0.597970 1,408861
La sigUIente figura es una representacIón muy parecida a la de la figura 3.5. Así, la cercanía de las marcas e y D al segmento 1 indica que son las que se consumen prinCIpalmente por estos consumidores. De forma análoga, la cercanía de la marca A al segmento 3 y de la marca B al segmento 2 corroboran las Impresíones obtemdas al pnncipío.
';;'
'g
.S .."i ~
, , , , , , -l o Segmentol: : : : -----------1----- ------+--------- --1----------- +---------- -1------- ----+--------- --1
1.5 1,0
."
J'.
'" '" ¡:;.
0,5
::o 00
0,0
o
'"
~
'"
-1,5
'"
~
,
I
,
I
I
, I I I I
I , I , ,
1 , 1 I I
, I I . I
, , , I I
I I I I ,
I I I I
, , 1 '
I I I I
I , , ,
I I I I
I , I
"
"
I
,
I , I , I -----------..I ------------,.-----------..------------r------------..------------. . . ----------I + MarcaS I I I I I ___________ .lI
I I I I l IL.
,' segmenlo 2 I
:
N
'C;;
,
I
1
-1,0
'o
I
I
1
-0,5
<;l
:9
I
,
-----------¡---------f---¡----..;.------¡------------¡-----------¡------------¡----------\ Marca D\ M.h : Marca A : Segmehto 3 i ¡L arcarl iL o:L ___________ l ± .1i _
'"
o" el
I
:
,
I I ..LI
' I I
o:
I I
I I I I t l L.
:
I I
I I I
, , I
I ,
, I
:
, I
, I I I I I ..1
I I I I P t ,
\
_
, I I
\ I P
-----------~------------¡------------~------------,...-----------,.------------¡------------
,
,
I
t
I
I
I
,
I
1
P
I
I
I
,
I
0,0
0,5
1,0
1,5
I
I l ,
I
I I I
, t 1
I I I
, , I
I I I
-2,0 -1,5
-1,0
-0,5
2,0
Dimensión 1: Autovaior: 0,34050 (62,01 % de la inercia)
Figura 3.6.
12O
Representación
de
filas
y
columnas (mapa aSlmétnco).
© EdiCIOnes Pirámide
AnálisIs de correspondencias sImple y múltiple
3.7.
EjemplO 2 (EJEMP.ACS)*
En la tabla 3.17 las filas representan los atributos más relevantes y las columnas las marcas. La intersección de una fila y una columna está formada por el número de individuos que aSOCIaron el atributo i a la marca J. La utilidad de aplicar el ACS es más evidente por el mayor número de filas y columnas (atributos y marcas) que ahora se contemplan. Un paso prevIO conSiste en comprobar Si eXiste aSOCiación entre las variables analizadas. El cálculo del estadístico X2 aclarará esta duda. La tabla 3.18 muestra las diferencias entre las frecuencias observadas y las esperadas y de su análiSiS se desprende que existen diferencias importantes. Por esta razón la X2 muestra un valor estadísticamente Significativo. TABLA 3.17
FrecuenclGs absolutas (EJEMP.ACS)
H.<'
."
.
Ecua
Marca cara Producto masivo Poca vanedad Se anuncia en televisión Acabado perfecto Marca no conocida Ahorra tiempo Dura tiempo Innovadora Exclusiva Fácil de encontrar Imllación Marca económica Anticuada Artesanal De moda LUjosa Buen diseño Buen rendimiento Barata Para clase alta Buen serVICIO ProporcIOna orgullo Ofrece regalos Marca de calidad Total
13
13 15 21 28 37 20 25 9 526
* © EdicIOues Pirámide
22 19 29 17 21 23 18 20 39 22 11 30 19 20 20 15
JackDa MarIbo Empres
3 30 20 13 25 23 25 11 21 6 27 22 11 29 10 22 8 14 17 22 12 10 27 11
1 9 9 3 6 8 8 6 7 6 6 10 6 8 6 6 2 3 7 8 7 10 5 9 3
19 43 38 18 27 54 24 73 42 38 21 56 30 50 50 42 11 24 19 53 51 44 36 40 20
426
159
923
7
Ahsor I Imati
Necesi
Coloca
1 5 7 5 21 6 31 2 15 16 5 9 6 7 1
91 60 57 122 74 47 53 57 61 90 86 52 79 48 50 78 58 107 63 42 55 52 94 40 120
1 8 12 2 11 10 14 11 10 5 9
12 8 6 10 14 11 6
13
229
1.736
230
O
5 10 3 4 21 12 12 12 13
13
5 9 10 13 13 7
12 3 5 8 2 2 2 2 5 17 12 3 9 4 3 4 10 11
• •••
'~.)t~i
3 5 7 7 3 12
4 9 9 9 9 5 8 3 14 14 9 6 14 7 6 14 17 6 16 4 11 7 6 8 7
153 186 189 195 179 193 164 195 211 211 182 197 180 180 176 200 163 187 167 172 190 188 198 170 189
164
222
4.615
Véase fiChero en la dirección www.ugr.es/-ttuque.
121
Técnicas de análisis de datos en investigación de mercados La fortaleza o debilidad de esta asociacíón se puede comprobar calculando la raíz cuadrada de la inercIa que se obtiene dividiendo el valor de la X2 entre el número total de individuos entrevIstados. Por tanto: InercIa
= 789,36 = 0,1704 4.615
~0,1704
= 0,41357
Cuando este coeficIente supera 0,2 se dice que existe asocIación sIgnificatIva (Bendixen, 1996). Además, cuanto mayor sea la diferenCIa entre el coeficIente alcanzado y 0,2 más fuerte será la asocIación. En nuestro ejemplo se aprecIa que la asocIación entre las varIables es significativa.
TABLA 3.18 Frecuencias observadas menos esperadas
.•.••• ·r./\',\i>./c\/· ; • ··i\ i'i . ¡> {
"',
. ....
.,\.
.
,.
•
]';¿u:íX
Marca cara 4.562 Producto masIvo -2,200 Poca variedad 7,459 Se anuncia en teleVIsión -5,225 Acabado perrecto 0.598 Marca no conocida 1,003 Ahorra lIempo -0,692 Dura lIempo -2,225 Innovadora 14,951 Exclusiva -2,049 Fácil de encontrar -9,744 ImItación 7,547 Marca económIca -1,516 Anticuada -0,516 Artesanal -0,060 De moda -7,795 LUJOsa -5.578 Buen diseño -8,314 Buen rendimIento -4,034 Barata 1,396 Para clase alta 6,345 Buen serVICIO 15.572 Proporciona orgullo -2,567 Ofrece regalos 5,624 Marca de calidad -12,541
122
~2 • '7~~,3~ •
g.d.!,
JackDá
-11,123 12,831 2.554 -5,000 8,477 5,185 9,862 -7,000 1,523 -13,477 10,200 3,815 -5,615 12,385 -6,246 3,538 -7,046 -3,262 -8,415 1,123 4,462 -5,354 -8,277 11,308 -6,446
-4,271 2,592 2,488 -3,718 -0,167 1,351 2,350 -0,718 -0,270 -1,270 -0,270 3,213 -0,202 1,798 -0,064 -0,891 -3,616 -3,443 1,246 2,074 0,454 3.523 -1,822 3,143 -3,512
'~9~/·P ,O,Ó?oo. ..... i> Jiliati -11,600 5,800 0,200 -21,000 -8,800 15,400 -8,800 34,000 -0,200 -4,200 -15,400 16,600 -6,000 14,000 14,800 2,000 -21,600 -13,400 -14,400 18,600 13,000 6,400 -3,600 6,000 -17,800
-7,592 -4,229 0,622 -6,676 -4,882 11,423 3,862 2,324 1,530 2.530 -8,031 -4,775 -1,932 -3,932 12,267 -3,924 22,912 -7,279 6,713 7,465 -4,428 -0,329 -3,825 -1,436 -8,378
33,447 -9,967 -14,095 48,648 6,667 -25,600 -8,691 -16,352 -18,371 10,629 17.538 -22,104 11,290 -19,710 -16,205 2,767 -3,315 36,657 0,180 -22,700 -16,471 -18,719 19,519 -23,948 48,905
....
•
Necesi
-6,625 -1,270 2,581 -7,718 2,079 0,381 5,827 1,282 -0.516 -5,516 -0,070 3,182 -3,971 0,029 1,229 3,033 4,876 -2,320 3,677 -0.572 -3,469 0,631 4,132 2,528 -3,419
••
'i/.'" .\ ... 6,563 -3,610 -1,716 1,070 -4,361 -4,859 -3,828 -4,930 -2,498 9,502 5,532 -4,001 2,603 -2,397 -3,254 -3,107 4,208 4,355 7,065 -3,112 -1,752 0,319 -0.036 -3,041 5,284
-3,360 0,053 -0,092 -0,380 0,389 -4,284 0,111 -6,380 3,850 3,850 0,245 -3,476 5,341 -1,659 -2,466 4,379 9,159 -2,995 7,967 -4,274 1,860 -2,044 -3.525 -0,178 -2,092
© EdiCiOnes Pirámide
Análisis de correspondencias simple y múltiple
La tabla 3.19, al diagonalizar la matnz de inercia, expresa los valores singulares, los valores propIOS, la mercla y la X2 para cada factor. TABLA 3.19 Valores proplOS e merCla explicada por cada factor
1 2 3 4 5 6 7 8
0,294 0,201 0.141 0.105 0,074 0,063 0,055 0,030
0,087 0,040 0,020 0,011 0,005 0,004 0,003 0,001
50,638 23,530 11,602 6,494 3,185 2,286 1,754 0,509
50,638 74,169 85,771 92,265 95.450 97,736 99.491 100,000
399,719 185,739 91,583 51,259 25.142 18,047 13,847 4,022
Así, el primer factor explica más de un 50% de la inerCIa de los datos ongmales. El segUndo factor explica un 23,5% y el tercero un 11,60%. Los dos pnmeros factores explican de forma conjunta más de un 74% según mdica la qumta columna, y SI se une el tercero se logra explicar casI un 86% de la mercla. La aplicación del cnteno que consIste en tomar un número de factores que expliquen un porcentaje «sufiCIente» de la mformación aconseja retener los tres pnmeros factores. Si se aplica el cnterio de elegIr factores que expliquen más de 100/p o 100/(P - 1), escogeríamos úmcamente los dos pnmeros, Finalmente, SI aplicamos la regla de la descomposIción aditiva de la X2 obtenemos los resultados que resume la tabla 3,20, Entonces se deben retener cuatro factores con los que se explica un 92,26% de la merCla, TABLA 3.20 Descomposición aditiva del estadístICO
'xC . . . :/~i(;i( j.i·••~·~;!·/'.· •
l'
© EdicIOnes Pirámide
2 3 4 5 6 7 8 9
399,72 185,74 91,58 51,26 25.14 18,05 13,85 4,02
31 29 27 25 23 21 19 17
Total
789,36
192
x:
C.···p··(····; 0,00000 0,00000 0.00000 0,00149 0,34316 0,64583 0,79234 0,99947
123
Técnicas de análisis de datos en investigación de mercados Sabemos que diferentes cntenos pueden aconsejar selecciones distmtas. En este caso, y de acuerdo con lo comentado, empleamos úmcamente los dos primeros factores en aras de una mayor SImplicidad y facilidad para obtener los gráficos derivados del ACS. Elegido el número de factores vamos a describIrlos utilizando para ello las contribuciones absolutas y relatIvas (tabla 3.21) y las coordenadas (tabla 3.22) en el nuevo espacio. Recordemos que la contribución absoluta muestra la contribución de los puntos a la formación del eje, mientras que la contribución relativa mdica lo bien o mal que están representados los puntos en los factores. Los puntos con altas contribuciones absolutas y relatIvas nos mdicarán qué mformacIón resume cada factor. La tabla 3.21 también muestra la calidad o porcentaje que de cada punto se
TABLA 3.21 ContribuCIOnes absolutas y relatlvas de los atributos y las marcas
ics~¡i~S0, .• !>['C.\I, 0i '~:'~J ''Ji;'~f! " ••
r··'.0i~~~~· .·..0
Marca cara Producto masivo Poca variedad Se anuncia en TV Acabado perfecto Marca no conocida Ahorra tiempo Dura tiempo Innovadora ExclUSiva Fácil de encontrar Imitación Marca económica Antlcuada Artesanal De moda LUjosa Buen diseño Buen rendimiento Barata Para clase alta Buen serVicio ProporCIOna orgullo Ofrece regalos Marca de calidad
0,03315 0.04030 0,04095 0,04225 0,03879 0,04182 0,03554 0,04225 0,04572 0,04572 0,03944 0,04269 0;03900 0,03900 0,03814 0,04334 0,03532 0.04052 0,03619 0,03727 0,04117 0,04074 0,04290 0,03684 0,04095
.x
124
i
>'
l·
.. '
0,76359 0,66675 0,59792 0,90155 0,32747 0,83951 0,20699 0,43517 0,35175 0,60862 0,58306 0,91029 0,63214 0,84706 0,73792 0,10564 0,94424 0,94969 0,78322 0,81473 0,66983 0,32082 0,44708 0,79330 0,95522
-'I~erc~~
....
relativa
,i
0,07608 0.02188 0.01000 0,07495 0,01694 0,04568 0,02472 0,05686 0,02055 0,03619 0,04266 0,03214 0,01448 0,03027 0,04105 0,01202 0,13097 0,05035 0,04472 0,03710 0,01958 0,02719 0,01836 0,03044 0,08483
0.11118 0,01067 0,01178 0,12970 0,00068 0,07027 0,00924 0,04730 0,01384 0,02618 0.03893 0,04064 0,01708 0,03062 0,03621 0.00007 0,00179 0,08945 0,01101 0,05837 0,01526 0,01718 0,01562 0,04071 0,15621
.' 0,74004 0.24687 0,59664 0,87630 0,02036 0,77894 0,18926 0,42124 0,34110 0,36632 0,46218 0,64022 0,59750 0,51221 0,44669 0,00274 0,00693 0,89968 0,12465 0,79670 0,39481 0,31999 0,43073 0,67728 0,93245
CTR2 ••••••
0,00761 0,03905 0,00005 0,00804 0,02211 0,01176 0,00186 0,00337 0,00093 0,03727 0.02191 0.03689 0,00213 0,04307 0,05081 0,00526 0,52169 0,01070 0,12517 0,00284 0,02288 0,00010 0,00128 0,01501 0,00821
0,02355 0,41988 0,00128 0,02524 0,30712 0,06058 0,01773 0,01394 0,01065 0,24230 0,12088 0,27007 0,03464 0,33484 0,29123 0,10290 0,93731 0,05001 0,65857 0,01802 0,27501 0,00083 0,01635 0,11602 0,02276
© EdiCIOnes Pirámide
Análisis de correspondencias sImple y múltiple TABLA 3.21 (continuación) ColulllIllls (l)Ia~c""r ECUA JACKDA MARLBO EMPRES ABSOR IMATI NECESI COLOCA NOVOCLA
..
.1
! 0.11398 0,09231 0,03445 0,20000 0,04962 0,37616 0,04984 0,03554 0,04810
Calidad
",. , ..
0,32753 0,47248 0,66063 0,75802 0,96083 0,96444 0,36384 0,73194 0,38482
0.06739 0,11581 0,02842 0.17014 0,20017 0,23138 0,04383 0,08857 0,05428
.. .i¡~i~~; ¡,erA
....,........... (~
0,04141 0,05256 0,03445 0,22848 0,07227 0,43566 0,02349 0.10760 0,00408
0,31116 0,22981 0,61379 0,68004 0.18282 0,95344 0,27141 0,61517 0,03809
2
0,00469 0,11944 0,00566 0,05638 0,66185 0,01082 0,01722 0,04396 0,07999
CTR2 ..
0,01637 0,24268 0,04684 0,07798 0,77800 0,01100 0,09243 0.11678 0,34672
TABLA 3.22 Coordenadas de las filas y las columnas en los dos przmeros ejes
Marca cara Producto maSIVO Poca vanedad Se anunCIa en televisión Acabado perfecto Marca no conocida Ahorra tiempo Dura tIempo Innovadora ExclusIva Fácil de encontrar IIIlltación Marca económIca Anticuada Artesanal De moda LUjosa Buen diseño Buen rendimiento Barata Para clase alta Buen servicio ProporCIOna orgullo Ofrece regalos Marca de calidad
© Ediciones Pirámide
Coordenadas factor 1
Co9"'d~nádasfact~.. 2
0,538955 -0.151412 -0,157826 0,515630 0,038992 -0,381486 -0.150068 -0,311373 -0,161921 0,222707 0,292414 -0,287144 0.194775 -0,260755 -0,286784 0,011410 0,066292 0,437266 0.162332 -0,368314 -0.179191 -0.191122 0.177565 -0,309395 0,574782
0,096140 0,197464 0,007310 0,087511 0,151456 -0,106384 -0,045932 0,056634 -0,028612 -0.181127 0,149544 0,186496 -0,046898 0,210828 -0,231564 0,069863 -0,771020 0.103090 -0,373121 -0,055396 0,149553 0,009730 0,034599 0.128057 0,089805
¡
125
I
Técnicas de análisis de datos en investigación de mercados TABLA 3.22 (continuación)
ECUA JACKOA MARLBO EMPRES ABSOR IMATI NECESI
COLOCA NOVOCLA
-0,I77387 -0.222070 -0,294303 -0,314558 -0,355170 0,316720 -0,202060 0,512107 0,085743
0,040688 0,228202 0,081296 0,106520 -0,732679 0,034024 -0,117918 -0,223124 -0,258690
explica con dos factores, es un concepto análogo al de comunalidad. Igualmente expresa la parte en que cada punto contribuye a la formación de la Inercia de la tabla (inercIa relatIva). Si analizamos los puntos que mayor contribución tIenen en la formación del PrImer eje debemos resaltar: marca de calidad, se anunClG en teleVIsión, marca cara, buen diseño, marca no conocida y barata. Estos puntos están bien representados (alta contribución relativa) y explican más del 61 % de la información que contIene el prImer factor. Si observamos las coordenadas de los puntos en el primer factor comprobamos cómo marca de calidad, se anuncia en teleVIsión, marca cara y buen diseño se oponen a marca no conocida y barata. El primer factor diferenCIa entre marcas percibidas como muy diferentes. Por un lado, las que se asocian como de calidad, buen diseño y una considerable publicidad en televisión y, por otro, las que se perciben como baratas y no conocidas. Para Interpretar el segundo factor segUImos el Ullsmo procedimiento. Los puntos que más contribuyen a la formacIón de este factor son: lUjosa y buen rendimiento. Con sólo estos dos puntos se explica más del 64% de la InerCIa del segundo factor; ya el primer punto (lUJosa) contribuye de forma muy Importante con cerca del 53%. Esto hace sospechar de la presencIa de un punto aberrante u outliers. Los puntos aberrantes hacen que la Interpretación de los ejes sea difícil ya que agrupa al resto de los puntos, además con riesgo de provocar Inestabilidad en el segundo factor. Por esta razón el sIgUIente paso será Investigar la estabilidad Interna de los factores con la configuración actua1 9 La tabla 3.23 recoge la transformación que sufren los factores cuando se elimIna algún punto. El prImer eje puede considerarse estable ya que la elimInación de cualqUIera de los puntos no hace que rote más de 45 0 En el caso del segundo factor los puntos lUjosa y la marca ABSOR provocan rotacIOnes considerables aunque no llegan a ser superiores a 45 0 Para el caso del plano el punto lUjosa es el que ma9
A este respecto véase el anexo al final de capítulo donde se presenta mayor detalle sobre la ope-
ratorta.
126
© EdiCIOnes Pirámide
Análisis de correspondencias simple y múltiple yor inestabilidad provoca. Así pues, consideramos a este último punto como suplementario, ya que hace inestable al segundo factor y provoca también un alto grado de mestabilidad en el plano (véase figura 3.7).
TABLA 3.23
Estabilidad interna de los dos primeros ejes y el plano 1-2
Marca cara Producto masIvo Poca variedad Se anuncia en TV Acabado perfecto Marca no conocida Ahorra tiempo Dura tiempo Innovadora ExclUSIVa Fácil de encontrar Imitación Anticuada Artesanal De moda LUjosa Buen diseño Buen rendinuento Barata Para clase alta Buen servicIO ProporcIOna orgullo Ofrece regalos Marca de calidad
0,2903 0,0841 0,0384 0'.2887 0,0650 0,1759 0,0946 0,2190 0,0794 0,1399 0,1638 0,1239 0,0556 0,1162 0,1574 0,0463 0,5008 0,1936 0,1712 0,1422 0,0753 0,1046 0,0708 0,1166 0,3263
8,2408 1,9899 1,0883 6,8253 0,4950 4,5965 2,0012 5,9040 2,1005 3,7022 4,5828 3,5106 1,5772 3,3223 4,3764 0,1328 1,5917 3,9172 2,8613 3,5617 2,0728 2,6851 1,9852 3,2436 6,4269
0,1715 0,1440 0,0352 0,0812 0,1447 0,0884 0,1742 0,2881 0,1189 0,2015 0,2002 0,1013 0,0508 0,1288 0,1980 0,1050 1,1303 0,0441 0,3405 0,0657 0,1036 0,1616 0,0916 0,0855 0,0501
1,2798 3,9538 0,0697 0,6770 3,6036 1,1200 1,1272 1,5100 0,6265 4,4450 3,2330 2,4554 0,5085 3,3258 4,7171 1,6856 -41,9060 0,5300 9,9514 0,4708 2,5255 0,2295 0,6111 1,4710 0,4085
0,6597 0,1912 0,0874 0,6561 0,1477 0,3997 0,2149 0,4977 0,1805 0,3180 0,3723 0.2815 0,1263 0,2641 0,3578 0,1053 1,1381 0,4399 0,3890 0,3231 0,1712 0,2376 0,1608 0,2649 0,7416
20,3387 5,4475 2,4912 19,7832 3,7577 10,9675 4,3956 12,4359 4,6464 9,2189 10,6856 5,9075 3,5914 6,5513 10,3854 1,7105 -40,9310 8,8255 11,1764 8,7457 4,8497 5,7765 4,4683 7,1275 21,6791
ECUA JACKDA MARLBO EMPRES ABSOR IMATI NECESI COLOCA NOVOCLA
0,2806 0,4707 0,1086 0,7845 0,7770 1,3682 0,1702 0,3388 0,2104
6,6094 8,7611 3,0941 22,7844 10,9583 -31,0783 3,9967 9,8378 1,9288
0,4392 0,8238 0,0953 0,5705 1,4429 0,1448 0,2818 0,2963 0,4599
2,2366 13,1915 1,0616 5,8339 -42,0812 0,7578 3,7805 4,4079 10,4943
0,6376 1,0696 0,2468 1,7829 1,7658 3,1095 0,3867 0,7699 0,4781
13,0657 32,5751 7,1216 -38,5195 -22,2629 -14,9736 9,3032 23,3474 11,3682
Marca econÓlllica
© EdiCIOnes Pirámide
127
Técnicas de análisis de datos en investigación de mercados
';;'
0,4 ~-~,-~,~-~,--~,--r,-~,--T,--r,-~,--T,--',-~
.s
0,3
"§
~
"
0,2
'$.
0,1
~ I"f"l~
0,0
t!.-
-0,1
t
!
I
I
,
I
,
I
I
------t-~~~~~c~t1~~~~~i------i-------i------t------i-------r------t------i------------i-~c1aSeaftr--i------T-:~--T------i---faCi~C6ñ--~i;~fi~-¡~~1~------
------T-~~~~rli----_d~-T--propQrpig-1MATf--¡-+----i+-.¡;+-- ¡------------~arams_~-----~~~------J-------L~on--J-~-----l------L -----J------nbcono:: +: : : + : : : :
-- --- -~- ---- -..:- __ ..NE5ES.L -~- ---- -..:- --- - - -\...-- ---- ~ - -- ---..:- - ---- -:...---- --~- --- - -...:------.l.: I : : : exo~uslVOS: : : : -f-----a.rt¡e&allaL~t -~--- CD~CA_+ _
-----f----- -WV0¡f:K---f- ----+----o~ -0,3 ------r------:- ------:------r----- --r ------b~~~;~d -------r- -----r------r----- --r-----.9 -0,4 ------f------+-----+------f------+-----+---7--f------+ ------t------f------+-----l,f)
90 -0,2 ----'"
<~t:
M~
-0,6
,5
-0,7
-0,5
-
.~
§
i:l
-0,8
I
I
,
I
I
I
I
,
,
,
I
I
I
I
I
I
I
I
I
,
-----~ ---- --;------ -~- ---- -~------~-------~------ ~------~-------~---- --~- ---- -~--- ---------t---- --1-------:------:------1-------¡------- t-------¡-------:--- ---t----- -1---------- -4J3.S.0 R -:--- ----~---- --+---- ---:-------l------- +- ------:- ---- --~--- ---+-------:------~_~__ ---1---__-_~ - ~ I~~J:s~-s-~------ ~-------I-------~------~- ------1--_----
I I
I I
I I
I I
I I
I I
l I T l I T
I I
I I
I I
I I
I I
I I
I I
, ,
I I 1 l I T
I I
I I
-0,9 1-+-r-+-i---r-,---+-i-+-+-+--Í--+-+-r-+-+-+-+-+-r-+--
Figura 3.7.
Mapa simétrico para las filas y columnas.
Tras la eliminación del punto lUJosa, se repite el análisIs, que arroja como principales diferencias respecto al anterior las siguientes (tablas 3.24 y 3.25):
128
1.
La X2 sigue siendo estadísticamente significatlva, pero ahora su valor es de 690,95 con 184 g.d.!.
2.
Los dos primeros factores explican un 74,19% de la mercia de la tabla que ahora es igual a 0,15520. Luego, la merCla se reduce ligeramente frente al análiSIS anterior, mientras que el porcentaje que logramos explicar con los dos pnmeros ejes sigue Siendo muy similar.
3.
Los atributos que mayores contribUCIOnes tienen en la formaCión del pnmer factor son los mismos que en el análisis anterIOr y explican aproximadamente un 63% de la mercJa del eje uno. Respecto al segundo factor los que más contribuyen son: exclusiva, artesanal, buen rendimiento, fácil de encontrar, producto masivo y acabado perfecto. Los tres pnmeros se oponen a los tres últimos. En consecuenCia, ya no queda explicado por un solo punto, smo que a la formación del mismo contribuyen más puntos de forma más equilibrada, y opone marcas que se producen de forma estandarizada. masiva y fáciles de encontrar, por utilizar una red de distribución mtensiva, a otras que se producen de forma manual y que utilizan una red de distribución exclusiva. © EdiCIones Pirámide
Análisis de correspondencias simple y múltiple 4.
En cuanto a las marcas, las que mayores contribucIOnes tienen sobre el pnmer factor son EMPRES, IMATI y COLOCA. La pnmera se opone a las dos últimas. Por otra parte, en el segundo factor las marcas con mayores contribuciones son JACKDA y ABSOR, donde una se opone a la otra. TABLA 3.24
Valores propios e inercia explicada por cada factor
1 2 3 4 5 6 7 8
0,300 0,158 0,124 0,106 0,075 0,064 0.056 0,024
0,090 0.025 0.015 0,011 0,006 0.004 0,003 0,001
58,095 16,098 9,962 7,199 3,612 2,600 2,055 0,379
58.095 74,193 84,155 91,354 94.966 97,566 99,621 100,000
401,407 111,232 68,832 49,739 24,959 17,962 14,202 2,619
TABLA 3.25
Contribuciones absolutas y relativas de la nueva configuración
Marca cara Producto masivo Poca vanedad Se anUJl.Cla eJl. televlsióJl. Acabado perfecto Marca Jl.O cOJl.ocida Ahorra tIempo Dura tIempo IJl.Jl.ovadora ExclUSIva Fácil de eJl.coJl.trar IrrutacióJl. Marca eCOJl.ÓmICa AJl.tIcuada ArtesaJl.a! De moda BueJl. diseño
© EdicIOnes Pirámide
0,03437 0,04178 0.04245 0,04380 0,04021 0,04335 0.03684 0,04380 0,04739 0,04739 0,04088 0,04425 0,04043 0.04043 0,03953 0,04492 0,04200
Caliílad
JJ).erc\3 relativa
0,80169 0,88058 0,59926 0,89394 0,75809 0.81919 0,32734 0,53185 0,33985 0.82725 0,79996 0,73112 0,65273 0,85160 0,87237 0,26159 0,93757
0.08683 0.02250 0,01140 0,08538 0.01834 0,05633 0,03015 0,06250 0,02413 0,04491 0,04845 0,03340 0,01775 0,03145 0,05285 0,01358 0,05730
0,11451 0,00899 0,01157 0,13094 0,00095 0,07366 0,01007 0,04579 0,01386 0,02458 0,04158 0,03670 0,01704 0.02722 0,04031 0,00013 0.09171
0,76610 0,01919 0,23209 0.09062 0,58952 0,00069 0,89102 0,00154 0,03009 0,08293 0,75961 . 0,02085 0,19399 0,02497 0,42557 0,04126 0,33371 0,00092 0,31800 0,14206 0,09071 0,49858 0,63833 0,01925 0,55776 0.01047 0,50295 0,06810 0,44309 0,14094 0,02159 0.00570 0,92984 0,00275
0,03559 0,64849 0,00975 0,00291 0,72800 0,05957 0,13334 0,10628 0,00614 0,50925 0,30138 0,09279 0,09497 0,34865 0,42929 0,25589 0,00773
129
Técnicas de análisis de datos en Investigación de mercados
.....
••
••••••
{
./
¡" ...
TABLA 3.25 (continuación)
....•....
"7
l·¡~~s~· . > .,.... ;
•••••
•
"
lrierCia
relativ"l
1./,
.
1;
;
•
•
i'
h '?' ...
••
Buen rendimIento Barata Para clase alta Buen serVICIO ProporcIOna orgullo Ofrece regalos Marca de calidad
0,03751 0,03863 0,04268 0,04223 0,04447 0,03819 0,04245
0,38663 0,89000 0,46960 0,41212 0,47530 0,92694 0,95070
0,05829 0,04380 0,01997 0,02990 0,02076 0,03299 0,09704
0,00850 0,05953 0,01313 0,01638 0,01592 0,03831 0,15862
0,08469 0,78960 0,38191 0,31825 0,44555 0,67464 0,94964
0,10933 0,02732 0,01088 0,01744 0,00384 0,05170 0,00063
0,30194 0,10040 0,08769 0,09387 0,02975 0,25230 0,00105
ECUA JACKDA MARLBO EMPRES ABSOR IMATI NECESI COLOCA NOVOCLA Lujosa
0,11523 0,09389 0,03527 0,20485 0,04447 0,37691 0,04874 0,03459 0,04605
0,31898 0,90129 0,70145 0,75295 0,78189 0,96023 0,34760 0,73514 0,03792 0,35185
0,07366 0,12521 0,02831 0,16880 0,14651 0,26355 0,04671 0,09924 0,04802
0,03926 0,04701 0,03228 0,21288 0,09832 0,43557 0,02555 0,10605 0,00309
0,30962 0,21810 0,66241 0,73265 0,38986 0,96015 0,31777 0,62080 0,03737 0,00029
0,00429 0,53136 0,00687 0,02128 0,35677 0,00013 0,00866 0,07049 0,00016
0,00937 0,68319 0,03905 0,02030 0,39204 0,00008 0,02983 0,11434 0,00055 0,35156
TABLA 3.26
Coordenadas en el nuevo espacio
l"
.'
- -
Marca cara Producto masivo Poca variedad Se anuncia en televisión
Acabado perfecto Marca no conocida Ahorra tIempo Dura tIempo Innovadora ExclusIva Fácil de encontrar Imitación
Marca económIca AntIcuada Artesanal De moda
130
Coordenadas factor 1
i Coordenadas factor 2
0,54810 -0,13927 -0,15673 0,51918 0,04615 -0,39141 -0,15697 -0,30700 -0,16237 0,21625 0,30284 -0,27345 0,19492 -0,24639 -0,30322 0,01635
0,11813 -0,23280 -0,02015 -0,02968 -0,22700 0,10961 -0,13014 0,15342 0,02202 0,27366 -0,23545 -0,10426 0,08043 -0,20514 0,29846 -0,10958
© Ediciones Pirámide
AnálisIs de correspondencIas sImple y múltiple TABLA 3.26 (continuación)
!
./
/
/ . ,>e}./: Co6rderiadas
Buen diseño Buen rendimiento Barata Para clase alta Buen servicIO ProporcIOna orgullo Ofrece regalos Marca de calidad ECUA JACKDA MARLBO EMPRES ABSOR IMATI NECESI COLOCA NOVOCLA LUjosa
0,44368 0,14292 -0,37274 -0,16656 -0,18702 0,17966 -0.30077 0,58042 -0,17527 -0,21246 -0,28729 -0.30610 -0,44645 0,32279 -0,21739 0,52576 0,07776 0,01463
So()riferi~~'!St~dºr2
,1;1
I
-0,04046 0.26986 0,13291 -0,07981 0,10157 0,04643 -0,18393 -0,01931 0,03048 -0,37603 -0,06975 0,05095 0,44769 -0,00289 -0,06661 0,22563 0,00945 0,50732
Si representamos las coordenadas de las columnas en un mapa aSlmétnco (véase figura 3.8) se observa que son competidoras, por un lado, las marcas MARLBO y EMPRES lO y, por otro, lo son entre ellas IMATI y COLOCA. La marcas JACKDA y ABSOR son percibidas como muy diferentes y opuestas, estando muy aleJada la una de la otra. Del posIcIOnamiento de la figura 3.8 se desprende cómo son percibidas las marcas por los consumidores, mostrando qué es lo primero que viene a la mente del consumidor en relación a tales marcas. Los comentanos realizados se completan analizando el mapa Simétrico conjunto de filas y columnas. Para ello utilizamos la mterpretación angular. Los resultados de este análiSIS se muestran en el figura 3.9, donde sólo se han recogido los atributos que tlenen altas contribuciones absolutas y que están bien representados. ASimismo, se muestra, como ilustración, los ángulos que fonuan las marcas IMATI y COLOCA con el atributo marca cara. De la parte derecha de la figura 3.9 se desprende que las marcas IMATI y COLOCA se encuentran asociadas a los atributos marca cara, se anuncia en teleVisión, buen diseño y marca de calidad. Esto mdica que estas marcas son percibidas como diferentes debido a su calidad y a un precio alto. A veces, 10 PrÓXimas a ellas están ECUA y NECESI, pero S]l defiCiente calidad de representación desaconseJa extraer conclusiones. © EdicIones Pirámide
131
Técnicas de análisis de datos en investigación de mercados
0,6 I
0,5
I
I
I
,
I
I
I
I
: I
,
r----A:BgO-e------+------}------:------+-----~------+------~ ------:------+-----f-----I .l} I I I , I 1 , I I I
0,4
_____ -'
: +: .J
J.
:
L
:
:
I I I ,
, I I I
, I I ,
I I I ,
I , , ,
0,3
------:------~------t------~------¡------:------1------¡ ------¡------¡--CUt-OC"A.t------
0,2
-----..:
I
,
,
:
:
, , ,
, I ,
,
------..,------~------
I , I
: ..-
L
,
:. . r
.J
:
..I
:
J.
:
: L
:
I I I ,
I I I I
, , , ,
I I , I
I I I I
1
:
I
,
L
,
:
:
:
I I I
, , ,
I , 1
------l------..,------+------~------
, I I I I l i t
.J
:
.I.
I I I I
: I I I I
I
+-
I
I I I
I I I
I I I
:. . -----_t------.. :+ :
_
_
0,0
I I , I I I I 1 , I I I -----..,------..,------T------r------,...------,------,------T------,------,...-----,------"T-----<¡;1 VA ,I ,i ,1 I~"TI ' ,1 ,1 1 EM RES 1 E n. 1 1 T 1 I " 1 1 1 -----_:_-----~------f------}-----+-----_:-----+_:------+------~+---+-----_:_-----{------
-0,1
1------:-----MA:í{[BO----t------:------:------:------t------:------¡------i------1------
0,1
-0,2
-0,3 -0,4
,
r
'
:
:
¡+
,+
+:NECESI
~OVqCLA
1
1
1
_____ -'1
.J1
.L1
l i t 1 1.... L -'1
1 1 1 1
1 I 1 1
J 1 1 1
I 1 1 1
1
1
1
1 1
1 1
1 1
1 1 1 1
¡
i
¡
:
¡
1
,
I 1....
1
I .L
, 1..
1
.J1
-'1
..11
, I 1 ,
1 1 1 1
1 1 , ,
, 1 , I
1 1 1 1
1 1 1 1
1 1 1 1
r
1
,
,
1
1
1
_
------¡------r-----pA"CK1Jx---r-----r-----:------r-----r------r-----r-----r----+' ,
I------:------~------~------~------~------:------~------~------~------:-------:------~-----1 1 , 1 1 r 1 I , 1 1 1
-0,5
-0,6
-0,5
-0,4
-0,3
1 :
-0,2
, 1
-0,1
,
1
1
,
1
1
1
:
1
1
:
1
1
:
0,0
0,1
0,2
0,3
0,4
0,5
0,6
1
1
1
0,7
Dimensión 1; Antevaler: 0,09016 (58,09% de la inerCIa)
Figura 3.8.
Mapa aSImétrIco para las columnas,
0,6 1
1
1
1
1
1
1
1
1
:
0,5
-----ABsüe------+------}-----+------:------{------f----- -~------:------+-----{-----1 .l} 1 1 I 1 1 1 1 1 1 1
0,4
I-----~------i------t------~-----+-----+-----i------t------~-----+-----i------~------
1
0,3 0,2 0,1 0,0 -0,1
o
1
1
1
1
1
1
1
1
1
1
1
1
1
1.
1
1
,
1
,
,
1
1
1
:
artesanal:::::::::
~~~~~I~~~~~r~~:~r~~~~~[~~~~~I~~~~~I~~~~~J~~~~~l~~~~~l~~~~~p~~~t~~~~J~~~~~~ lbaratos: +: : : ; : : 1
-----~-----~JJ:-----J---+~------~-----~------~-----: 1
1
,
1
:EMPRES °Ee' U" 01
1
1
1
::
-----~------1----NijCESy+------~--NÓVOCLA
------[MA~~º~-f--~--:H.+' 1
1
1
: :
~----
1
lMiATI
c~~~--~-----"
'
:
:
--r---+t-+---~-carm~d-----
:
~--:¡:-~------~------f--Jl.i.5~Q----~~~~------~------
1
1 1
1 1
ti
1
1 1
1 1
1 1
1 1
, I
-0,2
'l -----+-E~~-C!~.±-fT-----~-masiy~--+-----~------f------~-----+-----+-----~------
-0,3
: :cm lCU~ os: : acaper : .¡:''''~;I ------r------... ------+J..-CK)JA---->------... -------l----~ eoc.í1ll J-\. f-\. i
1
l i t
-0,4
1
,
,
'd
,+
1
1 1 ,
1 1 1
1 1
1 1
, :
1 1
1
+'
1 1
1
+
1
1
1
: I-
1
I
: ...
: -l
1 1 1
1 1 ,
1 1 1
,
1 1 1
1 , ,
1 1 1
1 1
1 1
I
1 "
,
1 1
1 1
1 1
0,0
0,1
0,2
0,3
0,4
0,5
0,6
1 1
_
------:-------:------~------~------:-------:------~------~------:-------:-------:------~-----1 1 1 1 1 1 1 1 1 1 1 1 1 1
-0,5
-0,6
-0,5
-0,3
-0,4
-0,2
-0,1
0,7
Dimensión 1; Autovalor: 0,09016 (58,09% de ia inercia)
Figura 3.9.
132
Mapa slmétnco para los atributos y las marcas, © EdicIOnes Pirámide
AnálisIs de correspondencIas simple y múltiple en sItuacIOnes donde la mformación es escasa, se utiliza este últImo como referente de la calidad del producto. También aparecen asociados los atributos un diseño que gusta a los consumidores y una comumcación masiva a través de la publicidad. Aparentemente, la marca NOVOCLA también se encuentra asociada con estos atributos, pero no hay que precipItarse, ya que esta marca se encuentra mal representada en el pnmer factor. Además, NOVOCLA se sItúa muy cerca del ongen de coordenadas, lo que mdica que es la marca que más se parece al perfil medio o barícentro. En la parte IzqUIerda de la figura se deduce que EMPRES está asociada con marca no conocida y barata, lo que lleva a pensar que sigue una estrategia de ahorro en costes. MARLBO se relacIOna con mutación, ofrece regalos y, en menor medida, con barata y marca no conocida. Su pnncipal diferencIa con la antenor radica en que es una marca seguidora que realiza promocIOnes como una de sus prmcipales armas en el marketmg-llllx. Aunque MARLBO forma un ángulo agudo con el atributo antIcuado, hay que ser prudente al establecer una correspondencia con tal atributo puesto que no está bIen representado en el primer factor. En relación con el segundo factor, la marca JACKDA se corresponde con los atributos producto masivo y acabado perfecto, mIentras que se opone (forma un ángulo de 180°) a exclusiva y no se encuentra muy aSOCIada con fácil de encontrar. De lo antenor se desprende que JACKDA emplea una producción masIva y estandanzada, pero con un buen acabado. Esta marca presenta una contradicción puesto que, por un lado, se percibe como opuesta a exclusIva, mIentras que, por otro, no es fácil de encontrar. ABSOR se asocIa con artesanal y se opone a fácil de encontrar. En pnncipio estas relacIOnes parecen coherentes, ya que se trata de una marca cuya producción no es masIva que permIte adoptar una estrategIa de distribución selectIva o exclusIva. No parece que esta últIma opción sea la elegida por los directIvos de ABSOR, ya que prácticamente forma un ángulo de 90° con el atributo exclusiva. Esto últImo reqUIere de una mvestIgación más profunda para detectar posibles defiCIencias en su red de distribución. Las conclusiones anteriores se corroboran SI se utiliza la estandarización canómca (figura 3.10). Finalmente, se analiza la estabilidad externa de los datos utilizando la estImación sufiCIente (bootstrapping). Para ello se ha replicado la matnz de datos onginales 100 veces y los resultados se han introducido en el análiSIS de correspondencIas como puntos suplementanos. La figura 3.11 contIene la representación de las simulacIOnes para las columnas. Las marcas ECUA, IMATI YEMPRES son las que menor VarIación presentan dado que la forma convexa dibUjada es la que menor tamaño tIene. Por el contrarIO, COLOCA, MARLBO y ABSOR son las que mayor variación presentan. Un punto mtermedio lo constItuye JACKDA, NECESI y NOVOCLA. No obstante, mnguna marca modifica sensiblemente su posIción en las sImulaCIOnes efectuadas, y aunque hay algunas marcas con un rango de varIación mayor que otras, en general la estabilidad externa de las marcas puede considerarse aceptable. © Ediciones Pirámide
133
Técnicas de análisis de datos en investigación de mercados
1,5
~
:
______ ~_-__
'<5' 0,5 ~
' "
:
:
:
I
: :
~
:
i
j
"
'f
___ L~~_r~ Re +da:
0,0 ______ J______ :
o
" ~
,
, I
1
I
I
'
I
1
I
I
I
:
:bue eic
i
:
:
i
i
¡ +:
,
'pro+,
~
I ,
---- --~ ------r---I
: I
L_~Sk~l
'+ +ano : +:
, I
.8 -0,5
.!
:, ,
i
00
'"""'"t
I
I
'
I
,
i
; C2~
'
I
:
,. +:
I
------i------~------Pir--p--i~~-~~Tr-----l------1---:~~------;-- ---T-----~;-
~ ~
i..f
I
'
----i------i------i------i------¡------~------i------ii------~------
I
o
i:
l,·
I
.!'l 1,0 ~ o>?
" ~S
Luj
i
!l .S
i aem,
:
:+
:
I I
, ,
~__l
I
:
\
:
I
:
,
: :
I t
:: ::
i I
:
~ -1,5
-1,2
-i,O
-0,8
-0,6
-0,4
+
_
:
I
I
I
:
I I
I I '
I I I
: I I
:
I I
1
I
I
I
:
: ,
:
I
1 t
1 1
1 t
1
I
I
1 1
I
1 1
:.::: ¡:::
l i t
I
------i- a¡a--i------ i----I\9-------;---- ---¡- ------¡------
I
1 1
I
~~~-----Jnr-aRU~-~~l _1
: :, J~C ¡ :, 1I :1 :I I I ;x , - ---r-- --r!I -- ----,-------,-------,-------.L-----'0 ------,-------,------.,-T -1, t 1 t I I I I l 1 1
¡
---¡------
-0,2
I
:
:
:
I
I
J I , ..1 __ - - - I t 1 1 I 1
¡
:
:
¡
I
:
:
1
0,6
0,8
1,0
1,2
l i t
0,2
0,0
1 ,
,
:
I
1
1,4
Dimensión 1; Antovalor: 0,09016 (58,09% de la mema)
Figura 3.10.
Mapa de atributos y marcas (estandarlzacióu canómca).
0,8 0,6 0,4 Col
"
-o .¡;;
J
0,2
*' A
0,0
_~".._o_C_"
-0,2
Nebesi "" " ,
-0,4
--~-_~ __ ~-~--------,_r_: J_ ~~~~~ 1 _ i I
¡, I
,, I
Ja~k(fi-----T---------T---------T--------1 1
-0,6 -0,8
'A
-0,6
-0,4
-0,2
t 1
I I
I I
1
I
1
1
1
I
I t
0,0
0,2
0,4
0,6
0,8
Dimensión 1
Figura 3.11.
134
Estabilidad externa para las marcas. © EdicIones Pirámide
AnálisIS de correspondencias simple y múltiple La figura 3.12 representa las curvas convexas para los atributos que mayor contribución tenían en la formación de los dos primeros ejes. En general, las curvas convexas no son lo suficIentemente amplias como para pensar que son inestables externamente.
0,8 0,6 0,4
'"
d '0
0,2
.~
.§ 0,0 Q
-0,2 -0,4
----A
--~~
.'*""-
~-~:~~~~~~~-------f---- :, :,, , --------~---------f--, , -i
Mr
S1VO
-0,6 ' - - - ' ' - - - - - ' ' - - - - - ' - - - ' - - - - - ' - - - - - ' - - - - ' - - - - ' - - - - - ' -0,4 -0,2 0,0 -0,8 -0,6 0,2 0,4 0,6 0,8 1,0
Dimensión 1
Figura 3_12.
4.
Estabilidad externa para los atributos.
ANÁLISIS DE CORRESPONDENCIAS MÚLTIPLE 4.1.
Introducción
Hasta ahora solamente nos hemos centrado en el análisIs de una tabla bidimensional, es decIr, una tabla donde se cruzan dos variables. Sin embargo, cuando el número de vanables que entran en juego aumenta, entonces es necesaria una generalización del análisIs de correspondencIas sImple. Este método es conocido como análisIs de correspondencIas múlttple. Cuando eXIsten, por ejemplo, tres varIables es posible segUIr aplicando el análiss de correspondencIas simple, ya que podemos constrUIr una tabla donde las filas sean las combmaciones de las categorías de dos variables y en las columnas las categorías correspondientes a la tercera 11 Sin embargo, cuando el número de variables crece, la aplicación de esta forma de operar se vuelve más y más compleja. Además, es necesano tener un número sufiCIente de casos para cada casilla. 11
© EdiclOoes Pirámide
Véase Greeuacre (1993, 119-130).
135
Técnicas de análisIs de datos en investigación de mercados La aplicación del análisIs de correspondencIas múltiple (ACM) requiere que los datos estén dispuestos en una tabla disyuntIva completa. En una tabla disyuntiva completa, las filas están formadas por los mdivlduos que han sido encuestados mIentras que las columnas están formadas por las categorías de las variables sometidas al análisIs, de tal forma que cada celda está formada por un «1» en el caso de que el mdividuo posea el atributo y «O» en caso contrano. Para el caso de una variable y un mdividuo en partIcular, los valores kij correspondientes a las categorías de esta varIable contendrán un <<1» una vez (completa) y sólo una vez (disyuntiva) (Escofier y Page, 1988).
4.2.
Formulación del análisis de correspondencias múltiple
4.2.1.
Generalidades
Tal y como hiCImos para el análisIs de correspondencIas sImple, vamos a explicar de forma breve la formulación en la que está basada el ACM. Para comenzar, hemos VISto anteriormente que los datos del ACM están dispuestos en una tabla disyuntiva completa. En general, este tipo de tablas toman la forma que detalla la tabla 3.27, en la que:
M: Número de modalidades M
= Imk • k
Modalidades de una pregunta 1, 2, oo', m k • V: Preguntas o vanables VI' V2 , oo., "1' Q: Número de preguntas o varIables I kij = k i.
m:
= Q.
TABLA 3.27 Formato de la tabla disyuntIva completa M
Suma
136
nxQ
© EdicIones Pirámide
Análisis de correspondencias simple y múltiple
4.2.2.
Distancia entre filas y columnas
La notación utilizada más arriba facilita la expresión de los cálculos en las distancIas entre filas y colunmas. Así, la distancia entre filas para el caso del ACM vIene dada por: (26)
La expresión contenida entre paréntesIs toma los valores 1 o O dependiendo de que los mdividuos comparados tengan la característIca estudiada o no. Como vemos, la distancIa entre dos mdivlduos crece cuando este paréntesIs es mayor. De la mIsma forma, esta distancIa está afectada por un peso Igual a nlk}' lo que mdica que una modalidad rara (con pocos efectIvos) tIene un peso mayor y una con muchos un peso menor. Por tanto, las modalidades raras alejan a los mdividuos de los demás. Para el caso de las columnas, la distancía vIene dada por: d
4.2.3.
2(.j,j") _~.
1 ·=¡fi1.
-L.,,-
(fii fij')2 _ ----
f
f.
~
kij k(i' ,k. J .k" J
-nL.,,---
..J.J
(27)
Centros de gravedad e ínercias
Como vImos en el ACS, el centro de gravedad de cada fila es la raíz cuadrada de 1,.' Para el caso del ACM. el centro de gravedad es Igual a: Lkij
1, =_J_ i. nQ
JL nQ
1 n
(28)
La inerCIa debida a una modalidad) es: fU)
=~
(1- k: )
(29)
Cuando el número de efectIvos de una modalidad es pequeño la mercia debida a esta modalidad es grande. Por tanto, conviene constrUIr una modalidad agrupándola con las más próxIma con objeto de evItar comportamientos extremos. La mercia debida a una varIable será la suma de las merclas de sus modalidades. Esto es: (30)
donde m k es el número de modalidades. © Ediclones Pirámide
137
Técnicas de análisIs de datos en investigación de mercados Al Igual que antes, cuando una pregunta tiene un número de modalidades demasiado grande, la inerCIa debida a esta variable crece. Por ello convIene que las modalidades de las variables tengan un valor razonable para evitar mfluenclas extremas. En fin, la mercia total será la suma de las inercias de todas y cada una de las modalidades o, lo que es Igual, la suma de las inercIas de todas las vanables: 1 = 2:,I(Vk) k
=M
Q
- 1
(31)
La mercla de la tabla inicial está determmada a pnon, ya que se conoce tanto el número de modalidades como el número de preguntas o vanables.
4.2.4.
MatrIZ a diagonalizar
Para el caso de ACM, la matnz a diagonalizar tiene la sIgUIente expresión: (32)
SIendo D- 1 una matnz diagonal cuyos elementos diagonales son los de la matnz Burt y B la matnz Burl. Esta última puede calcularse multiplicando la matnz onglnal de datos traspuesta por sí misma: (33)
donde Z es la matriz de datos ongmales. La matnz Burt tiene como filas y columnas a las modalidades que forman parte del análiSIS, o sea, está formada por Q2 bloques donde las diagonales cruzan a una vanable consIgo mIsma y el resto cruza a dos vanables distmtas. La matnz a diagonalizar V es una matnz de «vananzas-covananzas» o matnz de inercIa no centrada. EXIste también la posibilidad de calcular la matriz V centrada, es decIr, temendo en cuenta los centros de gravedad. Para ello basta aplicar lo comentado en la formulación del ACS. Una vez diagonalizada la matnz V obtenemos los autovalores y autovectores que nos permitIrán calcular las coordenadas de las modalidades de las vanables que están sometidas al análiSIS. Para exammar la calidad de representación, así como para la interpretación, se mantiene lo comentado en ACS.
4.3.
Ejemplo práctico (EJEMP.ACM)*
Supongamos que una determinada empresa de automóviles qUIere pOSICIOnar el modelo que comerCializa para identificar marcas competidoras y diseñar así una es-
*
138
Véase ejemplo en www.ugr.es/-Uuque. © Ediciones Pirámide
\O
>-' \,¡J
~
.'~
~
f
@
,
Iotal
Xantia: Sí
Ibiza: No Ibiza: Sí Xantia: No
Mercedes: Sí
Mercedes: No
Corsa: No Corsa: Sí ClIo: No Clío: Sí laguna: No Laguna: Sí
Valva: Sí
Ingr bajos Ingr medios Ingr altos >40 30-40 <30 Valva: No
Casado Soltero
,-
240
24 O 4 8 12 10 8 6 6 18 17 7 22 2 10 14 13 11 20 4 12 12
Casa.
¡.
100
O 10 10 O O O 3 7 8 2 O 10 O 10 8 2 10 O 3 7 9 1
Isrlt8 O O 8 O 4 3 1 3 5 7 1 8 O 2 6 5 3 8 O 3 5 80
4 10 14 O O 1 3 10 11 3 O 14 2 12 11 3 14 O 4 10 12 2 140
120
12 O O O 12 5 5 2 O 12 10 2 12 O 5 7 4 8 11 1 6 6
;BajoS. MediósAltos
': lIigres9s
10 O 1 4 5 10 O O 1 9 9 1 9 1 1 9 8 2 9 1 2 8 100
....
'
' '.,,'
110
3 3 3 5 O 11 O 5 6 8 3 8 3 8 3 5 6 8 3 8 3
8 .
30_40
130
6 7 10 1 2 O O 13 8 5 O 13 5 8 9 4 10 3 6 7 11 2 140
6 8 11 3 O 1 5 8 14 O 2 12 4 10 13 1 11 3 4 10 13 1
ljio
200
18 2 3 5 12 9 6 5 O 20 15 5 18 2 5 15 12 8 19 1 8 12
Sí
,Y';lvo
170
O O 7 10 9 8 O 2 15 17 O 17 O 5 12 9 8 17 O 6 11
17
22 O 2 8 12 9 8 5 4 18 17 5 22 O 8 14 11 11 20 2 10 12 220
170
2 10 12 O O 1 3 8 10 2 O 12 O 12 10 2 12 O 3 9 11 1
'Sí
120
qío
7 10 14 1 2 1 3 13 12 5 O 17 5 12 13 4 14 3 6 11 15 2
sí INo
Corsa
... No
Tabla de Burt (EJEMP-ACM)
TABLA 3.28
180
10 8 11 2 5 1 8 9 13 5 5 13 8 10 18 O 12 6 7 11 18 O
No
160
14 2 3 6 7 9 3 4 1 15 12 4 14 2 O 16 11 5 16 O 3 13
Sí
Laguna
230
13 10 14 5 4 8 5 10 11 12 9 14 11 12 12 11 23 O 13 10 14 9
No
-
110
11 O O 3 8 2 6 3 3 8 8 3 11 O 6 5 O 11 10 1 7 4
••
4 7 10 O 1 1 3 7 10 1 O 11 2 9 11 O 10 1 O 11 11 O 110
20 3 4 8 11 9 8 6 4 19 17 6 20 3 7 16 13 10 23 O 10 13 230
•. si
I\>i~a
.' Sí 'Nri
Mercedes
210
12 9 12 3 6 2 8 11 13 8 6 15 10 11 18 3 14 7 10 11 21 O
No
I
240 100 140 80 120 100 110 130 140 200 170 170 220 120 180 160 230 110 230 110 210 130
Total
130 3400
12 1 2 5 6 8 3 2 1 12 11 2 12 1 O 13 9 4 13 O O 13
Sí
Xantia:
Técmcas de análisis de datos en Investigación de mercados .trategla comercIal más adecuada. Para ello ha llevado a cabo un estudio exploratono con un total de 34 personas entrevIstadas a las que se pregunta por su actitud hacia detenrunados modelos (en total 7) y por algunas cuestIOnes generales como la edad, el nivel de mgresos o el estado CIvil. La tabla de frecuencIas observadas o tabla de Burt aparece en la tabla 3.28. La aplicación de ACM sobre esta tabla disyuntIva completa arroja los siguientes resultados. En pnmer lugar, hemos calculado las distanCIaS de las modalidades de las vanables respecto del centro de gravedad y, posterionnente, hemos calculado la inerCIa de cada modalidad. Un ejemplo de este cálculo es: Volvo: Sí = "'!'-(l- 20)· = 0,0411768 10 34 y así sucesIvamente. Conocida la mercla de cada modalidad, el sIguiente paso es la matrIz a diagonalizar y, a partIr de ahí, los autovalores y autovectores para cada factor. Los autovalores, la mercla explicada por cada uno de ellos y la descomposición de la X2 se muestran en la tabla 3.29.
TABLA 3.29 Autovalores y descomposición de la
i· >. :Xi i· 1 2 3 4 5 6 7 8 9 10 11 12
5..Y.~mr!'fi> ....
0,7673 0,4428 0,3433 0,2978 0,2747 0,2080 0,1853 0,1387 0,1237 0,0939 0,0834 0,0729
, .. > •
>"'si >....
.•. • >.
0,5888 0,1961 0,1178 0,0887 0,0755 0,0433 0,0343 0,0192 0,0153 0,0088 0,0070 0,0053
../
;ji
» .••••
....•....
49,0638 16,3375 9,8186 7,3897 6,2894 3,6042 2,8615 1,6025 1,2749 0,7354 0,5797 0,4429
r
iL;%~~
/ 49,0638 65,4013 75,2199 82,6096 88,8990 92,5032 95,3647 96,9671 98,2420 98,9774 99,5571 100,0000
> 694,5088 231,2612 138,9849 104,6026 89,0275 51,0182 40,5051 22,6833 18,0464 10,4100 8,2053 6,2694
El pnmer factor explica el 49% de la inerCIa y el segundo el 16%. Entre ellos dos totalizan casi el 65% de la mercia. La tabla 3.30 muestra las coordenadas de las modalidades en los dos pnmeros factores, así como la masa o frecuencIa margmal, la calidad de la representación y
140
© EdiCIOnes Pirámide
AnálisIs de correspondencias simple y múltiple TABLA 3.30 Coordenadas, masas, calidad de representación e inercza
Casado Soltero Ingresos baJos Ingresos medios Ingresos altos >40 30-40 <30 Valva: No Valva: Sí Corsa: No Corsa: Sí CHo: No CHo: Sí Laguna: No Laguna: Sí Mercedes: No Mercedes: Sí Ibiza: No Ibiza: Sí Xantia: No Xantia: Sí
-D,5125 1,2299 1,0803 -D,7404 -D,7668 -D,8650 -0,1290 0,7746 0,9388 -D,6572 -D,8823 0,8823 -0.6550 1,2009 0,6564 -D,7385 0,2865 -D,5990 -0,5702 1,1923 0,5378 -D,8687
0,1430 -0,3432 -0,3419 -D,2490 0,5649 -0,8021 0,9370 -0,1758 0,1623 -D,1136 0,1071 -0,1071 0,1745 -0,3199 0,5595 -D,6294 -D,4996 1,0445 -0,0340 0,0711 0,4229 -D.6832
0,0706 0,0294 0,0412 0,0235 0,0353 0,0294 0,0324 0,0382 0,0412 0,0588 0,0500 0,0500 0.0647 0,0353 0,0529 0,0471 0,0676 0,0324 0,0676 0,0324 0.0618 0,0382
0,6793 0,6793 0,8988 0,1878 0,4948 0,5798 0,4278 0,3905 0,6354 0,6354 0,7899 0,7899 0,8425 0,8425 0,8369 0,8369 0,6934 0,6934 0,6823 0,6823 0,7561 0,7561
0,0245 0,0588 0,0490 0,0637 0,0539 0,0588 0,0564 0,0515 0,0490 0.0343 0.0417 0,0417 0,0294 0,0539 0,0392 0,0441 0,0270 0,0564 0,0270 0,0564 0,0319 0,0515
la mercia relativa. Todos los modelos de coches incluidos en el análisis se encuentran bien representados en estos dos primeros factores, ya que su calidad de representación es supenor en todos los casos al 50%. No obstante, hemos de notar que otras modalidades como ingresos medios, edad: < 30 años y, en menor medida, ingresos altos y edad: 30-40 años tienen una representación peor. La tabla 3.31 muestra tanto las contribuciones absolutas como relativas en los dos pnmeros factores. Las modalidades que contribuyen en mayor medida a explicar el factor 1 son los distmtos modelos de coches, así como el estado CIvil y la modalidad ingresos: baJos. Si nos fijamos en las coordenadas que tienen estos puntos comprobamos cómo el factor 1 distmgue claramente a coches utilitarios o más pequeños de los coches de mayores prestacIOnes. Las modalidades que más contribuyen a explicar el factor dos son las relacionadas con la vanable Mercedes y la modalidad edad: 30-40 años. En el factor dos, con una importancIa considerablemente menor, parece reflejarse el efecto SImbólico que pueda tener una marca como Mercedes, en su modalidad Mercedes: Sí. © Ediciones Pirámide
141
Técmcas de análisis de datos en investigación de mercados TABLA 3.31 Contribuciones absolutas y relatívas
Casado Soltero Ingresos baJos Ingresos medios Ingresos altos >40 30-40 <30
Volvo: No V"lvo: Sí Corsa: No Corsa: Sí CHo: No CHo: Sí Laguna: No Laguna: Sí Mercedes: No Mercedes: Sí Ibiza: No Ibiza: Sí Xantla: No Xantla: Sí
0,0315 0,0756 0,0816 0,0219 0,0352 0,0374 0,0009 0,0390 0,0616 0,0431 0,0661 0,0661 0,0472 0,0865 0,0387 0,0436 0,0094 0,0197 0,0374 0,0781 0,0303 0,0490
0,6303 0,6303 0,8170 0,1687 0,3207 0,3118 0,0080 0,3714 0,6169 0,6169 0,7785 0,7785 0,7866 0,7866 0,4848 0,4848 0,1716 0,1716 0,6799 0,6799 0,4672 0,4672
0,0074 0,0177 0,0245 0,0074 0,0574 0,0965 0,1449 0,0060 0,0055 0,0039 0,0029 0,0029 0,0100 0,0184 0,0845 0,0951 0,0861 0,1800 0,0004 0,0008 0,0564 0,0910
0,0491 0,0491 0,0818 0,0191 0,1740 0,2681 0,4199 0,0191 0,0184 0,0184 0,0115 0,0115 0,0558 0,0558 0,3522 0,3522 0,5218 0,5218 0,0024 0,0024 0,2889 0,2889
En defimtiva, el ACM permíte vIsualizar de forma conjunta todas las modalidades en el plano formado por los factores 1 y 2. Así, se pone de relieve la eXIstencia de cIertas características comunes en la actitud hacIa los distmtos modelos de coches. Los solteros menores de 30 años y con unos mgresos baJos prefieren coches más pequeños o utilitarIOS como IbIza, Corsa o Fiesta, 10 que resulta coherente; prueba de ello son las campañas de publicidad de las empresas. Por el contrarIO, otros modelos como Xantia, Laguna, Valva o Mercedes suelen ser preferidos por personas casadas de más edad que para los modelos anterIores. Además, las personas con una actitud más posítiva a modelos como Mercedes o Valva suelen tener ingresos altos, aunque esta conclusión precIsa confirmación con otros análiSIS, puesto que la modalidad mgresos: altos no se encuentra muy bIen representada.
142
© Ediciones Pirámide
Análisis de correspondencias simple y múltiple
';;;'
1,4 r----,'-------,-----~----~,----~-------;
:~
1,2 --------
------1------------- --t------- -------+------------- -t--------------+--------------
: MerC:Sl * : 1,0 ----- --- ---- ---1---------------..-----------
..s Q)
:
:
: :
~
-l
: :
... - - - - - - - - - - - - - - - .... - - - - -
* :
_
: : 30-40 : : : 0,8 --------------¡---- ---- --- ----r--------------¡- ----- ---------¡---------------¡ ---- --- --- ----
""d
~
..q
--------------i----- --*------- ~--------------+- ---------- ---t----¡-------- -+-------------: Altos: : : Lagun:no: ---- ------ ----1------------ ---t------------- --¡------------ ---txail1:nü------ t-------------I
~;,
0,6
'-" ~
0,4
I
I
I
¡
: Clio:no: : : : ~:} 0,2 --------C~;~~1~-;------*---~-C;;;d~------T--------------¡-----~~l~~~~~-i-----~Ib---l.z-a-:s-l-
0\
.. o
J
-0,2
I
I
I
I
•
I
::::::::::::::F~~~~~L:~:f~~~:~~::::::::F::::::::::::i::::::~~~!:r~~~;;:::::
N" -0,4 --- -----------i----------I I
!=l
-o -0,6 ---------..l .~ Xatitsl*
•
----t-------- -------¡----------- ----t ---------------¡-----Solféfó--I
IMerc:no*
I 1.-------------.. .I * Lagm]:si ¡ ---- ---
I
,
I ----.., ---------------1-------- --_ --_
¡
¡
I
,
I
I
I
I
I
,
'
I
08 ---- ----------1--;.."40--------- r------ --------l---------------r---------------r-------------.§,.., -, Q
-1,0 +---+__~>___<_l___+__>___+-->-__l__+__+__+__+__I___+__.;_+__~e__..___+__>___+__l_-+-_+__+__+_i -1,0 -0,5 o 0,5 -1.5 1.0 1,5
Dimensión 1; Autovalor: 0,58887 (49,06% de la merela)
Figura 3.13.
5.
Representación de las vanables. Dimensión l versus dimensión 2.
APLICACIONES DEL ANÁLISIS DE CORRESPONDENCIAS El análisIs de correspondencIas es una técmca muy utilizada entre los lllvestIgadores. sobre todo cuando se trata de posicionar marcas. productos o servicIOs, formas de distribución. etc. Las pnnclpales aplicacIOnes al campo del marketIng se pueden resumIr en: Identificación de claves para la comunicación. Pruebas prevIas en la elaboración de mensajes publicItanos. Descubnmíento de segmentos o huecos de mercado. PosICIOnamIento y reposlclOnarmento de productos. Medida de eficaCIa de campañas publicitarIas. Identificación de la imagen de productos. entidades (en general, conceptos) y de sus competidores. Sin ámmo de ser exhaustIvos, se recogen algunos trabajos que utilizan en el análiSIS de correspondenCIas.
© EdiclOnes Pirámide
143
Técnicas de análisis de datos en investigación de mercados Posicionamiento e imagen La mayoría de los estudios que utilizan el análisIs de correspondencIas lo hacen pala posIcionar productos, marcas, canales de distribución, países e mcluso lugares geográficos con arreglo a CIertas características o atributos. Penelas (1998) trata de identificar las c\istmtas estrategias comercIales que realizan las entidades bancanas en el área del mercado mmoflsta, así como de determinar las variables que influyen en la elección de una estrategIa comercIal. Para esto utiliza dos análisIs de correspondencias sImples. En el pnmero, las columnas son las cajas y bancos clasjficados según la dimensión (grande, mediano, pequeño) y las filas los objetivos comerciales (fidelizar al cliente, nuevas áreas geográficas, dismmUlr el nesgo, etc.). En el segundo, las columnas están formadas por las cajas y bancos y las filas por distmtos atributos relatIvos al producto, distribución y promociónventa. Gómez (1997) intenta detectar las diferenCIas más significativas entre el marketmg de la banca de empresas y el de la banca al por menor. Para esto emplea el análiSIS de correspondencIas simple donde las filas son distintos atributos relaCIOnados con la distribución (desarrollar o Implantar la banca electrómca, crear oficinas espeCIalizadas en empresas, desarrollar o Implantar la banca telefónica, etc.) y las columnas son las entidades clasificadas por su naturaleza (banco o caja) y su tamaño (grande, mediano y pequeño). Moliner et al. (1994) estudia la percepción de determmados servICIOS basándose en algunos atributos. Al Igual que antes se usa el análisis de correspondencias SImple donde las filas son los atributos (información que ofrecen, trato amable, dominio de su trabajO, etc.) y las columnas son los tipos de serVICIOS (bomberos, tercera edad, deportes, cultura, etc.). Miquel et al. (1996) utiliza el análisis de correspondencIas sImple en cuatro ocaSIOnes para identificar grupos de países homogéneos en funCIón de los productos que más se conocen de cada uno de ellos, identificar grupos de países homogéneos en función de los productos por los que se les prefiere, identificar grupos de países homogéneos en función de los prOductos que más se compran procedentes de los mIsmos y conocer los atributos que mejor definen la producción de cada país, defimendo grupos entre los mismos. Del Barno et al. (1996) utilizan el análisis de correspondencIas para pOSICIOnar los distmtos formatos de venta a distancIa. Las filas están formadas por algunos atrIbutos relevantes (adecuado para personas que trabajan, libertad de horarIO, mejores precIOS, etc.) y las columnas por los distintos formatos (venta por correo, por teléfono, videocatálogo, etc.).
Clasificación y estructura de los mercados Gómez (1997), en uno de los múltiples objetivos planteados mvestiga la potencialidad de una agrupaCIón de empresas con relación a variables cualitativas. Para esto utiliza el análiSIS de correspondencIas múltIple usando la relevancia de la ac-
144
© EdiCIones Pirámide
Análisis de correspondencias sImple y múltiple tuación mnovadora, el poslClOnamiento de la actuación mnovadora, el perfil de actuación estratégica o el clima empresarial. Muñiz (1996) analiza las diferencias en las estructuras comerciales de los pnnclpales países de Europa tratando de determmar su mfluencla en las estrategias de las empresas. También se usa, en este caso, el análisIs de correspondencias múltlple considerando variables como: ventas, margen comercial, productlvidad, porcentaje de marcas propias, etc. Esteban et al. (1996) usan el análisIs de correspondencias múltiple para destacar las aplicaclOnes de carácter empírico que tlene la planificación estratégica en marketlng turístlco. Las vanabies utilizadas son, entre otras: motlvos de la visíta, organización del viaje, transporte, etc. Destaca también la combmación de técmcas, ya que también usa como variables segmentos obtenidos en una etapa antenor mediante el análisIs cluster.
INVENTARIO DE TÉRMINOS Y CONCEPTOS • • • • • • • • • • • • • •
AnálisIs de correspondencias simple y múltiple. Perfil de fila y de columna. DistanCia X2 entre filas y entre columnas. Inercia. Coordenadas estandanzadas de filas y columnas. Relación bancéntnca. Puntos suplementanos. Calidad de representación. Contribución absoluta y contribución relatlva. Descomposición aditlva de la X2 Mapas slmétncos y asimétrícos. Estabilidad mterna y externa. Desdoblamiento. Polanzación.
ANEXO Estabilidad interna: ángulos de variación de los ejes y el plano Para analizar la vanación que supone en los ejes la elimmación de un punto, es necesano calcular el parámetro h que refleja la parte de la mercia del punto s (can© EdicIones Pirámide
145
Técnicas de análisis de datos en investigación de mercados didato a ser elimmado) que permanece en el subespaclO formado por los ejes k, k + 1, ..., en relacIón a la diferencIa entre el autovalor de k y k + 1 y ajustado por el nuevo centroide [11(1 - ws)]' s.k 1 _w ) (1.2 ( h= ws
s
Ak
2 .+ ) +1.s,k+1 ... (34)
Ak +1
-
donde: w s : Masa del punto s.
!; k: Coordenada al cuadrado del punto s en el factor k. Ak : Autovalor del factor k. Otro concepto Importante es la contribución relativa de un punto en un factor. Se puede demostrar que la contribucIón relativa es Igual al coseno al cuadrado del ángulo rjJ, siendo este últImo el ángulo formado por el eje pnnClpal y el punto s. Por tanto: cos 2 rjJsk
= Contribución relatIva del punto s en el factor k = 2 !s~
d (s, G)
(35)
Calculadas las cantidades antenores, el ángulo de rotación de los ejes (rjJ) se obtiene de la sIgUIente fonna: Si h ;" 1:
tg 2'"'1'
h x sen 2rjJsk
~ ------'-""-1- h X COS2rjJsk
(36)
Si h
< 1:
tg 2'"'1'
h x sen 2rjJsk 1- h X COS2rjJsk
~ ------'-'''--
Así pues, SI I/J es menor de 45° entonces el eje k puede considerarse mternamente estable y en caso contrario mternamente mestable. De fonna análoga puede estudiarse la estabilidad de un plano. En este caso, el parámetro h se modifica de la sigUIente fonna:
ws
(1.2S,1
h = (l - w,) .
A2
+
1'2 J s,2
+
...
)
-~
(37)
y el ángulo que contiene el plano prmclpal (l/Js,I'2J es igual a:
COS
2," 'I's,I-2
. = COS 2 1JsI + cos 2,"'I's2
(38)
CalcUlado lo anterior se probará de nuevo la deSIgualdad que contiene la expresión 36.
146
© Ediciones Pirámide
Análisis de correspondencIas simple y múltiple No obstante, tal y como señalan Escofier y Page (1988), no puede exclmrse a los puntos fila o columna úmcamente basándose en critenos de merCla, porque su exclusión implica la modificación de los obJellvos del estudio. Por ejemplo, si deseamos estudiar la imagen que los consumIdores llenen de las marcas de leche comercializadas en Andalucía basándose en cIertos atributos y en el primer factor se evidencia una gran contribución de la marca líder, no se puede elimmar este punto del análisis porque estaríamos representando el mercado parcIalmente y se está suprimIendo la marca que mayor cuota de mercado llene en Andalucía.
BIBLIOGRAFíA Abasca!, E. (1986): «El análisis factorial de correspondencias aplicado al Marketing», Boletín de Estudios Económicos, vo!' XLI, núm. 129, diciembre, pp. 575-592. Abascal, E., y Grande. 1. (1989): Métodos multlvarzantes para la mvestlgación comercial, Anel, Barcelona. Bendixen, M. (1996): «A Practlcal Guide to the Use of Correspondence Analysls m Marketmg Research», Umversíty of the Witwatersrand, vo!' 1, Sudáfrica, pp. 16-38. Benzécri, J. P. (1992): Correspondence analysls handbook. Marcel Dekker, Nueva York. Benzécri. J. P. (1984): Practlque de l'analyse des donées, Dunod, París. Bisquerra Alcina, R. (1989): Introducción conceptual al análisis multivarzable: un enfoque mformátlco con los paquetes SPSS-X, BMDP, LISREL y SPAD, Promociones y PublicaCIOnes Umversilmas, Barcelona. Carrasco de la Peña, J. L., Hemán Huerta. M. A., Y Centro de Investlgación Bioestadístlca (1993): EstadístIca multlvarzante en las clenczas de la vida: fundamentos, métodos y aplicación, CienCIa, Madrid. Carroll, J. D.; Green, P. E., Y Schaffer, C. M. (1989): «Reply to Greenacre's Comentary on the Carroll-Green-Schaffer Scaling of Two.Way Correspondence Analysis SolutlOm>, Joumal of Marketmg Research, vol. 26. agosto. pp. 366-368. Cmoll, J. D.; Green. P. E.. Y Schaffer, C. M. (1987): «Comparing Interpoint Distances m Correspondence Analysis: A ClarificatlOn», Joumal of Marketmg Research, vol. 24, noviembre, pp. 45-50, Carroll, J. D.; Green, P. E., Y Schaffer, C. M. (1986): <
147
Técnicas de análisis de datos en investigación de mercados Efron, B. (1982): The jackknife, the bootstrap and other resampling plans, Siam, Philadelphia, citado en D. Peña (1994), Estadístlca. Modelos y métodos: fundamentos, Alianza Editorial, Madrid. Efron, B. (1979): «Bootstrap methods: another look at the Jackknife», Ann. Statlst.. 7, citado en M. J. Greenacre (1984), Theory and Applicatzons of Correspondence Analysls, Academic Press, Londres. Escofier, B., y Pages, J. (1988): Analyses factorzaUes simples et multlples: ObjeCIIVes, methodes et znterprelatzon, Dunod, París. Esteban, A.; De Madarlaga, J., y Narros, M. J. (1996): «Aportaciones empíricas a la planificación estratégica en marketmg turístico», VIII Encuentro de Profesores Universltarzos de Marketing, Zaragoza, pp. 269-278. Garcés, C., Pedrap, M., y Rivera, P. (1995): «Vanables sociodemográficas deterrnmantes del comportamiento ecológico de los españoles», VII Encuentro de Profesores Unzversltarzos de Marketing, Barcelona, pp. 513-521. García Santesmases, J. M. (1984): «AnálisIs factonal de correspondencias», en J. J. Sánchez Carrión, Introducción a las técnzcas de análisis multivariable aplicadas a las ciencIas sociales, Centro de Investigaciones Sociológicas, Madrid, pp. 73-105. García, A., y Del Olmo, J. (1994): «Estudio sobre la percepción que los clientes tienen del grupo SAAT (1." parte)>>. VI Encuentro de Profesores Untversztarzos de Marketzng, San Sebastián, pp. 121-131. Gómez, J. M. (1997): «Los centros europeos de empresas mnovadoras en la promoción empresarial: estudio empírico de resultados y tipologías en un caso significativo», RevIsta Europea de Dirección y Economía de la Empresa, vol. 6, núm. 3, pp. 33-45. Gómez, M. (1997): «Estrategias de distribución en banca de empresas». IX Encuentro de Profesores Universitarios de Markelzng, Murcia, pp. 187-201. Grande, 1.. y Abascal, E. (1995): Fundamentos y técnicas de znvestigación comercial, ESlc Editorial, Madrid. Green, P. E.; Schaffer, C. M., y Patterson, K. M. (1995): «A reduced-space approach to the clustenng of categorial data in market segmentatlOn», en J. F. Halr, Multivarzate data analysis: with readings, Prentice-Hall, Nueva Jersey, pp. 542-555. Greenacre, M. J. (1984): Theory and Applications of Correspondence analysts, Acadermc Press Inc., Londres. Greenacre, M. J. (1993): Correspondence analysis zn Pracllce, Academic Press Inc., San Diego. Greenacre, M. J. (1989): «The Carroll-Green-Schaffer Scaling m Correspondence Analysls: A Theoretlcal and Empirical AppraIsaI», Joumal of Marketzng Research, vol. 26, agosto, pp. 358-365. Halr, J. F. (1995): Multlvartate data anlysts: with readings, Prentlce-Hall, Nueva Jersey. Hoffman, D. L., y Franke, G. R. (1986): «Correspondence Analysls: Graphical Representatlon of Categorical Data m Marketmg Research», Joumal of Marketzng Research, volumen 23, agosto, pp. 213-227. Hoffman, D. L., De Leeuw, J., y AfJunji, R. V. (1980): «Multlple correspondence anlysIs», en R. P. BagozzJ: Causal models zn marketzng, John Wiley & Sons, Nueva York, pp. 261-294. Jordi VaIlespín, J. L. (1981): «Aplicación al marketing del análisIs factorial de correspondencias», ESlc-Market, septiembre-dicIembre, pp. 39-53.
148
© EdiclOnes Piramide
Análisis de correspondencias simple y múltiple Lebart, L., Mormeau, A., y Fenelon, J. P, (1985): Tratamiento estadístlco de datos, Marcombo, Madrid. Luque, T. (1997): Investlgación de marketing, Ane1, Barcelona. Mallo, F. (1985): AnálisIs de componentes principales y técnicas factoriales asociadas, Umversidad de León, León, Micheloud, F. X, (1996): «Correspondence Analysls», Advances Econometrics Workshop, Lausanne. Miquel, S., Bigné, J. E.; Frasquet, M.; Küster, 1., y Vila, N. (1996): «El efecto país de origen en la formación de actitudes», en T. Luque Martínez (ed.), La empresa en una economía globalizada: retos y cambios, vol. 1 A, ASOCIación Europea de Dirección y Economía de la empresa, Granada, pp. 31-44. Moliner, M. A.. Vallet, T., y Sánchez, J. (1994): «Percepción y posicionarmento de los serVICIOS públicos. Una aplicación a la ciudad de Castellón», VI Encuentro de Profesores UniversitarIOs de Marketing, San Sebastián, pp. 153-163. Muñiz, N. (1996): «DiferenCIas en las estructuras comercIales de los pnnclpales países de Europa», en T. Luque Martínez (ed.), La empresa en una economía globalizada: retos y cambios. vol. 1 A, Asociación Europea de Dirección y Economía de la Empresa, Granada, pp. 323-337. NarvaIza, J. L. (1990): AnálisIs multzvanante aplicado al estudio de las actItudes. Comparación del análisIs por componentes y correspondenclOs, Universidad de Deusto (tesis doctoral), Bilbao, Pedret, R.; Puig, A., y Sagnier, L. (1993): «Comumcación de mapas perceptuales», V Encuentro de Profesores Universitarios de Marketing, Sevilla, pp. 553-572. Penelas A. (1998): «Estrategias comerciales en el sistema bancario español», ESlc-Market. enero-abril. Peña, D. (1994): Estadístlca. Modelos y métodos: fundamentos, Alianza Editona1, Madrid. Ripley, B. D. (1987): Stochastlc simulatlOn, John Wiley & Sons, Nueva York. Sánchez, J. (1992): «AnáliSIS de correspondencias binario», Curso de análisIs multzvanable, SeminarIO AEDEMO, Madrid. Sánchez, J. (1992): «AnáliSIs de correspondencIas múltiple», Curso de análisis multlvanable, SeminarIO AEDEMO, Madrid. Statlstlca for Windows (1995): «Statishc II (vo1ume III)>>, Statsoft, Tulsa, üK. Thompson, J. R., Y Tapia, R. A. (1990): Nonparametnc function estlmatlOn, modelling and slmulatlOn, Siam, Philadelphia. Weller, S. c., y Romney, A. K. (1990): Metnc scaling: Correspondence analysls, Series: Quantltave applicahons m the SOCIal sciences, Sage UmverSIty Paper, CalifornIa.
© EdiCIOnes Pirámide
149
Teodoro Luque Martínez
1.
INTRODUCCiÓN Cuando nos mteresamos por algún fenómeno, el proceso lógico es, prImero, una aproxImación o una exploración para hacemos una idea general, después un mtento de descrIpción y de expresar lo que es, cómo es y las característIcas que tIene para, posterIormente, mtentar distmgUlr entre modalidades y tIpos o establecer clases, Esta secuencIa es así tanto para conocer mejor detenmnados fenómenos cotidianos como para ampliar el conocImIento cIentífico sobre algo. Contmuamente se presentan sItuacIOnes en las que es necesarIO establecer categorías más o menos eslnctas. Por ejemplo, esto es muy frecuente en las decisiones de compra. Cuando algUIen mtenta decidir un destmo turístIco para sus vacaCIOnes, en un prinCIpIO, recaba mformación sobre diferentes opcIOnes o alternatIvas y termma haCIendo tIpOS de destInos con aneglo a determmadas características; cuando nos enfrentamos a la decisión de compra de un automóvil o de una vIvIenda termmamos haCIendo categorías de vehículos, según precio, potencia, capacidad o diseño; o tIpos de vIvIenda, atendiendo al preCIO, proxImidad al centro de la ciudad, infraestructura de la zona (accesos, colegIOS, etc.) o de otras característIcas técnicas. Pero, eso sí, antes debemos recabar mformación, tener un conocimíento suficIente del asunto planteado. Igualmente en el saber que pretenda ser científico se plantea esta secuenCIa. Tras un mímmo conocImiento surge la necesidad de clasificar y de identificar subconJuntos que tIenen matIces diferenciados. Es más, sIempre que comenzarnos a estudiar cualquier disciplina se empieza por la defimción y a contmuación por la división, por la distínción de típos o partes. En la evolución y desanol1o de las ciencias y de sus métodos se observa una sucesión de etapas en las que predomínan, primeramente, la deSCrIpción y la observación. En una segunda fase la preocupación fundamental es la clasificación, la sistematIzación, la distmción entre cosas y procesos. Finalmente, se contmúa con el mterés por el análisis dinámico, la experimentación, la identificación de relacIOnes causales o la predicción.
© EdiclOnes Pirámide
151
Técnicas de análisis de datos en investigación de mercados La necesidad de diferencIar, clasificar o establecer grupos también contribuye a mejorar el conocImIento de las cosas. Tal necesidad se tiene en todas las ramas del conocimiento, en biología o zoología para distmgmr entre especies y familias de ammaJes y plantas, en pSIcología para distmgmr entre tipos de personalidad o tipos de comportamIento, en socIOlogía para identificar grupos socIales, en economía para establecer sectores, tlpos de productos o tlpos de consumidores, por poner solo algunos ejemplos. Es evidente que cada uno de los ejemplos antenores tIene sus particularídades pero que, al mIsmo tlempo, hay elementos comunes, por lo que está Justificada la eXIstencIa de una manera de proceder o de una metodología general de la clasificación. PrecIsamente eso es lo que pretende L~ taxonomía o cIencia general de la clasificacIón. La taxonomía se ocupa de establecer un sIstema de clasificación para agrupar objetos (de los que se tiene cIerta mformaclón) en categorías, de manera que Jos obJetos que pertenezcan a una mIsma categoría sean lo más parecidos posible entre ellos y a la vez lo más diferentes posible a los de otras categorías. De los objetos a clasificar podemos conocer determmadas característlcas o bIen mdicadores sobre la proximidad existente entre ellos, lo que también se puede dedUCIr de las característlcas de los mIsmos. Básicamente hay dos crítenos para distmguH grupos: Cnteno estncto, dicotómIco, por el que si un objeto o caso cumple una condición pertenece a un grupo y SI no la cumple pertenece a otro. Cnteno estadístico, no tan drástico, por el cual se conoce la probabilidad de que un determmado objeto o caso pertenezca a un grupo. Pues bien, en este capítulo nos ocupamos precIsamente de los problemas denvados de la identificación de tipos o clases y de las técmcas para llevar a cabo el proceso de clasificación a partir del conocImIento de determmadas característlcas de los objetos o casos a agrupar.
2.
ANÁLISIS CLUSTER: CONCEPTO Y CARACTERíSTICAS Por análiSIS cluster! deSIgnamos un conjunto de técmcas dentro de los métodos denommados interdependientes -en los que no se hace distmción entre varíables dependientes e independientes- cuyo propósito es formar grupos a partir de un conjunto de elementos. Tales grupos deben estar compuestos por elementos lo más parecidos que sea posible (homogeneidad mterna) y a la vez lo más diferentes que sea posible entre grupos (heterogeneidad entre grupos).
1 También denominado de grupos, de conglomerados o tipologías. La denominación de cluster está bastante extendida y se asocia con técnicas que nada tienen que ver con otra acepción que la expresión
«análiSIS de grupos» (por la que se traduciría literalmente) podría tener en nuestro idioma. En realidad la
vanedad de ténninos existentes es consecuencia de las denornmaciones utilizadas en las diferentes disciplinas; de hecho el mismo ténnino «taxonomía» está asociado en un principlO a las ciencias naturales.
152
© Ediciones Pirámide
AnálisIs cluster Es Importante resaltar que la agrupación se produce temendo en cuenta las características o vanables de las que se dispone; con arreglo a ellas se realiza la clasificación y, por tanto, determman el resultado final de la mIsma. Normalmente se entiende que estos grupos deben ser mutuamente exclusIvos (que no compartan nmgún elemento) y colectivamente exhaustivos (que comprendan a todos los elementos). Sin embargo, hay algún procedimiento de agrupación que no respeta estas condicíones, agrupación borrosa o basada en la lógica de los fuzzy sets, aunque no sea el tipo de agrupación más frecuente en la práctica. Las pnnclpales notas características del análisis cluster son: No hay distinción entre variables dependientes e mdependientes. Se persIgue establecer grupos homogéneos mtemamente y heterogéneos entre ellos. Se pueden agrupar casos o mdividuos pero también variables o característlcas, a diferenCIa del análiSIS factonal, que se centra en variables. Se trata de técmcas descriptivas, no de técmcas explicativas. Implícitamente se admite que en la población o conjunto de elementos a agrupar, y para el conjunto de características o variables que se dispone, eXIste la posibilidad de clasificar. Por ejemplo, supongamos que tenemos un conjunto de ciudades que queremos agrupar en grupos homogéneos, de cada una de ellas conocemos un mdicador de capacidad de compra y un mdicador de nqueza. Esta situación tan SImple nos permite representar en un gráfico las ciudades según tales características. Si el gráfico obtenido fuese una nube de puntos homogénea no tendría mucho sentido la clasificación con estas variables. Pero SI la representación fuese como la de la figura se comprueba la eXIstencIa de tres grupos bIen diferentes entre ellos, y cada grupo compuesto por elementos muy SImilares con arreglo a las dos vanables consideradas. Un grupo estaría formado por las CIUdades con mayores mdicadores de capacidad de compra y de nqueza, otro por las ciudades con los menores mdicadores y, por ÚltImo, otro por CIUdades con mdicadores próxImos a la media del conjunto. En la práctica las sltuacíones que se presentan son muy diferentes, serán muchos más los casos y muchas más las vanables a considerar, por lo que la agrupación no resulta tan evidente, como tampoco lo es la eXIstencIa de grupos mtemamente homogéneos y heterogéneos entre ellos. A esto hay que añadir, por un lado, la diverSIdad de formas de medir el pareCIdo o la prOXImidad entre dos elementos y, por otro, los diferentes procedimIentos de agrupación eXIstentes. En consecuencia, se pueden obtener una gama amplia de posibles resultados, lo que eleva el riesgo de padecer instrumentitis o mal del artefacto estadístico que, en defimtlva, conduzca a conclusíones que poco tengan que ver con la realidad en estudio. En el análisis cluster es espeCialmente importante la representatlvldad de la muestra y vigilar la eXIstencIa de multicolinealidad de las vanables; sm embargo, no es tan crucial como en otras técnicas el cumplimiento de determmados supuestos © EdiCIOnes Pirámide
153
Técnicas de análisIs de datos en inuestigación de mercados
¡, I
¡
I
----------.. ., -----------¡-----------:-----------
,
"
I
-----------¡----------¡--E>-------~----------
,
l
'
I
I
I
!
: :
:
ql
:
1
"
I
I
"
o
I
----------~-----------t-----------:_---------- -----------~-----------:--------e_-+----------I
:
__ - - - - - - __ -l_ - - _
, ,
__ - - -
I"
l
i
t ' I
I
I
" I
I
: : : : -------f"---- ---- -J-------------- -------: ----------;----------..----- ----¡ I ¡ I I ~
1
1
,
I
I
1,
I"
I
I"
I
¡,
;
:
:
nO:
:
:
-lI
,¡ . - - -
v
-,..--________ I
v
----
- - - ,' . - --
;"
---
"
I" I
I I
" I l i T ' "
I
I
I
I
: : : ---- ---- ---1------- - ---~---- ----- --+-----------
I
I
I
----t- ---- ------
,
,I , ,
1
,
i
,
I
I
1
I
I
I
I
I
------- --- ~--e--- --- --~ --- --- - ----~ --- ------- -- ---- ---- -~--- ----- ---:-- ------ --- t---- ------I
O: I
Q:
-- --- -----E>- --- ----e--1--------- ---:---------- II
"I
I I 1
I I I
I 1 I I
"1 I I I
I I I I
I
II , , I
Índice de capacidad de compra
Figura 4.1.
Ejemplo de representación de ciudades.
como los de linealidad o nonnalidad. La representatlvidad condicIOna el propio análisis y los resultados obtenidos están supeditados a ella. Las conclUSIOnes sobre una tipología de consumidores a la que se ha llegado con una muestra poco representativa tendrán escaso fundamento, y desde luego no tendrán mngún valor para generalizar. Por otro lado, nuestras conclUSIOnes serán muy criticables SI se basan en un análiSIS que haya considerado muchas variables que estén midiendo solamente una dimensión concreta de los casos y ninguna o pocas vanables que midan otras dimensOnes de interés. Estas deficIencias se superan trabllJando con una muestra representativa y consIderando para el análisIs un conjunto de vanables en el que se tenga una medida equilibrada respecto de las dimensIOnes relevantes. Hay otras técnicas que también conducen a la fonnación de grupos. El análisis discnminante a través de casos conocidos llega a establecer una regla de aSIgnación de los elementos a los grupos, distingUIendo entre la pertenencIa a un grupo como varIable a explicar y las otras característIcas o varIables como explicatIvas; mIentras que el cluster llega a grupos homogéneos pero no establecIendo una nonna de asignación, y tampoco hace distinción entre vanables explicativas y a explicar. Por lo que respecta a la distincIón con el análisIs factorial, el cluster agrupa vanables (o bIen casos) consIgUIendo grupos de vanables asocIadas pOSItivamente, en tanto que el factonal SintetIza vanables en un factor, que está relaCIOnado con ellas posItIva o negativamente. Las variables relacIOnadas posItivamente y las relaCIOnadas negativamente con un factor no aparecerían en un mIsmo grupo si aplicamos el análiSIS cluster.
154
© Ediciones Pirámide
Análisis cluster
3.
PROCESO DE ANÁLISIS CLUSTER Como cualqUIer técmca de análisIs de datos, el análisIs cluster conStItuye una fase dentro de un proceso de mvestIgación en el que ya se habrían fijado los obJetIvos, las hipótesIs o los procedimIentos de obtención de datos que se consideraran pertinentes. Incluso para la obtención de la información ya se deben contemplar los requenmientos de los análisis de datos que se piensan adecuados según nuestros objetIvos de investIgación. Cuando estos objetIvos supongan la división o la clasificación de elementos, ya sea con mtenclOnes exploratorias ya sea con mtenclOnes descriptIvas, o mcluso para apoyar la existenCIa de una determinada estructura, entonces podemos recurnr al análisIs cluster. En tal caso cabe distIngUir vanas etapas.
3.1.
Fase de preparación
Dada una base de datos, en pnmer lugar hay que seleCCIOnar y preparar las vanables y los casos con los que vamos a trabajar. Las conclusiones que se alcancen siempre están supeditadas a las variables con las que se ha trabajado. Por tanto, la selección de las variables debe hacerse de manera que éstas sirvan para describIr la relación entre los casos u objetos y que sean pertmentes para las pretensIOnes de la mvestIgación. En caso contrarIO pueden distorsionar los resultados. Así, es convemente para la elección recurnr a: Los planteamientos teóncos que sobre el fenómeno en cuestIón se tengan. El conocImIento empínco de estudios realizados. El conocImIento basado en suposiciones sufiCIentemente fundadas o en mvestIgaclOnes exploratorias previas. En este análiSIS, como en el factonal, el analista puede repetIr el proceso con vanables o especificaCIOnes diferentes y valorar las diferentes conclUSIOnes alcanzadas. En el caso del cluster la posibilidad de influenCIa del analista en los resultados es considerable, en tanto que vendrán condicionados por sus decisiones. Es frecuente que las varIables vengan en diferentes unidades o diferentes escalas de medida, por lo que conviene normalizarlas para evitar tales mcidencias. Otras circunstancIas poco deseables que se presentan son que las variables estén correlaCIOnadas o mcluso que su número sea excesivo, lo que tendría como consecuencIa dificultar el análiSIS y/o un efecto redundante para detenninadas dimenSIOnes o atrIbutos similares. Para corregIrlos cabe recurnr a alguna técmca que smtetIce la mfonnación y nos proporcIOne vanables incorrelaclOnadas como el análiSIS factonal o en componentes prinCIpales. Por otro lado, también deben especificarse los casos o elementos a considerar, bIen todos o bien sólo una parte. Los valores extraños o extremos reqUIeren un tratamIento especial. Estos valores constItuyen una verdadera excepción pero, sm em© EdiCIOnes Pirámide
155
Técnicas de análisis de datos en investigación de mercados bargo, distorsIOnan la estructura, la representación gráfica y hasta la mterpretación, por lo que sería aconsejable su exclusión del análisis.
3.2.
Determinación de las especificaciones
Como ya se ha comentado, se pretende formar grupos de elementos homogéneos; por tanto, y en prImer lugar, se reqUIere una forma de medir el 'parecido entre dos elementos y, en segundo lugar, hay que defilllr un procedimiento para constltUlr los grupos entre los que más adelante se comentan. Para medir la semejanza o parecido entre dos objetos se utilizan medidas de SImilitud o distanCIa; dos objetos son más parecidos cuanto más sImilares son, o cuanto más pequeña es la distanCia entre ellos. Estas medidas se agrupan en tres clases que exammamos a contmuación. a)
Medidas de correlación
Se trata de una medida emínentemente cuantltatlva, aunque también puedan calcularse coeficIentes de correlación para variables no métrIcas que vengan en escala nommal u ordinal; es el caso de los coeficientes de correlación de rangos de Spearman o de Kenda1l2 Para unas vanables dadas, dos objetos son muy simílares SI tIenen correlacIOnes altas y no serán parecidos si tienen correlacIOnes bajas. Aunque hay que advertlr que la correlación nos informa sobre la forma en la que varían dos variables más que sobre la magllltud de las mismas. Por ejemplo, en la tabla adjunta las variables 1 y 2 tlenen una correlación muy alta y lo mIsmo ocurre con la 3 y la 4; sin embargo, nada tlenen que ver en cuanto a las magllltudes de sus valores, y en tal caso se parecerían más la varIable 1 a la 3 y la varIable 2 a la 4. TABLA 4.1 DiferenclG entre correlación y magnitud
b)
1 2
100
10
110
110
3 4 5
200 160 150
12 20 17
120 90 150
15
15
140
14
11 10 9
Medidas de distancias
Son las más utilizadas. La distanCIa entre dos Objetos A y B de un mIsmo conJunto es una medida que satlsface las sIgUIentes condiciones: 2 Para más detalle de estos y otros coeficIentes de correlación, véase Luque (1997).
156
© EdiCIones Pirámide
Análisis cluster La distancIa de A a B, d(A, B), es un valor POSItiVO. Si es cero entonces A y B son Iguales. La distancIa de A a B es igual que la de B a A. Si C es un objeto que pertenece al mIsmo conjunto que A y B, entonces: d(A, B) :'> d(A, C) + d( C, B) La distancIa entre dos elementos de un conjunto se obtiene por la proxImidad que tales elementos tienen en cada una de las vanables consideradas. En referencIa a estas varIables hay que advertir que la relación eXIstente entre ellas condicIOna el resultado final. Así, SI una parte importante de las vanables están correlacIOnadas o miden diferentes aspectos de una misma característIca, será esta característica la que mayor mfluencla tenga en los grupos obtenidos. Por ejemplo, SI se trata de identificar tipos de automóviles utilizando seIs varIables de las que cuatro se refieren a capacidad, una a estilo y otra a tecnología, no cabe duda de que los grupos resultantes serán consecuencia, sobre todo, de la mcidencla que tengan las características de capacidad. Una forma de corregIr este efecto consiste en ponderar las vanables de manera diferente, pero entonces surge el problema de cómo establecer los cntenos para la ponderación. Como se ha dicho, una alternativa es el análisIs factonal, que nos proporcIOna las dimensiones fundamentales y además las establece como mcorrelaclOnadas. Ante la selección de una medida de la distanCIa deben contemplarse sus propIedades y la forma de agrupar a los elementos. Por otro lado, se ha de tener presente que cuando se agrupa utilizando medidas de distanCia se está consIderando la similitud de las magnitudes de las variables, aunque su variabilidad no tenga mucho que ver, mIentras que SI se recurre a medidas de correlación lo que predomzna son los patrones de varzación y no tanto las magnztudes de las variables. Algunas medidas de distancia son las sIgUIentes: Distancia euclídea. Es la distanCIa geométrica en un espacIO de unas dimensIOnes determinadas. La distancia euclídea es espeCIalmente adecuada para ejes ortogonales. Con dos dimenSIOnes es la hIpotenusa del triángulo rectángulo, mientras que para i dimensiones la distancia entre dos elementos X e Y es la raíz cuadrada de la suma de las diferencIas al cuadrado para cada dimensión: d(X, Y) =
~~(X¡ - r:?
Además de esta distanCIa euclídea denommada simple, se utiliza la distancia euclídea al cuadrado que es Igual. pero sm hacer la raíz cuadrada; o la distancia euclídea media que se obtIene dividiendo por el número de sumandos o vanables sobre las que se calculan las diferencias. Veamos un ejemplo: SI conocemos los índices de nqueza y de capacidad de compra de CInco cmdades la distanCIa euclídea entre la ciudad 1 y la 2 es: © EdicIOnes Pirántide
157
Técnicas de análisis de datos en investigación de mercados
TABLA 4.2 Ejemplo de característIcas de cinco ciudades
4,00 6,00 8,00 5,00 7,00
1
2 3 4 5
d(l, 2)
= ~(6 -
1,20 1,40 0,90 0,80 1,50
4)2 + (1,4 _1,2)2
La distanCIa euclídea al cuadrado es d2(1, 2) la distanda media: d(l 2)
,
= (6 -
= 2,01 4)2 + (1,4) - (1,2? = 4,04; Y
= d(l,2 2) = 1' 005
La distanCIa euclídea para cada pareja de casos sería: TABLA 4.3 Distancla entre ciudades
0,00 2,01 4,01 1,08 3,01
2,01 0,00 2,06 1,17 1,00
4,01 2,06 0,00 3,00 1,17
1,08 1,17
3,01 1,00
3,00 0,00 2,12
2,12 0,00
1,17
Ahora bien, si el índice de capacidad de compra vlmese dado en porcentajes, por ejemplo: 120 para la dudad 1, 140 para la cIUdad 2 y así respectIvamente, las distanCIas entre CIUdades cambIarían sensiblemente. En ambos casos la distanCIa menor se da en la pareja (2, 5), pero mIentras que en el primer caso a contmuación estaban las parejas (1, 4); (2, 4) Y (3, 5); en la segunda sítuadón son las parejas (3, 4) Y (1, 2). Lógicamente esto afectará a la formación de los grupos, aunque ése no es un problema específico de la distancia euclídea, smo que se presentan en otras. En estas cIrcunstanCIaS conviene estandarizar los datos.
158
© Ediciones Pirámide
AnálisIs cluster TABLA 4.4
Distancza entre cIudades
En notacióI! matnclal la expresión de la distancia sería:
d2(X, Y)
= (X, -
Y;)' (X, - Y;) = d' d
Distancza de Minkowski. Se expresa como d(X, Y)
= [~(X, -
Y;)n
r
para n mayor o igual a 1. Para n = 2, es la distancIa euclídea. Para n = 1, se trata de una distancIa denommada de city-block o de Manhattan, que representa la distancIa a recorrer entre dos puntos con un trazado urbanístico perpendicular. Consiste en sumar las diferencias absolutas entre las variables; en muchas ocasIOnes proporcIOna resultados similares a la distancia euclídea. Su expresión es:
d(X, Y) =
LIX, - 1;1
La tabla 4.5 recoge los valores de las diferentes medidas de distanCIa y para las diferentes escalas en las que se mide la varIable capacidad de compra.
Distancia de Chebychev. Su expresión es: d(X, Y)
= maxlX, - 1;1
DistanCia de Mahalanobis. Esta distanCIa tJene una métnca distmta a la de la euclídea. Es recomendable para situaciones en las que se produce multlcolinealidad. Comcide con la euclídea para variables estandarJzadas cuando las correlaciones son nulas. Se obtiene a partir de la expresión d(X, Y)
= (X, -
Y;)' W-' (X, - Y;)
W: Matnz de covarianzas. © EdiclOnes Pirámide
159
Técnicas de análisis de datos en Investigación de mercados TABLA 4.5 Diferencia entre tipos de distancia utilizando diferentes escalas
l.
'. .
"--.~--1·2 1-3 1-4 1-5 2-3 2-4 2-5 3-4 3-5 4-5
Distancia"· Distancia' euclídea2 • euclídea
404 916 1.601 909 2.504 3.601 101 109 3.601 4.904
* DistanCIas cuando el c)
20,1 30,2 40 30,1 50 60 10 10,4 60 70
Distancia Manhattán
Distancia*
22
4 16,1 1,2 9,1 4,25 1,36 1,01 9 1,4 4,49
34 41 33 52 61 11 13
61 72
eu~líd~a2
n;~WJ1~ia~ r"Di~,ta~cia* euclídea
. Manhattan
2,01 4,01 1,08 3,01 2,06 1,17 1 3 1,17 2,12
2,2 4,3 1,4 3,3 2,5 1,6 J,¡
3,1 1,6 2,7
índice de capacidad de compra está expresado en porcentajes.
Medidas de asociación
Tienen un carácter cualitativo, se obtIenen a partir de la existencia de comcldenclas, de acuerdos o desacuerdos. La medida del parecido entre objetos a través de sus características cualitatIvas también se suele denommar medidas de sImilitud que, al contrano de la distanCia, a mayor sImilitud mayor parecido. La medida de la sImilitud debe satIsfacer las sIgUIentes condicIOnes: -
La sImilitud entre A y B es Igual que la eXIstente entre B y A: SAB = SBA' La similitud de A consigo mIsmo o de B consIgo ID1smo es Igual y mayor que la sImilitud existente entre A y B: SAA = SBB > SAB' para A *- B. Al igual que en la distancia, a veces se añade una tercera condición conocIda como la deSIgualdad del triángulo: SI SAB y SBC son grandes, entonces SAC también lo es.
La utilización de estas medidas en el análisIs cluster está condicIOnada por los programas mformáticos; en realidad los programas convencIOnales de mayor difusión ofrecen unas posibilidades limitadas para las medidas de asocIacIón. Las medidas de sImilitud se obtienen bIen mterrogando directamente a personas sobre su percepción, bIen midiendo las característIcas o la posesión de atributos. En este sentido, un caso partIcular es la utilización de vanables bmanas (con valores O, no posesIón de un atributo, y 1, posesión de un atributo) a partIr de las cuales se construyen índices sabIendo que las posibilidades que se pueden presentar son: -
p = Número de comcidenclas positIvas (1, 1).
-
n = Número de coincidencIas negativas (O, O). d = Número de diferenCias (1, O).
-
160
© EdiCIOnes Pirámide
AnálisIs cluster
-
e = Número de diferencias (O, 1).
-
t=p+n+d+e.
La combmación de estas situacIOnes da lugar o una amplia gama de índices, según se pnme las comcidenclas positivas y/o negatIvas o las diferencias de uno u otro tIpo. Algunos de estos índices son: -
Índice de Sokal y Michener = (p + n)/t. • Indice de Rogers y Tammoto
Índice de Sokal y Sneath
=
= t-(d+e) = t+(d+e)
p+n (p+n)+2(d+e)
,
p
p+2(d+e)
En algunos programas se proporcIOnan medidas de este tIpo, como el porcentaje de desacuerdo o número de diferencIas entre las característIcas de dos objetos. Dadas las medidas para conocer la proxImidad o el parecido de los elementos de una población, lo sIguiente es detenmnar cómo proceder a la agrupación, es decir, decidir cuándo dos elementos van a formar parte de un mIsmo grupo o de grupos diferentes. También ahora existe un abamco amplio de posibilidades, los procedimientos de agrupación se clasifican en dos grandes tIpOS: procedimientos jerárqUIcos y procedimIentos no JerárqUICOS. a)
ProcedimIentos Jerárquicos
Como su propIO nombre mdica, suponen desarrollar una jerarquía, la formación de grupos constituye un proceso secuencIal que se representa gráficamente. Dada una población, se trata de establecer una jerarquía de partes, delirmtando un número de subconjuntos de forma que entre ellos no tengan elementos comunes (sean disjuntos) y que cada subconjunto esté mcluido en otro Gerarquía). El número de grupos identificados depende de la secuenCIa en la que nos detengamos a considerar. Dentro de los procedimIentos JerárqUIcos se distmgue entre: -
-
© EdiCIOnes Pirámide
Ascendentes (jozning), que comienzan con tantos grupos como mdividuos, se van formando grupos entre los mdividuos más parecidos según un determinado cnterio y termma con un solo grupo que integra a todos los elementos de la población. En este caso se dispone de la secuencIa de agrupación: además, una vez formado un grupo permanecerá, no se divide aunque algún elemento tenga más parecido con algún grupo nuevo. Estos procedimientos suelen considerar muchas variables para la formación de los grupos, y de ahí la denormnación de politétIcos. Descendentes (divislve), que consisten justamente en lo contrario, partIr del conjunto poblaclOnal e Ir dividiendo en subconjuntos hasta llegar al elemento.
161
Técnicas de análisis de datos en investigación de mercados En los métodos JerárqUicos se recurre a representaciones gráficas para facilitar la mterpretación de la formación de los grupos; sobre todo se utilizan dos tipos de gráficos denommados dendrograma y gráfico de témpanos (iclele), cuya mterpretación es muy slllular. Dentro de los Jerárquicos ascendentes eXIsten diversas maneras o reglas para determlllar cómo se forman los grupos. Uno de los primeros algontmos fue el de Johnson, que procede a la agrupación secuencIal considerando la sImilitud para la cual utiliza la distanCIa euclídea. En DYANE (Santesmases, 1997) se encuentra una aplicación. Entre los procedinuentos más utilizados destacan los denonunados de unión, los basados en el centroide y los que lo hacen en la vananza. 1. Vínculo úmco o vecino más próximo (single linkage o nearest neighbor). En este procedimIento la distancia entre dos grupos determmados es la distanCIa entre los dos objetos más cercanos, pertenecIentes cada uno a un grupo distmto. Los dos pnmeros objetos a agrupar son los que tienen la distanCIa más pequeña entre ellos. A continuación se identifica la distanCIa mínima sigUiente y habrá un terCer indivIduo que se Illcorpore al grupo o bIen se formará un nuevo grupo con dos nuevos componentes; así se contmúa hasta que todos los objetos están comprendidos en un solo grupo. Los grupos deben estar nítidamente definidos para que proporcione buenos resultados.
Ejemplo: Dada la SIgUiente matrIz de distanCIas, para formar grupos por este procedimiento en pnmer lugar se agruparían los elementos más próximos, que en este caso son el 2 y el 5.
TABLA 4.6 Matriz de distancias
Una vez agrupados estos dos elementos, se calcula la distanCIa mínima a los demás elementos. Así, la distanCIa mímma entre el nuevo grupo y el elemento 3 es la distancia mímma eXIstente entre el 3 y el 2 o entre el 3 y el 5. Tales distanCIas son 5 y 8, respectIvamente, y por tanto la distanCIa mímma es 5. En consecuencIa la nueva matnz de distanCIas es como sIgue.
162
© Edictones Pirámide
Análisis cluster TABLA 4.7 Matriz de distancias
1 (2, 5) 3 4
4
6 2
7 5
3
Ahora la distancia menor es la que hay entre el grupo (2, 5) Yel elemento 4; estos elementos serán los que se agrupen y se calcula la distancia mímma entre 2,5 y 4 Y los casos restantes. Por ejemplo, con respecto al elemento 1 la distancia será: d(z, s, 4)1 = min (d z, l ' ds, d4 , 1) = 4 j
De la mIsma forma se operaría SI la distancia fuese entre dos grupos; se escoge la mímma entre las distancias por pares de elementos, La matriz de distancias queda: TABLA 4.8 MatriZ de distancias
1 (2, 5, 4)
7 3
4
3
Así sucesivamente hasta que todos los elementos se mtegran en un solo grupo. 2, Vínculo completo (complete linkage o furthest neighbour), Es sImilar al anterior salvo que ahora como distancIa entre dos grupos se toma la mayor existente (vecmo más alejado) entre dos objetos cualquiera, cada uno de un grupo diferente, Si aplicamos este procedimIento al ejemplo antenor, los pnmeros elementos a agrupar volverían a ser el 2 y el 5 que son los más próxImos; pero ahora se calcula la distancIa máxIma, esto es:
© EdicIOnes Pirámide
DistancIa entre (2, 5) con el 1: máxImo (dz l ' DistancIa entre (2, 5) con el 3: máxImo (dz, 3; Distancia entre (2, 5) con el 4: máximo (d 2
4'
ds 1) que es 10. ds, 3) que es 8. d s J que es 7,
163
Técnicas de análisIs de datos en investigación de mercados La nueva matnz de datos es: TABLA 4.9 Matriz de distanczas
1 (2, 5) 3 4
10
7 8
6 7 3
En este caso los elementos más próxImos son el 3 y el 4, que agrupar. Se sigue calculando la distancIa máxIma como en la distancIa entre (2, 5) Y (3, 4) es la máxIma entre: d2, 3' d2• 4 ; núa el proceso hasta que se agrupa en un solo grupo.
que son los que hay el caso antenor. Así, ds, J Y dS,4' Se conti-
3. Vínculo medio (average linkage). En este caso no solamente IntervIenen dos Individuos o elementos; para calcular la distanCIa entre grupos se recurre a la media pero esto adopta muchas varIantes. Así, puede ser la distancia media entre pares de objetos de los dos grupos sin ponderar (unwelghted pazr-group average), o ponderando por el tamaño de los grupos o número de elementos de cada uno, sobre todo en el caso de grupos de tamaño muy diferente (wetghted pair-group average). Con este procediIlllento se considera más información, no solamente la denvada de las situaciones extremas de distanCIa mínima o máxima. Los grupos obtemdos tIenen una varianza SImilar y además pequeña. 4. Método del centroide. El centroide de un grupo es el punto medio en un espacIO multidimensIOnal determinado por las dimensIOnes o varIables que se consideran en nuestro análiSIS. A medida que se producen Incorporaciones a un grupo y el número de elementos que lo integran varía, el centroide también se modifica. Los métodos que se basan en el centroide toman la distancIa entre grupos como la distancia entre sus centroides o centros de gravedad. Precisamente al considerar un punto medio, los valores extraños o raros no Influyen tanto en este método. También tIene variantes según se pondere, es decir, según se considere el tamaño de los grupos o no. Se utiliza el ponderado cuando los grupos se estIman que son sensiblemente diferentes. 5. Método de Ward. Forma parte de los denomInados métodos de la varIanza porque utiliza un análiSIS de la vananza para evaluar las distancIas entre grupos. En este caso se Intenta mInImizar la suma de los cuadrados de los grupos que se pueden formar en cada paso, los grupos se van formando de manera que se produzca el menor aumento en las sumas de los cuadrados. Es un procedimiento que tIende a producIr grupos pequeños y equilibrados en cuanto al número de elementos que los mtegran.
164
© EdicIOnes Pirámide
AnálisIs cluster 6. Algoritmo de Howard-Harris. A diferencia de los antenores éste es un procedilll1ento de tipo descendente, en tanto que fonna grupos a partir de otros y de forma secuencIal utilizando el criteno de mmilll1zar la varianza intragrupos en cada subdivIsión 3 Es adecuado para grandes muestras. La fonna de operar es como SIgue:
l. 2.
3.
4.
5. 6.
Seleccíona la variable que tIene mayor varIanza, distmguiendo dos grupos según estén por enCIma o por debajo de la media. Comprueba que cada elemento forma parte del grupo que le es más afín. Para ello calcula la distanCIa euclídea del elemento a los valores medios del grupo para aSIgnarlo al más prÓXImo, aunque no sea al que provIsíonalmente se asignó; en tal caso se trata de una reasIgnación. Así se consolidan los dos primeros grupos. Calculada la suma de cuadrados para cada grupo o la suma de las diferenCIas entre los valores de las vanables y los valores medios del grupo, se seleccíona el que tenga dicha suma mayor y se elige la vanable con mayor varianza dividiendo, como antes se comentó, en dos grupos según los elementos tengan valores supenores o mfenores a la media de tal vanable. Ahora con tres grupos se procede Igual que en el punto 2 para comprobar y, si es necesano, reasIgnar hasta que no se produzca reasignacíones o se llegue a un número de iteracíones establecido. Para obtener un grupo más se procede de Igual fonna (punto 3). El proceso finaliza cuando: -
Se consigue uu número de grupos determinado. El tamaño de los grupos no llega a un mímmo establecido. No se consigue !lna reducción SIgnificatIva de la suma de cuadrados, en suma, de la variabilidad de los grupos.
En el programa DYANE, para llevar a cabo un análiSIS cluster aplicando este algoritmo, se reqUIeren al menos dos vanables numéricas o de mtervalos. Una vez seleccionado el archIvo y el modulo de análisIs de grupos (análiSIs cluster) descendentes -algontmo de Howard-Hams- se presentan las opciones de: Estandanzar las vanables, lo que es necesano SI no están en la misma escala. Puesto que en otro caso SIempre pesarían más las vanables con mayor rango de varIación, es decIr, con mayor variación absoluta. Si la escala fuera la misma no ocurriría así. Fijar el número de grupos a retener; obviamente ha de ser dos o supenor. Esto se establece como una décima parte del tamaño de la muestra, fijando un límite de 10 grupos. Guardar la pertenencIa al grupo en una nueva vanable. Esta opción permite guardar la identificación al grupo de pertenencIa como una vanable categóe SegUImos a Santesmases (997). © EdicIOnes Pirámide
165
Técnicas de análisis de datos en investigación de mercados rica (clusters) para poder utilizar en postenores análisIs como tabulacíones cruzadas o análisIs discnmmante. b)
Procedimientos no Jerárquicos
A partir de un número de mdividuos, n, hay que fonnar K grupos, siendo K un número que el analista detennina, para lo cual se guiará por conocnll1entos y expenenCIaS previas o por los resultados de los procedimientos JerárqUicos que ayudan a identificar un número de grupos justificado. Fijar un número muy reducído de grupos puede llevar a conclusíones demasiado pobres, mientras que SI se trata de un número elevado complica la mterpretación. Es necesano determinar un número equilibrado entre esos extremos, para lo cual repetir el análiSIS por procedimientos distintos o con número de grupos diferentes puede ser de gran ayuda. En este caso el número de grupos se establece a priori, mientras que en los jerárquicos ascendentes se decídía a posteriori. Para llegar a la fonnacíón de los grupos se sigue un proceso Iterativo de aSignación. Una vez establecido el número de grupos se seleccíona el ongen de cada grupo y después se efectúan las asignacíones de los elementos a los diferentes grupos. Por otro lado, en cíertos casos resultaría interesante dejar fuera de la clasificación a algunos elementos extraños o raros, o bien definir una clasificación en la que algún elemento pueda pertenecer a más de un grupo para evitar la norma drástica de la pertenencia a uno solo que a veces mduce a forzar la pertenencia. Con respecto a los anteriores, los procedimientos no JerárqUiCOS mtentan un óptimo global y no sucesivos subóptimos en cada fase de agrupación, y a la vez que agilizan el proceso de agrupacíón. Pennite reaslgnar un elemento en pasos posteriores si procede agruparlo en un grupo diferente al lll1cIalmente aSignado. Los no jerárquicos también se denominan de k-medias y se distinguen tres tipos:
-
Umbral secuencial (secuential threshold). Dado un centro de un grupo todos los elementos de una población dentro de un valor o umbral preestablecído se agrupan en un mismo grupo; así se contmúa eligiendo otros centros y formando otros grupos. Ahora bien, una vez que un elemento ha sido aSignado a un grupo no se considera para otros. Umbral paralelo (paralell threshold). Con esta opcíón se fijan vanos centros de grupos desde el princípio. Los objetos se asignan al grupo, dentro del umbral establecido, cuyo centro esté más próximo. Las distanCias pueden ser ajustadas a medida que se desarrolle el proceso o incluso dejar fuera a elementos que no estén dentro del umbral establecido para nmgún centro. Métodos de optimización. Se diferenCia en que permite la reaslgnacíón de los objetos, de manera que un objeto aSignado a un grupo puede pasar a otro, SI así se consigue una menor distanCia media dentro del grupo.
Existen otros procedirmentos como el que facilita el programa STATISTICA denominado two-way Joinzng, que consiste en agrupar casos y variables slmultánea-
166
© Ediciones Pirámide
AnálisIs cluster mente, pero claro está que deben tener un sentido y una explicación la consideración conjunta de casos y vanables. Sin embargo, este procedimiento tiene como inconvemente la dificultad de interpretación Es recomendable utilizar varios procedimientos (jerárqUicos y no jerárquicos) para que las conclUSIOnes a las que se llegue tengan mayor garantía. Como el k-medias tiene su pnncipal problema en la delirmtación del número de grupos, se aconseja utilizar algún método JerárqUico primero para identificar un número de grupos razonable y lÓgicO Una vez detenmnadas todas estas especificaciones, es decir, la elección de una distancia y de un procedirmento de agrupación, el programa ejecuta todo el proceso y nos proporcIOna unos resultados en fonna de gráficos, matrices de distancias, esquema secuencial de la agrupación, estadísticas descnptIvas por grupos y análiSIS de la vananza, entre otras lllfonnaclOnes.
3.3.
Interpretación de los grupos
Para proceder a la lllterpretación de los grupos, en pnmer lugar hay que conocer algo tan obvIO como el número y composición de los mismos. Si se ha seguido un procedimiento no jerárquico esto es lllmediato, puesto que incluso se define el número de grupos a pnon. Esto lleva a una solución pero no se puede comprobar si es la mejor entre las posibles. Ahora bien, en caso de haber optado por un procedimiento JerárqUico, el número (le los grupos no es algo tan evidente. Nonnalmente, la representación gráfica de cómo se fonnan los grupos pone en relación la distancia de unión entre dos elementos con la distanCia mayor eXistente; por tanto el número de grupos depende de la distanCia a la que se haga el corte para analizar. Si el corte se hace a distancias pequeñas el número de grupos será mayor que SI se toman distancias grandes. porque entonces todos los elementos estarán comprendidos en pocos grupos. Concretado el número de grupos y su compOSición, la lllterpretación de cada uno de ellos se efectúa considerando las características de los elementos que lo componen y analizando si poseen o representan detennllladas características en mayor medida que otras. recurriendo a las estadísticas descnptIvas por grupo de las vanables de partida. El centroide de un grupo es un buen referente para la descnpción, Slll olvidar que en realidad los grupos muestran tendenCias dentro de la población que se estudia y no es fácil que sean agrupacIOnes incuestIOnables o puras. Por otro lado, reCUrrIr a vanables diferentes de las utilizadas para el análisis, por ejemplo relaCIOnadas con características soclOeconórmcas o pSlcográficas de los llltegrantes del grupo, ayuda a la lllterpretación y a extraer conclusiones. Todo lo antenor perrmte calificar o poner nombres a los grupos. La lllterpretación en los no JerárqUicos se ennquece reCUrrIendo a un análisis de la vananza para exarmnar las diferenCias entre los grupos. Si el análisis ha cumplido con su objetivo de conseguir una buena clasificación de elementos. la variabilidad © Ediciones Pirámide
167
Técnicas de análisis de datos en investigación de mercados dentro de un grupo será pequeña y la vanabilidad entre grupos será grande. La comparación de las diferencias al cuadrado entre grupos con las de dentro del grupo nos perrrute obtener un ratIO F y un nivel de sIgnificación. Las vanables con un F grande y el nivel de sIgnificación pequeño difieren entre los distintos grupos. Sin embargo, debe quedar claro que aquí el test F debe utilizarse con precaución y, desde luego, con un sentido descnptivo, puesto que los grupos se han calculado precIsamente para maXImIzar la diferencIa entre ellos y no a partIr de mnguna hIpótesis a pnori. En suma, no se debe utilizar como prueba de la igualdad de la media de los grupos.
3.4.
Valoración del análisis
Comprobar que la solución obtenida mediante análisIs cluster es la mejor, conocer SI es representatIva de la población, o que es generalizable a otras poblaciones, y probar su estabilidad en el tIempo, son tareas que no están resueltas. No se tiene un procedimiento disponible para evaluar la fiabilidad estadístIca. Todo esto tIene que ver con la dificultad para fonnular hIpótesis, puesto que el contenido del universo no es conoCIdo. Además se admIte la eXIstencia de heterogeneidad parcIal mIentras que las distribucIOnes de objetos y vanables son desconocidas en gran parte. Por tanto, sería osado adlllitir que las vanables se ajustan a algún modelo. Por su opcionalidad a la hora de elegIr distancIas y procedimiento de agrupación, este análisIs nos proporcIOna solUCIOnes que varían según la elección que realicemos. ¿Qué se puede hacer para garantIzar una solución mínimamente aceptable? Hay varias recomendacIOnes para avalar o reforzar la bondad de los resultados obtenidos: -
RepetIr el proceso con diferentes medidas y procedimIentos de agrupación para comprobar la estabilidad en los grupos identificados. Es convemente, mcluso, compagmar procedimIentos jerárquicos con otros no JerárqUIcos. - Dividir la población de estudio en dos mItades, aleatonamente, proceder a la agrupación y comprobar el grado de coincidencIa en los resultados. - Una fonna de aproxImarse a la bondad de la solución en los procedilllientos no JerárqUIcos es la comparación de la varIanza dentro del grupo con la va-fianza entre grupos.
4.
ESQUEMA DEL PROCEDIMIENTO En la práctIca, y en los programas informátIcos usuales, la manera de proceder es SImilar, aunque sIempre haya algún matIz según la filosofía del programa que se utilice. La secuenCIa podemos resulllirla en los sigUIentes pasos: L 2.
168
SeleCCIOnar el fichero de datos y modulo de análisIs cluster. SeleCCIOnar el método de agrupación, normalmente alguna varIante de los de unión o vínculo (joining) o de los no jerárquicos (K-medias). © Ediciones Pirámide
AnálisIs cluster 3.
4.
Indicar las especificaciones: selección de variables, SI se agrnpan casos o varIables, fijar la regla de agrnpación (vínculo úmco, completo, etc.) y el tipo de distancIa a utilizar. Para los métodos no Jerárquicos: indicar el número de grnpos y la forma de identificar los centros mlclales de los grnpos. Ordenar las salidas que se conSIderen de mterés. Para los JerárqUIcos serán: -
RepresentacIOnes gráficas: dendrogramas y gráficos de témpanos. Matrices de distanCias. Esquema de la secuencia de agrnpación. Estadísticas descrIptivas.
Para los no JerárqUIcos: 5. 6.
5.
Matrices de distanCIas. Gráficos de medias. Análisis de la varIanza. Estadísticas descnptivas por grnpo y mIembros que los componen.
AnáJisls y descripción de los grupos. Interpretación de los resultados.
EJEMPLO DE ANÁLISIS Co~ los datos del ejemplo utilizado en el capítulo del análisIs factonal vamos a efectuar un análisIs cluster. Recordemos que disponemos de una sene de características de las diferentes capitales de provmcla españolas (AnUarIO del Mercado Español, ejemplo AME)* y para obtener conjuntos de CIUdades con características SImIlares recurriremos a formar grnpos. Postenormente, se identifican para cada grupo la CIUdad que mejor represente las característlcas del nusmo de manera que SIrva como laboratorio de pruebas de acciones de marketing. Utilizaremos diferentes procedinuentos para comprobar la comcidencla o no de la agrupación obtenida. Utilizando la distancia euclídea, en los dos procedinuentos JerárqUICOS que se exponen para una distancia no muy alta (aproxImadamente 15.000 para el caso del vínculo único y 30.000 para el de Ward) ya se identifican cmco grupos; esto ha sido lo que se ha tenido en cuenta para .fijar en cmco los grupos para el procedimiento no jerárqUICO. En los respectivos dendrogramas se comprueba la formación de los grupos, es decir, cómo se van agrupando las diferentes CIUdades. El esquema de agrupación proporciona la distanCIa y la secuencia de agrupación, aunque los programas proporcIOnan todo el extenso listado de las diferentes secuencias de agrupación. Por razones obVIas, sólo se detalla en la tabla una parte de las fases iniciales de agrupación. Mantenemos las imClales de las capitales de proVincia para su representación.
* © EdiCIOnes Pirámide
Véase fichero en la dirección www.ugr.es/-tluque.
169
Técnicas de análisis de datos en investigación de mercados Análisis jerárquicos DistancIas euclídeas
r-.-.
J AL H f-----'
GR
MA
PO CA MU CO AB !===Jo.. SE BA
OR TO SG AV BU P SA CR LU L
LO
TF
HU
TE CC VA
CU ZA GU Z
t:::=-,
~~ ti
.,i
h
r
C V
,
:,
,, , ,
,,
10.000
20.000
30.000
40.000
,
, ,
PM SS M
f--
SO ::::;--LJ"j ~~
LE NA GC O S A BI T GI
i-
B
o
50.000
DistancIa de unión
Figura 4.2.
Diagrama en árbol (dendrograma). Vínculo úmco. DistancIas euclídeas
1,6e5
r--------------------------_
l,4e5 1,2e5
. ..
.
.
leS
.g ro
'j
80.000
. ...............
.
"r"'="'="'="'="===~==='''='''='''='''=''''=¡'
60.000
i5
::::
l·tlJ·~ltl· ·,~r· ~· L·" · .·6- I- '~,".'~" '·;~=·Ll·¡~· J:·:1i· ~· ·~ · b· ~· · -'=· "'· ~·r ~.=~.=~+ ·= ·~ " '· =· ~ ·= ·":·= l·1= ~ ·= ·~ 4· 5· ..
...
...;:::.=.. .. ...
ü,..J,."bJ
Mrn~BI~CSCS~~WLn~oouP~crMro~~H
I
BSSVA~UToro~SOZSGwcrrn~M~~ocro~M~
Figura 4.3.
17O
Diagrama de árbol (icicle o de témpanos). Método de Ward. © EdicIOnes Pirámide
Análisis cluster TABLA 4.10 Esquema de agrupación (parcw!) I)istlUlcíll 958.8561 1.054.355 1.124.155 1.423,079 1.685,390 1.867,305 1.991,032 2.045,468 2.059,959 2.081,675 2.426,400 2.576,864 2.588,337 2.865,859 2.890,805 2.942.123 3.009,021 3.054,581 3.359,847 3.370,807 3.508,177 3.527.898 3.636.181 3.736,633 4.320,025 4.673,889
© EdicIOnes Pirámide
¡.()jJj~to.núm.l. . (ljJj~to lJú*,.~
()Net~nÜJJl.
BU P SO LE AV TF eR HU AL eo TO eR L L TF HU BU MA AV O ZA
VA eu LO NA ce es OU SO
AL
J
A eo T
BI AB e
BA
AL
J
OR
3
Objet(jn~m.4
J
AB OR OU SO SO es SO VA PO ce S eR
LU LO LO
LE TE P
VI NA eu
SA OU OR
LU
H
171
Técnicas de análisIs de datos en investigación de mercados
1,8e5 ~-~,-~,--~,--~,-~,--~,-~,~-~-~,-~ ,
,
1,6e5 l- ------i--I
I
I
I
,
I
,
I
I
l
I
i
I
t
I
I
I
I
I
I
I
I
I
-----r--- ----i-------- t--------r-------f--------r------- -------- r-------
1,2eS
I-------i--------r-------i-------- t------ --¡------- -t--------r------- --------r---- ------- -i------- -t---- ---i-- ------t-------i--------i--------r------- ------- -t---- --
leS
------i--------t-------i--------t--------¡--------f--------t------- --------t---- --
,
1,4e5
I
40.000
,
I
I
I
I
,
,
I
I
,
,
I
"
I
I
,
I
"
I
60.000
I
I
I
80.000
I
1
I
I
I
I
I
,
I
I
I
I
,
! ,
,
l
I
I I
, ,
, I
I I
I I
, I
I I
, 1
I I
, I
I I
I I
1 I
1 1 )
1 1 1
1 , 1
1 1 1
1 1 1
1 1 1
1 1 1
1 1 1
1 1 1 l I t
1 1
1 1
1 1
1 1 1
1 1 1
1 1 1
1 1 1
1 1
1 1
1 ) ,
1 1 1
1 1 1
1 1 1
1 1 1
-------i-------- t-------i------- -t---- ----i----- ---t--------t------- --------t---- ---------{--- ----- ~-------+------ -+--------:------ --+- -------:- ---- --- ----- ---f--- - --+- ---- --1 --------r------ -1--------t--------¡------- -t--------r------- --------, ----1 1
20.000 t-- ------~-----1 1 1
'
--+-------i-- ------+--------:------- -+--- -----:-------- ----
O
-:--- ----1 1 1
-r-------,--------T-------,--------f--------:-------- --------:-------1 1 1
1 1 1
-20.000 -I---i----i---+---i----i--+---+---+--+_~ O 5 15 20 30 35 45 40 lO 25 50 Paso
Figura 4.4.
Representación de las distancias de unión.
Análisis no jerárquico TABLA 4.11
Medias de los grupos
i> • • /bb<·'.b/ .). lb···· TURISMO CUOTA ICCl ICC2 ICC3 CULTURAL DEMOGRAF ECONOMIC RACTIVA TLFHABIT INNOHABI EGBHABIT TEXTILHA MADERHAB QUIMHAB CONSTHAB METALHAB MAQUINHA
172
1.814,50 641,00 1,19 1.29 1,36 1.425,85 1.536,15 2.255,35 2.201,20 66.278,99 28.983,25 15.731,48 856,68 440,57 400,28 431,26 267,89 760,33
> 1>
....•
7.716,00 7.067,50 1,03
1,06 1,14 13.085,05 13.774,25 12.811,55 10.783,75 64.837,33 21.738,63 11.101.32 597,54 352,39 258,34 208,66 198,01 578,51
Clu$tet3 .•. .
(;lu$t~r4
• Cluster S
134,62 262,52 0,91 0,91 0,90 694,83 641.44 794,81 888,36 41.386,98 13.346,21 13.253,30 497,75 259,04 237,65 205,03 160,05 432,24
784,54 840,85 0,99 1,00 1.00 2.446,37 2.486.88 2.488,80 2.570,12 48.615,47 16.949,67 12.906,13 494,88 303,48 236,80 187,30 176,20 451,89
450,83 525,00 1,01 0,96 0,89 2.048,66 1.964,96 1.735,05 1.830,25 37.482,54 15.100,61 16.436,20 433,43 245,28 217,57 192,06 154,80 373,90
© EdiclOoes Pirámide
AnálislS cluster TABLA 4.12 Distancza euclídea entre grupos (debajo de la diagonal) y distancza euclídea al cuadrado (encIma de la diagonal) 0,
'"
0,000 5.883,655 6,987,236 5.101.014 7.549,037
Número 1 Número 2
I
1
Número 3
I ~:::~::
I
Número 2
34.617.392 O 8.489,0 6.628,0 8.758,0
.0 __00
,3
48.821.472 72.062.136 O 2.086,0 1.374,0
,~
,4'
":'0
26.020.340 43.933,112 4,349.319 O 2.805,0
56.987.952 76.699.728 1.888.133,0 7.866.325,0 O
TABLA 4.13 Miembros del grupo 1 (2 ciudades) y distancia al centro del grupo
I PM
1.772.443
I
al
1.772,443
1
TABLA 4.14 Miembros del grupo 2 (2 ciudades) y distancia al centro del grupo
IB
1.026,641
IM
1.026,642
TABLA 4,15 Miembros del grupo 3 (21 CIudades) y distancia al centro del grupo
HU BU SA VA
eu es OR
© EdiCIOnes Pirámide
592,9485 511,0223 1.173,290 571,8956 435,0716 982,5707 1.347,906
TE 1.
SO ZA OU
ce VI
955,9421 540,9853 441.4333 710,1606 705,3874 1.016,165 991.9442
AV P
SO
eR TO LU LO
726,5228 505,4486 674,9064 390,1090 1.121,125 693,2369 656,7379
173
Técnicas de análisis de datos en investigación de mercados TABLA 4.16 Miembros del grupo 4 (13 ciudades) y distancia al centro del grupo
SE TF T C Bl
1.613,993 908,1146 910,7815 710,1744 824,6526
Z
S A NA
1.213,675 582,4913 1.090,276 928,0489
O
LE V
SS
643,2618 962,3087 1.632,598 2.399,638
TABLA 4.17 Miembros del grupo 5 (12 ciudades) y distanCia al centro del grupo
AL GR MA BA
641,6720 917,7094 859,2443 1.314,329
CA H
GC PO
1.170,188 1.074,320 1.549,250 741,1965
CO J
AB MU
634,1266 426,6432 870,1876 735,6312
Como se comprueba, hay diferencIas entre los grupos obtenidos, según el procedimIento, aunque la mayor parte de las ciudades cOlllciden en el D1lsmo grupo. Si comparamos los grupos del procedimIento no Jerárquico con los obtenidos por el método de Ward observamos que: -
A Girona y Palma de Mallorca se le lllcorpora en el gráfico San Sebastián.
-
En el grupo 5, de 12 cIUdades sólo faltan 3 (CO, BA, AB); las demás COlllciden.
-
En el grupo 4, y SIempre comparando con el gráfico proporcIOnado por el método de Ward, faltan Z y SS y, sin embargo, figuran OR, TO y CS.
-
En el grupo 3, precisamente las tres antenores faltan y sobran Z, BA, AB Y CO.
Ante esto se puede decir que eXIste una considerable cOlllcidencIa entre los grupos. Las pnncIpalesconcluslOnes que se extraen de estos resultados se resumen en: -
174
El grupo I está compuesto por Girona y Palma de Mallorca, las cIUdades con mayores índices de capacidad de compra, mayor número de teléfonos, de lllstrumentos notariales, población joven y mayor número de licenCIaS fiscales por habItante. © Ediclones Pirámide
Análisis cluster
-
Grupo 2, que lo forman las cIUdades mayores en todos los sentidos; por tanto las que tIenen mayor cuota de mercado e mdicadores de turismo y de nqueza. Son Madrid y Barcelona. Las característIcas más relevantes del grupo 3 son las de contar con las magmtudes mfenores en los mdicadores de capacidad de compra, cuota y nqueza. Es el más numeroso y contiene cIUdades pequeñas en su mayoría del centro de la península (HU, TE, CU, TO, SA, SG, SO, CC, etc.). Como CIUdades más próxImas al centro del grupo destacan Ciudad Real y Cuenca. El grupo 4 se acerca a la media nacional en los mdicadores de capacidad de compra y de riqueza. Son cIUdades de tamaño mtennedio y grande (SE, Z, 0, S, V, BI, T, etc.). Santander y OVledo son las ciudades que se encuentran más cerca del centro del grupo. Finalmente, el grupo 5 lo componen ciudades con el menor número de licenCIaS fiscales por habItante, el menor número de teléfonos, pero con la población más joven. Son casI todas ellas ciudades del sur, y la menor distancIa al centro del grupo la poseen Jaén y Córdoba.
Los grupos 3 y 5 son los más parecidos, sobre todo por comcidir en ofrecer los indicadores menores en las diferentes característIcas consideradas. Los que menos se parecen son los grupos 2 y 5, es deCIr, compuestos por las cIUdades que más se diferencIan en índices de nqueza, de actIvidad de teléfonos e instrumentos notanales y estudiantes de enseñanza pnmana. Las ciudades del grupo 2 y, sobre todo, del 1, por sus característIcas de capacIdad de compra, son buenas referentes para el estudio de productos de uso y consumo especializado; las ciudades del grupo 4 serían más interesantes para productos de uso y consumo de tIpo medio.
Variables estandarizadas
Las características consideradas vIenen en unidades muy diferentes, de manera que al calcular las distanCIas la influencia de cada una de ellas será muy distinta. Por esta razón sería conveniente estandanzar las vanables y repetIr el proceso. Con los nuevos valores los grupos fonnados por Girona y Palma, por un lado, y por Madrid y Barcelona, por otro, no varían; pero los demás ya sufren modificaciones considerables. Comparando el gráfico correspondiente al método de Ward con la agrupación no jerárqUIca antenor se constatan las diferencIas; no obstante, existe un núcleo duro de cIUdades que permanecen en los grupos.
© EdicIOnes Pirámide
175
Técnicas de análisis de datos en Investigación de mercados
Distancias euclídeas 18
.,---...,..--------------------------------------------------------------------------
16 14 ~
12
~
lO
·e
B
8
q
6
.¡¡'o "O
.~
4 2
O
Mm~TrouvoczrnmcOuLMOMMOO~p~~H~ BmW~WTIAWm~OO~sOcSCC~TIcrw~SEJPO~
Figura 45,
Representación del diagrama de árbol. Vínculo completo.
DistancIas euclídeas 45,---------------------------, 40
35
.¡¡.él
30
~
25
'1
20
i:S
15
lO - --- -------- ----------------------- ------------------------- --------------- ------5 OLW'"=:-'-,u-:'--'-.:':-'-:':-'-::'c'-::':"-!-LLJ':'::-'-~:'::_LLLJ::'_:'_:_'_::'cLLJLL.L,_LLJ,.LLLl-LL.LLJ MmVTWTIro~uLssocrcroo~rnMm~cO~~HW
B PM A
oc
Figura 4.6.
176
LE
es
Z LU SO
e s
GU AB BA
P HU VA TE VI SO CA SE
j
PO AL
Diagrama de árbOl (de témpanos). Método de Ward.
© EdiCIones Pirámide
Análisis cluster TABLA 4.18
Miembros del grupo 1 (2 ciudades) y distancia al centro del grupo
I PM
0,659909
I GI
0,659909
I
TABLA 4.19
Miembros del grupo 2 (11 cIudades) y distancia al centro del grupo CO SG NA
0,519485 0,554140 0,486854
TE VA VI
0,537441 0,205425 0,517010
BU CU BI
0,421487 0,564109 0,653477
SA CC
0,362837 0,494643
TABLA 4.20
Miembros del grupo 3 (17 cIudades) y distancia al centro del grupo AL J AB T MU
0,321820 0,496954 0,410938 0,816223 0,370259
CA MA CR A
0,586221 0,516319 0,469179 0,875678
GR SE GU BA
0.390468 0.651639 0,469463 0,545329
H GC TO PO
0,663453 0,768571 0,429508 0,569441
TABLA 4.21
Miembros del grupo 4 (2 ciudades) y distancia al centro del grupo 1M
© Ediciones Piramide
0,692256
I
B
0.6922561
177
Técnicas de análisis de datos en Investigación de mercados TABLA 4.22
Miembros del grupo 5 (18 ciudades) y distancia al centro del grupo
HU S SO
0,472079 0,409634 0,483720 1,055899 0,630307
V
SS
Z AV ZA
0,513752 0,526844 0,420840 0,453360 0,519420
e LO
O L LE LU
0,489152 0,266926 0,708240 0,749656
0,632262 0,384486 0,384243 1,000113
TF P
es OR
6,----;,----,---,---,--------,---,---,--------,----,----. 5
4 3
2
o :,
-1
I
I
I l
-2
,
t , ¡ I I -- ---- ---¡-------- -,..- -------"4- --- ------1-------- - - t - '
I '
I
_
I
" "
l '
' 1
I
"
I
f---I---j--+--+'--+----+--I---I---j----! Cultural
Cuota
ICC2
~aderhab
Tlfhabit Econornlc
Egbbabit
~aquunha
Consthab
Vanables
Figura 4.7,
178
Representación de ¡as medias de cada grupo.
© Ediciones Pirámide
Análisis cluster
TABLA 4.23 Análisis de la varianza
Ii",;; ·C;(!"/;
Betw~p~S
TURISMO CUOTA ICCl ICC2 ICC3 CULTURAL DEMOGRAF ECONOMIC RACTIVA TLFHABIT INNOHABI EGBHABIT TEXTILHA MADERHAB QUIMHAB CONSTHAB METALHAB MAQUINHA
37,43550 43,08012 25,97463 23,98127 20,75565 39,62365 40,81306 41,62204 38,52403 34,02763 30.22739 24,15058 34,31895 31,13164 30,11593 30,41297 28,12822 30,75469
. ...."l!!(/ 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4
.''i' '~~"vS~
11,56451 5,91988 23,02538 25,01873 28,24436 9,37635 8,18694 7,37796 10,47596 14,97236 18,77261 24,84942 14,68106 17,86836 18,88407 18,58704 20,87178 18,24530
ve %e Y/ l;/;e~ iXe 45 45 45 45 45 45 45 45 45 45 45 45 45 45 45 45 45 45
36,41741 81,86844 12,69098 10,78349 8,26717 47,54152 56,08286 63,46581 41.37045 25,56783 18,11459 10,93362 26,29839 19.60062 17,94127 18,40777 15,16126 18,96325
i yYi*· .i·.·.· . . . 0,000000 0,000000 0,000001 0,000003 0,000044 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000 0,000003 0,000000 0,000000 0,000000 0,000000 0,000000 0,000000
En este caso tiene más sentido exarnlllar la representación gráfica de las medias de cada grupo al tratarse de vanables estandanzadas. Antes no hubIera sido de mucha utilidad la representación gráfica debido a las diferencIas de escala. Pues bien, de su examen se deducen como conclusIOnes destacables las siguientes: -
-
-
© Ediciones Pirámide
Grupo 1: Formado por PM y Gr, son las cIUdades con mayores indicadores de capacidad de compra, mayor número de teléfonos por habitante, más lllStrumentos notanales por habitante. Sobresale su supremacía en el número de licenCIas fiscales por habitante en las distllltas actividades. Son cIUdades que merecen el calificativo de ricas y dinámIcas. Grupo 2: Se caracterIza por tener los valores mímmos en casI todas las varIables, aunque próxImos a los valores del grupo 5. Contiene a las CIUdades con el menor número de licenCIas fiscales y son las de menor población en su mayoría (SG, TE, CU) con excepcIOnes como (BI, VA, COjo Grupo 3: Es un grupo de cIUdades con niveles llltermedios en todas las variables, y sobresalen en los índices de capacidad de compra de productos básicos y en la Juventud de su población Gunto con el prImer grupo). Con la excepción del grupo anterior, es el grupo de menor número de licenCIas fiscales. En su mayoría son CIUdades del sur.
179
Técnzcas de análisIs de datos en investigación de mercados -
-
Grupo 4: Formado por Madrid y Barcelona. Comcide con el grupo 2 del análisis antenor. LógIcamente destacan en todos los mdicadores de tamaño. y con diferencia son las de mayores mdicadores turístIcos, de cuota o de nqueza en sus diferentes niveles. Sin embargo, son las de una población menos joven. Grupo 5: Formado también por ciudades con valores mtermedios en los mdicadores, únicamente se salen de esa tónica en los mdicadores de capacidad de compra de productos de uso y consumo común e mtennedio arrojando los valores más bajOS. Aunque con excepclOnes importantes, predominan las CIUdades de tamaño medio e mfenor a la media.
En la tabla del análisis de la vananza comprobamos que el mvel de SIgnificación es muy bajO en todos los casos; por tanto nos mforma que las vanables difieren considerablemente entre los grupos. Este ejemplo, además de ejercItar los diferentes procedimIentos y exammar las diversas tablas y gráficos que se nos presentan como outputs, nos permIte comprobar: -
6.
La dificultad de detennmar el número de grupos y efectuar comparaclOnes entre los grupos obtenidos con diferentes procedimIentos. La importancia de la estandarIzación y de sus consecuenCIas. Las diferenCIas en la composICIón y en las concluslOnes que se derivan.
EJEMPLO DE ANÁLISIS CLUSTER JERÁRQUICO DESCENDENTE. ALGORITMO DE HOWARD-HARRIS Tras estudiar mediante una mvestIgación exploratoria los aspectos más relevantes entre la relación de un determmado tipo de minoristas y de sus proveedores (a los que también denommamos suministradores o distribuidores J se identificaron 14 factores que se recogen en otras tantas afirmaciones. A 110 mmonstas se les PIdió que valoraran su grado de acuerdo con tales afinnaciones utilizando una escala de 1 (totalmente desacuerdoJ a 7 (totalmente de acuerdo J. Los datos se recogen en el fichero MINORISTAS* Para consegUIr una identificación de las distintas clases de minoristas atendiendo a su relación con el sumimstrador, se procedió aplicar el algoritmo de HowardHams mcluido en DYANE. En este caso no es necesano la estandarización de las variables puesto que todas las escalas de medida son homogéneas. Considerando análisis previos se entendió oportuno fijar el número de grupo en 5 y a contmuación se reproduce el detalle de la salida del programa.
*
180
Véase fichero en la dirección www.ugr.es/-tluque. © EdiclOues Pirámide
Análisis cluster Ejemplo análisis cluster (algoritmo de Howard-Harris) Identificación de las vanables seleccIOnadas 1. 2. 3. 4. 5. 6. 7. 8. 9.
!O. 11. 12. 13. 14.
El distribuidor nos presta el asesoramIento necesario (RELDTOl). Debemos mejorar las relaCIOnes personales con los distribuidores (RELDT02). Consideramos necesano desarrollar formas de cooperación con el distnbuidor (RELDT03). Mantenemos una comunicación fluida con el distribuidor (RELDT04). Nos gustaría que el distribuidor nos visitase más regulannente (RELDT05). La formalidad en la entrega es un aspecto de cruCIal Importancia (RELDT06). Los distribUIdores mantienen un buen trato personal y son amables (RELDT07). La forma de pago a distribuidores es melevante (RELDT08). La calidad de los productos que nos summistran es fundamental para nuestro negocio (RELDT09). Es fundamental que el distribuidor tenga un buen surtido (RELDTlO). Que el distribUIdor sirva con rapidez es clave para nuestro negocIO (RELDTll). Los distribuidores se mteresan por nuestro problemas (RELDTl2). El distribuidor nos transmite las promocIOnes que recibe del fabncante (RELDTl3). El distribuidor nos mforma puntualmente sobre los nuevos productos que salen al mercado (RELDTl4).
Perfil del conjunto de la muestra
Total
110
© EdiCIOnes Pirámide
5162,28
Media: 5,02 3,70 4,15 5,59 3,35 6,25 6,35 4,13 6,47 5,45 5,92 3,85 4,51 5,70 Des. ST: 1,822,05 1,93 1,67 1,95 1,40 1,33 2,31 1,10 1,88 1,53 2,242,19 1,78
181
TécnIcas de análisis de datos en investigación de mercados
Proceso de generación de los grupos División número l. Número del grupo anterior dividido: 1 Variable con mayor vananza: RELDTOS .';i;.< •
c., l¡Jii.JJ j'
e
'T .••
.·.Sunlll.• de·.·.•
1
52
1.801.46
2
58
2,784,05
Total
110
4.585,51
"....
. 1) \.
i)V i
Media: Des. ST: Media: Des, ST:
......
2)
.
5,58 1,35 4,52 2,03
3.38 2,01 3,98 2,04
4,42 1,84 3,91 1,97
6.13 1,13 5,10 1,92
iV 10·
1
3,10 1,98 3,57 1,89
<
6,33 1,31 6.17 1.46
6,71 0,66 6,02 1,66
6,17 1,10 2,29 1,39
6,73 0,62 6,24 1,36
5,04 2,08 5,83 1,58
..•.
12 .....
6,10 1,36 5,76 1,64
4,27 2,25 3.47 2.16
114 4,71 1,93 4,33 2,38
6.13 1,18 5,31 2,10
Suma de cuadrados explicada: 11,17%
DiVIsión número 2. Número del grupo anterior dividido: 2 Variable con mayor vananza: RELDT13
..... ;-,'' 'r" V~~m!
..
. .....
.
)
iI.·
....
I(
Media: Des, ST: Media: Des. ST: Media: Des, ST:
5,52 1,33 6,04 1,15 3,58 1,91
.<;;:...... ;
..•
1
46
1.523,72
2
28
892,79
3
36
1.638,78
Total
110
4.055,28
';
• 3,28 2,00 5,21 1,63 3,06 1,79
.'! "; .•
4,54 1,84 5,04 1,78 2,97 1,54
6,07 1,17 6,07 1,58 4,61 1,86
'.,
[<8
. 1/
2,98 1,88 4,04 2,18 3,28 1,69
6.43 1,08 6,86 0,35 5,53 1,88
I
6,67 0,69 6,57 1,24 5,75 1,75
pI
l."
10
11
6,70 0,66 6.46 1,35 6,19 1,27
4,98 2,05 6,64 0,81 5.14 1,84
6.11 1,35 6,68 0,76 5,08 1,77
14
'.
6,33 1,02 2,21 1.42 2,81 1,63
4,02 2,26 5,21 2,04 2,56 1,55
4,80 1,84 5,39 2,06 3,44 2,28
6,07 1,21 6.14 1,53 4,89 2,23
Suma de cuadrados explicada: 21,44%
División número 3. Número del grupo anterior diVIdido: 3 Variable con mayor vananza: RELDT13
I~~.i~~ 1·2·Y,·.; 11\T~h..
i~~~~.~~. ;..
"
1
38
1.187,55
2
24
710,04
3
24
768,00
4
24
1.052,21
Total
110
3.717,80
182
.
. '.
••
Media: Des, ST: Media: Des, ST: Media: Des. ST: Media: Des, ST:
....
It. 5,76 1,33 5,96 1,17 4,67 1,97 3,25 1.45
< 3,24 2,15 5,29 1,65 3,04 1,86 3,50 1,55
•
4,63 1,90 5,33 1,65 2,75 1,51 3,63 1,52
.si
!
6,05 1,15 6,33 1,28 4,67 1,65 5,04 2,09
3,00 1,91 3,75 2,18 3,38 1,87 3.46 1,76
I~J
..
6,53 1,07 6,88 0,33 6.13 1,62 5,29 1,72
6,68 0,69 6,63 1,22 6.46 0,82 5.42 2,02
6,39 0,87 2,25 1.45 2,21 1,26 4,33 2,05
6,74 5,24 0,64 2,01 6.42 6,63 1,44 0,86 6,67 5,92 0,69 1,26 5,92 4.17 1,38 2,03
1
6,39 1,04 6,75 0,72 5,71 1,51 4,54 1,78
<
71)1~) i~~·.
4,03 2,31 5,83 1.43 2.13 1,36 3,29 1,84
5,29 1.49 5.46 2.16 4,83 2,03 2,00 1.19
6,32 0,95 6,04 1,62 6,38 0,99 3,71 2,07
Suma de cuadrados explicada: 27,98%
© Ediciones Pirámide
Análisis cluster DiVisión número 4. Número del grupo anterior dividido: 1 Variable con mayor varianza: RELDTl2 <
I
(}r~l'.~
l1'llÍ%
Suma de cuadrad:s,·
1
30
662.10
2
16
383,25
3
27
878,44
4
21
894,29
5
16
525,63
Total
110
3.343,71
..
.....
'/
/
Media: Des. STo Media: Des. STo Media: Des. STo Media: Des. STo Media: Des. STo
5,67 1,07 6,44 0.93 4,89 1,97 3,29 1,67 4,88 1,65
4,37 1,80 5,13 2,03 2,93 1,84 4,05 1,73 1,88 1,27
5,20 1,33 5,69 1,57 2,93 1,56 4,14 1,61 2,75 1,82
/·!}e. !'Ú
•• .'> 6,00 1.15 6,44 1,46 4,78 1,64 4,90 2,09 6,25 1,09
4,27 1,86 2,69 1,79 3,22 1,81 4.33 1,46 1,19 0,39
6,77 0,50 6.88 0,33 6.04 1,73 5,76 1,54 5,63 1,73
6,83 0,45 6,44 1,46 6,48 0,79 5,29 2,10 6,50 0,94
6.17 1,00 1,69 1,16 2,56 1,57 3.24 1,63 6,56 1,00
6,83 0,37 6,63 1,05 6,67 0,67 5,62 1,76 6,44 0,93
6,07 6.33 1,31 1,04 6,56 6,81 1,00 0,73 6,00 5,85 1,22 1,48 4,90 5,14 1,87 1,83 3,00 5,38 2,00 1,76
I,t~; >*3) J+ 4,77 1,84 6.13 1,62 2.00 1,33 3,57 1,84 3.31 2,28
5,17 1,46 6,50 1,27 4,96 1,97 1,90 1.15 3,94 2.16
6,07 1,09 6,63 0,86 6.33 0.98 3.10 1,90 6,44 1,06
Suma de cuadrados explicada: 35,23%
La pnmera vanable elegida para formar grupos es la RELDTü8, que es la que tIene mayor desviación típica. Mediante esta pnmera partIción se reduce la suma de cuadrados en un 11,1 %, pasando de 5.162,28 a 4.585,51. A mayor número de grupos se aumenta la vananza explicada; en el caso de cinco grupos el porcentaje de vananza explicada es del 35,23 %. Si observamos los cmco grupos obtenidos al final se extraen como conclusiones pnnclpales las sIgUIentes: -
-
-
-
© Ediciones Pirámide
Grupo 1: Es el más numeroso, los mmonstas que lo mtegran son bastante aquiescentes, muestran un grado de acuerdo con casi todas las afirmaCIOnes, presentan una buena predisposición en todos los aspectos. Sin embargo, casI sIempre el grupo 2 le supera, aunque por poco, salvo en las vanables 7 y 9. Es deCIr, son los que han puntuado más que mantienen una buena relación con sus suministradores y consideran deCISIva la calidad de los productos que le sumInIstran. Grupo 2: Son los mmoristas más satisfechos con sus suministradores, es el grupo menos numerosos Junto con el 5. Son los que están más y muy de acuerdo con la mayoría de las cuestIones planteadas. Sin embargo, muestran su desacuerdo con que la forma de pago a los proveedores sea Irrelevante y no le Importa mucho que el distribuidor les vIsIte en persona con cierta frecuencIa. Grupo 3: Es el segundo más numeroso, 10 componen minoristas que opman que el distribuidor no se mteresa por sus problemas y que no tIenen mucho mterés por mejorar la relación ni la cooperación con los sumInIstradores, son bastante desconfiados. Grupo 4: Podríamos calificarlos como los dejados u olvidados por el sumimstrador puesto que destacan por su opmión de que los distribuidores nI les
183
Técnicas de análisIs de datos en investigación de mercados mforrnan de las promociones, m de las mnovaClOnes, m siquiera le prestan el asesoranuento deseado. Además, son los que se muestran más de acuerdo con la necesidad de que se les vIsIte regularmente por parte del sunumstrador. Grupo 5: Críticos desprendidos, son los más críticos y se muestran más en desacuerdo con la mayoría de los ítems. No están de acuerdo con la necesidad de mejorar las relaciones con el distribuidor ni de cooperar más, no les importa mucho m el surtido, m el que se les vIsIte más m tampoco la forma de pago.
7.
APLICACIONES DEL ANÁLISIS CLUSTER Las aplicaCIOnes del análiSIS cluster se han prodigado en todas las ramas del conocImIento. Así, en bIOlogía se ha utilizado para establecer clasificaCIOnes de seres VIVOS, ya sean plantas o ammales e identificar especies y familias; en psicología, para identificar tIpologías de personalidad, de comportamientos paranOIcos o esqUlzofrémcos; en sociología, para definir grupos socIales con arreglo a unas característIcas determmadas; en medicma, para establecer tIpos de síntomas o de trastornos; en arqueología para describIr diferentes objetos líticos o herramientas de diversa índole, y así en otras ramas científicas. El análiSIS cluster en marketmg se ha utilizado para: -
-
Estudiar tipologías de comportamIentos de compra y de consumIdores. Obtención de segmentos en un mercado deternunado. Estudios de Imagen y de necesidades con respecto a un producto. Lograr clasificaCIOnes de productos, marcas o empresas y de esta forma entender mejor sus parecidos y sus diferencIas identificando grupos estratégIcos de deterrnmada OrIentación estratégIca de empresas o clases de productos competitivos. Identificación de grupos de CIUdades y, dentro de cada uno de ellos, de la ciUdad más representativa que pueda servir como laboratorIO de pruebas para accIOnes de marketmg como probar un diseño nuevo, una campaña de publicidad o una actividad promocIOna!.
Algunas investIgacIOnes concretas a modo de ejemplo en las que se ha utilizado el análiSIS cluster son las sIgUIentes: -
184
Para establecer grupos estratégICOS de empresas del sector de la distribución comerCIal y además analizar su evolución (Muñiz, 1996). Para identificar los valores relevantes para una región concreta, entre los que destacan: familia, honradez, amIstad o paz; y otros que no se consideran tan Importantes (política, sentImIento europeo, viVIr al día, religIón). A partIr de ahí defimr segmentos de consumidores y efectuar recomendaCIOnes para llevar a cabo aCCIOnes comerciales (Díaz et a!., 1996). © EdiclOoes Pirámide
AnálisIs cluster Para distmgUlr segmentos de consumidores de vino con denominacIOnes de ongen de Navarra y de Aragón (Sánchez, Oil, Delso, 1996). La satisfacción en el sector servIcios es un tema compleJo, se ha utilizado el análisIs cluster para identificar grupos de usuarIOs de un detenmnado servIcio público con diferente mvel de satisfacción (Bigné, et al., 1996). Para diferenCIar entre consumIdores de un producto a los que finalmente se denommó como: marquistas, eXIgentes y prácticos (RUlZ, Oonzález, IgleSIas, 1996). Para la caractenzación del electorado potencial de un partido (Martínez Ramos, 1984). Finalmente, es neceSarIO resumir, al mIsmo tiempo que resaltar, algunas advertenCIaS y recomendaCIOnes: 1.
2.
3.
4.
5.
6.
© EdiCIOnes Pirámide
Los datos deben estar en escalas comparables y, si es necesario, estandarizados. La determmación del número de grupos debe inspIrarse en el conocmllento teórico y/o práctico existente sobre el fenómeno en estudio. Las consideraciones de tipo operativo también S1fven de onentación; así, un número excesivamente reducido de grupos aportaría una información pobre, no generaría un mcremento del conocImIento sobre la cuestión en estudio, mIentras que si se trata de un número demaSIado grande de grupos complica la mterpretación y conduce a la confusión. La distanCIa elegida puede constItUIr, por sí mIsma, un elemento detenmnante en el proceso de agrupación. Éste es un elemento perverso puesto que los grupos han de vemr detenmnados por las características que se estimen y no por utilizar una u otra distancia. Otro tanto ocurre con el orden de los casos en los procedimIentos no Jerárquicos. Es decIr, el orden condicIOna la composIción de los grupos: si eXISte sospecha de la presencia de este efecto habría que proceder cambiando el orden. Los procediJmentos JerárqUIcos han perdido parte de su popularidad a favor de los no jerárqUIcos como consecuencia del desarrollo de programas mformátlcos. En estos últimos la clave está en la selección de los puntos de ongen: por lo demás les afectan en menor medida los valores raros, el tipO de distanCIa utilizada o la mclusión de varIables relevantes. Como ya se ha comentado es recomendable compagmar ambos tipos de procedimIentos como medida de garantía. El tamaño relativo de los grupos tiene su relevanCIa. No es apropIada una solución con grupos formados por uno o muy pocos elementos, en tanto que otros contienen muchos elementos.
185
Técnicas de análisis de datos en investigación de mercados
INVENTARIO DE TÉRMINOS Y CONCEPTOS o o o o o o
o o o
o o
Taxonomía. Cluster. Medidas de correlación. Similitud, distancIa y formas de medirla. Medidas de asociación. Procedimientos jerárqUIcos ascendentes y descendentes. Vínculo úmco, completo y medio. Método del centroide. Método de Ward. Procedimientos no JerárqUIcos, k-medias. Algontmo de Howard-Hams.
BIBLIOGRAFíA Aaker, D. A., Y Day, G. S. (1989): InvestIgación de mercados. McGraw-Hill, México. Bigné, E. (1990): «El análisis cluster: una aplicación a las áreas de Interés de las agencIas de publicidad», Esic-Market, julio-septíembre, pp. 367-388. Bigné, E., Vallet, T. M.; Molinero, M. A., Y Sánchez, J. (1996): «Las satIsfacción de los usuarIOs de los servicIOS públicos hospItalarios», VIII Encuentro de Profesores de Marketing, Zaragoza, pp. 231-240. Churchill, G. A. (1979): Marketing Research. Methodologlcal FoundatlOns. The Dryden Press, Hinsdale (IL). Díaz, A. M.; Del Río, A. B.; Santos, M. L., Y Sanzo, M. J. (1996): «Los valores SOCIales del consumidor. Un estudio para el mercado del automóvi!», VIII Encuentro de Profesores de Marketing, Zaragoza, pp. 31-41. Dillon, W. R., Madden, T. J., Y Firtle, N. H. (1987): Marketing Research In a Marketing Environment. IrwIn, Homewood (IL). Evrard, Y.; Pras, B., y Roux, E. (1993): Market. Études et recherches en marketing, ÉditlOns Nathan. Hair, J, F.; Anderson, R. E., Tatharn, R. L., Y Black, W. C. (1995): Multivanate Data Analysis with Redings, Prenl1ce-Hall IntematlOnal, Englewood Cliffs, N. J. Ketchen, D. J. (Jr), y Shook, C. L. (1996): «StrategIc Management Research: An Analysis and Critíque», Strateglc Management Joumal, vol. 17, pp. 459-480. Kinnear, T. C., Y TaylOr, J. R. (1989): Investzgación de Mercados. Un enfoque aplicado, McGraw-Hill, Bogotá (Colombia). Luque Martínez, T., y Cordón Pozo, E. (1994): «Una aplicación del análisis multivanable a las caracterísl1cas soclOeconómÍcas y comercIales de las capItales de proVIncia españolas», Revista Europea de Dirección y Economía de la Empresa, vol. 3, núm. 1, pp. 101-112.
186
© Ediciones Pirámide
Análisis cluster Malhotra. N. K. (1997): Investlgación de mercados. Un enfoque práctlco. PrenlIce-Hall, MéXICO.
Martínez Ramos, E. (1984): «Aspectos teóncos del análisis cluster y aplicación a la caractenzación del electorado potencial de un partido», en J. J. Sánchez Canión, Introducción a tas técnicas de análisIs muttlvanable a las CIenciaS sociales, Centro de InveslIgaclOnes SociológIcas. Madrid. Muñiz, N. (1996): «Evolución de los grupos estratégIcos en la distribución comercial europea», VIII Encuentro de Profesores de Marketing, Zaragoza. pp. 327-338. NOruSIS. M. J. (1986): Advanced Statistic SPSS/PC+, SPSS Inc., Chicago (IL). Ortega. E. et aL (1990): Manual de Investigación ComerCial, Pirámide. Madrid. Sánchez. M.. Gil, J. M .. Y Delso, M. J. (1996): «Estudio de las preferencias en el consumo de vmo mediante análisis de componentes princIpales no lineal y análisis cOllJunto», VIII Encuentro de Profesores de Marketzng, Zaragoza, pp. 77-92. RUlz. A., González, F.. e Iglesias, V. (1996): "ComercIalización de un producto mdiferenciado: la gasolina en España», VIII Encuentro de Profesores de Marketing, Zaragoza, pp. 311-325. Statistica for Windows (1995): StatSoft.
© EdicIOnes Pirámide
187
José Ángel Ibáñez zapata Teodoro Luque Martínez
1.
INTRODUCCiÓN 1.1.
¿Qué es el escalamiento multidimensional?
El escalamlento multidimenslOnal (EMD) surge en el ámbito de la pSlcología como una respuesta a la necesidad de relacionar la mtensidad física de Ciertos estímulos con su mtensidad subJetlva. Torgerson (1958) es conslderado como uno de sus pnnclpales precursores, contribuyendo decisivamente a la clasificación y utilización de estos métodos. Este autor fue el primero en proponer una generalización del escalamlento. Pronto surgleron nuevos modelos y métodos que paulatma y slstemátlcamente fueron cubriendo un amplio abamco de demandas realizadas desde diferentes campos de mvestlgación como la pSlcología, la educación, soclOlogía, las ClenClas políticas, la economía y, por supuesto, el marketlng. Un factor que favoreció su desarrollo fue la evolución expenmentada por los eqUlpos infonnátlcos y el software a partlr de los años cmcuenta. Ello permitió el desarrollo de numerosos algoritmos de escalamlento multidimensional (EMD) matenalizados en programas de amplia difusión a mvel mundial (KYST, INDSCAL, SINDSCAL, MULTISCALE, ALSCAL, PREFMAP, etc.). Incluso, paquetes estadístlcos tan populares como SPSS-X, STATISTICA y SYSTAT tlenen lmplementados sus proplOS programas de EMD. El escalamiento multidimenslOnal se enmarca dentro de los métodos de interdependencia y es un procedimiento que pennite al investlgador determinar la imagen relativa percibida de un conjunto de objetos (empresas, productos, ideas u otros objetos sobre los que los individuos desarrollan percepciones). Es declr, el aspecto característlco de este procedimiento es que proporclOna una representaclón gráfica en un espaclO geométnco de pocas dimenslOnes que pennite comprender cómo los © Ediciones Pirámide
189
Técnicas de análisis de datos en investigación de mercados individuos perciben objetos y qué esquemas, generalmente ocultos, están detrás de esa percepción. En estos espacios, los objetos adoptan la forma de puntos y la proxImIdad entre ellos refleja la analogía eXIstente entre los nusmos. La interpretación de las dimenSiones depende del conOCImIento que se tenga acerca de esos estímulos y se realiza de forma similar a como se haría con un análisIs factorial clásIco o un análisIs de correspondencias. En térmmos algo más técnicos y concretos, el objetivo del escalamIento multIdimensional es transformar los JUicioS de sImilitud o preferencias llevados a cabo por una serie de individuos en distancias susceptibles de ser representadas en un espacio multidimensional. Así, por ejemplo, SI un conjunto de indivIduos opma que los objetos A y B son los dos más parecidos de entre un conjunto de objetos, el escalamIento multidimensional posIcionará A y B de modo que la distancIa entre ambos sea la menor de las eXIstentes entre cada par de objetos. El mapa perceptual resultante muestra la posIción relativa del conjunto de objetos sobre los que se centra el estudio. El tipO de datos que hay que recabar son JUICIOS de similitud, diSImilitud o preferencIa que los sUjetos encuestados manifiestan en relación con todas las posibles COmbInaCioneS de pares de objetos a mvestIgar. La aplicación de esta téCnIca no reqUiere un conOCImIento prevIO de los atributos que los sUjetos utilizan al emItIr sus JUICioS. Tampoco se precisa un nIvel de medida muy restnctIvo para operativizar los JUICioS que se realicen. El escalamIento multidimensional está basado en la comparación de objetos, admItiendo que cualquier objeto está formado tanto por dimenSiones objetivas como por dimensiones subjetivas o perceptuales. Las dos pnncIpales repercusiones para la mvestIgación de esta importante diferenciación entre atributos objetivos y percibidos son: Las dimenSiones percibidas por los consumidores no tienen por qué COIncidir con las dimenSiones objetivas asumidas como relevantes por el Investigador. Las evaluaCiones de dichas dimenSiones (aun en el caso de que las dimenSiones percibidas coincidan con las obJetivas) pueden no ser Independientes o no comcidir con los valores obJetivos. Desde un pnmer momento queremos llamar la atencIón sobre la precaUCIón necesana en la Interpretación de los resultados de este tipo de análiSIS. Dicha mterpretación constituye más un arte que una CIenCIa, es deCIr, no eXIsten reglas fijaS para llevarla a cabo. Es por ello que el analista debIera reSIstirse a la tentación de permitir que sus propias percepCiones afecten a la mterpretación de las dimenSiones percibidas por los mdividuos encuestados. En definItiva, el EMD es una herranuenta muy útil cuando se pretende Investigar objetos para los que el conoCimiento está poco organIzado y los esquemas perceptuales son poco o nada conocidos.
190
© EdiCIones Pirámide
Escalamiento multidimenslOnal
1.2.
Una visión simplificada del funcionamiento del escalamiento multidimensional
Para ilustrar el funcionamiento de escalamiento multidimenslOnal, consideremos un sencillo ejemplo. Hemos reunido datos de un conjunto de individuos acerca de las similitudes o diferencias eXistentes entre un conjunto de seis productos. Estos datos se han obtenido mediante preguntas del tipo: «Puntúe el grado de smulitud de los productos A y B en una escala de '1 (muy similares) a 10 (muy distintos»>. A partir de las respuestas a estas preguntas es posible trazar un gráfico que revele algún tipo de pauta eXistente en las mismas. El siguiente ejemplo ilustra este proceso. Con el fin de simplificar la tarea del mdividuo entrevistado, se preparan 15 tarjetas, cada una de ellas representativa de un par de productos (el número total de pares distmtos se calcula mediante la Siguiente expresión: Número de pares = n[n - 1]12). Hecho esto, se pide a un encuestado que ordene las 15 tarjetas aSignando el valor 1 al par de productos más similares y el valor 15 al par de productos más diferentes entre sí. Supongamos que los resultados para determmado individuo son los presentados en la tabla 5.1:
TABLA 5.1 '1
.
Matriz de diszmilitudes
o
2
2
O 12 6 5 7
13
4 3 8
3 5 10 1
O 15
8 7 11 14 15
O
Para este mdividuo, los productos D y E son los dos más parecidos entre sí, mientras que E y F forman el par más distmto de entre los 15 posibles. Intentemos representar el grado de similitud entre los seiS productos en un espaclO unidimensional. Para ello tomamos como referenCia la escala arbitraria representada en la figura 5.1, que muestra las distancias AB, BC y AC de forma ordenada. Se observa que (A, B) es el par más cercano mientras que el (A, C) está constiluido por los dos productos más distantes entre sí. Este poslclOnaffilento de A, B Y C se ajusta perfectamente a la ordenación de los tres pares correspondientes, ofrecida por el mdividuo objeto de estudio. © EdiclOnes Pirámide
191
Técnicas de análisis de datos en investigación de mercados
-10 -9 -8 _7 -6 -5 -4 -3 -2
-1
O I 2 3 4 5 6 7 8 9 10
I 11
I
1···1 .~.
I
I I I I I!I
I I
.......
Figura 5.1.
Configuración con una dimensión.
Tratemos ahora de inclUir un cuarto producto, D, en la escala representada en la figura 5.1. Considerando las respuestas del mdividuo encuestado, la posición de D debería ser tal que: d(A, D) < d(B, D) < d(C, D) < d(B, C) < d(A, C)
Si posicionamos D en el lugar propuesto en la figura 5.1, observaremos que se cumple que: d(A, D) < d(B, D) < d(C, D)
Sin embargo, no es posible lograr que simultáneamente se cumpla que: d(C, D) < d(B, C) < d(A, C)
Independientemente de la posición que aSignemos a D, nunca lograremos que se cumplan todos los térmmos de la desigualdad antenor. Parece claro que si un mdividuo, a la hora de Juzgar el grado de similitud entre los productos, ha hecho uso de una regla simple de similitud (basada en un úmco atributo), todos los pares posibles pueden representarse sobre una escala unidimensional arbitraria que reproduciría fielmente la dimensión empleada para llevar a cabo tales JUICioS. Puesto que no es posible representar los JuiCIOS de similitud de nuestro ejemplo mediante una escala unidimensional, podemos mtentarlo mediante una escala bidimensional. La figura 5.2 muestra una posible solución. Un examen detenido de esta solución nos permitirá comprobar que las distancias entre los seis productos en el espacio bidimensional reproducen fielmente las relaCiones de similitud expresadas por el mdividuo encuestado, a saber: d(D, E) < d(A, B) < d(A, E) < .,. < d(D, F) < d(E, F)
192
© EdiCiOnes Pirámide
Escalamiento multidimenslonal
cz 0 0
E
Dimensión 1
D
'"'o d
0 Figura 52,
'<ñ
¡J
,§ el
Configuración con dos dimenslOnes,
En conclusión, el mdividuo encuestado hizo uso de al menos dos dimensIOnes de los productos evaluados en el momento de realizar sus JUiCIOS, Esta deducción se basa en la imposibilidad de representar las percepcIOnes expresadas en una sola dimensión. No obstante, no conocemos aún cuáles son concretamente los atributos empleados por dicho individuo en el momento de emihr sus JUicios de similitud. Más adelante se estudiará la forma de mterpretar los resultados del análiSIS.
1.3.
Comparación del escalamiento multidimensional con otras técnicas de interdependencia
El escalamiento multidimenslOnal se diferenCia de otras técnicas de mterdependencla en dos aspectos clave: -
© EdiCIOnes Pirámide
En el EMD cada individuo aporta evaluacIOnes de todos los objetos consIderados, por lo que podemos obtener una solución para cada mdividuo. lo cual no es posible en el análisis factonal ni en el análisIs cluster. Por tanto, la técnica no se centra tanto en los objetos en sí mismos como en el modo en el que éstos son percibidos por los mdividuos entrevistados. La estructura resultante representa las dimensiones empleadas por tales indiViduos en sus comparacIOnes.
193
Técnlcas de análisis de datos en investigación de mercados -
2.
En el EMD las dimensiones son mferidas a partir de las medidas globales de slmilitnd entre los objetos. Esto representa una ventaja respecto a otras técnicas al no requenr la especificación prevIa de las varIables a emplear en la comparación de objetos (algo que es Imprescindible en el caso del análisIs cluster y factorial), lo que evIta la mfluencla que el mvestIgador puede eJercer durante el planteamiento y la mterpretaclón del análisIs. Sin embargo, esto supone también una desventaja, ya que el investígador no puede estar plenamente seguro de qué vanables han sido empleadas a la hora de realizar las comparacIOnes.
PROCESO DE ELABORACiÓN DE MAPAS PERCEPTUALES 2.1.
Objetivos y especificaciones del escalamiento multidimensional
En general, las técmcas de elaboración de mapas perceptuaIes, y en particular el escalamiento multídimensional, resultan especIalmente apropIadas para la satIsfacción de los sIgUIentes objetívos: -
Identificación de dimensIOnes no reconocidas susceptibles de afectar al comportamiento. Obtención de evaluacIOnes comparatIvas de objetos en aquellos casos en los que las bases de comparación son desconocidas o no están definidas.
En el EMD no es necesario que el mvestígador m los individuos entrevistados especifiquen los atributos de comparación. No obstante, el analista sí tIene que especificar los objetos a comparar y asegurarse de que éstos comparten una base común de comparación. Por otra parte, el mvestIgador debe defimr el análisis a través de las sIgUIentes decisIOnes clave: a)
Selección de los objetos a evaluar
En pnmer lugar, es necesano asegurarse de que todos los objetos relevantes (empresas, productos, servIcIos u otros), y sólo éstos. son mcluidos. Además deberá cercIOrarse de que éstos sean comparables entre sí, ya que el escalamiento multldimensIOnal es una técmca de posIcIOnamIento relatIvo. La relevancIa de un objeto viene detenninada por los objetIvos perseguidos por el mvestIgador. En segundo lugar, hay que decidir el número de objetos a evaluar. Así, se ha de buscar un equilibno entre un número reducido de objetos que facilite la evaluación por el entrevIstado y un número mayor que penníta la obtención de una solución estable. A modo de onentación, el número de objetos debe superar en cuatro veces el de las dimensIOnes.
194
© Ediciones Pirámide
EscaLamiento multidimensionaL El número de objetos afecta también a la obtención de un mvel aceptable de ajuste. En muchas ocasiones, la utilización de un número de objetos infenor al sugerido para detenmnada dimenslOnalidad provoca una supravaloración de la bondad del ajuste. b)
Elección del tipo de datos
El mvestlgador debe optar entre la obtención de datos de similitud o de preferenCIas. Los mapas perceptuales basados en sImilitudes representan el parecido entre los atributos de los objetos, así como las dimensiones perceptuales empleadas en la comparación, SI bIen no reflejan las preferencias de los mdividuos respecto a los objetos ni sus determinantes. Los mapas perceptuales basados en datos de preferencIas sí que reflejan qué objetos son preferidos, SI bien las posIciones resultantes no tlenen por qué comcidir con las basadas en JUICIOS de similitud, ya que los mdividuos encuestados pueden en cada caso basar sus valoraciones en dimensiones completamente distmtas. c)
Elección del tipo de análisis
El mvestlgador puede generar el output sUjeto por sUjeto, generando tantos mapas como sUjetos han sido entrevistados, lo que se conoce como análisis desagregado. Sin embargo, las técnicas de EMD permiten también combmar las respuestas de los mdividuos entrevIstados para generar un menor número de mapas perceptuaies, mediante un proceso de análisIs agregado, previo o postenor al escalamIento multldimenSIOnal de los datos ofrecidos por los sUjetos. El modo de !agregación más SImple consIste en encontrar una «evaluación media» para cada grupo de mdividuos (formado, por ejemplo, mediante un análisis cluster) y obtener una solución agregada úmca a partir de ésta. También podemos utilizar el modelo INDSCAL (Individual Differences Scaling) y sus vanantes que permiten realizar un análisis desagregado espeCIalizado. La elección entre análisIs agregado o desagregado depende una vez más de los objetlvos del estudio. Si el objetlvo es conocer las evaluaciones globales de los objetos y las dimenSIOnes empleadas en sus evaluacIOnes, el análisIs agregado resulta más adecuado, mientras que SI el objetlvo es conocer las variacIOnes entre los mdividuos, el enfoque desagregado es el más adecuado. d)
Elección del método de análisIs
Las opciones que se presentan son: métodos no métricos y métricos. Los métodos no métricos, llamados así por el carácter no métrico de los datos de entrada (comúnmente generados mediante la ordenación de pares de objetos), resultan más flexibles al no asumIr mngún tlpo específico de relación entre la distan© EdicIOnes Pirámide
195
Técnicas de análisis de datos en investigación de mercados cla calculada y la medida de similitud. Sin embargo, es más probable que resulten en solucIOnes degeneradas o no óptimas. Los métodos métncos se distinguen por el carácter métrico tanto de los datos de entrada como de los resultados. Este supuesto nos penmte reforzar la relación entre la dimenslOnalidad de la solución final y los datos mlclales. Cabe suponer que la solución mantiene el carácter métrico de los datos micíales.
2.2.
Supuestos del análisis multidimensional
El EMD requiere que el mvesUgador acepte algunos supuestos relacIOnados con la percepción: -
-
Cada individuo entrevistado percibirá cada estímulo según unas dimensIOnes (aunque la mayoría de las personas juzgan en térmmos de un número limitado de dimensIOnes o características). Por ejemplo. algunas personas evalúan un coche en ténnmos de potencia y aspecto, en tanto que otras no consideran estos factores y 10 Juzgan en ténninos de coste y confort mterior. No necesariamente todos los mdividuos otorgan la nusma importancia a determmada dimensión o atributo. Los JUICIOS acerca de un estímulo no tienen por qué mantenerse estables en el Uempo m en 10 relativo a sus dimenSIOnes m en cuanto a la Importancia otorgada a éstas.
A pesar de tales diferenCias entre los mdividuos. podemos esperar que el EMD represente espacialmente las percepcIOnes de modo que sea posible exammar cualqUier relación subyacente común. El propósito de estas técmcas no es úmcamente el de conocer mdividualmente a las personas entrevistadas, smo también identificar las percepcIOnes y las dimenSIOnes de evaluación compartidas por los mdividuos que componen la muestra.
2.3.
Determinación de una solución para el EMD y evaluación del ajuste
Se trata de detennmar la posición de cada objeto en el espacIO perceptual de modo que los JUIcIOs de similitud expresados por los individuos entrevistados se refleJen 10 más fielmente posible. Los programas de EMD siguen un procedimiento común para la determmaclón de las posicIOnes óptimas. que se resume en los SIgUientes cmco pasos: -
196
Selección de una configuración inicial de los estímulos según la dimenslOnalidad inicial deseada. EXisten distmtas opcIOnes para obtener una configuración Imcla!. Las dos más empleadas consisten en utilizar una configura© EdiclOnes Pirámide
Escalamiento multidimensional
-
ción desarrollada por el proplO lllvestlgador sobre la base de trabajos de investigación previos o blen una configuración generada seleccionando puntos pseudoaleatonos a partir de una distribución nonnal multivanante. Cálculo de las distancias entre los puntos representativos de los estímulos y comparación de las relaciones (observadas versus denvadas) mediante una medida de ajuste o stress. Si el llldicador de ajnste no alcanza un valor númmo previamente fijado por el investlgador, será necesano encontrar una nueva configuración para la que el llldicador de ajuste sea mejor. El programa/algoritmo detennlllará las direCCiones que producen las mayores mejoras en el ajuste y moverá poco a poco los puntos en dichas direCCiones. A continuación. el programa realizará una evaluación de la nueva configuración y la ajustará hasta que se logre obtener un mvel satisfactono de ajuste. Reducción de la dimenslOnalidad de la configuración actual y repetlción del proceso hasta lograr obtener aquella configuración que, con la menor dimensionalidad posible, presente un mvel de ajuste aceptable.
En cualqUler caso. el analista debe obtener vanas solUCiones con diferente número de dimenSiones y elegu entre ellas sobre la base de tres cnterios fundamentales: su nivel de ajuste a los datos. su interpretabilidad y su replicabilidad. En relación con el nivel de ajuste, se trata de calcular una medida de stress. que llldica la proporclón de vananza de los datos onglllales no recogida por el modelo de escalamlento multidimensional. Esta medida varía según el tipo de programa y el tipo de datos que se estén analizando. En cualqUler caso. el stress mejora a medida que se consideran más dimenSiones. Entre las medidas de la bondad del ajuste más usuales están las siguientes: -
Stress: Kruskal emplea una medida de ajuste llamada stress, basada en las dispandades (datos óptimamente escalados) y las distancias, para la que eXlsten dos fórmulas diferentes:
II(dU -dU)2 J
S,
II(dU-d,/ ,
J
II(d'i -df ,
.1
donde: ,
l
'
d .. = -2' " '" d··lj ~~
n
© EdiCIOnes Pirámide
,
J
197
Técnicas de análisis de datos en investigación de mercados
-
es decIr, es la media aritmética de las distancIas estimadas, y di; son las distancIas ongmales entre objetos. Algunos autores han llegado a la conclusión de que cuando la matriz de diSImilitudes es una matnz sImétnca resulta más convemente utilizar la primera expresión. Sin embargo, SI los datos son preferenCIas, la segunda expresión resulta más adecuada. S-stress: El algontmo ALSCAL emplea una medida de ajuste llamada S-stress que, al igual que ocurre con el stress, presenta dos vanantes:
SS¡
= •
J
I, I, (dJ - J2)2 •
J
donde
d2.. = ~2 ~I,d~ ,L,..¡ n
-
-
198
1)
i
J
es decir, la media de las distancIas estImadas al cuadrado. ALSCAL permIte al usuano elegIr entre las dos fórmulas del S-Stress como función a mmmuzar para estImar las coordenadas de los estímulos. La primera de dichas fórmulas es la recomendada en el caso de que los datos origmales sean disimilitudes, en tanto que la segunda resulta más conveniente si se trata de datos de preferencIas. RSQ: Es el índice de correlación al cuadrado (R2 o RSQ), que es un mdicador de la proporción de varIanza de las disparidades (datos óptImamente escalados) recogida por el procedinuento de escalamIento multidimen,slOnal. En otras palabras, es una medida de lo bIen que los datos origmales se ajustan al modelo de escalamiento multidimenslOnal. El mvel de ajuste se conSIdera aceptable para valores de RSQ mayores de 0,6. Coeficiente de alienación: Guttman propuso una cuarta medida de la bondad del ajuste para análiSIs no métrICOS. Para ello definió un coeficIente de monotomcidad:
© Ediciones Pirámide
Escalamiento multidimenslonal EsencIalmente, J1 es una medida de asociación ordinal entre los datos origmales y las distancias estimadas. El coeficiente de alienación es una medida de la bondad del ajuste; cuanto mejor sea el ajuste del modelo no métnco, mayor será el valor de /1. El coefiCIente de alienación se define en ténnmos de J1 como sigue:
Cuanto mejor es el ajuste del modelo no métrIco a los datos, menor será el valor de 1<:, ya que 1<: es una medida de «maldad» del ajuste. Kruskal y Wish (1978) desaconsejan admitIr solucIOnes con un stress superior a 0,10, a menos que se trate de solucIOnes unidimensIOnales. Sin embargo, SI los datos contienen altos niveles de error muestral o de medida, cabe la posibilidad de aceptar valores de stress supenores a 0,10. En general, se suele considerar que 0,05 es un mvel aceptable de stress y que valores por debajo de 0,01 mdican un mvel muy bueno de ajuste. La replicabilidad es un cnteno aplicable únicamente a aquellas situaciones en las que se cuenta con dos o más submuestras. El objetivo es retener aquellas dimensIOnes que aparezcan de fonna consistente para las distmtas submuestras. Si se aplica el escalamIento multidimenslOnal por separado a las distintas submuestras y eXIsten t dimensIOnes que aparecen en las distmtas solucIOnes, la solución final debe contener exactamente estas t dimensIOnes. LógIcamente, las distintas submuestras deben provenir de la 111lsma población. El criteno de la interpretabilidad reqUIere de cIerto Juicio subjetivo por parte del analista. En este sentido, una solución con una dimenslOnalidad supenor será preferible a otra con una dimenslOnalidad menor SI eXIsten cIertos atributos importantes de los estímulos que aparecen en la pnmera y que no son recogidos por la segunda. En caso contrano, dada su sencillez, una solución con una dimensionalidad menor será preferible.
VI.
InCOrporación de preferencias en el escalamiento multidimensional
Los mapas perceptuales pueden también denvarse de datos de preferencias. El objetivo es, dada una configuración para un conjunto de objetos, detenmnar la combmación de características preferida. Así se desarrolla un espacIO conjunto donde se representan tanto los objetos (estímulos) como los sUjetos (puntos ideales). Para ello es precIso asurnrr el supuesto de homogeneidad en las percepcIOnes de los mdividuos en relación con el conjunto de objetos. Esto penmte que todas las diferencias sean atribUIdas a las preferencias y no a las diferencIas perceptuales. La mcorporación de preferencias da lugar a un resultado de enorme interés, el © EdiclOues Pirámide
199
Técnicas de análisis de datos en investigación de mercados punto ideal para cada mdividuo entrevistado. Identificar la POSICIón de un objeto ideal en el mapa perceptual Implica localizar la combmación preferida de atributos percibidos. ASUIllimos que la posIción de este punto ideal (en relación con el resto de objetos representados en el mapa perceptual) define la preferencia relatIva, de modo que aquellos objetos más alejados de dicho punto serán los menos prefendos. Los dos procedimIentos empleados generalmente para la detennmaclón de los puntos Ideales son la estImación explícIta y la estimación implícIta. La estimación explícIta toma como base las respuestas directas de los mdividuos, solicitándoles que evalúen un producto ideal hIpotétIco en relacIón con los mIsmos atributos empleados para evaluar el resto de objetos. Esto supone una serie de problemas, ya que los mdividuos tIenden a sItuar su objeto ideal en los extremos de las valoraCIOnes explícItas empleadas o a considerarlo similar al objeto preferido. Además, el individuo debe razonar, no en ténnmos de SImilitudes, smo de preferencIas, lo que a menudo resulta difícil cuando se trata de objetos relatIvamente desconocidos. Esas dificultades suelen llevar a los investIgadores a realizar estImacIOnes ImplíCItas de los puntos Ideales, a través distmtos procedimIentos. El supuesto básICO que subyace a la mayoría de dichos procedimIentos es que las medidas denvadas de las pOSICIOnes espaCIales de los puntos Ideales son conSIstentes con las preferencIas de los mdividuos. Snnivasan y Shocker (1973) asumen que el punto ideal para un conjunto de pares de estímulos es aquel que en un menor número de casos deja de cumplir la restncción de encontrarse más cerca del más preferido dentro de cada par.
Análisis de datos de preferencias: análisis interno versus análisis externo El pOSICIOnamiento Implícito de los puntos ideales a partir de los datos de pre-
ferencia puede llevarse a cabo de dos modos. Mediante análisis mternos de los datos de preferenCIa, que Implica el desarrollo de mapas espaCIales en los que SImultáneamente se representan estímulos y sujetos (mediante puntos o vectores) partiendo únicamente de los datos de preferencIa. Estos métodos de análiSIS parten de los sIgUIentes supuestos: • Las pOSICIOnes de los objetos se calculan mediante un desdoblamIento de los datos de preferencias correspondientes a cada individuo. • Los resultados reflejan dimensIOnes perceptuales que son ponderadas para predecIr las preferencias. Generalmente emplean una representacIón vectonal del punto Ideal, mIentras que los métodos externos pueden estar basados tanto en representaCIOnes vectonales como puntuales.
200
© Ediclones Pirámide
Escalamiento multidimensional -
El análisIs externo de datos de preferencia consiste en ajustar los puntos ideales (basados en datos de preferencia) a un espacIO desarrollado a partIr de datos de similitudes obtenidos de los mIsmos sUJetos. Por ejemplo, podrían desarrollarse mapas mdividuales a partir de datos de slllulitudes, examinar dichos mapas en busca de rasgos comunes y representar los datos de preferencIas en relación con los grupos de individuos identificados. Por tanto, para poder realizar un análisIs externo el mvestigador debe contar con datos de preferencIas y datos de sImilitudes.
Para un buen número de autores, el análisIs externo es preferible en la mayoría de sItuacIOnes. Esta conclusión se basa en las dificultades de cálculo de los procedimientos de análisis mterno y la confusión entre diferencias en las preferencIas y diferencías en las percepciones. Además, la ImportancIa de las dimensIOnes percIbidas puede cambiar cuando pasamos de un espacio perceptual a un espacIo de preferenCIas.
,
Representación vectorial versus representación puntual
1
~
La discusión sobre el desarrollo de mapas perceptuales basados en datos de preferenCIa ha hecho hmcapié hasta ahora en el concepto de punto ideal. Cuando se opta por esta forma de representación, el orden de preferencIas puede extraerse a partIr de las distancIas euclidianas que separan al punto ideal del resto de puntos representatIvos de los distIntos objetos. En este caso, estaríamos asumIendo que la dirección de la distancia carece de ImportancIa y úmcamente consideraríamos la distancIa relatIva. Las preferencIas pueden también representarse por medio de un vector. Para calcular las preferencIas baJO este enfoque, se trazan líneas perpendiculares (proyecCIones) desde el objeto haCIa el vector. Las preferencIas son mayores en el sentido mdicado por el vector. Éstas pueden derivarse directamente a partIr del orden de las proyecciones.
2.5.
Interpretación de los resultados del escalamiento multidimensional
Las técnicas de EMD no cuentan con métodos propIOS que ayuden a «etIquetar» las dimensIOnes. El investIgador, una vez que ha desarrollado los mapas con la dimenslOnalidad elegida, puede optar por uno de los sigUIentes procedimIentos: Procedimientos subjetivos La interpretación supone sIempre un JUICIO por parte del mvestigador o del entrevistado, y en muchos casos esto constItuye una solución para el problema © EdicIOnes Pirámide
201
I I
;
~ •
r r
i
Técnicas de análisis de datos en investigación de mercados que nos ocupa. Un modo bastante sImple aunque efectivo de etIquetar las dimenSIOnes del mapa perceptual c.onsIste en pedir a los individuos entrevIstados que, tras una lllspeccIón visual del mapa resultante, lllterpreten subjetIvamente la dimensIOnalidad del mIsmo. También cabe pedir a un conjunto de expertos que evalúen e identifiquen las dimensIOnes. Si bIen no se persigue relaCIOnar cuantitativamente las dimensiones con los atributos, este enfoque será el más adecuado en aquellos casos con dimensIOnes de carácter llltangible o de contemdo afectIvo o emOCIOnal. De forma SImilar, el propIO mvestIgador puede describir las dimensIOnes en térmmos de dimensIOnes conocidas (obJetIvas). De este modo se establece directamente una correspondencIa entre las dimensiones objetivas y perceptuales. Procedimientos objetivos
Como complemento de los procedimIentos subjetivos, el mvestIgador cuenta con una sene de métodos más formalizados. El método más empleado, PROFIT (property fitting), recoge las puntuaciones respecto a los atributos de cada objeto y encuentra la mejor correspondencIa entre cada atributo y el espacIO perceptual denvado. El obJetIVO es identificar los atributos determmantes de los juicios de SImilitud realizados por los llldividuos entrevIstados. Este método ofrece una medida de aJuste para cada atributo, así como su correspondencia con las dimensIOnes. El analista puede entonces determínar qué atributos describen mejor las pOSICIOnes perceptuales y son más ilustratIvas de las dimensiones. La necesidad de una correspondencIa entre los atributos y las dimenSIOnes definidas es menor en el caso de obtener resultados métricos, ya que las dimenSIOnes pueden rotarse libremente sm que ello afecte a las pOSICIOnes relativas de los objetos. Tanto SI se adopta un procedimIento subjetivo como SI se opta por uno objetivo, elmvestIgador debe recordar que es habitual que una dimensión represente a más de un atributo. La mejor alternatIva para apoyar la interpretacIón de las dimenSIOnes conSIste en utilizar los datos referidos a atributos. Sin embargo, eXIste el nesgo de que el analista no considere todos los atributos relevantes. En todo caso, la interpretación debe hacerse atendiendo a la eXIstencIa de agrupaCIOnes u ordenacIOnes SIgnificatIvas de los estímulos. Una agrupación SIgnificatIva de los estímulos es un conjunto de estímulos que aparecen Juntos en una determmada región del espacIO multidimensIOnal resultante y que poseen ciertas característIcas comunes. Por otra parte, una ordenación significatIva de los estímulos es aquella que dispone a los estímulos según su mayor o menor contenido de alguno de los atributos relevantes. Por tanto, la mterpretacIón de la configuración final conSIstIrá en determinar las característIcas comunes de los estímulos que forman agrupaCIOnes sIgnifi-
202
© Ediciones Pirámide
EscalamIento multidimenslonal cativas y en determmar las característIcas que dan lugar a ordenacIOnes sIgnificatIvas.
2.6.
Validación de los resultados
Dada la naturaleza mferenClal del EMD, la validación de los resultados debe dinglTse a asegurar su generalización a otros objetos y a otros mdividuos de la población, lo que no sIempre es fácil. La úmca alternatIva de comparación de resultados es la posIción relatIva de los objetos. Las dimensIOnes subyacentes no tIenen nmguna base de comparación. Si las posIciones varían. el investIgador no puede determmar si los objetos son percIbidos de un modo distInto o si las dimensIOnes perceptuales han varIado (o ambas cosas a la vez). No se han desarrollado métodos sistemátIcos de comparación que hayan sido integrados en los programas estadístIcos. ¿Cuáles son las opcIOnes disponibles? El enfoque más directo consiste en realizar una divIsión de la muestra u obtener distmtas muestras y comparar los resultados de éstas. En ambos casos, el mvestIgador debe encontrar un medio para comparar los resultados. Frecuentemente dicha comparación se realiza vIsualmente o mediante una simple correlación de las coordenadas. Otro modo de validar los resultados consIste en aplicar métodos de composIción (cluster, factonal o correspondencias) y de descomposIción (escalamIento multIdimensional) a la mIsma muestra de individuos. Con los métodos de descomposición se mterpretan las dimensIOnes resultantes para identificar los atributos clave, y después se aplica uno o más métodos de composición (en especIal el análisIs de correspondencias) para confirmar los resultados.
3.
MODELOS DE ESCALAMIENTO MULTIDIMENSIONAL De lo comentado hasta ahora se desprende que existe una gran varIedad de alternatIvas desarrolladas por diferentes autores que se concretan en numerosos modelos, algoritmos y programas. lo que dificulta su clasificación y su síntesIs. Para llevar a cabo una tIpología habría que considerar SI se trata de un análisis simple o ponderado, de similitudes y/o preferenCIas. mterno o externo, métrico o no métrico. el número y tIpo de matrices de datos empleadas, por cItar algunos de los cntenos más importantes. El módulo ALSCAL del programa SPSS resuelve este dilema mediante la sIgUIente clasificación (tabla 5.2). Como sería demasIado extenso y estaría fuera de nuestro objetIvo desarrollar todos los métodos de análiSIS que se contemplan en esta clasificación. hemos seleCCIOnado algunos de los más utilizados para ilustrar su aplicación mediante un ejemplo.
© EdicIOnes Pirámide
203
Técmcas de análisIs de datos en Investigación de mercados
TABLA 5.2 Clasificación de los procedimientos de escalamiento multidimensional en SPSS 7.5 riJ.l.~ d~ matriz
Objeto por Objeto
FO,?"ade la matriz
1: '
i!'< 1<
•.•.?'1~ matríz·
D()s o~~s",' ',.., , "'matrices individuáleá
..
EMDR: escalamiento multidimensional replicado
EMDP, escalamiento multidimensional ponderado (INDSCAL)
Escalanuento multidimenslOnal
EMDC: escalamiento multidimensional clásico
ASimétrica de un solo proceso
Escalamiento multidimenslOnal
EMDC condicIOnado EMDR condiCIOnado EMDP condiCIOnado por filas por filas por filas
EMDCA: escalamiento multidimensional cláSICO asimétriCO
EMDRA: escalamiento multidimenslOnal replicada aSimétrico
EMDPA: escalamiento multidimenslOnal ponderado aSimétrico
EMDCA externo
EMDRA externo
EMDPA externo
Rectangular Desdoblannento DMDC interno: mterno desdoblamiento multidimensional clásico interno
DMDR mterno: desdoblamiento multidimensional replicada mterno
DMDP mterno: desdoblanuento multidimenslOnal ponderado mterno
Desdoblannento DMDC externo: externo desdoblamiento multidimensional clásico externo
DMDR externo: desdoblamiento. multidimenslOnal replicada externo
DMDP externo: desdoblamiento multidimensional ponderado externo
,
4.
.>X·
:
Simétrica
ASimétrica Escalamiento de procesos multidimensional asirnémúltiples tnco interno
Objeto por atributo
>
J11fJ~elo .
Escalamiento multidimenslOnal aSimétrico mterno
EJEMPLOS PRÁCTICOS Existen. al menos, dos formas de constrUir escalas objetIvas que se correspondan de forma razonable con las «escalas» mternas de los mdividuos. Una de ellas consiste en obtener datos multivanables y emplear postenonnente un método de análiSIS factonal (o cualqUier otro método de compOSición) y otra en obtener datos de prOXimidad y/o preferencias y emplear un procedimiento de escalamiento multidimenslOnal para analizarlos.
204
© EdiCIOnes Pirámide
Escalamiento multidlmensional A modo de ejemplo, se parte de un conjunto de datos ficticIOs que se corresponden con los Juicios de 15 sUjetos hipotéticos (sujetos 1, 2, "" 15) acerca de la disImilitud eXistente entre 12 modelos de automóviles (modelos A, B, ..., L). El análisis de estos datos nos pernntirá ilustrar la utilización del escalamiento multidimenslOnal clásIco (EMDC), del escalamiento multidimenslOnal repetido, del escalamiento multidimenslOnal replicado (EMDR) y del escalamiento multidimensional ponderado (EMDP) o modelo de diferencias mdividuales (INDSCAL). Postenormente. utilizaremos otro conJunto de datos ficticIOS que se corresponden con los JUlcios de preferencias de los mismos 15 sUjetos acerca de los 12 modelos de automóviles. Ello nos perrmtirá mostrar el procedimiento de realización e mterpretación del desdoblamiento multidimenslOnal clásico mterno (DMDCI) y externo (DMDCE). Vamos a trabajar con la versión 7.5 del módulo «estadísticas profesIOnales» mclUldo en el conocido paquete SPSS, que contiene. entre otros, el programa ALSCAL. que constltuye uno de los programas más completos de escalamiento multidimensional.
4.1.
Escalamiento multidimensional clásico (EMDCl
El escalanuento multidimenslOnal cláSICO (EMDC) es la forma más sencilla de escalanuento multidimensional, ya que parte de una úlllca matriz de diSimilitudes. Para ilustrar su aplicación analizaremos la matriz de disimilitudes presentada en la tabla 5.3 (fichero MDSl.SAV*). Se trata de una matnz en la que cada elemento oij representa el Juicio realizado por el individuo entrevistado (en este ejemplo conSlTABLA 5.3 Matriz de disimilitudes •. A. A
O
B
1
e
4 2 3 3 4 5 7 5 9
D
E F G H
1
7
* © EdicIOnes Pirámide
B
O 5 1
4 2 3 5 6 4 8 6
e
O 4
.E ! F
1
O 3
5 4 3 6 5 8 8
3 4 6 3 8 5
Véase fichero en la dirección
1
O 3 2 2 4 4 7 7
O 2 3 4 2 6 4
G
H
.1
J
K
L
O 6 3
O 6
O
O 1
O
3 2 5 5
3
2 5 5
O 4 2 6
www.ugr.es/~t1uque.
205
Técnicas de análisis de datos en investigación de mercados deraremos úmcamente los JUlClOS realizados por el mdividuo 1) acerca de la disnrulitud entre los objetos i y j en una escala de O (muy smúlares) a 9 (muy distmtos). Se muestra la sintaxis empleada para la realización del análisIs. Hemos de destacar, sm embargo, que este tipo de análisIs puede llevarse a cabo haciendo uso de los menús y cuadros de diálogo del programa, sm necesidad de emplear el lenguaje de comando.
TABLA 5.4 Escalamiento multldimensional clásico métrico ALSCAL
a bcd e /SHAPE=SYMMETRIC /LEVEL=INTERVAL ICONDITION=MATRIX
VARIABLES""
f
g h
.1..
j
K
1
/MODEL=E'q'CLID ICRITERIA=CONVERGE(.OOOl) /PLOT=DEFAULT ALL
STRESSMIN(.OOOS)
ITER(lOO)
CUTOFF(O)
DlMENS(2,3)
/PRINT=DATA HEADER /OUTFILE=outputOl.sav
La línea /OUTFILE=outputO 1. sav nos perrmte grabar en el fichero outputa 1. sav las coordenadas de los estímulos en el espacio tridimensional y bidimenslOnal resultantes. Es muy importante destacar que este fichero (es deCir, esta matnz de distancias resultante) será empleado como configuración micial de los estímulos en los sucesivos ejemplos de esta sección para lograr que los resultados de los distmtos análisis estén basados, en la medida de lo posible, en las Ill1smas dimensiones, lo que perrrntirá la comparación de los resultados. La tabla 5.5 resume todas las opclOnes elegidas para este análisIs de escalamiento multidimenslOnal concreto. La tabla 5.6 muestra los detalles del proceso iterativo realizado por el programa para llegar a una configuraCión óptima de los estímulos en un espaclO tridimenslOnal. El proceso se detiene cuando la mejora producida por una nueva Iteración en el valor del índice de S-stress es mfenor al nivel umbral especificado, que en este caso es 0,0001. Obsérvese que el valor del S-stress tras la pnmera Iteración es de 0,05468, el cual se ve reducido hasta 0,04872 después de cmco lteraclOnes. Como ya hemos visto anteriormente, el S-stress es una medida de ajuste que varía entre 1 (el peor ajuste posible) y O (aJuste perfecto). A continuación, el programa presenta otras dos medidas de ajuste, la medida de stress de Kruskal (0,04308) y el coefiCiente de correlación al cuadrado (RSQ = 0,98803) entre los datos y las distanCiaS. Las tres medidas de ajuste mdican que el modelo euclidiano tridimenslOnal describe bastante bien los JUlClOS de diSImilitud realizados por el mdividuo en cuestión.
206
© EdiCIOnes Pirámide
Escalamiento multidimenslonal TABLA 5.5 Resumen de opcIOnes seleccionadas Alscal Procedure Options Data OptionsNumber of Rows (Observations/Matrix). Number of Columns (variables) Number of Matrices Measuremente Level Data Matrix Shape Type Approach to Ties Conditionality Data Cutoff at
12 12 1
lnterval Synunetr~c
Dissimilarity Leave Tied Matrix ,000000
Model OptionsModel Max~mum Dimensionality Minimum Dimensionality Negative WeJ.ghts
Euclid 3 2
Not Permitted
Output OptJ.onsJob OptJ.ons Header. Data Matrices Configurations and Transformations Output Dataset lnitial Stimulus Coordinates
Printed PrJ.nted Plotted Not Created Computed
Algorithmic OptionsMaximum Iterations _ Convergen Criterion Minimum S-stress Missing Data Estimated by
100 ,00010 ,00050 ulbounds
TABLA 5.6 Resumen del proceso iterativo para la solución en tres dimensiones y medidas de ajuste Iteration history for the 3 dimensional solution (in squared distances) Young s S-stress formula 1 is used. lteration S-stress lmprovement 1 ,05468 2 ,04939 ,00528 3 ,04886 ,00053 4 ,04875 ,00011 5 ,04872 ,00003 i
Iterations stopped because S-stress J.mprovement is les s than ,000100 Stress and squared correlation
(RSQ)
in distances
RSQ values are the proportion of variance of the scaled data (disparities) in the partition (row, matrix, or entire data) which is accounted for by their corresponding distances. Stress values are KrusKal' s stress formula l.
Stress
© EdiclOnes Pirámide
For matrix ,04308 RSQ
,98803
207
Técnicas de análisis de datos en investigación de mercados La tabla 5.7 muestra las coordenadas de los estímulos (es deCIr, la matriz X de configuración de los estímulos) empleadas para trazar la figura 5.3 1 A contmuación (tabla 5.8), SPSS muestra una matriz llamada Optlmally scaled data (disparitles) for sUbJect 1 [datos óptimamente escalados (disparidades) para el sUjeto 1]. Para este análisIs, en el que se ha especificado que los datos están expresados en una escala de mtervalos, los valores de esta matnz de disparidades están linealmente relacIOnados con las disimilitudes ongmales. TABLA 5.7 Coordenadas de los estímulos respecto a las tres dimensiones (Configuration derived in 3 dimenslOns)
I
DimenSiones Coche
I A B
e D
E F G H 1 J K L
1
2
3
1,93 1,29 1,12 1,20 0,72 0,22 -0,17 -0,44 -1,62 -0,32 -2,80 -1,12
0,15 0,67 -1,57 0,65 -1,12 0,64 -0,27 -0,64 -0,80 0,68 -0,46 2,06
-0,50 -0,87 0,77 0,07 0,10 -0,37 -0,20 0,70 -0,56 0,82 -0,67 0,72
El elevado nivel de ajuste mdicado por los tres mdicadores antenormente mterpretados es confirmado gráficamente por la figura 5.4. Este gráfico representa a las disparIdades (eje honzontal) en relación con las distanCIas ongmales (eje vertIcal). Las disparIdades han sido estandarIzadas, de modo que sus unidades han cambIado. Las distanCIas representadas son distanCIas euclidianas entre todos los pares de puntos representados en la figura 5.3. Por tanto, la figura 5.4 representa el lllvel de aJuste entre las distancias de la configuración final y los datos ongmales, que es el lllvel de ajuste que busca ser optImizado por el procedimiento de escalamIento multidimensIOnal. El RSQ es SImplemente la correlaCIón al cuadrado entre los datos y las distancias. Por tanto, SI observamos el gráfico podemos ver en qué medida los puntos se concentran en torno a la línea de ajuste perfecto que Iría desde la esquma infenor Izqmerda a la esquma superior derecha. En este caso, vemos que la mayoría de los puntos se concentran en torno a dicha línea de ajuste perfecto. I Aunque esta figura muestra la disposición de los puntos en un espacIO tridimensional, el analista siempre tiene la posibilidad de representarla en planos basados en cada par de dimensiones.
208
© Ediclones Pirámide
EscalamIento multidimens[onal
1,5 ~
'o
'<;l
0,5
~
§" -0,5
el
-1,5
-2,5 2 -1
Dimensión 2
Figura 5.3,
-0,5 -2 - 1
Dimensión 3
EspacIO de estímulos en tres dimensIOnes.
TABLA 5,8 Datos escalados óptlmamente {Opttmally scaled data (disparitles) lar subJect 1]
A B
e D E F
G H 1
J K
L
A
B
e
D
E
F
G
H
0,000 0,748 2,243 1,247 1,745 1,745 2,243 2,742 3,738 2,742 4,735 3,738
0,000 2,742 0,748 2,243 1.247 1,745 2,742 3,240 2,243 4.237 3.240
0,000 2,243 0,748 2,742 2.243 1,745 3,240 2,742 4,237 4.237
0,000 1,745 0,748 1,745 2.243 3,240 1,745 4,237 2,742
0,000 1,745 1,247 1,247 2,243 2,243 3,738 3,738
0,000 1,247 1,745 2.243 1,247 3,240 2,243
0,000 0,748 1,745 1,247 2,742 2,742
0,000 1,745 1,247 2,742 2,742
1
J
K
0,000 2.243 0,000 1,247 3,240 0,000 3,240 1,745 3,240 0,000
Las tablas 5,9 y 5,10 muestran, respectivamente, el proceso iterativo realizado para alcanzar una solución bídimenslOnal y las coordenadas de los estímulos respecto a este nuevo espaclO. A la vista de los valores de los mdicadores de ajuste (S-stress, Stress y RSQ, en la tabla 5.9), debemos concluir que esta configuración en dos dimensiOnes no reproduce demaSIado bien los JUicios de diSimilitud onginales, © EdiCIOnes Pinimide
209
Técnicas de análisis de datos en Investigación de mercados
5,--------------------,
4
i
I
O+-----j-----f-----f----+----I
o
2
Figura 5.4.
3 Disparidades
4
5
Gráfico de ajuste lineal para solución en tres dimensiones.
TABLA 5.9
Resumen del proceso Iteratlvo para la solución en dos dimensiones Iteration nistory for the 2 dimens~ona.l solution (in squarect distances) Yaung's S-stress formula 1 is used. Iteration S-stress Improvement 1 ,11539 2 ,10401 ,01138 3 ,10327 ,00074 4 ,10322 ,00005 Iterations stopped because S-stress improvement is less than ,000100 Stress ana squared correlation
(RSQ)
in distances
RSQ values are the proportion of variance of the scaled data (disparities) in the partitJ.on (row, matrix, or entire data) wniCh is accounted for by their corresponding distances. Stress va.lues are Kruskal' s stress formula 1.
Stress
210
For matrix ,09021 RSQ
,96057
© EdiclOnes Pirámide
Escalamiento multidimenslonal TABLA 5.10 Coordenadas de los estímulos respecto a las dos dimensIOnes (Configuration derived in 2 dimensions)
A B
e D E F G H 1 J K L
1,6659 1,1649 1,0246 0,9988 0,5991 0.1549 -0.1334 -0,3730 -1,3836 -0,2646 -2,4688 -0,9849
0,1048 0,6051 -1,3705 0,5091 -0,8875 0,4757 -0,1923 -0,5519 -0,7048 0,6438 -0,4368 1,8053
por lo que optamos por concluir que los JUICIOS de dismulitud realizados por el mdividuo en cuestión están basados en, al menos, tres dimensiones. El SIgUIente paso consistiría en tratar de dotar de sIgnificado a las dimenSIOnes que componen el espacio tridimensional resultante. Para ello podemos hacer uso de datos objetivos externos acerca de distmtos atributos de los objetos (en este caso de los automóviles). La tabla 5.11 muestra los coeficIentes de correlación entre las coordenadas de los objetos (automóviles) respecto a las tres dimenSIOnes resultantes y los valores de cuatro atributos de los mísmos (precIO, potencIa, tamaño y consumo), que han sido obtenidos a partIr de publicaCIOnes especializadas en este sector. La dimensión I está alta y negativamente correlacIOnada con el precIO y la potencia de los automóviles (estos dos atributos se encuentran además correlacIOnados entre sí). Por esta razón cabe concluir que la dimensión I lleva al mdividuo en cuestión a discnnunar a los distmtos modelos de automóviles en razón de su precIO y su potenCIa. En este sentido, en la figura 5.3 (yen la tabla 5.7) podemos ver cómo la dimensión I opone el automóvil A al automóvil K, respectivamente, el más barato y el más potente (véase la tabla 5.12). Relaciones análogas se observan entre la dimensión 2 y la variable tamaño (correlación alta y positiva) y entre la dimensión 3 y la vanable consumo (correlación alta y negatIva). Por esta razón, conclUImos que la dimensión 2 lleva al mdividuo a diferenciar a los doce modelos de automóviles en razón de su tamaño y la dimensión 3 a hacerlo en razón de su mayor o menor consumo. Por tanto, las percepcIOnes del mdividuo acerca de la similitud entre los modelos considerados podrían estar basadas en estos cuatro atributos. © EdiclOnes Pirámide
211
Técnicas de análisis de datos en investigación de mercados TABLA 5.11 Atributos de los automóviles I
C9che
..... <í!U
1,93 1,29 1,12 1,20 0,72 0,22 -0,17 -0,44 -1,62 -0,32 -2,80 -1,]2
A B
e D E F G H 1
J K L
0.15 0,67 -1,57 0,65 -1,]2 0,64 -0,27 -0,64 -0,80 0,68 -0,46 2,06
......
)
:
....
-0,50 -0,87 0,77 0,07 0.10 -0,37 -0,20 0,70 -0,56 0.82 -0,67 0,72
(CV)
1.225.000 1.800.000 2.100.000 2.075.000 2.625.000 3.225.000 3.700.000 4.100.000 5.600.000 3.900.000 7.000.000 4.900.000
60 75 85 80 100 130 150 165 210 160 280 195
Tamaño
CoIiSUDlo
(cm longitud)
(11100 km)
405 470 350 440 365 435 385 375 370 485 380 510
7,60 10.00 5,00 6,60 6,30 7,30 7,00 5,60 9,30 5,00 9,50 5,90
TABLA 5.12 MatriZ de correlaciones entre dimensiones y atributos .<
..
...
1 •••
Dimensión 1 Dimensión 2 Dimensión 3 PrecIO Potencia Tamaño Consumo
4.2.
1,0000 -0,0071 0,0336 -0,9994 -0,9965 0,0528 -0,2464
I
! ••
-0,0071 1,0000 0,0338 0,0013 0,0249 0,9488 0,0121
:3 0,0336 0,0338 1,0000 -0,0312 -0,0274 0,1354 -0,9382
••••
I I
I fI~tenci~l, Tallla~o
Consumo
•••
-0,9994 0,0013 -0,0312 1,0000 0,9968 -0,0636 0,2412
-0,9965 0,0249 -0,0274 0,9968 1,0000 -0,0424 0,2329
0,0528 0,9488 0,1354 -0,0636 -0,0424 1,0000 -0,0586
-0,2464 0,0121 -0,9382 0,2412 0,2329 -0,0586 1.0000
Escalamiento multidimensional clásico repetido
Todos los restantes tipos de escalamiento multidimenslOnal que vamos a presentar difieren del EMD cláSICO en que son más adecuados para analizar datos compuestos por más de una matrIZ de disimilitudes. Las pnnclpales formas de analizar este tIpo de datos son conOCIdas como EMD replicado y EMD ponderado. No obstante, debemos mencIOnar brevemente que una forma de analizar múltl-
212
© EdiCIOnes Pirámide
Escalamiento multidimensLOnal pIes matrIces de disimilitudes consiste en aplicar repetidamente el EMD clásIco, tantas veces como matrices de datos existan. Este enfoque implica suponer que las distmtas matrIces de datos no tIenen una estructura común. Se supone que las configuracIOnes de los puntos resultantes de cada matrIz de disImilitudes no tienen relación alguna. Si las distintas matrIces han sido obtenidas a partir de los JUICIOS de distmtos mdivlduos, éste sería el modelo de diferencIas individuales que permite una mayor libertad en la modelización de las mismas. De hecho, no eXIste restrIcción alguna. Sin embargo, este modelo de diferencIas mdividuales es el que menor parslmoma tiene, eXIstiendo una configuración completa de puntos para cada mdivIduo. Si hay n puntos (automóviles. en el ejemplo anterior), con sus respectivas coordenadas respecto a las r dimensIOnes, existirán n x r parámetros por individuo. Si eXIsten m individuos. eXIstirán m x n x r parámetros. Esto, no sólo resulta poco parslmómco. smo que los resultados son difíciles de mterpretar. ya que el mvestlgador se enfrenta a la tarea de comparar m análisIs distmtos. Por esta razón y por no extendemos en un modelo que no consIste smo en repetir el método anterIor tantas veces como individuos hayan sido entrevIstados (como matrIces de datos eXIstan), no presentamos un ejemplo del mIsmo.
4.3.
Escalamiento multidimensional replicado (EMDRl
La característica distintiva del escalamiento multidimensional replicado es que aplica el modelo de distancIas euclidianas a vanas matrIces de disImilitudes sImultáneamente. El supuesto básIco es que la configuración de los estímulos X resulta Igualmente válida para todas las matrIces de datos, lo que eqUIvale a decir que todas las matrices son, excepto por error, Iguales; éstas son réplicas las unas de las otras, sm que existan diferencIas sistemáticas distmtas de, qUIzá, «diferenCIas sistemáticas en el sesgo de respuesta». Éste es el modelo de diferencIas mdividuales con una mayor parslmoma y un mayor número de restriccIOnes. El número de parámetros es el mIsmo que en EMD clásIco; la matrIZ X está formada por un total de n x r parámetros para los n puntos y las r dimensIOnes.
Diferencias individuales en el sesgo de respuesta Es Importante destacar que en EMDR cada transformación lineal o monotómca lk o m k posee un subíndice, permItiendo que cada matrIZ de datos Sk tenga su propia relación lineal o monotómca con las distancias euclidianas al cuadrado. Por tanto. eXIsten m (el número de matrices diferentes) transformacIOnes lineales o monotómcas distmtas, una para cada matrIz de datos. Esto supone que el EMDR trata todas las matnces de datos como SI estuvIeran relacIOnadas entre sí por una transformación lineal o monotómca. En términos pSIcológICOS, el EMDR toma en cuenta las diferencias existentes en © Ediciones Piramide
213
Técnicas de análisis de datos en inuestigación de mercados las formas en las que los sUjetos responden a la escala (es decIr, en el sesgo de respuesta). Considere, por ejemplo, una escala formada por los valores entre O y 9. Aunque todos los sUjetos se enfrentan a la mIsma escala, éstos no la emplearán necesarIamente del mismo modo. Es posible que un sUjeto emplee úmcamente los valores 1, 5 Y9, mIentras que otro emplea todos los valores Impares y un tercero emplea úmcamente los valores centrales 4, 5 Y 6. Estas díferencIas en el estilo de respuesta (sesgo) son recogidas por las transformaCiones mdividuales para cada sUJeto. Ejemplo: La tabla 5.13 muestra la secuencIa de comandos de ALSCAL empleada para realizar un EMDR de qUInce matrices de disImilitudes (fichero MDSI5.SAV*) obtenidas a partir de los JUiCioS de similitud de otros tantos mdividuos acerca de los doce modelos de automóviles del ejemplo anterior.
TABLA 5.13 Escalamiento multidimensional replicado métrlco ALseAL a b c d e f g h ~ j k. 1 !SHAPE=SYMMETRIC /LEVEL=INTERVAL /CONDITION=MATRIX /FILE=outputO 1. sav CONFIG{ INITrAL) /MODEL=EUCLID
VARIABLES=
/CRITERIA=CONVERGE( .0001) /PLOT=DEFAULT ALL
/PRINT=HEADER /OUTFILE=Output02. sav
STRESSMIN( .0001)
ITER(lOO)
CUTOFF(O)
DIMENS(3,3)
.
Para SImplificar la interpretación de los resultados, haCIendo que las dimensiones de la configuración resultante tengan una onentación lo más parecida posible a la que se obtuvo en el ejemplo anterior, optamos por pedir al programa que en su proceso iteratIvo partIera precisamente de la configuración de coordenadas de los estímulos obtenida en el EMDC. De no hacerlo de este modo, correríamos el nesgo de que, aunque las pOSIciones relatIvas de los objetos en el espacIo perceptual fueran las mIsmas, su disposIción respecto a los ejes cambIara en relación con los resultados del ejemplo antenor, lo que impediría una comparación de los resultados sm una rotación prevIa de las dimensiones. Ello se realiza mtroduciendo en la secuencia de comandos la línea: /FILE=outputO 1. sav CONFIG( INITIAL). Esto mdica al programa que debe tomar como configuración mlclal para los estímulos la resultante del EMDC, que guardamos en el fichero outputO l. sav (véase tabla 5.4). Esta configuración micial no tIene necesanamente que haber sido calculada por ALSCAL (como ocurre en nuestro caso). El analista puede especificar cualquier otra configuración Imclal que le resulte de interés a estos efectos. Para ello deberá crear un archIvo de datos que habrá de mclUlr:
*
214
Véase fichero en la dirección www.ugr.es/-tluque. © Ediciones Pirámide
EscalamIento multidimensional Una vanable alfanuménca llamada TYPE_ que identifica el tipo de valores eXistentes en cada fila2 Una variable numénca llamada DIMENS que especifica el número de dimensIOnes. Una variable numénca llamada MATNUM que indica el sUjeto (matriz) al que corresponde cada conjunto de coordenadas. Las vanables DIMI. DIM2• ...• DIMn, que se corresponden con las n dimensiones del modelo. La tabla 5.14 muestra un resumen del proceso Iterativo llevado a cabo por el programa para encontrar una solución tridimensIOnal. Observamos que el proceso se TABLA 5.14 Resumen del proceso iterativo para la solución en tres dimensiones y medidas de ajuste Iteration history for the ,j dimensional solution (in squared distances) Youngis S-stress formula 1 ~s used. Iteration S-stress Improvement 1 ,14627 2 ,14165 ,00461 3 ,14093 ,00073 4 r 14089 ,00004 Iterations stopped because S-stress J.mprovement J.S 1.ess than ,000100 Stress and squared corre.lation (RSQ) in distances RSQ values are the proportion of variance of the scaled data (disparities) in the partition (row, matrJ..x, or entire data) which J.5 accounted for by theJ.r eorresponding distances. Stress values are Kruskal' s stress formula l.
MatrJ.x 1
Stress RSQ ,046 ,985 ,070 ,966 3 ,957 5 ,077 ,949 7 ,086 ,108 ,918 9 ,073 ,963 11 ,078 ,957 13 ,115 ,907 15 Averaged (rms) over matrices ,93878 ,09366 RSQ = Stress =
2
Matrix 2 4 6 B
ID 12 14
Stress ,072 ,073 ,080 ,077 ,156 ,133
,IDO
RSQ ,964 ,962 ,955 ,958 ,829 ,878 ,932
Los siguientes son los tipos de configuraCIOnes y pesos que pueden ser mcluidos en el fichero de
configuración imcial (valores de la vanable TYPE-.J: CONFIG: Coordenadas de la configuración de estímulos.
ROWCONF: Coordenadas de las filas de la configuración de estímulos. COLCONF: Coordenadas de las columnas de la configuración de estímulos.
SUBJWGHT: Pesos de los sUJetos. FLATWGHT: Pesos aplanados de los sUJetos. GEMWGHT: Pesos generalizados. STIMWGHT: Pesos de los estímulos. © EdiclOnes Pirámide
215
Técnicas de análisIs de datos en investigación de mercados detIene en la cuarta Iteración, tras la que el valor de S-stress resultante es de 0,14089 y la mejora producida respecto a la Iteracíón antenor es Infenor al nivel umbral establecido (0,0001). A contInuación, el programa presenta un gran número de índices de ajuste. Para cada matnz se calcula el valor del stress y del RSQ (qUInce valores). Finalmente, se presenta un valor medio del stress y del RSQ para el conjunto de datos. Resulta útil observar todos estos índices de ajuste para analizar SI existe algún índice especialmente pobre. Observando los valores de S-stress (0,14089), stress medio (0,09366) y RSQ medio (0,93878) podemos conclUIr que el nIvel de ajuste no es muy bueno, SI bien puede resultar suficiente SI consideramos el gran nÚ¡¡i~rO de datos analizados. Por Individuos, el sUjeto con un peor ajuste es el número 10, con un stress de 0,156 y un RSQ de 0,829. El resto de Individuos presentan niveles de ajuste supenores, especíalmente el individuo número l. Esto último parece bastante lógico si consideramos que la configuración InIcial utilizada es la resultante del EMDC realizado sobre los datos ofrecidos por dicho Individuo. TABLA 5.15 Coordenadas de los estímulos respecto a las tres dimenslOnes (Configuration derlved In 3 dimensíons) Dimensiones
Estímulo
A B
e D E F G H 1
J K L
1
.••.••
1,82 1,23 1,17 1,16 0,75 0,26 -0,20 -0,46 -1,63 -0,28 -2,72 -1,12
2
3
0,19 0,71 -1,56 0,70 -1,11 0,62 -0,22 -0,71 -0,78 0,69 -0,59 2,07
-0,67 -0,88 0,61 0,08 0,12 -0,32 -0,03 0,77 -0,49 0,97 -0,89 0,72
Para Interpretar la configuracíón resultante del análiSIS realizado nos apoyaremos en la observación de las correlacIOnes eXistentes entre las coordenadas respecto a las nuevas dimensIOnes, las coordenadas de las dimensIOnes resultantes del EMDC y los valores de los distintos modelos de automóviles respecto a los cuatro atributos antenormente considerados. Así, en la tabla 5.16 podemos ver cómo la dimensión I está altamente correlacIOnada con la dimensión I resultante del EMDC y ambas con los atributos precIO y potencia. Ello nos lleva a conclUIr que se trata de la misma di-
216
© EdiCIOnes Pirámide
Escalamiento multidimenslonal mensión y que ésta, una vez más, representa a los atributos precio y potencIa. Lo mIsmo podemos decir de las dimensIOnes 2 y 3, representatIvas, respectIvamente, del tamaño y consumo de los doce modelos de automóviles. TABLA 5.16 Matriz de correlaciones entre dimensiones de EMDC, dimensIOnes de EMDR y atributos »
/.
;>
>
»
/5
>
"
.EMD
2
Dimensión 1 Dimensión 2 Dimensión 3
1,000 -0,007 -0,007 1,000 0,034 0,034
Dimensión 1 Dimensión 2 Dimensión 3
0,999 -0,017 0,999 0,028 0,022 0,073
PrecIO PotencIa Tamaño Consumo
-0,999 -0,997 0,053 -0,246
4.4.
0,001 0,025 0,949 0,012
3 ,c.
El\1Di:~plicad~ (di.riellsíOnes) /1
I
-
",
>!
,
,
A. ~.~
Potencia
r
0,034 0,999 0,034 -0,017 1,000 0,044
0,028 0,999 0,033
0,022 0,073 0,983
1,000 0,017 0,031
0,017 1,000 0,075
0,031 -0.999 -0,997 0,075 -0,034 -0,012 1,000 -0,020 -0,021
0,044 0,033 0,983 -0,031 -0,027 0,135 -0,938
-0,999 -0,034 -0,020 -0,997 -0,012 -0,021 0,047 0,950 0,179 -0,258 0,006 -0,928
-0,999 0,001 -0,031
-0,997 0,025 -0,027
i' 0,053 0,949 0,135
i/>i
-0,246 0,012 -0.938
0,047 -0.258 0,950 0,006 0,179 -0,928
1,000 0,997 -0,064 0,241 0,997 1,000 -0,042 0,233 -0,064 -0,042 1,000 -0,059 0,241 0,233 -0,059 1,000
Escalamiento multidimensional ponderado (EMDPl
El escalaffilento multidimensional ponderado constItuye una generalización del modelo de distanCIas euclídeas en el que se supone que las distmtas matrIces de disimilitudes Sk difieren entre sí de fOrIlla SIstemáticamente no lineal o no monotómca. Mientras que el EMD replicado considera úmcamente las diferenCIas mdividuales en el sesgo de respuesta, el EMD ponderado considera también las diferencias individuales en los procesos cogmtIvos o perceptuales que dan lugar a las respuestas. Por esta razón el EMDP es comúnmente conocido como escalamiento de diferencias mdividuales (INDSCAL). El EMDP está basado en el modelo euclidiano ponderado. En este modelo, de nuevo tenemos el espacio de estímulos X (como en el modelo euclidiano no ponderado), pero además tenemos un espacIO de pesos o ponderaCIOnes W. Podemos considerar que el espacio de estímulos representa la mformación que es compartida por todos los mdividuos acerca de la estructura de los estímulos, del mIsmo modo que ocurría en EMDR. El espacIO de pesos o ponderaCIOnes representa la VIsión de cada mdividuo acerca de la estructura de los estímulos. © Ediciones Pirámide
217
Técmcas de anáfisis de datos en investigación de mercados A contmuación nos centraremos en una presentación detallada del EMDP. En las tres seccIOnes siguientes discutiremos la geometría, el álgebra escalar y el álgebra matricial de este modelo. En la cuarta sección analizaremos una sene de detalles acerca del EMDP. Postenonnente presentamos un ejemplo y finalmente analizaremos dos estadísticos desarrollados específicamente para el EMDP. Una aproximación a la geometría del modelo euclidiano ponderado El modelo euclidiano ponderado supone que los mdividuos presentan diferencias respecto a la ImportancIa que atribuyen a las dimensIOnes del espacio de estímulos X. Esta importante noción es mcorporada al modelo por medio de los pesos wka para cada individuo k respecto a la dimensión a. Estos pesos varían entre O y 1. Si un peso es grande (cercano a uno), diremos que la dimensión correspondiente es relativamente importante para el mdividuo en cuestión. Lo contrarIO ocumrá SI un peso es pequeño (cercano acero). La figura 5.5 muestra un esquema de la geometría del modelo euclidiano ponderado. En la parte supenor de dicho gráfico se muestran dos hIpotéticas matnces
Matrices de datos S,
Ss patatas Espinacas
Patlitás' EspiJiacas Lechuga Atún
O
4 O
4
2
PatatilS
6
2
O S
6
S O
S,.,-'---=~r----'--'-'-----'
i=b=¡=~?jttit ._·+-·-t-.. ··_·¡...·-f·_·.l.-l.--
Lechuga
AMo
, 3
3
O 4
6 S O
O
Espinacas Lechuga Atún
1
3 6
W¡;
0,9 0,8
O 2 S
+
-rwt--t--1
--. -9-
~-
-1
-~- +- _
--j--
1-
:
,
. I
j..._.j_.....
2
-t--'¡::~'-'r'- . ._+._.¡_..~. _.L ..
1
°
-1
-2 f··-;_·"¡'·_·j--'1·-·1-·+-·+--+·..·H -3 1"-;-+,-+-"-;--'+"+-'''-+ +-1 -4
-S
H,'''-I,'+, +'+-1--;"+-+,--1
°
L...L--'---'--'-L..L-l....+....1.....J
-S -4 -3 -2 -1
°0,10,20,30,40,50,60,70,80,9
1 2 3 4 S
MatnzXde coordenadas para el grupo
.• ··.X XL
-2
JI
Matnz W de pesos
',.
JI
long.
O 0,2 0,6 0,4 0,8
0,9 0,8 0,6 0,4 0,2
0,90 0,82 0,85 0,56 0,82
Figura 5.5.
218
Matriz D de distancias para el grupo Patatas Espinacas Patatas Espmacitil
O 3,16
3,16 O
Lechuga Atún
3,61 6,32
7,07
2,24
Lechuga
Atún
3,61 2,24 O 5,00
6,32 7,07 5,00 O
Geometría del madeja euclidiano ponderado. © Ediciones Pirámide
Escalamiento multidimenslonal de datos referentes a cuatro estímulos (patatas, espmacas, lechuga y atún). Estas matrices han sido etiquetadas como S2 y Ss' mdicando que se trata de las matnces número 2 y 5 respectivamente de un total de 5 (para este ejemplo). Hemos de destacar que SPSS no analiza matrices de datos con úmcamente cuatro filas y cuatro columnas, dado que resultan excesivamente pequeñas para ofrecer resultados slgmficativos. En el centro de la figura 5.5 se representan dos espacIOs, ambos de dos dimensIOnes. El espacIO de la Izquierda sería el espacio X Iupotético de estímulos para el grupo. En él encontramos cuatro puntos que se corresponden con los cuatro estímulos. El espacIO de la derecha sería el espacIO W de pesos o ponderacIOnes. En él encontramos cmco vectores que se corresponden con las cinco matnces de datos. Obsérvese que en EMDP el número de dimensiones de X es siempre el mismo que el de W. En la parte inferior de la figura 5.5 se muestra la mformación numérica correspondiente a los diagramas presentados en el centro de la misma. En la parte izqUierda podemos ver la matnz X de coordenadas de los estímulos para el grupo y en el centro la matnz W de pesos. Las columnas 1 y 11 de la matriz X se corresponden con las dos dimensiones del espacIO de estímulos. Las filas de dicha matriz especifican las posIcIOnes de los distmtos puntos en el espacIO de estímulos. Las dos pnmeras columnas de la matnz W se corresponden con las dos dimensIOnes del espacIO de pesos. Los valores de cada fila de dichas columnas especifican la posición de los extremos de los vectores de pesos en el espacIO de pesos. La cuarta columna muestra la longitud de cada vector de peso, que es Igual a la raíz cuadrada de la suma de los cuadrados de los dos restantes valores de su fila. En la parte mfenor derecha del gráfico se presenta la matnz D de distancias euclídeas entre los puntos en el espacio X de estímulos. El espacio X de estímulos tiene una mterpretación similar a la que tendría en EMDC y en EMDR. Llamamos a éste espacIO de estímulos para el grupo. Las distancias contenidas en la matnz D de distanCias para el grupo tienen también la misma mterpretación que las distanCias euclídeas calculadas en el modelo euclidiano no-ponderado, aunque en este caso dichas distancias están referidas al espacIO de estímulos del grupo, por lo que se denominan distancias para el grupo. El espacIO del grupo y sus distanCias nos mforman acerca del modo en el que el grupo en su conjunto estructura los distmtos estímulos y su mterpretación es la misma que en EMDR, con algunas excepcIOnes importantes que serán discutidas postenormente. Hay que destacar, no obstante, que esta mformación sobre el grupo no representa la estructura de ningún mdividuo concreto, ya que cada estructura individual es el resultado de la modificación de la estructura del grupo considerando los pesos mdividuales wk • El espacIO del grupo representa la mformación acerca de la estructura de los estímulos que es compartida por el conjunto de mdividuos. VolViendo a la matriz W de pesos, cada mdividuo (cada matriz de datos) está representado por un vector de pesos wk • Obsérvese que en el espacIO de pesos todos los vectores se encuentran en el cuadrante POSitiVO. Generalmente, sólo los pesos © EdiCIOnes Pirámide
219
Técnicas de análisis de datos en Investigación de mercados POSItiVOS son mterpretables. Por esta razón SPSS restnnge por defecto el valor de los pesos de modo que todos ellos sean POSltlVOS. Obsérvese también que no eXIsten pesos mayores que l. Esto se debe a que han sido normalizados de forma que su longitud sea igual a la proporción de vananza de los datos mdividuales recogida por el modelo. En el modelo euclidiano ponderado, las diferencias mdivlduales en las percepcIOnes son representadas por diferencIas en la orientación y la longitud de los vectores wk en el espacIO W de pesos. La orientación del vector de pesos es su característlca más importante, ya que ésta refleja las diferencias en la ImportancIa otorgada por los individuos a las distmtas dimensIOnes del espacIO X. Si dos individuos están representados por vectores con la misma dirección, ello sIgnifica que éstos otorgan la mIsma importancIa a las distmtas dimensIOnes, mdependientemente de la longitud de dichos vectores. Las diferencias en la longitud de los vectores mdican sImplemente que las respuestas de un mdividuo están mejor representadas por el espacio de estímulos para el grupo resultante. Los vectores más largos (y los pesos mayores) representan a aquellos mdividuos cuyos datos han sido mejor ajustados. La naturaleza de las diferencias mdividuales puede verse más fácilmente comparando los espacIOs personales de los estímulos para vanos individuos. Éstos son el resultado de aplicar la raíz cuadrada de los pesos de un individuo al espacIO del grupo. Los pesos encogen las dimensIOnes del espacio del grupo dependiendo de su valor. Los pesos cercanos a la unidad representan dimensiones importantes y encogen muy poco el espacIO del grupo, al contrarIO de lo que ocurre con los pesos cercanos a cero. Por tanto, en los espacIOs personales, las dimensIOnes más Importantes son más largas que las menos Importantes. La idea de los espacIOs indivIduales se representa en la figura 5.6 para los mdividuos 2 y 5. En la parte mfenor izqUIerda de la figura 5.6 podemos ver la matnz mdividual de coordenadas X2 • Obsérvese que X 2 es la matriz que contlene las coordenadas para todos los estímulos en el espacIO personal del individuo 2, nuentras que X2 es la fila de coordenadas para el estímulo 2 en el espacIO del grupo. En la parte IzqUIerda del centro de dicho gráfico podemos encontrar el espacIO personal para el mdivlduo 2, cuyas coordenadas se encuentran representadas en la matnz X2 • En la parte supenor izqUIerda se presenta la matriz de distancias personales entre los puntos en el espacio personal X2 , es deCIr, las distanCIas euclidianas ponderadas (por la raíz cuadrada de los pesos w2 del individuo 2) entre los puntos del espacIO X del grupo. La parte derecha de la figura muestra estos nusmos resultados para el mdividuo 5. Resulta mteresante comparar las estructuras de los espacIOs personales correspondientes a estos dos individuos. Los pesos del individuo 2 respecto a cada una de las dimenSIOnes son 0,2 y 0,8, respectlvamente, como puede observarse en la figura 55. Por tanto, este individuo otorga cuatro veces más Importancia a la dimensión 2 que a la dimensión 1. Esto se ve reflejado en su mapa personal, en el que la dimensión 2 es relatlvamente más larga que la dimensión l (su mapa presenta una dispOSIción más vertlcal que honzontal). Los pesos correspondientes al mdividuo 5 son justamente opuestos, es deCIr, 0,8 y 0,2 para las dimensiones l y 2, respectlvamen-
220
© Ediciones Pirámide
Escalamiento multidimensLOnal
Individuo 2 D z= transformación monotómca de 8 2
! Patátali "'ESP:lna¿as
1
iLeC~~ga
Atún
Individuo 5 D s= transformación monotónica de Ss
Patatas
Espinacas
Lechuga,
Atún
O 2,72 2,24 3,22
2,72 O 1,26 5,00
2,24 1,26 O 3,82
3,22 5,00 3,82 O
5 4 3 2
Patatas Espinacas Patatas Espinacas Lechuga Atún
,
"o
5 4 3 2
,
lo iX3 'Xl
1
O -2 -3 -4 -5
-1
-2 -3 -4 -5
i
,
-5 -4 -3 -2 -1 O 1 2 3 4 5
P ,
, , , , . , ' ,
,
,
,
o !X,
,
x, 1
x.
5,44 5,00 3,22 O
-5 -4 -3 -2 -1 O 1 2 3 4 5
x,
x,x,
2,83 1,84 O 3,22
1,61 O 1,84 5,00
(,X3
Xl
O
f<4
Atún
f<,
1
-1
x,
O 1,61 2,83 5,44
Lecbuga
-0,98
-0,45 0,45 1,79
11
1
11
0,89 3,58 2,68 -0,89
-1,79 -0,89 0,89 3,58
0,45 1,79 1,34 -0,45
Xl
x,X,X,
Figura 5.6.
te. Ello mdica que este individuo percibe que la dimensión 1 es cuatro veces más importante que la dimensión 2. Ello se refleja en una disposición más honzontal de los puntos en su mapa personal. El últImo aspecto a tratar en relación con la geometría del EMDP es que las distancIas personales de un individuo no están relacIOnadas con las de nmgún otro, m lineal m monotónicamente. Esto Implica que es posible emplear el modelo euclidiano ponderado para describIr perfectamente los datos de varias matnces de disImilitudes aunque éstos no estén monotónicamente relaCIOnados. De hecho, las dos matríces presentadas en la parte superior de la figura 5.6 están monotómcamente relaCIOnadas con las dos matnces de datos S2 y Ss de la figura 5.5, aun cuando estas últImas no están relacionadas entre sí. Por tanto, la estructura de X y W describe perfectamente los datos aportados por estos dos mdividuos a pesar de que éstos no están relacIOnados entre sí. Ésta es una característIca distmtIva del EMDP en relación con el EMDR. Este últImo modelo supone que todas las matnces de datos están monotómcamente (o linealmente) relacionadas entre sí, excepto por error. © Ediciones Pirámide
221
Técnicas de análisis de datos en investigación de mercados Ejemplo: Retomamos ahora los datos del ejemplo anterior para analizarlos mediante este modelo. La tabla 5.17 muestra la secuenCIa de comandos de ALSCAL empleada para ello. En ella cabe destacar dos aspectos fundamentales. En pnmer lugar, se ha sustituido la línea /MODEL=EUCLID del ejemplo antenor. por la línea /MODEL=INDSCAL. Ello nos permIte aplicar el modelo de distancIas euclídeas ponderadas en lugar del modelo de distancias euclídeas no-ponderadas (empleado en los dos ejemplos antenores). También destacamos que una vez más partimos de la configuración lmclal contenida en el fichero outputO 1. sayo Recordamos que se trata de la configuración resultante del EMDC y que la empleamos para sImplificar, en la medida de lo posible, la mterpretación de los resultados.
TABLA 5.17 Escalamiento multidimensional ponderado métrico ALSCAL
a bcd e f g h i j k 1 /SHAPE=SYMMETRIC /LEVEL=INTERVAL /CONDITION=MATRIX /FILE=outputOl.sav CONFIG(INITIAL) /MODEL=INDSCAL ICRITERIA=CONVERGE( .0001) STRESSMIN( .0001)
VARIABLES=
/PLOT=DEFAULT
ITER(lOO)
CUTOFF(O)
DIMENS(3,3)
ALL
/PRINT=HEADER /OUTFILE=output03.sav
La tabla 5.18 nos muestra que el proceso Iterativo se detiene tras la qumta Iteración cuando se alcanza un valor de S-stress de 0,13557. Al Igual que ocurría en EMDR, el programa calcula. para cada matriz, el valor del stress y del RSQ (15 valores). Finalmente, se presenta un valor medio del stress y del RSQ para el conJunto de datos. Podemos ver cómo las conclusiones alcanzadas en este sentido en el ejemplo de EMDR son perfectamente válidas para este caso. La tabla 5.19 muestra las coordenadas de los estímulos respecto a las tres dimenSiones. La figura 5.7 nos penmte analizar gráficamente la posIción relativa de los doce modelos de automóviles respecto a las dimensiones 1 y 2 (igualmente se representarían el resto de combmaCiones de dimensiones). Dicho análiSIS nos lleva a descubnr la gran sImilitud existente entre esta configuración y las resultantes de los dos modelos antenores. Para hacer más sencilla la mterpretación de las dimensiones resultantes recurnremos una vez más al análisis de la correlación eXIstente entre esta configuración y las configuraciones resultantes del EMDC yel EMDR (tabla 5.20). Observamos que los niveles de correlación son perfectos, por lo que hacemos extenslva a este ejemplo la mterpretación de las dimensiones resultantes de los eJemplos antenores.
222
© EdiCiones Pirámide
Escalamiento multidimensional TABLA 5.18
Resumen del proceso Iteratlvo para la solución en tres dimenslOnes y medidas de ajuste Iteration history for the 3 dimenslonal solution (in squared. distances) Young' s S-stress formula 1 i5 used. Iteration S-stress Improvement 1 ,14627 2 r 13655 ,00972 3 ,13572 ,00083 4 ,13561 ,00010 5 ,13557 ,00004 Iteratlons stopped because S-stress improvement lS less than ,000100 Stress and squarect correlatlon (RSQ) in distances RSQ values are the propartion of variance of the acaled data (disparities) in the partition (row, matrix, or entire data) which i5 accounted for by their corresponding distances. Stress values are KruSkal' s stress formula l.
Stress RSQ ,045 ,987 ,068 ,969 3 ,076 ,962 5 ,087 ,951 7 ,105 ,920 9 ,070 ,964 11 ,075 ,963 13 ,110 ,916 15 Averaged (rms) over matrices Stress = ,09214 RSQ = ,94177 Matrix 1
Matrix 2 4
6 8 10 12 14
Stress ,068 ,073 ,078 ,077 ,155 ,135 ,098
RSQ ,965 ,962 ,960 ,958 ,829 ,884 ,935
TABLA 5.19
Coordenadas de los estímulos respecto a las tres dimensiones (Configuration derived in 3 dimenslOns)
A B
e D
E F G H 1
J K L
© Ediciones Pirámide
1,42 0,98 0,90 0,91 0,58 0,20 -0,16 -0,37 -1,27 -0,22 -2,11 -0,85
0,18 0,72 -1,64 0,70 -1,15 0,63 -0,22 -0,74 -0,77 0,68 -0,54 2,14
-1,07 -1,32 0,88 0,15 0,16 -0,45 0,00 1,18 -0,79 1,55 -1,49 1,20
223
Técnicas de análisis de datos en investigación de mercados
2,5
iL ¡ o --------,---------r---------,-----------------,...-------- "1----- ---- ,---- ---- ,----- - ---
2
I
I
:
1 :
r
, I I
" I I
I 1
" ' " I I
I
I
"
"
,
I I , 1
1,5 --- - ----,--- - -----,.-- ------ ,---- ----- ---------¡-- -------,------- --r--------,---- ----I
"
,
1 l
,
~9
00
¡¡
8
"
I
"
I '
I "
1
l
I
I
I i
I
, I
, ,
t
I
1 " , ----- ---..,-------- "r--------.. .-- ---- --- - --------r--------.., ----- ---- Ir-------- ..,---- ---: :: J : F:
:,
N ~
"
I
, ,
, : :,
_______ - , -
0,5
,. __ -
,
"
I
"
: ________ ; I :
....
I
------O¡---------~-
~
,
I
I
¡
¡
¡
I
"
:
:'D-AS lJ-.f
: o
'
:
- - - - - - - --r- ----- - - - , - - ----- --r-- ----- - - ; - -- - - - - - "
: : r r-----__ . . __ --- ---o " : : " ,, , t ------i---------0,5 K: : Ol ¡ , I I ________ -1--+l_____ -1 : : : , " , I ______ ---1--------..I ----+l___ __ I
-1,5
1
O'
--- - -
I
I
o: ---------r--- ----- -., -------- -r----- ----;-- -- - ---"
::
"
t
"
I
A
I
t
,
GO: : : : ' F " " ------- --;-------- ¡-" --- -- ---¡ ------ --¡--- -----OH ¡ ¡ :I :I ----- ----.". . ------- - -1---- - --- -1----------1-------:I :OE: : I ¡ ! " " _ -1 .. -1 _ --1"
"
i : coi
¡
' "
I
-2 '--_l..'-----'-'-----'-'- - - - - ' - - - - " - - - " - - - ' ' - - - l . . '-----' -2 -1,5 0,5 1,5 -2,5 -1 -0,5 2
o
Dimensión i
Figura 5.7.
EspaclO de estímulos (configuración en tres dimenslOnes): dimensión 1 frente a dimensión 2.
TABLA 5.20 MatriZ de correlaciones entre dimensIOnes de EMDC, dimenSIOnes de EMDR, dimensiones de EMDP Y atributos EMD Clásico (dimenSIones)
Ii
1
2
12
,
:- -':E:l\1D P?n
El\1D replicado (dimension-es)
Atributos
(dimensiones)
3
1
2
3
..
PrecIo PotencIa Tamaño Consumo
Dimensión 1 Dimensión 2 Dimensión 3
1,00 -0,01 0,03
-0,01 1,00 0,03
0,03 0,03 1,00
1,00 -0,02 0,04
0,03 1,00 0,03
0,02 0,Q7 0,98
1,00 -0,01 0.04
0,01 1,00 0,02
0,03 0,11 0,98
-1,00 0,00 -0.03
-1,00 0,02 -0,03
0,05 0,95 0,14
-0,25 0,01 -0,94
Dimensión 1 Dimensión 2 Dimensión 3
1,00 0,03 0,02
-0,02 1,00 0,07
0,04 0,03 0,98
1,00 0,02 0,03
0,02 1,00 0,08
0,03 0,08 1,00
1,00 0,03 0,03
-0,01 1.00 0,06
0,04 0,12 1,00
-1,00 -0.03 -0,02
-1,00 -0,01 -0,02
0,05 0,95 0,18
-0,26 0,01 -0,93
Dimensión 1 Dimensión 2 Dimensión 3
1,00 0,01 0,03
-0,01 1,00 0,11
0,04 0,02 0,98
1,00 -0,01 0,04
0,03 1,00 0,12
0,03 0,06 1.00
1,00 0,00 0,04
0.00 1,00 0,10
0,04 0,10 1,00
-1,00 -0,01 -0.03
-1,00 0,01 -0,03
0.06 0,95 0,22
-0.25 0,02 -0,92
-1,00 -1,00 0,05 -0,25
0,00 0,02 0,95 0,01
-0,03 -0,03 0,14 -0,94
-1,00 -1,00 0,05 -0,26
-0,03 -0,01 0,95 0,01
-0,02 -0,02 0,18 -0,93
-1,00 -1,00 0,06 -0,25
-0,01 0,01 0,95 0,02
-0,03 -0,03 0,22 -0,92
1,00 1,00 -0,06 0,24
1,00 1,00 -0,04 0,23
-0,06 -0,04 1,00 -0,06
0,24 0,23 -0,06 1,00
Precio PotencIa Tamaño Consumo
224
© EdiCIOnes Pirámide
Escalamiento multidimenslonal La tabla 5.21 muestra los pesos de los sUjetos Junto con sus respectivos índices de rareza, cuya mterpretación se explica brevemente en el propIO output del programa y es analizada extensamente más adelante. La figura 5.8 muestra gráficamente los resultados presentados en la tabla 5.21 (la representación de las proyeccIOnes sobre los tres planos ayuda a la lllterpretación de los resultados). La princIpal conclusión que podemos extraer de estos resultados es que los pesos de los qumce llldivlduos respecto a la dimensión I son en todos los casos mayores que respecto al resto de las dimensiones. En general, eXIste una clara homogeneidad en la ImportancIa otorgada por todos los sUjetos a las distmtas dimensIOnes. No obstante, puede observarse cómo algunos mdividuos presentan cíertas diferencias respecto al resto del grupo. Concretamente nos refenmos a los sUjetos 9, 10 y 14, que otorgan una menor importancIa a la dimenSIón 1 (preCIO/potencIa) y una mayor importancia a la dimensión 2 (tamaño) y aparecen ligeramente separados del resto de los llldividiuos en el gráfico representativo del espacIO de pesos de los sUjetos en dos dimenSIOnes. Por su parte, los individuos 2 y 11 son los que mayor Importancia otorgan a la dimensión 3 (consumo).
TABLA 5.21 Índices de ajuste, índices de rareza y pesos para cada sUJeto/matriZ Matrix
© EdiclOnes Piramide
Stress
RSQ
I I
Rareza
Pesos de los sujetos (dimensiones) , .. '. . ' 3 >
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
0,045 0,068 0,068 0,073 0,076 0,078 0,087 0,077 0,105 0,155 0,070 0,135 0,075 0,098 0.110
0,987 0,965 0,969 0,962 0,962 0.960 0,951 0,958 0.920 0,829 0.964 0,884 0,963 0.935 0,916
0,088 0,202 0,058 0,032 0,091 0.141 0.092 0,056 0,085 0,048 0,186 0.067 0.088 0,118 0,095
0,861 0,806 0,854 0,823 0.861 0,838 0.843 0,848 0.775 0.752 0,813 0,825 0,864 0.771 0,847
0,466 0,479 0,455 0,495 0.440 0,486 0,461 0,440 0,520 0,475 0,472 0,417 0,434 0,553 0,396
0,169 0,294 0,179 0,198 0,167 0,151 0,165 0.213 0,224 0,193 0.284 0,171 0,169 0,189 0.208
Media
0.092
0,941
Overall importance
0,682
0,219
0,041
••••
225
Técnicas de análisis de datos en investigación de mercados
---,
0,58 r---~---~---~--~---~---~!
14 I
o
,,
,, I
I
I
I
I
0,54 -----------+-----------+-----------i------------~-----------r-----------+-----------
¡ :
:
9
I
~
,o
0,50
.~
8
0,46
¡ o ¡ : I
¡ ¡ :: I
I
¡
¡
\ ,
¡ :
60\
¡
,
-----------t-----------:-----------:------------I-o---------:-----------t----------10
¡
O....
1
\
:
:I
¡
2 \4 : O o ' 11,i
:I 7
:I
-----------~-----------~-----------~------------~-----------~-O---3---0---~-!-------I
,
I
I
,
,
I
I
I
1
I
I
I
I
:
I
:
:
:
:
: :
1,
0,42
¡ :
' " r I
I
\
...
I
I
8
o
,
5
o\ 013
J !
-----------:-----------1-----------1------------¡--U-------:-----------t----------I
:I
:I
\
¡
I
,
:,
¡ 1
r
:I 12
!, .16
,
I
;
\ o
:
,
¡ I
0,38 ' - - - - ' - '- - - - " - - - - ' - '----"---~''---------'-' 0,8 0,82 0,84 0,86 0,78 0,74 0,76 Dimensión 1
Figura 5.8.
.J
0,88
EspacIO de pesos de los sUjetos (configuración en tres dimensiones); dimensión ¡ frente a dimensión 2.
El índice de rareza La Interpretación correcta de los pesos es qne éstos representan el extremo de un vector cuyo ongen se encuentra en el ongen del espacIO de pesos. Por tanto, es posible Interpretar el ángulo del vector correspondiente a cada sUjeto respecto a cada una de las dimenSIOnes de dicho espacIO y respecto a los vectores correspondientes a otros sUJetos. Un error bastante común es tratar los pesos como un punto e Interpretar las distancias entre ellos, en lugar de considerarlos como vectores y de Interpretar los ángulos que éstos forman. Ello lleva a la conclusión Incorrecta de que aquellos puntos cercanos entre sí en el espacIO de pesos representan a Individuos SImilares, cuando la correcta mterpretación es que aquellos sUjetos cuyos vectores tienen una onentación parecida son Similares entre sí. El índice de rareza ha sido diseñado para ayudar a mterpretar los pesos de los sUJetos. Este índice nos expresa la smgularidad de los pesos de cada sUjeto en relación con los pesos de un sujeto típIco. Su valor oscila entre y 1. Un índice de rareza igual a indicaría que los pesos del sUjeto son proporCIOnales a los pesos de un sUjeto medio (es decir, a la media de los pesos). En este caso, se trataría de un sUjeto totalmente típiCO. A medida que las relaCIOnes entre los pesos se hacen más extremas, el índice de rareza se acerca a 1. Cuando un sUjeto tiene un único peso positivo y todos los demás pesos Iguales a 0, su correspondiente índice de rareza vale 1. Ello Indicaría que se trata de
°
226
°
© EdiCIOnes Pirámide
Escalamiento multidimensional un mdividuo muy smgular que emplea solamente una de las dimensIOnes del espaCIO resultante. En nuestro ejemplo (véase tabla 5.21), los sUjetos 2 y 11 son los que presentan unos índices de rareza más altos (0,202 y 0,186, respectivamente), mientras que los sUjetos 4 y 10 tienen los índices de rareza más bajos (0,032 y 0,048, respectivamente), por lo que éstos son los que tienen unos pesos más cercanos a los del sujeto medio. Los mdividuos más singulares de nuestro ejemplo serían el 2 y el 11, que son los que mayor importancIa otorgan a la dimensión 3 (consumo).
Los pesos (o ponderaciones) aplanados Los procedimientos estadísticos estándar resultan mapropIados para la mterpretación de estos pesos, ya que éstos representan mformación angular, no lineal. Por esta razón, SPSS calcula lo que se conoce como pesos aplanados. Los vectores de pesos, una vez aplanados, se convIerten en puntos y los ángulos entre los vectores, en distancias entre puntos. Por tanto, las varIables de pesos aplanados son variables lineales ordinarIas que pueden emplearse en otros procedimientos estadísticos, aunque úmcamente con propósitos descnptivos. La tabla 5.22 y la figura 5.9 muestran, respectivamente, la matriz y el gráfico de pesos aplanados correspondientes a nuestro ejemplo. La conclusión que podemos extraer de su análiSIS comcide con la idea expresada antenormente según la cual, en general, las percepcIOnes de los qumce sujetos son bastante homogéneas. Todos
0,58 r---~---'-------'----'------~--~ir---,
14 O
0,54
1 1
1 1 1 1
N
0,50
.g
10
~
O
0,42
9 O
1 1
1 1
1
1
1 1 1
1 1 1
1 l
1 1
¡
1 1 l
1 1
1
]
1
¡
¡
I t
-----------t-----------1-----------:------------I-o---------:-----------t-----------
~
0,46
i,
,
-----------+-----------{-----------i------------~-----------~-----------+----------1 l I t 1 1
:
:
~
¡
¡
¡
I
1
1
2 O
:4
i
011 '
I
6
o:
i'7
:
¡ I
-----------t-----------i-----------+----------+-----------~O'--3-0--~-!-------1 1
1 1
1 1
1 1
1 1
:
:
:
:
: 8O
1 1
59
:
:
:
:
:
1
1 1
1 1
1 1
1 l
1 1
1 1
:
:
:
: 12
\
\
\
\
013
-----------r-----------1-----------1------------:--u-------r-----------t----------1
1
1
1
: 16
,
¡
:
1
O ¡¡ 1 1 1 1 1 0,38 '-------'--'- - - , - - '- - - , - - '- - - ''- - - - - - - '''- - - - - - ''- - - - - ' 0,88 0,86 0.8 0,82 0,84 0,78 0.74 0.76
Variable 1
Figura 5,9, © EdicIOnes Pirámide
Pesos aplanados de los sUJetos.
227
Técnicas de análisis de datos en Investigación de mercados TABLA 5.22 Pesos aplanados de los sUjetos
{i\1aWx 1 2 3 4 5 6 7 8 9 10
11 12 13 14 15
VariabliU
Variable 2
0,861 0,806 0,854 0,823 0,861 0,838 0,843 0,848 0,775 0,752 0,813 0,825 0,864 0,771 0,847
0,466 0,479 0,455 0,495 0,440 0,486 0,461 0,440 0,520 0,475 0,472 0,417 0,434 0,553 0,396
ellos otorgan una ImportancIa smular a las tres dimenSIOnes que componen la configuración resultante, Tan sólo los mdividuos 9, 10 Y 14 presentan cIertas (aunque mímmas) diferencIas respecto al resto del grupo.
4.5.
Desdoblamiento multidimensional clásico interno lDMDC interno)
Los dos ejemplos restantes pretenden ilustrar el procedimIento de actuación para analizar datos de preferencIas. El objetIvo fundamental del análisIs de preferencias es representar en el mismo espacIO los estímulos y los sUJetos. El análisIs de preferencIas es, por tanto, un tIpo de escalamIento multidimenslOnal conjunto. Recuérdese que en el escalamiento multidimenslOnal (EMDC) solamente se obtiene una representación espacIal de los estímulos, En el modelo INDSCAL o EMDP se obtIene una representación de los estímulos y los sujetos, pero en espacIOs separados (espaCIO de estímulos y espacio de sUJetos), Tal como mdica el nombre del análisIs, la posIción de los sUjetos en el espacIO conjunto pretende mdicar sus preferencIas en cuanto a los estímulos, Supongamos que disponemos de la matnz de preferencIas de la tabla 5,23 (fichero MDFPREF.SAV*), construida a partIr de los JUICIOS realizados por los quince mismos sujetos cuyas respuestas fueron analizadas en los ejemplos antenores. Cada fIla de esta matnz representa a las preferencias de uno de dichos sUJetos. Se trata de
*
228
Véase fichero en la dirección
www.ugr.es/~tluque.
© Ediciones Pirámide
Escalamiento multidimensional TABLA 5.23
.•:¡/»
•.• ··is.¡j~t()é..'
(\(
I 2 3 4 5 6 7 8 9 10 II 12 13 14 15
12 6 6 11 12 6 I 12 I 12 11 6 6 12 6
11 2 3 9 11 5 2 11 8 11 10 5 2 11 I
Matriz de preferencias
li.~,< i<~' 9 12 12 12 6 9 4 7 12
lO 12
lO 12 9 11
10 4 8 8 10 3 3 9 4 9 8 3 4
lO 4
I·/~i! "'•.it..<< 1'./,//. /1//' r.~,; 'if 8 11 7
lO 8 10 5 5 11 8 9 9 II 8 12
7 5 4 5 9 4 6 3 2 6 5 4 5 7 5
6 7 5 7 7 8 7 I 3 7 6 7 7 6 8
4 9
lO 6 4 7 9 4 7 4 7 8 9 4 9
2 10 2 4 5 II 11 8 9 I 4 12
lO 2 10
5 3 11 3 2 2 8 2 6 5 2 2 3 5 3
I 8 I 2 3 12 12 10 5 2 3 11 8 I 7
3 1
9 I I I 10 6 10 3 I I I 3 2
valores ordinales condicionados por filas. es deCIr. cada sUjeto ordena todos los estímulos según sus preferencias, por lo que cada fila contendrá valores entre l (valor asignado al estímulo preferido por el individuo) y 12 (valor aSIgnado al estímulo menos preferido por el mdividuo). En la tabla 5.24 se presenta la secuencia de comandos utilizada para realizar el análiSIS de estos datos. Obsérvese que se han mcluido las SIgUientes líneas, que pasamos a analizar brevemente: -
/ SHAPE=RECTANGULAR
/ INPUT
ROWS (ALL): Indica al programa
que la matnz tiene fonna rectangular (al contrano que en los ejemplos antenores, en los que la matnz o matrices tenían fonna cuadrada) y que deberá analizar todas sus filas, de forma que cada fila representa a un caso. -
/LEVEL=ORDINAL; Indica al programa que los datos están medidos en
una escala ordinal (al contrano que en los ejemplos anteriores, en los que los datos estaban medidos en una escala de mtervalos). Ello Implica que el programa empleará un algontmo no métrico de desdoblamIento.
© Ediciones Pirámide
-
/CONDITION=ROW: Indica al programa que los datos que debe analizar presentan condiclOnalidad por filas.
-
/MODEL=EUCLID: Indica al programa que deberá analizar los datos empleando el modelo de distancias euclídeas.
229
Técnicas de análisis de datos en investigación de mercados TABLA 5.24 Desdoblamiento multidimensional clásIco interno ALSCAL VARIABLES=abcdefgn.Lj 1<1
/SHAPE=RECTANGULAR ¡INPUT ROWS(ALL) ILEVEL=ORDINAL /CONDITION=ROW /MQDEL=EUCLID /CRITERIA=CONVERGE(.üOOl) STRESSMIN(.OOOl) ITER(lOO) CUTOFF(O) DlMENS(3,3l /FILE=output04.sav CQLCONF(INITIAL) ROWCONF{INITIALl /PLOT=DEFAULT /PRINT=DATA HEADER
/OUTFILE=output05.sav
Una vez más emplearemos un fichero de datos que nos servirá de configuración lilicial. Sin embargo, en este modelo no basta con mdicar al programa las coordenadas mlclales de los estímulos en el espacIO perceptual. Además, habrá que mdicarIe las posIciones en dicho espacIO de los quince sUjetos cuyos JUicIOS son analizados. Para ello mcluimos en la secuencia de comandos la línea: /FILE=output04.sav COLCONF(INITIAL) ROWCONF(INITIAL)
Ello mdica al programa que deberá utilizar el fichero output04. sav como configuración miclal, tanto de los estímulos como de los sUJetos. Dicho fichero debe tener la estructura presentada en la figura 5.10. Como puede observarse, dicho fichero está formado por veintlslete casos y seis vmables. Las quince pnmeras filas mdican al programa las coordenadas imclales de los quince sUjetos cuyas respuestas son analizadas. Para ello aSignamos el valor ROWCONF a la vmable TYPE_. Las doce últlmas filas mdican al programa las coordenadas lmclales de los estímulos en el espacio tridimensional. Para ello aSignamos el valor COLCONF a la vmable TYPE_ Los valores elegidos como configuración imclal de los estímulos son los lillsmos que se emplearon en los ejemplos antenores, es decir, los resultantes del EMDC. Para la configuración imclal de las coordenadas de los sUjetos se les aSignó la POSIción del objeto preferido por cada uno de ellos. Es decir, como el sujeto 1 había expresado que el modelo de coche preferido era el K, se le asignó las coordenadas de dicho modelo como pOSición lmcial. En este caso, el proceso Íteratlvo (del que se muestra un resumen en la tabla 5.25) se detuvo en la Iteración número 100 (número máximo de lteraclOnes establecido al comíenzo del análisIs). En este punto, el valor del S-stress resultó ser de 0,03585, 10 que nos indica que el modelo resultante reproduce de forma razonablemente fiel los datos ongmales. Conclusiones similares pueden extraerse de la observación de los valores del stress y el RSQ medio (Stress = 0,050;
230
© Ediciones Pirámide
Escalamiento multidimensional
3
o o o o o o o o o o o o o
-2,80
-,46
-,67
3
o
1,29
,67
-,87
3
o o o o o o o o o o o o
1,93
,15
,50
"1,29
,67
-,87
1,12
-1,57
,77
1,20
,65
,07
,72
-1,12
,10
,22
,64
-,37
-,17
-.27
-;20
3 3 3
3 3 3 3 3 3 3 3
3
3 3
3 3 3 3 3 3 3 3
3
Figura 5.10.
-1,12
,72
-2,BO
-,46
-,01
-1,12
2,06
,72
-1,12
2,06
,72
-1,12
2,06
,72
1,93
,15
,50
-,17
-,27
-,20
1,93
,15
,50
-1,62
-,80
-,56
-1,12
2,06
?2
-1,12
2,06
,72
-1,12
2,06
,72
-,44
-,64
,70
-1,62
-,SO
-,56
-,32
,68
~2
-2,80
-,46
-,67
-1,12
2,06
,72
Fichero de configuración Imcial empleado en el ejemplo de DMDCr.
RSQ = 0,998). Si analizamos los valores mdividuales de estos dos últimos indicado-
res, comprobaremos que el modelo reproduce bastante fielmente los datos aportados por los qumce sUJetos. Tan sólo en dos casos (sujetos 7 y 9) el valor del Stress es superior a O,! O. © EdiclOl1eS Pirámide
-
231
Técnicas de análisis de datos en investigación de mercados TABLA 5.25
Resumen del proceso iteratzvo y medidas de ajuste para la solución en tres dimensiones Iteration nistory fo,r the 3 dimensional solution (in squared distances) Young' s S-stress formula 2 is used. Iteration S-stress Improvement 1 ,33953 2 ,26822 ,07131 97 98 99 100
,03627 ,03613 ,03599 ,03585
,00014 ,00014 ,00014 ,00014
Iterations stopped because this i5 iteration 100 Stress and squared corre.Lation (RSQ) in distances RSQ vaIues are the proportion of variance of the scaled data (disparities) in the partition (row, matrix, or entire data) whicn i5 accounted for by the~r corresponding distances. Stress vaIues are Krusx:al' s stress formu.la 2. Matrix 1 (Row Stimuli Only) Stress_ RSQ Stimulus Stress Stimulus RSQ ,018 1,000 2 ,017 1,000 1 ,012 ,078 ,995 4 1,000 3 1,000 ,039 ,999 6 ,021 5 ,107 ,989 8 1,000 ,021 7 ,026 ,106 ,991 10 ,999 9 ,032 ,999 12 ,017 1,000 11 ,016 1,000 14 1,000 13 ,017 ,052 ,997 15 Averaged (rms) over stimuli RSQ = ,998 Stress = ,050
La tabla 5.26 Y la figura 5.11 3 muestran la configuración resultante del análisis realizado. En la figura podemos observar la dispos1ción de los estímulos (modelos de automóviles) y las preferenCias de los sUJetos, representadas por un punto ideal. Para mterpretar las dimensiones de la configurac1ón final. recurnmos una vez más al análisis de la correlación eX1stente entre las coordenadas respecto a las tres dimensiones y los valores de los atributos considerados en los ejemplos precedentes (tabla 5.27). Gracias a la especificación de una configuración m1c1al para los estímulos, hemos logrado que la onentación de los ejes y la posición de los objetos respecto a los m1smos resulte muy slmilar a la obtenida en los tres ejemplos antenores. Por tanto, podemos concImr que las preferencias de los sUjetos están basadas en tres dimensiones fundamentales: el precio/potencia (representados por la dimensión 1), el tamaño (representado por la dimensión 2) y el consumo de los 12 modelos de automóviles (representado por la dimensión 3). : : Aunque sólo se muestra una de las proyecciones sobre los planos. se reconuenda utilizar los datos de ia tabla 5.26 para trazar las dos restantes.
232
© Ediciones Piramide
Escalamiento multidimensional TABLA 5.26 Configuración final de estímulos y sujetos
.·.m.. ú.;,HX:i;j
>;
'.,..•
..
•ii'.;.i ;.iiii/ I/i·./ir
i
A B
e D E F G H 1
J K L
1 2 3 4 5 6 7
8 9 10 11 12 13
14 15
••
(>
<>.;; •.. >
l'> i>
./. X>
)
1,6698 1,3631 1,0640 1,4767 0,7472 1,1896 1,0451 0,9608 -1,2358 0,8497 -1,2022 0,0951
0,3288 0,8060 -0,8641 0,6062 -1,3522 -0,1012 -1,0424 -1,1420 -1,6381 0,2911 -1,0599 1,1232
-0,7219 -0,6596 1,7920 -0,4463 1,1261 -0,1625 0,4501 0,7275 -0,4037 0,4178 -1,2018 0,3898
-1,9820 -0,3337 -1.1918 -1,4512 -1,1481 -0,5374 2,0373 0,1100 0,9342 -1,1581 -1,0863 -0,3794 -0,2431 -1,7823 0,1891
-0,8873 1,6663 -1,0739 0,5964 0,7373 1,3369 -0,0798 -0,5001 -0,8842 -0,7520 0,6484 1,3364 1,4012 -0,8390 1,3381
-0,4646 -0,0920 -1,8855 0,2759 1,0422 0,8344 0,8047 0,2498 -1,5389 -0,2387 0,4724 0,5265 -0,2069 -0,3942 -0,6926
Una vez interpretados los ejes, podemos extraer algunas conclUSIOnes acerca de las preferencias individuales de los qUlllce sUjetos estudiados. Así, por ejemplo, observamos que el llldividuo 7 se decanta claramente por los automóviles de menor precIO y prestaciones, al contrario que el individuo 1. El llldividuo 2 opta, fundamentalmente, por los vehículos de mayor tamaño.
© Ediciones Pirámide
233
Técnicas de análisis de datos en investigación de mercados
2,5
,---~--~--~:--~--~-~--~--~--,
: 20: - -------~---------}--- ------:----o---~----- -IS-:--- ------{--- ------:--- ---- --~- ----- --¡ i ¡ o o ~ 13 LO ¡ ¡ : i
2 1,5
--------~---------t--------+-----J~-f-----8-+--------i---------~--------+-------5'
: : -o: 1 1 : Bq ¡ --------l-------<5r---'O---T--------¡---------¡--------l---------015----;--------,
'"'o ~
.~
I
:
0,5
~ o
4:
1:
I ,
I I
I I I
I
,
I
I
I
:
:
:J
:..
:
I I
¡
I I
: + , :
,
,
¡
I
l
1
,
80: .... , :
I I
I I
: : : ---I---------t----------1--------, , , 9:0 ---L--------l__ D_Q__ L__----I
,
I
i ,
J
i
¡
,
,
,
t
I
oe :
'O
,
i
,
Eoi
:
_t,
'
H
i
_
i
--------r--------:-O-¡----r--------r--------:--------r--------r--------r-------, , , , , , , , ,
,
,
-2 L-_-'-' -2 -2,5
O Estímulos
Figura 5.11.
,
--------i---------~--------+--------t--------+-------Lf----F--~_--E;l1--+-------i , i i i ¡ o i :07 ---------1--------- ..--------...---------+---------.... --------.,---------t----------t---------
: : : .. .. -0,5 ---------t-----, ' o 10 ' 10: o 14: : -1 ---- ----J---l_uK__ J -1,5
I
,
,
,
1
,
1
,
'L-_-'-'----"'~----'-'----"'----'--'- - - " - - - ' -1 0,5 -0,5 1,5 -1,5 o 2 Dimensión 1 o SUjetos
Configuración final de objetos y sUjetos (configuración en tres dimensiones): dimensión 1 frente a dimensión 2.
TABLA 5,27
Matriz de correlaciones entre dimensiones de EMDC, dimensiones de DMDC/ y atributos
'.';
. . . ····i!!;C· !' 1.]j))'ll!1'•.. ;: x. 11J1Vll},/i; n· .n••·•·• ••.•••• ··!!·'ti [;+'!!1·;;" • ··i··.•. ~• . ·..( 1;·'·nJ;i• · .í '.' ..~.. i ••
,
.. •... ...
Precio
• •••
Potencia tlilllaño !Com;ullló
1,000 -0,007 -0,007 1.000 0,034 0,034
0,034 0,034 1,000
0.900 0,169 0,191
Dimensión 1 Dimensión 2 Dimensión 3
0,900 0,169 0,377 0,871 0,236 -0,383
0,191 0,077 0,770
0,462 0,264 -0,903 -0,880 1,000 0,206 -0,410 0,462 1,000 -0,273 -0,384 -0,355 0,890 -0,069 0,264 -0,273 1,000 -0,240 -0,256 -0,263 -0.794
-0,031 -0,027 0,135 -0,938
-0,903 -0,384 -0,240 1,000 0,997 -0,064 0,241 -0,880 -0,355 -0,256 0,997 1,000 -0,042 0,233 0,206 0,890 -0,263 -0,064 -0,042 1,000 -0,059 -0,410 -0,069 -0,794 0,241 0,233 -0,059 1,000
234
-0,999 -0,997 0,053 -0,246
0,001 0,025 0,949 0,012
0,236 -0,999 -0,383 0,001 0,770 -0,031
AtrIbutos
Dimensión 1 Dimensión 2 Dimensión 3
Precio PotencIa Tamaño Consumo
0,377 0,871 0,077
,
-0,997 0,025 -0,027
0.053 -0,246 0,949 0,012 0,135 -0,938
© Ediciones Pirámide
Escalamiento multidimensional
4.6.
Desdoblamiento multidimensional clásico externo
Para analizar los datos del ejemplo antenor mediante el método de desdoblamíento multidimensIOnal clásIco externo (DMDCE*) se empleó la secuencia de comandos presentada en la tabla 5.28. Obsérvese que la úmca diferencIa con la sintaXIS antenor se encuentra en la línea:
/FILE=output04.sav COLCONF(FIXED) ROWCONF(INITIAL) Esta línea mdica al programa que debe utilizar nuevamente el fichero output04 . sav como configuración de los objetos y los sUJetos. Sin embargo, al contrario que en el ejemplo antenor, se indica al programa que fije las posicíones de los objetos según las coordenadas que aparecen en dicho fichero. Es decir, el programa calculará las posicIOnes óptImas de los sUjetos (partIendo de una configuración miclal de los mismos mcluida en el fichero output04.sav) en relación con unas poSICIOnes fijas de los objetos. Ésta es la pnnClpal diferencIa entre el análisis interno y externo de los datos de preferencias. En el análisIs externo se necesItan dos matrices de entrada: la matriz de preferenCIas y la matriz de coordenadas de los estímulos. En nuestro ejemplo. esta últIma se ha obtenido previamente mediante un EMDC.
TABLA 5.28 Desdoblamiento multidimensional clásico externo ALSCAL ~=
a bcd e f
g
n
i
j
k 1
/SHAPE=RECTANGULAR /INPUT ROWS(ALL) /LEVEL=ORDINAL /CONDITION=ROW /MODEL=EUCLID /CRITERIA=CONVERGE(.OOOl) STRESSMINI.0001) ITER(lOO) !FILE=output04.sav COLCONF(FIXED) ROWCONF(INITIAL)
CUTOFF(O)
DlMENS(3,3l
!PLOT=DEFAULT /PRINT=DATA HEADER /OUTFILE=output06.sav
La tabla 5.29 es un resumen del proceso IteratIvo llevado a cabo por el programa. Obsérvese que dicho proceso se detIene de nuevo en la Iteración 100, en la que el S-stress alcanza un valor de 0,05641, ligeramente supenor al obtenido en el eJemplo antenor, aunque mdicatlvo de la buena capacidad del modelo de reprodUCIr los datos ongmales. Esta misma conclusión puede denvarse de la consideración de
* © EdicIOnes Pirámide
-
Véase fichero en la dirección
www.ugr.es/~uuque.
235
Técnicas de análisis de datos en investigación de mercados TABLA 5.29
Resumen del proceso iterativo y medidas de ajuste para la solución en tres dimensiones Iteration history fer the 3 dimensional solution (in squared distances) Young' s S-stress formula 2 15 used. Improvement Iteration S-stress 1 ,33953
100 Iterations this ~s
,05641 ,00017 stopped because iterat~on
100
Stress and squared correlation (RSQ) in distances RSQ values are the proportion of variance of 't,he acaled data (disparities) in the partition (row, matrix, or entire data) which is accounted fer by the~r corresponding distances. Stress values are KrusKal t s stress formula 2. Matrix 1 (ROW
Stimulus 1
Stress ,009
RSQ 1,000
5
,021 ,068
1,000 ,996
,010 ,225
1,000 ,963
7
9 11 13 15 Averaged
Stress
=
(rms)
,086
,030 ,999 ,041 ,999 ,144 ,982 over stimuli RSQ
=
stimuli Only) Stimulus 2 4 6 B
10
12 14
Stress ,033 ,013 ,034 ,126 ,107 ,031 ,007
RSQ ,999 1,000 ,999 ,985 ,989 ,999 1,000
,994
los índices globales de Stress y RSQ (0,086 y 0,994. respectivamente). Tras analizar los valores de estos dos mdicadores para cada uno de los sujetos podemos conclUlr que la configuración final no representa demaSiado fielmente a las preferencias expresadas por los mdividuos 8, 9, 10 Y 15, para los cuales el valor del índice de stress es supenor a 0,10. En general, el mvel de ajuste es bastante alto SI consideramos el número de datos analizados. La tabla 5.30 Y la figura 5.12 muestran la configuración final de los estímulos y los sUJetos. Podemos observar cómo, a pesar de haber fijado la configuración de los estímulos, sus coordenadas han camb1ado respecto a la configuración imclal (comparar con las coordenadas presentadas en la tabla 5.26). Sin embargo, SI realizamos un anális1s de las correlacIOnes eXistentes entre las coordenadas de los objetos respecto a las tres dimensIOnes y las coordenadas de éstos respecto a las dimensIOnes imclales (resultantes del EMDC), concluiremos que las primeras son proporcIOnales a las últimas. Es decir, pese a que la posición de los objetos respecto a los ejes ha cambiado, su posición relativa (la posición de cada uno de los objetos respecto al resto) no lo ha hecho (véase tabla 5.31). Por tanto, las dimensIOnes resultantes tienen la misma mterpretación que en todos los ejemplos antenores y las conclUSIOnes
236
© Ediciones Pirámide
Escalamiento multidimensional denvadas de las posIcIOnes de los sUjetos respecto a los doce modelos de automóviles estarían en la misma línea de las alcanzadas en el ejemplo antenor. No obstante, debemos destacar que esta coincidenCIa en los resultados no tiene por qué darse en otros casos.
TABLA 5.30
Configuración final de estímulos y sujetos
..
//!, ., .•
.......
Dimensiones·
-J
. ! !J
...2
L
1,4231 1,1128 1,0333 1,0734 0,8363 0,5949 0,4082 0,2783 -0,2976 0,3354 -0,8709 -0,0553
-0,4791 -0,2301 -1,3141 -0,2374 -1,0961 -0,2432 -0,6822 -0,8641 -0,9410 -0,2219 -0,7752 0,4439
-0,1861 -0,3658 0,4328 0,0926 0,1080 -0,1188 ' -0,0402 0,3977 -0,2147 0,4542 -0,2687 0,4080
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
-2,5071 0.2811 -0,6685 -1,3679 -1,0719 0,5483 2,4899 0,1829 -0,1035 -1,5312 -1,1151 0,5501 0,2511 -2,0942 0,2839
-0,9669 1,9901 -0,4198 1,1627 -0,5040 1,4586 -0,6919 -0,6668 0,9439 -0,7283 0,7958 1,4428 1,7296 -0,6424 1,7372
0,1259 -0,2680 -2,7037 0,1612 1,8241 1,1728 0,2191 0,8463 -2,4054 -0,3429 0,8470 0,8449 -0,2588 -0,0068 -0,7548
A B
e D E F G H 1 J K
© EdicIOnes Pirámide
I
¡.
...•
237
Técnicas de análisis de datos en investigación de mercados
2,5 r--~,--~-~--~-~,~-,
,, ,, 2 --------~---------~--------~--~-----+---------~-------1
:
I I
o
, I
11
o:
--------~---------~--
1
!
N "
~ 0,5 --------~---------
5rn
.§
¡ (015 ¡
¡
1 ,
1 ,
, ,
9!I
!I
!,
,
,
: : :13 6 : : --------l-----¡--r--------T----aIi:--------T--------
1,5
-----cf---- -----+---------:---------
r-------L:rl--------1-: -------+-------:
: : I
o
I
I
--------~---------~--------..:-----p--~---------:----\ : 3 \JlJD
Q
:
-0,5
5, o
4;1B
:.
:,
Dp-'
----
:
----;-~----?~--i~~--~-1~~D;fr-J--T--;;-7-
-1
0
8.-1_ ----- ---+ ----- ---- ..-------: ED: :
+-
-1
:
:
I I , M C 'I 1 I , -1,5 --- --- --~---------r--------~---------t---------~------~
I
I
I
I
I I
I ,
I I
I I
I I ,
-2 '-----'--'---,-'_ _-'-'_ _-"
o
-1
-2
"3
'C-_-J
2
3
Dimensión i
O Estimulos
O SUjetos
Figura 5.12.
Pesos aplanados.
TABLA 5.31 Matriz de correlacIOnes entre dimensIOnes de EMDC, dimensIOnes de DMDCE y atributos
..
_..
.. 1
l.
_
.'0
I .'.
' . . ;
o
o
'0
....
.".
.
.
,
..
.
'
I
!
!
.3' . ':
,o.
1
o'.
l.
2
3
.
.:
': .
..
Predo
Dimensión 1 Dimensión 2 Dimensión 3
1,000 -0,007 -0,007 1,000 0,034 0,034
0,034 1,000 -0,007 0,034 -0,007 1,000 0,034 1,000 0,034
0,034 -0,999 0,034 0,001 1,000 -0,031
-0,997 0,025 -0,027
0,053 0,949 0,135
-0,246 0,012 -0,938
Dimensión 1 Dimensión 2 Dimensión 3
1,000 -0,007 -0,007 1,000 0,034 0,034
0,034 1,000 -0,007 0,034 -0,007 1,000 1,000 0,034 0,034
0,034 -0,999 -0,997 0,034 0,025 0,001 1,000 -0,031 -0,027
0,053 0,949 0,135
-0,246 0,012 -0,938
PrecIO PalenCia Tamaño Consumo
-0,999 -0,997 0,053 -0,246
238
0,001 -0,031 0,025 -0,027 0,949 0,135 0,012 -0,938
-0,999 -0,997 0,053 -0,246
0,001 -0,031 1,000 0,997 -0,064 0,241 0,025 -0,027 0,997 1,000 -0,042 0,233 0,949 0,135 -0,064 -0,042 1,000 -0,059 0,012 -0,938 0,233 -0,059 0,241 1,000
© Ediciones Pirámide
Escalamiento multidimensional
5.
ESQUEMA DE PROCEDIMIENTO Una vez decidida la oportunidad y pertmencia de la aplicación de este tIpo de método para el análisIs de los datos con los que cuenta el mvestIgador, en su eJecu" ción cabe destacar las sIguientes fases:
a)
Fase de preparación
En ella deben realizarse las sIguientes tareas: -
Creación de las matrices de datos necesanas, lo que mcluye la composición de las matrices sIguientes: • Matriz o matnces de disimilitudes según se trate de un escalamiento multidimenslOnal clásIco o un escalamIento multidimensional replicado o de diferencIas mdividuales. • Matnz de preferencIas, en aquellos casos en los que se pretenda realizar un análisis de desdoblamIento multidimensional mterno o externo. • Matriz de coordenadas de los estímulos, en aquellos casos en los que se pretenda llevar a cabo un desdoblamIento multidimenslOnal externo. • Matnz de configuración Imclal de los estímulos, en aquellos casos en los que el investigador tenga mterés en que los ejes tengan una onentación fina lo más parecida posible a otra prevIamente determinada.
-
-
Selección de los estímulos a analizar. Especificación de la fonna de la matriz o matrices de datos (cuadrada o rectangular, SImétrica o aSImétrica) y del tipo de condicionalidad de los datos. Especificación del modelo de escalamiento o desdoblamiento. Especificación del mvel de medida de los datos y del tratamIento de las observacIOnes empatadas (cuando el mvel especificado sea ordinal). Especificación del número máxImo y mímmo de dimensIOnes de la configuración final. Especificación de los cntenos de convergencIa del proceso iteratIvo: convergencIa del S-stress, valor mínimo del S-stress y número máximo de iteraciones. Especificación del tipo de output que el programa debe mostrar: gráficos de grupo, gráficos de sUjetos individuales, matnz de datos, resumen y opciones del modelo, etc.
Algunos programas como SPSS cuentan con la posibilidad de crear matrices de distanCIas entre los casos a partir de matrices rectangulares de datos multivanantes. © EdiclOnes Pirámide
239
Técnicas de análisis de datos en investigación de mercados b)
Fase de interpretación
BásIcamente, se trata de fijar SI determinada configuración de los estímulos (definida por un número concreto de dimensIOnes) es capaz de reproducir fielmente los datos originalmente aportados por los mdividuos entrevIstados. Para ello habrá que analizar el valor alcanzado por un conjunto de mdicadores de bondad del ajuste. Si dichos mdicadores nos llevan a concluir que la configuración resultante reproduce fielmente los datos imcIales, el mvestIgador deberá tratar de dotarlas de SIgnificado. En muchos casos, la rotación, reflexión, estIramIento o encogimiento de los ejes pueden resultar de gran utilidad para mterpretar la pOSIción relativa de los estímulos en el mapa perceptual resultante. No obstante, deberán tenerse en cuenta las restriCCIOnes en este sentIdo de algunos de los modelos de escalamIento. También se pueden realizar comparaciones entre las respuestas mdividuales o entre grupos de ellas para tratar de identificar pautas comunes o diferenciales y formar de este modo segmentos de mdividuos. c)
Reducción de la dimensión
Una vez comprobado que CIerta configuración reproduce fielmente las distanCIas origmales, el Objetivo consiste en tratar de redUCIr al mímmo el número de dimenSIOnes de la configuración final mantemendo un mvel mímmo de ajuste, ya que ello supondrá simplificar la VIsión del problema objeto de estudio SIn perder una proporción Importante de Información.
6.
APLICACIONES Las técmcas de elaboración de mapas perceptuales, y en partIcular el escalall11ento multidimensIOnal, resultan espeCIalmente apropIadas para la satIsfaccIón de los SIgUIentes obJetIvos: Identificar dimensiones no reconocidas susceptibles de afectar al comportamIento. Obtener evaluaCIOnes comparatIvas de objetos en aquellos casos en los que las bases de comparación son desconocidas o no están definidas. Como ya comentamos, el escalamiento multidimensIOnal tIene su ongen en la pSIcología, campo éste en el que ha sido empleado con una mayor profUSIón y en el que su desarrollo ha sido más profundo. No obstante, este desarrollo ha dado lugar a una generalización en el uso del escalamIento multidimensIOnal y a su aplicación en otras CIencias SOCIales. Concretamente, en lo relatIvo a su aplicación en el mundo del marketIng, ésta suele estar relaCIOnada con estudios de posícIOnamiento perceptual y/u objetIvo de productos, marcas, empresas, mdividuos o cualesqUIera otros estímulos susceptibles
240
© EdiCIones Pirámide
Escalamiento multidimensíonal de evaluación en térmmos de similitud y/o preferencia. El objetivo último de estos estudios consiste en elaborar mapas perceptuales que, en un número reducido de dimenSIOnes, nos permitan mostrar las posIcIOnes relativas de los estímulos analizados, bien a partir de las percepcIOnes de los sUJetos, bien a partir de los valores obJetivos de sus atributos más relevantes. Se trata de una técmca de análisIs relativamente flexible, tanto en términos de tipos de datos que pueden ser analizados como en térmmos de supuestos de partida. Esta flexibilidad hace del escalamiento multidimenslOnal una técmca especialmente adecuada para llevar a cabo estudios de Imagen y posicionamiento en los que las dimensIOnes de evaluación pueden ser demasiado globales o demasiado emocionales/afectivas para ser medidas mediante escalas convencIOnales. Es posible encontrar un buen número estudios en los que se aplica el escalamiento multidimenslOnal para el análisIs de fenómenos relacIOnados con el marketing. A continuación se presentan algunos ejemplos: Bigné et al. (1993): La imagen de los productos fabricados en España. Bigné y Vila (1998): Eficacia de la técmca MDS en la medición del posicionamiento: una aplicación en los servicios. Davls (1992): Posicionamiento, imagen y marketzng de distribuidores múltiples. Ghose (1994): Representando visualmente las percepciones de los consumidores. Hodgkinson et al. (1991): Realización de mapas de las estructuras cogmtivas de los consumzdores: una comparación entre los árboles de similitudes, el escalamiento multidimensional y el análisis cluster. Ibáñez y Montara (1996): Análiszs de la importancia del atributo país de orzgen en la valoración de la entzdades financzeras: una propuesta metodológzca. Lévy (1993): Segmentación y poszcionamiento perceptual del producto: técnicas, sistemas y algorztmos. Mackay et al. (1995): Un modelo de punto ideal simple para el análisis de la estructura del mercado. -
Mauser (1980): Posicionamiento de candidatos políticos.
-
Mazanec (1995): Mapas competitivos: un estudio comparativo de las ciudades turísticas europeas mediante la metodología INDSCAL y de redes neuronales. Nillesen (1993): Evaluando la efectzvzdad del marketing-mlX en los mercados de servicios empleando datos agregados e zndivzduales. O'Connor y Sullivan (1995): Segmentación del mercado: una comparación de los beneficios y atributos deseados y de la preferencia de marca.
© EdiCIOnes Pirámide
241
Técnicas de análisis de datos en investigación de mercados Perkins y Reynods (1995): Interpretación de datos multidimensionales me-
diante el análisis de diferenciación cognittva. Roth y Romeo (1992): Relación entre las percepciones sobre la categoría de producto y la imagen del país de origen: un esquema de gestión de los efectos del país de ongen. Schmitt y Shultz (1995): Efectos situacionales de la preferencia de marca sobre productos de imagen. Steenkamp et al. (1994): Elaboración de mapas perceptuales basados en conjuntos de atributos idiosincrásicos. Urban y Hauser (1993): Diseño y marketing de nuevos productos.
BIBLIOGRAFíA Arabie, P.; Carroll, J. D., Y DeSarbo, W. S. (1987): Three-way scaling and clustenng, Sage PublicatlOns Inc. Arce, C. (1993): EscalamIento MuttidimenslOnal: Una técnzca muttlvanante para el análisis de datos de proximidad y preferencza, Universltas-50, Promocíones y Publicaciones UmversltarJas, Barcelona. Bennett, J. F., Y Hays, W. L. (1960): «MultidimenslOnal unfolding: determmmg the dimenslOnality of ranked preference data», Psychometrika, vol. 25, pp. 27-43. Bigné, B.; Miquel, S., y Newman, K. (1993): «La imagen de los prodUCtos fabncados en España», Información Comercial Española, vol. 722, pp. 49-61. Bigné, E., y Vila, N. (1998): «Eficacia de la técmca MDS en la medición del poslclOnaIlllento: una aplicación en los servICIOS», ESIC Market, mayo-agosto, pp. 71-90. Borg, 1., y Oroenen, P. (1997): Modem Muttidimensional Scaling: Theory and ApplicatlOns, Springer-Verlag, Nueva York. Carroll, D., y Oreen, P. E. (1988): «An INDSCAL based approach to multJple correspondence analysls», Joumal of Marketing Research, vol. 25, mayo, pp. 193-203. Carroll, J. D. (1980): «Models and methods for multidimenslOnal analysIs of preferent¡a¡ chOIce (or other dOllllnance) data», E. D. Lanterrnann y L. W. Porter (eds.), Annual Review of Psychology, Palo Alto, CA: Annual Revlews, vol. 31, pp. 607-649. Carroll, J. D., Y Chang, J. J. (1970): «Analysls of individual differences m multidimensional scaling vla N-way generalizatJon of ECkart-Young decomposltion», Psychometrika, volumen 35, pp. 283-319. Coombs, C. H. (1950): «PSyChological scaling witbout a umt of measurement», Psychologlcal Revlew, vol. 57, pp. 33-42. Coombs, C. H. (1952): «A theory of psychologlcal scaling», Engmeenng Research Instltute Bulletin, Ann ArMr, MI: Umversity of Michigan Press, núm. 34. DavIs, O. (1992): «Posltionmg, image and the marketmg of multJple retailers», Intemational Review of Retail, DistributlOn and Consumer Research, vol. 2, núm.!, pp. 13-34. Day, B., Stafford, M. R., y Camacho, A. (1995): «OpportumtJes for involvement research: a scale-development approach», Joumal of Advertlsmg, vol. 24, núm. 3, pp. 69-75.
242
© EdicIones Pirámide
Escalamiento multidimensíonal DeSarbo, W. s.. y Hoffman, D. L. (1987): «Constructing MDS Joint spaces from binary choice data: a multidimensional unfolding treshold model for marketing research», Journal of Marketing Research, vol. 24, febrero, pp. 40-50. DeSarbo, W. S., y Rao, V. R. (1986): «A constrained unfolding metbodology for product positionmg», Marketzng Science, citado en DeSarbo y Hoffman (1987). Ghose, S. (1994): «Visually representing consumer perceptlOns», European Journal of Marketing, vol. 28, núm. 10, pp. 5-18. Green, P. E. (1975): «On tbe robustness of multidimenslOnal scaling techniques», Journal of Marketing Research, vol. 12, febrero, pp. 73-81. Green, P. E., Y Carmone, F. (1969): «MultidimenslOnal Scaling: An mtroduction and companson of nonmetrIc unfolding techmques», Journal of Marketing Research, vol. 7, agosto, pp. 033-041. Green, P. E.; Krieger, A. M., Y Carroll, J. D. (1987): «COlljOlllt analysIs and multidimenslOnal scaling: A complementary approach», Journal of Adverttsing Research, octilbre-noviembre, pp. 21-27. Green, P. E., Y Wind, Y. (1984): «New way to measure consumers' Judgements», en Y. Wind, V. MahaJan y R. Cardozo (1984), New Product Forecasttng, cap. 3, USA: Heath and Company, pp. 89-109. GuttnIan, L. (1968): «A general nonmetric techmque for finding the sarnllest coordinate space for a configuratíon of pOllltS», Psychometrika, vol. 33, pp. 469-504. Han, J. F.; Anderson, R. E.; Tatbam, R. L., Y Black, W. C. (1995): Multivanate data analySIS wzth readings, 4." ed., Prentice-Hall. Hauser, J. R., Y Koppelman, F. S. (1979): «Altemative perceptual mapping techniques: relatIve accuracy and usefulness», Journal of Marketing Research, vol. 16, noviembre, pp. 495-506. Hodgkinson, G. P.; Padmore, J., y Tomes, A. E. (1991): «Mappmg consumers' cognítive structures: a comparison of sllnilanty trees with multidimensional scaling and cluster analysIs», European Journal of Marketing, vol. 12, mayo, pp. 41-60. Ibáñez, J. A., Y Montoro, F. J. (1996): «AnálisIs de la illlportancia del atributo país de ongen en la valoración de la entidades financIeras: una propuesta metodológIca», ponencIa presentada al X Congreso NaCIOnal VI Hispano-Francés de AEDEM, Granada, Jumo de 1996, vol. lb, pp. 605-625. Kruskal, J. B., Y Wish, M. (1978): Multidimensional Scaltng, Newbury Park, CA, Sage. Lévy, J. P. (1992): «El posicionamiento objetIvo del producto según el análisIs multidimensional de escalas y el análisis de grupos», ESIC Market, abril-Jumo, pp. 33-50. Lévy, J. P. (1993): «Segmentación y posIcIonarmento perceptilal del producto: técmcas, SIStemas y algontmos», ESIC Market, octubre-diciembre, pp. 137-148. MacCallum, R. C. (1974): A comparzson of two individual differences models for multidimenszonal scaltng: Carroll and Chang's INDSCAL and Tucker's three-mode factor analysis, tesis doctoral no publicada, UmverSIty of IllinOls. Mackay, D. B., Easley, R. F., y Zinnes, J. L. (1995): «A smgle ideal pOlllt model for market structure analysis», Journal of Marketing Research, vol. 32, novIembre, pp, 433-443. Malhotra, N. (1987): <
© Ediciones Pirámide
243
r ¡
Técnicas de análisis de datos en investigación de mercados Mazanec, J. A. (1995): «Competttlve maps: a comparative study on european tourist c¡ttes with INDSCAL and Neurocomputmg methodology», proceedings of the 24th European Marketmg Academy Conference, París, vol. 1, mayo, pp. 16-19. Nillesen, H. (1993): «Assessmg marketmg mlx effecttveness m service markets using aggregate and individual data», proceedings of the 22th Annual European Marketmg Academy Conference, Barcelona, mayo, pp. 25-28. Ü'Connor, P. l, y Sullivan, O. L. (1995): «Market segmentatton: A comparlson of benefits/attributes deslred and brand preference», Psychology and Marketmg, vol. 12, núm. 6, septtembre, pp. 481-499. Perkins, W. S., y Reynolds, T. (1995): <, Psychometrika, vol. 27, pp. 125-246. Snnivasan, V., y Shocker, A. D. (1973): «Linear programmmg techlllques for multidimenslOna! analysls of preferences», Psychometrika, vol. 38, pp. 337-369. Steenkamp, J. B., Van Trop, C. M., y Ten Berge, M. F. (1994): «Perceptual mapping based on idiosyncratic sets of attributes», Joumal of Marketmg Research, vol. 31, febrero, pp. 015-027. Torgenson, W. S. (1958): Theory and methods of scaling, Wiley, Nueva York. Tucker, L. R. (1960): <
244
© EdiCIones Pirámide
PARTE TERCERA Métodos de dependencia
Jorge Chica Olmo Dolores M. Frías Jamilena
1.
INTRODUCCiÓN El objetivo fundamental de este capítulo es mostrar los aspectos básIcos del modelo de regresión lineal y su aplicación en la mvestigación de marketing. Para ello se empieza con una mtroducción en la que se recoge el concepto y los objetivos de esta técmca. Postenormente se desarrolla el modelo lineal de regresión y, por último' se presenta un ejemplo en el que se aplican los conceptos teóncos. La regresión es una herramIenta fundamental en el análisIs de datos. tanto por su utilidad en sí nusma como por servIr de referente para otras técmcas. En térmInos generales. la metodología econométrica tradiCIOnal se realiza a través de las sigmentes fases: 1. 2. 3. 4. 5. 6.
PlanteamIento de la teoría económIca que se desea analizar y de sus hIpótesIs. Especificación del modelo econométnco apoyándose en la teoría. Búsqueda y depuración de los datos. Estimación de los parámetros del modelo. Contraste de las hIpóteSIs del modelo. Explotación del modelo: predicción y utilización del modelo para fines de control o de política.
El térmmo de regresión fue introducido por Francis Galton (1886) y corroborada su ley por Karl Pearson (1903). En térrmnos generales se puede deCIr que el análiSIS de regresión trata del estudio de la dependencia de una vanable a explicar con respecto a una o más vanables explicativas. Los objetivos que se pretenden conseguir con este análiSIS son varios: l.
© EdicIOnes Pirámide
Detenninar la estructura o forma de la relación, es deCIr, la ecuación matemática que relacIOna las variables mdependientes con la dependiente.
247
Técnicas de análisIs de datos en investigación de mercados 2. 3.
Verificar hIpótesIs deducidas de la teoría analizada. Predecir los valores de la variable dependiente y realizar simulacIOnes.
La vanable dependiente puede expresarse con diversos términos: vanable explicada, predicha, regresada y respuesta y la terminología empleada para la vanable independiente es como vanable explicatIva, predictor, regresor, vanable de control estímulo. Matemáticamente la relación entre la variable explicada y las variables explicatIvas se puede expresar como: Y=f(X)
La letra Y representa la variable dependiente y las X (XI' X2 , ••• , Xk ) representan las variables explicatIvas. Si el número de variables independientes es una nos encontramos ante un modelo de regresión SImple: SI son más de una se trata de un modelo de regresión múltIple.
Tipos de datos Los datos que se utilizan en la aplicacIón de esta técnica pueden ser: series de tIempo, datos de corte transversal e información combinada. Las series de tIempo son un conjunto de observacIOnes sobre los valores que toma una variable en diferentes momentos de tIempo. Tal información debe ser recogida en intervalos regulares, que pueden ser en forma diaria, mensual, trimestral, anual, etc. La información puede ser de carácter cuantItatIvo o cualitativo. Los datos de corte transversal se refieren a observacIOnes de un conjunto de UnIdades o entes (unidades familiares, empresas, reglOnes, etc.). Este tIpo de datos se conocen también como datos espaCIales. El problema que presentan estas senes es el de la heterogeneidad. Cuando incluImos unidades heterogéneas en un análisis estadístICO, el efecto de tamaño o escala debe ser tenido en cuenta. En la información combinada los datos agrupados tienen elementos de senes de tIempo y de corte transversal reunidos. Hay un tipo espeCIal de datos agrupados, la información de panel o longItudinal, también llamada información mlcropanel, en la cual la ffilsma unIdad de corte transversal es encuestada a través del tIempo.
2.
EL MODELO DE REGRESiÓN LINEAL 2.1.
Introducción al modelo de regresión simple
En el modelo de regresIón lineal simple o modelo lineal simple (MLS), en el que figura una únIca varIable explicatIva, el comportamIento de la variable Y se puede explicar a través de una variable X, que representamos mediante: Y=f(X)
248
©. EdiclOoes Pini.mide
Regresión lineal Considerando que la relación f, que liga Y con X, es lineal se puede escribIr de la siguiente forma:
donde Y¡: VarIable dependiente.
Xi: VarIable independiente. /3,: Ordenada en el origen o térmIno independiente. /32: Pendiente de la recta. Este tIpo de relacIOnes raramente son exactas, más bien son aproxImacIOnes en las que se han ormtido muchas varIables de Importancia secundaria, lo que nos obliga a InclUIr un térmIno de perturbación aleatoria, quedando la relación como sIgue:
donde U¡:
2.2.
TérmIno de perturbación aleatona.
Estimación de los coeficientes del modelo de regresión lineal simple
El pnnclpal problema consIste en estImar, a partIr de las observacIOnes dispombIes. los valores de los parámetros /31 y /32' En pnmer lugar. se realiza una aproxImación IntUItiva utilizando la representación gráfica de las observaciones (X¡, Y¡, con ! = 1, 2...., n). De tal forma que SI la relación lineal de dependencia entre X e Y fuera exacta. las observaciones se sItuarían a lo largo de una recta (figura 6.1). Tomando U i el valor O para todo í. y las estImacIOnes más adecuadas de /3, y /32' de hecho los verdaderos valores, serían. respectIvamente, la ordenada en el origen y la pendiente de dicha recta. En el caso de que la dependenCIa entre X e Y sea estocástIca, en general las observacIOnes no se alinearán a lo largo de una recta. SInO que formarán una nube de puntos, tal y como se muestra en la figura 6.2. Si deSIgnamos mediante fJl y fJ2 las estImacIOnes de /31 y 132 , respectIvamente, la recta vendrá dada por:
Y¡ = fJI + fJ2X¡ Nuestro problema es hallar unos estImadores fJI y fJ2 tales que la recta se ajuste lo mejor posible a los puntos (Xi' YJ A la diferencIa entre el valor observado de la variable dependiente y su valor ajustado o estImado se le denormna error o residuo:
© Ediciones Pirámide
249
Técnicas de análisis de datos en investigación de mercados
y
x Figura 6.1.
y 1';
.
------- ------- -------- ---------el'
Y i
,,
¡
•
\
-------------.-----------------:
•
•
•
t- •
,, ,,
,i ,i x;
x
Figura 6.2.
Existen diversos crIterios para el ajuste de la recta, sIendo el más utilizado el criterio de los mínimos cuadrados, según el cual la mejor recta es aquella que haga mímmo la suma de los cuadrados de los residuos: MinLe~
250
© EdiclOnes Pirámide
Regresión lineal Este criteno, al tomar los cuadrados de los residuos, evIta la compensación de éstos; Slll embargo, con este cnteno estamos penalizando proporcionalmente más los residuos grandes frente a los pequeños (SI un residuo es el doble que otro, su cuadrado será cuatro veces mayor). Puesto que el MLS es un caso particular del modelo de regresión múltIple, el resto de las fases se desarrollan en el sigUIente epígrafe.
3.
EL MODELO DE REGRESiÓN MÚLTIPLE El modelo de regresión general o modelo lineal general (MLG) se suele expresar, para la observación i-ésima, de la SIguiente forma:
para i = 1, ..., n; donde Yes la variable explicada, XZ' X3 , ••• , Xk son las vanables explicatIvas, u¡ es el ténmno de perturbación aleatona, f3¡, /32' ..., /3k son los parámetros o coefiCIentes del modelo y n es el número de observacIOnes en la muestra que debe ser supenor a k. El objetivo fundamental de dicho modelo es explicar lo mejor posible el comportamIento de la vanable explicada Y a partir de las variables explicatIvas X. Existen diferentes razones para lllcluir en la expresión antenor el ténmno de perturbación, pero la razón fundamental es que en muy escasas ocasIOnes! se puede establecer la relación exacta o detenmmsta por la cual la variable dependiente vIene puntualmente explicada por las vanables explicatIvas. Si se supone que el modelo está bIen especificado y no hay errores de medida, entonces la perturbación recogerá aquellas vanables explicatIvas que de manera individual se consideran lITelevantes, pero que en conjunto afectan al comportarmento de la variable dependiente. En ténmnos matricIales el MLG se expresa:
Y=X/3+
U
donde Y es el vector que contIene las n observacIOnes de la vanable explicada, X es una matnz n X k que contIene en la primera columna n unos 2 y en las k - 1 columnas restantes están las observacIOnes de las variables explicatIvas, /3 es un vector con k parámetros constantes y u es el vector con n perturbaciones aleatonas. Hipótesis básIcas: 1.
Se supone que la forma funCIOnal que liga la vanable explicada con las variables explicatIvas es de tIpo lineal al menos en los parámetros.
Mientras que en las CIenCiaS físicas es más frecuente la relación exacta entre las variables del modelo, en las CIencias sociales, y en particular en las económIcas, esto es más limitado. 2 Si el modelo especificado no contiene ténnino constante dicha columna de unos no aparecerá. I
© Ediciones Pirámide
251
Técnicas de análisis de datos en investigación de mercados 2.
3.
Las vanables explicatívas son fijas en el muestreo o al menos serán independientes de las perturbacIOnes. Además, los datos muestrales de las vanabIes explicativas deben ser linealmente independientes, es deCIr, que no hay multicolinealidad exacta. Las perturbacIOnes aleatonas se supone que son nonnales con: b)
= O; V t. Var (u,) = cr; Vi.
e)
Cov (u¡, u) =O; Vi*" j.
a)
E(u,)
Las hIpóteSIs b y e Implican, respectIvamente, que la varianza de las perturbaCIOnes es constante (homoscedastlcidad) y la ausencIa de autocorrelación entre las perturbaciones. Cada una de estas hipótesIs puede ser más o menos restnctíva, es deCIr, se cumplirá más o menos en la práctica dependiendo del fenómeno económIco analizado. Así, por ejemplo, la hIpótesis de linealidad no es demaSIado restrictiva, ya que en la práctica este tIpo de relación entre las variables se suele dar con frecuencia, aun cuando SI se plantean modelos no lineales éstos lo suelen ser en las vanables y, por tanto, fácilmente linealizables. Para que los resultados obtenidos a partIr del modelo estimado sean adecuadamente mterpretados dependerá de que se cumplan las prinCIpales hIpóteSIs báSIcas del modelo. En pnnclplO, supondremos que se cumplen dichas hIpóteSIs y expondremos e mterpretaremos las expresiones que se obtIenen bajo el cumplimIento de dichas hIpóteSIs y, postetIOnnente, se tratarán las más frecuentemente analizadas en la Econometría clásica: multicolinealidad, heteroscedastIcidad y autocorrelación.
3.1.
Estimación
Una vez especificado el modelo, la fase sIgUIente consIste en estImar los parámetros de dicho modelo, que lógIcamente serán desconOCIdos. De los diferentes procedimientos de estImación los más avalados son el de mímmos cuadrados y el de máxima verosllnilitud. Cuando se cumplen las hIpóteSIs antenores el método de mímmos cuadrados se conoce como mínimos cuadrados ordinarIOS (MCO) y consiste en mimmlZar la suma de los cuadrados de los residuos, los cuales VIenen dados por la diferencIa entre el verdadero valor de la vanable explicada y su estImacIón. El estimador mímmo cuadrátrico ordinarIO (EMCO) tIene la fonna:
donde fJ es un vector columna que contIene las estímacIOnes MCO de los k parámetros del modelo. Este estImador posee una serie de propIedades estadístIcas deseables. Así, dicho estImador es:
252
© Ediciones Pirámide
Regresión lineal 1.
2.
3.
Insesgado o de sesgo nulo, es decIr, la diferencIa entre el verdadero valor del parámetro y el valor esperado de dicho estimador es cero: f3 - E(f;) = O. VarIanza mínIma. El EMCO cumple el teorema de Gauss-Markov ya que dicho estimador tiene vananza mínIma dentro de la familia de los estimadores lineales e Insesgados, por lo que dicho estimador se dice que es un estimador lineal. Insesgado y óptimo (ELIO). Consistente, ya que a medida que el tamaño de la muestra Incrementa Infinitamente dicho estimador converge hacia el verdadero valor del parámetro.
El modelo estimado se expresa:
donde e, son los residuos mínimo cuadráticos y los {jj son las estimacIOnes MCO de los k parámetros del modelo. Puesto que tenemos k coefiCIentes estimados en el modelo, las vananzas y covananzas de éstos se expresan mediante una matnz cuadrada que contiene en su diagonal princIpal las VarIanzas y a ambos lados de dicha diagonal están las covananzas:
en la práctica, puesto que (]"2, desvIación típIca del error, es desconocida, se estima mediante el estImador Insesgado:
I, e~ n-k
{ji vIene dada por:
donde ajj es el elemento j-ésimo de la diagonal pnnclpal de la matriz (X'Xt'.
3,2.
Interpretación de los coeficientes estimados
Los coeficientes o parámetros del modelo lineal representan la derivada parcial de Y respecto de cada una de las varIables explicativas. Por tanto, las estimaciones de dichos coeficientes se pueden Interpretar como la VarIación esperada o promedio que se produce en Y (en las unidades en las que venga dada dicha variable) cuando Incrementa en una unidad la vanable explicativa correspondiente. supOnIendo que el resto de varIables explicativas pennanecen constantes. © EdiclOnes Pirámide
253
Técnicas de análisis de datos en investigación de mercados
3.3.
Intervalos de confianza y prueba de hipótesis
El EMCO nos proporcIOna una estimación puntual del valor desconocido de los parámetros. Esta estimación podrá vanar con la muestra de datos usados, aunque si se tomaran diferentes muestras se esperaría que la media de dichas estimacIOnes fuera Igual al verdadero valor de dichos parámetros. Por ello se suele obtener, además de la estimación puntual de los parámetros, la estImacIón por mtervalos. Este tipo de estImación nos proporcIOnará un mtervalo dentro del cual se encontrará el verdadero valor del parámetro dado un nivel de confianza o de probabilidad 1 - a, donde a es el mvel de significación. Dicho mtervalo se obtIene a partIr de las estimacIOnes de los parámetros, las cuales, como se ha mdicado, varIarán con la muestra usada. Por tanto, SI se construyeran mfimtos mtervalos, en un 1 - a de éstos estará el verdadero valor del parámetro. En la práctIca el intervalo de estImación para un parámetro ~ vIene dado por:
donde tn _ k CYi2 es el valor de las tablas de la t-Student para n-k grados de libertad y un mvel de significación a12. Otro aspecto práctIco Importante que nos proporcIOna el modelo de regresión es la posibilidad de plantear y resolver hIpótesis estadísticas relatIvas a los parámetros. En general, para verificar hipóteSIs relativas a un solo parámetro se usa el estadístIco:
el cual sIgue una distribución t-Student con n-k grados de libertad. Así, cuando se estima un modelo lo primero será plantearse SI alguna de las variables JS mcluidas en el modelo no es SIgnificatIva. Esto se traduce en plantear la siguiente hIpótesis: H o: f3j = Ü H¡.
f3j ",ü
en cuyo caso el estadístico queda de la siguiente forma:
254
© Ediciones Pirámide
Regresión lineal Comparando el valor de dicho estadístico, que se obtiene a partir de los datos muestrales, con el valor de las tablas de la t-Student, SI aquél en. térnnnos absolutos es mayor que el de las tablas se rechazará la Ho, es decir, dicha VarIable .es significativa, y en caso contrarIO la VarIable se considera no significativa. Otra hipótesis que se suele plantear es SI el modelo es significativo en su conJunto, esto es, si de manera conjunta el modelo explica o no las variaCIOnes de la variable dependiente. En este caso la hipótesIs nula es: Ho; /32 =/33 =... = /3k =O, frente a la hipótesis alternativa H¡; de que la hipótesIs nula no se cumple. El estadístico para verificar dicha hipótesIs es: F
= SCE/(k~ 1) SCR/(n - k)
donde SCE es la suma de cuadrados de la explicada respecto de la media, es decir, SCE = L(Y, - y? y SCR es la suma de cuadrados de residuos, o sea, SCR = Le~. Este estadístIco sigue una distribución F con k - I Y n-k grados de libertad en el numerador y denommador respectivamente. Este tipo de prueba, en el modelo de regresión, se conoce como análiSIS de la varianza o tabla ANOVA. Cuando el modelo de regresión tiene térmmo constante se cumple la sigUIente expresión: SCT = SCE + SCR, donde SCT = L(Y; - y? Como se verá más adelante, en las salidas de ordenador de los paquetes estadísticos, además de las estimacIOnes y valores de los estadísticos anterIores se suele añadir el valor a o nivel de significación, vaJor que nos mdica el mvel de significación mínimo para rechazar la hipótesis nula.
3.4.
Bondad del ajuste
Una medida de la bondad del ajuste del modelo estlmado es el coefiCiente de deterrmnación R 2 , que permIte evaluar en qué medida el modelo estimado se ajusta a los datos muestraJes disponibles. El coefiCiente de detennmación se define como el cociente entre la SCE y SCT, es decIr, nos mide la proporción de las variaciones de la VarIable dependiente que vIenen explicadas por el modelo. R2
= SCE = I _ SCR SCT
SCT
Si el modelo tiene ténnino mdependiente los valores de este coefiCiente están entre O y 1, de tal fonna que a medida que se aproxima a I el ajuste será mejor, siendo perfecto SI es Igual a 1, en cuyo caso la SCR sería O. Usualmente, este coefiCIente se multiplica por 100, indicando entonces el porcentaje de las VarIaCIOnes de © Ediciones Pirámide
255
[ Técnícas de análisis de datos en ínuestigación de mercados y explicadas por el modelo ajustado. La mterpretación adecuada de este coeficiente depende de que el modelo esté bien especificado. Un inconvemente de este coeficiente es que a medida que se mcluyen en el modelo más vanables su valor mcrementará o al menos no disminUirá, tendiendo a seleccionar aquellos modelos con mayor número de vanables explicativas. Para comparar modelos con la misma vanable explicada y distmto número de vanables explicativas no es aconsejable usar el R 2 ; en su lugar sería más aconsejable utilizar el coefiCiente de determmación ajustado:
lP = 1- SCR/(n - k) SCT/(n -1)
este coefiCiente, para k > 1, es menor que el R2 y además puede tomar valores negativos, quedando su rango de valores fuera del mtervalo (O, 1).
3.5.
Importancia relativa de las variables explicativas
Cuando se está interesado en medir la importancia relativa de las vanables explicatvas que aparecen en el modelo se pueden usar diferentes mstrumentos. Dicha importancia o grado de mf1uencia de las variables explicativas puede ser analizada baja diferentes enfoques. Coeficientes beta
Los coeficientes estimados del modelo no suelen ser buenos mdicadores de la ImportanCia relativa de cada variable explicativa, a no ser que todas las variables del modelo vengan dadas en las mismas unidades de medida. En estadística cuando se desea comparar variables que vienen en distintas unidades de medida previamente se suele tipificar dichas variables restándole la media antmétlca y dividiendo por la desviación típica; pues bien, los coefiCientes beta son los coefiCientes del modelo de regresión, pero previamente tipificadas las variables:
Los coeficientes beta están relacIOnados con los coefiCientes del modelo original mediante la expresión: S 13~ = f3 xl . J J S y
Lógicamente al sustitUir f3¡ por su estimación obtendremos la estimación del coefiCiente beta correspondiente, y dichos coefiCientes nos permitirán ordenar en re-
256
© Ediciones Pirámide
I I
Regresión lineal lación a la importancIa relativa de cada vanable explicatiVa del modelo. En este caso la importancia Viene medida en ténninos de unidades de desviación típíca que cada vanable explica.
Coeficientes de correlación parcial Otra fonna de ordenar en cuanto a importancia es usar los coeficientes de correlación parcial de la vanable dependiente respecto de cada vanable mdependiente, que miden la proporción de las vanaciones de Y que Vienen explicadas por dicha vanable mdependiente y que no explica el resto de variables independientes del modelo. Así, supuesto un modelo con dos vanables mdependientes X 2 , X3 , el coefiCiente de correlación parcial r 2•3 nos mediría el grado de asociación lineal entre la variable dependiente y la variable X2 , dejando fuera la mfluencia común que pudiera tener X3 sobre la varIable dependiente y sobre X2 . En este caso la importancIa vendría medida por el grado de asocIación que cada variable mdependiente tiene sobre la variable dependiente que no posee el resto de variables mdependientes.
Elasticidades En economía suele ser frecuente medir la sensibilidad de una variable respecto de otra, para lo cual se usa la elasticidad. Puesto que los coeficientes del MLG representan las denvadas parciales de cada vanable mdependiente respecto de la dependiente, se podrá obtener fácilmente la elasticidad de cada vanable mdependiente respecto de la dependiente temendo en cuenta la propia definición de la elasticidad:
ay x. f3 -" X. aX y, y,
1 EY :;:;: - - __ 1
X]
:;:;:
j
Sustituyendo /3 por su estimación se podrá obtener la elasticidad en el punto i-ésimo; usualmente se obtendrá la elasticidad media reemplazando Xji e Y, por sus medias correspondientes. Estas elasticidades se pueden usar también para llevar a cabo una ordenación en las vanables explicativas, ya que aquéllas no se ven afectadas por las unidades de medida. En este caso la importancIa Viene medida en térmmos de sensibilidad de la varIable dependiente a las variaciOnes de las vanables mdependientes. Las elasticidades también se pueden obtener estimando un modelo doblemente logarítmico linealizado: In Y, = In f31 + /32 In X2i + ... + /3k In Xki + u, en cuyo caso las estimaciOnes de los {Ji nos darán directamente las elastlcidades de Y respecto de cada una de las vanables Xi' Posiblemente la ordenación dada por cualquiera de los tres apartados antenores será parecida, mdicando de esta fonna la importancia relativa de cada variable independiente dentro del modelo. © EdiCIOnes Pirámide
257
Técnicas de análisis de datos en investigación de mercados
3.6.
Predicción
La últIma fase suele ser la explotación del modelo, y dentro de dicha fase lo frecuente es usar el modelo para hacer prediCCIOnes. Para realizar las predicciones se requiere conocer los valores que toman las vanables mdependientes para el momento, si los datos son temporales, en el cual se desea predecIr el valor que tomará la variable dependiente. La predicción podrá ser puntual o por intervalos. Se demuestra que el predictor lineal msesgado y ópHmo (PLIO) es el que se obtiene susHtuyendo en la expresión del MLG los parámetros por el EMCO:
donde Yo es la predicción puntual para el momento O, dada por los valores de las VarIables independientes X20 , X30, ... , XkQ' La expresión para realizar la predicción por intervalos es:
donde X~ = 1, X20 , X30 , ... , XkQ, es un vector que contIene los valores de las vanables mdependientes para los cuales se desea realizar la predicción.
3.7.
Variables ficticias
Es bastante frecuente en el análiSIS de marketmg la necesidad de tratar con vanables de tipo cualitatIVO, variables como el sexo, el estado civil, la región donde se encuentran ubicadas las empresas, etc. La mclusión de este tipo de variables en un modelo de regresión se realiza mediante la Inclusión de VarIables fictIcias. Este tIpo de vanables se denomman también bmanas o dicotóll1lcas, ya que se caractenzan porque pueden tomar dos valores: 1 o O dependiendo de que el mdividuo observado presente o no tal o cual característica. Las varIables cualitaHvas pueden presentar dos o más categorías; así el sexo tiene dos categorías posibles pero el estado CIvil puede tener más de dos. Una regla fundamental a la hora de inclUIr las vanables cualitatIvas en el modelo de regresión consIste en mclUlr m - 1 vanable ficHcla, donde m es el número de categorías que puede presentar la VarIable cualitaHva. Si se mcumple esta regla se mcurre en la denommada trampa de las VarIables fictIcIas, lo que provocará que el modelo de regresión presente multicolinealidad perfecta y, por tanto, no será posible su esHmación mediante MCO. En el modelo de regresión se pueden mclUlr VarIables explicatIvas ficHclas solamente o Junto con vanables de Hpo cuantitativo. El primer caso se conoce como modelos de análisis de la vananza (ADV). La mclusión de las VarIables ficHcias puede ser aditiva, mulHplicatIva o ll1lxta, de fonna que afecte al ténnmo constante, a la pendiente o a ambos. Para entender esto vamos a suponer que deseamos anali-
258
© Ediciones Pirámide
Regresión lineal zar las ventas de un detenmnado producto (Y,) de una empresa que posee diferentes sucursales que están repartidas en dos comunidades autónomas: Andalucía y Cataluña; y suponemos que las ventas, además de estar en función del precIO (X,), de. penden de la comunidad en la que se encuentre la sucursal. ImcIalmente podemos plantear un modelo aditIvo de la forma:
donde D, =
.
{o1 SISI lala sucursal sucursal est~ local~zada en Andal~cía. esta locahzada en Cataluna.
Suponiendo que se cumplen las hipótesIs básicas del modelo de regresión, el valor esperado de las ventas de una sucursal que esté ubIcada en una u otra comumdad autónoma y para un precIO X, sería para este caso: -
Sucursal localizada en Andalucía: E(Y/D, = O, X) = /3, + /3-¿X, Sucursal localizada en Cataluña: E(Y/D, = 1, X,) = (/31 + /33) + /32X,
La diferencIa entre una y otra viene dada por f33' que afecta al término independiente y que se recoge gráficamente en la figura 6.3.a. Por tanto, SI se desea contrastar la eXIstencIa de un comportamiento diferencIal en las ventas de las sucursales debido a la localización sólo se debería aplicar el test de la t-Student verificando la hIpótesIs nula Ha: /33 = O, de forma que SI se acepta la Ha no habría diferencIa significaüva en las ventas de las sucursales por razón de su localización. Otra altemaüva sería especificar el modelo de forma mulüplicaüva:
En este caso, el valor esperado sería: Sucursal localizada en Andalucía: E(Y/D, = O, X,) = /31+ /32X¡ Sucursal localizada en Cataluña: E(Y/D, = 1, X,) =/31 + (/32 + f33)X¡ Al Igual que antes, la diferenCIa entre una y otra VIene dada por f33' pero en este caso afecta a la pendiente, lo que se representa gráficamente en la figura 6.3.b. Igual que antes, se podría plantear el contraste de la t-Student para analizar SI eXIste o no un comportarrnento diferencIal en las ventas de unas sucursales respecto de otras. Por últlmo, el modelo se podría especificar de forma nnxta:
De esta forma, el valor esperado de las ventas sería: -
© EdiclOnes Pirámide
Sucursal localizada en Andalucía: E(Y/D, = O, X,) = f31 + /3-¿X, Sucursal localizada en Cataluña: E(Y/D, = 1, X,) =(/31 + f33) + (/32 + f34)X,
259
Técnicas de análisIs de datos en Inuestigación de mercados Ahora la diferencIa está tanto en la ordenada (/33) como en la pendiente (/34) (figura 6.3.c). Para contrastar el comportamIento diferenCIal en las ventas se haría mediante el estadístIco F, verificando la hipótesIs nula H o' /33 = {34 = O; SI se acepta dicha hIpótesis no habría diferencIa significatIva en las ventas entre sucursales debido a su localización. Si se rechaza dicha hipótesIs se podría hacer el test Individual mediante la t-Student para {33 y /34' lo que pernutIría saber SI la diferenCIa se debe a la ordenada o a la pendiente.
b)
a)
Y,
e)
Y,
Y,
/11 + /1J
/11 /11 + /1J
/11
x, Figura 6.3.
4.
MULTICOLlNEALlDAD 4.1.
Concepto y consecuencias
La multIcolinealidad es un problema de los datos y se produce cuando hay algún tipo de relación lineal entre las vanables explicativas del modelo. Una de las hIpótesis básIcas del MLG es que entre las vanables explicatIvas no puede darse una relación lineal exacta, ya que en otro caso la matnz (XX) sería singular y, por tanto, no se puede Invertir, lo que provocaría la Imposibilidad de obtener los EMCO. En el caso anterior se diría que hay multlColinealidad exacta y sus consecuenCIas son la Indeterminación del EMCO y sus varianzas serían infimtas. Pero en la práctica en raras ocasiones se presentará la multicolinealidad exacta y, por el contrano, sí que se presenta con frecuencIa la multIcolinealidad Inexacta o imperfecta, en cuyo caso lo que se da es una relación lineal no exacta entre las vanables explicatIvas. Dependiendo del grado de multIcolinealidad las consecuenCIas sobre los resultados e Interpretación de éstos serán más o menos graves. Desde el punto de vIsta teónco el EMCO, baja presencIa de multIcolinealidad, segUIrá cumpliendo las propiedades estadístIcas deseables ELlO. Sin embargo, desde el punto de vIsta práctico se demuestra que a medida que el grado de multicolinealidad Incrementa, la varianza de los EMCO también Incrementa, temendo como consecuenCIa que el estadístIco t de un coeficiente o más tenderá a ser estadístIcamente no SIgnificatIvo. Otras consecuenCIas
260
© Ediciones Pirámide
Regresión lineal son que los EMCO y sus vananzas se vuelven muy sensibles a vanaciones en los datos muestrales, y también las covarianzas de dichos estimadores se hacen grandes. Por ello, en presencIa de multlcolinealidad grave los tests estadístIcos sobre la slgmficación Individual de los coeficIentes nos pueden llevar a conclUSIOnes erróneas, por lo que será convemente detectar la posible presencIa de multicolinealidad grave.
4.2.
Detección
Una consecuencIa práctica de la presencIa de multicolinealidad grave es que algunos o todos los coeficientes del modelo sean no sIgnificativos de manera IndivIdual y, por el contrario, al verificar la sIgnificación global el modelo resulte sIgnificativo, o consecuentemente que el modelo tenga un coeficIente de determInación alto. Esta consecuenCIa, que resulta paradójica, se suele usar como un método para sospechar la posible presencia de multlcolinealidad grave. Otro método consiste en obtener los coefiCIentes de correlación SImple entre las vanables explicativas, de tal forma que nos permita aprecIar la posible presencIa de correlación lineal tomadas dos a dos las variables, y así valores de estos coefiCIentes supenores a 0,75 o 0,80 nos Indicarían la presencIa de colinealidad alta. Este procedirmento es una condición suficIente, pero no necesaria, ya que podrían ser baJOs estos coefiCIentes y, sin embargo, presentar multIcolinealidad grave, ya que en lugar de colinealidad por parejas podría existIr entre grupos. Realizar las regresiones auxiliares es otra forma para detectar la presencia de multIcolinealidad grave. Estas regreSIOnes consIsten en regresar cada variable explicatIva con el resto de vanables explicatIvas del modelo ongInal. El coefiCIente de determInación de cada regresión auxiliar se denota por RJ y se conoce como coeficIente de correlación múltiple; SI el valor de dicho coeficiente es igual o supenor a 0,75 se suele considerar la presencIa de multicolinealidad grave. A partIr de este coefiCIente se han propuesto otros como el factor de agrandamIento de la varianza (FAV) o la toleranCIa (TOL). Así: FAV J
l
=-~
1- R~J
cuyo valor ideal, ausenCIa de multlcolinealidad de la vanable x) con el resto, es 1 y valores superiores a 4 nos Indicarán presencia de multIcolinealidad grave. Mientras que la tolerancia se define como: TOL) = (1 - RJ), de manera que valores próxImos a 1 Indican ausencIa de multIcolinealidad y próxImos a O Indicarían multIcolinealidad muy grave. Por últImo, otro procedimIento consIste en obtener el número de condición que se define como:
© EdiclOl\es Pirámide
261
Técnicas de análisIs de datos en inuestigación de mercados donde Amax Y Armn son, respectIvamente, las raíces característIcas mayor y menor de la matriz (XX) normalizada. Se suele considerar la presencIa de multIcolinealidad grave cuando el número de condición está por enCIma de 20 o 25.
4.3.
Soluciones
Como se ha mdicado, la multIcolinealidad es un problema de los datos, y entre las opcIOnes para remediar las consecuenCIas negativas que provoca la presencIa de multIcolinealidad grave está la de elimmar aquellas vanables más colineales con el resto, solución fácil, pero amesgada, ya que eXIste la posibilidad de mcurrir eu un error de especificación. Dependiendo de la mformación disponible se aplican diferentes métodos: búsqueda de mformación a pnon sobre la relación entre los parámetros; SI se dispone, usar la combmación de datos de corte transversal y temporales e Igualmente, SI se puede, aumentar el tamaño de la muestra, aunque eXIsten otros procedimIentos mecámcos como la regresión alomada, la regresIón con componentes pnncipales o simplemente realizar algún tipo de transformación en las vanables.
5.
HETEROSCEDASTICIDAD 5.1. Concepto y consecuencias Uno de los supuestos relatIvos al comportanuento de las perturbaCIOnes es que éstas se consideran homoscedástIcas, esto es, que tIenen vananza constante. Esta hIpótesIs no sIempre se cumplirá y así habrá fenómenos econÓmICOS en los cuales la varianza de dichas perturbaCIOnes no será constante, en cuyo caso se dice que son heteroscedástIcas: E(u~)
= (J'~
para i = 1,
'O',
n
Un ejemplo clásIco en el que se espera este comportanuento es en el estudio del comportamiento del gasto de cualquier tIpo de bien de lUJO en función de los mgresos. Así, familias con rentas bajas tendrán un comportanuento smúlar y, por tanto, con vananza pequeña, mientras que entre las familias con rentas altas habrá mayor dispersión dependiendo de los gustos. Si las perturbaCIOnes son heteroscedásticas entonces el EMCO, aunque segUIrá sIendo lineal e msesgado, dejará de ser eficiente. Por tanto, en la práctica, si se aplica el EMCO en un modelo en el que eXIste heteroscedasticidad, las pruebas o tests que se realicen podrán llevar a conclUSIOnes erróneas.
5.2.
Detección
Puesto que la presencia de heteroscedasticidad puede mvalidar los resultados de los tests realizados al aplicar MCO, se debe aplicar algún procedimiento para deter-
262
© EdiCIOnes Pirámide
Regresión lineal minar la posible presencIa de heteroscedasticldad. Igual que para el problema de la multicolinealidad eXIsten diferentes procedimIentos para detectarla y ninguno es considerado de manera general como perfecto. Por tanto, se verán sólo algunos de los procedimIentos que frecuentemente son aplicados. Método gráfico
Puesto que el problema de la heteroscedasticidad depende de las perturbaciones y éstas son desconocidas, lo que se hace es observar los residuos. Así se representarán en unos ejes de coordenadas los residuos MCO al cuadrado en función de los valores estimados de la varJable dependiente. Si dicho gráfico presenta algún patrón sIstemático, como, por ejemplo, el de la figura 6.4.b, entonces se sospechará la presencIa de heteroscedasticidad, nuentras que si se observa un comportamiento aleatono (figura 6A.a), se podrá pensar en la presencia de homoscedasticidad. Pero además de este gráfico también es conveniente realizar el gráfico de los residuos al cuadrado respecto de cada una de las vanables explicativas. Este tipo de gráfico nos ayudará a identificar si alguna de las variables explicatIvas es la causante de la presencia de heteroscedastJcidad.
e' o
o
o
o
o
o
o o
o o
a)
b)
Figura 6.4.
Prueba de Park
Esta prueba se desarrolla en dos fases: 1.
2.
© Ediciones Pirámide
Especificar un modelo de regresión de los residuos MCO al cuadrado respecto de la varIable explicativa que suponemos está provocando la- heteroscedastlcldad. Para especificar el modelo y seleccionar la varJable que se supone puede provocar la heteroscedasticidad nos apoyaremos en los gráficos antenores. Posteriormente verificaremos la sIgnificación estadística del coefiCIente del modelo así planteado, usando el test de la t-Student. Si no es sIgnificativa supondremos que dicha vanable no provoca heteroscedasticidad.
263
Técnicas de análisis de datos en investigación de mercados El inconveniente fundamental de esta prueba radica en que las perturbaCIOnes de este último modelo puede que no satisfagan los supuestos básicos y, en consecuenCIa, la prueba de sIgnificación no resulte válida.
Prueba de Goldfeld-Quandt Es tal vez la más frecuentemente usada, y se realiza en las SIguientes fases: 1. 2.
3. 4.
Ordenar las observaCIOnes de manera crecIente respecto de la vanable que se supone provoca la heteroscedasticidad. OmitIr e datos centrales, donde e es un valor arbltrano que podría ser, por ejemplo, un 20 o 25% de los datos, dejando de esta fonna dos grupos de datos de Igual tamaño (n - c)/2. Ajustar la regresión MeO por separado de los (n - c)/2 pnmeros y segundos datos, obtemendo en cada regresión anterior la SCR, y la SCR z. Se verifica la hipótesIs nula Ha: homoscedasticidad usando el estadístico: SCR
F
= SCR,2
-
F(n-c-2kl/Z.(n-c2k)12
Si el valor del estadístico es mayor que el valor de las tablas se rechaza la hIpótesIs de hOmoscedastIcidad y, en caso contrano, no se puede rechazar. Esta prueba tiene los mconvenientes de que se elija adecuadamente el valor de e, y también de que la heteroscedastícidad dependa de una sola variable explicatIva.
Prueba de White Es una prueba robusta que no depende de los supuestos de nonnalidad de las perturbaCIOnes m de la ordenación en las variables. Esta prueba se realiza en tres pasos: 1. 2.
3.
Se obtIenen los residuos al cuadrado del modelo ongmal. Se lleva a cabo una regresión auxiliar entre dichos residuos al cuadrado, un término mdependiente y todas las vanables explicatIvas, sus cuadrados y productos cruzados del modelo ongmal, obteniéndose el R 2 de dicha regresión auxiliar. Se verifica la hIpóteSIs nula Ha: Homoscedastlcidad usando el estadístIco:
donde n es el número de observaciones y m el número de variables explicativas en la regresión auxiliar sm contar el ténmno mdependiente. Si nR2 es mayor que el valor de las tablas de la X~ se rechaza la hIpóteSIs de homoscedastIcidad.
264
© EdiclOnes Pirámide
Regresión lineal
5.3.
Soluciones
Una vez detectada la presencia de heteroscedastIcidad el paso siguiente consIstIrá en aplicar algún método de estImación que proporcIOne estImacIOnes eficIentes. Se demuestra que el estImador mímmo cuadrátIco generalizado (EMCO) baJo presencia de heteroscedastIcidad y/o autocorrelación es un estImador ELlO, pero para aplicar dicho estImador se reqUIere conocer la matnz de vananzas y covananzas de las perturbaciones. la cual raramente se conoce. Desde el punto de vista práctIco lo que se hace en presencIa de heteroscedasticidad es aplicar mímmos cuadrados ponderados 3 (MCP), para lo cual es necesano establecer un supuesto sobre el comportamIento de las varIanzas de las perturbaCIOnes. En resumen. el procedimIento para estImar la presencia de heteroscedastIcidad es: 1.
2.
3.
6.
Se estIma el modelo ongmal por MCO y a partir de los residuos de dicho modelo se establece un supuesto sobre el comportamIento de la vananza de las perturbaCIOnes. Esto se puede realizar a partir de los gráficos de los residuos al cuadrado en función de las vanables explicatIvas y también de los tests anteriores. Por ejemplo. a partIr de dichos gráficos y test se sospecha que: a¡ = a2xJ¡. Se ponderan las observaCIOnes de todas las variables dividiéndolas por la raíz cuadrada de la función que provocaba la heteroscedasttcidad. En el ejemplo sería dividir cada observación (de la vanable explicada y explicatIvas) por X w Se estIma el modelo transformado, mediante dichas ponderaciones, por MCO.
AUTOCORRELACIÓN 6.1.
Concepto y consecuencias
Clásicamente la autocorrelación se estudia para datos ordenados en el tIempo aunque, lógIcamente. también ocurre en los datos de corte transversal o espaCIales. Se dice que eXIste autocorrelación entre las perturbaciones cuando la covarianza de éstas es distInta de cero: Cov (u¡, u¡) '" O para t '" J Por tanto. existe autocorrelación en las perturbaCIOnes cuando el valor que toma la perturbación en un momento depende del valor que toma ésta en otro momento. Lo usual es suponer que las perturbaCIOnes sIguen un proceso autorregreslvo de prie Que es un caso particular de MeG. © EdiCIOnes Pirámide
265
Técnicas de análisis de datos en investigación de mercados mer orden, esto es, que la perturbación en un momento t depende del valor de la perturbación en el momento antenor t - 1: Uf
= pU r_ + E 1
f
donde p es un coefiCiente que en ténnmos absolutos es menor que 1, Y e es un térmmo de perturbación bIen comportado, esto es, con media O, varIanza constante y no autocorrelación. La presencia de autocorrelación se debe a que: La vanable dependiente dependa del tIempo o de la localización espacIal donde se mide. Se hayan producido errores de especificación en el modelo, bien por la omIsión de varIables relevantes bIen por la forma funcional que liga las vanabIes. EXIstan comportamientos cíclicos en las varIables. Se mampulen madecuadamente los datos, etc. Cuando se estima un modelo econométnco por MCO en presencia de autocorrelación en las perturbaCIOnes el EMCO será, al igual que cuando había heteroscedastIcidad, meficlente.
6.2.
Detección
Al Igual que para la heteroscedasticidad, en el caso de la autocorrelación eXIsten diferentes procedimIentos o pruebas para detectarla, aunque aquí sí que eXIste un test generalmente usado y que la mayoría de los paquetes infonnáticos estadísticos proporcIOnan de manera automática: es el test de Durbm-Watson, aunque el método más mtuitIvo, y que pnmero debe aplicarse, consiste en la representación gráfica de los residuos frente al tIempo. Si dicho gráfico presenta algún patrón de comportamIento, como, por ejemplo, los que aparecen en b) y e) (figura 6.5), se sospechará la presencIa de autocorrelacíón, y si, por el contrano, dicho gráfico presenta un comportamiento aleatono como el de la figura a), indicaría que no hay autocorrelación. LógIcamente este método gráfico debe ser contrastado con algún test, como, por ejemplo, el de Durbm-Watson. Test de Durbin-Watson
El estadístico d de Durbm-Watson se define como:
f=1
266
© EdiCIOnes Pirámide
Regresión lineal
e,
e,
e,
• -----.--- -------- --- ---
•
•
• •
•
•
•
•
•
•
•
• •• •
• • •
•
•
•
a)
•
• •
b)
Figura 6.5.
e)
Patrones de autocorrelación.
Dicho test debe aplicarse baJo cIertas cIrcunstancIas, como son: -
Los datos deben ser temporales. Se supone que las perturbaciones sIguen un proceso autorregreslvo de pnmer orden. El modelo ha de tener ténnmo mdependiente.
-
Las varIables explicativas son no estocásticas.
-
En el modelo no puede aparecer la vanable dependiente retardada.
Para aplicar el test se requieren las tablas de la d de Durbm-Watson, en las cuales se encuentran los valores dL y d u para un lllvel de sIgnificación, el n (número de datos) y k' (variables explicativas excluyendo el ténnmo mdependiente). El test se aplica en las sigUientes fases. Se estima el modelo ongmal por MeO y se obtienen los residuos a partIr de los cuales se obtiene el valor expenmental del estadístico de la d de Durblll-Watson. Usualmente este valor lo proporcIOnan automáticamente los programas lllfonnátlcos de estadística:
© Ediciones Pirámide
1.
Se toman los valores de dL y de d u de las tablas.
2.
Se representan los valores antenores en la figura 6.6.
3.
Se sIgue la sIguiente regla: SI el valor expenmental de la d cae en elllltervalo representado por el sIgno más, hay autocorrelación posItiva; SI se sItúa en el llltervalo representado por el SIgno menos hay autocorrelación negatIva; SI está comprendido en los llltervalos con el signo de lllterrogación, no se puede afinnar III negar la presencIa de autocorrelación, y SI cae en el mtervalo representado por No, es que no hay autocorrelación,
267
Técnicas de análisis de datos en investigación de mercados
+
? •
? •
NO
I
o
dL
du
2
4-d u
4-dL
4
d
Figura 6.6.
Contraste de Breusch-Godfrey Un contraste más general que el de Durbm-Watson para detectar la presencIa de autocorrelación es el contraste de tIpo ML (multIplicadores de Lagrange) desarrollado por Breusch-Godfrey, el cual permite detectar no sólo la presencIa de autocorrelaClón de pnmer orden, sino de órdenes superiores. Este contraste se puede resunur en las sigUIentes etapas: -
-
6.3.
Se obtienen los residuos MCO del modelo de regresión origmal: e,. Se realiza la regresIón entre los residuos obtenidos anteriormente y las vanables explicatIvas del modelo origmal, incluyendo además como vanables explicatIvas los residuos retardados: e,_ j, e'_2' ...• e,_p' El valor de p mdica el orden de autocorrelación que se desea contrastar, obteniéndose de dicha regresión el coeficiente de determmación R 2 . Se calcula el estadístIco ML = nR2 y se compara con el valor de las tablas de la chl-cuadrado con p grados de libertad; SI el valor del estadístico es mayor que el de las tablas entonces se rechaza la hIpótesIs nula de no autocorrelación.
Soluciones
En pnmer lugar, se revIsa el modelo por si la causa de la existencia de la autocorrelaCIón se debiera a un error de especificación. Para ello nos apoyaremos en fundamentos teóncos en los que se base dicho modelo y también nos serán de utilidad los gráficos de los residuos. Si aun resolviendo el error de especificación persiste el problema, se debería aplicar MCG, que, como en el caso de la heteroscedasticidad, reqUIere conocer la matrIz de vananzas y covananzas de las perturbaCIOnes. la cual raramente es conocida. Por tanto, habrá que realizar algún supuesto sobre el comportanuento que sIguen las perturbaciones, y lo usual es suponer que siguen un proceso autorregreslvo de pnmer orden. BaJO esta hIpótesis se pueden aplicar diferentes procedimIentos, siendo uno de ellos el procedimiento en dos etapas de Coch-
268
© EdiclOnes Pirámide
Regresión lineal rene-Orcutt, el cual es fácil de Implementar y ofrece buenos resultados. Dicho procedinuento se desarrolla en las dos etapas sIguientes: 1.
2.
Se estIma el modelo origmal por MCO y se obtIenen los residuos, a partir de los cuales se resuelve el sIgUIente modelo de regresión:
y se consigue una estImación de p, p. Usando el valor de p estImado, se estIma por MCO la sIguiente ecuación en primeras diferencias generalizadas:
(Y, - PY,_,) = f3,(1- /J) + f3iX2t - pX2t - 1) + f33(X3t - pX3t _ 1) + .. , ... + f3k(Xkt - pXkt - 1) + (u, - pu,_,) o puesto resumidamente:
Yf
= 131 + f3zXft + f33X'tt + f3k X:' + uf
donde:
Yi'=(Y,-pY,_,) f3I = (1 - p) XJ, = (Xit - pySt-,) u *t = (Ut-PUt_l A
)
De esta forma, trabajando sobre las variables transformadas y aplicando MCO a dichas varIables se puede obtener una estImación más eficIente de los parámetros del modelo ongmal4
7.
APLICACiÓN Son numerosas las aplicacIOnes conocidas de la regresión lineal, tanto en la economía, en general, como en la empresa y en el marketmg. A modo ilustratIvo y de fonna muy breve, indicaremos algunas de las aplicacIOnes de esta técnica en el ámbIto comercIal. 1. Los profesores Pedret, Sagnier y Camp (1994) desarrollaron un modelo en el que el precIO de un producto, ya definido en función del resto de elementos del marketmg-mix: marca, envase, tamaño. promoción, distribución etc., se detenninará según el valor que le es otorgado por el mercado. Los mdividuos mdicaron su ranking de preferencIas en los pares de combmaclOnes «producto-precIO» susceptibles de configurar la oferta del mercado objeto de estudio. A la JerarqUlzación efectuada 4
Para obtener la estImación del térmmo mdependiente habrá que deshacer la transformación:
¡3f/(l - ¡5). © EdicIOnes Pirámide
269
Técnicas de análisIs de datos en investigación de mercados por cada mdividuo, de todas y cada una de las posibles combmaclOnes le aplicaron un modelo de regresión múltiple en el que la vanable a explicar serán las preferencias sobre el conjunto de combmaclOnes posibles y las vanables explicativas los distintos productos y niveles de precIO testados. La estimación del modelo les perrrutió obtener: -
-
La utilidad parCial que, en el proceso de compra, proporCIOna, a cada comprador, cada uno de los productos y cada uno de los niveles de precio testados. La utilidad total que, en el proceso de compra, proporCIOna, a cada comprador, cada combinación «producto-preclO»_
2. El profesor Rebollo (1992) analizó la vanabilidad de precIOs que ocurre entre los autoservicIOS, los superservicios y los supermercados, clasificados por el tamaño de ventas. Los factores considerados y que mfluyen en la dispersión son: factores de demanda (segmentación del mercado, mformaclón costosa, costes de búsqueda de precIOS, etc.), factores de competencia (monopolios, competencia imperfecta, etc.) y factores empresanales (tamaño, poder de mercado, tecnología, etc.). Los datos utilizados son los de una mvestlgación (IRESCO, 1990) sobre los establecimientos con forma de venta en libreserviclO, llevada a cabo por la Dirección General de ComercIO Intenor del MICT. La hipóteSIs contrastada y que no se puede rechazar con los resultados obtenidos es que los comportamientos de los estableCimientos en cuanto a precIOs difiere con el tamaño de la superfiCie de venta. 3. La profesora Yagüe (1992) realizó un estudio con el fin de explicar las diferenCias de márgenes de beneficIO de la mdustna española utilizando los datos de márgenes medios obtenidos para vemtlsJete sectores mdustnales españoles entre 1985 y 1989. El núcleo de la mvestlgación estaba centrado en el estudio del efecto de la estructura de mercado sobre los márgenes, poniendo especial énfasis en el análiSIS de la relación entre el grado de concentración y el margen de beneficIO sectonal, y en la eXistencia o no de estabilidad dinámica en dicha relación. La vanable dependiente es el margen y las explicativas fueron las ventas de las cuatro mayores empresas/valor de la producción; vanable dummy que toma valor l cuando el sector está controlado por el sector público, y O en caso contrano, activo/ventas (intensidad de capital), tasa de vanación del consumo aparente real (efecto Ciclo), exportacIOnes/valor de la producción (propensión exportadora), ImportaCIOnes/consumo aparente (penetración de ImportaCIOnes), variable dummy con valor 1 para producto de consumo, y 2 para producto mdustrral y el tamaño medio relativo medido sobre el empleo (economías de escala). Se especificaron cmco modelos diferentes, de manera que cada modelo postenor mCOl-pora nuevas vanables con respecto al antenor. Con este procedilniento pretendían conocer, de un lado, los efectos mdividuales que ejercen cada uno de los indicadores
270
© EdiCIOnes Pirámide
Regresión Lineal en la vanabilidad de los márgenes, y de otro lado, los efectos que las nuevas vanables ejercen sobre los coeficientes estimados de las vanables antenormente mcorporadas.
7.1.
Caso prácticoS (Gastofarma)*
Para desarrollar un caso práctico de aplicación de la regresión lineal hemos analizado el comportamiento del gasto de especIalidades farmacéuticas en España 6 Para ello se ha tomado como referencIa un período de 26 años (1970-1995), en el cual el gasto en especialidades farmacéutIcas se ha mcrementado un 100,24%. Este aumento genera una gran preocupación en la Admmlstración Pública hasta el punto que le lleva a estudiar y poner en marcha medidas para su contención. Tales medidas están tanto onentadas a la demanda como a la oferta. La finalidad que se pretende conseguir con las pnmeras es mtentar reducIr la cantidad de productos farmacéuticos consumidos mcidiendo sobre el médico-prescnptor. sobre las características de los productos y sobre el enfermo-consumidor, mIentras que el objetIvo pnncipal de las medidas orientadas a la oferta es actuar sobre el precIO de venta o sobre los márgenes. por ejemplo. IndagacIOnes previas nos llevan a considerar como varIables causales del comportaIDIento del gasto farmacéutIco el número de envases prescntos por persona protegida, el precIO medio por envase, la renta disponible y la aportación del asegurado. Conocidas las vanables causales del comportamIento del gasto farmacéutIco pretendemos probar las sIgUIentes hIpótesIs: -
-
H O!: El número de envases prescritos por asegurado influye SIgnificativa-
mente en el comportaIDIento del gasto farmacéutico. Hoz: Las modificaCIOnes en el precio medio por envase prescnto afectan sIgnificativamente al gasto farmacéutico. Ho3 : La renta disponible de los consumidores afecta SIgnificatIvamente al gasto farmacéutico.
Variables -
-
Gasto en recetas (GASRECT): Vanable dependiente, medida en pesetas constantes de 1976 (millones). Fuente: Mimsteno de Sanidad y Consumo. Número de envases presentas por asegurado (ENVASEPR): Vanable mdependiente, expresión individual del consumo en unidades físIcas, recoge la tendencIa hacIa el consumo de productos farmacéuticos por parte de la población asegurada. Fuente: Mimsteno de Sanidad y Consumo. PreelO medio por envase presento (PRECIENV): Vanable independiente, variable influida por la evolución de la política de revisiones de precios adhe-
Para esta aplicación se ha utilizado el programa STATISTICA. Con antenoridadse había realizado algún estudio sImilar corno el del profesor Cruz Rache (1984). * Véase fichero en la dirección www.ugr.es/-tluque.
5 6
© EdiclOues Pirámide
--
271
Técnicas de análisis de datos en mvestigación de mercados rida a las especIalidades farmacéutIcas regIstradas en España, así como por la política de comumcación que los laboratonos desempeñaL\. Medido en pesetas constantes de 1976. Fuente: Mimsteno de Sanidad y Consumo. Renta disponible de los consumidores (RENTDISP): Vanable mdependiente, medida en pesetas constantes de 1976. Fuente: Infonne económico del BBV, 1990-1995.
-
Modelo teórico GASRECT=
/3, + /32ENVASEPR + (33PRECIENV + /34RENTDISP + u¡
Modelo obtenido Gasto recetas = -123.265,77 + 4.567,29ENVASEPR + 192,37PRECIENV + + 0,60RENTDISP + e, 2 R = 0,97975086 2 R ajustado = 0,97698962 F(3, 22) = 354,89 p < 0,00000. EstImacIón de la desvIación típIca del error: 2.128,4 TABLA 6.1 Regresión
••
C
Térmmo independiente ENVASEPR PRECIENV RENTDISP
.'
0,505426 0,499546 0,918701
Error estándar de.beta .
l·..
Erro~
, estánd~r . deB
-123.265,77 7.490,42 0,035190 4.567,29 318 192,37 12,02 0,031237 0,035269 0,60 0,02
1(22)
p-nivel de s¡gni~ ficaCÍón
-16.4564 14,3624 15,9919 26,0477
0,000000 0,000000 0,000000 0,000000
donde Beta: Son los coeficíentes beta, o coeficIentes correspondientes a las vanables estandanzadas. B: Son los coeficíentes estImados del modelo de regresIón. t(22): Valor expenmental del estadístico de la t-Student para verificar la Ha; B¡ = O. Donde 22 son los grados de libertad (n - k). p-mvel de SIgnificaCIón: Valor que nos mdica el mvel de slgnificacíón mímmo para rechazar la hIpóteSIs nula.
272
© EdiCIOnes Pirámide
Regresión lineal En la tabla 6.1, observando la columna <
U5e5
o
1,05e5 00
o
o
95.000
"¡i
~ .g
85.000
o
00
00
"S
~
00
o
75.000 65.000
o
55.000 45.000 45.000
55.000
65.000
75.000
85.000
95.000
1,05e5
U5e5
Valores estImados
Figura 6.7.
© EdicIOnes Piramide
--
AnáliSIS de los residuos. Valores observados de Y respecto de vatores estimados. Vartable: GASRECT.
273
Técnicas de análisis de datos en investigación de mercados Análisis de la varianza En la tabla 6.2 observamos el valor del estadístIco F (354,8221), comentado anteriormente. También se muestra el valor de la suma de cuadrados de la explicada (SCE), la suma de cuadrados de residuos (SCR) y la suma de cuadrados totales (SCn. TABLA 6.2 Análisis de la varianza
Regresión (SCE) Residual (SCR) Total (SC])
48.220.lü7E2 99.659.566, 49.2l6.703E2
3 22
l6.073.369E2 4.529.980,
354,8221
0.000000
Multicolinealidad Para analizar la posible presencia de multIcolinealidad o redundanCIa de las vanables mdependientes el programa STATISTICA (opción redundancy) proporcIOna la tabla 6.3. En esta tabla la columna R 2 representa el coefiCIente de correlacIón múltIple (R;), que es el que se obtIene de realizar la regresión de cada varIable mdependiente respecto del resto de vanables mdependientes. Cuando el valor de algún es supenor o Igual a 0,75 se considera que hay un problema de multIcolinealidad grave. En nuestro caso mngún toma dichos valores y, por tanto, conclUImos que no hay un problema de multlcolinealidad grave. También en dicha tabla aparece la toleranCIa (1 - R;), cuyo uso es sImilar al del R;. La columna de correlacIón parcIal nos permIte dar de nuevo una ordenaCIón en cuanto a la ImportancIa relativa de las vanables explicatIvas. En este caso la ordenaCIón sería: RENTDISP, PRECIENV y ENVASEPR. La columna de la toleranCIa se obtiene a partIr de las R;: ToleranCIa = 1 - R;; otra alternatIva para descubnr la eXIstencIa de multIcolinealidad.
R;
R;
TABLA 6.3 'Tollenmciía
ENVASEPR PRECIENV RENTDISP
274
0,743237 0,943269 0.739904
I!
R,
¡I Correlación parcial
0,256763 0,056731 0,260096
0,950593 0,959578 0,984171
© EdiCIOnes Pirámide
Regresión lineal Heteroscedasticidad
Para comprobar la presencia de heteroscedasllcidad se suele comenzar usando el método gráfico. En este caso se ha representado en unos ejes de coordenadas los residuos al cuadrado en función de los valores estímados de la varIable dependiente y de cada vanable explicatIva (figuras 6.8, 6.9, 6.10 y 6.11).
1,8e7
o l,4e7
o o
N
o
le7
00
o
o
o
~
00
~
o
6e6 -
o o
o
2e6
o
o
o
8 o
&
o
o
o
o
o
-2e6 45.000
55.000
65.000
Figura 6.8.
75.000 85.000 Valores estImados
95.000
1,05e5
1,15e5
Vanable dependiente: GASRECT.
1.8e7
o l,4e7
o o
N
00
o
o
o
le7
o
~
00
o
~ 6e6
o o
2e6
o 0'l5>°
o o o
o 00
o
o
o o
o o
-2e6 100
120
Figura 6.9. © EdiCIOnes Pirámide
140
160
180
200
220
240
Vanable mdependiente: PRECIENV.
275
Técnicas de análisis de datos en investigación de mercados
l,8e7
o 1,4e7
o o
N
~
o
o
~"
"
~
o
o
ie7
o 6e6
o o o
2e6
00
o
-.
-.
1,3e5
1,5e5
-2e6 1,le5
Orn'\O o
o
Figura 6.10.
o
o
o
o
1,ge5
1,7e5
2,le5
Variable independiente: RENTDISP.
1,8e7
o 1,4e7
o o o
N
~
o
o
le7
o
"
:¡:¡ ~
"
~
o
6e6
o o
2e6 000
o o
o
o o o
o
o
000
é}
-2e6 11,5
FigUra 6.11.
12,5
13,5
14,5
15,5
16,5
Vanable Illdependiente: ENVASEPR.
Según la figura 6.8 cabría sospechar de una posible presencia de heteroscedastIcidad, puesto que aparentemente en dicho gráfico eXIste un patrón de comportamIento. Tal gráfico se obtIene en la opCIón de análisIs de residuos. Para determinar SI alguna de las variables es la que está provocando la heteroscedastIcidad se han obte-
276
© Ediciones Pirámide
Regresión lineaL nido las figuras 6.9, 6.10 Y 6.11, para lo cual los residuos se han llevado a una hOJa de cálculo, se han calculado los cuadrados y postenormente se han representado. Además del método gráfico se han aplicado dos tests o pruebas para detectar la heteroscedasticidad. En pnmer lugar se ha aplicado el test de Park a cada vanable explicativa: ENVASEPR
l.
R 2 = 0,00003919 F(l, 24) =0,00094 p < 0,97579. Error estándar del estimador: 5.172E3.
TABLA 6.4
Ténnino mdependiente ENVASEPR
2.
4.131.600, 9.787.080, 0,422148 0,676674 -0,006260 0,204120 -20.430, 666.173, -D,030668 0,975788
PRECIENV F(l, 24)
= 0,23289
R 2 = 0,00961035 p < 0,63376. Error estándar del estimador: 5.l47E3.
TABLA 6.5
Térmmo independiente PRECIENV
3.
0,098032
1.511.411, 4.915.639, 0,307470 0,203141 13.634, 28.253, 0,482583
0,761138 0,633764
RENTDISP F(l, 24) = 3,7383
R 2 = 0,13477123 p < 0,06506. Error estándar del estimador: 4.81IE3.
TABLA 6.6
Ténnino mdependiente RENTDISP 0,367112
© EdicIOnes Pirámide
-10.062.554, 7.248.522, -1,38822 87, 45, 1,93348 0,189872
,177822 0,065057
277
Técnrcas de análisis de datos en investigación de mercados Para un mvel de confianza del 95 % en nmguno de los tres modelos el coeficIente de la vanable explicativa es significativo y, por tanto, no se admite la presenCIa de heteroscedastIcidad, al menos de tipO lineal. Además se ha utilizado la prueba de WhIte; para ello hemos obtemdo el SIgUiente mOdelo:
e; = 130 + f3¡ENVASEPR + f32PRECIENV + f33RENTDISP + f34ENVASEPR2 + + f3sPRECIENV2 + f36RENTDISP2 + f37ENVASEPR x PRECIENV + + f38ENVASEPR x RENTDISP + f39PRECIENVx RENTDISP con R 2 = 0,45. Luego el estadístico = nR2 = 26 x 0,45 = 11,68. Comparándolo con el valor para un a= 0,05 de la X~ = 16,92, podemos mdicar que se acepta la Ho= HomoscedastIcidad.
Autocorrelación
Para analizar la autocorrelación se ha usado el procedimiento gráfico. representando los residuos en función del tiempo. usando la opción residual analysis, plots of residuals, raw residuals (programa STATISTICA). En la figura 6.12 no se observa claramente un patrón de comportanuento que nos mdique la posible presencIa de autocorrelación. Un procedimIento más formal para detectar la autocorrelación de prImer orden es usar el estadístico Durbin-Watson (tabla 6.7). Comparando el valor de dichO estadístICO con el valor teónco de las tablas de Durbm-Watson para un mvel de sIgnificacIón del 5%, n = 26 Y k' = 3, se obtienen los valores de dL = 1,14 Y d u = 1,65, puesto que el valor del estadístico está entre dL y d u, caería en la zona de mcertidumbre, por lo que no se podría concluir la existencIa o no de autocorrelación de pnmer orden. TABLA 6.7 Durbzn-Watson y correlación senal de los reszduos
. EstImado
~.:_L'_
.•,'a ,
1,59682
vu
Correlación serial 0,142880
Otro procedimIento para detectar la autocorrelacIón es el contraste de BreuschGoldfrey. El modelo obtenido incluyendo como varIable explicativa un residuo retardado es el SIgUiente:
e, = -830,48 + 1,03PRECIENV + 22,04ENVASEPR + 0,002RENTDISP + 0,15 e,_ j
278
© EdiCIOnes Pirámide
Regresión lineal
5.000,-------------------_--,
o
00
~~
1.000
~ -1.000
o
o
o o
o o
oo
o
o
o o
o
o o
o o
o o
-3.000
o
o
o
3.000
o o
o
1974
o 1980
1986
1992
1998
Años
Figura 6.12.
donde: R 2 = 0,018 ML= 0,48
Si comparamos el ML = 0,48 con el valor de las tablas de la mos rechazar la hIpótesis de no autocorrelación.
xi = 3,84 no pode-
INVENTARIO DE TÉRMINOS Y CONCEPTOS • • • • • • • • • • © Ediciones Pirámide
Regresión lineal sImple. Regresión lineal múltlple. Mímmos cuadrados. Multlcolinealidad. Homoscedastlcidad. Autocorrelación. Mímmos cuadrados ordinanos (MCO). MaJnmoverosimilitud. Estimados llÚnimos cnadrátlcos ordinarios (EMCO). Estimador lineal msesgado y óptico (ELlO).
279
Técnicas de análisis de datos en investigación de mercados • • • • • • • • • • • • • • • • • • •
Suma de cuadrados explicada (SCE). Suma de cuadrados de los residuos (SCR). Suma de cuadrados de los totales (SCT). CoeficIente de determmación. CoefiCIente de determmaClón ajustado. CoeficIentes beta. CoeficIente de correlacIón parcIal. Elastícidades. Predictor lineal msesgado y óptImo (PLIO). Coeficíente de correlación múltIple. Factor de agrandamIento de la VarIanza. ToleranCIa. Número de condición. Prueba de Park. Prueba de Goldfeld-Quandl. Prueba de WhIte. Mímmos cuadrados ponderados. Test de Durbm-Watson. Procedimiento de Cochrene-Orcutt.
BIBLIOGRAFíA AbascaI. E.. Y Grande, 1. (1989): Métodos multivariantes para ta znvestigación comerczal, Anel, Barcelona. Cruz, 1. (1984): Uso racional y financiación pública de los medicamentos en Europa, Organización Mundial de la Salud, Madrid. 22-26 de octubre. Frías Jamilena. D. M. (1996): ComercIalización de productos farmacéutlcos. Análisis del gasto en productos farmacéuticos, tesIS doctoral. Universidad de Granada. GUjarati. D. (1997): Econometría, McGraw-Hill. Intriligator. M. (1996): Econometnc Models, Techmques, and Applications, PrenlIce-Hall. Johnston, J. (1987): Métodos de econometría, Vicens Umversidad. Lambm, J. J. (1993): La recherche marketing, Edisclence. Malhotra. N. (1997): Investigación de mercados. Un enfoque práctlco, PrenlIce-Hall. Pemet, R.. Sagmer, D., y Camp, F. (1994). «Fijación del precIo a partIr de la utilidad percIbida por el mercado», VI Encuentro de Profesores Untversitanos de Marketlng. Rebollo, A. (1992): «La dispersión de precios en las fonnas comerciales de libre servicIO en España». IV Encuentro de Profesores UmversUarlOS de Marketzng. Yagüe, M. J. (1992): «Estructura de mercado y márgenes precIO-coste en los sectores mdustnales españoles». IV Encuentro de Profesores UmversUarios de Marketing.
280
© Ediciones Pirámide
Teodoro Luque Martínez José Ángel Ibáñez Zapata
1.
DEFINICiÓN Y CARACTERíSTICAS En todas las ramas del saber ha eXIstido la preocupación por explicar fenómenos, es decIr, por encontrar las causas que provocan determinados efectos, yeso tanto en el saber común o vulgar como en el conocImIento CIentífico. Así, mteresa descubnr qué tlpo de fertilizante o qué tlpo de poda da mejor rendimIento en una explotación agrícola; qué tlpo o dOSIS de fármaco proporcIOna mejores resultados en la lucha contra una dolencia; qué tipo de dieta proporcIOna un mejor bIenestar; o bien, en el ámbito del marketlng, qué tlpo de diseño de un producto es más apreCIado; qué mvel de precIOs mteresa desde la óptica del beneficIO o de las ventas o qué tipo de actuación promocional es más atractlva para los distribuidores o para los consumidores. Pues bien, una forma, qUIzá la pnnclpal, de abordar retos de este tipo es la experimentación, esto es, mediante la mampulación mtenclOnada de una o más variables (independientes o tratamientos) para ver las consecuencIas que generan en otras (dependientes)l La técmca que tratamos en este capítulo está estrechamente ligada a la filosofía de la expenmentación. Efectivamente, el análiSIS de la varianza es la herramIenta de análiSIS apropIada para explotar los datos provenientes de situaciones experimentales, aunque también es aplicable a datos obtenidos mediante encuesta y no específicamente expenmentales. Permite extraer conclusiones sobre SI una variable mdependiente (o más) condiCIOna o no a otra (u otras) dependiente, e mcluso SI la mteracción o actuación conjunta de variables independientes es SIgnificativa. Como se desprende de lo expuesto, el análiSIS de la vananza distingue entre vanables dependientes e mdependientes, por lo que pertenece a los métodos de dependenCia, con la particularidad de que las vanables dependientes están medidas en escalas métricas y las independientes no. En esto radica la diferencIa con el análiSIS , Un comentano más detallado sobre experimentación comerCIal lo realizamos en Luque (1997).
© Ediciones Pirámide
281
Técnicas de análisis de datos en investigación de mercados de regresión (todas son métricas) y el análisIs discrimmante (la dependiente es la no métrIca). Cuando se tIene una variable dependiente (ventas, satisfacción, valoración de un producto o marca, intenCión de compra, etc.) y una variable independiente en escala no métrica (edad, sexo, residenCia, formación, estado civil, tipo de distribuidor, diferentes alternativas de precio o de planes de promoción, etc.), y se desea comprobar la eXistencia de diferenCias significativas para dos categorías de la variable mdependiente, se aplica, normalmente, el test t de diferencia de medias o bien un análisIs de la vananza con un factor, ANOVA (ANalysls Of VAriance) con un factor. Para más de dos categorías, utilizar la prueba t para cada pareja lleva consigo una mflación del error tIpo r, efecto que es corregido por el ANOVA. Por supuesto, cuando se consideran dos o más factores (vanables mdependientes) se utiliza el ANOVA. A veces lo que interesa es comprobar los efectos de varIaS vanables independientes (normalmente serán VarIas, aunque pueda ser también una sola) sobre varias vanables dependientes, lógicamente con algún grado de relación entre éstas, entonces ha de aplicarse un análisis multIvariante de la varianza o MANOVA (Multlple ANalysls Of VAriance). En realidad, éste es el modelo general del que ANOVA no es smo una sItuación partIcula¡2. Si mtrodUClmos una covariable -esto es, una vanable independiente pero métnca que no se controla, pero mcide en la dependiente, es deCir, cavaría con ellaa este análiSIS se le denomina ANCOVA (ANalysls of COVAriance) para una variable mdependiente o MANCOVA (Multiple ANalysis of COVAriance) SI son vanas las dependientes. La tabla adjunta resume una clasificaCión de las diferentes posibilidades. TABLA 7.1 Modalidades de análisis de la varianza Variables dependientes (métrícas) Yarlables independientes Una Una (no métrica)
Varias (no métricas)
Categóncas e mtervalos
2
282
Véase
NOruSlS
I
Varias
ANOVA con un factor (One-way ANOVA)
MANOVA con un factor
ANOVA con dos o k factores (Two-way ANOVA o de k factores)
MANOVA con k factores
ANCOVA
MANCOVA
(1986), Han et al. (1993) y Urie] (1995). © EdiclOnes Pirámide
AnálisIs de la varianza El origen de esta técmca se remonta en el tIempo y tIene mucha relación con el desarrollo de las discIplinas. donde pnmero se practicaba la expenmentación, esto es, las denominadas cIencIas expenmentales. Entre las primeras aplicaciones destaca por su notanedad la efectuada para comprobar los rendinuentos de explotaciones agrícolas con diferentes fertilizantes, en definitIva, tratamIentos. No es muy exagerada la afirmación de que las cIencIas socIales han ido a remolque metodológIco de las ciencias denominadas de la naturaleza. Esto también es cIerto en el caso de la expenmentación que ternunó incorporándose a la práctIca de las cIencias socIales, aunque. dadas sus peculiaridades, con dificultades evidentes tanto en la aplicación como en la generalización de los resultados. Diferentes autores han contribuido directa o indirectamente a la mejora de esta herranuenta. bIen en la fase prevIa de diseño o de elaboración de pruebas para comprobar el cumplimiento de los supuestos de aplicación, bIen en la fase post-evaluación de la aplicación. Como reconoclnuento se conserva el nombre de esos autores en diversos tests asociados a la técmca, como son los casos de Wilk, Hottelling, Bartlett y otros. Al Igual que sucede con todas las técmcas multIvarJantes, el desarrollo de tests estadístIcos y de programas informátIcos, que facilitan enormemente su aplicación, ha supuesto la generalización de su uso, más aún en el caso de MANOVA. El ANOVA era más utilizado, posiblemente una de las técmcas de análiSIS multivariante más aplicadas antes de la lITupción masIva de la informátIca a partir de los setenta. Como indican Evrad. Prass y Roux (1993, 455), el análiSIS de la varianza ha sido considerado desde dos perspectIvas distmtas: -
Una. relacionada con la expenmentación, en tanto que herraJIúenta de análiSIS de diseños expenmentales, para lo cual se requiere de celdas (número de observaCIOnes de una o varJas modalidades) con el mismo tamaño. Se apoya en un modelo aleatono según el cual las modalidades de una variable explicatIva son muestras extraídas de un conjunto mayor de modalidades posibles. Otra, relacionada con el análiSIS de datos, acepta que los grupos estén compuestos por un número diferente de efectIvos (corresponde generalmente .a datos de encuestas donde se controlan todas las situacIOnes expenmentales). Descansa sobre un modelo lineal (efectos fijados) donde las mfluenclas concIernen úmcamente a las modalidades de la vanable explicatIva que han sido estudiadas (y no al conjunto de esta varJable).
Los procedimientos de cálculo son análogos en los dos casos, pero la interpretación estadístIca de los resultados difiere.
2.
ANOVA ANOVA es un caso concreto de MANOVA. Es una técmca de dependencia diseñada para medir la SIgnificación de la influenCIa que una o vanas variables independientes no métrIcas (X,) tIenen sobre otra variable dependiente y métrica (Y). Di-
© Ediciones Pirámide
--
283
Técnicas de análisis de datos en investigación de mercados cho de otra forma, ANOVA pretende determinar SI diversos conjuntos de muestras aleatorias de una variable proceden de la mIsma poblacIón o no. Además de determInar la SIgnificación de tal InfluencIa, y en caso de que ésta eXIsta, ANOVA permIte descubnr qué modalidades provocan los cambIOs o bIen, SI hay varias variables explicatIvas, si la acción conjunta o Interacción entre ellas provoca cambIOs SIgnificatIvos. En ANOVA se presentan diferentes sItuaCIOnes, sIempre para una sola variable a explicar, como: -
ANOVA con un factor o variable explicativa (one-way ANOVA). ANOVA con variOS factores. A su vez se distIngue entre: • MOdelo factorial completo: considera los efectos de dos o más variables Junto con los efectos de sus Interacciones. • MOdelo factorial incompleto: cuando solamente se tienen en cuenta los efectos por separado de las variables, sin contemplar las Interacciones. Por esto también se le denomIna modelo de efectos princIpales.
-
Diseño por bloques. En este caso, además del tratamiento eXIsten otros factores que pueden tener una Incidencia diferente, lo que Intenta correglfSe formando grupos homogéneos en los que se miden jos efectos de los distintos mveles de tratamIento. Se supone la no existenCIa de InteraccIón entre los factores de tratamIento y los de bloque. Algunos ejemplos son: • Diseños aleatorios por bloque completo. • Diseños de medidas repetidas. • Diseño en cuadrado latInO. • Diseño en cuadrado grecolatino.
2.1.
ANOVA con un factor (one-wayJ
2.1.1.
Ejemplo
La empresa ERATO* ha decidido que es convemente implantar medidas promoclOnales para sus distribuidores tradiCIOnales (a efectos del estudio, entendemos por tradiCIOnal aquel distribuidor que no es una gran central de compras ni una gran superfiCIe, SInO que sIrve a mInOristas en una zona de ámbIto comarcal y cuya relaCIón con la empresa suele remontarse en el tIempo, respondiendo a un perfil de pequeña empresa, familiar y de gestIón tradiCIOnal). Tras estudios preliminares se han diseñado tres alternatIvas de promoción (plan 1, plan 2 y plan 3) de las que se qUIere conocer su valoración por parte de los distribuidores. Tras una selección aleatOria, en ERATO se delimítan tres grupos formados por el mismo número de distribuidores.
*
284
Véase fichero en la dirección www.ugr.es/-uuque. © EdiclOneS Pirámide
AnálisIS de La varianza A cada uno de estos grupos se les presenta uno de los tres planes de promoción para que los evalúen en una escala de I (muy en desacuerdo) a 7 (muy de acuerdo). La vanable dependiente métnca es la puntuación otorgada y la vanable independiente no métnca los planes de promoción con sus tres categorías. LógIcamente, las puntuacIOnes serían diferentes (ya sería mucha comcidenCla que fuesen exactamente Iguales). La cuestión es la sIgUIente: ¿exIsten diferencIas significativas entre la puntuación de los diferentes planes de promoción?, o dicho de otro modo: ¿podemos decIr que las diferencIas en las puntuacIOnes son debidas a la naturaleza del plan objeto de evaluaCIón? Si eXIsten diferencias, lo sIguiente sería identificar el plan de promoción mejor valorado para ponerlo en marcha con mayores garantías de éxito, puesto que es el preferido por los distribuidores, sin olvidar el efecto POSitIVO que tiene el que éstos aprecIen que su opmión haya sido considerada por la empresa. En realidad el ANOVA con un factor es una generalización del test de diferenCIas de medias cuando se tienen diferentes medias correspondientes a diferentes modalidades. El modelo se expresa como sIgue:
Es decir, cada observación i de la modalidad k (Yik) es el resultado de una media general (11), del efecto de un tratamIento 7:k y el error aleatorio para la observación i sometida al nivel de tratamIento k (t:ik ). La hipótesIs nula de Igualdad de medias poblaclOnales eqUIvale a la hipótesIs de que mnguno de los tratamIentos hene efecto alguno, ya que SI ¡.tI = fJ.z es porque el tratamiento no tiene efecto. Luego
Ha· 11¡ =fJ.z o bIen
7:k
= O,
para k
= 1, 2,
=... =I1k
..., p.
H¡, No todas las medias son Iguales
o bien
7:k
# O, para alguno de los k mveles.
2.1,2.
Hipótesis del modelo
El modelo ha de cumplir unos supuestos relacIOnados con las características de la población y de la muestra. Éstos son:
1.
La variable dependiente se distribuye como una normal 3 Para comprobar la normalidad caben varias recursos:
~ Sin embargo. la no normalidad parece no afectar de forma decisiva al test F, que es la clave de las conclusiones en el análisis de la varianza como veremos a continuación, por la aplicación del teorema central del línute.
© EdicIOnes Pirámide
285
Técnicas de análisis de datos en investigación de mercados -
Pruebas como el test de Kolmogorov-Srrumov o el de Shaprro-Wilk. Representación gráfica y examen de la CurtOSIS y la aSImetría. Representación gráfica de los valores observados de los residuos y de los valores correspondientes a una distribución normal para examInar la diferencIa entre ambos.
2.
Homoscedasticidad. Las varIanzas de todas las poblaciones no difieren, son Iguales o aproxImadamente Iguales. Los paquetes InformátIcos más utilizados proporcIOnan pruebas para descubnr la eXIstencIa o no de homoscedastIcidad como los de Levene, Cochran o Bartlett, SI bien su validez está supeditada al cumplimIento de la hIpótesIs de normalidad. El efecto de la desIgualdad de las varianzas (heteroscedastIcidad) sobre el test F se ve paliado SI las muestras son del mIsmo o parecido tamaño. Para algunos autores, sí afectaría tal deSIgualdad SI la razón entre el tamaño muestral del grupo mayor y el de menor vananza fuese superior a 2 (Unel 1995, 184). 3. Las muestras son Independientes y han sido obtenidas de forma aleatona. La independencia de las muestras está determinada por la forma de obtener los datos. Un procedirruento para comprobar el cumplirruento de esta hIPÓtesIs consIste en representar gráficamente los residuos. Si éstos no presentan una forma o disperSIón aleatoria la Independencia queda en entredicho.
Por otro lado, se dice que un diseño experimental está equilibrado (o también, balanceado) cuando el número de observacIOnes para los diferentes niveles del tratamiento es el mIsmo. Si estos niveles se determInan o fijan preVIamente por el Investigador estaremos ante un modelo de efectos fijos; SI no es así, el modelo es de efectos aleatonos.
2,1.3,
DeSCOmposición de la varianza
La diferenCIa entre cada observación y la media global es debida al efecto provocado por el tratamiento unido al provocado por el error aleatorio, es deCIr, al efecto explicado por el factor unido al efecto residual no explicado por el mismo. En suma, tal diferenCIa puede descomponerse en dos elementos: la diferencia entre grupos y la diferencia Interna (intragrupos):
Para: Yik: Valor de la variable dependiente para la observacIón i y el nIvel de tratamIento k .
.Ji: Media general Yk: Media para el nivel de tratamIento k.
286
© Ediciones Pirámide
AnálisIs de la vananza Dados los supuestos de partida, elevando al cuadrado y para todas las observaClOnes, obtenemos la SIgUIente expresión que representa la descomposición de la vananza en, por un lado, la vanación entre las diferentes modalidades o grupos (vananza mtergrupos) y, por otro, la vanación dentro de cada modalidad (varIanza mtragrupos).
I, (Yik -
'Yi = I, nk (Yk -
i,k
y)2
+ I, (Yik - Yk)2
k
k
o dicho de otra forma,
la vanabilidad total (suma de cuadrados totales, SCn es Igual a la varIabilidad total explicada por cada factor (suma de cuadrados del factor SCF) más la vanabilidad residual (sumas de cuadrados residual SCRt
SCT = SCF + SCR Obviamente, a mayor variabilidad en las observaclOnes, mayor SCT; cuanto más parecidas sean las diferentes medias menor SCF, y cuanto menor sea la varIación entre las observaciones de cada grupo menor SCR. Las varianzas poblaclOnales mter-grupos e mtra-grupos se obtIenen dividiendo la suma de cuadrados explicados por el factor (SCF) y la suma de cuadrados de los residuos (SCR), respectIvamente, por sus correspondientes grados de libertad (que son el número total de datos menos el número de restncclOnes). Dichos cocIentes nos proporclOnan sendas medias cuadrátIcas, la del factor y la residual, de forma que el cocIente entre ambas es el valor del estadístIco F que sigue una distribución FisherSnedecor. El proceso se resume en la tabla del análiSIS de la varIanza. TABLA 7.2 ANOVA con unfactor , ,.
•
Factor (entre grupos) Residual (dentro del grupo) Total
Suma de . cuadrados
Grados de libertad
SCF
p-I
MCF=SCF/(P-I)
SCR SCT
n-p n_1 5
MCR = SCR/(n - p) MCT= SCT/(n -1)
.
I
Estadístico F(p -1); (n p)
F=MCF/MCR
El valor de F así obtenido se compara con el valor teónco de F para un deternunado nIvel de SIgnificación (IX, normalmente el 5 o el 1%) y para unos determl4 Aunque también se utiliza la expresión SCE (suma de cuadrados explicadOS) en expenmentación nos refefimos a factores de ahí que hayamos optado por SCF. 5 (n _ 1) = (p - 1) + (n - p); donde p es igual al número de grupos (o también categorías), y n el
número d.e observaclOnes. © EdiclOoes Pirámide
287
Técnicas de análisis de datos en ¡nuestigación de mercados nados grados de libertad, los del numerador y los del denominador, (p - 1) Y (n - p) respectivamente, de forma que: -
Si F < F'Q, -1),(n _ k)' no se rechaza la hIpótesIs nula. Las variacIOnes que se producen son Imputables al azar. Si F>F'Q,_1),(n_k)' se rechaza la hIpótesIs nula. Las varIaCIOnes no son Imputables únicamente al azar.
No obstante, en la práctica todos los programas de ordenador proporcíonan el ex, o valor p, asocIado de manera que directamente se comprueba SI éste supera o no el nivel estándar que suele fijarse en un 5 o un 1%. Para dos grupos es posible aplicar el test t en lugar de ANOVA, que en este caso es la raíz cuadrada de F
2.1.4.
Bondad del ajuste
El coeficIente eta cuadrado r¡2 (o R 2 ) nos proporcIOna una medida de la bondad del ajuste o de la capacidad del factor de explicar la variabilidad total. Dicho coeficiente se define como: SCF r¡ = SCR 2
Si este coeficIente es Igual a 0, podemos conclUIr que el factor no explica nada de la varIabilidad total, mIentras que si es Igual a 1, o tiene un valor cercano al, podemos decír que el factor explica la totalidad o una proporcIón muy Importante de la varIanza total. Dicho de otro modo, este coefiCIente nos indica, en tantos por uno, la proporción de varIabilidad total que es debida al tratamiento llevado a cabo.
2.1.5.
Análisis
post hoc
Del análiSIS de la varIanza resultará una de las dos posibilidades sIgUIentes: -
-
288
Que no se rechace la hipóteSIs nula. Esto nos llevaría a conclUIr que las medias son Iguales y, por tanto, que no existe un efecto provocado por el tratamIento. Que se rechace la hipóteSIs nula. En este caso interesará realizar un análiSIS en profundidad que nos permíta determmar qué grupos ocasIOnan tal deSIgualdad de medias. Para ello cabe la posibilidad de recurnr a la formación de mtervalos de confianza para cada grupo o a la utilizaCIón de pruebas tales como la de la diferenCIa SIgnificatIva mínima (LSD), la prueba de Bonferroni (más exigente a la hora de rechazar la hIpóteSIs nula, sobre todo cuando el número de grupos y, consecuentemente, de comparaCIOnes, es elevado), el test de Tukey, el test de Scheffé, el test de Duncan, el test de Student-Newman-Keuls, GabrIel, Dunnett y otros. La versión 7.5 de SPSS proporcIOna © Ediciones Pirámide
Análisis de la vananza tests apropIados incluso para aquellos casos en que las varianzas son desIguales, es deCIr, cuando no se cumple la condición de homoscedasticidad. Se trata de los test de Tarnhane T2; Dunnett T3, Games-Howell o Dunnett C. En suma, estas pruebas permIten contrastar la hIpótesIs de Igualdad de medias para las diferentes combmaciones de comparaCIOnes. El analista tiene la opción de plantear comparaCIOnes específicas indicándolas en el programa mediante unas ponderaciones para cada grupo, que han de sumar O. Así. SI con cuatro grupos se desea comparar las diferencIas entre los grupos 1 (G,) Y 2 (Gz) con el grupo 3 (G 3), se expresaría como:
O,SG, + O,SG2 + (-I)G3 + OG4 Si la comparación deseada fuese entre G, y G3 , entonces la expresión sería: 1O¡ + O(G2 ) + (-I)G3 + OG4
Supongamos que en nuestro ejemplo la puntuación de los distribUIdores de ERATü ha sido la que se expresa en la tabla adjunta (columna Yik)' En este caso, las hIpótesis quedarían formuladas como sIgue:
-
Ha' Los tres planes de promoción son valorados como Iguales. H,. Las valoraCIOnes de los planes de promoción son distmtas.
TABLA 7.3 PuntuacIOnes de los distribuidores Plan I
1 1 1 1 2 2 2 2 2 3 3 3 3 3 Total
© Ediciones Pirámide
t
Distribuidor
Yaloracióu -yik
1 2 3 4 5 1 2 3 4 5 1 2 3 4 5
6 5 6 7 6 5 4 5 4 4 4 3 5 4 3
(Yik
-y)
1,267 0.267 1,267 2.267 1,267 0,267 -0,733 0,267 -0.733 -0,733 -0,733 -1.733 0,267 -0,733 -1,733
>cYf+yJr
(Yik
;y,t
1,6053 0,0713 1.6053 5.1393 1,6053 0,0713 0,5373 0,0713 0,5373 0,5373 0,5373 3,0033 0,0713 0,5373 3,0033
(6 - 6)2 (5 - 6? (6 - 6)2 (7 -6? (6 - 6)2 (5 - 4,4)2 (4-4,4)2 (5 - 4,4)2 (4 -4,4)2 (4 -4,4)2 (4-3,8)2 (3 - 3,S)' (5 - 3,8)2 (4 - 3,8)2 (3 - 3,8)'
SCT= 18,933
SCR=6
289
Técnicas de análisis de datos en Investigación de mercados donde .ji¡
SCF
= n¿;CYk -
y)2
= 6;
= 5(6 -
ji2 = 4,4;
ji3
= 3,8;
ji = 4,733
4,733)2 + 5(4,4 - 4,733)2 + 5(3,8 - 4,733?
= 12,933
k
De ahí que: SCT(l8,933) = SCF(l2,933) + SCR(6)
En definitiva, el análisis de la varianza se resume en la tabla adjunta. TABLA 7.4 Cálculo del estadístico F (pruebas de los efectos intersu]etos) -;- .....
I •......F(/~nte
.<
Modelo corregido Intercept6 PLANPROM Error Total Total corregido
S.IlD)'¡d~
cuadrados
9Pr> Ul <
'i . .
.·Yg!<. LO
12,933 336,067
2 1
12,933 6,000
2 12
355,000 18,933
15 14
'UH"
I
tralidad
1,
6,467 12,933 336,067 672,133 6,467 0,500
ParlÚnetr~ l.l>otencia de no cen.
I
-:;-~ ~,
12,933
I
observada
0,001 0,000
25,867 672,133
0,984 1,000
0,001
25,867
0,984
Variable dependiente: VALORACI. a: Calculado con alfa = 0,05. b: R cuadrado = 0,683 (R cuadrado corregido = 0.630). Pi,;'2 = 3,88; Y Fi.;'2 = 6,93.
En consecuencia, para ambos mveles de significacIón se rechaza la hIpóteSIs nula (puesto que el F calculado: 12,933, es mayor que el F teónco para 2 y 12 g.d.!. Y un mvel de sIgnificacIón del 0,05: 3,89) de igualdad de medias. Los planes de promocIón son valorados de forma sIgnificatIvamente diferente. Respecto a las dos últimas columnas, SPSS presenta el parámetro de no centralidad, empleado en el cálculo de la potencia observada o poder de la prueba (probabilidad de rechazar la hIpótesis nula cuando debe serlo). La potencIa observada nos muestra la probabilidad de que el test F detecte unas diferencias entre los grupos iguales a las encontradas en la muestra. En nuestro caso, la potencIa observada es caSI 1, lo que mdica que casI siempre que se tome una muestra de este tamaño encontraremos que existen efectos de esta magmtud a mvel poblaclOna¡7 6 Éste es un térmmo independiente que nonnaimente se inCluye en el modelo y que se puede exclUIr en el caso de que los datos pasen por el origen. 1 Recordemos que en los tests estadísticos, además del nivel de confianza (l - a), o probabilidad de rechazar la hipóteSIS nula cuando es falsa (siendo a el error tlpo 1), está el poder de la prueba o proba-
290
© Ediciones Pirámide
AnálisIs de la varianza La vanable dependiente se distribuye aproxImadamente como una normal, como lo prueban los tests de K - S (p > 0,2) y Shaplro-Wilk (p = 0,26). Como hay igualdad en el tamaño de las muestras la presencIa de heteroscedastIcidad no afectaría decIsIvamente a los resultados del análisIs. De cualquier forma se han realizado los tests adecuados que proporcIOnan los paquetes estadístIcos: test de Levene (para F- 2,12) =0,649168 y test de Cochran =0,730641. Los resultados de estos tests no nos permiten rechazar la hIpótesIs de homoscedastIcidad, ya que la probabilidad de cometer un error al rechazar la hIpótesis de homogeneidad de la vananza es excesivamente alta (con un a de 0,65 y 0,73). El coeficiente de determmación en este ejemplo es l2,933(SCF)/18,933(SC1) = = 0,68; lo que significa que un porcentaje considerable de la variabilidad de la vanable dependiente (puntuacIOnes) es explicada por la variable Independiente (planes de promoción). Conocida la existencIa de diferenCIas en la valoración otorgada a cada uno de los planes promoclOnales, se trata alIara de identificar entre qué grupos se producen (análisis post hoc). Para ello contamos con dos tipos de procedi1lllentos (Uriel, 1995): La construcción de Intervalos de confianza individuales, que constituye el método más recomendable cuando se especifican las comparaciones correctas. Construyamos un Intervalo de confianza para cada grupo y para un mvel de confianza del 95%, siendo el valor de ( para 12 gdl 2,1 79; para PI se construye de la sIgUIente forma: )'1
± (0.05/2
7
n,
= 6 ± 2,179
~0/c5 => [5,311; 6,689] '15
para 1-l2, (0.0512 Y-2+ -
-!MCR + 2179 ~O, F = 4' 4 -, -f55 => [3"711' 5089] ,
Finalmente, para!i3 el intervalo es [3,1l1; 4,48]. Esto significa que es el plan 1 el que nada tIene en común con el plan 2 y el 3 (los intervalos no se solapan). bilidad de rechazar la hipóteSIS nula cuando debe serlo, esto es, (1 - fJJ, donde f3 es el error (¡po II o probabilidad de no rechazar la hipótesis nula cuando debe serlo. f3 no es constante y, ceteris paribus, se prefiere un test con más. poder a otro con menos. f3 varía de forma opuesta al lllvel de sIgnificación, SI éste disminuye el poder de la prueba se reSIente. Por otro lado, a mayor tamaño de la muestra mayor poder de la prueba. Pues bien, los programas informáticos proporcionan el poder de la prueba y, en términos generales, se recomIenda que su valor supere el 0,80. Si la muestra es muy grande una diferencia relativamente pequeña puede resultar SIgnificativa, por 10 que además de observar el nivel de signIficación ha de observarse el poder de la prueba. Para un tratanuento con un efecto reducido es necesario tomar muestras mayores que en el caso de un tratamIento con un efecto mayor para alcanzar un nIvel similar del poder de la prueba. © EdicIOnes Pirámide
-
291
Técnicas de análisis de datos en investigación de mercados -
La realización de tests que prueban las comparaciones múltiples. Este procedimiento tiene el nesgo de «¡nflar» el error tlpo 1. Existen diferentes tests que proporcionan un lllvel de significación para cada comparación por pares de grupos. Para todos los tests realizados, las diferencias entre el plan 1 con respecto al 2 y al 3 son significativas (un ex menor del 5% y un mtervalo en el cual los límites tlenen el mismo signo), mientras que ocurre todo lo contrano en las comparaciones entre el plan 2 y el 3, que tlenen un lllvel de significación supenor a 0,05 e intervalos de confianza que contienen el cero. TABLA 7.5
ComparacIOnes múltlples 8
DHS de TUkey
2 3 1 3 1 2
1,600 2,200 -1,600 0,600 -2,200 -0,6
0,447 0,447 0,447 0,447 0,447 0,447
0,01 0,00 0,01 0,40 0,00 0,400
0,407 1,007 -2,793 -0,593 -3,393 -1,793
2,793 3,393 -0,407 1,793 -1,007 0,593
I
2 3
2
1
3
3 1 2
1,6 2,2 -1,6 0,6 -2,2 -0,6
0,447 0,447 0,447 0,447 0,447 0,447
0,013 0,001 0,013 0,432 0,001 0,432
0,353 0,953 -2,847 -0,647 -3,447 -1,847
2,847 3,447 -0,353 1,847 -0,953 0,647
2 3 1 3 1 2
1,6 2,2 -1,6 0,6 -2,2 -0,6
0,447 0,447 0,447 0,447 0,447 0,447
0,011 0,001 0,011 0,614 0,001 0,614
0,357 0,957 -2,843 -0,643 -3,443 -1,843
2,843 3,443 -0,357 1,843 -0,957 0,643
1
2 3 Scheffe
Bonferroni
1 2 3
Vanable dependiente: VALüRACI. Basado en medias observadas. El ténmno error es Error. a
La diferencia d.e medias es significatIva al nIvel ,05.
En definitlva, el plan 1 es el preferido por parte de los distribuidores tradiclOnales de la empresa, al haber obtenido unas valoraclOnes slgnificatlvamente supenores a las de los dos planes restantes, tal y como se muestra en la figura SigUIente: 8
Ante la gran vanedad de tests disponibles se ha optado por seleccionar los que se expresan en la
tabla.
292
© Ediciones Pirámide
Análisis de la varianza
7
,, ,
6,5
------------------t-------------------{-------------------1------------------, , o
6 5,5 ~
:su
5
E'"
§ 4,5
'"
4 3,5 3
,,, ,,
,
,,
,
,, , ,, ,
,, ,
,,
---- --- ----+--------- - ---- ----.,----------- ------, ,
------------------~-------------------t-------------------i-------------------
,,
,
-----------------T----------~----------T------------------
::::::::::::::::::t:::::::::::~:::--------j--------::::::::::: ¡,
:,
,
,
o
- ---- ------ ---- ---,------------ ------- T-----------
------ -----
-------------------i------------.,.------1---------------- __ 1--------,
,, ,,
, ,,,
2 Plan promocional
3
2,5
I ±DeSVlación típIca c=J ±Error estándar
_
O Media Figura 7.1.
2.2.
Representación de las puntuacIOnes.
ANOVA con varios factores
2.2.1.
Ejemplo: modelo factoríal completo
La empresa ANAGOGIA * ha recogido mformación entre sus minonstas sobre la necesidad de realizar más promoción a la distribución (vanable medida en un escala de 1, no es necesaria más promoción, a 7, sí lo es), para lo cual tiene en consIderación la antIgüedad de la relación con la empresa y la zona temtonal en la que trabaja. En esta sítuación mteresa conocer cuál es la valoración de la necesidad de promoción según la zona y según la antigüedad de la relación empresa-distribuidor y, además, la evaluación de la posible mteracción de estos dos factores. Se trata de un diseño 3 x 3. puesto que se distmguen tres zonas (A, B Y C) Y tres niveles antigüedad (l larga. 2 media y 3 corta). Siendo: -
-
* © Ediciones Pirámide
Zona A. Próxima al centro de producción pnnclpal, donde eXIste un fuerte arraIgo de nuestra marca y en la que ocupa una postción de liderazgo mdiscutible. Zona B. Más alejada del centro de producción pnnclpal, donde la marca no Véase fichero en la dirección www.ugr.es/-tluque.
293
Técnicas de análisis de datos en investigación de mercados
-
tIene tanta implantación y en la que ocupa, como mucho, una posICión de liderazgo compartido. Zona C. Donde la empresa goza de una menor implantación y la marca es una marca más.
2.2.2.
Modelo e hipótesis
Si en lugar de una sola variable explicatIva contamos con más de una (supongamos dos, que es el caso más sencillo, two-way ANOVA), el modelo se expresa: Yij = /1 + a i + f3j + (a[3)ij + lOij
siendo ahora: Yé Valor de la vanable correspondiente a la modalidad i del factor A y a la J del B. /1: Media genera!. a i : Modalidad, del factor A. f3i Modalidad J del factor B. (a[3)ij: Interacción entre los lllveles i,) de los factores A y B, respectIvamente.
Los supuestos de partida (normalidad, homoscedasticidad, llldependencIa) se mantienen también ahora. Las hipótesIs a contrastar se amplían a una por cada factor más la de interacción (para tres factores habría tres lllteracClOnes de pnmer orden, la del factor A con B, A con C y B con C, y una lllteracción de segundo orden, la de A con B y con C, y así suceSIvamente para más factores). -
Respecto a! pnmer factor (A):
Ho' al = ~ =.,. = al =O. H I • No todas las ai son nulas. -
Respecto al segUndo factor (B): H o' f3¡ =/32 =... = f3¡ =O. H¡: No todas las f3i son nulas.
-
Hipótesis sobre mteracción: H o: (a[3)ij = O. H¡: No todas las (a[3)ij son nulas.
2.2.3.
Descomposición de la varianza
Para dos factores, los datos se pueden presentar en una tabla de doble entrada, en la cual las modalidades de un factor son las filas y las del otro las columnas. La descomposIción de la varIanza total da lugar a una parte debida al factor A, otra al factor B y otra a la lllteracción entre ambos y, por últImo, a la residual. Así, SCT = SCFA + SCFB + SCFAX B + SCR
294
© Ediciones Pirámide
Análisis de la varianza Como el desarrollo se hace enreveSado, y puesto que carece de Interés práctico la realización de los cálculos necesarios, dado que eXIsten muchos paquetes InformátIcos que nos facilitan todo el detalle de los resultados, pasamos directamente al cuadro resumen del análisIs, sabIendo que los grados de libertad para la suma de cuadrados totales es Igual a la suma de las diferentes partes en que se descompone la vanación total, esto es: gdl(SC1) = (I - 1) + (J - 1) + (I - I)(J - 1) + (n -lJ)
=n -
I
TABLA 7.5 ANOVA con dos factores 1
J
Suma de cua· drados
.
Factor A (entre grupos) Factor B (entre grupos) Interacción Residual (dentro del grupo) Total
SCFA SCFB SCFAXB SCR SCT
2.2.4.
-
_.
"
.
I
i
(1 - 1) MCFA = SCFi(1 - 1) F=MCFiMCR (1 - 1) MCFB = SCFi(1 - 1) F=MCFiMCR (1-1)(1-1) MCFAxB = SCFA xi(1 - 1)(1 - 1) F=MCFAxiMCR (n -lJ) MCR = SCR/(n - lI)
MCT = SCT/(n - 1)
n-I
Medida de los efectos
También ahora se recurre al estadístico CIales: 2
TJA
=
TJ2
(eta) , pero separando por etas par-
SCFA SCFA + SCR
para el factor A. 2 TJB
SCFB = SCFB + SCR
para el factor B. 2 TJAxB
SCFAXB = SCFAxB + SCR
para el efecto interacción.
2.2.5.
Análisis post hoc
Se realiza de forma SImilar a lo comentado para un factor. Se aplican los mismos tests de comparacIOnes múltIples. © EdiCIOnes Pirámide
295
Técnicas de análisIs de datos en investigación de mercados Dado que en este caso contamos con dos vanabies mdependientes (factores), puede resultar mteresante estudiar la interaccIón entre los mIsmos. En este sentIdo es de gran utilidad hacer uso de los denommados «gráficos de mteraccióu». DecImos que eXIste un efecto mteractIvo entre dos o más factores cuando el efecto de uno de ellos sobre la varIable dependiente depende del valor de otro u otros factores. Las tres figuras sIgUIentes, en las que se analizan los efectos de distmtas medidas de promocIón y precios, muestran algunas situacIOnes típIcas. Efecto interacción. Efecto precIO y efecto promoción. 170
~
,,
160
-- ------ - Q.-...-:..-:.,-- ----
150
--------- -:----- ----
I I
,,
,,
I I
, ,
--------+-------------------- +---------
-__
-
__
-----------?-:.:------------------r---------
,
1
¡
"
"
I
---------¡--- ---- --- ----- --- ----:--- --',--- --- ----- ----:------ ----
140
~ 130
-------- : --------------------+--------~
I
. .~-------+---------
, ~_... J _ ..2 120 ----------¡------,r " ; ..g .,... 110 -------- --~------------ ---- ---:--------- --- --- - -----'9--------~: : 100 ----- --- --¡- ---- --- ---- ---- -----:---- - ------- ---- ----¡--------,, ,, ,, 90 --- -------:---- --------------- ----:------------ ---- ---_:----------o,, ,, ,, 80 ---------r----------------------r----------------------------, , " 70 -'-----+--------+--------1~~---' -o:
I
I
I
"
Media
Fuerte
t
PreclO alto PreCIO baJo
Débil
Promoción
Figura 7.2.
Representación de medias. Two-way interactlOn.
Efecto precIO y efecto promoción, sm interaccIón. 250
,,
,,
,,
---------*-:::..-------------------~--------------------~---------I
200
....
I
,
,''' I ¡ ----------1-------... - -------------1----------------------1 I I
...
I I
...
1 ,
_
I ... I 1 ---------;--------------,."...;;;,-----~---------------------:----------
00
ro
I
~
I
1
I
j i . . . . . . I ,......
I I
---------~---------------------:----------~-~------:---------I
I
I
:
......
I
"'0
----- ---- --- ------------------r-, -------------- ------ -,---------, -
50
...
---------,t.--------------------O:-,--------------------:----------
j¿
~ 100
t
...
1
E 150 ~
, ,, , _________'-__ ,, , --1--
_
,,1-
, ,, _ ,,
---
, ---------r----------------------:---------------,, ,,
, ,, , -----1-----,, , -1,
Media
_
--..1------- ---
O Fuerte
_ PreCIO alto PreCIO -0baJO
-o-
Débil
Promoción
Figura 7.3.
296
Representación de medias. Two-way mteractlOn. ©- Edicil:lnes Pirámide
Análisis de la varianza -
Efecto precIO, no efecto promoción.
El efecto tratamIento bIen tIene una misma dirección (ordinal), cuando no es igual para todos los niveles del otro, pero las diferencIas van en la mIsma dirección, o bIen tIene dirección distInta, lo que Implica que no varía sIempre con el nusmo orden (no ordinal) y, por tanto, es más difícil de explicar.
240 220 200
E 180 ¡:::;
160
'>o 140
~ ..... 120 r¿ ;:> 100
80
'---~,------~, -----~,--__,
,
,
,
I
I
-+--------------------+--------1"'_ ----- ---- -r-- -------~-"::- . . -.:;;-...::::~------------- ----- --i------------ -----~,-:..--- ---- -- ----- -
------
----i---------------------¡~ : : :.: -:.". , -.. .-:..-:..-:.-~- --------
-- ---- ---f- ------------ ---------1---------------- ---- --:--- ---- ---
:
:
:
¡
i
¡
,,
,,
:
I
---- --- ---~------- ------ ---- ----:---- ------------- ---- -:----- -----
---- ------.. . - ---- --- --- ---- ---- --,--------- ---- ------ ---,---------: : : ----- t., __ --- --- ----------- --\------------- ----- --..:-- -------,
--- ---- ---~ --- ------ --- ---------'--- --
60
------ ------ -:--- -------
.-{)-
I
------ --- --- --------:-, --- ---- ------------- -l--, -------
Precio alto
PrecIO , , 40 - ' - - - + - - - - - - 1 - - - - - - - +_ _--.1 -D- baJo Fuerte
Media
Débil
Promoción
Figura 7.4.
2.2.6.
Representación de medias. Two-way znteraction.
Ejemplo
A partIr de los datos del ejemplo de ANAGOGIA, se aplica el análisIs de la vananza cuyos resultado se resumen en la tabla 7.6. No se puede rechazar la hIpótesIs nula de mexlstencia de efecto interacción (p = 0,436). Sin embargo. parece que sí existe un efecto sIgnificatIvo provocado por la vanable ZONA, aunque el efecto antIgüedad de la relación no sea significatIvo. No obstante, antes de extraer conclUSIOnes es convemente repetIr el análisIs para los efectos pnnclpales sin interacción. Por otra parte, el poder de la prueba es demasIado baJo tanto para la mteracción como para la varIable AÑOSDTCA. EfectIvamente, el gráfico de mteracción entre zona y antIgüedad de la relación muestra un cierto paralelismo para los diferentes niveles de antIgüedad según las zonas. con la excepción del pnmer nivel de antIgüedad en las zonas A y B que tIene un comportamiento extraño. También se muestran las figuras correspondientes a los efectos pnnclpales. Obsérvese cómo para el mvel segundo de la variable antigüedad se alcanza la puntuación máXIma, todo lo contrano que para el mvel 2 de la zona. © EdicIOnes Pirámide
-
297
Técnicas de análisis de datos en investigación de mercados TABLA 7.6 Análisis de la varianza Parámetro Potencia de no cen- observada traUdad ModeJo corregido Intercept AÑOSDTCA ZONA AÑOSDTCAx x ZONA Error Total Total corregido
15,807 3,669 8 1 4.091,707 949,730 7,579 2 1,759 43,011 9,983 2
126.454 4.091,707 15,158 86,022 16,372 801,341 5.411,000 927,795
4 186 195 194
4,093 4,308
0,950
0,001 0,000 0,175 0,000
29,351 949,730 3,518 19,967
0,984 1,000 0,365 0,984
0,436
3,800
0,298
Vanable dependiente: PROMOCIO. a: Calculada con alfa = 0,05. b: R cuadrado = 0,136 (R cuadrada corregido = 0,099).
7
"'---~-----~-----~,---.
,, ,
, , , ---------r---------------------r---------------------,----------
6,5
.g.8
6
§
5,5
o:: ..2 ~
_________
¡
,
I
,
:...
_
1:;
I
' ; ' ' '
,,
,,,,,
:--i----------
---------r---------------------~------7"'--------· ..
,,
/
J
/
---- --- --[- ------ - --- --- --- -_-O.... --- -,- ...- ---- ---- - .. ~-- ---
5
3,5
/!?
, /
,
4
/'
~---------------------:---------------;.-L----:
:,
I
_--
i
..
' - --------- -------i-,---~ .. -- --- --- Q----. . . :_---
~ 4,5
- ....- ----- ---I \
, --------- i-----------------~.:_-_::..:_~_:.:=--_._ ..- --"-~ : ~.' -----------------~----------
:, :, -'---+------+-------1-------'
Figura 7.5.
298
!
AÑOSDTCA
i-5 años -0-
-{¡-
AÑOSDTCA
6-10 años AÑOSDTCA más de 10 años
Representación de medias, mteraccÍón (two-way). F(4,186) = 0,95;
p
< 0.4363.
© Ediciones Piramicle
Análisis de la varianza
5,4 5,3
5,2
,5 Ti
5,1
S 5,0
,8 4,9
~
.2 ~
4.8
~
4,7 4,6 4,5
,, ,
,
,
---------.,. . ---------------------r---------------------..,----, ,, ,, , ---------1-----
_
, ,, ,,, ,, , --------- , ---------- - -- --:-----------,, ,, ---- --, -- ------- -f----- --,, --- ---- --- - - ----- -:-,, ---- -- -------------:---,,, , , ------ --- -r------------- -----,-------------- ----,---,, ,, -----,,, , , ----------,...------ -------- ----¡--,, ---- -------- ----- ....---------,, ,,, , , -- -------.,. . --- -- -------- --- ----1----------------_ ,, ,, ,, , _1-
---
-l
-~-----
_
-----~---
_-1
_
---------'- --------------------¡--------------------- --------, ,
, ,
,
1-5 años
6-10 años
Más 10 años
,
----------f----------------------:----------------------:---------, , ,
4,4
ANOSDTCA
Figura 7.6.
Representación de medias. Efecto prinCIpal: AÑOSDTCA. F(2,186) = 1,76; P < 0,1750.
6,0 5,8
5,6
,, , ,, - - - - - ---- - .... - - - - - - - - - - - - ---
,
,
---------,..-------------- --- ---,.., --- ---------------- - ------- --,
,, ....
----- -----____
,
04---
_
'ü
-o 5,4
"
i i i ----------:-----------------.:.---¡-------------------¡----------
j5,2
------ --- -f--, --- ---- ------- ---- -f-, --------- --- ------ -:--, -------
5,0
Ji
-§ 4,8
~
4,6 4,4
4,2
, ,,
,
, ,,
,, ,, ,, ,, ------ ----,..-,, ------------------ -.-,, ---- - - --- ----- ----....,--, - -----,, -- --- --- -,,,... ------ ------- --------,,,... ---- - ---- ------ -----./---------,,
--------- -r----- ------,--, ---- -------------- -r---------, , -------
--------- 1
l
-----------------~- ------------------~---------1
:
---------¡-------------------- --------------------1----------
4,0
Figura 7.7.
© Ediciones Pirámide
--
Representación de medias. Efecto pnncIpal: ZONA. F(2,186) = 9,98; p < 0,0001.
299
Técnicas de análisis de datos en investigación de mercados
8
-,----~,--~,--~,- - - , r--~,--~, --~,-----,
::~~¡~L~~~ ±-, I
I
I
l '' 1 ,
1~5
años
6-10 años
Zona:
" l ' ,I
Más 10 años
1~5
años
6-10 años
Más 10 años
Zona: 2
1
8 ,--~--~-~------,
5,:
~::::~--'----::~:-~:::::
r------2,5
------
t
---------~-----::r::----: : -----1---------1---------
,,
j-S años
,,
6-10 años
,,
I ± DesvIación típIca CJ ± Error estándar O Media
Más 10 años
Zona: 3
AÑOSDTCA
Figura 7.8.
Representación por categorías: PROMOCIÓN.
8-,---~--~---,----,
,; ~• •~.~.§E:.....~~í 2,5,
, I I
~,.
-+-, I I
I I
2
3
' " ' "
2
AÑOSDTCA: ¡-S años
3
AÑOSDTCA: 6-10 años
8-,---~--~---,----,
5,: :::::~:::j::::::~:*-::::: 1 -----
[]
-~-X-----
2,5 -------- -------:
,,
2
-----1--------, ,
I
± Desviación típica
L.J ± Error estándar O
Media
3
AÑOSDTCA: más 10 años Zona
Figura 7.9.
300
Representación por categorías: PROMOCIÓN. © EdiCIones Pirámide
AnálislS de la vananza La representación gráfica de los residuos nos perrmte comprobar que éstos se ajustan bIen a la normal, SI bien los tests (K-S o Shaplro-Wilk) no corroboran la normalidad de la varIable dependiente, aunque, como ya se ha comentado, la no normalidad no es una violación que afecte irremediablemente al test F.
,
3
: ,
~
o
:
~
~
---------------t----------------i---------------~-~----------r----------------
:,
:,
I
,
, I
, ----------------+---------
-1
I
, I
,
.Si ~
o
o
~
~ "
1
1
~
.%j
:
: : : o :, :o ---------------t------------M-Mi----------------:--------------- ---- M ---, , , : : :
"O
";;¡.
I
----------------t----------------1----------------~-----------------~------cfl-------
2
I
, ,
I I
" "
----------------~-----------------~---------------I I
,
I
I I
I I
I I
, ,
I I
I ,
I I
,
,
J
,
I
-2
~----------------~----------------~-----------------~---------------, I 1 I , , I , ,
, , , , ,
, , I I I
I I I I I
-3
,
,
I
I
-4
-2
-6
o
2
4
Valores observados
Figura 7.10.
Probabilidad normal de los residuos: PROMOCIÓN.
Por otro lado, las medias y las desviaciones típIcas no están relacíonadas, por lo que podemos decIr que la distribucíón de las observaClOnes es más bIen aleatoria.
2,8
~
:g."" ~
~
o§ ro .;¡: ~
~
~
..........:
l
:
:
1
I
I
2,6
----------:--~_-l----------------~--------o-------t----------------+---------------
2,4
----------------l--:=:.-:.::~- __ l------_---------l----------------~----.".--:"-:--:-_-:-.
2,2
''''
f--
---- -----0--
2,0 1,8 1,6
O:I
O
:I - - - - - - - - :1 - - - - - - - -
I I
~
I I
~
i,
1..
¡
:
i
,
,
I
-- ----~-- --- --------0-:--------------- -t----------------t---------------
I
I
- - - __
~-------
_Q
I
----
L___________ _L _ , , ~~-~-~-~-~-~-~----~--~~-~_::~-~~~----------~----------------+--------------________________ 1.. I
I
________________ I
1.4
I
I
~
~
, ,
, ,
,
,
4,2
4,8
-_
I
-
....
I :::h....---
I
lI
' ' '. ' . . ,, ,
_
,......' ----------------r----------------t----------------t----------"""'"... -::.-t--------o-----
1,2
I
1.0 3,6
5,4
¡ ......
6,0
6,6
Medias
Figura 7.11. © Ediciones Pirámide
Representación de medias versus desviación típica; vanable: PROMOCIÓN.
3O1
TécnIcas de análisis de datos en Investigación de mercados Para contrastar la igualdad de vananzas (homoscedasticidad) se puede recumr a diversos tests. En este caso, el test de Cochran (0,052) no penrnte rechazar la hIPÓtesis nula de que son Iguales para un nivel del 5%. Lo contrarlO ocurre con el test de Levene (0,00014), que nos lleva a rechazar la existencIa de tal igualdad. En defimtIva, la IneXIstencIa de un efecto Interacción significativo aconseja plantear un nuevo modelo que no la Incluya, es decIr, que contemple solamente los efectos prIncIpales. De esta forma, la suma de cuadrados y los grados de libertad correspondientes aparecerían en el término residual. En este caso nos encontraríamos ante un modelo factonal incompleto
2.2.7.
Modelo factorial incompleto
Hasta ahora hemos considerado un modelo factonal con todas las InteraCCIOnes (aunque por ser de dos factores hay solamente una Interacción); por tanto, un modelo factonal completo. Cuando la mteracción entre dos factores es sIgnificativa la Interpretación de los efectos ha de realizarse cOllJuntamente, para lo cual es de gran ayuda el gráfico de interaccIón. Como hemos VISto, el procedimIento de actuación pasa por, en pnmer lugar, analizar el modelo completo. Si se descubre que algunas de las interaccIOnes entre las distIntas cOmbInaCIOneS de factores no son sIgnificatIvas, procederemos a elimmarlas del modelo factorial, dando lugar a un modelo Incompleto que, de considerar solamente los efectos pnncIpales, se denomInaría modelo de efectos pnncipales. Este modelo, también denominado aditIvo, se expresa:
La descomposIcIón de la varIanza queda: SCT: SCFA + SCFB + SCR
La tabla de la varIanza queda igual que la anterior sm el efecto Interacción, con la particularidad de que los g.d.l. de la suma residual son n - 1 - J + 1. Ejemplo: Puesto que en el ejemplo anterior no había InteraCCIón, repitamos el análisIs solamente con efectos prInCipales. Considerando solamente los efectos pnncIpales se constata la no sIgnificaCIón del efecto de la varIable AÑOSDTCA (0,17) y sí el de la vanable ZONA. El poder es muy débil para la primera variable y bastante robusto para la segunda. De todas formas la capacidad de explicaCIón del modelo deja mucho que desear (R cuadrado = 0,119). Observando los tests para comparaCIOnes múltiples seleccIOnados, comprobamos que para la vanable AÑOSDTCA no existen diferencias sIgnificatIvas para mnguna
302
© EdiCIOneS Pirámide
Análisis de la varianza TABLA 7.7 Análisis de la varianza para efectos principales. Variable dependiente PROMOCIÓN
Modelo corregido Intercept AÑOSDTCA ZONA Error Total Total corregido
110,082 4.180 15 88,678 817,713 5.411 927,794
4
27,521 6,395 1 4.180,192 971,290 2 7,648 1,777 2 44,339 10,302 190 4,304 195 194
0,000 0,00 0.17 0,00
25,578 971,290 3,554 20,605
0,989 1,000 0,369 0,986
Calculado con alfa = 0,05. R cuadrado = 0,119 (R cuadrado corregido = 0,100).
comparación entre sus distmtos valores (valores de sIgnificación superiores al 5% y línntes para cada mtervalo con SIgnos diferentes). Algo distinto es el caso de la variable ZONA, para la que la zona 3 presenta diferencias significativas con el resto. Conclusión que se repIte para los distmtos tests que se han selecclOnado (significación de 0,00, límItes de los intervalos de confianza con Igual SIgno), y entre los que se incluyen algunos que no reqmeren del cumplimIento de la hipóteSIS de Igualdad de vananzas (Tamhane y Dunnett). Ya hemos visto que en este caso no eXIsten evidencIas del cumplimIento de dicha hIpóteSIS, por lo que el resultado de estos últimos tests cobra una Importancia especIal. Aunque el no cumplimIento de todos los supuestos del análiSIS nos debe llevar a tener precaución al extraer cualqmer conclusión, parece que la antigüedad de la relación con la empresa no da lugar a que los distribuidores valoren de forma diferente la necesidad de promoción. nnentras que esta valoración es diferente según la zona terntonal en la que trabajen. Un análisIs más profundo de los datos nos lleva a conclUIr que la zona 3 es la que provoca esa diferenCIa. Recordemos que era la zona en la que la marca tenía una peor Implantación y en la que no ocupaba una poSIción de liderazgo, por lo que los distribuidores de esta zona tienen una perspectiva de lo que debe ser la promoción de la empresa sensiblemente diferente a los de otros terntorios.
© EdiCIOnes Pirámide
303
Técnicas de análisis de datos en investigación de mercados TABLA 7.8 ComparacIOnes múltlples (para variable AÑOSDTCAj .•.•.. •
....
.
..
i¡
.... ••••••
••
DHS de Tukey
..•.
..
1: .
.....
1 2 3
Scheffe
1 2 3
Bouferroui
1 2 3
Tamhaue
1 2 3
T3 de Duuue1
IIE~r.¡;;~l·~ .~· · · ..• · ..\.•••···..· · .• .'-'u~".;~~"~;..
1 2 3
l
. . •.
·1 •confianza . "Jnter~alo"d~ al 95
......
...
%
LÍmite Límite .. iriferiór $uperior
•...
··
2 3 1 3 1 2
-0.825 -0,205 0,825 0,621 0,205 -0,621
0.373 0,348 0,373 0,402 0,348 0,402
0,07 0,83 0,07 0,27 0,83 0,270
-1,700 -í,021 -0,049 -0,321 -0,611 -1,562
0,049 0,611 1,700 1,562 1,021 0,321
2 3 1 3 1 2
-0,825 -0,205 0,825 0,621 0,205 -0,621
0,373 0,348 0,373 0,402 0,348 0,402
0,089 0,842 0,089 0,305 0,842 0,305
-1,746 -1,064 -0,095 -0,370 -0,654 -1,612
0,095 0,654 1,746 1,612 1,064 0,370
2 3 1 3 1 2
-0,825 -0,205 0,825 0,621 0,205 -0,621
0,373 0,348 0,373 0,402 0,348 0,402
0,084 1,000 0,084 0,372 1,000 0,372
-1,726 -1,045 -0,076 -0,350 -0,636 -1,591
0,076 0,636 1,726 1,591 1,045 0,350
2 3 1 3 1 2
-0,825 -0,205 0,825 0,621 0,205 -0,621
0,373 0,348 0,373 0,402 0,348 0,402
0,083 0,928 0,083 0,309 0,928 0,309
-í,727 -1,104 -0,076 -0,330 -0,695 -1,571
0,08 0,70 1,73 1,57 1,10 0,33
2 3 1 3 1 2
-0,825 -0,205 0,825 0,621 0,205 -0,621
0,373 0,348 0,373 0,402 0,348 0,402
0,083 0,927 0,083 0,307 0,927 0,307
-1,727 -1,104 -0,076 -0,329 -0,695 -1,571
0,08 0,69 1,73 1,57
•....
l·
.
UO 0,33
Basado en medias observadas. El térmmo error es Error.
304
© Ediciones Pirámide
Análisis de la vananza TABLA 7.9 Comparaciones múltiples (para variable ZONA) ;
... ..... i. .
........
/ 1 2 3
Scheffe
1 2 3
Bonferrom
1 2 3
Tamhane
1 2 3
T3 de Dunnet
)(~.
~r."tA;
....... 1./'(
DHS de Tukey
.'
1 2 3
....
.
".
1\.
I~D,~tre
1""(1 ·j)i . . 1/. /e· .•
;
.. ;
.;
Intervalo de . confianza al 95 %
p .Límite . Límíte ........
./
lnferi~r
sllperior
2 3 1 3 1 2
0,410 -1.188 -0,410 -1,598 1.188 1,598
0,377 0.362 0.377 0,357 0.362 0.357
0.52 0.00 0,52 0.00 0,00 0,000
-0,474 -2,036 -1,294 -2,435 0,339 0,761
1.294 -0,339 0,474 -0.761 2,036 2,435
2 3 1 3 1 2
0,410 -1.188 -0,410 -1,598 1.188 1,598
0,377 0,362 0,377 0,357 0,362 0,357
0,555 0.005 0,555 0.000 0,005 0,000
-0.521 -2,081 -1,341 -2,479 0.294 0,716
1,341 -0,294 0,521 -0,716 2,081 2,479
2 3 1 3 1 2
0,410 -1,188 -0,410 -1,598 1.188 1,598
0.377 0,362 0,377 0,357 0,362 0,357
0.835 0.004 0.835 0,000 0,004 0,000
-0,501 -2.062 -1,321 -2.460 0,313 0,735
1,321 -0,313 0,501 -0,735 2.062 2,460
2 3 1 3 1 2
0,410 -U88 -0.410 -1,598 1.188 1,598
0,377 0,362 0,377 0,357 0,362 0,357
0,616 0.007 0.616 0.000 0.007 0,000
-0.492 -2.112 -i,313 -2,429 0.263 0.767
1,31 -0,26 0.49 -0.77 2.11 2,43
2 3 1 3 1 2
0.410 -1.188 -0.410 -1,598 1.188 1,598
0,377 0,362 0,377 0,357 0,362 0.357
0,614 0.007 0.614 0.000 0.007 0.000
-0,492 -2.112 -1,312 -2,428 0.263 0,767
1,31 -0,26 0.49 -0.77 2.11 2.43
Basado en medias observadas. El término error es Error. * La diferencia de medias es significatIva al nIvel 0,05.
© EdiCIOnes Pirámide
..
305
Técnicas de análisis de datos en investigación de mercados
2.3.
Diseño por bloques
2.3.1.
Diseño aleatorio por bloques completos
El análisis de la vananza en este diseño se efectúa según el esquema comentado en la mtroduccíón de esta sección. Hay que señalar la variable bloque, cuya aSIgnación se realiza aleatonamente, temendo todos los bloques representación en todos los tratamientos para que sea un diseño completo por bloques. El modelo se representa:
para 1",: Efecto tratamIento. /3¡: Efecto bloque.
Como ya se comentó y se desprende del modelo, se entiende que la vanable bloque y la vanable tratamiento son aditIvas, no eXIste efecto mteracción. El bloque consiste en la determmaclón de grupos homogéneos.
2.3.2.
Ejemplo: diseño aleatorio por bloques completo
Siguiendo con un ejemplo sImilar al antenor, podría ocurrir que el tIpo de distribuidor fuese un elemento que mfluyera en la valoración de los diferentes planes de promoción. Supongamos que, aparte de por su zona de actuacIón, los distribUIdores se clasifican en tres tIpos: -
Tipo 1: ExclUSIVO, solamente distribuye productos de la empresa. Tipo 2: Mixto, Junto a los de la empresa distribuye otros productos no competidores. Tipo 3: Autónomo, distribuye cualqUIer tipo de producto. competidor o no.
Los distribuidores de cada tIpo posiblemente tendrán perspectIvas e. mcluso, mtereses diferentes y esto se trasladará a su evaluación de los planes de promoción. Ahora la situación es la sigUIente: -
Vanable dependiente o a explicar (métnca): Puntuación otorgada a los planes de promoción. Variable explicatIva o tratamiento: Plan de promoCIón (tres categorías). Variable bloque: Tipo de distribuidor (tres niveles).
Se trata de aSIgnar aleatoriamente para cada bloque (tipo de distribuidor) jos diferentes lllveles de tratamIento y recoger las valoraciones. Planteado el estudio así, las cuestIOnes son:
306
© EdiCiones Pirámide
Análisis ele la varianza -
¿Hay diferencIas sIgnificativas entre las puntuacIOnes otorgadas a los distmtos planes de promoción? ¿Son sIgnificativamente diferentes las evaluaciones de los planes según los bloques (típos de distribuidores)?
Las diferencias en el tratanuento llevan a optar por uno de los tres planes. Si además hay diferencIas por bloque, cabría la posibilidad de que un plan promoclOnal fuese el preferido por un tipo de distribuidor de acuerdo con su idiosincrasIa, nuentras que otro prefiere un plan distmto. Sean las puntuaciones de la tabla 7.1O: TABLA 7.10 Puntuación a los planes promocionales (EIBLOQUE*)
,
1 2 3 4 5 6 7 8 9
1 1 1 2 2 2 3 3 3
Plan
puntuaCión
1 2 3 1 2 3 1 2 3
7 6 5 5 4 3 3 2 2
TABLA 7.11 AnálisIs de la varianza
Modelo corregido Intercept BLOQUE PLAN Error Total Total corregido
24,444 152,111 20",222 4,222 0,444 177 24,889
4 1 2 2 4 9 8
6,111 55,000 152,111 1.369,000 10,111 91.000 2,111 19,000 0,111
0,001 0,000 0,000 0,009
220,000 1.369,000 182,000 38,000
1.000 1,000 1.000 0,950
Calculado con alfa = 0,05. = 0.982 (R cuadrado corregido = 0,964).
R cuadrado
* Véase fichero en la dirección www.ugr.es/-tluque. © Ediciones Pirámide
-
307
Técnicas de análisis de datos en Investigación de mercados Ante estos resultados habrá que rechazar la hipótesis nula de que los planes de promoción son valorados de forma similar. En este caso son los planes 3 y el I los causantes de la diferencia.
2.3.3.
Diseño de medidas repetidas
En muchas ocasIOnes un mismo mdividuo tiene que probar vanos productos para emitir una opmlón o valorar diversos mensajes publicitarIOs o evaluar diversos diseños. Éstas son situacIOnes muy frecuentes en tests de producto o de mercado. Como el orden de prueba o el orden de los ítems puede distorsIOnar los resultados, se debe establecer algún procedimiento aleatono que determme la secuenCia de prueba. De esta manera se garantiza un reparto de las diferentes opcIOnes. Por lo demás sigue un esquema de aplicación Igual al antenor diseño.
2.3.4.
Diseño en cuadrado latino
Ejemplo: Además del tipo de distribuidor. otro factor extraño, que puede mcidir en la puntuación de los planes de promoción, es la antigüedad de la relación entre distribuidor y empresa, distingUiendo también tres mveles: larga, media o corta duración de esa relación. Ahora son tres los factores o vanables mdependientes: dos de ellas actúan como bloques (upo de distribuidor y duración de la relación) y uno como tratamiento (plan de promoción). Mientras que en el ejemplo antenor había una combmación de 3 x 3 (es deCir. nueve muestras), ahora, si optamos por un diseño por bloques completo. precisaríamos de 3 x 3 x 3 (veintiSiete muestras). Por tanto, a medida que contemplamos más factores, el número de muestras crece llegando a ser demaSiado elevado tanto desde un punto de vista económiCO, porque encarezca excesivamente la mvestigación, como desde el punto de vista de la operatividad, de forma que dificulte su manejo o, más aún. lo haga desaconseJable estratégicamente. Una forma de remediar esta dificultad consiste en recurnr a un diseño incompleto como el cuadrado latino. Este diseño reqUiere que el número de categorías de las variables a controlar sea el mismo y que cada tratamiento se aplique una vez con cada categoría de cada vanable. Un aspecto Importante es que se supone que no hay posibilidad de mteracclón entre los factores. El diseño quedaría como se recoge en la tabla 7.12. de manera que, por eJemplo, el plan I se sometería a prueba para distribuidores con una larga relación con la empresa y del tlpo 1; para los de una relación media y tlpo 3 y para los de una corta duración en la relación y tlpo 2. El análiSIS de este diseño nos permitirá contrastar la eXistencia de:
-
308
Diferencias slgnificatlvas en la evaluación de los planes de promoción. Diferencias Significativas Imputables al tlpo de distribuidor. © EdiclOnes Pirámide
AnáliSis de la varianza TABLA 7.12
Diseño en cuadrado latino
1 2 3
-
Plan 1 Plan 2 Plan 3
Plan 2 Plan 3 Plan I
Plan 3 Plan 1 Plan 2
Diferencias significativas imputables a la antigüedad de la relación empresa/distribuidor.
Este diseño reqUIere: - Una muestra aleatona de tamaño uno para cada r poblaciones (r = c = número de filas y de colullUlas). - Que la variable dependiente se distribuya nonnalmente en cada una de las r poblaCIOnes. - Que la vananza de la vanable dependiente sea igual para las r poblaciones. - Que los efectos de fila, colullUla y tratamiento sean aditivos, es declf, que lo sean los efectos de las variables de bloque y del tratamiento.
TABLA 7.13
Análisis de la varzanza para cuadrado latino
Filas (bloque) Columnas (bloque) TratamIento Error Total
SCFF SCFc SCFr SCR
(1 - 1) (1 -1) (1 - 1) (1- 1)(1 - 2)
MCF F =SCFF /(1-I) MCFc = SCFc /(1 - 1) MCFr =SCFr /(1-I) MCR = SCR/(1 -1)(1 - 2)
SCT
(12 _ 1)9
MCT= SCT/(12_1)
F=MCF/MCR F=MCFc/MCR F=MCFr/MCR
El modelo se expresa:
9 [2 _
© Ediciones Pirámide
»
l =[_
I
+[ _ I +[ -
I
+ [2 - 2[ - [ + 2.
309
Técnicas de análisis de datos en Investigación de mercados donde
p: Media general. i; para i = l. 2..... r. /3¡: Efecto del bloque J; para J = 1. 2, ...• r. Tk: Efecto del tratamlento k; para k = 1. 2, oo., r. Eijk: Error asociado a la observación i. J, k. Las hlpótesls son: e(: Efecto del bloque
H o: T k =O
H¡: No todas las
Tk
son nulas.
Para nuestro ejemplo se han obtenido los sigUlentes datos: TABLA 7.14
Ejemplo de cuadrado latino (EJLATINO*)
1 2 3
Plan 1: 7 Plan 2: 5 Plan 3: 4
Plan 2: 4 Plan 3: 6 Plan 3: 3 Plan 1: 5 Plan 1: 2 Plan 2: 4
TABLA 7.15
Medias para los bloques y el tratamiento "'Filas (tillÓ) .•. . • >
\
1
YA =
2
YB =
3
Yc =
,2.
c"
Larga
YL =
Media
YM =
Corta
*
310
.l'.
Véase fichero en la dirección
7+4+6 3 5+3+5 3 4+2+4 3
5,667 4,333 3,333
I
7 +5 +4 3 4+3+2
3 6+3+3 Yea = 3
5,333 3 4,333
www.ugr.es/~Uuque.
© Ediclones Pirámide
AnálisIs de la vananza TABLA 7.15 (contmuación) Tratamiento (plan) 1
5\ =
3
SCT
7+5+2
4,667
3 4+5+4 y, = 3 6+3+4 3
2
Y-
Medias
4,333 4,333
= 35 = 4444 9
'
=I I ,
(Y¡jk - y)2
= (7 -
4,444)2 + (5 - 4,444)2 + ... + (4 - 4,444?
=
J
= 18,222
SCFp
= rI (Yi - Y? = 3[(5,667 -
4,444)2 + (4,333 - 4,444)2 + (3,333 - 4,444)2]
=
= 8,227
= rI (Yi - y)2 = 3[(5,333 - 4,444)2 + (3 - 4,444)2 + (5 - 4,444?] = = 9,5538 SCFT = rI eh - Y? = 3[(4,667 - 4,444)2 + (4,333 - 4,444)2 + (4,333 - 4,444)2] = = 0,2231 SCR = SCT - SCFp - SCFc - SCFT = 18,222 - 9,5538 - 8,222 - 0,2231 = = 0,2231
SCFc
TABLA 7.16 AnálisIs de la vananza para cuadrado latino ••••
~neme
! Snma:d~
Icuadrados tipóIII
Modelo corregido Intercept TIPO ANTIGUED PLAN Error Total Total corregido
18,000 177,778 8,222 9,556 0,222 0,222 196 18,222
'i\feil¡,¡
'S 6 1 2 2 2 2 9 8
<.j;iea •..
"L. ••
e
./'
i)c ••••
3,000 27,000 0,036 177,778 1.600,000 0,001 4,111 37,000 0,026 4,778 43,000 0,023 0,111 1.000 0,500 0,111
Parámetro .Poteíicia de tl0c~n .., observada ·i.i tralidad .' 162,000 1.600,000 74,000 86,000 2,000
0,759 1.000 0,851 0,889 0,096
Calculado con alfa = 0,05. R cuadrado = 0.982 (R cuadrado corregido = 0.964). © EdicIOnes Pirámide
bL_
311
Técnicas de análisis de datos en investigación de mercados El efecto tratamIento (planes de promoción) no es sIgnificativo, no se puede rechazar la hIpótesIs nula y el poder es muy baja. Sin embargo, las otras variables sí presentan cIerta sIgnificación (tipo y antigüedad de la relación hacen que se valoren de forma diferente los planes de promocIón), aunque en este análisis esto resulta un tanto secundarlO, puesto que el diseño no está planteado para medir tales efectos.
3.
MANOVA El análisIs multlvanante de la varianza (MANOVA) ha de consIderarse una generalizaCIón del análiSIS de la vananza al caso en que se consIdera más de una variable dependiente. Este análiSIS se efectúa con dos o más vanables dependientes simultánemente, que han de presentar alguna relación justificable desde el punto de vista teónco, pues de lo contrano no es procedente un análiSIS multlvarlante, sino que lo correcto sería aplicar un análiSIS de la varianza específico para cada una. MANOVA pennite un análiSIS desde una perspectIva de conjunto (combmación de variables dependientes) que no se alcanza con pruebas por separado. Por otro lado, requiere muestras mayores que ANOVA. Esa necesaria relación de las varIables dependientes hace de esta técnica una herramienta mteresante para trabajar con vanables que presenten multlcolinealidad, bIen entendido que una excesiva multicolinealidad conduce a redundancia. Las variables independientes han de estar medidas en escalas no métricas, mIentras que las dependientes deben ser métncas y, como en cualquier análiSIS, las vanables seleCCIOnadas lo son porque los fundamentos teóncos así lo aconsejan. En definitiva, la realización de este tipo análiSIS pennltlrá comprobar SI, conSIderadas de forma conjunta, una o vanas variables mdependientes detenninan SImultáneamente el valor de varias variables dependientes y, SI es así, identificar para qué mveles. Como sucede con ANOVA, según las variables mdependientes que se mcIuyan tendremos distintos análisis. Así, podemos distmgUlr los sIgUIentes casos: -
MANOVA con un factor, para una vanable mdependiente. MANOVA con k factores, para más de una vanable mdependiente pudiéndose utilizar alguna como factor de bloque. Es decir, para separar los bloques a causa de una fuente de vanaclón extraña que influencia la vanable dependiente y que no es el tratamiento que mteresa probar. Un caso partIcular y especIal se produce cuando se utilizan medidas repetidas, SItuación que se presenta con frecuencia en los estudios de pretest y postest, en los que, por ejemplo, se prueba una campaña de comumcación. MANOVA también representa una ayuda inestimable para el análiSIS de estas SItuaciones.
312
© EdiclOoes Pirámide
AnálisIs de la vartanza
3.1.
MANOVA
con un factor
Ejemplo: La empresa LEDA*, en una mvestIgación realizada sobre sus mmonstas, pidió que se valorara en una escala de 1 a 7 la importancia que estos concedían a la relación de confianza con el sumllllstrador y a la regularidad en el serviCIO (variables CONFIANZ y REGULAR! en el fichero LEDA_MANOVA). Se parte de la hipóteSIs de que la regularidad en el servicIO genera una relación de confianza que a su vez garantIza un serVICIO regular. La empresa desea saber SI la valoración otorgada a estas variables viene condicionada por la duración de las relaciones comerciales entre los llllnoristas y la empresa (ANTIGUED). En suma, se trata de conocer la mfluencia de una variable mdependiente sobre otras dos dependientes.
3.1.1.
Modelo
Como ahora se cuenta con más de una vanable dependiente tendremos que operar mediante vectores, de forma que la expresión del modelo para un factor es: YIk
clk
/llk
Y2k
=
YOk
f12k
+
/lOk
Czk Cok
para Grupos. p: Vanables. k:
El vector de las vanables dependientes para un grupo k (Yk) es la media correspondiente (/lk) más un error (ck)' La hipóteSIs a probar en MANOVA se fonnula de la sigUiente fonna: /lll 1111
/l12
=
1112
/lIk
=
/lll
o.'
=
111k
/lIk
H,: No todas las medidas son Iguales.
l10 k es la media de la variable p y del grupo k. Los supuestos en los que se sustenta el modelo tIenen un gran paralelismo con lo comentado en ANOVA y son:
* © EdiCIOnes Pirámide
Véase fichero en la dirección
www.ugr.es/~t1uque.
313
Técnicas de análisis de datos en investigación de mercados -
-
Normalidad multlvariante. Las variables presentan una distribucíón normal multlvarlante. Para probar esto, un procedirmento consIste en comprobar que las diferentes variables por separado presentan una distribucíón normal. Otra alternatIva la constituye el test de Mardia 10 Homoscedasticldad. Las matrices de vafÍanzas/covarlanzas de las varIables dependientes de cada grupo son Iguales o aproxImadamente Iguales. También en este caso la igualdad de los grupos palia el efecto de la heteroscedastIcidad. Para probar esta hipótesIs se utiliza el test M de Box, que es sensible a la normalidad. Algunos programas proporcIOnan dos aproxImacIOnes de este tests (una a la F y otra a la X2 ). Recuérdese que también se emplean los test de Cochran y Bartlett-Box para varIables mdivlduales. En caso de no cumplirse esta condicIón, se recomIenda realizar alguna transformacíón. Si aún así persIste la desIgualdad, otra alternatIva consIste en determmar qué grupo tiene la vananza mayor a partIr del examen de la matriz de varlanzas/covarianzas o de su determmante, que es proporcIOnado por los programas. Si las varIanzas mayores están en los grupos de mayor tamaño, entonces el Ot está sobrevalorado, pudiendo utilizarse un nIvel de sIgnificación menor. Por el contrario, si la varianza menor es la de los grupos más pequeños, el poder de la prueba ha sido reducido y debe aumentarse el nivel de sIgnificación (Hair et al., 1993, 276). Selección aleatoria, de forma que las poblacIOnes sean independientes. No hay un test específico para comprobar el cumplimiento de este supuesto. Las formas más habItuales de remediar un problema de dependencIa son analizar las puntuacIOnes medias de los grupos en lugar de las puntuacIOnes por separado de los entrevIstados o recurnr a covarlables. Las vanables dependientes han de presentar un cIerto grado de relación para que el análisIs tenga sentido, lo que se comprueba con el test de esferIcidad de Bartlett l l Cuando las variables no están correlacIOnadas en absoluto, la matrIZ de correlacIOnes está formada por I en su diagonal y O en el resto de sus elementos, es decIr es una matriz identidad. En caso contrario se alejará más de la matrIz de identIdad cuanto mayor sea la correlacíón entre las variables (y a su vez el valor de su determmante se alejará de la unidad).
3.1.2.
Descomposición de la varianza
Al contrarIO que en ANOVA, ahora en lugar de operar con escalares tendremos que hacer uso del álgebra matrIcIal. La matrIZ a descomponer es la de sumas de cuadrados y de productos cruzados en desviacIOnes con respecto a la media general 12 (SCPCT o T). Al Igual que en ANOVA, como consecuencia de esta descom10
Véase capítulo de ecuaCIOnes estructurales.
11 Véase capítulo de análisis faetonal. 12 En SPSS versión inglesa Adjusted Hypothesls Sum of Squares and Cross-?roducts.
314
© Ediciones Pirámide
AnálisIs de la varianza posición obtendremos dos componentes: una correspondiente a la varIabilidad debIda al factor (SCPCF o F), representada por las sumas al cuadrado de las diferencIas entre los grupos, y otra debida a la varIabilidad mtragrupos (matnz W, del mglés within). Esto se resume en: T=F+W Para comprobar la significación de las diferencIas mulbvarlantes hay VarIOS cntenos cuyo empleo se ha generalizado gracIas a los programas mformábcos. Ordenados de mayor a menor potencIa. de mayor a menor sensibilidad a las VIOlaciones de las hIpótesIs de partIda (presencIa de heteroscedasbcidad, muestras pequeñas o celdas desIguales), son los sIgUIentes: -
Traza de Pilla¡:
1 V=L. I+A¡ -
Lambda de Wilks:
1 A=IT,=,1+ A; TaIllbién
A=IWI ¡TI
Este estadístico tiene una distribución exacta para determmados casos como demostró Rao y su utilización es recomendable dado su sólido fundamento estadístico13 -
Traza de Hotelling:
T = LA; -
Raíz característica mayor de Roy (Roy'grc, greatest characteristlc rool): R=_-=I_ 1 + Amax
Es el más adecuado cuando las variables dependientes están muy correlacIOnadas en una dimensión. 13
© EdiCIOnes Pirámide
Véase Uriel (1995, 232-233).
315
Técnlcas de análisis de datos en investigación de mercados
Para
A¡. Valor propio de t. Amax . Valor propio mayor. Cuando se analiza una sola vanable dependiente, estos critenos equivalen al estadístIco F de ANOVA. Cuando se trata una úmca muestra o dos vanables mdependientes con vanas vanables dependientes son equivalentes a la T 2 de Hotelling. En ambas situaCIOnes los estadístIcos transformados se distribuyen como una F (NoruSIS, 1986).
3.1.3.
MANOVA con dos grupos
Este caso partIcular del MANOVA puede analizarse mediante el test T 2 de Hotelling, que constituye una extensIón del test t umvanable. capaz de solucionar el problema del aumento del error de tipo I denvado de la necesidad de realizar vanos tests t para comparar las medias de las distmtas vanables dependientes para cada grupo. La hIpótesis nula a contrastar es la ausencIa de efecto tratamIento. el estadístico se distribuye como una F con p;(n , + n2 - P - 1) grados de libertad, siendo su expresión 14 • T 2 --
n ,n 2 (- )'S-i(-) Y, - Y2 Y, - Y2 n, + n2
para ji,: Vector de medias para el pnmer grupo. ji2: Vector de medias para el segundo grupo. S-I;
Inversa de la matriz de covarianzas.
En realidad, MANOVA cabe entenderlo como un problema de encontrar la combmaclón lineal de vanables dependientes que recogen la diferenCIa entre grupos, y de ahí que pueda calcularse la funGÍón discnmmante o combmaGÍón lineal de variables dependientes que proporcIOnan la mayor diferencIa entre grupos.
3.1.4.
Medida de bondad del ajuste
Una medida de bondad se obtiene mediante la A de Wilks, que es el cociente entre la suma de cuadrados residuales y la suma de cuadrados totales, o la parte de la suma de cuadrados no explicada del factor con respecto al total. luego la proporGÍón de la vanabilidad total explicada por el factor será 1 - A. Esto es: 14
316
Véase Urie! (1995. 234). © Ediciones Pirámide
AnálisIs de La varianza
r¡2
= 1-
A
= 1 JWI [TI
La Interpretación de esta medida de bondad del ajuste es muy sImilar a la que tIene en ANüVA, es deCIr, SI toma un valor cercano a la unidad sIgnifica que gran parte de la variabilidad total es debida al efecto del factor, mIentras que SI toma un valor cercano a cero podremos deCIr que el factor no explica la varIabilidad contenida en los datos.
3.1.5.
Análisis post hoc
En muchos casos resulta muy Interesante realizar un análiSIS más profundo de los datos que nos permIta descubrir las causas que provocan la aceptación o el rechazo de las hIpótesis en los tests preVIamente comentados. Esto se consigue mediante los llamados análiSIS post hoc. En MANüVA, los intervalos a constrUIr para realizar este tipo de análisis pueden ser de cuatro tipos, según SI se combIna una o múltiples vanables y SI ello se hace de forma Individual o conjunta. Así, SPSS proporCIOna: -
Intervalos univanantes para cada variable dependiente. Intervalos multivanantes para cada factor teniendo en cuenta todas las vanabIes dependientes Intervalos umvanantes para cada vanable dependiente y conjuntamente para todos los factores. Intervalos multIvarIantes cOllJuntos, para todos los factores y vanab1es dependientes.
Por otro lado, SPSS permIte la opción de realizar un análisis stepdown, que proporciona un valor del estadístico F para cada varIable dependiente, Indicando SI contribuye a Incrementar las diferenCIas existentes entre los grupos. Los resultados de este tipo de análiSIS dependerán del orden en que las vanables hayan sido Introducidas en el modelo, por lo que éste deberá tener una Justificación teónca. También ofrece la posibilidad de realizar distIntos contrastes para comparaCIOnes múltIples. Entre ellos están las pruebas DMS, Bonferrom, Sidak, Scheffé, R-E-G-W-F, R-E-G-W-Q, S-N-K, Tukey, Tukey-b, Duncan, GT2 de Hochberg, Gabnel. Waller-Duncan y Dinnett, aplicables en aquellos casos en que se pueda asurmr la igualdad de vananzas, o los tests T2 de Tarnhane, T3 de Dunnett, GamesHowell y e de Dunnett, espeCIalmente diseñados para aquellos otros casos en que no se pueda garantizar el cumplimIento del supuesto de homoscedastIcidad. En nuestro ejemplo de la empresa LEDA, nos encontramos con la contrastación de la sigUIente hIpótesis nula: © EdiCIOnes Pirámide
..
317
Técnicas de análisis de datos en investigación de mercados -
-
H o: La importancia concedida a la regularidad en el servIcio y a la confian-
za por parte de los minoristas no difiere según la antigüedad de la relación entre smllinIstrador y mmonsta. H,. Sí hay diferencias en la opmión; no todas las valoraCIOnes son Iguales. Es deCIr, la antigüedad de la relación entre el summlstrador y los rmnonstas provoca que éstos concedan una ImportancIa desIgual a la regularidad del serVICIO y a la confianza.
En el efecto principal, antigüedad de la relación, se distmguen tres categorías: 1.
2. 3.
La relacIón entre empresa sumInIstradora y mmonsta es supenor a 10 años. Esta relaCIón es supenor a 2 años e mfenor a 10. La relación es mfenor a 2 años.
Veamos los resultados de nuestro ejemplo. En pnmer lugar debemos comprobar el cumplimiento de los supuestos del MANOVA. Concretamente, observamos que los resultados de la prueba de Kolmogorov-Srmrnov nos permIten afirmar que las vanables REGULARI y CONFIANZ se distribuyen aproXImadamente como una normal, aunque para la segunda a un nIvel de significación del 0,025. Por otra parte, no se puede rechazar la hIpóteSIS nula de que las matrIces de covarIanza observadas de las vanables dependientes son Iguales en todos los grupos, puesto que la prueba M de Box sobre Igualdad de las matrices de covarianzas tiene una significación de 0,663. También se ha realizado el test de Levene, que contrasta la hIpóteSIS nula de homogeneidad de las varIanzas, que no puede ser rechazada en este caso para nmguna de las vanables (REGULARI a = 0,586; CONFIANZA a = 0,707). Por otro lado, se contrastó la eXIstencia de relacIón entre las vanables dependientes. Para ello se utilizó el test de esfericidad de Bartlett, cuyos resultados indicaron que hay que rechazar la hIpóteSIS nula de que la matrIZ de covarlanzas es una matrIZ identIdad, es deCIr, de que las varIables no están correlaCIOnadas. En suma, hay un cumplimIento aceptable de las hipóteSIS de partida. La figura 7.12 muestra la representación de las medias de las vanables dependientes para los distmtos grupos. Los cuatro contrastes multivanantes realizados son SIgnificativos, por lo que debe rechazarse la hipóteSIS nula de Igualdad entre los vectores de medias de las vanables dependientes (valoración de la regularidad y de la confianza de los mmoristas) para los tres grupos definidos por la antIgüedad de la relación empresa/minonsta. En todos los casos el poder de la prueba es muy alto. Toda esta mformación se detalla en la tabla de contrastes multlVariados que muestra los valores de las pruebas (PillaI, Wilks, Hotelling y Roy), el valor del estadístIco F correspondiente, los grados de libertad, el nivel de significacIón, el estadístico eta cuadrado y la potenCIa observada, todo ello tanto para el térmmo mdependiente del modelo (íntercept) como para la varIable objeto de análiSIS (antigüedad de la relación).
318
© EdiCIOnes Pirámide
Análisis de la varianza
6,0 .-----':------~-----~--~
i
5,5
6. , :, :, ----------"""<;;-------------------,----------------------.----------
5,0
---------:------ --...-.;:;---------¡----------------------¡----------
, '. . .. .. ..
00
I
;¡;
I I
g 4,5 ¡¡.
"" ~
~
I,
I
' . . . . . '
....
I
I .... ....
,
I I
, I
I
¡
---- --- --¡-------- ------ ---'0----------- ----- -----:---- -----: .... : I
....
I
,
....
I
- --- --- --f--- ------- --- ---------l--- ~-.,;--- ------------:---------I 1.... I ,I ,J . . . . ,I
4,0
, , ,,
,
,,,
i
i
,
~ 3,5
, , ----- --- -r------------ --------,-------------------.-, ------ --'<::
3,0
--- --- ---:----- ------ --- - -------:------- ---- - --- - ----- ,--- -------
I
,,
I
I
-o- REGULARl
i
2,5 - ' - - - - f - - - - - - - - + - - - - - - - - j - - - - - - '
Figura 7.12.
- D -
CONFIANZ
Representación de medias. Efecto principal: ANTIGUED. Rao R(4,172) = 19,23; IJ < 0,0000.
TABLA 7.17 Análisis multivariante de la vananza, contrastes multivanados
;~il;;2 ,i
,
<, .i .•...
)
gl de)ll hipótesís
..
,/ ' .'., gldel '/' error JSig,! ....... )! . .•. !..•
, !Mllo'!·
i'"".''''''U''U
Potencia observlidll
Intercept Traza de Pillai Lambda de Wilks Traza de Hotelling Raíz mayor de Roy
0,954 0,046 20,666 20,666
888,656 888,656 888,656 888,656
2 2 2 2
86 86 86 86
4 4 4 2
174 172 170 87
O
°° O
0,954 0,954 0,954 0,954
1.777,312 1.777,312 1.777,312 1.777,312
1 1 1 1
°° °O
0,264 0,309 0.351 0,517
62,557 76,936 91,926 93,016
1 1 1 1
ANTIGUED Traza de Pillal Lllffibda de Wilks Traza de Hotelling Raíz mayor de Roy
0,529 0,477 1.081 1,069
15,639 19,234" 22,982 46,508
Calcullldo con alfa = 0,05. Estadístico exacto. El estadístico es un límite superior para la F, el cual ofrece un límite mfenor para el nIvel de significación. Intercept + ANTIGUED. 15
© Ediciones Pirámide
--
Valor de la R de Rao, una transformación de la lllmbda de Wilks qne sigue nna F
319
Técnzcas de análisis de datos en investigación de mercados TABLA 7.18
Pruebas de los efectos znter-sujetos (efecto de ANTIGÜEDAD sobre cada una de las variables dependientes por separado) !
Variable
I >Media
depelldiiiut~
¡Sumade , "tladrados
ModelO corregido
REGULARI CONFIANZ
73,156 93,8
2 2
Intercept
REGULARI CONFIANZ
1.646,944 1.716,1
1 1
ANTIGUED
REGULARI CONFIANZ
73,156 93,8
2 2
36,578 46,9
Error
REGULARI CONFIANZ
87 87
1,321 1,047
Total
REGULARI CONFIANZ
Total corregido
REGULARI CONFIANZ
·.J!u~ute
114,9 91,1 1.835 1.901
Ic~~dr~ti~á 36,578 46,9
... •..
..
....
Parámetro de RO cen";
Sjg,
traUdad
27,696 44,789
O O
0,389 0,507
55,392 89,578
1.646,944 1.247,034 1.716,1 1.638,866
O O
0,935 0,95
1.247,034 1.638,866
O O
0,389 0,507
55,392 89,578
27,696 44,789
Poteucia observada 0,99 1 1 1 0,99 1
90 90
188,056 184,9
89 89
Calculada con alfa ~ 0,05. R cuadrado ~ 0,389 (R cuadrado corregido ~ 0,375). R cuadrado ~ 0,507 (R cuadrado corregido ~ 0,496).
TABLA 7.19
Matriz SCPC zntersuJetos ....
<
HipótesIs
1<
RE;GlJLARI
CONFIANZ
1.646,9 1.681,1
1.681,1 1.716,1
Intercept
REGULARI CONFIANZ
ANTIGUED
REGULARI CONFIANZ
73,1 * 82,3*
82,3* 93.8*
REGULARI CONFIANZ
114,9** 64,5**
64,5** 91,1 **
Error
* Matriz F ** Matriz W.
320
© Ediclones Pirámide
AnálislS de la uananza TABLA 7.20 MatriZ SCPC residual
.....
.
•••
REGULARI
CONFIANZ
Suma de cuadrados y productos cruzados
REGULARI CONFIANZ
114,9 64,5
64,5 91,1
Covarianza
REGULARI CONF1ANZ
1,321 0,741
0,741 1.047
Correlación
REGULARI CONFIANZ
1,000 0.630
0.630 1,000
La lambda de Wilks se obtiene como SIgue: F+W=T
esto es:
73,1 82,3) + (114,9 64,5) ( 82,3 93,8 64,5 9l,l
= (.188,0
146,8) 146,8 184,9
Entonces
114,9 64,5 64,5 91,1 AJWI= ITI 188,0 146,8 146,8 184,9
6.307,14 = 0.477 13.210,96
Por tanto, la parte de la vanación de las variables dependientes que es explicada por la varIable mdependiente es: (l - A)
=1 -
0,477 =0,523
Al realizar un ANÜVA, considerando por separado a las dos vanables dependientes (tabla de los efectos inter-suJetos) se comprueba que las difcrencias entre los tres grupos son significativas, SIendo mayor el efecto de la antigüedad sobre la importancIa de la confianza (eta cuadrado = 0,507) que sobre la importancIa de la regularidad (eta cuadrado = 0,389). En la tabla de comparaciones múltIples se muestran los resultados de los tests elegidos (DHS de Tukey y Scheffé) para cada una de las posibles comparacIOnes entre © Ediciones Pirámide
>
321
Técnicas de análisIs de datos en investigación de mercados dos nIveles distmtos de la vanable mdependiente, y tanto para la vanable confianza como para la vanable regularidad. A partir de los resultados de estos tests podemos conclUir que eXisten diferenCIas slgnificatívas respecto a ambas v9bles dependientes entre cualesqUiera dos grupos deternunados por la antígüedad de su relación con la empresa. Esta conclusión se denva de la significación de los tests realizados, así como del hecho de que los mtervalos de confianza construidos (al 95% de nivel de confianza) para el estadístico «diferencia de medias» no contienen al valor cero. TABLA 7.21 ComparaClOnes múltiples e •••••
'/
.....
<,.) •••
"
I
• .) e
}m~
~(i}
J·«'U~.
<
REGULARI
DHS de Tukey
1 2 3
Scheffe
1 2 3
CONFIANZ
DHS de Tukey
1 2 3
Scheffe
1 2 3
.
IApr;;'g~u",u
Diferencíá demedias*
.
(l-Ji
e
<
,.
"
..........
Error típico
. Intervalo de confianza al 95 % Sigo
Límite ¡'inferior
.)
Limite superior
2 3 1 3 1 2
1,27 2.20 -i,27 0,93 -2.20 -0,93
0,30 0.30 0,30 0,30 0,30 0,30
0.00 0,00 0,00 0.01 0,00 0,01
0,56 1,49 -i,97 0.23 -2,91 -1,64
1.97 2,91 -0,56 1,64 -1,49 -0.23
2 3 1 3 1 2
1.27 2.20 -1,27 0,93 -2,20 -0.93
0,30 0,30 0,30 0,30 0,30 0.30
0,00 0,00 0,00 0,01 0.00 0,01
0.53 1,46 -2.01 0,19 -2,94 -1,67
2,01 2.94 -0,53 1.67 -1,46 -0,19
2 3 1 3 1 2
1,20 2,50 -1,20 1,30 -2,50 -1,30
0.26 0,26 0.26 0.26 0,26 0,26
0.00 0,00 0.00 0,00 0,00 0.00
0,57 1,87 -1.83 0.67 -3,13 -1,93
1.83 3,13 -0,57 1.93 -1.87 -0.67
2 3 1 3 1 2
1,20 2,50 -1,20 1,30 -2,50 -1,30
0.26 0,26 0,26 0.26 0,26 0,26
0.00 0,00 0,00 0,00 0,00 0,00
0.54 1,84 -1,86 0,64 -3,16 -1,96
1,86 3,16 -0.54 1,96 -1,84 -0.64
Basado en medias observadas. El término error es Error. * La diferencia de medias es sIgnificativa al nivel 0,05.
322
© Ediciones Pirámide
AnálisIs de la varianza En resumen, una vez comprobado el cumplillllento de las hIpótesIs básicas del MANOVA, se ha de conclUIr que la antIgüedad de la relación entre la empresa y sus mmonstas provoca diferencIas sIgnificatIvas en la importancIa que estos últimos otorgan a la regularidad del servICIO y a la confianza en su relación con el proveedor, consideradas éstas tanto de forma conjunta como por separado, SI bien parece que su efecto sobre la importancIa de la confianza es mayor que sobre la importancia de la regularidad. Concretamente en el gráfico que muestra las medias de cada vanable para los tres grupos podemos observar que la confianza y la regularidad son dos varIables que tIenen mayor valoración a medida que la relación entre la empresa y el minonsta se extIende en el tIempo. TABLA 7.22 Medias y desvíacíones típicas (entre paréntesIs) por grupos ....
Antigüedad
••
3.2.
•
'f!ltal ....
Regularidad
5,43 (1,22)
4,17 (1,09)
3,23 (1,14)
4,28 (1,45)
Confianza
5,60 (1,04)
4,40 (0,89)
3,10 (1,12)
4.37 (1,44)
MANOVA con varios factores
Cuando se considera más de un factor, el planteamíento del modelo es similar, con la particularIdad de que en este caso debemos inclUIr un térllllno que recoja la mteracción entre los distintos factores. En su formulación más simple, la de dos factores, la expresión del modelo es:
hij Ypij
a li
/ll
Ylij
=
112 /lp
+
~i
apj
(a(3)lij
f3l j
+
f32j f3pj
+
(alJh . IJ
clij
+
(af3)pij
E,,¡¡
epi}
Cada valor de una variable dependiente (ypij) vIene dado por la media general de esa vanable (/lp), más el efecto del lllvel i del factor A (ap), más el efecto del nivel J de B (f3p), más la mteracción de ambos factores (af3)pij y más un error (Ep;/6 (ypij) = (/lp) + (ap) + (f3p) + (af3)pij + (epij ) 16 A diferencia del modelo de un factor, en este caso hay más de un factor y eXIste la posibilidad de interacción, por 10 que en la formulación del modelo se precisa el detalle para cada factor y para las mteraCCiOnes posibles. © Ediciones Pirámide
-
323
Técnicas de análisis de datos en investigación de mercados Ahora se fonnula la hIpótesis nula y alternativa (no diferencia y diferencia) sobre los efectos de los tratamIentos por separado y también de la mteraccIón (o mteraCCIOnes que se presenten) de la fonna sIgUiente: 1.
Con respecto al factor A:
Ha: a;=O H¡: No todas a; son O. 2.
Con respecto al factor B:
Ha· {3j=O H,. No todas
3.
Pj son O.
Con respecto a la mteracción:
Ha: (a/J)ij = O H¡: No todas (a/J)(i son O. La vanabilidad total se desglosa en una parte debida a cada factor por separado, otra a la mteraccIón. En el caso de dos factores es:
Ejemplo: Supongamos que en el caso antenor de la empresa LEDA añadimos una vanable mdependiente más como el número de trabajadoreS que tiene la empresa (NTRABAJA), distmgUIendo también tres categorías de mayor a menor número de trabajadores. Ahora se plantean hipótesIs para cada efecto mdividual y para el efecto mteracción: Estas hIpótesIs son: -
Efecto pnncIpal: ANTIGÜEDAD:
• Ha: No eXIsten diferencias en la importancIa otorgada a la confianza y la regulandad entre los tres grupos determmados por la antigüedad de la relación con la empresa. • H¡. Sí eXIsten tales diferencIas. -
Efecto princIpal: NTRABAJA:
• Ha: No eXIsten diferencias en la importancIa otorgada a la confianza y la regulandad entre los tres grupos determmados por el número de trabajadores.
• H,: Sí existen tales diferencias. -
Efecto pnncIpal: Interacción ANTIGÜEDAD x NTRABAJA:
• Ha: No eXIste efecto mteracción de la antigüedad de la relación y el número de trabajadoreS al valorar la Importancia de la regularidad y la confianza. • H,. Sí eXIste tal efecto mteracción.
324
© EdiCIones Pirámide
Análisis de la varzanza A continuación se detalla la información pnnclpal para llevar a cabo el análiSIS. El programa (SPSS 7.5) proporcIOna los estadísticos descriptivos de las variables dependientes para cada combmación de los distmtos mveles de las vanables independientes (tabla de estadísticos descnptivos). La simple observación de estos estadísticos ya nos pennite comprobar que se valora más la regularidad por parte de los mmonstas que tienen una relación más larga con la empresa y también por los que tienen mayor número de trabajadores. Igual sucede con la variable confianza (véase tabla 7.23). La prueba de Levene mdica la eXIstencia de homoscedasticidad para ambas vanables dependientes (significación de 0,27 y 0,28, respectivamente), es decIr, no se rechaza la hIpótesIs nula de igualdad de las vananzas de los tres grupos. La prueba M de Box nos permite comprobar esta hipótesIs considerando conjuntamente ambas vanables dependientes. Concretamente este estadístico alcanza una sIgnificación de 0,69, por lo que no podemos rechazar la hIpótesIs nula de que las matrices de vananzas/covananzas de todos los grupos (3 x 3) son Iguales. Los resultados del test de esfericidad de Bartlett nos llevan a rechazar la hIpótesis nula de mexlstencla de correlación entre las vanables dependientes. Por tanto, conclUImos que éstas están correlacionadas (véanse tablas 7.24 a 7.26). Tal y como se muestra en la tabla de contrastes multivanados, los cuatro contrastes realizados para la vanable ANTIGÜEDAD comciden en el rechazo de la hIpótesis nula de inexistencIa de diferenCias, con un poder de la prueba alto. Así pues, la valoración de la Importancia de la confianza y la regularidad en el servIcio difieren para las distintas categorías de antigüedafi de la relación empresa/mmarista. Por el contrano, para la vanable NúMERO DE TRABAJADORES no es posible rechazar la hipótesIs nula de mexlstencla de diferenCias (sIgnificación de 0,36); el mayor o menor número de trabajadores, en suma, el tamaño de la empresa mmonsta no provoca diferenCIas en la valoración de la regularidad y de la confianza en la empresa proveedora. Por último, el efecto mteracción tampoco resulta ser sIgnificativo (0,97) y no se rechaza la hipóteSIs nula de mexlstencia de efecto mteracción. La mteracción entre antigüedad y número de trabajadores no genera diferencias en las valoraCIOnes de las variables dependientes. El análisis por separado de los efectos de las vanables independientes (prueba de los efectos intersujetos) pone de relieve que la antigüedad por sí sola generaba las diferenCIas significativas en las dos variables dependientes aunque explicando algo más la vanabilidad de CONFIANZA (eta cuadrado = 0,51) que la de REGULARI (eta cuadrado = 0,40)17 Tanto para la varIable NÚMERO DE TRABAJADORES (sIgnificación 0,37 y 0,81, respectivamente) como para la interacción de ésta con la antigüedad de la relación (significación 0,96 y 0,84, respectivamente) no se rechaza la hIpótesIs nula de ausencia de diferenCIas para regularidad y confianza, respectivamente. Por otro lado, el poder de la prueba es muy débil con un valor de 0,22 a 0,08. 17
©
>-----
Ediciones Pirámide
Estos valores se obtIenen: 0,40 = 73,16/(73,16 + 111.3); 0,51 = 93.8/(93,8 + 89,1).
325
Técnicas de análisis de datos en investigación de mercados TABLA 7.23
Estadísticos descriptivos , ))iY' " )
REGULARI
CONFIANZ
326
I
"
Desviación .) . . típIca I
NTRA6AJA
Media
1
1,00 2,00 3,00 Total
5,50 5,70 5,10 5,43
1,43 1,06 1,20 1,22
10 10 10 30
2
1,00 2,00 3,00 Total
4,40 4,20 3,90 4,17
1,51 0,79 0,88 1,09
10 10 10 30
3
1,00 2,00 3,00 Total
3,20 3,40 3,10 3,23
0,92 1,26 1,29 1,14
10 10 10 30
Total
1,00 2,00 3,00 Total
4,37 4,43 4,03 4,28
1,59 1,41 1,38 1,45
30 30 30 90
1
i,OO 2,00 3,00 Total
5,40 5,70 5,70 5,60
1,26 0,95 0,95 1,04
10 10 10 30
2
1,00 2,00 3,00 Total
4,50 4,50 4,20 4,40
1,08 1,08 0,42 0,89
10 10 10 30
3
1,00 2,00 3,00 Total
2,90 3,10 3,30 3,10
1,10 1,10 1,25 1,12
10 10 10 30
Total
1,00 2,00 3,00 Total
4,27 4,43 4,40 4,37
1,53 1,48 1,35 1,44
30 30 30 90
~,N',;
7i7 i"i",
''''
N
© Ediciones Pirámide
Análisis de la varianza TABLA 7.24
TABLA 7.25
Prueba Box sobre la Igualdad de las matrices de covarianza
Prueba de esfericidad de Barlett
M de Box
Razón de verosimilitud
0,00
Chi-cuadrado aprox.
43,79 2.00 0,00
22,18
Gl Sigo
0,84 24,00 20.054,38 0,69
F gil gl2 Sigo
Contrasta la hipótesIs nuJa de que la matriz de covarianza residual es proporcional a una matnz identidad.
a: Diseño: Intercept + ANTIGUED + NTRABAJA + ANTIGUED x NTRABAJA.
Contrasta Ja hipótesIs nula de que las matnces de covarianza observadas de las vanables dependientes son iguales en todos los grupos. a: Diseño: Intercept + ANTI-
GUED + NTRABAJA + ANTIGUED x NTRABAJA.
TABLA 7.26 Contraste de Levene sobre la Igualdad de las varianzas error >
". •••.
REGULAR! CONFIANZ
.' 1,28 1,26
iigll . , ,
gl2
Sigo
8,00 8.00
81,00 81,00
0.27 0.28
Contrasta la hipótesis nula de que la vananza error de la variable dependiente es Igual a lo largo de todos los grupos.
a: Diseño: Intercept + ANTIGUED + NTRABAJA + ANTIGUED x NTRABAJA.
Las matnces SCPC intersuJetos y residual sirven para obtener el valor de los estadístIcos antenores, También se muestran los resultados de las comparacIOnes múltIples, comprobándose que, para los tests seleccIOnados (DHS de Tukey y Scheffé), eXIsten diferenCIas significatIvas entre las medias de ambas vanables dependientes para cualesqUIera dos llIveles de la vanable ANTIGÜEDAD. Lo contrario sucede con la variable NÚMERO DE TRABAJADORES, ya que no existen diferencias SIgnificatIvas entre los tres llIveles (los límItes de los mtervalos son de signo distmto y contIenen el cero). Finalmente, se adjuntan representacIOnes gráficas de los efectos principales y de la mteracción. así como de las medias respecto a las desviaCIOnes típicas, © EdicIOnes Piramide
b
327
TécnIcas de análisis de datos en investigación de mercados TABLA 7.27 Contrastes rnultivariados
....
I · i . r(li.li~e'" 1>·.r:Mel··
;
./
i
....
.•.....
)(
<
...
/
.>ii)
1''',', i<
....•
.ii .;
~de ,!p~
Potencía observada
Intercept Traza de Pilla! Lambda de Wi1ks Traza de Hotelling Raíz mayor de Roy
0,95 0,05 21,04 21,04
841,73 841,73 841,73 841,73
2 2 2 2
80 80 80 80
0,00 0,00 0,00 0,00
0,95 0,95 0,95 0,95
1.683,45 1.683,45 1.683,45 1.683,45
1.00 1,00 1,00 1,00
0,53 0,47 1,10 1,09
14.77 18,20 21.77 44,12
4 4 4 2
162 160 158 81
0,00 0,00 0,00 0.00
0.27 0.31 0.36 0,52
59,06 72,79 87,09 88,23
1,00 1.00 1,00 1.00
0,05 0,95 0,06 0,05
1.10 1,10 1,10 2,08
4 4 4 2
162 160 158 81
0,36 0,36 0,36 0,13
0,03 0,03 0,03 0,05
4,42 4,41 4,39 4,17
0.34 0,34 0,34 0,42
0,03 0,97 0,03 0,02
0,29 0,29 0,29 0,44
8 8 8 4
162 160 158 81
0,97 0,97 0,97 0.78
0.01 0.01 0,01 0,02
2,35 2,32 2,30 1,75
0,14 0,14 0,14 0,15
ANTIGUED Traza de Pilla! Lambda de Wilks Traza de Hotelling Raíz mayor de Roy
NTRABAJA Traza de Pilla¡ Lambda de Wilks Traza de Hotelling Raíz mayor de Roy
ANTIGUEDx xNTRABAJA Traza de Pilla¡ Lambda de Wilks Traza de Hotelling Raíz mayor de Roy
Calculado con alfa ~ 0,05. EstadístICO exacto. El estadístico es un límIte superior para la F, el cual ofrece un límIte mferior para el nivel de significación. Diseño: ¡ntercept + ANTlGUED + NTRABAJA + ANTIGUED x NTRABAJA.
328
© EdiclOnes Pirámide
Análisis de la varianza TABLA 7.28
I;W;;j~i;<,Y;/ "1'f~~SI~
.'.~
....
'c
..
,
Pruebas de los efectos interSLlJetos ;
,
"c,'
;' /
f>Í\1,e~i~ ,#./ )tiP;; ui;" • ... ~~r#a4~
.....• .••.. ....
(
'
..
....
§i~.I(
i{
.{.
.
..••••
••
garál1Jetr? ·Potericlá de. no~en- observada tralidlld
Modelo corregido
REGULARI CONFIANZ
76,76 95.80
8 8
9,59 11,98
6,98 10.89
0,00 0.00
0,41 0,52
55.86 87,09
1 1
Intercept
REGULARI CONFIANZ
1.646,94 1.716,10
1 1
1.646,94 1.716,10
1.198,58 1.560,09
0,00 0,00
0.94 0,95
1.198,58 1.560,09
1 1
ANTIGUED
REGULARI CONFIANZ
73,16 93,80
2 2
36.58 46,90
26.62 42,64
0,00 0,00
0,40 0.51
53.24 85,27
1 1
NTRABAJA REGULARI CONFIANZ
2,76 0,47
2 2
1,38 0,23
1,00 0,21
0.37 0,81
0,02 0,01
2,01 0,42
0,22 0,08
ANTIGUED REGULARI x TRABAJA CONFIANZ
0,84 1.53
4 4
0,21 0,38
0,15 0,35
0,96 0.84
0,01 0,02
0,61 1,39
0,08 0,13
Error
REGULARI CONFIANZ
111 ,30 89,10
81 81
1,37 1,10
Total
REGULARI CONFIANZ
1.835,00 1.901,00
90 90
Total corregido
REGULARI CONFIANZ
188.06 184,90
89 89
Calculada con alfa = 0,05. R cuadrado = 0,408 (R cuadrado corregido = 0,350). R cuadrado = 0,518 (R cuadrado corregido = 0,471).
© Ediciones Piramide
b ..
329
Técnicas de análisis de datos en investigación de mercados TABLA 7.29
Matriz SCPC mtersuJetos
,
e,'
>
,
HipóteSIS
» ,
REGULARI ',1 COl'lF'IANZ
Intercept
REGULARI CONFIANZ
1.646,94 1.681,17
1.681,17 1.716,10
ANTIGUED
REGULARI CONFIANZ
73,16 82,33
82,33 93,80
NTRABAJA
REGULARI CONFIANZ
2,76 -0,20
-0,20 0,47
ANTIGUED x NTRABAJA
REGULARI CONFIANZ
0,84 0,60
0,60 1,53
REGULARI CONFIANZ
111,30 64,10
64,10 89,10
Error
Basado en la suma de cuadrados tIpo lII.
TABLA 7.30
Matriz SCPC residual REGULARI
CONFlANZ
Suma de cuadrados y productos cruzados
REGULARI CONFIANZ
111,30 64,10
64,10 89,10
Covanauza
REGULARI CONFIANZ
1,37 0,79
0,79 1,10
Correlación
REGULARI CONFIANZ
1,00 0,64
0,64 1,00
Basado en ia suma de cuadrados tipo lII.
330
© EdicIOnes Pirámide
AnálisIs de la varianza TABLA 7.31 Medias
1. Grand Mean
Media 1
tí~¡co ...··•
... y
...
Varzable dependiente REGULARI CONFIANZ
0,12 0,11
4.28 4.37
2. ANTlGUED
'
..
•
••••
Media
Errortípi~o
Variable dependiente REGULARI
1 2 3
5,43 4,17 3,23
0,21 0,21 0.21
CONFIANZ
1 2 3
5,60 4,40 3,10
0,19 0,19 0,19
3. NTRABAJA
.
Media
'1
Error típico
••
Varzable dependiente
© EdicIOnes Piramide
..
REGULARI
1 2 3
4,37 4,43 4,03
0,21 0.21 0,21
CONFIANZ
1 2 3
4,27 4,43 4,40
0.19 0,19 0,19
331
Técnicas de análisis de datos en investigación de mercados TABLA 7.32
Comparaciones múltiples )"< y:
,•.
"'
"
Al")
••
\
REGULARI
....
......
'8<
.. '
"
•••••••
DHS de TUkey
Scheffé
1
1 2 3
DHS de Tukey
1 2 3
Scheffé
......
..
3
1 2 3
332
IA.N
••
2
CONFIANZ
'(
3>
,
••
(
:'" (r-)) " TT
••
Int~rv~l() dé confianza al 95 %
Límite' Lhnite ,lnferi6r superIor
....
2 3 1 3 1 2
1,27 2,20 -1,27 0,93 -2,20 -0,93
0,30 0,30 0,30 0,30 0,30 0,30
0,00 0,00 0,00 0,01 0,00 0,01
0,54 1,48 -1,99 0,21 -2,92 -1,66
1,99 2,92 -0,54 1,66 -1,48 -0,21
2 3 1 3 1 2
1,27 2,20 -1,27 0,93 -2,20 -0,93
0,30 0,30 0,30 0,30 0,30 0,30
0,00 0,00 0,00 0,01 0,00 0,01
0,51 1,45 -2,02 0,18 -2,95 -1,69
2,02 2,95 -0,51 1,69 -1,45 -0,18
2 3 1 3 1 2
1,20 2,50 -1,20 1,30 -2,50 -1,30
0,27 0,27 0,27 0,27 0,27 0,27
0,00 0,00 0,00 0,00 0,00 0,00
0,55 1,85 -1,85 0,65 -3,15 -1,95
1,85 3,15 -0,55 1,95 -1,85 -0,65
2 3 1 3 1 2
1,20 2,50 -1,20 1,30 -2,50 -1,30
0,27 0,27 0,27 0,27 0,27 0,27
0,00 0,00 0,00 0,00 0,00 0,00
0,52 1,82 -1,88 0,62 -3,18 -1,98
1,88 3,18 -0,52 1,98 -1,82 -0,62
© EdicIOnes 1?irámide
AnálisIS de la varianza TABLA 7.33 (contznuación) i'
;;'!>
TI
« REGULARI
T
I
(1 ~1)
DHS de Tukey
1
3
Scheffé
1 2 3
DHS de Tukey
1 2 3
Scheffé
1 2 3
© EdicIOnes Pirámide
--
Error típiCO
I
2
CONFIANZ
J)ifereh~ía
NTRABAJA NTRABA.JA I (1) L de medias (1)
I
I I I
Sigo
Intet'Val() de confianzaill 95% LÍpliteJFmite
< inferior,
s~perior
2 3 1 3 1 2
-0.07 0,33 0,07 0.40 -0.33 -0.40
0,30 0,30 0,30 0,30 0.30 0.30
0,97 0,52 0,97 0,39 0,52 0,39
-0,39 -0,66 -0.32 -1,06 -1,12
0,66 1.06 0.79 1,12 0,39 0.32
2 3 1 3 1 2
-0,07 0,33 0,07 0,40 -0.33 -0.40
0,30 0.30 0.30 0,30 0,30 0,30
0,98 0.55 0.98 0.42 0,55 0.42
-0,82 -0.42 -0,69 -0.35 -1.09 -1,15
0,69 1,09 0.82 1,15 0.42 0.35
2 3 1 3 1 2
-0,17 -0,13 0,17 0,03 0,13 -0.03
0,27 0,27 0,27 0,27 0,27 0,27
0,81 0,88 0,81 0,99 0,88 0,99
-0,81 -0,78 -0.48 -0,61 -0,51 -0,68
0,48 0.51 0.81 0,68 0.78 0,61
2 3 1 3 1 2
-0,17 -0,13 0,17 0,03 0,13 -0.03
0,27 0,27 0.27 0,27 0,27 0,27
0,83 0,89 0,83 0,99 0,89 0,99
-0,84 -0,81 -0,51 -0,64 -0,54 -0,71
0,51 0,54 0,84 0,71 0,81 0,64
~0,79
333
Técnicas de análisis de datos en Investigación de mercados
!
4,50 4,45 4,40
00
1S
,,
,,
---------t---------- --;.-.. ~-+ :::-_::-:.:::::-..::-- ~_ . . .~--------, ~,
4,35
4,30 :: 4,25 00 4,20 " =§ 4,15 ~
4,10 4,0~
4,00 3,95
Figura 7.13.
---- ------r---- --- ---.,..!':---- -----{- --- ---- --- ------ ----f- ----------
__________ ~ I
""
~~~--------------J-------
I
&... : --------- ,.-- --- --------------- - ..,------ --,, ,
~
,, ,, , , .J____ _ ,, ,, ,,, , , -- --- -----,.---------- ------- ---.,-------- ---- ----- ---r---------,, ,, ,,1.. _________ } _ ,, ,, -o- REGULARl , ---------- .., --------------------- ...,----------------------,...---------, ,, ,, ,, - o - CONFIANZA G 1:1 G 3:3 _________ -lo
1-
Representación de medias. Efecto pnnc1pal: NTRABAJA. Rao R(4,160) = uO; p < 0,3577.
,,
1,
-------- --------1------
: -------------l---------,
, , 1--- ------ -~-----------------~------------- ------- ,-- ---- ---, , ,, ,, ,
~ S
5,0
"gj
4,5 I---------~-=--=--:.-~-:-~-~-------¡----------------------i----------
~
4,0
~
3.0 2,5
Figura 7.14.
_
~--------------
5,5 1---------
3,5
_
: --------- --r---- --- ----
--- ---- -- t, --- ------- --- --- ----- ~---------- - - -------f', --- ---- --,
6,0
334
,,
---------t---------------------.J----------------------~----------
,
,
,
:
---r;J---_
:
,,
,,
,,
I----------;---------------------¡--------':"-'='----""'-..::;-.:$---------
::::::::::~:~:~::::~::::~:~~~::~~:~:::::::~:~::~::~;~::::::::: , , , ¡
¡
i
ANTIGUED -o- G_J:1 -0-
ANTlGUED G_2:2 ANTIGUED G_3:3
Representación de medias. Two-way lllteractlOn. Rao R(8,160) = 0.29; p < 0.9684.
© Ediciones Pirámide
AnálisIs de la varianza
6
5.5 N
3
5
~
4,5
~
4
u
~
3,5 3
, , -----------,----------------------,---------, ,
, , ,, ,, ,, ---------~---------------------:----------------------:---------,, ,,, ,,, , ---------O-----------6.-<:..-=-----------------~---------:,, :,, -----r1l, ---------,---------------------,----------------------,---------,, ,, ,,, , ,, ,, 1
,
o
~
ro
.'l
É ~
"
~
·8 .~
1,4
"
,
ANTIOUED 0_1:1
-D-
,
1:1
ANTIOUED 0_2:2 ANTIOUED
0_3:3
t •
, I
I
I
I
I
,
I
I
,....'
....... ,
...=---------~----------~---------~---------4--------~------;;;.---t-":'-~------¡---------_-_: ~ : : J..........: o: -------::.~-'::"..---.:..-.:.~.:-.:-.:----~----.:-::..-:..-~...-~:::-~----------t---------+---------· I I
1 ¡
I
¡
--,-
I
,
I
,
I
,
I
I
,
I
I
I
I
------0-:-----6----1---------:----------t---------1----------t----------)--------------'"1--- ------12 ---------~------- ---1-- -------~- --------- t------ ---~---- --
1.3
I
I
1
I
1,1
- - - - - - - - _J_
I
-- ,------
I
,
---
I
1
---i- ------- --t------ ---i----------t--------- -:--- ------I
I
I
,
:
:
:
:
¡ O
:
:
,
I
1
I
1
I
I
I
,
I
,
I
,
i
i
:
I
i
i
4.8
4.8
4,8 Medias
4,8
6,0
---------~----------~---------~----------t---------~----------t---------~----------
~
el
I
.,.
Representación de medias. Two-way mteractlOn. Rao R(8,160) = 0,29; p < 0.9684.
1,6 J,5
-__
:::::::::t;~~:::~~:~::~~:~~:~~~:~;;~:~::::~::::~::~::::::::: v , ,
2.5
Figura 7.15.
I
_________ Q l -l_="_=:.:-_:"_i:.:-_:::-_:::::::-_::.:="<.~ __....J _ 0,9 : J_--O l : : : ---L.. --------:..i;.-.>-""".::---i---------i----u----t---------i----------t----------i------"=--.. 0.8 I
........ i
0,7 3,6
4,2
_
5,4
-_
6,6
Regresión 95% confi.
Figura 7.16.
© Ediciones Pirámide
Medias versus deSVlaClOues típicas (REGULAR). Correlación: r = 0,21215.
335
Técnicas de análisIs de datos en investigación de mercados
1,5 1,3
,
----~ I
, I
~
"s. 1,1
'".~
.~_
I
I
1
I
, I
¡ I
I ,
, I
,
,
1
,
\
:
-------------..
0,9 0,7
-_
_-
-----.r'\---O-~-------------~-------------tL,_----------~-------------~------------\
i=1
----
: : : \ l- --- ---- ---- -~------- ---t- ----------- -~-: o -":'-'"='----4-.::-..:-: ----..¡. ¡ - -.:-.:; =-O:=f==----- --- ---
:
, I :
o
-------------~-------------+-------------,.-------------,.-------------
I
,
I
I
I
,
I
,
I
,
~:;~----::"-:--~-~-:--~-~-~-~-r-~-~-~-~-~-~-r-~-~-~-~-~-~-t-~-:--~----..:J~----------1I
0,5
I,
II
1,
'"
'-
.l.
:
l.
:
:
I ,
I I
1 1
, I
I I
:
_ _ _ _ _ '->
I,
:
:
:
3,2
3,8
I
I
O: :
'-
:
:
5
5,6
'
.... .... _
-.... _
I
0,3 2,6
4,4
6,2
Medias
..............
Regresión
~ 95% confid.
Figura 7.17.
4.
Medias versus deSViaCIOnes típicas (CONFIANZ). Correlación: r; -0,1316.
ANÁLISIS DE LA COVARIANZA Cuando además de variables independientes con escala no métrica mterviene otra vanable mdependiente con escala métnca estamos ante un análisis de covananza (o ANCOVA) para una varlable dependiente o ante un análisls mulhvanante de la covarlanza (o MANCOVA) para más de una varlable dependiente. Por tanto, en este caso nos enfrentamos a un modelo basado en la hlpótesis de que el valor de una o vanas vanables dependientes métricas está detenrunado por el de un conjunto de vanables explicativas, entre las que al menos una está medida en una escala métrica. Estas vanables explicahvas métricas son denommadas covariables. En la realidad, se trata de una sltuación que se presenta con cierta frecuencla. Es nonnal que una actuación respecto a cualqUlera de las vanables del marketmg mix, medidas en una escala no métnca (por ejemplo, illvel alto, medio y baja), tenga un efecto sobre una sene de variables medibles a través de escalas métrlcas (por ejemplo, volumen de ventas, mtención de compra o recuerdo de un mensaje) y que, al mismo tiempo, dicho efecto se vea condiclOnado por el valor de algunas otras vanabIes métncas (por ejemplo, achtud, notonedad de la marca, illvel económlco de la zona, lmplantación de la marca, tamaño del distribuidor, momento de la acción, etc.). En este análisis se distmguen dos partes: El examen de la relación entre vanables explicahvas métncas y las vanables dependientes, mediante un análisls de regresión.
336
© Ediciones Pirámide
AnálisIs de la varlanza Una vez que se ha elimmado la posible mfluencla de la covanable sobre la varIable explicatIva mediante el análisIs de los residuos, se procede a examInar la relación entre vanables explicatIvas no métncas y las vanables dependientes, mediante el análisis de la vananza. Este análisIs es especIalmente útil para reducIr las consecuencias derivadas de cIerta característIca o cIrcunstancia especIal relacIOnada con los entrevIstados y que provoque diferencIas en sus respuestas y, en general, para reducIr cualqUIer error sIstemátIco que escape al control del mvestIgador y pueda afectar a los resultados. El modelo se expresa de la sIgUIente forma:
Donde el valor de la variable dependiente para la modalidad 1 del tratamIento y el valor] de la covariable (Yij) es igual a la media general (f.l), más el efecto del nivel 1 del tratamiento (r;), más el efecto de la covariable (x) por un coeficIente de regresión con y a través de los diferentes grupos (/3), más un error (E;). El efecto provocado por la covanable sobre las vanables dependientes es elimInado mediante un ajuste del valor medio de las vanables dependientes para cada lllvel de tratamIento. La prueba se realiza mediante el estadístIco F La mclusión de covanables en un modelo mejora su capacidad explicatIva al elimmar la parte de la vananza mtragrupos ocasionada por éstas. No obstante, su ut!lización y elección debe estar presidida por dos reqUIsitos básicos: 1.
2.
EXIstencIa de cIerta correlación entre la covanable y la(s) vanable(s) dependiente(s). De lo contrario, la inclusión de la covanable no explicaría parte de la vananza intragrupos y la capacidad explicatIva del modelo no se vería mejorada. InexistencIa de correlación entre la covariable y el tratamiento. De lo contrarIO, al elimmar la parte de vananza ocasIOnada por la covanable se estaría elimmando también parte del efecto provocado por el tratamiento.
En cuanto al número de covanables a inclUIr en el modelo hay una regla onentatIva 18 según la cual éste no debe exceder el valor resultante de la sigUIente expresión: (0,10 x Tamaño muestra!) - (Número de grupos - 1) Por tanto, para una muestra de 80 mdividuos y 5 grupos, el número de covanabies del modelo no debe ser mayor que (0,10 x 80) - (5 - 1) = 4. 18
© Ediciones Pirámide
b
Véase HaIr el al. (1993, 274).
337
Técnzcas de análisis de datos en Investigación de mercados De todas formas, para asegurarnos del mterés de mtroducír covaríables, convíene realizar el análisís con y sm ellas y, a continuacíón, examínar el Impacto que su mclusíón tIene sobre los tratamIentos. Cabe esperar que su inclusíón reduzca la vananza entre grupos, puesto que comge partIcularidades que afectau más a unos grupos que a otros. Si no es así, su inclusión es cuestionable. En un caso extremo de importancIa de la covanable, su exclusíón evItaría que se recogIera el efecto tratamiento.
Ejemplo: Opiníón de los establecImIentos de hostelería sobre el sector La empresa EOS* ha realizado un estudio entre los mmonstas del sector de hostelería con los que trabaH. Entre otras cuestiones se ha preguntado sobre cómo ven los propioS empresanos el futuro del sector y de su propio negocio, para lo que se pidió que puntuaran entre 1 (muy pesImIsta) y 7 (muy optImIsta). Una cuestión a plantear sería: ¿hay diferenCIas sIgnificatIvas según las zonas al valorar el futuro del negocio propIo? Detengámonos en lo que es más peculiar de este análiSIS. Pnmero, realizamos un ANOVA sIendo la varíable dependiente FUTURNEG. Como se observa en la tabla de pruebas de los efectos mtersujetos, el nivel de slgnificacíón de la vanable ZONA es de 0,00289, por lo que se rechaza la hIpótesis nula de ausencIa de diferencías entre los mmoristas de las tres zonas respecto a la opmión que éstos tIenen sobre el futuro del propío negocio. Concretamente, las zonas 3 (media = 5,19) Y 2 (media = 4,37) son, respectIvamente, la más y la menos optimista, dentro de una tómca de optImIsmo moderado. TABLA 7.34
Estadísticos descriptivos Zona
FUTURNEG
1
2 3
Total
I
Media
Desviación típica
N
4,423 4,370 5,194 4,694
1,631 1,506 1,507 1,586
59 62 72 193
Contraste de Levene sobre la Igualdact de las varianzas::::; 0,608.
Pero, ¿qué ocurre SI tenemos en cuenta la oplmón de los encuestados sobre el futuro del sector? PartImos de la hIpóteSIs de que dicha opmión puede condiCionar la relativa al futuro del propio negocio. La varIable FUTURNEG (opinión sobre el futuro del negocio propio) y FUTURHOS (opmlón sobre el futuro del sector de la hostelería) están correlaciondas (0,62). En definitIva, se trata de mtroduclr la varíable FUTURHOS como covanable.
*
338
Véase fichero en la dirección www.ugr.es/-tluque. © Ediciones Pirámide
Análisis de la vananza TABLA 7.35
ANOVA. Pruebas de los efectos mtersuJetos. Varzable dependiente: FUTURNEG
Modelo corregido Intercept ZONA
Error Total Total corregido
28,811 4.166,665 28,811 454,152 4.736 482,963
14,405 2 6,026 1 4.166,665 1.743,173 2 14,4057 6,026 190 2,39027 193 192
0,0028 O
0,0028
0,059 0,901 0,059
12,053 1.743,173 12,053
0,879 1
0,879
Calculado con alfa = 0.05. cuadrado = 0.6 (R cuadrado corregido = 0,50).
R
5,3
,
"
5,2 5)
~
5,0 4.9 ::; 4,8
¡§ 1.1.;
~ ~
4.7 4,6 4,5 4,4
4,3 4,2
Figura 7.18.
" , --------- ---t----------- --¡- -------- ----- - ------ ---- --~-------------- ---- --- ---' " 1 1 " I ----- -------..--------------<--------- --- -- ------- ---- ---;--------- ---1------- -----_ "I ' 1I 1 I ------------ {--- ---- -------\------------ -- ------- ------4------- --- ---'r--- ---- --- ---
____________-' I
"
-l______________ _ I
I -1__ _ I
" "
I I
I _
IL.
_
I I
I ------ ---- --- .." ----- ---- --- --,- ------------- ----------- -- I ----- --------,..--------- --" , I I " - ----- ---- ---1 ---- ---- ------:- -------- ----- -- ----- --- -~-- ----- -------1'---------- --____________ .." I
.... I
I
I
__
"
_
-lI " I
t , l ' - - - - - - - - - - - --"T- - - - - - - - - - - - - - , - - - - - - - - - - - - - -
---
---+:
I I --------,--
I ..
_
I
I I
------------r--- ---- --- ---
I
I
-------------'¡'-"'--~--=--=--=--=-""--C::--:::-':.:-:if- ------------1--------------~-------------------------t--------------<----,. --1----,. _ ,
I
I
I
I
,
I
I
I
I
I
:
'
:
I
Representación de medias. Efecto pnnCIpal: ZONA. F(2,190) = 6,03; p < 0,0029.
El resultado de la contrastación de este nuevo modelo pone de relieve la no significación del efecto provocado por la variable ZONA (IX= 0,053) Y su baJO poder de prueba (0,573), mientras que muestra la sIgnificación de la variable FUTURHOS. Por tanto, no rechazamos la hipótesis nula relativa a la variable ZONA y conclUimos que no eXIsten diferenCIas entre las valoraclOnes del futuro del negocio proplO realizadas por los mmonstas de las tres zonas consideradas. En camblO, es la valoración que se tiene sobre el sector la variable verdaderamente relevante y la que condiclOna la perspectiva del futuro del proplO negocio. Descontado el efecto de © EdicIOnes Pirámide
-
339
Técnicas de análisis de datos en Investigación de mercados FUTURHOS, la valoración del propIO negocIO no presenta diferencias significativas por zonas. Como se comprueba, al introducir la covanable la suma de cuadrados decrece casi hasta la mitad, las sumas de cuadrados entregrupos e intragrupos también decrecen y se pierde un grado de libertad en los tratanuentos (de 193 a 192). El resultado de la mtroducción de la covanable hace que el experimento sea mucho más sensible, si bien en este ejemplo su mclusión nos permite concluir que el tratamiento no produce diferencias slgnificalivas en las respuestas. En MANCOVA la forma de proceder es Similar pero con dos o más vanab1es dependientes.
TABLA 7.36 EstadístIcos descrIptivos Zona
Media
Desviación,típh::a
1 2 3
4,414 4,371 5,194 4,693
1,644 1,507 1,507 1,590
N
••••
FUTURNEG
Total
58 62 72
192
Contraste de Levene sobre la igualdad de las varianzas = 0,054.
TABLA 7.37 Pruebas de los efectos intersuJetos. Varzable dependiente FUTURNEG , Media .. I Sumad. Parámetro I cU:adrá~ I cuadrados gl F Sigo Fuente r¡2 de no cen· tipo III Modelo corregido Intercept ZONA FUTURHOS Error Total Total corregido
194,392 67,915 9,148 165,336 288,478 4.711,000 482,870
I
tica
64,797 67,914 4,574 165,336 t,534
3 1 2 1 188 192 191
42,228 44,259 2,980 107,749
0,000 0,000 0,053 0,000
0,402 0,190 0,030 0,364
tralidad
PoteuCÍa observada
126,684 44,259 5,961 107,749
t,OOO t,OOO 0,573 1,000
Calculado cou alfa ~ 0,403. R cuadrado ~ 0,6 (R cuadrado corregido
340
~
0,393).
© EdicIOnes Pirámide
Análisis de la varianza
5,4
~
" ~ ~
i,
,
5,2
---------t---------------------~-------------------, ,
5,0
- ------- -f-------, --- ------- ------- ---:--------,
4.8
,, ,
--- --- ---~----- ---- --- ,
, I
4,4 4.2
,
5.
,
/
--- -:, ----- ----
/
,
---- ,,;..-:'-- -----~---------, , ; ' I
-------:--- --
,,;', ,,;'
I
--I --T-::---------------~------------,;' ,: , t r , , , ---------f----------------------f----------------------l---------, , , --------
,
,
L
I
4,0
Figura 7.19.
---------
i i p ---------r---------------------:---------------:;. . . i---------, , ,
4,6
,,
, !
---o-- FUTURNEG -lJ -
FUTURHOS
Representación de medias. Efecto pnnclpaJ: ZONA. F(2,188) = 2,98; p < 0,0532.
ESQUEMA DE PROCEDIMIENTO A través de los diferentes ejemplos comentados ya se han revtsado los pnnctpales outputs que se generan en un análisis de la varIanza. Efectivamente, los programas informáticos proporcionan muchas opciones de pruebas, representacIOnes gráficas y, en suma, muy diversas formas de disponer la lllformación. Éstas difieren según los programas e, lllcluso, dependiendo de qué versión de un mismo programa estemos empleando podremos comprobar que se lllcorporan nuevos outputs y se suprimen o cambIan otrosl 9 Teniendo esto en cuenta, trataremos de defimr una serie de etapas y de pasos más o menos comunes a los diferentes programas. Una vez decidida la oportunidad y pertlllencIa de que en nuestra lllvestigación se aplique un análisIs de este tipo, en su ejecución cabe destacar las siguientes fases: Fase de preparación. Lo pnmero es seleccIOnar las vanables dependientes e independientes cuidando de que cada una venga expresada en la escala métrica adecuada y detemunando el número de categorías para la o las varIables independientes. Por otro lado, hay que seleCCIOnar el diseño expenmental adecuado a nuestros objetIvos y a las necesidades de mformación, aunque sUjeto a las restricciones de según el tIpo de diseño o presupuestarias, entre otras. Si se quiere un diseño equilibrado habrá que VIgilar la igualdad de grupos y SI se utiliza un análisis de la covananza además hay que seleccio19 Por ejemplo, desde la sencillez y concreción del DYANE a la mayor complejidad de otros programas como STATISTICA o SPSS. Una buena prneba de ello es lo ocurrido entre la versión 6.0 de SPSS y la 7.5 en español.
© EdicIOnes Pirámide
•
341
Técnicas de análisIs de datos en investigación de mercados nar la covanable. También conVIene repasar los casos para resolver problemas relacIOnados con datos desaparecidos o valores raros (outliers J. Por último, es necesarIO formular las respectivas hIpótesIs sobre la mfluencIa de la o las vanables mdependientes en la o las variables dependientes. Fase de revisión de las hipóteSIs de partida. Preparados todos los mgredientes del análisIs lo SIgUiente es comprobar que se cumplen las condicIOnes estipuladas mediante los indicadores oportunos como se muestra en la tabla 7.38.
TABLA 7.38 COIidiciones' .'
Comprobación
Normalidad
Test K-S, Shapiro-Wilks, Mardia, representaCIOnes gráficas, análiSIs de residuos.
Homoscedasticidad
Test de Cochran, Bartlett-Box, Levene, M de Box.
Selección aleatoria
RepresentaCIOnes gráficas (por ejemplO, medias versus deSVIaciones típicas).
Relación entre vanables
CorrelaCIOnes, test de esfencidad de Bartlett.
-
342
.,
Fase de interpretación de los resultados. Una vez comprobado que los inputs son adecuados, es decir, el cumplimIento de las hIpóteSIS, lo que sigue es la mterpretación de los resultados del análiSIS. En suma, se trata de conclUir sobre el rechazo o no de las hIpóteSIS, sobre la sIgnificación de las diferenCias producidas por la o las vanables mdependientes (y su mteracción) sobre la o las dependientes. Para esto se observa la tabla de descomposición de la varianza, el nIvel de significación asociado a la prueba F Lo mIsmo haremos en el caso de análiSIS multIvanante utilizando para ello los tests apropIados. También se comprueban los efectos de las vanables independientes aisladas o conjuntamente mediante la eta cuadrado y la potenCIa asociada a cada test. En el caso de que se haya planteado un diseño con mteraccIón o un análiSIS multIvarIante y no resulten SIgnificativas las diferenCIas habría que repetir el análiSIS considerando solamente los efectos pnnClpales, en el pnmer caso, o realizando ANOVA, en el segundo. Fase de análiSIS post hoc. Especialmente cuando se constata la eXIstenCIa de diferenCias SIgnificativas, es necesarIO profundizar más en las causas de tales diferenCIas. Es deCIr, descubnr qué categorías las generan, para lo cual hay una amplia gama de tests disponibles. También aquí son útiles las diferentes opCIOnes de representaCIOnes gráficas disponibles. © Ediciones Pirámide
Análisis de la vananza Todo lo anterior Implica la realización de una sene de pasos para la ejecución en un programa. En general, dichos pasos pueden resumIrse en: Selección del fichero de datos. Selección de las varIables mdependientes (factores o bloques), dependientes y covarIables (según el tIpo de diseño). Indicar las categorías. Definir el modelo o tIpo de diseño, según eXIstan variables bloque, haya mteracción, etc. -
6.
Especificar contrastes a realizar, gráficos a mostrar (ej. de mteracción), pruebas del cumplirmento de las hipóteSIs de partida y representaciones gráficas, estadístIcas descnptIvas u otras opcIOnales. Especificar las comparaciones post hoc. RevIsar el proceso e mterpretar los outputs obtenidos.
APLICACIONES Y LIMITACIONES Las aplicacIOnes del análisIs de la varIanza se remontan en el tIempo y se extIenden a todas las diSCIplinas con alguna posibilidad expenmental, como se comentó aJ pnnclplO. Así se ha aplicado en las cIencias de la naturaleza y de ahí se mcorporó a las cIenCIas socIales. CualqUIer mvestIgación que suponga expenmentación en ambIente natural o en ambiente de laboratono tIene en el análisIs de la varIanza una herrarmenta Imprescmdible, puesto que, quizá, sea la que mejor se adapte a esa filosofía de diseño expenmental y tanto a la contrastación de hIpótesis como a la posibilidad de generalización de los resultados, algo fundamental en una mvestIgación. Las aplicaciones son muy vanadas y se extIenden a toda situación que suponga una o varias causas y uno o varios efectos. En el ámbito económIco y empresarIal esto Implica que cabe utilizarla para medir los efectos de cualqUIer acción. Así, por ejemplo. para medir las respuestas a: AccIOnes sobre precIOs: precios de aceptación, vanación de precIOs, promocIón en precIO, etc. AccIOnes sobre atributos del producto: diseño de envase, información en envase, composición, característIcas de olor, sabor, color, etc. AccIOnes sobre promoción: a consumidores, a distribuidores, tIpos de promoción, etc. AccIOnes sobre la comumcación: respuestas a determinados estímulos, ya de carácter mformatIvo, ya de carácter persuasivo, o bIen comparatIvo, reaccIOnes según contenido, frecuencia, etc. AccIOnes estratégIcas Acciones sobre la Imagen de marca o corporatIva.
© EdicIOnes Pirámide
343
Técnzcas de análisIs de datos en investigación de mercados -
Acciones de política económica de la Admmlstraciones Públicas. Etcétera.
A contllluaclón exponemos algunos ejemplos de estudios concretos en los que se ha aplicado ANOVA, MANOVA, ANCOVA o MANCOVA como herramienta de análisIs. Desde luego esta relación no tIene mnguna pretensión de exhaustIvidad, SIllO sImplemente ilustratIva; son los sIgUIentes: -
-
-
-
En el análisis de la metodología de la experimentación en precIOs para estudiar funcIOnes de precIOs o precios aceptables (Andream, 1997). Para verificar la hipótesIs de que la utilización (le una lengua local en la publicIdad puede aumentar su eficacia (Ouattara, 1996). Para la segmentación de mercados, como en el caso del turístico según mveles de gastos (Legohérez, 1997). En expenmentos sobre el reconocimiento como variable dependiente para analizar el Impacto que tIene la exposición, duración y repetIción sobre el reconocimiento y el recuerdo (Singh, Rothschild, Churchill, 1998). En expenmentación de campo y de laboratono para comprobar SI las cantidades de compra Illcrementan con promocIOnes de precios multlUnidad, cantidad de compra limitada y otras (Wansink, Kent, Hoch,1998). En expenmento de laboratorio para analizar la Importancia de la marca sobre el recuerdo de la publicidad: si es más explícIta provoca mayor recuerdo (Keller, Hecker, Houston, 1998). Para IllvestIgar que el parámetro K toma un deterrnlllado valor en la fórmula de AgOStlll1 para el caso de España (Redondo, 1994).
Respecto a las limitaCIOnes, éstas ya se han comentado a lo largo del capítulo. No obstante, se ha de insIstIr en que el análisIs de la vananza se utiliza tanto con la expenmentación como con datos obtenidos por encuestas que no suponen sItuacIOnes expenmentales. En este últImo caso se utilizan como tratamIentos característIcas soclOeconómlcas, lo que hace que surjan problemas en cuanto a la idoneIdad de la aplicación, sobre todo denvados de la aSIgnación aleatona para las diferentes categorías. En realidad, no se produce una verdadera aSIgnación aleatona.
INVENTARIO DE TÉRMINOS Y CONCEPTOS • • • •
344
ANOVA, MANOVA, ANCOVA, MANCOVA. VarIable factor, vanable bloque, covanable. Normalidad, homoscedastIcidad, aleatoriedad. Descomposición de la varIanza, prueba F, eta cuadrado, poder de la prueba. © EdicIOnes Pirámide
Análisis de La vananza o
Análisis post hoc.
o
Test de Levene, Cochran, Bartlett-Box.
o
Test DHS de Tukey, Bonferrom, Scheffé, test de comparaciones múltiples.
o
Efecto mteracción, efecto tratamiento y efecto bloque.
o
Diseño factorial, completo, mcompleto, en cuadrado latino, etc.
o
Matrices de sumas cuadradas y productos cruzados mtersuJetos y residual.
o
Traza de Pillal, Lambda de Wilks, Traza de Hotelling, raíz característica de Roy.
BIBLIOGRAFíA Andream, J. C. (1997): «Methodologle des tests de prix: un état de I'art», Revue Fran,aise du Marketmg, núm. 161, 1, pp. 21-47. Cuadras, C. M. (1991): Métodos de análiSIS multlvanante. PPU, Barcelona. Churchill, G. A. (1979): Marketmg Research. Methodologlcal Foundatzans, The Dryden Press, Hinsdale (IL). Dillon, W. R., Madden, T. J., Y Firtle, N. H. (1987): Marketing Research In a Marketing Envlronment, Irwm, Homewood (IL). Evrard, Y., Pras, B., y Roux, E. (1993): Market. Études et recherches en marketing. Editions Nathan. Halr, J. F.; Anderson, R. E.; Tatham, R. L., Y Black, W. C. (1995): Multlvanate Data AnalySIS wlth Redings. Prentice-Hall International. Englewood Cliffs, NI. Keller, K. Loo Hecker, S. E., y Houston, M. J. (1988): «The Effects of Brand Name Suggeslions on Advertlsmg Recall», Joumal of Marketing, vol. 62, enero, pp. 33-47. Legohérez, P. (1997): «La segmentation de la populatlOn touristlque fondée sur les niveaux de dépenses des consommateurs», Revue Fran,aise du Marketing, núm. 163 (3), pp. 37-53. Malhotra, N. K. (1993): Marketing Research. An Applied Orientatzan, Prentice-Hall, Englewood Cliffs, NJ. NOruSlS, M. J. (1986): Advanced Statlstic SPSS/PC+, SPSS Inc., Chicago (IL). Ouattara, 1. (1996): «L'utilization des langues locales comme moyen pour augmenter I'efficacHé de la publicHé dans les pays aficams: une approcheexpénmenta1», Revue Fran,azse du Marketing, núm. 160 (5). Redondo, 1. (1994): «La fórmula de Agostmi en España», VI Encuentro de Profesores Universltarzas de Marketing, San Sebastián, pp, 265-274. Sánchez Carrión, J. J., et al. (1984): Introducción a las técnzcas de análiSIS multIvariable aplicadas a las CIenCIas soczales, Centro de Investigacíones SocIOlógicas, Madrid. Santesmases Mestre, M. (1997): DYANE. Diseño y análiSIS de encuestas en investIgación soczal y de mercados, Pirámide, Madrid. Singh, S. N.; Rothschild, M. L., Y Churchill, G. A.. Jr. (1988): «Recognition Versus Recall as Measures of Televlsion Commerclal Forgetting», Joumal of Marketing Research. vol. XXV, febrero, pp. 72-80. © EdiCIOnes Pirámide
..
345
Técnicas de análisIs de datos en investigación de mercados Sheth, J. N. (1971): «The MullIvanate RevolutlOn in Marketmg Research», Joumat of Marketmg, vol. 34, núm. 1, enero, pp. 13-19. Stallsllca for Windows (1995). StatSoft. SPSS Advanced StalIslIc 7.5. Urie1, E. (1995): Análisis de datos. Series temporales y análisis multivariante, AC, Madrid. Wind, Y., y Denny, J. (1974): «Mu1l1varlate Analysls of Variance m Research on the EffeclIvmess of TV. Cornmerclals», Journal of Marketing Research, vol. 11 (2), pp. 136-142. Wansmk, B.; Kent, R. J.. Y Hoch, S. (1998): «An Anchormg and Adjustement Model of Purchase QuanlIty Declsions». Journal of Marketing Research, vol. XXXV, febrero, pp. 71-81.
346
© EdicIones Pirámide
Teodoro Luque Martínez
1.
CONCEPTO Y CLASIFICACiÓN Segmentar es hacer o definir segmentos, es decIr, dada una población de elementos se trata de identificar sUbcollJuntos homogéneos con respecto a determInadas características. El término «segmentación» tlene una doble acepción: como estrategIa y como técmca estadístlca. Como estrategIa se refiere a la utilización de los segmentos para darles un tratamIento diferente según la perspectlva de la empresa. Así, por ejemplo, a dos segmentos se aplicarán distlntas aCCIOnes de marketIng llliX que se concretan en diferentes formas de presentación del producto, posiblemente diferentes precIOs o condicIOnes de pago, canales de distribución específicos para cada uno y formas de comumcación o de promoción distIntas. La segmentación como técmca consIste en un algontmo o proceso para llegar a la delilllitación e identificación de subconjuntos homogéneos de la población con arreglo a ciertas reglas y considerando detenmnadas características. En cuanto técnica se mcluye dentro de los métodos multivanables de dependencia, puesto que hace distlnción entre vanables explicatlvas y vanables a explicar. La variable a explicar o dependiente está en función o viene explicada por una o más vanables explicatlvas. Entre las vanables explicatlvas suelen utilizarse vanables de tipo soclOdemográfico como las sigUIentes: nivel de Ingresos, edad, clase socIal, hábItat, sexo, estado civil y soclOestilos, entre otras. Mientras que entre las vanables a explicar se usan: nivel de consumo, posesión, opmiones, actltudes. preferencIas y satisfacción, por CItar algunos ejemplos. Para consegUIr Identificar subconjuntos homogéneos de una población o segmentos hay diferentes recursos que suelen agruparse en dos grandes tlpos de modelos, según estén o no basados en cntenos (Magdison 1994): a)
© Ediciones Piramide
bz
Modelos no basados en criterios. Comprenden el análisIs cluster, tanto el jerárquico (ascendente y descendente) como el no JerárqUIco, y otras técm-
347
Técnicas de análisIs de datos en investigación de mercados
b)
cas multlvanantes que son susceptibles de aplicacIón. Consiguen grupos que son homogéneos con respecto a CIertas vanables consideradas conjuntamente. Los grupos no se obtIenen con aneglo a un úmco cnteno, smo que se trata de una perspectIva descriptIva. Modelos basados en criterIOs. Utilizan como cnteno una variable dependiente para la obtención de subconjuntos homogéneos. Los segmentos obtenidos son definidos explícItamente mediante combinaciones de vanables mdependientes que son predictoras. Son de carácter descendente, identifican los segmentos realizando sucesivas partIciones del conjunto de la población y pueden ser: MonotétIcas: consideran un solo cnterio y a su vez se divide según el número de variables dependientes sean una o vanas. Politéticas: consideran más de un cnteno y son vanas variables. Es el caso de la segmentacIón canónica.
Pues bIen, sigUIendo la clasificación comentada, por segmentación jerárquica o técnicas de árboles entendemos un conjunto de técnicas o de algoritmos que, considerando una varIable a explicar, persiguen la fonnación de grupos homogéneos, partIendo la población inicIal secuencialmente respecto de esa variable que está explicada por otras variables mdependientes o explicativas. De aquí se desprenden las sigUIentes notas característIcas: -
-
Hay un proceso de partIción descendente e Iterativo. EXIstencIa de una variable cnterio dependiente (monotétIcas) o de vanas variables (politétrcas). ExistencIa de varIables mdependientes. Persigue la formación de segmentos.
En este capítulo nos ocupamos de técmcas como AID o CHAID; sm embargo, conVIene recordar que éstas son algunas de las técnicas que permIten elaborar estrategias de marketmg de segmentación, pero no las úmcas. Por otro lado, el mtento de distingUIr entre las diferentes técmcas que permiten formar clases ha supuesto que en español o francés se asumIera el término «segmentación», para cuando se aplican las técmcas de árboles y que tienen en cuenta las mteraCCiones identificando además una vanable a explicar, y el térrnmo <
348
© EdiclOnes Pirámide
Segmentación jerárquica
2.
AID (AUTOMATIC INTERACTION DETECTION)1
2.1.
Características generales
AID supone que una población dada es heterogénea con respecto a una vanable cnteno o dependiente (dicotómIca o continua), y que es posible dividir o segmentar en grupos. que serán exhaustivos (contIenen a todos los elementos de la población) y mutuamente exclusivos (no tIenen ningún elemento común), para lo cual se recurre a combinaCIOnes de varIables (nominales u ordinales). Por tanto. AID:
-
Es una técnica multIvanante en la que hay una sola varIable a explicar (en el análiSIS cluster los grupos se forman por homogeneidad en un conjunto de vanables) y varias vanables explicatIvas. en las que se identifiquen vanas categorías, que son las que van a servIr para dividir la población objeto de estudio. Es un procedimIento estadístIco IteratIvo de tIpo descendente que permIte elaborar una estrategIa de marketing de segmentación. Es de carácter monotétIco. puesto que la diVIsión se establece según una vanable dependiente. Tiene por objetIvo la formación de grupos de indivIduos tan homogéneos como sea posible internamente y tan diferentes como sea posible los unos respecto de los otros. Estos parecidos y diferencIas son con respecto a la vanable a explicar o dependiente; por ejemplo, se refiere a consumo de bIenes o servicios, tenencIa de productos, hábItos de consumo. preferencIas, actItudes. opiniones. etc. SeleCCIOna. entre las variables explicatIvas. la variable que discrimina más y las clases que combmadas proporcIOnan la mayor discnminación en la vanable dependiente objeto de análisis. En suma, y como su nombre indica. detecta las interacclOnes2 que más discriminan.
Por ejemplo, sea la variable cnterlO pertenencza a una ONG y unas variables predictoras como edad, nivel de ingresos, nivel cultural y hábitat. AID desarrolla una serie de particiones binarias de la muestra, para lo cual elige las partIcIOnes que distingan dos grupos que mejor expliquen la vanable criterio y, así sucesIvamente, se repIte el proceso en cada una de las submuestras. Si la varIable que mejor explica fuese nivel cultural, la muestra se dividirá en dos (nivel cultural alto y mvel cultural baJo); si la siguiente vanable que mejor explica la pertenencIa a una ONG fueI En ocasiones se utiliza el térmmo ArD. en sentido general, para la segmentación con varIable dependiente. Si ésta es cuantItatIva o dicotómIca se utiliza XAID (también AID), mIentras que SI es sola-
mente categórica se emplea CHAID. 2 Hay mteracción cuando el efecto de una variable independiente sobre una variable a explicar depende del valor que adopten otras variables independientes. © EdiCIOnes Pini.mide
349
Técnicas de análisis de datos en investigación de mercados se estudios, los antenores grupos se dividirán en dos nuevos (jóvenes y mayores), y así sucesivamente. Los orígenes de esta técmca se remontan a princIpIOs de la década de los años sesenta, en concreto a los trabajos desarrollados por el Instituto para la Investigación Social de la UmvefSidad de Michlgan 3 Fue muy utilizada durante las décadas de los años sesenta y setenta, aunque actualmente se utiliza menos ya que se recurre a otras alternativas como CHAID. Aunque guarda cierto parecido con la regresión, se diferencia en lo siguiente: -
En la segmentación es frecuente disponer de variables dicotómicas, por lo que el supuesto de normalidad de la vanable dependiente no se cumple. La regresión tiene carácter emmentemente aditiVO. ConSidera efectos pnncIpales pero no las mteracclOnes; aunque de modo expreso se recojan algunas, no se consideran todas las que pudieran darse y no es una técnica que faCIlite la inclusión o selección de mteracclOnes, más aún cuando son de orden elevado. La realidad nos revela que para la consecución de segmentos adecuados, en muchas ocaSIOnes es necesano mclUlr mteracciones.
En defimtJva, se trata de identificar segmentos de la población, a través de las variables predictoras que mejor expliquen la vanabilidad de la vanable dependiente. El proceso segUido para ejecutar AID se resume en lo sigUiente: Se identifica una variable dependiente y las variables explicativas o independientes. Se divide la población en dos grupos conSiderando la mejor variable predictora, esto es, la que proporcIOna mayor reducción de la suma de cuadrados residuales de la variable dependiente. O en otras palabras, la que maximiza la vananza entre grupos y mmimiza la vananza mtragrupos con respecto a la vanable a explicar. Para la partición, y cuando las vanables explicativas son ordinales, éstas pueden ser definidas como libres; entonces se permiten todas las combmaclOnes dicotórmcas posibles para las distmtas categorías sm orden establecido, o como monotónicas, cuando las combinaCIOnes consideradas han de mantener un orden fijo, para lo cual se establece un punto de corte y los grupos se definen en valores por encima y por debajO de tal valor. Cuando se tiene evidenCia de que la relación con la variable es de este tipo se debe optar por esta modalidad, mcluso cuando el número de categorías es grande, o bien para evitar que aparezcan grupos de difícil justificación teónca se definen las vanables predictoras como monótonas.
, Uno de los trabajOS más destacados es el de SonqUlst y Margan (1964).
350
© Ediciones Pirámide
Segmentación JerárqUica Así, sIendo y la varIable criterio o a explicar, e Ji su media, la varIabilidad VIene dada por:
Al dividir la muestra en dos grupos, entonces resultaría:
La reducción de la varIación con estos dos grupos es -2 -2 n,y, + n 2 yz - ny-2
SucesIvamente, y con este proceder, se contmúa la divIsión de los grupos obtemdos hasta que se den determinadas CIrcunstanCIaS o condicIOnes tales como: a)
b)
e)
Tamaño mínimo referido a los mtegrantes de los grupos resultantes. Se fIja un tamaño mímmo a partir del cual se considera que no procede o no tlene sentido segUIr dividiendo. Fijar un porcentaje mímmo de la suma de cuadrados totales en el grupo. De esta forma los grupos con poca varIabilidad no se dividirán y los que la poseen prosIguen la divIsión Illientras tengan ese porcentaje mímmo establecido. Cuando mnguna de las varIables reduce considerablemente la varIanza resIdual, se fIja un porcentaje mímmo sobre el total de la suma de cuadrados mlclal para proceder a la divIsión.
Como se ha comentado, la medida de varIación utilizada es la suma de cuadrados con respecto a la media de la varIable dependiente; en otras palabras, se elegIrá la divIsión que maXIllliza el COCIente de la suma de cuadrados entre grupos con respecto a la suma de cuadrados total, o lo que es lo mismo, que Illimmice el cociente de la suma de cuadrados mtragrupos partido por la suma total de cuadrados. Puesto que:
scr = sc/ + SCE para
scr: Suma de cuadrados totales. SCE: Suma de cuadrados entre grupos. SC/: Suma de cuadrados intragrupos.
Al fInal AID nos pennüe: -
© Ediciones Pirámide
b __
Conocer las varIables explicativas que explican mejor a la varIable dependiente en cada etapa.
351
Técnicas de análisis de datos en investigación de mercados Conocer el poder diferencIador de tales variables explicativas en cuanto que se conoce la vananza que explica. Identificar segmentos, conocIendo su tamaño y sus característIcas generales de acuerdo con las vanables explicatIvas que se hayan utilizado. Saber la media de la vanable cnteno para cada subgrupo. Comprender fácilmente los resultados y el seguimIento de la partición de la muestra mediante diagramas en árbol. Entre las limItacIOnes que afectan a esta técmca están: Se requieren muestras grandes (más de 1.000 elementos como cantIdad orientatIva) y muchos predictores. Las vanables con muchas categorías son las de mayor probabilidad para ser seleCCIOnadas como las mejores predictoras porque tIenen artificialmente baJOs valores de p o escaso mvel de SIgnificación. Esto no sucede si el predictor tIene dos categorías solamente. Por ejemplo, dadas dos vanables independientes XI (dicotómIca) y X 2 (con 4 categorías). La variable X 2 puede combInarse en 7 (es decir, 23 - 1) pares de categorías distintos, por lo que alguno de ellos (y son 7) es posible que aparezca como más significativo que la úmca combInación de XI; como consecuencia la variable X 2 aparecería como el mejor predictor, aun con una combInación contra natura. Las partICIOnes resultantes dependen de la pnmera vanable elegida, lo que condiciona las suceSIvas partICIOnes. AID no establece un modelo explícIto; se recomIenda utilizar como pnmera fase y completar con otras técmcas como el análiSIS de clasificación múltiple o la regresión.
2.2.
Esquema del procedimiento
La forma de llevar a cabo un análiSIS de este tipo varía algo según el programa utilizado, aunque en lo fundamental hay COIncidencia. Tomando como referencia el programa DYANE, para realizaCIón de un AID es necesano seguir el esquema SIgUIente: SeleCCIOnar el fichero de datos. SeleCCIOnar AID dentro del módulo análiSIS. Marcar la variable a explicar y las vanables explicatIvas. En estas últImas permIte optar por dos modalidades: monótona y, libre. Decidir las especificaCIones que se consideren convementes. Una, el tamaño mímmo del grupo, esto es, el número de integrantes que, como mímmo, debe tener el grupo resultante. Dos, la contribución mímma a la explicación de la varianza que debe aportar una partición para efectuarla.
352
© EdiclOnes Pirámide
Segmentación jerárquica -
-
-
3.
El programa presenta la opción de crear una nueva variable que identifique los segmentos finales a los que pertenecen los Individuos y, por tanto, representan perfiles socIOdemográficos o de otro tipo según las vanables utilizadas en el análiSIS. Pulsar calcular y se obtiene la secuencia de partIción mediante un diagrama de árbol. En cada partIción se consIguen dos grupos mientras que se cumplan las especificacIOnes indicadas. Además se c!etalla la Información para cada segmento identificado. Interpretación de los resultados.
EJEMPLO DE AID El fichero DATOSAID.dyt* contiene información sobre una serie de vanables: -
EDAD: La edad del individuo distIngUIendo entre las categorías menos de 30 aí\qs. de 3Q a 40, eje 41 a 55 y más de 55 años. - ESTUDIOS: Estudios realizados por el entrevistado, las categorías SIn estudios, pnmanos. FP-BUP, diplomado y licenciado. - SEXO: Sexo de la persona que responde: hombre o mUJer. - SITULABO: Situación laboral del cabeza de familia: empleado o desempleado. - NIÑOS-4: Pertenece a una familia cqn o SIn hijos mellqres de 4 años. - ESTRUCFA: Estructura familiar, distingUlenejo ertre: umpersonal, matnmomo SIn hijos, matnmomo con hijos, blgeneracIOnal, sólo hijos y otros. -.. RECLAMA: Haber realizado (o no) una reclamación durante el último año en un estableCImIento comercial. La variable a explicar es RECLAMA: se trata de distingUIr perfiles o segmentos de personas según hayan realizaejo o no alguna reclamación en un establecllmento comercIal durante el últullo añ(l. Las variables explicativas seleCCIOnadas son las restantes. Cuando alguna de ellas tenía más de dos categorías se ha optado por defimrla como libre; en otro caso se conSIderan monótonas. Las especificacIOnes Indicadas por defecto se han respetado. Esto es, un tamaño mímmo para los segmentos de 50 y una contribución mímma de la partición a la explicación de la vananz¡¡ de 0,01. A continuación se reproduce la salida del programa (tabla 8.1 y figura 8.1). La pnmera parte contiene las vanables seleCCIOnadas y las especificaciones establecidas. Después. se representa el dendrograma o diagrama en árbol que ayuda a comprender fácilmente la secuencIa de diVISiones que se ha realizado. Ahora bIen. si el número de particIOnes es elevado y no es posible recoger todas ellas en una página. entonces la Interpretación de la representación se complica e Incluso puede llegar a ser poco operativa. Finalmente. las tablas que se adjuntan permiten completar la información para cada segmento.
*
i
b__
V~ase
qchero en
~~
dirección www.llgr.esJ-HJlque.
Técnicas de análisis de datos en investigación de mercados TABLA 8.1
Salida del programa DYANE ANALISIS AID (Automatic Iuteractiou Detectiou) VARIABLE A EXPLICAR: Ha realizado reclamacIOnes VARIABLE VARIABLE VARIABLE VARIABLE VARIABLE VARIABLE
EXPLICATIVA EXPLICATIVA EXPLICATIVA EXPLICATIVA EXPLICATIVA EXPLICATIVA
1: 2: 3: 4: S: 6:
Edad (libre) Estndíos realizados (libre) Sexo (monótona) Situación laboral (monótona) Familias con niños menores de 4 años (monótona) Estructura familiar (libre)
TAMAÑO MÍNIMO DE LOS SEGMENTOS: SO CONTRIBUCIÓN MÍNIMA DE LA PARTICIÓN A LA EXPLICACIÓN DE LA VARIANZA: 0,01 PROPORCIÓN TOTAL DE VARIANZA EXPLICADA: R2 = 0,144 PERFIL DE LOS SEGMENTOS ========================
GRUPO 1: Tamaño: 1.000; Media: 0,2750; Desv. estándar: 0,4465 Total muestra GRUPO 2: Tamaño: 83; Media: 0,7711; Desv. estándar: 0,1765 - ESTUDIOS: Licenciado GRUPO 3: Tamaño: 917; Media: 0,2301; Desv. estándar: 0,1772 - ESTUDIOS: Diplomada, Pnmarios, FP-BUP y Sin esludíos GRUPO 4: Tamaño: 259; Media: 0,3320; Desv. estándar: 0,2218 - ESTUDIOS: Diplomado, Primanos, FP-BUP y Sin esludíos - EDAD: De 30 a 40 GRUPO 5: Tamaño: 658; Media: 0,1900; Desv. estándar: 0,1539 - ESTUDIOS: Diplomado, PrimarIOS, FP-BUP y Sin estudios - EDAD: Menor de 30, De 41 a 55 y Más de SS GRUPO 6: Tamaño: 129; Media: 0,4341; Desv. estándar: 0,2457 - ESTUDIOS: Diplomado, Primarios, FP-BUP y Sin estudios - EDAD: De 30 a 40 - ESTUDIOS: Diplomado y FP-BUP GRUPO 7: Tamaño: 130; Media: 0,2308; Desv. estándar: 0,1775 - ESTUDIOS: Diplomado, Prunarios, FP-BUP y Sin estudios - EDAD: De 30 a 40 - ESTUDIOS: Sin estudios y Primarios SEGMENTOS FINALES Segmento Identificación I 2 3 4
354
Grupo Grupo Grupo Grupo
2 S 6 7
Tamaño 83 658 129 130
Media 0,771 0,190 0,434 0,231
Desv. estándar 0,177 0,154 0,246 0,178
© EdiCIOnes Pirámide
Segmentación JerárquIca
Grupo 1 Media = 0,275 N= 1.000
I
I
I
+R2 = 0,112
Grupo 2 Media = 0,771 N=83
Grupo 3 Media = 0,230 N=917
I
I +R2 =0,019
Grupo 4 Media = 0.332 N=259
I
I Grupo 5 Media = 0,190 N=658
I
+R2 =0,013 I Grupo 6 Grupo 7 Media = 0,434 Media = 0,231 N= 129 N= 130
Figura 8.1.
Dendrograma o árbol de segmentación.
El pnmer grupo contiene toda la muestra cuyo tamaño es de 1.000, de los que un 27,5% (o 275 mdividuos) ha efectuado alguna reclamación en el último año. La pnmera partición se debe a la vanable mvel de estudios. distingUIendo entre licenciados (grupo 2), con un total de 83 mdividuos de los que un 77.1 % han realizado alguna reclamación y, por otro lado. el resto de categorías que forman el grupo 3 (diplomados, primarios, FP-BUP y sin estudios), que supone un total de 917 bajando el porcentaje de los que han reclamado al 23%. Esta partIción debida a la variable ESTUDIOS contribuye en un 1l.2% a explicar la varianza de la vanable dependiente. El grupo 2 no se vuelve a dividir; como se comprueba, no cumple la condición del tamaño mímmo de 50 elementos SI se dividiera. En el SIguiente paso el grupo 3 de divide en dos debido a la varIable EDAD. Así. el grupo 4 contiene a los mdividuos de una edad comprendida entre 30 y 40 años. y está formado por 259 personas que presentan una media respecto a la vanable RECLAMA del 33,2%. El grupo 5 lo forman el resto (658 individuos), en concreto las categorías de edad; menores de 30 años y mayores de 40 años. Esto significa que mediante la varIable EDAD (considerada libre) se detecta un efecto no lineal con relación a la vanable RECLAMA. El grupo 5 presenta una media bastante mfenor (19%) a la del grupo 4. y como no cumple las especificacIOnes no se parte en nuevos grupos. Esta partIción añade un 1,9% a la explicación de la varianza de la variable dependiente. © Ediciones Pirámide
...
355
técnicas de análisis de datos en Investigación de mercados Por último, el grupo 4 se desglosa en dOs incorporarido a la explicacióri de la vananza de la variable RECLAMA un 1,3%. De nuevo la vadable EstublOS es la que angina esta división. El grUpo 6 recoge a las categorías diplomado y FP-BUP con un total de 129 mtegrantes y una media del 43,4%; mientras que el grupo 7, aunque de tamaño similar (130), tiene casI la mitad de media (23,1 %) Y contiene las categorías szn estudios y primarios. Al final son dos las vanableS que contribuyen a explicar esta segmentación, la variable EDAD y, sobre todo, la vanable ESTUDIOS. El total de la varianza explicada aSCiende al 14,4% (11,2 + 1,9 + 1,3); el resto de las vanables no contribuyen de forma destacada a explicar el que se naya realizado o no reclamaciones. Por un lado, el grupo de los licenciados y, por otro, el de los comprendidos entre 30 y 40 años y los de mvel de estudios niedio-alto (diplomados más FP-BUP) son los que más han reclamado. En la última tabla de esta salida se resumen los segmentos identificados y sus características. El segmento (grupo 2) qUe más reclamaciones ha efectuado (77,1 %) es el más pequeño y está mtegrado por los mdividuos de mayor nivel de estudios, por el contrario, el segniento mayor (grupo 5) y que menos reclamaciones ha efectuado (19%) está compuesto por mdividuos no licenciados y que son menores de 30 años o mayores de 40 años. Entre estos extremos se sítúan los otros dos segmentos (grupos 6 y 7) con un tamaño similar, aunque el grupo 6, compuesto por mdividuos de entre 30 y 40 años y COn un nivel de estudios medio (diplomados y FP-BUP), preserita una media mayor. La opción de añadir otra variable a la base de datos que recoJa la pertenencia a estos segmentos para cada individuo permite aplicar posteriorrriente otras técnicas de análiSIS muitivadable o cOnfeCCionar tablas cruzadas como las que a continuación se muestran para algunas de las variables de nuestro análiSIS (tabla 8.2).
4.
CHAID (CHI"SQUARH) AUTOMATIC INTERACTION DETECTION) 4.1.
Características generales
La téclllca CHAíb es desarrollada por Kass eh 198d, con jJosteriores aportaciones de Magidson (1992) cdmo forrria de mejorar la segmentáción conseguida por AID. CHAlO reqUiere una variable dependiente categónca y vanas vanables mdependierites o predietdtas qUe, combinadas, permiten identificar segmentos. Está limitado a vanables nominales y ordinales y no hace supOSición de normalidad. Representa con respecto al AIb las Siguientes mejoras (Magidson, 1994): -
356
Une aquellas categorías de un predictor más homogéneas con respecto a la vanable dependiente, pero mantiene todas las categorías que sean heterogéneas. Eri suma, combina categorías que no difieren mucho entre ellas. © Ediciones Pir~mide
Segmentación Jerárquica TABLA 8.2 Tabulación cruzada variab1e 1: Edad x Variable 8: Segmentos obtenidos en análisis ArO SEGMTOS
----------------------------------------------------TOTAL MUESTRA EDAD
Segmento 1
Segmento 2
Segmento J
Segmento
%
Free
%
Free
%
Free
%
Free
%
209 285 299 207
20,90
25 26 21
30,12 31,33 13,25
27,96 0,00 42,25 29,79
O 129 O O
0,00
11
184 O 278 196
O 13 O O O
0,00 100,00 0,00 0,00
1000
(1000)
83
(83)
658
(658)
129
130
(1301
Free
1 Menor de 30
2 De 30 a 40 3 De 41 a 55 4 Más de 55
TOTAL
28,50 29,90 20,70
25,30
100,00
0,00 0,00 (129)
4
variable 2: Estudios realizados x Variable 8: Segmentos obtenidos en análisis ArD SEGMTOS TOTAL MUESTRA
Segmento
.L
Segmento 2
Segmento J
Segmento 4
------------ ------------ ------------ ------------ -----------ESTUDIOS
Free
%
Free
%
Free
%
Free
%
Free
%
0,00 0,00
36 94 O
27,69
--------------1 2 J 4 5
Sm estudios Primarios FP-BUP Diplomado Licenciado
156 380 257 124 83
15,60 38,00 25,70 12,40 8,30
O O O O 83
0,00 0,00 0,00 0,00 100,00
120 286 165 87 O
18,24 43,47 25,08 13,22 0,00
O O 92 37 O
71,32 28,68 0,00
TOTAL
1000
(IODO)
83
(831
658
(6581
129
(129)
O O
72,31 0,00 0,00 0,00
130
(130)
Varlable 3' Sexo x Variable 8, Segmentos obtenidos en análisis AID SEGMTOS TOTAL MUESTRA
Segmento 1
Segmento 2
------------ ------------ -----------SEXO
Free
%
Free
%
Free
%
175 82,50
17,50 40
43 48,19
51,81 558
100 84,80
lobo
(10001
83
(831
658
Segmento 3
Segmento 4
------------
------------
Free
%
Free
15,20 101
28 78,29
21,71 126
4 96,92
(6581
129
(12.9)
130
%
--------------1 Hcimbre 2 Mujer 825
TOTAL
3,08
(1301
variable 4, Situación laboral x Variable 8, SegrriEntos obtenidos en análisis AID SEGMTOS TOTAL MUESTRA
Segmento 1
Segmento 2
------------ ------------ -----------SITULABO
. Free
%
Free
%
Free
%
Segmento J
Segmento 4
-----------%
------------
Free
Free
%
--------------2 Empleado
206 794
20,60 79,40
9 74
10,84 89,16
168 490
25,53 74,47
8 121
6,20 93,80
21 109
16,15 83,85
TOTAL
1000
(l0001
83
(831
658
(6581
129
(1291
130
(1301
.L
Desempleo
--------------------------- FIN DE TABULACIÓN CRUZADA ---------------------------
© EdicIOnes
b
Pidillirle
357
T¿Ehib:is d~ análisis de datos en inuestigáci6n de mercados -
Como varias categorías pueden difenr estadístIcamente, el resultado del proceso de CHAID no necesariiunente será una divIsión dicotómIca. Para dividir tiJ:i grupo solamente sé elegirán variables que sean estadísticamente slgnific,ÚÍvas. Utiliza el test de independencia de laji cuadrado (en cOlljunclón con el aJuste de J3onferroni).
Entre los mconvementes de AID comentados se encuentra el de que las vanabIes de muchas categorías son las que tienen mayor probabilidad de ser escogidas como vanables predictoras. Si una vahable tiene cuatro categorías se puede combInar de siete (2 3 - 1) formas; SI las sIete ptuebas fueran mdependientes unas de otras la probabilidad de incuITlr en un error tipo 1 (en uno o más de estos tests) sería Igual a uno menos la probabilidad de no cometer un error tipo 1 en cualqUIera de los tests que sería mayor que a:
A este valor (7) se le denomma muj~plicador de Bonferrom y la probabilidad de esa expresión se convIerte en 7 a, cuando a es pequeño. En general, si M es el número de combmaciones distmtas, entonces para a pequeño se ~ene que
Cuando la variable ya es dicotónnca sólo hay una forma de combinarla y la probabilidad de cometer error tipo 1 es: M a = a. CHAID compara el valor p asocIado con el test de mdependencla de la variable dicotónnca con el valor p ajustado de Bonferrom para la variable con vanas categorías, aunque cuando las diferentes combinacIOnes no son mdependientes el ajuste de 4 Bonferroni , se muestra algo conservador . La mejor predictora será la variable con el menor p ajustado. CHAID distmgue entre tres tIpos de variables predictoras, y según cual se elija esto afecta al resultado. Estos tipos son: libre, monótona -ya comentados anteriormente- y flotante. Elcaso de flotante es Igual que el de monótona salvo para la última categoría (normalmente recoge el valor otros) que puede ser unida a cualquier otra categoría. LógIcamente esto no tiene nmgún efecto si la variable es dicotómica. El proceso que desarrolla la técnica se resume de la sIgUIente forma: .
-
4
358
Detenninación de la variable a ex.plicar y de las variables prediétoras. Desarrollo las tabulacIOnes cruzadas entre las Variables predictoras y la dependiente. Cálculo de las X2 para cada tabla formada por cada par dé categorías susceptibles de unión y la variable dependiente. Para mayor detalle pUede cousullarse Magidson (1994). © EdicIOnes Pirámide
S~gment9.ción ;erárqlflC9.
-
Entre los pares que resultan no significativos estadísticamente (para ello se utiliza la X2 y el ajuste de Bonferoni) se unen en umi sola categoría. Cuando se unen más de tres categorías se asegura la pertlllencia estadística de tal fusión mediante un proceso de redefimción. Entre los pares sIgnificativos la unión se realiza para las categorías más parecidas (que tengaJ!. menor X2 ) y con pocas observaCIOnes. Obtención de~ valor p ajustado: la varIable predic~ora que tenga menor este valor es la que se utiliza para dividir. Si el valor p resultara no significativo no se procede a la divIsión. " , El proceso se repIte hasta analizar todos los subgrupos o hasta que se consi, , guen grupos demasIado reducidos. ' ,
Al final se obtIene como resultado información sobre las varIables, el diagrama en árbol o dendrograma, detalle de tablas cruzad~s para cad,a riiv¡,;i"de la' s~gmenta ción y tablas de ganancIa (gain). Toda esta lllformación permIte disponer de: -
Los segmentos identificados y sus características. La secuencIa de partición con los predictores que llltervlenen en cada paso. AgrupaCIOnes entre categorías o entre vanables. Sucede que cuando hay vanos predictores que están correlaCIOnados, alllltroduclr uno de ellos es posible que no proceda considerar otro porque no añada lllformación dado el grado de correlación existente. Esto no Implica que este predictor carezca de valor predictivo, SIllOqU~ tal valor prédictivo ya ha sido consíderado con la vanable introducida. Información sobre las lllteraCClOnes entre vanab)es: SI cada variable predic'11 " tora llltervlene en un nivel de la partíci,ón se ~ene un WOdelo aditivo; en caso de que no ocurra así se produce ¡nteraccióll entre vanables. )
"
.
,
,
,
•
,
j',
'1 I,!
Aunque se parece al cluster, p,uesto qve ambas técmcas generan segmentos, CHAID distlllgue una vanable dependiente como cnteno para la formación de grupos analizando la significación estadística entre varIables dependientes y explicativas, lo que le proporciona un cIerto carácter predictivo que no tiene el análiSIS cluster. Por otro lado, los segmentos son funCIOnes explícItas de las varIables predictoras y pueden ser utilizados para clasificar otras muestras, ~oque no es posible con e) cluster. , Como siempre, es posible distlllguir una sene de ventajas y "de" ,lllconvementes. 'o. ,'o' ,e' ", 1'1 " Entre los puntos fuertes de esta técnica cabe resaltar los siguientes: ¡',
,
'"
¡;,'
-
!
;,¡
.-
"
"
',,':'
• .,
"
,
'"
Las variables utilizadas reqUIeren solamente una escala nominal. El resultado de la patición no tiene necesanamente que ser blllario. , . Cornge el sesgo consIstente en que las variables con ¡pás categorías, por esta ÚllICa razón, sean las seleccionadas para la' partIción. ' ', Contempla la posibiFdad de que sea el lll,\estigaC¡or qUler vaya II1tr<¡C¡UC¡~J;lL, ( ",',. do las vanables predictoras para realizar la partIción aunque no sean las más '
i;'
© Ediciones Pirámide
b
,,' ,
'
"
, .-,
" . l .- , , , '
, " , ,
~
Técnicas de análisis de datos en investigación de mercados sIgnificatIvas. En ocaSIOnes el mterés de la mvestígacíón puede Justificar este proceder. Respecto a los puntos débiles hay que considerar los sIgUIentes: -
-
5.
La solución finalmente c0!1s~guida forzosap:¡ente no tIene que ser la óptIma, debido a las restncclOnes del proceso de partIción. Al utilizar la X2 está sometido a los requerImientos de esta prueba, como, por ejemplo, la necesidad de que en cada casilla no haya menos de cinco observacIOnes. ReqUIere conjuntos de datos con un cIerto yolumen; como orIentacíón se reqUIeren al menos 1.000 casos.
ESQUEMA DE PROCEDIMENTO En el programa CHAID para Windows versIón q.O.! los prIncipales pasos a segUIr son: 1. 2. 3. 4.
Abnr el programa CHAlO. Seleccíón del fichero de datos. Puede ser un fichero de SPSS. Identificación de la variable dependiente y de las varIables predictoras. Defimción de las especificacIOnes. Puede hacerse al prIncipIO y cambIar con posterIOrIdad para considerar otras opcIOnes; estas especificacíones son: -
S.
6. 7,
8.
Nivel de profundidad de las particíones (3)5 en la opcíón standard. Tamaño de los grupos antes (100) y después de la partición (SO), en la opcíón settzng + options. Nivel de sIgnificación establecido (O,OS). Pulsar en el menú setting + options. Utilización de la X2 y del ajuste de Bonferrom. Pulsar setting + technical. Optar por la variante nommal u ordinal. Pulsar en method. Defimción de las varIables como monótonas, libres y flotantes.
Decídir SI se ejecuta automátICllmente (auto) o bien SI es el mvestIgador qUIen decide el predictor que va a entrar y, en su caso, qué relación se suprIme. Pulsar Tree (+ auto para el caso de eJecucIón automátIca). Conseguido el diagrama de árbol o dendrograma, pedir las tablas de la partIcón y las tablas de ganancIa, u otros detalles de mformacíón. ImprImIr resultados y/o cambiar especificacIOnes para obtener sIluacíones alternatIvas, por ejemplo, cambIar la defimción de alguna varIable, forzar la mclusión de varIables predictoras en algún mvel, etc. Interpretación.
5 Entre paréntesis figuran los valores usuales que por defecto proporciona el programa.
360
© EdiCIOnes Pirámid~
Segmentación jerárquica Mediante ejemplos veremos que el algontmo CHAID puede ser aplicado también a varrables dependientes politórrncas, es decIr, con más de dos categorías. Es más. a esas categorías se les puede ponderar para analizar así el Illterés del resultado de la segmentaCión. Junto a esta varIante, que sIgue sIendo método nomlllal, Magidson introdujo una modificación para aplicar un cnteno ordinal y lo Implementó en el modulo de CHAID (un ejemplo de esta extensión se comenta al finál). RecIentemente SPSS ha mcorporado un nuevo programa denomlllado Answer Tree, que es un algontmo para identificar segmentos (dispone de CHAID) y que facilita la presentación mediante diversos tIpos de tablas y de representaciones gráficas resultando una aplicación que gana en Illteractividad.
6.
EJEMPLO DE CHAID (NOMINAU El fichero EJCHAID1.SAV* contIene los regIstros de 2.000 casos con las SIgUIentes variables: -
EDAD. La edad del individuo. distmguiendo entre las categorías menos de 30 años. de 30 a 40. de 41 a 55 y más de 55 años. ESTUDIOS. Estudios realizados por el entrevIstado; las categorías son: Slll estudios. primarros, FP-BUP, diplomado y licencIado. SEXO. Sexo de la persona que responde: hombre o mUJer. SITULABO. Situación laborál del cabeza de familia: empleado o desempleado. NIÑOS-4. Pertenece a una familia con o Slll hijos menores de 4 años. ESTRUCF. Estructura familiar, distmgUlendo entre: unipersonal, matnmomo sm hijos, matnmomo con hijos, blgeneracional. sólo hijos y otros. CAMEST. En los últimos dos años ha cambIado (o no) de establecimiento comerCIal habItual donde realiza sus compras.
Esta última varrable es la variable a explicar y las restantes se han elegido como variables explicatIvas. Definidas las especificacIOnes generales. las variables explicativas y a explicar, eligIendo la opción auto (dentro del menú tree) y soliCItando la Impresión de gráfico y tablas generáles y de ganancIa obtenemos como Illformación de salida del programa la que a contllluación se detalla y comenta (tabla 8.3). En pnmer lugar, se recogen las especificacIOnes generales: -
* © EdiCIOnes Piramide
...
El mvel de profundidad del análiSIS es de tres nIVeles: se desarrollan hasta tres divIsIOnes. El número de elementos del grupo antes de ser dividido es de 100. El número de elementos del grupo después de ser dividido es de 50. Nivel de significación: 0.05. Véase fichero en la dirección www.ugr.es/-tluque.
361
T¿í::filcas a~ &Hiii!sls d~ datos eH lHvestigáci6H
de
mercados
, TABLA 8.3 _.)I{;
:
_,
(1/'."
Informacion proporcIOnada por el programa 1,
l' SourceData;=EJCHAID1.SAV .' Standard Options StartUp= · Ana1ysisDepth= MinSubGroup(Before)= ! MinSubGroup(After)= EligibilityL~ve1= ~ MergeLeveI= · FreqVar= WeIghl= carnest 1eve1s=2
level 1) 2) estudios 1) 2) 3) 4) 5) edad 1) · 2) 3) : 4) situ1abo
1) 2) estrucfa 1) , 2) 3) 4) 5) 6) uiños 1) 2) sexo 1) 2)
362
value O
1 levels=5 1 2 3 4 5 leve1s=4 1 2 3 4 levels=2 1 2 levels=6 1 2 3 4 5 6 levels=2 1 2 levels=2 1 2
None 3 100 50 0.050 0.050 (Dependent)
symbo1: 1abe1 S: Sí ha cambiado No ha cambiádo N: Monotomc S: Sin estudios Primarios P: FP-BUP F: D: Diplomado L. Licencíailéi Monotomc 1: Menor de 30 2: De31 a40 3: De 41 a 55 Más de 55 4: Monotomc D: Desempleado E: Empleado Monotomc 1: Umpersona1 2: Matnmomo sin 3: Matnmomo con
4:
Bigen~racionál
5: 6:
Solo hijos Otros Monotomc Con hijos menor Sin hijos menor Monotomc Hombre MUjer
C: S: H: M:
Techmcal Options Method= NotnlIlál Chi-Square= LikelihoodRalIo Off (defauít) WLM= Bonferrom= Yes
Cambio de establecimIento habitual en los últimos años; frequency 486 1514 Estudios realizados 312 760 514 248 166 Edad 418 570 598 414 SituaCión laboral 412 1588 Estructura familiar 212 302 1188 98 124 76 NIÑOS-4 1730 270 Sexo 350 1650
© Ediciones Pirámide
SE;gq¡.entélciÓn JerárqutcéI '. i ' ,.', . I
-
Consideramos la opción de variable nOminaL Se utiliza la X2 y el ajuste de Bonferroni. J, ,'" ,No J:¡ay varíap/e fr"cueR-cla, y cuan4() la hay es ul).a yapa!?/" que recoge la frecuencia o veces que se repite cada caso. No P,~Y p~!!-.ge~~,c!.ón.
Además se detallan las especificacIones para cada varIable (todas han sido consIderadas como monotónicas): número de categorías, valor numénco y símbolo aSIgnado a cada cate¡¡oría (el símbolo comcide con la pnmera letra de la denOminación o , _, ·:':c\'j] '.. _ _.. 'r!J\..¡":" ',< 'el U,',j'.I!j ; bIen, si eso no es posIble porque existan coincidencIas, se mantiene el número aSIgnado); finalmente, se expresan las frecuencIas para cada categoría (tablas 8.4 y 8.5).
camest 1: 24,30% N~2.660
estudios
S
,PI. 1: 26,78% N~ 1.688
. 1: 10,9% N~312
esu cfa
esu cfa
r
I
1:6,9% lV~ 5,8
2 1:25%
1:
N~72
N~
j
2
I
3-6
2-6 25,29% N~ 1.534
I
6,59%
1: 41,56% N~ 154
182
j:
eJ;os
3
e d
I
Figura 8.2.
I
PF 1: 26,67%
DI. 1: 62,5%
N~90
4
4 1: 18,75%
N~64
1'3 1: 26,60% N~ 1.278
5
6
7
N~256
Árbol de segmentación o dendrograma.
El dendrograma es una pIeza clave para la mterpretación de los resultados. Detalla la secuencIa de partición, la varIable predictora, las categorías en las que se divide cada grupo, la media y el número de elementos por grupo. Esta misma mformación se consigue con tablas, bien para todo el modelo o bIen para una parte. Un ejemplo lo constituyen las tablas que sIguen al dendrograma y donde se expresa también la secuencIa de partIción. En nuestro caso, como la VarIable es dicotómtca es posible expresar en el árbol tanto el porcentaje de los que han cambIado de estableCImIento habitual como el © EdicIOnes Pirámide
b
363
Técnicas de análisis de datqs en inyestigqciór¡ dE: mercqdos TABLA 8.4 Vanable w(?di9tora ,
Predictl>r :Est"d!!is 1) 2)
7
"""
.' J~r~!§
S P-L
...... -. -',",-
;,
~eHF~
,
, -~~
$::::~
. .• ~ J:l:t
S: P: F: D: L
Sin estudios PrimarIOs FP-BUP Diplomado Licenciado
..... 312 1.688
312 760 514 248 166
TABLA 8.5 Información sobre los segmel1fOs Id
CC)I!n t
-1-2-3-4-5-6-7-
58 72 182 90 64 1.278 256
"
'.'S~qff 6,90 25,00 6,59 26,67 62,50 26,60 18,75
.. I
estudios=S estudios=S estudios=S estudios=P-L estudios=P-L estudios=P-L !"studios=P-L
,
.'
....•.
Estrucfa=l Estrucfa=2 Estrucfa=3-6 Estrucfa=1 Estrucfa=l Estrucfa=2-6 Estrucfa=2-6
Estudios=PF Estudios=DL Edad=I-3 Edad=4
porcentaje de los que nq han cambiado, Se ha optado por el pnmero aunque el programa permite cambiar en cualqUier momento (pulsar score dentro de la opción windows). Lógicamente, el gráfico parte del grupo completo de 2.000 mdividuos: un 24,3% (486) de ellos declararon haqer cambiado de establecimiento comercial habitual en estos dos últlmos años. El mejor predictor es la v'lnable estudios, para la que el programa ha encontrado diferencias sIgnificatlvas entre el grupo S6 (sin estudios) y el grupo P-L (resto de categorías). El grupo S ~stá formado por 312 mdiv¡duos entre los que un 10,9% declaran haber cambIado de establecllmento. El grupo P-L está compuesto por 1.688 con un porcentaje de cambio de establecimIento supenor al doble que el antenor (26,78%). De estos nodos (ahora considerados como padres, porque de ellos se denvan otros) se derivan otros nodos hijos. Así, del grupo S la varIable mejor predictora es estrucfa, distmgUlendo entre: -
6
364
Grupo 1: Hogares umpersonales, con un total de 58 mdividuos, de los que solamente el 6,9% ha cambiado de establecllmento. En la parte supenor de cada recuadro aparece el símbolo que identifica al grupo. © Ediciones Pirámide
Segmer¡taciém Jerárqu¡r::é1. -
Grupo 2: Matrzmon¡o Sin hijos, compuesto por 72 personas con un porcentaje ele cambIo ele ~st¡¡q¡~pm¡~ntq del 25%.
-
QmIJP
H:
Ppnnp¡~ ~l r~~tp g~ F1lf¡lgprf¡fs, e~ e¡ más nHm~m~o 0&2)
un PPrF~¡¡tflJe s¡milw ¡¡I pflmer gmpp.
y cqn ..
Estos grupos form¡¡n los tres prImeros segmentos Identific'ldos, y mnguno de ellos es susceptible de ser divlqido, por cuanto no cumplen las especificacIOnes (bIen no son SIgnificativos o bIen no cumplen los requIsItos reMivos '11 tamaño). Evidentemente, la suma oe sus componentes es ~l tamaño del grupo padre (312). Para d resto de categorías elel mvel de estudios (grupo P-L) también es estrucfa el mejor predictor, distmgUl~ndo entre hog¡¡res I¡¡Jifamili¡¡res (1) y el resto (2-6). PflH el prImer caso, el tamañp es ele 154 y presenta un eleva¡:to porcentaje de cambio de establecImiento (41,56%). Ahora se produce otra diVIsión, y VUelve a 'ser la VarIable estl¡dios lfl mejor precjictor¡¡, distlngUlendo ops nuevos segmeqtps: Grupo PP: COntI~ne los de mvel de estudios ¡flferior (primwlo,s y FP-BUP); la c¡¡tegoría Sin estudips ya est¡¡Pfl efl otro grupo, que son mayoría dentro de esta diYlsiÓfl con 90 elementos y con un porcentaje de cambIO del 26,67%. -
Grupo D-L Los de mvel de estudios superIor (diplomados y licenczados) que presentan el mayor porcentaje de cambIO (62,5%).
Estos segmentos (4. 0 y 5. 0 , respectivamente) flO se dividen aunque cHmpjíerafl los reqUIsitos p¡¡ra ello, puesto que se había mdicaoo al pnnclpio un mvel de profundielad qe 3, y ~ste es el tercero. Se en1Jend~ que flO se c()nsider¡¡ el grupo ongm¡¡l. Por otro lado, el grupo 2-6, qj1e reúne el resto de categorífls y que es el m~s nu¡neroso (1534) con un porcentaje elel 25,29%, se divide por la vanapl~ edad, mejor predictor, entre: año~
y que es mayorItarIO
-
Grupo 1-3: Que contIene a los menores de 55 (1278) con un porcentaje de cambIO del 26,6%.
-
Grupo 4: Son los mayores de 55 años, es meflOS numeroso y con un porcentaJe menor (18,75%).
Igualmente, por ser grupos de mvel 3 1)0 se dividen, aunque cumplieran los requisitos. Son los segmentos 15. 0 y 7. 0 Recordemos que todas las vanables se han definido como monotómcas, de ahí que la agrupación de categorías en un grupo tenga Una dirección clara (tablas 8.6 y 8.7). Respecto a las tablas de ganancIa, la tabla 8.6 recoge en la pnmera columna la Identificación oe los segmentos ordenados de mayor a menor porcentaje oe cambio de estableCImIento comercial habitual. Para cada segmento se proporciona: © -\3riclOnes :pirámide
>
Técnicas de análisis de datos en investigación de mercados TABLA 8.6 Tabla de ganancía (a)
5 4 6 2 7 1 3
64 90 1.278 72 256 58 182
3,2 4,5 63,9 3,6 12,8 2,9 9,1
62,50 26,67 26,60 25,00 18,75 6,90 6,59
257 110 109 103 77 28 27
3,2 7,7 71,6 75,2 88,0 90,9 100,0
64 154 1.432 1.504 1.760 1.818 2.000
62,50 41,56 28,21 28,06 26,70 26,07 24,30
257 171 116 115 110 107 100
TABLA 8.7 Tabla de ganancía (b)
l;r;;Jj :>'.;({ ry· j
10 20 30 40 50 60 70 80 90 100
-
-
';¿, 200 400 600 800 1.000 1.200 1.400 1.600 1.800 2.000
:[eY
rv,,;r;;~f:Cidi"
38,12 32,36 30,44 29,48 28,91 28,52 28,25 27,50 26,26 24,30
7fT
157 133 125 121 119 117 116 113 108 100
Tamaño. Porcentaje sobre el totaL Así, para el segmento 5 es 64/2000 = 3,2%. Score o puntuación de ganancia, en nuestro ejemplo la proporción de mdividuos que han declarado que cambIaron de establecimIento habItuaL Índice o cocIente entre la puntuación del segmento y la general de la muestra, Para el segmento 5 se obtIene de la sIguiente forma: 62,5% x 100 = 257 14,3%
-
366
Valores acumulados del tamaño en térmInos absolutos y relativos, © EdiCIOnes Pirámide
Segmentación JerárqUica -
Score (ganancia) o puntuación media para los segmentos considerados. Para el segmento 2, es la puntuación media de los antenores (28,21 %) que suman 1.432 más la de este segmento, es deCIr:
0,2821 x 1.432 + 0,25 x 72 = 28 05% 1.504 ' -
Nuevo índice obtenido sobre la columna antenor y tomando como base (lOO) la media general, o sea, 24.3%.
La tabla de ganancIa (a) nos da una medida de la ganancia o puntuación que supone cada segmento respecto a otro o a la media general. Así, los tres mejores segmentos (5.°, 4.° Y 6.°) suponen un 71,6% del total, y entre sus mtegrantes un 28,21 % han cambIado de establecimiento comercial habitual y representan un 83,12% del total de los que han cambIado: 0,625 x 64 + 0,2667 x 90 + 0,266 x 1.278 = 08312 486 ' La tabla (b) es el resumen por deciles, y se muestran los resultados que se obtendrían SI se consideraran solamente los que tIenen mayor porcentaje. Para cada fragmento se expresa el tamaño, la score y un índice calculado al tomar como base 100 el porcentaje general del 24,3%. Esta puntuación score se consIgue de la fonna siguiente: -
Para el prImer caso: (154 x 41,56%)+ (46 x 26,6%) 200
-
= 38,12%
Para el segundo: (154 x 41,56%) + (246 x 26,6%) = 32359% 400 '
El programa pennIte extraer toda la varIedad de tablas cruzadas entre cualqUIer .variable predictora y la varIable a explicar, de todo el modelo o de una parte (por ejemplo, solamente con las VarIables predictoras significatIvas). Las tablas cruzadas pueden vemr expresadas en valores absolutos, en porcentajes sobre las filas, sobre las columnas o sobre el total; además, las tablas pueden refenrse a antes de realizar una partición o a después de realizada. Sea cual sea la opción elegida, para cada tabla cruzada se proporciona el test de la X2 , lo que penmte comprobar la eXIstencIa de diferencias significatIvas y extraer conclUSIOnes. Por razones de economía solamente se expone un ejemplo de tablas cruzadas (tablas 8.8 a 8.12). © Ediciones Pirámide
br.
367
Técnlcas de a.nálisis de datos en investigación de mercados TABLA 8.8
Tabla cruzada estudios y camest (porcentajes fila antes) Estudios
Row% Total
(!Jeróre)
Sí ha cambiado
Nó ha cambiado
Sin estudios Pnmanos Fp·BUP Diplomado LicencIado
10.90 24,47 28.40 27.42 31,33
89,10 75,53 71,60 72,58 68,67
312 760 514 248 166
24,30
75,70
2.000
Total
..-
_
LR chi-square = 46,14, df= 4, prob = 2,3e-9.
TABLA 8.9
Tabla cruzada estudios y camest (frecuencIas antes) Estudios
N
.
(before)
Sí. ha cambiado
Sin estudios Pnmanos Fp·BUP Diplomado LicenCÍado
34 186 146 68 52
278 574 368 180 114
312 760 514 248 166
486
1.514
2.000
Total
No ha cambiado
Total
LR chi-square = 46.i4, df= 4, prob = 2,3e·9.
TABLA 8.10
Tabla: estudios y camest (porcentaje filas después) Estudios
Row % .0.
(aftor) S P-L Total
•••
Sí ha cambiado
No ha cambiádo
Total
10,90 26.78
89,10 73,22
312 1.688
24,30
75,70
2.000
LR chi-square=41,61, df= l, prob=4.Se-10 (adj.).
368
© Ediciones Pirámide
Segmentación JerárqUIca TABLA 8.11 Tabla cruzada estudios y camest (frecuencias, después) Estudios (after)
Row
!
%
Sí ha cambiado
No ha cambiado
Total
34 452
278 1.236
312 1.688
486
1.514
2.000
S P-L Total
LR chi-square=41,61, df= 1, prob= 4,Se-Iü (adj.).
TABLA 8.12 Información sobre los segmentos Jd " Parent Depth I
2 3 4 5 6 7 8 9 10 11 12
O 1 2 2 2 1 6 7 7
6 10 10
1 2 3 3 3 2 3 4 4 3 4 4
I
Cath
Ndt
O 1
O 2 3 3 3 2 2 2 2 2 2 2
I
2 3 2 I
1 2 2 I
2
Cáfegol-Y
Varla1.>Íe
«>>
~
«S»
«estrucfa»
«1 »
«-1-»
«2» «3-6»
«-2-» «-3-»
«P-L»
«estrucfa» «estudios»
«1»
"PF» «DL» «2-6» «1-3»
«-4-» «-5-» «edad»
«4»
«-7-»
«-6-»
Sco/-e '
Tot31
24.3 10.8974 6,89655 25 6,59341 26,7773 41,5584 26,6667 62,5 25,2934 26,6041 18,75
2.000 312 58 72 182 1.688 154 90 64
1.534 1.278 256
I Couutl 486 34 4 18 12 452 64 24 40 388 340 48
Count2
1.514 278 54 54 170 1.236 90 66 24 1.146 938 208
La últIma tabla representa una forma distmta de exponer la mformación. La primera columna identifica a los elementos comenzando la enumeración de los grupos de ízqUIerda a derecha de la figura y sigUIendo por los nudos hijos, cuando éstos se han enumerado se pasa al sigUIente nudo del mIsmo nIvel y también se enumeran los nudos hijos, y así sucesivamente. Las columnas que siguen mforman sobre: El nudo padre. El nIvel de profundidad en el que se encuentra. El orden en la categoría. El número de categorías eXIstentes. La denommación de la categoría. © EdiCIones Pirámide
bE
369
Técnicas de análisis de datos en Investigación de mercados
-
Vanable que opera como predictor. Score o puntuación. Total de elementos que forman el segmento. Frecuencias para los que, en nuestro ejemplo, han cambiado y los que no han cambiado de establecimiento comercial habItual.
El investIgador debe probar cambiando las especificacIOnes o considerando otras posibilidades diferentes. En nuestro ejemplo, cabría la consideración como libres de las vanables edad, estudios y estrucfa. Operando con esta modificación. el resultado varía algo. Solamente reproducimos el árbol de segmentación que nos permite comprobar cómo las variables predictoras siguen siendo las mismas, es decir. estudios y estrucfa; SIn embargo, los segmentos obtenidos del grupo S alIora son dos. Uno formado por las categorías 1, junto con las que van de 3 a 6, que antenormente eran grupos Independientes pero con un porcentaje muy parecido, y otro grupo compuesto únicamente por la categoría 2, que también cOIncide con el caso anterior. En defimtIva, ahora el número de segmentos es de 6 en lugar de 7. Ésta es la consecuencia de considerar libres a las vanables, lo que permIte una mayor posibilidad de combInaciones entre las categorías de las variables, aunque en nuestro ejemplo solamente se presente la variación comentada.
camest
1: 24,30%
N=2.000
I
I
estudios S 1: 10,9%
PL 1: 26,78%
N=312
N~
1.688
estI efa
esJCfa 13-6 1: 6,67%
2 1: 25%
N=240
N~72
1
2
I
I
1 1: 41,56%
2-6 1: 25,29%
N~
154
1.534
N~
esrrkiOS
ed
d
I
Figura 8.3.
370
PF 1: 26,67%
DL
1-3
1: 62,5%
N~90
N~64
1: 26,60% N~ 1.278
3
4
5
4 1: 18,75% N~256
6
Árbol de segmentación (tras modificar especificaciones de variables). © EdiCIOnes Pirámide
Segmentación Jerárquica
7.
EJEMPLO DE CHAID CON VARIABLE DEPENDIENTE POLlTÓMICA Veamos un ejemplo para una vanable con más de dos categorías. En el fichero EJCHAIDI.SAV seleccionamos las vanables sexo, s!tulabo, niños-4, edad y estrucfa como variables predictoras, SIendo las dos últimas definidas como libres. Como variable dependiente seleccIOnamos opinión] que regIstra la opmión expresada respecto a la fidelidad de marca. Sus categorías son 1: muy fiel a la marca; 2: algo fiel y 3: poco fiel. En suma, se mtenta obtener una segmentación de la muestra atendiendo al grado de fidelidad a la marca con las variables predictoras mencIOnadas. Como se observa en el gráfico de segmentación (y se corrobora en la tabla que recoge la SIgnificación de las variables predictoras) es la vanable sexo la de mayor SIgnificación. DiferencIa entre hombres y mUJeres, siendo los pnmeros los que presentan porcentajes superiores de fidelidad a la marca. M 1: 20,70% 2: 25,70% 3: 53,60%
N=2.000
se~o I
H
M
1: 40,57% 2: 40,57% 3: 18,86%
1: 16,48% 2: 22,55% 3: 60,90%
N=350
N= 1.650
~d
sltulabo
12
34
D
E
1: 42,45% 2: 48,11% 3: 9,43%
1: 37,68% 2: 28,29% 3: 33,33%
i: 3,59% 2: 9,58% 3: 86,83%
1: 19,76% 2: 25,84% 3: 54,41%
N=212
N= 138
N=334
N=J.316
1
2
e,tI efa
eSt$cfa
r
I
245
36
15
2
3
46
1: 7,84% 2: 5,88% 3: 86,27%
1: 3,08% 2: 0,00% 3: 96,92%
J: 0,00% 2: 25,49% 3: 74,51%
1:41,51% 2: 35,85% 3: 22,64%
1: 16,05% 2: 17,28% 3: 66,67%
1: 17,05% 2: 26,74% 3:56,21%
1: 28,57% 2: 20,41% 3: 51,02%
N= 102
N= 106
N= 162
N=950
N=98
6
7
8
9
N= 102 3
N~
130
4
Figura 8.4. © Ediciones Pirámide
»
I
1
5
Árbol de segmentación (vanable politóm¡ca).
371
TémiCqs de análisIs de dqtos en lf1uestigqc:;ión de merci"ldos .,.,
.. '
En ~! s~gundq r¡¡yel, el gp.ipq fqpnaqp Rpr los h01l1IJreS es cliyidj40 pqr li[ vanapie edqp en dos: -
-
Segmento 1: Menores de 40 años que se consideran en su mayor parte muy fieles (42,45%) o algo fieles (48,11 %) a la marca y está ¡:;ompuesto por 212 indiYid].lps. Seg¡ne¡¡tp 2: -kos mayores de 40 años que presentan una fidelidad más matizad,l. t)].lS 138 ¡ntegrantes est~1l muy rep¡¡rtidos, un tercIO se considera poco fiel ¡n¡~lltras que un 37,68% y un 29% se consideran mucho o algo fieles a !a ¡narca.
El gf].lpo de las mUjeres en el segundo mvel es segmentado por la vanable situlabo (situación lalJoral del cabeza de familia) entre el grupo D (desempleado) y el E (empleado). El primero es el menos fiel a la marca; está formado por 334 entrevistadas que en su gran mayoría se declaran poco fieles a la marca (86,83%). A su vez se divide en tres grupos debido a estrucfa (recoroemOs que se consideró varIable libre): -
Segmemp ~: Fprm'l9o RPr B~I1~lle¡:;¡~¡¡tes a hogares u¡11p er sonales (1), presentan el mayor porcentaje de muy fieles de estos tres segmentqs. Segmento 4: Formado por familias sm hijos, bIgeneraClonales o sólo por hIJOs (2, 4, 5). Segmento 5: Compuesto Ror las categorías de familias sin hijos y otros (3, 6). De todos los segmentos, es el úmco en el que nadie se declara muy fiel, pero por otro lado es el que menos porcentaje tiene de poco fieles de estos tres segmentos.
El grupo E (empleado) es el más numeroso; es claramente más fiel que el D, y también está dividido por la vanable estrucfa en cuatro segmentos: Segmento 6: Form'lcl0 Bar los hogares umpersonales o compuestas por sólo ¡¡ijPs, es el ¡n4s fiel de estos cuatro. El 77% se declara a.lgo o ml.JY fi~l a la mar¡:;a. Segmento 7: Compuesto por la categoría matnmomo sin hijos, que es el menos fiel de este nudo. -
Seg1l1~nto 8: )31 más numeroso de todos, IJ1tegrado por familias con hijos y eSCas'ln:¡ente fieles. Segmento 9: formado por familias bigeneracIOnales y la categoría de otros, algq m4s fi~l que los dos antenores, aunque más de la mitad de sus componentes SIg].len declarándose poco fieles.
[)esoe ].lna perspectiva práctica, sería cuestionable el mterés de la divIsión en el tercer myel causarlo por una mIsma vanable (estrucfa), distmgmendo entre segmentos no muy distintos, especIalmente los segmentos 3,4 y 5 (tablas 8.13 a 8.16). Introduzcamos una modificacIón en el ejemplo que nos permIta analizar la rentabilidad de cada segmento. Supongamos que el beneficIO esperado varía según la © Ediciones Pirámide
TABLA 8.13
Salida del ejemplo con variable dependiente politómica >\\Id 1 2 3 4 5 6 7 8 9 10 11 12 13 14
'. ,pare~(r ~",pW !C~tri !it!!f~t O 1 2 2 1 5 6 6 6 5 10 10 10 10
O
1 2 3 3 2 3 4 4 4 3 4 4 4 4
1 1 2 2 1 1 2 3 2 1 2 3 4
i
'..
~
..
'~---.
"
V~fi~!1I",
O
«
«sexo»
2 2 2 2 2 3 3 3 2 4 4 4 4
~
«edad»
«12»
«-1-» «-2-»
«34» «M»
«D» «1»
<<245» «36» «E» <<15» «2» «3»
«46»
..... "Score'
«sltu)abo» «estrucfa» «-3-» «-4-» «-5-»
, •• ¡;".
20,7 40,5714 42,4528 37.6812 16.4848 3,59281 7,84314 3,07692
O
«estrucfa» «-6-» «-7-» «-8-» «-9-»
19,7568 41.5094 16.0494 17.0526 28,5714
""...
1"9l!1l !C911I1t! ~mffi~ 2.000 350 212 138 1.650 334 102 130 102 1.316 106 162 950 98
414 142 90 52 272 12 8
514 142 102 40 372 32 6
4
P 26 340 38 28 254 20
O
260 44 26 162 28
Cqt¡ot3
1.072 66 20 46 1.006 290 88 126 76 716 24 108 534 50
TABLA 8.14
Información sobre las variables predictoras
Sexo
EqaCl
l,le-48 4.l e· 28
SitulabQ
1.8e-2~
Estr¡¡cfa
5,4e-16 0,00025
Niños
TABLA
HM
2 4 2 6->4
1 234 DE 142 35 6
2
es
8.15
Tabla de ganancza Jd . • 1 6 2 9 8
--
~l'fÍfi
lodex '." '...' ,.,'.
l····'..·······'.····.'·.,·:
212
IQ.6 5,3 6.9 4.9 47.5 8,1 5,1 6,5 5,1
42,45 41,5) 37,68 28,57 17,05 16,05 7,84 3,08 0.00
205 2Q! 182 138 82 78 38 15 O
212 318 456 554 1.504 1.666 1.768 1.898 2.000
fOp
3 4 5
© Ediciones Pir~de
!!¡, 9f~!!
138 98 950 162 102 130 IP2
7
- _..- .
¡¡¡~f
'
.•
fC!!ffi;si:lF !!¡,ef ll!!
W.P 15,9 22,8 27,7 75,2 83,3 88,4 94.9 100.0
i~fI¡~~
JJ~¡f~x
42,45 42,14 40.79 38,63 25.00 24,13 23.19 21,81 20,70
205 204 197 187 121 117 112 105 100
'..
3,73
r Técnicas de análisis de dél-tos en investigél-ción de mercél-dos TABLA , 8.16 Tabla de ganancia (percentiles) /.~~~,
,
2Q 40 60 80
lOO
f1,'~iYi;
,',;-n
400 800 1.200 'i 1.600 2.000
41.22 31'i~9 27,01 24,46 20,70
L
."
"t
I;f,'~.'!.~;'
,
,
199 155 130 118
lOO
fidelidad, de manera que se pueden establecer ponderaCIOnes según el grado de fidelidad. Así, se establece la sIgmente ponderaciÓn TOO, 46 Y-10 para los muy, algo o poco fie~es, respectiv~mente. Estos valores podrí~r represy,ntar ,Unidades ,mqretanas de beneficIO cuando se peva a cabo una promoción de la marca. Si repetlmos el análisIs mediante el método nominal, pero introducIendo las ponderaciones comentadas (marcar en el menú method + nominal para editar las puntuacIOnes de las diferentes categorías de la varrable opiniónl), y trabajando con las puntuacIOnes medias (marcar SCore en la opción wmdows), obtenemos un nuevo dendrograma en el que ~a ganancIa media del nudo O es 25,62 que se obtiene de la ' sigmente fonna: (414 x 100 + 514 x 40 + 1.072 x (-10))/2.000 LógIcamente, los diferentes segmentos tlenen gananCIas muy distlntas que van desde 60,75 para el segmento 1 a -6,62 para el segmento 4. Se observa cómo las suceSIvas partlclOnes presentan ganancras muy diversas. Sin embargo, en algún caso la diferencia no es muy alta; por ejemplo, la distmcíón entre el segmento 3 y el 5 no supone gran diferencia en ténnmos de gananCIa, es decir, la que va de 1,57 a 2,75, lo que no es mucho. La infonnacíón de la figura 8.5 es completada por las tablas de ganancía. La tabla 8.17 muestra para cada segmento: -
-
El tamaño. l'i pI porcentaJe que representa respec,to del tot~j 1e la ,ll),uestra. La gananCIa esperada. El índice con respecto a la ganancIa media de la muestra. Los valores antenores acumulados.
presenta a los segmentos ordenados de mayor a !menor ganan,cia. Al Esta 1t,abla ; !:, ' plantear 111', una promoción con las características del ejemplo interesa dirigrrla, por .¡:,_ 1" 1 1 : " ,1;" i, " _ ' ", :--¡:',-: este ordy,?: ~ j¡?,~bres,rp.enores ,de años; a mweres perteneC,\entes a familias cl;lYo cabeza de fm!l1h~ ,ys,ta ,e,mp,lead9 y de ,la categoría 1 y 5; a hOmbres mayores de 40 l
j.
.'
",'"''
10
374
,
,
:(:.'
'.,
':.
',-
j
© EdiclOnes' Pirámide
Segmentación jerárquica
Opinión
1
25.62
N",,2000 se~o
-1 .-
H
M.
54,91
19,41
N~350
N~
e~d
1650
Sltulabo· I
12 60.75 N~212
D
34 45.94 N~
1
E
-1.26
24,65
N~334
138..
N~
estrtlcfa
2
1316
estrhcfa I
-
1
245 ...
1
-6,62 130 .
1.57 N~
102
N~
4
3
Figura 8.5.
36 ... 2,75
N""J02 5
15 53,58 N~
106
6
I
2
3
46
16,30
22,13
31,63
N= 162
N=950
N=98
7
8
9
kbo1 de segmentación (puntuaciones medias).
TABLA 8.17
Tabla de ganancía (a)
1 6 2 9 8 7 5 3 4
212 106 138 98 950 192 102 102 130
10,6 5.3 6.9 4.9 47.5 8,1 5.1 5.1 6.5
60,75 53,58 45,94 31,63 22,13 16,30 2,75 1,57 -6.62
237 209 179 123 86
64 11 6 -25
212 318 456 554 1.504 1.666 1.768 1.870 2.000
10,6 15.9 22,8 27,7 75,2 83,3 88,4 93.5 100,0
60,75 58,36 54,61 50,54 32,59 31,01 29,38 27,86 25,62
237 228 213 197 127 121 115 109 100
años, y así sucesivamente. Desde luego, no resultan interesantes los segmentos compuestos por mUjeres perteneCientes a familias cuyo cabeza de familia está en siluación de desempleo cualgmera que sea su estructura familiar, pero, especialmente, el grupo formado por los matrimomos con o slll hijos y los familias blgeneraclOnales. © EdicIOnes Pirámide
375
Técnicas de aJiálisls de datos en investigación de mercados La tabla 8.18 (b) mforma sobre la ganancIa alcanzada para uh determinado porcentaje de la muestra. Así, para un 20%, es decir, 400 mdividuos, la ganancIa obtenida es: (318 x 0,5836) + (82 x 0,4594) = 0,5581 400 TABLA 8.18 Tabla (b) de ganancia (percentiles) Tile
20 40 60 80 100
( Siz"
400 800 1.200 1.600 2.000
--
Seore
Iódex
55,82 41,80 35,24 31,62 25,62
218 163 138 123 100
Al considerar la ganancia media, la jerarqUlzación de los segmentos puede variar. En este ejemplo los cambIOs se producen en los últimos segmentos. Mientras que antes los tres últimos segmentos tenían el sIguiente orden: 3, 4 Y 5, ahora, una vez considerada la ganancia media, el orden es S, 3 Y 4.
8.
EXTENSiÓN DE CHAID A VARIABLES DEPENDIENTES ORDINALES: UN CASO PRÁCTICO 8.1.
Una aproximación al CHAID ordinal
En su modificación, Magidson considera mi test alternativo (asociación-Y) que analiza lo bien que una vanable predice las puntuacIOnes de otra vanable dependiente designada por Y. Se aplica cuando se conocen algunas o todas las puntuacIOnes de la variable dependiente, pero también cuando son desconocidas? Mediante este procedimIento se asocian puntuacIOnes distmtas a cada categoría de la varIable dependiente: SI tales puntuaciones fueran iguales las categorías se Ull!rían. Evidentemente la segmentación obtenida vanará según las puntuaciones aSIgnadas. Este test de asoCiación analiza la relación eritre la variable fila y la variable columna Y, habIendo especificado las puntuaciones y" Yz Yj' mIentras que el test de independenCIa analiza la no eXIstenCia de asoCiaCIón entre filas y columnas para cualqUIer puntuacIón de las columnas. 000
7 En este caso utiliza una técmca de máXIma verosimilitud basada en una variable predictora deSignada (Magidson, 1994).
376
© EdiclOnes Pirámide
Segmentaciqn JerárqUica Cuando una vanable dependiente tIene puntuaciones de columnas conocidas, el test de asocIación Y es más potente que el de llldependencIa. y SI es nulo Implica solamente (/- 1) x 1 grados de libertad. mIentras el de llldependencla supone (/ - 1)(1 - 1) grados de libertad. Para 1 categorías de la varIable predictora y ] de la vanable dependiente (Magldson, 1994). Así. el estadístIco X2 ele mdependencia se desglosa en: -
Un componente de (/- 1) grados de libertad: X2 (O/Y), que mide el grado de asocIación de Y en la tabla. Un componente de (/- l)(] - 1) grados de libertad: X2 (Y), que mIde otras fonnas de no llldependencla.
De manera que:
o también.
x2 (independencIa) = x2(debido a la asocIación
Y) + x2 (residual)
Como X2(Y) = X2 (O) - X2(0/Y), cuando es no sIgnificatIva hay que concluir que la Y explica toda la no llldependencIa. A contInuación se presenta un ejemplo que permIte aplicar 10 comentado.
8.2.
Ejemplo práctico
Apliquemos el método ordinal al ejemplo anterior llltroduciendo Igualmente las ponderacIOnes utilizadas (lOO, 40 Y -10). Comprobamos que los resultados difieren ele aquellos conseguidQs con el ejemplo nomlllal de vanable politómlca. Aqnque cOlllcide el pnmer predictor (sexo), ahora el segmento hombres se diVIde en dos segl1n l,! eXlstenpa de niños pequ~fjos en la f¡llnilia p no (yanable que antes no aparecía); en el pr¡mer caso la subdivIsión Se realiza pqr l'! variable edael. El s~gmento de mUJere" SIgl!~ elividjelp por situlabo, aunqqe ¡tj1qra para la categoría ele des{'mpleado la partIción Se debe a la edad (figura 8.6). En suma. ahora se dispone de SIete segmentos muy distllltos de los anteriormente logrados. En realidad no coincide ninguno, y los segmentos más parecidos son el actual segmento 7, que reúne a los antIguos segmentos 7 y 8, que ya se comprobó que no diferían mucho entre ellos. Como se comprueba mediante la tabla de ganancIa y considerando las puntuaCIones medias, el segmento más lllteresante es el 3 (hombres pertenecIentes a fil mI " .. . , .... . lias Sl1\ /lijas pequeñqs); es el más reducido pero ca!! mayor Pllnt\Jación. Le SIgue a cont\nuilcÍón ~l segmento 1 (hombres con hijos pequeños y menores de 40 años), .
© EdtclOnes Pirámide
hr
'
377
Técnicas de análisis de datos en investigación de mercados ' : ·•. 1
.
,
.
. .• ,
Opmión I 1: 20,70"/0 2: 25,70% 3: 53,60% N~1.üoo
s~~o
I
H
M
1: 40,57% 2: 40,57% 3: 18,86%
1: 16,48% 2: 22,55% 3: 60,90% N~ 1.650
N~350
,
,
I
I
e
s
D
E
1: 37,33% 2: 42,00% 3: 20,67%
1: 60,00% 2: 32,00% 3: 8,00%
1: 3,59% 2: 9,58% 3: 86,83%
N~300
N~50
N~334
1: 19,76% 2: 25,84% 3: 54,41% N~ 1.316
eJ,d
3
eJ,d
ni40s
sim abo
I
esttt-cfa I
I
12
34
12
34
14-6
23
1: 38,89% 2: 51,11% 3: 10,00% N~ 180
1: 35,00% 2: 28,33% 3: 36,67% N~ 120
i: 7,41% 2: 20,37% 3: 72,22% N~ 108
1: 1,77% 2: 4,42% 3: 93,81%
1: 35,29% 2: 28,43% 3: 36,27%
N~226
N~204
1: 16,91% 2: 25,36% 3: 57,73% N~ 1.112
2
4
5
6
7
Figura 8.6.
ÁrbOl de segmenlación (método ordinal).
con una ganancia de 58,33. Por el lado opuesto, los menos interesantes son el segmento 4 (mujeres menores de 40 años pertenecientes a hogares cuyo cabeza de familia está en situación de desempleo), con una ganancia de 8,33, y, sobre todo, el segmento 5, que se diferencia del antenor en que se trata de mUjeres de más de 40 años, con una ganancia de -5,84, Al utilizar el críterio ordinal la segmentación ha mejorado identificando segmentos con mayores diferencias. En el caso nommal las ganancias oscilaban entre 60,75 (segmento 1) y -6,62 (segmento 4); además, había segmentos no muy diferentes en térmmos de gananCIa; por ejemplo, el 3 y el 5 con ganancias de 1,57 Y 2,75, respectívamente; o el 7 y el 8. Ahora los segmentos varían entre una ganancia de 72 y de -5,84 y las diferencias entre ellos son mayores (tablas 8,19 y 8.20 y figura 8,7).
378
© EdicIOnes Pirámide
Segmentación Jerárquica TABLA 8.19 Tabla de ganancia
3 1 6 2 7 4 5
50, 180 204 120 1.112 108 226
72,00 58.33 43,04 42.67 21.28 8.33 -5,84
2.5 9.0 10,2 6,0 55,6 5,4 11,3
281 228 168 167 83 33 -22
50 230 434 554 1.666 1.774 2.000
2,5 11,5 21,7 27,7 83,3 88,7 100.0
72,00 61,30 52.72 50,54 31,01 29,63 25,62
281 239 206 197 121 116 100
TABLA 8.20 Tabla de ganancia (percentiles)
4bO
20 40 60 80 100
53,54 41.54 34,79 31,41 25,62
800 1,200 1.600 2,000
, I
209 162 136 123 100
Opinión 1 ; 25,62% N~2.000 .
1,
.. 1
,
sexo
I
I
H 54,91%
I'N~ 1.650
N~350
ni os
..
r
s
l
•
D 1,26%
72% N~50
52,07% .1' N~300 '
situ abo
..
I
e
M
! 19,41%
E 24,65% N~
N~334
1.316
3
e ad-· 12 58,33% . N~ 180 1
34 42,67% N~120
2
Fig(¡ra 8.7. © EdiclOnes Pirámide
b
esJcfa
e ad 12 8,33% N= 108 ' 4
34 -5,84%
14-6 43,04%
N~226
N~204
23 21,28% N~ 1.112
5
6
7
Árbol de segme¡{iaciÓ¡{ con pu~tuaciones ~edias (método ordinal),
379
Técnicas de análisis de datos en investigación de mercados En este ejemplo, al ctuzar la varialJ!e sexo con la variable opinión 1 (fidelidad a la marca) para probar su asociación, y tarnmén efectUando la prUeba de asociaCión Yen el rnatco del ahálisis CHAID efectUado, oBtenernos las tablas 8.21 a 8.23. Al final se resUme el desglose del teSt de independencia. Aunque en este caso son significatIvos aihbos tests, no siempre ocurre así, y puede qUe tmo sea significativo y otro no. Ert definitiva habría que cortduir qUe Un 82,23% de la no ltidependencül eS debida a la variable Y y el porcentaje restante a otros factores. TABLA 8.21 Tabia cruzada seXo
y fidélidad a la marca
,.
Se ElJil1Jil!ef¡¡ iiei li la l\'ÍuyHel J Algoiíel
I
.
Hombre
Sexo I
Tlllal
Recuento Frecuencia esperada
142 72,5
142 90
Recuento FreCUencIa espetada
272 341;6
Recu"erlto FrecUencia esperada
414 414
íliiiFEil
Poco fiel
I
Total
66 187,6
350 350
372 424.1
l.bb6 884,4
1.650 1.650
514 514
1.072 1;072
2.000 2.000
TABLA 8.22 Tabla cruzada seXo y fidelidad a la marca (eJemplo CHAID ordinal) Se considera· fiel a la marca
.....
totlil
Muy fiel
Algo fiel
Poco fiel
i
Total
Hombre
Recuento
142
142
66
MUjer
ReCUento
272
372
1.006
1.650
Recuerlto
414
514
1.072
2.000
350
_'-'"'- __ 0 ,, ___ ,,_, ___
TABLA 8.23 estadístiCO
x2
Razón de
"
verosiíililiihít j;' IndependencIa Asociación debida a Y Residual
380
220,789 181,57 39,219
2 1
1
0,000 0,000 0,000
82,23 ]7,76
©
Ediciones Piráriücte
Segmentación JerárqUica Como ya ha sido comeiitado, resUlta tonverllerlte evaltiar otras alternatrvas rmponrendo vanables predictoras o modificacIOnes sobre todo si están respaldadas por conocrmrentds previos teóricos o basados en la expenencra. Así, sería cuestronable la división en el tercer nrvel del grupo de D (desempleado) una vez más por la edad, cuarido se llega a dos segmehtos qUe sori los de menor gariartCia aUn tras la descomposición.
INVENTARIO DE TÉRMINOS Y CONCEPTOS • • • • • • • • • • • • • •
Segmentación como estrategia y como técnica. lVÍodelos basados en cnterios modelos no basados en criterios. Variables cnteno y predictoras. AID. Árbol de segmentación o dendrograíha. Variables libres, níonótonas o flotantes. CHAID. Ajuste de BOhfertonr. Tabla de ganáhcia. Nivel de profundidad de la segíhentacióh, Métddo nomináJ y método OrdihaL Variables lÍloriotónrcas y pOlitónrcas. Test de ihdepeiidencia. Test de asociación Y.
BIBLIOGRAFíA Evrard. y., Pras, .13., y Roux. E. (1993): Márket. Étiúies el recháches en inarkétíng, Editibris N!iibari. oteen, P, E., Y Tull, D. S. (1987): Invesiígticíones dé mercadeo. Prenlice-Hall, Méxlt:b. Kass; G. (1980): «An exploratory tecliriique for lhvestlgatlrig large qUahIltieS Df categorical data», Applied Statisties, núm. 29 (2), pp. 119-127. Legohérez, P. (1997): «La segmentatlOn de la population toimslique fondée sur les nlveaux de dépenses des consommateurs», Revue Franraise du Marketing, núm. 163 (3), pp. 37-53. Magdison, J. (1994): «The CHAID Approach to Segmentation Modeling: Chi-Squared Automatic InteractlOn DetectlOn». en R. P. Bagozzl (ed.), Advanced Methods of Marketzng Research, Blackwell BUsihess, Cambridge (MA). Magdisbn, J. (1992): «Chicsqlláted arlillysis bf ti sca1tible dependeht variable», Proceding of the 1992 íihnutil meeting of fhe AmeriCan Sfatisticd! Assoclation SetlOn on Statlstical EducatlOn. © EdicIOnes
Pirámide
381
Técnicas de análisis de datos en investigación de mercados Magdison, J. (1993): SPSS for Windows CHAID Release 6.0, Chicago SPSS Inc. Malhotra, N. K. (1997): Invesllgación de mercados. Un enfoque práctico, Prenllce-Hall, MéxICO. Miquel, S., et al. (1997): Investzgación de mercados, McGraw-HiIl, Madrid. Norusis, M. J. (1986): Advanced Statlstic SPSSIPC+, SPSS Inc., Chicago (IL). Ortega, E.. et al. (1990): Manual de investigación comercIal, Pirámide, Madrid. Santesmases Mestre, M. (1997): DYANE. Diseño y análisis de encuestas en investigación soczal y de mercados, Pirámide, Madrid. SonqUIst, J. A., Y Morgan, J. N. (1964): The Detection of InteractlOn Effects, Monograph 35, Ann Arbor, Universlty of Michigan. SPSS Advanced Stallstic 7.5. Statzstica for Windows (1995). StatSoft. Statisllcal Innovations Inc. (1993): CHAID for Windows, versión 6.0.1.
382
© Ediciones Pirámide
Juan Sánchez Fernández Teodoro luque Martínez
1.
INTRODUCCiÓN El análisIs discnminante es una técnica multivariante de dependencia, que perll11te encontrar funcIOnes capaces de separar dos o más grupos de Illdivlduos tomando como base un conjunto de medidas sobre los ll11smos representadas por una sene de varIables. Dichas funciones, comblllaclOnes lineales de vanables Illdependientes, discnmlllan o identifican los grupos, definidos por una variable dependiente. Por tanto, el análisIs discriminante puede ser considerado coma una técmca de reducción de datos, ya que ofrece, al desarrollar un pequeño número de funciones discnmlllantes (nuevos ejes), una nueva vIsión de los factores que contribuyen a las diferencias entre los grupos. Este capítulo tiene como objetivo general exponer los fundamentos de la técmca, comprender su filosofía, sus obJetIvos, sus condicIOnes de aplicación e interpretación de los resultados, para lo cual nos vamos a apoyar en vanos ejemplos ilustrativos.
2.
FUNDAMENTOS DEL ANÁLISIS DISCRIMINANTE Antes de entrar de lleno en el proceso de desarrollo del análisis discrimlllante, esta sección sIrve de onentación para una correcta utilización de la técmca. A tal efecto, se especificarán el tIpo de varIables que se deben usar, las semejanzas y diferenCIas que presenta con respecto a otras técmcas multIvarIantes afines, las distllltas finalidades con las que se puede aplicar, las asuncIOnes prevIas a la aplicación de la técmca y aspectos a tener en cuenta, así como una interpretación gráfica que nos ayude a entender algunos de los razonall11entos que se realizarán en apartados postenores.
© Ediciones Piránúde
..
383
Técmcas
d~
análisis de datos en inuestigélción de mi::fcados
2.1.
Características de las variables ;,;
"
"
,,",,:',
,..
_,,'
••• ,
,_,'
: .
O"
El análisIs discrimmante distmgue entre una vanable dependiente, que ha de ser categónca, y las vanables mdependientes, que deben ser métricas (aunque algunos autores han mtentado demostrar la validez del análiSIS discnmmante cuando se cuenta con vanables mdependientes de carácter nommal). Los grupos de la vanable dependiente, dos o más, serán exhaustívos y mutuamente excluyentes: es decir, cada uno de los casos (individuos, productos, empresas, etc.) pertenece úmca y exclUSIvamente a un grupo. Sin embargo, es factible aplicarlo incluso en aquella sltuaCÍón en la que la vanable dependiente no eS realmente nOmlIjal, pu~ien¡:lq ser ordinal, de lIjtervalos o mcluso de razón. En estos casos, el problema quedaría resuelto SImplemente categonzancjo la vanable no nommal, Por ejemplo, ante la pregunta a un grupo de mdividuos acerca del número de CIgarrillos que consumen por día, éstos pljeden responder desde cero hasta el número máXImo posible, sljpongamos 100. Está claro que si queremos considerar esta variable como dependiente en el análisis discnmlnante deberíamos pnmero categorizarla porque, entre otras cosas, el emplear 101 grupos de consumidores no resultaría m operativo m concluyente. Una posible categonzación sería la sigUIente: -
No fumadores: los que no fuman nmgún CIgarrillo al día. Poco fumadores: los que fuman entre 1 y 10 CIgarrillos al día. Fumadores: los que fuman entre 11 y 20 cigarrillos al día. Fumadores empedernidos: los que fuman más de 20 CIgarrillos al día.
En suma, se (iispone (ie una vartah)e nommal form'ld1f pqr CU¡¡trq gr¡mos. En lo q]Je respecta a las varIables mdependientes que se deben mclUlr en el análiSIS, el problema normalmente se resuelve por dos vías: -
2.2.
Vap¡¡bles 911e se !layan u¡i)iza(io cqn antenoridad en estudios SImilares. Variables que, en funCIón de la lógIca y la experiencIa del mvestlgador, se cons)dere recomendable mcluir.
Relación con otras técnicas
A raíz de lo anterior, podemos decir que la pnnclpal diferenCIa entre el análiSIS discnmmante y el análiSIS 4e la vananza radica en que el pnmero es adecuado cuando I¡¡ var)able depen~iente es categónca, ffilentras qlle e) ~egundo lo es en el caso de q1!e la vargble dependiente Sta rnétric¡¡. Por otro 11fdo, mientras que en análisis discnrnmante 11fs varlaples mdependientes son 11)étn¡;as, en el análisis ¡:le !¡¡ Y'!nanza son ca!tgóncas. Por lo gue respecta a) ar¡álisrs 4e regresipn, Sll pnnclp,!1 cliferencla con el an~li sis discnrnmame ra~ic1f en qlle en el pnrnero la vanable dependiente es métnca y en
384
© Ed~ClOnes
P,rámid~
AnálisIs discnmmante el segundo es categónca. No obstante. comparten muchas característlcas, especIalmente en un análisIs discnmmante en el que la VarIable dependiente tenga sólo dos categorías (análisis discriminante SImple). Así. SI en el análiSIS de regresión la variable dependiente la consideramos como una varIable dummy (O, 1), los coeficientes obtenidos serán proporCIOnales a los resultantes en la función discnminante en el caso de aplicar este análiSIS. Sin embargo, el análisis discnminante no está limitado a la obtención de una sola función como el análisis de regresión, smo que se pueden obtener más de una (análiSIS discnmmante múltIple). TABLA 9.1 Similitudes y diferencias entre el ANOVA, la regresión y el análisis discrimmante Variables Número
Dependientes Independientes Naturaleza
Dependientes Independientes
ANOVA Similitudes
Una Múltiples Diferenczas Cuantitativa Categónca
Regresi6n Similitudes
Discriminante
Una Múltiples
Similitudes Una Múltiples
Diferencias Cuantitativa Cuantitativa
Diferenczas Categónca Cuantitativa
Por otro lado, tanto en el análisis discnmmante como en el análisis factorial de componentes prinCIpales se mtenta identificar un nuevo eje, una nueva combmación de las vanables origmales. La diferenCIa está en el cnterio utilizado para seleccIOnar el nuevo eje. Así, en análiSIS factonal de componentes principales, el eje se selecciona de tal fonna que la proyección de los puntos sobre el mismo recoJa la máXIma vanación en los datos, es deCIr, que maxImIce la suma de los cuadrados totales (SCT), ya que su obJetlvo no es dividir la muestra en dos o más grupos. En el análiSIS discrimmante, el obJetlvo no es maxImIzar la SCT. sino maxImIzar el cocIente entre la suma de los cuadrados entre grupos (SCE) y la suma de los cuadrados mtragrupos (SC!), con lo que se obtiene un nuevo eje que recibe el nombre de función discnmmante. La proyección de un punto sobre la función discnmmante se denomina resultado discriminante.
2.3.
Tipos de análisis discriminante
Las téCnIcas de análiSIS discnrmnante se pueden clasificar atendiendo al número de categorías de la variable dependiente en: AnáliSIS discnmmante de dos grupos o SImple: la variable dependiente tlene sólo dos categorías. © EdiclOnes Pirámide
L
385
Técnicas de análisis de datos en investigación de mercados Análisis discrinunante múltiple: la variable dependiente tIene más de dos categorías. La princIpal distInción entre ambas está en el número de funcIOnes discriminantes a obtener. En el caso del análisIs discriminante de dos grupos, se obtendrá sólo una funcIón discrImInante, mIentras que en el análiSIS discrimInante múltIple se pueden obtener más de una función discrImInante, concretamente el mímmo entre (G-l, p], siendo G el número de grupos de la varIable dependiente y p el número de varIables Independientes 1 (generalmente, el número de grupos sIempre será Inferior al número de varIables independientes, por lo que lo normal es que el número de funcIOnes discrImInantes sea G - 1).
2.4.
Interpretación gráfica del análisis discriminante
Para facilitar la comprensIón de los epígrafes SIguientes, se expone una sencilla Interpretación gráfica del análiSIS discrImInante. Supongamos la Información que se sumimstra en la tabla 9.2 acerca de un grupo de Individuos en la que aparecen datos relativos a los ingresos mensuales y a la edad de los mIsmos. Con esta información, los responsables de la empresa A desean saber SI es posible encontrar una función que discrImIne entre los consumidores y los no consumidores del producto que la misma comercIaliza. TABLA 9.2
'>E4a,f
IIldiVIdÍJo "
1 2 3 4 5 6 7 8
175 182 184 186 185 198 194 183
44 55 41 32 35 41 32 32
Consmtte
IndiViduo
Iug..esos
Edad
Consume
Sí Sí Sí Sí Sí Sí Sí Sí
9 10 11 12
125 107 97 88 116 121 175 100
23 22 24 27 28 33 31 29
No No No No No No No No
13
14 15 16
.
Una representación gráfica de estos datos (figura 9.1), nos permIte comprobar cómo las dos varIables Individualmente consideradas serían buenas para discriminar entre consumidores y no consumidores del producto de la empresa. Estas limitaciones son de carácter puramente matemático. La segunda limitación parte de la imposibilidad matemática de generar más funciones independientes que las onginales. La primera se puede explicar en base a consideraciOnes geométricas; el máximo número de dimensiones necesanas para describir completamente un conjunto de puntos es el número de puntos menos uno. En el análisis discnminante, cada grupo es tratado como un punto y cada función discnminante es una dimensión (ortogonal) describiendo la posición de un grupo con respecto a otros. I
386
© EdiCIones Pirámide
AnálislS discriminante
\
60 ,---~-~--~--~--~---r-i\c-~~---'
,
l
:
:
\
I
I
D \
I
50 ---------l--- ---- ---:----------1---------1--------- -- ---- --- -----\ ---f----- ----
: ,
40
: :: ! : ¡ ---------¡-- ----- --+.---------:--------- ~--- ------ --------i ¡ ¡ ! : : : : u J¡ ------¡----~---~-,
I
I
I
1
I
I
I
\
\ I "
10
I
I
! ¡ ¡ ----- --- -~-- -------;----- ----~----"
---------~-----I I
Ó
\
I
--------\.+-- ---p~
Jo
20
\
D
o
:\m o ---z-- --- ---- ------- --t-\~------
---------¡---,
:
' 1
',:
'
\ I
I
/l? --~----- ----~--------Ó'
I I
I I
I
I
J
I I I I
I I I I
I I I I
¡
I
I
I
50
75
100
125
I I ,
: , ,
-~--------~---------~---------~---------
•
! " ------ ---~----"'\'"--\
,
---------f--------, I I I
I
o -i"O---i----+'- - - j . ' - - - ' f - - - + - '- - - j . - - - ' f - - - 4 25
150
175
200
Ingresos
o
Consumidores
l:::..
No consumidores
Figura 9.1. Así. fijando un punto de corte en los ingresos de 175 u.m. podemos decir que los mdividuos que tienen unos mgresos mensuales iguales o superiores a esta cantidad son consumzdores del producto, rmentras que los que tienen unos mgresos mfenores son no consumidores. Sin embargo, utilizar sólo esta vanable para discnrmnar hace que estemos cometiendo un error en la clasificación de un mdividuo (figuras 9.1 y 9.2). Efectivamente, la observación de los datos de la tabla 9.2 muestra que el mdividuo 15 tiene unos mgresos de 175 u.m. y, sm embargo, es considerado no consumidor del producto. Punto de corte = 175 u.m.
No cons midares
Có
Ca
Clasificados dentro del grupo b sIendo del a = un caso
Figura 9.2. © EdiclOnes Pirámide
b
387
Técnzcas de análisis de datos en investigación de mercados Por lo que respecta a la vanable edad, el razonanuento es similar. Fijando como punto de corte en la edad 30 años, clasificaríamos como consumzdores a los que superen tal edad, y como no consumzdores a los que tengan una edad mfenor. También aquí .se incurre en errores de clasificación, concretamente el de los mdividuos 14 y 15, que, temendo más de 30 años, se catalogan como consumidores sin serlo (figuras 9.1 y 9.3). Punto de corte = 30 años
cb Clasificados dentro del grupo b SIendo del a
=
dos casos
Figura 9.3.
Por tanto, las variables, mdividualmente consideradas, aun siendo buenas clasificadoras, inducen a fallos. Lo ideal sería encontrar una combmación lineal de las mIsmas capaz de discnnnnar mejor entre los grupos considerados. Esto es lo que se refleja en la figura 9.1, donde la línea D representa una combmación lineal de las vanables edad e ingresos, en la cual, estableCIendo un punto de corte p, discnnnnamos entre individuos consumidores y no consumidores del producto, sm cometer mngún error (figuras 9.1 y 9.4). Punto de corte
N o cons mirlares
Consu idores
c"
c,
Figura 9.4.
388
© Ediciones Pirámide
Análisis discriminante
2.5.
Utilidad del análisis discriminante
La técmca del análisIs discnmmante se puede utilizar con distmtas finalidades según el objeto de la mvestigación de que se trate. Así, se emplea con fines: -
-
-
2.6.
Explicativos, con la intención de cuantificar la contribución relativa de cada una de las vanables mdependientes en la clasificación correcta de los indivIduos considerados dentro de los distmtos grupos objeto de estudio. Por tanto, se mtenta probar el poder discnmmante de cada una de estas varIables, en muchos casos con la finalidad de seleCCIOnar el subconjunto que mejor discnrmna los grupos. Predictivos, es decIr, encasillar a un mdividuo, del que no conocemos a qué grupo pertenece a pnon, dentro de un grupo, a partir de los valores de las variables mdependientes. LógIcamente, al hacer esto sIempre mcurriremos en un cIerto grado de nesgo en función de la bondad de la mformación disponible. Reclasificadores, es decIr, definidos los grupos se desea recomponer esa partición. Éste puede ser el caso cuando se desea una clasificación onentada al reconocImIento o se busca una mejor mterpretación de los grupos. Así, muchas veces se realiza un análiSIS cluster que postenonnente se mtenta corroborar por medio de un análisIs discrimmante.
Asunciones del análisis discriminante
Para poder aplicar el análiSIS discriminante, o por lo menos para que las conclusIOnes que obtengamos tras la aplicación de la técnica sean fiables, hay que tener en cuenta una serie de condiciones que deberían cumplirse preVIamente, SIendo fundamentales las sIgUIentes: -
2
© EdiclOnes Pirámide
•
La matrzz de covarzanzas mtragrupo debe ser la mIsma o muy parecida en todos los grupos objeto de estudio (dos matnces se dice que son Iguales si, y solo SI, todos los elementos de las mIsmas comciden). Si esto no es así, los resultados del análisis no son del todo fiables, especIalmente los tests de slgnificación2 y el proceso de clasificación. El problema es especIalmente Importante en el caso de que el tamaño de los diferentes grupos difiera en gran medida, ya que en el caso de que se mcumpla esta restncción, se tiende a clasificar casos dentro de los grupos que tienen una matnz de covananzas mayor. Por tanto, se debería optar por utilizar otras técmcas alternativas. Para comprobar SI se cumple o no esta restncción se suele recurrir al test de Box. Para una explicación más detallada véanse Manly (1986) y Shanna (1996).
389
Técnicas de análisis de datos en Investigación de mercados -
Cada uno de los grupos ha de ser una muestra procedente de una población que sIga una distribucIón normal multívaríante. En caso de que esto no se cumpla se pueden producir problemas importantes en la mterpretación de las funciones discnmmantes, sobre todo porque los tests de sIgnificación que se aplican no son válidos, por lo que sería recomendable optar, si es posible, por otra técnIca de análisis menos sensible a la vIOlación de esta restncción como, por ejemplo, la regresión logística. Para comprobar la hipótesis de la nonnalidad multIvanante hay pocos tests a disposIción del InvestIgador, siendo los más utilizados los de carácter gráfic03 No obstante, un cammo senCIllo consIste en exammar pnmero las distribuciones de cada una de las variables mdividualmente consideradas (Uriel, 1995, 280), de forma tal que, SI cada una de las varIables se distribuye nonnalmente. las variables conjuntamente se distribuirán como una nonnal multIvanante. En consecuenCIa, si alguna de las. varIables no se distribuye normalmente, hay razones para suponer que la hIpótesIs de normalidad multIvanante no se cumple.
-
Otra característica de los datos que puede tener una mcidencia notable en los resultados es la eXIstenCIa de multícolinealidad entre las vanables mdependientes. La multicolinealidad Implica que dos o más varIables están altamente correlacionadas, por lo que una vanable puede ser predicha o explicada por otras, lo que qUIere deCIr que tiene escasa capacidad explicatIva en el conjunto de las vanabIes mdependientes. La multIcolinealidad no supone un problema si su presencIa es SImilar en todas las posibles muestras. En caso contrarIO, multIcolinealidad diferente según muestras, se presenta un problema como consecuenCIa de que los resultados dependerán de la muestra elegida para obtener la función discrimmante (Shanna, 1996, 272-273).
Aunque no se cumplan las condiCIOnes anteriores. el análiSIS puede tener sentido e incluso obtener funciones discnmmantes buenas de poblaCIOnes no nonnales; la dificultad radica en contrastar la significaCIón de los resultados (Manly, 1987, 90).
2.7.
Recomendaciones respecto a la muestra
Para cerCIOrarnos de que las conclUSIOnes que obtengamos derivadas de los resultados del análiSIS son válidas, es necesano observar una sene de recomendaCIones: -
La muestra debe ser representatIva de cada uno de los grupos que estén constItuidos a pnon. Sin embargo, no es necesano que el tamaño de la muestra de cada grupo sea el mIsmo.
, Para una explicación más detallada véase Shanna (1996, 380-382).
390
© Ediciones Pirámide
Análisis discriminante -
-
-
3.
Las vanables deberán ser elegidas de manera que puedan defimr y discnmlnar los grupos; por tanto, deberán ser lo más independientes posible unas de otras. Debería haber un mímmo de 20 observacIOnes en cada grupo de la vanable dependiente. El grupo más pequeño en míembros debería exceder al número de variables llldependientes. ConvIene disponer de unas 20 observacIOnes por cada vanable independiente. Aunque esta proporción es difícil de mantener en la práctica, el investigador debe tener presente que la efectividad del análisis se ve mermada cuando el número de observaCIOnes se reduce en relación al número de vanables llldependientes (Hatr et al., 1995, 195). Un caso será excluido del análisIs si no se tiene lllformación sobre el mismo acerca de la varIable que define el grupo de pertenencIa o de alguna del resto de las variables utilizadas como predictoras. No obstante, convIene tomar una sene de precaucIOnes antes de elimlllar casos del análisis. En primer lugar, porque puede que nos quedemos con muy pocos, por lo que las posibIlidades de generalizar los resultados obtenidos disminUIrán considerablemente; en segundo lugar, porque SI los casos de los que se carece de lllformación sobre alguna de las variables llldependientes difieren de aquellos sobre los que se tiene toda la lllformación, los resultados que obtengamos seguramente estén sesgados. Si la ausencIa de lllformación en una vanable para algunos casos se debIera a alguna característica distíntiva de éstos (por ejemplo, clase soctal, mvel de estudios, raza, religión, etc.), sería aconsejable, antes de elimlllar los casos, prescllldir de tales vanables.
PROCESO DEL ANÁLISIS DISCRIMINANTE Hechas las antenores preciSIOnes, emprendemos el proceso de desarrollo del análiSIS discriminante (figura 9.5). El pnmer paso consIste en formular el problema a lllvestigar, concretando los objetivos, así como la vanable dependiente y las vanabies llldependientes. En el caso general, partiremos de un conjunto de datos formado por m muestras aleatonas obtenidas cada una de ellas de un grupo distinto, con tamaño a, b, ..., n, respectivamente, y un conjunto de variables p para cada uno de los casos llltegrantes de la muestra (tabla 9.3). La pertenencIa de un llldividuo a un grupo u otro de los considerados se llltroduce en el análiSIS por medio de una variable normnal (categórica), que asume las funCIOnes de vanable dependiente. El resto de las vanables (Xl' ..., Xv), que se utilizan para proceder a la clasificación de los llldividuos, representan el papel de variables independientes, denomlllándolas generalmente como «clasificadoras». y han de ser de razón o al menos de llltervalo.
© EdicIOnes Pirámide
391
Técnicas de análisIs de datos en Investigación de mercados
Planteamiento del problema Evaluar diferencias entre grupos con un perfil muitivanante Clasificar casos en grupos Identificar las dimensiones que discnminan entre grupos
... Diseño de la investigación Selección de la variable dependiente y de las mdependientes ConsideracIOnes con respecto al tamaño de ia muestra Delimitación de ia muestra de análisis y ja muestra de validación
... Asunciones Nonnalidades de las variables independientes AusenCia de multicolinealidad entre las vanables independientes Igualdad de las matrIces de covarianzas en los grupos
... Estimación de las funciones discriminantes EstImación simultánea o por pasos Significación de las funcIOnes discrimrnantes
... Fiabilidad predictiva, matrices de clasificación Detenmnar el punto de corte óptImo Especificar ei criteno para evaluar el hit ratio Significación estadística ele la fiabilidael predictiva
...
.r<
Validación de los resultados discriminantes Muestra ele validación Validación cruzada
...
Interpretación de las fnnciones discriminantes ~ , ¿Cuántas funcIOnes se mterpretarán?
Una
Varias
Evaluación de la función CoefiCIentes discnmmantes Estructura ele correiaciones Valores parciales F
Evaluación individual de las funciones CoeficIentes discnmmantes Estructura de correlaciones Valores parciales F
... Evaluación conjunta de las funciones Rotación de las funclOnes Índice de potencia Representaciones gráficas
FUENTE: Adaptado de Half et al. (1995).
Figura 9.5.
392
© Ediciones Pirámide
Análisis discrimznante TABLA 9.3
>'.
lri~ividuol
variables
>.'
i
C'c>
,
'.
,.,','
l 2
Xlii X211
XI12
X212
... .,.
a
Xa11
Xal2
.,.
l 2
X l21 X 221
X122
b
X b21
Xb22
X222
."
.,. .,
.
Xllp X'lp
GI
Xa1P XI,p
X22p
G2
X b2p
...
3.1.
.,.
2
X]ml X 2m ¡
X 1m2 X2m2
.,.
n
Xnml
Xnm2
...
1
X 1mp X2mp
Cm
Xnmp
Selección del método para la obtención de las funciones discriminantes
Para proceder a esllmar la(s) función(es) discnmmante(s) se pueden segUIr básicamente dos métodos:
Método directo o simultáneo. Para esllmar la función discnminante todas las vanables son mcluidas en el análisis sImultáneamente (con mdependencla de su poder cliscnminante). Este método resulta adecuado cuando, por razones teóncas, se desea que todas las vanables mtervengan en el análisis y no se pretende obtener resultados mtermedios sobre el poder discnmmante de determmados subconjuntos de variables. Métodos por pasos. ConsIsten en intentar retener el mejor conjunto de vanables, entre las mdependientes, disponibles para discriminar entre grupos4 Las funclOnes discnmmantes se pueden obtener usando uno de estos tres métodos: 4 El problema de la multkolinealidad puede ser espeCIalmente Importante en este caso (Hair et a1., 1995. 197). Excluir una vanable del modelo no SIgnifica que carezca de poder discnminante, puede que lo tenga. e mcluso que sea mayor que el de alguna de las variables ya incluidas. Simplemente se excluiría porque otra varIable supliera su capacidad discnmmante. al estar altamente correlaCIonada con la misma. Por este motivo, la interpretación de las funCIOnes discnmmantes cuando se usa el método de los pasos debe hacerse con mucho cuidado. © Ediciones Piramide
393
Técnicas de análisis de datos en investigación de mercados • Seleccíón hacIa adelante (forward). La vanable que primero entra en el modelo es la que más contribuye a discnmmar entre grupos según un determinado criterio estadístico. En una segunda etapa, la variable que entra es la sIgUIente que más complementa el poder discnminante de la pnmera. El procedimiento sigue hasta que ya no haya más variables que contrIbuyan a discrimmar significativamente entre grupos. • SeleCCIón hacIa atrás (backward). En un pnncíplO, todas las vanables forman parte del modelo, pero van saliendo de él cuando no contribuyan a discnmmar significativamente según un determmado cnteno estadístico. Primero sale la que menos discnmllla, después la! siguiente y así, sucesivamente, hasta que ya nmguna otra vanable pueda desecharse por falta de capacidad discrimlllante. • Selección por pasos (stepwlse). Es una combmacíón de los dos métodos antenores, las varIables pueden tanto entrar como salir del modelo en cualqUIera de sus etapas. Las varIables Illdependientes Irán entrando secuencíalmente en el análiSIS según su poder de discrimmaclón entre grupos. En algunos casos, el conjunto de variables mdependientes contIene un exceso de mfonnación sobre las diferencias entre los grupos, o qUIzás alguna vanable tenga poder nulo de discrimlllaclón entre grupos. La seleCCIón sucesIVa de la varIable que mejor discnmma proporcIOnará un subconjunto de vanables que discnminan, en muchos casos, incluso mejor que la totalidad del conjunto de variables mdependientes. El método conuenza con la elección de la vanable que individualmente considerada es mejor para discriminar entre los diferentes grupos. El siguiente paso consIste en ver cuál de las varIables que todavía no ha entrado en el análiSIS es capaz de, conjuntamente con la que ya está dentro, discnmmar mejor entre grupos. A medida que el método avanza, algunas vanables que fueron mtrodUCldas en el análiSIS en etapas previas pueden ser excluidas como consecuencIa de que la información por ellas recogidas esté contenida en variables mtroducidas postenonnente. Estas varIables serían redundantes y se elirnman. El proceso ternuna cuando las vanables que todavía no están dentro del análisis no contribuyen a mejorar, conjuntamente con las que ya han entrado, la capacidad discrimmante entre grupos. Generalmente, el cnterio utilizado para Ir seleCCIOnando las vanables (método por pasos) es el de tomar aquellas que contribuyan en mayor medida a mlmmlzar la lambda de Wilks. No obstante, eXIsten otros cntenos de deCIsión: la V de Rao, la distanCIa de Mahalanobls, el método de la F máXIma, el método de la varIación reSIdual, etc. La lambda de Wilks. Viene dada por:
A"" SCf "" SCT
394
SCf SCE+SCf © EdiclOnes Pirámide
Análisis discriminante
-
-
En cada caso, la variable que se mduye es la que mímmIza la lambda, sm tener en cuenta el efecto de las variables que ya hayan podido entrar en el modelo. Como muestra su expresión, el cnterio de la lambda se basa en que los grupos estén muy separados entre sí (suma de los cuadrados entre grupos muy alta -SCE-) y que considerados individualmente sean muy homogéneos (suma de los cuadrados mtragrupos muy pequeña -SCI-). Distancia de Mahalanobis al cuadrado. Intenta conseguir la separacIón entre todos los posibles pares de grupos. Por este motIvo, entrará en el modelo la variable que más contribuya a separar entre los distintos pares de grupos (cada uno de los grupos con el que tenga más cercano). Su objetIvo es ponderar la mfluencia de las distmtas varIables sobre la distancía de fonna mversa a su dispersión. V de Rao. Está basada en la distancIa de Mahalanobis. Se centra básicamente en la separación entre todos los grupos considerados (y no sólo entre uno y el que esté más cercano a éste), mtroducIendo variables en el modelo en la medida en que contribuyan a separar entre grupos, pero sin tener en cuenta la homogeneidad mtema de cada uno de ellos. El ratio F entre grupos. Es una denvación del de la distanCIa de MahalanobIS, que pondera los grupos en función de su tamaño.
Una vez que se ha seleCCIOnado un método entre los disponibles, las funCIOnes discnminantes resultantes tIenen la SIguiente forma:
que, como podemos aprecIar, presentan un fonnato similar a la función resultante de aplicar el análiSIS de regresión múltIple, SIendo X los valores de las varIables mdependientes, y a; los coeficIentes estImados en base a los datos. Estos coeficientes son elegidos de tal manera que los resultados difieran lo máXImo posible entre los diferentes grupos, lo cual se conSIgue cuando el cociente entre la suma de los cuadrados entre grupos (SCE) y la suma de los cuadrados intragrupos (SC!) es máXImo.
3.2.
Evaluación de la significación de las funciones discriminantes
Con la función ya desarrollada, el SIguiente paso sería determmar SI ésta es verdaderamente significativa, es deCIr, SI es capaz de discnmmar entre grupos, para lo cual se puede recurnr a vanos cnterios estadístIcos (PilliarI, Hottelling, Wilks, etcétera). Así pues, la hIpóteSIS nula de que la media de todas las funciones discnmmantes en todos los grupos es igual, deber ser probada estadístIcamente. El cnteno más utilizado es el de la A de Wilks, que mdica la proporción del total de la vananza en © Ediciones Pirámide
395
Técnicas de análisis de datos en investigación de mercados los resultados discriminantes no explicada por las diferencias entre grupos. Su valor varía entre O y 1. Para valores de A próxImos a O estamos en presenda de funcIOnes que son capaces de reflejar mucha varIabilidad entre grupos y escasa dentro de cada grupo (figura 9.6).
Of----------------IO Figura 9.6. Por el contrarIO, un valor próxImo a 1 mdica que la media de todos los grupos es similar y que no hay mucha diferenCIa entre grupos (figura 9.7).
Figura 9.7. De todas formas, mcluso en el caso de que la A sea estadístIcamente sIgnificatíva no Implica que la función sea muy efectIva discrimInando entre grupos; es posible que eXIstan pequeñas diferenCIas significativas y que, SIn embargo, no sean sufidentes para discrImInar bien entre grupos. La lambda de Wilks se puede aproxImar a una ji-cuadrado empleando la sigUIente transformación:
x2 = -
[n -
1 - (p + G)!2] In A
donde n: Tamaño de la muestra. p: Número de varIables Independientes. G: Número de grupos.
396
© EdicIOnes Pirámide
Análisis discnmtnante La significación estadística de una función también se puede hacer por medio de una aproximación de la lambda a una F
3.3.
Examen de las funciones discriminantes
Si se concluye que la función tiene capacidad discnmmante cabe la posibilidad de efectuar prediccIOnes: a) En pnmer lugar, obtenida la función discnmmante, es precIso calcular los resultados discnminantes para cada mdividuo. Seguidamente, una forma de proceder, especIalmente en el caso del análisis discnmmante de dos grupos, es calcular el punto de corte que sirve para detenmnar si un mdividuo pertenece a un grupo u otro. El punto de corte óptimo dependerá de si el tamaño de los grupos es Igual o difiere según los grupos. Si es idéntico, el punto de corte óptimo se determma como una media antmétlca de los dos centroides 5 es deCIr: po =
sIendo Po' Punto de corte óptimo. Ca: Centroide del grupo A. Cb' Centroide del grupo B.
Si el tamaño de los grupos no es Igual, y se tIene la certeza de que la muestra global es representativa de la población, la manera más correcta de calcular el punto de corte óptimo es recurnr a una media ponderada:
siendo na Y n b los tamaños de los grupos a y b, respectivamente. Siempre que se utilicen datos estandarizados, el punto de corte va a ser cero. Estos conceptos de puntos óptimos de corte se ilustran en las figuras 9.8 y 9.9, respectIVamente. La observación de las figuras nos permIte distingmr zonas cerca del punto 5 Centroide: valor medio de los resultados discriminantes para un determmado grupo. EXIsten tantos centroides como grupos.
© EdicIOnes Pirámide
•
397
Técnicas de análisis de datos en inuestigación de mercados
Punto de corte
Grupo A
GrupoB
c
c"
b
Clasificados dentro del grupo A sIendo del B
Clasificados dentro del grupo B siendo del A
/
Casos erróneamente clasificados
Figura 9.8.
Punto de corte no ponderado Punto de corte
ponderado
Grupo A
c
b
Clasificados dentro del grupo A Slend~
ClasificadOS dentro del grupo B siendo del A
/
Casos erróneamente clasificados
Figura 9.9.
398
© EdiCIones Pirámide
Análisis discriminante de corte que corresponden a grupos de individuos mal clasificados. Es normal que la función e1iscnminante cometa alguna eqUIvocación al clasificar casos fronterízos. Evidentemente, SI el grupo A es mucho más pequeño que el grupo B, el punto de corte óptimo se debe situar más cerca del centroide del grupo A que del centrOlde del grupo B. Si utilizamos el punto de corte no ponderado (figura 9.9), nmgún elemento del grupo A aparece erróneamente clasificado pero, sm embargo, una mayor cantidad de mdividuos del grupo B se clasificarán mal. Además, para hallar el punto de corte óptimo resultaría convemente considerar los costes en los que se mcurre cuando se clasifica mal un melividuo. Si los costes son SImilares para los individuos de los diferentes grupos, el punto de corte debería ser aquel en el cual el número de casos mcorrectamente clasificados (de todos los grupos) fuera el númmo, Ill1entras que SI los costes de una mala clasificación son distmtos, el punto de corte óptimo debería ser aquel que Ill1nimlza los costes de los errores cometidos en la clasificación (Hatr et al., 1995, 200-201). El punto de corte es un concepto cuya comprensión se complica en el análiSIS discriminante múltiple. Por este motivo, uno de los procediIll1entos más utilizados para proceder a la discnmmación está basado en el teorema de Bayes. Este modo de proceder se considera adecuado especialmente cuando: b)
-
Los costes de una clasificación errónea son muy elevados. Las diferencias entre los grupos son muy amplias. Tenemos conocImIento de las probabilidades de pertenencia a pnon de los individuos a los diferentes grupos considerados.
Efectivamente, SI uno de los grupos es mucho más pequeño que el resto, se obtiene un porcentaje muy elevado de clasificación correcta, mcluso SI la mayoría de los casos del grupo de menor tamaño están mal clasificados. Una fonna de corregIr esto es mtroduclr en el análiSIS unas probabilidades a pnon adecuadas. Así, las probabilidades que se obtienen utilizando el teorema de Bayes serían: P(G;I D)
=
/(DIG,)P(G,) 'iP(DIG,)P(G,) ;::::1
donde P(G)D): Probabilidad de que con un deterIll1nado valor D se pertenezca al gru-
po G¡. Un caso será clasificado, basándonos siempre en su puntuación discnmmante, en el grupo para el que presente un mayor valor de esta probabilidad. P(DIG¡): Probabilidad condicIOnada de obtener un valor D, dado el grupo de pertenencia. P(G¡): Probabilidades a pnon. © Ediciones Pirámide
--
399
TécnIcas de análisis de datos en investigación de mercados La probabilidad a prion es una estimacIón de la probabilidad de que un Individuo pertenezca a uno de los grupos considerados en el análisIs cuando no se dispone de nInguna otra información. c) Otra forma de clasificar los casos es reCUrrIr a las funCIOnes lineales de Fis6 her , que se recoge en la mayoría de los paquetes estadísticos. Estas funciones pueden utilizarse como cntenos de clasificación de los Individuos, de tal forma que cada indivIduo será aSIgnado a aquel grupo para el que presente un mayor valor en la función. Los resultados coinciden con los obtenIdos en el caso en el que hubiéramos empleado la funCIón discnmInante. Las casos también se pueden clasificar usando la distancia de Mahalanobls, de tal forma que un caso será aSIgnado a aquet grupo cuyo centrOlde esté más cercano usando la distancia de Mahalanobls. Ahora no se emplean los resultados discnminantes, nI SIquiera la funCIón discnmInante, y por eso a esta técnIca se le suele considerar como una técnIca partIcular de clasificación. d)
Para que estos cuatro métodos de clasificación den los mIsmos resultados, ha de cumplirse que: Los datos provengan de una distribución normal multivanante. La matnz de covananzas de los distIntos grupos sean Iguales. Los costes de una clasificación errónea y las probabilidades a prion sean las mIsmas. e) En el análisis múltIple, una forma alternatIva de clasificar los casos es utilizar el mapa terrztorzal. Se trata de un gráfico en el que se representan dos dimensIOnes ilustratIvas de dos funCIOnes discrimmantes y en el que quedan reflejados los centroides de los grupos, así como las fronteras que sIrven para separar entre dichos grupos. Dichas fronteras cumplen una función similar a la que cumplía el punto de corte en el análisis discnmmante de dos grupos (figura 9.10).
3,4.
Idoneidad de la clasificación
El que se concluya que una funCIón es capaz de discnmmar entre grupos no quiere deCIr que tengamos una idea exacta de su capacIdad discrimmante. Para conocerla se construye la matnz de clasificaCIón (o de confusIón), que muestra el número de casos bien (en la diagonal pnnclpal) y mal clasificados (tabla 9.4). La suma de los elementos de la diagonal pnnclpal partido por la totalidad de los elementos representa el índice de acierto, al que se le denomma hit ratio.
Hlt. ratIO =a+b -T
6
400
Una función para cada uno de los grupos de la vanable dependiente. © EdiCIOnes Pirámide
AnálisIs discnminante TABLA 9.4 Matnz de clasificación Grill'o pronosticado
I
1
2
Total
1
a
e
T3
2
d
b
T4
Total
TI
T2
T
Grnpo de partida
I%.·.de .casos bien clasificados
Función discnmmante 1
6
4
2
-2
o Centroides
-6 -6
-4
-2
o
2
4
6
Figura 9.10.
© EdiclOues Pirámide
•
401
Técnzcas de análisis de datos en investigación de mercados La Interpretación del hIt ratio guarda cierto parecido con la que se hace de la R 2 en el análisIs de regresión. Pero este Indicador presenta un problema: estamos clasIficando Individuos con funcIOnes en cuya elaboración han Intervenido medidas de esos mismos Individuos, por lo que cabría pensar que este hit ratio esté sesgado. Por este motIvo se recomIenda que sIempre que se aplique esta técnica la muestra se divida en dos partes 7 . -
Una que será utilizada como muestra de análisis, a partir de la cual se obtendrán las funciones discrimInantes. Otra que será utilizada como muestra de validación, de tal forma que SI las funcIOnes discrimInantes son válidas el hit ratio resultante no debe difenr mucho del obtenido con la muestra de análisis.
Además de la partíción de la muestra, otra alternativa es el método del Jackknife o dejar uno fuera (validación cruzada), consistente en calcular sucesIvamente funcIOnes discrimInantes dejando cada vez un caso fuera de la estimación de dichas funcIOnes, caso que luego será clasificado basándose en las ll11smas. Así se pretende deterll11nar SI las funcIOnes discrimInantes son verdaderamente estables. Este procedimIento es bastante sensible al tamaño de la muestra, por lo que se recomIenda que el tamaño del grupo más pequeño utilizado en el análiSIS sea al menos tres veces superior al número de variables Independientes. La utilización de este método está limitada por su laboriosidad8 Pero ¿cómo saber cuán bueno es el porcentaje de casos bien clasificados que nos proporcIOna la función discrimInante? Un primer recurso es calcular el porcentaje de casos bIen clasificados que obtendríamos SI tal clasificación se efectuase al azar. Esto es sencillo para un mismo tamaño en los diferentes grupos: para dos grupos la probabilidad de clasificar correctamente a los Individuos es el 50%; SI son tres grupos la probabilidad se reduce, concretamente a un 33%, y así sucesivamente. Cuando el tamaño de los grupos no es el mismo, la operación no es tan simple. AdmItamos que un grupo tiene 40 sUjetos y otro 10. En este caso, SI directamente asignamos todos los sUjetos en el grupo de mayor tamaño aseguramos un porcentaje de casos bien clasificados del 80%, sin ayuda de ningún tipo de función discnminante. Por tanto, SI tenemos unas funCIOnes discrill11nantes que nos aseguran un porcentaje de casos bIen clasificados Inferior al 80% no suven de mucha ayuda. A esta forma de proceder se le denomina cnteno de la probabilidad má:ama, y ha de usarse cuando el objetivo del investIgador es maxill11zar el número de casos bIen clasificados. No obstante, este objetIvo no tIene por qué ser sIempre el perseguido por el mvestIgador. Es más, mclUlr todos los casos dentro del grupo que tiene una mayor probabilidad amenaza el objetIvo clasificatOriO que se puede pretender (parasuraman, 1991, 756). Lo habItual es que el InvestIgador desee identificar correctamente a los distIntos
402
7
Véase Frank, Massey y Mornson (1965).
8
Se mcluye en algunos paquetes estadísticos como, por ejemplo, SPSS (a partir de su versión 7.5). © EdicIones Pinimide
Análisis discriminante miembros en sus respectivos grupos, y para esto se aplica el cnterio de la probabilidad proporcional, cuya expresión es la slgmente:
sIendo P m' Probabilidad proporcIOnal. PI' Proporción de mdividuos pertenecientes al grupo 1. P2: Proporción de mdividuos pertenecIentes al grupo 2.
Pero, en defimtiva, ¿cuándo una función es buena para clasificar? ¿En cuánto tiene que superar el resultado que se hubIera obtenido por azar? Sobre esto no hay consenso. Se suele considerar como buena una función cuando los casos que clasIfica correctamente superan al menos en un 25% el porcentaje que se obtendría por azar. Es decir, para cuatro grupos de idéntico tamaño (clasificación correcta de 25% al azar) una función se considera adecuada cuando clasifique correctamente al menos el 31,25% de los casos (25 + 0,25 x 25). Una forma más rigurosa de proceder es mediante la utilización de la Q de Press. Q = [N - (nG)]2 N(G-l)
En este estadístico mtervienen: el tamaño de la muestra (N), el número de casos correctamente clasificados (n) y el número de grupos considerados en el análiSIS (G). El valor resultante de esta expresión se compara con una ji-cuadrado con un grado de libertad y el nivel de confianza que el mvestigador Juzgue sufiCIente, de tal forma que SI este .valor excede el valor crítico, diríamos que la función clasifica mejor los casos que el azar. Este test tiene una lÍ1mtación como consecuenCia de su sensibilidad al tamaño de la muestra, proporcIOnando valores más elevados para muestras mayores y un nusmo porcentaje de casos correctamente clasificados9 Huberty (1984) propuso un test estadístico que contrasta la SIgnificación estadística del hu ratio, cuya expresión, según se refiera a la significación de un grupo en concreto o de toda la muestra en conjunto, es: -
9
© EdicIOnes Pirámide
•
Para un grupo:
Véase Halr el al. (1995,204-205).
403
Técnicas de análisis de datos en investigación de mercados -
Para toda la muestra:
z* = (o-e)~ .,je(n - e) I G
e =- In; n g=i
donde 0g'
Número de casos bien clasificados pertenecIentes al grupo g.
ego
Número de casos que se podrían haber obtenido bien clasificados por azar en el grupo g.
n g : Número de casos pertenecientes al grupo g.
o: Número total de casos bien clasificados. e: Número total de casos bien clasificados que se podrían haber obtenido por azar. n: Número total de casos. Los dos estadístIcos sIguen una distribución normal (Sharma, 1996, 258-260). Este mIsmo autor propone el Índice de Significación Práctica (ISP), que mide (en porcentaje) la mejora en el resultado de la clasificación mediante el análisis discnmmante con respecto al conseguido gracIas al azar. ISP
3.5.
= o/n -
e/n .100 1- e/n
Interpretación
Alcanzada una función discrimmante con adecuada capacidad de clasificación. cabe la posibilidad de identificar perfiles de los mdividuos que forman los diferentes grupos. Si la bondad cIasificatona de la funCIón o funCIOnes discnmmantes es escasa, a6n así es posible aprovecharla, al menos para discnmmar entre grupos extremos. Esto hace referenCIa a la aproxImación por extremos polares. consistente en convertIr una vanable métnca en nommal (con vanas categorías) y realizar el análisIs discnminante sólo con los grupos extremos Ignorando los grupos intermedios. Para la interpretación de la función hay tres mdicadores de valiosa ayuda:
404
© EdiclOnes Pirámide
Análisis discriminante Coeficzentes estandarzzados de la función discriminante. El valor del coefipara una vanable Independiente depende del resto de las vanables independientes Incluidas en la función. La Interpretación de los coeficIentes de la función discnmInante es sImilar a la que se hace en el análisis de regresión múltIple. Los sIgnos de los coeficientes son arbItranos, pero van a InCIdir en un mayor o menor valor de la función y, por tanto, se podrán asocIar a detennmados grupos. Las vanables con coeficIentes estandanzados mayores contribuyen más a la capacidad de discrimmación de la función. No es adecuado usar los coeficIentes de la función discnmmante no estandanzados como medida de la ImportancIa de las varIables asociadas a los mismos, más aún cuando las unidades de medida son diferentes. cente
-
Estructura de correlaCIOnes. Es una medida de la correlación lineal SImple entre la función discrimmante y la vanable en cuestión (representa la varianza que la vanable mdependiente comparte con la función). Por tanto, recoge el grado de aSOCIación entre los resultados de la función discnmmante y los grupos considerados en el análiSIS. Su mterpretación es eqUIvalente a la que se haría en un análiSIS de la vananza en el que los resultados discnmlnantes fuesen la variable dependiente y el grupo de pertenencia la varIable independiente. Cuanto mayor sea la correlación, más importante será el papel de la vanable en la función discriminante, aunque habría que contrastar la SIgnificación de estas correlaCIones, máXIme SI el método empleado es el directo donde todas las varIables entran en el modelo. Se suele considerar como Importantes los valores de la correlación a partir de ±O,3 (Hmr et aL, 1995, 221). Valores parclGles de la F para la variable. Un valor elevado de F está asoCIado con un alto poder discrímmante (recordemos que precIsamente éste es uno de los cnterios que se suele emplear en el análiSIS discnmmante por pasos para decidir qué vanables son las que tIenen que Ir entrando en el modelo).
Los resultados de estos indicadores no tienen por qué comcidir. La diferenCIa entre ellos provIene de la eXIstenCIa de multicolinealidad en las vanables independientes 10 No obstante, ¿cómo evaluar conjuntamente la importancia de cada una de las vanables independientes SI tenemos más de una función discnmmante? La respuesta la proporciona el índice de potenclG, que combma la contribución de la vanable a cada una de las funciones (a través de las correlaciones) con la ImportancIa de las funCiones en la solUCIón final (a través de sus valores propioS). Para proceder a su cálculo: 10 Podemos recurrir a la matriz de correLación agregada intragrupos que muestra si eXIste o no multicolinealidad entre las vanables mdependientes. En el caso de que todas las vanables presenten covarianzas nulas o muy bajas es Improbable que exista multicolinealidad entre ellas.
©
•
EdiclOnes Pirámide
405
Técnicas de análisis de datos en investigación de mercados 1. ° Hallar la Importancia relativa para cada función:
'::::1
2.°
sIendo A¡ el valor propIO de la función t, y estando referida la sumatona del denomínador a todos los valores propios de las funcIOnes que hayan resultado sIgnificativas. Calcular la ImportanCIa relativa de la variable j en la función i:
3.° 4.°
donde R¡; es la correlacIón lineal simple de la variable J con la función i. Este proceso se repite para todas las funciones sIgnificativas. Obtención del índice de potencia para la varIable J:
, ~=¿J.Cii I=:I
No obstante, esto sólo es una medida relativa y, por tanto, su valor absoluto no tiene un significado específico. Por último, lo mIsmo que en el análisIs factonal o en el análisIs de componentes principales, la interpretación de los indicadores mencIOnados penrute aSIgnar un nombre a la funcIón discnminante. Esta tarea se facilita mediante la representacIón de las funcIOnes discrimInantes en el espacIO y el posIcIOnamIento tanto de los casos como de los centroides de los grupos. Igual que sucede en el análisIs factonal, eXIste la opción de proceder a una rotación de los ejes para facilitar la interpretación, conservando las funciones su estructura original y su fiabilidad predictIva. El método de rotación que generalmente se suele utilizar es el Varimax.
4.
CASOS Veamos dos ejemplos: -
-
406
Ejemplo 1. Se trata de un análiSIS discnminante de dos grupos empleando el método directo para obtener la única función discnmInante. Además, conSIdera que las probabilidades de pertenencia a prion de los Individuos a los dos grupos son Iguales. Ejemplo 2. ConSIste en un análisis discrimInante de tres grupos empleando el método de los pasos para obtener las dos funCIOnes discnminantes resultantes. Ahora se consideran diferentes las probabilidades a prion de pertenenCIa a los grupos de los individuos. © EdiCIOnes Pirámide
AnálisIs discriminante En el desarrollo de los ejemplos se ha utilizado el programa estadístIco SPSS.
4.1.
Ejemplo 1 lDlSCRIMIN 1)*
Los responsables de la empresa ASA estudiaban la planificación de su estrategIa de comulllcación para el año 1998. El Jefe de comulllcación, dada su dilatada expenenCIa profesIOnal, está convencido de que la mejor forma de proceder es optar por el método de la paridad comparatzva, es decIr, sabe que hay una relación muy estrecha entre los resultados en térmmos monetarIos que consIgue una empresa y el manejo de su estrategIa de comulllcación. Este directivo desea saber más mformación sobre los factores, denvados de su estrategIa de comulllcación, que SIrvan para discrimmar entre las empresas según sus resultados. Se dispone de un estudio adquIrido a la empresa MARSA en el que figura mformación relativa a 35 empresas competidoras, 18 de las cuales tUVIeron unos resultados que se pueden catalogar de baJos, mientras que las restantes 17 tUVIeron unos resultados que pueden considerarse de medios. La base de datos ll contiene información acerca de: -
Duración en días de las actividades publicitarias de la empresa (publicld). Duración en días de las actividades promocionales de la empresa (promocio). Incremento (%) en el presupuesto publicItarIO con respecto al período anterIOr (inc_pub!). Incremento (%) en el presupuesto promocIOnal con respecto al eJerCIcIO anterior (inc_prom). Inversión (millones de pesetas) en actividades de patrocmIO en el año 1996 (patrocin).
Con arreglo a las condicIOnes remantes en el sector, se estima que la probabilidad a pnon de que una empresa tenga resultados baJos es idéntIca a la probabilidad de que los obtenga medios. En pnmer lugar, hay que formular el modelo, es deCIr, identificar claramente tanto la varIable dependiente como las vanables independientes, así como los obJetivos de la mvestigación. En este caso, la vanable dependiente es resultados monetarios obtenidos (nominal) y las varIables mdependientes las cmco medidas relatIvas a prácticas de comulllcación de las empresas competidoras (todas de carácter métn11 Este ejemplo tiene un carácter didáctico, perSIgue la sencillez y comprensión aun a costa de las recomendaciones efectuadas en epígrafes anteriores. * Véase fichero en la dirección www.ugr.es/~tluque. © EdiclOnes Pirámide
407
Técnicas de análisIs de datos en investigación de mercados ca). El obJetivo del estudio es tratar de determinar cuáles son las vanables que realmente sirven para discnmmar entre las empresas que tienen resultados catalogables bien como baJos, bien como medios. La tabla 9.5 nos mforma del método utilizado, en este caso el método directo a través del cual todas las vanables que superan el test de tolerancia 12 entran en el modelo. También mdica el número de funciones discnmmantes que vamos a obtener; en nuestro ejemplo sólo obtendremos una función discnmmante (G - 1 = 1). ASimismo, se reflepn las probabilidades a pnon de pertenencia de un mdividuo a cada uno de los grupos; en nuestro ejemplo 0,5 (igual probabilidad para los dos grupos considerados). TABLA 9.5 EspecificacIOnes del método empleado
Método directo: todas las vanables que pasan el test de tolerancIa se incluyen en el análiSIS.
Nivel de tolerancia mímmo FunCIOnes canómcas discnmmantes: MáXImo número de funciones:
Porcentaje acumulado mímmo de la vananza Significación máXIma de la lambda de Wilks Probabilidad a pnori para cada grupo
0,00100 I 100,00 1.0000 0,50000
Antes de obtener la funCión discnmmante, se evalúa el poder discriminante a pnon, por separado, de cada una de las vanables, a través del estadístico F (tabla 9.6). Entre las distintas vanables mdependientes consideradas sólo una no tIene capacidad discnmmante a un mvel de Significación del 5% (inversión en patrocmlO). Una vez formulado el modelo, el sigUIente paso consiste en comprobar las asuncIOnes relatIvas a la aplicación de la técmca. Concretamente, para ver SI todos los grupos tIenen una matnz de covarianzas Igual o muy parecida usamos el test de Box (tabla 9.7), cuyo mvel de Significación es de 0,487. Este valor no permIte rechazar la hipóteSIs nula de Igualdad de covananzas entre los grupos, cumpliéndose, por tanto, esta asunción. 12 La toleranCIa es una medida det grado de asocIación lineal entre las vanables independientes. Es
la porción de la vanación en las variables mdependientes no explicada por el resto de vanables. Se usa como protección contra la multicolinealidad. Una tOlerancia de O SIgnifica que la vanable en cuestión es combinación lineal perfecta del resto de las variables llldependientes. Una tolerancIa de j SIgnifica que la varIable es totalmente inctependiente de las otras vanables que ya están en el modelo. Generalmente, el límite para que a una varIable se le penmta entrar en modelo se suele fijar en 0,001. Para la variable " la toierancIa VIene dada por 1 - -?; donde -? es el coeficiente de determmación obtenido al realizar la regresi6n entre la varIable l (como vanable dependiente) y el resto de las varIables explicatIvas (como vanables independientes).
408
© EdiCIOnes Pirámide
Análisis discriminante TABLA 9.6 Pruebas de Igualdad de las medias de los grupos 'i
'"
Lambll3 deWilks
..
.' \.
Incremento en el presupuesto de promocióu cou respecto al período anterior Incremento en el presupuesto de publiCIdad con respecto al ejercicio anterior Inversión en patrocmlO 1996 Duración de la campaña de promoción Duración de la campaña de publicidad
* -
.
gl
...
0,837
6,410
0,862 0,974 0,414 0.585
5,301 0.892 46,714 23,393
Sigo
1
33
0.016
1
33 33 33 33
0,028 0.352 0,000 0,000
1 I I
Los grados de libertad resultan de:
1 = Número de grupos - 1. 33;:; Número de casos - Número de grupos.
TABLA 9.7 Logaritmo de los detenmnantes Resultados obtenidos ,c~~ _l~::es~rat~ghl-_:
de _comunicación
BaJos Medios Intragrupos combmada M de Box F aproxImada gl 1 gl2
Significación
Logaritmo del determinante
. '. _.
5 5 5
-0,833 -1,056 -0,414
17,396 0.968 15 4350,404 0,487
Seguidamente se calculan los coeficIentes estandarizados de la función discnmmante (tabla 9.8), que son los empleados para clasificar a los individuos dentro de los diferentes grupos, en combinación con las puntuaciones que estos mdividuos tIenen para cada una de las variables mdependientes, eso sí, siempre que éstas estén estandarizadas. De Igual forma se obUenen los coeficientes no estandanzados (tabla 9.9)13 13 Multiplicando los coeficientes no estandanzados por la raíz cuadrada de la diagonal principal de la matriz de covarianzas mtragrupos se obtIenen los coeficientes estandarizados. © Ediciones Piramide
409
Técnicas de análisis de datos en investigación de mercados TABLA 9.8
Coeficientes estandarzzados de la función discrzminante Función
Incremento en el presupuesto de promoción con respecto al período antenor Incremento en el presupuesto de publicidad con respecto al ejerCIClO antenor Inversión en patrocimo 1996 Duración de la campaña de promoción Duración de la campaña de publicidad
0,197 -0,225 -0,471 0,975 0,586
TABLA 9.9
Coeficientes no estandarizados de la función discriminante Fundón
Incremento en el presupuesto de promoción con respecto al período anterior Incremento en el presupuesto de publicidad con respecto al ejerCICIo anterior Inversión en patrocimo 1996 Duración de la campaña de promoción Duración de la campaña de publicidad (Constante)
0,286 -0,523 -0,504 0,468 0,203 -112,660
A contínuacIón se evalúa la sIgnificación de la función, que en este caso lo es. Prueba de ello es el nivel de sIgnificación (p = 0,0000) conseguido al utilizar el entena de la lambda de Wilks (tabla 9,10). La tabla 9.11 muestra la mformacIón que el programa estadístIco proporcIOna acerca de los centroides. AdmItIendo que la muestra es representatíva de la población, el punto de corte óptImo calculado mediante una media ponderada es: =
[(18 x (-1,48383» + (l7 x 1,57111)] ~ O 18 + 17
Por tanto, se clasifica a un mdividuo dentro del grupo 1 (resultados bajOS) SI su resultado discnmmante (con datos estandanzados) fuese menor que cero, y dentro del grupo 2 (resultados medios) en caso de que fuese mayor que cero. Otra altematíva es recurrir al teorema de Bayes. Entonces es necesario conocer las probabilidades a pnon de pertenencIa de los mdividuos a los distintos grupos. Como se admitía que una empresa tIene las mIsmas probabilidades de obtener re-
410
© Ediciones Pirámide
AnálisIs discnmmante TABLA 9.10
Características de la función discriminante
1
0,288
37,969
5
0,000
TABLA 9.11
Valor de la función para los centroldes de los grupos
BaJos Medios
1 -1,484 1,571
sultados baJOS que de obtener resultados medios, las probabilidades a prion para ambos grupos son 0,5. Los resultados de aplicar este procedimiento aparecen recogidos en la tabla 9.12. La tabla 9.12 contlene para cada uno de los 35 casos: -
Grupo de pertenencia en un prmclplO (grupo 1 relatlv0 a las empresas con resultados bajos y grupo 2 relatlvo a las empresas con resultados medios). Si en el análisis hubiésemos mtroducido algún caso sobre el que no tuviésemos mformación .relativa a su grupo de pertenencia, el desarrollo del proceso hubIera sido idéntlco, sólo que en esta columna aparecería con el ténnmo «desagrupado»; y en las SIguientes columnas, aparecerían las probabilidades de pertenenCIa a los grupos 14 Probabilidad máxIma de pertenecer a un grupo en función del análisIs:
14 En el caso de que se utilice una muestra de validación, los casos de dicha muestra aparecerían en esta columna con la catalogación de «desagrupados», pero las funcIOnes los asignarían a un grupo (aquel para el que en función de su puntuación discnminante presentara una mayor probabilidad). Comparando, para estos casos, lo pronosticado con la realidad, tendríamos el hit ratio de la muestra de validación.
© EdicIOnes Pirámide
411
Técnicas de análisis de datos en investigación de mercados TABLA 9.12 ....;' .•••
5pri_.YJ!~
I (
•••••••
. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35
412
>••
....
I
,1 1 1 I
1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 i 2 2 2 2 2 2 2 2
·;f.(.(.;. (.;.;•
.}.C-0;
-r(wI.iJ·.·.·· 0,513 0,382 0,078 0,841 0,765 0,273 0,358 0,748 0,240 0,439 0,467 0,775 0,150 0,751 0,412 0,410 0,169 0,449 0,449 0,099 0,353 0,464 0,565 0,517 0,653 0,574 0,13 0,862 0,456 0,603 0,842 0,701 0,526 0,719 0,073
..
Ce"~
I
0,935 0,999 1,000 0,995 0,996 1,000 0,999 0,996 0,747 0,909 0,999 0,996 0,567 0,976 0,897 0,999 0,614 0,913 0,913 1,000 0,862 0,919 0,998 0,936 0,998 0,950
F 0,994 0,999 0,998 0,995 0,970 0,999 0,997 1,000
'
.
Puntuación discriminante
"''''l'Wl'l'0r P(G/ll)
2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1
I
0,065 0,001 0,000 0,005 0,004 0,000 0,001 0,004 0,253 0,091 0,001 0,004 0,433 0,024 0,103 0,001 0,386 0,087 0,087 0,000 0,138 0,081 0,002 0,064 0,002 0,050 0,486 0,006 0,001 0,002 0,005 0,030 0,001 0,003 0,000
-0,830 -2,358 -3,248 -1,685 -1,783 -2,580 -2,402 -1,805 -0,310 -0,709 -2,211 -1,769 -0,045 -1,167 -0,664 -2,307 -0,109 -0,726 -0,726 3,220 0,642 0,839 2,147 0,922 2,020 1,010 0,026 1,744 2,316 2,091 1,771 1,187 2,205 1,931 3,364
© Ediciones Pirámide
Análisis discriminante • Grupo. • Probabilidad más alta. Segunda probabilidad más alta de pertenencIa a un grupo: • Grupo. • Probabilidad. Resultados de la función discrmunante para cada uno de los casos. Los casos mal clasificados por medio de la función discnmmante aparecen sombreados en la tabla 9.12. Otra forma de clasificar los casos consIste en emplear las funcIOnes lineales de Fisher (tabla 9.13), de forma que se aSIgnaría cada mdividuo a aquel grupo para el que obtUVIera una puntuación supenor. Los resultados del proceso aparecen recogidos en la matnz de confusión o clasificación (tabla 9.14). La función discnmmante obtemda es capaz de clasificar un 94,3 % de los casos correctamente. ¿Son buenos los resultadOS? Para responder a la pregunta se puede utilizar el cnteno de la probabilidad máxzma o el criterio de la probabilidad proporcIOnal. En nuestro ejemplo, debido a la similitud de las proporciones de los dos grupos considerados (0,51 y 0,49) es prácticamente Igual emplear cualquiera de los dos métodos. Por ejemplo. para el criterio de la probabilidad proporcional. el valor es:
valor que se sitúa bastante por debajO del hit ratio obtenido (94,29%). TABLA 9.13
Funcíones discnmznantes lineales de Fisher
.. .•...•
-Resultacjos
~ajos
Medios
•
ti en el presupuesto de promoción con respecto al período
anlenor
42,269
43,142
ti en el presupuesto de publicidad con respecto al eJerCICIO
antenor Inversión en patroClTI1O 1996 Duración de la campaña de promoción Duración de la campaña de publicidad (Constante)
© Ediciones Piramide
-60,845 59,248 42,010 -40.472 -44,218 -42,790 -30.424 -29,802 -6.642,647 -6.986,949
413
Técnicas de análisIs de datos en investigación de mercados TABLA 9.14
Resultados de la clasificación
18 (100%)
0(0%)
2 (11,8%)
20
18
15 (88,2%)
17
15
35
En el caso de que se considere como buena una función cuando obtIene unos resultados mejores en un 25% que los obtenidos por azar, la presente función (con un 94,29%) lo es, ya que supera con creces esta cantidad (50 + 0,25 x 50 = 62,5%). Por otra parte, la Q de Press toma un valor de: Q
= [35 -
(33 x 2)f 35(2 -1)
= 27,457
que comparado con la ji-cuadrado, para un grado de libertad y un mve1 de significaCIón del 1% (6,63), se ha de conclUIr que la función es significativa para discnminar entre grupos. Según el criteno de Huberty, todos los resultados se muestran significatIvos (tabla 9.15) a un nivel de Significación del 5% (2 = 1,96). TABLA 9.15
1 2 Total
18 15 33
18
17 35
324 289
9,257 8,257 17.514
4.123 3.272 5.235
El Índice de Significación Práctica, que mide la magmtud en la que el resultado de aplicar el análiSIS discnmmante mejora a la clasificación por azar, para nuestro ejemplo es del 88,56%, como se desprende de la sigUIente expresión:
414
© EdicIOnes Pirámide
Análisis discriminante ISP = o/n - e/n .100 = 33/35 -17,514/35 .100 = 88,56% l-e/n 1-17,514/35
Es decIr, la función discrlmínante reduce el error que cometeríamos, SI clasificáramos al azar, en un 88,56%. Para la interpretación de la función discnmmante recummos a las correlaCIOnes que presenta con las vanables Independientes (tabla 9.16), de donde se desprende que las vanables más Influyentes en la función -y, por tanto, con mayor poder discnmmante- son la duración de la campaña de promoción y la duración de la campaña de publicidad. TABLA 9.16 Correlaciones zntragrupo entre las variables discriminantes y la función discriminante estandarizada
1
Duración de la campaña de promoción Duración de la campaña de pnblicidad Incremento en el presupuesto de promoción con respecto al período antenor Incremento en el presupuesto de publicidad con respecto al ejerCIcio antenor Inversión en patrocHuo 1996
0.757 0.535 0.280 0.255 0,105
Además, observando los coeficientes estandanzados de la función discnminante (tabla 9.8), se comprueba que a las empresas con resultados medios se las aSOCIa con realizar durante muchos días campañas publicitarIas y promocionales, nuentras que las de resultados baJos 10 están a Incrementos notables en la inversión en publicidad y promoción con respecto al período antenor, así como a hacer elevadas inversiones en patrOCInIO.
4.2.
EjemplO 2 mlSCRIMIN 2)*
Este ejemplo no es más que una ampliación del antenor. Ahora, en lugar de considerar dos resultados, se consideran tres, por 10 que se aplica el análisis discnminante múltIple, mediante el método de los pasos, para la obtención, de las dos funCIOnes discrinunantes. Además, se considera que las probabilidades a pnon de pertenencia de los Individuos (empresas) a los distIntos grupos no son idénticas. Se
* © Ediciones Pirámide
tii
Véase fichero en la dirección www.ugr.esl-Uuque.
415
Técnicas de análisis de datos en investigación de mercados admíte la muestra como representatIva de la población de la que procede, de forma que un mayor tamaño de la muestra de un grupo Indica mayor probabilidad a pnon de que un Individuo cualqUiera pertenezca a ese grupo. La partIculandad con respecto al ejemplo anteríor reside en la necesidad de desarrollar dos funCIOnes para discnminar entre los tres grupos: una para distinguir entre un grupo y los otros dos, y otra para discnminar entre estos dos últimos grupos. La tabla 9.17 informa acerca de las especificacíones del modelo elegido.
TABLA 9.17 EspecificaCIOnes del método empleado Selección de vanables por pasos Criteno de selección: mml1nizar la lambda de Wilks Máximo número de pasos Nivel de tolerancia mínimo F parcial mínima para entrar F parCial máxima para salir FunCIOnes canónicas discnmmantes: Máximo número de funCIOnes Mímmo porcentaje acumulado de la vananza Significación máXIma de la lambda de Wilks
10 0,001 3,84 2,71 2
100,00 1,0000
Probabilidades a priori: Grupo Probabilidad a pnon Nombre l 2 3
0,36735 0,34694 0,28571
BaJOS Medios Altos
Entre toda esta Información conviene resaltar lo Siguiente: En pnmer lugar, el criterío utilizado para obtener las funCIOnes discrimInantes en nuestro ejemplo será el de mimmlzar la lambda de Wilks. También se sumInistra Información relatIva al número de Iteracíones que se van a desarrollar para la estimación de las funcíones, en este caso 10 (el número máXimo de iteraciones que emplea el programa utilizado es el eqUivalente a multiplicar el número de variables Independientes por dos). Por otro lado, aparece el nivel de toleranCia mímmo de una vanable para tener opcíones a entrar en el modelo. También el mvel del estadístiCO mínimo para que una vanable entre en el modelo (F mímmo), así como el valor que,
416
© EdiCiones Pirámide
Análisis discnmmante en caso de no mantener una vanable que ya esté dentro, le hará salir del mIsmo (F máxlmo)15 Además, se especifica el número de funcIOnes discnminantes que vamos a . obtener, en este caso dos, número resultante de restar uno al número de grupos de la variable dependiente. Por último, muestra las probabilidades a pnon de pertenencIa de un IndivIduo cualqUIera a cada uno de los grupos (en este caso, se ha optado por detenninarlas en proporción al tamaño de los grupos en la muestra). El test de Box (tabla 9.18) pone de manifiesto la idoneidad de aplicar el análiSIS discrimInante. al cumplirse la asunción de Igualdad de matnces de covarIanzas entre los grupos (p = 0,6112).
TABLA 9.18 Logantmo de los determínantes Resultados obtenidos con la estrategia de
Logaritmo del determinante
comunicación
BaJOS Medios Altos Intragrupos combinada M de Box F aproxImado gl 1 gl2
Significación
2 2 2 2
3,466 5,528 3,071 3,480
4,791 0,747 6 38.515,880 0,611
La tabla 9.19 proporciona información relativa a todas las variables Independientes consideradas (nIvel de toleranCIa, la F para entrar y la lambda de Wilks) antes de inICIarse el proceso de determinación de las funCIOnes discrimInantes. Después de la primera iteración, la varIable publicld (duración en días de las actividades publicitarIas) que en la tabla 9.19 presenta un mayor nIvel de F entra en el modelo. A continuación se repiten los cálculos de las F del resto de las variables independientes, así como sus niveles de tolerancia (tabla 9.20), de tal forma que la variable que aún no esté dentro y presente un mayor nIvel de F (cumpliendo con el mínimo para poder entrar), y siempre que satisfaga la restricción de tolerancia, en15 Estos valores los utiliza el programa SPSS por defecto; no obstante, pueden ser cambiados por parte del USUarlO.
© Ediciones Pirámide
j
tt
417
Técnicas de análisIs de datos en investigación de mercados TABLA 9.19
, .'
., Y.
Variables no incluidas en el modelo después del paso O
l'
•••••••
,Tf)le~ªIl~aIg~~a
fp¡tra-_~nt",lr
1,00000 1,00000 1,00000 1,00000 1,00000
13,2141244 16,0575976 8,1784337 49,0726381 54,4175978
1,00000 1,00000 1,00000 1,00000 1,00000
lNC-PROM lNC-POOL PATROCIN PROMOCIO PUBLICID
,
Lambda d~Wilks 0,6351113 0,5888739 0,7376894 0,3191225 0,2970901
TABLA 9.20 Resultados del primer paso del análisis En el paso 1, la variable PUBLICID entra en el análiSIS: Lambda deWilks F equivalente Significación
0,29709 54,41760 0,0000
Variables en el análiSIS después del pnmer paso:
Var¡abl~ PUBLICID
Lambda d~ Wilks
.F para
1,0000000
54,4176
0,29709
Variables no mcluidas en el análisis después del pnmer paso: . Var¡abj~s INC]ROM INC]UBL PATROCIN PROMOCIO
..
Tolerait~ia-
0,8660302 0,7078760 0,9331250 0,9715093
.. 'l'';i~t~;;ci~irriíniJha 0,8660302 0,7078760 0,9331250 0,9715093
F para
~ntrar
0,3404781 0,1707533 0,7400567 12,5891289
Lambda de Wilks 0,2926614 0,2948524 0,2876295 0,1905015
trará en el modelo en el paso dos (tabla 9.21). Sólo la vanable promocio (duración en días de las actividades promoclOnales) cumple esta condición. Tras el paso dOS, en el que entra la variable promoclO, nmguna de las vanables mdependientes restantes cumple las especificaCIOnes para poder entrar en el modelo (tabla 9.21); por tanto, el proceso de detennmación de las funciones discnmmantes se detiene en este paso. Los coefiCIentes estandarizados de las dos funCIOnes discrimmantes resultantes se muestran en la tabla 9.22.
418
© Ediciones Pirámide
Análisis discriminante TABLA 9.21 En el paso 2, la vanable PROMOCIO entra en el análiSIs: Lambda de Wilks F equivalente Significación
0,19050 29,05057 0,0000
Variables en el análisIs después del segundo paso: Tol~rancia
PROMOCIO PUBLICID
0,9715093 0,9715093
12,5891 15,1914
0.2970901 0.3191225
Variables no Incluidas en el análisIs después del segundo paso: i '.
"i,,'"
INC]ROM INC_PUBL PATROCIN
0,7886299 0,6529398 0,7198115
F
'.
1,
0,7886299 0,6529398 0,7198115
~.
'.
0,1710210 1,1175567 3,1824109
T.
.
ne Wilks
0,1890319 0,1812921 0,1664269
TABLA 9.22
Coeficientes estandarizados de las fimciones diSCriminantes canónicas ,o • • •
,o,.
i
PROMOCIO PUBLICID
1
1
0,62889 0.67856
12
0,79613 -0,75424
El entena de la lambda de Wilks mforma sobre la sIgnificación de las funciones discriminantes tanto conjuntamente como cada una de ellas por separado (tabla 9.23). Lógicamente, las funcIOnes discnminantes obtenidas mtentan explicar la máxima vanación posible eXIstente en las vanables independientes entre los diferentes grupos, Así, la primera intenta explicar lo máximo posible de esta variación. La segunda, que es ortogonal a la primera, intenta explicar lo máXImo posible de lo que resta, Los resultados proporcIOnan un valor propIO (íl) para cada función discnmínan© Ediciones Pirámide
tri'
419
Técnicas de análisIs de datos en investigación de mercados TABLA 9.23 Significación de las funciones Función.
1 2
Valor propio
3,7812 0,0979
%.••·.;de.. .·, ICorl"~la,ció~l,_J.?ync~ó'n varianza canomca, . exclUIda
97,48 2,52
o
0,8893 0,2986
1
Lambda de Wilks
.
0,190501 0,910832
I 75,443 4.250
4 1
Sigo
0.0000 0,0393
te. El .valor propIO es el ratIO entre la suma de los cuadrados entre grupos (SCE) y la suma de los cuadrados mtragrupos (SC!). Igualmente se sumimstra la correlación canómca (17) de cada funCIón discnmlnante con la vanable categónca que define los grupos, y expresa la parte de la varianza total explicada por la función.
172
=~ ~
1 + A2
= .1
3,7812 1+3,7812
= 0,8893
0,0979
= 0,2986
V1 + 0,0979
La correlación canómca elevada al cuadrado es una medida de la fortaleza de la función. Aunque la correlación canómca al cuadrado varía entre cero y uno, no eXISte una regla de aceptación general que determine cuándo un valor es alto. El mvestlgador debe comparar tal valor con el obtenido por aplicaCIOnes SImilares y, por tanto, decidir SI ese valor es alto, baJO o medio. Los resultados confirman que la capacidad explicativa de la segunda función es muy limitada, sobre todo SI se compara con la pnmera. Prescmdir de esta función no afectaría SIgnificativamente a la clasificación final. Las dos funCIOnes resultantes del análiSIS conjuntamente consideradas «
1 (1 + 3,7812)(1 + 0,0979)
420
= 0190501 ,
© EdiCIOnes Pirámide
Análisis discnminante Para comprobar si la segunda función es significatIva por sí sola, habrá que qUitar del modelo la pnmera función (Función excluida = 1). Efectivamente, contribuye a explicar las diferencIas entre los grupos (p = 0,0393).
Como se aprecIa, SI son VaIlas las funclOnes testadas, la A a tener en cuenta sería el resultado de multIplicar las A individuales. En el caso del análisIs discnmmante múltlple, la determmación del punto de corte se complica a medida que se incrementa el número de grupos de la vaIlable dependiente, fundamentalmente debido al incremento de dimenslOnes. Por este motIvo, lo más recomendable es aprovechar las posibilidades clasificadoras que contemplan los programas, especIalmente recumr a la operatona de Bayes (tabla 9.24), para clasificar los casos. Las funciones lineales de Fisher (tabla 9.25) suponen una alternatIva a lo antenor, al aSIgnar cada caso a aquel grupo para el que presente una puntuación mayor. Otro recurso para clasificar los casos es utilizar el mapa territorial (figura 9.11).
Función discnmmante 1 6
4
'Ti
g
2
o~
"El: ~
O
Q
~: ~
-2
IV
-4
o Centroides
-6 -6
-4
-2
O
2
4
6
Figura 9.11. © EdiCIOnes Pirámide
421
Técnzcas de análisis de datos en investigación de mercados TABLA 9.24
Clasificación de los casos i
·····Gt.!lP~
GrnpOCOl! nna ntllyor prol1abilidad
....actlllll •.•.. P(D/G)
.....
I I
,, ••• Segttnd9 WPO
jil
' 1."\
con.uml.m~y(}r
pr9bal;tilidad
. P(G/D)
l'(G/D)
Pnntl1adón . discriitiliíante
•••
Fundón 1 Función 2
•
1 2 3 4 5 6 7 8 9 10
1 1 1 1 1 1 1 1 1 1 1 1
11 12 13 14 i
16 17 18 j
20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38
422
1 1 1 1 1 1 1 1 i i 1 1 1 1
1
le IV
1 jj
1 1 1 2\/ 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 3 3 3
1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 3 3 3
0,3119 0,3706 0,1698 0,4701 0,5104 0,5404 0,4006 0,7579 0,3843 0,5584 0,6359 0,8577 0,3222 0,3843 Iv__9,0411 0,4701 0,5891 0,2472 0,2472 0,4572 0,6144 0,9386 0,8205 0,1868 0,2359 0,5582 0,4229 0,3485 0,0888 0,4866 0,2605 0,9116 0,9205 0,9329 0,4572 0,7014 0,4751 0,7027
0,9319 0,6890 0,6020 0,9548 0,6328 0,6184 0.7096 0,8739 0,8414 0,7562 0,7637 0,8227 0,5141 0,8414 0,6216 0,9548 0,7385 0,7594 (),7594 0,9990 0,7071 0,9455 0,9925 0,9769 0,9984 0,9199 0,5844 0,7850 0,9988 0,9982 0,9517 0,9151 0,9872 0,9676 0,9990 0,9144 0,8219 0,6275
2 3 3 3 3 3 3 3 2 2 3 3 2 2 1 3 2 3 1 1 1
1 1 1 1 1 1 1 1 1 1 1 1 1 i 1 1
0,0620 0,3104 0,3978 0,0364 0,3630 0,3808 0,2775 0,0850 0,1549 0,2392 0,2346 0,1722 0,4801 0,1549 0,3631 0,0364 0,2493 0,2025 0,2025 0,0010 0,2920 0,0544 0,0075 0,0231 0,0016 0,0799 0,4147 0,2148 0,0012 0,0018 0,0481 0,0848 0,0128 0,0324 0,0010 0,0856 0,1778 0,3719
0,359 -14,628 -17,669 -0,430 -10,359 -14,014 -0,731 --0,246 0,663 0,724 -11,587 --0,854 0,847 0,663 0,727 -0,430 0,543 -0,427 -0,427 35,201 13,327 21,223 27,305 27,891 30,960 16,982 12,714 17,568 38,828 34,587 17,596 18,796 26,691 21,837 35,201 -27.378 -17,641 -15,828
-17.713 -11,922 -15,772 -16,167 0,502 -0,537 0,887 0,347 -13,864 -0,731 -0,807 --0,422 0,578 -13,864 21,573 -16,167 0,193 12,722 12,722 0,499 0,038 -0,116 0,653 -15,805 16,934 10,781 -0,616 -11,561 -13,502 -0,155 17,328 0,153 -0,001 0,538 0,499 --0,498 13,117 0,387
© EdiCIOnes Pirámide
Análisis discnminante TABLA 9.24 (continuación) Grupo actual P(G(DJ
39 40 41 42 43 44 45 46 47 48 49
3 3 3 3 3 3 3 3 3 3 3
3 3 3 3 3 3 3 3 3 3 3
0;4140 0.9598 0,1001 0,2785 0,8364 0,2614 0,1031 0,6389 0,7027 0,9655 0,5755
0,7265 0.8322 0,5125 0,9961 0,7121 0,9971 0,9990 0,5522 0,6275 0,9086 0,8419
1
0.2735 0,1677 0;4783 0,0039 0.2877 0,0029 0,0010 0,4474 0,3719 0,0913 0,1581
¡
1 1 1 1 1 1 1 1 1
-22.523 -21,296 -0,913 -40,128 -18,869 -39,515 . -44,983 -16;441 -15,828 -23,723 -24,951
-10.376 0,272 18,118 0,196 0,002 0,851 0,735 -0,267 0,387 0.541 -0,767
TABLA 9.25
FunCIOnes discriminantes lineales de Fisher Resultados . I PromoclO Publicid Constante
Bajos
-.
30,5112196 27,0504832 -5.656,3717132
31.5288212 27.5268490 -5.934;4797368
Altos
¡
30,1280613 26,3549240 -5.430,9771574
En el mapa terntonal aparecen representadas las áreas de influencIa de cada uno de los grupos en las funCIOnes discnminantes obtenidas, así como sus centroides (tabla 9.26).
TABLA 9.26
Resultados discriminantes para los centroídes
Gfu¡Í~ 1 2 3
© EdiCIOnes Pirámide
ti
& ..
'fe
-0,30107 2,30841 -2;41597
,Fundón2 ~0,39488
0,18717 0,28043
423
Técnicas de análisIs de datos en investigación de mercados Como sIempre el hit ratio proporcIOna una idea de la capacidad clasificatoria de las funcIOnes discnminantes. El porcentaje de casos bIen clasificados es muy elevado, aproxImadamente el 96% (tabla 9.27).
TABLA 9.27
Matriz de clasificación Grupo pronosticado Grupo
I
clasificados: 95,92%
l'
..
•...
Altos
.. ....
.
Total
% de casos bien
Medios
1/ I
Altos
17 (94,4%)
1 (5,6%)
0(0%)
18
1 (5.9%)
16 (94,1 %)
0(0%)
17
0(0%) 18
0(0%) 17
14 (100%)
14
14
49
Para evaluar este porcentaje ya se han mencIOnado en el ejemplo 1 diferentes instrumentos: críteno de la probabilidad máxIma, cnteno de la probabilidad proporcional, la Q de Press y el test de Huberty. Por otra parte, la observacIón de la figura 9.12 revela que la función discnmlnante 1 sIrve para discrimmar aquellos individuos que pertenecen al grupo 2 (empresas con resultados medios) de los del grupo 1 y 3 (empresas con resultados baJOs y altos, respectivamente). Por su parte, la funCIón 2 resulta adecuada para diferenciar entre los grupos 1 y 3. Sin embargo, esta mterpretaclOn a SImple vista se debe hacer con cautela, ya que la porcíón de varianza explicada por la función 1 es sustancIalmente distmta a la explicada por la funcíón 2. Por lo que respecta a la interpretación de las funCIOnes discnmmantes, básIcamente se puede recurrir a dos de los mstrumentos comentados en el ejemplO anterior; uno, los coeficíentes estandarizados de las funCIOnes discnmmantes (tabla 9.28), y otro, las correlaciones entre las funcíones discrimmantes y las vanables mdependientes (tabla 9.29). Al calcular las correlaCIOnes, el programa 10 hace para las cmco varIables de partida, aunque sean dos las mcluidas. Además, se señala para cada variable, por medio de un asterisco, cuál es la funcíón con la que está más relacIOnada.
424
© EdiCIones Pirámide
Análisis discrzminante
Función 2 0.3 ,..--,<)__--y'---~---r--~---~---, Grupo 3 i
I
0,2
----------~-----------
0,1
-----------¡----------- ----------- ----
0,0
----------- ---------- -----------+--0-------
i
¡ Grupo 2 :'
l
_
:, , : 1---:-: ----+---+--+--+---1 ,,
---------- ~--,, -------- ----------- ---------- -----------+----------,,
-0.1
,, , ,, ,,, ,, , -0.3 --------- --:- ------ ---- --------- -- -- -------- ----------- t-----------
-0,2
,,,
------- --- ;--------- ,
, -0,4
--- - ---- - -----------.,.--, ----- ---
1
\
_
i __ __'__'_ _--.J
Grupo
L.-_ _~
-3
----
-
-- -----
i __
-2
-1
o
3
2
Figura 9.12.
TABLA 9.28
Coeficientes estandarizados
"~ u.",u" .....
7' Fundón 1 PROMOCIO PUBLICID
I .••.•••
0.62889 0,67856
'0;
0,79613 -0,75424
TABLA 9.29
Correlaciones entre las variables independientes y las funciones discrimznantes ~unc.on
PUBLICID' PROMOCIO INCPUBL PATROCIN INC]ROM
0.78471 * 0.74342* 0.56941* 0,48922* 0,45967*
)
r
~,~.u.,
"
-0.61986 0.66882 -0,15110 0,20213 -0,00857
Para evaluar conjuntamente la Importancia de cada una de las vanables mdependientes en las dos funCIOnes discnmmantes, se recurre al índice de potencia (tabla 9.30). © Ediciones Pirámide
s . _._
425
Técnicas de análisis de datos en investigación de mercados TABLA 9.30
"
..
..
.•..... CJ1
.....
Función·l·
•••••••••••••••••••••
"Hj1 ,
l.,.; .•..•
Publicid Promocio lnc_publ Patrocm lnc_prom
"l?;,
0,784 0,743 0,569 0,489 0,459
1,
0,615 0,552 0,324 0,239 0,211
0,974 0,974 0,974 0,974 0,974
0,600 0,538 0,316 0,233 0,205
".
....
.
!
..
~"
kA
12
Cj2
-0,619 0,668 -0,151 0,202 -0,008
0,384 0,447 0,022 0,040 0,00007
0,025 0,025 0,025 0,025 0,025
0,009 0,011 0,0005 0,001 0,000002
P.,
0,609 0,550 0,316 0,234 0,205
Debido a la escasa capacidad explicativa de la segunda funci6n, la !J)terpretaci6n de las correlaclOnes de las variables mdependientes con la pnmera funci6n comcide prácticamente con la interpretaci6n de los índices de potencIa. Es decIr, las variables que más contribuyen a discriminar entre grupos son, por orden de ImportancIa, la mversi6n en publicidad y la mversi6n en promoci6n. Si s610 hubiésemos empleado una funci6n discnmmante, prescmdiendo, por tanto, de la que tiene poca capacidad explicativa, los resultados hubiesen sido los que se recogen en la tabla 9.31 16 El hit ratio es del 93,88%, muy SImilar al antenor (95,92%), lo que da una idea de lo poco que aporta la segunda funci6n a la hora de discriminar entre grupos.
TABLA 9.31
Resultados sólo con una función
I
Grupo
'proº()sti~do
I Grupo
I
Medios
i
Total
% de casos bien clasificados: 93,88% '
..a.~~~
Bajos
17 (94,4%) 1 (5,9%) I (7,1 %)
19 1
Altos
O (0%) 16 (94,1%)· 0(0%) 16
1
(5,6%)
0(0%)
18 17
13 (92,9%)
14
14
49
.
16 La sintaxis del programa utilizado también pennite esta opción.
426
© EdicIOnes Pirámide
Análisis discrimmante
5.
ESQUEMA DE PROCEDIMIENTO EN PAQUETES ESTADíSTICOS Para la realización de un análiSIS discrimmante en una aplipación informátIca, el procedimiento básIco a seguir se concreta en lo sIgUIente: 1. 2. 3. 4. 5. 6.
7.
Abrir el archivo que contIene la mformación que queremos analizar. Ejecutar el módulo del análiSIS discrimmante. SeleCCIOnar la vanable dependiente del análiSIS. Seleccionar los grupos de la variable dependiente que se van a analizar. SeleCCIOnar las vanables mdependientes. SeleCCIOnar el método de obtención de las funCIOnes discrimmantes (por pasos o directo). En caso de que se seleCCIOne el método por pasos, concretar el cnteno que se va a tener en cuenta para decidir acerca de las vanables que van a Ir entrando en el modelo. SeleCCIOnar la mformación que queramos obtener: -
8. 9.
6.
Medias por grupOS. AnáliSIS de la varianza. Test de Box. CoefiCIentes de la función de Fisher. CoefiCIentes no estandanzados de la función discnmmante. Matnz de correlación de las vanables mdependientes. Matnz de covananzas. Mapa temtonal. Otras opciones 17
Especificar las probabilidades a pnon de pertenencia a los distIntos grupos. Ejecutar para obtener los resultados.
APLICACIONES DEL ANÁLISIS DISCRIMINANTE Algunos ejemplos de sItuacIOnes reales en las que se podría aplicar la técmca serían: -
Determinar SI un nuevo producto va a tener éxIto en el mercado o SI, por el contrano, va a fracasar. Identificar las posibilidades de que un cliente de un banco vaya a ser capaz de devolver un crédito solicItado o si, por el contrano, le va a ser práctIca-
17 El resto de conceptos que se han empleado en el capítulo 10 suelen dar los paquetes estadístIcos por defecto. sin tener que seleccionarlos preVIamente. © EdiclOnes Pirámide
427
Técnicas de análisis de datos en investigación de mercados
-
-
-
mente imposible, por lo cual el banco tendría que desistir de conceder dicho crédito. Establecer SI un cliente es receptivo a la compra por catálogo o, por el contrarIO, atendiendo a unas deternunadas características, el cliente difícilmente optará por este sIstema de distribución. De esta fonna, una empresa que utilizara este sIstema podría aSIgnar más eficazmente sus esfuerzos de comunicación a los potencIales clientes. Ayudar a un estudiante a decidir entre las distintas titulaCiones que se le ofrecen, de acuerdo con sus característIcas y sus habilidades. para reforzar las garantías de éxito en la carrera elegida. Repartir entre las posibles opCiones electorales (incluida la abstención) a los votantes indecisos o mcluso a los que responden no sabe/no contesta en encuestas electorales.
Más concretamente, el análisis discrimmante ha sido utilizado en el mundo del marketmg para: -
-
-
Validar los resultados obtenidos por medio de un análiSIS cluster, por González, González y Álvarez (1997). Identificación de varIables capaces de discrImmar entre mdivlduos que muestran una concIencia ecológIca en el consumo y los que no la muestran, por Cañadas, Montoro y Fuentes (1997). Identificación de las variables SOCIales, económicas y demográficas capaces de discriminar a mdividuos que son sensibles a las promOCiones de los que no lo son, por De la Ballina y Vázquez (1996). Precisar las variables que determman las diferencias en la rentabilidad de los fondos de inversión, por Lassalla (1997). Descubrir los factores que hacen que un producto de alta tecnología fracase o no cuando se lance al mercado, por Santos y Vázquez (1997). Revelar los factores que determman el grado de atraccIón de un centro comercIal, por Mas (1997). SeleCCionar los ratlos finanCIeros que pueden ayudar a predeCIr la bancarrota de una empresa, por Althan (1968). Como mstrumento de análiSIS de la msolvencla en las operaCiones avaladas por las SOCIedades de garantía recíproca, por Ramírez (1998).
INVENTARIO DE TÉRMINOS Y CONCEPTOS • Análisis discrImmante. • Función discnmmante. • MatrIZ de VarIanzas mtragrupos.
428
© EdiCIones Pirámide
Análisis discnmínante • • • • • • • • • • • • •
Test de Box. Método directo y método por pasos. Lambda de Wilks. FuncIOnes discnmmantes de Fisher. Punto de corte. Mapa territorial. Matriz de clasificación o confusión. Hit ratio. Muestra de validación. Validación cruzada (jackknife J. entena de la probabilidad máXIma y cnteno de la probabilidad proporcional. Índice de significación práctica. Índice de potencIa.
BIBLIOGRAFíA Althan, E. (1968): «FinancIaI ratios, discrImmant analysls and the predictlOns of corporate bankrupty», Journal of Finance, sep., pp. 589-609. Cañadas, P.; Montaro, F., y Fuentes, F. (1997): «Estudio de las vanables explicativas de la frecuencia de compra de los productos ecológICOS», XI Congreso NacIOnal y VII Hispano-Francés de AEDEM, Lleida, 17 al 20 Junio de 1997, ponencias, pp. 117-125. De la BaJlina, F. J., Y Vázquez, R. (1996): «La promoción de ventas de productos de gran consumo: confirmacIOnes empíricas», VIII Encuentro de Profesores UnlversztarlOs de Marketing, Zaragoza, 26 y 27 de septIembre de 1996, pp. 429-441. Frank, R., Massey, W., y Mornson, D. (1965); «Bias m Multiple Discnmmant Analysls», Journal of Marketing Research, vol. 2, núm. 3, pp, 250-258. GonzáJez, F.; González, S., y Álvarez, L. (1997): «Evaluación de los planes de estudio: eVIdenCIas empíricas», XI Congreso NaCIOnal y VII Hispano-Francés de AEDEM, Lleida, 17 al 20 Junio de 1997, ponencias y comumcaclOnes, tomo l, pp. 461-469. Halr, J.: Anderson, R" Tatham, R., y Black, W. (1995): Multzvariate data analysis with readings, 4.' ed., PrentIce-Hall, New Jersey. HUberty, C. J. (1984): «Issues m the use and mterpretatlOn of Discnmmant AnalysIs», Psychologzcal Bulletzn, 95, pp. 156-171. Lassala, C, (1997): «Los factores determmantes de la rentabilidad finanCIera de los fondos de mversión en activos del mercado monetano», Revzsta Europea de Dirección y Economía de la Empresa, vol. 6, núm, 1, pp. 143-152. Malhotra, N. K. (1993): Marketing Research. An Applied OrzentatlOn. Prentice-Hall, Englewood Cliffs (NJ). Manly, B. (1986): Multivarzate Statistical Methods. A Przmer, Chapman and Hall, 1986. Mas, F. J. (1997): «Imagen y atracción de centros comerCIales suburbanos», Investzgación y Marketzng, septIembre. Neal. W. (1989): «Using discnmmant analysIs m marketmg research: Part 1», Marketzng Research, septIembre, pp. 79-81. © EdicIOnes Pirámide
429
Técnicas de análisis de datos en investigación de mercados Neal, W. (1989): «Usmg discriminant analysIs in maIketmg reseaIch: PaIt 2», Marketing Research, dicIembre, pp. 55-60. NOruSIS, M. J. (1986): Advanced statlstlcs. SPSS/PC+, SPSS lnc. Ortega, E. (1992): Manual de Investigación comercial, 3.' ed., Pirámide, Madrid. PaIasuraman, A. (1986): Marketing Research, Addison Wesley. Ramírez, I. (1998): «Determinantes de la insolvencia en las operaCIOnes avaladas por las sociedades de gaIantía recíproca: una aplicación del análisis discriminante y de análisis 10gIl», Revista Europea de Dirección y Economía de la Empresa, vol. 7, núm. 1, pp. 149166. Sánchez CaIfión, J. (1984): Introducción a las técnzcas de análisIs multivanable aplicadas a las cIencias sociales, Centro de InvestIgacione? Sociólogícas, Madrid. Santos, M. L., Y Vázquez, R. (1997): «Factores condicionantes del resultado del desaIfoIlo de nuevos productos en las empresas de alta tecnología», ReVIsta Española de Investlgación de Marketing ESIC, núm. 1, pp. 165-189. Sharma, S. (1996): Applied multivariate technzques, John Wiley & Sons, lnc., Nueva York. Unel, E. (1995): Análisis de datos, senes temporales y análiSIS multlvanante, AC, Madrid.
430
© Ediciones Pirámide
Gonzalo Sánchez Vizcaíno
1.
INTRODUCCiÓN En las discIplinas acadéllllcas no son raras las ocasIOnes en las que el investIgador está mteresado en predecIr SI un detefllllnado suceso ocumrá o no en función de una sene de varIables explicativas. En el campo de las cIencias sociales, es frecuente que se presenten tales situaCIOnes por cuanto son muchas las varIables objeto de estudio que presentan senas dificultades -cuando no una clara Imposibilidad- para ser representadas de forma cuantItatIva. Valgan como muestra algunos ejemplos: el director de marketmg de una empresa de comumcaciones se mteresa por conocer hasta qué punto cIertas característícas socioeconóllllcas (estado civil, mgresos, mvel de estudios, edad o número de hijoS) mfluyen en que un mdividuo contrate un nuevo serVIcio de televisión por cable; por su parte, un analista financiero qUIsIera estudiar la relación entre el comportamiento de una serie de ratIos financIeros y econóllllcos con la posibilidad de que una empresa entre en situación de qUIebra; por últImo, un responsable de política económIca desearía conocer SI en el hecho de que una empresa industnal sea mnovadora o no mfluyen una serie de característIcas como su tamaño, sector de actIvidad, complejidad organlZaclOnal o formalización de su estructura. Los problemas representados en estos tres ejemplos sIguen un esquema común. Se trata de constrUIr un modelo que describa la relación entre una serie de característIcas que conforman un cOllJunto de varIables mdependientes de tIpo categónco o contmuo (estado CIvil, mgresos, edad, ratios financieros, tamaño, sector de activIdad) y una variable dependiente dicotóllllca o bmana que sólo puede tomar dos valores que definen opCiones o característIcas opuestas o mutuamente excluyentes (contratar el servicIO de televIsión por cable o no; situación de quiebra o no: empresa innovadora o no mnovadora). El análiSIS discnmmante serviría para abordar SItuaCIOnes como las descntas; sm embargo, la posibilidad de que coexistan variables mdependientes de naturaleza cuantItatIva y categónca vIOla la asunción de normalidad multIvarIante.
© Ediciones Pirámide
--
431
T
Técnicas de análisIs de datos en investigación de mercados En el presente capítulo se mtroduce una técnica de análisIs multlVanante, la regresión logístIca, que no sólo solventa las dificultades planteadas por el análisIs discnmmante J , smo que también suple las limItaciones del modelo de regresión lineal respecto a la naturaleza dicotómIca de la varIable dependiente. Así pues, el modelo de regresión logístIca es un procedimIento por medio del cual se mtenta analizar las relaciones de aSOCIaCIón entre una vanable dependiente dicotómIca (bmana o dummy) Y Y una o vanas variables independientes (regresores o predictores) X n cuantItatIvas o categóncas, todo ello a fin de lograr los sIgUIentes obJetIvos: determmar la eXIstencIa o ausencIa de relación entre una o más vanables mdependientes y la vanable dependiente; medir la magnitud de dicha relacIón y estImar o predecir la probabilidad de que se produzca (o no) el suceso definido por la vanable dependiente en funcIón de los valores que adopten las variables mdependientes. Los orígenes de esta técnica, y en general de los modelos Zoglt, vienen de muy atrás en el tIempo. En efecto, como señala Cramer (1991), a mediados del siglo pasado fue diseñada la función logístIca como una curva de crecimIento y, ya en los años tremta, la bioestadístIca configuró el modelo de probabilidad blvanante, definido IniCIalmente como un modelo probit (utilizando como función de enlace la distribución normal de probabilidad). Sin embargo, es a finales de los años sesenta cuando esta téCnica se convIerte en un método estándar para el análisIs de regresIón de datos dicotómIcos, pnnclpalmente en el campo de las ciencias de la salud como la bioestadístIca o la epidemiología2 Postenonnente, la utilizaCIón del análisIs de regresión logística se ha extendido al resto de CIencias socIales como la sociología o las CIenCIaS empresanales, donde ha sido objeto de numerosas aplicaCiones, entre las que destacamos a modo de ejemplo el comportamiento del consumidor ante la compra de determmados productos o servICioS, el análisIs del éxIto en la mtroducción de nuevos productos, el estudio del fracaso empresanal, la predicción de sItuaciones de qUIebra o suspensIón de pagos sobre la base de ratios económlcofinancIeros o la prediccIón de actividades de I+D en empresas mnovadoras.
2.
FORMULACiÓN DEL MODELO A contInuacIón se exponen los aspectos más sIgnificativos del modelo a partir de las limItaCiones del modelo de regresión lineal.
2.1.
Limitaciones del modelo de regresión lineal
Supongamos que una entIdad finanCIera prepara el lanzamIento de un nuevo producto. Con el fin de diseñar una adecuada política de promoción, el departamenI
La regresión logística no establece nmguna restncción sobre la distribución de las vanables mde-
pendientes. 2 Hosmer y Lemeshow (1989) y Cramer (1991) ofrecen una amplia bibliografía al respecto.
432
© EdiclOnes Pirámide
Regresión logística to de marketmg estaría mteresado en conocer hasta qué punto la aceptación del producto está relacIOnada con el nIvel de mgresos de sus clientes. Con esta intención se pregunta a una muestra aleatona de los mIsmos SI estarían dispuestos a suscribIr el nuevo producto. Los resultados de la encuesta se muestran en la tabla 10.1, en la cual la variable respuesta Y, «¿adqumría usted el producto A?», ha sIdo codificada con valor 1 en caso de respuesta afirmatIva y con valor cero en caso contrarIo. Por otra parte, la varIable independiente X, que se supone mfluye en la anterior, representa el nIvel de mgresos de cada encuestado (en 105 pesetas). TABLA 10.1 Datos ejemplo 1 * <;a"o i¿Olnpra! 1
2 3 4 5 6 7 8 9 10 11 12 13 14
1 1
I 1 1 1 1 1 I
O 1 1 O 1
Ingr~s()s
50,2 70.3 62,9 48.5 57,2 75 46.2 57 64,1
32 73,4 71,9 56.2 49,3
.....
• .• ~~so Oimpra 15 16 17 18 19 20 21 22 23 24 25 26 27 28
Jngr~s()s
I
o I
o 1
o o o o O
o O O O
62 50.8 56.2 43,2 50,4 44,1 38,3 55 46.1 35 37,3 41,8 37 33,4
Caso <;omp..a / 29 30 31 32 33 34 35 36 37 38 39 40 41 42
1
o o 1 1
o 1
1
o O O O 1 1
.'''¡;'''''~ 50.8 37.5 41,3 63,6 54 45 68 62.1 35 34.5 39,4 37 54,5 38,2
En estas condicIOnes, el modelo más sencillo que puede plantearse entre ambas vanables es el lineal:
Y={3X+e de tal modo que cada valor Y = Yi, se obtendrá:
Obsérvese que en este caso la vanable mdependiente Y sólo puede tomar dos valores, cero o uno, de fonna que la probabilidad de que suceda una u otra opción dependerá de cada valor que tome la vanable explicatIva X. Así pues, la vanable respuesta (aleatona) sIgue una distribución binomial B(l,p;), donde Pi es la proba-
* © EdicIOnes Pirámide
Véase fichero en la dirección www.ugr.es/-tluque.
433
Técnicas de análisis de datos en investigación de mercados
bilidad de que un cliente con un nivel de mgresos quirir el nuevo producto, es decir:
Xi
se muestre partidano de ad-
P(Y= IIX =x;) = Pi
y, por tanto, P(Y = O/X = X;)
= 1 - Pi
En el modelo general de regresión lineal, la esperanza de la vanable Y para un valor de X = Xi es
ya que E(e;) = O. Pero en el caso concreto que nos ocupa, donde la vanable dependiente sigue distribución bmomial. la esperanza condicionada a los valores de X es Igual a: E(Ylx;)
=1
Pi + O. (l -
pJ =Pi
en consecuencia:
En definitiva, esto Implica que las prediccIOnes obtenidas con el modelo CY;) pueden mterpretarse en térnunos de probabilidad. Esto es, el modelo de regresión lineal aplicado a una vanable dependiente dicotómíca estima la probabilidad de que la característica estudiada esté presente en los elementos de la población definidos por X=x i • En nuestro ejemplo, el modelo de regresión lineal ajustado por MeO sería:
Ji = /31 + /3i'i = -0,983 + 0,03005
(ingresos) = Pi
que proporcIOna una estimación de la probabilidad de que un mdividuo de la muestra esté dispuesto a adquinr el nuevo producto dado su mvel de mgresos. A pesar de su simplicidad y sencillez, no sólo en el planteamiento smo también en su mterpretación, la fonnulación de un modelo lineal para explicar el comportamiento de variables mdependientes dicotómicas en ténnmos de probabilidad presenta senos problemas que lo hacen inapropiad03 : 3 Véase, por ejemplo, Rosmer y Lemeshow (1989, 5-7); Peña (1994. 501); RUlz-Maya el al. (1995. 543-545); Jovell (1995, 2).
434
© EdicIOnes Pirámide
Regresión logística 1.
Puesto que í31 + í3iX¡ estima una probabilidad, es obligado que, para cualquier valor de la variable independiente X (mvel de ingresos), dicha predicción debe de estar comprendida entre O y 1. Sin embargo, no eXiste garantía de que esto ocurra siempre. En la figura 10.1 se han representado los valores estimados por el ajuste de regresión lineal para los 42 individuos encuestados. Se aprecia claramente que algunas de las probabilidades estimadas superan el valor 1 y otras se encuentran por debajO del valor O, algo eVIdentemente maclnusible. Por ejemplo:
Y6 = -0,983 + 0,03005x6 = 1,2707 YlO =---0,983 + 0,03005x lO = -0,0214
1,4
o 1,2
fj .g
-
1.0
o
~
:g'"
__ e.
0,8
~ " ."i §" ~ ~
... #o o_
~
ro
o
00
0,6 0,4
¿fO
~ o
(} 0,2 (;)
0,0
«!
éií--
Probabilidad compra (valores estimados)
-
-•
Comprar o no (vaiores observados)
-0.2 20
40
50
60
70
80
Ingresos familiares per cáplta
Figura 10.1.
2.
3.
© EdiclOnes Piramide
Ajuste de los datos ejemplo 1 con regresión lineal.
La distribución de los errores (e,) es discreta con valores -(/3, + [32X) y 1 - (/31 + /32X) según y¡ sea igual a O o 1, respectivamente. Se VIOla la asunción de normalidad de los errores y, consecuentemente. los estimadores mlnimocuadráticos no serán eficientes. La vananza de e, puede calcularse fácilmente una vez conocidas las probabilidades con que la vananza aleatona e¡ toma los dos valores citados:
435
Técnicas de análisis de datos en investigación de mercados P[e i = 1 - (/31 + /32X,)J = P[Y = lIiJ =Pi = /31 + /32X i P[e i = -(/31 + f32X ,)J = P[Y = OliJ = 1 - Pi = 1 - (/31 + /32 X ;)
Así, Var (e,) =Pi(1-jJ. - /3y:i + (1- P,)(-/31 - f32 X ,? = = Pi(1 - pi + (1 - p¡)p¡ =p;(1 - p,) = (/31 + /3y:;)(l - /3, - /32 X,) 4.
2.2.
por lo que el térmmo error presenta heteroscedasttcidad. La hIpótesis de normalidad de la vanable dependiente tampoco se cumple cuando es dicotómica, como en este cas04
El modelo de regresión logística
Una excelente alternatIva para garantizar que la respuesta prevIsta esté entre O y 1 es utilizar una funcIón de enlace no lineal que sea monótona, creciente y acotada entre dichos valores. En estas circunstancias cabría utilizar cualqUIer función de distribución de varIables aleatonas, de tal modo que el modelo quedaría:
es decIr, que la probabilidad de que un cliente adqUIera el nuevo producto (P[Y = lIiJ =p,) viene expresada por una función de distribución (no lineal) de su lllvel de ingresos (x) El modelo de regresión logística surge cuando se utiliza la función de distribución logística para modelizar la relación entre la probabilidad de Y = 1, condiclOnada a un determmado valor de la varIable (o vanables) mdependiente, x;: e/3,+{3,x;
Pi
= 1 + e/3,+/3,x, 1
(1- p,)
= 1 + e/3,+/3,x,
(1)
(2)
Para el ajuste de este modelo y la estImacIón de los parámetros fJ, y fJ2 no puede segUIrse, como en el caso de la regresIón lineal, el método de mínimos cuadrados puesto que, como ya hemos comentado, cuando se aplica al caso de vanables dependientes dicotómicas, el modelo resultante presenta heteroscedastIcidad. Una alternatIva de uso general para la estImación de los parámetros conSIste en utilizar el procedimiento de estimación por máxima verosimilitud (EMV). En sínte4 Algunos de estos mconvementes pueden ser parCIalmente superados con un procedimIento de estImación en dos etapas (MeO y Me?) y utilizando las frecuencias relatIvas d.e aceptación Pi como variable dependiente contmua con una distribución normal en lugar de la variable origmal Y dicotónuca, para lo cual será necesario contar con observaCIOnes repetidas para cada valor de X.
436
© Ediciones Pirámide
Regresión logisliea sis, este método proporcIOna unos valores (/J, y /32) para los parámetros desconocidos ({3, y 132) q1!e maxnlllzan la probabilidad de que con ellos se obtengan los valores observados. Para aplicar la EMV se preCIsa constrUIr, en pnmer lugar, la denominada funcIón de verosImilitud (L) que expresa la probabilidad de los datos observados como una función de parámetros desconocidos. Los valores que maxImizan la función L serán los estimadores maximoverosímiles de dichos parámetros 5 Los pnncipales paquetes estadísticos (GLIM, BMDP, SAS, SPSS, etc.) contienen un modelo de regresión logística. En concreto, utilizaremos el procedimiento regresión logística del programa SPSS 7.5. Así pues, yna vez ajustado el modelo y obtenidos los estimadores maxlmoverosímiles {3, y {32' la estimación de la probabilidad Pies mmediata: (3)
(4)
Para los datos del ejemplo 1: e- ll ,449+0,2371 (ingresos)
A
Pi
(1-
= P (comprar el producto) = l+e' -1144902371(" ) +, mgresos
p,) = P (no comprar el producto) = 1 + e -11449+~ ' ,2371 ("lllgresos )
De este modo, la probabilidad estimada de que un cliente de la entidad financIera se muestre dispuesto a adquinr el producto en cuestión es una función no lineal (logística) de sus mgresos, tal y como se muestra en la figura 10.2. Para familianzar al lector con las salidas de SPSS, ofrecemos la obtenida con los datos del ejemplo (tabla 10.2), donde B representa los estimadores /Ji' El resto de la información será tratada en apartados postenores cuando generalicemos el modelo al caso multivanante: TABLA 10.2
INGRESOS CONSTANT
0,2371 -11,4491
0,0698 3,3797
11,5564 11,4762
1 1
0,0007 0,0007
0,4055
1.2676
5 No vamos a entrar en el procedimiento de estImación maxlffioverosímil para la regresión logística, limitándonos a remitir al lector a las publicaciones específicas sobre el tema. Por ejemplo, Ruiz-
Maya el al. (1995), Sh~a (1996), Hosmer y Lemeshow (1989) o Peña (1994).
© EdiCIOnes Pirámide
437
Técnicas de análisis de datos en Investigación de mercados
1,2
1,0
dJD
fj
.g o
a S
#
0,8
o
0000
d9
-¡J
a
s 0,6 o
o o
u
u
"""" ro
~ .g 0,4
9 o o o
"8
"" 0,2
1'"'10<9
0,0 30
~
o 40
Figura 10.2.
c9
50 60 Ingresos anuales
70
80
Probabilidades eslImadas de comprar el producto.
Para terminar esta visión mtroductona al modelo de regresión logístIca es necesano defimr dos conceptos básIcos relacIOnados con el mIsmo y que serán de suma utilidad para su más completa comprensión. El pnmero es el odds o «ventaja» 6 de que un suceso ocurra. Se define como el cociente entre la probabilidad de que ocurra un suceso y su probabilidad complementana, esto es, de que no ocurra: p/l - p;, e mdica la «preferenCia» de elegIr la opción 1 de la variable respuesta frente a la opción O (RUlz-Maya et al., 1995, 548). Por ejemplo, la ventaja de obtener «cara» en el lanzamIento de una moneda es 0,5/0,5 = 1, mIentras que la ventaja de extraer una carta del palo de espadas de una baraja es 0,25/0,75 = 1/3. Estos resultados implican, en el pnmer caso, que la ventaja de obtener cara en el lanzamIento de una moneda es de 1 a 1, y en el segundo que la ventaja de extraer una espada de la baraja es de 1 a 3, o 0,33 a 1. En definitIva, ventaja y probabilidades proporcIOnan la mIsma mformación, aunque de forma diferente. 6 Siguiendo a Ruíz-Maya et al. (1995), hemos traducido el término mglés odds por «ventaja". Este ténnino es muy utilizado en el mundo de las apuestas en los países anglosajones.
438
© Ediciones Pirámide
Regresión Logística Así pues. operando con las expreslOnes (3) y (4) podemos obtener la ventaja estimada de la opción I de la variable respuesta frente a la opción O (n) (5)
expresión que. como veremos más adelante, facilita la interpretación de los parámetros. En nuestro ejemplo. la ventaja de la opción «adqumr el producto» frente a «no adqUlnrlo» será: Q (comprar) A
=
pA
(comprar)
p (no comprar)
. = e- ll ,449+0.2371 (mgresos)
En el caso de un mvel de ingresos de 56,2, la ventaja estimada de que el cliente adquiera el producto es:
ñ56,2-- e-11 •449 -. eO.2371(S6.2) - 6 527 , es decir. que un cliente con unos lllgresos de 56,2 tiene una «preferencia» por comprar el producto 6,527 veces mayor que por no comprarlo. Por otro lado, la probabilidad estImada de que dicho cliente adqUIera el producto será PS6.2 = 0,867. El segundo concepto al que hacíamos referencia es la denomlllada transformación logístlca, definida como ellogantmo de la ventaja o preferencia de la opción I frente a la opción O. Aplicando esta transfonnación a (5) obtenemos una expresión equivalente: lnn i A
J = In [Pi 1- Pi = /3, + /32X A
A
i
(6)
Hay que destacar que mIentras que la probabilidad se expresa a través de un modelo no lineal (logístico), el logarltmo de las ventajas (también denominado 10gil) sí lo es, lo cual facilita la lllterpretación del modelo. Resunuendo, tenemos tres expreslOnes equivalentes del modelo de regresión logística: 1.
Pi = e!Jl+{J2Xi/l
+ e{Jl+{J2Xi. que estima la probabilidad de que un sUjeto elija la
opción 1 dado un determlllado valor de X (O
2.
3.
© EdicIOnes Pirámide
=Xi'
En este caso se cumple que
~Pi ~
1). ni = p,Il - Pi = e{Jl+{J2Xi =
eiJ' . e{J2Xi,
que estima la ventaja o preferencIa de un llldividuo por la opción I frente a la opción O de la vanable dependiente para cada valor de la varIable (variables) llldependiente; de modo que SI P(Y = 1) = O. entonces, ni = O; Y SI P(Y = 1) = 1. ni = 00; por tanto, (O ~ ni ~ 00). In ni = /3, + /32Xi' que estima el logantmo de la ventap ni' o logit, cuyo campo de vanación estará entre _00 y 00' para P(Y = 1) = O Y P(Y = 1) = 1, respectivamente.
439
Técnicas de análisIs de datos en mvestigación de mercados
3.
EL MODELO MULTIVARIANTE Al igual que en el modelo de regresión lineal, la generalización del modelo Ulllvanante de regresión logístIca a un contexto multIvanante es inmediata. Se trata de estImar la probabilidad de que una respuesta bmana ocurra, P(Y = 1), en función de los valores que tomen un conjunto de vanables explicatIvas o predictIvas, que pueden ser contmuas o categóncas, Xv> X 2i ' •.• , Xn<" Así:
(7)
o sus expresIOnes eqUIvalentes: (8)
(9) Al igual que en el modelo ulllvarlante, el ajuste del modelo y la estImación de los parámetros se realiza por el método de máXIma verOSImilitud. Sobre este modelo multivanante, y apoyándonos en un ejemplo, Iremos analizando los aspectos centrales del modelo de regresión logístIca. Comenzaremos por una aclaración necesana sobre la codificaCIón de las vanabIes mdependientes de naturaleza categónca. para contmuar con las pruebas de SIgnificaCIón de los parámetros estImados, su mterpretación, la evaluación de la bondad del ajuste y, por últImo, comentaremos los métodos más usuales de seleccIón de vanabies mdependientes.
4.
EL PROCESO DE REGRESIÓN LOGíSTICA 4.1.
Codificación de las variables independientes categóricas
Al diseñar el modelo, puede resultar conveniente la mc!usión de variables mdependientes de naturaleza categónca, tales como sexo, estado cIVil, lugar de residenCIa, etc. En estos casos no parece correcto su mc!uslón en el modelo representado por las expresIOnes (7), (8) Y (9) como SI se tratara de vanables continuas. La razón es que los posibles valores que pueden tomar este tIpo de varIables no tIenen un sIgnificado numénco, smo que tan sólo mdican la presencIa (o ausencia) de CIerto atnbuto (en el caso de vanables dicotómIcas) o la pertenencIa del sUjeto a una determmada categoría o nivel, del cual el valor tomado por la vanable es un SImple
440
© EdiCIOnes Pirámide
Regresión logística identificador. Así pues, la incorporación de vanables cualitatIvas al modelo no es automática, smo que precIsa de un procedimIento previo de adaptación7 De este modo, ante la presencIa de una varIable cualitatIva con k mveles, será necesano diseñar o defimr k - 1 vanables dicotómIcas «
-
EDAD: «menos de 40 años», «de 40 a 60 años» y «más de 60 años».
-
VALPENSI: puntuar en una escala desde 1 (mnguna confianza) a 9 (plena confianza).
-
VIVIENDA: 1 (propletano), 2 (no propietano).
En el ejemplo encontramos dos vanables cualitatIvas: VIVIENDA y EDAD. Para la pnmera, al ser dicotómIca, no habría que defimr mnguna nueva vanable, pues bastaría con recodificar la eXIstente dando valor 1 al hecho de ser propIetarIO de una vivIenda y O en caso contrano. Para la vanable EDAD se defimrían dos variables fictIcias EDAD¡ y EDAD2 • La primera tomaría valor 1 cuando el individuo tenga entre 40 y 60 años y O en caso contrano, mIentras que la segunda sería Igual a 1 para aquellos sUjetos mayores de 60 años y O para cualqUIer otra sItuación. LógIcamente, cuando el encuestado tenga menos de 40 años (la categoría restante de la vanable EDAD), EDAD, Y EDAD 2 deberán ser ambas Igual a O. En la tabla 10.3 se ilustra el sIstema de codificación para las vanables EDAD y VIVIENDA. Con este método de codificación el nivel de la vanable original. definido por defecto «
© Ediciones Piramide
Hosmer y Lemeshow (1989) y Rmz-Maya el al. (1995).
441
T Técnicas de análisis de datos en investigación de mercados TABLA 1O.3.A)
TABLA 1O.3.B)
IVariables de diseño
Menos 40 años De40a60 Más de 60
EDAD,
EDAD,
o
O
1
O
O
1
Variable de diseño l'
Vivienda VIVIENDA, 1 O
Prop,etano No propietano
La incorporación de las variables ficticias al modelo ajustado hace que éste cambie su formulación. En el caso del ejemplo 2, obtendríamos las sigUientes expreSlOnes: eiJa +iJ,INGRESOS + /J, VALPENSI +l:%EDAD, +iJ4EDAD, +iJ5 VIVIENDA,
A
P (comprar)
= l + e/3a+ " /3,INGRESOS+ /3,. VALPENSI +/33. EDAD, +/34. EDAD, +/35. VIVIENDA,
y análogamente, p(comprar)
p(no comprar) = eiJo+iJ,INGRESOS+ iJ, VALPENSI +l:%EDAD, +iJ,EDAD, +iJ5VIVIENDA, In Q(comprar) =
= So + S¡INGRESOS + S2 VALPENSI + S3 EDAD¡ + S4 EDAD2 + Ss VIVIENDA, 4.2.
Contraste de hipótesis sobre la significación de los coeficientes de regresión
Una vez ajustado el modelo y estlmados sus coeficientes, el Investigador debe centrar su atención en comprobar si las vanables independientes que lo Integran están relaclOnadas «significativamente» con la vanable respuesta o dependiente. Como en el caso del modelo de regresión lineal, esto Implica plantear y contrastar hipóteSIS estadístlcas sobre los coeficientes de regresión, bien sea de forma Individual o conjunta. En síntesIs, el contraste de hipótesis sobre la significación de los coeficientes de las variables es un Intento de responder a la sigUiente pregunta: ¿qué modelo nos aporta una Información más acertada sobre el comportamiento de la variable respuesta, el que contiene la(s) varlable(s) en cuestión o el que no la(s) Incluye? Si la respuesta a esta pregunta se resuelve a favor de la pnmera alternativa y los valores
442
© EdicIOnes Pirámide
Regresión logística estimados por el modelo con la(s) vanable(s), entonces diremos que la(s) variable(s) en cuestión es «sIgnificativa». Al Igual que en el modelo de regresión lineal, las pruebas de sIgnificación de las vanables se formulan en los sigUIentes ténmnos: contrastar la hIpótesIs nula, Ho, de que un coefiCIente de regresión o un conjunto de ellos es cero contra la hipóteSIs alternativa H¡, derivada del rechazo de lo establecido por H o' Para el modelo ajustado denvado del ejemplo 2 vamos a distmguir entre el contraste de significación de un solo coefiCIente y el contraste conjunto de todos los que interVIenen en el modelo. Una de las formas más comunes de contrastar la hIpóteSIs de que un coeficiente de regresión es cero (Ho' {3 = O) se basa en el estadístico W de Wald, que para un grado de libertad es igual al cuadrado de la razón entre el estimador maxlmoverosímil del coefiCIente de la vanable mdependiente y un estImador de su error estándar: W=
, ]2
{3;, SE({3;)
[
El estadístIco resultante, baJO la hIpóteSIs nula de que {3 = 0, sigue una distribución ji-cuadrado (X 2 ). Para vanables categóncas, el número de grados de libertad será Igual al número de categorías menos uno. Puesto que los estImadores de los errores estándar de los parámetros estImados son sumlll1strados por los paquetes mfonnátIcos, obVIaremos cualquier discusión sobre su cálculo. En concreto la salida de SPSS ofrece para cada coeficiente, además de esta infonnación, el valor del estadístico W, sus grados de libertad y su nivel de SIgnificación. La tabla 10.4 muestra los resultados que ofrece SPSS para el ejemplo que estamos manejando. TABLA 10.4
INGRESOS VALPENSI EDAD EDAD, EDAD2 VIVIENDA, CONSTANT
0,1880 -0,0804
0,0922 0,40009
4,8888 3,0575 3,5774 -13,7898
2,3957 1,9446 1,7567 5,2369
4,1579 0,0402 4,2444 4,1642 2,4721 4,1469 6,9338
0,0414 0,8410 0,1198 0,0413 0,1159 0,0417 0,0085
1 1 2 1 1 1 1
0,1927 0,0000 0,0648 0,1930 0,0901 0,1922
1,2068 0,9227 132,7999 21,2737 35,7808
El estadístIco W para la vanable INGRESOS es:
W=[
© Ediciones Pirámide
A
SE({3J
r r = [ 0,188
0,0922
= 4,1579
443
Técnicas de análisis de datos en investigación de mercados puesto que P(X 2 ;" 4,1579) = 0,0414, la hIpótesIs nula de que !JI = O puede ser rechazada para un nivel de sIgnificación del 5% y la vanable INGRESOS es, pues, significatIVa. Igual ocurre para VrvillNDA (p = 0.0417) Y EDAD, (p = 0,0413). Sobre el estadístico W hay que hacer notar que puede presentar un comportamIento anómalo en presencia de coefiCIentes de regresión demasIado altos. como consecuenCIa de errores típICOS elevados 8 En estas CIrcunstancias parece recomendable acudir a otro procedimiento alternativo, para evaluar la SIgnificación de un coeficIente de regresión como el basado en el test de la razón de verosimilitud, que precisaremos a continuación. La tabla 10.4 también ofrece los valores del estadístico R A de Atkinson. que mide la correlación parCIal entre cada variable llldependiente y la vanable dependiente, pudiendo varIar desde -1 a + 19 Los valores positivos llldican que cuando la vanable lllcrementa su valor, también lo hace la verosimilitud de que el suceso representado por la vanable dependiente ocurra. RA se puede considerar como una medida de la contribución parcIal de cada vanable al modelo. y su formulación es: RA =
~W-2P
(11)
-2 In Lo
donde Wes el estadístico de Wald, p el número de parámetros estimados (será mayor que 1 en el caso de variables categóricas como EDAD) y -2 In Lo representa -2 veces el logaritmo de la verosimilitud del modelo que contiene sólo el térmlllo llldependiente.
4.2.1.
Significación global de los coeficíentes de regresión
En este caso, la hIpótesis nula que se desea contrastar es que todos los coeficientes de las vanabIes llldependientes son Iguales a cero, es decir: Ho= !JI = !J2 = ... = 13n = O. En un modelo con término llldependiente !Jo, no rechazar Ha sería tanto como admitir que el modelo que sólo lllcluye el térmmo constante predice mejor los valores observados de Y que el modelo ajustado en cuestión con n vanables predictoras (X"). Por el contrarIO. si Ha fuese rechazada, esto indicaría que al menos uno de los coefiCIentes (y probablemente todos) es distinto de cero. En la regresIón logística este contraste se realiza por medio del test G o prueba de la razón de verosImilitud que se define: G
8 9
444
= -2 In [Verosimilitu~.del
modelo sólo con la constante (Lo)] Verosim¡[¡tud del modelo seleccionado (Lp )
(12)
Véase Hosmer y Lemeshow (1989) y Ato y López (1996). El SIgno del parámetro en cuestión es el aplicado al estadístico RAo © Ediclones Pirámide
Regresión logistica que se distribuye como una X2 con p - l grados de libertad, donde p representa el número de parámetros en el modelo sometido a estudio. Este estadístico se basa en la función de verosImilitud de cada modelo y, en definItiva, compara la probabilidad de que los datos estImados por cada uno de los modelos representen a los valores realmente observados de la varIable respuesta lO En nuestro ejemplo, el valor de G = 43,240 con 5 grados de libertad permite rechazar la Ho antes formulada, ya que la probabilidad de error ante este rechazo (sIgnificación) es práctIcamente nula. SPSS nos ofrece este contraste bajo la denomInación model chi-square, donde se puede observar el valor del estadístico G, sus grados de libertad y la probabilidad P(X 2 > G) sobre la que se realiza el contraste de H o, de tal modo que SI dicha probabilidad es menor que el nIvel de SIgnificación a fijado por el InvestIgador (por ejemplo, a = 0,05), entonces se podrá rechazar Ho de que el valor de todos los coefiCIentes estImados es Igual a O, porque al menos uno de ellos es distInto de O. Como veremos en postenores epígrafes, la prueba de razón de verosimilitud también se emplea para evaluar la bondad del ajuste del modelo seleccIOnado y para medir la mejora en el ajuste del modelo a los datos cuando se Incluyen o se excluyen una o varias vanables Independientes. Por últImo, el lector habrá deducido que, en el caso UnIVarlante, el estadístico G sIrve para detennInar la significación de la únIca vanable independiente ofreCIendo una infonnación alternativa al estadístico W de Wald.
4.3.
Medidas de la bondad de ajuste
Las pruebas de contraste de hipóteSIs sobre la SIgnificación de las variables descritas en el apartado anterior no pueden ser consideradas como un medio de evaluar la bondad del ajuste del modelo, puesto que se limitan a valorar la mayor o menor adecuación de los datos estImados por dos modelos a los valores realmente observados de la vanable respuesta (Jovell, 1995). Por medidas de la bondad del ajuste hemos de entender aquellas pruebas o procedimientos que evalúen el grado de efectIvidad absoluta del modelo considerado en cuanto a la descnpción de la variable dependiente, es deCIr, cuán cerca están los valores estImados y; de los realmente observados y; Analizaremos tres grupos de medidas de bondad del ajuste: las basadas en pruebas estadístIcas de contraste de hIpóteSIs, las denvadas de la comparación directa entre los valores estImados y observados de la vanable respuesta y, por últImo, las que son análogas al coefiCIente de detennInación múltIple (R 2) de la regresión lineal.
10 La expresión operativa de este estadístIco puede verse, por ejemplo, en Hosmer y Lemeshow (1989, 15) o en RUIZ-Maya el al. (1995, 682).
© Ediciones Pirámide
-:I
445
Técnicas de análisis de datos en investigación de mercados
4.3.1.
Bondad del ajuste: contraste de hipótesis
Este tIpO de medidas de bondad del ajuste se basa en contrastar la hIpótesIs nula Ha de que el modelo seleccIOnado ajusta bien los datos por medio de un estadístico con una distribución conocida. a)
Desvianza (deviance)
El estadístico desvianza (D) se define como una función del logantmo nepenano del cociente de la función de verosimilitud del modelo seleccIOnado y la del modelo saturado. Un modelo saturado es aquel que contIene tantos parámetros como datos y que predice perfectamente los valores observados. La desvianza tIene la SIgUIente expresIón: D
= -2 In [VerosImilitud del modelo seleccionado]
(13)
VerosImilitud del modelo saturado
La cantidad entre corchetes se denomma razón de verosimilitud y el propIo estadístico D es también llamado test o prueba de razón de verosimilitud 11 Este estadístico se distribuye aproximadamente como una X2 con N - p grados de libertad, donde N es el número de observacIOnes y p el número de parámetros contenidos en el modelo. En algunos tests y paquetes InformátIcos se suele utilizar -2 In L(~) o -2 In likelihood para referirse a la desvianza de un deterrmnado modelo. SPSS utiliza esta últIma notación y ofrece tanto la desvIanza del modelo sólo con la constante, como la del modelo seleccIOnado. El lector puede comprobar cómo D es el ongen de la prueba G de contraste de hipótesIs para la significación conjunta de todas las variables Incluidas en el modelo y que, en defimtIva, este últImo estadístico no hace SInO recoger el cambio en D debido a mclUIr las vanables Independientes en el modelo que sólo contIene el térmInO constante. Así: G = D (para el modelo SIn las variables, sólo con la constante) - D (para el modelo con las variables) Puesto que la verosImilitud del modelo saturado es la mIsma en ambos valores de D, la diferencia puede expresarse: G
= -2 In [Verosimilitud del ~~delo SIn la vanable (sólo con la constante)] VerosurnlItud del modelo con las variables
1t La expresión operativa de la deSVIallZa puede verse, por ejemplo, en RUlz-Maya et al. (1995, 682) o en Hosmer y Lemeshow (1989, i4).
446
© Ediciones Pirámide
Regresión logistiea En nuestro ejemplo, SPSS ofrece en pnmer lugar el valor de la desvlanza del modelo sólo con el ténmno independiente -2 In likelihood = 58,129, Y una vez realizada la estImación maximoverosímil, la desvlanza del modelo con todas las variables mcluidas: -2 In likelihood = 14,889. Aunque el programa no facilita los grados de libertad m el valor p asocIado a cada valor de D, es fácil realizar el contraste de la hIpótesIs nula de que el modelo en cuestIón ajusta bIen los datos para a = 0,05 conocIendo que D se distribuye como una X2 con 41 grados de libertad (42 - 1) en el pnmer caso, y con 36 grados de libertad (42 - 6) en el segundo. De este modo se rechazará Ha para el modelo con el término constante, mientras que para el modelo seleCCIOnado, la hIpótesis no podría ser rechazada para un IX = 0,05, es decir, no podríamos rechazar que dicho modelo ajuste bIen los datos (su verosimilitud no difiere estadísticamente de 1 para un mvel de sIgnificación de 5%)12
b)
Prueba de la ji-cuadrado
Tanto esta prueba como la sIguiente son medidas de bondad del ajuste que se basan en comparar los valores observados y los estimados por el modelo que se desea evaluar (valores esperados), todo ello, una vez más, baJO la Ha de que dicho modelo ajusta bIen los datos observados. Esta prueba se basa en la obtención de un estadístico X2 que mide el nivel de discordancia que puede eXIstir al comparar, para cada uno de los diferentes patrones de predictores eXIstentes, el número de respuestas (afirmativas) observadas con la probabilidad estimada por el modelo l3 Por patrón de predictores se entIende cada una de las diferentes combmaclOnes de valores que pueden adoptar las vanables independientes incluidas en el modelo. Por ejemplo, las variables SEXO (1 = hombre; 0= mUJer) y ESTADO CIVIL (1 = soltero; 0= casado) determmarían cuatro patrones de covanables, puesto que cada uno de los individuos que componen la muestra pueden clasificarse en uno de los sIgUIentes grupos (patrones): hombre-soltero; hombre-casado; mUJer-soltera; Y mUJer-casada. El estadístIco X2 , cuando el número de patrones de predictores M < N, es: (14)
donde mi es el número de casos mcluidos en cada patrón de predictores, y¡ la opcIón de la vanable respuesta y Pila probabilidad estimada por el modelo para el patrón de covanables í. Para grandes muestras el estadístIco se distribuye, obvIamente, como una ji-cuadrado con M - p grados de libertad. 12 El valor leónco de X' con 41 grados de libertad para a; 0,05 es 56,942 < 58,129, mientras que el valor leónco de X' con 36 grados de libertad para a; 0,05 es 50,998> 14,889. 13 Jovell (1995, 78) Y Rlllz-Maya el al. (1995, 682).
© EdiCIones Pirámide
447
T Técnicas de análisIs de datos en investigación de mercados
En presencia de vanables contmuas, el número de patrones de predictores es muy probable que sea igual al número de observacIOnes muestrales M = N. En estos casos la prueba X2 tomaría la expresión: (15)
puesto que ni sería igual a 1. Hosmer y Lemeshow (1989) advierten de la obtención de valores p incorrectos cuando M = N; sm embargo, estos autores sugieren que, en los casos en que el modelo ajustado es el correcto, se puede utilizar la prueba X2 con N - p grados de libertad con unos resultados razonables. En nuestro ejemplo, que contiene vanables contmuas, el valor del estadístico X2 con 36 grados de libertad (42 - 6) es de 29,815, mientras que el valor teónco de la distribución para a. = 0,05 es de 50,998, lo cual indica que no se debe rechazar la hipótesIs nula de que el modelo seleccIOnado ajusta bien los datos. El programa SPSS Identifica esta prueba como goodness of fit.
e)
Prueba de Hosmer-Lemeshow
Esta prueba es especIalmente adecuada para evaluar la bondad del ajuste de aquellos modelos que mcluyan una o varIas varIables independientes de tipo contInuo y que cuenten con un número de patrones de predictores prácticamente Igual al número de casos observados (M =N). Estos autores proponen ordenar de menor a mayor las N probabilidades estimadas (una para cada caso observado) y a contmuación agruparlas en diez grupos de tal modo que en el primero de ellos se encuentren los ni = NilO sUjetos que tengan las probabilidades estimadas más bajas y en el últImo los n lO = NilO sujetos con las probabilidades estImadas más elevadas. Estos grupos son conocidos como «deciles de nesgo». El estadístICO de bondad del aJuste de Hosmer-Lemeshow, C, se obtiene calculando el estadístico ji-cuadrado de Pearson de una tabla de 2 x 10 refenda a las frecuencIas observadas y estImadas para cada uno de los diez grupos. Aunque los pnnclpales paquetes estadísticos que desarrollan la regresión logístIca ofrecen una salida con el resultado de esta prueba, reproducimos a continuación la fórmula de cálculo de C: (16)
donde n k es el número de patrones de predictores del grupo k-ésimo,
448
© EdiCIOnes Piramide
Regresión logística es decIr, el número de respuestas afirmativas regIstradas para la vanable respuesta (Y = 1) para los n¡ patrones de predictores, y
la media de la probabilidad estimada. Los resultados de aplicar la prueba de Hosmer-Lemeshow al ejemplo 2 se muestran en la tabla 10.5. TABLA 10.5 Prueba de Hosmer-Lemeshow ii
< ",....w.....;cN(f
.•...•......•
.Obseri'ad. 'Esper,,(¡ I
2 3 4 5 6 7 8 9 10
4,000 4,000 4,000 3,000 4,000 1,000 0,000 0,000 0,000 0,000
3,997 3,985 3,937 3,772 2,597 1,421 0,167 0,083 0,030 0,010 ...•..
, Test de bondad del ajuste
\
••
,Sí Total
Observad
Esperad
0,000 0,000 0,000 1.000 0,000 3,000 4,000 4,000 4,000 6,000
0,003 0,015 0,063 0,228 1,403 2,579 3,833 3,917 3,970 5,990
4,000 4,000 4,000 4,000 4,000 4,000 4,000 4,000 4,000 6,000
Ji'cuadrado
gl
Significación
5,5128
8
0,7016
Por ejemplo, la frecuencia observada de los clientes que comprarían el producto para el sexto decil de nesgo es 3. Este valor se obtiene de sumar los valores estimados de la varJables respuesta para los Y individuos de este grupo y se representaría como 0 6 = 3, De forma SImilar, la correspondiente frecuencia estimada esperada para este decil es 2,579, que es la suma de las cuatro probabilidades estimadas por el modelo para esos cuatro clientes, Si asumImos que n6 = 4 (un patrón de predictores para cada sUjeto del grupo), entonces n 6i'6 = 2,579 puesto que:
(Y = 1)
_ _ ~ mJ'¡ _ 2,579 P6 - ,:,.,-- - ._-.=1 4 4 ya que mi = m2 = m3 = m4 = 1 (un individuo por cada uno de los patrones de predictores del decil). La frecuencIa observada de los clientes que no compran el producto (Y = O) para este decil es 4-3 = 1 Y la frecuenCIa estimada esperada es 4-2,579= 1,421. © EdiCIOnes Pirámide
449
Técnicas de análisis de datos en investigación de mercados El valor del estadístico éo ofrecido por SPSS es de 5,5128, cuya probabilidad calculada para una distribución ji-cuadrado con ocho grados de libertad (10 - 2) es P(X~ > 5,5128) = 0,7016, lo cual implica que el modelo ajusta bien los datos (no se puede rechazar Ho). d)
Bondad del ajuste: eficaclQ predictlva 14
Otro modo de evaluar la bondad del ajuste del modelo seleccionado consiste en comparar las predicciones del 1llismo con los datos muestrales observados, sIendo la tabla de clasificacIón -y una sene de medidas denvadas de la misma-o el procedimIento más utilizado para este fin. Junto a la tabla de clasificación también se comentará una salida adiCional ofrecida por SPSS llamada hIstograma de probabilidades estImadas. La tabla de clasificación es una tabla de doble entrada donde se clasifican los casos que componen la muestra según los valores observados de la vanable respuesta (1, O; sí, no; ausenCIa, presencIa) y los valores pronostIcados por el modelo estimado, de tal modo que, dado un valor de corte (generalmente 0,5), todos los casos cuya probabilidad estimada sea igualo mayor que este valor serán clasificados en el grupo que denota la presencIa de la característIca representada por la varIable dependiente, mIentras que aquellas observaCiones que obtengan una probabilidad menor que 0,5 lo serán en el grupo que Implica la ausencIa de dicha característICa. Una vez construida la tabla es convemente arbitrar algunas medidas que actúan como índices de la eficaCIa predictIva del modelo. De acuerdo con Ato y López (1996, 196), la tabla de clasificación obtenida adoptará la sIgUIente forma:
TABLA 10.6 "
~'o'
.1,.
'""VO
.
.
Positivo
A C (A+ C)
B D (B+D)
'-e-
NegatIvo POSJllvO Totales
(A +B) (C+D) N
Donde A Y D son los casos clasificados correctamente por el modelo y B Y D los lllcorrectamente clasificados. De este modo se puede defimr los sIgUIentes índices: 14 Este grupo de medidas es considerado por algunos autores como una forma de evaluar la efica-
CIa predictiva del modelo más que la bondad del ajuste (Ato y López. 1996) o incluso como una mera forma de clasificación de los resultados obtenidos (Sharma, 1996). No obstante. SIgUIendO a Jovell (1995») los hemos introducido en este apartado por cuanto sirven para evaluar la idoneidad del modelo considerado.
450
© EdiCIOnes Pirámide
Regresión logística -
Tasa de aciertos: (A + D)/N. Tasa de errores: (B + C)/N. Especificidad: proporción entre la frecuencia de negativos correctos y el total de resultados negativos observados (A/(A + B». Sensibilidad: razón entre los positivos correctos y el total de positIvos observados (D/(C + D». Tasa de falsos negativos: CICA + C). Tasa de falsos POSitiVOS: B/(B + A).
La tabla de clasificación correspondiente a nuestro ejemplo aparece detallada en la tabla 10.7, tal y como es ofrecida por la salida de SPSS: TABLA 10.7 Tabla de clasificación de resultados
No
20
o
Sí
2
20
Global
100% 90,91% 95,24%
Es fácil comprobar que el programa ofrece la especificidad, 20/(20 + O) = 100%; la sensibilidad, 20/(2 + 20) =90,91 %, Y la tasa de aCiertos (20 + 20)/42 =95,24%. De la misma forma se obtienen el resto de medidas: -
Tasa de errores: (2 + 0)/42 = 4,76%. Tasa de falsos negativos: 2/(20 + 2) = 9,1 %. Tasa de falsos positivos: 0/(0 + 20) = O.
Aunque la mterpretación de estos resultados, y en especial de la tasa de aCiertos, puede conducir a afirmar que el modelo goza de una alta eficaCia predictiva, cabe preguntarse hasta qué punto son «buenas» estas tasas de clasificación. Para ello se puede reCUrrIr a la comprobación de la Significación estadística de la tasa global de aCiertos sigUiendo procedinuentos similares a los discutidos en el análiSIS discrinunante. Por ejemplo, a partir del test de Huberty, el número esperado de casos correctamente clasificados debidos al azar es: e = _1 (20 2 + 22 2 ) = 21,05
42
obteniéndose el valor del estadístico Z*, que se distribuye, aproximadamente, como una normal: © Ediciones Pirámide
451
Técnicas de análisis de datos en investigación de mercados
z* =
(40- 21,OS)-J42 - 21,0S)
~21,OS(42
= S 848 ,
Para un lllve1 de significación a = O,OS, el valor del estadístico Z* (S,848 > 1,96) conduce a rechazar la hipótesIs nula de que el número de casos correctamente clasificados por el modelo no difiere de la clasificación esperada sólo por efecto del azar, es decir, que la tasa de aCiertos del modelo es significatIvamente mayor que la que se obtendría debido al azar. El modelo de regresión logístIca de SPSS permite obtener una imagen adicIOnal sobre la eficacia predictIva del modelo estImado por medio del denommado histograma de probabilidades estimadas. La figura 10.3 representa sobre un eje de coordenadas los casos agrupados en función de su probabilidad estImada (eje de abSCIsas), figurando con una notación que representa su pertenencia real (observada) de cada uno de los dos grupos definidos por la variable respuesta.
16 +
+
I I
F R
I I
I 12 +
I +
E e U
In
E
8 +n
N
In
e
In
sI
1
In 4 +n
ssl ss+
A
I
I sI sI
In
s+ sI
In
ssl
Iun TI Innsnn
Probabil.
n
TI
ns n
s
--------------+--------------+--------------+--------- ------
estimada: O
Grupo:
TI
sssI sssssI
.25
.5
,75
1
nnnnnnnnnnnnnnnnnnnnnnnnnnnnnnssssssssssssssssssssssssssssss PrObabilidad estimada de pertenencia al grupo "si" El valor de corte es 0,5 Símbolos: n-no s - Sl Cada símbolo representa 1 caso.
Figura 10.3.
Probabilidades eslImadas y gmpos observados.
Si el modelo estimado distingue acertadamente los dos grupos, los casos para los que se ha observado que ocurre el fenómeno a estudiar (Y = 1) deberían estar SItuados a la derecha del punto de corte elegido (O,S), mientras que aquellos casos para los que se ha observado la ausencia del evento (Y = O) se situarían a la IZqUIerda de O,S. Cuanto más agrupados estén ambos grupos en sus respectIvos extremos mayor será la eficacia predictIva del modelo. En la figura 10.3 puede observarse que de los mdividuos que han declarado que comprarían el producto, sólo para
452
© Ediciones Pirámide
Regresión logística dos de ellos se ha estImado una baja probabilidad de que esto suceda: son los dos úmcos casos mal clasificados por el modelo.
4.3.2.
Bondad del ajuste: medidas similares a R2
Para termlllar. recogemos una medida de la bondad del ajuste en cIerto modo análoga al coeficIente de determInación múltIple (R 2 ) de la regresión lineal. Aunque a pnon un estadístIco de este tIpo podría parecer la solución idónea para evaluar la bondad del ajuste. las fuentes bibliográficas consultadas desaconsejan su uso para este fin, advIrtiendo de sus deficIencIas en cuanto a su capacidad de discrimlllación y de explicación de la varIabilidad en relación con el coeficiente de determlllación propIamente dicho utilizado en la regresión lineal 15 Por esta razón, nos limItaremos a presentar esta medida Slll entrar en más consideracIOnes.
Ri
=1_
-2 In L(~) -2 In L(f3o)
(17)
donde L(fto) es la función de verosImilitud del modelo que sólo contIene el térmmo independiente y L(fto) la verosImilitud del modelo seleccIOnado. En nuestro ejemplo Ri toma el valor:
R2 L
= 1- 14.889 = 07438 58.129
'
La prueba Ri ofrece valores entre O y 1, sIendo los más cercanos a este últImo los IlldicatIvos de un buen ajuste.
4.4.
Interpretación de los resultados
Una vez determmadas las VarIables sIgnificatIvas en el modelo seleccIOnado, el sigUIente paso será determlllar cómo Illfluyen en la varIable respuesta objeto de estudio. para lo cual se ha de proceder a Illterpretar sus respectIvos coefiCIentes, ft;· Igual que en el análiSIS de la regresión lineal, los coeficientes estImados de las variables Illdependientes indican la magmtud de la IllflUenCla de cada una de estas vanables sobre la variable dependiente. En el caso de la regresión lineal, la Illterpretación de los coeficientes es directa, ya que expresan el cambIO producido en la escala de medida a la variable dependiente ante cambIOS umtanos de las varIables Illdependientes. 15
© EdicIOnes Pirámide
Rosmer y Lemeshow (1989), Cramer (1991), Novales (1993) y Jovell (1995).
453
I
Técnicas de análisis de datos en investigación de mercados
En los modelos de regresión logística, la interpretación de los coeficientes no es tan directa, debido fundamentalmente a la naturaleza no lineal del modelo ongmal. Las transfonnaclOnes del mismo recogidas en las expresIOnes (5) y, sobre todo, (6) facilitan algo la tarea interpretativa; pero mcluso en esta última el modelo lineal resultante lo es respecto al logzt, y, por tanto, la interpretación de los coeficIentes dependerá de que se sea capaz de comprender el SIgnificado de los cambIOS en esta escala de medida, Además, la distmta naturaleza de las vanables mdependientes (dicotómIcas, categóncas y continuas) conlleva singularidades en cuanto a la mterpretación de sus parámetros, Así pues, y SIguiendo el esquema propuesto por Hosmer y Lemeshow (1989), pasaremos a considerar la mterpretación de los coefiCIentes en un modelo de regresión logística para cada una de las posibles escalas de medida de la vanable mdependiente. A)
Variables independientes dicotómicas
Sea un modelo de regreSIón logística en el que una de las vanables independientes es de naturaleza dicotómzca. Según se ha definido antenonnente, la ventaja de la opción 1 de la variable respuesta (Y = 1) frente a la opción O para un detennInado valor de la varIable mdependiente Xn¡ es D; = pil - p;' Puesto que en el caso que nos ocupa Xn sólo puede tomar los valores 1 y O, la ventaja de la opción 1 para x n = 1 será D, =p(Y = 1)11 - p(Y = l/x = 1) =p¡ll - p" y para x n =O, Do =prJl - Po' Llegado a este punto, se define el cocIente de ventajas, 'P, como la razón de la ventaja de la opción 1 para x n = xn¡ respecto a la ventaja para x n = x nr En el caso de que x n sólo tome dos valores (1, O) el COCIente de vent::qas se referirá a x n = 1 respecto a x n = O; por tanto, el COCIente de ventajas 'P ¡.o tomará la expresión:
eCf3a + f3,) / (l + eCf3o + f3,)) D, 1/ (l + e(f30 +/3,)) 'P¡ o = - = ---=-:';::--,'-'=---,,--'--. Do e f3a / (l + e f30 ) 1/ (1 + e f30 )
(18)
Así pues, el cociente de ventajas referido a una determinada vanable mdependiente dicotómIca es una medida de asocIación que mdica cuánto más probable (o Improbable) es que se presente el suceso que se está mvestrgando (Y = 1) entre aquellos sujetos para los que x n = 1 que entre aquellos otros con x n = O. En la tabla 10.4 que muestran los resultados obtenidos para nuestro ejemplo; la última columna denommada exp (B) ofrece los valores ef3" para cada una de las vanables mdependientes. En el caso concreto de la vanable dicotómIca VIVIENDA, el valor estimado de 35,78 SIgnifica que, mantemendo constantes el resto de las vanables, el mostrarse favorable a la adqUISIción del nuevo producto finanCIero es 35,78 veces más prObable que ocurra entre los sUjetos que poseen VIVIenda propIa (VIVIENDA = 1) que entre los que no la poseen (VIVIENDA = O). En otras palabras, é" mdica el factor de cambIO en la ventaja de que ocurra el suceso represen-
454
© Ediciones Pirámide
I
Regresión logistiea tado por la vanable dependiente cuando la variable Illdependiente dicotónuca toma el valor 1 frente a la opción O. Dicho de otro modo, la ventaja de la opción 1 de la varIable respuesta «sí estaría dispuesto a adqUlnr el nuevo producto financIero» cuando el sUjeto posee vivienda propIa es supenor en 35,78 veces a la correspondiente cuando el sUjeto no posee viVIenda propIa (VIVIENDA = O). La Illterpretación de los coeficIentes de las varIables categóncas con más de dos opClOnes es SImilar, como ya se señaló anteriormente. Estas varIables Illdependientes han de ser recodificadas en tantas varIables dicotómIcas o vanables de diseño como número de categorías eXIstentes menos uno. Utilizando el método de codificación de la «categoría de referencIa», la Illterpretación de cada uno de los coefiCIentes de las vanables dicotómIcas recodificadas se realizará de la forma antes expuesta. Claro que ahora é" representa el factor de camblO en la ventaja de que ocurra el suceso representado por la vanable dependiente cuando el sUjeto pertenece a la categoría representada por la correspondiente variable de diseño frente al hecho de que el sUjeto pertenezca a la categoría de referencIa (representada por los valores O de las vanables de diseño). Veamos la aplicación práctica con el ejemplo 2. Recordamos que el modelo estimado contiene dos vanables de diseño dicotómicas, EDAD! y EDADz' quedando la categoría de «menos de 40 años» como categoría de referencIa, esto es, sobre la que se realiza la comparación (tabla 10.3). La tabla lOA muestra el valor de los coeficientes estimados para EDAD! y EDAD z, í33 = 4,88 Y í34 = 3,057. Manteniendo constantes el resto de las vanables, se puede afirmar que: -
El estar dispuesto a adqUlnr el nuevo producto financIero es 132,79 veces (é 88 ) más probable que ocurra cuando el sUjeto tiene entre 40 y 60 años (EDAD! = 1) que cuando tiene menos de 40 años (categoría de referencIa). La ventaja de la opción 1 de la vanable respuesta «estaría dispuesto a adqumr el nuevo producto financiero» cuando el Illdividuo tiene más de 60 años (EDAD 2 = 1) es superior en 21,27 veces (e 3,05?) a la correspondiente cuando el sUjeto tIene menOs de 40 años (categoría de referencia)!6
-
B)
Vanables independientes continuas
En el caso de vanables Illdependientes contInuas, la interpretación de sus coefiCIentes también se realiza sobre la base de la razón de ventajas. Así, ante un camblO unitarlO en la escala de medida de la vanable Illdependiente, la ventaja de la opción 1 de la vanable dependiente se Illcrementará (o dismllluirá) en un factor igual a e~", En el ejemplo 1, la vanable independiente INGRESOS es de naturaleza continua, y una vtiz ajustado el modelo, el coefiCIente í3! toma un valor de 0,2371, mientras que él = 1,267 (tabla 10.2). Esto SIgnifica que un Illcremento de 100.000 pesetas en los Illgresos (la unidad de medida de INGRESOS es 105 pesetas) provo16
Se comprueba fácilmente a parttr de la expresión (18) que: "
tp (EDAD(2),
© EdiCIOnes Pirámide
--
_A"
_P4_
menos de 40) - QCEDAD(2)/Q(menos 40) -
3,D57
e - e
455
T
I
Técnicas de análisis de datos en investigación de mercados cará un incremento multiplicativo por un factor 1,267 de la ventaja de la opción 1 de la variable dependiente. No obstante, el modelo puede mterpretarse no sólo res~ pecto al cociente de ventajas, sino también respecto a las propias ventajas o a la es~ cala original de la variable respuesta, esto es, la escala de probabilidades. Veamos un ejemplo. Sean dos clientes A y B de la entidad financiera con unos mgresos de 50,5 x lOs y 38,5 X lOs pesetas, respectivamente. Aplicando el modelo de regresión logística est1illado donde, =-11,4491 Y = 0,2371, podría llegarse a la sigmen~ te conclusión:
!JI
So
, \TI
-
T (SO,S;38,S) -
e- II ,449I O,2371(SO,S) e e- ll ,449I O,2371(38,S) e
eO,237(SO.S-38,S)
-
17 205 ,
El valor 17,205 mdica que la ventaja de la opción «adqumr el nuevo producto» para el cliente A es superior en más de 17 veces a la ventaja de «adqmnr el nuevo producto» para el cliente B. ASimismo, dichas ventajas para los mveles de ingresos de ambos clientes tomarán dos valores:
A)
Oso s
B)
038,S
,
= e- ll ,449I eO,2371(SO,S) = 1,6895 = Ps~,s
1- Pso,s
=
e- II ,449I e O,2371(38,S)
P3~,S
= 0,09819 =
1- P38,5
=
0,62818 0,3718 . Y 0,08941 0,91058
En este caso, los valores obtemdos reflejan la situaCión relativa en que se muestran las dos opciones de la variable dependiente cuando la vanable explicativa INGRESOS toma, respectivamente, el valor 50,5 y 38,5. El cliente A es más «probable» que se IUc1ine por adqumr el nuevo producto (opción 1) que por «no adqmnr10» en una relación 1,689 a 1. Por su parte, el cliente B prefenrá «adqmnr el nuevo producto» en una proporción de 0,09819 a 1, o lo que es Igual, prefenrá «no adqmnr el nuevo producto» en una relación 10,18 ¡¡ 1. Se observa que el IUcremento en la ventaja de 0,09819 a 1,6895 es 17,205 = e~I(50,5-38,5) Por último, también la probabilidad estimada de que los clientes A y B declaren que estarían dispuestos a adqmnr el nuevo producto es, respectivamente: ,
Pso,s , P38,S
4.5.
e-ll,4491+0,2371(SO,S)
= 1 + e- II ,4491+0,2371(50,S) = 0,62218 e- ll,4491+0,2371(38,S)
= 1 + e-11,4491+0,237l(38,S) = 0,08941
Valores extremos y colinealidad
A la hora de examinar la idoneidad del modelo de regresión logística seleccionado es Importante valorar la posible presencia de valores extremos (outliers) que
456
© EdicIones Pirámide
Regresión logistica puedan alterar el ajuste de los datos. Para ello eXIste un conjunto de métodos de diagnóstico basados en estadísticos o indicadores que examman la relación eXIstente entre los valores observados y los estlmados por el modelo para cada caso o sUJeto. En general, estas medidas pueden smtetlzarse en dos grupos: valores residuales y medidas de mfluencla. Las pnmeras se apoyan en diferentes análisis de los residuos (diferencia entre los valores observados de la variable respuesta y los valores denvados del modelo) para cada observación a fin de detectar aquellos casos para los cuales el modelo no ajusta bIen los datos. Entre éstos podemos cltar:
-
-
El residuo propIamente dicho. El residuo estandanzado o tlpificado: es el residuo dividido por una estimación de su desviación típIca. Para muestras grandes se distribuye como una nonnal (0,1). La desvianza: compara la probabilidad estimada de que el caso en cuestión pertenezca al grupo correcto respecto a la predicción perfecta (igual al). Como el antenor, este estadístico sigue aproxImadamente una distribución nonnal y grandes valores del nusmo mdican que el modelo no ajusta bien el caso estudiado. El residuo ajustado por el método de Student (studenttzed residual): para cada caso mide el camblO en la deSVlanza del modelo SI el caso fuera excluido.
Las medidas de mfluencia identifican aquellos sUjetos que ejercen una notable influencIa en las estimaciones denvadas del modelo. Entre otras son: -
-
El valor de znfluencla (leverage) se utiliza para detectar aquellos casos que tienen gran impacto sobre el ajuste del modelo. La distancia de Cook es una medida que cuantifica el camblO en los residuos de todos los casos cuando una determmada observación es exclUlda del cálculo de los coeficIentes de regresión, El cambio en los coeficientes del modelo cuando se excluye un caso concreto. Este estadístico mide el camblO para cada coeficIente mcluido el térmmo mdependiente. Obviamente, la presencia de valores de camblO altos Identifica observaclOnes que deberían ser exammadas con más detalle.
Un últImo aspecto a tener en cuenta en el análisis de idoneidad de un modelo de regresión logística es la presencia de multtcolinealidad, es decir, de una elevada correlación entre las variables mdependientes. La presenCIa de una multlcolinealidad elevada puede producir unos coefiCIentes estlmados sesgados y unos errores estándar elevados, lo que alteraría tanto los valores estimados de las probabilidades como el resultado de las pruebas de Wald. A fin de no resultar reiteratlvos, remItimos al lector al capítulo de la regresión lineal para los aspectos relaclOnados con este fenómeno (diagnOSIs y posibles soluclOnes). © EdiclOnes Piramide
457
Técnicas de análisis de datos en investigación de mercados
4.6.
Selección de las variables independientes
La selección de las vanables Illdependientes a IllclUlr en el modelo como predictares del fenómeno que se desea estudiar ha de realizarse sigUiendo dos cnterios que no tienen por qué condUCir a resultados cOlllcidentes: modelización estadística y modelización sustantiva (Jovell, 1995). Según el entena estadístico tan sólo se incluirán en el modelo aquellas vanables que tienen una capacidad de predicción estadísticamente significativa, es deCir, que contribuyan a la mejora de la bondad del ajuste del modelo. En el criterio sustantivo, el IllvestIgador decide qué vanables Illdependientes debe IllclUlr en función de la base teórica en la que se apoya la hipótesIs de investigación que se pretende verificar. Muchos paquetes estadísticos Illcorporan métodos de selección de vanables Illdependientes en el módulo de regresión logística. Antes de describir brevemente los contenidos en SPSS, hay que hacer dos advertencias. En pnmer lugar, parece haber un consenso generalizado al considerar que no eXiste un procedimiento de selección que garantice el «mejor» modelo en términos estadísticos, por lo que el empleo de uno u otro método puede conducir a diferentes resultados que habrán de ser Illterpretados en base a critenos de Illterpretabilidad y pafS1moma. En segundo lugar, el modelo es seleCCIOnado para ajustar una determlllada muestra, por lo que la modelización estadística está condiCIOnada por vanaciones en los datos empíricos. El programa SPSS presenta dos métodos de selección de variables que complementan al procedimiento de Illtroducción conjunta de todas las vanables en el modelo (INTRODUCIR): el método de Illtroducción por pasos de las vanables (ADELANTE) Y el método de elimlllación por pasos (ATRÁS). Selección haCia delante: se parte del modelo tan sólo con la constante. En cada paso se Illtroduce la variable independiente que presente el nivel de significación más baJO en el estadístico score l7 siempre y cuando se encuentre por debajO del punto de corte (por defecto fijado en 0,05), y se examllla el modelo resultante a fin de eliminar del mismo, de entre todas las vanables que superen el punto de corte de salida (por defecto 0,1), aquella con el mayor mvel de significaCión en el estadístico de Wald (opción WALD) o en el estadístico G de cambIO en la razón de verosimilitud (opción RV). El proceso concluye cuando nlllguna vanable pueda ser Illtroducída m retirada o cuando se llega a un modelo anteriormente considerado. Selección haCia atrás: se parte del modelo que contiene todas las variables Illdependientes consideradas y se procede con el procedimiento antenor pero comenzando por la elimlllaclón de las variables (opción WALD o RV). Para la Illtroducción de las variables se utiliza también el estadístico score. 17 El estadístICO score es utilizado como alternativa al estadístico de Wald para la prueba de significación estadística de los coeficientes de regresión por su mayor facilidad de cálcUlO (Hosmer y Lemeshow, 1989, 17).
458
© Ediciones Pirámide
Regresión logística En la aplicación práctIca de este capítulo se comentará con más detalle el proceso de selección de vanables; tan sólo apuntar que todas las vanables utilizadas para representar a la misma vanable categónca entran o salen del modelo juntas.
5.
CONSIDERACIONES FINALES Para tennmar el análisIs del modelo de regresión logística creemos conveniente realizar unos breves comentanos sobre la metodología del diseño del estudio y sobre la relación entre la regresión logístIca y el modelo lagit. El propósito de la téclllca del análisIs de regresión logístIca 5S la obtención de una ecuación en vírtud de la cual se pueda predecir, en térmmos de probabilidad, la ocurrencia de un determmado suceso objeto de la mvestIgación en función de una sene de vanables o predictores de carácter categónco o contmuo. Esto implica que el diseño de la metodología de la mvestIgación ha de cumplir las prellllsas báSIcas que, a lllvel teónco, infonnan de la presencia de causalidad entre una vanable dependiente (efecto) y una o vanas vanables independientes (causa) (Luque, 1997). En este sentido, los estudios de carácter longitudinal (esencIalmente prospectívos) son los que a priori pueden garantIzar el cumplimIento de tales asunCIOnes, mientras que en un estudio transversal, la mterpretación de la relación entre las variables debería realizarse en ténnmos de asociación o correlación, a no ser que las característIcas o naturaleza de las vanables Implicadas permita aSUllllr en un sentído amplio las condiciones prevIas de causalidad. No obstante, no es extraordinario que el mvestigador se enfrente con el problema de que la vanable objeto de estudio presente a lllvel poblaclOnal una probabilidad de ocurrencIa (o de no ocurrencIa) muy baja. Así, ante estudios que mtenten, por ejemplo, predeCIr el carácter mnovador o no mnovador de una empresa, o estImar la probabilidad de que un consumidor utilice la venta por catálogo o por Internet, el diseño de la recogida de datos mediante muestreo aleatorio entraña el nesgo de no regIstrar el volumen necesano de observaCIOnes que presenten una de las dos opciones de la varIable dependiente. En estos casos es corrIente el recurso a un diseño retrospectIvo en el cual se realiza un muestreo aleatono entre los mdividuos o casos que presentan una de las opcIOnes de la varIable respuesta, y otro para aquellas observaciones en las que se produzca la segunda alternativa. En este tIpo de estudios. muy utilizados en investIgacIOnes médicas, parece más apropIado hablar de asocIación entre la vanable dependiente y las mdependientes que de predicción de un determínado valor de la primera dados unos valores de las segundas. Como afirma Chnstensen (1990, 235), «el análiSIS de datos como éstos sirve para describir las característIcas de los dos grupos en ténnmos de los factores explicatIvos». Hecha esta salvedad, el mvestigador puede ajustar un modelo de regresión logística con datos procedentes de estudios retrospectIvos utilizando cualqUIer paquete estadístIco que contenga un módulo específico para la regresión logístIca.
© EdiclOnes Pirámide
459
T
Técnicas de análisis de datos en inuestigadón de mercados
Por últImo, unas consideraCIOnes sobre los modelos de respuesta discreta que utilizan la funCIón logística como función de enlace. Siguiendo a Ato y López (1996, 190-191), eXIsten dos enfoques alternativos: -
-
El análiSIS de regresión logístlca o modelo loglt con datos no agrupados se utiliza con una o vanas vanables independientes continuas cuya presencIa hace difícil encontrar casos individuales con los mIsmos valores en todas las variables. El análisis loglt o modelo loglt con datos agrupados pertenece al tipo del análisis de la varIanza (o covananza) del modelo lineal y se utiliza cuando es posible agrnpar observaCIOnes con valores Iguales en las vanables independientes, lo cual suele ocurnr cuando éstas son todas categóncas.
El análiSIS de regresIón logístIca es más general y puede abordar cualquier situación .representatIva del análiSIS loglt. Sin embargo, algunos paquetes estadístIcos, como el SPSS, utilizan programas diferentes para cada uno de los enfoques. En la bibliografía se referencian algunos trabajos de naturaleza empírica que han utilizado uno u otro enfoque.
6.
APLICACiÓN PRÁCTICA Una empresa espeCIalizada en estudios de mercado recibe el encargo de un cliente de investIgar los pnncIpales factores que pueden influir en aumentar la probabilidad de que un nuevo producto sea introducido con éXItO en el mercado. Con este fin la empresa ha realizado una encuesta a 240 empresas industnales de las cuales 156 declararon haber intentado introdUCIr en el mercado un nuevo producto. La codificaCIón de la informaCIón recogida en los cuestIonanos de estas 156 empresas está reflejada en la tabla 10.7. Así pues, la empresa de investIgación se enfrenta a una SItuación en la que se desea explicar el comportamIento en términOS de probabilidad de una varIable dependiente dicotómIca (éxIto o fracaso en el lanzamiento de un nuevo producto), en función de un conjunto de vanables predictoras de naturaleza continua, categórica o dicotómica. En tales CIrcunstancIas parece adecuado proceder al ajuste de un modelo de regresión logístIca. La resolución del problema se va a realizar mediante el módulo REGRESIÓN LOGÍSTICA del programa SPSS, destacando las fases que se relaCIOnan: 1. 2. 3.
460
Creación de la base de datos con la infOnnaCIón disponible. SeleCCIOnar el módulo REGRESIÓN LOGÍSTICA en el menú ESTADÍSTICOS. ElegIr la vanable dependiente (dicotómIca) de la lista de varIables desplegada e introdUCIrla en la ventana dispuesta a tal efecto en el programa. En nuestro ejemplo dicha vanable es ÉXITO. © EdiclOoes Pirámide
Regresión logística TABLA 10.7
l·
i.
Cuadro de codificación (aplicación práctica) *
...
Variable
:UescrlpCióri:
..... ....
• •
VaIores
.....
ÉXITO (dependiente)
¿Cuál ha sido el resultado de su mtento por introduclf un nuevo producto en el mercado?
O. Fracaso
PUBLICID
Gastos en promoción y publicidad
En 104 euros
GRADNOVE
Grado de novedad del nuevo producto
1. Mejoras sus-
1. ÉXl!o
tancIales en productos eXistentes 2. Productos totalmente nuevos
TIPO
Tipo de producto
1. Consumo final 2. Industnal
IMASD
¿Posee un departamento formal de investigación y desarrollo?
1. Sí 2. No
SECTECNG
Intensidad tecnológica del sector de actividad al que pertenece la empresa
Baja mtensldad tecnológICa 2. Intensidad media 3. Alta mtensldad tecnológica
PERSONAL
Personal asalariado que participa en las tareas de investigación, desarrollo y lanzamiento de los nuevos productos
Número de empleados
4.
SeleccIOnar las variables mdependientes e mtroduclrlas en la ventana de COVARIABLES. En este caso las vanables serían: PUBLICID, GRADNOVE, TIPO, IMASD, SECTECNG y PERSONAL.
5.
Entre las independientes, marcar las que son categóncas (GRADNOVE, TIPO, IMASD y SECTECNG).
6.
Recodificación de las variables categóricas.
* © EdicIOnes Pirámide
1.
Véase fichero en la dirección
www.ugr.es/~t1uque.
461
Técnicas de análisis de datos en investigación de mercados 7. 8. 9.
Especificar las OPCIONES (estadísticos, método, etc.). Ejecutar el programa. AnálisIs de los resultados.
La recodificación de las vanables categóricas ongmales es efectuada por el programa creando para cada una de ellas tantas variables de diseño como número de categorías menos una. De entre los critenos de recodificación disponibles, se ha optado por el cnterio INDICADOR, tomando como categoría de referencia (no representada por nmguna variable de diseño) la última de cada vanable original. La elección de la categoría de referencia es una opción del mvestigador que deberá calibrar, desde un punto de vista teónco, cuál de ellas es más convemente a efectos de base de comparación. Las vanables de diseño obtenidas se muestran en la sigUIente tabla. TABLA 10.8 Variables de diseño •••••••
f.
cof .¡)~).y ··.·.....E . )P c.s·fr' sfcfs··-··.·) . . • s Ul)lfV~-F
dédiseñ~ ~2
;.'
SECTECNG Baja intensidad Intensidad media Alta mtensidad
(1)
1
O
(2)
O O
'1
(3)
GRADNOVE Productos mejorados Productos nuevos
GRADNOVE, (1)
1
(2)
O
TIPO
TIPO,
Producto de consumo (1) Producto mdustnal (2) IMASD Sí No
O
I
O IMASD,
(1)
1
(2)
O
Con esta mformación el programa realiza el ajuste del modelo de regresión logístIca introduciendo todas las variables (opción INTRODUCIR). En la sigUIente tabla aparecen los coefiCientes estImados (B), el error estándar (EE), el valor del estadístlco de Wald y su significación, el valor del estadístIco R y, por últImo, el valor de e elevado al coefiCiente (Exp (B»:
462
© Ediciones Pirámide
Regresión logistica TABLA 10.9 Varzables en el modelo
PUBLICID GRADNOVE, TIPO, I+D, SECTECNG SECTECNG, SECTECNGz PERSONAL Constante
2,0224 1,2240 -0.1427 3,5733
0,5002 0,5340 0,7794 1,3678
-2.1377 -0,6543 0,4209 -10,3346
0,8252 0,8574 0,1492 2,4026
16,3443 5,2537 0,0335 6,8249 9,2739 6,7112 0,5823 7,9610 18,5015
1 1 1 1 2 1 1 1 1
0,0001 0,0219 0,8547 0,0090 0,0097 0,0096 0,4454 0,0048 0,0000
0,2602 0.1239 0,0000 0,1509 0,1578 -0,1491 0,0000 0,1677
7,5562 3,4007 0,8670 35,6346 0,1179 0,5198 1.5234
Las pruebas de contraste de hipóteSIs sobre la significación de los coeficientes de regresión (B) arrojan los sIgUIentes resultados: -
Sólo hay dos vanables cuyos coeficIentes na san SIgnificativos (p > 0,05) según el estadístico de Wald: TIPO¡ y SECTECNG z. La prueba de la razón de verosimilitud o test G para contrastar la significación global de todos los coeficIentes es ofrecido por la salida de SPSS con la denominaCIón model chi-square, Este estadístico toma Un valor de 107,499 can 7 grados de libertad que penrnte rechazar la hIpótesIs nula de que todos los coeficIentes san Iguales a cero, Se concluye que al menos una (y probablemente todos) es distmto de cero,
La efectividad absoluta del modelo ajustado se evalúa por medio de tres medidas de bondad del ajuste basadas en el contraste de hipóteSIs mediante estadístIcos, En las sIgUIentes tablas (l0,1O y 10.11) se resumen los resultados obtenidos can estas pruebas (entre paréntesIs, la denommación que aparece en SPSS), Junto can estas medidas, la prueba de bondad del ajuste de Hosmer y Lemeshow también pennite afinnar que el modelo seleccIOnado ajusta bien los datos observados (no se puede rechazar la hIpótesIs nula de que el modelo ajusta bIen los datos) (tabla 10.11), La interpretación de los coefiCIentes de regresión obtenidos en el modelo aJustado es la sIgUIente: Tanto la vanable GRADNOVE, como IMASD, son estadísticamente slgmficatlvas en el modelo y presentan SIgnO POSItiVO, De este modo, y mantemendo constantes el resto de las vanables, el valor estimado Exp (B) para GRADNOVE, mdica que el «éxito en la mtroducción de Un nuevo producto» es 3,4007 veces más probable que ocurra para aquellos «productos mejorados de otros ya eXIstentes» que en el caso de que se trate de «productos total© EdicIOnes Pirámide
463
Técnicas de análisis de datos en investigación de mercados TABLA 10.10 Bondad del ajuste" Estadístico
I
Valor
Desvlanza Imcial 211.908 (-2 log likelihood)
gl
Sigo
155
0,0004
Resultado
Ho
.
El modelo sólo con el térmmo mdependiente ajusta bien los datos
Rechazar
Desvianza modelo (-2 log likelihood)
104,409
148
0,9974
El modelo con todas las variables mcluidas ajusta bien los datos
No se puede rechazar
Test ji-cuadrado (goodness oJJi!)
123,971
148
0.9252
El modelo considerado ajusta bien los datos
No se puede rechazar
* Tanto los grados de libertad como el nivel de slgnificación no son proporcionados por el roa en la versión utilizada.
progra~
TABLA 10.11 Prueba de bondad del ajuste de Hosmer-Lemeshow Grupo
1 2 3 4 5 6 7 8 9 10
Éxito =0
Éxito = 1 Total
Observad
Esperad
Observad
Esperad
15,000 15,000 12,000 12,000 5,000 3,000 3,000 0,000 0,000 0,000
15,746 14,588 12,868 9,518 6,049 3,674 1,876 0,620 0,590 0,000
1,000 1,000 4,000 4,000 11,000 14.000 13,000 16,000 16,000 11,000
0,254 1,412 3,132 6,482 9,951 13,326 14,124 15.380 15,941 11,000
Test Co de Hosmer-Lemeshow
16,000 16.000 16,000 16,000 16,000 17,000 16.000 16,000 16,000 11,000
Ji-cuadrado
gl
Significación
6,1683
8
0,6284
mente nuevos». Es decír, que la ventaja de que la mtroducCión de un producto sea un éXito cuando dicho producto es una mejora de uno ya eXistente es supenor en 3,4007 veces a la correspondiente cuando el producto es totalmente nuevo. El Impacto de la presencia de un departamento de I+D en la mejOra de la probabilidad de que el nuevo producto sea un éXito es aún ma-
464
© EdiCIOnes Pirámide
Regresión logística yor: en concreto es 35,6346 veces más probable que esto ocurra cuando eXIste un departamento de mvesügación y desarrollo que cuando no eXIste. La pertenencIa de la empresa a sectores de baja intensidad tecnológIca. SECTECNG" es también una vanable significaüva en el modelo, aunque en este caso su mfluencia sobre la vanable dependiente es de sIgno negaüvo. Esto sIgnifica que el «éxito en la introducción de un nuevo producto» es 0,1179 veces menos probable que ocurra cuando la empresa pertenece a un sector de baja mtensidad tecnológica en comparación con aquellas que pertenecen a sectores industnales tecnológIcamente intensIvos (categoría de referenCIa que no aparece explicitada en el modelo). Es deCIr. que la ventaja de la opción 1 de la variable dependiente «<éxito en la introducción de un nuevo producto») cuando la empresa pertenece a industrias de baja intensidad tecnológica es infenor en 0,1179 veces a la correspondiente cuando se trata de una empresa inscnta en un sector de alta intensidad tecnológIca. Las dos variables continuas, PUBLIClD y PERSONAL, presentan un coeficIente esümado de signo pOSIÜVO. Esto Implica que, SI permanecen constantes el resto de las variables, un incremento umtarlo de inversión en publicidad (10.000 euros) provocará un incremento mulüplicaüvo por un factor 7,5562 de la ventaja de la opción «éxito en la introducción del nuevo producto». Asimismo, también se podría calcular el Impacto que sobre la vanable dependiente tendría un incremento de. por ejemplo 1,65 x 104 euros (desde 3 a 4,65 x 104 euros): Exp (2,0224 x 1,65) = 28,1335, es deCIr, que la ventaja de la opción «éxito en la introducción de nuevos productos» es 28,1335 veces mayor cuando se gastan 4,65 x 104 euros que cuando se gastan 3 x 104 euros. ConsideraCIOnes similares se realizarían para la variable PERSONAL temendo en cuenta que en este caso la unidad de medida es «una persona». En relación con la capaczdad predicttva del modelo, presenta una eficaCIa predictlva ópüma. tal y como se desprende de los resultados que muestra la tabla de clasificación: un 85.26% de casos bIen clasificados (tasa de aCIertos); de los 65 casos en los que el nuevo producto «ha fracasado», el modelo predice correctamente el 80% (especifiCIdad); de los 91 casos en los que el nuevo producto ha SIdo un «éxito», el modelo predice correctamente el 89,01 % (sensibilidad): TABLA 10.12 Clasificación para ÉXITO (el valor de corte es 0,50) Valores observados Fracaso (O) ÉXIto (1) Total
© Ediciones Pirámide
Valores pronosticados
II Fracaso (O) 52 lO
I Éxito (1) 13 81
I
Porcentaje de aciertos
80.00% 89,01% 85,26%
465
Técnicas de análisIs de datos en Investigación de mercados El resto de medidas de la eficacIa predictIva son fáciles de calcular: Tasa de errores: (10 + 13)1156 = 14,74%. Tasa de falsos negatIvos: 10/(52 + 10) = 16,13%. Tasa de falsos positIvos: 13/(13 + SI) = 13,S3%. ASImismo, para comprobar que la tasa de aciertos del modelo es sIgnificatIvamente mayor que el número esperado de casos correctamente clasificados debido al azar (e), utilizamos el estadístIco 2*'
e = (11156).(65 2 +91 2 ) = SO,16
z* = (133 - SO,16)M6
= S 4644
-'/S0,16(156 - SO,16)
,
cuyo resultado conduce a rechazar la hipótesIs nula (para un nivel de significación del 5%) de que los casos correctamente clasificados por el modelo no difieren de los esperados sólo por efecto del azar. El programa SPSS también proporcIOna un hIstograma de probabilidades estImadas en el que se puede aprecIar cómo los casos estimados por el modelo (éxito y fracaso) se concentran en los extremos del gráfico, lo que viene a confirmar su eficacia predictiva:
F
32 + 1 1
R
24 +
é+
E
1 1 1 16 +
él él él
e
U E N
e 1 A
+ él
él
é+
1 1 If 8 +f lff
él él ééI éé+ éél
é
lffé f ffé f
f
Ifffff ffffféfff ProDabil. estJ.maCia:
Grupo:
é é fif fiféfff éffé
é éé é é éééé ééél ffffé é éféfffééé ééél
eeee ee
--------------+--------------+--------------+--------------o .25 .5 .75 1
fffffffffffffffffffffffffffffféééééééééééééééééééééééééééééé La probanilidad estimada es para la opción "éxito" El valor de corte es 0,5 Símbolos: f - fracaso é - éxito Cada símbolo representa 2 casos.
Figura 10.4.
466
Histograma de probabilidades estimadas y grupos observados.
© EdicIOnes Pirámide
Regresión logística
INVENTARIO DE TÉRMINOS Y CONCEPTOS o o o o o o o o o o o
o o o o
Estimación por máxima verosimilitud. Odds o ventaja. Transformación logística o Zaglt. Variable de diseño. Patrón de predictores. Estadístico W de Wald. RA de Atk.mson. Test G o prueba de la razón de verosimilitud. Desvianza. Prueba de Hosmer-Lemeshow. Tabla de clasificación. Histograma de probabilidades estimadas. Cociente de ventajas. Métodos de diagnóstico: valores residuales y medidas de mfluencia. Modelización estadística y modelización sustantiva.
BIBLIOGRAFíA AIO García. M., y López García, J. J. (1996): Análisls estadístico para datos categóncos, Síntesis PSicología, Madrid. Casey, c., y Bartczak. N. (1985): «Using operatmg cash flow data to predict financlal distress: sorne extenslOns», Journal of Accounting Research, vol. 23, núm. 1, pp. 384-385. Chnstensen, R. (1990): Log-lineal models, Spnnger-Verlag, Nueva York. Cramer. J. S. (1991): The 10glt model: an mtroductlOn for economlsts, Edward Arno1d, Londres. Hall, G. (1994): «Factors distmguishing survivors from failures arnongst small firms m !he UK constructlOn sector», Journal of Management Studies, vol. 31. núm. 5. pp. 737-760. Hosmer, D. W., y Lemeshow, S. (1989): Applied loglstlc regresion, John Wiley & Sons, Nueva York. Jovell, A. J. (1995): Análisis de regresión logístlca, Centro de InvestigacIOnes Sociológicas, colección «Cuadernos Metodológicos», núm. 15, Madrid. López, J., Gandía, J. L., Y Molina, R. (1998): «La suspensión de pagos en las Pymes: una aprOXimación empírica», Revlsta Española de Financtación y Contabilidad, vol. XXVII, núm. 94, pp. 71-97. Mora. A. (1994): «Los modelos de predicción del fracaso empresarial: una aplicación empínca del logl!», Revlsta Española de Financtación y Contabilidad, vol. XXIII, núm. 85, pp. 203-233. NOruSIS, M. J. (1986): Advanced statlstlcs. SPSS/PC+, SPSS Inc., Chicago. © EdiclOnes Pirámide
---
467
Técnzcas de análisis de datos en investigación de mercados Novales, A. (1993): Econometría, McGraw-HilI, Madrid. Peña, D. (1994): Estadístlca. Modelos y métodos, vol. 2, Alianza, Madrid. Roctríguez, M. A., Y Frías, D. M. (1997): «Segmentación del mercado de las tarjetas de crédito», Actualidad FinanCIera, núm. 8, págs. 47-62. Rulz-Maya, L., et al. (1995): Análisls estadístlCo de encuestas: datos cualitativos, AC, Madrid. Sánchez, G. (1997): La znnovación tecnológIca y la pequeña y mediana empresa en Andalucía: un estudio empírico, tesIs doctoral, Departamento de Admllllstración de Empresas y Marketing, UnIversidad de Granada. Sharma, S. (1996): Applied muttlvariate technzques, John Wiley & Sons, Nueva York.
468
© Ediciones Pirámide
José Alberto Hermoso Gutiérrez
1.
DEFINICiÓN Y CARACTERíSTICAS El análisIs de correlaciones canónicas trata de sintetIzar las relaciones existentes entre dos grupos de vanables, evitando que en situacIOnes con muchas vanables el análisis se reduzca al elemental estudio de las vanables dos a dos. El análisIs de las correlacIOnes canónicas es una técmca útil y potente para exporar las relacIOnes entre variables dependientes e mdependientes múltIples. La técnica es básIcamente descnptIva, aunque puede ser usada para propósitos predictIvos. Los resultados obtenidos de un análiSIS canómco ayudan a responder cuestIones sobre el número de formas en que dos conjuntos de vanables se relaCIOnan, la fuerza de la relación y la naturaleza de las relaCIOnes definidas. El análisis canómco permite combmar en una medida compuesta lo que de otro modo podría ser una inmanejable gran cantidad de correlaciones blvanantes entre conjuntos de vanables. Es útil para identificar relaCIOnes globales entre variables dependientes e mdependientes múltIples, partIcularmente cuando se tIene a pnon pocos conocImientos acerca de las relaciones entre los cOllJuntos de variables. En el análisIs de la regresión múltIple se predice el valor de una varIable dependiente Y a partir de una función lineal sobre un conjunto de varIables mdependientes X!' ..., X p ' Para algunos problemas el mterés puede no estar en una única vanable dependiente, smo que podemos estar mteresados en la relación entre un conjunto de vanables mdependientes y un conjunto de vanables dependientes. Igual que en la regresión, la finalidad del análisIs de correlaciones canómcas es cuantificar la fuerza y la forma de la relación, en este caso entre dos conjuntos de vanables (independientes y dependientes). Desde este punto de vista, el análisIs de la correlación canómca es una generalización de la regresión múltIple donde varias vanables y se relaCIOnan sImultáneamente con varias varIables X. El análisIs de correlaciones canómcas está directamente relacionado con vanos métodos de dependencIa. Además de la regresión múltIple, incluye como casos par-
© EdicIOnes Pirámide
469
Técnicas de análisIs de datos en investigación de mercados ticulares el análisIs discrimmante (cuando las varIables de un grupo son las varIables mdicadoras de una partIción en las observaCIOnes) y el análisIs de correspondenCIas de una tabla de contmgencia cruzando dos partIcIOnes (cuando los dos grupos de vanables están constItuidos por varIables mdicadoras de las dos partIcIOnes).
2.
EL PROCESO DEL ANÁLISIS DE CORRELACIONES CANÓNICAS 2.1.
Notación y formulación del problema
La matriz de los datos está constituida por n filas y p + q columnas, partlclonada en dos submatnces X e Y, de p y q columnas respectivamente. Las n filas representan a los mdividuos u observaCIOnes, las p pnmeras columnas X constituyen las varIables del primer grupo (independientes), y las q sIgUIentes Y son las vanables del segundo grupo o dependientes. Las VarIables X (X" ..., Xp) e Y (Y" ... , Yq) son numéricas, aunque también pueden ser variables dicotómIcas asocIadas a características cualitativas, corno se ha apuntado unas líneas más arriba cuando se ha comentado cómo un análiSIS discnmmante y un análiSIS de correspondencIas podían considerarse casos partIculares del análiSIS de correlaCIOnes canónicas. El análisis de correlaCIOnes canónicas es un método que trata de relacIOnar el conjunto de variables (independientes) X" ... , Xp con el conjunto de vanabIes (dependientes) Y" ... , Yq' El objetivo es encontrar pares de vanables V = u,X¡ + .. , + u;Xp, V = v, Y¡ + ... + vqYq con la propIedad de que la correlación lineal entre V y V sea máxima. Así, la correlación canómca identifica la estmctura de cada conjunto de vanables que maXImiza la relaCIón entre vanables dependientes e mdependientes. A las varIables V y V se les denomma vanables canÓnicas, la correlación entre ellas se conoce corno correlaCIón canÓnica y al par de varIables (V, 11) se le llama funCIón canómca. Los objetivos de un análiSIS de correlaciones canómcas pueden resumirse en: -
-
-
470
Determmar SI dos conjuntos de VarIables son independientes uno de otro o, contrariamente, deterrmnar la magmtud de la relación que puede eXIstir entre los dos conjuntos. Determmar un conjunto de ponderaCIOnes para cada cOllJunto de vanables dependientes e mdependientes de forma que las combinaCIOnes lineales de cada conjunto estén correladas lo máximo posible y funCIOnes lineales adiCIOnales que maXImIcen la correlación restante y estén mcorreladas con los conjuntos precedentes de combmaclOnes lineales. Explicar la naturaleza de las relaCIOnes existentes entre los cOllJuntos de vanables dependientes e mdependientes, normalmente mIdiendo la contribución relativa de cada VarIable a las funCIOnes canónicas. © EdiCiones Pirámide
Correlaciones canónicas
2.2.
Obtención de las funciones canónicas
Cada función canómca consta de un par de varIables canónicas, una representando a las varIables llldependientes y la otra a las dependientes. Si hay p varIables X y q variables Y puede haber hasta r (númmo de p y q) funciones canónicas (Ui, Vi):
U¡ = a¡lX, + a¡zXZ +
Uz = aZ1X, + azzXz +
+ a¡"xp + az"xp
y V¡
= b1¡Y¡ + b¡zYz +
Vz = bZ1 Y¡ + bzzYz +
+ b¡QYQ + bZqYQ
Estas relaCIOnes se escogen de forma que la correlación entre U¡ Y V¡ es máxIma; la correlación entre Uz y Vz es máxima sUjeta a que estas variables estén lllCOrreladas con U¡ Y VI; la correlación entre U 3 y V3 es máxima sUjeta a que estas varIables estén incorreladas con U¡, V" Uz Y Vz, y así sucesIVamente. Cada par de variables canómcas (U¡, V,), (Uz, Vz), .... (U" V,) representa una dimenSIón independiente de la relaCIón entre los dos cOllJuntos de varIables (X¡, ... , Xv) e (Y¡, .... YQ)' La característlca báSIca del análisIs de las correlacIOnes canómcas es que las varIables canómcas se obtlenen maxImIzando su correlación. El análisIs de las correlacIOnes canómcas es algo parecido a la idea de un análiSIS en componentes prInCIpales, pero enfocado a maximIzar la relación entre los dos conjuntos de varIables en lugar de la varIanza en un solo conjunto. Así, el primer par de varIables canómcas se obtlene de forma que recoge la mayor correlación posible entre los dos cOllJuntos de variables. El segundo par de variables canómcas se obtlene de forma que exhibe la máXIma relación entre los dos conjuntos de variables, no recogida por el prImer par de varIables. ResumIendo, sucesivos pares de varIables canómcas se basan en la relación entre los dos conjuntos de variables aún no explicada por los anterIores pares y sus respectivas correlaCIOnes canómcas son menores a medida que se extraen funCIOnes adicionales. El primer par tlene la mayor correlación posible y es por tanto la dimensión más importante; el segundo par tlene la segunda mayor correlación y es, por tanto, la segunda más Importante, etc. La clasificación de las varIables como dependientes o llldependientes no tlene © EdicLOnes Pirarnide
471
Técnicas de análisis de datos en investigación de mercados Importancia para la estImación estadístICa de las funCIOnes canómcas, porque el análisis de correlaCIOnes canómcas, para maxmlizar la correlación entre ambos cOllJuntos de varIables, no da un tratamIento especial a nmgún conjunto. Pero la especificación de dependiente frente a mdependiente es esenCIal para establecer una base para relaCIOnar las varIables canómcas; por esto es importante relaCIOnar conceptualmente los conjuntos de variables antes de aplicar un análiSIS de correlaciones canómcas.
2.3.
Identificación de las variables canónicas
Supongamos la matrIz de correlaCIón muestral entre las varIables X" ..., Xp' Y" ..., Yq :
A partIr de esta matrIz, se pueden calcular la matrIZ q x q B-1CA-le y sus valores propIOS A, que verificarán:
La fuerza de la relaCIón entre los pares de variables canómcas está dada por la correlación canómca. Al cuadrado, la correlación canómca representa la cantidad de varIanza en una varIable canónica explicada por la otra variable canómca. Esto también puede entenderse como la cantidad de varIanza compartida entre las dos varIables canómcas. Las correlaCIOnes canónicas al cuadrado se denomman raíces canómcas. Los valores propIOS A, > A;¡ > ... > A, son los cuadrados de las correlaCIOnes (canónicas) entre las varIables canómcas. Los correspondientes vectores propIOS b" b 2 , ... , b, proporCIOnan los coeficientes de las varIables Yen las relaCIOnes lineales que definen a las varIables canómcas. Los coefiCIentes para construIr V" la l-ésima varIable canómca para las variables X, están dados por los elementos del vector:
472
© EdiCiones Piramide
CorrelaCIones canónIcas
En estos cálculos se supone que las variables X e Y están tipificadas (media cero y vananza unidad). Los coefiCientes, a i Y b" de las variables canómcas se refieren a estas variables X e Y tipificadas. El i-éslmo par de varIables canómcas se calcula como:
X, U,
= a;X = (a il , aa, .... a¡p)
X2
Y,
V;
= bY = (b il , b iZ , .... b¡q)
Y2
donde X e Y son vectores de valores tipificados. Las varIanzas de U¡ y V¡ dependen de la norma de los vectores b¡. En cualquier caso es fácil dividir los valores a ij por la desviación típIca de U" obteniéndose así una vanable canómca U¡ con vananza unidad. Análogamente, dividiendo los bij por la desvIación típIca de las V¡ tenemos vanables V; con varIanza unidad. Esta forma de tipificar las varIables canómcas no es esencial, ya que la correlación entre U¡ y Vi no se ve afectada por un cambIO de escala. De cualqUIer forma, puede ser útil SI tuviéramos que examinar el valor numénco de las vanables canónicas en los mdividuos para los que hay datos disponibles.
2.4.
Test de significación
Cuando se aplica esta técnica multivanante, la práctica más común es analizar aquellas funcIOnes cuyos coeficientes de correlación canómca son estadísticamente significatIVOs a un determmado nivel, habItualmente 0,05 o mfenor. Si ciertas correlaciones canómcas son consideradas no significativas, estas relaCIOnes entre las vanables no se mterpretarán. La mterpretación de las vanables canómcas en una función significativa se basa en qué vanables en cada conjunto contribuyen fuertemente a la varianza compartida por estas vanables canómcas. Los especIalistas creen que el uso de un único cnteno tal como el mvel de sIgnificación es demasIado superficial. En su lugar, se recomIenda usar en conjunción tres cnterios para decidir qué función canómca debe ser mterpretada. Los tres cnterios son: nivel de SIgnificación estadística, magnItud de la correlación canómca y la medida de la redundanCIa.
© EdiCIOnes Pirámide
473
Técnicas de análisIs de datos en Investigación de mercados
2.4.1.
Nivel de significación estadística
Si hay r valores propIOS en la ecuación
entonces hay r pares de vanables canólllcas. En cualqUier caso, algunas de éstas pueden reflejar correlacIOnes que son demasiado pequeñas para ser estadístIcamente significatIvas. Un test apropiado propuesto por Bartlett (1947) puede ser usado para determinar cuántas relacIOnes significatIvas eXisten. Se comienza con el test estadístico:
rfig
=-[n-1(P+q+l)]± ln(l-íl,) 2 t~j
donde n es el número de observacIOnes. Éste se compara con la distribuCión X2 con pq grados de libertad. Si rfi~ es significativamente grande. entonces hayal menos una correlaCÍón canólllca significativa. Si rfi~ no es significativamente grande, entonces no hay evidencia de ninguna relaCión entre las variables X e Y. Supuesto que rfi~ sea significativo, el próximo paso Implica eliminar el efecto de la pnmera correlación canólllca del test estadístIco y considerar
con (p - 1)(q - 1) grados de libertad. Si éste es significatIvamente grande respecto de la distribución X2 , entonces hayal menos dos correlacIOnes canólllcas significativas. Si rfit no es significatIVamente grande. entonces puede considerarse que la pnmera correlación canólllca explica todas las relacIOnes entre las variables X e Y. Si rfi6 y rfii son ambas significativas. entonces el efecto de las dos pnmeras correlacIOnes canólllcas puede eliminarse del test estadístIco para ver SI alguna de las restantes correlacIOnes es significatIva. Este proceso puede contInuar hasta que se encuentre que las restantes correlacIOnes ya no son significativas y, por tanto, pueden despreciarse. El test estadístIco para las restantes correlacIOnes después de que las j pnmeras han sido eliminadas es
con (p - j)(q - j) grados de libertad.
474
© EdicIOnes Pirámide
CorrelacIones canónicas
2.4.2.
Magnitud de la correlación canónica
Este cnteno se basa en la magmtud de las correlaciones canómcas. No hay establecida una regla general en cuanto a valores aceptables de las correlacIOnes canómcas la decIsión se basa normalmente en ver SI contribuye a una mejor comprensión del problema en estudio.
2.4.3.
Medida de la redundancia
El cnteno de la medida de la redundancia se basa en el hecho de que el coeficIente de correlación canónica al cuadrado proporcIOna una medida de la varIanza compartida por las varIables canómcas. Esta medida nos puede llevar a malas InterpretacIOnes; así, puede haber una correlación canómca fuerte entre dos combInacIOnes lineales (variables canónicas), aunque estas combInaCIOnes lineales no recojan una parte significatIva de las varianzas de sus respectIvos conjuntos de varIables. Para eVItar esta Incertidumbre al usar las raíces canónicas como medidas de la varIanza compartida. se propone el cálculo de un índice de redundancIa como sIgue: se calcula el coeficiente de correlación lineal al cuadrado entre cada VarIable y su correspondiente VarIable canónica. Para globalizar esta medida se calcula la media antmétIca de los antenores coeficientes. Esta media se multiplica por el coeficiente de correlación canómca al cuadrado (porcentaje de la varianza de la variable canómca dependiente que es explicada por la vanable canónica Independiente), obteniéndose la cantidad de vananza en un conjunto de variables que es explicada por el otro conjunto de VarIables en cada función canómca. El índice de redundancia se calcula tanto para vanables dependientes como independientes, pero en la práctIca lo que interesa es la varianza extraída del conJunto de variables dependientes. No hay establecida una regla general en cuanto a cuál es el valor mínimo del índice de redundancia necesarIO para Justificar la Interpretación de la correspondiente función canómca.
2.5.
Interpretación de las variables canónicas
Si los cnterios antenores son significativos se debe hacer una Interpretación sustanCIal de los resultados. Hacer esta Interpretación implica examInar las funciones canónicas para determinar la ImportancIa relatIva de cada una de las varIables onginales en la relación canÓnIca. Tres métodos han sido propuestos: las ponderaciones o pesos canónicos o coefiCIentes tIpificados (canonical weights), las cargas canómcas o correlaCIOnes de estructura canónica (canonical loading) y las cargas cruzadas canónicas (canonical cross-Ioadings). © Ediciones Piramide
475
T Técnicas de análisis de datos en investigación de mercados
2.5.1.
pesos canónicos
Dadas las vanables canómcas:
y
V;
= b'I Y' + bi2 Y2 + ... + b,qYq
parece que Vi puede ser descnta en términos de las vanables X con grandes coeficientes Qij y V, puede ser descrIta en ténninos de las vanables Y con grandes coeficientes b,t Grande aquí significa, por supuesto. en sentido positivo o negativo. A pnmera vista, puede parecer esta mterpretaclón relativamente fácil, pero la multícolinealidad entre cualqUier cOUJunto de variables podría Impedir la posibilidad de que la técuica aísle el Impacto de cualqUier vanable mdividual. haciendo la mterpretación poco fiable. Es decir, las correlaciones entre las variables X (análogamente para las Y) pueden echar por tierra este proceso de interpretación. Por eJemplo, puede suceder que Q'I sea pOSitiVO y la correlaCión simple entre Vi y X, sea de hecho negativa. Esta aparente contradicción puede suceder porque XI esté altamente correlaCIOnada con una o más de las otras vanables X y parte del efecto de X, esté siendo explicadO por los coeficientes de estas otras variables X. De hecho, si una de las variables X es casi una combmación lineal de las otras vanables X, entonces habrá una Infinita variedad de combmaciones lineales de las vanables X, algunas de ellas con valores Qij muy diferentes. que den prácticamente los fUlsmos valores Vi' Los problemas de mterpretación que aparecen con vanables X altamente correladas (o Y) deben ser familiares a los usuanos del análiSIS de regresión múltiple. Exactamente los mismos problemas aparecen con la estimación de los coeficientes de regresión. De hecho, un Justo comentano parecer ser que SI las variables X o Y están altamente correladas, entonces puede no haber forma de desenredar sus contribUCIOnes a las vanables canómcas. De cualqUIer forma, es seguro que habrá qUIenes mtenten hacer interpretacIOnes baJo estas circunstanCias.
2.5.2.
cargas canónicas
Otros autores sugieren que es mejor describir las variables canómcas fijándonos en su correlación con las vanables X e Y antes que en los coeficientes Qij' bij' Por ejemplo, si Vi está altamente correlaCIOnada pOSItIvamente con X!' entonces puede considerarse que refleja XI en gran medida. Similannente, SI V, está altamente correlaCIOnada en signo negativo con Y" entonces Vi puede ser considerada que refleJa lo opuesto a YI en gran medida. Este método tIene, al menos, la ventaja de sacar a relUCir todas las vanables con las que las variables canómcas parecen estar relacionadas.
476
© EdiclOoes Pirámide
CorrelacIOnes canónicas
2.5.3.
Cargas cruzadas canónicas
Este procedinuento Implica calcular la correlación entre cada variable dependiente onginal y la correspondiente vanable canómca mdependiente y viceversa (entre cada variable mdependiente ongmal y la correspondiente vanable canómca dependiente). La pregunta que surge es: ¿qué método debe utilizarse? Se recomienda, en primer lugar. el método de las cargas cruzadas canómcas (cross-loadings J, como segunda alternaliva. las cargas canómcas (canonical loadings J y, en último lugar, los pesos o ponderaciones. De cualqUier forma. no hay unammidad de cnterio para todos los casos.
3.
LIMITACIONES Y APLICACIONES A pesar de ser muy mteresante desde el punto de vista teónco. esta técmca presenta un mterés relalivo para las aplicaCIOnes, pues sus resultados, en general, son muy difíciles de mterpretar de una forma concreta. Aunque hay pocos procedimientos de diagnóslico desarrollados específicamente para el análisis de correlaCIOnes canómcas. se deben ver los resultados dentro de las limitaCIOnes de la técnica. Entre las limítaclOnes que pueden tener mayor Impacto en los resultados y su mterpretación están las sigUientes: -
-
La correlación canómca refleja la varianza compartida por las combmaclOnes lineales de los conjuntos de vanables. no la vananza extraída de las vanables onginales. Los pesos canómcos (coeficientes) obtenidos al calcular las funcIOnes canómcas están sUjetos a una gran mestabilidad. Los pesos canómcos se oblienen para maXimizar la correlación entre las combmaciones lineales. no la varianza extraída. La interpretación de las vanables canómcas puede ser difícil porque éstas .se calculan para maximizar la correlación lineal entre ellas, y no hay ayuda para su interpretación como la rotación de las variables en el análiSIS factonal.
Estas limitaCIOnes no quieren desammar en el uso de la correlación canómca. sino que más bien se apuntan para mejorar la efeclividad de esta técnica. El pnmero en aplicar el análiSIS de correlaCIOnes canómcas fue Hotelling (1935, 1936) para estudiar relaCIOnes entre tests mentales y medidas biométricas. Otras aplicaCIOnes en pSicología pueden verse en Dempster (1969, comparaciones de dos tests de personalidad) y en Maxwell (1977, comcidencJa entre dos psiquiatras con relación a un conjunto de caracteríslicas sobre un mismo grupo de pacientes). En meteorología Glahn (1968) lo aplica a la predicción de la presión atmosfénca, las variables X representan presIOnes atmosféricas registradas en un conjunto de estaclO© EdiclOnes Pirámide
477
Técnicas de análisis de datos en investigación de mercados nes meteorológIcas, las variables Y lo mIsmo 24 horas después. Otras aplicaciones del análisIs de correlacIOnes canómcas se pueden encontrar en: -
4.
Meteorología: Miller (1962) y Dempster (1969). CiencIas de la Educación: Barnett y Lewls (1963). Morfometría: Blackith y Reyment (1971) y Lefebvre (1976). Econometría: Kendall (1957) y BertIer y Bouroche (1975). Marketlllg: P. L. Schul!, W. M. Pride y T. L. Little (1983), sobre cómo Illfluye el comportamIento e llliClatlva de canales líderes de televisión sobre otros en cuanto a políticas de marketlllg y estrategIas.
ESQUEMA DEL PROCEDIMIENTO -
Selección del fichero, varIables y casos. Especificación del análisis de correlaciones canómcas. Resultados.
Se van a describlf brevemente los pasos y opciones báSICOS para llevar a cabo un análiSIS de correlaCIOnes canómcas con la ayuda del programa estadístlco STATISTICA. STATISTICA está formado por varios módulos, y entre ellos se encuentra «Canonical CorrelatlOn», que nos permIte hacer los cálculos relativos al análiSIS de correlaCIOnes canónicas. a)
Selección del fichero, variables y casos
Tras acceder al módulo «Canomcal CorrelatlOn» aparece una ventana «
478
© EdicIOnes Pirámide
CorrelacIOnes canónicas Si se marca la opción «Revlew Descriptlve Statistlcs and CorrelatlOn Matnx» se accederá, antes del análisIs de correlacIOnes canónicas propIamente dicho, a un amplio conjunto de valores descnptivos sobre los casos y vmables seleccionados (medias, covarianzas, correlacIOnes, etc.) y dos tipos de gráficos que nos pernuten ver la distribución mdividual de las vmables «
Especificación del análisIs de correlacIOnes canómcas
Pulsando con el ratón «OK», bIen después de haber accedido a las opcIOnes que nos ofrece la ventana «Review Descnptive Statistics» o bIen sin haberlo hecho SI no se marcó en el «Startup Pane!», nos aparece la ventana «Model DefimtlOn», que nos permite especificar los dos grupos de varIables para el análisis, así como otras opcIOnes sobre cálculo de valores descnptivos y gráficos. Pulsando la opción «VarIables for canomcal analysls» nos aparece la típIca ventana de selección de variables en STATISTICA, pero esta vez para dos listas. En cada lista aparecen todas las vmables que se habían seleccIOnado anteriormente, y sobre dichas listas se marcan las varIables del pnmer y segundo grupo para realizar el análiSIS de correlaciones canómcas. Obsérvese que la designación de pnmer y segundo grupo de vanables es mdiferente debido a que este análisis es completamente slmétnco, es deCIr, calcula los mismos valores para las vmables en ambos grupos. c)
Resultados
Una vez especificados los dos grupos de vmables estamos listos para comenzar el análisis de correlacIOnes canómcas. Pulsando el botón «OK» aparece la ventana «Canonical Analysls Result». La parte supenor de esta ventana nos muestra la correlación entre el pnmer y más SIgnificativo par de variables canómcas, así como el total de varianza extraída y la redundanCIa total para el conjunto de funciones canómcas asocIadas al problema. El total de la vmanza extraída y la redundanCia total se descomponen en la parte correspondiente a cada función canómca en la opción «Factor structures and redundancies». dentro de esta nusma ventana. Recordemos que la varianza extraída mdica la cantidad (media) de vananza extraída de un conjunto de vmables por la vanable canómca construida sobre ellas mIsmas. La redundanCIa puede ser mterpretada como la cantidad (media) de varianza de un conjunto de vanables que es explicada por la vmable canómca construida sobre el otro grupo de variables. El número de funCIOnes canómcas que se puede calcular será igual al número de vmables en el menor grupo. En dicho grupo el total de varianza extraída será siempre Igual al 100%, puesto que r combmaclOnes lineales mcorreladas construidas a partIr de r vmables explicarán el total de la vmanza asocIada a éstas. © Ediciones Pirámide
479
Técnicas de análisis de datos en Investigación de mercados Las opcIOnes que nos ofrece esta ventana son: -
Results Summary: Los mismos valores que han aparecido en la parte superIOr de la ventana «Canomcal Analysls Results», así como las vanables que integran los dos grupos. CorrelatlOns wlthm and between sets: ProporcIOna la correlación entre cualqUier par de variables de ambos grupos. Eigenvalues: Son los valores propios asociados al análiSIS. Recuérdese que son Iguales a los coefiCientes de correlación canómca al cuadrado. Canonical Weights lor Left and Right Set: Esta opción nos da los coefiCientes de las combinaCIOnes lineales que son las vanables canómcas. Como se recordará, estas combinaCIOnes lineales se construyen sobre las vanables tipificadas. Estos coefiCientes, como se ha apuntado antenormente y podremos comprobar más adelante en el ejemplo, pueden presentar senos problemas para ser usados en la correcta Interpretación de las variables canómcas.
-
-
480
Factor Structures and Redundancies: Nos ofrece las cargas canómcas, la vananza extraída y la redundanCia para cada conjunto de variables y para cada función canómca. Las cargas canónicas representan la correlación entre las variables de partida y las variables canómcas construidas sobre ellas. La vananza extraída es igual a la suma de los cuadrados de las cargas canónicas en cada vanable canómca y dividido por el número de variables en dicho grupo. La redundanCia se obtiene multiplicando esta proporción de varianza extraída por el correspondiente coefiCiente de correlación canómca al cuadrado. Los totales de la vananza extraída y de la redundanCia que aparecen en la parte supenor de la ventana «Canonical Analysis Results» son la suma de los anterIOres valores obtenidos para cada función canómca. Chl-square tests 01 canonical roots: Nos muestra el test secuencial que nos permite saber si las raíces canónicas y, por tanto, los coeficientes de correlación canómca son Significativos; en tal caso las funcIOnes canómcas asociadas deben ser examinadas e interpretadas. Debe advertirse que este test saca a la luz SI es Significativa la relación entre las vanables canónicas, no entre las vanables originales, por lo que deberá tenerse en cuenta no sólo el mvel de significaCión de las correlaciones canómcas, SinO también la vananza extraída y la redundancia, como se ilustrará más adelante con el ejemplo. Graph 01 Eigenvalues and Graph 01 Canonical CorrelatlOns: Mediante una línea poligonal se representan los valores propios y los coefiCientes de correlación canómca. Scatterplot 01 CanOn/cal CorrelatlOns: Sólo está disponible esta opción si se han mtroducido los datos ongmales de las variables (no SI los valores de partida fueron la matriz de correlación de dichas vanables). DibUja la nube de puntos correspondiente a cualqUier par de variables canómcas, una sobre el pnmer grupo y otra sobre el segundo. © Ediciones Pirámide
Correlaciones canónicas
5.
CASO PRÁCTICO'" El sIgUIente ejemplo se basa en datos que describen la actividad econóllllca de los 168 municIpIOs de la provmcIa de Granada en el año 1995. Las varIables que conforman el fichero de trabajo canónica son: - TELEFONO: Número de teléfonos. - TURISMOS: Número de tunsmos. - ELECTRIC: Consumo de energía eléctnca. - SUPAGRUT: SuperficIe agraria útil. - PLAZGAN: Cabezas de ganado. - EMPINDUS: Empleo mdustnal. - VIVINICI: COllllenzo de construcción de VIvIendas. - LICENCOM: LIcencias comercIales. - PLAZHOTE: Plazas hoteleras. - PLAZREST: Plazas en restaurantes. - TRANSPOR: Número de vehículos dedicados al transporte de mercancías y VIaJeros. - BANCOS: Número de oficinas de bancos y cajas de ahorros. Como es sabido, el número de teléfonos, de tunsmos y el consumo de energía eléctrica suelen considerarse índices del mvel de actividad econóllllca, pues estas varIables están explicadas en gran medida por dicho mvel. En este ejemplo vamos a relaCIOnar este grupo de tres varIables con el resto de las vanables del fichero, las cuales miden la actividad económica en diversos sectores como el agrícola, el ganadero, construcción, serVICIOS, etc., confirmando y matizando la importancIa de ese grupo de tres variables como mdicadoras del nivel de actividad económIca. Conceptualmente, trataremos al grupo de las tres vanables como varIables dependientes y al resto como vanables mdependientes o explicatIvas. Tras entrar en el módulo «Canomcal CorrelatIOn», pulsando «Open Data» abriremos el fichero «canomca». En esta misma ventana, pulsaremos «Vanables» y seleccionaremos todas las vanables de este fichero. No marcaremos la opción «ReVIew descnptIve statIstIcs and correlatIOn analysIs», smo que pasaremos directamente al análisis de correlacIOnes canómcas propIamente dicho. En la ventana «Model Defimtion» especificaremos los dos grupos de vanables para el análisIs pulsando «VarIables for canomcal analysis». SeleCCIOnaremos como primer grupo (left set): SUPAGRUT, PLAZGAN, EMPINDUS, VIVINICI, LICENCOM, PLAZHOTE, PLAZREST, TRANSPOR y BANCOS; Y como segundo grupo (right set): TELEFONO, TURISMOS y ELECTRIC. Recuérdese que la desIgnación de pnmer grupo o segundo grupo es mdiferente pues el análisis es sImétrico.
* © Ediciones Pirámide
Véase fichero en la dirección www.ugr.es/.. . Uuque.
481
Técnicas de análisis de datos en investigación de mercados Después de especificar las dos listas de vanables, pulsaremos «OK» y nos aparecerá la ventana «Canomcal Analysls Results» encabezada por los siguientes resultados: TABLA II.I Resultados del análisis canónico
No. of variables Vananee extraeted Total redundaney Vanables:
1 2 3 4 5 6 7 8 9
3,000 100,000% 99,6433% TELEFONO TURISMOS ELECTRIC
9,000 77,7858% 70,2150% SUPAGRUT PLAZGAN EMPINDUS VIVINICI LICENCOM PLAZHOTE PLAZREST TRANSPOR BANCOS
Donde aparece el test de la chí-cuadrado para todas las raíces canómcas (valores propIOs o coeficientes de correlación canómca al cuadrado) que, como vemos, es sIgnificatIVO (p < 0,000001); por tanto, habrá al menos una relación canómca significativa. También observamos los valores del total de vananza extraída y de redundanCIa correspondiente al conjunto de todas las funCIOnes canómcas (en este ejemplo hay tres). Como puede verse, estos valores son notablemente altos, lo cual es indicativo del alto grado de relación global entre las vanables de ambos grupos. Entre las opciones que siguen a estos resultados hemos seleCCIOnado: Ch¡-square tests 01 canonical roots
TABLA II.2 Chi-square tests wlth successive roots removed Lambda prime
o 1 2
482
0,999949 0,837517 0,641290
0,999899 0,701435 0,411253
1.755,008 279,033 85,026
27 16 7
0,000000 0,000000 0,000000
0,000018 0,175779 0,588747
© EdiCIOnes Pirámide
Correlaciones canónicas En esta tabla aparecen los coeficientes de correlación canómca, sus cuadrados que son los valores propios asocIados (raíces canónicas o eígenvalues), el valor del estadístIco chl-cuadrado, sus grados ~ libertad-y el mvel de significación del contraste. Como vemos, siguen siendo significatIvos los coeficientes de correlación canómca tras elirmnar el pnmero y tras elirmnar los dos pnmeros coeficientes de correlación canónica, lo cual mdica que todos los coeficientes de correlación canómca son significatIvos. Canonícal weights, left and ríght set TABLA 11.3 Canon/cal weíghts, left set
SUPAGRUT PLAZGAN EMPINDUS VIVINICI LICENCOM PLAZHOTE PLAZREST TRANSPOR BANCOS
-0.003054 0,001635 -0,008721 -0,005000 -0,062099 0,016533 -0,014236 1,091621 -0,027415
0,22284 0,14346 0.73458 0,06107 -9,69501 0,42643 -1,21571 10,13166 -0,04059
0,00861 0,18182 -0,93097 -0,23962 -3,13095 -1,24678 0,50468 4,57015 -0,37904
TABLA 11.4 Canon/cal weíghts, rzght set
TELEFONO TURISMOS ELECTRIC
0,057744 0,910242 0,032358
-30,4397 31,0489 -0,6270
14,55197 -7,13684 -7,48011
Estos valores son los coefiCientes de las combmaciones lineales que constItuyen las vanables canómcas. Como puede observarse, tanto el signo como el valor absoluto de estos coefiCientes no nos ayudan en la mterpretación de las variables canómcas. Se observa en variables que tIenen papeles e Importancia similares en este estudio sobre actIvidad económica que tIenen coefiCientes de distmta magmtud e mcluso de distmto signo. Esto es debido a la relación eXIstente entre las vanables de cada grupo, lo cual supone un problema de multlcolinealidad seno y, por tanto, el valor y el Signo de dichos coeficientes no son indicatIvos de la Importancia de cada vanable en la interpretación de las vanables canónicas. © Ediciones Pirámide
483
I
Técnicas de análisis de datos en investigación de mercados
-
Factor structures and redundanctes TABLA 11.5 Factor structure, teft set Roo! 3 SUPAGRUT PLAZGAN EMPINDUS VIVINICI LICENCOM PLAZHOTE PLAZREST TRANSPOR BANCOS
0,067307 0,234410 0,141234 0,949507 0,995327 0,962196 0,872496 0,999858 0,997405
0,360110 0,272193 0,164699 0,051203 -0,041736 -0,142523 -0,363507 -0,002893 -0,003485
-0,141007 -0,125314 -0,938287 -0,148662 -0,076649 -0,001802 -0,124705 -0,014449 -0,004224
TABLA 11.6 Varzance extracted (proportlOns J, left set
" e~racted I, Redundancy " Varianc~ Roo! 1 Roo! 2 Roo! 3
0,628077 0,030218 0,043855
0,628141 0,043081 0,106636
TABLA 11.7 Factor structure, right set • R.o<}ti,;i ·"···B;~OOt TELEFONO TURISMOS ELECTRIC
0,999592 0,999985 0,990533
Roo! 3
-0,027775 0,003812 -0,057674
0,006652 0,004006 -0,124568
TABLA 11.8 Variance extracted (proportions), rtght set ,
,'.....';...
Roo! 1 Roo! 2 Roo! 3
484
.\ ....,.
,+.
c'
, .•
0,993437 0,001371 0,005193
RedundariCy
0,993336 0,000961 0,002135
© EdiclOnes Piránúde
CorrelaCLOnes canónicas
Ésta es la sección fundamental en la mterpretación de los resultados. Los valores totales de la varianza extraída y redundancia recogidos en la parte superior de la ventana «Canonical Analysis Results» se descomponen en las tablas 11.6 y 11.8 en la vananza extraída y redundancIa para cada grupo de variables y para cada función canómca. Como puede observarse, en la tabla 11.6 la suma o total de la varIanza extraída y de la redundancIa para el primer grupo de variables (grupo de la izqUIerda, left set) expresada en porcentaje es: 62,8141 + 4,3081 + 10,6636 = 77,7858 62,8077 + 3,0218 + 4,3855 = 70,2150 Análogamente, para el segundo grupo de vanables o grupo de la derecha (right set):
= 100 99,3336 + 0,0961 + 0,2135 = 99,6432 99,3437 + 0,1371 + 0,5193
Observando los valores de la varianza extraída y de la redundancIa que, como sabemos, nos mdican la magmtud de la correlación global entre los dos conjuntos de variables, frente a los coeficIentes de correlación canónica que expresan úmcamente la relación a través de las vanables canómcas, se concluye que aunque son significatIvos el segundo y el tercer coeficiente de correlación canónica, la vananza extraída y la redundancIa para la segunda y tercera función canómca son mSlgnificantes, por lo que no tIene nmgún mterés práctIco su análisis e mterpretación. Según la tabla 11.8 podemos deCIr que la pnmera vanable canómca recoge una media del 99,3437% de la varIanza de las vanables TELEFONO, TURISMOS y ELECTRIC, y que el grupo de variables representatIvas de la actIvidad econónuca (SUPAGRUT, PLAZGAN, EMPINDUS, VIVINICI, LICENCOM, PLAZHOTE, PLAZREST, TRANSPOR y BANCOS) explican el 99,3336% del comportamIento de estas tres vanables. Nos centraremos, por tanto, en la pnmera función canómca y para su interpretación no nos basaremos en los coeficIentes (canOn/cal weights) de dichas variables canónicas debido al problema de multícolinealidad que hay, smo que usaremos las correlacIOnes entre las vanables de partida y las vanables canómcas (canonical factor loadings) que aparecen en las tablas 11.5 y 11.7. Como puede verse, las tres varIables del segundo grupo (TELEFONO, TURISMOS, ELECTRIC) presentan una alta correlación con la pnmera vanable canómca sobre este grupo. En el otro grupo, las vanables VIVINICI, LICENCOM, PLAZHOTE, PLAZREST, TRANSPOR y BANCOS muestran una fuerte correlación con la pnmera variable canómca de este grupo, mIentras que SUPAGRUT, PLAZGAN y EMPINDUS tIenen una menor correlación con esta varIable canónica. Se podría decIr que el valor de las variables TELEFONO, TURISMOS y ELECTRIC está mfluenclado fuertemente por la actIvidad económIca en los sectores de la construcción, transporte y serVIcios y en mucha menor medida por los sectores agrícola, ganadero e industrial. © EdicIOnes Pirámide
485
1 Técnicas de análisis de datos en investigación de mercados
INVENTARIO DE TÉRMINOS Y CONCEPTOS • • • • • • •
Correlaciones canónícas. Variables canómcas. Función canómca. Índice de redundancia. Pesos o ponderacIOnes canónicas (canon/cal wieghts). Cargas canómcas (canonical loadings). Cargas cruzadas canómcas (canonical cross-loadings).
BIBLIOGRAFíA Barnett, V. D., y Lewls, T. (1963): «A study of the relatIon between GCE and degree results», J. Roy. Stat. Soc., A, 126, pp. 187-216. Bartlett, M. S. (1941): «The Statístícal Significance of Canolllcal Correlatíons», Biometrika, 32, p. 29. Bartlett, M. S. (1947): «The general canolllcal correlatlOn distributlon», Annals of Mathematlcal Statlstlcs, 18, pp. 1-17. Bertier, P., y Bouroche, J. M. (1975): Analyse des données multidimenslOnnelles, Press UlllV. de France, París. Blackith, R E., Y Reyment, R. A. (1971): Multlvanate Morphometrlcs, Academlc Press, Londres. Clarke, D. (1975): Understanding Canonical Corretation AnalySls. Concepts and Techniques m Modern Geography 3, Geo. Abstracts, Norwlch, UK. Cuadras, C. M. (1991): Métodos de AnáliSIS Multlvanante, PPU, Barcelona. Dempster, A. P. (1969): Elements of Contmuous Multivarlate AnalysIs, Addison-Wesley, Reading, Mass. Giffins, R. (1985): «Canolllcal Analysls: A Revlew with ApplicatlOns in ECOlogy», Biomathemattcs 12, Springer-Verlag, Berlín. Glabn, H. R. (1968): «Canonical correlations and its relationshlp to discrimmant analysls and multlple regression», J. Atmosphenc Sei., 25 (1), pp. 23-31. Halr, J., Anderson, R., Tatham, R, y Black, W. (1995): Multivanate Data Analysis wlth Reading, 4.' ed., Prentlce-Hall, New Jersey. Hotelling, H. (1935): «The most predictable critenoll», J. Educ. Psychol., 26, pp. 139-142. Hotelling, H. (1936): «RelatlOns between two sets of variables», Biometrika, 28, pp. 321377. Johnson. R A., y Wichernm, D. W. (1992): Applied Mutllvanate Statisllcal Analysts, 3.' ed., PrentIce-Hall, Englewood Cliffs, New Jersey. Kendall, M. G. (1957): A course In Multlvariate AnalysIs, Griffin, Londres. Lebart, L.; Monneau, A., y Fenelon, J. P. (1985): TratamIento estadístIco de datos. Métodos y programas, Marcombo, Boixareu Editores, Barcelona.
486
© Ediciones Pirámide
Correlaciones canónicas Lefebvre, J. (1976): IntroductlOn aux analyses statlstlques multídimenstonnelles, 2.' ed., Masson, París, 1980. Levine, M. S. (1977): Canon/cal Analysls and Factor Compansons, Sage UniverSlty Papers on Quantitative App1icatlOns m the SocIal SClences 07-006, Sage Pub1icatlOns, Bever1y Hills. Manly, B. F. J. (1986): Multtvartate Stattstlcal Methods. A Pnmer, Chapman and Hall, Londres. Maxwell, A. E. (1977): Multzvanate Analysts tn BehaVlOural Reseach, Chapman and Hall, Londres. Miller, R. G. (1962): «StallsticaJ prediction by discnmmant ana1ysls», Meteor. Monogr., 4, número 25. Schul, P. L.; Pride, W. M., y Little, T. L. (1983): «The Impact of Channel Leadership Behavlor», Intrachannel Conflicto Joumal oi Marketing, 47, pp. 21-34.
© EdiclOnes Pirámide
487
Salvador del Barrio García Teodoro Luque Martínez
1.
INTRODUCCiÓN El análisis de ecuaciones estructurales constituye una poderosa técmca de análisIs multivaríante cada vez más utilizada en la mvestigación en marketing y en las ciencias sociales en general. Resulta de la evolución y conjunción de VarIas aproxImacIOnes metodológIcas desarrolladas por diversas diSCIplinas: el análisis de VarIables latentes o no observables de la pSIcología, los modelos de ecuaciones SImultáneas de la economía o el análiSIS de caffi1nos (path analysiS) de la sociología (figura 12.1).
Modelos estructurales Ecuaciones SImultáneas (economía) Path anaLysis (socIología)
ModelOS de medida AnálisIs de variables iatentes o no observables (pSICología)
I
I
~ Modelos de ecuaciones estructurales con variables latentes y errores de medida
FUENTE:
Adaptado de Evrard, Pras y Roux (1993; 513).
Figura 12.1.
Desarrollo de los modelos de ecuaClOues estructurales.
La idea de varIables latentes o no observadas en pSIcología ya aparece en los pnmeros trabajOS sobre inteligenCIa general. El concepto de mfluenClas direCCIOnales simultáneas de unas VarIables sobre otras fue utilizado por los economIstas para plantear modelos de ecuacIOnes SImultáneas con varIables observadas. Por último, el path analysls fue introducido por Wnght (1934) en un contexto biométnco y reco© Ediciones Pirámide
489
T Técnicas de análisis de datos en Investigación de mercados gido más tarde por sociólogos como Blalock (1961) y Duncan (1969), qUienes lo desarrollaron e impulsaron. En la década de los setenta, todos estos procedimIentos de mvestigación fueron combmados por una serie de autores, entre los que cabe destacar a Joreskog (1973), Browne (1974) y Bentler (1980), dando lugar a los modelos de ecuacIOnes estructurales con vanables latentes y errores de medida que han sido considerados por algunos autores como <
Además, el análiSIS de ecuacIOnes estructurales incorpora vanables no observables directamente, denonunadas variables latentes o eonstruetos, que sólo pueden ser «medidas» a través de otras vanables directamente observables. Se establecen de este modo relaciones de mterdependencla entre vanables latentes y manifiestas, dando lugar a este tIpo de modelos también denonunados análisis de estructuras de covananzas, análiSIS de vanables latentes, análiSIS causal o análiSIS LISREL (LInear Struetural RELatlOnships, por ser el nombre de uno de los más famosos programas de software). SigUIendo con el ejemplo anterior podemos mcluir como variables que influyen en la cantidad demandada de un producto la calidad del nusmo (el) y las actItudes de los consumídores haCIa la marca (am), conceptos que no son medibles directamente sino a través de otras vanables observables tales como las preguntas de un cuestIonano (obl, ob2, ob3, etc.). q = p + pe + pub + el + am el = obl + ob2 + ob3 am = ob4 + ob5 + ob6 Este ejemplo no persigue un ngor teórico, nes que se pueden producir entre variables.
490
SITIO
facilitar la comprensión del entramado de relacIO-
© Ediciones Pirámide
Análisis de ecuaciones estructurales Como consecuencia de no medir perfectamente las variables latentes mediante las vanables manifiestas, estos modelos mcorporan errores de medida, ya sean debIdo a los encuestados, ya sean debido al investIgador. Los sUjetos expuestos a un cuestIonano pueden dar respuestas mexactas a las cuestIOnes planteadas, bIen por no querer decIr la verdad, bIen por desconocimIento u otros motIvos. También el investigador contribuye al error de medida al Intentar medir conceptos teóncos, tales como actItudes, comportamientos, opmlOnes, etc., mediante una sene de ítems en un cuestlOnano. Así, SI tratamos de medir la calidad de un producto y las actItudes de los consumidores ante una detennmada marca a través de una escala de medida en un cuestlOnano, nada nos asegura que estemos midiendo con exactItud dichos conceptos y que, por tanto, no estemos cometIendo ningún error de medida (e): el
= obl + ob2 + ob3 + el
am = ob4 + ob5 + ob6 + e2
Uno de los aspectos más Importantes a tener en cuenta a la hora de plantear un modelo de ecuaciones estructurales es que cada relación causal que se establezca ha de obedecer a una justificación basada en la teoría, en la,expenencla o en la práctIca obtenida por la observación del mundo real. Esta necesidad de justificación teónca no sólo ha de estar presente en la especificación del modelo, sino que es tanto o más Importante a la hora de su modificación o reformulación. Las relaCIOnes causales constItuyen la base de este tIpo de modelos, por lo que parece lógIco que hagamos mención especial sobre el concepto de causalidad. En la filosofía de la CIencia, dicho concepto ha sido el centro de profundos debates en cuanto a la naturaleza de la relación causal, su grado de generalidad, el modo de admimstrar la prueba, etc. Algunos tIpos de relaCIOnes causales se muestran en la figura 12.2.
Causalidad simple
L.--0_x
~0_y__
I 1
Causalidad compleja
l...
1
~~'~ Figura 12.2. © EdiCiOnes Pirámide
EjemplOS de relaciones causales.
491
Técnicas de análisis de datos en Investigación de mercados
-
Causalidad sImple, cuando eXIste una relacíón aSImétrica entre una causa (vanable mdependiente o exógena) y un efecto (vanable dependiente o endógena) Causalidad compleja, cuando eXIste una red de relacíones entre causas y efectos. Causalidad cIrcular, cuando la relación entre dos vanables es recíproca, es deCIr, ambas vanables son dependientes e mdependientes a la vez.
Para establecer una relación causal entre variables es necesano que: -
La vanable causa preceda en el tiempo a la vanable efecto. El factor causa esté asoCIado con el factor efecto. La úmca explicación posible del efecto observado sea el factor causal, es deCIr, que no eXIsta otra alternatIva que explique dicho efecto o contribuya decIsIvamente a ello.
Así pues, la condicíón necesana y sufiCIente para que exista una relación causal es la sigUIente: «Una vanable A es causa de B si siempre que se da A acontece B, y nunca acontece B si previamente no se ha dado A». Aunque en la teoría el concepto de causalidad está claro, en la práctica es muy difícil demostrar que una vanable sea causa de otra. Por tanto, en el ámbito de las CienCiaS Sociales más que hablar de relaCIOnes causales se debería hablar de relaCIOnes funcionales probabilísticas en los sIgUIentes térmmos: «Si se produce A, en las condiciones C, consecuentemente se producirá B con una probabilidad p».
2.
FASES PARA EL DESARROLLO DE UN MODELO DE ECUACIONES ESTRUCTURALES Los modelos de ecuacIOnes estructurales son una poderosa herramIenta de análiSIS, cuyo verdadero valor está en usar SImultáneamente vanables observadas y latentes Jugando diferentes papeles dentro del análiSIS general. En el desarrollo de un modelo de ecuacIOnes estructurales es necesano que se lleven a cabo cuatro grandes fases: la especificación, la identificación, la estimaCIón y la evaluación e mterpretación de dicho modelo (figura 12.3).
2.1.
ESpecificación del modelo
Desarrollo de un modelo basado en la teoría A la hora de diseñar un modelo de ecuacIOnes estructurales deben establecerse relaCIOnes de dependenCIa entre diversas variables que se consideran relevantes en la explicaCIón de un deterrmnado fenómeno de estudio, de tal forma que la fuerza y
492
© EdiclOoes Pirámide
Análisis de ecuaciones estructurales
Construcción de un path diagram
Especificación del modelo
Conversión del path diagram a ecuaciones estructurales
Evaluar la identIficación del modelo
Identificación del modelo
Elección del tipo de matiz a analizar
Estimación o.el modelo
CorrelaCIOnes
Covananzas
Estimación de los
parámetros del modelo (elección deí método de estImación)
Evaluar la bondad
de ajuste del modelo
Evaluación e mterpretación del modelo
¿ Modificación del modelo?
No
Interpretación del modelo final
FUENTE:
Adaptado de Hmr et al. (1995.628-629).
Figura 12.3. © EdiclOnes Pirámide
---
Etapas del proceso de desarrollo de un modelo de ecuaciones estructurales.
493
Técnicas de análisis de datos en investigación de mercados conVICCIón de tal relación depende sólo, y exclusivamente, del apoyo teórico que tenga. Por tanto, si el modelo no está bIen fundamentado, cualqUIer análisis posterior y conclusiones que se obtengan de él carecerán de validez. Además, si se omIte alguna vanable relevante en el proceso de especificación esto dará lugar a un error de especificación. Por consiguiente, debe eXIstIr un apoyo teórico bastante sólido que nos permita conocer las principales variables que operan en el modelo. Cabe distinguir dos grandes grupos de modelos causales (Bisquerra, 1989; 493): 1.
Los modelos recurSIVOS, cuando los efectos causales sobre las vanables dependientes van en una sola dirección. Dentro de éstos, a su vez se puede distmgUIr entre: MOdelos saturados, cuando se mtroducen todos los efectos posibles que no son recíprocos. Modelos no saturados, cuando no se llltroducen todos los efectos POSIbles. Éstos son los que presentan un mayor mterés desde un punto de vIsta estratégIco (ejemplo figura 12.4).
2.
Los modelos no recursivos, cuando existen efectos causales en ambas direcCIOnes (recíprocos).
Construcción de un «path diagram» Una vez que se han Justificado teóricamente las vanables a utilizar en el modelo, el siguiente paso será construir un gráfico en el que se representen todas las relaCIOnes razonadas con antenoridad. A este gráfico se le conoce con el nombre de diagrama de paso o de cammos (path diagram). Así, el mvestigador define estos diagramas en térmmos de conceptos teóncos sencillos como la edad, el sexo y el lllvel de mgresos, o más complejos como la opmión, la actItud, el gusto o el comportamIento. Dichos conceptos teóncos, también denommados en la literatura como constructos, van a ser medidos y representados en el diagrama causal a través de variables observadas. La construcCIón de este tIpO de gráfico ha de contemplar cuestIOnes como (HaIr et al., 1995, 631): l.
2.
Todas las relaCIOnes causales del modelo serán llldicadas en el diagrama. Por razones operatIvas y de mterpretación debe mclUIrse el menor número posible de variables y de relaCIOnes causales que puedan ser razonadas; no obstante, nunca se dejará de inclUIr una vanable o relación que tenga sufiCIente Justificación por el SImple hecho de no complicar el modelo. Todas las relaciones causales se consideran lineales, puesto que las relaCIOnes no lineales no pueden ser estImadas directamente en este tIpo de modelos.
En la figura 12.4 se observan las pnncipales relaCIOnes y los diferentes tIpos de vanables que intervIenen en un modelo de ecuaCIOnes estructurales, empleando para
494
© EdicIones Pirámide
AnálisIs de ecuacIones estructurales
TT Figura 12.4.
Ejemplo de modelo de ecuaciones estructurales (path diagram).
ello la terminología clásica (notación LISRELf Nuestro ejemplo está compuesto por CIllCO vanables latentes o conceptos teóncos y por 12 variables observadas, también denomllladas indicadores. Estas últimas se representan con las letras X e Y dentro de cuadrados, mIentras que las varIables latentes se representan por las letras gnegas ~ (ksi) y TI (eta) dentro de círculos. Las varIables que representan conceptos teóncos (latentes) se clasifican en vanab1es latentes exógenas y endógenas. Las pnmeras (~) son aquellas que no están causadas o predichas por nlllguna otra variable, es deCIr, son las vanab1es Illdepen2 Hemos querido mostrar un ejemplo de path diagram que recogIera una gama completa de las relaCIOnes que se presentan en un modelo de ecuaciones estructurales, a pesar de que a primera vista resulte
compleJO. © EdicIOnes Piramide
495
Técnicas de análisis de datos en investigación de mercados dientes del modelo cuya vanabilidad se atribuye a causas externas al mismo. Las segundas (1]) son aquellas causadas por una o más variables tanto exógenas como endógenas. En el ejemplo de la figura 12.4 aparecen dos variables latentes exógenas y tres endógenas, dividiéndose estas últlmas en dos vanables endógenas de pnmer grado (711' 712)' al estar causadas sólo por vanables exógenas, y una vanable endógena de segundo grado (713), al estar explicada por las variables endógenas 71, y 712' Las variables latentes exógenas son medidas a través de las vanables observadas X, mientras que las vanables latentes endógenas son medidas mediante las vanables observadas Y. Como se ve en la figura, lo normal es que las relaCiones causales partan de las vanables latentes hacia las observadas; a éstas se les denomman mdicadores refleXiVOS. Aunque es muy poco usual cabe la posibilidad del caso mverso, es decir, que las variables observadas carguen sobre las latentes, considerando a éstas como llldicadores agregados establecidos a partir de mdicadores parciales. En esta slluación a las variables observadas se les denomma mdicadores formativos. Por otro lado, al no medirse perfectamente los conceptos teóricos del modelo a través de las variables observadas se producen errores de medida, representados mediante (delta) para las vanables X y E (epsilon) para las vanables Y. De igual fonna, cuando tratamos de explicar una vanable latente a través de otras, se produce un térnuno de perturbación o error estructural S(zeta) que incluye los efectos de las vanabIes desconOCidas, las vanables onutidas en el modelo, los errores de medida y la aleatonedad del proceso especificado. Como se puede observar, las variables exógenas (~) no presentan térmmo de perturbación al considerarse vanables mdependientes. Consideramos en este ejemplo ficticio que el error de medida está correlacionado con el error de medida O2 , lo que sucede en ocaSlOnes. Esto es frecuente en estudios de carácter longitudinal en los que se aplica una misma medida en vanos intervalos de tiempo diferentes. Esta correlación se representa en el diagrama causal con la letra griega () (theta) y a través de una curva entre los dos errores. Asimismo, se considera que los térmmos de perturbación de las vanables 711 y 713 presentan una covariación diferente a O, Siendo representada por 0/31 (psi). Las flechas unidireCCionales entre dos vanables llldican una influenCia directa de una variable sobre la otra, Siendo los parámetros asociados a cada flecha los coeficientes que representan la relacíón entre las vanables. Cada parámetro lleva dos subíndices, el pnmero corresponde a la vanable de llegada de la flecha (efecto) y el segundo a la vanable de salida (causa). Los parámetros que expresan la relación entre las vanables latentes exógenas y su medida se representan mediante la letra lambda con un superíndice X (Ax ), mientras que los parámetros entre las vanables latentes endógenas y su medida se representan de la misma forma pero con el superíndice Y (AY). Paralelamente, el parámetro que representa la relaCión entre una vanable latente exógena y una endógena se mdica a través de la letra gamma (y), y la relaCión entre dos vanables latentes endógenas se representa mediante la letra beta (/J). Por último, la covariación entre las variables exógenas se representa mediante una línea curva y la letra phi (1jJ).
o
o,
496
© EdicIOnes Pirámide
Análisis de ecuaciones estructurales
Una cuestión Importante a tener en cuenta en este tipo de modelos es la relación eXIstente entre las correlacIOnes y los parámetros, de tal forma que el coeficIente de correlación entre dos varIables es Igual a la suma de los efectos directos y los efectos Indirectos. De este modo, por ejemplo, el coeficIente de correlación entre las vanables ~2 y Tl2 estará compuesto por el efecto directo que ejerce la propia variable exógena ~2 sobre la varIable endógena Tl2 y el efecto Indirecto que ejerce a través de las varIables ~j y TI,. En forma de ecuación, dicha correlación vendría dada por:
Conversión del «path diagram» a ecuaciones estructurales Una vez desarrollado el modelo causal y representado gráficamente en un diagrama. el sIgUIente paso será trasladarlo a un conjunto de ecuaciones lineales que definan las relaciones entre los constructos (modelo estructural), la medida de tales constructos a través de las varIables observadas (modelo de medida), y las posibles correlacIOnes entre las diferentes vanables 3
Modelo estructural Representa una red de relaciones en forma de un conjunto de ecuacIOnes lineales que enlazan variables latentes endógenas con varIables latentes exógenas. El modelo estructural 3e considera como extensión de la regresión, estableciendo tantas ecuacIOnes como variables latentes endógenas haya. Así, cada constructo endógeno es la varIable dependiente de la ecuación y el resto de constructos endógenos y exógenos relaCIOnados son las vanables Independientes. Para nuestro ejemplo, la representación en forma de ecuaciones es:
TI, = Yll~L + S, Tl2 = Y22~2 + /321 TI, + S2 Tl3 = A, TI, + A2T12 + S3 EXIsten tres únicas vanables latentes endógenas en el modelo representadas en tres ecuaciones que Incluyen los térmInos de perturbación. La variable TI¡, que en la pnmera ecuación es dependiente. en la segunda y tercera se considera Independiente.
:; Generalmente en la práctica se omite este paso, ya que la mayor parte de los programas que se utilizan hoy en día permiten construir el path diagram y a partlI de ahí obtener la solución directamente e mcluso las ecuacIOnes estructurales (ejemplos: AMOS y LISREL VIII). © EdiCIOnes Pirámide
497
T
Técnicas de análisis de datos en investigación de mercados En forma matncIal abrevIada la representación del modelo estructural es la sigUiente: 1] = B1] + r~ + S
donde 1] (r X
1): Es el vector de las vanables latentes endógenas.
B (r x r): Es la matnz de coeficIentes endógenos. ~ (s
x 1): Es el vector de variables latentes exógenas. r(r x s): Es la matnz de coeficIentes exógenos. S(r x 1): Es el vector de térmmos de perturbación aleatonos. De forma más desarrollada el modelo estructural vendrá dado por:
Modelo de medida El modelo de medida especifica las vanables observadas o indicadores, que van a servir para medir los conceptos teóncos propuestos en el modelo estructural. Para poner en forma de ecuaCIOnes el modelo de medida, se establecerán tantas como indicadores posea el modelo representado en el diagrama causal, con mdependencia de que sean exógenos (X) o endógenos (Y). A continuación se presentan las ecuaCIOnes del modelo de medida de la figura 12.4:
x,
= íl~1~j + O, X 2 = íl~1~¡ + O2 X 3 = íl~1 ~j + íl~2~2 + 03 X 4 = íl~2~Z + 04 Xs = íl~2~2 + Os X 6 = íl~2~2 + 06 Y¡ = ílj'¡ 1]1 + c¡ Y2 = íl~11]J + ~ Y3 = íl§z1]z + E:J Y4 = ílX21]2 + c4 Ys = ílK31]3 + es Y6 = íl~3 1]3 + e6
498
Modelo de medida de mdicadores exógenos
Modelo de medida de mdicadores endógenos
© EdicIOnes Pirámide
Análisis de ecuacIOnes estructurales En este caso hay 12 ecuaCIOnes, de las cuales 6 establecen la medida de las 2 varIables latentes exógenas y otras 6 la medida de las 3 variables latentes endógenas. También se aprecIa cómo la variable X 3 Slrve para medir los dos constructos exógenos, lo que no es recomendable m usual, SI bIen puede darse sIempre baJo un razonamIento teónco. La fonna matriCIal abrevIada del modelo de medida viene dada por las slgmentes expresIOnes: Modelo de medida de varIables exógenas: x = N~ + 8 8 Modelo de medida de VarIables endógenas: y = AYr¡ + 8 e donde x (k x 1): y (t x 1): A X (k x s): AY (t x r): 8 8 (k x 1): 8 e (t x 1):
Es Es Es Es Es Es
el el la la el el
vector de mdicadores exógenos. vector de mdicadores endógenos. matnz de cargas de los mdicadores exógenos. matrIz de cargas de los mdicadores endógenos. vector de errores de medida de los mdicadores exógenos. vector de errores de medida de los mdicadores endógenos.
La forma matricial desarrollada sería: A~l
=
A21
O O
A~l
A~2
O O O
A:2 A52
AJ'¡ A~l
=
O O O O
(~J +
A~2
O O A~2
O O O O
O O
A~3 A~3
A~2
°~1 8¡
Modelo de medida de indicadores exógenos
°4 °5 °6
(~:) ,
El t'z E3 E4
Modelo de medida de mdicadores endógenos
Es
E6
Una vez establecidos en forma de ecuacIOnes tanto el modelo estructural como el modelo de medida, el slgmente paso es especificar las posibles covarianzas o correlacIOnes eXIstentes entre las variables latentes y entre los mdicadores. Por lo general, las VarIables latentes exógenas están correlaCIOnadas representando una influenCIa compartida sobre las variables endógenas. Sin embargo, la correlación entre las VarIables endógenas suele ser muy poco usual y complica mucho el proceso de mterpretación. © Ediciones Pirámide
499
Técnicas de análisis de datos en investigación de mercados
Por último, también puede considerarse la eXIstencIa de una determmada covanación entre los mdicadores del modelo de medida, lo que se reflejaría a través de la correlación o covanación de sus errores de medida. Como mdican Gerbmg y Anderson (1984), en algunas situaCIOnes el uso de estas correlaCIOnes está justificado teóncamente, SI bIen en la práctica suelen emplearse con mucha frecuencIa con el único objetivo de mejorar el ajuste del modelo a los datos. Cuando así se hace, se deSVIrtúa en gran medida el SIgnificado de las conclUSIOnes obtenidas del modelo. El error de medida se descompone en un componente específico y en un componente aleatono. El pnmero, representa el aspecto partIcular de cada medida, no SIendo compartido por nmgún otro indicador y permaneciendo estable a través de sucesivas medidas. El segundo, es de carácter aleatono y no va a permanecer estable. En la mayoría de estudios es difícil, SI no Imposible, separar estos dos componentes, por lo que si correlaCIOnamos los errores de medida estaríamos asumIendo que el componente específico del error es compartido por otro indicador, lo que SIgnificaría que dichos indicadores miden alguna otra cosa más de lo que se supone que han de medir. Tan sólo en estudios de carácter longItudinal, donde se mide un mIsmo fenómeno en varios períodos, es posible separar ambos componentes. Como el componente específico es estable a lo largo del tiempo, sí que tiene sentido correlaCIOnar los térmmos de error para un mismo mdicador en dos períodos de tiempo diferentes. En el ejemplo que venimos manejando, hemos supuesto la existenCia de correlaCIOnes representándolas en las SIguientes matnces: -
Matriz de correlaCIOnes de los errores de medida para los zndicadores exógenos (theta-delta)
X, X, Xz X3
8821
X4 Xs X6
-
Matrlz de correlaciones de los errores de medida para los zndicadores endógenos (theta-épsilon) Y,
Y2
Y3
Y4
Ys
Y6
Y, Y2 Y3 Y4
8843
Ys Y6
500
© EdicIOnes Pirámide
Análisis de ecuaciones estructurales -
Matrzz de correlaciones entre las variables latentes exógenas (phi):
rfiZ!
-
Matriz de correlaciones entre las variables latentes endógenas (psi):
112
11, 11z 113
2.2.
lf/3!
Identificación del modelo
Antes de proceder a la estImación del modelo, habrá que evaluar la identificación del mIsmo, es decir, analizar SI la matriz de entrada (correlacIOnes o varianzascovarIanzas) de las vanables observadas perIDlte estImaciones únicas de los parámetros no conocIdos. Se dice que un modelo está identificado SI dicha matriz es generada por un, y sólo un, conjunto de parámetros. Para comprender mejor el problema de la identificación supongamos un sencillo ejemplo. Sea la ecuación: x+2y= 7
En ella disponemos de dos valores desconocidos x e y, y de una úmca ecuación, de manera que existe un número mfinito de pares de valores que pueden ser la solución de dicha ecuación. Esta ecuación no está identificada puesto que hay más valores «no conocidos» (x e y) que «conocidos» (ecuaciones). Si añadimos una segunda ecuación que complemente a la antenor dispondremos de dos ecuacIOnes y dos incógmtas: x+ 2y= 7 3x-y = 7
En este caso eXIste un úmco par de valores (x = 3, y = 2) que resuelve este sIstema de ecuacIOnes y, por tanto, se dice que el sIstema está perfectamente identificado. En un modelo de ecuacIOnes estructurales, los valores conocidos proceden pnncipalmente de las vananzas y covarlanzas de las variables observadas, mIentras que los valores no conocidos proceden de los parámetros especificados en el modelo. La identificación es una cuestión muy Importante para los mvestIgadores, ya que la metodología les otorga libertad para especificar los modelos (por supuesto, atendiendo a un razonamiento teónco), mcumendo en el nesgo de formular modelos no identI© EdiCiones Pirámide
501
Técnicas de análisIs de datos en investigación de mercados
ficados. Supongamos que el mvestigador especifica un modelo simple en el que una vanable latente es medida a través de dos vanables observadas XI y X 2 , tal y como se muestra en la figura 12.5. La pregunta a plantear sería: ¿está este modelo identificado? Para responder es necesario comparar los valores conocidos y no conocidos. Este modelo tIene cuatro valores no conocidos que serán las cargas All y ~1 Y las varIanzas del error 01 y 02' lllientras que eXIsten sólo tres valores conocidos que son los elementos distmtos de la matríz de varlanzas-covananzas de las vanables XI y X 2• Así pues, al eXIstIr más parámetros a estImar que valores conocidos, el madeja no está identificado, por lo que será necesarIo que se establezca alguna restricción (por ejemplo, fijar el valor de alguna o A) para que el modelo sea resuelto.
°
Figura 12.5.
Modelo simple de una vanable latente y dos observadas.
Pero más allá de la mera identificación, los usuanos de los modelos de ecuaciones estructurales han de trabapr con modelos que estén «sobreidentificados», es deCIr, modelos donde haya más valores conocidos (ecuaciones) que parámetros a estImar. La identificación perfecta de un modelo prodUCIría un ajuste perfecto trIvial, al quedarse el modelo sm grados de libertad, lilllitando la posibilidad de comprobar SI el modelo es una representación razonable del fenómeno de estudio. Para evaluar la identificación de modelos más complejOS empleamos un conJunto de reglas necesarias y sufiCIentes. Una condiCIón necesaria, pero no suficiente, para alcanzar dicha identificación es: p"; !(k+t)(k+t+l) 2
donde
p: Número de parámetros a estimar. k: Número de indicadores exógenos. t: Número de indicadores endógenos. Dicho con otras palabras, que los grados de libertad sean Iguales o superiores a cero.
502
© Ediciones Pirámide
Análisis de ecuaClOnes estructurales En el ejemplo de la figura 12.4 se cumple tal condición ya que hay 37 parámetros a esUmar y 78 varianzas-covananzas distmtas, sIendo los grados de libertad de 41. Así pues, el modelo cumple con la condición necesarIa para estar idenUficado: Parámetros = 7(JeX) + 6(Al) + l(ep) + 2(y) + 3([3) + 6(0) + 6(10) + +1(8,,)+1(8 e )+I(t¡I)+3(S)
EcuaCIOnes
= 37
= .1 (6 + 6)(6 + 6 + 1) = 78 2
Por otro lado, una condición sufiCIente, pero no necesaria, es la regla de los dos pasos (Díez, 1992, 63). PrImer paso, comprobar la identificación del modelo de medida, para lo cual se exige que todos los mdicadores se relacionen con un úmco factor, que cada factor esté medido al menos por tres indicadores y que los errores de medida no estén correlaCIOnados entre sí. Si un factor está medido por dos mdicadores, la condición sufiCIente es que los factores del modelo de medida estén correlaCIOnados entre sí (o al menos con otro factor), que cada indicador se relaCIOne úmcamente con un factor y que los errores de medida no estén correlaCIOnados. Segundo paso, comprobar la Identificación del modelo estructural, eXIgIendo para ello que el modelo sea recurSIVO. En nuestro ejemplo, no se cumple el prImer paso de la anterIor condición suficIente, ya que el mdicador X3 mide dos factores diferentes, hay factores medidos por menos de tres mdicadores y, por úlUmo, eXIsten errores correlacionados. En consecuenCIa, tal modelo cumple la condición necesana para estar identificado pero no la sufiCIente. Con el uso de programas de ordenador, cada vez más potentes y sofisUcados para el análisis de ecuaCIOnes estructurales, esta etapa pasa desapercibida en la prácUca al ser evaluada la identificación del modelo por el propIO programa, adVIrtiendo al invesUgador SI no se cumplen las condiCIOnes anterIormente expuestas. No obstante, en algunos casos el software estima todos los parámetros sm que aparentemente eXIstan problemas de identificación aunque, posteriormente en la solución, aparezcan resultados Slll significado o ilógicos. Los síntomas de una falta de identificación del modelo son:
© EdiCIOnes Pirámide
-
Bloqueo del programa como consecuencia de no poder inverUr la matrIZ de mformación Imclal (aparece un mensaje de que alguna matrIZ es definida no posItIva).
-
Errores estándar muy grandes para uno o más mdicadores.
-
EsUmacIOnes sm significado, como por ejemplo una varIanza del error negaUva o un parámetro estandarIzado fuera del rango (-1, +1).
-
Altas correlaCIOnes entre los coefiCIentes estimados (más de ±O,90).
503
Técnicas de análisis de datos en investigación de mercados Entre las pnnClpales causas que motivan una falta de identificación destacan: -
Un alto número de parámetros en función de las observaCIOnes disponibles. El uso de efectos recíprocos entre varlables latentes (modelos no recurslVos). El no haber fijado la escala de un constructo teónco.
En relación con esta últlma cuestión, debemos mencIOnar que las variables latentes, al no ser medidas directamente, no poseen una escala defimtlva, de modo que habrá que otorgársela por alguno de los slgmentes procedimlentos (Eventt y Dunn, 1991, 260): 1.
2.
Asumir que son estandanzadas con vananza unitarla. Esto se conSigue a través de la obtención de una solución estandarlzada. Defimr la unidad de medida de la variable latente igual a la de una de las vanables observadas. Se puede lograr fijando una de las cargas de la vanable latente a la unidad.
Cuando nos encontremos ante un problema de identificación, la solución del mismo radicará en añadir más restncclOnes al modelo, elimmando relaciones o fijando determmados parámetros. Normalmente se suelen fijar las varianzas de los ténmnos de perturbación o las varianzas de los errores de medida sobre la base de la expenencia, la investigación previa o la teoría. Otra posibilidad es fijar algunos parámetros estructurales que sean razonablemente conocidos.
2.3.
Estimación del modelo
Elección del tipo de matriz a analizar Antes de proceder a la estlmación de los parámetros del modelo, hay que decidir la fOTIna que tendrán los datos de entrada. Los modelos de ecuaClOnes estructurales pueden usar como «matena pnma» la matnz de varianzas-covmanzas o la matriz de correlaCIOnes de las vanables observadas. La mayoría de programas mformátlcos aceptan observaCIOnes mdividuales (raw data) a partir de las cuales calculan la matriz de varianzas-covananzas o la matnz de correlaCIOnes para la estlmación de los parámetros del modelo. La cuesUón se centra en decidir qué tipo de matriz se va a emplear. TradiCIOnalmente los modelos de ecuacIOnes estructurales han sido fOTInulados para usar la matrlz de varlanzas-covananzas; de ahí que también se denomine a esta técnica como análiSiS de estructura de covmanzas. No obstante, cada vez con más frecuencia se emplea la matnz de correlaCIOnes. El uso de la matnz de vananzas-covananzas presenta la ventaJa de proporcionar comparaclOnes válidas entre diferentes poblaciones y muestras, debido a que los coeficlentes esUmados conservan la unidad de medida de los indicadores. Toda la teoría estadÍstlca cláSica de los modelos de ecuaClOnes estructurales está basada en las propiedades distributivas de los elementos de la matnz de covmanzas, de mane-
504
© EdiclOnes Pirámide
Análisis de ecuaClOnes estructurales ra que SI se utiliza la matnz de correlacIOnes, que presenta una distribución diferente, podrían producIrse problemas como la obtención de errores estándar equívocos. No obstante, eXisten algunos paquetes mformátlcos (Sepath de STATISTICA o Ramona de SYSTAT) que están programados para proporcIOnar errores estándar correctos, mdependientemente de que el mvestlgador emplee una u otra matnz, lo que elimma este problema. Por otra parte, la utilización de la matrIz de varianzas-covarianzas presenta un ligero inconvemente en cuanto a la interpretacIón de los resultados: los coeficientes deben ser mterpretados en ténnmos de las unidades de medida para los constructos. No obstante, esta dificultad se cornge obteniendo a posteriorí los coeficientes estandanzados. Esto ha provocado el uso cada vez mayor de la matriZ de correlaCIOnes, debido a que tienen un rango común de variación entre -1 y + 1, lo que hace posible la comparación directa de los coeficIentes dentro de un modelo. El uso de esta matriZ es adecuado sólo cuando el mvestlgador pretende comprender el patrón de las relacIOnes entre los conceptos teÓriCOS establecidos, pero no como prueba rigurosa de la teoría. En estos casos, el analista debe ser cauto a la hora de generalizar los resultados obtenidos a otras situaciones, puesto que los parámetros obtenidos mediante la matriz de correlaCIOnes, si bien son correctos, no presentan unos adecuados tests de Significación al producir errores estándar madecuados, a no ser que se empleen algunos de los paquetes mfonnátlcos que elimman ese inconvemente. Otro aspecto a considerar es el tipo de correlación a usar. Así, cuando las variables son ordinales con tres o más categorías la medida de correlación adecuada será la correlación policórica, pero cuando las variables son dicotómicas se empleará la correlación tetracórica. Si las variables tienen diferente escala SIendo una métrica y la otra ordinal, la medida de correlación a emplear será la correlación poliserial: SI una vanable es métrica y la otra dicotómica, la correlación a utilizar será la blserial. En resumen, es recomendable partir de la matriZ de varianzas-covarlanzas y obtener posteriormente las soluciones estandarizadas para facilitar la interpretación de los resultados.
Estimación de los parámetros del modelo La estimación de los parámetros de un modelo de ecuacIOnes estructurales se realiza mediante la mmim1Zación de una función de discrepancia entre la matriZ de vananzas-covarianzas obtenida de una muestra de n observacIOnes, y la matriZ de varianzas-covarianzas predicha por el modelo. Esta función de ajuste vendrá dada por la slgmente expresión: F = [s - cr(e)]'w-J[s - cree)]
donde
s: Es un vector que contiene las varianzas y covarianzas de las variables observadas. © EdiclOnes Pirámide
505
Técnicas de análisis de datos en investigación de mercados a( 8): Es un vector que contIene las vananzas y covananzas predichas por el mo-
delo. W: Es una matnz de pesos que puede tomar diversas fonnas dependiendo de la distribución que tengan las vanables observadas. Si asumImos que la distribución muestral de dichas vanables es nonnal multIvariante, entonces la funcIón de ajuste tomará la SIguiente fonna: FNonnal
= 2- 1 Traza [(S - L)W2]2
donde: S: Es la matnz de vananzas-covananzas de la muestra. L: Es la matrIz de vananzas-covaríanzas predicha por el modelo. W2 • Es una matnz que puede tomar diversas fonnas en función del tIpo de método de estImación que se escoJa: W2 = L- 1, MáxIma verosllnilitud (Maxlmum Likelihood, ML). W2 =;;-L Mínimos cuadrados generalizados (Generalised Least Squares, GLS). W2 = I: Mímmos cuadrados no ponderados (Unweighted Least Squares. ULS). a)
Método de estimación por máxima verosimilitud (ML)
La función de ajuste más usada en modelos de ecuaCiones estructurales ha sido ML, cuya expresión más habitual suele ser: F ML = lag ILI + Traza (SL- 1) -lag ISI- (k + t)
Los estImadores ML son no sesgados, lo que qUIere decIr que si extrajéramos un número mfimto de muestras de cIen o más casos y calculásemos cada vez el valor de estos estImadores, el valor medio de los mismos sería el correspondiente a la población total. Además, para muestras lo sufiCIentemente grandes, ML proporciona estimadores efiCIentes; es decIr, que SI una vez obtenidas todas esas muestras calcularnos la desvIación típica de esos valores, obtendremos un valor mímmo comparado con el que se obtendría con otros métodos. Otra Importante característica que tIene la función ML es que pennanece mvanable ante los cambioS en la escala. Esto Implica que el valor de la función de ajuste será el mismo empleando la matrIz de correlaCiones o la matriz de vananzas-covananzas. El prmcipal lllconvemente de esta función es su sensibilidad al tamaño muestral, de fonna que a medida que la muestra va aumentando dicha función se va haciendo más sensible para detectar diferencias entre los datos. Empíricamente se ha de-
506
© EdiCIOnes Pirámide
Análisis de ecuacíones estructurales
mostrado que el tamaño de la muestra ideal para aplícar esta técnica está entre 100 y 200. Cuando la muestra es demasIado amplia (más de 400), incluso modelos que se ajustan bIen a los datos van a presentar diferencIas sIgnificatIvas entre la matnz de datos ongmales y la matriz estImada. También se ha hallado una cierta relación entre la función ML y el número de parámetros a estImar en el modelo, recomendándose un mímmo de cmco observaciones por cada parámetro (HaIr et al., 1995, 637). b)
Método de estimación por mínimos cuadrados generalizados (GLS)
Al IgUa! que la estImación ML, proporciona estImadores no sesgados y eficIentes de los parámetros del modelo, aunque con muestras pequeñas dichos estImadores tIenen un sesgo prÓXImo a cero (Bollen, 1989, 115). La función de ajuste para este método vendrá dada por la siguiente expresión:
F GLS se diferencIa de F ML en que usa ::J1 como matriz de ponderación W2 en vez de r- 1 Esto Implíca que F GLS Imponga asunciones algo menos restrictIvas en cuanto a la eficIenCIa y a la nonnalidad que F ML' c)
Método de estimación por mínimos cuadrados no ponderados (ULS)
Ésta es otra de las alternatIvas que eXIsten para la función de discrepancIa y que suele ser muy poco común en cuanto a su uso. El procedimIento de estImación ULS, que es análogo al método OLS en regresión, presenta la SIguiente función de ajuste:
En este caso se mimmiza la suma de cuadrados de cada elemento en la matriz de residuos (S - :E), ponderando ImplícItamente todos los elementos de dicha matrIZ como SI tUVIeran las mismas vananzas y covarianzas con otros elementos, debido a que W2 = l. Esto difiere con F ML Y F GLS en que éstas ponderan los elementos de la matrIZ residual de acuerdo a sus varIanzas y covananzas con otros elementos, ya sea utilizando :E-' o su estImador consistente ::JI Por tanto, el nivel de exigencia en cuanto a la multmonnalídad de la distribución muestral es bastante menor que para FML Y FGLS' lo que Implica que las estimaciones obtenidas de esta fonna sean poco efiCIentes. Por otra parte, también es de destacar que este procedimIento de estimación es dependiente de la escala de medida, difinendo sus valores en función del tipo de matnz de entrada (correlaciones o varianzas-covarIanzas). No obstante, esta función de ajuste tiene la ventaja de su facilidad de cálculo y comprensión mtUItiva. © EdiclOoes Pirámide
507
Técnícas de análisís de datos en ínvestigadón de mercados Cuando los datos de la muestra no sIgan una distribución normal multIvanante, la teoría y los estudios de sImulación llevados a cabo han mostrado que se produce un sesgo en el estadístIco X2 (ML o GLS) y en los errores estándar de las estimaCIOnes de los parámetros, aunque no parece afectar a las propIas estImacIOnes de los parámetros que son altamente consIstentes (Sharma, Durvasula y Dillon, 1989). Por tanto, antes de escoger el método de estImación ha de analizarse la distrIbución muestral de las variables observadas, estudiando las característIcas de la multmormalidad, asimetría y CUrtOSIS a través de una sene de tests y de coeficientes disponibles a tal efecto, como el coefiCIente de normalidad multivanante de Mardia (1970) o los tests de aSImetría y CUrtOSIS multIVanante que proporCIOna algunos programas (por ejemplo, el procesador PRELIS de LISREL VIII). La figura 12.6 muestra las distribucIOnes con aSImetría y CurtOSIS que denvan de una distribución normal, así como las posibles deSVIaciones que se pueden produCIr. En la parte superior del gráfico, nos encontramos con la distribución B totalmente simétrIca que representaría a la normal, y con dos distribucIOnes asimétrIcas: la A con una amplia cola extendida haCIa la izqUIerda (asimetría negatIva) y la e con la cola extendida haCIa la derecha (asimetría positiva). En la parte infenor, se representan las posibles deSVIaCIOneS en CUrtOSIS, la distribución a tIene más apuntamIento que la normal (CUrtOSIS pOSItIva) y la distribución e posee un baJO apuntarmento (curtosis negatIva).
B
ASImetría
b
e
CurtOSlS
Figura 12.6.
508
llustraclOnes de la asimetría (positiva y negaTIva) y de la curtosis (positiva y negaTIva). © EdicIones Pirámide
Análisis de ecuaciones estructurales Se demuestra que las desviacIOnes en la curtosis afectan de forma más Importante a la normalidad multivanante de la muestra que las desviaciones en la aSimetría, y de ahí que haya que prestar una especial atención a los indicadores de CurtOSIS. En el supuesto de que la distribución muestral no cumpla dichas asunciones, cabe plantearse diversas alternativas (Bollen, 1989, 425): 1.
2. 3.
Llevar a cabo transformaciones en las vanables que conduzcan a su aproxImación hacia la multinormalidad, y que nos permitan poder aplicar las funcIOnes ML y GLS con garantías (para un análiSIS más profundo sobre este lipo de transformacIOnes véase Johnson y Wichern [1988], y Sharma [1996]). Realizar determmados ajustes a los tests estadíslicos de forma que ML y GLS resulten asimptóticamente correctos. Emplear procedillllentos de estimación alternativos que proporcIOnen estimaciones efiCientes baJo condicIOnes de no normalidad. A este respecto, se han desarrollado determmados métodos como el de los Mímmos Cuadrados Ponderados (Weighted Least Squares, WLS).
De estas tres alternativas, nos vamos a centrar en la última por ser la que utilizan la mayor parte de los programas que eXisten en el mercado para analizar modelos de ecuacIOnes estructurales.
d)
Método de estimación por mínimos cuadrados ponderados (WLS)
La función de ajuste según el método de estimación WLS será:
F.WLS = [s - a(0)]'W-1[s - 0'(0)] De esta forma. se van a obtener las estimaciones de los parámetros mimllllzando la suma ponderada de las diferencias entre las varianzas-covananzas de las variables observadas y las vananzas-covananzas predichas por el modelo. o lo que es Igual. la función WLS se expresa como la suma ponderada de los residuos al cuadrado. siendo la matriz de ponderación W la matnz de covananzas de los residuos. Esta expresión es Igual a la función de discrepancia general que establecíamos al pnnclplO del presente epígrafe, que baJO los supuestos de multmormalidad se denvaba en las funCIOnes anteriormente vistas FMV FGLS Y FULS' Y que no son más que casos específicos de la propia F WLS' Dicha función supone una sene de ventajas e inconvementes. Entre las ventajas. podemos destacar que son mímmas las asuncIOnes sobre la distribución muestral de las vanables observadas, y de ahí que también se denommen como funCIOnes de discrepanCia asmtóticamente libres de distribución (ADF), y que proporciona estimacIOnes efiCientes de los parámetros. El prmclpal mconvemente de FWLS es que al tener una forma de distribución asintóticamente libre reqUiere que se invierta la ma© EdiclOoes Pirámide
509
Técnicas de análisis de datos en investigación de mercados
tnz W de orden 1I2(k + t)(k + t + 1), 10 que se va complicando a medida que el número de vanables observadas se incrementa (por ejemplo, en el caso de que haya doce vanables observadas, la matriz a invertir sería de orden 78 x 78). Además, otro importante problema es que esta aproximación reqUIere que el tamaño muestral sea 10 sufiCientemente amplio como para que la función de ajuste pueda converger y dar una solución óptima, de manera que SI la muestra es demasIado pequeña no se podrá llevar a cabo dicho método de estimación. Todo esto debe llevar al sigUIente razonamiento: SI las desviaciones que se producen de la normalidad no son muy Importantes, es preferible emplear procedimientos de estimación más SImples tales como ML, GLS, o incluso ULS. La estrategIa más prudente será comparar los resultados de estos métodos con los obtenidos para WLS (Bollen, 1989, 432), de manera que se extraIgan conclusiones acordes con los planteamIentos teóncos previamente establecidos. La tabla 12.1 resume los principales aspectos a tener en cuenta de los diferentes métodos de estimación eXIstentes.
Anomalías que pueden surgir durante el proceso de estimación Un mensaje bastante frecuente que puede dar el programa informático durante el proceso de estimación es que la matriz utilizada es «definida no positiva» 4 Existen cuatro sItuaCiones distintas baJO las cuales puede aparecer dicho mensaje, con causas y remedios muy diferentes: 1.
2. 3. 4.
Si se está utilizando el método de estimación GLS o ML el programa nos mfonna que la matriz de vananzas-covananzas o correlaCiones analizada (S) es definida no posItIva. Si se está empleando el método ADFIWLS el programa nos mdica que la matnz de covarianzas asmtótica aIlalizada es definida no posItIva. También puede aparecer el mensaje de que la matrIz lInpIícIta del modelo (~) es no definida posItiva. Por último, se puede mdicar que alguna de las matrIces de parámetros dentro del modelo son no defimdas posItIvas (theta-delta, tetha-épsilon, phi y psi).
Esto va a tener unas repercusiones importantes en el proceso de estimación de los parámetros del modelo, ya que todas las funCiones de discrepancIa deben mvertir la matnz de ponderaciones W, lo que Implica dividir por el deterrmnante de la matnz, de manera que SI dicha matnz es smgular el programa mtentará diVIdir 4 Una matriz eS definida positiva SI todos sus valores propios son positivos. En otras palabras, una matriz puede evaiuarse SI es definida positiva o no a través del SIgno de su determinante. Las matrices simétncas, tales como las matrices de vananzas-covananzas y correlaciones, serán definidas positivas si la matnz pnnclpal y cada submatnx prmclpal (las formadas por la elimmación de los pares·fila de la matriz SImétrica anginal) tiene un ctetenninante positivo. Aquellas matrices que no cumplan este reqUIsito serán definidas no positivas. Si el determinante de la matriz es exactamente O, se dice que la matriz es smgular.
510
© Ediciones Pirámide
Análisis de ecuacIones estructurales TABLA 12.1
Prznclpales característIcas de los métodos de estimación
ae
;,
1),:
...........
Prlncipalescaracteiístlcas
.,
, •
•••••••
Máxima verosimilitud (ML)
Las vanables han de segUIr una distribución multmormal. Se obtienen estimadores insesgados y eficientes. La función ML permanece mvanable ante cambios de escala. La función ML es muy sensible al tamaño muestral cuyo tamaño ideal está entre 100 y 200. La función ML está relacIOnada con el número de parámetros a estímar. Al utilizar como matriz de ponderación (W) la matriz de varianzas-covananzas predicha por el modelo (L), el proceso de estimación es más lento.
Mímmos cuadrados generalizados (GLS)
Las variables han de seguir una distribución multmormal. No obstanteo se establecen asunciones menos restnctlvas que para el caso de ML. Propiedades Similares a ML. Con muestras pequeñas. los estimadores presentan un sesgo haCia O. Proceso de estimación más rápido al emplearse como matriz de ponderación (W) la matriz de vananzas-covananzas muestral (S).
Mímmos cuadrados no ponderados (ULS)
No se reqUIere que las vanables sigan una distribución multinormal. Se obtienen estimadores poco eficlentes. La función ULS varía ante cambios de escala.
Mímmos cuadrados ponderados (WLS) o función asmtótlcamente libre de distribución
No se reqmere que las vanables sigan una distribución multlnormal. Se obtienen estimadores efiCientes y consistentes. A mayor número de vanables se complica el proceso. Se reqUIere un tamaño muestral lo suficientemente amplio como para que la función WLS converja hacia una solución óptima.
(ADF)
por O apareciendo el mensaje de error. El mensaje de que no se puede mvertlr la matriz W sólo aparecerá en los métodos de estimación GLS, ML y WLS, pero no en ULS, ya que la matrIz de ponderación W que emplea es la matrIz identidad que sIempre es definida posItIva. Algunas de las razones más comunes que dan lugar a que una matnz sea definida no positIva y sus posibles soluciones son:
1.
© Ediciones Pirámide
DependencIa lineal entre variables. Esta dependencIa se observa a través de la matrIz de correlaciones o llevando a cabo algún test de multlcolinealidad. Existen varias soluciones alternatIvas a este problema. Una, si la dependen-
511
Técr¡icas de análisis de datos en investigación de mercados ~
,
2.
3.
4.
5.
6.
512
Cla entre dos vanables es perfecta, elimmar una de ellas y sImplemente estaremos elimmando mformaclón redundante. Otra posible solución es emplear componentes pnnclpales para reemplazar las vanables colineales con uno o más de esos componentes ortogonales. Error de lectura de datos. Algunos de los programas de análisIs de ecuacíones estructurales todavía siguen utilizando el formato libre de entrada de datos (código ASCII) que suele dar lugar a problemas de lectura relacionados con los espacíos en blanco o retum introducidos por error. Una solucíón es probar a leer los datos de entrada con otros programas que no presenten este mconvemente y comprobar que la matnz generada de esta forma comclde con la analizada por el software de análiSIS de ecuaciones estructurales. Existen programas, como, por ejemplo, STATISTICA, SPSS, etc., que penmten la entrada de datos a través de una matrIz con celdas en forma de filas y columnas (sImilar a una hOja de cálculo) y que evItan este mconvemente. Valores miclales. La matnz ImplícIta del modelo L se calcula a partir de los parámetros estImados del modelo, el programa establece unos valores mIcIales de esos parámetros para empezar a iterar. Si el modelo especificado es poco habItual o raro, los valores imclales rutmanos que son mcorporados en la mayoría de programas informáticos pueden ser madecuados y dar lugar a que la matnz L sea definida no positIva. Una solución es proporcIonar al programa valores micíales alternatIvos para los parámetros. Fluctuaciones muestrales. Cuando el tamaño muestral es pequeño, una matriz de vananzas-covananzas o correlacIones puede no ser definida pOSItIVa debIdo a una mera fluctuacIón muestra!. Así, las matnces de parámetros theta-delta, theta-épsilon, pSI y phI pueden no ser defimdas positIvas por esta razón. En este caso, el programa proporcIOnará SolucIones o estImacíones ImpropIaS, como, por ejemplo, varianzas del error negatIvas. Gerbmg y Anderson (1987) sugIeren que tales estImacIOnes sean fijadas a O y se vuelva a realizar el proceso de estimación, resolviéndose así el problema. Valores perdidos (mlssmg data). Si se presentan con frecuencIa cabe la posibilidad de que la matnz de correlacIOnes o de vananzas-covaranzas sea definida no posItiva. El problema se agrava o resuelve en función al sistema de tratamiento de los mlssing data que escojamos. Con la opCIón pairwlse (para cada par de varIables el cómputo se realizará sobre todos los casos con observaCIOnes reales sobre ambas varIables) este problema surgirá con mayor frecuencIa, ya que cada elemento de la matrIZ es computado de un diferente subconjunto de casos; mientras que en la opción listswise (el cómputo de los datos se realiza sólo sobre casos con observacIOnes reales sobre todas las vanables) se reduce tal posibilidad. Varianzas del error nulas. Cuando se miden constructos con un único mdicador, es práctIca común suponer que dicho constructo es medido sm error, defimendo la varianza del error a O. Esto Implica especificar algún elemen© Ediciones Pirámide
Análisis de ecuaciones estructurales
to de la diagonal de la matriz theta-delta o theta-épsilon a O, lo que conducIrá a que tales matrices sean definidas no posItivas. En este caso se producirá un error de admlssibility check que producIrá una termmación prematura del proceso de estimación iterativo. Este problema es de fácil solución desactivando el chequeo rutinano que hace el programa; por ejemplo, en LISREL se solUCIOna añadiendo AD = OFF en el comando OUtput, o la línea Admissibility Check = Off en caso de que empleemos el lenguaje sImple comando de LISREL VIII.
2.4.
Evaluación e interpretación del modelo
Evaluación de la bondad de ajuste del modelo Una vez que el modelo ha sido identificado y estImado, el SIguiente paso consIstirá en evaluar lo bien que nuestros datos se han ajustado al modelo propuesto. Esta evaluación debe realizarse a tres mveles: evaluación del ajuste del modelo global, evaluación del ajuste del modelo de medida y evaluación del ajuste del modelo estructural. a)
Ajuste global del modelo
EXIstIrá un ajuste perfecto cuando haya una correspondencia perfecta entre la matnz reproducida por el modelo y la matrIz de observaCIOnes. La evaluación del ajuste de un modelo de ecuacIOnes estructurales no es algo sencillo y úmco, habiéndose desarrollado multitud de medidas que en conjunto nos penmten analizar su bondad y adecuación. Se distmguen tres tIpos de medidas de ajuste glObal: medidas absolutas de ajuste, medidas mcrementales de ajuste y medidas de ajuste de parslmoma. 1.
Medidas absolutas de ajuste
Detenmnan el grado en que el modelo globalmente (modelo de medida y modelo estructural) predice la matrIz de datos imclal. Las pnnclpales medidas absolutas de ajuste empleadas s son las SIguientes: -
EstadístIco ji-cuadrado
Es una de las medidas de bondad de ajuste más comunes y utilizadas. Se trata de un test estadístico (basado en la distribución X2 ) que mide la distancia eXIstente entre la matrIz de datos Imclal y la matnz estimada por el modelo. 5 Nos vamos a centrar prinCIpalmente en las medidas de bondad de ajuste proporclOnadas por el programa LISREL VIII, por ser el que emplearemos en nuestros casos práctIcos. además de ser uno de los programas más famosos y utilizados para el análisis de ecuaClOnes estructurales. No obstante, se introdUCIrán atgunas medidas que. aunque no proporcIOne directamente eí LlSREL VIII, son calculadas a partIr de sus indicadores. © Ediciones Pirámide
513
"
Técnicas de análisis de datos en investigación de mercados Si se cumplen todas las asunCIOnes necesanas para poder aplicar el test (distnbución muestral multínormal) y el tamaño muestral es lo suficientemente amplio, el test funcíonaría de la SIgUiente forma:
La hIpótesIs nula es que la matnz de observacIOnes (S) y la matrIz estImada (L) son Iguales, mIentras que la hIpótesIS alternatIva es que son diferentes. Así, valores altos del estadístíco X2 nos llevarían a rechazar la hIpótesIs nula y valores baJos a no rechazarla. Con este test se persIgue que no eXIstan diferencIas significatIvas entre ambas matnces, por lo que para no rechazar la hIpótesIs nula el mvel de sIgnificacíón debe ser supenor a 0,05 o 0,01 dependiendo de la eXIgencIa que hayamos propuesto al test. Un Importante Inconvemente, comentado con antenoridad, es que para muestras suficIentemente amplias (más de 400) se Incrementa la probabilidad de rechazar el modelo aunque las diferencIas entre las matnces sea mímmas y, por otra parte, cuando el tamaño muestral es pequeño (menos de 100) el test mostrará un ajuste aceptable, aunque en realidad existan Importantes diferencIas entre dichas matnces. Por esto, una forma más razonable y adecuada de usar el estadístIco X2 es al comparar modelos anidados (nested models), que son aquellos que tIenen las mISmas vanables latentes pero diferente número o tIpOS de relaciones causales. Así, se construye un estadístíco X2 cuyo valor sea la diferencía entre los valores X2 de los dos modelos anidados, y cuyos grados de libertad sean la diferencía en los grados de libertad de ambos modelos, de tal forma que SI este estadístIco diferencIal es SIgnificatívo Indicará que la reduccíón en el valor de la X2 alcanzado en uno de los modelos Implica una mejora Importante. -
Noncentrality Parameter (NCP)6
El NCP es Igual al estadístIco X2 corregido por los grados de libertad; estando de esta forma menos afectado por el tamaño muestral: NCP
= x2-df
El número de grados de libertad (dfJ para un modelo propuesto se calcula de la sigUiente forma: l df = -[(k+t)(k+t+l)]- p 2 6
514
Las siglas de ias diferentes medidas de ajuste que e~ponemos correspond.en a la notación LISREL. © EdicIones Pirámide
Análisis de ecuaciones estructurales donde k: Número de mdicadores exógenos. t: Número de mdicadores endógenos. p: Número de parámetros estimados en el modelo.
Por supuesto. al Igual que para la ji-cuadrado, se consideran aceptables valores lo más próximo posible a O. -
Scaled Noncentrality Parameter (SNCP)
El NCP, a pesar de estar corregido por los grados de libertad, todavía se ve mfluenclado por el tamaño muestral; de ahí que surja un parámetro de no centralidad ponderado por el tamaño de la muestra: 2
SNCP = X -df n
Este índice es relativamente menos sensible al tamaño muestral que otros tales como el OFf y que el AOFI, por lo que puede resultar extremadamente útil para evaluar modelos con grandes tamaños muestrales. El pnnclpal inconveniente que presenta el SNCP es que su rango de vanabilidad va de Oa mfimto, lo que dificulta mucho su valoración e mterpretacíón, y de ahí que hayan surgido transfonnaciones del mismo con rangos de O a 1 más fáciles de mterpretar. Así, podemos destacar la transfonnación de McDonald (MDN) que viene dada por la siguiente expresión: MDN = e-O,50SNCP
A medida que este índice se aproxime más a la unidad, el ajuste del modelo será mejor. En la mvestigación práctica se ha considerado como aceptable el límite de 0.90 para el MDN. -
Goodness of Fit Index (GFI)
El OFf (Joreskog y Sorbom, 1986) es un índice de la vanabilidad explicada por el modelo, oscilando sus valores entre O (pobre ajuste) y 1 (perfecto ajuste). Es más independiente del tamaño de la muestra y menos sensible que la X2 a las desviacIOnes de la nonnalidad. Es análogo en mterpretacíón al R 2 en la regresión múltiple y no eXiste ningún límite a partir del cual podamos afinnar que el ajuste es bueno, si bien valores superiores a 0.90 y a 0,95 indicarían un ajuste aceptable. En el procedimiento de ajuste ML, el OFf viene definido por la siguiente expresión:
donde 1 es la matriz identidad. © EdicIOnes Pirámide
515
Técnicas de análisis de datos en investigación de mercados
El GFI está afectado por el tamaño de la muestra y por el número de mdicadores, por lo que a veces puede resultar equívoco un determmado valor de este mdicador. Para solventar este inconvemente, puede usarse el RGFI (Relatzve Goodness of Fit Index) que viene dado por el cociente entre el GFI estimado por el modelo y el GFI esperado en función del tamaño muestral y del número de mdicadores que posea el modelo (EGFI) (Sharma, 1996, 158-159): EGFl =
1 1 + [2df/(k + t)n]
El EGFI desciende a medida que mcrementa el número de indicadores y aumenta con el tamaño muestral: RGFl= GFl EGFl
Así pues, podemos evaluar la bondad del ajuste del modelo a través del RGFl, obtemendo de esta forma una medida relativa de bondad, que tiene en cuenta el tamaño muestral y el número de indicadores, considerándose en la práctica adecuados aquellos modelos que tengan un RGFl supenor a 0,90. -
Root Mean Square Residual (RMSR)
Consiste en la raíz cuadrada de la media de los residuos al cuadrado, es decir, un promedio de los residuos entre la matriz de observacIOnes inicial y la matriz estimada por el modelo. En la medida en que el RMSR se acerque a 0, los errores entre ambas matrices serán muy pequeños, lo que significará que el ajuste es bueno. Tampoco en este caso eXiste un límite a partir del cual podamos afirmar SI el modelo es adecuado o no, y de ahí que sea más útil usarlo comparando diferentes modelos. Por otro lado, el RMSR conviene utilizarlo con matnces de correlacIOnes, al tener todas la misma escala de medida y servir como referente de la magllltud de los errores, lo cual no ocurre con las matrices de vananzas-covarlanzas. El RMSR viene dado por la expresión:
Root Mean Square Error of Approxlmatlon (RMSEA) El RMSEA fue una medida de ajuste mtroducida por Steiger (1990) para mtentar elimmar el mconvemente que presentaba la X2 cuando la muestra era lo suficientemente grande. Es parecida al RMSR, pero aquí la discrepancia entre ambas
516
© EdicIones Pirámide
Análisis de ecuaciones estructurales matnces está medida en térmmos de la población y no en térrmnos de la muestra. Así pues, describe la diferencia de las matnces por grado de libertad, es decIr, la bondad de ajuste que debería ser esperada SI el modelo fuera estImado en la población y no en la muestra:
RMSEA
=[
}]-1I2
MáX {X2 - (df / N -1), O df
Valores del RMSEA inferiores a 0,05, e mcluso a 0,08, son mdicativos de un buen ajuste del modelo en la población. Además de la estImación puntual que el programa LISREL VIII realiza del RMSEA, también proporciona una estImación por intervalo al 90% y un test estadístIco de RMSEA < 0,05, que resultan muy útiles para el proceso de evaluación. -
Expected Cross-ValidatIon Index (ECVI)
El ECVI (Browne y Cudeck, 1989) es una medida de la discrepancIa entre la matnz de covananzas estImada en la muestra y la matnz de covananzas esperada que debería ser obtenida en otra muestra del mismo tamaño. Este índice se calcula de la sIguIente forma: 2
ECVI =
-Z- -¡- 2 ~ n-l
n-l
Es especialmente útil dentro de una estrategIa de modelos competItIvos. El meJor modelo será aquel que proporcIOne un valor más pequeño para el ECVI. 2.
Medidas incrementales de ajuste
Este tIpO de medidas van a comparar el modelo propuesto con un modelo nulo o básico que se toma de referencIa y que, tradicionalmente, suele ser aquel que estIpula una falta absoluta de asociación entre las vanables del modelo; se trata, por tanto, de comparar nuestro modelo con el peor modelo posible. Dentro de estos índices mcrementales podemos destacar los siguientes: -
Adjusted Goodness of Fit Index (AGFI)
El AGFI (Joreskog y Sorbom, 1986) es otra de las medidas tradiCIOnales que Junto con la X2 , el GFI, el RMSR y el RMSEA, se han utilizado para evaluar la bondad de ajuste en modelos de ecuacIOnes estructurales. No es más que el GFI aJustado por los grados de libertad del modelo propuesto y del modelo nulo, y tIene la mIsma interpretación que el Adjusted R 2 en regresión múltiple. Aunque tampoco eXIsten límItes exactos a partIr de los cuales poder afirmar la idoneidad de un mo© EdicIOnes Pirámide
517
"
Técnicas de análisis de datos en investigación de mercados delo, en la expenencJa práctIca se considera que valores superiores a 0,90 son indicativos de un buen ajuste del modelo a los datos: AGFI
= 1- [(k + t)(k + t + 1)]0_ GFI) 2df
Al Igual que el GFI, este índice está afectado por el tamaño muestral y por el número de mdicadores, por lo que será más adecuado obtener el valor relativo del AGFI (RAGFl). De Igual forma que para el caso del GFI, habrá que calcular el valor esperado del AGFI (EAGFl), que se obtendrá sustituyendo en la antenor fórmula el GFI por el EGFI. Seguidamente, el RAGFI se calculará dividiendo el AGFI entre el EAGFl. Este valor nos proporcIOnará una base más adecuada para valorar la bondad del ajuste del modelo, elimmando de esta forma el efecto del tamaño muestral y del número de indicadores. El valor límite para la aceptación del modelo suele establecerse en 0,80, SI bIen ha de tenerse en cuenta que estos límites son arbItranos y que deben servir sólo como onentación, ya que lo adecuado es que sean utilizados comparando determmados modelos alternativos ajustados a un mIsmo conjunto de datos. -
Normed Fit Index (NFI)
El NFI (Bentler y Bonett, 1980) es otra medida mcremental de ajuste que compara el modelo propuesto y el nulo. En realidad mIde la reducción proporcIOnal en la función de ajuste cuando pasamos del modelo nulo al propuesto. El rango de vanación de este índice también está entre O y 1, siendo recomendable valores supenares a 0,90:
NFI =
(X~odelo nulo -
Xtodelo propuesto)
2 XModelo
oulO
Presenta algunos inconvementes: primero, al no tener en cuenta los grados de libertad, el valor de la ji-cuadrado del modelo propuesto se reduce añadiendo más parámetros, con lo que el índice aumenta no por el hecho de un buen ajuste a los datos, smo porque se dismmuye el número de grados de libertad; segundo, el valor del NFI varía en función del tamaño muestral, es decir, es más grande a medida que la muestra aumenta. Estos inconvementes hacen que sea inapropIado para comparar modelos alternativos con diferente número de parámetros y de tamaño muestra!. -
Nonnormed Fit Index (NNFI)
Este índice, también denommado Tucker-Lewis Index (TLl) (Tucker y Lewis, 1973), compara el ajuste por grado de libertad del modelo propuesto y nulo. Viene
518
© EdiclOnes Pirámide
Análisis de ecuaciones estructurales a resolver los mconvenientes que presentaba el NFI, ya que por una parte. al considerar los grados de libertad de los modelos, se elimina el problema del sobreajuste como consecuencIa del número de parámetros y, por otra, estudios de sImulación han hallado que este índice está muy débilmente relacionado con el tamaño muestra!. El NNFI hende a I para modelos con muy buen ajuste, considerándose aceptables valores superiores a 0.90: NNFI
= (X~odelo nulo / dfMOd;IO nulO) - (X~odelo pcopuesto / dfModelo pcopuesto) (X Modelo nulo / dfModelo nUlO) - 1
-
Incremental Fit Index (IFI)
Otro índice que elimina en parte los mconvementes del NFI es el IFI, propuesto por Bollen (1988): ¡FI
2
2
= XModelo nulo - XModelo propuesto X~odelo nulo - diModelo propuesto
En igualdad de condicIOnes. el IFI es mayor para muestras pequeñas que para muestras grandes. lo que contrarresta la tendenCIa al alza del NFI para muestras grandes. La mtroducción en el denormnador de los grados de libertad del modelo propuesto implica que si tenemos dos modelos con los mIsmos valores para la X2 del modelo nulo y propuesto. el que tenga menos parámetros presentará un valor más alto para el IFI, SIendo, por tanto. el más adecuado. Se consideran aceptables valores próximos a la unidad, SI bien su valor puede ser mayor que 1 en deterrmnadas ocasIones. -
Relahve Fit Index (RFI)
El RFI fue también introducido por Bollen (1986), siendo muy SImilar al NNFI con la úmca diferenCIa de que en el denommador no se le resta la unidad al cocIente entre la X2 y los grados de libertad para el modelo nulo: RFI =
(X~odelo nulo / dfModelo nUlo) - (X~odelo propuesto/ dfModelo propuesto) (X ~odelo nulo / diModelo nUlO)
De esta forma. se premia a los modelos con más parslmoma o más SImples, SI bIen también depende del tamaño muestra!. Este índice proporcIOna valores próximos a la unidad a medida que el modelo va alcanzando un buen ajuste. © EdiCIOnes Piramide
519
"
T Técnicas de análisis de datos en Investigación de mercados -
Comparatíve Fit Index (CFI)
Introducido por Bentler (1990), llldica un buen ajuste del modelo para valores próximos a 1.
Máx
[('X~odelo propuesto -
dfModelo propuesto),
O]
eFl = 1- ----,-,-----------"-'-------;------'.---'.--"------"------;---,Máx [(X~odelo nulo - dfModelo nulo ), (X ~odelo propuesto - diModeto propuesto ), O]
3.
Medidas de ajuste de parsimonia
La parsimoma de un modelo es el grado en que alcanza ajuste para cada coeficiente o parámetro eshmado, de tal forma que estas medidas relaciOnan la bondad del modelo con el número de coeficientes eshmados requeridos para alcanzar ese mvel de ajuste. En definitiva, lo que se pretende es obtener una medida del nivel de ajuste por coeficiente estimado, evitando el sobreaJuste del modelo con coeficientes lllnecesanos. Al igual que la mayoría de índices que estamos tratando, no se dispone de mngún test estadístiCO asociado a ellos, por lo que su uso es más adecuado comparando modelos alternahvos. Dentro de estas medidas podemos destacar las SigUlentes: -
Parsimonious Nonned Fit Index (PNFI)
Introducido por James, Mulaik y Brett (1982, 155), es similar al NFl, pero teniendo en cuenta el número de grados de libertad usados para alcanzar el mvel de ajuste. Como el mvel de parsimoma ideal sería 1 grado de libertad por coeficiente estimado, lo que nos lllteresa es consegUlr altos valores de parsimoma, es deCir, altos valores de este índice. Cuando se comparan modelos alternatiVos, diferenCias en sus valores del PNFI entre 0,06 y 0,09 resultan importantes: PNFl
= (dfModelo propuesto ). . NFl dfModelo nulo
Parslmomous Goodness of Fit Index (PGFI) El PGFl (Mnlaik et al., 1989) conSiste en el ajuste del GFl de manera similar al AGFI, pero basado en la parSimonia del modelo eshmado. De nuevo son preferibles valores altos de este índice: PGFI = (k
520
dfModelo propue"o . GFI + t)(k + t + 1)/2 © EdicIOnes Pirámide
Análisis de ecuaciones estructurales -
Normed Chi-Square
Esta medida, propuesta en 1969 por Joreskog, consIste en el valor del estadístico ji-cuadrado dividido por los grados de libertad. Presenta el mIsmo mconvemente comentado antenormente para ji-cuadrado, el ser muy sensible al tamaño muestral, pero, sm embargo, al considerar los grados de libertad nos va a permItIr evaluar aquellos modelos sobreajustados (valores mfenores a la unidad) y aquellos que no presentan un ajuste suficIente a los datos (valores supenores a 2, 3 o incluso 5).
-
Akaike lnformation Critenon (AlC)
El AlC (Akaike, 1974) sIrve para comparar modelos que poseen diferente número de variables latentes. Cuando se obtienen valores pequeños de la X2 con pocos parámetros, esta medida será muy pequeña (alrededor de O) mdicando una alta parslmoma: 2
AlC = X + 2p
Una transformación del AlC fue propuesta por Bozdogan (1987), temendo prácticamente las mismas Implicaciones: 2
CAlC = X + [1 + In (N)]p
sIendo N el tamaño muestral.
-
CntIca! N (CN)
El CN (Hoetler, 1983) sugIere el tamaño que una muestra debe alcanzar en orden a aceptar el ajuste de un modelo dado sobre una base estadística. El autor recomIenda valores de al menos 200 para este índice, ya que el valor de 200 es un razonable punto de ImclO suginendo que las diferencias entre la matnz de covananzas de la población y la matriz de covananzas observada son tnviales: CN
=
2 XP"centil (1-a) 2 XModelo propuesto
+1
Una vez analizadas con cIerto detalle las princIpales medidas eXIstentes para evaluar la bondad global de un modelo de ecuacIOnes estructurales, la tabla 12.2 resume todas esas medidas así como sus mveles de aceptación recomendados. © Ediciones Pirámide
521
"
Técnzcas de análisis de datos en investigación de mercados
TABLA 12.2 Resumen de las medidas de bondad de ajuste ';··:;:':'ji ·JiX" :'::;}':," ......
Niveles de aceptacion recoméndados .." .. ' ,', ,',', /i .
Medidas de bondad' de ajuste
'.
..
Medidas absolutas de ajuste
Estadístico ji-cuadrado Noncentrality Pararneter (NCP) Scaled Noncentrality Parameter (SNCP)
McDonald (MDN) Goodness of Fit Index (GFl) RelalIve Goodness of Fi! Index
Comprobar la sIgnificación del test. Especialmente útil comparando modelos alternalivos. Se escogerá el modelo con menor NCP. EspeCIalmente útil comparando modelos alternativos. Se escogerá el modelo cuyo SNCP se aproxIme más a O. Valores superiores a 0,90. Valores supenores a 0,90. Valores supenores a 0,90.
(RGFl)
Root Mean Square Residual (RMSR)
Root Mean Square Error of ApproximatlOn (RMSEA) Expected Cross-ValidatlOn Index (ECVl)
EspeCIalmente útil comparando modelos alternalivos. Se escogerá el modelo cuyo RMSR se aproxime más a O. Valores infenores a 0,08. EspecIalmente útil comparando modelos alternatIvos. Se escogerá el modelo con el menor valor del ECV1.
Medidas Incrementales de ajuste
Adjusted Goodness of Fit Index
Valores supenores a 0,90.
(AGFl)
RelalIve Adjusted Goodness of Fit Index (~GFl) Norrned Fi! Index (NFl) Nonnorrned Fit Index (NNFl) Incremental Fit Index (lFl) Relalive Fi! Index (RFl) Comparalive Fit Index (CFl)
Valores supenores a 0,90, Valores Valores Valores Valores Valores
superiores a 0,90. supenores a 0,90. próxImos a 1. próxImos a l. próxImos a 1.
Medidas de ajuste de parsImonia
ParslmonlOus Norrned Fi! Index (PNFl)
ParslmoDlous Goodness of Fi! Index (PGFl) Norrned Chl-Square Akaike InformatlOn Cntenon (AlC)
Transformación de Bozdogan (CAlC)
Crilical N (CN)
522
EspecIalmente útil comparando modelos alternativos. Diferencias entre modelos en sus valores entre 0,06 y 0,09 resultan Importantes. EspecIalmente útil comparando modelos alternativos. Son preferibles modelos con valores altos de este índice. Valores entre I y 2 o 3, o meluso entre I y 5 sIendo mucho menos exigentes. EspecIalmente útil comparando modelos alternalivos. Se escogerá el modelo con menor valor del Ale. EspeCIalmente útil comparando modelos alternalivos. Se escogerá el modelo con menor valor del Ale. Niveles supenores a 200 (ex = 0,05). © EdiclOoes Pirámide
Análisis de ecuaciones estructurales b)
Ajuste del modelo de medida
Las antenores índices SIrven para evaluar el ajuste global de un modelo de ecuacIOnes estructurales al considerar conjuntamente el modelo de medida y el modelo estructural. Si sólo se analizan dichos índices, puede ocurnr que obtengamos una medida de ajuste global con unos límites aceptables pero con algunos de los parámetros estImados no sIgnificatIvos. Por esto, debemos revisar por separado tanto el ajuste del modelo de medida como el del modelo estructural. En lo que se refiere al primero, el paso ImcIal consiste en examinar la significación estadístIca de cada carga obtenida entre el indicador y la vanable latente. Una carga no SIgnificatIva (valor t mfenor a 1,96 para IX = 0,05 7 si el mvestIgador no ha especificado el SIgno de la relación, test de 2 colas, o valor t infenor a 1,645 SI el investigador ha impuesto un SIgno concreto al parámetro a estImar, test de 1 cola), mdica que ese valor es estadístIcamente Igual a O, lo que supone que el indicador no explica nada de la vanable latente. Ante esto, se debe eliminar o transformar dicho indicador. Una vez comprobada la SIgnificación de las cargas, lo sigUIente es comprobar la fiabilidad de cada uno de los mdicadores así como la fiabilidad compuesta del constructo. La varianza total de un indicador puede ser descompuesta en dos partes: la que tIene en común con la varIable latente a la que mide y la que se debe al error. Por tanto, dicha fiabilidad, proporcionada para cada mdicador por el programa LISREL VIII, será la proporción de varianza que tIene en común con el constructo y equivalente a la comunalidad en el análisis factonal exploratono. Se considera que un indicador debería tener al menos un 50% de su vananza en común con la variable latente, estableciendo así como límite de aceptación para la fiabilidad el valor del 0,50 (Sharma, 1996, 163). Todos los indicadores han de tener una alta consIstencia mtema, es deCIr, han de ser una medida válida del concepto a estudiar. Dicha consistencia mtema va a ser medida a través de la fiabilidad compuesta del constructo, dada por la sigUIente expresión: · b'l'd d Fla 11 a =
(L Cargas estandanzadas)2 (L Cargas estandarizadasi + (L Errores de medida)
El límite que se considera aceptable para esta medida de la fiabilidad compuesta es de 0,70, SI bIen no es un límite rígido, ya que depende del tIpo de estudio que se lleve a cabo. Así, en estudios de carácter exploratono mcluso valores por debajO de dicho límite se consideran adecuados (HaIr et al., 1995, 642). Otra medida que nonnalmente se utiliza para evaluar el ajuste del modelo de medida es la varianza extraída. Nos mdica la cantidad global de varianza en los indicadores explicada por la vanable latente. Si este valor es alto (superior a 0,50), se 7 El mvel de SIgnificación comúnmente utilizado es el 0,05, que para la distribución normal produce un valor de 1,96. No obstante, en función de la justificación teórica propuesta para la relación, así como del tamaño muestra!, cabría considerar otros niveles de SIgnificación 0,01 o 0,025.
© EdiclOnes Pirámide
523
" Técnicas de análisis de datos en Investigación de mercados
considera que los mdicadores miden adecuadamente dicha vanable latente. Se trata de una medida complementana a la de la fiabilidad compuesta y su cálculo viene dado por la expresión sIguiente: 'd V ananza extra¡ a
c)
2
L Ca.rgas estandarizadas = -------.::.=-:===--=~;::.:====----- 2 L Cargas estandanzadas
+ L Errores de medida
Ajuste del modelo estructural
Al Igual que se ha examinado detenidamente el modelo de medida, también hay que prestar especIal atención al modelo estructural estImado, mdependientemente de que las medidas de ajuste global mdiquen unos valores aceptables. Lo pnmero a analizar en un modelo estructural es la significaCIón alcanzada por los coeficIentes estImados. Así, cualqUIer parámetro estimado debe ser estadístIcamente diferente de cero, o lo que es Igual, si consideramos un nivel de sIgnificación de 0,05, el valor t ha de alcanzar 1,96. Un parámetro no sIgnificatIvo mdicaría que la relaCIón propuesta no tIene ningún efecto sustancIal, por lo que debería ser elillUnada y el modelo reformulado. Para eliminar los parámetros no sIgnificatIvos ha de segUIrse un proceso paso a paso en el que no se deben elimmar de una vez todos esos parámetros, ya que cada vez que se elimma uno de ellos cambIa la estructura del modelo y un parámetro no SIgnificatIvo en un paso puede serlo en otro postenor. El nivel de eXIgencia más elevado consIstirá en no aceptar el modelo estructural como válido salvo que todos los parámetros sean sIgnificativos y en el sentido esperado. Otra alternatIva adiCIOnal para evaluar el modelo estructural es revIsar los coeficIentes de fiabilidad de las ecuacIOnes estructurales (R 2 ) y la matnz de correlaCIOnes estandanzadas entre las vanables latentes (para el caso en el que hayamos usado como matnz mlclal la matnz de varlanzas-covananzas). El programa LISREL VIII proporciona un coefiCIente, SImilar al coefiCIente de determinaCIón en la regresión, que muestra una medida relatIva de la bondad del ajuste de dicha ecuación estructural. Cuanto más se acerque a la umdad, mejor representada estará la relación estructural propuesta. Es de gran utilidad revisar las correlaCIOnes existentes entre las vanables latentes, puesto que SI son muy elevadas (más de 0,90 o incluso 0,80) sIgnifica que tales vanabIes están explicando mformación redundante y que no representan constructos diferentes. En suma, habrá que volver a especificar el modelo, elimmando alguna de esas varIables redundantes.
Interpretación y modificación del modelo La mterpretación del modelo se hará con arreglo al armazón teónco en el que se ha basado su especificación y a los diversos coefiCIentes o parámetros estImados, analizando si se corresponden en magmtud y en sentido (pOSitIVO o negatIvo) con las propuestas planteadas por la teoría. La magmtud de los coefiCIentes no está solamente determmada por su significación estadística puesto que depende además de
524
© EdicIOnes Pirámide
Análisis de ecuaCIones estructurales
otros factores como el tamaño muestral y la varIanza de las variables dependientes e mdependientes 8 Igualmente es necesano decidir SI se usan los coeficIentes estandanzados o sm estandanzar al proceder a la mterpretación del modelo. Cuando se utiliza la matnz de vananzas-covananzas los coeficIentes que se obtienen dependen de la escala de medida que tengan los mdicadores, lo cual complica bastante el proceso de comparación así como la mterpretación del modelo. Este problema ha llevado a buscar algún procedimIento para transformar dichos coeficientes. El más adecuado es estandanzar los coeficientes obtenidos para ponerlos en una escala -1 + 1, multiplicando cada uno de ellos por la razón entre la desvIación típIca de la variable mdependiente y la desvIación típica de la vanable dependiente. Otro procedimIento cada vez más extendido, pero no por ello del todo correcto, es emplear la matnz de correlaClOnes para estimar los coeficIentes del modelo de forma que así se elimma el problema de escala y se facilita la comparación y la interpretación del modelo. No obstante. el uso de la matriz de correlaciones presenta una sene de mconvementes ya comentados con antenoridad y que advertía sobre su utilización. La mejor opción será emplear la matriz de vananzas-covananzas para la estlmación del modelo y, postenormente, calcular los coeficIentes estandarIzados. Con frecuencia el proceso de evaluación del modelo desemboca en la modificación del mIsmo, para lo cual el programa proporclOna ayuda a través de una sene de mdicadores. Ahora bIen. se mSIste en que nunca se deben hacer modificaclOnes de un modelo sm que tengan una explicación sufiCIentemente basada en la teoría. Esta ayuda se concreta en dos opciones: 1.
2.
Análisis de los residuos estandarzzados de la matnz de correlaciones o varianzas-covananzas predicha, que muestra la diferencia eXIstente entre la matnz de observaClOnes y la matnz estimada por el modelo propuesto. Lo Ideal es que dichos residuos estandanzados sean SIgnificativamente Igual a O. lo que mdicaría una reproducción exacta de la matnz considerada como mput. Tomando como mvel de significación el 0.01, aquellos residuos estandarizados con valores superiores a ±2,58 (test de dos colas) indicarán una diferenCIa significativa entre los datos observados y los estimados. Este procedimIento resulta útil para evaluar lo bIen que un modelo se ajusta a los datos observados, dado que se establece como regla general que no más del 5% de dichos residuos sean SIgnificativos. Para muestras grandes mcluso pequeños residuos resultarán SIgnificativos, por lo que la anterior regla del 5% habrá de aplicarse con mucha cautela. Los índices de modificación. Para cada relación no estimada (parámetro fijo), entre las diferentes variables que intervienen en un modelo, se obtlenen estos índices que muestran la reducción aproXImada que se producIría
8 Cuanto mayor es la magnitud de la relación y el tamaño muestral y cuanto menor es la varIanza de las vanables dependientes e mdependientes, mayor es la probabilidad de obtener una relación estadístlcamente SIgnificatIva.
© EdiCIOnes Pirámide
525
" Técnicas de análisis de datos en investigación de mercados
en el estadístIco ji-cuadrado SI tal relación fuera efectIvamente estímada. La modificación cambIará toda la estructura del modelo debido a la posible vanación de los parámetros libres. Para una sItuación dada los índices de modificación muestran los parámetros a modificar, pero SI se lleva a cabo tal cambIO el modelo se reestIma y los valores de otros parámetros pueden cambIar. Como Inconvemente, esta reformulación es posible que sea forzada y no obedezca a planteamIentos teóricos. La forma de operar consistIría en buscar el índice de modificaCIón más alto de todos los parámetros fijos. Si su valor es supenor a 7,882 9 se dejará libre y se estImará el modelo resultante. La dismInución en la ji-cuadrado para este nuevo modelo, en comparación con el anterior, sería como mímmo igual al índice de modificación. Este proceso se repetírá hasta encontrar un modelo que se ajuste a los datos adecuadamente. Se han propuesto algunos índices para saber cuántas modificacIOnes deben ser introducidas y cuándo finalizar el proceso: a)
El índice de la proporción de aumento en el ajuste VIene dado por: 2
2
Ll == Xo - Xm
X6
siendo:
X6: El valor de la función de ajuste del modelo ongina!. X~: El valor de la funCIón de ajuste del modelo modificado.
b)
9
Este índice oscilará entre O y 1, proponiéndose el valor de 0,90 como el lírmte para paralizar el proceso de reformulación del modelo (Bisquerra, 1989, 541). El índice de la diferencia de la ji-cuadrado en modelos amdados 1O , determInado por la diferenCIa entre el valor de la ji-cuadrado del modelo onginal y el valor de la ji-cuadrado del modelo modificado. Si este índice que se distribuye como una ji-cuadrado, cuyos grados de libertad serán la diferencia de los grados de libertad de ambos modelos, resulta significatIvo, Indicará que la reducción alcanzada Implica una mejora importante. Este proceso se repetIrá hasta que dicho índice resulte no significatIvo, es deCIr, hasta que la mejora conseguida con la modificaCIón no sea Importante.
El valor de 7,882 es el resultante para la distribución de la ji-cuadrado con un nivel de sIgnifica-
ci6n de 0,005 y 1 grado de libertad. El programa LISREL VIII por defecto s6lo muestra aquellos Índices de modificación mayores a dicho valor de 7,882, si bien se pueden establecer otros niveles de significación, como, por ejemplo, el 0,025, para el cual se tendrían en cuenta los índices de modificación supenores a 5. 10 MOdelos que tienen las mIsmas vanables latentes, pero diferente número o tipos de relaciones causales.
526
© EdiclOues Pirámide
Análisls de ecuaciones estructurales
3.
ESTRATEGIAS DE ANÁLISIS DE MODELOS DE ECUACIONES ESTRUCTURALES En la práctIca eXIsten diversas alternatIvas estratégIcas para llevar a cabo el proceso de desarrollo de este tIpo de modelos. SigUIendo a Jóreskog y Sórbom (1993, 115), distmgUlmos tres estrategIas de análisis cuyo objetIvo es elaborar modelos causales que sean explicacIOnes plausibles de los fenómenos, con el objeto de validarlos o rechazarlos empíncamente.
3.1.
Estrategia de modelización confirmatoria
El mvestIgador especifica un modelo y mediante el análisis de ecuacIOnes estructurales se evalúa su adecuación mediante las diferentes medidas de ajuste: global, de medida y estructural, tal y como se ha mdicado antenonnente. Esto conducIría a aceptar o a rechazar el modelo especificado. Esta fonna de operar presenta el mconvemente de que tan sólo cabe afirmar que el modelo evaluado es uno de los posibles modelos a aceptar, sm perJUIcIO de la existencia de otros con igualo mejor ajuste y que no han sido considerados. Esta estrategia no se presentará con frecuencIa. al menos como exclUSiva. en tanto que dejaría msatisfecho a un mvestIgador nguroso.
3.2.
Estrategia de modelización competitiva
El analista establece a pnon un número alternativo de modelos (competmg modeis) para seleCCIOnar uno. Esta comparación de modelos es la opción deseable al reforzar los argumentos de la elección final. A pesar de todo, tampoco es muy empleada en la práctIca porque no es fácil que el mvestIgador sea capaz de fonnular varios modelos competitivos a pnon. Para su puesta en práctIca se estIma por separado cada uno de los modelos propuestos y, seguidamente. se comparan sobre la base de algún tipo de test o índice de bondad. Por ejemplo, supongamos que hemos planteado tres modelos alternativos con arreglo a una detenrunada teoría que son MI' M 2 Y M 3 • Si son anidados. es posible ordenarlos con relación al número de parámetros que poseen, de tal manera que M, será el más flexible (más parámetros y menos grados de libertad) y M 3 el más restnctivo. Esto implica que M 2 será un caso espeCIal de M, y que a su vez M 3 será un caso especial de M 2 • La comparación entre los modelos se realizará a través de tests de diferencias de X2, tal y como se explicó en el apartado dedicado a la interpretación y modificación del modelo. De este procedimIento saldrá el modelo Mi que será el «mejor» modelo de los tres considerados. Otra alternativa para evaluar competing models es utilizar los índices de ajuste aplicando el enteno de parsimonia (ajuste por grado de libertad). El procediffilento consls© EdiCIOnes Pirámide
527
" Técnicas de análisis de datos en investigación de mercados
te en ordenar los diferentes modelos según algún índice de bondad de ajuste que tenga en cuenta el antenor cnterio, y escoger aquel modelo con indicadores más favorables.
3.3.
Estrategia de desarrollo del modelo
El investigador propone un modelo inICial de forma que SI no se ajusta bIen a los datos se modifica sucesIvamente hasta que se alcance un buen ajuste. Esta estrategIa, que es la más común en la práctica, se Justifica porque en muchos casos la teoría sólo proporciona el punto Imclal para el desarrollo de un modelo que posteriormente será apoyado empíricamente. SigUIendo esta estrategia el analista será precavido a la hora de generalizar los resultados obtenidos a otras muestras o poblaCIOnes, puesto que el modelo se Justifica más sobre una base empírica que teórica. Los pasos a seguir para analizar un modelo de ecuacIOnes estructurales con esta estrategia serán los sigUIentes: l. 2. 3.
Formular un modelo sobre la base de la teoría. Estimar el modelo de medida y el modelo estructural. Evaluar la bondad del ajuste global del modelo, del de medida y del estructural. Si no se lUusta bIen a los datos, apoyándonos en los índices de modificacIón, en la matriz de residuos estandanzados y, por supuesto, en la teoría se modificará hasta llegar a uno en el que todos los parámetros sean sIgnificatIvos y que presente unos indicadores de bondad aceptables.
Esto no garantiza que alcancemos el mejor modelo posible; sImplemente sigmfica que habremos obtenido un modelo que se ajusta bIen a los datos muestrales. Para su generalización lo correcto sería validarlo con muestras independientes. Si no se dispone de datos y la muestra inicIal es lo sufiCIentemente amplia, una alternativa es defimr dos submuestras. una como muestra de validación y otra de control. Otra opción consiste en emplear el Expected Cross- Validation Index (ECVI) , una medida de la distancia entre la matriz estlmada en la muestra de validación y la matriZ de la muestra de control. Si el modelo elegido como el más aceptable tiene el menor ECVI, es de esperar que sea estable en sucesIvas muestras.
4.
UN CASO PARTICULAR DE LOS MODELOS DE ECUACIONES ESTRUCTURALES: EL ANÁLISIS FACTORIAL CONFIRMATORIO La técnica de análisis de ecuacIOnes estructurales que acabamos de presentar es empleada con mucha frecuencia para resolver problemas mucho más simples que para los que ha SIdo diseñada. Gran parte de la metodología y de los procesos explicados con anteriOridad son utilizados con el objeto de evaluar la validez de una serie de ítems como medida de otras variables de interés teÓriCO (variables latentes)
528
© Ediclones Pirámide
Análisis de ecuaciones estructurales
que no pueden ser observadas directamente (por ejemplo, actItudes, opiniones, mtenciones de comportarmento, etc.). Precisamente ésta es la idea que subyace en el análisIs factorial confirmatorio, el cual trata de estImar la relación entre los conceptos a medir y los indicadores utilizados para medirlos; recordemos que todos los indicadores suelen inclUIr errores de medida, y, en consecuenCia, mngún indicador es una medida perfectamente válida del concepto que se trata de medir. Este tipo de análisIs difiere del análisis factonal tradiCIOnal o exploratono. Para comprender mejor tal diferencia veamos un ejemplo. Supóngase que se ha preguntado a unos consumidores sobre 7 cuestiones relacIOnadas con la publicidad, con el fin de conocer sus actitudes ante este mstrumento de comumcación. Tras aplicar la técmca del análisis factorial exploratono, se obtIenen 2 factores que explican un 80% de la vananza total. La estructura factonal representada en la figura 12.7 muestra una sene de aspectos que caractenzan a este tipo de análiSIS:
-
Todos los factores están correlaCIOnados. Todas las variables observadas están directamente afectadas por todos los factores, o lo que es Igual. todos los factores cargan sobre todas las variables. Los errores de medida no están correlaCIOnados entre ellos. Cada vanable observada está afectada por un error de medida.
~2
0'
Figura 12.7.
Modelo factorial exptoratorio.
En el análiSIS factorial exploratorio, el número de factores no está detenmnado antes del análiSIS, por lo que el mvestigador no impone restriccIOnes importantes al modelo. es deCir, no puede controlar las cargas. Esta gran limitación ha motivado © Ediciones Pirámide
529
" Técnicas de análisis de datos en investigación de mercados que muchos autores califiquen a estos modelos exploratorios por su operatoria como «basura dentrolbasura fuera» (Long, 1991, 12). El análisIs factonal confinnatorio supone modificaciones Importantes con respecto al anterior, de tal forma que impone una sene de restricciones de partida suficientemente apoyadas en la teoría, estableciendo a prion qué vanab1es observadas están afectadas por qué factores, qué vanables tlenen errores de medida, qué errores de medida están correlacionados, qué factores están correlacionados e, mcluso, qué valor tlene una carga apoyándonos en conocimientos previoS. Para nuestro ejemplo, el analista diseñaría un modelo (figura 12.8) en el cual la actltud de un individuo ante la publicidad no es unidimensional, siendo más adecuado medirla a través de dos dimensiones: la cognitiva (~l) y la afectlva (~2)' A diferencia del anterior, no todas las dimensiones cargan sobre todas las vanab1es, sino que tan sólo son las vanab1es Xl a X4 las que miden el componente cognitivo y las variables X4 a X7 las que miden el afectivo. Por otra parte, se considera que la vanab1e X6 está libre de error, que la vanable X4 es adecuada para medir ambas dimensiones y que los errores de medida de las vanab1es X3 y X4 están correlacionados. Además, en este ejemplo el mvestigador pensaría que ambas dimenslOnes de la actltud están correlacionadas, por 10 que dejaría el parámetro libre, SI bien dentro del análiSIS factona1 confinnatono cabe la posibilidad de fijar dichas correlaciones a O. En realidad, el modelo factona1 confinnatono no es más que un modelo de medida donde se relacionan vanab1es observadas o mdicadores con vanables latentes a las que miden, y todo ello con el adecuado fundamento teónco. El análiSIS factonal confinnatono es, por tanto, un caso particular y reducido del análiSIS de ecuaCiones estructurales. El procedimiento a segUir será e1lDlsmo que hemos desarrollado ante-
Xl
Figura 12.8.
530
MOdelo factonal confinnatono. © EdiCIOnes Pirámide
Análisis de ecuaciones estructurales normente en cuatro grandes etapas: especificación, identificación, estimación y evaluación e mterpretación del modelo. Las úmcas diferencias residen en la formulación y evaluación del modelo. Con respecto a la formulación no habrá que especificar las ecuaciones estructurales, al no establecer relacIOnes causales entre las vanables latentes. En relación con la evaluación, sólo habrá que analizar la bondad de ajuste global del modelo a través de los diversos índices ya comentados (índices absolutos, índices mcrementales e índices de parsimonia), así como la significación de las cargas, las fiabilidades de cada indicador, la fiabilidad compuesta y la vananza extraída de cada vanable latente. El verdadero potencial del análisis factonal confirmatono radica en su utilidad para validar las escalas de medida, cuestión clave para la generalización posterior de los resultados. No obstante, probar la validez de una medida es algo muy complejO que-posiblemente nunca alcancemos completamente, a lo sumo se dispondrá de indicadores parciales. Esto está motivado por las diferentes dimensiones existentes de validez: validez de contenido, validez de criteno, validez de concepto o constructo y validez convergente y discrirmnante. En este sentido, son ampliamente utilizados los diseños factonales multicaracterística-multimétodo (Multitrait-Multtmethod), donde múltIples características son evaluadas a través de múltiples métodos, siendo especialmente útiles para probar dos de las dimensiones más Importantes de la validez: la validez convergente y discnrmnante. Un concepto es medible por vanos métodos independientes; si realmente estos métodos miden lo rmsmo, las medidas estarán altamente correlacionadas, dando lugar a la existenCia de validez convergente. Por el contrano, SI las correlaciones entre conceptos que miden fenómenos diferentes son débiles estaremos ante validez discrirmnante. Para una mejor comprensión apoyémonos en un ejemplo. Deseamos medir dos características del consumidor: su actitud ante un determinado anuncIO y su actitud ante una deterrmnada marca. Para ello planteamos dos escalas, una tipo Likert y otra de diferencial semántico. Para evaluar la validez de dichas medidas recurrimos a un análisis multitrait-multtmethod como el representado en la figura 12.9, donde: Xl;
X2 ; X3 ; X4 ; ~l: ~2: ~3; ~4:
Actitud haCia el anuncIO medida mediante una escala tipo Likert. Actitud haCia la marca medida mediante una escala tipo Likert. Actitud hacia el anuncIO medida mediante una escala de diferencial semántico. ActitUd hacia la marca medida mediante una escala de diferencial semántico. Método escala tipo Likert. Método escala diferenCial semántico. Actitud haCia el anuncio. Actitud haCia la marca.
El estudio de los parámetros estimados en dicho modelo determina la validez convergente y discrirmnante de las diferentes medidas (Byrne, 1989, 106). La magnitud de las cargas proporcIOna una idea de la validez convergente y la magmtud de las correlaciones informa sobre la validez discriminante. Para que la medida de ac© Ediciones Pirámide
531
Técnicas de análisis de datos en investigación de mercados tltud hacia el anuncio tenga validez convergente es necesario que las cargas íl13 y ~3 sean. grandes y significativas, lo que mdica que un mismo concepto es medido a través de dos métodos diferentes. Igual ocurre con la actitud hacIa la marca. Por otro lado, SI la correlación entre la actitud hacIa el anuncio y la actitud hacia la marca (0/34) no es muy fuerte (es decIr, no está próxima a la umdad), indicará que sendos conceptos no son una mIsma cosa, demostrándose, pues, la validez discrimmante de ambas medidas. Paralelamente se evalúan las cargas y las correlaCiones de los métodos, con el objetivo de analizar la validez de los dos métodos de medida.
~12
.:LB
Figura 12.9.
5.
Modelo factonal multitrmt-multimelhod.
SOFTWARE PARA EL ANÁLISIS DE ECUACIONES ESTRUCTU RALES El análisis de ecuaCiones estructurales ha alcanzado una gran popularidad en las cIencias socIales, acentuado por la disponibilidad cada vez mayor de numerosos paquetes mformátIcos para la resolución de este tIpo de problemas. Junto a la proliferación de numerosos libros y artículos, han aparecido en el mercado diversos programas informátIcos para el tratamiento de los modelos de ecuaCiones estructurales.
532
© Ediciones Pirámide
Análisis de ecuacIOnes estructurales
Tradicionalmente esta herranuenta se ha considerado un tanto esoténca por su difícil comprensión. Esta Impresión ha ido desvaneciéndose al tIempo que se han desarrollado programas con entornos gráficos de más fácil manejO, posibilitando al mvestIgador con un conocImiento estadístIco medio diseñar, estImar y evaluar modelos causales y testar lupótesis teóricas. A contInuación, presentamos diversos paquetes mformátIcos con diferentes mveles de sofistIcación y operatoria. AMOS (Analysls of Moment Structures) Fue desarrollado por James Arbuckle, estando disponible la verSlOn para Windows. Tiene la VIrtud de que perrmte de forma gráfica e mtmtIva diseñar el modelo y estimarlo. Es distribuido por la empresa SmallWaters CorporatlOn (http: //www.srnallwaters.com) y su págma web mcluye amplia mformación acerca de las características del producto así como una demo limitada que es posible descargar. También ahora la empresa de software estadístIco SPSS (http://www.spss.com). que tradicIOnalmente había estado distribuyendo el conocido LISREL, distribuye el programa AMOS. CALIS (Covanance Analysls and Lmear Structural EquatlOns) Desarrollado por Wolfgang Hartman, se mcluye dentro del paquete estadístIco SAS. Está disponible en DOS, Windows, Macmtosh y UNIX. Es distribuido por SAS Institute Inc. (http://www.sas.com). COSAN Desarrollado por Colin Fraser y Rodenck McDonald, está disponible la versión para DOS. Su distribución la realiza el Departamento de PSIcología de la UniverSIdad de Virgmla (ftp://ftp.virgmia.edu), proporcionando una demo para su descarga. EQS Desarrollado por Peter Bentler, es uno de los más famosos programas existentes para la resolución de modelos de ecuacIOnes estructurales, objeto de numerosos libros y artículos que han tratado de analizarlo. Está disponible para las plataformas Windows, Macmtosh, DOS y UNIX. En la actualidad es distribuido por Multivariate Software (http://www.mvsoft.com). en cuya web mcluye gran cantidad de información así como versIOnes demo del programa. LINCS (LINear Covariance Structures) Disponible para plataformas DOS, Windows y OS/2, y desarrollado por Ron Schoenberg, presenta la peculiaridad de que necesIta el lenguaje de programación GAUSS para poder ser ejecutado. Tanto el programa LINCS como el lenguaje GAUSS son distribuidos por Aptech Systems, Inc. (http://www.aptech.com). © Ediciones Pirámide
533
• Técnicas de análisis de datos en investigación de mercados LISREL (LInear Structural RELations) Desarrollado por Karl Joreskog y Dag Sorbom, es posiblemente el paquete mformático más famoso en este campo, hasta el punto de que LISREL se usa como Slnómmo del análisIs de ecuacIOnes estructurales. El programa ha sido mejorado en numerosas ocaSIOnes, estando disponible en la actualidad la versión 8 para Windows, DOS y Macintosh. Esta última versión ha mejorado la tediosa tarea de programación que tenían las anteriores verSIOnes, emplea un lenguaje de comandos sImples que permIte de forma reducida, fácil e mtUltiva formular, estimar y evaluar cualqUIer modelo y proporcIOna además un diagrama de carmnos (path diagram) que nos ayudará a reespecificar el modelo y a tener una vIsión global del nusmo. También junto con LISREL se proporcIOna el programa PRELIS, que es un preprocesador que hace todo el proceso de desarrollo de los modelos mucho más fácil, especIalmente útil para tratar los missmg data, para obtener diferentes tipos de matrIces de covananzas y correlacIOnes y para analizar la distribución muestral de las vanables. En la actualidad es distribuido por SCJentific Software, rnc. (http://www.sslcentral.com) y, en concreto para Europa, por ProGAMMA (http://www.gamma.rug.nl). MECOSA Desarrollado por Gerhard Armmger, está disponible la versión para la plataforma DOS. Al Igual que LINCS, está basado en el lenguaJe de programación GAUSS. Es distribuido por ADDITlVE GmbH (http://www.additive-net.de). RAMONA Disponible actualmente la versión para Windows y DOS, fue desarrollado por Michael Browne. Está mcluido en el programa estadístico SYSTAT, que desde hace unos años fue adqUIrido y distribuido por SPSS (http://www.spss.com). SEPATH Desarrollado por James Stelger, está incluido dentro del programa estadístico STATlSTlCA. Al Igual que todo el programa, este módulo se caracteriza por un inteiface amIgable para el usuarIO que es altamente mtuitivo y fácil de usar. Emplea el lenguaje Path l que perrrnte la especificación de modelos en un formato muy legible y smnlar a la construcción de un path diagram. La tediosa tarea de mecanografiar los comandos es elinunada mediante el uso del Path Construction Tool, un poderoso editor diseñado especIalmente para crear comandos en el lenguaje Path1. Además, se dispone de un Path Wizards que nos va a gUIar paso a paso mediante el proceso de especificación para los tipos de modelos más comunes. Por último, presenta una ventaja añadida sobre otros programas smnlares y es la adecuada forma de presentación de los resultados mediante ventanas, 10 que va a facilitar el acceso del mvestigador a los resultados de forma rápida y ordenada. SEPATH es distribUIdo por Statsoft, rnc. (http://www.statsoft.com). proporcIOnando en su web gran mformación acerca del programa, así como la posibilidad de descargar una demo.
534
© EdiclOnes Pirámide
Análisis de ecuaciones estructurales
6.
EJEMPLO PRÁCTICO DE ANÁLISIS DE ECUACIONES ESTRUCTU RALES El objetivo perseguido con este ejemplo es manejar los conceptos y procedimientos tratados con antenoridad, de manera que el lector pueda llegar a aplicar e mterpretar esta técmca de análisIs multlvarlante. De todos los paquetes mfonnátlcos que hemos analizado, vamos a emplear para la resolución el programa LISREL VIII para Windows, por varias razones. En primer lugar, por tratarse del programa, qUIzá, más conocido y utilizado y, además, por mantener la nomenclatura y metodología usada en este capítulo. A contmuación vamos a seguir el esquema comentado a lo largo de este capítulo.
1. Especificación del modelo El ejemplo analiza la respuesta del individuo ante un determinado anuncio, tema ampliamente tratado e investigado en la literatura del marketing y del comportamIento del consumidor. Cuando un mdividuo recibe un estímulo a través de un anuncIO publicitario, produce una respuesta como resultado de un procesomterno en el que mtervlenen diversos conceptos teóricos, que no pueden ser medidos directamente (conocinuento, actitudes, mtenclOnes, etc.), sino a través de una serie de vanables observadas (ítems de un cuestionario). EXIsten diversos modelos que tratan de explicar las mterrelaciones que se producen en el procesanuento de la mfonnación. Centrémonos en tres de los modelos más ampliamente tratados por la investigación prelimmar (MacKenzle, Lutz y Belch, 1986):
a)
b)
c)
© EdiCIOnes Pirámide
Modelo de transferencia de afecto (Mi). Este modelo parte de la idea de que la actitud de un individuo ante un determinado anuncIO se va a transfenr hacia la marca. De esta fonna, se establece una relación causal directa de la actitud hacIa el anuncIO (Actan) a la actitud hacia la marca (Actm). Por otra parte, la Actan está deterrnmada por las respuestas cogmtlvas que despierte el anuncio en el mdividuo (Can), y la Actm estará mfluenclada por las respuestas cognitivas que provoque la marca (Cm). Por últImo, será precIsamente la Actm la que va a InflUIr de fonna directa sobre la mtención de compra (lc) del mdividuo hacia la marca. Modelo de mediación dual (M2). Se trata de una alternativa al modelo antenor, que propone la existenCIa de una relación causal indirecta de la Actan hacIa la Actm a través de Cm, además de una relación directa por el proceso de transferencia de afecto. Es decIr, la Actan presenta un efecto directo sobre la Actm y un efecto mdirecto mediante su influencia sobre Cm. Modelo de Influencias independientes (M3). En este caso, no se asume mnguna relación causal entre la Actan y la Actm, considerándose que ambos constructos Influyen a la vez sobre las mtenclOnes de compra del mdividuo.
535
• Técnlcas de análisis de datos en Investigación de mercados
Así pues, se considera que la Actan es explicada por can y que la Actm sólo está mfluenclada por Cm. La estrategia de análisIs que vamos a segUir va a ser una estrategia de modelización competitiva, estableciendo tres modelos a pnon que serán estimados y evaluados, decidiéndonos por aquel que presente un mejor ajuste a los datos. En suma, la especificación de los modelos viene avalada sufiCientemente por la literatura eXistente al respecto. El siguiente paso será construir un diagrama de cammos o path diagram que recoja todas las relaCIOnes causales anterionnente deSCritas. Así, en las figuras 12.10 a 12.12 presentamos los tres modelos causales planteados. Se trata en todos los casos de una sene de modelos que presentan 5 variables latentes y 11 indicadores. MI y M3 tienen dos vanables latentes exógenas (Can y Cm) y tres endógenas (Aetan, Aetm e le), mientras que M2 nene una única variable latente exógena (Can) siendo el resto endógenas. Los 11 mdicadores no son más que preguntas de un cuestIOnario que sirven para medir las variables latentes consideradas. Tanto Can como Cm son medidas mediante un úmco mdicador obtenido a través del sigUiente rano: el
~3
Figura 12.10.
536
Modelo de transferencia de afecto (MI). © Ediciones Pirámide
Análisis de ecuaciones estructurales
Figura 12.11.
Modelo de mediación dnal (M2).
número de pensamIentos POSitIVOS generados por los mdividuos menos el número de pensanuentos negatívos, partído por el total de pensanuentos generados. La Actan y la Actm son medidas a través de una escala de diferencIal semántico de 7 puntos con tres ítems: bueno/a-malo/a, favorable-desfavorable, me gusta-no me gusta. Por últImo, las mtencíones de compra también son medidas mediante una escala de diferenca semántico de 7 puntos: es probable-no es probable, es posible-no es POSIble, es prevIsible-no es prevIsible. Seguidamente, se traduce el path diagram a ecuaCíones estructurales, distmgUlendo tanto el modelo de medida como el modelo estructural. Para no ser muy repetitivos se presentan únicamente las ecuaCíones estructurales para el modelo MI, mvItando al lector a que lo haga para los otros dos modelos alternativos. © Ediciones Pirámide
537
• Técnicas de análisis de datos en Investigación de mercados
Figura 12.12.
MOdelo de influencias Independientes (M3).
Ecuaciones estructurales para el modelo de medida: CAN = íl~ Can + 81 CM = íl~ Cm + 82 ACTAN¡ = ílj Actan + e, ACTAN2 = íl~ Actan + é2 ACTAN3 = íl~ Actan + t3 ACTMI = íl~ Actm + e4 ACTM2 = íl~ Actm + es ACTM3 = íl~ Actm + e6 IC I = íl~ le + e, IC 2 = íl~ le + e8 IC3 = íl~ le + E9 Ecuaciones estructurales para el modelo estructural: Actan = YI Can + SI Actm = 1'2 Cm + /31 Actan + le = /32 Actm + S3
538
S2 © EdiclOnes Pirámide
Análisis de ecuaciones estructurales
2.
Identificación del modelo
La sIgUIente fase será comprobar sí la matriz de entrada permite obtener estímacíones úmcas de los parámetros no conocidos. Como comentamos en su momento, la identificación de un modelo es algo complejo que reqUIere el cumplimIento de una sene de condicIOnes necesanas y suficientes. En pnmer lugar, habrá que comprobar la condición necesana que VIene dada por la sigUIente expresión: p
~l
2
(k
+ t)(k + t + 1)
El número de elementos distmtos de la matriz de vananzas-covarIanzas es de 66, mientras que el número de parámetros a estimar en los distmtos modelos va a ser mferior a esa cantidad 11 Esto qUIere declf que en los tres casos los grados de libertad son mayores que O cumpliéndose tal condición. En cuanto a la condición suficiente de dos pasos, en los tres casos todos los mdicadores se relacIOnan con un único factor, los errores de medición no están correlacIOnados y, a excepción de los factores medidos con un úmco indicador, el resto de factores está medido a través de tres mdicadores. Además, tanto para MI, M2 y M3 los modelos son recursivos, con lo que se cumple la condición suficIente de identificación de dichos modelos.
3. Estimación del modelo Supongamos que para probar los modelos planteados hemos extraído de una detemunada población una muestra aleatoria compuesta por 175 Individuos (EJ-MEE)*, a los cuales se les somete a una prueba experimental consIstente en observar un anuncIO televIsIvo durante un cierto período de tiempo, contestando posteriormente a un cuestionario que nos pemuta medir, a través de una sene de ítems, los conceptos de conocmúento, actitudes e IntencIOnes de compra en los que estábamos Interesados. Llegados a este punto, habrá que decidir cuál va a ser la «matena prima» que vamos a emplear. Como ya comentamos en su momento, el uso de la matriz de vananzas-covananzas 12 permIte testar adecuadamente las relaciones causales propuestas en los distintos modelos, pudiendo generalizar los resultados a otras muestras y situacIOnes. Por este motivo. decidimos trabajar con la matnz de varIanzas-covarianzas, que se muestra en la tabla 12.3. Seguidamente hay que decidir qué función de ajuste se va a emplear para estimar los parámetros del modelo. para lo cual comprobamos prevIamente SI se cumple la asunción de normalidad mu1tlVanante de los datos muestrales. Con este co11 De la observación de los path diagram se deduce que el número inicial de parámetros a estimar es de 3D para MI. 31 para M2 y 3D para M3. No obstante, en la prácllca habrá que fIjar deterrnmados parámetros, con lo que incluso el número final dli parámetros a estimar se reducuá aún más. 12 Los datos de la matrIz utilizada han sido convenientemente manipulados a efectos de facilitar la explicación del ejemplo a partIr de los de la matriz origmal que obtuvo. en una investigación similar
Cho (1995). * Véase fichero en la dirección www.ugr.es/-tluque. © Ediciones Pirámide
539
• Técnicas de análisis de datos en investigación de mercados TABLA 12.3 Matriz de varianzas-eovarianzas de la muestra
CAN ACTAN, ACTAN, ACTAN, CM ACTM, ACTM, ACTM, IC, IC, IC]
0,538 0,786 0,823 0,846 0,076 0,368 0,328 0,350 0,426 0,356 0,361
2,692 2,186 2,432 0,269 1,130 1,011 1,135 0,985 0,694 0,788
2,724 2,491 0,260 1,003 1,034 1,118 0,986 0,818 0,880
3,404 0,256 1,170 1,124 1,302 1,203 1,027 1,068
0,465 0.280 0,271 0,269 0,419 0,249 0,265
2,380 2,019 2,150 1,504 1,129 1,306
2.232 2,214 1,355 1,013 1,206
2,724 1,423 1,058 1,378
3,428 2,285 2,670
3,523 2,311
2,993
metido se cogieron las puntuacIOnes otorgadas por los 175 mdivlduos a las distintas variables de análisIs, y se les aplicó el test de normalidad multivanante disponible en el procesador PRELIS del programa LISREL VIII. Adrntlendo los resultados de la tabla 12.4 para un nivel de significación del 5%, las 11 vanables observadas en conjunto poseen un grado de asimetría similar al de la distribución normal (p = 0,057). Para la curtosis, el test arrOja un valor de p ligeramente mfenor a 0,05, lo que indica que las variables se desvían ligeramente del mvel de CUrtOSIS que posee la distríbución normal. La condición de normalidad reqUIere la evaluacíón conJunta de la aSimetría y de la curtosis, obteniéndose en un valor p = 0,066 mayor al nivel de significación establecido, indicando que en glObal las vanables consideradas en nuestro estudio se distribuyen como una normal multivarlante. De acuerdo con lo antenor, el método de estimación a utilizar para estimar los modelos es el de la máXima verosmulitud (ML), por resultar el más adecuado cuando se cumple la condición antenormente evaluada. Así pues, tras programar adecuadamente el programa LISREL VIII, se procedió a la estimación de los parámetros de los modelos. La escala de las vanables latentes multl-ítem (Aetan, Aetm e le) se determinó fijando una de las cargas a 1 (ACTAN¡, ACTM, e lC" respectivamente), y para los eonstructos medidos a través de un úmco ítem (Can y Cm) asumimos que el error de medida es Igual a O, es decir, que con TABLA 12.4 Test de normalidad multivariante para las variables observadas
1,579
540
0,057
-1,720
0,043
5,450
0,066
© Ediciones Pirámide
AnálisIs de ecuaciones estructurales
ese úmco llldicador medimos perfectamente el concepto que pretendemos (en el anexo se recogen las diferentes sentencias dadas al programa para llevar a cabo el proceso de estImación de los modelos). Los resultados obtenidos se muestran en las tablas 12.5 a 12.11. TABLA 12.5
Modelo de medida exógeno (valores t entre paréntesIs)
r-:
Modelo M1
Can
1 1
CAN
I
Modelo M2
Modelo M3
Can
0,73
CAN
Can
CAN
0,73 (18,65)
(18,65)
0,73 (18,65)
0,68 (18,65)
CM
Cm
0,68 (18.65)
CM
TABLA 12.6
Modelo de medida endógeno (valores t entre paréntesis) "
"
:::-
".ModeloM1
Indicadores ••.. JAcian CM
-
ACTAN, ACTANz ACTAN3
1,00 (p.f.)* 1,03 (17,92) 1,13 (17,24)
Aetm
.(:111
Aetan
Aetm
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
1,00 (p.f.) 1,02 (22,89) 1,09 (21,14)
-
ACTM2
-
ACTM3
-
fe,
-
-
fC z
-
-
rC 3
-
-
*
"'le/
Model"M2 •
-
ACTM,
.
..
1,00 (p.f.) 0,85 (12,15) 0,99 (16,52)
0,68 (18,57)
-
1,00 (p.f.) 1,03 (17,98) 1,13 (17,26)
....
le
-
-
-
-
-
-
-
-
1,00 (p.f.) 1,02 (23,14) 1,09 (21,36)
Modelo M3
l·.··· Aetan -
1,00 (p.f.) 1,03 (17,80) 1,13 (17,12)
-
-
-
-
-
-
1,00 (p.f.) 0,85 (12,19) 0,99 (16,60)
Aetm
le
-
-
-
-
-
-
-
-
1,00 (p.f.) 1,02 (23,09) 1,09 (21,18)
-
-
-
-
-
-
-
-
1,00 (p.f.) 0,85 (11,77) 0,98 (15,81)
Valor no calculado ya que el parámetro se ha fijado a 1 para fIjar la escala de la variable latente.
© Ediciones Pirámide
541
Técnicas de análisis de datos en investigación de mercados
TABLA 12.7 Modelo estructural (valores t entre paréntesís)
Actan
1,06 (9,96) 0,25 (2,55)
Actm
0,43 (6,08) ~~
k
(7,40)
0,17 (3,16)
Cm Actan
1,06 (9,96) 0,24 (2,37)
Actm
0,43 (5,95) 0,65 (7,48)
lc
Actan Actm
1,06 (9,97) 0,39
(3,63)
lc
542
0,19 (2,37)
0,56 (6,60)
© Ediciones Pirámide
Análisis de ecuaciones estructurales TABLA 12.8 Matriz de correlaciones de las variables latentes exógenas (valores t entre paréntesis)
Can
1,00
Cm
0,15 (2,05)
Can
0,15 (2,05) 1,00
Can
1,00
Cm
0,15 (2,05)
0,15 (2,05) 1,00
TABLA 12.9 Términos de perturbación de las variables latentes endógenas (valores t entre paréntesis)
1,01 (7.00)
1,45 (7,59)
1,88 (7.01)
0,94 (*)
1,02 (7,02)
1,45 (7,60)
1,88 (7.02)
1,00 (6,96)
1,82 (7,75)
1,84 (6,94)
* No eXIste valor t asocIado a este parámetro ya que se fijó a O la varianza del error de su lOdicador. TABLA 12.10 Términos de error de los indicadores endógenos* oc':":'::;;;; ~~1
; ' f f , '.' ArTAN,
0,55 (6,59)
A,
0,46 (5,84)
, .',
0.68 (6,51)
1,: '.~•.•: ' , . . ; ., ArTA 7\1
0,55 (6,59)
""Ar1'Mz
0,40 (7,18)
0,17 (4,31)
.
: . : : '.:' '. . , ',."
".
'J rTA 7\1, lACTAN, [,4,<':1111 1 'AC/jYí;' :aC"M 0,45 (5,85)
'-. t- '.,','- " i'- .:'{.
0,68 (6,56)
0,40 (7,18)
0.17 (4,32)
0,72 (5.44)
•. ,~~", ..'
0.36 (6,31),
0,72 (5,45)
....;-\7\1,
ArTAlJ,
ArTAN 3
ArTU .-:
0,56 (6.60)
0,45 (5,72)
0,68 (6,45)
0,41 (7,19)
0,16 (4,00)
*
.'
,:.
'<:'. .;
i ' ". ','
0,36 (6,29)
1,54 (8,29)
.',.:
'.
'
.
I ."IC3 0,36 (3,25)
0.-' .. o·.·.·· .'
o,' -f.':• ~';'M-:' .• ~~", [ : 'lc , :j,
'
IC, .•
......,
0,36 (6.30)
.,. ,
le,
IC3
1,54 (8,29)
0,36 (3.25)
:. ,
.
.-
IC,
' IC3
1,54 (8.28)
0,37 (3,34)
0,70 (5,34)
CM
'
-
' .
Los términos de error para los indicadores exógenos han sido fijados a O.
© Ediciones Pirámide
543
Técnicas de análisis de datos en investigación de mercados
Como se puede comprobar, todos los parámetros estimados para los distmtos modelos son significatIvos, ya que los valores entre paréntesIs son superiores a 1,96, que corresponden a un mvel de sIgnificación del 5%. Además, dichos parámetros son muy parecidos en los tres modelos, lo que vIene a demostrar que se trata de modelos muy similares.
4.
Evaluación e interpretación del modelo
Como estamos ante un caso de modelizaCIón competItiva, la forma de proceder en esta fase del análisIs será evaluar y comparar los tres modelos propuestos de acuerdo con algún test o índice de ajuste y escoger aquel que nos proporcIOne unos mejores resultados. Vamos a utilizar todos los indicadores de bondad de ajuste analizados en el presente capítulo para llevar a cabo esta tarea y decidirnos por uno de ellos. En la tabla 12.11 se muestran tales mdicadores agrupados por categorías. En cuanto a los índices absolutos de ajuste, es el modelo M2 el que presenta unos mejores resultados en todos los casos. Posee un valor de la ji-cuadrado de 50,639 frente a 56,769 de MI y 87,175 de M3. El valor p de 0,144, supenor al nivel de significación 0,05, mdica que el modelo M2 reproduce fielmente la matnz de datos mlclal, o lo que es igual, el modelo propuesto se ajusta bIen a las observaciones muestrales. También para el caso de MI el estadístico ji-cuadrado resulta no SIgnificatIVO, si bIen su valor es supenor al de M2, mdicando un peor ajuste. Por el contrarIo, el modelo M3 no se ajusta bIen a los datos muestrales ya que el valor p asocIado a la ji-cuadrado es significatIvo. Para el resto de medidas de ajuste absoluto también es el modelo M2 el que presenta unos mejores valores. Destacar que los tradiCIOnales GFI y RMSEA mejoran bastante los límItes de aceptación establecidos del 0,90 y 0,08, respectIvamente. En relación con los índices Incrementales de ajuste, es también el modelo M2 el que obtIene los mejores resultados, seguido nuevamente por MI y M3. Para todos estos mdicadores se superan los límItes de aceptación propuestos en la mvestigación empínca, el 0,90 para el caso del AGFI, el RAGFI, el NFI y el NNFI, y valores muy próximos a la unidad para el caso del IFI, el RFI y el CFI. Los índices de ajuste de parsimonia son los que tIenen más sentido dentro de una estrategia de modelización competItIva por ofrecer medidas del 1\Juste del modelo por coefiCIente estImado. Los valores de dichos índices arrojan los mismos resultados que los obtemdos con las otras dos clases de medidas, confirmándose el modelo M2 como el más adecuado para reprodUCIr la matriz de entrada de las variables observadas en la muestra. Para el caso del Normed Chi-Square, cuyos valores recomendados están entre 1 y 2, los modelos M2 y MI toman valores dentro de esos límites, nuentras que el modelo M3 se sale de los mismos. ASImIsmo, M2 y MI presentan valores del Critical N superiores a 200, mIentras que para M3 el valor es de 130,641.
544
© EdicIOnes Pirámide
Análisis de ecuaciones estructurales TABLA 12.11 Indicadores de bondad de aJuste* ••
/;i';i!.';~/;i';/Y"'·,.,. y
"!
'1\1"*' •
)~~; ;
,M3
Índices absolutos de ajuste
Ji-cuadrado (grados de libertad) p-Valor NCP SNCP MDN GFI RGFI RMSR RMSEA ECVI
56,769 (41) 0,052 15,769 0,090 0,956 0,945 0,985 0,149 0,047 0,614
50,639 (41) 0,144 9,639 0,055 0,973 0,951 0,991 0,130 0,037 0,578
87,175 (41) 0,00003 46,175 0,265 0,876 0,923 0,962 0,451 0,080 0,788
Índices incrementales de ajuste AGFI RAGFI NFI NNFI (TU) IFI RFI CFI
0,912 0,976 0,964 0,986 0,990 0,952 0,990
0,921 0,986 0,968 0,992 0,994 0,957 0,994
0,876 0,938 0,945 0,959 0,970 0,926 0,970
0,719 0,587 1.384 106,769 210,889 200,077
0,722 0,591 1,235 100,639 204,759 224,175
0,704 0,573 2,126 137,175 241,295 130,641
Índices de ajuste de parsimonia PNFI PGFI Normed Chi-Square AlC CAlC Critical N
* Todos los índices de bondad de ajuste son obtenidos a través del programa LISREL VIII, a excepción del MDN, RGFI. RAGFI Y Normed Chi-Square, que se calculan a partIr de Jos índices que proporclOna el programa. tal y como se comentó en su momento.
Una vez que han sido analizados los tres modelos basándose en los distmtos mdicadores de bondad de ajuste, y escogido el modelo M2 como el más adecuado, se analiza dicho modelo de una forma más detenida e interpreta de acuerdo con el conocnmento teónco en el que se sustenta. A contmuación vamos a analizar el ajuste del modelo de medida, así como del modelo estructural: © Ediciones Pirámide
545
Técnicas de análisis de datos en investigación de mercados a) Ajuste del modelo de medida para M2 Se trata aquí de estudiar lo bien que los conceptos teóncos del modelo están medidos a través de las vanables observadas. Para ello, lo primero a comprobar es que todas las cargas entre los mdicadores y las variables latentes sean sIgnificalivas. En las tablas 12.5 y 12.6 se observa cómo dichas cargas factoriales son sIgnificativamente distintas de O (t> 1,96). Seguidamente hay que analizar lo bien que están representados los diversos mdicadores en las vanables latentes a las que miden, es decIr, su fiabilidad (véase tabla 12.12). TABLA 12.12
Fiabilidad de los indicadores para el modelo M2
. . '"
"
"
..
"
.
.,
1,00
CAN*
I
',,:
..
ACTAN, ACTAN2 ACTAN, CM' ACTM, ACTM2 ACTM3 lC, lC2 lC,
,
,
, 0.80 0,83 0,80 1,00 0,83 0,92 0,87 0,79 0,56 0,88
* La fiabilidad para estos mdicadores es 1, ya que habíamos supuesto que se medía perfectamente con ellos Jas vanabIes Jatentes Can y Cm, Todos los mdicadores presentan unas fiabilidades bastante eleVadas, lo que indica que explican un alto porcentaje de la varianza de las vanables latentes. Tan sólo para el mdicador IC2 se obtiene un valor mfenor de 0,56, SI bIen también supera el límIte de aceptación del 0,50, Por último, para tennmar de evaluar el modelo de medida debería analizarse la fiabilidad compuesta y la vananza extraída de cada vanable latente. La fiabilidad compuesta nos indica la conslstenCJa interna que tienen todos los mdicadores midiendo ese constructo, mIentras que la varianza extraída muestra la cantidad global de vananza en los mdicadores explicada por la vanable latente. En la tabla 12.13 se calculan dichas medidas para cada vanable latente multiítem.
546
© EdiCIOnes Pirámide
Análisis de ecuaciones estructurales TABLA 12.13
Fiabilidad compuesta y varianza extraída de las variables latentes
ACTAN, ACTAN2 ACTAN3 ACTM, ACTM2 ACTM3 lC, lC2 lC3
Fiabilidad compuesta* Varianza extraída
0,893 0,913 0,894
0,203 0,167 0,201 0,912 0.960 0,932
0,168 0,078 0,131 0,889 0,750 0.938
0,9273 0,8097
0,9542 0,8742
0,209 0,438 0,119
0,8965 0,7445
* Para calcular estas dos medidas necesitamos obtener las cargas estandanzadas, es decIr, en un rango entre -1 y 1. El programa LISREL VIII nos va a permitir obtener dichas cargas mediante nn SImple comando.
Corno podernOS observar, la fiabilidad compuesta para las tres vanables latentes multiítem es muy elevada, superando en todos los casos el línute de aceptación del 0,70. Esto viene a confrrrnar que los respectIvos mdicadores empleados para medir los conceptos Actan, Actm e le son altamente consistentes y adecuados. Algo parecido ocurre con la varianza extraída, ya que también en los tres casos se obtIenen altos porcentajes de vananza explicada, supenores al límIte del 0,50, En defimtIva, hemos comprobado que el modelo de medida se ajusta perfectamente a los datos, siendo los mdicadores considerados medidas adecuadas y fiables de las respectIvas variables latentes.
b) Ajuste del modelo estructural para M2 Al Igual que se ha analizado con cierto detalle el modelo de medida, también hemos de evaluar el modelo estructural para cuidar que todos los parámetros estImados sean significatIvos y que se obtengan aceptables coeficientes de fiabilidad en las ecuaciones estructurales. Si observarnos la tabla 12.7 para el caso del modelo M2, comprobarnos cómo todos los parámetros estructurales estImados son significatIvos (t> 1,96), lo que demuestra la adecuación de dicho modelo estructural. © EdiclOnes Pirámide
547
Técnicas de análisis de datos en Investigación de mercados
En cuanto a las fiabilidades obtemdas para las distmtas ecuacIOnes estructurales (tabla 12.14), son de diversa mtensidad. La relación causal entre Can y Actan es la que queda mejor representada al tener un coeficiente de fiabilidad de 0,53. En cambIO, para el caso de la relación causal entre Actan y Cm la fiabilidad obtemda es realmente baja, 0,06, lo que mdica que Cm queda escasamente explicado por la Actan, eXlstlendo otras vanables o relaCIOnes que no se han tenido en cuenta y que van a mflUlr de forma importante en Cm. Sin embargo, esto no quiere decir que la relación causal entre estas dos vanables no deba eXlstír, ya que hemos comprobado antenormente que dicha relación es significativa, además de que el modelo M2 presentaba un ajuste más adecuado que el modelo MI, que no la recogía. TABLA 12.14 Fiabilidad de las ecuaciones estructurales Ecuaciones estructurales
Can -i> Actan Actan -i> Cm Actan + Cm -i> Actm Actm -i> lc
Fiabilidad
0,53 0,06 0,27 0,31
En general, el modelo estructural también se ajusta adecuadamente a los datos, con la excepción de la relación causal entre Actan y Cm ya comentada. 5.
Interpretación y modificación del modelo
El últlmo paso, una vez demostrada la adecuación del modelo a los datos, conSistirá en interpretar dicho modelo de acuerdo con la literatura al respecto en el que se ha basado su especificación. Antes de proceder a la interpretación se ha de comprobar que el modelo no tiene capacidad de mejora, pues en caso contrano habría que plantear las modificaciones oportunas, Debido a que todos los índices de bondad de ajuste antenormente evaluados presentaban valores muy buenos, las posibilidades de modificaCión del modelo van a ser escasas. Esto queda reflejado por el hecho de que el programa LISREL VIII no presenta mngún índice de modificación para relaciones causales no estlmadas. Por otra parte, la matnz de residuos estandarizados (tabla 12.15) tan sólo presenta un residuo SignificatIVo entre CM y lC, (> 2,58), lo que mdica una reprodUCCión prácticamente exacta de la matriz de datos imclal y, por conSiguiente, la imposibilidad de modificación del modelo. Una vez comprobado que el modelo no tiene posibilidades de mejora sustanciales, vamos a proceder a la lllterpretación del ll11smo. Debido a que la matnz de datos analizada es de varlanzas-covananzas, necesitamos obtener los parámetros estructurales estandarizados (en un mtervalo entre -1 y 1) de manera que podamos
548
© EdiclOnes Pirámide
Análisís de ecuaciones estructuraLes TABLA 12.15
Matriz de residuos estandarizados
CAN ACTAN, ACTAN, ACTAN] CM ACTM, ACTM, ACTM, lC, lC, lC,
0,00 0,32 1,21 -1,30 -0,56 0,03 -0,92 -0.89 2,12 1,63 1,55
0,00 -1,41 0.75 0,71 1,41 -0,26 0.37 1,79 0.67 0,85
0.00 0,40 0,23 -0,43 -0.39 -0,21 1,70 1,22 1,29
0,00 -0.62 0,35 -0,45 0,63 2,25 1,77 1,81
0.00 0,47 -0.08 -0,91 3,08 1.18 1,29
0,00 0.12 -1,49 2,47 0,24 0,57
0,00 2,15 0,66 -0,95 -1,93
0,00 0,21 -1,09 -0,11
0,00 -0,94 -0,71
0,00 1,49
0,00
En negnta los residuos sIgnificativos,
realizar una Interpretación más fácil del modelo. En la figura 12.13 presentamos las relaCIOnes causales establecidas para el modelo de mediación dual de respuesta ante un anunCIO, así como sus parámetros estandanzados estimados.
Figura 12.13.
Parámetros estructurales estandanzados.
Todas las relaciones causales son positivas y de diferente intensidad. El parámetro mayor se obtiene para la relación entre Can y Actan (0,725), 10 que Indica que los pensamientos que genera un anuncio son un excelente predictor de las actitudes hacia el mismo. Sin embargo, no ocurre Igual para el caso de la marca, ya que la relación causal entre Cm y Actm es mucho más débil (0,168). El efecto total que ejerce la Actan sobre la Actm será el efecto directo 0,448 más el efecto indirecto a través de Cm 0,041 (0,247 x 0,168), resultando una InfluenCia total de 0,489. Según estas estimaCIOnes, la actitud de un mdividuo haCia una marca estaría influenciada en mayor medida por la actitud que dicho Individuo tenga haCia el anunCIO en el que aparece la marca, que por los sentimientos derivados de la nusma. © EdiclQnes Pirámide
549
Técnicas de análisis de datos en investigación de mercados
Atendiendo al modelo EIM (Elaboration Likelihood Model) de formación y cambIO de actitudes en el Illdividuo (Petty y CaclOppo, 1983), el hecho de que la Actan Illfluya más en la Actm que el Cm Illdica que el Illdividuo está poco implicado con el producto y que va a formar sus actitudes hacia la marca a través de una ruta periférica, es decIr, centrándose más en determinadas señales posHivas o negativas del anuncIO que en las ventajas e inconvementes de dicha marca. Por último, la Actm mfluye con cierta fuerza en lc (0,555), Illdicando que a medida que el Illdivlduo posea unas actitudes más favorables hacIa una determlllada marca (en este caso formadas más por los efectos de la publicidad que por las propias opmiones del Illdividuo) va a tener una mayor predisposIción a comprarla. Como conclusión, para analizar la respuesta de un Illdividuo ante un anuncIO hemos optado por el modelo de mediación dual (M2) por ser el que mejor se ha ajustado a los datos muestrales, comcidiendo además con la mayoría de la literatura existente al respecto. Entonces, podemos Illfenr que SI un determlllado anuncIO es adecuado para mducir actitudes favorables haCia el mismo y pensamIentos POSitIVOS haCia la marca anunciada, condUCIrá a actitudes favorables haCIa la marca y a mtenClOnes haCIa la compra de la misma.
7.
LA APLICACiÓN DE LOS MODELOS DE ECUACIONES ESTRUCTURALES A LA INVESTIGACiÓN DE MARKETING En los últimos años se ha extendido el uso de los modelos de ecuacIOnes estructurales a la Illvestigaclón de marketmg, motivado entre otras razones por el desarrollo de la mformática que ha permitido la aparIción de numerosos programas que de una forma fácil y comprensibje permiten diseñar y resolver dichos modelos. Esto unido al hecho de que la Illvestlgación de marketing trata, en la mayoría de los casos, de establecer relacIOnes entre vanables tales como actitudes, opimones, mtenciones, etc., ha contribuido al empleo cada vez mayor del análisis causal en diversos campos de la Illvestlgación de marketmg como el estudio del comportamIento del consumidor, la publicidad, la distribución, el marketmg estratégICo, etc. Los pnmeros trabajos en los que se aplica esta técnica de análisis a nuestro campo de estudio datan de finales de la década de los setenta y pnnclplOs de los ochenta en Estados Unidos. En España, la aplicación del análisIS de ecuacIOnes estructurales a la mvestigación de marketlllg puede fijarse a comienzos de la década de los noventa, con la proliferación de algunos estudios relaCIOnados con el campo del comportamiento del consumidor y la pSIcología. Sin embargo, en los últimos años se ha mcrementado de forma Importante el número de trabajos y artículos que emplean el análisis de ecuacIOnes estructurales, acelerado por la cada vez mayor facilidad de empleo que proporcIOnan los programas mformáticos, con entornos gráficos e intuitivos que han deJado prácticamente en el recuerdo las tediosas tareas de programación del software. Todo esto ha provocado un empleo masIvo y a veces IllJustificado de esta técmca de
550
© Ediclones Pirámide
Análisís de ecuaciones estructurales análisIs de datos, que reqUIere para su aplicación efectIva bastante más que el sImple conocimIento del funcIOnamIento del software y de los límItes de aceptación de determInados índices de bondad de ajuste, tal y como se ha reflejado a lo largo de este capítulo. Son muchos los trabajos de marketmg a lllvel nacIOnal e mternaclOnal que en los últimos años han utilizado modelos de ecuaciones estructurales con el objetivo de validar escalas, ratificar empíncamente modelos teóncos, verificar relaciones de causalidad, etc. Destacamos algunas de las aplicacIOnes de esta herramienta en marketing, basándonos en la mvestigación realizada por Garrido y Gutiérrez (1996) para el período 1990-1995 utilizando las pnncipales revistas españolas e internacIOnales de marketing las tesis doctorales publicadas en España (TESEO) y en buena parte del mundo (base de datos UMI). El campo del marketing donde más se ha utilizado esta téclllca ha SIdo el del comportamiento de consumzdor, como consecuenCIa de la necesidad de trabajar con variables no observables directamente como las actitudes, opmiones, intencIOnes, motIvaCIOnes, etc. Además, en el comportamIento del consumidor mfluyen numerosas vanables con diferente sIgno y fuerza, lo que lleva en muchos casos a plantear modelos de actuación del consumidor que pueden ser tratados perfectamente mediante el análisIs de ecuacIOnes estructurales. En segundo lugar, en cuanto a su utilización, debemos destacar los trabajOS metodológicos donde se profundiza en el empleo de la téclllca y donde se aportan solUCIOnes a problemas planteados en mvestIgaclOnes antenores. Tercero, la investigación publicitaria donde se han planteado modelos para explicar la influenCIa de la publicidad sobre el comportamiento del consumidor, permItIendo cuantificar y medir la mfluencla de vanables como las actItudes hacia la marca y haCIa el anuncio, la credibilidad de la publicidad, el contenido mfonnativo, el conocimIento del mdividuo, etc., sobre las mtenclOnes de compra o la compra real del consumidor. En cuarto lugar, han de destacarse los estudios relacIOnados con la fuerza de ventas y el marketing industrzal. Otro campo donde ha proliferado mucho el uso de los modelos de ecuacIOnes estructurales es el de la distribución. En la mayoría de los casos tratan de analizar las relaCIOnes de poder y conflicto entre los diferentes mIembros del canal, sobre todo entre fabncantes y distribuidores. Por último, los ámbItos de aplicación menos explotados hasta el momento son los relaCIOnados con la medición y detennmación de los factores que mfluyen en la calidad, el proceso de innovación, la segmentacIón de mercados, los precIOS, etc. En resumen, el desarrollo del análiSIS de ecuacIOnes estructurales en el campo de la investigación de marketing ha sido reCIente, pero mtenso, estando mdiscutiblemente ligado a la evolución de la mformática que ha permItido a los mvestigadores acceder a programas cada vez más sofisticados y potentes en el análisis, y a la vez más fáciles de emplear en la práctIca. EXIsten detennínados campos del mar© EdiclOnes Pirámide
551
Técnicas de análisis de datos en investigación de mercados
ketmg que utilizan conceptos de difícil medición directa especIalmente apropiados para la aplicación. Creemos, no obstante, que el uso cada vez mayor de los modelos de ecuaciones estructurales debería estar guiado únicamente por necesidades de investIgacIón y por una Importante Justificación teónca.
INVENTARIO DE TÉRMINOS Y CONCEPTOS o
o o o o o o o o
o o
o o o
o o
o o
552
Modelos de ecuaciones estructurales, modelos de estructuras de covananzas, modelos causales. Path anatysis. Modelos recurSIvos y no recurSIvos. Modelos saturados y no saturados. MOdelos endógenos y exógenos. Indicadores refleXIVOS, agregados y formatIvos. Modelo estructural y modelo de medida. CorrelaCIón policórica, tetracórica, polisenal y blsenal. Métodos de estimación: máxima veroSImilitud, mínImos cuadrados generalizados, mínImos cuadrados no ponderados y mínImos cuadrados ponderados. Tests de normalidad multivanante, test de Mardia. Ajuste global del modelo: medidas absolutas de ajuste, medidas mcrementales de ajuste y medidas de parsimOnIa. Ajuste del modelo de medida. Ajuste del modelo estructural. Residuos estandanzados. Índices de modificación. Índices de proporción de aumento en el ajuste, índice de la diferencia de la jicuadrado en modelos anidados. EstrategIa de modelización confirmatona, competItIva y de desarrollo. AnáliSIS factonal confirmatorio y diseños multitrait-multimethod.
© Ediciones Pirámide
Análisis de ecuacIOnes estructurales
ANEX0 13 programación del modelo de transferencia de afecto (M1l mediante L15REL VIII Modelo de transferencia de afecto (Mi) Observed Variables: CAN ACTANl ACTAN2 ACTAN3 ACTM2 ACTM3 lCl lC2 lC3 Covariance matrix from File c:\ejemplo\matriz.dat Sample Size= 175 Latent Variables: Can Cm Actan Actm lc Relationships: CAN=Can ACTAN1=1*Actan ACTAN2=Actan ACTAN3=Actan CM=Cm ACTM1=1*Actm ACTM2=Actm ACTM3=Actm lCl=l*lc lC2=lc lC3=lc Actan=Can Actm=Actan Cm lc=Actm Let me error variance of CAN equals to O Let me error variance of CM equals to O Path Diagram Lisrel output: SC Number of decimals- 3 Print residual End of Problem
CM ACTMl
13 Se reproducen los comandos que ha sido necesario introduclf al programa LISREL VIII para estimar los tres modelos planteados en nuestro ejemplo. Se subrayan los comandos propIOS del programa para diferencIarlos del resto que son el nombre de las variables observadas y latentes, el fichero que contiene la matrIz de datos y las relaciones estructurales que van a ser diferentes en cualqUIer otro caso.
© Ediciones Pirámide
553
Técnicas de análisis de datos en investigación de mercados
programación del modelo de mediación dual (M2) mediante L15REL VIII Modelo de mediación dual (M2 ) Observed Variables: CAN ACTANl ACTAN2 ACTAN3 ACTM2 ACTM3 lCl lC2 lC3 Covariance matrix from File c:\ejemplo\matriz.dat Sample Size= 175 Latent Variables: Can cm Actan Actm lc Relationships: CAN=Can ACTAN1*Actan ACTAN2=Actan ACTAN3=Actan CM=Cm ACTM1=1*Actm ACTM2=Actm ACTM3=Actm lCl=l*lc lC2=lc lC3=lc Actan=Can Actm=Actan Cm Cm=Actan lc=Actm Let me error variance of CAN eauals to O Let me e=or variance of CM equals to O Patn Diagram Lisrel output: SC Number of decimals= 3 Print residual End of Problem
CM ACTMl
Programación del modelo de influencias independientes (M3) mediante L15REL VIII Modelo de influencias independientes (M3) Observed Variables: CAN ACTANl ACTAN2 ACTAN3 ACTM2 ACTM3 lCl rC2 lC3 Covariance matrix from File c:\ejemplo\matriz.dat Sample Size= 175
554
CM ACTMl
© Ediciones Pirámide
AnálisIs de ecuaciones estructurales Latent Variables: Can cm Aetan Aetm le Relationships: CAN=Can ACTAN1*Aetan ACTAN2=Aetan ACTAN3=Aetan CM=Cm ACTM1=1*Aetm ACTM2=Aetm ACTM3=Aetm lCl=l*le lC2=le lC3=le Aetan=Can Aetm=Cm le=Aetm le=Aetan Let me error varianee of CAN equals to O Let me e=or varianee of CM eauals to O Path Diagram Lisrel outPUt: se Number of deeimals- 3 Print residual End of Problem
BIBLIOGRAFíA Akaike, H. (1974): «A new look at statistical model identification», IEEE transacttons on Automatic Control. 19, pp. 716-723. Bagozzl, R. P. (1980): Causal models in marketmg, Nueva York, John Wiley & Sonso Bentler, P. M. (1980): «Multivanate analysIs with latent variables. Causal models», Annual ReVlew of Psychology, 31, pp. 419-456. Bentler, P. M. (1990): «Comparative fit mdexes in structural models», Psychologlcal Bullettn, 107, pp. 238-246. Bentler, P. M., Y Bonett, D. G. (1980): «Significance tests and goodness of fit In the analysis of covariance structures», Psychological Bulletm, 88, pp. 588-606. Bisquerra, R. (1989): Introducción conceptual al análisls multivariable, Barcelona, PPU. Blalock, H. M. (1961): «Correlation and causality, the multivanate case», SOCial Forces, 39, pp. 246-251. Bollen, K. A. (1986): «Sample Slze and Bentler and Bonett's nonnonned fit index», Psychometrika, 51, pp. 375-377, © Ediciones Pirámide
555
Técnicas de análisis de datos en investigación de mercados Bollen, K. A. (1988): «A new incremental fit index for general structnral equatlOn models», A paper presented at 1988 Southern SoclOlogical SOClety Meetings. Nashville, Tennessee, referenclado en Bollen (1989). Bollen, K. A. (1989): Structural equations with latent vanables, Nueva York, John Wiley & Sonso Bozdogan, H. (1987): «Model selectlon and Akiake's mformatlon crítería (AIC)>>, Psychometrika, 52, pp. 345-370, Browne, M. W. (1974): «Generalised least squares estimates m the analysls of covaríance structures», South African Statísticat Joumat, 8, pp. 1-24. Browne, M. W., y Cudeck, R (1989): «Single sample cross-validatlOn mdices for covaríance structnres», Multivaríate BehavlOrat Research, 24, pp. 445-455. Byrne, B. M. (1989): A primer of Lisrel: basíc applicatíons and programming for confirmatory factor analytlc models, Nueva York, Spnnger-Veriag. Cho, J.-K. (1995): An examínatíon of the attltudinal effects of comparatlve vs. Noncomparauve advertiszng and thelr causat paths zn the context of message sidedness and product znvolvement, tesis doctoral, UMI. Cliff, N. (1983): «Sorne cautlons concernmg the applicatlon of causal modelling methods», Multlvariate Behavíoural Research, 18, pp. 115-126. Diez, J. (1992): Métodos de análiSIS causal, Madrid, Centro de Investigaciones SOCIOlógIcas. Duncan, O. D. (1969): «Sorne linear models for two-wave, two varíable panel analysis», Psychological Bulletzng, 72, pp. 177-182. Everitt, B. S., Y Dunn, G. (1991): Applied multivanate data analysls, Edward Amold, Londres. Evrard, Y., Pras, B., y Roux, E. (1993): Études et recherches en marketzng, Éditions Nathan. Garrído, M. J., Y Gutiérrez, A. M. (1996): «La utilización en marketmg de los modelos de ecuaciones estructurales: una revisión del período 1990-1995», VIII Encuentro de Profesores UnzversítarlOs de Marketzng, Zaragoza, ESIC. Gerbing, D. W., y Anderson, J. C. (1984): «On the meamng of within-factor correlated me¡lsurement errors», Joumal of Consumer Research, 11, jumo, pp. 572-580, Gerbing, D. W., y Anderson, J. C. (1987): «Improper solutlons m the analysls of covanance structures: Their interpretability and a comparíson of aiternate respecificatlons», Psychometrika, 52, marzo, pp. 99-11. Hair, J. F.; Anderson, R. E.; Tatham, R. L., Y William, C. B. (1995): Multívanate data analysís wíth readings, New Yersey, Prentice-Hall. Hoetler, J. W. (1983): «The analysis of covarlance structures: goodness-of-fit mdices», SoclOloglcal Methods and Research, 11, pp. 325-344. James, L. R; Mulaik, S. A., y Brett, J. M. (1982): Causal anatysis: assumptlOns, models, and data, Beverly Hills, Sage. Johnson, N., y Wichern, D. (1988): Applied multívartate statlstlcal analysís, Prentlce-Hall. Jtireskog, K. G. (1969): '«A general approach to confirmatory maxlmum likelihood factor analysis», Psychometrika, 34, pp. 183-202. Jtireskog, K. G. (1973): «Analysls of covariance structures», Multtvaríate analysts, vol. III (ed. P. R KríshnaJah), Acadenuc Press, Nueva York. Jtireskog, K. G., Y Stirbom, D. (1986): LISREL VII: Analysls of linear structural relatlOnships by maxímum likelihood and least square methods. Mooresville, IN: SClentific Software.
556
© Ediciones Pirámide
Análisis de ecuaciones estructurales Joreskog, K. G., Y Sorbom, D. (1993): LISREL VIII: Structural equatwn modeling with the SIMPLIS command language, HilIsdale, NJ., SClentific Software. Long, J. S. (1991): Confirmatory factor analysts: A preface to Lisrel, Newbury Park, Sage. Luque, T. (1997): Investtgación de markettng, Barcelona, Anel. Mardia, K. V. (1970): «Measures of multivanate shewness and kurtosls with applicatlOns», Biometrika, 57, pp. 519-530, Mulaik, S. A., James, L. R.; Van Alstme, J.; Bennett, N.; Lind, S., y Stilwel1, C. (1989): «Evaluabon of goodness-of-fit mdices for sttuctural equabon models», Psychologtcal Bulletm, 105, pp. 430-445. Petty, R. E., Y Cacioppo, J. T. (1983): «Central and penpheral routes to persuasion: applicabon to advertismg», Advertlsmg and Consumer Psychology, Lexmgton, MA: Lexington Books. Shanna. S. (1996): Applied multlvartate techntques, Nueva York, John Wiley & Sons, Inc. Sharma, S., Durvasula, S., y DilIon, W. R. (1989): «Sorne results on the behavior of alternate covariance structure esbmation procedures m the presence of non-nonual data», Joumal of Marketmg Research, 26, pp. 214-221. Stelger, J. H. (1990): «Structural model evaluabon and modificabon: an mterval esbmatlOn approach». Multivartate Behavtoral Research, 25, pp. 173-180, Tucker, L. R., Y LewIs, C. (1973): «A reliability coefficient for maxlmum likelihood factor analysis», Psychometrika, 38, pp. 1-10, Wnte, S. (1934): «The method of palh coefficients», Annuals of Mathemattcal Stattsttcs, 5, pp. 161-215.
© Ediciones Pirámide
557