INTRODUCCIÓN AL ANÁLISIS MULTIVARIABLE (PRIMERA PARTE)
Eduardo Jiménez Marqués Curso 2004-05
Análisis Multivariante
Análisis Multivariante
ÍNDICE 1.
CONCEPTOS GENERALES............................................. 12
1.1
INTRODUCCIÓN. ................................................................ 12
1.1.1
LA ENCUESTA ESTRUCTURADA Y LOS MÉTODOS MULTIVARIANTES.......12
1.1.2
¿POR QUÉ SE USAN LAS TÉCNICAS MULTIVARIANTES? ...........................13
1.2
DEFINICIÓN DEL ANÁLISIS MULTIVARIANTE ........................... 14
1.3
ÁREAS DE APLICACIÓN DEL ANÁLISIS MULTIVARIANTE ........... 14
1.4
DEFINICIÓN Y CLASIFICACIÓN DE LAS VARIABLES ................. 14
1.4.1
TIPOS DE VARIABLES .............................................................................15
1.5
ESCALAS DE MEDIDA .......................................................... 17
1.6
VARIABLES Y ESCALAS DE MEDIDA ....................................... 18
1.6.1
CLASIFICACIÓN EN FUNCIÓN DEL ANÁLISIS DE DATOS..........................19
1.7
CLASIFICACIÓN DE LAS TÉCNICAS MULTIVARIANTES .............. 20
1.8
BIBLIOGRAFÍA RECOMENDADA............................................. 24
2.
METODOS EXPLICATIVOS O DE DEPENDENCIA ............. 26
2.1
INTRODUCCIÓN................................................................. 26
2.2
OBJETIVOS DE LOS MÉTODOS EXPLICATIVOS: ........................ 26
2.3
TÉCNICAS MAS HABITUALES. ............................................... 26 2
Análisis Multivariante 3.
REGRESIÓN LINEAL..................................................... 28
3.1
CONCEPTO........................................................................ 28
3.1.1
3.2
ANÁLISIS DE REGRESIÓN MÚLTIPLE....................................... 31
3.2.1
3.3
MODELOS ESTOCÁSTICOS.....................................................................30
¿QUÉ NOS INTERESA CONOCER?:...........................................................31
HIPÓTESIS DEL MODELO DE REGRESIÓN................................ 32
3.3.1
ESTIMACIÓN DEL MODELO DE REGRESIÓN ............................................32
3.3.2
COEFICIENTE DE CORRELACIÓN MÚLTIPLE Y COEFICIENTE DE
DETERMINACIÓN MÚLTIPLE ..................................................................................33
3.4
COLINEALIDAD .................................................................. 36
3.4.1
MATRIZ DE CORRELACIONES.................................................................36
3.4.2
CORRELACIÓN PARCIAL ........................................................................36
3.4.3
CORRELACIÓN PARCIAL MÚLTIPLE ........................................................37
3.4.4
MULTICOLINEALIDAD............................................................................37
3.4.5
EFECTOS DE LA COLINEALIDAD.............................................................37
3.4.6
FORMAS DE MEDIR LA COLINEALIDAD ..................................................38
3.4.7
SOLUCIÓN AL PROBLEMA DE MULTICOLINEALIDAD...............................39
3.4.8
COEFICIENTES DE REGRESIÓN ...............................................................39
3.4.9
ANÁLISIS DE LA VARIANZA EN LA REGRESIÓN .......................................41
3.5
MODELOS CON VARIABLES FICTICIAS ................................... 41
3.6
TABLA ESTADÍSTICA:DISTRIBUCIÓN T DE STUDENT ................ 42
3.7
EJEMPLO 1......................................................................... 43
3.8
EJEMPLO2 ......................................................................... 49 3
Análisis Multivariante 4.
ANÁLISIS DE REGRESIÓN. RESUMEN CONCEPTOS.......... 52
4.1
ESTIMACIÓN DEL MODELO DE REGRESIÓN POR MÍNIMOS
CUADRADOS ORDINARIOS ........................................................... 53
5.
EJEMPLO 1 DE ANÁLISIS DE REGRESIÓN LINEAL ............ 54
5.1
COEFICIENTES DE REGRESIÓN NO ESTANDARIZADOS:............. 54
5.2
CAMBIO EN LA MEDIDA DE X E Y. EFECTO EN β0 Y β1 ............. 55
5.3
COEFICIENTES DE REGRESIÓN ESTANDARIZADOS................... 55
5.4
COEFICIENTE DE CORRELACIÓN DE PEARSON ........................ 56
5.5
EN NUESTRO EJEMPLO SOBRE EL PRECIO DE LOS PISOS: .......... 60
5.6
COEFICIENTE DE DETERMINACIÓN ....................................... 61
5.7
COMPROBACIÓN DE LA BONDAD GLOBAL DEL MODELO:
ANALISIS DE LA VARIANZA........................................................... 61 5.8
PRECAUCIONES EN EL ANÁLISIS DE REGRESIÓN...................... 62
5.9
OTROS AJUSTES DE BONDAD DEL MODELO ........................... 63
5.10
USO DEL MODELO PARA ESTIMAR Y PREDECIR .................... 64
5.11
HIPÓTESIS DEL MODELO DE REGRESIÓN SIMPLE .................. 67
5.12
NORMALIDAD DE LOS ERRORES ........................................ 67
4
Análisis Multivariante 5.13
HOMOCEDASTICIDAD EN LAS PERTURBACIONES ................. 68
5.14
NO AUTOCORRELACIÓN DE ERRORES ................................ 69
6.
LINEALIDAD EN EL MODELO DE REGRESIÓN ................. 71
6.1
7.
OTRAS TRANSFORMACIONES............................................... 71
ANÁLISIS DE REGRESIÓN MÚLTIPLE.............................. 73
7.1
INFERENCIAS ACERCA DE LOS COEFICIENTES DE REGRESIÓN
DE CADA VARIABLE, βI ................................................................. 73 7.2
COEFICIENTE DE DETERMINACIÓN ....................................... 74
7.3
COMPROBACIÓN DE LA BONDAD GLOBAL DEL MODELO:
ANALISIS DE LA VARIANZA........................................................... 74 7.4
HIPÓTESIS DEL MODELO DE REGRESIÓN MÚLTIPLE ................. 75
7.5
COLINEALIDAD .................................................................. 75
7.6
EFECTOS DE LA COLINEALIDAD ........................................... 76
7.7
FORMAS DE MEDIR LA COLINEALIDAD .................................. 76
7.8
NIVELES DE COLINEALIDAD ................................................. 77
7.9
INTRODUCCIÓN DE VARIABLES BINARIAS .............................. 80
7.10
VARIABLE BINARIA CON EFECTO SOBRE LA PENDIENTE ........ 82 5
Análisis Multivariante 7.11
INTRODUCCIÓN DE VARIABLES CUALITATIVAS ................... 82
7.12
CONCLUSIÓN FINAL AL CASO DE LAS VIVIENDAS ................ 85
8.
BIBLIOGRAFÍA ............................................................ 91
9.
ANÁLISIS DE LA VARIANZA (ANOVA)............................ 93
9.1
CONCEPTO........................................................................ 93
9.2
MODALIDADES DE ANÁLISIS DE LA VARIANZA ....................... 93
9.3
ANOVA ............................................................................. 94
9.3.1
TIPOS DE ANOVA ..................................................................................94
9.4
EXPERIMENTACIÓN............................................................. 94
9.5
EL MÉTODO DE EXPERIMENTACIÓN ...................................... 95
9.5.1
PRINCIPALES APLICACIONES DE LA EXPERIMENTACIÓN .........................96
9.6
METODOLOGÍA DE LA EXPERIMENTACIÓN............................. 96
9.7
ELEMENTOS DE UN EXPERIMENTO ........................................ 97
9.7.1
CONCEPTOS GENERALES .......................................................................97
9.7.2
HIPÓTESIS DE TRABAJO .........................................................................98
9.8
¿POR QUÉ SE LLAMA ANÁLISIS DE LA VARIANZA SI
COMPARAMOS MEDIAS?............................................................... 98 9.8.1
9.9
ESTADÍSTICO DE PRUEBA ......................................................................99
EXPERIMENTOS ALEATORIOS CON UN FACTOR .................... 100 6
Análisis Multivariante 9.9.1
MODELO ............................................................................................ 101
9.10
ANÁLISIS DE VARIANZA CON UN FACTOR (ONE WAY) ........ 101
9.11
ANOVA CON VARIOS FACTORES ..................................... 103
9.12
TIPOS DE EXPERIMENTOS HABITUALMENTE UTILIZADOS EN
INVESTIGACIÓN COMERCIAL ...................................................... 104 9.12.1
EXPERIMENTO ALEATORIO O AL AZAR ............................................... 104
9.12.2
EXPERIMENTO DE BLOQUE ALEATORIO............................................... 109
9.12.3
EXPERIMENTO DE CUADRADO LATINO............................................... 113
9.12.4
EXPERIMENTO CON INTERCAMBIO ..................................................... 117
9.12.5
EXPERIMENTO FACTORIAL ................................................................. 117
9.13
BIBLIOGRAFÍA ............................................................... 125
10. ANALISIS DISCRIMINANTE......................................... 127 10.1 10.1.1
CONCEPTO................................................................... 127 EJEMPLO ............................................................................................ 128
10.2
OBJETIVOS DEL AD ........................................................ 128
10.3
CLASIFICACIÓN DEL AD ................................................ 128
10.4
RELACIÓN ENTRE AD, ANOVA Y REGRESIÓN ..................... 129
10.5
MODELO DEL AD........................................................... 129
10.6
SUPUESTOS Y ESTADÍSTICOS DE USO EN EL AD................. 130
10.6.1
SUPUESTOS:....................................................................................... 130
10.6.2
ESTADÍSTICOS ................................................................................... 130
7
Análisis Multivariante 10.7
PASOS DEL ANÁLISIS DISCRIMINANTE .............................. 132
10.7.1
FORMULACIÓN DEL PROBLEMA .......................................................... 132
10.7.2
ESTIMACIÓN ...................................................................................... 133
10.7.3
DETERMINACIÓN DEL GRADO DE SIGNIFICACIÓN............................... 133
10.7.4
INTERPRETACIÓN............................................................................... 133
10.7.5
VALIDACIÓN ...................................................................................... 136
10.8
EJEMPLO DE ANÁLISIS DISCRIMINANTE CON EL SPSS:......... 138
10.9
ANALISIS DEL EFECTO CONJUNTO: .................................. 142
10.10
CLASIFICACIÓN DE LAS OBSERVACIONES: ........................ 145
10.11
MÉTODO DE INCLUSIÓN POR PASOS: MÉTODO LAMBDA DE
WILKS: 149 10.12
ANÁLISIS DISCRIMINANTE MÚLTIPLE................................ 153
10.12.1
DETERMINACIÓN DEL GRADO DE SIGNIFICACIÓN........................... 153
10.12.2
INTERPRETACIÓN........................................................................... 153
10.12.3
VALIDACIÓN .................................................................................. 153
11. CASO PRÁCTICO DE ADM ......................................... 154 11.1.1
INTRODUCCIÓN................................................................................. 154
11.1.2
ANÁLISIS DISCRIMINANTE .................................................................. 157
11.2
BIBLIOGRAFÍA ............................................................... 165
12. SEGMENTACIÓN....................................................... 167 12.1
CONCEPTO................................................................... 167 8
Análisis Multivariante 12.2
REQUISITOS PARA QUE LA SEGMENTACIÓN DE MERCADO
SEA EFICAZ. ............................................................................. 167 12.3
CRITERIOS DE SEGMENTACIÓN DE MERCADO. .................. 168
12.4
ETAPAS DE UN ESTUDIO DE SEGMENTACIÓN DE
MERCADOS. ............................................................................. 170 12.5
TÉCNICAS PARA CLASIFICAR UN MERCADO EN
SEGMENTOS. ............................................................................ 172
13. TÉCNICAS DE SEGMENTACIÓN. ................................. 173 13.1
MÉTODOS CLÁSICOS. .................................................... 173
13.1.1
MÉTODO BELSON............................................................................... 173
13.1.2
MÉTODO DE ANÁLISIS DE LA VARIANZA............................................. 176
13.1.3
MÉTODO DE CHI CUADRADO............................................................. 170
13.1.4
MODELOS DE CANGUILHEM. .............................................................. 170
13.2 13.2.1
AUTOMATIC INTERACTION DETECTION (AID) ................... 172 VENTAJAS E INCONVENIENTES ........................................................... 173
14. CHI-SQUARED AUTOMATIC INTERACTION DETECTION (CHAID)......................................................... 173 14.1
CONCEPTO................................................................... 173
14.1.1
PROCESO ........................................................................................... 174
14.1.2
UTILIDAD........................................................................................... 175
14.1.3
VENTAJAS E INCONVENIENTES ........................................................... 175
9
Análisis Multivariante 15. EJEMPLO LOS PROGRAMAS DE FORMACIÓN EN MARKETING EN EL COMERCIO .......................................... 176 15.1
RESUMEN ..................................................................... 176
15.2
INTRODUCCIÓN ............................................................ 176
15.3
OBJETIVOS DEL TRABAJO E HIPÓTESIS.............................. 178
15.4
METODOLOGÍA: VARIABLES Y TÉCNICAS A UTILIZAR ......... 179
15.5
TÉCNICAS A UTILIZAR.................................................... 181
15.5.1
TÉCNICAS DE REDUCCIÓN DE VARIABLES........................................... 181
15.5.2
TÉCNICAS DE SEGMENTACIÓN ........................................................... 185
15.6 15.6.1
RESULTADOS ................................................................ 188 IDENTIFICACIÓN DE DIFERENTES PROGRAMAS DE FORMACIÓN.......... 188
15.7
UTILIZACIÓN DE HERRAMIENTAS DE MARKETING.............. 190
15.8
CLASIFICACIÓN DE LOS ESTABLECIMIENTOS COMERCIALES
SEGÚN LA REALIZACIÓN O NO DE PROGRAMAS DE FORMACIÓN..... 192 15.9
CLASIFICACIÓN DE LOS ESTABLECIMIENTOS COMERCIALES
SEGÚN EL TIPO DE PROGRAMA DE FORMACIÓN REALIZADO........... 195 15.9.1
ESTABLECIMIENTOS QUE VALORAN LOS PROGRAMAS DE
FORMACIÓN GENÉRICOS ................................................................................... 195 15.9.2
ESTABLECIMIENTOS QUE VALORAN LOS PROGRAMAS DE
FORMACIÓN ENFOCADOS A CLIENTE ................................................................ 198
10
Análisis Multivariante 15.9.3
ESTABLECIMIENTOS QUE VALORAN LOS PROGRAMAS DE
FORMACIÓN TÉCNICOS QUE EMPLEAN HERRAMIENTAS INFORMÁTICAS............. 201
16. CONCLUSIONES ....................................................... 203 17. BIBLIOGRAFÍA .......................................................... 205 18. CONCEPTO DE ACM ................................................. 209 19. MODELO DEL ACM ................................................... 209 19.1
CONSIDERACIONES ACERCA DEL MODELO ....................... 211
20. CASO PRÁCTICO ...................................................... 211
11
Análisis Multivariante
1. CONCEPTOS GENERALES 1.1
INTRODUCCIÓN.
Los procedimientos multivariables constituyen un conjunto de técnicas estadísticas de amplia aplicación en el mundo científico, especialmente en los estudios de tipo empírico, adquiriendo cada día más importancia en la investigación Comercial y muy especialmente en el tratamiento de las encuestas. 1.1.1
LA
ENCUESTA
ESTRUCTURADA
Y
LOS
MÉTODOS
MULTIVARIANTES El objetivo fundamental de la Investigación Comercial es el de obtener información objetiva, que permita el disminuir la incertidumbre del decisor en su toma de decisiones. A través de la Investigación Comercial la empresa puede disponer de una gran cantidad de datos acerca de su actividad interna y del entorno en el que desarrolla su negocio. El mercado donde realiza la actividad económica la empresa, es un fenómeno complejo donde interactúan un gran número de factores que tienen influencia en los resultados empresariales (Inflación, paro, paridad de la moneda, formación de los trabajadores, ecología, legislación, demografía, etc.) Por tanto podemos afirmar que la mayoría de los problemas de la empresa son multidimensionales, es decir cualquier actividad empresarial la podemos describir de acuerdo con diversas dimensiones. Esto nos conduce a que deberemos estudiar los factores que influyen o que bien consideramos que lo puedan hacer, de una manera simultánea y para ello se utilizan unas técnicas estadísticas que se denominan: técnicas multivariantes o multivaribles. En la Investigación Comercial a través de encuestas, se realizan una serie de preguntas, mediante la administración de un cuestionario, que permite mediante su
12
Análisis Multivariante combinación obtener la información acerca del fenómeno objeto de la investigación. Por ejemplo para determinar el estilo de vida, hacemos una batería de preguntas acerca de: la profesión, el nivel de estudios, la renta familiar, el equipamiento del hogar, electrodomésticos, vehículos, hábitos de consumo, hábitat, etc. A través del análisis multivariante lo que hacemos es combinar todas las variables, eliminando la información redundante y se obtiene una nueva variable que no es observable directamente, que representa un concepto abstracto que se puede medir obteniéndose un valor para cada elemento, en el caso del ejemplo lo denominamos estilo de vida. Esta situación la podemos resumir en el siguiente esquema
Esquema 1 Variables observadas 1.1.2
Análisis multivariante
Nueva variable abstracta
¿POR QUÉ SE USAN LAS TÉCNICAS MULTIVARIANTES?
Las técnicas de análisis multivariante se utilizan cada vez más en la investigación comercial por las siguientes razones: 1. Permiten el analizar un gran número de encuestas. Simplificando muchos datos, con la mínima pérdida de información. Consiguiendo hacer más comprensible la información para la mente humana 2. Permiten analizar toda la información acerca de un determinado fenómeno, considerando simultáneamente todos los factores que intervienen. 3. Permiten trabajar con cualquier tipo de variable.
13
Análisis Multivariante 1.2
DEFINICIÓN DEL ANÁLISIS MULTIVARIANTE
Podemos definir las técnicas multivariantes como, un conjunto de métodos estadísticos que permiten el análisis de forma simultánea de mas de dos variables observadas en una Investigación Comercial Desde una concepción amplia podemos definir el Análisis Multivariante como un conjunto de métodos que analizan las relaciones entre un número razonablemente amplio de variables (medidas), tomadas sobre cada elemento de análisis, en una o más muestras simultáneamente.
1.3
ÁREAS
DE
APLICACIÓN
DEL
ANÁLISIS
MULTIVARIANTE El análisis Multivariante es de aplicación en la Investigación Comercial, en las siguientes circunstancias: •
Reducción de datos. Se trata de simplificar la estructura del fenómeno investigado buscando la mayor simplicidad, lo que permitirá una interpretación muy fácil.
•
Clasificación y agrupación Por ejemplo las técnicas de segmentación y tipología
•
Análisis de las relaciones de dependencia, con el fin de predecir o bien explicar
•
1.4
En la construcción de modelos. Econometría
DEFINICIÓN Y CLASIFICACIÓN DE LAS VARIABLES
En las técnicas del análisis multivariante se entiende por variable alguna magnitud que representa la característica de los elementos objeto de investigación que tratamos de medir.
14
Análisis Multivariante En una primera clasificación las variables las podemos clasificar en dos grupos, variables independientes (VI) y variables dependientes (VD). Las variables dependientes son aquellas cuyo comportamiento es explicado o pronosticado por una o más variables independientes. Las variables dependientes también se denominan variables criterio o respuesta, mientras que las variables independientes son las que servirán para explicar el fenómeno estudiado y se en ocasiones se denominan como
variables explicativas, factores o variables
predictoras. En los estudios no experimentales, la situación de las variables no siempre es clara, definiéndose su papel en el contexto de la investigación. Una misma variable puede adoptar diferentes roles en función de situaciones. Cuando existen diferencias sistemáticas en una variable dependiente (Y) asociada a diferentes niveles de variación de la variable independiente (X) se dice que están relacionadas. Si todas las variables desempeñan el mismo papel se habla de relaciones de interdependencia. En este caso no hay una variables con las que se intente explicar el comportamiento de otras. En ocasiones, al analizar el modelo la única forma de diferenciar las variables es simplemente por donde están situadas en la ecuación. 1.4.1
TIPOS DE VARIABLES
Una variable es una característica o propiedad de un elemento (individuo, objeto, transacción, suceso, etc.), que toma distintos valores para cada elemento. En general se clasifican en dos grandes grupos: •
Variables no métricas o cualitativas
•
Variables métricas o cuantitativas
Los diferentes tipos de variable los resumimos a continuación: 15
Análisis Multivariante Variables cuantitativas o métricas: Son aquellas en las que los valores tomados por diferentes individuos tienen un significado propio.
De hecho, son una
medición o cuantificación de una determinada característica, la respuesta a la pregunta: ¿Cuánto/s ? Ejemplos: altura, peso, edad, hijos, ingresos, de un individuo, empleados, oficinas, beneficios, de una empresa, etc. Variables cualitativas o no métricas1:
Son aquellas en las que las distintas
características de los elementos estudiados son cualidades o categorías alfabéticas. Sin embargo, con el fin de facilitar el tratamiento de los datos, estas categorías se convierten en unos códigos, sin que tenga que existir ningún tipo de relación entre el valor asignado y el significado de la categoría representada. Ejemplos: nacionalidad, sexo, religión, estudios cursados, clase social, calificación (Suspenso, Aprobado, Notable, Sobresaliente), etc. 1.4.1.1
CLASIFICACIÓN
POR
LOS
VALORES
QUE
PUEDEN
ADOPTAR De acuerdo con el valor que pueden adoptar las variables estas las podemos clasificar en los siguientes tipos: •
Variable continua. Se trata de una variable cuantitativa que puede adoptar cualquier valor numérico, Para todo par de valores siempre podemos encontrar uno intermedio. Por ejemplo la edad, el consumo de teléfono, ...
•
Variable discreta. Puede adoptar un número finito de valores distintos, entre dos valores consecutivos no se puede encontrar ninguno intermedio. Por ejemplo el número de personas por hogar.
•
Variable dicotómica o binaria. Solo puede tomar dos valores, si se definen como 0 y 1 se llama binaria.
1
Algunos autores las denominan atributos
16
Análisis Multivariante •
Variables ficticias o Dummy. Se utiliza con variables cualitativas, para poder obtener información a través de operaciones, se convierten en binarias, indicando el valor 1 la presencia de una categoría de la variable y 0 su ausencia.
Para realizar la conversión de una variable cualitativa en ficticia se necesitan tantas variables dummy como categorías tiene la variable menos una. Ejemplos de variables Dummy La variable Sexo con las categorías hombre y mujer necesitaría una sola variable dummy D1: Hombre 0 Mujer 1 Consideremos la variable “Color del producto A” que tiene las siguientes categorías 1 Rojo 2 Verde 3 Azul Obtendremos las siguientes Dummy 3 – 1 = 2 que corresponden a: D1 = Rojo 1 Verde y Azul 0 D2 = Verde 1 Rojo y Azul 0 La categoría azul queda definida ya que tiene 0 en las dos ficticias
1.5
ESCALAS DE MEDIDA
Prácticamente todas las investigaciones de mercado recogen los datos en forma de números, interesando al investigador lo que estos números representan, por medio de las correspondientes operaciones de medida. Medir consiste en asignar números a los sucesos, elementos, objetos, atributos, ... según unas normas predeterminadas. Puesto que utilizamos diferentes reglas para la asignación de los números, un mismo número puede dar lugar a diferentes interpretaciones, ello da lugar a la existencia de diferentes escalas de medida. 17
Análisis Multivariante Por escala de medida entenderemos la correspondencia entre los números asignados a las propiedades de los elementos y la significación de los cálculos matemáticos realizadas con los números. Básicamente en el análisis estadístico se utilizan las cuatro escalas siguientes: Nominal, Ordinal, Intervalo y Ratio o de proporción Las características de estas escalas las resumimos a continuación: •
Nominal: los posibles valores de la variable representan diferentes categorías, no existiendo ninguna relación entre el código asignado a una categoría y su significado Ejemplos: profesión, raza, estado civil, ... o Caso particular: variables dicotómicas, sólo admiten dos posibles respuestas.
Ejemplos: sexo, verdadero / falso, si / no, ... Se
denominan binarias si se codifican 0 / 1. •
Ordinal: los códigos o valores de cada categoría mantienen la misma relación de orden que el significado de las categorías. Ejemplos: clase social, escala de preferencia, ...
•
Intervalo: los códigos asignados a diferentes respuestas permiten conocer la magnitud de la característica medida, ya que se mantiene una relación de orden y distancia. Ejemplos: temperatura, fechas, cualquier variable redondeada, ...
•
Ratio o razón: los códigos representan el propio valor de la característica estudiada, observándose una relación de orden y de distancia y la existencia de un origen Ejemplos: cifra de ventas, ratio económicofinanciero, ...
1.6
VARIABLES Y ESCALAS DE MEDIDA
Partiendo de los dos grandes grupos de variables, (cualitativas y métricas), podemos resumir la relación entre las variables y las escalas de medida como sigue: 18
Análisis Multivariante 1. Variables no métricas o cualitativas, vienen medidas en escala nominal u ordinal 2. Variables métricas o cuantitativas se utilizan las escalas de intervalo o de razón. 3. Variables binarias se utiliza la escala de razón 1.6.1
CLASIFICACIÓN EN FUNCIÓN DEL ANÁLISIS DE DATOS
En ocasiones en el estudio se deben realizar transformaciones de escala y origen Las variables las podemos dividir en: Valores o puntuaciones directas, también llamadas brutas, se obtienen directamente del instrumento de medida y en sus mismas dimensiones. Se suelen representar por letras mayúsculas X, Y, Z, ... teniendo medias mX, mY, mZ ... y las correspondientes desviaciones típicas sX, sy, sZ, ... medidas en la misma escala Valores o puntuaciones centradas en la media o diferenciales, son el resultado de un cambio en el origen al obtenerse de la restando de la media el valor, se suelen representar con letras minúsculas (x, y, z, ...) y se obtienen a partir de la siguiente operación
x = X - mX
Este tipo de puntuación tiene de media 0 y una desviación típica igual a la de las puntuaciones originales. Se produce un cambio de origen no de escala. Valores típicos o estandarizados. Se obtienen restando de cada valor la media y dividiendo por la desviación típica. Se suelen representar por la letra Z y el subíndice de a correspondiente categoría de la variable. Se obtienen de Z =
X − mX sX
Los valores tipificados están libres de escala y siempre tienen media igual a 0 y desviación típica igual a 1.
19
Análisis Multivariante 1.7
CLASIFICACIÓN
DE
LAS
TÉCNICAS
MULTIVARIANTES Los diferentes métodos de análisis multivariante no solo difieren entre sí por el objetivo o tipo de resultados obtenidos sino que existen ya diferencias en la tabulación, forma de codificar y en el trabajo con las variables ya que algunos métodos pueden trabajar con variables nominales, mientras que otros solo lo hacen con variables ordinales y métricas. Una clasificación de gran utilidad es el diferenciar las técnicas multivariantes en dos grupos básicos: Métodos descriptivos o de interdependencia y métodos explicativos o de dependencia. Los métodos explicativos o de dependencia se emplean para explicar o proyectar la(s) variable(s) dependiente(s) con base en dos o más variables independientes. Por ejemplo explicar las ventas en función de numerosas variables independientes (número de vendedores, inversión en publicidad, promoción, renta de los consumidores, etc.). Los métodos descriptivos o de interdependencia tratan de dar significado a un conjunto de variables o bien tratan de agrupar las cosas. Por ejemplo cuando realizamos un estudio de segmentación. La clasificación de las técnicas multivariantes las podemos resumir en el siguiente esquema.
20
Análisis Multivariante
TÉCNICAS MULTIVARIANTES
EXISTEN VARIABLES DEPENDIENTES E INDEPENDIENTES
SI
NO
MÉTODOS EXPLICATIVOS
MÉTODOS DESCRIPTIVOS
Los métodos explicativos y descriptivos, a su vez se dividen de acuerdo con diferentes criterios los mas habituales son los que reseñamos en los siguientes esquemas2
2
Apuntes investigación Comercial 2 Facultad de Económicas UAB
21
Análisis Multivariante
22
Análisis Multivariante
23
Análisis Multivariante 1.8
BIBLIOGRAFÍA RECOMENDADA
Análisis Multivariante. Hair, Anderson, otros. Editorial Prentica Hall 5 edición 1999 Técnicas de análisis de datos en Investigación de Mercados. Teodoro Luque (Coordinador), Editorial Pirámide 2000
24
Análisis Multivariante
Métodos Explicativos o de Dependencia
25
Análisis Multivariante
2. METODOS EXPLICATIVOS O DE DEPENDENCIA 2.1
INTRODUCCIÓN
Los métodos explicativos o de dependencia, del análisis multivariante, son técnicas que diferencian entre variables independientes, explicativas o predictoras y variables dependientes o a explicar.
2.2
OBJETIVOS DE LOS MÉTODOS EXPLICATIVOS:
El objetivo principal de los métodos explicativos es: Encontrar la relación existente entre la variable/s dependiente/s y la/s independiente/s: Este objetivo nos conduce a los siguientes objetivos secundarios: •
Explicar el comportamiento de la/s variable/s dependiente/s (Y) Por qué la Y no es igual en todas las observaciones
•
Estimar el efecto de una o varias variables explicativas (X) cuantitativas o binarias ¿Cuáles son las variables X que explican el comportamiento de Y? ¿En cuánto varía la Y frente a un cambio de cada una de las X’s?
•
Predecir el valor de Y Cuál es el valor de Y para unas X’s determinadas Hasta que punto hemos conseguido explicar Y
2.3
TÉCNICAS MAS HABITUALES.
En esta modalidad de análisis multivariable de la información las técnicas más habituales son: La regresión, el análisis de la varianza, segmentación jerarquica análisis discriminante, regresión logística, correlaciones canónicas, análisis de ecuaciones estructurales.
26
Análisis Multivariante
Regresión Lineal
Análisis Multivariante
3. REGRESIÓN LINEAL Al clasificar los métodos explicativos por el número de variables dependientes y las escalas de medida de las variables dependientes e independientes nos encontrábamos que cuando tenemos una sola variable dependiente y todas las mediciones de las diferentes variables están en escala métrica podemos aplicar la técnica denominada regresión De forma esquemática podemos representar esta situación como
METODOS EXPLICATIVOS NÚMERO DE VARIABLES DEPENDIENTES UNA
ESCALA DE MEDIDA DE LA VARIABLE (S) INDEPENDIENTE (S) MÉTRICA
ESCALA DE MEDIDA DE LA VARIABLE DEPENDIENTE MÉTRICA
REGRESIÓN
3.1
CONCEPTO
El análisis de regresión trata de analizar la dependencia de una variable cuantitativa a explicar respecto de una o varias variables explicativas, también cuantitativas. Matemáticamente la regresión la podemos representar como:
Y = f (Xi ) Donde Y es la variable dependiente y Xi representa las diferentes variables independientes. Si solo hay una variable independiente (X) se trata de un modelo de regresión simple 28
Análisis Multivariante Cuando hay dos o más variables independientes se trata de un modelo de regresión múltiple. Si recordamos el modelo de regresión simple o modelo de regresión lineal de primer orden responde a la siguiente fórmula matemática.
y = β0 + β1x + ε donde: y = variable dependiente o variable a explicar x = variable independiente o variable explicativa ε (epsilon) = error o perturbación aleatoria β0 =origen de la recta: punto donde la recta corta el eje de ordenadas o eje de la y. β1 =pendiente de la recta o coeficiente de regresión: nos indica en cuanto aumenta (o disminuye) la variable dependiente por cada incremento en 1 unidad de la variable independiente. Su representación gráfica corresponde a la indicada en la Fig. 1
El modelo de regresión múltiple viene expresado por:
y = β0 + β1 x1 + β2 x2 + . . . + βk xk + ε donde: y = variable dependiente o variable a explicar xi = variables independientes o variables explicativas 29
Análisis Multivariante ε (epsilon) = error o perturbación aleatoria β0 = origen cuando todas las variables independientes son 0 βi = pendiente o coeficiente de regresión de la variable i. Algunos autores utilizan como coeficiente de regresión en el origen
α
en vez de
β 0 La correspondiente ecuación pasa a ser: Y = α + β 1 X1 + β 2 X 2 + β 3 X 3 + β 4 X 4 +... + β n X n + ε Los coeficientes de regresión son en todos los casos los parámetros a estimar.
El modelo de regresión requiere que todas las variables sean métricas, las variables independientes que sean cualitativas o no métricas se pueden convertir en variables métricas ficticias (Dummy) dicotomizándolas, de este modo las convertimos en binarias (0, 1) y por consiguiente las podemos tratar como cuantitativas
3.1.1
MODELOS ESTOCÁSTICOS
En los modelos denominados deterministas, para los diferentes valores de la variables independientes corresponden valores determinados de la variable dependiente. Sin embargo este modelo no suele describir bien las relaciones entre las variables porque no tienen en cuenta las posibles variaciones aleatorias en el valor de la variable independiente (Y) y que, como tales, no se derivan de la variación de las variables dependientes. Como consecuencia de lo expuesto surge la necesidad de otro tipo de modelo que contemple esta situación. Se trata de los denominados modelos estocásticos de regresión, denominados así porque forma parte de ellos una variable aleatoria
ε
denominada error y perturbación aleatoria. Esta variable representa todas las influencias, normalmente desconocidas, que pueden hacer variar la variable dependiente (Y), al margen de las variaciones de las variables independientes (X). 30
Análisis Multivariante La ecuación de este tipo de modelo será:
Y = α + β 1 X1 + β 2 X 2 + β 3 X 3 + β 4 X 4 +... + β n X n + ε 3.2
ANÁLISIS DE REGRESIÓN MÚLTIPLE
El análisis de regresión múltiple es una extensión del análisis de regresión bivariado que nos permite la investigación simultánea del efecto de dos o más variables independientes sobre una variable dependiente medida en escala métrica. Por consiguiente se trata de buscar la ecuación que mejor exprese matemáticamente la relación de los valores de una variable dependiente (Y) con los valores de dos o más variables independientes (X1 X2 X3 .....Xn) consideradas conjuntamente. De esta forma el problema consiste en la identificación de una relación lineal mediante el análisis de regresión múltiple. La ecuación obtenida es del tipo:
y = β0 + β1 x1 + β2 x2 + . . . + βk xk + ε Los coeficientes
β i muestran el efecto sobre la variable de un incremento de una
unidad en la variable independiente correspondiente. Estos coeficientes se les denomina como coeficientes de regresión parcial. El valor original de
βi
es el
coeficiente sencillo de la regresión bivariada, se define como el coeficiente de correlación parcial para el que se mantienen constantes los efectos de las otras variables independientes. La función del coeficiente
β0
consiste en asegurar que la media de los valores de
Y coincide con la media de los valores de X 3.2.1
¿QUÉ NOS INTERESA CONOCER?:
β 0 y β i?
•
¿Cómo se calculan los coeficientes de regresión,
•
¿Cómo se interpretan?
•
¿Cómo se determina si son o no estadísticamente significativos?
•
¿Cómo se comprueban las hipótesis del modelo?
31
Análisis Multivariante 3.3
HIPÓTESIS DEL MODELO DE REGRESIÓN
Hipótesis sobre la forma de la distribución de probabilidad de ε y sobre las variables independientes Partiendo del modelo: y = β0 + β1xI + ... + ε Las correspondientes hipótesis son: •
La media de la distribución de probabilidad de ε es 0. Es decir, la media de los valores de ε para un número infinitamente grande de experimentos es 0 para cada valor de la variable independiente x. Esta hipótesis implica que el valor de la media de y, E(y), para un valor dado de x es E(y) = β0 + β1x.
•
La distribución de probabilidad de ε es normal.
•
Los valores de ε asociados a dos valores cualquiera observados de y, son independientes. Es decir, el valor de ε asociado a un valor de y no tiene ninguna influencia sobre los valores de ε asociados a otros valores de y (esto implica que los errores no están correlacionados consigo mismo o, lo que es lo mismo, no existe autocorrelación de errores).
•
La varianza de la distribución de probabilidad de ε es constante, σ2, para todos los valores de la variable independiente, X (es decir, existe homocedasticidad)
•
No debe existir excesiva colinealidad o multicolinealidad
(correlación
entre las variables independientes). La hipótesis primera se considera ciertas y no se contrasta. Se supone que se cumple con una muestra aleatoria suficientemente amplia. Por otro lado, tampoco hay forma de comprobar que la media de las perturbaciones sea 0 (ya que para los errores la estimación por mínimos cuadrados exige que su media sea 0). 3.3.1
ESTIMACIÓN DEL MODELO DE REGRESIÓN
Los estimadores mínimos cuadrados son los mejores que se pueden conseguir (insesgados, eficientes y consistentes) si se cumplen ciertas hipótesis sobre ε (las perturbaciones) 32
Análisis Multivariante El método de estimación por mínimos cuadrados minimiza la suma de cuadrados de las diferencias entre los valores reales y los estimados de la variable dependiente, o lo que es lo mismo, los errores cometidos en la estimación de la variable dependiente (Y) De conformidad con este criterio la mejor recta es aquella que haga mínima la suma de los cuadrados de los residuos Min∑ ei2
3.3.2
COEFICIENTE
DE
CORRELACIÓN
MÚLTIPLE
Y
COEFICIENTE DE DETERMINACIÓN MÚLTIPLE El coeficiente de correlación múltiple (R) indica el porcentaje de variación en la variable dependiente Y explicado por la variación en las variables independientes Por tanto representa el grado de asociación entre una variable dependiente y dos o más variables independientes tomadas en conjunto. Normalmente en la practica se estudia el cuadrado del coeficiente de correlación o también llamado coeficiente de determinación múltiple (R2), este índice nos indica el tanto por ciento de la variación total de la variable dependiente Y, explicado por la ecuación de regresión y es igual a la razón entre la variación explicada y la variación total de la variable. Por tanto expresa la proporción de la varianza de la variable dependiente explicada por el modelo de regresión Este coeficiente puede variar entre 0 y 1. Si es cero indica la inexistencia de asociación lineal entre la variable dependiente y las independientes tomadas en conjunto, este valor no es incompatible con la posible existencia de una posible correlación curvilínea. Si el valor es 1 indica una asociación perfecta entre las variables. Con el fin de ver en la practica estos conceptos vamos a realizar su estudio a través de un ejemplo. Resultados estadísticos de un análisis de regresión múltiple Y = 102´18 + 0´387 X1 + 115´2 X2 + 6´73 X3 Coeficiente de determinación múltiple (R2) 0´845 Test F 14´5 Grados de libertad numerador = 3 y denominador. = 8 33
Análisis Multivariante El valor R2 = 0´845 nos indica que la variación de las variables independientes representa 84´5% de la varianza en la variable dependiente. Para probar la significación estadística se realiza el análisis ANOVA (la prueba o test F). Esta prueba permite probar las magnitudes relativas de la suma de cuadrados debidas a la regresión (SSr) y la suma de cuadrados de error (SSe), con sus correspondientes grados de libertad. La fórmula correspondiente es
F=
(SSr ) k (SSe ) (n − k − 1)
Donde k es el número de variables independientes y n es el tamaño de la muestra o el número de observaciones o encuestas. Si consideramos que trabajamos con un nivel de significación del 5% el valor correspondiente para F en tablas con 3 y 8 grados de libertad en el numerador y denominador obtenemos que el valor es Ft = 4´07. Por consiguiente como el valor calculado es superior al correspondiente de tablas, obtenemos como conclusión que la relación existente entre las variables independientes y la dependiente no es una consecuencia de la aleatoriedad o azar.
34
Análisis Multivariante
TABLA ESTADÍSTICA: DISTRIBUCIÓN DE LA F NIVEL DE CONFIANZA 95% m N
1
2
3
4
5
1
161´4
199´5
215´7
224´6
230´2
2
18´51
19
19´16
19´25
19´30
3
10´13
9´55
9´28
9´12
9´01
4
7´71
6´94
6´59
6´39
6´26
5
6´61
5´79
5´41
5´19
5´05
6
5´99
5´14
4´76
4,53
4´39
7
5´59
4´74
4´35
4´12
3´97
8
5´32
4´46
4´07
3´84
3´69
9
5´12
4´26
3´86
3´63
3´48
10
4´96
4´10
3´71
3´48
3´33
11
4´84
3´98
3´59
3´36
3´20
12
4´75
3´89
3´49
3´26
3´11
13
4´67
3´81
3´41
3´18
3´03
14
4´6
3´74
3´34
3´11
2´96
15
4´54
3´68
3´29
3´06
2´90
Siendo m los grados de libertad del numerador y n los grados de libertad del denominador. 35
Análisis Multivariante 3.4
COLINEALIDAD
La colinealidad se produce cuando las variables independientes introducidas en el modelo de regresión están correlacionadas entre ellas. Existen diferentes grados de colinealidad, dependiendo del nivel en el que estén correlacionadas las variables independientes. Cuando una variable independiente se puede expresar como una combinación lineal de las otras, la colinealidad es perfecta. En ese caso se puede omitir dicha variable, solucionando la colinealidad. El problema se produce cuando la correlación entre las X’s es alta o muy alta, pero sin llegar a ser total. Debemos ser conscientes de que en casi todos los modelos de regresión múltiple planteados existe cierto grado de colinealidad. Sólo se ha de comprobar que ésta no sea excesiva ni perjudicial. 3.4.1
MATRIZ DE CORRELACIONES
Se trata de una matriz que tiene tantas filas y columnas como número de variables correlacionadas tengamos. En cada celda se indica el coeficiente de correlación entre las variables que se cruzan. La diagonal expresa la correlación de cada variable consigo misma se consignan con 1 ( algunos autores dicen que se dejen vacías). La celdas por debajo de esta diagonal se dejan en blanco, ya que representan las correlaciones entre las casillas en orden invertido ( R12 = R21). 3.4.2
CORRELACIÓN PARCIAL
La correlación múltiple se refiere a modelos en los que se relacionan más de dos variables independientes,. en este tipo de modelo es normal que si tratamos de hallar la correlación simple entre las variables dos a dos, esta no exprese el grado real de asociación entre dichas variables porque el resultado estará con toda seguridad afectado por la influencia en dicha asociación de las demás variables que intervienen en el modelo. Se trata de poder establecer la relación o asociación entre dos de las variables del modelo, eliminando la influencia del resto de variables. Esto es lo que se hace mediante los coeficientes de correlación parcial. Mediante estos coeficientes se puede establecer la correlación entre dos variables, controlando o eliminando el efecto en dicha correlación de otras variables del modelo. 36
Análisis Multivariante Existen diversos tipos de correlación parcial, según el número de variables que se controlan. Cuando no se controla ninguna variable, la correlación entre dos variables, es la correlación simple o total se denomina de orden cero, si hay una variable de control se denomina de orden uno, si se controlan dos variables se trata de una correlación de orden dos y así sucesivamente. 3.4.3
CORRELACIÓN PARCIAL MÚLTIPLE
La correlación parcial múltiple es una modalidad de correlación entre cuatro o más variables, que combina los tipos de correlación parcial y la múltiple Al medir la correlación de más de dos variables estamos realizando una correlación múltiple y si lo hacemos controlando una o más variables, es a su vez una correlación parcial. 3.4.4
MULTICOLINEALIDAD
Se denomina multicolinealidad la existencia de una elevada correlación entre las variables independientes que forman parte del modelo. Se produce cuando las variables explicativas (X) están altamente correlacionadas entre si. Esta circunstancia perturba la explicación de los coeficientes de regresión estimados y sus errores estandar. Cuando esto sucede no es posible separar la influencia propia sobre la variable dependiente de cada una de las variables independientes, produciéndose el efecto de un incremento en los errores estándar de los coeficientes de regresión. La gravedad de la multicolinealidad dependerá del objetivo que se busque con el modelo. Si lo que pretendemos es predecir los valores de la variable dependiente (Y) entonces el problema no es grave, pero si lo es cuando se quiere determinar el efecto de cada variable independiente sobre la dependiente. 3.4.5
EFECTOS DE LA COLINEALIDAD
La colinealidad provoca diferentes efectos, que se manifestarán tanto más cuanto mayor sea la correlación entre las X’s:
37
Análisis Multivariante •
Las desviaciones estándar de los coeficientes de regresión están sobreestimadas, con lo que aparecen como no significativos coeficientes que en realidad sí lo son.
•
Puede suceder que ninguno de los coeficientes de regresión sean distintos de cero (no son significativos) y que, a nivel conjunto, sí que lo sean.
•
Los coeficientes de regresión estimados no son consistentes, es decir, pueden cambiar al modificar la muestra o al introducir diferentes variables en el modelo.
En definitiva, cuando hay colinealidad se consigue explicar la variable Y, pero no se sabe cuál es el efecto de cada una de las X por separado (puesto que todas ellas están relacionadas). 3.4.6
FORMAS DE MEDIR LA COLINEALIDAD
La colinealidad se puede medir de distintas formas: •
Matriz de correlaciones de Pearson entre cada par de variables independientes. Da una idea pero no es concluyente.
•
Tolerancia = (1− R²j), donde R²j es el coeficiente de determinación de la variable Xj frente a todas las demás X’s.
•
Factor de Inflación (o agrandamiento) de la Varianza: (FIV) =1/Tolerancia
38
Análisis Multivariante
3.4.6.1
NIVELES DE COLINEALIDAD
Lo podemos resumir en el siguiente cuadro:
Tolerancia
VIF
Colinealidad:
Toler = 1
VIF = 1
No existe colinealidad
0,3 < Toler < 1
3,33 > VIF > 1
Poca: el modelo no suele presentar efectos (defectos) importantes
0,1 < Toler < 0,3 10 > VIF > 3,33 Elevada: se comienzan a notar las consecuencias de la colinealidad: inconsistencia de los estimadores y pérdida de su significación 0,01
VIF > 10 Excesiva: se producen graves problemas en la interpretación de las X’s ya que sus coeficientes de regresión pueden llegar a cambiar hasta de signo Toler < 0,01
3.4.7
VIF > 100
Colinealidad perfecta: los propios paquetes informáticos dejan fuera la variable (ya que es una combinación lineal de las otras independientes)
SOLUCIÓN AL PROBLEMA DE MULTICOLINEALIDAD
Para dar solución a este problema se recurre al análisis factorial. Se aplica el análisis factorial a las variables independientes correlacionadas entre sí y se sustituyen sus valores por las puntuaciones de los factores obtenidos, que están absolutamente incorrelaccionados entre sí. 3.4.8
COEFICIENTES DE REGRESIÓN
Lo podemos resumir en: Si se cumplen todas las hipótesis del modelo de regresión, la comprobación de la utilidad de cada coeficiente de regresión se realiza de la misma forma que en el análisis de regresión simple:
39
Análisis Multivariante H0 : βi = 0
(la Xi no influye sobre la Y)
Ha : βi ≠ 0 t = Región de rechazo: se rechaza H0 si el nivel de
Estadístico de prueba:
βˆ i
significación observado es pequeño, menor que 0,05
Sβˆ i
Observaciones: El modelo no será eficiente si incluye variables que no sean estadísticamente
explicativas
(las
que
tienen
un
coeficiente
de
regresión
significativamente distinto de 0) Como cada Xi puede estar medida en diferentes unidades, la comparación de los coeficientes de correlación de las diferentes variables se ha de realizar mediante los coeficientes estandarizados
3.4.8.1
SIGNIFICACIÓN DE LOS COEFICIENTES DE REGRESIÓN
El error estándar es la desviación típica estimada del coeficiente de regresión. El intervalo de confianza es el intervalo para el que se establece una probabilidad de que el verdadero valor del coeficiente de regresión esté contenido entre los límites del mismo. La significación del mismo se realiza mediante el estadístico “t” de Student
t=
Coeficiente de regresión Error estándar
Normalmente se contrasta para α = 5% 3.4.8.2
COEFICIENTES DE REGRESIÓN ESTANDARIZADOS
Son aquellos que se obtendrían si se realiza la regresión con todas las variables estandarizadas (sin unidad de medida).
Beta1 = B1 ⋅
Sx Sy
o B1 = Beta1 ⋅
40
Sy Sx
Análisis Multivariante 3.4.9
ANÁLISIS DE LA VARIANZA EN LA REGRESIÓN
Se utiliza para contrastar la hipótesis de dependencia lineal entre la variable dependiente (Y) y las variables independientes (X) La varianza total de la variable dependiente se divide en
3.5
•
Atribuida al modelo de regresión
•
Residuo no explicado por el modelo
MODELOS CON VARIABLES FICTICIAS
Una de la condiciones del análisis de regresión es que las variables deben estar medidas en una escala métrica. Este análisis también se puede aplicar a variables cualitativas, con escala nominal u ordinal, para ello es necesario transformar estas variables en otras denominadas ficticias (Dummy), esto se hace de acuerdo con el álgebra de Boole, dando el valor 1 a la posesión del atributo y el 0 a la carencia.
41
Análisis Multivariante
3.6
TABLA ESTADÍSTICA:DISTRIBUCIÓN T DE STUDENT Valores de la función de distribución g.l. = grados de libertad tc tal que p(t<=tc)=p
g.l. 1 2 3 4 5
Probabilidad p 0,995 0,990 0,975 0,950 0,900 0,800 0,750 0,700 0,600 0,550 63,657 31,821 12,706 9,925 6,965 4,303 5,841 4,451 3,183 4,604 3,747 2,786 4,032 3,365 2,571
6,314 2,920 2,353 2,132 2,015
3,078 1,876 1,638 1,533 1,478
1,376 1,061 0,978 0,941 0,920
1,000 0,816 0,765 0,741 0,727
0,727 0,617 0,584 0,569 0,559
0,325 0,289 0,277 0,271 0,267
0,158 0,142 0,137 0,134 0,132
6 7 8 9 10
3,707 3,499 3,355 3,250 3,169
3,143 2,998 2,895 2,821 2,764
2,457 2,365 2,306 2,262 2,228
1,943 1,895 1,860 1,833 1,812
1,440 1,415 1,397 1,383 1,372
0,906 0,896 0,889 0,883 0,879
0,718 0,711 0,706 0,703 0,700
0,553 0,549 0,546 0,543 0,542
0,265 0,263 0,262 0,261 0,260
0,131 0,130 0,130 0,129 0,129
11 12 13 14 15
3,106 3,055 3,012 2,987 2,947
2,728 2,681 2,650 2,624 2,602
2,201 2,179 2,160 2,145 2,131
1,796 1,782 1,771 1,761 1,753
1,363 1,356 1,350 1,345 1,341
0,876 0,873 0,870 0,868 0,866
0,697 0,695 0,694 0,692 0,691
0,540 0,539 0,538 0,537 0,536
0,260 0,259 0,259 0,258 0,258
0,129 0,128 0,128 0,128 0,128
16 17 18 19 20
2,921 2,898 2,888 2,861 2,845
2,583 2,567 2,552 2,539 2,528
2,120 2,110 2,101 2,093 2,086
1,746 1,740 1,734 1,729 1,725
1,337 1,333 1,330 1,328 1,325
0,865 0,863 0,862 0,861 0,860
0,690 0,689 0,688 0,688 0,687
0,535 0,534 0,534 0,533 0,533
0,258 0,257 0,257 0,257 0,257
0,128 0,128 0,127 0,127 0,127
21 22 23 24 25
2,831 2,819 2,807 2,797 2,787
2,518 2,508 2,500 2,492 2,485
2,080 2,074 2,069 2,064 2,060
1,721 1,717 1,714 1,711 1,708
1,323 1,321 1,319 1,318 1,316
0,859 0,858 0,858 0,857 0,856
0,686 0,686 0,685 0,685 0,684
0,532 0,532 0,532 0,531 0,531
0,257 0,256 0,256 0,256 0,256
0,127 0,127 0,127 0,127 0,127
26 27 28 29 30
2,779 2,771 2,763 2,756 2,750
2,479 2,473 2,467 2,462 2,457
2,056 2,052 2,048 2,045 2,042
1,706 1,703 1,701 1,699 1,697
1,315 1,314 1,313 1,311 1,310
0,856 0,855 0,855 0,854 0,854
0,684 0,684 0,683 0,683 0,683
0,531 0,531 0,530 0,530 0,530
0,256 0,256 0,256 0,256 0,256
0,127 0,127 0,127 0,127 0,127
40 60
2,704 2,660
2,423 2,390
2,021 2,000
1,684 1,671
1,303 1,296
0,851 0,848
0,681 0,679
0,529 0,527
0,255 0,254
0,126 0,126
42
Análisis Multivariante 3.7
EJEMPLO 1
Se quiere estudiar las ventas en función de las inversiones en publicidad, promoción, el número de vendedores y el de puntos de venta (Tienda). Para ello se tienen en cuenta los siguientes resultados3
VENTAS PUBLICIDAD PROMOCIÓN VENDEDORES 1400 52 130 25 1500 60 145 30 2000 80 150 30 1990 95 200 27 2100 87 180 35 2300 100 150 32 2200 94 150 36 2700 125 125 34 2750 136 98 26 2600 124 100 30 2763 132 87 28 3469 190 100 31 3165 197 102 42 3400 175 198 29 3759 186 212 18 3896 213 129 21 3895 231 142 20 4123 248 167 19 4230 257 198 21 4567 340 158 18 3986 425 98 21
3
Tratamiento mediante programa DYANE.3
43
TIENDAS 300 400 500 500 400 357 287 197 146 150 160 198 300 234 126 157 134 128 115 116 138
Análisis Multivariante ANÁLISIS DE REGRESIÓN MÚLTIPLE IDENTIFICACIÓN DE LAS VARIABLES VARIABLE DEPENDIENTE: VENTAS VARIABLES INDEPENDIENTE 1: inversión en publicidad VARIABLES INDEPENDIENTE 2: inversión en promoción VARIABLES INDEPENDIENTE 3: número de vendedores VARIABLES INDEPENDIENTE 4: número de puntos de venta
Matriz de coeficientes de correlación simple: ventas publicid promo vendedor tiendas -------- -------- -------- -------- -------ventas
1.0000
0.8868
0.0884
-0.5988
-0.7814
publicid
0.8868
1.0000
-0.0652
-0.5631
-0.6666
promo
0.0884
-0.0652
1.0000
-0.2779
0.2304
vendedor
-0.5988
-0.5631
-0.2779
1.0000
0.5508
tiendas
-0.7814
-0.6666
0.2304
0.5508
1.0000
Coeficiente de determinación: 0.9033 Coeficiente de correlación múltiple: 0.9504 Coeficiente de regresión alfa: 1416.4829
Análisis Multivariante
VARIABLE
MEDIA
publicid
2990.1429 168.9048
SUMA DE
PROPORC.
DESVIACIÓN
COEFICIENTE
ERROR
T DE
CORREL.
CUADRADOS
VARIANZA
ESTÁNDAR
REGRESIÓN
ESTÁNDAR
STUDENT
PARCIAL
AÑADIDA
AÑADIDA
-------- -------------- --------------
ventas
COEFIC.
----------- ---------- -------- ------- -------------------- --------
946.7194 94.4955
6.5105
1.1022
5.9068
0.8280
14098343.7977
0.7865
0.5804
384920.6320
0.0215
p=0.0000
promo
143.7619
38.4862
6.4704
2.2696
2.8509 p=0.0116
vendedor
27.2857
6.6268
13.4207
16.0705
0.8351
0.2044
86916.2111
0.0048
-3.8672 -0.6951
1621077.2282
0.0904
p=0.4160
tiendas
239.7619
127.1314
-3.4300
0.8869
p=0.0014 -------------------- -------16191257.8689
45
0.9033
Análisis Multivariante ANÁLISIS DE LA VARIANZA FUENTE DE VARIACIÓN
GRADOS LIBERTAD
----------------------
---------------
Debida a la regresión: Residuo:
Varianza total:
SUMA CUADRADOS
MEDIA CUADRADOS
---------------------
---------------------
4
16191257.8689
4047814.4672
16
1734292.7025
108393.2939
---
---------------------
20
17925550.5714
F de Snedecor con 4 y 16 grados de libertad = 37.3438
46
(p= 0.0000)
Análisis Multivariante ANEXO: A N Á L I S I S D E C O M P O N E N T E S P R I N C I P A L E S IDENTIFICACIÓN DE LAS VARIABLES -------------------------------
VARIABLE VARIABLE VARIABLE VARIABLE
1 2 3 4
: : : :
inversión inversión número de número de
en publicidad en promoción vendedores puntos de venta
Matriz de coeficientes de correlación simple -------------------------------------------publicid promo vendedor tiendas -------- -------- -------- -------publicid 1.0000 -0.0652 -0.5631 -0.6666 promo -0.0652 1.0000 -0.2779 0.2304 vendedor -0.5631 -0.2779 1.0000 0.5508 tiendas -0.6666 0.2304 0.5508 1.0000 Test de Bartlett ---------------Determinante de la matriz de correlación = 0.247672 Ji cuadrado con 6 grados de libertad = 24.8891 (p = 0.0004) FACTOR 1 FACTOR 2 FACTOR 3 FACTOR 4 -------- -------- -------- -------VALOR PROPIO: 2.1890 1.1866 0.3582 0.2662 % DE VARIANZA: 54.72% 29.67% 8.95% 6.65% % VAR.ACUMUL.: 54.72% 84.39% 93.35% 100.00% CARGAS DE LOS FACTORES: publicid promo vendedor tiendas
-0.8756 0.0272 0.8125 0.8726
-0.0778 0.9698 -0.4079 0.2716
0.4658 0.1193 0.3109 0.1742
COMUNALIDAD ----------0.1018 1.0000 -0.2111 1.0000 -0.2771 1.0000 0.3668 1.0000
COEFICIENTES DE PUNTUACIÓN DE LOS FACTORES: publicid promo vendedor tiendas
-0.4000 0.0124 0.3712 0.3986
-0.0656 0.8172 -0.3437 0.2288
47
1.3004 0.3332 0.8678 0.4863
0.3825 -0.7929 -1.0409 1.3778
Análisis Multivariante Cargas de los factores retenidos: ---------------------------------
publicid promo vendedor tiendas
FACTOR 1 --------0.8756 0.0272 0.8125 0.8726
FACTOR 2 --------0.0778 0.9698 -0.4079 0.2716
COMUNALIDAD ----------0.7727 0.9412 0.8266 0.8351
ROTACIÓN VARIMAX:
Cargas de los factores retenidos (después de la rotación): ---------------------------------------------------------FACTOR 1 --------0.8777 0.0612 0.7977 0.8816
FACTOR 2 --------0.0470 0.9682 -0.4362 0.2407
VARIANZA: 2.1877 % DE VARIANZA: 54.69% % VAR.ACUMUL.: 54.69%
1.1879 29.70% 84.39%
publicid promo vendedor tiendas
48
COMUNALIDAD ----------0.7727 0.9412 0.8266 0.8351
Análisis Multivariante
3.8
EJEMPLO2 4
A través de un análisis factorial, una empresa de suavizantes ha determinado que los tres conceptos básicos que caracterizan a su producto son: Suavidad, Aroma y Cremosidad. Ahora quiere comprobar cuál o cuáles de ellos influye/n en la intención de compra. Estadísticos descriptivos
Intención de compra Suavidad Aroma Cremosidad
Media 3.72 .00 .00 .00
Desviación típ. 1.12 1.00 1.00 1.00
N 830 830 830 830
Correlaciones
Correlación de Pearson
Sig. (unilateral)
N
Intención de compra Suavidad Aroma Cremosidad Intención de compra Suavidad Aroma Cremosidad Intención de compra Suavidad Aroma Cremosidad
Intención de compra
Suavidad
1.000
.565
.458
.238
.565 .458 .238
1.000 .000 .000
.000 1.000 .000
.000 .000 1.000
.
.000
.000
.000
.000 .000 .000
. .500 .500
.500 . .500
.500 .500 .
830
830
830
830
830 830 830
830 830 830
830 830 830
830 830 830
Aroma
Cremosidad
Como se puede apreciar en estas tablas, éste es un ejemplo peculiar pues entre las variables independientes no existe ninguna correlación. Esto es lógico pues el análisis factorial de componentes principales con rotaciones ortogonales genera variables no correlacionadas entre ellas. Por otro lado, las variables obtenidas están estandarizadas (media 0, desviación típica 1) y así deberán ser interpretadas.
4
Autor: Teresa Obis ( Profesora Titular Universidad Autónoma de Barcelona UAB)
49
Análisis Multivariante
Resumen del modelo
Modelo 1
R .765a
R cuadrado .586
R cuadrado corregida .584
Error típ. de la estimación .72
a. Variables predictoras: (Constante), Cremosidad, Aroma, Suavidad
ANOVAb
Modelo 1
Regresión Residual Total
Suma de cuadrados 606.060 428.404 1034.464
gl 3 826 829
Media cuadrática 202.020 .519
F 389.513
Sig. .000a
a. Variables predictoras: (Constante), Cremosidad, Aroma, Suavidad b. Variable dependiente: Intención de compra
A nivel global el modelo obtenido es satisfactorio. Se ha conseguido explicar el 58,6% de la variabilidad total de Y, la intención de compra. Además, como se puede ver en la tabla ANOVA, esta varianza explicada es suficientemente grande respecto a la residual con lo que este modelo es capaz de explicar los cambios producidos en la Intención de compra. Coeficientesa
1
(Constante) Suavidad Aroma Cremosidad
Coeficientes no estandarizados Error típ. B 3.717 .025 .631 .025 .512 .025 .266 .025
Coefic. estandar. Beta .565 .458 .238
t 148.689 25.228 20.465 10.644
Sig. .000 .000 .000 .000
Intervalo de confianza para B al 95% Límite Límite inferior superior 3.668 3.766 .582 .680 .463 .561 .217 .315
a. Variable dependiente: Intención de compra
A nivel individual, todos los coeficientes de regresión son significativamente distintos de 0. Por ello, todas las variables incluidas en el modelo aportan explicación sobre la Intención de compra. En concreto, por una unidad estándar de Suavidad, la Intención de compra aumenta en 0,631 puntos (en una escala de 1 a 5). Una unidad estándar de Aroma provoca un aumento, en promedio, de 0,512 puntos en la Intención de compra y una de Cremosidad de 0,266 puntos. Obsérvese como en este caso las Betas coinciden con las correlaciones de Pearson entre cada una de las variables independientes y la dependiente. Esto es lógico ya que, no al existir correlación entre las X’s, cada una de ellas aporta al modelo lo mismo que es capaz de explicar individualmente.
50
Análisis Multivariante
ANEXO Caso: Inmobiliaria Nuez (Teresa Obis Artal)
51
Análisis Multivariante
4. ANÁLISIS DE REGRESIÓN. RESUMEN CONCEPTOS El modelo de regresión lineal de primer orden y = β0 + β1x + ε donde: y = variable dependiente o variable a explicar x = variable independiente o variable explicativa ε (epsilon) = error o perturbación aleatoria β0 = origen de la recta: punto donde la recta corta el eje de ordenadas o eje de la y. β1 = pendiente de la recta o coeficiente de regresión: nos indica en cuanto aumenta (o disminuye) la variable dependiente por cada incremento en 1 unidad de la variable independiente.
Qué nos interesa: 1. 2. 3. 4.
Cómo se calculan los coeficientes de regresión, β0 y β1 Cómo se interpretan Cómo se determina si son o no estadísticamente significativos Cómo se comprueban las hipótesis del modelo
52
Análisis Multivariante 4.1
ESTIMACIÓN
DEL
MODELO
DE
REGRESIÓN
POR
MÍNIMOS CUADRADOS ORDINARIOS Con los datos de la muestra se pueden estimar los parámetros desconocidos del modelo del siguiente modo: y = β0 + β1x + ε
y∃ = β∃0
+
β∃1 x
y∃i = β∃0
+ 40xi
yi - y∃i = yi - ( β∃0 + β∃1 xi) n
SSE (Suma de Errores al Cuadrado) =
∑ [ yi - ( β∃0 + β∃1 x )] i
i =1
2
La recta de mínimos cuadrados ordinarios es, precisamente, aquella que minimiza la suma de los errores cuadrados. Fórmulas para obtener los estimadores mínimos cuadrados Pendiente:
SSxy β∃1 = SSxx
Origen:
n
SSxy =
∑ xi yi −
∑x) ( ∑x − i=1
∑ yi
i =1
n
SSxx =
y - β∃1 x
n
∑ xi
i =1
n
i=1
n
=
( )( ) n
donde
β∃0
2
i
2 i
i=1
n
n = tamaño de la muestra
Los estimadores mínimos cuadrados son los mejores que se pueden conseguir (insesgados, eficientes y consistentes) si se cumplen ciertas hipótesis sobre ε (los errores)
53
Análisis Multivariante 5. EJEMPLO 1 DE ANÁLISIS DE REGRESIÓN LINEAL La Inmobiliaria Nuez ha recibido quejas de dos de sus clientes, acusándola de que vende los pisos por debajo del precio de mercado. Para demostrar su buen hacer, el gerente de esta inmobiliaria ha conseguido información sobre ventas de pisos de los últimos cuatro meses de su inmobiliaria y de otros competidores. En el fichero de datos se dispone del precio de venta del piso así como de la superficie del mismo (en m2), el número de habitaciones, la antigüedad de la vivienda, en qué zona se localiza, el mes de la venta y si lo ha vendido la Inmobiliaria Nuez u otra agencia. ¿El precio de la vivienda es significativamente diferente según cuál sea la inmobiliaria que lo ha vendido?
Descriptivos precio vivienda (miles euros)
Otra Nuez Total
N 469 49 518
Media 56,697 52,477 56,298
Desviación típica 10,931 8,920 10,820
Error típico ,505 1,274 ,475
Intervalo de confianza para la media al 95% Límite Límite inferior superior 55,706 57,689 49,915 55,039 55,364 57,232
Mínimo 31,205 35,000 31,205
Máximo 89,819 78,494 89,819
CONCEPTOS BÁSICOS: Media: es la suma de los valores de las observaciones dividido por el número de observaciones. Desviación típica: raíz cuadrada positiva de la suma de cuadrados de las distancias entre la media y cada elemento, dividido por el número total de observaciones (menos una). Es decir, es una distancia promedio entre las observaciones y la media. Error típico: se calcula como la desviación típica divida por la raíz de n (tamaño de la muestra). Es la desviación típica de la distribución muestral de las medias. Es decir, es la distancia promedio entre las medias de distintas muestras y la media de la población. Intervalo de confianza para la media al 95%: se calcula como la media de la muestra ±1,96 veces el error típico. Es el intervalo donde se encuentra la media de la población al 95% de confianza.
5.1
COEFICIENTES DE REGRESIÓN NO ESTANDARIZADOS:
¿Cómo influye la superficie de la vivienda en el precio de la misma?
54
Análisis Multivariante
Coeficientesa
1
Coeficientes no estandarizados B Error típ. (Constante) 13,819 1,874 superficie de la vivienda (m2) ,477 ,021
Coeficientes estandarizados Beta
t 7,374 23,037
,712
Sig. ,000 ,000
a. Variable dependiente: precio vivienda (miles euros)
Constante β 0: En el origen, cuando todas las variables son cero (es decir, un piso sin superficie) el precio del piso es de 13819 Euros. Pendiente β 1: Por cada m² de más del piso, su precio aumenta en 477 Euros. 5.2
CAMBIO EN LA MEDIDA DE X E Y. EFECTO EN β 0 Y β 1 Coeficientesa
1
(Constante) superficie de la vivienda (m2)
Coeficientes no estandarizados B Error típ. 13818,516 1873,995 477,027 20,707
Coeficientes estandarizados Beta ,712
t 7,374 23,037
Sig. ,000 ,000
a. Variable dependiente: precio de la vivienda (euros)
Coeficientesa
1
(Constante) superficie de la vivienda (m2)
Coeficientes no estandarizados B Error típ. ,013819 ,001874 ,000477 ,000021
Coeficientes estandarizados Beta ,712
t 7,374 23,037
Sig. ,000 ,000
t 7,374 23,037
Sig. ,000 ,000
a. Variable dependiente: precio de la vivivenda (millones euros)
Coeficientesa
1
(Constante) superficie vivienda (cm2)
Coeficientes no estandarizados B Error típ. 13,819 1,874 ,0000477 ,0000021
Coeficientes estandarizados Beta ,712
a. Variable dependiente: precio vivienda (miles euros)
5.3
COEFICIENTES DE REGRESIÓN ESTANDARIZADOS
Son aquellos que se obtendrían si se realiza la regresión con todas las variables estandarizadas (sin unidad de medida). Beta0: Al restar las medias, la constante estándar siempre es 0 55
Análisis Multivariante
Beta1 = B1 ⋅
Sx Sy
o B1 = Beta1 ⋅
Sy Sx
Coeficientesa
1
Coeficientes no estandarizados B Error típ. (Constante) 13,819 1,874 superficie de la vivienda (m2) ,477 ,021
Coeficientes estandarizados Beta ,712
t 7,374 23,037
Sig. ,000 ,000
a. Variable dependiente: precio vivienda (miles euros)
COEFICIENTES DE REGRESIÓN ESTANDARIZADOS: Constante βETA0: la recta de regresión con variables estandarizadas pasa siempre por el origen. Cuando se estandarizan las variables se hace un cambio de ejes y se sitúan en el valor medio de X e Y, por donde pasa la recta de regresión
100
90
precio vivienda (miles euros)
80
70
60
50
40
30 40
60
80
100
120
140
superficie de la vivienda (m2)
Pendiente βETA1: Por cada unidad estándar de más de superficie del piso, el precio aumenta en 0,712 unidades estándares de precio Estadísticos descriptivos Media 56,298 89,05
precio vivienda (miles euros) superficie de la vivienda (m2)
0,712
5.4
u.e. Y . . u e X
•
(
Desviación típ. 10,820 16,15
10,82 miles euros u.e. Y
(
16,15 m
2
u.e. X
)
)
= 0, 477
N 518 518
miles euros m2
COEFICIENTE DE CORRELACIÓN DE PEARSON
El coeficiente de correlación de Pearson, ρ o R, es una medida que resume la relación lineal [recta] existente entre dos variables. 56
Análisis Multivariante
SSxy
ρ=
SSxx SS yy
=∑
( x i − x )( yi − y) (n − 1)s x s y
De esta forma, se dispone de una medida de la relación entre x e y que no depende de las unidades de las variables originales. De hecho, el coeficiente de correlación de Pearson es el coeficiente de regresión (pendiente de la recta) cuando las variables x e y
100
100
90
90
80
80
precio vivienda (miles euros)
precio vivienda (miles euros)
se introducen en el modelo de forma estandarizada (Beta).
70
60
50
40
30 40
60
80
100
120
140
70
60
50
40
30 -2
superficie de la vivienda (m2)
0
2
4
6
8
10
Arreglos (de 0 -nada- a 10)
Correlación positiva
Correlación negativa
100 100 90 90 80
precio vivienda (miles euros)
precio vivienda (miles euros)
80 70
60
50
40
30 0
2
4
6
8
10
12
14
70
60
50
40
30 0
10
20
Antigüedad de la casa (años) Distancia centro (Km)
Sin correlación
Sin correlación lineal
El coeficiente de correlación de Pearson toma valores entre –1 y 1. Cuando más próximo a ±1 sea, mayor será la relación lineal existente entre las dos variables (positiva o negativa). Si la correlación de Pearson es 0, no existe relación rectilínea entre las dos variables. En este caso B1 también será igual a 0. 57
Análisis Multivariante
Estadísticos descriptivos N precio vivienda (miles euros) superficie de la vivienda (m2) Arreglos (de 0 -nada- a 10) Antigüedad de la casa (años) Distancia centro (Km) N válido (según lista)
518 518 518 518 518 518
Mínimo 31.205 51 .00 1 .88
Máximo 89.819 137 9.50 13 19.46
Media 56.298 89.05 5.10 6.18 10.57
Desv. típ. 10.820 16.15 1.70 2.08 5.21
Correlaciones
precio vivienda (miles euros) superficie de la vivienda (m2) Arreglos (de 0 -nada- a 10)
Antigüedad de la casa (años) Distancia centro (Km)
Correlación Pearson Sig. (bilateral) N Correlación Pearson Sig. (bilateral) N Correlación Pearson Sig. (bilateral) N Correlación Pearson Sig. (bilateral) N Correlación Pearson Sig. (bilateral) N
precio superfici Arreglos Antigüed vivienda e de la (de 0 ad de la (miles vivienda -nada- a casa euros) (m2) 10) (años) 1.000 .712** -.667** -.004 . .000 .000 .930 518 518 518 518 .712** 1.000 -.951** .055 .000 . .000 .214 518 518 518 518 -.667** -.951** 1.000 -.069 .000 .000 . .116
Distanci a centro (Km) .061 .163 518 -.002 .966 518 -.014 .748
518
518
518
518
518
-.004 .930 518 .061 .163 518
.055 .214 518 -.002 .966 518
-.069 .116 518 -.014 .748 518
1.000 . 518 -.014 .755 518
-.014 .755 518 1.000 . 518
**. La correlación es significativa al nivel 0,01 (bilateral).
Entre el precio de la vivienda y las otras cuatro variables aparecen 2 correlaciones próximas a 1 (lo que indica relación lineal entre cada una de ellas y el precio) y otras 2 correlaciones próximas a 0 (lo que indica que no existe relación entre ellas y el precio, o que la relación no es rectilínea)
58
Análisis Multivariante
COMPROBACIÓN DE LA BONDAD DEL MODELO: INFERENCIAS ACERCA DE LA PENDIENTE β1 (o ρ) Distribución muestral de
β∃1
Si las hipótesis sobre ε se cumplen, la distribución muestral de
β∃1 , el estimador de la
pendiente por mínimos cuadrados, seguirá una normal con una media β1 (la verdadera pendiente) y desviación estándar igual a
σ
σβ∃1 =
SSxx
donde σ es la desviación típica de la perturbación (o estimación). Intervalo de confianza al 100(1-α)% para la pendiente β 1
β∃1 ± tα/2 S β∃1
donde
S β∃1 =
S SSxx
y tα/2 se calcula con (n-2) grados de libertad.
Contraste sobre la utilidad del modelo H0 : β1 = 0
(la X no influye sobre la Y)
Ha : β1 ≠ 0 Estadístico de prueba: t =
β∃1 β∃1 = s Sβ∃1 SSxx
Región de rechazo: t < - tα/2 o t > tα/2;donde tα/2 tiene (n-2) g.l. También se puede rechazar la H0 cuando el nivel de significación observado (probabilidad de equivocarme si rechazo H0) sea suficientemente pequeño, menor que 0,05 o 0,10 Supuestos: Hipótesis sobre la distribución de probabilidad de ε
59
Análisis Multivariante 5.5
EN NUESTRO EJEMPLO SOBRE EL PRECIO DE LOS PISOS: Coeficientesa
1
(Constante) superficie de la vivienda (m2)
Coeficientes no estandarizados Error típ. B 13.819 1.874 .477
.021
Coefic. estand. Beta .712
t 7.374
Sig. .000
23.037
.000
Intervalo confianza para B al 95% Límite Límite inferior superior 10.137 17.500 .436
.518
a. Variable dependiente: precio vivienda (miles euros)
Cuando aumenta la superficie de la vivienda en 1 m2 el precio de la misma aumenta en 477 euros, en promedio. Al 95% de confianza, el incremento podría situarse entre 436 euros y 518 euros. Coeficientesa
1
(Constante) Arreglos (de 0 -nada- a 10)
Coeficientes no estandarizados Error B típ. 77.931 1.121 -4.240
.208
Coefic. estand. Beta -.667
t 69.543
Sig. .000
-20.349
.000
Intervalo confianza para B al 95% Límite Límite inferior superior 75.730 80.133 -4.649
-3.831
a. Variable dependiente: precio vivienda (miles euros)
Cuando la percepción de arreglos a realizar en la vivienda aumenta un punto en la escala de 10 el precio disminuye en 4240 euros, en promedio. Coeficientesa
1
(Constante) Antigüedad de la casa (años)
Coeficientes no estandarizados Error B típ. 56.422 1.489 -.020
.228
Coefic. estand. Beta -.004
t 37.890
Sig. .000
-.088
.930
Intervalo confianza para B al 95% Límite Límite inferior superior 53.497 59.348 -.469
.429
a. Variable dependiente: precio vivienda (miles euros)
Al aumentar la antigüedad de la vivienda en 1 año el precio de la misma no varía significativamente. Es decir, sea cual sea la antigüedad de la casa el precio previsto será siempre el mismo: 56422 euros (aproximadamente, el promedio de precio de las observaciones disponibles).
60
Análisis Multivariante 5.6
COEFICIENTE DE DETERMINACIÓN
Podemos preguntarnos, ¿por qué la Y no es igual para todos?
( yi − y ) = ( yi − yˆ i ) + ( yˆi − y )
∑ ( yi − y ) 2
=
∑ ( yˆ i − y ) 2
+
∑ ( yi − yˆ i ) 2
SSyy (total) = SSR (explicada) + SSE (residual)
El coeficiente de determinación, R2, representa la proporción de la variabilidad total de la muestra respeto a
y
que es explicada por la relación lineal entre x e y. Se calcula
como: 2
R =
5.7
(yi − yˆ i ) 2 Variabilidad explicada ∑ = 1− = 2 Variabilidad total SS yy ∑ (yi − y )
SSR
COMPROBACIÓN
DE
LA
BONDAD
GLOBAL
DEL
MODELO: ANALISIS DE LA VARIANZA Contraste sobre la utilidad global del modelo H0 : R² = 0 (En la regresión simple coincide con la inferencia sobre β1) Ha : R² ≠ 0 Estadístico de prueba:
F=
R2 SS yy − SSE Varianza explicada k −1 = k − 12 = SSE Varianza residual 1− R n−k n−k
Donde n es el tamaño de la muestra y k el número total de variables en el modelo (dependiente+independiente/s) Región de rechazo: cuando el valor de F sea suficientemente grande según las tablas o cuando nivel de significación observado (la probabilidad de equivocarnos si rechazamos la H0) sea suficientemente pequeño, menor que 0,05 o 0,10. Supuestos: Hipótesis sobre la distribución de probabilidad de ε.
61
Análisis Multivariante En nuestro ejemplo del precio del piso explicado a través de su superficie, los estadísticos globales del modelo son: Resumen del modelo Modelo 1
R ,712a
R cuadrado ,507
R cuadrado corregida ,506
Error típ. de la estimación 7,6044
a. Variables predictoras: (Constante), superficie de la vivienda (m2)
ANOVAb Modelo 1
Regresión Residual Total
Suma de cuadrados 30689,069 29838,571 60527,639
Media cuadrática 30689,069 57,827
gl 1 516 517
F 530,708
Sig. ,000a
a. Variables predictoras: (Constante), superficie de la vivienda (m2) b. Variable dependiente: precio vivienda (miles euros)
Con las variables incluidas en el modelo, la superficie de la vivienda y una constante, se ha conseguido explicar el 50,7% de la variabilidad del precio del piso (30689 / 60527). Por otro lado, la varianza explicada es 530 veces la residual (30689 / 57). Como la significación de la F es menor que 0,05 podemos afirmar que esta varianza explicada es suficientemente grande. Es decir, hemos conseguido explicar porqué el precio no es igual en todas las viviendas (por la superficie de la misma). 5.8 •
PRECAUCIONES EN EL ANÁLISIS DE REGRESIÓN Cuando se rechaza la H0 sobre la utilidad del modelo por medio de la significación de la F se dice que el modelo es “útil” (con un determinado nivel de confianza). Sin embargo, útil no significa que necesariamente sea el mejor. Algún otro modelo podría ofrecer mejores estimaciones y predicciones.
•
Un coeficiente de determinación (o de correlación) “alto” no significa que sea muy próximo a 1, ni un coeficiente “bajo” que sea próximo a 0 (no existe relación). La significación del test de la F (o de la t) es la que dirá si dicho coeficiente es suficientemente grande o no (estadísticamente diferente de 0). 62
Análisis Multivariante •
La ausencia de correlación entre dos variables puede indicar, simplemente, que la relación entre ambas no es rectilínea.
•
Un nivel de correlación elevado no implica necesariamente la existencia de una relación de CAUSALIDAD entre las variables analizadas. Se pueden encontrar altas correlaciones por CASUALIDAD, lo que se denomina relaciones espurias. Se producen porque ambas variables están correlacionadas con una tercera variable.
5.9
OTROS AJUSTES DE BONDAD DEL MODELO
R cuadrado corregida,
R 2:
si se introduce una nueva variable en el modelo, la R2
siempre aumenta (ya que se consigue explicar algo más, aunque sea muy poco). De la misma manera, al quitar una variable la R2 siempre disminuye (aunque sea muy poco). Como nos interesa saber si es conveniente introducir/quitar una variable en el modelo, se ajusta la R2 según los grados de libertad:
R 2 = R2 − De esta manera, un aumento de la
k −1 (1 − R 2 ) n−k
R2
indica que el modelo ha mejorado al
introducir/quitar una variable.
Desviación típica de la perturbación o de la estimación, σ: Aún en la población, la estimación de Y para una X concreta puede tener cierto error, ε. Por este motivo se dice que ésta es una fuente de error propio del modelo de regresión. La variabilidad de este error intrínseco se mide por σ. Esta desviación típica de la estimación se estima por:
ei2 ∑ σ ≈s = 2
2
n−k
63
Análisis Multivariante
5.10 USO DEL MODELO PARA ESTIMAR Y PREDECIR Error muestral para el estimador de la media de y: La desviación típica de la distribución muestral del estimador del valor medio de y para un valor de x, por ejemplo xp, viene dada por:
1 ( xp − x) σ y∃ = σ + n SSxx
2
Se debe al error muestral: por trabajar con datos de una muestra
Error muestral para el estimador de un valor concreto de y: La desviación típica del error de la predicción de un valor concreto y cuando x = xp, (y y∃), es:
1 ( xp − x) σ ( y − y∃) = σ 1 + + n SSxx
2
Por tanto, la varianza total del error de pronóstico se divide en dos partes: varianza debida a la perturbación aleatoria (σ²) y la varianza debida al error muestral.
64
Análisis Multivariante
Intervalo de confianza al 100(1-α)% para el valor medio de y cuando x = xp y∃± tα/2 (la desviación estándar estimada de y∃)
1 ( xp − x) +
2
y∃± tα/2 s
n
; donde tα/2 tiene (n-2) g.l.
SSxx 100
90
precio vivienda (miles euros)
80
70
60
50
40
30 40
60
80
100
120
140
superficie de la vivienda (m2)
por dónde puede estar la recta de la población
Intervalo de confianza al 100(1-α)% para un valor individual de y cuando x = xp y∃ ± tα/2 [la desviación estándar estimada para (y - y∃)]
1 ( xp − x) 1+ + ; donde t 2
n
SSxx
α/2
tiene (n-2) g.l.
100
90
80
precio vivienda (miles euros)
y∃± tα/2 s
70
60
50
40
30 40
60
80
100
120
140
superficie de la vivienda (m2)
por dónde pueden estar las observaciones
65
Análisis Multivariante En nuestro ejemplo, las dos viviendas que dicen que la agencia Nuez ha vendido por debajo del precio tienen una superficie de 104,285 y 90,333 m2 (observaciones 423 y 444) y las vendió a 53313 y 46084 euros: Resúmenes de casos
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
Núme ro de caso 399 406 409 416 423 424 428 430 432 434 437 444 450 452 457 463 465 467 468 478 480 485 499 503
Agen cia Otra Otra Otra Otra Nuez Otra Otra Otra Otra Otra Otra Nuez Otra Otra Otra Otra Otra Otra Otra Otra Otra Nuez Otra Otra
precio vivienda (miles euros) 35.060 42.470 58.735 49.277 53.313 38.253 41.145 52.470 50.120 47.590 43.072 46.084 36.747 32.349 50.422 55.241 41.446 45.964 43.253 39.759 46.928 47.831 31.205 62.229
superfic ie de la vivienda (m2) 69.238 83.238 116.095 96.048 104.286 75.190 84.286 104.095 100.333 96.905 86.762 90.333 76.619 60.619 101.095 113.571 81.810 93.571 84.524 76.762 95.762 92.476 66.000 128.048
Predicted Value 46.847 53.525 69.199 59.636 63.566 49.686 54.025 63.475 61.680 60.045 55.206 56.910 50.368 42.735 62.044 67.995 52.844 58.455 54.139 50.436 59.500 57.932 45.302 74.901
95% L CI for PRECIO mean 45.807 52.828 67.918 58.920 62.663 48.821 53.341 62.577 60.879 59.315 54.543 56.251 49.539 41.406 61.225 66.801 52.124 57.773 53.457 49.611 58.789 57.261 44.158 73.184
95% U CI for PRECIO mean 47.886 54.223 70.480 60.351 64.468 50.552 54.709 64.372 62.481 60.775 55.869 57.568 51.196 44.065 62.863 69.189 53.563 59.136 54.820 51.261 60.210 58.603 46.447 76.618
95% L CI for PRECIO individual 31.871 38.570 54.205 44.679 48.599 34.722 39.070 48.508 46.719 45.088 40.252 41.956 35.406 27.737 47.082 53.008 37.887 43.500 39.184 35.474 44.543 42.978 30.319 59.863
95% U CI for PRECIO individual 61.822 68.481 84.193 74.592 78.532 64.651 68.980 78.441 76.641 75.002 70.160 71.864 65.330 57.734 77.005 82.982 67.801 73.410 69.094 65.398 74.456 72.887 60.285 89.938
Precio previsto (ob. 423) = 13,819 + 0,477 * 104,285 = 63,555 euros. Al 95% de confianza, la estimación promedio podría situarse entre 62663 y 64468 euros. Al 95% de confianza, la predicción de una observación particular podría situarse entre 48599 y 78532, lo que incluye el precio de venta de 53313. Lo mismo sucede con la observación 444. Un piso de 90,333 m2 puede tener un precio de venta situado entre 41956 y 71864 euros. Por ello, la venta a un precio de 46084 euros puede ser factible. 66
Análisis Multivariante 5.11 HIPÓTESIS DEL MODELO DE REGRESIÓN SIMPLE Hipótesis sobre la forma de la distribución de probabilidad de ε: y = β0 + β1x + ε 1. La media de la distribución de probabilidad de ε es 0. Es decir, la media de los valores de ε para un número infinitamente grande de experimentos es 0 para cada valor de la variable independiente x. Esta hipótesis implica que el valor de la media de y, E(y), para un valor dado de x es E(y) = β0 + β1x. 2. La distribución de probabilidad de ε es normal. 3. La varianza de la distribución de probabilidad de ε es constante, σ2, para todos los valores de la variable independiente, X (es decir, existe homocedasticidad). 4. Los valores de ε asociados a dos valores cualquiera observados de y, son independientes. Es decir, el valor de ε asociado a un valor de y no tiene ninguna influencia sobre los valores de ε asociados a otros valores de y (esto implica que los errores no están correlacionados consigo mismo o, lo que es lo mismo, no existe autocorrelación de errores). La hipótesis 1 se considera cierta y no se contrasta. Se supone que se cumple con una muestra aleatoria suficientemente amplia. Por otro lado, tampoco hay forma de comprobar que la media de las perturbaciones sea 0 (ya que la estimación por mínimos cuadrados exige que la media de los errores sea 0).
5.12 NORMALIDAD DE LOS ERRORES La distribución de probabilidad de ε tiene que ser normal, con una media igual a 0 y una desviación estándar de σ. Al cumplirse esta hipótesis, podemos hacer inferencia sobre β1 y comprobar si su valor es significativamente distinto de 0.
67
Análisis Multivariante
Se contrasta analizando el histograma de los residuos o el gráfico de probabilidad acumulada observada/esperada según la normal: Gráfico P-P normal de regresión Residuo tipificado
Histograma
Variable dependiente: precio vivienda (miles euros)
Variable dependiente: precio vivienda (miles euros)
1.00
40
.75
Prob acum esperada
30
Frecuencia
20
10
Desv. típ. = 1.00 Media = 0.00 N = 518.00
0
.50
.25
0.00
3 2.1 8 1.8 3 1.6 8 1.3 3 1.1 .88 .63 .38 .13 3 -.1 8 -.3 3 -.6 8 -.8 .13 -1 .38 -1 .63 -1 .88 -1 3 1 -2.
0.00
.25
.50
.75
1.00
Prob acum observada Regresión Residuo tipificado
Si el tamaño de muestra es suficientemente grande, el teorema central del límite garantiza las propiedades de los estimadores mínimos cuadráticos, sea cual sea la forma de la distribución de las perturbaciones. Si el tamaño de muestra es pequeño y la distribución es muy asimétrica no se garantiza la normalidad, con los intervalos de confianza pueden ser incorrectos.
5.13 HOMOCEDASTICIDAD EN LAS PERTURBACIONES Las perturbaciones, ε, han de tener una misma varianza, σ2, para todos los valores de la variable independiente, X. Es decir, la dispersión de las perturbaciones no puede ser, por ejemplo, más grande para los valores más grandes de X y más pequeña para los más pequeños.
68
Análisis Multivariante Se puede utilizar el gráfico de la Y estimada (o de una X) frente a los residuos estandarizados para ver si el error varía su amplitud: Gráfico de dispersión
Gráfico de dispersión
Variable dependiente: OTRA_Y
Variable dependiente: precio vivienda (miles euros)
4
Regresión Residuo estudentizado
Regresión Residuo estudentizado
3
2
1
0
-1
-2 -3
3 2 1 0 -1 -2 -3 -3
-3
-2
-1
0
1
2
3
-2
-1
0
1
2
3
4
4
Regresión Valor pronosticado tipificado Regresión Valor pronosticado tipificado
Heterocedasticidad
Homocedasticidad
Numéricamente se comprueba comparando los errores de las observaciones con valores más bajos con los de las más altas para ver si son estadísticamente diferentes. También se pueden realizar regresiones de los errores al cuadrado con cada variable X en búsqueda de una explicación de la heterocedasticidad.
Si se demuestra que hay heterocedasticidad, los estimadores mínimo cuadrático son ineficientes. Las estimaciones se han de efectuar con un modelo de mínimos cuadrados generalizados o bien, si se pueden establecer supuestos sobre el comportamiento de las varianzas, por mínimos cuadrados ponderados.
5.14 NO AUTOCORRELACIÓN DE ERRORES La autocorrelación de errores se presenta cuando el error que se produce en una observación está relacionado con el de la otra. proceso autorregresivo de primer orden, es decir:
Habitualmente
se
supone
un
ut = ρ ut −1 + ε t .
La presencia de autocorrelación se puede deber a: el modelo no se ha especificado correctamente (falta alguna X o la relación no es recta); la Y depende del tiempo o tiene comportamientos cíclicos.
69
Análisis Multivariante El gráfico de los pronósticos frente a los residuos estandarizados permite ver si los errores tienen algún comportamiento: Gráfico de dispersión Variable dependiente: precio vivienda (miles euros) Regresión Residuo estudentizado
4 3 2 1 0
Comportamiento autoregresivo
-1 -2 -3 -2
-1
0
1
2
Regresión Valor pronosticado tipificado
Relación no rectilínea La autocorrelación se puede contrastar tratando de inferir el componente autoregresivo o por medio del test de Durbin-Watson
Si la autocorrelación se produce por un error de especificación se ha de revisar el modelo. Si hay autocorrelación de errores, pero no se conoce su causa, se debe acudir a los mínimos cuadrados generalizados (pues los estimadores mínimos cuadrados son ineficientes) o bien aplicar un procedimiento bi-etápico.
70
Análisis Multivariante
6. LINEALIDAD EN EL MODELO DE REGRESIÓN
6.1
OTRAS TRANSFORMACIONES
En nuestro ejemplo de las viviendas, vimos como el precio estaba relacionado con la distancia al centro pero no de una forma rectilínea A la vista de esta gráfica se puede pensar que el ajuste se puede mejorar utilizando un modelo cuadrático
100
90
precio vivienda (miles euros)
80
70
60
y = β0 + β1x + β2x2 + ε
50
40
30 0
10
20
Distancia centro (Km)
Los resultados de este modelo de regresión no lineal serían los siguientes: Dependent variable.. PRECIO Multiple R R Square Adjusted R Square Standard Error
Method.. QUADRATI
.81267 .66044 .65912 6.31732
Analysis of Variance:
Regression Residuals F =
DF 2 515
500.82914
Sum of Squares 39974.734 20552.906 Signif F =
Mean Square 19987.367 39.909 .0000
-------------------- Variables in the Equation -------------------Variable B SE B Beta T Sig T DISTANCIA -10.114875 .328898 -4.872461 -30.754 .0000 DISTANCIA**2 .503698 .015961 4.999952 31.559 .0000 (Constant) 93.278782 1.367318 68.220 .0000
71
Análisis Multivariante
precio vivienda (miles euros) 100
Ahora solo hay que interpretar los resultados:
90
Precio vivienda (miles euros)
80
70
Por cada Km. de distancia al centro el precio disminuye en 10114 euros, pero a la vez aumenta en 503 por cada Km. al cuadrado.
60
50
40
Observada
30
Cuadrático 0
10
20
Distancia centro (Km)
Curva de costes medios (transformación inversa)
CT = CF + v Q CT CF = CM = +v Q Q 1 Y = a+b X a = v; b = CF
b>0
a
Curva de crecimiento vegetativo (a una tasa de g) (transformación semi-logarítmica)
Y = A Bx ; B >1
B = (1 + g )
Transformación : lnY = lnA + x lnB
A
(ln Y) = a + bX
B<1
A = ea
72
B = eb
Análisis Multivariante
Curva de esfuerzo de marketing (transformación logarítmico-inversa) b
Y = e a+ x
b<0
Transformación ln Y = a +
−b 2
b x
7. ANÁLISIS DE REGRESIÓN MÚLTIPLE El modelo de regresión múltiple y = β0 + β1 x1 + β2 x2 + . . . + βk xk + ε donde: y = variable dependiente o variable a explicar xi = variables independientes o variables explicativas ε (epsilon) = error o perturbación aleatoria β0 = origen cuando todas las variables son 0 βi = pendiente o coeficiente de regresión de la variable i.
7.1
INFERENCIAS ACERCA DE LOS COEFICIENTES DE REGRESIÓN DE CADA VARIABLE, β I
Si se cumplen todas las hipótesis del modelo de regresión, la comprobación de la utilidad de cada coeficiente de regresión se realiza de la misma forma que en el análisis de regresión simple: H0 : βi = 0
(la Xi no influye sobre la Y)
Ha : βi ≠ 0 73
Análisis Multivariante
Estadístico de prueba:
βˆ i
t = Región de rechazo: se rechaza H0 si el nivel de significación observado es pequeño, menor que 0,05 o 0,10
Sβˆ i Observaciones: El modelo no será eficiente si incluye variables que no sean estadísticamente explicativas (las que no tienen un coeficiente de regresión significativamente distinto de 0) Como cada Xi puede estar medida en diferentes unidades, la comparación de los coeficientes de correlación de las diferentes variables se ha de realizar mediante las Betas
7.2
COEFICIENTE DE DETERMINACIÓN
Como en la regresión simple, el coeficiente de determinación, R2, representa la proporción de la variabilidad total de la muestra respeto a
y
que es explicada por la
relación lineal entre x e y. Se calcula igual que antes: 2
R =
SSR SS yy
= 1−
∑ (yi − yˆi ) 2 ∑ (yi − y) 2
=
Variabilidad explicada Variabilidad total
Ahora tiene una gran utilidad. La R2 mide la explicación conjunta conseguida con todas las variables independientes introducidas en el modelo de regresión (en cambio la R del modelo global no se puede interpretar, es la raíz cuadrada de la R2).
7.3
COMPROBACIÓN
DE
LA
BONDAD
GLOBAL
DEL
MODELO: ANALISIS DE LA VARIANZA Contraste sobre la utilidad global del modelo H0 : R² = 0 Ha : R² ≠ 0
(o, H0 : β1 = β2 = . . . = βk = 0 ningún coeficiente es importante para explicar la y)
(Ha : al menos un βi ≠ 0 al menos un coeficiente explica la y)
74
Análisis Multivariante
Estadístico de prueba:
F=
R2 SS yy − SSE Varianza explicada k −1 = k − 12 = SSE Varianza residual 1− R n−k n−k
donde n es el tamaño de la muestra y k el número total de variables en el modelo (dependiente+independientes) Región de rechazo: cuando nivel de significación observado sea suficientemente pequeño, menor que 0,05 o 0,10.
7.4
HIPÓTESIS DEL MODELO DE REGRESIÓN MÚLTIPLE
Las hipótesis sobre la forma de la distribución de probabilidad de ε son las mismas que en el modelo de regresión simple. En la regresión múltiple además se debe cumplir que: No debe existir excesiva colinealidad o multicolinealidad (correlación entre las variables independientes).
7.5
COLINEALIDAD
Como se ha indicado, la colinealidad se produce cuando las variables independientes introducidas en el modelo de regresión están correlacionadas entre ellas. Existen diferentes grados de colinealidad, dependiendo del nivel en el que estén correlacionadas las variables independientes. Cuando una variable independiente se puede expresar como una combinación lineal de las otras, la colinealidad es perfecta. En ese caso se puede omitir dicha variable, solucionando la colinealidad. El problema se produce cuando la correlación entre las X’s es alta o muy alta, pero sin llegar a ser total. Debemos ser conscientes de que en casi todos los modelos de regresión múltiple planteados existe cierto grado de colinealidad. Sólo se ha de comprobar que ésta no sea excesiva ni perjudicial.
75
Análisis Multivariante 7.6
EFECTOS DE LA COLINEALIDAD
La colinealidad provoca diferentes efectos, que se manifestarán tanto más cuanto mayor sea la correlación entre las X’s: •
Las desviaciones estándar de los coeficientes de regresión están sobreestimadas, con lo que aparecen como no significativos coeficientes que en realidad sí lo son.
•
Puede suceder que ninguno de los coeficientes de regresión sean distintos de cero (no son significativos) y que, a nivel conjunto, sí que lo sean.
•
Los coeficientes de regresión estimados no son consistentes, es decir, pueden cambiar al modificar la muestra o al introducir diferentes variables en el modelo.
En definitiva, cuando hay colinealidad se consigue explicar la variable Y, pero no se sabe cuál es el efecto de cada una de las X por separado (puesto que todas ellas están relacionadas).
7.7
FORMAS DE MEDIR LA COLINEALIDAD
La colinealidad se puede medir de distintas formas: • Matriz de correlaciones de Pearson entre cada par de variables independientes. Da una idea pero no es concluyente. • Tolerancia = (1− R²j), donde R²j es el coeficiente de determinación de la variable Xj frente a todas las demás X’s.
•
Factor de Inflación (o agrandamiento) de la Varianza: (FIV) = 1 / Tolerancia
76
Análisis Multivariante
7.8
NIVELES DE COLINEALIDAD
Tolerancia
VIF
Colinealidad:
Toler = 1
VIF = 1
No existe colinealidad
0,3 < Toler < 1
3,33 > VIF > 1
Poca: el modelo no suele presentar efectos (defectos) importantes
0,1 < Toler < 0,3 10 > VIF > 3,33 Elevada: se comienzan a notar las consecuencias de la colinealidad: inconsistencia de los estimadores y pérdida de su significación 0,01 VIF > 10 Excesiva: se producen graves problemas en la interpretación de las X’s ya que sus coeficientes de regresión pueden llegar a cambiar hasta de signo Toler < 0,01
VIF > 100
Colinealidad perfecta: los propios paquetes informáticos dejan fuera la variable (ya que es una combinación lineal de las otras independientes)
Volvamos al ejemplo que trataba de explicar el precio de las viviendas por medio de la superficie del mismo (en m2), el nivel de reparaciones que necesita y la antigüedad de la vivienda. Ahora las incluimos todas ellas en un modelo de regresión múltiple, obteniendo el siguiente resultado: Correlaciones
Correlación de Pearson
Sig. (unilateral)
precio vivienda (miles euros) superficie de la vivienda (m2) Arreglos (de 0 -nada- a 10) Antigüedad de la casa (años) precio vivienda (miles euros) superficie de la vivienda (m2) Arreglos (de 0 -nada- a 10) Antigüedad de la casa (años)
precio vivienda (miles euros) 1.000 .712 -.667 -.004 . .000 .000 .465
77
superfic ie de la vivienda (m2) .712 1.000 -.951 .055 .000 . .000 .107
Arreglos (de 0 -nada- a 10) -.667 -.951 1.000 -.069 .000 .000 . .058
Antigüe dad de la casa (años) -.004 .055 -.069 1.000 .465 .107 .058 .
Análisis Multivariante Con las correlaciones de Pearson entre cada par de variables podemos observar, en primer lugar, cuáles son las relaciones existentes entre cada una de las variables X y la Y. En nuestro caso, tanto la superficie de la vivienda como el nivel de arreglos tienen una alta correlación estadísticamente significativa con el precio de la vivienda. La única diferencia es que la relación es de signo positivo en la primera variable y negativa en la segunda. La antigüedad de la casa no influye significativamente en el precio de la vivienda. En segundo lugar, se puede apreciar el nivel de correlación que existe entre las variables independientes. Parece ser que la superficie de la vivienda tiene una alta correlación de signo negativo con el nivel de arreglos (parece que las casas grandes están más bien cuidadas que las pequeñas, o al menos lo aparentan). Esto es una indicación de que el modelo presentará colinealidad.
Resumen del modelo
Modelo 1
R .714a
R cuadrado .510
R cuadrado corregida .507
Error típ. de la estimación 7.5984
a. Variables predictoras: (Constante), Antigüedad de la casa (años), superficie de la vivienda (m2), Arreglos (de 0 -nada- a 10)
ANOVAb
Modelo 1
Regresión Residual Total
Suma de cuadrados 30851.138 29676.502 60527.639
gl 3 514 517
Media cuadrática 10283.713 57.736
F 178.115
Sig. .000a
a. Variables predictoras: (Constante), Antigüedad de la casa (años), superficie de la vivienda (m2), Arreglos (de 0 -nada- a 10) b. Variable dependiente: precio vivienda (miles euros)
Los resultados a nivel global del modelo parecen satisfactorios. Se consigue explicar un 51% de la variabilidad del precio, y está explicación es suficiente comparada con la residual. Aunque, lo cierto es que no hemos conseguido mejorar extremadamente el coeficiente de determinación que teníamos en el modelo que incluía sólo la superficie de la vivienda (50,7%).
78
Análisis Multivariante
Coeficientesa
1
(Constante) superficie de la vivienda (m2) Arreglos (de 0 -nada- a 10) Antigüedad de la casa (años)
Coeficientes no estandarizados Error B típ. 6.654 9.179 .538 .067 .595 .634 -.214 .161
Coefic. estand. Beta .803 .094 -.041
t .725 8.060 .939 -1.333
Sig. .469 .000 .348 .183
Intervalo confianza para B al 95% Límite Límite inferior superior -11.379 24.688 .407 .669 -.650 1.841 -.530 .102
a. Variable dependiente: precio vivienda (miles euros)
Finalmente, a nivel individual parece que la única variable con un coeficiente de regresión significativamente distinto de 0 es la superficie. ¿Qué ha pasado con la significación de la variable Arreglos? Es más, menos mal que no es distinta de 0 ya que su coeficiente ha pasado a tener el signo contrario (a nivel individual influía negativamente y ahora, de hacerlo, afecta positivamente). Por otro lado, las Betas en algunas variables no se parecen a la correlación de Pearson de esa variable y el precio. Estos problemas se han producido por el alto nivel de colinealidad existente en el modelo. La tolerancia y el VIF así nos lo indican: Coeficientesa
1
superficie de la vivienda (m2) Arreglos (de 0 -nada- a 10) Antigüedad de la casa (años)
Estadísticos de colinealidad Tolerancia FIV .096 10.415 .096 10.434 .994 1.006
a. Variable dependiente: precio vivienda (miles euros)
Concluyendo, en este modelo la colinealidad impide conocer cuál es el efecto de cada variable independiente sobre la dependiente (¿qué varía el precio? la superficie de la vivienda o el nivel de arreglos que ésta necesita). De todos modos, la variable dependiente (el precio) queda perfectamente explicada por ambas variables.
79
Análisis Multivariante
7.9
INTRODUCCIÓN DE VARIABLES BINARIAS
Una variable binaria es aquella que admite dos posibles valores (se cumple cierta propiedad o no, verdadero/falso, hombre/mujer) y se codifica con 0 (no pasa) y 1(sí pasa).
0, xB = 1,
si no se cumple la característica si se cumple la característica
Si se introduce tal cual en un modelo de regresión lineal supone estimar un efecto diferencial sobre el origen de la recta en cada categoría de la variable binaria: y = β0 + β1 x1 + β2 xB + ε y(si xB = 0) = β0 + β1 x1 y(si xB = 1) = β0 + β1 x1+ β2 1 = (β0 + β2) + β1 x1
Para ver si el precio de la vivienda es significativamente diferente según cuál sea la inmobiliaria que lo ha vendido, añadimos la variable Agencia al modelo de regresión simple que explicaba el precio en función de la superficie. 100
90
80
precio vivienda (miles euros)
Gráficamente se puede observar que: Parece que las ventas de la inmobiliaria Nuez se han realizado a unos precios inferiores a las de las otra agencias.
70
60
50
Agencia 40 Nuez 30
Otra
40
60
80
superficie de la vivienda (m2)
80
100
120
140
Análisis Multivariante
A nivel numérico, los resultados obtenidos son: Resumen del modelob
Modelo 1
R R cuadrado .726a .527
R cuadrado corregida .525
Error típ. de la estimación 7.4599
a. Variables predictoras: (Constante), Agencia que vendio la vivienda, superficie de la vivienda (m2) b. Variable dependiente: precio vivienda (miles euros) ANOVAb
Modelo 1
Regresión Residual Total
Suma de cuadrados 31868.045 28659.594 60527.639
gl 2 515 517
Media cuadrática 15934.023 55.650
F 286.327
Sig. .000a
a. Variables predictoras: (Constante), Agencia que vendio la vivienda, superficie de la vivienda (m2) b. Variable dependiente: precio vivienda (miles euros)
Coeficientesa
1
(Constante) superficie de la vivienda (m2) Agencia que vendio la vivienda
Coeficientes no estandarizados B Error típ. 14.011 1.839 .480 .020 -5.158 1.121
Coefic. estand. Beta .717 -.140
t 7.620 23.632 -4.603
Sig. .000 .000 .000
a. Variable dependiente: precio vivienda (miles euros)
A nivel global, se consigue una explicación del 52,7% de las variaciones del precio, que es estadísticamente significativa. Las ventas de las otras agencias tienen un origen de 14011 euros mientras que las de la Nuez están 5158 euros por debajo. Esta misma diferencia se mantiene para todos los valores de la otra variable explicativa (sea cual sea la superficie).
81
Análisis Multivariante
100
90
Precio vivienda (miles euros)
80
70
60
50
40 Nuez Otra
30 40
60
80
100
120
140
Superficie de la vivienda (m2)
7.10 VARIABLE BINARIA CON EFECTO SOBRE LA PENDIENTE También se pueden introducir variables binarias con efecto en la pendiente. En este caso debe especificarse el modelo en forma multiplicativa: y = β0 + β1 x1 + β2 xB x1 + ε y(si xB = 0) = β0 + β1 x1 y(si xB = 1) = β0 + β1 x1+ β2 1 x1 = β0 + (β1+ β2) x1
Así mismo, se puede especificar un modelo que incluya a la vez un efecto sobre el origen y otro sobre la pendiente. El modelo que recoge estos efectos mixtos es: y = β0 + β1 x1 + β2 xB + β3 xB x1 + ε y(si xB = 0) = β0 + β1 x1 y(si xB = 1) = β0 + β1 x1+ β2 1 + β3 1 x1 = (β0 + β2) + (β1+ β3) x1
7.11 INTRODUCCIÓN DE VARIABLES CUALITATIVAS No se pueden introducir variables cualitativas en un modelo de regresión tal como están codificadas, pues su coeficiente de regresión recogería un efecto lineal de pasar de un valor de la variable cualitativa al siguiente. Pero si la variable es cualitativa, ¿cuál es la categoría que precede a otra?
82
Análisis Multivariante En nuestro ejemplo de las viviendas, tenemos una variable cualitativa que nos indica en qué zona está ubicada la casa (1. Este, 2. Oeste y 3. Sur). Mediante un análisis de medias se puede observar que el precio medio es diferente en cada una de estas zonas: Descriptivos precio vivienda (miles euros)
Este Oeste Sur Total
N 243 166 109 518
Media 62.824 50.718 50.248 56.298
Desviaci ón típica 9.592 8.749 7.531 10.820
Error típico .615 .679 .721 .475
Intervalo confianza para la media al 95% Límite Límite inferior superior 61.612 64.036 49.377 52.059 48.818 51.677 55.364 57.232
Mínimo 37.590 32.349 31.205 31.205
Máximo 89.819 78.494 71.386 89.819
ANOVA precio vivienda (miles euros)
Inter-grupos Intra-grupos Total
Suma de cuadrados 19508.006 41019.634 60527.639
gl 2 515 517
Media cuadrática 9754.003 79.650
F 122.461
Sig. .000
Pero como puede apreciarse, la disminución que sufre el precio de la vivienda por estar situada en el Oeste en lugar del Este no es el mismo que si está situada en el Sur en lugar del Oeste. En cambio, un modelo de regresión que recogiera la variable Zona diría: Resumen del modelo
Modelo 1
R .512a
R cuadrado corregida .261
R cuadrado .262
Error típ. de la estimación 9.3013
a. Variables predictoras: (Constante), Zona donde esta localizada la casa
ANOVAb
Modelo 1
Regresión Residual Total
Suma de cuadrados 15886.798 44640.841 60527.639
gl 1 516 517
Media cuadrática 15886.798 86.513
F 183.634
a. Variables predictoras: (Constante), Zona donde esta localizada la casa b. Variable dependiente: precio vivienda (miles euros)
83
Sig. .000a
Análisis Multivariante
Coeficientesa
1
(Constante) Zona donde esta localizada la casa
Coeficientes no estandarizados B Error típ. 68.619 .997 -7.076 .522
Coefic. estand. Beta -.512
t 68.838 -13.551
Sig. .000 .000
a. Variable dependiente: precio vivienda (miles euros)
Por “incrementar en una unidad la X” el precio de la vivienda disminuye en 7076 euros. Este incremento de la X se produce tanto al pasar de Este a Oeste como de Oeste a Sur.
Para introducir adecuadamente una variable cualitativa en una regresión se ha de convertir dicha variable en binarias (tantas como categorías tenga la variable cualitativa menos una) y efectuar el análisis con las variables binarias. Resúmenes de casosa Zona donde esta localizada la casa Oeste Oeste Oeste Sur Este Este Sur Este Oeste Este
1 2 3 4 5 6 7 8 9 10
Zona Este .00 .00 .00 .00 1.00 1.00 .00 1.00 .00 1.00
Zona Oeste 1.00 1.00 1.00 .00 .00 .00 .00 .00 1.00 .00
En nuestro ejemplo convertiríamos la variable zona de 3 categorías en 2 variables binarias, Zona Este y Zona Oeste. La tercera categoría no haría falta incluirla ya que está representada por la ausencia de las otras dos.
a. Limitado a los primeros 10 casos.
Y el resultado que obtenemos con el análisis de regresión coincide con el del análisis de varianza (en el que se comparaban las medias): Resumen del modelo
Modelo 1
R R cuadrado .568a .322
R cuadrado corregida .320
Error típ. de la estimación 8.9247
a. Variables predictoras: (Constante), Zona Oeste, Zona Este
84
Análisis Multivariante
ANOVAb
Modelo 1
Regresión Residual Total
Suma de cuadrados 19508.006 41019.634 60527.639
gl 2 515 517
Media cuadrática 9754.003 79.650
F 122.461
Sig. .000a
a. Variables predictoras: (Constante), Zona Oeste, Zona Este b. Variable dependiente: precio vivienda (miles euros)
Coeficientesa
Modelo 1
(Constante) Zona Este Zona Oeste
Coeficientes no estandarizados B Error típ. 50.248 .855 12.577 1.029 .471 1.100
Coefic. estand. Beta .581 .020
t 58.781 12.224 .428
Sig. .000 .000 .669
a. Variable dependiente: precio vivienda (miles euros)
La interpretación de los coeficientes sería la siguiente: • En promedio y cuando todas las demás variables son cero (es decir estamos en la categoría omitida de la variable cualitativa) el precio medio de las viviendas es de 50248 euros. • Cuando estamos en la zona Este, el precio de la vivienda aumenta, en promedio, en relación a la zona Sur (categoría omitida) en 12577 euros. Por tanto el precio medio se situaría en 62825 (50248+12577). • Cuando estamos en la zona Oeste, el precio de la vivienda aumenta en relación a la zona Sur en 471 euros, en promedio, situándose en 50719 euros. Esta misma interpretación se efectuaría si hubieran otras variables cuantitativas en el modelo. En este caso, los coeficientes de correlación indicarían el origen de cada una de las rectas que se mantendría a lo largo de toda la pendiente provocada por la variable cuantitativa (rectas paralelas). Si se quisiera modelizar un efecto no constante se podrían introducir términos de interacción (como vimos con las variables binarias). 7.12 CONCLUSIÓN FINAL AL CASO DE LAS VIVIENDAS A lo largo de estos apuntes hemos visto como influían las variables cuantitativas disponibles para explicar el precio de la vivienda: superficie (m2), arreglos necesarios (escala 0 – 10), antigüedad y distancia al centro. 85
Análisis Multivariante Las dos primeras explicaban el precio de la vivienda de forma significativa aunque entre ellas existía excesiva colinealidad. La antigüedad no influía en el precio de la vivienda y la distancia al centro lo hacía de una forma no lineal (además se ha comprobado que está variable también está relacionada con la superficie en un modelo cuadrático). Por tanto, ante un modelo de regresión múltiple lineal nos tenemos que conformar con incluir sólo la superficie de la vivienda en m2 (evitando así los problemas de colinealidad). En cuanto a las variables cualitativas, se dispone de la zona y el mes de la venta. Para evitar supuestos de linealidad entre las categorías de estas variables hemos definido unas variables binarias que recogen sus diferentes categorías. Se supone además que los efectos de estas categorías se producen en la constante (y no en la pendiente de la curva). Finalmente, se incorpora la variable agencia que efectuó la venta para comprobar si la Inmobiliaria Nuez actúa o no de mala fe vendiendo los pisos por debajo de su precio. Los resultados obtenidos con este modelo son los mejores de todo el análisis como puede comprobarse a continuación: Estadísticos descriptivos
precio vivienda (miles euros) superficie de la vivienda (m2) Zona Este Zona Oeste Mes Enero Mes Febrero Mes Marzo Agencia que vendio la vivienda
Desviación típ. 10.8201 16.15 .4995 .4671 .4445 .4351 .4306 .29
Media 56.2982 89.05 .4691 .3205 .2703 .2529 .2452 9.46E-02
86
N 518 518 518 518 518 518 518 518
Análisis Multivariante
Correlaciones
Correlación de Pearson
Sig. (unilateral)
precio vivienda (miles euros) superficie de la vivienda (m2) Zona Este Zona Oeste Mes Enero Mes Febrero Mes Marzo Agencia que la vendió precio vivienda (miles euros) superficie de la vivienda (m2) Zona Este Zona Oeste Mes Enero Mes Febrero Mes Marzo Agencia que la vendió
precio
superficie
Zona Este
Zona Oeste
Mes Enero
Febr ero
Mes Marzo
Age ncia
1.000
.712
.568
-.354
.191
.071
-.079
-.114
.712
1.000
-.053
-.051
.024
.023
.023
.035
.568 -.354 .191 .071 -.079
-.053 -.051 .024 .023 .023
1.000 -.646 .064 -.013 -.068
-.646 1.000 -.027 .010 .003
.064 -.027 1.000 -.354 -.347
-.013 .010 -.354 1.000 -.332
-.068 .003 -.347 -.332 1.000
-.211 .160 -.033 -.021 .015
-.114
.035
-.211
.160
-.033
-.021
.015
1.000
.
.000
.000
.000
.000
.053
.036
.005
.000
.
.116
.123
.297
.300
.299
.211
.000 .000 .000 .053 .036
.116 .123 .297 .300 .299
. .000 .074 .384 .061
.000 . .272 .413 .474
.074 .272 . .000 .000
.384 .413 .000 . .000
.061 .474 .000 .000 .
.000 .000 .225 .316 .366
.005
.211
.000
.000
.225
.316
.366
.
A nivel individual puede apreciarse como todas las variables introducidas en el modelo aportan explicación sobre el precio de la vivienda. Las correlaciones más importantes son la que se producen con la superficie de la vivienda y la zona Este (ambas de signo positivo). Entre las variables independientes hay muy poca correlación. Por el gran tamaño de la muestra, son significativas los tres meses entre sí y la agencia con la zona. Resumen del modelo
Modelo 1
R .959a
R cuadrado .919
R cuadrado corregida .918
Error típ. de la estimación 3.0938
a. Variables predictoras: (Constante), Agencia que vendio la vivienda, Mes Marzo, superficie de la vivienda (m2), Zona Oeste, Mes Febrero, Mes Enero, Zona Este
87
Análisis Multivariante
ANOVAb
Modelo 1
Regresión Residual Total
Suma de cuadrados 55646.141 4881.498 60527.639
gl 7 510 517
Media cuadrática 7949.449 9.572
F 830.528
Sig. .000a
a. Variables predictoras: (Constante), Agencia que vendio la vivienda, Mes Marzo, superficie de la vivienda (m2), Zona Oeste, Mes Febrero, Mes Enero, Zona Este b. Variable dependiente: precio vivienda (miles euros)
A nivel global se consigue una buena explicación de la variabilidad del precio de venta. Un 91,9% de las diferencias en el precio son explicadas por las variables introducidas en el modelo. Como era de esperar, esta variabilidad es suficiente frente a la residual. Por otro lado, el modelo tiene una R cuadrado ajustada de 0,918, la más alta de todos los modelos analizados. Coeficientesa
1
(Constante) superficie de la vivienda (m2) Zona Este Zona Oeste Mes Enero Mes Febrero Mes Marzo Agencia que vendio la vivienda
Coeficientes no estandarizados Error B típ. 1.061 .869 .498 .009 14.769 .364 2.984 .385 5.375 .386 4.147 .392 2.060 .396 -.275 .476
Coefic. estand. Beta .744 .682 .129 .221 .167 .082 -.007
t 1.221 58.529 40.567 7.760 13.922 10.576 5.206 -.578
Sig. .223 .000 .000 .000 .000 .000 .000 .563
Intervalo confianza para B al 95% Límite Límite inferior superior -.646 2.768 .482 .515 14.054 15.484 2.229 3.740 4.617 6.134 3.377 4.917 1.282 2.837 -1.211 .660
a. Variable dependiente: precio vivienda (miles euros)
A nivel individual todas las variables son estadísticamente significativas, a excepción de la constante y de la agencia que vendió la casa. El modelo sería más eficiente si las elimináramos pero así nos sirve para comprobar que efectivamente, la agencia no provoca diferencias significativas en el precio de venta de la vivienda (una vez deducidos los efectos de la superficie, la zona y el mes de la venta). Ahora se interpretan los coeficientes como hemos hecho en otros modelos: • En promedio, por cada m2 de más que tenga la vivienda su precio aumenta en 498 euros. • Una vivienda localizada en la Zona Este tiene un precio 14769 euros superior a las viviendas de la Zona Sur, en promedio. En cambio, si se localiza en la Zona Oeste la diferencia es de solo 2984 euros. 88
Análisis Multivariante • Los precios de venta van disminuyendo cada mes. Incluso parece que existe una disminución similar (lineal) cada mes de unos 2000 euros. Finalmente, se puede verificar que, como no hay mucha colinealidad, las conclusiones que se obtenían del análisis individual (correlaciones de Pearson) son muy semejantes a las Betas de cada variable en el análisis conjunto.
Coeficientes a
1
superficie de la vivienda (m2) Zona Este Zona Oeste Mes Enero Mes Febrero Mes Marzo Agencia que vendio la vivienda
Estadísticos de colinealidad Tolerancia FIV .979 1.021 .560 1.786 .574 1.743 .628 1.591 .636 1.572 .638 1.568 .951 1.051
a. Variable dependiente: precio vivienda (miles euros)
89
Los estadísticos de colinealidad nos indican que no se produce altas correlaciones entre todas las variables independientes. La menor Tolerancia se sitúa a nivel de 0,57 con lo que los efectos de la colinealidad pueden ser despreciables.
Análisis Multivariante
Resúmenes de casos
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
Núme ro de caso 399 406 409 416 423 424 428 430 432 434 437 444 450 452 457 463 465 467 468 478 480 485 499 503
Agen cia Otra Otra Otra Otra Nuez Otra Otra Otra Otra Otra Otra Nuez Otra Otra Otra Otra Otra Otra Otra Otra Otra Nuez Otra Otra
precio vivienda (miles euros) 35.060 42.470 58.735 49.277 53.313 38.253 41.145 52.470 50.120 47.590 43.072 46.084 36.747 32.349 50.422 55.241 41.446 45.964 43.253 39.759 46.928 47.831 31.205 62.229
superficie de la vivienda (m2) 69.238 83.238 116.095 96.048 104.286 75.190 84.286 104.095 100.333 96.905 86.762 90.333 76.619 60.619 101.095 113.571 81.810 93.571 84.524 76.762 95.762 92.476 66.000 128.048
Zona Oeste Oeste Sur Sur Sur Oeste Oeste Sur Sur Oeste Sur Sur Sur Oeste Oeste Sur Oeste Sur Oeste Oeste Sur Oeste Sur Sur
Predicted Value 38.545 45.521 58.909 48.919 52.749 41.511 46.043 52.929 51.055 52.331 44.292 45.797 39.239 34.250 54.419 57.651 44.809 47.686 46.162 42.294 48.777 49.849 33.947 64.864
95% L CI for PRECIO mean 37.798 44.824 58.013 48.127 51.630 40.794 45.347 52.111 50.251 51.610 43.503 44.695 38.418 33.439 53.676 56.775 44.111 46.897 45.466 41.583 47.985 48.828 33.060 63.858
95% U CI for PRECIO mean 39.292 46.218 59.804 49.712 53.868 42.228 46.739 53.748 51.858 53.052 45.082 46.898 40.059 35.062 55.161 58.527 45.508 48.474 46.858 43.005 49.569 50.869 34.835 65.870
Finalmente, podemos observar como los precios de venta que fijó la Inmobiliaria Nuez en las observaciones 423 y 444 están incluidos incluso en el intervalo de confianza de la estimación con lo que claramente no aplicó una política fraudulenta.
90
Análisis Multivariante
8. BIBLIOGRAFÍA KMENTA, Jan (1980): Elementos de econometría. Vicens universidad. Barcelona. NEWBOLD, Paul (1997): Estadística para los negocios y la economía. Prentice Hall. Madrid. NORUSIS, Marija J. (1997): SPSS 7.5 Guide to Data Analysis. Prentice Hall. New Jersey. (ya está disponible: SPSS 10.0 Guide to Data Analysis) LUQUE MARTÍNEZ, Teodoro (coordinador) (2000): Técnicas de análisis de datos en investigación de mercados. Ediciones Pirámide. Madrid.
91
Análisis Multivariante
ANÁLISIS DE LA VARIANZA (ANOVA)
92
Análisis Multivariante
9. ANÁLISIS DE LA VARIANZA (ANOVA) 9.1
CONCEPTO.
Se trata de una técnica de análisis adecuada para poder extraer conclusiones acerca de si una o más variables independientes condicionan a otra u otras variables dependientes. Se trata de un método de dependencia en el que la variable o variables dependientes están medidas en escala métrica y las variables independientes están medidas en escalas no métricas. Esta técnica es de gran utilidad en la experimentación científica y por supuesto en la de Marketing. Entendemos por experimentación la manipulación intencionada de las variables independientes (tratamientos) para estudiar la respuesta en la variable o variables dependientes.
9.2
MODALIDADES DE ANÁLISIS DE LA VARIANZA
En el esquema siguiente resumimos las diferentes tipos de análisis de varianza
Variables independientes
Variables dependientes (métricas) Una
Varias
Una
ANOVA de un factor
MANOVA de un factor
Varias
ANOVA de 2 o k factores
MANOVA de k factores
Categóricas e intervalos
ANCOVA
MANCOVA
ANOVA proviene de ANálisis Of VAriance MANOVA de Múltiple ANálisis Of Variance ANCOVA de ANálisis Of COVAriance MANCOVA de Múltiple ANálisis Of COVAriance. 93
Análisis Multivariante ANCOVA En este procedimiento se introduce una variable independiente (X) métrica, que no se controla pero incide en la dependiente (covariable), es decir covaría. Si son varias las dependientes (Y) se llama MANCOVA
9.3
ANOVA
Es una técnica de dependencia diseñada para medir la influencia que una o varias variables independientes (Xi), (no métricas, cualitativas) tienen sobre otra variable (Y) dependiente o cuantitativa. 9.3.1
TIPOS DE ANOVA
ANOVA de un solo factor o variable explicativa (one way) ANOVA con varios factores. Este a su vez se divide en: •
Modelo factorial completo. Es cuando considera los efectos de varias variables independientes conjuntamente con sus interacciones.
•
Modelo factorial incompleto. Solo se tienen en cuenta los efectos por separado de las variables, sin tener en cuenta las interacciones. También se llama modelo de efectos principales.
9.4
EXPERIMENTACIÓN
Uno de los objetivos de la Investigación de Marketing es el de tratar de definir las relaciones que unen al mix de Marketing de la empresa con sus resultados. Esta información es de suma importancia en el proceso de toma de decisiones, así como en la planificación estratégica y en los mecanismos de control de la misma. Las relaciones que se identifican entre las variables del Marketing mix de la empresa y sus resultados son de tipo causa efecto, constituyendo lo que se denomina relaciones de causalidad. El análisis causal es el que pretende investigar las relaciones de influencia o causalidad entre las diferentes variables. Desde un punto de vista filosófico se puede entender como causa, aquello que hace ser a algo que no es, o que venga a ser de forma distinta lo que es. Este concepto de causa implica el que se diferencie entre la causa que produce algo nuevo de la que solo modifica lo existente. 94
Análisis Multivariante Teniendo en cuenta que la investigación de Marketing no se ocupa de los consumidores y productos en su conjunto, sino sólo de las variables de estos en los estudios descriptivos y de las relaciones entre las variables en los explicativos, es obvio que a la Investigación de Marketing le interesa la causalidad no en el sentido que produce un nuevo ser, sino en la modificación de lo existente. Cuando se dice que dos variables, están unidas por una relación de causalidad, significa que, una variable influye en la otra, en el sentido de que una modificación en la primera conduce a una variación en la segunda. El análisis de la varianza es la técnica mas apropiada para estudiar y explotar los datos provenientes de situaciones experimentales. El análisis de la varianza permite extraer conclusiones sobre si una o más variables independientes (X) influyen y condicionan a una o varias dependientes (Y), e incluso nos da información si la interacción de las variables independientes (X) es significativa.
9.5
EL MÉTODO DE EXPERIMENTACIÓN
El método de experimentación consiste en reproducir fenómenos a voluntad del investigador. Aplicado a la Investigación de Marketing, trata de provocar la conducta del consumidor en condiciones perfectamente controladas, lo más parecidas posibles a una situación real, con el objetivo de sacar consecuencias de la respuesta a un estímulo cuyo efecto queramos conocer. La principal dificultad de la experimentación consiste en realizar la prueba en las mismas circunstancias que en la realidad, así como en aislar los resultados obtenidos, debido a la variación producida respecto a otras variables no controladas en el experimento. Lo que hacemos es introducir modificaciones en variables de Marketing, y tratamos de controlar su incidencia en el comportamiento de compra por parte de los usuarios. La ventaja de este método es que elimina el factor distorsionador que el entrevistado provoca al suministrar información en una encuesta, ya que lo que aquí se estudia es el comportamiento del consumidor ante una determinada situación.
95
Análisis Multivariante La ejecución de una experimentación debe ser perfectamente planificada. Los aspectos de esta planificación son: 1. Definición de los objetivos. 2. Definir la zona experimental. 3. Elección al azar de las unidades experimentales 4. Período de duración de la experimentación 5. Diseño experimental 6. Recogida de información 9.5.1
PRINCIPALES APLICACIONES DE LA EXPERIMENTACIÓN
Entre las aplicaciones más utilizadas podemos reseñar las siguientes: Fijación de precios. Selección de medios publicitarios y promocionales. Elección de puntos de venta. Determinación del tipo de envase y su tamaño. Lanzamiento de nuevos productos.
9.6
METODOLOGÍA DE LA EXPERIMENTACIÓN
En todo experimento se deben definir: 1 Factor principal Variable independiente estudiada con sus diferentes alternativas, a las que se denomina “tratamientos”. 2 Factores externos Se trata de factores influyentes que es conveniente aislar y controlar. En algunos diseños experimentales se estudian de forma individual y se denominan factores bloque o rodeo. 3 Unidades experimentales Son los lugares donde se realiza el experimento. Se dividen en los siguientes tipos: a) De laboratorio •
Se trata de un local donde se reproducen las condiciones reales del mercado. Normalmente se suele hacer en el propio centro de investigación.
b) Natural o real •
El estudio se realiza en lugares muestra del mercado real, zonas geográficas, ciudades, tiendas, etc. 96
Análisis Multivariante 4 Variable dependiente Es la variable de respuesta por parte del mercado. Nos permite medir los efectos de las variables estudiadas. EJEMPLO Una empresa de conservas vegetales desea medir el efecto de dos estrategias de promoción diferenciadas para comercio en régimen de autoservicio y para tiendas especialistas. Definir las características del experimento. 1 Factor principal: los dos tipos de promoción 2 Factor externo: situación del producto en la tienda, en la estantería, día de la semana 3 Unidad experimental: comercio de las características requeridas (tiendas reales) 4 Variable dependiente: Unidades físicas de producto vendidas
9.7 9.7.1
ELEMENTOS DE UN EXPERIMENTO CONCEPTOS GENERALES
La respuesta es una variable cuantitativa que se va a estudiar en el experimento. También se denomina variable dependiente, (Y). Ejemplo: las ventas de la empresa Los factores (uno o varios) son aquellas variables de las que el experimentador quiere estudiar su efecto sobre la variable respuesta. Tanto si representan variables cualitativas como cuantitativas, los factores se analizan de forma cualitativa, es decir, se experimenta con unos valores concretos. Ejemplos: envase, promoción, precio, ... Los niveles de un factor son los diferentes valores utilizados en el experimento de una de las variables explicativas. Ejemplos: Envase: 1 litro, 1,5 litros, 2 litros, Promoción: Reducción precio, Regalo; Precio: 140 ptas., 170 ptas., 200 ptas. Los tratamientos de un experimento son todas las combinaciones utilizadas de cada factor-nivel. La unidad experimental es la observación (individuo u objeto) donde la respuesta y los factores son observados y medidos. Un diseño experimental es el procedimiento que utiliza el análisis-para controlar la especificación de los tratamientos y el método para asignar las unidades experimentales a cada tratamiento. 97
Análisis Multivariante Un experimento por observación es aquel en el que el analista observa el tratamiento y la respuesta de cada unidad experimental. 9.7.2
HIPÓTESIS DE TRABAJO
Como hipótesis nula se considera que no existen diferencias entre las medias de los tratamientos. Esto es: H0:
µ1 = µ2 = . . . = µp
Ha:
Por lo menos dos de los p tratamientos tienen medias diferentes.
9.8
¿POR QUÉ SE LLAMA ANÁLISIS DE LA VARIANZA SI COMPARAMOS MEDIAS?
ANOVA pretende medir la influencia de una o más variables independientes y cualitativas (X) sobre una variable dependiente cuantitativa (Y). Es decir pretende determinar si diversos conjuntos de muestras aleatorias de una variable proceden de la misma población o no. En el caso de que sean de la misma población, el análisis de la varianza permite descubrir si la interacción entre las variables explicativas provoca cambios significativos.
La diferencia existente entre una observación y la media general se divide entre una parte explicada (distancia entre la media del tratamiento y la media general) y una residual (distancia entre una observación y la media de su tratamiento): Es decir 98
Análisis Multivariante (Yij − Y ) = (Yij − Yi ) + (Yi − Y ) Esta misma diferencia, elevada al cuadrado, se calcula para todas las observaciones de la muestra:
Suma de cuadrados entre grupos (inter) SC(Explicada) =
∑ (Y − Y )
2
i
Suma de cuadrados total SC(Total) =
∑ (Y − Y )
2
ij
Suma de cuadrados dentro grupos (intra) SC(Residual) =
∑ (Y − Y ) ij
2
i
A continuación, se divide cada Suma Cuadrados por sus grados de libertad, obteniendo los Cuadrados Medios o varianzas: CM(Total) =
∑ (Yij − Y ) 2 n −1
CM(Inter-grupos) =
CM(Intra-grupos) =
9.8.1
= Varianza Total
∑ (Yi − Y ) 2 p −1
∑ (Y − Y ) ij
n− p
= Varianza Explicada
2
i
= Varianza Residual
ESTADÍSTICO DE PRUEBA
Para comprobar si es suficientemente grande la varianza explicada frente a la varianza residual, se calcula el estadístico de prueba F=
Varianza Explicada Varianza Re sidual
y su nivel de significación observado (F prob), probabilidad de equivocarnos si se rechaza la H0, con el que se podrá decidir si se Rechaza o no la H0. 99
Análisis Multivariante El estadístico F conduce al Rechazo de la H0 cuando el nivel de significación (F prob.) es pequeño (menor que 0,05), entonces las medias de los tratamientos son estadísticamente diferentes. Es decir, el tratamiento influye en la respuesta o la variable dependiente realmente depende de la independiente. Además, se puede: a)
realizar comparaciones múltiples de medias por pares utilizan-do un
método como por ejemplo el de Scheffé, que permite ver las diferencias estadísticamente significativas que de forma más estricta existen entre las medias de los tratamientos. b)
construir intervalos de confianza para una o mas medias individuales.
Si el estadístico F no conduce al Rechazo de la H0, entonces: las medias son iguales (No rechazamos la hipótesis nula) No se puede creer que de manera automática esta conclusión es la adecuada. Se tiene que considerar también la posibilidad de un error de tipo II, el que cometemos si no se rechaza la hipótesis nula cuando es falsa. Las medias son realmente diferentes, pero no hemos considera-do otros factores importantes que también afectan a la respuesta. Estos factores aumentan la variabilidad residual generando valores mas pequeños de F. Entonces se tiene que incrementar el tamaño de la muestra para cada tratamiento o se tiene que utilizar un diseño experimental diferente que tenga en cuenta los otros factores que afectan a la respuesta.
9.9
EXPERIMENTOS ALEATORIOS CON UN FACTOR
Un diseño completamente aleatorio, es aquel en el que se seleccionan muestras aleatorias para cada tratamiento. Yij = µi + εij donde
Yij: es la respuesta de la observación j a la que se le ha aplicado el
tratamiento µi: es la media del tratamiento i, y εij: es una parte aleatoria específica de cada observación. Hipótesis planteadas: La hipótesis nula es que las medias de los diferentes tratamientos son iguales H0:
µ1 = µ2 = . . . = µp 100
Análisis Multivariante Ha:
Por lo menos dos tratamientos tienen medias diferentes.
Supuestos: Las distribuciones de probabilidad de las p poblaciones son normales. Las varianzas de las p poblaciones son iguales. Las muestras se seleccionan aleatoria e independientemente de las poblaciones respectivas. 9.9.1
MODELO
Este modelo también puede expresarse como: Yij = µ + τi + εij donde
µ: es la media general, y τi: es el efecto diferencial del tratamiento i.
H0:
τ1 = τ2 = . . . = τp
Ha:
Por lo menos dos tratamientos tienen efecto diferencial.
9.10 ANÁLISIS DE VARIANZA CON UN FACTOR (ONE WAY) Utiliza una sola variable explicativa (X) El modelo tiene que cumplir los siguientes supuestos: La variable dependiente (Y) sigue una distribución normal Las varianzas de todas las poblaciones deben ser aproximadamente iguales (Homoscedasticidad) Las muestras son independientes y son obtenidas de forma aleatoria EJEMPLO 1: ANÁLISIS DE VARIANZA DE UN FACTOR (SPSS) Caso 1: Una empresa que quiere lanzar un nuevo refresco en lata de 33 cc. quiere saber si hay diferencias significativas en el precio de un refresco similar vendido en los 4 tipos de tiendas diferentes que se están considerando (hipermercados, supermercados, cooperativas y tiendas tradicionales).
101
Análisis Multivariante
ANOVA
Precio lata 33 cc.
Inter-grupos Intra-grupos Total
Suma de cuadrados 1419,757 5848,525 7268,282
gl 3 226 229
Media cuadrática 473,252 25,878
F 18,288
Sig. ,000
Como las diferencias son significativas se quiere conocer cuáles son los precios medios que se aplican en cada tipo de tienda (en la muestra y para la población, con un intervalo de confianza del 95%). Descriptivos
Precio lata 33 cc.
Tipo de tienda
Hipermercado Supermercado Cooperativa Tda. tradicional Total
N 52 46 50 81 230
Media 44,2134 47,8553 45,3896 50,2857 47,3497
Desviación típica 7,9435 5,3715 1,9618 3,7471 5,6398
Error típico 1,0982 ,7934 ,2775 ,4154 ,3723
Intervalo de confianza para la media al 95% Límite Límite inferior superior 42,0086 46,4183 46,2563 49,4543 44,8318 45,9475 49,4590 51,1123 46,6162 48,0832
Finalmente, se quiere averiguar cuáles de estos precios medios aplicados en las diferentes tiendas son significativamente distintos entre sí, de una forma estricta (utilizando el test de comparaciones múltiples Scheffé).
102
Análisis Multivariante
Comparaciones múltiples Variable dependiente: Precio lata 33 cc. Scheffé
(I) Tipo de tienda Hipermercado
Supermercado
Cooperativa
Tda. tradicional
(J) Tipo de tienda Supermercado Cooperativa Tda. tradicional Hipermercado Cooperativa Tda. tradicional Hipermercado Supermercado Tda. tradicional Hipermercado Supermercado Cooperativa
Diferencia de medias (I-J) -3,6419* -1,1762 -6,0722* 3,6419* 2,4657 -2,4304 1,1762 -2,4657 -4,8960* 6,0722* 2,4304 4,8960*
Error típico 1,029 1,006 ,902 1,029 1,040 ,939 1,006 1,040 ,914 ,902 ,939 ,914
Sig. ,007 ,714 ,000 ,007 ,135 ,085 ,714 ,135 ,000 ,000 ,085 ,000
Intervalo de confianza al 95% Límite Límite inferior superior -6,5408 -,7429 -4,0101 1,6577 -8,6115 -3,5330 ,7429 6,5408 -,4645 5,3959 -5,0766 ,2159 -1,6577 4,0101 -5,3959 ,4645 -7,4709 -2,3212 3,5330 8,6115 -,2159 5,0766 2,3212 7,4709
*. La diferencia entre las medias es significativa al nivel .05.
Precio lata 33 cc. a,b
Scheffé
Tipo de tienda Hipermercado Cooperativa Supermercado Tda. tradicional Sig.
N 52 49 45 81
Subset for alpha = .05 1 2 3 44,2134 45,3896 45,3896 47,8553 47,8553 50,2857 ,692 ,096 ,104
Se muestran las medias para los grupos en los subconjuntos homogéneos. a. Uses Harmonic Mean Sample Size = 54,627 b. Los tamaños de los grupos no son iguales. Se utilizará la media armónica de los tamaños de los grupos. Los niveles de error del tipo I no están garantizados.
9.11 ANOVA CON VARIOS FACTORES En el estudio ANOVA devarios factores hemos de considerar los diferentes tipos de efectos y factores que se pueden analizar y que indicamos a continuación: 103
Análisis Multivariante Intersección: las observaciones habitualmente se sitúan en torno a una media distinta de cero. Factores fijos: los niveles de un factor fijo incluyen todos los niveles sobre los que se desea extraer conclusiones. Factores aleatorios: los niveles de un factor aleatorio son una muestra aleatoria de los posibles niveles sobre los que se desea extraer conclusiones. Covariables: variables explicativas (factores) cuantitativas. Habitualmente trabajaremos con factores fijos. Los factores también se pueden clasificar como: Principales: son los que el investigador controla y modifica para verificar su efecto. Ejemplos: precio, canal, ... De rodeo o bloqueo: son aquellos que varían por si solos al repetir el experimento varias veces (ya que todas las unidades experimentales no son exactamente iguales), el investigador no los cambia expresamente. Sin embargo, como se sospecha que pueden influir en la variable respuesta, se debe controlar su efecto. Ejemplos: Tipo de tienda, día de la semana, ...
9.12 TIPOS
DE
EXPERIMENTOS
HABITUALMENTE
UTILIZADOS EN INVESTIGACIÓN COMERCIAL Los tipos de experimentos que más habitualmente se utilizan en la Investigación Comercial son: -
Experimentación al azar.
-
Experimentación en bloques aleatorios.
-
Experimentación en cuadrado latino.
-
Experimentación con intercambio.
-
Experimentación factorial.
La experimentación factorial permite tratar dos o más variables simultáneamente, mientras que los otros sólo permiten manipular una variable. 9.12.1 EXPERIMENTO ALEATORIO O AL AZAR En este tipo de experimento comercial sólo se controla un factor: la variable independiente estudiada. 104
Análisis Multivariante La asignación de tratamiento a las diferentes unidades experimentales se realiza de forma aleatoria. Vamos a desarrollar lo expuesto anteriormente mediante un caso práctico:
CASO PRÁCTICO Un banco realiza un experimento comercial de tres tipos diferentes de promoción para el lanzamiento de un nuevo producto. Estas promociones consistían en: P1 Regalo de una bicicleta, P2 Regalo de un ordenador, P3 Regalo de los electrodomésticos de la cocina
Cada promoción se probó en cinco sucursales diferentes durante un mes. Los resultados obtenidos, en cuanto a unidades de producto colocadas entre la clientela, se recogen en el cuadro siguiente:
S1
S2
S3
S4
S5
P1
65
50
30
40
65
P2
30
25
15
20
35
P3
15
10
10
25
50
SOLUCIÓN Definiremos las siguientes características: Factor principal: los diferentes tipos de promoción P1, P2, P3, luego K = 3. Unidades experimentales 15 (5 sucursales x 3 tipos de promoción) Variable dependiente: unidades vendidas. Número total de mediciones: n=15 Número de mediciones por cada tratamiento (promoción) nj=5 xij= unidades físicas vendidas en cada sucursal. 105
Análisis Multivariante mj= media de unidades vendidas por tratamiento. m= media total. Partiendo del cuadro de resultados, obtenemos los valores de mj y m, los cuales son:
S1
S2
S3
S4
S5
S
P1
65
50
30
40
65
250 50
P2
30
25
15
20
35
125 25
P3
15
10
10
25
50
110 22
mj
y por tanto m = 32´333 Una vez obtenidos estos datos, pasamos a realizar los cálculos de la técnica ANOVA Dispersión total.
=
D T
n
k
∑ ∑ j = 1
j
( x
i = 1
ij
− m )
2
Sustituyendo por los correspondientes valores obtenemos: DT = (65 - 32´3)2 + (50 - 32.3)2 + (30 - 32´3)2 + (40 - 32´3)2 + (65 - 32´3)2 + 2
2
2
2
2
(30 2
- 32´3) + (25 - 32´3) + (15 - 32´3) + (20 - 32´3) + (35 - 32´3) + (15 - 32´3) + (10 - 32´3)2 + (10 - 32´3)2 + (25 - 32´3)2 + (50 - 32´3)2 = 4.693´333 Dispersión factorial: k
DF = ∑n j (m j − m) 2 j =1
Sustituyendo obtenemos: DF = 5(50 - 32´3)2 +5(25 - 32´3)2 +5(22 - 32´3)2 = 2.363´333 Dispersión residual DR = DT - DF
Luego DR = 4.693´33 - 2.363´33 = 2.330
Cuadrado medio factorial (CMF) CMF =
DF DF = gl k −1
Sustituyendo obtenemos CMF = 1.181´6667 Cuadrado medio residual (CMR) 106
Análisis Multivariante
CMR =
DR DR = gl n−k
Sustituyendo obtenemos CMR = 194´1667 Test de la F
F=
CMF CMR
Sustituyendo obtenemos F= 6´0858 Si buscamos el valor de F en tablas para un nivel del 95% y gl = 2 y 12, obtenemos que F = 3´89 Como 6´0858 > 3´89, existe un efecto significativo de los diferentes tratamientos estudiados para un nivel de confianza del 95%. La conclusión es que los diferentes tipos de promoción afectan significativamente a la demanda. La salida realizada con el programa SPSS es: Esta salida tiene en cuenta la influencia de la sucursal en el experimento (factor rodeo o bloque), por lo que algunos resultados nos conducen a valores diferentes, aunque la conclusión final es la misma.
107
Análisis Multivariante EXPERIMENTO ALEATORIO AL AZAR a Resumen del procesamiento de los casos
N
Incluidos Porcentaje 15 100,0%
Casos Excluidos N Porcentaje 0 ,0%
N
Total Porcentaje 15 100,0%
a. Ventas (unidades vendidas) por Tipo de promoción, Sucursal
Medias de las casillasb,c
Tipo de promoción Bicicleta Ordenador Electrodoméstico Total
Sucursal Total Total Total 1 2 3 4 5 Total
Ventas (unidades vendidas) Media N 50,0000 5 25,0000 5 22,0000 5 36,6667 3 28,3333 3 18,3333 3 28,3333 3 50,0000 3 a 32,3333 15
a. Media global b. Ventas (unidades vendidas) por Tipo de promoción, Sucursal c. No se han calculado las medias de orden 2 o superior debido al límite en el orden máximo de interacción.
ANOVAa
Ventas (unidades vendidas) Efectos principales (Combinadas) Tipo de promoción Sucursal Modelo Residual Total
Suma de cuadrados 4040,000 2363,333 1676,667 4040,000 653,333 4693,333
Método jerárquico Media gl cuadrática F 6 673,333 8,245 2 1181,667 14,469 4 419,167 5,133 6 673,333 8,245 8 81,667 14 335,238
a. Ventas (unidades vendidas) por Tipo de promoción, Sucursal
108
Sig ,004 ,002 ,024 ,004
Análisis Multivariante 9.12.2 EXPERIMENTO DE BLOQUE ALEATORIO En este tipo de experimento comercial se controlan dos factores: 1 La variable independiente o factor principal 2 Un factor de control que se denomina “factor bloque”, también llamado “de rodeo” Este tipo de experimento comercial se debe hacer cuando se intuye que existe otro factor influyente en el aspecto estudiado, aparte del factor principal. Se debe utilizar un número de unidades experimentales suficientes para probar todas las combinaciones posibles entre las alternativas de los dos factores controlados. Desarrollemos lo anterior con el siguiente caso: CASO PRÁCTICO Una empresa de refrescos va a lanzar al mercado un nuevo producto; para ello realiza una prueba con tres envases diferentes: P1 envase de 2l., P2 envase de 1l., P3 envase de 0´5l. Además la empresa controla otro factor influyente, que es el tipo de establecimiento donde se expenden los refrescos; para ello definen el siguiente factor bloque: B1 grandes superficies, B2 supermercados, B3 tienda tradicional y B4 autoservicio. Cada envase se prueba en los cuatro tipos de tienda, durante un mes. Se obtienen los resultados siguientes en miles de unidades de producto: Tabla de resultados: B1
B2
B3
B4
P1
3
4
3
2
P2
7
8
7
6
P3
8
12
8
4
SOLUCIÓN Factor Principal: tratamientos P1, P2, P3. Luego k=3 Factor bloque: las alternativas B1, B2, B3, B4, luego R = 4 Unidades experimentales 4x3 =12 Variable dependiente: unidades vendidas Siendo 109
Análisis Multivariante n el número de mediciones (12) xij las unidades vendidas en los diferentes establecimientos. mj la media de ventas por tratamiento mi la media de ventas por cada alternativa de bloque m la media total Cálculos
B1
B2
B3
B4
S
mj
P1
3
4
3
2
12
3
P2
7
8
7
6
28
7
P3
8
12
8
4
32
8
S
18
24
18
12
mi
6
8
6
4
Luego m = 6 Dispersión total DT = 92 Dispersión factorial DF = 56 Dispersión bloque
DB = ∑k (mi − m) 2 DB = 3(6 - 6)2 + 3(8 - 6)2 + 3(6 - 6)2 + 3(4 - 6)2 = 24 Dispersión residual DR = DT - DF - DB
Sustituyendo, DR = 12
Cuadrado medio factorial CMF = 28 Cuadrado medio bloque CMB = 8 Cuadrado medio residual CMR = 2 Test de la F 1 Factor principal
F=
CMF CMR
Luego F = 14 Como el valor en tablas para el 95% y gl 2 y 6 es 5´14 110
Análisis Multivariante Podemos decir que existe un efecto significativo de los tratamientos estudiados para un nivel de confianza del 95% 2 Factor bloque
F=
CMB CMR
Luego F = 4 El valor correspondiente en tablas para el 95% y gl 3 y 6 es F = 4´76 Como 4 < 4´76 podemos decir que: NO existe un efecto significativo del factor bloque para el nivel de confianza del 95%
La correspondiente salida de SPSS es:
111
Análisis Multivariante
9.12.2.1 EXPERIMENTO DE BLOQUE ALEATORIO (SPSS)
a Resumen del procesamiento de los casos
N
Incluidos Porcentaje 12 100,0%
Casos Excluidos N Porcentaje 0 ,0%
Total Porcentaje 12 100,0%
N
a. Ventas (miles de unidades) por Tipo de promoción, Tipo de tienda Medias de las casillasb,c
Envase 2 litros 1 litro 1/2 litro Total
Tipo de tienda Total Total Total Gran superficie Supermercado Tienda tradicional Autoservicio Total
Ventas (miles de unidades) Media N 3,0000 4 7,0000 4 8,0000 4 6,0000 3 8,0000 3 6,0000 3 4,0000 3 6,0000a 12
a. Media global b. Ventas (miles de unidades) por Envase, Tipo de tienda c. No se han calculado las medias de orden 2 o superior debido al límite en el orden máximo de interacción.
ANOVAa
Ventas (miles de unidades) Efectos principales (Combinadas) Envase Tipo de tienda Modelo Residual Total
Suma de cuadrados 80,000 56,000 24,000 80,000 12,000 92,000
Método jerárquico Media gl F cuadrática 5 16,000 8,000 2 28,000 14,000 3 8,000 4,000 5 16,000 8,000 6 2,000 11 8,364
a. Ventas (miles de unidades) por Tipo de promoción, Tipo de tienda
112
Sig ,012 ,005 ,070 ,012
Análisis Multivariante 9.12.3 EXPERIMENTO DE CUADRADO LATINO En este tipo de experimentación comercial se controlan tres factores: 1 La variable independiente o factor principal 2 Dos factores de control o rodeo que se denominan “factores bloque” El diseño en cuadrado latino exige utilizar el mismo número de alternativas en los tres factores controlados. Deberemos plantear este tipo de estudio cuando se estima que existen otros dos factores influyentes en el fenómeno estudiado, aparte del factor principal. Se debe diseñar un número de unidades experimentales suficiente para probar todas las combinaciones posibles entre los tres factores sometidos a control. Vamos a desarrollarlo con el siguiente caso práctico: CASO PRACTICO Supongamos que una empresa de zumos realiza una prueba de mercado para estudiar el color adecuado para confeccionar el envase. Se proponen los siguientes colores: P1 envase verde y blanco, P2 envase rojo y verde, P3 envase azul y verde. Para ello la empresa controla los siguientes factores influyentes: Bloque 1 Tipo de punto de venta. B11 gran superficie, B12 autoservicio, B13 comercio tradicional Bloque 2 Región geográfica. B21 Cataluña, B22 Aragón, B23 País Vasco. Cada envase se prueba en los tres tipos de punto de venta y en las tres regiones geográficas. Los resultados obtenidos son (en miles de unidades):
B11
B12
B13
B21
P1
P2
P3
B22
P2
P3
P1
B23
P3
P1
P2
113
Análisis Multivariante SOLUCIÓN Supongamos los siguientes datos para la matriz
B11
B12
B13
B21
(P1) 5
(P2) 2
(P3) 3
B22
(P2) 3
(P3) 4
(P1) 6
B23
(P3) 3
(P1) 6
(P2) 2
Conceptos: Factor principal: los diferentes tratamientos P1, P2, P3, luego K = 3 Factor bloque 1: las alternativas B11, B12, B13, luego R= 3 Factor bloque 2: las alternativas B21, B22; B23, luego L= 3 K=R=L=3 Unidades experimentales: 9 tiendas (3x3) Variable dependiente: unidades vendidas n el número de mediciones 9 xijk unidades vendidas mi media de las unidades vendidas B1 mj media de las unidades vendidas B2 mk media de unidades vendidas por tratamiento m la media total Cálculos
B11
B12
B13
S
mj
B21
5
2
3
10
3´3
B22
3
4
6
13
4´3
B23
3
6
2
11
3´4
S
11
12
11
mi
3´4
4
3´4
mk toma los valores 5´7, 2´3 y 3´3 114
Análisis Multivariante mkP1 = (5+6+6) : 3 = 5´7, Dispersión total DT = 19´556 Dispersión factorial (mk)DF = 17´556 Dispersión bloque 1 (mi) DB1 = 0´222 Dispersión bloque 2 (mj) DB2 = 1´556 Dispersión residual DR = DT -DF - DB1 - DB2 DR = 0´222 Cuadrado medio factorial CMF =17´556 : 2 = 8´778 Cuadrado medio bloque 1 CMB1 =0´222 : 2 = 0´111 Cuadrado medio bloque 2 CMB2 = 1´556 :2 = 0´778 Cuadrado medio residual CMR = 0´222 :2 = 0´111 Test de la F 1 Factor principal F = 8´778 : 0´111 = 79´000 El valor de tablas para el 95% y gl 2 y 2 es Ft = 19 Sí que existe significación 2 Factor bloque 1 F = 0´111 : 0´111 = 1, siendo Ft = 19 Es válida H0 2 Factor bloque 2 F = 0´778 : 0´111 = 7, siendo Ft = 19 Es válida H0 La correspondiente salida del SPSS es:
115
Análisis Multivariante
9.12.3.1 EXPERIMENTO CUADRADO LATINO (SPSS) a Resumen del procesamiento de los casos
N
Incluidos Porcentaje 9 100,0%
Casos Excluidos N Porcentaje 0 ,0%
N
Total Porcentaje 9 100,0%
a. Ventas (miles de unidades) por Envase, Tipo de tienda, REGIÓN Medias de las casillasb,c
Envase Verde/blanco Rojo/verde Azul/verde Total
Tipo de tienda Total Total Total Gran superficie Autoservicio Tienda tradicional Total
Región Total Total Total Total Total Total Cataluña Aragón Pais Vasco Total
Ventas (miles de unidades) Media N 5,6667 3 2,3333 3 3,3333 3 3,6667 3 4,0000 3 3,6667 3 3,3333 3 4,3333 3 3,6667 3 3,7778a 9
a. Media global b. Ventas (miles de unidades) por Envase, Tipo de tienda, Región c. No se han calculado las medias de orden 2 o superior debido al límite en el orden máximo de interacción.
ANOVAa
Ventas (miles de unidades) Efectos principales (Combinadas) Envase Tipo de tienda Región Modelo Residual Total
Suma de cuadrados 19,333 17,556 ,222 1,556 19,333 ,222 19,556
Método jerárquico Media gl cuadrática F 6 3,222 29,000 2 8,778 79,000 2 ,111 1,000 2 ,778 7,000 6 3,222 29,000 2 ,111 8 2,444
a. Ventas (miles de unidades) por Envase, Tipo de tienda, Región
116
Sig ,034 ,013 ,500 ,125 ,034
Análisis Multivariante 9.12.4 EXPERIMENTO CON INTERCAMBIO Este procedimiento consiste básicamente en la aplicación alternativa y sucesiva de los diferentes tratamientos a las unidades experimentales. El orden de aplicación de los diversos tratamientos sobre las unidades experimentales debe ser al azar, con la condición de que haya el mismo número de unidades experimentales que reciba primero un tratamiento y después los otros. Este tipo de experimento combina las características de los bloques aleatorios y los de los cuadrados latinos pequeños. 9.12.5 EXPERIMENTO FACTORIAL En los experimentos comerciales de tipo factorial se controlan varios factores principales, midiendo sus efectos individuales y los conjuntos sobre la variable dependiente. Esta es una situación muy habitual en el área de Marketing, donde la aplicación del Marketing mix produce en el mercado unos resultados diferentes del que se obtendría por la suma de los efectos aislados de cada factor del mix de Marketing. La técnica estadística que se utiliza se denomina ANOVA de vía múltiple. Veamos este experimento con un caso práctico: CASO PRACTICO Una empresa realiza un experimento con tres tipos de promoción (Puntos, precio y sorteo) y dos modelos de envase (500 y 1.000 cc.). El estudio lo realiza en una gran superficie y en una tienda tradicional, durante un mes. Los resultados en miles de unidades de producto vendidas son las indicadas en el siguiente cuadro.
E1
E2
P1
P2
P3
40
34
28
36
28
20
30
26
14
22
16
10
117
Análisis Multivariante SOLUCIÓN Factor principal 1 los modelos de envase E1, E2 a=2 Factor principal 2 los tipos de promoción P1, P2, P3 b=3 Unidades experimentales: 12 (dos por cada combinación de factores) K = 2 Variable dependiente: unidades vendidas n es el número de mediciones totales (12) xijk unidades vendidas en las diferentes mediciones mi es la media de unidades vendidas por alternativas del factor 1 mj es la media de unidades vendidas por alternativas del factor 2 mk es la media de unidades vendidas por cada combinación de factores m es la media total Cálculos
P1
P2
P3
S
mj
40
34
28
186
31
36
28
20
30
26
14
118
19´67
22
16
10
S
128
104
72
mi
32
26
18
E1
E2
mk
304
P1E1
P1E2
P2E1
P2E2
P3E1
P3E2
38
26
31
21
24
12
Siendo m = 25´3 Dispersión Total DT = 930´667
Dispersión Factor 1 DF1 = ∑aK (mj − m)2
Sustituyendo obtenemos:
DF1 = (2x2) ( 31 - 25´3)2 +(2x2) ( 19´6 - 25´3)2 = 385´33 118
Análisis Multivariante Dispersión factor 2
DF 2 = ∑bK ( mi − m) 2
Sustituyendo obtenemos
DF2 = (3x2) (32 - 25´3)2 + (3x2) (26 - 25´3)2 + (3x2) (18 - 25´3)2 = 394´667
Dispersión de la interacción DIN = S(m +mk - mj - mi)2 DIN = 2´667
Dispersión residual DR = DT - DF1 - DF2 - DIN DR = 148
Cuadrado medio del factor 1 CMF1 = 385´333 : 1 = 385´333 Cuadrado medio del factor 2
CMF2 = 394´667 :2 = 197´33
(gl= a-1) (gl=b-1)
Cuadrado medio de la interacción (CMIN) CMIN =
DIN (a − 1)(b − 1)
Sustituyendo obtenemos: CMIN = 1´333
Cuadrado medio residual (CMR) CMR =
DR ab ( K − 1)
Sustituyendo obtenemos CMR = 24´667
Test de la F
1 Factor 1 F= 385´333 : 24´667 = 15´622 Ft para el 95% y gl 1 y 6 es 5´99 Por tanto existe un efecto significativo.
2 Factor 2 F = 197´333 : 24´667 = 8 Ft para el 95% y gl 2 y 6 es 5´14 119
Análisis Multivariante Por tanto existe un efecto significativo. 3 Interacción F = 1´333 : 24´667 = 0´054 Como el valor de F es menor de la unidad, nos indica que no existe un efecto significativo de la interacción de los dos factores objeto de la experimentación sobre la demanda. No es preciso comparar con tablas. La correspondiente salida con el paquete estadístico SPSS es la siguiente:
120
Análisis Multivariante
9.12.5.1 EXPERIMENTO FACTORIAL SIMPLE (SPSS)
a Resumen del procesamiento de los casos
N
Incluidos Porcentaje 12 100,0%
Casos Excluidos N Porcentaje 0 ,0%
N
Total Porcentaje 12 100,0%
a. Ventas (miles de unidades) por Envase, Promoción
Medias de las casillasb
Envase 500 cc.
1000 cc.
Total
Promoción Puntos Precio Sorteo Total Puntos Precio Sorteo Total Puntos Precio Sorteo Total
Ventas (miles de unidades) Media N 38,00 2 31,00 2 24,00 2 31,00 6 26,00 2 21,00 2 12,00 2 19,67 6 32,00 4 26,00 4 18,00 4 25,33a 12
a. Media global b. Ventas (miles de unidades) por Envase, Promoción ANOVAa
Ventas (miles de unidades) Efectos principales
Interacciones de orden 2
(Combinadas) Envase Promoción Envase * Promoción
Modelo Residual Total
Suma de cuadrados 780,000 385,333 394,667
Sig ,008 ,008 ,020
2,667
2
1,333
,054
,948
782,667 148,000 930,667
5 6 11
156,533 24,667 84,606
6,346
,022
a. Ventas (miles de unidades) por Envase, Promoción
121
Método jerárquico Media gl F cuadrática 3 260,000 10,541 1 385,333 15,622 2 197,333 8,000
Análisis Multivariante TABLA ESTADÍSTICA: DISTRIBUCIÓN DE LA F (Nivel de confianza 95%)
m n
1
2
3
4
5
1
161´4
199´5
215´7
224´6
230´2
2
18´51
19
19´16
19´25
19´30
3
10´13
9´55
9´28
9´12
9´01
4
7´71
6´94
6´59
6´39
6´26
5
6´61
5´79
5´41
5´19
5´05
6
5´99
5´14
4´76
4,53
4´39
7
5´59
4´74
4´35
4´12
3´97
8
5´32
4´46
4´07
3´84
3´69
9
5´12
4´26
3´86
3´63
3´48
10
4´96
4´10
3´71
3´48
3´33
11
4´84
3´98
3´59
3´36
3´20
12
4´75
3´89
3´49
3´26
3´11
13
4´67
3´81
3´41
3´18
3´03
14
4´6
3´74
3´34
3´11
2´96
15
4´54
3´68
3´29
3´06
2´90
Siendo m los grados de libertad del numerador y n los grados de libertad del denominador. 122
Análisis Multivariante
ANEXO 1 RESUMEN DEL MÉTODO ANOVA TRADICIONAL El proceso de este método es: Se determinan las siguientes dispersiones: 1.- Dispersión total (DT) Mide la suma de las dispersiones. 2.- Dispersión factorial (DF) Mide la dispersión entre los grupos creados por las diferentes alternativas del factor o factores estudiados. Dependiendo del tipo de experimento, pueden existir varias dispersiones factoriales, correspondientes al factor principal y a los factores de bloque. 3.- Dispersión residual (DR) Mide la dispersión dentro de los grupos creados por las diferentes alternativas del factor o factores estudiados. DT = DF + DR
DR = DT - DF
4.- Se calcula el cuadrado medio total (CMT) Se trata de la dispersión total dividida por el número de grados de libertad. CMT = DT / gl
donde gl son los grados de libertad.
5.- Se calcula el cuadrado medio factorial (CMF) Se trata de la dispersión factorial dividida por el número de grados de libertad. CMF = DF / gl Dependiendo del tipo de experimento pueden existir varias varianzas factoriales, correspondiendo al factor principal y a los factores bloque. 6.- Se calcula el Cuadrado medio residual (CMR) Se trata de la dispersión residual dividida por el número de grados de libertad. CMR = DR / gl 7 Se realiza el test de la F Para cada factor estudiado se calcula: 7-1.- Se calcula el estadístico F F = CMF / CMR 123
Análisis Multivariante Si el valor de F es menor que uno, es decir CMF < CMR, no existe un efecto significativo del factor estudiado sobre la variable dependiente, y por tanto no es necesario realizar la comparación de F con el correspondiente valor de las tablas. 7-2.- Se determina el valor de F en las tablas estadísticas de la distribución de la F, en base a los grados de libertad del numerador y del denominador. 7-3.- Se comparan ambos valores. La hipótesis nula H0 es: NO EXISTE EFECTO SIGNIFICATIVO DEL FACTOR ESTUDIADO. Entonces: Si F > Ft (tabla), no se cumple H0 y por tanto el factor estudiado tiene una influencia significativa sobre la variable dependiente. Si F= Ft (tabla), entonces se cumple H0 ANEXO 2 RESUMEN DE TÉRMINOS UTILIZADOS A continuación vamos a explicar brevemente los conceptos utilizados habitualmente en la Investigación Comercial por experimentación. Diseño experimental. Forma de atribuir los diferentes tratamientos a las unidades experimentales. Dispersión de bloque. Variación que se produce como consecuencia de la acción de diversas variables que no pueden ser controladas, pero cuya existencia conocemos. Dispersión factorial. Variación producida como consecuencia de la influencia de los diversos tratamientos (factores), cuyos efectos se quieren medir y comparar. Dispersión residual. Variación que se produce como consecuencia de diferentes variables, cuyo valor y presencia no conocemos (es decir están sin controlar). También se llama “error experimental”. Dispersión total. Es la variación total originada por los diferentes tratamientos, factores no controlados y las interacciones entre los diversos tratamientos. Grados de libertad. Expresan el número de datos independientes necesarios para calcular el valor de un parámetro. Interacción. Variación que se produce como consecuencia de la influencia recíproca entre varios tratamientos. 124
Análisis Multivariante Repetición. Consiste en realizar dos o más veces una experimentación bajo las mismas condiciones, con el objetivo de obtener una conclusión. También se denomina “réplica”. Tratamiento. Proceso o variable cuyos efectos se quieren medir y comparar. Unidad experimental. Conjunto de elementos a los que se aplica el mismo tratamiento, cuyos efectos se quieren medir y comparar. Varianza. Es la medida de dispersión de un conjunto de datos con relación a su media. Matemáticamente se expresa por la fórmula siguiente:
∑( X N
σ2 =
i =1
i
− µ)
2
donde Xi es el valor del dato, µ es la media del universo o
N
población (N). Cuando la varianza que se quiere calcular corresponde a una muestra, el valor de N de dicha muestra se sustituye por los grados de libertad (n-1). La expresión matemática correspondiente es.
∑( x n
S2 =
i =1
i
− m)
2
n−1
donde n es el tamaño de la muestra, m es la media de la
muestra, y xi = valor del dato correspondiente.
9.13 BIBLIOGRAFÍA Análisis Multivariable para las Ciencias Sociales. Lévy Varela Editorial Perrazo Prentice Hall 2003 El Análisis de la Varianza en la Investigación Comercial. Gregoria Mateos-Aparicio y Miguel Martín. Prentica Hall 2002
125
Análisis Multivariante
ANÁLISIS DISCRIMINANTE
126
Análisis Multivariante
10. ANALISIS DISCRIMINANTE Introducción Vamos a reseñar en el siguiente esquema de situación la técnica del Análisis Discriminante entre los diferentes procedimientos multivariables
Análisis multivariante Dos grupos de variables Método Explicativo Número de variables a explicar: UNA Tipo de la variable a explicar: Cualitativa Tipo de las variables explicativas: Métricas Análisis Discriminante
10.1 CONCEPTO El análisis discriminante se utiliza para seleccionar entre diferentes grupos, mediante el análisis de datos con una variable dependiente categórica y variables independientes medidas en escalas de intervalo. Trata de explicar la pertenencia de las observaciones a las diferentes categorías o grupos preestablecidos 127
Análisis Multivariante 10.1.1
EJEMPLO
Variable dependiente o criterio: Marca de Refresco que toman los consumidores (Fanta, Kas, Schweppes) Variables independientes o de predicción: Las valoraciones obtenidas a través de una escala Diferencial Semántico (7 puntos).
10.2 OBJETIVOS DEL AD •
Explicar la pertenencia de individuos u objetos a grupos preestablecidos
•
Desarrollar las funciones discriminantes. Se trata de combinaciones lineales de las variables independientes (predictoras), que discriminan mejor entre las categorías (Grupos) de la variable dependiente.
•
Identificar diferencias significativas entre los grupos en función de las variables predictoras
•
Determinar las variables independientes (predictoras) que más contribuyen a la diferencia entre grupos.
•
Clasificar los casos para uno de los grupos en función de las variables predictoras.
•
Evaluar la exactitud de la clasificación.
10.3 CLASIFICACIÓN DEL AD Las técnicas del AD se clasifican por el número de categorías que tiene la variable criterio 1. Análisis discriminante de dos grupos: la variable criterio tiene dos categorías (dicotómica) 2. Análisis discriminante múltiple: la variable criterio tiene tres o más categorías 128
Análisis Multivariante 10.4 RELACIÓN ENTRE AD, ANOVA Y REGRESIÓN Las similitudes entre las tres técnicas y sus diferencias las resumimos en el siguiente cuadro Análisis
ANOVA
Discriminante
REGRESION
N de variables dependientes
Una
Una
Una
N de variables independientes
Varias
Varias
Varias
Naturaleza de la variable dependiente
Categórica
Métrica
Métrica
Naturaleza de la variable independiente
Métricas
Categóricas
Métricas
El análisis discriminante de dos grupos está estrechamente relacionado con la Regresión múltiple. En esta situación la variable dependiente se clasifica como binaria (0 y 1) da como resultado coeficientes de regresión parcial proporcionales a los coeficientes de la función discriminante.
10.5 MODELO DEL AD El modelo estadístico en que se fundamenta el AD comprende combinaciones lineales de la siguiente estructura:
D = b0 + b1x1 + b2 x2 + b3 x3 + …..+ bk xk Siendo •
D la calificación discriminante
•
B los coeficientes discriminantes
•
X variables predictoras
129
Análisis Multivariante 10.6 SUPUESTOS Y ESTADÍSTICOS DE USO EN EL AD 10.6.1 SUPUESTOS: 1. Cada uno de los grupos es una muestra de una población normal de variables múltiples 2. Todas las poblaciones tienen la misma matriz de covarianza 10.6.2 ESTADÍSTICOS Los estadísticos que más importancia y tienen mayor relación son: •
Correlación Canónica: Mide la asociación entre la única función discriminante y el conjunto de variables simuladas que definen los datos del grupo (algunos autores llaman membresía, aunque esta palabra no existe en nuestro idioma, la podemos considerar equivalente a membrete) del grupo. Mide el grado de asociación entre los valores discriminantes y los grupos.
•
Centroide. Esta formado por los valores medios de las calificaciones discriminantes para un determinado grupo. Por tanto existen tantos centroides como grupos. Las medias para un grupo en todas las funciones es el centroide del grupo.
•
Matriz de clasificación o matriz de confusión o predicción. Contiene el número de casos que se clasifican en forma correcta y errónea. Los casos clasificados correctamente se distribuyen en la diagonal. La suma de los casos de la diagonal dividida por el total de casos es la razón de aciertos.
•
Coeficientes de la función discriminante. Los no estandarizados son los multiplicadores de las variables, cuando estas se encuentran en las unidades de medición originales.
130
Análisis Multivariante •
Calificaciones discriminantes. Los coeficientes no estandarizado se multiplican por los valores de las variables independientes y se suman al valor constante (b0) obteniéndose el valor D (Calificación Discriminante)
•
Valor específico. Es la razón de la suma de los cuadrados entre y dentro de los grupos. Los valores específicos altos indican funciones superiores.
•
Valores F. Se determinan a partir del ANOVA unidireccional, con la variable de grupo como variable independiente categórica. Cada indicador sirve como variable dependiente métrica del ANOVA.
•
Medias y desviaciones estándar. Se determinan para cada indicador de cada grupo
•
Matriz agrupada de correlaciones dentro de cada grupo. Se calcula mediante el promedio de las matrices de covarianza separadas para todos los grupos.
•
Coeficientes estandarizados de función discriminante. Se utilizan com multiplicadores cuando las variables se estandarizan con media 0 y varianza 1
•
Correlaciones de estructura. También se llaman cargas discriminantes, representan
las correlaciones sencillas entre los indicadores y la función
discriminante •
Matriz de correlación total. Los casos se tratan como si fueran de una sola muestra y se determinan las correlaciones
•
La λ de Wilks. También llamado estadístico U Para cada indicador es la razón de la suma de los cuadrados dentro de los grupos con la suma total de cuadrados. Su valor esta comprendido entre 0 y 1 Los valores próximos a 1 indica que las medias de un grupo no parecen ser muy diferentes si es cercano a 0 indica que las medias de los grupos parecen diferentes.
131
Análisis Multivariante
10.7 PASOS DEL ANÁLISIS DISCRIMINANTE Los pasos o fases que contiene el análisis discriminante son: 1. Formular el problema, 2. Estimar los coeficientes de función discriminante, 3. Determinar la significación discriminante, 4. Interpretar los resultados 5. Verificar la validez del análisis discriminante. 10.7.1 FORMULACIÓN DEL PROBLEMA Hemos de identificar a través de los objetivos que perseguimos la variable criterio y las variables predictoras o independientes. La variable criterio debe establecerse en categorías mutuamente excluyentes y colectivamente exhaustivas. Las variables predictivas deben escogerse en función del criterio del investigador. La muestra se divide en dos partes, Una parte de la muestra se utiliza para el cálculo de la función discriminante (Muestra de análisis) La otra parte que se suele denominar como proposición o muestra de validación y se usa para validar la función discriminante. Cuando la muestra es grande y se divide en dos partes iguales, lo que se hace es intercambiar el papel de las mitades haciéndose lo que se denomina validación cruzada doble.
132
Análisis Multivariante 10.7.2 ESTIMACIÓN La muestra de análisis la utilizamos para determinar los coeficientes de función discriminante. Método directo. Todos los indicadores se incluyen directamente. Es decir se incluyen todas las variables sin importar su poder de discriminación Análisis discriminante discreto. Las variables de predicción entran de forma secuencial, en función de su capacidad para discriminar entre los grupos. El primer procedimiento es apropiado cuando, por alguna causa (modelo o experiencias) el investigador quiere que la discriminación se base en todos los indicadores. El método discreto es de utilidad cuando se quiere seleccionar un conjunto o subconjunto de indicadores para su inclusión en la función discriminante final. 10.7.3 DETERMINACIÓN DEL GRADO DE SIGNIFICACIÓN Para probar la significación estadística se toma como hipótesis nula (H0) En la población las medias de todas las funciones discriminantes son iguales en todos los grupos. La prueba se basa en la λ de Wilks La significación se calcula con base en una transformación de ji cuadrado Normalmente se trabaja para un contraste del nivel de significación α = 5% Rechazamos H0 cuando la significación calculada sea menor que 0´05 10.7.4 INTERPRETACIÓN La interpretación de los coeficientes es similar a la que se realiza en el análisis de regresión múltiple. El valor del coeficiente de un indicador concreto depende del resto de indicadores que se incluyan en la función discriminante. 133
Análisis Multivariante Los signos de los coeficientes indican que valores de la variable dan como resultado valores de la función altos y bajos así como las correlaciones con los grupos Debido a la posible multicolinealidad en las variables predoctoras, no existe ninguna medición objetiva de la significación relativa de los indicadores en la discriminación entre los grupos. Podemos tener idea de la significación relativa al examinar los coeficientes estandarizados de la función discriminante En la praxis, los indicadores con coeficientes estandarizados altos contribuyen más al poder discriminante. También se analiza la significación relativa de las variables predoctoras (indicadores) analizando las correlaciones de estructura (Cargas canónicas o cargas discriminantes) Estas correlaciones simples entre el indicador y la función discriminante representan la varianza que la variable independiente comparte con la función. También podemos añadir a la interpretación de los resultados el Perfil Característico, se trata de interpretar los resultados mediante la descripción de cada grupo en términos de las medias de los grupos para las variables de predicción. Una comparación entre las medias nos ayuda a comprender sus diferencias. Para una mejor comprensión de estos conceptos reseñamos el siguiente ejemplo del autor Narres K. Malhotra. 10.7.4.1 EJEMPLO5
LOS VENDEDORES SATISFECHOS CONSERVAN SU
TRABAJO. Se utilizó el AD para determinar que factores explicaban las diferencias entre los vendedores que permanecen en la empresa y los que la abandonaron. Las variables utilizadas pueden observarse en la tabla de resultados
5
Naresh K. Malhotra Investigación de Mercados un enfoque práctico. Segunda edición Prentice Hall 1997
134
Análisis Multivariante El resultado fue: La correlación canónica, un índice de discriminación R = 0,4572 es significativa λ de Wilk = 0,7909, F (26 - 173) = 1,7588 y p = 0,0180. Por tanto el resultado indica que las variables consideradas discriminan entre los que se fueron de la empresa y los que permanecen. Ejemplo.
135
Análisis Multivariante
10.7.5 VALIDACIÓN Si recordamos los datos se dividían aleatoriamente en dos submuestras. Una la denominamos muestra de análisis y la utilizamos para estimar la función discriminante y la segunda que llamamos muestra de validación se utiliza para desarrollar la matriz de clasificación Los valores relativos discriminantes que se calculan a través de la muestra de análisis, se multiplican por los valores de las variables de predicción con el objetivo de obtener las correspondientes calificaciones discriminantes (D) de la muestra de validación. De aquí se obtiene la razón de aciertos, que es, el porcentaje de casos que se clasifican correctamente por medio del Análisis Discriminante. Es de utilidad el comparar el porcentaje de los casos que se clasificaron de forma correcta con el AD con el porcentaje que obtendríamos por la probabilidad. Cuando las dos submuestras tienen el mismo tamaño el porcentaje de clasificación por probabilidad es 0,5, en general cuando los grupos tienen el mismo tamaño el porcentaje de clasificación por probabilidad es1 dividido por el número de grupos. Algunos autores citan que: La exactitud alcanzada por el AD debe ser por lo menos un 25% mayor que la alcanzada por la probabilidad. Los paquetes estadísticos utilizados habitualmente estiman una matriz de clasificación con base en la muestra de análisis. Dando significación a la variación probable de esos datos.
136
Análisis Multivariante 10.7.5.1 EJEMPLO: 10.7.5.2 ANÁLISIS DISCRIMINANTE DE DOS GRUPOS.
137
Análisis Multivariante
10.8 EJEMPLO DE ANÁLISIS DISCRIMINANTE CON EL SPSS:
Estadísticos; Clasificar; Discriminante; Variable de agrupación ... (cualitativa); Definir rango ... (mín., máx.); Independientes ... (variables cuantitativas o binarias), Introducir independientes juntas Estadísticos: Descriptivos: Medias* y ANOVAs univariados; Matrices: correlación intra-grupos, Coeficientes de la función: no tipificados; Clasificar: Mostrar: Resultados para cada caso* Tabla de resumen Clasificación dejando uno fuera*. * pedir solo si interesa. EJEMPLO DE LAS BICICLETAS
Somos una empresa fabricante de Bicicletas y deseamos conocer, a través Cuáles son las características diferenciadoras de los consumidores de la gama Alta y de la gama Media de nuestras bicicletas.
Resumen del procesamiento para el análisis de casos Casos no ponderados Válidos Excluidos Código de grupo de perdido o fuera de rango Perdida al menos una variable discriminante Perdidos o fuera de rango ambos, el código de grupo y al menos una de las variables discriminantes. Total Total
138
N 180 0 0
Porcentaje 100,0 ,0 ,0
0
,0
0 180
,0 100,0
Análisis Multivariante 1. ANÁLISIS UNIVARIANTE: Estadísticos del grupo
Gama de Producto Media
Alta
Total
edad estado civil (1=casado) Ingreso familiar anual (Euros) Promedio de Km realizados por semana Autoevaluación del nivel ciclista sexo (1=mujer) Promedio de veces que utiliza la bici por semana edad estado civil (1=casado) Ingreso familiar anual (Euros) Promedio de Km realizados por semana Autoevaluación del nivel ciclista sexo (1=mujer) Promedio de veces que utiliza la bici por semana edad estado civil (1=casado) Ingreso familiar anual (Euros) Promedio de Km realizados por semana Autoevaluación del nivel ciclista sexo (1=mujer) Promedio de veces que utiliza la bici por semana
N válido (según lista) No ponderados Ponderados 141 141,000 141 141,000 141 141,000
Media 28,93 ,65 26928,72
Desv. típ. 7,09 ,48 6726,99
85,96
30,89
141
141,000
2,91 ,47
,68 ,50
141 141
141,000 141,000
2,98
,79
141
141,000
29,21 ,64 42587,18
6,98 ,49 12704,88
39 39 39
39,000 39,000 39,000
168,46
60,02
39
39,000
4,67 ,21
,62 ,41
39 39
39,000 39,000
4,44
1,12
39
39,000
28,99 ,64 30321,39
7,05 ,48 10559,63
180 180 180
180,000 180,000 180,000
103,83
51,70
180
180,000
3,29 ,41
,98 ,49
180 180
180,000 180,000
3,29
1,06
180
180,000
¿Las medias de estas variables para cada uno de los grupos son significativamente distintas? Deberíamos hacer un análisis de la varianza, considerando cada una de las variables independientes como la variable a explicar y como variable explicativa, el factor, nuestra variable dependiente (el grupo al que pertenece la observación). Por ejemplo, el resultado obtenido en el análisis de varianza para la variable “autoevaluación del nivel ciclista” sería el siguiente:
139
Análisis Multivariante
ANOVA de un factor ANOVA
Autoevaluación del nivel ciclista
Inter-grupos Intra-grupos Total
Suma de cuadrados 94,510 78,468 172,978
gl 1 178 179
Media cuadrática 94,510 ,441
F 214,389
Sig. ,000
El análisis discriminante efectúa ese mismo análisis para todas las variables explicativas: Pruebas de igualdad de las medias de los grupos
edad estado civil (1=casado) Ingreso familiar anual (Euros) Promedio de Km realizados por semana Autoevaluación del nivel ciclista sexo (1=mujer) Promedio de veces que utiliza la bici por semana
Lambda de Wilks 1,000 1,000 ,625
F ,047 ,003 106,929
,565
gl1 1 1 1
gl2 178 178 178
Sig. ,829 ,960 ,000
136,839
1
178
,000
,454 ,952
214,389 9,068
1 1
178 178
,000 ,003
,675
85,832
1
178
,000
Además del test F, ya conocido, se calcula la Lambda de Wilks: λ
WILKS
=
Suma de cuadrados intra - grupos (residual) Suma de cuadrados Total
En ambos casos, la H0 es: las medias son iguales. Si la Significación es pequeña (menor que 0.05 o 0.10) se rechaza la H0. Por tanto, hay diferencias entre las medias de los grupos. Finalmente, se obtiene una matriz de correlaciones (intra-grupo) entre las variables explicativas 140
Análisis Multivariante
Matrices intra-grupo combinadas
Corre lación
edad estado civil (1=casado) Ingreso familiar anual (Euros) Promedio de Km realizados por semana Autoevaluación del nivel ciclista sexo (1=mujer) Promedio de veces que utiliza la bici por semana
edad 1,000
est. civil ,179
Ingreso ,716
Km por semana ,010
nivel ciclista ,037
sexo -,010
Veces sem. -,029
,179
1,000
,159
,062
-,058
,079
-,013
,716
,159
1,000
,102
,015
-,009
,040
,010
,062
,102
1,000
,577
-,138
,695
,037
-,058
,015
,577
1,000
-,180
,393
-,010
,079
-,009
-,138
-,180
1,000
-,135
-,029
-,013
,040
,695
,393
-,135
1,000
La correlación “intra-grupo” se calcula teniendo en cuenta la pertenencia a un determinaro grupo. Ejemplo:
141
Análisis Multivariante
10.9 ANALISIS DEL EFECTO CONJUNTO: En primer lugar se busca la Función discriminante: D = B0 + B1 X 1 + B2 X 2 + Λ + BK X K siendo los coeficientes B’s aquellos que maximizan la relación Suma de Cuadrados Explicada / Suma de Cuadrados Residual. En nuestro ejemplo: Coeficientes de las funciones canónicas discriminantes
edad estado civil (1=casado) Ingreso familiar anual (Euros) Promedio de Km realizados por semana Autoevaluación del nivel ciclista sexo (1=mujer) Promedio de veces que utiliza la bici por semana (Constante)
Función 1 -,10273 ,01998 ,00012 -,00025 1,00256 -,01476 ,14424 -4,38912
Coeficientes no tipificados
Con ellos se pueden calcular las puntuaciones discriminantes para cada observación: D1 =
– 0,102 (22) + 0,019 (0) + 0,0001 (22100) – 0,0002 (120) + + 1,002 (5) – 0,014 (0) + 0,144 (3) – 4,389 = 1,40 Resúmenes de casosa
1 2 3 4 5
edad 22 22 23 23 23
estado civil (1=casado) soltero soltero soltero soltero soltero
Ingreso familiar anual (Euros) 22100 28900 24650 31450 28050
Promedio de Km realizados por semana 120 200 140 100 100
Autoevaluación del nivel ciclista Profesional (5) Profesional (5) Profesional (5) Experto (4) Profesional (5)
a. Limitado a los primeros 5 casos.
142
sexo (1=mujer) hombre hombre hombre mujer hombre
Promedio de veces que utiliza la bici por semana 3 4 4 3 4
Puntuaciones discriminantes de la función 1 para el análisis 1 1,40039 2,33522 1,74085 1,39958 2,15595
Análisis Multivariante
Las puntuaciones discriminantes se pueden guardar, pudiéndose utilizar en otros análisis. Por ejemplo, podemos comprobar como se han separado los grupos con un análisis de varianza: Descriptivos
Puntuaciones discriminantes de la función 1
Gama de Producto
N 141 39 180
Media Alta Total
Media -,8222 2,9725 ,0000
Desv. típica ,8910 1,3263 1,8579
Error típico ,0750 ,2124 ,1385
Intervalo de confianza para la media al 95% Límite Límite inferior superior -,9705 -,6738 2,5425 3,4024 -,2733 ,2733
ANOVA
Puntuaciones discriminantes de la función 1
Inter-grupos Intra-grupos Total
Suma de cuadrados 439,903 178,000 617,903
gl 1 178 179
Media cuadrática 439,903 1,000
F 439,903
Sig. ,000
Como también hace el análisis discriminante:
Análisis 1: Resumen de las funciones canónicas discriminantes =
Autovalores
Función 1
Autovalor 2,471a
% de varianza 100,0
% acumulado 100,0
Correlación canónica ,844
439,9 SC Explicada = ≡R 617,9 SC Total
a. Se han empleado las 1 primeras funciones discriminantes canónicas en el análisis.
SC Explicada / SC Residual = 439,9 / 178 Lambda de Wilks Contraste de las funciones 1
Lambda de Wilks ,288
Chi-cuadrado 217,174
gl 7
Sig. ,000
SC Residual / SC Total = 178 / 617,9 143
Análisis Multivariante Después de comprobar que los grupos tienen unas medias estadísticamente diferentes, se pueden analizar los coeficientes de la función discriminante y la correlación entre ésta y las variables: Coeficientes estandarizados de las funciones discriminantes canónicas Función 1 -,726 ,010 ,997 -,010 ,666 -,007 ,125
edad estado civil (1=casado) Ingreso familiar anual (Euros) Promedio de Km realizados por semana Autoevaluación del nivel ciclista sexo (1=mujer) Promedio de veces que utiliza la bici por semana
Matriz de estructura Función 1 ,698 ,558 ,493 ,442 -,144 ,010 -,002
Autoevaluación del nivel ciclista Promedio de Km realizados por semana Ingreso familiar anual (Euros) Promedio de veces que utiliza la bici por semana sexo (1=mujer) edad estado civil (1=casado)
Correlaciones intra-grupo combinadas entre las variables discriminantes y las funciones discriminantes canónicas tipificadas Variables ordenadas por el tamaño de la correlación con la función.
Coeficientes de las funciones canónicas discriminantes Función 1 -,103 ,020 ,000 ,000 1,003 -,015 ,144 -4,389
edad estado civil (1=casado) Ingreso familiar anual (Euros) Promedio de Km realizados por semana Autoevaluación del nivel ciclista sexo (1=mujer) Promedio de veces que utiliza la bici por semana (Constante) Coeficientes no tipificados
144
Análisis Multivariante
Funciones en los centroides de los grupos Función 1 -,822 2,972
Gama de Producto Media Alta
Funciones discriminantes canónicas no tipificadas evaluadas en las medias de los grupos
10.10 CLASIFICACIÓN DE LAS OBSERVACIONES: La probabilidad de pertenecer a un grupo g dado una puntuación discriminante d se calcula a través del teorema de Bayes: P (G = g | D = d ) =
P( D > d | G = g ) • P(G = g ) ∑ P ( D > d | G = g ) • P (G = g ) ∀g
donde P(G = g) es la probabilidad a priori. Normalmente se supone que la probabilidad a priori es la misma para cada grupo, pero se puede asignar en función del peso de cada grupo. P(D > d | G = g) es una probabilidad condicionada. Es la probabilidad de obtener un valor discriminante superior a d dado que la observación pertenece al grupo g. Se calcula a partir de la distribución de puntuaciones discriminantes de la muestra.
145
Análisis Multivariante
A partir de estas probabilidades se puede calcular la probabilidad a posteriori, la probabilidad de pertenecer al grupo g, dado que el valor discriminante es d. La observación se clasifica en el grupo que tiene una mayor probabilidad.
Estadísticos de clasificación Probabilidades previas para los grupos
Gama de Producto Media Alta Total
Previas ,500 ,500 1,000
Casos utilizados en el análisis No ponderados Ponderados 141 141,000 39 39,000 180 180,000
146
Análisis Multivariante
Estadísticos por casos
Grupo mayor
P(D>d | Grupo G=g) Número Grupo pronosticado de caso real p gl 1 2 2 ,116 1 2 2 2 ,524 1 3 2 2 ,218 1 4 2 2 ,116 1 5 2 2 ,414 1 6 2 2 ,185 1 7 2 2 ,774 1 8 2 2 ,610 1 9 2 2 ,373 1 10 2 2 ,227 1 11 2 1** ,141 1 12 2 2 ,851 1 13 2 1** ,216 1 14 2 2 ,410 1 15 2 2 ,503 1 16 2 2 ,509 1 17 2 2 ,155 1 18 2 2 ,505 1 19 2 2 ,835 1 20 2 2 ,423 1
P(G=g | D=d) ,775 ,992 ,926 ,774 ,984 ,898 ,998 ,995 ,979 ,932 ,834 ,998 ,925 ,983 1,000 1,000 ,858 ,991 ,998 ,985
Segundo grupo mayor
Distancia de Distancia de Mahalanobis Mahalanobis al cuadrado al cuadrado hasta el hasta el P(G=g Función centroide centroide Grupo | D=d) 1 2,471 1 ,225 4,940 1,400 ,406 1 ,008 9,969 2,335 1,517 1 ,074 6,569 1,741 2,474 1 ,226 4,936 1,400 ,667 1 ,016 8,869 2,156 1,754 1 ,102 6,102 1,648 ,082 1 ,002 12,307 2,686 ,261 1 ,005 10,785 2,462 ,794 1 ,021 8,430 2,081 1,460 1 ,068 6,690 1,764 2,165 2 ,166 5,398 ,649 ,035 1 ,002 13,007 2,784 1,528 2 ,075 6,545 ,414 ,679 1 ,017 8,824 2,148 ,449 1 ,000 19,933 3,642 ,435 1 ,000 19,842 3,632 2,024 1 ,142 5,627 1,550 ,444 1 ,009 9,789 2,306 ,043 1 ,002 12,865 2,765 ,642 1 ,015 8,960 2,171
**. Caso mal clasificado
Resultados de la clasificacióna
Original
Recuento %
Gama de Producto Media Alta Media Alta
Puntuac iones discrimi nantes
Grupo de pertenencia pronosticado Media Alta 138 3 2 37 97,9 2,1 5,1 94,9
a. Clasificados correctamente el 97,2% de los casos agrupados originales.
147
Total 141 39 100,0 100,0
Análisis Multivariante Estadísticos de clasificación utilizando el método de validación cruzada. Este método da resultados de clasificación algo más realistas, puesto que trata de clasificar cada observación en un modelo que se estima con una muestra en la que no se incluye dicha observación. Por tanto, se realizan tantos modelos como observaciones haya en la muestra, y con cada uno de ellos se comprueba si se clasifica adecuadamente o no una observación omitida. Resultados de la clasificaciónb,c
Original
Recuento %
Validación a cruzada
Recuento %
Gama de Producto Media Alta Media Alta Media Alta Media Alta
Grupo de pertenencia pronosticado Media Alta 138 3 2 37 97,9 2,1 5,1 94,9 138 3 2 37 97,9 2,1 5,1 94,9
Total 141 39 100,0 100,0 141 39 100,0 100,0
a. La validación cruzada sólo se aplica a los casos del análisis. En la validación cruzada, cada caso se clasifica mediante las funciones derivadas a partir del resto de los casos. b. Clasificados correctamente el 97,2% de los casos agrupados originales. c. Clasificados correctamente el 97,2% de los casos agrupados validados mediante validación cruzada.
148
Análisis Multivariante 10.11 MÉTODO
DE
INCLUSIÓN
POR
PASOS:
MÉTODO
LAMBDA DE WILKS: Variables introducidas/eliminadasa,b,c,d Lambda de Wilks
Paso 1 2 3
Introducidas Autoevaluación del nivel ciclista Ingreso familiar anual (Euros) edad
Estadís tico .454 .360 .291
gl1 1 2 3
gl2 1 1 1
gl3 178.0 178.0 178.0
Estadístico 214.389 157.568 143.197
En cada paso se introduce la variable que minimiza la lambda de Wilks global. a. El número máximo de pasos es 14. b. La F parcial mínima para entrar es 3.84. c. La F parcial máxima para eliminar es 2.71 d. El nivel de F, la tolerancia o el VIN son insuficientes para continuar los cálculos.
Variables en el análisis
Paso 1 2 3
Autoevaluación del nivel ciclista Autoevaluación del nivel ciclista Ingreso familiar anual (Euros) Autoevaluación del nivel ciclista Ingreso familiar anual (Euros) edad
Tolerancia 1.000 1.000 1.000 .998 .488 .487
149
F para eliminar 214.389 130.445 46.248 99.817 98.642 41.805
Lambda de Wilks .625 .454 .455 .454 .360
F exacta gl1 gl2 1 178.0 2 177.0 3 176.0
Sig. .000 .000 .000
Análisis Multivariante
Variables no incluidas en el análisis P a s0
1
2
3
edad sexo (1=mujer) estado civil (1=casado) Ingreso familiar anual (Euros) Promedio de veces que utiliza la bici por semana Promedio de Km realizados por semana Autoevaluación del nivel ciclista edad sexo (1=mujer) estado civil (1=casado) Ingreso familiar anual (Euros) Promedio de veces que utiliza la bici por semana Promedio de Km realizados por semana edad sexo (1=mujer) estado civil (1=casado) Promedio de veces que utiliza la bici por semana Promedio de Km realizados por semana sexo (1=mujer) estado civil (1=casado) Promedio de veces que utiliza la bici por semana Promedio de Km realizados por semana
Tolerancia mín. 1.000 1.000 1.000 1.000 1.000 1.000 1.000 .999 .968 .997 1.000 .845 .667 .487 .968 .971 .844 .659 .487 .482 .482 .472
Tolerancia 1.000 1.000 1.000 1.000 1.000 1.000 1.000 .999 .968 .997 1.000 .845 .667 .487 .968 .971 .844 .659 .968 .962 .835 .646
Resumen de las funciones canónicas discriminantes Autovalores
Función 1
Autovalor % de varianza 2.441a 100.0
Correlación canónica .842
% acumulado 100.0
a. Se han empleado las 1 primeras funciones discriminantes canónicas en el análisis.
Lambda de Wilks Contraste de las funciones 1
Lambda de Wilks .291
Chi-cuadrado 218.105
gl 3
150
Sig. .000
F para introducir .047 9.068 .003 106.929 85.832 136.839 214.389 .047 .068 .285 46.248 6.567 7.150 41.805 .036 .252 4.223 2.865 .025 .012 1.532 .523
Lambda de Wilks 1.000 .952 1.000 .625 .675 .565 .454 .454 .453 .453 .360 .437 .436 .291 .360 .359 .351 .354 .291 .291 .288 .290
Análisis Multivariante
Coeficientes estandarizados de las funciones discriminantes canónicas
edad Ingreso familiar anual (Euros) Autoevaluación del nivel ciclista
Función 1 -.745 1.019 .715
Matriz de estructura
Autoevaluación del nivel ciclista Promedio de Km realizados por semanaa Ingreso familiar anual (Euros) Promedio de veces que utiliza la bici por semanaa sexo (1=mujer)a estado civil (1=casado)a edad
Función 1 .702 .509 .496 .343 -.130 -.012 .010
Correlaciones intra-grupo combinadas entre las variables discriminantes y las funciones discriminantes canónicas tipificadas Variables ordenadas por el tamaño de la correlación con la función. a. Esta variable no se emplea en el análisis.
Coeficientes de las funciones canónicas discriminantes
edad Ingreso familiar anual (Euros) Autoevaluación del nivel ciclista (Constante)
Función 1 -.10544 .00012 1.07664 -4.17625
Coeficientes no tipificados
Funciones en los centroides de los grupos
Gama de Producto 1 Media 2 Alta
Función 1 -.817 2.954
Funciones discriminantes canónicas no tipificadas evaluadas en las medias de los grupos
151
Análisis Multivariante Estadísticos de clasificación Resumen del proceso de clasificación Procesados Excluidos
Código de grupo perdido o fuera de rango Perdida al menos una variable discriminante Usados en los resultados
180 0 0 180
Probabilidades previas para los grupos
Gama de Producto 1 Media 2 Alta Total
Previas .500 .500 1.000
Casos utilizados en el análisis No Ponderados ponderados 141 141.000 39 39.000 180 180.000
Resultados de la clasificacióna
Original
Recuento %
Gama de Producto 1 Media 2 Alta 1 Media 2 Alta
Grupo de pertenencia pronosticado 1 Media 2 Alta 138 3 2 37 97.9 2.1 5.1 94.9
Total 141 39 100.0 100.0
a. Clasificados correctamente el 97.2% de los casos agrupados originales.
152
Análisis Multivariante
10.12 ANÁLISIS DISCRIMINANTE MÚLTIPLE Se habla de técnicas de Análisis Discriminante Múltiple (ADM): cuando la variable criterio tiene tres o más categorías Si en el ADM existen K categorías o grupos, de la variable criterio, pueden estimarse K – 1 funciones discriminantes, siempre que el número de variables predictivas (indicadores) sea mayor a K-1 La primera función tiene la razón más alta que la suma de cuadrados entre los grupos con la suma de cuadrados dentro de los grupos. La segunda función no correlacionada con la anterior, tendrá la segunda razón más alta y así sucesivamente. Puede ocurrir que no todas las razones sean significativas estadísticamente. 10.12.1 DETERMINACIÓN DEL GRADO DE SIGNIFICACIÓN La hipótesis nula (H0) es que los centroides de grupo son iguales Deben tomarse las funciones simultáneamente. Seguidamente se excluye una función y las medias restantes se prueban en cada paso. 10.12.2 INTERPRETACIÓN La interpretación de los resultados se realiza a través del examen de los coeficientes estandarizados de la función discriminante, de los diagramas de dispersión, examen de la matriz de estructura y del mapa territorial Mapa territorial: en este diagrama el centroide de cada grupo se indica con un asterisco (*). Las fronteras de los grupos se muestran por medio de números que corresponden a los grupos, de esta forma el centroide del grupo 1 esta delimitado por el número 1, el centroide del grupo 2 por el número 2 y así sucesivamente. 10.12.3 VALIDACIÓN Se requiere que la mejora con la probabilidad sea al menos un 25% superior. 153
Análisis Multivariante
11. CASO PRÁCTICO DE ADM EL PEQUEÑO COMERCIO DETALLISTA DE ZARAGOZA
11.1.1 INTRODUCCIÓN A partir de una encuesta personal realizada por IMSO, S.L. a 818 comercios de Zaragoza, y tras un análisis uni y bivariante (este último validado con la Chi-cuadrado) se observa que en los comercios el conocimiento y/o empleo de algunas herramientas de marketing no es excesivamente elevado. Para la consecución de los objetivos, hemos aplicado algunas técnicas de investigación comercial a los datos obtenidos con una encuesta estructurada, recogida mediante entrevista personal, de una muestra estadísticamente representativa del sector comercio detallista en Zaragoza6. Dado que Zaragoza en los estudios de mercado ha sido considerada siempre como ciudad piloto, y por tanto representativa del resto de ciudades del estado español, los resultados obtenidos con esta muestra se pueden suponer que en cierto modo son representativos del comercio en todo el territorio nacional. Para la obtención de la muestra se ha partido del censo de establecimientos que ha proporcionado la Federación de Empresarios de Comercio de Zaragoza y que está fundamentado en la base de datos del Servicio de Información Empresarial de la Diputación General de Aragón. Según el INE, el número total de establecimientos de la ciudad de Zaragoza es de 13.996, por lo que se trata de un universo finito. Para la obtención de las unidades muestrales se siguieron las normas y procedimientos del muestreo sistemático, eligiendo el primer elemento al azar y el resto mediante adiciones sucesivas del coeficiente de elevación (relación entre el universo y el tamaño de la muestra) que en este estudio tomaba un valor de 17. Para establecer el contacto
6
Queremos agradecer a IMSO, S.L. la cesión de la encuesta y los datos que nos han permitido la realización del trabajo.
154
Análisis Multivariante con el propietario, gerente o encargado del establecimiento comercial se utilizó el procedimiento del telemarketing, concertando cita y hora para la celebración de la entrevista. La fase de recogida se realizó durante el primer trimestre de 1996. Una vez depurados los cuestionarios han quedado 818 entrevistas válidas, lo que para un nivel de confianza del 95,5% y un nivel de indeterminación máximo p=q=0,5, supone trabajar con un error máximo del 3,3%. La encuesta incluía preguntas acerca de las características de los establecimientos, número de empleados, actividad que realizan en el establecimiento y nivel de estudios de estos empleados, opiniones sobre la formación continuada (cuándo, por qué, dónde debe hacerse, qué cursos, duración, etc.), aspectos de marketing conocidos y/o utilizados, etc. En global se han realizado 82 preguntas que generan un total de 253 ítems. Las técnicas aplicadas para la explotación de esta información son las siguientes. En primer lugar, se ha realizado un análisis univariante sobre todas las variables de la base relacionadas con características o atributos de los establecimientos así como sobre las variables relacionadas a herramientas concretas de marketing. Posteriormente, y dada la naturaleza cualitativa de las variables de la base, se ha aplicado el contraste de la Chi-cuadrado que permite establecer la asociación o la independencia entre dos variables cualitativas. Como se puede suponer, en este trabajo se ha establecido relación entre las variables que recogen atributos de los establecimientos entrevistados y las variables que contienen información sobre el empleo/conocimiento de algunas herramientas del área de marketing.
155
Análisis Multivariante
En el siguiente cuadro se presenta la ficha técnica de la encuesta realizada: CUADRO 1.
Ficha técnica de la encuesta. Características Universo
Empresas sección G, divisiones 50, 51 y 52 CNAE937
Ámbito geográfico
Ciudad de Zaragoza
Unidad muestral
Empresa comercial: establecimientos
Método de recogida de información
Encuesta personal estructurada
Tamaño de la muestra
818 encuestas válidas
Nivel de confianza
95,5%, p = q = 0,5
Error muestral
3,3%
Procedimiento de muestreo
Sistemático: coeficiente de elevación 17
Fecha trabajo de campo
Octubre de 1995 a Abril de 1996
Fuente: elaboración propia
Tras la aplicación de diferentes técnicas de investigación de reducción de dimensiones (análisis factorial de componentes principales y de correspondencias) se produce la siguiente reclasificación de los establecimientos comerciales en tres categorías según el grado de utilización de herramientas de marketing. Para verificar este aspecto hemos realizado tablas de contingencia cruzando la variable Grado de Aplicación de Marketing y cada una de las variables utilizadas en el análisis HOMALS. En todos los casos, el estadístico de la Chi cuadrado permitía rechazar la hipótesis nula de independencia entre las variables con un nivel de confianza prácticamente absoluto.
7
Quedan excluidas de esta encuesta las actividades comerciales comprendidas en la división 526 de la CNAE93, que corresponden al comercio al por menor no realizado en establecimientos.
156
Análisis Multivariante CUADRO 2 Recodificación de la variable Marketing Tabla de frecuencia Grado aplicación de marketing Categoría No Marketing Marketing Básico Marketing Sofisticado
Definición Dimensión 1 <= 0 Dimensión 1 > 0 y Dimensión 2 > 0 Dimensión 1 > 0 y Dimensión 2 < 0
Total
Frecuencia 412 261 145
Porcentaje 50,4 31,9 17,7
818
100,0
Fuente: elaboración propia.
11.1.2 ANÁLISIS DISCRIMINANTE Con los datos obtenidos vamos a ilustrar este caso de análisis discriminante de tres grupos. El objetivo que se persigue es determinar las características diferenciales de las empresas que no aplican técnicas de marketing, frente a las que hacen un marketing básico o a las que realizan uno de sofisticado. Adicionalmente, el modelo permitirá predecir en que grupo se clasificarán otras empresas no incluidas en la muestra. De esta manera, se podría por ejemplo, determinar cuales son las empresas que pueden resultar más interesantes para un consultor en Marketing.
Discriminante Resumen del procesamiento para el análisis de casos Casos no ponderados Válidos Excluidos Códigos de grupo perdidos o fuera de rango Perdida al menos una variable discriminante Perdidos o fuera de rango ambos, el código de grupo y al menos una de las variables discriminantes. Total excluidos Casos Totales
157
N 475 0 0
Porcentaje 100.0 .0 .0
0
.0
0 475
.0 100.0
Análisis Multivariante
Estadísticos de grupo Grado aplicación de marketing 1 No Marketing
2 Marketing Básico
3 Marketing Sofisticado
Total
Es una sociedad Antigüedad del establecimiento (años) Establecimiento asociado Número empleados Realiza formación Ventas en mostrador Val. PF Genéricos Marketing Val. PF Atención cliente Val. PF Ténicos por ordenador Es una sociedad Antigüedad del establecimiento (años) Establecimiento asociado Número empleados Realiza formación Ventas en mostrador Val. PF Genéricos Marketing Val. PF Atención cliente Val. PF Ténicos por ordenador Es una sociedad Antigüedad del establecimiento (años) Establecimiento asociado Número empleados Realiza formación Ventas en mostrador Val. PF Genéricos Marketing Val. PF Atención cliente Val. PF Ténicos por ordenador Es una sociedad Antigüedad del establecimiento (años) Establecimiento asociado Número empleados Realiza formación Ventas en mostrador Val. PF Genéricos Marketing Val. PF Atención cliente Val. PF Ténicos por ordenador
158
N válido (según lista) No Pondera ponderados dos 228 228.000
Media .263
Desv. típ. .441
19.189
19.185
228
228.000
.140 2.184 .206 .860 -.214 -.050 -.156 .406
.348 2.774 .405 .348 .995 1.069 .991 .493
228 228 228 228 228 228 228 155
228.000 228.000 228.000 228.000 228.000 228.000 228.000 155.000
18.942
19.395
155
155.000
.181 3.781 .445 .645 .087 .013 .218 .467
.386 4.418 .499 .480 1.003 .951 1.005 .502
155 155 155 155 155 155 155 92
155.000 155.000 155.000 155.000 155.000 155.000 155.000 92.000
19.446
27.532
92
92.000
.359 5.630 .674 .728 .384 .103 .019 .349
.482 9.490 .471 .447 .871 .899 .952 .477
92 92 92 92 92 92 92 475
92.000 92.000 92.000 92.000 92.000 92.000 92.000 475.000
19.158
21.072
475
475.000
.196 3.373 .375 .764 .000 .000 .000
.397 5.389 .485 .425 1.000 1.000 1.000
475 475 475 475 475 475 475
475.000 475.000 475.000 475.000 475.000 475.000 475.000
Análisis Multivariante
Pruebas de igualdad de las medias de los grupos
Es una sociedad Antigüedad del establecimiento (años) Establecimiento asociado Número empleados Realiza formación Ventas en mostrador Val. PF Genéricos Marketing Val. PF Atención cliente Val. PF Ténicos por ordenador
Lambda de Wilks .968 1.000 .958 .941 .861 .949 .947 .997 .973
F 7.861 .017 10.472 14.887 38.140 12.766 13.235 .790 6.607
gl1 2 2 2 2 2 2 2 2 2
gl2 472 472 472 472 472 472 472 472 472
Sig. .000 .983 .000 .000 .000 .000 .000 .455 .001
Matrices intra-grupo combinadas
Correlación Es una sociedad Antigüedad del establecimiento (años) Establecimiento asociado Número empleados Realiza formación Ventas en mostrador Val. PF Genéricos Marketing Val. PF Atención cliente Val. PF Ténicos por ordenador
Es socie dad 1.000
Antigüe dad (años) -.088
Estab. asociado .286
Núm. emplea dos .319
Realiza formaci ón .186
Ventas en mostrador -.180
Val. PF Genéricos Marketing -.063
Val. PF Atención cliente -.020
Val. PF Ténicos ordenador .098
-.088
1.000
-.189
.213
.056
.026
-.066
.048
.048
.286
-.189
1.000
.025
.069
-.087
.065
.064
-.019
.319 .186 -.180
.213 .056 .026
.025 .069 -.087
1.000 .139 -.175
.139 1.000 -.035
-.175 -.035 1.000
-.080 .106 .052
.039 .095 .146
.115 .175 -.135
-.063
-.066
.065
-.080
.106
.052
1.000
-.014
-.025
-.020
.048
.064
.039
.095
.146
-.014
1.000
-.005
.098
.048
-.019
.115
.175
-.135
-.025
-.005
1.000
159
Análisis Multivariante Análisis 1
Resumen de las funciones canónicas discriminantes Autovalores
Función 1 2
Autovalor % de varianza .285a 84.4 a .053 15.6
% acumulado 84.4 100.0
Correlación canónica .471 .224
a. Se han empleado las 2 primeras funciones discriminantes canónicas en el análisis.
Lambda de Wilks Contraste de las funciones 1 a la 2 2
Lambda de Wilks .739 .950
Chi-cuadrado 141.439 24.090
gl 18 8
Sig. .000 .002
Coeficientes estandarizados de las funciones discriminantes canónicas
Es una sociedad Antigüedad del establecimiento (años) Establecimiento asociado Número empleados Realiza formación Ventas en mostrador Val. PF Genéricos Marketing Val. PF Atención cliente Val. PF Ténicos por ordenador
Función 1 .012 -.032 .246 .363 .622 -.240 .403 .061 .037
160
2 -.238 .046 .508 .309 .147 .690 -.043 -.131 -.491
Análisis Multivariante
Matriz de estructura Función 1 Realiza formación Número empleados Val. PF Genéricos Marketing Es una sociedad Val. PF Atención cliente Ventas en mostrador Val. PF Ténicos por ordenador Establecimiento asociado Antigüedad del establecimiento (años)
2
.753* .469* .443* .337* .107* -.324 .204 .358 .004
.056 .097 .043 -.138 .038 .676* -.552* .387* .036*
Correlaciones intra-grupo combinadas entre las variables discriminantes y las funciones discriminantes canónicas tipificadas Variables ordenadas por el tamaño de la correlación con la función. *. Mayor correlación absoluta entre cada variable y cualquier función discriminante.
Coeficientes de las funciones canónicas discriminantes
Es una sociedad Antigüedad del establecimiento (años) Establecimiento asociado Número empleados Realiza formación Ventas en mostrador Val. PF Genéricos Marketing Val. PF Atención cliente Val. PF Ténicos por ordenador (Constante)
Función 1 .026 -.002 .631 .069 1.380 -.578 .413 .060 .037 -.412
Coeficientes no tipificados
Funciones en los centroides de los grupos Grado aplicación de marketing 1 No Marketing 2 Marketing Básico 3 Marketing Sofisticado
Función 1 2 -.505 9.837E-02 .231 -.314 .861 .285
Funciones discriminantes canónicas no tipificadas evaluadas en las medias de los grupos
161
2 -.507 .002 1.305 .059 .327 1.664 -.044 -.131 -.497 -1.713
Análisis Multivariante Estadísticos de clasificación
Resumen del proceso de clasificación Procesados Excluidos
475
Código de grupo perdido o fuera de rango Perdida al menos una variable discriminante Usados en los resultados
0 0 475
Probabilidades previas para los grupos
Grado aplicación de marketing 1 No Marketing 2 Marketing Básico 3 Marketing Sofisticado Total
Previas .333 .333 .333 1.000
Casos utilizados en el análisis No ponderados Ponderados 228 228.000 155 155.000 92 92.000 475 475.000
11.1.2.1 MAPA TERRITORIAL
En la página siguiente se indica el mapa territorial correspondiente.
Símbolos usados en el mapa territorial
Símbolo Grupo Etiqueta ------ ----- --------------------
1
1
No Marketing
2
2
Marketing Básico
3
3
Marketing Sofisticado
*
Indica un centroide de grupo
162
Análisis Multivariante
Mapa territorial Discriminante canónica Función 2 -3.0
-2.0
-1.0
.0
1.0
2.0
3.0
∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫ 3.0 13 ⌠ 13 ⌠ ⌠ 13 ⌠ ⌠ 13 ⌠ ⌠ 13 ⌠ 2.0 13 ⌠ 13 ⌠ ⌠ 13 ⌠ ⌠ 13 ⌠ ⌠ 13 ⌠ 1.0 13 ⌠ 13 ⌠ ⌠ 13 ⌠ ⌠ 13 ⌠ ⌠ 133 * ⌠ ⌠ * 12233 ⌠ .0 12 223 ⌠ 12 233 ⌠ ⌠ 12 * 223 ⌠ ⌠ 12 233 ⌠ ⌠ 12 223 ⌠ ⌠ 12 233 ⌠ -1.0 12 2233 ⌠ 12 223 ⌠ ⌠ 12 233 ⌠ ⌠ 12 223 ⌠ ⌠ 12 233 ⌠ ⌠ 12 2233 ⌠ -2.0 12 223 ⌠ 12 233 ⌠ ⌠ 12 223 ⌠ ⌠ 12 233⌠ ⌠ 12 22⌠ ⌠ 12 ⌠ -3.0 12 ∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫∫ -3.0 -2.0 -1.0 .0 1.0 2.0 3.0 Función discriminante canónica 1 _
163
Análisis Multivariante
Estadísticos por casos
Grupo mayor
Original
Número de casos 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Grupo real 3 1 2 1 1 1 1 1 2 1 1 2 1 1 1 2 3 1 1 1
Grupo pronos P(D>d | G=g) ticado p gl 3 .009 2 2** .958 2 1** .304 2 1 .955 2 1 .833 2 1 .776 2 1 .897 2 1 .976 2 2 .571 2 2** .630 2 1 .537 2 1** .764 2 1 .603 2 1 .765 2 1 .766 2 3** .944 2 3 .195 2 1 .721 2 1 .486 2 1 .872 2
Segundo grupo mayor
P(G=g | D=d) .945 .384 .559 .512 .622 .602 .414 .503 .484 .488 .727 .504 .664 .515 .645 .440 .825 .649 .742 .582
Distancia de Mahalan obis al cuadrado hasta el centroide 9.462 .085 2.381 .092 .366 .507 .217 .048 1.120 .923 1.244 .538 1.013 .535 .534 .116 3.270 .654 1.443 .273
Grupo 2 1 3 2 2 2 2 2 1 1 2 2 2 2 2 2 2 2 2 2
P(G=g | D=d) .045 .313 .249 .342 .267 .305 .396 .341 .382 .363 .205 .265 .211 .372 .244 .320 .120 .268 .198 .307
Distancia de Mahalan obis al cuadrado hasta el centroide 15.550 .491 4.002 .897 2.054 1.863 .303 .826 1.593 1.513 3.771 1.822 3.302 1.182 2.477 .751 7.127 2.424 4.081 1.551
Puntuaciones discriminantes
Función 1 3.221 .185 -.613 -.699 -1.095 -1.132 -.319 -.644 -.404 -.299 -1.586 -.483 -1.139 -.828 -1.148 .581 1.957 -1.301 -1.683 -.993
Función 2 2.257 -.026 1.638 -.134 .230 -.239 -.329 -.069 -1.160 -1.114 .370 .832 .880 -.557 .445 .479 1.723 -.040 .333 -.087
**. Caso mal clasificado
a Resultados de la clasificación
Original
Recuento
%
Grado aplicación de marketing 1 No Marketing 2 Marketing Básico 3 Marketing Sofisticado 1 No Marketing 2 Marketing Básico 3 Marketing Sofisticado
Grupo de pertenencia pronosticado 1 No 2 Marketing 3 Marketing Marketing Básico Sofisticado 153 37 38 50 57 48 21 15 56 67.1 16.2 16.7 32.3 36.8 31.0 22.8 16.3 60.9
a. Clasificados correctamente el 56.0% de los casos agrupados originales.
164
Total 228 155 92 100.0 100.0 100.0
Análisis Multivariante
11.2 BIBLIOGRAFÍA Análisis multivariable para las Ciencias Sociales. Jean-Pierre Lévy mangin. Jesúa Valera Mallou. Prentice Hall 2003 Malhotra Investigación de Mercados. Un enfoque práctico. PrenticeHall 1996
165
Análisis Multivariante
SEGMENTACIÓN
166
Análisis Multivariante
12. SEGMENTACIÓN. 12.1 CONCEPTO. La segmentación de mercado consiste en la agregación de consumidores en grupos homogéneos, de forma tal que cada uno de ellos puede ser seleccionado como un segmento objetivo sobre el cual podamos aplicar estrategias de Marketing mix diferenciadas. Las características de los segmentos resultantes deben ser tales que nos posibiliten el establecimiento y realización de una oferta comercial especializada y diferenciada, es decir orientada a satisfacer necesidades y deseos de los consumidores específicos de cada segmento.
12.2 REQUISITOS
PARA
QUE
LA
SEGMENTACIÓN
DE
MERCADO SEA EFICAZ. Los principales requisitos que hacen que la segmentación de mercado sea eficaz son: 1. Cada segmento nos debe dar una respuesta diferente a la acción de Marketing mix. 2. Los criterios de segmentación deben ser identificados y evaluados con facilidad. 3. La obtención de los diferentes segmentos no implicará la existencia de categorías mutuamente excluyentes. Esto significa que en ocasiones un mismo individuo puede pertenecer a varios segmentos de mercado. 4. La segmentación debe basarse en un adecuado análisis de costes beneficios. 5. Los segmentos identificados deben representar un potencial de mercado suficiente, por su tamaño y / o por los beneficios que presentan, que sean justificables las acciones de Marketing a realizar. 6. Los segmentos han de ser alcanzados y servidos con eficacia por la empresa. 7. La empresa tendrá que disponer de recursos suficientes (económicos y humanos), para poder atender adecuadamente el segmento o segmentos de mercado seleccionados. 8. Los segmentos deberán ser estables a lo largo del tiempo, con el fin de rentabilizar la estrategia adoptada de Marketing. 167
Análisis Multivariante 9. Serán prioritarios los segmentos que sean compatibles con los que ya actúa la empresa con el fin de evitar canibalizaciones. 10.Se deberá involucrar a la empresa a todos los niveles, en la implantación de la estrategia
de
segmentación,
con
el
fin
de
evitar
posibles
conflictos
interdepartamentales. 11.Los consumidores tienen que percibir diferencias entre los productos de lo que cabe esperar distintas respuestas a las acciones de Marketing mix. 12.Las diferencias en las percepciones de los consumidores deben ser identificadas y asociadas a los diferentes grupos del público objetivo.
12.3 CRITERIOS DE SEGMENTACIÓN DE MERCADO. En el mercado de productos de consumo la segmentación se realiza siguiendo una serie de criterios que se dividen en: de carácter objetivo y subjetivos. Los criterios objetivos son aquellos en los que existen parámetros que nos permiten medirlos de forma inequívoca. Los criterios subjetivos son susceptibles de interpretación. Criterios objetivos. Los mas usuales son: •
Geográficos. Es el método mas sencillo, se basa en la desigualdad zonal explicando así los diferentes comportamientos que aparecen en diferentes territorios de cierta extensión, en los que aparecen diferencias climáticas, culturales, económicas...etc.
•
Demográficos. Las diferentes características físicas de los consumidores, tales como, edad ,sexo, estado civil, familia...etc., son la causa de necesidades y deseos diferentes.
•
Socioeconómicos. El comportamiento de los consumidores dependería, en este caso, de su nivel de renta y su estatus, explicando así la clase social.
Criterios subjetivos. Los más usuales son: •
Por estilo de vida. El estilo de vida define la forma de ser y de comportarse las personas, viene definido por sus actividades, opiniones e intereses.
168
Análisis Multivariante •
Por situación. Se separan grupos que ante un mismo producto buscan satisfacciones diferentes en distintas circunstancias o situaciones. (caña de día copa de noche).
•
Basados en ventajas buscadas. se basa en que, los consumidores encuentran en el producto ventajas diferentes y los consumen precisamente por ello.
•
Psicográfica. Integra dos grupos de criterios: estilo de vida y personalidad. La basada en la personalidad se aprecia en el mercado cuando las empresas dotan a sus productos de personalidad de marca que se corresponde con la personalidad de los consumidores.
Segmentación por comportamiento. Segmentación en función de
comportamientos específicos de compra y uso del
producto. Los más utilizados son: •
El uso. El consumo no esta uniformemente repartido, unos usuarios consumen más que otros.
•
El usuario. Se hace una clasificación considerando los usuarios regulares, los no usuarios, los usuarios potenciales, los irregulares, los primerizos. Cada grupo recibirá un tratamiento específico.
•
El grado de fidelidad. Se recompensa la fidelidad.
Criterios de segmentación utilizados en mercados industriales. En el mercado industrial la segmentación puede realizarse desde dos enfoques: basarse en las necesidades y deseos de los clientes y que el vendedor lo satisfaga, o bien partir de las características del vendedor y segmentar el mercado de la forma más accesible y rentable. El mejor método será el que optimice el comportamiento de compra del cliente con los costes del vendedor. Normalmente en el mercado industrial se identifican criterios de segmentación, que se jerarquizan de la siguiente manera: •
1º- Factores demográficos. Naturaleza de la empresa (pública o privada). Sector al que pertenece. Tamaño (ventas, plantilla, capital). Localización.
•
2º- Variables operativas. Tecnología de los procesos productivos. Tecnología del producto, Ventajas competitivas. Productos complementarios. Productos substitutivos. 169
Análisis Multivariante •
3º- Enfoques de compra. Organización de compras. Estructura de poder entre las diferentes personas que intervienen en el proceso de compra. Relaciones existentes (fidelidad). Política de compras. Criterios de compra.
•
4º- Factores de situación. Urgencia de la necesidad. Tamaño del pedido. Aplicaciones del producto. Beneficios de pedidos concretos.
•
5º- Características personales del decisor. Similitud de actitudes y características entre comprador y vendedor. Motivaciones del decisor. Percepción por parte del comprador de la empresa del vendedor. Actitud al riesgo por parte del comprador.
Valoración de los segmentos. Una vez detectados diferentes segmentos en el mercado, la empresa tiene tres posibles alternativas: Ignorarlos, centrarse en alguno o algunos de ellos y adaptarse a ellos. La posible alternativa depende entre otros de los siguientes factores: •
Intensidad de la competencia. A la empresa le interesará actuar donde la competencia sea nula o mínima. Cuanto menor sea la probabilidad de entrada de competidores más atractivo resultará para la empresa ese segmento.
•
Aparición de productos substitutivos en un determinado segmento.
•
El poder de negociación de los diversos agentes que intervienen en el proceso de la compra venta.
12.4 ETAPAS DE UN ESTUDIO DE SEGMENTACIÓN DE MERCADOS. Siguiendo a P. Kotler podemos diferenciar tres etapas: •
La primera es el arte de dividir un mercado en grupos de consumidores que puedan requerir estrategias de Marketing diferenciadas, constituye lo que se denomina el proceso de segmentación.
•
La segunda etapa consiste en definir el mercado objetivo.
•
La tercera etapa consiste en fijar el posicionamiento, esto es establecer la posición competitiva de la empresa y de su oferta en función del público objetivo.
170
Análisis Multivariante Lo podemos resumir en el siguiente esquema. Proceso
Definición del mercado Posicionamiento del producto objetivo Posibles bases de Valorar el atractivo de cada 1- Identificar conceptos de segmentación. segmento. posicionamiento y alternativas de diferenciación en los segmentos objetivos. Identificar variables de Seleccionar los segmentos - Seleccionar, desarrollar y objetivos.. comunicar el concepto de segmentación posicionamiento escogido relevantes para el estudio. Recoger información Estrategias de cobertura del sobre variables de mercado segmentación Derivar segmentos mediante técnicas de segmentación y tipología. Describir perfil de los segmentos. Para llevar a cabo el proceso de segmentación, en principio se recaba y ordena toda la información existente y disponible en el mercado en relación a una serie de variables consideradas relevantes. Dichas variables emanan de las bases de segmentación. En gran número de casos no se conocen a priori todas las características importantes para orientar la segmentación, para esta circunstancia se realiza una investigación cualitativa de enfoque para así seleccionar las variables que nos permitirán segmentar el mercado. Ante la carencia de información lo que se hace es emplear técnicas de investigación comercial como la observación o la encuesta. Esta última técnica es la más utilizada, se define el universo, la muestra, el procedimiento de muestreo, el cuestionario y se realiza el correspondiente trabajo de campo. La información obtenida se analiza aplicando técnicas de segmentación y tipología para de esta manera obtener grupos de público objetivo con características homogéneas. Las bases de segmentación parten de los criterios antes indicados. No existe una forma idónea para segmentar el mercado. Existen criterios generales y específicos, unidos a los objetivos y subjetivos, esta situación la podemos resumir en el siguiente esquema: 171
Análisis Multivariante CRITERIOS OBJETIVOS Criterios generales.
Criterios específicos.
Geográficos.
Estatus.
Demográficos.
Uso y situaciones
Socioeconómicos.
Fidelidad.
Sus combinaciones.
Intención de compra.
CRITERIOS SUBJETIVOS Criterios generales.
Criterios Específicos.
Psicográficos.
Beneficio buscado.
Estilo de vida.
Comportamiento
Clase social.
Marketing mix.
Personalidad.
Percepciones, preferencias y actitudes.
12.5 TÉCNICAS
PARA
CLASIFICAR
UN
a
las
acciones
MERCADO
de
EN
SEGMENTOS. Una vez definidas que variables de segmentación son adecuadas para realizar una segmentación de mercado, es preciso acudir a procedimientos estadísticos, que partiendo de la información obtenida sobre las bases de segmentación, permitan dividir el mercado en segmentos. Los tipos mas usuales son: Técnicas de segmentación. En estas técnicas el investigador selecciona una variable o criterio de segmentación a explicar, antes de realizar el análisis. Posteriormente, se consideran por parte del investigador diversas variables explicativas, tratando de estudiar de que forma se relacionan con la variable a explicar. Se denominan diseños de segmentación a priori. Técnicas de tipología. En este tipo de técnicas los consumidores se agrupan de acuerdo a la similitud de sus perfiles multivariables (actitudes, estilo de vida...), sin hacer distinción entre variables descriptivas y variables a explicar. Se desconoce a priori el número de segmentos. Se denominan diseños de segmentación post-hoc.
172
Análisis Multivariante 13. TÉCNICAS DE SEGMENTACIÓN. Se suelen clasificar en tres grandes grupos: • Métodos clásicos. • Métodos basados en la teoría de la información • Otras técnicas de segmentación.
13.1 MÉTODOS CLÁSICOS. Los métodos clásicos desarrollan un proceso de división del mercado conformando una estructura arborescente que finaliza con una norma estadística predeterminada, el criterio para medir la intensidad de la relación entre la variable a explicar y las variables explicativas es el mismo en todas las etapas del proceso. Seguidamente vamos a señalar los fundamentos de los métodos más usuales. 13.1.1 MÉTODO BELSON. Trata de estimar el poder discriminante de diferentes variables explicativas sobre la variable a explicar. El procedimiento es como sigue: ♠- Se convierten las diversas variables explicativas y la variable a explicar en dicotómicas. Si tienen más de dos categorías se sigue el siguiente criterio: Para cada variable explicativa los individuos se agrupan de tal forma que los que dispongan de una proporción de la variable a explicar inferior a la de toda la muestra pertenezcan a una categoría, agrupando en otra a todos aquellos con una proporción superior a la de la muestra. ♠- Analizar, con una cualquiera de las categorías de cada variable explicativa, su relación con la variable a explicar mediante la siguiente formula: C = NC ki P x N ki NC
ki
donde k = 1, 2.
Representa el número de personas que consumen el producto, (variable a
explicar), y que pertenecen a la categoría k de la variable explicativa i. P Es el porcentaje de personas que consumen el producto para toda la muestra. N ki Es el número de personas que pertenecen a la categoría k de la variable explicativa “y”. Con independencia de que sean o no consumidores del producto). 173
Análisis Multivariante ♠- Tomar aquella variable explicativa (la subdivisión en categorías que la representa) que manifiesta tener una relación más fuerte con la variable a explicar, mayor valor absoluto de C. La muestra se desglosa en dos segmentos correspondientes a la variable de mayor relación y sus subdivisiones. ♠- A cada uno de los segmentos resultantes se aplica independientemente el método de segmentación descrito considerando tan solo las restantes variables explicativas. Seguidamente vamos a realizar un caso practico, en el que aplicaremos los métodos de Belson y el de análisis de la varianza, más adelante. EJEMPLO.
Una empresa desarrolla su actividad comercial en Aragón, comercializando cuatro marcas de productos (A, B, C y D ), en tres tipos diferenciados de establecimientos, tiendas tradicionales, hipermercados y supermercados. Con la finalidad de establecer una adecuada segmentación, se realiza un estudio de mercado sobre una muestra de 4.000 hogares, que en el último trimestre han consumido alguna marca de los diferentes tipos de productos. Se obtiene información acerca de la marca comprada y el tipo de tienda donde efectuó la compra. Se saca el siguiente resumen de datos.
174
Análisis Multivariante DATOS DEL CASO PRÁCTICO. Tipo de producto.
Compradores marca
Total compradores.
A.
582.
2.044.
B.
204.
718.
C.
184.
646.
D.
30.
592. 4.000.
1.000.
TOTAL:
Tipo de tienda. Tradicional. (T).
100.
450.
Hipar. (H).
575.
2.500.
Supermercado. (S).
325.
1.050.
TOTAL.
1.000.
4.000.
Método BELSON. Criterio: Realizar la dicotomía de las variables agrupando por un lado las variables que tengan un porcentaje superior a la media y por otra parte los que sea su porcentaje inferior a la media.
Porcentaje de consumidores.
Variables. Productos: A.
28´47 %.
B.
28´41 %.
C.
28´48 %.
D.
5´06 %.
Establecimiento. T.
22´22 %.
H.
23´00 %.
S.
30´95 %. 25%.
Media total.
Las agrupaciones que obtenemos de conformidad con el criterio son: Superior a la media y para la variable producto. A+ B+ C. Inferior a la media D.
175
Análisis Multivariante Para la variable tienda o establecimiento donde se efectúan las compras, la correspondiente agrupación es: Superior a la media: S. Inferior a la media; T + H. Los resultados de esta segmentación los podemos resumir en el siguiente cuadro: AGRUPACIONES.
COMPRAN MARCA.
TOTAL COMPRAN.
970.
3.408.
30.
592.
Producto. A + B + C. D. Tienda. S.
325.
1050.
T + H.
675.
2.950.
Aplicando la ecuación antes descrita obtendremos los siguientes valores. C = NC ki P x N ki . Producto. C = 970 0´25 x 3408 = 118. Tiendas. C = 325 0´25 x 1050 = 62´5. 13.1.2 MÉTODO DE ANÁLISIS DE LA VARIANZA. Trata de encontrar la mejor división dicotómica cuando las variables explicativas tienen más de dos categorías. Selecciona la mejor dicotomía no la mejor variable explicativa de cada rama de la estructura arborescente. La expresión matemática para estimar el poder discriminante es:
N a × N b ( Pa − Pb ) 2 D= n Donde: n es el tamaño total de la muestra. N a y b es la dicotomización de las categorías de cada variable explicativa en dos grupos a y b. P
a y b
es el porcentaje de consumidores de las categorías a y b de la
variable explicativa objeto de estudio.
176
Análisis Multivariante Vamos seguidamente a desarrollar
el ejemplo visto con anterioridad aplicando el
método de análisis de la varianza.
DATOS DEL CASO PRÁCTICO. Tipo de producto.
Compradores marca
Total compradores.
A.
582.
2.044.
B.
204.
718.
C.
184.
646.
D.
30.
592.
TOTAL:
4.000.
1.000.
Tipo de tienda. Tradicional. (T).
100.
450.
Hipar. (H).
575.
2.500.
Supermercado. (S).
325.
1.050.
TOTAL.
1.000.
4.000.
177
Análisis Multivariante
Los resultados los resumimos en el cuadro siguiente: ANÁLISIS DE LA VARIANZA: Grupo.
Total com.
Co marca.
%Co marc
A+B
2.762.
786.
28´46
C+D.
1.238.
214.
17´28.
A+C
2.690.
766.
28´48.
B+D
1.310.
234.
17´83.
A+D
2.636.
612.
23´22.
B+C
1.364.
388.
28´44.
A
2.044.
582.
28´47.
B+C+D
1.956.
418.
21´37.
B
718.
204.
28´41.
A+C+D.
3.282.
796.
24´25.
C
646.
184.
28´48.
A+B+D.
3.354.
816.
24´33.
D
592.
30.
5´07.
A+B+C.
3.408.
970.
28´46.
** D = 2.690 x 1.310 ( 0´2848 - 0´1783 )2 / 4.000 = 9´98. Del mismo modo procederíamos para la variable tiendas.
178
D discrim.
10´68.
9´98.**
2´44.
5´04.
1´02
0´97.
27´59.←
Análisis Multivariante
13.1.3 MÉTODO DE CHI CUADRADO. Este procedimiento trata de comparar la distribución efectiva de consumidores, en las diferentes categorías de cada variable explicativa; con la que correspondería si se distribuyera según el porcentaje promedio para toda la muestra. Se selecciona la mejor dicotomía de cada variable explicativa de acuerdo con el criterio discriminante expresado por la siguiente fórmula:
( NCOi − NCTi ) 2 SC = ∑ NCTi Donde: NCOi
es el número de personas que consumen el producto en la
categoría dicotómica “i” de cada variable explicativa. NCTi
es el número de consumidores teóricos para la categoría
dicotómica “i” de cada variable explicativa. Su cálculo es como sigue: se multiplica el tamaño de la muestra en cada categoría por el porcentaje medio de consumidores para toda la muestra. 13.1.4 MODELOS DE CANGUILHEM. Se basa en dos posibles soluciones para segmentar el mercado: Descripción por categorías ponderadas de variables no agregadas. Descripción por segmentos ponderados de variables agregadas. En el primer caso el método a seguir es: Se calculan los índices de penetración para las categorías de cada una de las variables explicativas de acuerdo con la siguiente fórmula: IP kj = MP kj / S kj Donde: IP
kj
es el índice de penetración o proporción de consumidores en la
categoría k de la variable explicativa j respecto del público objetivo. MP
kj
es el número de personas que consumen ( variable a explicar ) el
producto y que pertenecen a la categoría k de la variable explicativa j.
S
kj
Es
el número de personas del público objetivo que pertenecen a la categoría k de la variable explicativa j.
170
Análisis Multivariante
2. Para cada categoría de las variables explicativas se toma el índice de penetración máximo y se pondera con un valor igual a uno (1). Las ponderaciones de las restantes categorías de una variable se obtienen dividiendo su índice de ponderación por el de valor máximo. 3. La variable que más discrimina es la que presenta mayor disparidad (recorrido o varianza) entre las ponderaciones de sus categorías. Método de segmentos ponderados de variables agregadas Todos los procedimientos descritos con anterioridad consideran las variables explicativas de forma independiente. Este procedimiento que ahora vamos a desarrollar trata de evitar este inconveniente. Es válido cuando se trata de encontrar un segmento optimo, resultante de la agrupación o cruce de diversas variables explicativas. Se trataría de obtener el segmento que mejor discrimine el comportamiento de los consumidores. Se estima para cada segmento o agrupación, un índice de penetración y un índice de cobertura, el valor de la discriminancia a maximizar viene dado por la siguiente fórmula:
1 D= ( S − IP ) 2 2
(S − M ) 1 + 1 − − (1 − IP ) 2 + (1 − IC ) 2 (U − P ) 2 2
Donde IC = M / P es el índice de cobertura o proporción de los consumidores de un determinado segmento o agrupación respecto del total de consumidores. M es el número de personas que consumen (variable a explicar ) el producto y que pertenecen a un segmento o agrupación. P es el total de consumidores. IP = M / S Es el índice de penetración o proporción de consumidores de un determinado segmento o agrupación respecto al público objetivo. S es el número de personas del público objetivo que pertenecen a cada segmento o agrupación de consumidores. U es el total de personas del público objetivo.
171
Análisis Multivariante
13.2 AUTOMATIC INTERACTION DETECTION (AID) El AID (Detección automática de interacciones) es una técnica de análisis estadístico que estudia la relación de una variable dependiente o criterio y múltiples predictivas o independientes, detectando el efecto y las interacciones existentes en las variables explicativas (X). El AID no proporciona una función que determine la relación existente entre la variable dependiente (Y) y las independientes. Las variables explicativas son de tipo cualitativo, es decir, están medidas en escalas nominal u ordinal, mientras que la variable dependiente debe estar en escala métrica o bien ser dicotómica (1,0), con dos frecuencias muy similares. El AID procede de forma secuencial, mediante análisis de la varianza, realizando divisiones dicotómicas de la variable dependiente o a explicar. Se parte del total de la muestra y se divide en dos, en función de la variable que mejor explica las diferencias en el comportamiento objeto de estudio. Seguidamente cada grupo obtenido se vuelve a subdividir de conformidad con el criterio de la variable que mejor define las diferencias. Este proceso continua hasta alcanzar el nivel (tamaño) de grupo mínimo que fijamos con anterioridad o bien las diferencias entre los valores medios de los grupos no son significativas. La técnica AID realiza un análisis secuencial de la varianza, con el fin de obtener en cada etapa la variable explicativa y dentro de ella la partición entre categorías de la misma que de una parte maximiza la varianza intergrupos y minimiza la intragrupos. Las particiones de las variables independientes dependen de si se las considere Variables libres es decir, utiliza todas las combinaciones dicotómicas posibles entre las categorías, permite incluir en cada grupo diversas categorías no secuenciales. Por ejemplo en un mismo segmento pueden estas personas con ingreso inferiores a 1000 euros con de 1500 a 2000 y de 5000 a 10000 euros. Variables monótonas, la partición solo es posible en sentido ascendente o descendente. Por ejemplo menos de 5.000 euros, más de 5.000 euros. Como el AID no proporciona una función, esta técnica puede utilizarse conjuntamente con otras técnicas multivariantes para completar el análisis. Con el AID se aíslan en primer lugar las variables y categorías que mejor explican en mayor medida la varianza
172
Análisis Multivariante
de la variable criterio (Y), seguidamente se puede aplicar un análisis de regresión para estimar los parámetros de las variables seleccionadas por el AID con el fin de poder realizar predicciones. 13.2.1 VENTAJAS E INCONVENIENTES La técnica AID nos permite: Conocer las variables independientes que mejor explican la independiente Determinar el poder diferenciador de tales variables explicativas, ya que se conoce la varianza que explica Identificar segmentos y sus características Conocer la media de la variable criterio para cada segmento Fácil comprensión ya que los resultados se representan normalmente en forma arbolescente Por el contrario la técnica AID presenta las siguientes limitaciones Es necesario disponer de muestras grandes (1000 ó más unidades) Se necesita el que existan varios predictores La primera variable elegida condiciona las sucesivas particiones
14. CHI-SQUARED
AUTOMATIC
INTERACTION
DETECTION (CHAID) 14.1 CONCEPTO Esta técnica estadística estudia la relación entre una variable criterio (Y) que puede ser tanto cualitativa como métrica y múltiples variables cualitativas Este modelo es muy similar al AID, pero a diferencia de este que las particiones son dicotómicas, en el CHAID no tienen por que ser dicotómicas. El criterio de partición de las variables según las categorías de las mismas se basa en la maximización de la “ji cuadrado de Bonferroni. Según Magidson8 (1994) presenta las siguientes mejoras respecto al AID
8
Magidson (1994) Cita en Técnicas de análisis de datos en investigación de mercados. Teodoro Luque Martinez y otros Ed. Pirámide 2000
173
Análisis Multivariante
Une aquellas categorías de un predictor más homogéneas con respecto a la variable dependiente, pero mantiene todas las categorías que sean heterogéneas. En suma, combina categorías que no difieran mucho entre ellas. Como varias categorías pueden diferir estadísticamente, el resultado del proceso de CHAID no necesariamente será una división dicotómica. Para dividir un grupo solamente se eligirán variables que sean estadísticamente significativas. Utiliza el test de independencia de la ji cuadrado de Bonferroni. CHAID compara el valor p asociado con el test de independencia de la variable dicotómica con el valor p ajustado de Bonferroni para la variable con varias categorías. La mejor variable predictora será la que presente menor p ajustado. CHAID considere tres tipos de variables Variables libres es decir, utiliza todas las combinaciones dicotómicas posibles entre las categorías, permite incluir en cada grupo diversas categorías no secuenciales. Por ejemplo en un mismo segmento pueden estas personas con ingreso inferiores a 1000 euros con de 1500 a 2000 y de 5000 a 10000 euros. Variables monótonas, la partición solo es posible en sentido ascendente o descendente. Por ejemplo menos de 5.000 euros, más de 5.000 euros. Variable Flotante es similar a la monótona, salvo en la última categoría (suele ser “Otros”) que puede ser unida a cualquier otra categoría. Esto no sirve si la variable es dicotómica. 14.1.1 PROCESO El proceso lo podemos resumir como sigue •
En primer lugar se determinan la variable a explicar y las predictoras o independientes
•
Se desarrollan las tabulaciones cruzadas entre las variables independientes (X) y la dependiente (Y)
•
Se determina las ?2 para cada tabla formada por cada par de categorías capaces de unirse y la variable dependiente
•
Entre los pares que resultan estadísticamente no significativos se unen en una sola categoría
174
Análisis Multivariante
•
Entre los pares significativos la unión se realiza para las categorías más parecidas, es decir las que tengan menor Chi cuadrado,
y con pocas
observaciones •
Se obtiene la “p”, la variable predictora que tenga menor valor es la que se usa para dividir
•
Si “p” no es significativo no se procede a la división
•
Este proceso se repite hasta la obtención de todos los grupos, o bien hasta alcanzar la dimensión de grupo mínimo.
•
El resultado es un árbol, las tablas cruzadas para cada nivel de segmentación y las tablas de ganancia
14.1.2 UTILIDAD La información obtenida nos permite: •
Identificar segmentos y sus características
•
La secuencia de particiones y las variables independientes o predictoras que intervienen
•
Agrupaciones entre variables o entre categorías
•
Información acerca de las interacciones entre las variables
14.1.3 VENTAJAS E INCONVENIENTES Entre las ventajas podemos destacar: •
Podemos tratar variables medidas en escala nominal
•
La partición no tiene por que ser dicotómica
•
Elimina o corrige el sesgo de que las variables con muchas categorías sean seleccionadas para la partición, solamente por esta razón
•
Puede intervenir el investigador introduciendo variables predictoras, aunque no sean las más significativas.
Como inconvenientes son de destacar los siguientes: La respuesta obtenida no tiene por que ser la optima Hay que tener en cuenta las restricciones dela prueba de Chi cuadrado (meno de 5 observaciones en el 20% de las celdas) Se necesitan muestras amplias, (más de 1000 unidades)
175
Análisis Multivariante
15. EJEMPLO LOS PROGRAMAS DE FORMACIÓN EN MARKETING EN EL COMERCIO M. TERESA OBIS ARTAL9 JOSEP RIALP CRIADO1 EDUARDO M. JIMÉNEZ MARQUÉS Universidad Autónoma de Barcelona10
15.1 RESUMEN A lo largo de este trabajo se analiza la actitud hacia la formación en marketing por parte del sector comercio. A partir de una encuesta personal realizada por IMSO, S.L. a 818 comercios de Zaragoza, ciudad que consideramos representativa, y tras la aplicación de diferentes técnicas de investigación tanto de reducción de dimensiones (análisis factorial de componentes principales y de correspondencias) como de segmentación (análisis CHAID y AID) se caracterizan los comercios según que realicen o no formación y según la valoración que realizan a diferentes programas de formación en marketing (genéricos, de atención al cliente y técnicos con ordenador). Se concluye que la realización de formación depende, básicamente, del número de trabajadores y de la utilización de herramientas de marketing. En cuanto a los diferentes programas de formación, son estas variables junto con la antigüedad del establecimiento y los artículos que comercializa, las que proporcionan una valoración estadísticamente diferente de los mismos. Palabras clave: Comercio, Formación, Componentes principales, A. Correspondencias, AID, CHAID Keywords: Trade, Formation, Principal Components Analysis, Correspondence Analyisis, AID, CHAID.
15.2 INTRODUCCIÓN Según la Encuesta de Comercio Interior del año 1992, publicada en 1996, el sector comercio en España está constituido por un total de 642.780 empresas. Su relevancia en
9
Los autores agradecen la financiación recibida de la DGES, proyecto PB95-0616 (T.Obis) y DGICYT, proyecto PB94-0708 (J.Rialp). 10 Departamento de Economía de la Empresa. Facultad de Ciencias Económicas y Empresariales. Universidad Autónoma de Barcelona. Edificio B. Campus de Bellaterra. 08193 (Barcelona). Tel.: 93 - 581 12 09. Fax: 93 - 581 25 55. E-mail: [email protected] / [email protected]
176
Análisis Multivariante
la economía queda de manifiesto si se considera que este sector ocupa a más de 2 millones de trabajadores, lo que representa aproximadamente un 17% del empleo del país. Sin embargo, y como señala Kotler (1992, p. 596), únicamente algunos de los establecimientos que estén bien situados, tengan una adecuada gestión, presten un óptimo servicio a sus clientes y hayan adoptado prácticas modernas de marketing y gestión, sobrevivirán. Centrándonos en el último de los aspectos enumerados por Kotler, en un estudio elaborado por Obis et. al. (1997) se pone de manifiesto que el comercio minorista, en general, no utiliza de forma extensiva las herramientas de marketing. Por tanto, algunas empresas de este sector se obstaculizan su supervivencia. Estos resultados se encuentran en la línea de los obtenidos por Rodríguez del Bosque et al. (1997). En su trabajo se puede observar, por ejemplo, como el pequeño comercio autónomo tiene objetivos más conservadores en la marcha de su negocio que las empresas que recurren a estructuras jurídicas más complejas, como sociedades limitadas o anónimas. Asimismo, también se detecta que la edad de los comerciantes influye en los objetivos perseguidos. El interés que se origina llegados a este punto sería responder por qué los establecimientos comerciales no utilizan herramientas de marketing si éstas favorecen su subsistencia. En nuestra opinión, la respuesta a esta pregunta podría ir por dos direcciones: se podría pensar, por un lado, que estas herramientas realmente no se necesitan en los establecimientos comerciales y, por otro, que los establecimientos comerciales desconocen tanto la existencia como la forma de emplear estas herramientas. La primera de las causas señaladas no parece justificar el escaso empleo de estas herramientas pues en un entorno turbulento, donde el número de competidores aumenta, los consumidores están mejor informados y el ciclo de vida de los productos cada vez es más corto (Santesmases, 1992), el conocimiento y la aplicación de diversas técnicas de marketing pueden proporcionar una mejor satisfacción de las necesidades del consumidor, lo que a su vez favorece la subsistencia del comercio. En consecuencia, el desconocimiento tanto de las herramientas como de su uso sería lo que explicaría el escaso empleo de las herramientas de marketing.
177
Análisis Multivariante
15.3 OBJETIVOS DEL TRABAJO E HIPÓTESIS Dada la situación de desconocimiento planteada en la introducción de este trabajo, nos parece interesante profundizar en los programas de formación en marketing que realizan los comercios detallistas. En la literatura especializada, los programas de formación, de forma general, se consideran que favorecen la subsistencia de las empresas (Davies y Ingram, 1996; Weeks y Stevens, 1997). Por ello, con este trabajo pretendemos establecer cuál es el seguimiento de los programas de formación por parte de los establecimientos de comercio. Es más, en caso de que los establecimientos de comercio no sigan ningún programa de formación, trataremos de determinar las causas ya que tal vez el no seguimiento se produce porque estos programas no encajan con las necesidades de los comercios. Los resultados del trabajo de Hogarth-Scott y Jones (1993), por ejemplo, establecen que las pequeñas empresas en West Yorkshire sienten que el nivel de soporte no es adecuado y que no existen cursos de formación que encajen con las necesidades de las pequeñas empresas. Además, en este trabajo se intenta determinar qué establecimientos siguen planes de formación, qué características presentan y, por último, se trata de identificar aquellos comercios que pueden estar más interesados en seguir un plan de formación de naturaleza más genérico o uno más especifico, por ejemplo, un programa de formación centrado en la relación con el cliente o con instrumentos técnicos de soporte a la gestión. De hecho, en la literatura hay diferentes trabajos que, con distintos fines, han pretendido clasificar a los establecimientos comerciales (Weiers, 1986; Rebollo, 1993; Sainz de Vicuña, 1996; Sarabia y Ruiz de Maya, 1996). En el trabajo mencionado anteriormente de Obis et al. (1997) se establece que los que cuentan con más de 6 empleados; los establecimientos en forma de sociedades o asociados; los comercios dirigidos por personal contratado; los establecimientos de confección, moda y textil; los que inician la actividad entre 1991 y 1996; los que presentan una superficie de la sala de ventas superior a los 150 m2; los que cuentan con una dirección con una edad que oscila entre 26 y 45 años y los que el porcentaje de clientes de la zona de influencia no supera el 50%, son los establecimientos que emplean y/o utilizan más herramientas de marketing. En la línea de este resultado nuestra primera hipótesis establece que van a ser los establecimientos que más utilizan
178
Análisis Multivariante
las herramientas de marketing los que más van a seguir cursos de formación. De hecho, no podemos establecer cuál es la causa y cuál el efecto, pero lo cierto es que cuanta más formación más marketing (o viceversa). De igual forma, se puede suponer que algunas de estas características de los establecimientos van a estar relacionadas con la preferencia por un determinado programa de formación. Además, la realización de programas de formación y el grado de utilización de las herramientas de marketing también pueden afectar la valoración a un determinado programa de formación. En resumen, las hipótesis a contrastar en nuestro trabajo son dos: H1: Los establecimientos que realizan más formación son los que emplean más herramientas de marketing. H2: La valoración a los distintos programas de formación en marketing viene determinada por la actitud hacia la formación, el grado de utilización del marketing y algunas otras características del establecimiento comercial.
15.4 METODOLOGÍA: VARIABLES Y TÉCNICAS A UTILIZAR Para la consecución de los objetivos previamente señalados, hemos utilizado diferentes técnicas de investigación sobre los datos obtenidos con una encuesta estructurada11, recogida mediante entrevista personal, a una muestra estadísticamente representativa del sector comercio detallista en Zaragoza12. En el siguiente cuadro se presenta la ficha técnica de la encuesta realizada:
11
Queremos agradecer a IMSO, S.L. la cesión de la encuesta y los datos que nos han permitido la realización del trabajo. 12
Dado que Zaragoza en diferentes estudios de mercado se ha considerado ciudad piloto, por tanto representativa del resto de ciudades del estado español, los resultados obtenidos con esta muestra se suponen representativos del comercio en todo el territorio nacional. El hecho de que otros autores (p.e. Rodríguez del Bosque et al. 1997) lleguen a conclusiones similares en otros estudios nos confirma este supuesto.
179
Análisis Multivariante
Cuadro 1. Ficha técnica de la encuesta.
Características
Encuesta
Universo
Empresas sección G, divisiones 50, 51 y 52 CNAE9313
Ámbito geográfico
Ciudad de Zaragoza
Unidad muestral
Empresa comercial: establecimientos
Método de recogida de información
Encuesta personal estructurada
Tamaño de la muestra
818 encuestas válidas
Nivel de confianza
95,5%, p = q = 0,5
Error muestral
3,3%
Procedimiento de muestreo
Sistemático: coeficiente de elevación 17
Fecha trabajo de campo
Octubre de 1995 a Abril de 1996
Fuente: elaboración propia
De la encuesta, hemos seleccionado aquellas variables que se van a utilizar en esta investigación. Estas pueden clasificarse en tres grupos: variables caracterizadoras de los establecimientos encuestados, variables de utilización de herramientas de marketing y, por último, variables referidas a la valoración de los programas de formación continuada relacionados con marketing. Las variables de los primeros dos grupos son de naturaleza cualitativa, mientras que entre las variables del tercer grupo encontramos dos de naturaleza cualitativa (P17 y P17B) y el resto, valoraciones a los programas de formación, que son de naturaleza cuantitativa. En el Cuadro 2 se describen las variables de naturaleza cualitativa (incluyendo los porcentajes que representan cada categoría) y en el cuadro 3 las variables cuantitativas (incluyendo su media y su desviación típica).
13
Quedan excluidas de esta encuesta las actividades comerciales comprendidas en la división 526 de la CNAE93, que corresponden al comercio al por menor no realizado en establecimientos.
180
Análisis Multivariante
15.5 TÉCNICAS A UTILIZAR 15.5.1
TÉCNICAS DE REDUCCIÓN DE VARIABLES
Como se puede observar, hay un número considerable de variables que reflejan tanto utilización de herramientas de marketing como valoraciones a programas de formación. Para sintetizar la información contenida en ambos colectivos se han utilizado dos técnicas descriptivas que si bien tienen el mismo objetivo requieren variables de diferente naturaleza. En concreto, las técnicas que se han utilizado han sido: • un análisis factorial de componentes principales para resumir la información contenida en las variables cuantitativas. • un análisis factorial de correspondencias múltiple para resumir la información contenida en las variables cualitativas. 15.5.1.1 ANÁLISIS FACTORIAL DE COMPONENTES PRINCIPALES Dentro del área de análisis multivariante que persigue la reducción de dimensiones el análisis factorial es un técnica estadística utilizada para identificar un número relativamente pequeño de factores que resumen la información compartida por muchas variables relacionadas. Ya que la matriz de correlaciones entre todos los pares de variables sirve como el punto del partida del análisis factorial, la medición de las variables debe ser tal que el coeficiente de correlación sea una medida estadística aceptable, por tanto, las variables que se utilizan en este análisis son variables cuantitativas o asimilables a cuantitativas. En nuestro caso, las variables que recogen las valoraciones a los programas de formación cumplen esta condición. El análisis se efectúa expresando cada variable como una combinación lineal de un número pequeño de factores, los cuales son compartidos por todas las variables, y un factor único que es específico para la variable. Los factores comunes se estiman como combinación lineal de las variables originales y para mejorar su interpretación se puede proceder a alguna rotación de la solución inicial. 15.5.1.2 ANÁLISIS FACTORIAL DE CORRESPONDENCIAS MÚLTIPLE Dentro del área de análisis multivariante que persigue la reducción de dimensiones también se encuentran los procedimientos de escalamiento óptimo, que en cierta forma
181
Análisis Multivariante
suponen una extensión de las técnicas estadísticas de componentes principales y del análisis de correlación canónica ya que las variables empleadas son de naturaleza cualitativa. Más concretamente, el resultado de un análisis de escalamiento óptimo incluye un conjunto de puntuaciones óptimas o cuantificaciones de las categorías de las variables cualitativas que se analizan, tratando de recoger la mayor asociación posible entre las mismas. Estas puntuaciones permiten determinar, dentro de una misma variable, que categorías son similares o diferentes y qué categorías podrían agruparse; y entre variables distintas, que categorías van juntas y cuál es la correlación máxima entre las variables.
182
Análisis Multivariante
CUADRO 2: Variables cualitativas utilizadas en este estudio. Porcentajes por categoría. Sobre los establecimientos encuestados (%) ACT Actividad del establecimiento 1 Alimentación y bebidas 2 Confección, moda y textil 3 Manufacturas 4 Ocio y recreo 5 Servicios y otros 6 NS/NC P01 Tipo de sociedad 1 Autónomo/Soc. Civil 2 Sociedad/Cooperativa P02 Tipo de dirección 1 Propietario 2 Persona contratada P03 Año comienzo actividad 1 Antes de 1980 2 De 1980 a 1985 3 De 1986 a 1990 4 De 1991 a 1996 P04 Superficie sala ventas 1 Hasta 50 m2 2 51 – 100 3 101 – 150 4 Más de 150 P05 Tipo de establecimiento 1 Independiente 2 Asociado P06 Número de empleados 1 1 2 2 3 3–6 4 Más de 6 P11.D Edad Dirección 1 18-25 años 2 26-45 años 3 Más de 46 4 NS/NC P36.1 % clientes zona influencia 1 Hasta el 50% 2 Del 50 al 99 3 Todos (100%) 4 NS/NC P57 Vende productos importados 1 No Importa 2 Si, mayoristas 3 Si, directamente P75 Tipo de artículo que comercializa 1 Cotidiano 2 Duradero de temporada 3 Duradero especializado 4 Varios tipos
14,2 14,9 8,3 12,3 14,7 35,6 70,8 29,2 85,6 14,4 37,9 18,6 18,7 24,8 67,0 21,4 5,0 6,6 83,5 16,5 38,1 29,1 25,8 7,0 1,6 27,8 21,6 49,0 30,3 24,2 26,9 18,6 38,3 47,3 14,4 24,1 16,0 42,4 17,5
Herramientas de marketing (%) P37 Dispone de base datos clientes 1 No BDC 2 Si BDC P38 Ha hecho publicidad en el último año 1 No Pub 2 Si Pub P40 Trabaja con alguna agencia de publicidad 1 No APu 2 Si APu P39 Principal medio publicitario 1 T.V. 2 Radio 3 Prensa 4 Buzoneo 5 Otros P41 Hace alguna promoción 1 No Pro 2 Si Pro P43 Aplica técnicas Merchandising 1 No Merchandising 2 No sé que es 3 Si Merchandising P44 Contrata escaparatistas profesionales 1 No Esc 2 Si Esc P48 Realizó un estudio de mercado antes de abrir 1 No EMe 2 Si EMe P53 Acude a ferias y certámenes 1 No FyC 2 Si FyC Variables de formación P17 Ha realizado formación en los 2 últimos años 1 Si hacemos formación 2 No, no tenemos necesidad 3 No, no existen programas 4 No, por falta de tiempo 5 No, por otros motivos NS/NC P17B Ha realizado formación en los 2 últimos años (binaria) 1 Si Formación 2 No Formación Núm. de casos válidos
Fuente: Elaboración propia a partir de los datos suministrados por IMSO, S.L.
183
58,9 41,1 49,1 50,9
80,9 19,1 5,0 25,1 29,6 25,4 14,9 52,7 47,3 39,9 40,6 19,6 90,7 9,3
78,1 21,9 30,6 69,4 %
32,9 18,8 5,4 24,4 10,0 8,4
32,9 67,1 818
Análisis Multivariante
CUADRO 3 Variables cuantitativas utilizadas en este estudio. Estadísticos descriptivos básicos
Media
Desviación Estándar
Variables de valoración de los Programas de Formación relacionados
Casos válidos
con Marketing P29.AC
Val. PF Atención a clientes
8,40
2,71
750
P29.DO
Val. PF Diseño asistido
2,87
2,95
669
ordenador P29.ES
Val. PF Escaparatismo
7,27
3,17
735
P29.GS
Val. PF Gestión stock
5,18
3,62
674
P29.ME
Val. PF Merchandising
4,46
3,47
538
P29.MK
Val. PF Marketing
5,36
3,40
708
P29.PC
Val. PF Psicología consumidor
6,64
3,30
714
P29.PR
Val. PF Promoción
6,56
3,45
703
P29.PU
Val. PF Publicidad
5,60
3,39
718
P29.TE
Val. PF Telemarketing
2,59
2,65
629
P29.TN
Val. PF Técnicas de
5,25
3,50
692
7,16
3,23
739
negociación P29.TV
Val. PF Técnicas de ventas
Fuente: Elaboración propia a partir de los datos suministrados por IMSO, S.L. Casos válidos en el conjunto de las 12 variables: 475.
Por tanto, ya que las puntuaciones tienen propiedades métricas, esta técnica se ha descrito como una forma de cuantificar datos cualitativos. El paquete estadístico SPSS presenta diferentes procedimientos de escalamiento óptimo que se pueden clasificar en función del número y tipo de variables cualitativas que se utilizan14. Dado que las variables de utilización de herramientas de marketing que consideramos en nuestro 14
Cuando el número de variables que se relaciona son 2 y están medidas con una escala nominal, el procedimiento a utilizar es el ANACOR (el análisis de correspondencia simple). Cuando se relacionan más de 2 variables cualitativas nominales el procedimiento recomendado es el HOMALS (el análisis de correspondencia múltiple). Si entre las variables que se relacionan tenemos algunas ordinales o numéricas el procedimiento a utilizar es el PRINCALS (el análisis de componentes principales no lineal) y, por último, tenemos el OVERALS (el análisis del coeficiente de correlación canónica no lineal) que es el más general de los procedimientos mencionados ya que dependiendo de la naturaleza de las variables puede originar los resultados obtenidos con los demás procedimientos.
184
Análisis Multivariante
análisis son de naturaleza nominal, el procedimiento que hemos utilizado ha sido el análisis de correspondencias múltiple (el HOMALS). El input para este análisis es una matriz donde las filas representan objetos (en nuestro caso los establecimientos) y las columnas variables (las diferentes herramientas de marketing consideradas). En el análisis sólo se considera la información categórica de las variables, es decir, la única consideración que se realiza es que algunos objetos están en la misma categoría mientras que otros no. No se realizan supuestos sobre las distancias o el orden entre las categorías de una misma variable. El HOMALS va asignando puntuaciones a cada categoría de cada variable de forma que las categorías tengan la máxima extensión, es decir, que las categorías estén separadas unas de otras tanto como sea posible. El análisis HOMALS también asigna puntuaciones a los objetos de forma que las cuantificaciones de las categorías son los promedios (los centroides) de las puntuaciones a los objetos que se encuentran en la misma categoría15. Por diseño, el análisis HOMALS trata de producir una solución en la cual los objetos dentro de la misma categoría son representados juntos y objetos en diferentes categorías son representados alejados unos de otros. Esto se hace para todas las variables en el análisis. Las representaciones tienen la propiedad de que cada objeto está tan próximo como sea posible a las puntuaciones de las categorías a las que pertenece. En este sentido, las categorías dividen los objetos en subgrupos homogéneos (esta es una de las razones para denominarlo “análisis de homogeneidad”). Las variables se consideran homogéneas cuando clasifican los objetos dentro de los mismos subgrupos. 15.5.2 TÉCNICAS DE SEGMENTACIÓN Los objetivos que persigue este trabajo son tanto la caracterización de las empresas de comercio que realizan programas de formación en marketing como la caracterización de las empresas según la valoración a unos programas de formación específicos del campo de marketing.
15
El método que utiliza en este procedimientos es el de los mínimos cuadrados alternativos (ALS). Se trata de un método iterativo en el cual las estimaciones mínimo cuadrado de las puntuaciones de los objetos y nuevas cuantificaciones dadas a las puntuaciones estimadas de los objetos se calculan alternativamente.
185
Análisis Multivariante
En cierta forma, queremos dividir los establecimientos de comercio en segmentos que se diferencian con respecto, en este caso, a dos criterios: 1. la realización o no de formación, y en caso negativo el motivo de ello. 2. la valoración a diferentes programas de formación de marketing. Como se puede intuir, el primer criterio queda recogido por una variable de naturaleza cualitativa ya que se pueden agrupar los establecimientos en diferentes categorías; mientras que la variable o variables que representan el segundo criterio son de naturaleza cuantitativa pues se trata de una valoración. Ello lleva a que las técnicas a utilizar sean diferentes en cada caso. En concreto, para cumplir el primer objetivo aplicaremos un análisis CHAID mientras que para el segundo aplicaremos la técnica del AID. 15.5.2.1 ANÁLISIS CHAID. Como se puede ver en el Cuadro 2, hay una variable que caracteriza a los establecimientos encuestados en función de si el establecimiento ha realizado formación en los 2 últimos años (la variable a la que nos referimos es la P17, variable cualitativa con 5 categorías). Ya que nuestro objetivo es dividir los establecimientos en segmentos que se diferencian con respecto a un determinado criterio (en este caso la realización o no de formación y en caso negativo si ha sido porque no se necesita o por otras causas), ejecutamos un modelo de segmentación, un CHAID, que está basado en la Chi cuadrado (Kass, 1980; Magidson, 1988). Este análisis divide la población en grupos distintos basándose en las categorías del mejor predictor de la variable dependiente16, que debe ser categórica. Cada uno de los grupos los divide posteriormente en grupos más pequeños basándose en otras variables predictivas. Este proceso de división continúa hasta que no se pueden encontrar más predictores estadísticamente significativos o hasta que el tamaño de los grupos llega a un mínimo establecido. Los segmentos que el CHAID obtiene son mutuamente exclusivos y exhaustivos; es decir, los segmentos no se sobreponen y cada caso es contenido exactamente en un segmento. Además, como los segmentos son definidos por combinaciones de variables
186
Análisis Multivariante
predictivas, fácilmente se puede clasificar cada caso en su segmento apropiado simplemente conociendo sus categorías en las variables predictivas. El CHAID fusiona categorías de las variables predictoras que no son significativamente diferentes. Este procedimiento, combinado con el algoritmo de división, asegura que los casos en un mismo segmento son homogéneos respecto al criterio de segmentación mientras que los casos en segmentos diferentes tienden a ser heterogéneos con respecto al criterio de segmentación. 15.5.2.2 ANÁLISIS AID El AID o detección automática de interacciones es una técnica de análisis estadístico que se utiliza para estudiar la relación de dependencia entre una variable dependiente y múltiples predictoras. Su aplicación, como en el caso del CHAID, permite dividir un conjunto de individuos o entidades de acuerdo con un determinado criterio.
Sin
embargo, y a diferencia de este análisis, la variable dependiente o a explicar debe estar medida en una escala métrica o dicotómica17. En nuestro caso vamos a contar con los factores que van a resumir la valoración que las empresas de comercio realizan a los programas de formación. Los factores resultantes del análisis factorial son variables de naturaleza cuantitativa. Este análisis procede de forma secuencial, mediante el análisis de varianza, realizando divisiones de la variable dependiente. Como en el caso anterior, divide la población en grupos distintos basándose en la variable que mejor explica las diferencias en la variable dependiente. Cada grupo se vuelve a subdividir por la variable que mejor explica las diferencias entre ellos. El proceso continua hasta que las diferencias entre los valores medios de la variable dependiente en los grupos no son diferentes o hasta que el tamaño de los grupos llega a un mínimo establecido. Por tanto, se podría pensar que el AID constituye un análisis de varianza secuencial que permite aislar aquellas variables, y niveles dentro de las mismas, que explican en mayor medida la varianza de la variable dependiente. A diferencia de las técnicas anteriores, que se han obtenido con el paquete
16
El empleo de una variable dependiente es la principal diferencia entre el CHAID y el análisis Cluster tradicional. 17 Por lo que respecta a las variables independientes o explicativas pueden ser variables medidas en escalas nominales u ordinales.
187
Análisis Multivariante
estadístico SPSS para Windows versión 7.5, los resultados del AID se han obtenido con el DYANE (Santesmases, 1996).
15.6 RESULTADOS 15.6.1 IDENTIFICACIÓN
DE
DIFERENTES
PROGRAMAS
DE
FORMACIÓN. La primera etapa en la aplicación de un análisis factorial consiste en verificar la adecuación del empleo de este análisis. Para comprobar dicha adecuación se utiliza el KMO y la significación del test de esfericidad de Barlett. En este caso ambos indicadores permiten establecer la adecuación de aplicar un factorial a la variables que recogen la valoración a diferentes programas de formación (KMO = 0.875 y significación del test de Barlett inferior al 5%). Los tres factores extraídos por componentes principales (ver Cuadro 4) explican más del 60% de la varianza total. Aplicando una rotación varimax se puede establecer que: 1. El primer factor representa los programas de formación en marketing que
podríamos denominar genéricos. Las variables con una mayor correlación son la valoración al programa de formación en publicidad, en marketing, en promoción y en merchandising. 2. El segundo factor representa los programas de formación enfocados al clientes.
Las variables que hacen referencia a la valoración de un programa de formación de atención al cliente y de psicología del consumidor presentan correlaciones que superan el 0,70 (concretamente, 0,768 y 0,749 respectivamente). 3. El tercer factor representa los programas de formación técnicos que implican el
empleo de herramientas informáticas (la variable que recoge la valoración a los programas de formación de diseño asistido por ordenador presenta la correlación más alta con este factor: 0.758).
188
Análisis Multivariante
CUADRO 4 Resultados del Análisis factorial.
Matriz Factorial
Comunalidad
Matriz Factorial Rotada
Variables
F1
F2
F3
(% var.explicada)
F1
Val. PF Publicidad
,75
,01
-,38
,72
,80
Val. PF Marketing
,73
,17
-,31
,66
,75
Val. PF Promoción
,74
,11
-,16
,59
,64
Val. PF Merchandising
,66
,14
-,22
,52
,64
Val. PF Atención Cliente
,56
-,54
,13
,63
,77
Val. PF Psicolog.
,59
-,29
,51
,70
,75
Val. PF Téc. Ventas
,66
-,37
-,00
,58
,40
,64
Val. PF Escaparatismo
,58
-,46
-,20
,60
,48
,59
Val. PF Diseño asis.
,45
,54
,31
,60
Val. PF Telemarketing
,58
,50
,14
,62
Val. PF Gestión stocks
,66
,00
,33
,55
Val. PF Téc. Negociación
,66
,00
,13
,47
Valor propio
4,98
1,37
% varianza explicado
41,51
% varianza acumulado
41,51
F2
F3
,33
,38
consumidor
,76
ordenador ,37
,70 ,49
,52
,37
,36
,45
,90
2,78
2,46
2,00
11,42
7,49
23,22
20,52
16,70
52,93
60,43
23,22
43,73
60,43
Fuente: elaboración propia.
Por tanto, la reducción que consigue el análisis factorial permite identificar tres tipos de programas en marketing: los programas genéricos, los programas enfocados a cliente y, por último, los programas técnicos asistidos por ordenador. En el apartado 4.4. se clasificarán los establecimientos comerciales que prefieren cada uno de estos programas.
189
Análisis Multivariante
15.7 UTILIZACIÓN DE HERRAMIENTAS DE MARKETING Como se ha comentado anteriormente, el análisis HOMALS permite clasificar en un mismo grupo a aquellas observaciones que se asemejan entre sí. Como se puede ver en el Cuadro 518, la primera dimensión que extrae este análisis, la del eje de abcisas, claramente separa las empresas que emplean herramientas de marketing de las que no. La
segunda
dimensión
parece
que
solamente
tiene
influencia
en
aquellos
establecimientos comerciales que emplean herramientas de marketing. No provoca ninguna diferencia relevante entre los que no emplean estas herramientas mientras que entre los que sí utilizan herramientas de marketing separa los que usan herramientas más sofisticadas o complejas de los que aplican herramientas más básicas. Debido a que pretendemos utilizar esta información en las técnicas de segmentación AID y CHAID, necesitamos recodificar estas dimensiones en una variable cualitativa. Considerando conjuntamente las dos dimensiones hemos definido la variable Grado de aplicación de Marketing que permite clasificar a las empresas en tres grupos según la utilización que hacen de las diferentes herramientas de marketing (ver Cuadro 6): empresas que NO emplean herramientas de marketing, empresas que emplean las herramientas de marketing más básicas y empresas que utilizan herramientas más sofisticadas de marketing.
18
Los eigenvalues de las dimensiones del HOMALS son 0.323 para la primera dimensión y 0.142 para la segunda.
190
Análisis Multivariante
CUADRO 5 Resultados del Análisis de correspondencias múltiples. Posicionamiento de cada categoría en los factores 1,5 Buzoneo Prensa
1,0
No Merchand Si Pub No EMe No Esc No Pro Si BDC Otros No No FyC No APu que es Si FyC Nose BDC Si ProRadioSi APu No Nomedios Pub
,5 0,0
Ferias y certámenes Estudio de mercado Escaparatistas prof.
-,5
Técnicas Merchandis Si Si Merchand EMe
Aguna promoción
-1,0
Dimensión 2
Agencia publicidad -1,5 Si Esc
Medio publicitario T.V.
-2,0
Ha hecho publicidad
-2,5 -1,5
Base datos clientes -1,0
-,5
0,0
,5
1,0
1,5
2,0
Dimensión 1 Fuente: elaboración propia.
Conviene remarcar que con la reclasificación de los establecimientos comerciales en tres categorías según el grado de utilización de herramientas de marketing se preservan los resultados obtenidos con el análisis factorial de correspondencias múltiple. Para verificar este aspecto hemos realizado tablas de contingencia cruzando la variable Grado de Aplicación de Marketing y cada una de las variables utilizadas en el análisis HOMALS. En todos los casos, el estadístico de la Chi cuadrado permitía rechazar la hipótesis nula de independencia entre las variables con un nivel de confianza prácticamente absoluto.
191
Análisis Multivariante
CUADRO 6 Recodificación de la variable Marketing Tabla de frecuencia Grado aplicación de marketing Categoría No Marketing Marketing Básico Marketing Sofisticado Total
Definición Dimensión 1 <= 0 Dimensión 1 > 0 y Dimensión 2 > 0 Dimensión 1 > 0 y Dimensión 2 < 0
Frecuencia 412 261 145 818
Porcentaje 50,4 31,9 17,7 100,0
Fuente: elaboración propia.
15.8 CLASIFICACIÓN
DE
LOS
ESTABLECIMIENTOS
COMERCIALES SEGÚN LA REALIZACIÓN O NO DE PROGRAMAS DE FORMACIÓN El análisis CHAID utilizado para caracterizar a los establecimientos que han realizado una determinada formación en los dos últimos años divide a los establecimientos en 8 grupos: Grupo 1: está formado por los establecimientos con un solo empleado (285 establecimientos). De estos un 37,89% no hacen formación por falta de tiempo y un 28,42% considera que no tienen necesidad. Grupo 2: Está formado por los establecimientos con dos empleados, que no utilizan herramientas de marketing y que son autónomos (en total, 85 establecimientos). De éstos un 30,59% no hacen formación porque no tienen necesidad y un 36,47% no la hacen por falta de tiempo. Grupo 3: También está formado por los establecimientos con dos empleados que no utilizan herramientas de marketing pero en este caso tienen forma de sociedad o cooperativa (26 establecimientos). Un 38,46% de estos establecimientos hacen formación mientras que un 23,08% no hacen formación por otros motivos. Grupo 4: Está formado por establecimientos con dos empleados que utilizan herramientas de marketing, ya sean básicas o sofisticadas. De estos establecimientos más de un 50% realizan cursos de formación. Grupo 5: Esta formado por aquellos establecimientos que cuentan con un número de empleados que oscila entre 3 y 6, que no utilizan herramientas de marketing o utilizan
192
Análisis Multivariante
herramientas básicas y que no importan productos. De estos establecimientos, 54 en total, un 42,59% hacen cursos de formación y un 24,07% señalan que no tienen necesidad. Grupo 6: Lo forman los establecimientos que cuentan con un número de empleados que oscila entre 3 y 6, que no utilizan herramientas de marketing o utilizan herramientas básicas y que venden productos importados. De estos establecimientos, 95 en total, un 48,42% hacen cursos de formación y un 10,53% señalan que no hacen porque no existen programas adecuados. Grupo 7: Este grupo está compuesto por los establecimientos que cuentan con un número de empleados que oscila entre 3 y 6 y que aplican marketing sofisticado. En total son 46 establecimientos de la muestra de los cuales el 67,39% hacen cursos de formación y un 15,22% no hacen cursos de formación por diferentes motivos. Grupo 8: Está formado por los establecimientos con más de 6 empleados (51). De estos más del 82% hacen cursos de formación mientras que no hay ninguno que diga no hacer cursos de formación por no tener necesidad. En conclusión, la mayor diferenciación entre los que realizan programas de formación y los que no los hacen es el tamaño del establecimiento (a mayor tamaño más realización de formación).
El grado de utilización de las herramientas de marketing también
diferencia entre los que realizan o no programas de formación pero sólo en establecimientos de 2 empleados o de 3 a 6.
La no existencia de programas de
formación adecuados no parece ser una justificación importante para la no realización de programas de formación puesto que en la mayoría de grupos únicamente alrededor de un 5% mencionan este aspecto, a excepción de los establecimientos de 3 a 6 trabajadores, que no aplican marketing o bien realizan un marketing básico y que venden productos importados (en este grupo la no existencia de programas adecuados la manifiestan un 10,5% de los establecimientos).
193
Análisis Multivariante
CUADRO 7 Resultados del Análisis de clasificación Chaid. Características de las empresas según formación Total Si Form: 35,91 No nece: 20,56 No progr: 5,87 Falta tpo: 26,70 Otros mo: 10,95 n = 749
Número de Empleados
1
2
3-6
Más de 6
Si Form: 18,25 No nece: 28,42 No progr: 6,67 Falta tpo: 37,89 Otros mo: 8,77 n =285
Si Form: 34,40 No nece: 22,02 No progr: 5,05 Falta tpo: 25,69 Otros mo: 12,84 n = 218
Si Form: 51,28 No nece: 12,82 No progr: 6,67 Falta tpo: 17,44 Otros mo: 11,79 n = 195
Si Form: 82,35 No nece: 0,00 No progr: 1,96 Falta tpo: 3,92 Otros mo: 11,76 n = 51
Utilización de Marketing
Utilización de Marketing
(1)
(8)
No Marketing
Mark. Básico y Sofisticado
No Marketing Mark. Básico
Marketing Sofisticado
Si Form: 18,92 No nece: 27,03 No progr: 5,41 Falta tpo: 32,43 Otros mo: 16,22 n = 111
Si Form: 50,47 No nece: 16,82 No progr: 4,67 Falta tpo: 18,69 Otros mo: 9,35 N = 107
Si Form: 46,31 No nece: 15,44 No progr: 6,71 Falta tpo: 20,81 Otros mo: 10,74 n = 149
Si Form: 67,39 No nece: 4,35 No progr: 6,52 Falta tpo: 6,52 Otros mo: 15,22 n = 46
(4)
(7)
Tipo de sociedad
Vende produc. importados
Autónomo
Sociedad
No importa
Si importa
Si Form: 12,94 No nece: 30,59 No progr: 5,88 Falta tpo: 36,47 Otros mo: 14,12 n = 85
Si Form: 38,46 No nece: 15,38 No progr: 3,85 Falta tpo: 19,23 Otros mo: 23,08 n = 26
Si Form: 42,59 No nece: 24,07 No progr: 0,00 Falta tpo: 20,37 Otros mo: 12,96 n = 54
Si Form: 48,42 No nece: 10,53 No progr: 10,53 Falta tpo: 21,05 Otros mo: 9,47 n = 95
(2)
(3)
(5)
(6)
194
Análisis Multivariante
15.9 CLASIFICACIÓN
DE
LOS
ESTABLECIMIENTOS
COMERCIALES SEGÚN EL TIPO DE PROGRAMA DE FORMACIÓN REALIZADO Atendiendo a los resultados del análisis factorial de componentes principales realizado anteriormente, se han identificado tres programas de formación en marketing: programas de formación genéricos, programas de formación enfocados a cliente y programas de formación técnicos asistidos por ordenador. A continuación vamos a identificar aquellos establecimientos que valoran más cada uno de estos programas aplicando la técnica del AID. 15.9.1 ESTABLECIMIENTOS QUE VALORAN LOS PROGRAMAS DE FORMACIÓN GENÉRICOS La aplicación del AID tomando como variable cuantitativa el primer factor nos permite identificar 6 grupos.
195
Análisis Multivariante
CUADRO 8 Resultados del Análisis de clasificación AID. Características de las empresas según su valoración a los programas de formación genéricos de marketing Total Media: -0,011 D.Est.: 0,999 n = 440
Ha realizado formación ∆R² = 0,041
Si Formación
No Formación
Media: 0,235 D.Est.: 0,910 n = 178
Media: -0,178 D.Est.: 0,989 n = 262
Número de empleados ∆R² = 0,020
Año comienzo actividad ∆R² = 0,030
Más de 2
1y2
Después 1985
Antes 1986
Media: 0,036 D.Est.: 0,884 n = 99
Media: 0,484 D.Est.: 0,830 n = 79
Media: 0,071 D.Est.: 0,976 n = 118
Media: -0,383 D.Est.: 0,906 n = 144
(1)
(2)
Artículos que comercializa ∆R² = 0,020
Utilización de Marketing ∆R² = 0,010
Durad. Temp. y Cotidiano
Durad. Espec. y varios tipos
No Marketing
Mark. Básico y Sofisticado
Media: 0,488 D.Est.: 0,781 n = 30
Media: -0,161 D.Est.: 0,801 n = 69
Media: -0,497 D.Est.: 0,789 n = 102
Media: -0,105 D.Est.: 1,081 n = 42
(3)
(4)
(5)
(6)
Grupo 1: Esta formado por 79 establecimientos que otorgan una valoración media al factor 1 de 0,4837. Son establecimientos que siguen cursos de formación y que tienen 1 ó 2 empleados.
196
Análisis Multivariante
Grupo 2: En este grupo encontramos 118 establecimientos que otorgan una valoración media al factor 1 de 0,0713. Son establecimientos que no hacen formación justificando esta conducta por cualquiera de los motivos que se presentaban y que comenzaron su actividad después de 1985. Grupo 3: Se agrupan 30 establecimientos. Dan una valoración al factor 1 de 0,4882. Son establecimientos que hacen formación, que tienen más de 3 empleados y que comercializan artículos duraderos de temporada o cotidianos. Grupo 4: En este grupo encontramos 69 establecimientos comerciales que dan una valoración media al factor 1 negativa (-0,1605). Son establecimientos que hacen formación, que tienen más de 3 empleados pero que comercializan artículos duraderos especializados y artículos de varios tipos. Grupo 5: Este grupo presenta 102 establecimientos que, como en el caso anterior, también dan una valoración negativa al factor 1 (-0,4970). Estos establecimientos no hacen
formación
y
arguyen
cualquiera
de
los
motivos
considerados,
son
establecimientos que comenzaron su actividad antes de 1985 y que no aplican herramientas de marketing. Grupo 6: Aquí se agrupan 42 establecimientos que también dan una valoración negativa al factor 1. Como en el caso anterior, no hacen formación y son establecimientos que también comenzaron su actividad antes de 1985 pero, a diferencia de los establecimientos del grupo anterior, utilizan herramientas de marketing básicas y/o sofisticadas. En definitiva, los establecimientos que prefieren cursos de formación genéricos se encuentran en los grupos 1 y 3. Por tanto, son establecimientos que siguen cursos de formación y que tienen 1 ó 2 empleados o establecimientos que hacen formación, que tienen más de 3 empleados y que comercializan artículos duraderos de temporada o cotidianos. Por contra, los que menos valoran este tipo de formación son los establecimientos del grupo 4 y 5, es decir, los que hacen formación, tienen más de 3 empleados y comercializan productos duraderos especializados o de varios tipos; o los que no hacen formación por los motivos señalados, operan desde antes de 1985 y no utilizan herramientas de marketing.
197
Análisis Multivariante
15.9.2 ESTABLECIMIENTOS QUE VALORAN LOS PROGRAMAS DE FORMACIÓN ENFOCADOS A CLIENTE La aplicación del AID tomando como variable cuantitativa el segundo factor nos permite identificar también en este caso 6 grupos: Grupo 1: En este grupo encontramos 76 establecimientos que otorgan una valoración media al factor 2 de -0,5503. Son establecimientos que no hacen formación justificando que no tienen necesidad. Grupo 2: Esta formado por 58 establecimientos que otorgan una valoración media al factor 2 de 0,4736. Son establecimientos que siguen cursos de formación o que no hacen argumentando diferentes motivos excepto el que señala que no se hacen cursos porque no se tiene necesidad y que comercializan varios tipos de articulo. Grupo 3: Se agrupan 141 establecimientos. Dan una valoración media al factor 2 de 0,0951. Son establecimientos que siguen cursos de formación o que no hacen argumentando diferentes motivos excepto el que señala que no se hacen cursos porque no se tiene necesidad, comercializan productos duraderos de temporada, especializados y cotidianos, tienen una superficie de sala de ventas de hasta 50 m2 y la forma que adoptan es la de autónomos o sociedad civil.
198
Análisis Multivariante
CUADRO 9 Resultados del Análisis de clasificación AID. Características de las empresas según su valoración a los programas de formación enfocados al cliente Total Media: -0,001 D.Est.: 1,003 n = 440
Ha realizado formación ∆R² = 0,063
Si formación y no por otros
No tenemos necesidad
Media: 0,114 D.Est.: 0,875 n = 364
Media: -0,550 D.Est.: 1,266, n = 76
(1) Artículos que comercializa ∆R² = 0,020
Varios tipos
Específicos
Media: 0,474 D.Est.: 0,672 n = 58
Media: 0,045 D.Est.: 0,884 N = 306
(2) Superficie de ventas ∆R² = 0,010
Más de 50 m²
Hasta 50 m²
Media: 0,210 D.Est.: 0,759 n = 108
Media: -0,045, D.Est.: 0,929 n = 198
Año comienzo actividad ∆R² = 0,019
Tipo de sociedad ∆R² = 0,022
Antes 1986
Después 1985
Autónomo
Sociedad
Media: 0,468 D.Est.: 0,717 n = 58
Media: -0,090 D.Est.: 0,641 n = 50
Media: 0,095 D.Est.: 0,864 n = 141
Media: -0,390 D.Est.: 0,717 n = 58
(5)
(6)
(3)
(4)
199
Análisis Multivariante
Grupo 4: En este grupo encontramos 58 establecimientos comerciales que dan una valoración media al factor 2 negativa (-0,39). En cuanto a las características, presentan las mismas que los establecimientos del grupo 2 con la excepción de que la forma que adoptan es la de sociedad o cooperativa. Grupo 5: Este grupo presenta 58 establecimientos que dan una valoración media al factor 2 positiva (0,4683). Estos establecimientos no hacen formación y arguyen cualquiera de los motivos considerados excepto el de que no tienen necesidad, comercializan productos duraderos (de temporada y especializados) y también productos cotidianos, la superficie de la sala de ventas supera los 50m2 y son establecimientos que comenzaron su actividad antes de 1985. Grupo 6: Aquí se agrupan 50 establecimientos que dan una valoración promedio al factor 2 negativa (-0,0897). Respecto a las características presentan las mismas que el grupo anterior a diferencia de que comenzaron su actividad después de 1985. En definitiva, los establecimientos comerciales que prefieren programas de formación enfocados a clientes son establecimientos que siguen cursos de formación o que no hacen argumentando diferentes motivos excepto el que señala que no se hacen cursos porque no se tiene necesidad y que comercializan varios tipos de articulo. También están los que presentan esas características pero comercializan productos duraderos de temporada, especializados y cotidianos, tienen una superficie de sala de ventas de hasta 50 m2 y la forma que adoptan es la de autónomos o sociedad civil y, por último, tenemos los establecimientos que no hacen formación y arguyen cualquiera de los motivos considerados excepto el de que no tienen necesidad, comercializan productos duraderos (de temporada y especializados) y también productos cotidianos, la superficie de la sala de ventas supera los 50m2 y son establecimientos que comenzaron su actividad antes de 1985. Destaca la valoración negativa de los programas de formación enfocados al cliente que hacen los establecimientos que afirman que no hacen formación porque no tienen necesidad (grupo 1).
200
Análisis Multivariante
15.9.3 ESTABLECIMIENTOS QUE VALORAN LOS PROGRAMAS DE FORMACIÓN
TÉCNICOS
QUE
EMPLEAN
HERRAMIENTAS
INFORMÁTICAS La aplicación del AID tomando como variable cuantitativa el tercer factor nos permite identificar ahora 8 grupos: Grupo 1: Este grupo presenta 62 establecimientos que dan una valoración media al factor 3 positiva (0,0268). Estos establecimientos hacen formación y utilizan herramientas sofisticadas de marketing. Grupo 2: Aquí se agrupan 78 establecimientos que dan una valoración promedio al factor 3 negativa de -0,4950. Estos establecimientos no hacen cursos de formación y lo justifican con los diferentes motivos que se les presentan y, en cuanto a los productos que comercializan, son productos cotidianos. Grupo 3: Esta formado por 28 establecimientos que otorgan una valoración media al factor 3 de 0,7503. Son establecimientos que siguen cursos de formación, que no utilizan herramientas de marketing y si utilizan son herramientas básicas y, además, no importan productos. Grupo 4: Aquí se agrupan 49 establecimientos que dan una valoración promedio al factor 3 negativa de -0,4450. Estos establecimientos no hacen cursos de formación y lo justifican con los diferentes motivos que se les presentan. En cuanto a los productos que comercializan son duraderos especializados y de temporada o comercializan varios tipos de productos. En este grupo encontramos los establecimientos de confección, moda y textil y manufacturas. Grupo 5: Se agrupan 66 establecimientos. Dan una valoración media al factor 3 de 0,1231. Son establecimientos que siguen cursos de formación, que no utilizan herramientas de marketing y si utilizan emplean herramientas básicas, venden productos importados y comenzaron su actividad antes de 1990.
201
Análisis Multivariante
CUADRO 10 Resultados del Análisis de clasificación AID. Características de las empresas según su valoración a los programas de formación técnicos con ordenador Total Media: -0,029 D.Est.: 0,987 n = 440
Ha realizado formación ∆R² = 0,056
Si Formación
No Formación
Media: 0,256 D.Est.: 1,041 n = 178
Media: -0,222 D.Est.: 0,836 n = 262
Utilización de Marketing ∆R² = 0,012
Artículos que comercializa ∆R² = 0,019
Marketing Sofisticado
No Marketing Mark. Básico
Duraderos y varios tipos
Cotidiano
Media: 0,027 D.Est.: 0,908 n = 62
Media: 0,378 D.Est.: 1,069 n = 116
Media: -0,106 D.Est.: 0,863 n = 184
Media: -0,495 D.Est.: 0,665 n = 78
(1)
(2) Vende produc. importados ∆R² = 0,012
Actividad ∆R² = 0,018
Si importa
No importa
Confección y Manufacturas
Alimentación, ocio, servicios
Media: 0,260 D.Est.: 1,087 n = 88
Media: 0,750 D.Est.: 0,829 n = 28
Media: -0,445, D.Est.: 0,779 n = 49
Media: 0,017 D.Est.: 0,837 n = 135
(3)
(4)
Año comienzo actividad ∆R² = 0,012
Edad de la dirección ∆R² = 0,018
Antes 1991
Después 1990
Menos de 46
Más de 45
Media: 0,123 D.Est.: 1,058 n = 66
Media: 0,671 D.Est.: 0,948 n =22
Media: 0,154 D.Est.: 0,818 n = 102
Media: -0,405 D.Est.: 0,658 n = 33
(5)
(6)
(7)
(8)
202
Análisis Multivariante
Grupo 6: En este grupo encontramos 22 establecimientos comerciales que dan una valoración media al factor 3 de 0,6709. Presentan las mismas características que los establecimientos del grupo anterior pero comenzaron su actividad después de 1990. Grupo 7: Aquí se agrupan 102 establecimientos que dan una valoración promedio al factor 3 positiva de 0,1540. Estos establecimientos no hacen cursos de formación y lo justifican con los diferentes motivos que se les presentan. En cuanto a los productos que comercializan son duraderos especializados y de temporada o comercializan varios tipos de productos. En este grupo encontramos los establecimientos de alimentación y bebidas, ocio y recreo, servicios y otros. En estos establecimientos la edad de los directivos oscila entre 18 y 45 años. Grupo 8: En este grupo encontramos 33 establecimientos que otorgan una valoración media al factor 3 de -0,4052. Son establecimientos que presentan las mismas características que las del grupo anterior con la diferencia de que la edad de la dirección supera los 45 años (a más edad menos preferencia por la informática). En definitiva, los establecimientos comerciales que más valorar los programas de formación que emplean herramientas informáticas son los que hacen formación, que no utilizan herramientas de marketing o utilizan herramientas básicas y que no venden productos importados (grupo 3) o los que con las mismas características sí que venden productos importados e inician su actividad después de 1990 (grupo 6). En cambio, las valoraciones más negativas las realizan los establecimientos que no hacen formación y venden productos cotidianos (grupo 2), los que no hacen formación, venden productos duraderos o de varios tipos y son de confección o manufacturas (grupo 4) o los que son de alimentación, ocio o servicios y la edad de la dirección supera los 45 años (grupo 8). En la valoración a este tipo de programas de formación sorprende que los establecimientos que utilizan marketing sofisticado y los que venden productos importados tienen una valoración inferior a los que no lo hacen (esto podría sugerir que los cursos más técnicos no están al nivel de exigencia esperado por
aquellos
establecimientos que están en un estadio más avanzado en su actividad).
16. CONCLUSIONES La clasificación del comercio ha sido un aspecto desarrollado por diferentes trabajos de la literatura, como se ha puesto de manifiesto con algunas referencias comentadas
203
Análisis Multivariante
anteriormente. Sin embargo, no se había realizado una clasificación de los establecimientos comerciales atendiendo a su valoración y a su relación con los programas de formación. En este trabajo, con la aplicación de técnicas de segmentación como el CHAID y el AID, se han podido caracterizar a los establecimientos que hacen cursos de formación así como a los establecimientos que prefieren un determinado curso de formación. Así, según la realización de programas de formación, en el lado de los que no realizan formación por falta de tiempo (37%) o por no tener necesidad (30%) destacan dos grupos: los comercios con un solo empleado y los comercios con dos empleados que no hacen marketing y son autónomos. Por otro lado, entre los comercios que mayor formación realizan encontramos los de más de 6 trabajadores y los de 3 a 6 trabajadores que hacen marketing sofisticado. Finalmente, destaca el grupo de comercios que presentan de 3 a 6 trabajadores, que no aplican marketing o utilizan un marketing básico y que venden productos importados puesto que un 10,5% de los mismos detectan que no existen programas de formación adecuados (en los otros grupos este porcentaje se situaba alrededor del 5%). Como resultado general, se puede señalar que hay una clara relación entre realizar cursos de formación y valorar muy positivamente los diferentes programas de formación en marketing. De hecho, los grupos de establecimientos que otorgan una valoración más negativa a los diferentes programas de formación en marketing son establecimientos que no hacen formación. Por ejemplo, los establecimientos que no hacen formación, creados antes de 1986 y que tampoco hacen marketing son los que valoran
más
negativamente
los
programas
de
formación
genéricos.
Los
establecimientos que dicen no tener necesidad de formación son los que valoran más negativamente los programas enfocados a clientes. En cuanto a la preferencia por un determinado curso de formación, se puede señalar que existen variables que influyen en la valoración de todos los programas de formación aunque no de la misma forma en cada uno de ellos. Así, cuando los artículos que comercializa el establecimiento son duraderos de temporada y cotidianos, aumenta la valoración a los programas genéricos; cuando los establecimientos comercializan diversos tipos aumenta la valoración de los programas enfocados a los clientes y, por
204
Análisis Multivariante
último, cuando se comercializan artículos cotidianos disminuye en gran medida la valoración de los programas técnicos. Atendiendo a la antigüedad de la empresa, se observa como aquellos establecimientos que operan desde antes de 1986 otorgan una valoración media positiva a los programas de formación enfocados a clientes y negativa a los programas de formación genéricos. Para la valoración de los programas de formación técnicos, la diferencia se sitúa en los comercios creados antes o después de 1990, siendo estos últimos los que más los valoran. Finalmente, otras variables que caracterizan la valoración de los programas de formación considerados son el grado de utilización de las herramientas de marketing. Para aquellos establecimientos que no utilizan marketing la valoración a los programas de formación genéricos es más baja que para los establecimientos que utilizan estas herramientas. Por contra, para aquéllos que ya utilizan herramientas sofisticadas de marketing, la valoración de los programas técnicos asistidos por ordenador es inferior a los que no hacen marketing o utilizan herramientas básicas. En definitiva, los resultados obtenidos permiten contrastar las dos hipótesis planteadas en un inicio. De este modo, los establecimientos que más emplean herramientas de marketing son los que realizan más formación (o viceversa) y también se puede observar como la preferencia por un plan de formación específico viene determinada por estas dos variables más algunas características del establecimiento comercial.
17. BIBLIOGRAFÍA Davies Bush, V. y Ingram, T. (1996): “Adapting to Diverse Customers: A Training Matrix for International Marketers”. Industrial Marketing Management, Vol. 25, nº 5, p. 373 - 383. Fondo Social Europeo, FORCEM, Federación de Empresarios de Comercio de Zaragoza (1996): Plan de Estudios Profesionales para el Comercio. Edita IMSO, S.L. Hogart-Scott, S. y Jone, M.A. (1993): “Advice and Training Support for the Small Firms Sector in West Yorkshire”. Journal of European Industrial Training, Vol 17, nº 1, p.18 - 22.
205
Análisis Multivariante
Kass, G. (1980): “An Exploratory Technique for Investigating Large Quantities of Categorical Data”. Applied Statistics, Vol. 29, nº 2, p. 119-127. Kotler, P. (1992): Dirección de Marketing. Análisis, planificación, gestión y control. 7ª Ed. Prentice Hall. Magidson, J. (1988): “Improved Statistical Techniques for Response Modeling. Progresion Beyond Regresion”. Journal of Direct Marketing, Vol. 2, nº 4, p.6 - 18. Magidson, J. y SPSS Inc (1993): SPSS. SPSS for Windows Chaid Release 6.0. SPSS Inc. Chicago. Norusis, M.J. (1983): SPSSx. Introductory Statistics Guide. McGraw-Hill Book Company. Obis, T.; Jiménez, E.; Rialp, J. (1997): “El marketing en el comercio de Zaragoza”. IX Encuentro de Profesores Universitarios de Marketing, Murcia, 25 y 26 de Septiembre, p. 315-334. Rebollo, A. (1993): “Clasificación de las Formas Comerciales: el ProductoEstablecimiento”. Distribución Actualidad, nº 10 (junio-julio), p. 10-18. Rodríguez del Bosque, I.; Agudo San Emeterio, A.; Suárez Vázquez, A.; García de los Salmones, Mª. (1997): “La modernización del Comercio minorista: Predisposición hacia el Cambio”. IX Encuentro de Profesores Universitarios de Marketing, Murcia, 25 y 26 de Septiembre, p. 359-375. Rodríguez del Bosque, I.; Trespalacios Gutiérrez, J.A.; Agudo San Emeterio, A.; Suárez Vázquez, A.; García de los Salmones, Mª; Fernández Polanco, J. (1997): El Sector Comercio Minorista en Cantabria. Servicio de Publicaciones de la Universidad de Cantabria. Gobierno de Cantabria. Santander. Santesmases Mestre, M. (1992): Marketing. Conceptos y Estrategias. Ediciones Pirámide, S.A. Madrid. Santesmases, M. (1997): DYANE. Diseño y análisis de encuestas en investigación social y de mercados. Ediciones Pirámide. Madrid
206
Análisis Multivariante
Sarabia, F.J. y Ruiz de Maya, S. (1996): “Aspectos Metodológicos para la realización de Estudios en el Ámbito de la Distribución Comercial”. Esic Market, enero-marzo, p. 117-141. SPSS Inc. (1990): SPSS Categories. SPSS Inc. Chicago Weeks, W.A. y Stevens, C.G. (1997): “National Account Management Sales. Training and Directions for Improvement”. Industrial Marketing Management, Vol. 26, nº 5, p. 423 - 431. Weiers, R.M. (1986): Investigación de Mercados. México. Prentice Hall.
207
Análisis Multivariante
ANÁLISIS DE CLASIFICACIÓN MÚLTIPLE (ACM)
208
Análisis Multivariante
18. CONCEPTO DE ACM El análisis de clasificación múltiple fue diseñada por Andrews, Morgan y Sonquist y analiza la relación entre un variable dependiente o criterio, medida en escala métrica o binaria, mientras que las variables explicativas deben se cualitativas, es decir medidas en escalas nominales u ordinales o bien variables transformadas a este tipo de escalas. Aplicación El ACM sustituye con ventaja a la regresión múltiple con variables ficticias (dummy), por la dificultad o complejidad que puede suponer la transformación de variables categóricas en ficticias.
Resumen Y medida en escala métrica Las x en nominales u ordinales
19. MODELO DEL ACM El modelo estadístico expresa la variable dependiente (Y) como una función del valor medio de la misma más los coeficientes asignados a las categorías correspondientes de las variables explicativas y un término de error. La ecuación matemática es:
Yi , j ,.... n = Y + a i + b j + c k + ........+ ei , j , ,,,, n Donde: Yi,j,k
..n
Es el valor de la variable dependiente en el individuo n, que pertenece a la
categoría i de la variable explicativa A, a la categoría j de la variable B, etc.
Y Es la media de todos los casos de la variable dependiente. Gran media ai Coeficiente estimado correspondiente a la categoría i de la variable independiente A bj Coeficiente estimado correspondiente a la categoría j de la variable independiente B ck Coeficiente estimado correspondiente a la categoría k de la variable independiente C ei,j,,k, …. n error para el elemento o individuo n
209
Análisis Multivariante
Los coeficientes se estiman mediante el método de los mínimos cuadrados. En el ACM la proporción de varianza explicada por cada una de las variables independientes se denomina eta cuadrado. ( η 2 ) Su expresión matemática es.
η2 =
∑N j
ij
(Yij − Y ) 2
∑ (Y
k
−Y )2
k
Donde Nij es el número de casos que pertenecen a la categoría j de la variable explicativa i
Yij Valor medio de la variable dependiente de los casos incluidos en la categoría j de la variable explicativa i
Y Gran media
La medida de la relación entre una variable explicativa y la variable dependiente, manteniendo constante a las demás, se llama beta cuadrado ( β 2 ) . Su expresión matemática es:
β2 =
∑N
ij
(a ij ) 2
j
∑ (Y
k
−Y )2
k
Donde Nij es el número de casos que pertenecen a la categoría j de la variable explicativa i aij es el coeficiente de la categoría j de la variable explicativa i Yk es el valor de la variable dependiente en el caso k (k = 1,2,3,4, ….. n)
Y Gran media
210
Análisis Multivariante
La proporción de la varianza de la variable dependiente explicada por el modelo, Coeficiente de correlación múltiple al cuadrado (R2) viene dado por
∑∑∑ a Y ij
R = 2
i
j
∑ (Y
ijk
k
k
−Y )2
k
19.1 CONSIDERACIONES ACERCA DEL MODELO El modelo es aditivo, pudiendo detectar relaciones no lineales ya que los coeficientes de la función estimada miden el efecto sobre la variable dependiente de todas y cada una de las categorías de las variables explicativas. El modelo también mide el efecto global de cada variable explicativa, tanto de forma individual como teniendo en cuéntale efecto simultáneo de todas las demás variables. Los coeficientes obtenidos por el ACM expresan ajustes con respecto al valor medio de la variable dependiente. El ACM no detecta directamente las interacciones entre las variables explicativas por ser un modelo aditivo. El ACM guarda relación con el Análisis de detección automática de interacciones, también desarrollado por Sonquist y Morgan.
20. CASO PRÁCTICO
211