REGRESIÓN LOGÍSTICA MULTINOMIAL
Dr. Carlos Alfonso Risco Dávila Profesor Asociado a DE. del D.A.E.
[email protected]
I. INTRODUCCIÓN Supongamos que una corporación grande realiza un estudio para escoger un plan de salud para sus funcionarios y partir de tres opciones ofrecidas por la empresa prestadora de servicios. De esta forma, la vari variab able le en aná análisi lisiss es El tipo de plan de salud escogido, que posee naturaleza nominal y sus tres niveles son denotados por A, B y C. Las variables independientes utilizadas para escoger el plan de salud son: la edad del funcionario, el tamaño de su familia y el sueldo mensual. El objetivo de este estudio es modelar lar las las opciones del plan de salud como una función de las variables involucradas y presentar los resultados en términos de proporciones de escoger los diferentes planes.
I. INTRODUCCIÓN Supongamos que una corporación grande realiza un estudio para escoger un plan de salud para sus funcionarios y partir de tres opciones ofrecidas por la empresa prestadora de servicios. De esta forma, la vari variab able le en aná análisi lisiss es El tipo de plan de salud escogido, que posee naturaleza nominal y sus tres niveles son denotados por A, B y C. Las variables independientes utilizadas para escoger el plan de salud son: la edad del funcionario, el tamaño de su familia y el sueldo mensual. El objetivo de este estudio es modelar lar las las opciones del plan de salud como una función de las variables involucradas y presentar los resultados en términos de proporciones de escoger los diferentes planes.
I. INTRODUCCIÓN… INTRODUCCIÓN…
I. INTRODUCCIÓN…
La Regresión Logística Multinomial modela una relación entre variables predictoras y una variable de respuesta categórica. Por ejemplo, una variable categórica con tres o más modalidades sin ordenamiento natural de los niveles; como sabor (amargo, dulce y ácido), color (rojo, azul, negro), materia de estudio (matemáticas, ciencias, artes). A diferencia de la regresión lineal, que predice los valores reales de la variable de respuesta, la regresión logística modela la probabilidad asociada con cada nivel de la variable de respuesta, al encontrar una relación lineal entre variables predictoras y una función de enlace de estas probabilidades; en este caso particular la función es el lo g it .
II. FORMULACIÓN Y ESTIMACIÓN Cuando se estudia los modelos de regresión logística binaria se utiliza una variable aleatoria binaria, o sea, que podía asumir por ejemplo, apenas los valores 0 y 1. Así el modelo era parametrizado en términos del logit de Y= 1 versus Y= 0. Si consideramos una colección de r+1 variables independientes denotadas por X= (X0, X1,…., Xr ), donde x=(x0, x1,…, xr ) con x0=1 y una v.a. Y de naturaleza nominal que puede asumir los niveles 0,1, …, q. Un abordaje análogo a la regresión logística binaria es describir el logit comparándose Y= k con Y= 0 para kϵ{1, …, q}. El valor 0 entonces es denominado categoría de referencia.
II. FORMULACIÓN Y ESTIMACIÓN…
Si denotamos las funciones logit como:
(= (=
≡ ⋯ (1) ´, para kϵ{1, …, q}. donde …, ´ y 1.
II. FORMULACIÓN Y ESTIMACIÓN…
Si asuminos n observaciones independientes de Y, denotadas por y1,…, yn, asociadas a los valores de xi=(xi0,…, xir ), para iϵ{1,…,n}, el logit, dado en (1), se presenta como
≡ ⋯ ≡ ⋯ ⋮ ≡ ⋯ , donde
(2)
1, para iϵ{1,…,n} y los errores, ε siguen i
las siguientes suposiciones, para todo i ϵ{1,…,n}
II. FORMULACIÓN Y ESTIMACIÓN…
0. . , 0, ≠ . Definición 1. Las variables aleatorias Y1,…, Yn satisfacen un modelo logístico multinomial si una muestra de tamaño uno de cada Y i se puede expresar como
exp() , ≡ +exp( )
(3)
II. FORMULACIÓN Y ESTIMACIÓN…
Donde gki está obtenida por la expresión (1), para la cual xij es variable conocida y βkj es parámetro desconocido, los errores εi poseen las suposiciones dadas en (2) y representa P(Yi=k/x), con iϵ{1,…,n}, jϵ{0,…,r} y kϵ{0,…,q}.
()
Proposición 1: Una expresión general para las probabilidades condicionales en un modelo con q+1 categorías es dada por
()] , q[ [()]
II. FORMULACIÓN Y ESTIMACIÓN…
Si k=0, 1, 2.
[()] 1 +exp +exp
,
[ ()] +exp +exp
,
2
0 +exp +exp
II. FORMULACIÓN Y ESTIMACIÓN…
g () está dada g 0.
donde k kϵ{1,…,q} y
por la expresión (1), para
Proposición 2: La variable aleatoria ε tiene distribución multinomial con media cero y varianza Var(Y/xi). Proposición 3: La función de verosimilitud L(β) para una muestra de n observaciones independientes está dada por
= ( ) ( ) … ( donde
(), (, … ), y iϵ{1,…,n}.
… (4)
II. FORMULACIÓN Y ESTIMACIÓN…
Teorema 1: Si asumimos el contexto de la definición 1. Sea β el vector de parámetros relacionados con las probabilidades P (Yi=k/xi), para iϵ{1,…,n} y kϵ{0,…,q}. Entonces el estimador de β, por el método de máxima verosimilitud denotado por , es la solución de las ecuaciones
() − (5) = Para kϵ{1,…,q}, jϵ{0,…,r} y para cualquier i.
(), con 1
II. FORMULACIÓN Y ESTIMACIÓN…
El estimador de máxima verosimilitud, , es obtenido igualando cada ecuación a cero y resolviendo el sistema para β. La solución requiere alguna técnica de cálculo iterativo, como el método de Newton –Raphson, de la misma forma que fue necesario para el cálculo del estimador en los modelos con variable dependiente binaria.
III. CONTRASTES SOBRE LOS PARAMETROS DEL MODELO 3.1 PRUEBA PARA LA SIGNIFICANCIA GLOBAL. Para probar la significancia de los q(r+1) coeficientes en el modelo presentado por la definición 1, la prueba de la razón de verosimilitud está basado en la estadística G, que tiene distribución Chi Cuadrado con q(r+1)-r grados de libertad.
0: ⋯ ⋯ 0 −2
sin con
(6)
III. CONTRASTES SOBRE LOS PARAMETROS DEL MODELO…
3.2 PRUEBA PARA LA SIGNIFICANCIA INDIVIDUAL. Para probar la significancia individual de los coeficientes de regresión en el modelo presentado por la definición 1, se usa el estadístico que tiene distribución ChiCuadrado asintótica con un grado de libertad.
0: 0, 1: ≠ 0, ()
k=1,2, …, q y j=1,2, …,r
(7)
III. CONTRASTES SOBRE LOS PARAMETROS DEL MODELO…
3.3 CONTRASTES DE LA RAZÓN DE VEROSIMILITUD. Este contraste, indican que si el valor-p asociado a cada variable predictora es menor al α asumido, α= 0,05, se considera que la variable en estudio contribuye a la formación del modelo estimado.
IV. BONDAD DE AJUSTE DEL MODELO 4.1 CONTRASTES DE BONDAD DE AJUSTE. Determina si un modelo estadístico se ajusta a sus datos, al analizar la diferencia entre sus valores observados y sus valores esperados en el modelo. Las pruebas de bondad de ajuste utilizan las hipótesis siguientes: H0: El modelo describe adecuadamente sus datos H1: El modelo no describe adecuadamente sus datos SPSS y Minitab muestran las pruebas de bondad de ajuste de Pearson y de Desviación.
IV. BONDAD DE AJUSTE DEL MODELO…
4.2 CALIDAD DEL AJUSTE. En los modelos de regresión logística binaria, la calidad del ajuste se mide mediante coeficientes de determinación conocidos como Pseudo-R2, para la regresión logística multinomial también se utilizan estos coeficientes. De entre todos los que existen, los más usados son el de Mc-Fadden, el de Cox-Snell y el de Nagelkerke.
IV. BONDAD DE AJUSTE DEL MODELO…
4.2.1 Coeficiente pseudo-R2 de Mc-Fadden. Si tenemos Λ=−2ln (), identificamos por Λ0 el valor inicial de esta función, es decir el mínimo Λ bajo el modelo nulo dado sólo por un término constante y por Λ el mínimo de Λ bajo el modelo ajustado con todos los parámetros, obtenemos la siguiente expresión del pseudo-R2 de Mc-Fadden:
IV. BONDAD DE AJUSTE DEL MODELO…
4.2.2 Coeficiente pseudo-R2 de Cox-Snell. En este caso se utiliza directamente la función de verosimilitud V, y no la función auxiliar Λ. Por lo que si denotamos por V0=exp(-Λ0/2) el máximo de verosimilitud bajo el modelo nulo dado sólo por un término constante y por Vf=exp(-Λ /2) el máximo de verosimilitud bajo el modelo ajustado con todos los parámetros, definimos el coeficiente pseudo-R2 de Cox-Snell como:
IV. BONDAD DE AJUSTE DEL MODELO…
4.2.3 Coeficiente pseudo-R2 de Nagelkerke. Viene dado por la siguiente expresión:
en este caso, su rango de valores es 0 ≤ ≤1, por lo que puede interpretarse del mismo modo que el coeficiente de determinación de la regresión lineal clásica, aunque es más difícil que alcance valores cercanos a 1.
IV. BONDAD DE AJUSTE DEL MODELO…
4.3 TABLAS DE CLASIFICACIÓN. Estas tablas registran los estimadores correctos e incorrectos. Las columnas representan los valores pronosticados de la variable dependiente y las líneas suministran los valores observados. En un modelo perfecto, todos los casos estarían en la diagonal principal y el porcentaje de aciertos sería de 100%.
V. APLICACIÓN PRÁCTICA CON SPSS 21
Como ejemplo se considera el archivo coches.sav que contiene datos de una muestra de automóviles y se desea predecir su origen geográfico (EE.UU., Europa o Japón) disponiendo de datos sobre su potencia, peso y aceleración. Para realizar un análisis de regresión logística multimonial, elija en los menús: Analizar _ Regresión_ Logística multinomial (Figura1) y seleccione las variables y especificaciones para el análisis (Figura 2).
Figura1
Figura 2
El botón Estadísticos permite elegir distintos estadísticos de la regresión logística multinomial (Figura 3). El botón Guardar permite exportar información del modelo al archivo especificado (Figura 4).
Figura 3
Figura 4
En todas las figuras el botón Restablecer permite establecer todas las opciones por defecto del sistema y elimina del cuadro de diálogo todas las asignaciones hechas con las variables. Una vez elegidas las especificaciones, se pulsa el botón Aceptar en la Figura 2 para obtener los resultados del análisis según se muestra en las tablas siguientes.
TABLA N° 01: Prueba de la significancia global del modelo
TABLA N° 02: Bondad del ajuste
TABLA N° 03: Pseudos R2
TABLA N° 04: Contrastes de la razón de verosimilitud
TABLA N° 05: Estimación de parámetros
APLICACIÓN PRÁCTICA TABLA N° 06: TABLA DE CLASIFICACIÓN
La tabla de clasificación muestra que el poder de clasificación del modelo logit multinomial es bueno, ya que se ha clasificado de modo correcto un 70% de las observaciones conocidas, esperando que ese poder clasificativo se proyecte a estimaciones futuras realizadas con el modelo.
En la Tabla N° 06, de clasificación, los pronósticos para el origen EE.UU. tiene 224 aciertos que equivale a un acierto parcial de 88,5%, Europa tiene 13 aciertos con 13,7% y Japón con 50 ciertos que equivale a un porcentaje correcto de 62,5%. Totalizando en general un acierto de 70%.
En las estimaciones anteriores la categoría de referencia es Japón. Para tomar como categoría de referencia EE.UU. (valor 1 de la variable origen), rellenamos la pantalla de entrada del procedimiento como se indica en la Figura 05 (obsérvese la cumplimentación del botón Categoría de referencia) y al pulsar Aceptar , se obtienen las estimaciones de la tabla 07. Para tomar como categoría de referencia Europa (valor 2 de la variable origen), rellenamos la pantalla de entrada del procedimiento como se indica en la figura 06 y al pulsar Aceptar , se obtienen las estimaciones de la tabla 08.
Figura 05
Tabla N° 07
Figura 06
Tabla N° 08
Las ecuaciones del mejor Logit estimado es la Tabla N ° 05 : Por lo tanto, para hallar la probabilidad de que un automóvil proceda de EE.UU., dados sus valores de su potencia, peso y aceleraci ón, se determina reemplazando sus valores en la ecuación que a continuación se presenta.
−0,035 0,014 − 0,097) (..) 1 −6,176 − 0,035 (−6,176 0,014 −0,097 (−3,805 − 0,035 0,008 0,036 )
REFERENCIAS BIBLIOGRÁFICAS Agresti, A. (2007). An Introduction to Categorical Data Analysis. Second Edition Florida: John Wiley & Sons, Inc. Hosmer, D. y Lemeshow, S. (2000). Applied Logistic Regression. Second Edition. New York: John Wiley & Sons, Inc. Pérez, C. (2005). Métodos estadísticos Avanzados con SPSS. España: THOMSON. Uriel, E. y Aldás, J. (2005). Análisis Multivariante Aplicado. España: THOMSON. Quintín, M.; Cabero, M. y De Paz, Y. (2008). Tratamiento Estadístico de datos con SPSS. México: THOMSON.