Contenido Índice de figuras ............................................................................................. 3 INTRODUCCIÓN .......................................................................................... 6 CAPÍTULO 1 ................................................................................................. 8 1.1 Dirección Estratégica............................................................................. 8 1.1 Business Intelligence ............................................................................. 9 1.2 Definición de Data Mining .................................................................. 10 1.3 Conceptos Básicos en Data Mining ...................................................... 12 CAPÍTULO 2: Modelo de Dirección Estratégica Propuesto ........................... 15 2.1 Proceso de Dirección Estratégica ......................................................... 15 2.2 Fase de Planificación Estratégica ......................................................... 16 2.3 Procedimiento de la Fase de Planificación. .......................................... 16 2.4 Etapas del Proceso de Planificación Estratégica. .................................. 17 2.5 Métodos y Procedimientos para Realizar el Análisis Externo del Sistema. ................................................................................................................. 23 2.6 Métodos y Procedimientos para Realizar el Análisis Interno del Sistema. ................................................................................................................. 25 2.7 Estudio de Mercados. .......................................................................... 26 2.8 Métodos y Procedimientos para Establecer el Posicionamiento Estratégico y Estrategia Fundamental del Sistema. .................................... 27 2.9 Métodos para el Diseño de Cuadro de Mando Integral ......................... 33 CAPÍTULO 3: Regresión Múltiple ................................................................ 40 3.1 Supuestos para el Cálculo de una Regresión Lineal .............................. 41 3.2 Notación Matricial del Modelo Lineal General .................................... 46 3.3 Métodos de Cálculo de los Estimadores ............................................... 47 3.4 Evaluación del Modelo ........................................................................ 49 3.5 Diagnóstico de una Regresión.............................................................. 51 3.6 Autocorrelación ................................................................................... 60 3.7 Análisis de Residuos ........................................................................... 61 3.8 Caso modelo de regresión lineal del PIB .............................................. 62 CAPÍTULO 4: Serie de Tiempo .................................................................... 73 4.1 Componentes de las Series de Tiempo ................................................. 73 4.2 Procesos Estocásticos Elementales ...................................................... 76 4.3 Técnicas de Suavizamiento .................................................................. 78 4.4 Modelos Autorregresivos..................................................................... 87 1
4.5 Análisis de Autocorrelaciones ............................................................. 89 CAPÍTULO 5: Análisis Clúster ..................................................................... 95 5.1 Clasificación de las Técnicas Clúster ................................................... 95 5.2 Etapas de un Análisis Clúster............................................................... 97 5.3 Caso: Estudio del Producto APV en las AFP...................................... 100 CAPÍTULO 6: Árboles de Decisión ............................................................ 107 6.1 Sistemas por Partición: Árboles de Decisión para Clasificación. ........ 108 6.2 Particiones Posibles ........................................................................... 108 6.3 Criterio de Selección de Particiones ................................................... 109 6.4 Poda .................................................................................................. 110 6.5 Algoritmos más Populares ................................................................. 111 6.5 Caso: Analizar la Situación de Quiebra de una Empresa. ................... 112 CAPÍTULO 7: Redes Neuronales Artificiales ............................................. 118 7.1 Redes Neuronales Biológicas............................................................. 118 7.2 Modelo Matemático .......................................................................... 119 7.3 Tipos de Función de Activación ........................................................ 122 7.4 Estructuras y Arquitectura de Red...................................................... 124 7.5 Aprendizaje ....................................................................................... 124 7.6 Tipos de Redes Neuronales Artificiales ............................................. 126 7.7 Caso: Predicción al Corto Plazo Fondo A de los Multifondos............. 127 CAPÍTULO 8: Reflexiones Sobre el Modelo Propuesto .............................. 136 Bibliografía................................................................................................. 139 Anexos ....................................................................................................... 141 Anexo 1: Análisis de Regresión Lineal en SPSS ...................................... 141 Anexo 2: Análisis de Series de Tiempo en el Software SPSS ................... 153 Anexo 3: Análisis de Clúster en el Software SPSS ................................... 156 Anexo 4: Software SPSS Clementine ...................................................... 161 Anexo 5: Redes neuronales artificiales en el software SPSS Clementine .. 163 Anexo 6: Árboles de Decisión en el Software SPSS Clementine .............. 170 Anexo 7: Datos Caso Quiebra ................................................................. 173
2
Índice de figuras Figura 1: Proceso de dirección estratégica ....................................................... 8 Figura 2: Estándar CRISP_DM ..................................................................... 11 Figura 3: Esquema de dirección estratégica ................................................... 16 Figura 4: Esquema del proceso de planificación. ........................................... 16 Figura 5: Etapas proceso planificación. ......................................................... 17 Figura 6: Modelo de negocios ....................................................................... 18 Figura 7: Tabla factores críticos externos: oportunidades y amenazas. ........... 24 Figura 8: Variable externa: amenaza (precio petróleo). .................................. 24 Figura 9: Tabla de factores internos: fortalezas y debilidades. ........................ 25 Figura 10: Factor interno: fortaleza ............................................................... 26 Figura 11: Clúster, método K medias. ........................................................... 26 Figura 12: Proceso Knowledge Discovery in Databases. ................................ 27 Figura 13: Esquema estrategia fundamental de la organización, paradigma rombo. .......................................................................................................... 28 Figura 14: Mapa estratégico, caso académico. ............................................... 36 Figura 15: Tablero de objetivos estratégicos e indicadores de gestión en docencia........................................................................................................ 37 Figura 16: Esquema en estrella, caso académico. ........................................... 38 Figura 17: Tablero de control e iniciativas estratégicas, caso empresa de transporte. ..................................................................................................... 39 Figura 18: Estudios para la preparación y evaluación de un proyecto. ............ 39 Figura 19: Ejemplo gráfico, regresión lineal .................................................. 40 Figura 20: Distribución homocedástica.......................................................... 45 Figura 21: Distribución heterocedástica. ........................................................ 45 Figura 22: Gráficos del error y las variables exógenas. Homocedasicidad y heterocedasticidad. ........................................................................................ 52 Figura 23: Histograma ejemplo test Jarque-Bera............................................ 56 Figura 24: Test de Durbin y Watson .............................................................. 60 Figura 25: Tendencia en una serie de tiempo. ................................................ 73 Figura 26: Estacionalidad en una serie de tiempo .......................................... 74
3
Figura 27: Variaciones cíclicas en una serie de tiempo .................................. 74 Figura 28: Componente no sistémico en una serie de tiempo ......................... 75 Figura 29: Componentes de una serie de tiempo, modelo aditivo. .................. 75 Figura 30: Gráfico ruido blanco .................................................................... 77 Figura 31: Comparación serie original y serie suavizada. Suavizamiento exponencial. .................................................................................................. 79 Figura 32: Precio del producto, ejemplo suavizamiento exponencial. ............. 83 Figura 33: Gráfico observado y ajuste del precio, ejemplo suavizamiento exponencial................................................................................................... 84 Figura 34: Consumo de helados, ejemplo descomposición estacional............. 85 Figura 35: Observado y Ajuste, consumo de helado, ejemplo descomposición estacional. ..................................................................................................... 86 Figura 36: Gráfico precio del petróleo, caso serie de tiempo .......................... 89 Figura 37: ACF caso precio petróleo ............................................................. 90 Figura 38: ACF Parcial, caso precio petróleo................................................. 91 Figura 39: Caso precio petróleo, observado y previsión, serie de tiempo ........ 93 Figura 40: Dendograma de témpanos, análisis cluster .................................... 99 Figura 41: Dendogramas, caso APV, análisis cluster ................................... 104 Figura 42: Ejemplo árbol de decisión .......................................................... 107 Figura 43: Poda, árbol de decisión. .............................................................. 110 Figura 44: Ejemplo de operador "transposición", árboles de decisión. .......... 111 Figura 45: Árbol de decisión, SPSS Clementine .......................................... 114 Figura 46: Árbol de decisión con nodo C5.0, caso quiebra. .......................... 114 Figura 47: Árbol de decisión, caso quiebra .................................................. 116 Figura 48: Neurona biológica ...................................................................... 118 Figura 49: Capas de una red neuronal artificial ............................................ 120 Figura 50: Modelo de neurona, red neuronal artificial. ................................. 121 Figura 51: Estructura básica de una red multicapa. ...................................... 121 Figura 52: Función umbral .......................................................................... 122 Figura 53: Función umbral. ......................................................................... 123 Figura 54: Gráfico multifondos, caso red neuronal artificial. ....................... 128
4
Figura 55: Grupos de entrenamiento, comprobación y validación, caso red neuronal artificial ........................................................................................ 131 Figura 56: Gráfico grupo de comprobación, caso red neuronal..................... 132 Figura 57: Gráfico grupo de validación, caso red neuronal .......................... 132 Figura 58: Predicción fondo A, caso red neuronal........................................ 134
5
INTRODUCCIÓN La globalización, el entorno multicultural, el cambio tecnológico, la reducción de los ciclos de vida y satisfacción de los productos y servicios, y -en generalel acelerado cambio de la sociedad actual, están configurando una serie de retos que los directivos y las organizaciones deben enfrentar para generar estrategias exitosas que aseguren el futuro de sus instituciones. Las decisiones estratégicas se han vuelto cada vez más complejas y tienen efectos sobre la estructura organizacional, los procesos administrativos y productivos, las tecnologías de la información y las comunicaciones. En los últimos años se han presentado muchos cambios y de una profundidad nunca antes conocida en la historia de la humanidad, por lo cual se hace cada vez más imprescindible para un directivo recurrir a modelos que describan detalladamente cómo dirigir estratégicamente una organización. En este libro se propone un método de dirección estratégica que se caracteriza por ser un proceso simple y práctico en la formulación de las estrategias, implementación y control. Para apoyar el método de dirección estratégica es fundamental un proceso de extracción de datos desde bases de datos internas y externas a la organización y –luego- el análisis de estos, para extraer información susceptible de usar para tomar decisiones y acciones estratégicas informadas. Estos métodos, técnicas y herramientas de software, para proveer información son parte del paradigma del business intelligence y el proceso de data mining o minería de datos. La organización del libro está orientada a la presentación de los conceptos de dirección estratégica y el apoyo de modelos matemáticos, estadísticos y de minería de datos. En los capítulos 1 y 2, se introduce el modelo de dirección estratégica propuesto, el cual sigue un proceso dinámico y recursivo; comenzando con la fase de planificación estratégica, que a su vez se descompone en 9 etapas con sus respectivos hitos y resultados, la fase de implementación y cambio organizacional y –finalmente- la fase de control. En el capítulo 3, se presentan algunos conceptos básicos del modelo de regresión lineal y se introducen los supuestos del método de mínimos cuadrados ordinarios (MCO), para estimar los parámetros del modelo de regresión lineal simple y múltiple. El capítulo 4, trata sobre los modelos de series de tiempo, con los métodos de promedios móviles, técnicas de suavizamiento exponencial y modelos autorregresivos.
6
En el capítulo 5, se presentan algunos métodos de clúster y técnicas como algoritmos de dos etapas, k-medias y métodos jerárquicos. En el capítulo 6, se ven los algoritmos de árboles, que son técnicas de minería de datos o modelos de predicción utilizado en el ámbito de la inteligencia artificial, para apoyar las decisiones estratégicas en una organización. En el capítulo 7, se introducen los conceptos de redes neuronales artificiales, que son modelos matemáticos que simulan las propiedades de las redes neuronales biológicas imitando el comportamiento del cerebro humano, lo que le da ventajas importantes respecto de otros modelos predictivos. Finalmente, en el capítulo 8, se hace una reflexión sobre el modelo propuesto de dirección estratégica para las organizaciones, con el apoyo de métodos cualitativos y cuantitativos.
7
CAPÍTULO 1 1.1 Dirección Estratégica La dirección estratégica debe ser liderada por altos directivos, dado que es el corazón de la actividad de una organización, (Hunger, 2003) , (Drucker, 2004), (Hax, A. & Wilde, D., 1999). El modelo de dirección estratégica propuesto es un método holístico, continuo y recursivo; que tiene como principal característica ser democrático, sistemático y participativo.
Considera los procesos de: Planificación estratégica, que es el proceso de decidir anticipadamente qué se hará y de qué manera; mediante la selección de objetivos estratégicos, junto a estrategias y acciones para lograrlos. Implementación, que consiste en el desarrollo de las actividades orientadas a conseguir los objetivos estratégicos en concordancia con la planificación estratégica, instaurar una estructura organizacional, sistemas de información adecuados con los procesos y roles que deben desempeñar las personas en la organización. Control, en la que se desarrollan e implementan los sistemas que permiten medir y corregir el desempeño individual y organizacional para que los hechos se ajusten a los objetivos estratégicos.
FIG. 1: PROCESO DE DIRECCIÓN ESTRATÉGICA
El modelo se puede aplicar de forma top-down a la organización como un todo, luego a las componentes, subsistemas o unidades estratégicas de negocios (UEN) y, finalmente, a las unidades funcionales. Una UEN es un sistema viable (Beer, 1988), conformado por uno o más productos determinados, que tienen un mercado básico común, delimitado y al frente de la cual hay un ejecutivo o directivo que tiene la responsabilidad de integrar los procesos administrativos, a través de objetivos y una estrategia fundamental.
8
También se puede definir una UEN como aquel sistema que es capaz de amoldarse a las variaciones de un entorno turbulento y cambiante, que debe poseer las siguientes características (Beer, 1988): i) Capaz de auto-organizarse: mantener la organización del sistema en forma permanente y adaptarse de acuerdo a las exigencias del medio ambiente; ii) Capaz de auto-controlarse: mantener las variables principales del sistema dentro de ciertos límites de normalidad; iii) Deben poseer cierto grado de autonomía: poseer un suficiente nivel de libertad, determinado por sus recursos, para mantener las variables esenciales en su área de regularidad. Además, poseen una misión única y diferenciada, la estrategia de cada unidad es así autónoma, si bien no independiente de las demás unidades estratégicas, puesto que se integran en la estrategia de la institución. El método de dirección estratégica en su fase de planificación estratégica se compone de un esquema gráfico, que representa el proceso de planificación y un procedimiento que se realiza de manera secuencial en cascada con iteración. Este procedimiento está constituido por 9 etapas, de las cuales algunas de sus actividades se pueden desarrollar de manera simultánea, en paralelo, y además pueden existir iteraciones entre actividades, porque se pueden presentar situaciones dónde sea necesario volver a etapas anteriores, en razón de no cumplir con ciertos requisitos y supuestos fundamentales en la actividad. 1.1 Business Intelligence Se denomina inteligencia empresarial, inteligencia de negocios o BI (business intelligence) (Shmueli, G., Patel, N., & Bruce, P., 2007), al conjunto de métodos, técnicas y herramientas enfocadas a la administración y creación de conocimiento mediante el análisis de datos internos y externos en una organización o empresa. El término BI se refiere al uso de datos en una institución para facilitar la toma de decisiones. Ayuda a comprender el funcionamiento actual de la organización, y también a pronosticar con anticipación los acontecimientos futuros, con el objetivo de ofrecer conocimientos para respaldar los objetivos estratégicos y estrategias organizacionales. Los métodos y las herramientas del BI (Shmueli, G., Patel, N., & Bruce, P., 2007) se basan en la utilización de un sistema de información de inteligencia que se forma con distintos datos extraídos de los datos básicos del subsistema operacional, con información relacionada con la institución y su ámbito y con datos financieros y económicos.
9
Estos sistemas utilizan herramientas y técnicas ELT (extraer, cargar y transformar) o actualmente ETL (extraer, transformar y cargar), que extraen los datos de distintas fuentes, los depuran y preparan (homogeneización de los datos) para luego cargarlos en un almacén de datos (Data warehouse, el cual es un repositorio de datos reunido de múltiples fuentes, almacenado en un esquema unificado y que reside en un único sito. Los datos son organizados alrededor de los temas principales, tales como, ventas, créditos, recursos humanos, etc. Y estos se almacenan para proveer información histórica y resumida). El BI incluye métodos de los sistemas DSS (decision support systems), procesos de consultas y reportes, las técnicas OLAP (on line analytical processing), análisis estadístico, econométrico y los procesos de data mining “DM” (Shmueli, G., Patel, N., & Bruce, P., 2007) o minería de datos. 1.2 Definición de Data Mining La minería de datos DM (Shmueli, G., Patel, N., & Bruce, P., 2007) es un área de las ciencias de la computación que busca modelos de comportamiento en grandes volúmenes de datos, mediante inteligencia artificial, aprendizaje automático, estadística y sistemas de bases de datos. Su objetivo general es obtener información útil y convertirla en una herramienta factible de apoyar el proceso de toma de decisiones. La empresa de tecnologías de la información Gartner Group, en su página web, noviembre 2012, define DM, como “el proceso de descubrir correlaciones significativas en nuevos patrones y tendencias a través de procesar grandes cantidades de datos almacenados en los repositorios, utilizando tecnologías de reconocimiento de patrones, así como técnicas estadísticas y matemáticas”. El proceso de un proyecto de DM (Shmueli, G., Patel, N., & Bruce, P., 2007) tiene varias etapas que son, esencialmente:
Comprensión del negocio y del problema que se quiere resolver. Comprensión de los datos. Preparación, determinación, obtención y limpieza de los datos necesarios. Revisión de modelos matemáticos y estadísticos. Validación, comunicación, etc., de los resultados obtenidos. Integración, si procede, de los resultados en un sistema transaccional o similar.
Este proceso se conoce como estándar CRISP-DM (Shmueli, G., Patel, N., & Bruce, P., 2007).
10
FIG. 2: ESTÁNDAR CRISP_DM
La relación entre todas estas fases es lineal sólo sobre el papel. En realidad, es mucho más compleja y esconde toda una jerarquía de subfases. A través de la experiencia acumulada en proyectos de minería de datos se han ido desarrollando metodologías que permiten gestionar esta complejidad de una manera más o menos uniforme. Las técnicas de la minería de datos provienen de la inteligencia artificial y de la estadística, que son algoritmos más o menos sofisticados que se aplican sobre un conjunto de datos para obtener información o conocimiento de un tema particular. Las técnicas (Shmueli, G., Patel, N., & Bruce, P., 2007), (Hernández, J., Ferri Ramirez, C., Ramirez Quintana, Ma, 2004) más representativas son: Redes neuronales: Son un modelo de aprendizaje y procesamiento que imita o se basa en el funcionamiento del sistema nervioso central. Es una estructura interconectada de neuronas en red que producen un estímulo de salida. Los perceptrón (simples y multicapas) y las redes de Kohonen (mapas auto organizados), están entre las más conocidas. Regresión lineal: La más usada para generar vínculos entre información diferente. Rápida y eficaz, pero insuficiente en espacios multidimensionales donde puedan relacionarse más de 2 variables. Serie de tiempo: Es un conjunto de observaciones sobre valores que toma una variable cuantitativa en diferentes momentos de tiempo. 11
Ejemplos de series de tiempo: Economía y finanzas: precios de un artículo, tasas de desempleo, tasa de inflación, índice de precios, precio del dólar, precio del cobre, precios de acciones, ingreso nacional bruto, etc. Meteorología: cantidad de agua caída, temperatura máxima diaria, velocidad del viento (energía eólica), energía solar, etc. Geofísica: series sismológicas. Química: viscosidad de un proceso, temperatura de un proceso. Demografía: tasas de natalidad, tasas de mortalidad. Medicina: electrocardiograma, electroencefalograma. Marketing: series de demanda, gastos, utilidades, ventas, ofertas. Telecomunicaciones: Análisis de señales. Transporte: series de tráfico. Algunos de los métodos utilizados en las series de tiempos: promedio móvil, suavizamiento exponencial, descomposición estacional, método Box – Jenkins. (ARIMA). Etc. Árbol de decisión: es un esquema o algoritmo predictivo que se usa en el contexto de la inteligencia artificial, donde a partir de una base de datos se estructuran estos diagramas de construcciones lógicas, que representan y modelan situaciones determinadas que se repiten sucesivamente en la búsqueda de una respuesta a un problema. Ejemplos de árboles de decisión son los algoritmos CART, ID3, C4.5 y CHAID. Modelo estadístico: Es una ecuación que se utiliza en los diseños experimentales y en la regresión para señalar las diferentes variables que inciden en la solución y sus eventuales modificaciones. Clustering: Es una manera de agrupar vectores de acuerdo a las cercanías entre ellos, buscando que los de entrada estén a la menor distancia de los que más se le parezcan. Es una técnica utilizada para clasificar casos en grupos que son relativamente homogéneos dentro de sí mismos y heterogéneos entre ellos, sobre la base de un conjunto definido de variables. Ejemplos: Algoritmos Kmedias, de dos pasos y jerárquicos. Una de sus aplicaciones más comunes es en segmentación de mercados, agrupamiento de consumidores de acuerdo a preferencias de atributos, comprender el comportamiento de compradores, consumidores con similares comportamientos o características son agrupados juntos, identificar oportunidades de nuevos productos. Clúster de similares marcas o productos pueden ayudar a identificar competidores u oportunidades de mercado. Regla de asociación: Es usada para revelar situaciones similares que se repiten en un determinado conjunto de datos. 1.3 Conceptos Básicos en Data Mining Tipos de variables: hay varias maneras de clasificar las variables. Las variables pueden ser numéricas o de texto (caracteres). Ellas pueden ser continuas (capaz de asumir cualquier valor numérico real, usualmente en un rango dado), enteras 12
(asumiendo solamente valores enteros) o categóricas (asumiendo un número limitado de valores). Las variables categóricas pueden ser numéricas (1, 2, 3) o de texto (secretaria, administrativo, profesor). Las variables categóricas pueden no estar ordenadas (llamadas variables nominales), con categorías tales como: Chile, Perú, Argentina, Colombia, Ecuador, Uruguay, Paraguay; o ellas pueden estar ordenadas (llamadas variables ordinales) con categorías tales como: valor alto, medio y bajo. Clasificación: es tal vez la forma más básica de análisis de datos. Una transacción con tarjeta de crédito puede ser normal o fraudulenta. Un paciente en un hospital se puede recuperar, seguir enfermo o fallecer. Una tarea común en DM es examinar los datos donde la clasificación es desconocida o puede darse en el futuro, con el objetivo de predecir cuál es o será la clasificación. Con datos similares, donde la clasificación se puede conocer, se pueden establecer reglas, las cuales entonces pueden ser aplicadas a los datos con una clasificación desconocida. Predicción: es similar a clasificación, excepto que se trata de predecir el valor de una variable numérica (por ejemplo, cantidad de compras) más que una clase (por ejemplo, comprador o no comprador). Los algoritmos se dividen –según el objetivo del análisis - en supervisados y no supervisados (Shmueli, G., Patel, N., & Bruce, P., 2007): Supervisados o predictivos: predicen un dato o un grupo de ellos a partir de información previa. No supervisados o “del descubrimiento de conocimiento: se revelan modelos de conducta o tendencias en los datos. Aprendizaje supervisado y no supervisado: es una distinción fundamental entre las técnicas de minería de datos. Algoritmos de aprendizaje supervisado son aquellos utilizados en la clasificación y predicción de datos. Los datos se dividen en “datos entrenamiento”, que son desde los cuales los algoritmos de clasificación y predicción “aprenden” o son “entrenados”, acerca de la relación entre las variables independientes y la variable resultado (predicha). Una vez que el algoritmo ha aprendido desde los datos de entrenamiento, este es aplicado a otros datos de ejemplo (datos de validación), donde el resultado es conocido, para ver que tan bien lo hace en comparación con otros modelos. Si hay varios modelos que están siendo probados, es adecuado tener una tercera muestra de datos conocidos (los datos de prueba), para ser utilizado con el modelo final seleccionado y comprobar que también lo hace. El modelo final seleccionado puede entonces ser utilizado para clasificar o predecir resultados de interés en 13
nuevos casos donde la salida es desconocida. Análisis de regresión lineal simple es un ejemplo de aprendizaje supervisado. Algoritmo de aprendizaje no supervisado: son aquellos utilizados donde no hay una variable resultado a predecir o clasificar. Por lo cual, no hay aprendizaje desde los casos donde tal variable resultado es conocida. Ejemplo de este tipo de algoritmos son reglas de asociación, métodos de reducción de datos y técnicas de clúster. Selección de variables para un modelo: más no es necesariamente mejor cuando se seleccionan variables para un modelo. Este es el concepto de parsimonia, compactación o simplicidad, que es un aspecto deseable en un modelo. Si se incluyen más variables, se necesitaran un número mayor de registros para evaluar la relación entre las variables. Sobreajuste: al incluir más variables, se aumenta el riesgo de sobre ajustar los datos. En aprendizaje automático, el sobreajuste (también es frecuente emplear el término en inglés overfitting) es el efecto de sobre entrenar un algoritmo de aprendizaje con unos ciertos datos para los que se conoce el resultado deseado. El algoritmo de aprendizaje debe de alcanzar un estado en el que será capaz de predecir el resultado en otros casos a partir de lo aprendido con los datos de entrenamiento, generalizando para poder resolver situaciones distintas a las acaecidas durante el entrenamiento. Sin embargo, cuando un sistema se entrena demasiado (se sobre entrena) o se entrena con datos extraños, el algoritmo de aprendizaje puede quedar ajustado a unas características muy específicas de los datos de entrenamiento que no tienen relación causal con la función objetivo. Durante la fase de sobreajuste el éxito al responder las muestras de entrenamiento sigue incrementándose mientras que su actuación con muestras nuevas va empeorando. Normalización de los datos: algunos algoritmos requieren que los datos sean normalizados antes que el algoritmo pueda ser implementado efectivamente. Para normalizar los datos, se substrae la media a cada uno de los valores y se divide por la desviación estándar de las desviaciones resultantes de la media. Se está expresando cada valor como el "número de desviaciones estándar de la media", también conocido como z-score.
14
CAPÍTULO 2: Modelo de Dirección Estratégica Propuesto 2.1 Proceso de Dirección Estratégica La dirección estratégica es el arte y la ciencia de formular, implementar y evaluar las decisiones interfuncionales que permiten a una organización alcanzar sus objetivos estratégicos (Hunger, 2003). El desafío de las organizaciones hoy es enfrentar la globalización de los mercados, donde el fundamento de la estrategia es el vínculo con el cliente. Arnoldo Hax y Dean Wilde (Hax, A. & Wilde, D., 2003), afirman en su proyecto “Delta”, para desarrollar estrategia y administrar en la nueva economía: “Tenemos que complacer al cliente de un modo especial y único si es que esperamos alcanzar una rentabilidad superior.” El modelo de dirección estratégica propuesto se considera como un proceso dinámico, continuo, recursivo, constituido por las fases de planificación estratégica (etapa de diseño y de pensar en el futuro), de implementación (etapa del hacer y el cambio) y de control (evaluación y monitoreo en tiempo real de los objetivos estratégicos y resultados, con respecto a los estándares establecidos en la organización, ver Fig. N° 3). La planificación se sustenta en la convicción de que el futuro será muy diferente al pasado. Y se debe imaginar el futuro a partir del presente, hay que visualizar, inventar, tomando en cuenta aquellos posibles escenarios perceptibles hoy (ver Fig. N° 4). Parte esencial es la identificación de oportunidades y amenazas en el medio ambiente en que se desenvuelve la empresa y, su contraste con las fortalezas y debilidades de la organización (Johnson, G. & Scholes, K., 2001), (Porter M. E., 1980) (Porter M. E., Ventaja Competitiva, 1987), (Porter M. E., The Competitive Advantage of Nations, 1990). Incluye diferentes actividades que van desde (Johnson, G. & Scholes, K., 2001), (Hax, A. & Majluf, N., 1996), (Johnson, G. & Scholes, K., 2001): 1) acuciosa recopilación y análisis de información, utilizando métodos y técnicas estadísticas, econométricas, BI, DM (Johnson, G. & Scholes, K., 2001), etc.; 2) examinar el futuro, producir nuevas ideas; 3) determinación de objetivos globales y estrategias; 4) diseño de los indicadores y sistemas de control; 5) hasta formalizar planes y acciones para lograrlos.
15
FIG. 3: ESQUEMA DE DIRECCIÓN ESTRATÉGICA
2.2 Fase de Planificación Estratégica Esta fase se desarrolla en base a un esquema gráfico, el cual permite representar el sistema que se debe analizar y sirve para organizar y comunicar de forma clara los elementos que involucran el todo. Además, de un procedimiento que se compone por un conjunto de actividades o eventos que se realizan o suceden (de forma alternativa o simultánea) con el propósito de generar el plan estratégico de la empresa. El esquema del proceso de planificación es el siguiente:
FIG. 4: ESQUEMA DEL PROCESO DE PLANIFICACIÓN.
2.3 Procedimiento de la Fase de Planificación. Este es un proceso que sigue un flujo de etapas secuenciales en cascada e iterativo, constituido por 9 procesos, pero pueden existir iteraciones, porque se pueden presentar situaciones dónde sea necesario volver a etapas anteriores. 16
FIG. 5: ETAPAS PROCESO PLANIFICACIÓN.
2.4 Etapas del Proceso de Planificación Estratégica. i) Etapa de especificación de los aspectos generales del sistema en estudio. Estado actual: describir el sistema y su entorno (¿qué somos) y sus modelos de negocios. Desde un punto de vista sistémico, un modelo de negocios consiste en dar respuestas a las siguientes preguntas: 1) ¿para quién? o ¿quién?, con el propósito de determinar los clientes y sus necesidades; 2) ¿qué?, con el propósito de definir el producto o servicio y su respectiva oferta de valor, y 3) ¿cómo?, consiste en establecer las estrategias, acciones, tareas a desarrollar. El modelo de negocios comprende el siguiente conjunto de actividades: cómo selecciona sus clientes, cómo consigue y conserva a los clientes, cómo crea una propuesta de valor para sus clientes, cómo define y diferencia sus ofertas de producto o servicios, cómo sale al mercado (estrategias), cómo define los procesos y tareas que se deben llevarse a cabo y cómo configura los recursos y presupuestos.
17
FIG. 6: MODELO DE NEGOCIOS
ii) Etapa de diagnóstico estratégico de la empresa. a. Análisis externo, es un proceso que permite determinar cuáles de los factores externos o no controlables a la empresa podrían tener influencia en términos de facilitar o restringir el logro de objetivos. Es decir, hay circunstancias o hechos presentes en el ambiente que a veces representan una buena OPORTUNIDAD que la empresa podría aprovechar, ya sea para desarrollarse aún más o para resolver un problema. También puede haber situaciones que más bien representen AMENAZAS para la organización. b. Análisis interno, donde se especifican los factores controlables, FORTALEZAS y DEBILIDADES de la empresa que se deducen de un análisis o benchmarking (Porter M. E., 1980), (Porter M. E., Ventaja Competitiva, 1987), (un proceso sistemático y continuo para evaluar comparativamente los productos, servicios y procesos de trabajo en organizaciones) con el líder de la industria del sector, que se tienen respecto a la disponibilidad de recursos de capital, personal, activos, calidad de producto, estructura interna y de mercado, percepción de los consumidores, entre otros. c. Factores críticos de éxito, proceso para identificar los elementos que permiten a la empresa alcanzar los objetivos que se ha trazado y distinguen a la empresa de la competencia haciéndola única y también se debe investigar el entorno para identificar los elementos fundamentales que afectan positiva o negativamente el negocio, para anticiparse a los hechos. d.
Construir matriz VRIO, que es una herramienta de análisis de empresas que se engloba dentro de la teoría de recursos y responde a las cuatro características básicas que ha de cumplir un recurso para dar a la empresa ventaja competitiva. 18
e.
Construir la matriz FODA de la organización, con los antecedentes recopilados en los pasos anteriores se genera esta matriz, y en cada uno de los cuatro cuadrantes se establece el conjunto de estrategias posibles. En el primer cuadrante, donde se cruzan las oportunidades con las fortalezas FO, se determinan estrategias ofensivas, en el segundo cuadrante de amenazas y fortalezas FA, como en el tercer cuadrante de oportunidades con debilidades DO, se establecen estrategias mixtas, y en el cuarto cuadrante de amenazas y debilidades DA, se establecen estrategias defensivas.
iii) Etapa de determinación del posicionamiento estratégico fundamental de la empresa sustentada en el paradigma del “rombo”. Propuesto en (Saavedra, O., Saavedra, D. & Torres, A., 2012) el artículo “Modelo de dirección estratégica”, en el encuentro ENEFA, 2012, Chile. El desafío de las organizaciones de hoy es enfrentar la globalización de los mercados, donde el principio básico de la estrategia es el vínculo con el cliente. Por esta razón, una tarea fundamental en las organizaciones es conocer sus mercados, investigar el comportamiento de sus clientes, y además es muy importante conocer a sus no clientes, sus necesidades y conductas. Arnoldo Hax y Dean Wilde (Hax, A. & Wilde, D., 2003), afirman en su proyecto “Delta”, para desarrollar la estrategia y administrar en la era del conocimiento e información: “Tenemos que complacer al cliente de un modo especial y único si es que esperamos alcanzar una rentabilidad superior”. Y ellos proponen en su modelo tres posicionamientos estratégicos básicos: 1) Mejor producto. En este posicionamiento la filosofía fundamental es un mercado amplio y en competencia, con tres estrategias fundamentales: liderazgo en costo, diferenciación y concentración. Estas son las estrategias básicas que propone Michael Porter, en su propuesta de ventajas competitivas. 2) Solución integral al cliente. La filosofía fundamental es vinculación con un “cliente clave”, productos hechos a la medida, con las estrategias fundamentales: redefinir la experiencia cliente, amplitud horizontal e integración del cliente. Esta propuesta es totalmente ortogonal al posicionamiento de mejor producto, la base de esta propuesta es la confianza y colaboración con el cliente y, por lo tanto, los competidores pierden importancia en la relación. 3) Sistema cerrado. El propósito de este posicionamiento estratégico es la vinculación con el cliente con el apoyo de empresas complementadoras, y las estrategias fundamentales en esta situación son: estándar de propiedad, mercado dominante y acceso restringido. Las organizaciones que alcanzan este vértice en el modelo Delta, en general son monopólicas en su sector industrial. El paradigma del rombo surge al ampliar la propuesta de Arnoldo Hax y Dean Wilde (Hax, A. & Wilde, D., 2003), con el posicionamiento estratégico “nuevos mercados”, la filosofía fundamental es desarrollar productos nuevos o
19
mercados nuevos, donde la competencia no es tan relevante, si la vinculación con los clientes, no clientes y la innovación de valor. iv) Etapa de definición y declaración de la misión y visión de la empresa. La misión del sistema es definir su negocio futuro. La misión constituye una forma de hablar del futuro del sistema, la cual define, aclara y crea marcos de referencia para la gestión futura de la organización y de sus negocios. Es una declaración duradera de la visión específica que tiene una organización de su negocio, la cual es esencial para determinar sus objetivos y formular sus acciones estratégicas. En esencia, indica lo que el negocio ofrece, a quién se desea servir y cómo se quiere competir. Razón o finalidad por la cual una empresa existe. Es la formulación de un propósito duradero de largo alcance, que distingue y diferencia a la empresa de otras organizaciones. La visión es una imagen imponente del futuro que atrae a la gente (visual), y se emplean metáforas, modelos, cuadros, comparaciones y analogías. Con este mensaje se apela a las emociones de las personas en la organización. Provee una sensación de propósito, dirección y una razón de seguir adelante y conduce a la acción. v) Etapa de especificación y análisis de escenarios futuros para el sistema. a. Expresa lo que en el futuro será la institución o unidad estratégica de negocios, cuál será su quehacer, a quiénes beneficiara, cómo la percibirá el entorno y con quién se contará. ¿Qué seremos? b. Determinar y establecer los lineamientos y objetivos estratégicos fundamentales para el sistema con sus respectivos indicadores de medición. Lineamientos estratégicos: son las grandes dimensiones de actividad para conseguir los objetivos estratégicos, y de esta forma lograr la posición futura deseada. Por ejemplo, una empresa puede declarar sus lineamientos estratégicos fundamentales: 1) Rentabilidad, lograr un desempeño financiero superior y sustentable medido en términos de utilidad. Está enfocado a desarrollar las actividades de la manera más eficiente y efectiva, desde el punto de vista del costo, y la utilización de la infraestructura para dar soporte a la estrategia fundamental. 2) Orientación al cliente, sustentado en una propuesta exclusiva de valor para el cliente. Contar con una estrategia corporativa integral que incluya la cartera de negocios y capacidad funcional completa, para ofrecer al cliente una propuesta económica de valor superior y exclusiva.
20
3) Competitividad y eficiencia, la capacidad de la empresa para lograr el máximo rendimiento de los recursos disponibles, como personal, financieros, capital, materiales, ideas, etc., y los procesos de transformación (procesos operacionales y atención al cliente, realizados de manera eficiente). 4) Desarrollo y seguridad del personal, un ambiente laboral vigorizador, energizante, que crea las capacidades colectivas para llegar a ser una líder en la que todos esperan trabajar, y dar el máximo de seguridad a sus trabajadores. 5) Innovación, comprometerse en asegurar un flujo continuo de nuevos servicios para así mantener la viabilidad futura de la empresa. Objetivos estratégicos: indican los resultados que se deben lograr, de tal forma de materializar la posición futura deseada. Su horizonte es el largo plazo. Son una expresión cuantitativa de la posición futura que se desea alcanzar. Buscan definir en términos cuantitativos, los resultados concretos que se espera alcanzar en cada negocio. Constituyen una medida para poder evaluar la gestión deseada y entregan un dimensionamiento del resultado esperado en el largo plazo. Dependiendo la materia a la cual se orienten, encontraremos los siguientes tipos de objetivos estratégicos: Financieros: corresponden a resultados finales o terminales del negocio. Son consecuencias financieras recogidas a través de diferentes medidas financieras. Relacionados con el cliente: corresponden a resultados que dicen relación con aspectos propios del cliente del negocio, específicamente con resultados que tienen que ver con la forma en cómo el cliente ve y percibe a la organización. De procesos internos del negocio: están relacionados con aspectos internos críticos para lograr los resultados que el cliente quiere ver en la organización. De innovación y desarrollo: corresponden a resultados fundamentales a lograr para que la organización pueda seguir logrando en el tiempo buenos resultados. Son mejoras en el tiempo de llegada al mercado de una nueva generación de productos o servicios, a través de la incorporación de tecnologías, etc. De mejoramiento del personal y clima organizacional: Se asocian a resultados de aprendizaje, emprendimiento y de innovación. Si es necesario, también se pueden determinar y establecer las metas fundamentales para la organización, las cuales son objetivos de mediano y corto plazo, con sus respectivos indicadores de medición. vi) Etapa de alineación de los objetivos estratégicos y metas con las estrategias de la organización o empresa. Una vez que se han explicitados los objetivos 21
estratégicos en el análisis de los escenarios futuros, se consideran el conjunto de estrategias posibles establecidas en la matriz FODA, para alinearlas con los objetivos estratégicos. Porque estos señalan el ¿Qué?, la organización se compromete lograr en el futuro, y las estrategias indican el Cómo se van alcanzar estos objetivos. vii) Etapa de análisis y evaluación de los cambios necesarios para implementar la visión estratégica del sistema. Aquí se revisan los supuestos, limitaciones, y riesgos del cambio que se debe realizar. Si en esta etapa se presenta una situación difícil de resolver, es necesario volver a revisar etapas anteriores. Se pueden considerar los siguientes aspectos:
Evaluar aspectos de estructura organizacional. Evaluar los procesos de negocios de la empresa. Analizar los sistemas de información y tecnologías de comunicaciones. Analizar los sistemas económicos y financieros. Evaluar las competencias y habilidades de las personas en la organización.
viii) Etapa de diseño de los sistemas de mediciones de desempeño y cumplimiento de objetivos estratégicos. Una vez concluidas las siete etapas anteriores, es necesario diseñar los sistemas de control, los cuales permitirán comparar los resultados obtenidos en la ejecución de los proyectos o acciones, con los objetivos estratégicos establecidos. Si existen desviaciones importantes se deben hacer los ajustes necesarios que corresponda, por ejemplo, cambios de políticas, estrategias, procedimientos o acciones. El diseño de los sistemas de control consiste en: Diseñar los mapas estratégicos. Diseñar los tableros de control. Desarrollar los modelos conceptuales de los sistemas informáticos a desarrollar. Determinar el software para la implementación de los tableros de control. ix) Etapa de establecimiento del plan estratégico de desarrollo del sistema. 1) Establecer los planes de acción. Planes generales: iniciativas globales que permiten lograr cada uno de los lineamientos estratégicos. Representa una generalización de lo que se va a realizar. Hitos de control: son resultados intermedios que muestran el grado de avance en cuanto al desarrollo de los planes específicos.
22
2) Formular los proyectos y analizar su factibilidad, técnica, económica y operacional. Proyectos: en el más amplio concepto podemos decir que un proyecto es la elaboración de un plan, para llevar a cabo una idea que permita generar un cambio en la situación actual. “Son actividades que deben ejecutarse para lograr los objetivos declarados y comprometidos” (Saavedra, O. & Kristjanpoller, W., 2012). a. Establecer los recursos para los proyectos. b. Determinar el presupuesto para el plan de acción. Presupuestos: reflejan las consecuencias financieras de los resultados específicos que pretende lograr la posición competitiva futura.
2.5 Métodos y Procedimientos para Realizar el Análisis Externo del Sistema. Para hacer el análisis del entorno, a este lo dividiremos en el macro-entorno y micro-entorno o sector industrial en el cual participa la organización. Para deducir las principales variables del macro-entorno, es necesario estudiar los modelos macroeconómicos (clásico, neoclásico, keynesiano, por ejemplo) y obtener las variables exógenas denominadas PESTA (P de variables de tipo político, E de económicas, S de variables sociales, T de tecnológicas y A de variables de tipo ambiental). - Aspectos políticos y legales: comprenden factores como la estabilidad general del entorno, legislación laboral, comercial, civil y tributaria, que impactan o pueden impactar en el desarrollo y el clima de la organización en general o de sectores en particular. - Aspectos económicos: son variables económicas que inciden en el resultado de la organización. Entre ellas encontramos variables como indicadores macroeconómicos (tasa de interés, inflación, tipo de cambio, PIB, IMACEC, etc.), políticas comerciales, acuerdos de libre comercio, organismos regulatorios, etc. - Aspectos sociales: la organización genera cambios sociales y es receptora del impacto que esas transformaciones puedan generar en el entorno. Estilos de vida diferentes, gustos, el desarrollo, los valores y las costumbres no pueden ser ajenos en un análisis del macro-entorno. - Aspectos tecnológicos: descubrimientos científicos, el impacto del desarrollo de productos de tecnologías relacionados con la actividad de la organización, y todos aquellos conocimientos que impliquen cambios en la forma de operar de la empresa en forma directa o indirecta. 23
- Aspectos ambientales y ecológicos: todos aquellos relacionados con el medioambiente. El micro-entorno está compuesto por factores externos a la organización, del sector industrial en la que participa, y que inciden en el resultado del negocio, y que la empresa por sí misma, a través de sus acciones y decisiones también puede afectar. Los principales elementos que conforman el micro-entorno, son: los competidores, los proveedores, los clientes, las empresas que desean entrar al sector y las que producen productos sustitutos y complementarios, los empleados y la comunidad en general. Uno de los modelos más utilizados para analizar el micro-entorno es el desarrollado por el profesor Michael Porter (Porter M. E., 1980), (Porter M. E., Ventaja Competitiva, 1987), conocido como el modelo de las fuerzas competitivas. Una vez realizado el análisis del entorno de la organización, se resumen la variables y factores externos no controlables, pero que afectan directamente a la organización en una tabla como la siguiente (ver FIG. 7), y en el caso de algunas variables cuantitativas fundamentales, se pueden aplicar métodos o modelos de minería de datos para explicar su comportamiento.
FIG. 7: TABLA FACTORES CRÍTICOS EXTERNOS: OPORTUNIDADES Y AMENAZAS.
FIG. 8: VARIABLE EXTERNA: AMENAZA (PRECIO PETRÓLEO).
Por ejemplo, en el sector de transporte se presenta actualmente niveles decrecientes de rentabilidad sobre las ventas, debido a la evolución relativa de oferta y demanda, y a los elevados aumentos del costo del combustible, que han dificultado la transmisión del mismo a los clientes. Por lo cual, esta es una gran amenaza para las empresas del sector y es un factor crítico que hay que estudiarlo con especial cuidado, a través de modelos econométricos.
24
2.6 Métodos y Procedimientos para Realizar el Análisis Interno del Sistema. En esta etapa se considera el esquema de logística del proceso de una organización y se hace una comparación con el líder de la industria. Además, se analizan los indicadores financieros de la misma manera. La logística incluye todas y cada una de las operaciones necesarias para mantener la actividad de la organización: desde la programación de compras hasta el servicio postventa pasando por aprovisionamiento, planificación y gestión de la operación, almacenaje, diseño, embalaje, etiquetado, clasificación y distribución física. Desde el punto financiero se utilizan los estados financieros que proveen información sobre el patrimonio de la organización a una fecha y su evolución económica y financiera en el período que abarcan, para facilitar la toma de decisiones; se incluyen índices de liquidez, índices de endeudamiento, índices de rentabilidad, índices de cobertura e índices de valoración. La metodología utilizada para hacer los análisis financieros es: 1) Muestra Representativa. Este método consiste en compararse con el competidor clave o grupo de competidores y/o se compara con el promedio de la industria; 2) Series Temporales. Consiste en comparar el rendimiento actual y el pasado; cualquier cambio significativo, de un año a otro, puede ser una SEÑAL importante; 3) Análisis Combinado. Este método es una combinación de los dos métodos anteriores. Una vez terminado el análisis interno de la organización, donde se han descubierto los factores fundamentales que distinguen a la organización de su competencia. Esta información de las variables fundamentales internas de la organización se resume en la siguiente tabla (ver FIG. 9), y las variables cuantitativas críticas y controlables, se pueden explicar a través de modelos cuantitativos que proporciona la minería de datos.
FIG. 9: TABLA DE FACTORES INTERNOS: FORTALEZAS Y DEBILIDADES.
25
FIG. 10: FACTOR INTERNO: FORTALEZA
2.7 Estudio de Mercados. a. Revisión y selección de los modelos de negocios. En una organización se pueden identificar varios modelos de negocios, si es así el análisis debe ser independiente, porque los factores involucrados pueden ser muy diferentes, por ejemplo, mercados distintos, productos diferentes, procesos y recursos disímiles. b. Aplicar un proceso de segmentación de mercado. Es un proceso que consiste en dividir el mercado de un bien o servicio en varios grupos más pequeños e internamente homogéneos. Aplicando técnica de clúster, con procedimientos de (Shmueli, G., Patel, N., & Bruce, P., 2007): a) clúster de dos etapas; b) kmedias o c) jerárquicos.
FIG. 11: CLÚSTER, MÉTODO K MEDIAS.
También se puede aplicar BI (Shmueli, G., Patel, N., & Bruce, P., 2007), que es el proceso de extracción de datos desde bases de datos internas y externas a la organización y luego el análisis de estos, para extraer información susceptible de usar para tomar decisiones y acciones de negocios informadas. Y se dispone de técnicas y software de redes neuronales (MLP, mapas auto organizativos), árboles de decisión (CART, ID3, C4.5, CHAID); regresiones: lineal, lógica, probit, reglas de asociación, lógica difusa; software, por ejemplo: Oracle, SAS, SPSS, Data Engine, Clementine, Matlab, Eviews, entre otros.
26
El proceso fundamental asociado al tratamiento de datos es conocido como KDD (Knowledge Discovery in Databases), que se refiere al proceso de descubrir conocimiento e información potencialmente útil para la toma de decisiones en los datos contenidos en bases de datos (Hernández, J., Ferri Ramirez, C., Ramirez Quintana, Ma, 2004). Este es un proceso iterativo que tiene varias etapas, comenzando con: 1) Selección de los datos. En esta etapa se obtienen los datos importantes para el análisis desde distintas fuentes de información, bases de datos internas y externas a la organización, archivos planos, etc.; 2) Preprocesamiento. Aquí se hace la preparación y limpieza de los datos que fueron extraídos de las distintas fuentes de información, se utilizan diversas técnicas para manejar datos faltantes, datos inconsistentes o fuera de rango; 3) Transformación. En esta etapa se transforman o generan nuevas variables a partir de las existentes, con una estructura apropiada para la situación; 4) Data Mining. Esta es la etapa de modelamiento propiamente tal, donde se prueban diferentes modelos con el propósito de descubrir patrones desconocidos, nuevos y útiles para tomar decisiones, que están ocultos en los datos de las bases de datos; 5) Evaluación. Se analizan los patrones útiles, basándose en algunos estadísticos o métricas y se interpretan los resultados obtenidos. Con este conocimiento generado se pueden generar y fundamentar las estrategias y acciones que se deben desarrollar en la organización. En la FIG. 12, se presenta el esquema del proceso (Shmueli, G., Patel, N., & Bruce, P., 2007).
FIG. 12: PROCESO KNOWLEDGE DISCOVERY IN DATABASES.
2.8 Métodos y Procedimientos para Establecer el Posicionamiento Estratégico y Estrategia Fundamental del Sistema. Para establecer la estrategia fundamental del sistema, se utiliza el paradigma del rombo (Saavedra, O., Saavedra, D. & Torres, A., 2012), en el cual se presentan 4 posicionamientos estratégicos básicos:
27
FIG. 13: ESQUEMA ESTRATEGIA FUNDAMENTAL DE LA ORGANIZACIÓN, PARADIGMA ROMBO.
i)
Mejor producto, (Hax, A. & Wilde, D., 2003): cuya filosofía fundamental es mercado amplio y en competencia, con las estrategias de liderazgo en costo, diferenciación y concentración.
ii)
Nuevos mercados: donde la filosofía fundamental es desarrollar productos nuevos o mercados nuevos, donde la competencia no es tan relevante como la vinculación con los clientes y la innovación (Chang, W. & Mauborgne, R., 2005), con las estrategias de: reingeniería de producto, desarrollo de nuevos productos, desarrollo de mercados (crear y capturar nueva demanda, aprovechando las cosas que tienen en común los no clientes, o reconstruir las fronteras del mercado).
iii)
Solución integral al cliente (Hax, A. & Wilde, D., 1999), (Hax, A. & Wilde, D., 2003): acá la filosofía fundamental es la vinculación con el “cliente clave” con productos hecho a la medida, con las estrategias de redefinir la experiencia cliente, amplitud horizontal e integración del cliente.
iv)
Sistema cerrado, (Hax, A. & Wilde, D., 2003): la filosofía fundamente establece la vinculación con el cliente con el apoyo de empresas complementadoras, haciendo uso de estrategias de estándar de propiedad, mercado dominante y acceso restringido.
Luego, hay que definir las ventajas competitivas para cada uno de los negocios, esto consiste en pensar en el corazón de las estrategias, y radica en determinar de qué manera específica dicho negocio va a competir en su mercado. ¿Por qué 28
me prefiere un cliente?, una vez que me ha preferido, ¿por qué debiera seguir haciéndolo?, son dos preguntas cuyas respuestas constituyen la esencia del éxito de cualquier empresa y están en el origen de la definición de la ventaja competitiva. Para que la estrategia empresarial sea exitosa, la compañía necesita ser eficiente en su actuar. El posicionamiento estratégico de “nuevos mercados”, lleva a las organizaciones a generar un nuevo espacio de mercado haciendo irrelevante la competencia, creando y capturando nueva demanda, alineando todas las actividades de la organización con el objetivo de procurar la oportunidad de un nuevo negocio y a la vez un aumento del valor de los productos. Las actividades de estas organizaciones se hallan definidas por un espacio del mercado aún no explotado, y constituyen una oportunidad de fuertes ganancias. Si bien algunos de los procesos son creados más allá de las industrias tradicionales, en general surgen como resultado de la expansión de los límites de las industrias ya existentes (Chang, W. & Mauborgne, R., 2005) (como en el caso del Cirque du Soleil), la competencia es irrelevante ya que las reglas del juego aún no han sido determinadas. Se trata de generar poderosos saltos de valor que constituyan en sí mismo una barrera infranqueable para la competencia, al menos durante un período suficientemente largo de tiempo. La filosofía es la “innovación de valor” (Chang, W. & Mauborgne, R., 2005), se produce cuando las organizaciones alinean innovación con utilidad, precio y costos. Esto es una nueva manera de pensar y ejecutar la estrategia fundamental, que trae como resultado la creación de una nueva oportunidad y una «ruptura» con la competencia. El posicionamiento estratégico de “mejor producto”, (Hax, A. & Wilde, D., 2003) considera todas aquellas industrias ya existentes en la actualidad (es un mercado conocido y habitualmente masivo o segmentado). En el mismo, los límites de las industrias están definidos y son conocidos por todos, al igual que las reglas que rigen el mercado. En este escenario, las organizaciones tratan de lograr “ventajas competitivas” frente a sus competidoras a fin de ganar una porción mayor del mercado. Es en este mercado (masivo) donde el espacio se torna multitudinario y los productos tienden a ser homogéneos, poco diferenciados (commodities), o es necesario un fuerte apoyo en marketing y una marca de mucho prestigio y respaldo; las expectativas de crecimiento y rentabilidad son reducidas y más aún si las organizaciones de la industrias entran en una guerra de precios. Asimismo en este enfoque surgen una serie de supuestos que subyacen a la definición estratégica de muchas organizaciones, tales como (Chang, W. & Mauborgne, R., 2005), (Hax, A. & Wilde, D., 2003):
29
Definir la industria tal cual lo hacen los competidores focalizando la estrategia en ser los mejores dentro de la industria.
Mirar en sus industrias a través de la óptica de estrategias generalmente aceptadas (tales como la de los automóviles de lujo), esforzándose por destacarse dentro del grupo de pertenencia.
Focalizar en el mismo grupo de compradores.
Definir el alcance de los productos y servicios ofrecidos de manera similar al del resto de la industria.
Aceptar la orientación funcional o emocional de la industria en la que está.
En el sentido más amplio, una organización compite no sólo con las instituciones de su misma industria sino también con todas aquellas que producen servicios o productos alternativos al propio. Al referirse a alternativas no se limita sólo a los productos y servicios substitutos, sino también a todos aquellos productos o servicios que tengan diferente forma y función, pero el mismo propósito. Un ejemplo de esto son los cines y los restaurantes, ya que si bien no son substitutos, constituyen una alternativa en sí mismo ya que cumplen el mismo objetivo, el disfrutar de una salida o entretenimiento. De esta manera, si bien se tiende a reaccionar frente a la acción de algún competidor dentro de la industria, no se toma en consideración lo que sucede en las industrias alternativas a nuestros productos o servicios. Para lograrlo las organizaciones deben desafiar dos procesos estratégicos convencionales: la focalización sobre los clientes actuales y la tendencia a segmentar finamente a fin de acomodar la oferta a las diferencias entre compradores. Las organizaciones se deben focalizar sobre sus no clientes (Chang, W. & Mauborgne, R., 2005), en lugar de focalizar sobre las diferencias entre clientes; deben tratar de construir lo común en lo que el cliente valora. Los no clientes pueden ser divididos en tres categorías: la primera está compuesta por aquellos no clientes que se encuentran al borde del mercado; eventualmente comprarán la oferta, pero mentalmente se sienten como no clientes de la industria. Apenas tengan la oportunidad abandonarán este mercado, pero ante una oferta de valor que pueda satisfacerlos, podría quedarse, multiplicando asimismo su frecuencia de compra. La segunda categoría de no clientes está constituida por aquellos que se niegan a las ofertas de la industria. Son agentes que han visto lo que se ofrece, pero se niegan a adoptarlo.
30
Finalmente la tercera categoría se compone por aquellos que nunca han pensado en sus ofertas de mercado como una opción. Focalizando sobre los aspectos comunes entre estos no clientes y los clientes actuales, las organizaciones pueden entender como acercar a estas personas al nuevo mercado. Si bien el término posicionamiento estratégico de “nuevos mercados” puede parecer nuevo, la existencia del mismo no lo es. Echando una mirada retrospectiva a los últimos 100 años es fácil percibir que existen muchas industrias (Chang, W. & Mauborgne, R., 2005) que eran desconocidas entonces (petroquímicas, automóviles, aviación, etc.), así como al observar los últimos 30 años podremos ver el surgimiento de nuevas industrias no imaginadas previamente (biotecnologías, bioinformática, telefonía celular, videos, correos privados, etc.). Esto habla de la irrupción de nuevas maneras de hacer negocios a lo largo de la historia de la era industrial. La realidad es que las industrias nunca quedan estáticas y continuamente evolucionan. La historia de las industrias muestra que el universo del mercado nunca ha sido constante, creándose infinidad de posibilidades; focalizarse en el posicionamiento estratégico de “mejor producto” es aceptar los factores limitantes de la guerra (territorio limitado y la necesidad de vencer al enemigo), negando la fortaleza distintiva del mundo de los negocios: la posibilidad de crear nuevos espacios de mercado que sean vírgenes aún. En el posicionamiento estratégico “nuevos mercados”, la filosofía fundamental es desarrollar productos nuevos o mercados nuevos, donde la competencia no es tan relevante como la vinculación con los clientes y la innovación de valor (Saavedra, O., Saavedra, D. & Torres, A., 2012). Se consideran en este posicionamiento tres estrategias fundamentales:
Reingeniería de producto.
Desarrollo de nuevos productos.
Desarrollo de mercado (crear y capturar nueva demanda, aprovechando las cosas que tienen en común los no clientes o reconstruir las fronteras del mercado).
a.- La estrategia de reingeniería de producto se puede ilustrar con el proceso desarrollado por el Cirque du Soleil, cuyo éxito es alcanzado en una industria en decadencia, compitiendo en un mercado (entretenimiento) donde surgían novedades (por ejemplo, las consolas de juego, que motivan a los niños a permanecer en sus hogares y no asistir al circo tradicional), y donde asimismo las asociaciones de derechos de los animales incrementaban sus campañas en contra de la utilización de animales en el espectáculo. Como vemos desde el punto de vista de una estrategia basada en la competencia, la industria del circo 31
parecería poco atractiva. Por lo cual, esta organización realizó una re-ingeniería en el servicio de la entretención, reconocida en todo el mundo por presentar entretenimiento artístico de muy buena calidad. Creado en 1984, las producciones del Cirque du Soleil han sido vistas por unos 40 millones de espectadores a través del mundo. Su nivel de ingresos ha alcanzado en sólo 20 años cifras similares a los de los circos Ringling BROS y Barnum & Bailey durante más de 100 años (Chang, W. & Mauborgne, R., 2005). Montando un espectáculo totalmente diferenciado de sus competidores, el Cirque du Soleil alcanza un éxito sustentado en la creación de un nuevo mercado que hizo que la competencia se convirtiera en irrelevante. Este circo no crece a costa de los consumidores habituales de los circos competidores, sino que su espectáculo se dirige a un nuevo grupo de consumidores adultos dispuestos a pagar una entrada sustancialmente más cara a fin de ver un espectáculo que no tiene precedentes. En este sentido se sugiere orientar la estrategia fundamental, pasando a focalizar en alternativas en lugar de competidores y en no clientes en lugar de clientes. b.- La estrategia de nuevos productos se desarrolla cuando se potencia la I+D en una organización con el fin de que permita llevar a cabo políticas de lanzamiento de nuevos productos, de adaptación de procesos, de diferenciación de productos, de venta de tecnología y de independencia técnica respecto a otras empresas y países. Estrategia de diferenciación en calidad, servicio o distribución. Estrategia de nicho, que consiste en la especialización por producto, clientes o zonas geográficas. Esta estrategia consiste en crear nuevos productos para el mundo, en construir algo que no existe, en inventar satisfactores nuevos, como en su momento lo fueron el teléfono celular, el fax, la Internet, las agendas palm, etcétera. Las decisiones estratégicas que pueden acompañar la estrategia de nuevo producto son (Hax, A. & Majluf, N., 1996): Estrategia de alta penetración. El producto nuevo se lanza a un precio elevado con el propósito de recobrar el beneficio bruto de cada unidad. Al mismo tiempo, se gastará mucho en promoción con la finalidad de convencer o atraer al mercado sobre los beneficios y excelencias del producto, no importando su alto precio. La promoción facilitará o acelerará la penetración del producto en el mercado; esta decisión estratégica se explica con las siguientes suposiciones: el mercado potencial no conoce el producto; quienes se enteran del nuevo producto, están impacientes por comprarlo, lo hacen al precio establecido; la organización tendrá que crear la preferencia de marca.
32
Estrategia de penetración selectiva. Consiste en lanzar el nuevo producto a un precio elevado y con escasa promoción. El propósito es recuperar la mayor cantidad de beneficios por unidad y mantener bajos los gastos de la mercadotecnia; de esta manera se espera percibir más utilidades. Esta decisión estratégica se explica con base en los siguientes puntos: el mercado es de proporciones relativamente limitadas y los que deseen el producto lo pagarán a precio alto. Estrategia de penetración ambiciosa. Consiste en lanzar un producto a bajo precio con una fuerte promoción, intentándose con ello un rápido posicionamiento en el mercado y, por ende, mayor participación del mismo. Esta decisión estratégica se explica por las siguientes circunstancias: el mercado es grande; el mercado desconoce el producto; el consumidor es en general más sensible a los precios; los costos de elaboración por unidad disminuyen con la escala de producción y la experiencia de producción acumulada. Estrategia de baja penetración. Se lanza el producto a un precio bajo y con poca promoción para estimular la aceptación rápida en el mercado y, al mismo tiempo, mantener bajos los costos de promoción para percibir una utilidad mayor. Esta decisión estratégica supone lo siguiente: el mercado es grande y es sensible a los precios. c.- La estrategia de “nuevos mercados” donde el desafío consiste en identificar exitosamente entre la infinidad de posibilidades existentes, una oportunidad comercial convincente (Saavedra, O., Saavedra, D. & Torres, A., 2012). Todas las industrias están sujetas al efecto de tendencias externas que afectan su negocio a través del tiempo (ver, por ejemplo, el surgimiento de Internet, el movimiento global a favor de la protección del medio ambiente o responsabilidad social). Hay que permitirse mirar a través de esas tendencias preguntándose como las mismas van a modificar el concepto de valor del cliente, y como van a impactar sobre el modelo de negocio de la industria puede facilitar la creación de un nuevo mercado (un ejemplo de esto es el mercado de la música digital y la aparición de Internet). Son sectores de reciente aparición, consecuencia de la revolución tecnológica. Características: estrategia de internacionalización ampliando mercados y alargando su ciclo de vida. Estrategias de crecimiento externo a través de fusiones o adquisiciones que permita aumentar el tamaño y reforzar el posicionamiento estratégico. 2.9 Métodos para el Diseño de Cuadro de Mando Integral El cuadro de mando integral (CMI) fue creado por R. Kaplan y D. Norton (Kaplan, R., & Norton, D., 1993), (Kaplan, R., & Norton, D., 2004), y es un instrumento para apoyar a los directivos en el trabajo con sus objetivos y los medios para lograrlos. Para ello plantearon cuatro perspectivas básicas: 33
financiera, del cliente, de procesos internos y de crecimiento y aprendizaje (Kaplan, R., & Norton, D., 1993), (Kaplan, R., & Norton, D., 2004). Sin embargo, éstas pueden modificarse de acuerdo a las necesidades de cada organización, manteniendo el equilibrio entre las perspectivas que representen al modelo de negocio. Además, plantean la necesidad de establecer metas creíbles y perseguir la mejora continua en la planificación estratégica y en el mejoramiento operativo de las organizaciones. Esta metodología de sistema de control es el vínculo entre la planificación estratégica, que es la etapa del “pensar” (proceso de decidir anticipadamente qué se hará en el futuro y de qué manera. Selección de los objetivos, las estrategias y las acciones para lograrlos) en el proceso de dirección estratégica y la etapa del “hacer” (son las actividades que se deben desarrollar para lograr los objetivos declarados y comprometidos, este conjunto de actividades conforman los proyectos y el plan de acción de la organización. Este plan operativo interrelaciona operativamente la misión, los objetivos estratégicos, las estrategias, los proyectos, los costos asociados, los períodos de realización y los responsables de la ejecución), es decir, el rol del cuadro de mando integral en el proceso de dirección estratégica es el engranaje entre la visión estratégica de la organización y el plan de acción (Saavedra, O. & Kristjanpoller, W., 2012). Esta herramienta se apoya fuertemente sobre la base de indicadores cuyos valores representan un fenómeno o situación dada, lo que permite trazar políticas correctivas o proactivas a la administración, de tal forma de adoptar e implementar las mejores prácticas, realizando una revisión periódica del estado de los indicadores y con ello confirmar los avances obtenidos por las distintas áreas de la organización, en el logro de los objetivos estratégicos para alcanzar un nivel de superioridad o ventaja competitiva. Los elementos necesarios para configurar adecuadamente un CMI, son: 1) Misión, visualización y valores. La aplicación de un CMI comienza con la definición de la misión, visualización y valores de la organización y sólo será consistente si se han conceptualizado esos elementos. 2) Perspectivas, mapas estratégicos y objetivos. Los mapas estratégicos se refieren al conjunto de objetivos estratégicos que se conectan a través de relaciones causales. Los mapas estratégicos son el aporte conceptual más importante del CMI (Kaplan, R., & Norton, D., 1993), (Kaplan, R., & Norton, D., 2004). Ayudan a entender la coherencia entre los objetivos estratégicos y permiten visualizar de manera sencilla y muy gráfica la estrategia de la organización. Las perspectivas sirven para clasificar los objetivos permitiendo equilibrar la información y disponer de varias perspectivas claras de información. Mediante las perspectivas se obtiene una visión global de la unidad y mediante los indicadores asignados a cada perspectiva se concretan 34
los resultados de los objetivos a conseguir. Las perspectivas del cuadro de mando se describen a continuación y se representan esquemáticamente en las figuras 14 y 15. 2.10 Caso: Dirección Estratégica en Organizaciones sin Fines de Lucro. En este caso se presenta una aplicación de un modelo de control de gestión a un departamento académico de una universidad (Saavedra, O. & Kristjanpoller, W., 2012). Se sabe que las universidades que participan en el sistema de educación superior en Chile, desarrollan sus actividades de docencia, investigación, extensión y cultura, en un ambiente muy competitivo; en estas circunstancias para lograr su viabilidad en el largo plazo, algunas han definido cómo estrategia fundamental una dirección sustentada en unidades estratégicas de negocios, UEN. El cuadro de mando integral, CMI, para estas organizaciones puede parecer muy similar a los que se desarrollan en organizaciones con fines de lucro, a pesar que enfatizan un papel aun más fuerte de los usuarios y empleados a la hora de especificar sus objetivos e indicadores. En estas organizaciones, el CMI proporciona la razón principal de su existencia (servir a los usuarios, y no únicamente manteniendo el gasto dentro de los límites presupuestarios), y comunicar a la sociedad y a los empleados internos los resultados y los inductores de actuación por medio de los cuales la organización conseguirá alcanzar su misión y lineamientos estratégicos. Por esta razón, se incorpora en el modelo inicial una quinta perspectiva o dimensión, fundamentada en principios de la Neurociencia –la cual ha sido una disciplina científica que ha tomado un auge relevante en los últimos años-. El objetivo fundamental de esta propuesta fue aplicar el cuadro de mando integral en una unidad académica para promover la auto-evaluación, la autoregulación en la gestión, el pensamiento estratégico y el mejoramiento continuo, con el apoyo de tecnologías de la información (Saavedra, O. & Kristjanpoller, W., 2012). Las organizaciones sin ánimo de lucro, como su orientación y nombre lo indican, no están destinadas a obtener una ganancia monetaria, sino al logro de una misión. Obviamente, para su subsistencia y para su operación, requieren mantener un objetivo de buen rendimiento financiero en el largo plazo, porque el mal uso de presupuestos o la falta de recursos financieros pueden desembocar en una baja en la moral o en la desaparición de la organización. Sin embargo, la disponibilidad y el uso adecuado de los fondos financieros recaudados o asignados a la organización, es uno de sus indicadores de éxito, pero de ninguna manera "miden" su razón de ser. Para estas organizaciones, la satisfacción de los usuarios (sea este un sector de la comunidad, un estado, un país o el mundo), es el fin último que debe reflejar el éxito de estas organizaciones, y probablemente sea también, al menos en parte, el proveedor de los fondos (aportes, donaciones).
35
FIG. 14: MAPA ESTRATÉGICO, CASO ACADÉMICO.
Los cinco aspectos fundamentales de la quinta perspectiva tienen como denominador común que todos estos son fundamentales para las personas en las organizaciones, incrementan la concentración, la productividad, la motivación, el liderazgo, el empoderamiento, etc. Se debe lograr crear una “comunidad de talentos”, de modo de atraer, desarrollar, motivar, comprender y retener la mejor dotación de ellos. Permitir el desarrollo de carrera y capacitación del personal. Así entonces se da cuenta de forma inequívoca la conexión del personal con la estrategia fundamental de la organización (Saavedra, O. & Kristjanpoller, W., 2012).
36
FIG. 15: TABLERO DE OBJETIVOS ESTRATÉGICOS E INDICADORES DE GESTIÓN EN DOCENCIA.
Para soportar tecnológicamente el CMI es necesario un pequeño data warehouse, para un determinado número de usuarios, en un área estratégica específica de la organización. Es un subconjunto de datos internos y externos de la organización para un propósito concreto. Para construir tal sistema se requiere un “modelo multidimensional”, que es el modo óptimo de organizar los datos en los sistemas de BI, y puede hacerse mediante bases de datos relacionales (ROLAP), o utilizando bases de datos multidimensionales (MOLAP). Una base de datos con “modelo multidimensional” o “cubo” es una base de datos que tiene una estructura adecuada para resolver consultas analíticas. Se trata de modelos sencillos que aseguran unos buenos tiempos de respuesta, y que se corresponden bastante con el lenguaje de negocio de los directivos de una organización. Las herramientas de BI se conectan al “modelo multidimensional” del data warehouse. En el diseño del “modelo multidimensional” se utiliza un modelo conceptual con estructura en estrella o una estructura en copo de nieve. Los elementos en estos modelos conceptuales son denominados hechos o medidas (los valores almacenados en el cubo) y las dimensiones (corresponden,
37
normalmente a valores en los ejes del cubo) son normalmente variables descriptivas con alguna escala.
FIG. 16: ESQUEMA EN ESTRELLA, CASO ACADÉMICO.
El CMI proporciona a las organizaciones un instrumento para respaldar la dirección estratégica, transforma los objetivos estratégicos en un conjunto de medidas de rendimiento posibles de controlar periódicamente. Es un método estructurado para seleccionar los indicadores de gestión que guían la dirección en el corto y largo plazo, al combinar indicadores financieros y no financieros, y permite adelantar tendencias y realizar una política estratégica proactiva. Las iniciativas estratégicas en el tablero de control. Son las acciones o proyectos en las que la organización se va a centrar para la consecución de los objetivos estratégicos. Es clave priorizar las iniciativas en función de su impacto y contribución a los objetivos estratégicos.
38
FIG. 17: TABLERO DE CONTROL E INICIATIVAS ESTRATÉGICAS, CASO EMPRESA DE TRANSPORTE.
Un proyecto es la búsqueda de una solución inteligente, segura, eficiente, “rentable” y con un riesgo controlado, al planteamiento de una oportunidad estratégica, establecida en un objetivo estratégico en el tablero de control. Para cada uno de los proyectos o acciones se realiza un estudio de prefactibilidad, donde se hace una investigación acabada de las variables que influyen en el proyecto y que permitan fortalecer la conveniencia de éste. Estudios Mercado
Fase de prefactibilidad del proyecto Investigación de modelo de negocios y mercados. Estudio procesos, unidad productora. Estudio de regulaciones y leyes. Estudio organizacional, proceso administrativo. Construcción flujos de caja del proyecto. Evaluación de indicadores financieros y análisis de sensibilidad.
Técnico Tributario, legal y ambiental Administrativo y organizacional Económico y financiero
FIG. 18: ESTUDIOS PARA LA PREPARACIÓN Y EVALUACIÓN DE UN PROYECTO.
39
CAPÍTULO 3: Regresión Múltiple Gran parte de los análisis econométricos comienzan con la siguiente premisa: Y y X son dos variables que representan a una población. Se está interesado en “explicar Y en términos de X” o “estudiar como varía Y con los cambios de X”. Estas variables pueden ser de diferentes índoles, como Y puede ser la producción de manzanas y X la cantidad de fertilizante o Y el número de robos frente a X el número de personal de seguridad (Wooldridge, 2006). Cuando se crea un modelo que explique Y en términos de X, aparecen varios problemas. En primer lugar, dado que nunca se da una relación exacta entre dos variables, ¿cómo permitir que otros factores afecten a y? En segundo lugar, ¿cuál es la relación funcional existente entre Y e X?
Y
-3,00
-2,50
-2,00
-1,50
-1,00
-0,50
0,00
0,50
1,00
X FIG. 19: EJEMPLO GRÁFICO, REGRESIÓN LINEAL
Se puede resolver estas interrogantes estableciendo una ecuación que relaciona Y y X. Una forma simple sería:
Esta ecuación es lo que se llama modelo de regresión lineal simple. Las variables Y y X tienen diferentes nombres que se emplean indistintamente (Gujarati, 2004):
Y: Variable dependiente, variable explicada, variable de respuesta, variable predicha o de regresando.
X: Variable independiente, variable explicativa, variable de control, variable predictor o regresor.
La variable ε, denominada término de error o perturbación en la relación, representa factores distintos a X que afectan a Y. o parámetro de la 40
pendiente cambio que tendrá Y por cada unidad que cambie X. El término constante se emplea en muchos casos, pero generalmente no es esencial para el análisis. Cuando se habla de varias variables se dice que es una regresión múltiple y sería de la siguiente forma (Gujarati, 2004):
Donde p es el número de parámetros independientes a tener en cuenta en la regresión. Los modelos de regresión lineal son los modelos en que la variable predictora X, la variable respuesta Y y los parámetros β son lineales. Lo cual se puede presentar como:
Donde β0 es la intersección o término "constante", las otras son los parámetros respectivos a cada variable independiente, y p es el número de parámetros independientes a tener en cuenta en la regresión. Las variables en cuestión deben ser cuantitativas. Es posible introducir en el modelo variables cualitativas o categóricas, luego de escribirlas y dejarlas expresadas como variables dicotómicas (binarias). En el caso de que los datos no sean la población y solo sean una muestra, estos se escriben ̂ ̂ ̂ ̂ . Se hace esta diferencia ya que estos son estimadores de los valores poblacionales. 3.1 Supuestos para el Cálculo de una Regresión Lineal Para el cálculo de una regresión lineal, sea simple o múltiple, es necesario hacer una serie de hipótesis simplificatorias. Si estas hipótesis se cumplen cualquiera de los métodos que se explican en este capítulo puede ser usada para calcular los estimadores (Gujarati, 2004), (Reguera, 2000). 1. Hipótesis de linealidad en los parámetros. Establece la linealidad en los parámetros en la relación entre la variable endógena y las exógenas.
Ct 1 2Yt t No hay que confundir esta hipótesis de linealidad con la linealidad entre las variables. Por ejemplo, en las relaciones entre Y y X que se dan a continuación, sólo la primera es formalmente lineal. Sin embargo, cumplen la hipótesis de linealidad en los parámetros las tres ecuaciones:
41
y 1 2 x y 1 2e x
y 1 2 ln x En determinadas relaciones económicas no se cumple la hipótesis de linealidad en los coeficientes. El ejemplo clásico de una función que no cumple con la linealidad de los parámetros es la función de producción de tipo Cobb-Douglas, donde se representa la función de producción de la empresa, como una relación entre la variable trabajo y la variable stock de capital:
Y AK L 2. Hipótesis de especificación correcta. Esta hipótesis supone que las variables explicativas, o las X del modelo, son aquellas variables relevantes que explican el comportamiento de la variable endógena o Y. No existe alguna variable exógena que no explique nada de la variable endógena; es decir, que no hay X que no aporte al modelo. En otras palabras, el modelo está bien planteado o especificado. Esta hipótesis supone aceptar en la práctica dos cosas no siempre ciertas (Wooldridge, 2006): Aceptar que siempre hay una teoría detrás que me permite saber cuáles son las variables relevantes en cada modelo. Aceptar que sobre estas variables dispongo siempre de información muestral adecuada. 3. Hipótesis de grados de libertad positivos. Los grados de libertad de un modelo se definen como la diferencia entre el número de datos (n) y el número de variables explicativas (p). Es decir, . Esta hipótesis supone que, como mínimo, es necesario disponer de tantos datos como parámetros a estimar. No obstante, es preferible siempre disponer de más datos que parámetros a estimar. 4. Hipótesis de parámetros constantes. Esta hipótesis supone que los parámetros son constantes en el tiempo. 5. Hipótesis de independencia lineal entre las variables explicativas. Esta hipótesis implica que cada variable explicativa contiene información adicional sobre la endógena que no está contenida en otras. Si hubiera información repetida, habría variables explicativas dependientes linealmente de otras. Formalmente, se puede resumir la información muestral sobre las variables explicativas en una matriz, con la siguiente estructura:
42
x11 x n1
x1k xnk
Donde cada columna recoge los datos asociados a cada variable. El hecho de que cada columna sea linealmente independiente de las otras implica que el rango de la matriz X es completo, es decir, igual al número de variables (n). Si alguna variable es linealmente dependiente de otra, se dice que existe un problema de multicolinealidad perfecta. 6. Hipótesis de regresores no estocásticos. Esta hipótesis implica que los datos de las variables explicativas son fijos en muestras repetidas. Existen tres situaciones en econometría donde no es posible mantener esta hipótesis: Modelos de ecuaciones simultáneas. Por ejemplo, un modelo de demanda y de oferta de un bien que se intercambia en un mercado competitivo en equilibrio, se puede escribir:
qtd a bpt 1t pt c dqto 2t qtd qto , t 1, 2,
,n
Donde se observa una relación bidireccional entre el precio (p) y la cantidad intercambiada (q), de forma que el precio es una variable exógena en la ecuación de demanda y pasa a ser la variable endógena en la ecuación de oferta y por tanto, esto hace que sea un regresor estocástico. Modelos dinámicos en los que aparecen como regresores sucesivos retardos de la variable endógena. Por ejemplo, si en la relación entre consumo y renta se supone un modelo dinámico como:
Ct 1 2Ct 1 3Yt t donde el propio modelo indica que el consumo retardado es un regresor estocástico al depender de un error aleatorio. Modelos con errores de medida en las variables explicativas. Bajo la hipótesis de renta permanente de Friedman, el consumo sólo depende del componente permanente de la renta ( Yt P ):
Ct bYt P t 43
Yt Yt P YtT donde el componente transitorio ( Yt T ) o las desviaciones aleatorias alrededor de la renta media de un agente no es observable. Por tanto, la renta permanente ( Yt P ) es un regresor estocástico, ya que Yt P Yt YtT . 7. Hipótesis referentes a las perturbaciones aleatorias del modelo o hipótesis de Gauss-Markov. El término de error satisface las siguientes hipótesis: Esperanza nula en todo instante de tiempo: Ya que es tratado como la suma de muchos efectos individuales sobre la variable endógena o Y, donde el signo de cada uno es desconocido, no existe ninguna razón para esperar cualquier valor distinto de cero. Matemáticamente (Gujarati, 2004):
Una situación en la que se incumple esta hipótesis es cuando, a su vez, se incumple otra, como es omitir en el modelo una variable relevante. Varianza constante (homocedasticidad): La homocedasticidad es una propiedad fundamental del modelo de regresión lineal general y está dentro de sus supuestos clásicos básicos. Se dice que existe homocedasticidad cuando la varianza de los errores estocásticos de la regresión es la misma para cada observación i (de 1 a n observaciones), es decir: (
)
Donde es un escalar constante para toda i. Lo que significaría que habría una distribución de probabilidad de idéntica amplitud para cada variable aleatoria. Esta cualidad es necesaria, según el Teorema de Gauss-Markov, para que en un modelo los coeficientes estimados sean los mejores o eficientes, lineales e insesgados. (Gujarati, 2004)
44
FIG. 20: DISTRIBUCIÓN HOMOCEDÁSTICA (FUENTE: (GUJARATI, 2004)).
FIG. 21: DISTRIBUCIÓN HETEROCEDÁSTICA (FUENTE: (GUJARATI, 2004)).
Ausencia de autocorrelación en todo instante de tiempo. Si hay autocorrelación, el error en un momento del tiempo ayudaría a predecir el error en un momento posterior y los errores tendrían inercia. Si no hay autocorrelación, la historia pasada no ayuda a predecir el comportamiento futuro y los errores son completamente aleatorios e imprevisibles. Es muy frecuente el incumplimiento de esta hipótesis en modelos donde se usan datos de series temporales. Estas restricciones se imponen para exigir “un buen comportamiento” a las variables, aunque también hay razones técnicas que nos obligan a hacer estas hipótesis, para así poder hacer los cálculos de los estimadores por los métodos que se presentarán más adelante. Esto se puede ver en el cálculo de su media y varianza del error. Teniendo n variables aleatorias, tendremos (1, 2 , n ) : Media: Sería un vector de n medias, E ( ) .
1 1 E . = . n n 45
Matriz de varianzas y covarianzas: Sería una matriz que recoge las varianzas de cada variable en la diagonal principal y las covarianzas entre una perturbación y otra diferente fuera de la diagonal. Es simétrica, definida positiva y de tamaño n n . var(1 ) cov(1 2 ) cov( 21 ) var( 2 ) var( ) . . cov( n1 ) cov( n 2 )
. cov(1 n ) E (12 ) E (1 2 ) . cov( 2 n ) E ( 21 ) E ( 22 ) . . . . . var( n ) E ( n1 ) E ( 2 n )
Los elementos diferentes de dicha matriz son
. E (1 n ) . E ( 2 n ) . . 2 . E ( n )
n(n 1) . No obstante, si la 2
muestra disponible es de tamaño n , ya no tenemos grados de libertad para caracterizar el término de error, ya que habría que estimar medias y varianzas y covarianzas distintas. Las hipótesis hacen que el vector de medias sea nulo y la matriz de varianza-covarianza una matriz diagonal, en donde sólo habría que estimar la varianza constante, ya que por ausencia de autocorrelación todas las covarianzas son cero. 3.2 Notación Matricial del Modelo Lineal General La información asociada a la variable endógena se almacena en un vector columna Y de tamaño n1 : Y= ( ) La información asociada a las variables explicativas se recoge en una matriz llamada X de tamaño: (
)
Las perturbaciones en un vector de tamaño n1 y los parámetros en un vector de tamaño p x 1:
= ( ) ;
46
=( )
El modelo lineal general (MLG) escrito en forma matricial o compacta es: ( )
(
)(
( )
)
o bien, Y =X + . Este es un sistema de n ecuaciones que se corresponde con la forma compacta de escribir el MLG. Las hipótesis sobre las perturbaciones en notación matricial son: E( ) = 0 ; var ( ) = E( T ) = 2 I, donde I es la matriz identidad 3.3 Métodos de Cálculo de los Estimadores Mínimos cuadrados ordinarios (MCO) (Gujarati, 2004), (Wooldridge, 2006). Esta es la técnica más usada para calcular los estimadores de una regresión múltiple, está en todo los programas de minería de datos, para usarlo se deben cumplir todos los supuestos nombrados anteriormente. El objetivo de esta es minimizar la suma de los cuadrados de los errores ( ). Matemáticamente sería: ∑
̂
Siendo el valor real de la variable a predecir y ̂ el valor predicho de la ̂ el error. variable e Dada la formación matricial mostrada anteriormente, Y =X + , el objetivo es, de nuevo, obtener la expresión analítica del estimador MCO de . Para ello, se define el vector de residuos ˆ de tamaño n1 que una vez conseguida una estimación del vector , se calculará como:
ˆ Y X ˆ La función objetivo minimizar la suma de cuadrados de los residuos con respecto a los p parámetros del modelo se puede escribirse como: n
min ˆt2 min ˆT ˆ min(Y X ˆ )T (Y X ˆ ) t 1
Operando: 47
min(Y T ˆ T X T )(Y X ˆ ) min(Y T Y 2ˆ T X T Y T ˆ T X T X ˆ ) Condiciones de primer orden:
ˆT ˆ 2 X T Y 2 X T X ˆ 0 ˆ donde se han tenido en cuenta los siguientes resultados sobre las derivadas matriciales:
z T w w z
zT Az 2 Az z
;
siendo z y w dos vectores de tamaño compatible y A una matriz cuadrada. La solución analítica a las condiciones de primer orden es: ̂ Este es un sistema de p ecuaciones con p incógnitas ( ˆ1 , ˆ2 ,..., ˆk ), llamado sistema de ecuaciones normales. El estimador ˆ que satisface este sistema se llama estimador por MCO. La forma más sencilla de resolver este sistema es multiplicar el mismo por la inversa de la matriz X T X de tamaño (p x p), teniendo que: ̂ En el caso de una regresión lineal simple quedaría: ̂
̂
̂ ̂
̂ ̂
∑ ∑ ̅
̂̅
Estimación por máxima verosimilitud Este es un proceso de optimización de la variable L, la cual es expresada como:
48
∏
(
)
En esta optimización se busca encontrar los estimadores y la varianza muestral (S2) tales que L sea máxima. Para hacerlo hay que seguir los siguientes pasos: 1. Aplicar logaritmo a L a fin de obtener 1 = Ln (L) 2. Derivar Ln(L) respecto a y β, igualar las derivadas a cero y resolver 2 para los estimadores y S el sistema de ecuaciones resultante. 3. Resultan los estimadores: (
)
̂
( )∑
Para usar este método se piden los mismos supuestos que en MCO agregado el de la distribución normal de los errores. (Reguera, 2000), (Gujarati, 2004). Mínimos cuadrados generalizados o ponderados Dada la existencia de autocorrelación o de heterocedasticidad en los modelos estos pueden ser calculados a través del método de los mínimos cuadrados generalizados (Gujarati, 2004). El único requisito que se mantiene es que la media de los residuales debe ser cero (Reguera, 2000). Donde los estimadores se pueden calcular como: ̂
(
)
Siendo G: ( )
[
]
Dependiendo de G como es la estructura del modelo: Si G = I (Matriz identidad) los residuales son homocedásticos e incorrelacionados. Si G es una matriz diagonal general, G = Diagonal(σ12, σ22, σ32,…, σn2) los residuales están incorrelacionados pero son heterocedásticos. Si G es una matriz simétrica general, los residuos son heterocedásticos y están correlacionados. 3.4 Evaluación del Modelo Para ver la eficiencia de un modelo de regresión lineal simple o múltiple se ocupan principalmente indicadores y dócima para ver que tan buenos son los parámetros calculados (Gujarati, 2004), (Wooldridge, 2006).
49
Análisis de varianza o tabla ANOVA (análisis de varianza) Cuando se calcula un modelo multivariante todos estos tienen un error frente a la variable verdadera, este error se puede dividir en dos tipos principalmente:
Error por la regresión (SCE): Es el error que se le atribuye a la aproximación que se hace al calcular un modelo de cierta forma. Matemáticamente es el promedio de las observaciones ( ) menos el valor calculado por la regresión ( ̂ ). Error residual (SCR): Es el error al cual no se le puede atribuir una razón. Matemáticamente es el valor real ( ) menos el valor calculado por la regresión ( ̂ ).
Siendo p el número de variables y n el número de datos, la evaluación de estos dos errores se ve en la tabla ANOVA (Gujarati, 2004), como: Regresión simple: Fuente de la Variación Regresión
Grados de libertad P
Suma de cuadrados ∑ ̂
Residual
n-p-1
∑
Total
n-1
∑
Cuadrados Medios
F
Cuadrados Medios
F
̂
Regresión múltiple: Fuente de la Variación Regresión
Grados de libertad P
Residual
n-p-1
Total
n-1
Suma de cuadrados ̅̅̅ ̅
̅̅̅ ̅
F es el estadístico de la hipótesis global de la tabla ANOVA, donde se plantea que: Ho = β1 = β2 = … = βp = 0
y
Ha = una o más βj ≠ 0
50
Se rechaza Ho si el F calculado que se distribuye en F (p; n-p-1) (Distribución F de Snedecor) es tal que:
Al no rechazar la hipótesis, se diría que lo más probable es que todos los estimadores son nulos o existe un problema en el modelo. Dócima para cada β Independiente del resultado que de la dócima del ANOVA, hay una dócima para determinar si cada β es cero o no. Bajo la estimación los βi se distribuyen normales o t de Student, si, como comúnmente pasa, no se conoce la varianza poblacional. La dócima seria: Ho: βj0= 0
Ha: βj0 ≠ 0
y | |
| √
|
j=0,1,2,…p | √
|
Cumpliéndose el estadístico, se rechaza la hipótesis nula. Bondad de ajuste Bondad de ajuste o mejor conocida como R2 es una medida que se utiliza para saber cuánto explica el modelo el valor de la variable dependiente. La bondad de ajuste viene dada por, (Wooldridge, 2006): ∑
̂
∑ Pero como R2 sobrestima el valor poblacional, se calcula el R2 Corregida.
Donde: n = tamaño de la muestra k = número de variables independientes
3.5 Diagnóstico de una Regresión
51
Como ya se vio antes, para usar las técnicas anteriormente nombradas para el cálculo de los modelos, se tienen que evitar la existencia de heteroestacidad, multicolinealidad perfecta y autocorrelación en ellos (Gujarati, 2004). A continuación se verá como identificar estos fenómenos: Heterocedasticidad: es una importante violación a los requerimientos de una estimación de parámetros por MCO o MV y uno de los supuestos a considerar en una regresión. Esta invalida los resultados, ya que hace que la estimación de los parámetros no sea eficiente, a pesar de que sigan siendo insesgados. La heteroestacidad es cuando los residuales o errores no tienen una varianza constante. El principal modo de ser detectada es por el método gráfico:
FIG. 22: GRÁFICOS DEL ERROR Y LAS VARIABLES EXÓGENAS. HOMOCEDASICIDAD Y HETEROCEDASTICIDAD.
Como se ve en la figura, al graficar los residuales puros o tipificados versus cada variable explicativa. Al haber heterocedasticidad se ve alguna tendencia o cambio en el orden de los residuos, mientras que si estos se mantienen como una franja alrededor del eje de las abscisas no hay heteroestacidad sino homoestacidad. También hay varias dócima o test (Gujarati, 2004), las más usadas son: Test de Jarque-Bera: Para verificar la normalidad de los residuos se usa el test de Jarque-Bera. La hipótesis nula nos dice que tiene una distribución normal. Pero para entender este test es bueno saber la definición de curtosis y asimetría.
Curtosis: Esta medida determina el grado de concentración que presentan los valores en la región central de la distribución. Por medio del coeficiente de curtosis, podemos identificar si existe una gran concentración de valores (leptocúrtica), una concentración normal (mesocúrtica) o una baja concentración (platicúrtica).
52
FIG. 23: TIPOS DE CURVAS SEGÚN CURTOSIS.
Para calcular el coeficiente de curtosis se utiliza la ecuación:
Donde (g2) representa el coeficiente de curtosis, (Xi) cada uno de los valores, la media de la muestra y (ni) la frecuencia de cada valor. Los resultados de esta fórmula se interpretan:
(g2 = 0) la distribución es mesocúrtica: Al igual que en la asimetría es bastante difícil encontrar un coeficiente de curtosis de cero (0), por lo que se suelen aceptar los valores cercanos (± 0.5 aprox.). (g2 > 0) la distribución es leptocúrtica. (g2 < 0) la distribución es platicúrtica.
Cuando la distribución de los datos cuenta con un coeficiente de asimetría (g1 = ±0.5) y un coeficiente de curtosis de (g2 = ±0.5), se le denomina curva normal. Este criterio es de suma importancia, ya que para la mayoría de los procedimientos de la estadística de inferencia se requiere que los datos se distribuyan normalmente (Gujarati, 2004).
Asimetría: Esta medida nos permite identificar si los datos se distribuyen de forma uniforme alrededor del punto central (media aritmética). La asimetría presenta tres estados diferentes, cada uno de los cuales define de forma concisa como están distribuidos los datos respecto al eje de asimetría. Se dice que la asimetría es positiva cuando la mayoría de los datos se encuentran por encima del valor de la media aritmética, la curva es simétrica cuando se distribuyen aproximadamente la misma cantidad de valores en ambos lados de la media y se conoce como asimetría negativa cuando la mayor cantidad de datos se aglomeran en los valores menores que la media.
53
FIG. 24: TIPOS DE CURVAS SEGÚN SIMETRÍA.
El coeficiente de asimetría, se representa mediante la ecuación matemática,
Donde (g1) representa el coeficiente de asimetría de Fisher, (Xi) cada uno de los valores, la media de la muestra y (ni) la frecuencia de cada valor. Los resultados de esta ecuación se interpretan:
(g1 = 0): Se acepta que la distribución es simétrica, es decir, existe aproximadamente la misma cantidad de valores a los dos lados de la media. Este valor es difícil de conseguir por lo que se tiende a tomar los valores que son cercanos ya sean positivos o negativos (± 0.5). (g1 > 0): La curva es asimétricamente positiva por lo que los valores se tienden a reunir más en la parte izquierda que en la derecha de la media. (g1 < 0): La curva es asimétricamente negativa por lo que los valores se tienden a reunir más en la parte derecha de la media.
Desde luego entre mayor sea el número (positivo o negativo), mayor será la distancia que separa la aglomeración de los valores con respecto a la media. Con este antecedente, Jarque y Bera desarrollaron un estadístico que evalúa en forma conjunta la hipótesis nula si el coeficiente de asimetría y curtosis toman valores de 0 y 3 respectiva y conjuntamente. H0: εt se aproxima a una distribución normal. H1: εt no se aproxima a una distribución normal. Jarque - Bera se formula:
54
T: Tamaño de muestra K: Es la curtosis S: Es la asimetría k: Número de regresores 2 T k 2 K 3 JB S 6 4
Regla de decisión:
JB (2 ;2) Para ilustrar mejor, tomaremos datos del caso que se plantea al final del capítulo. Veremos si el error no estandarizado tiene una distribución normal, según el test de Jarque Bera. En este caso tenemos: k=3 T = 25
(20,95;2) 0,1026 Nos quedaría calcular la asimetría y la curtosis, esto lo haremos con el programa SPSS:
Estadísticos Unstandardized Residual N
Válidos
25
Perdidos
1
Asimetría
,513
Error típ. de asimetría
,464
Curtosis
-1,044
Error típ. de curtosis
,902
Tenemos una asimetría negativa y una distribución platicúrtica según la curtosis.
55
FIG. 25: HISTOGRAMA EJEMPLO TEST JARQUE-BERA
Viendo el histograma podemos suponer que no es una distribución normal, pero podemos comprobarlo con el test de Jarque-Bera.
JB
2 1,044 32 15,956061 T k 2 K 3 25 3 2 S 0 , 513 6 4 6 4
JB no es menor que ( 0,95; 2) por lo tanto se refuta la hipótesis nula de que la 2
distribución es normal. Es decir, podemos asegurar que la distribución no se parece a la distribución normal.
Prueba de Goldfeld-Quandt: Este método es aplicable si se supone que la varianza es heteroscedástica, está relacionada positivamente con una de las variables explicativas en el modelo de regresión (Gujarati, 2004). Esto se puede ver más fácilmente en un modelo de dos variables:
Supóngase que
esta relacionado positivamente con
en la forma:
Donde es una constante. Esto significaría que sería proporcional al cuadrado de . Si este resulta ser el caso, es muy probable que exista heterocedasticidad en el modelo (Gujarati, 2004). Para probar esto Goldfeld y Quandt sugieren los siguientes pasos. 1.- Ordenar las observaciones de acuerdo con los valores de el más bajo.
56
. Empezando por
2.- Omítanse las c observaciones centrales, donde c se ha especificado a priori y divídanse las observaciones restantes (n-c) en dos grupos, cada uno de (n-c)/2 observaciones. 3.- Háganse regresiones por mínimo cuadrado ordinario por cada una de los grupos. Obtenga las respectivas sumas de residuales al cuadrado SRC 1 y SRC2 siendo la primera de los más bajos y la segunda de los más altos. Cada uno tiene: grados de libertad. Donde k es el número de parámetros que deben estimarse, incluyendo la intersección. En el caso de una regresión simple serían 2. 4.- Calcular la razón:
Si las esta normalmente distribuida se supone que sigue la distribución F con un número de grados de libertad en el numerador y denominador iguales a (n-c-2k)/2. En una aplicación si el calculado es superior al F critico al nivel de significancia seleccionado, se puede rechazar la hipótesis de homocedasticidad, es decir, es muy probable que halla heterocedasticidad. Sobre el valor de c, no hay un número preciso, pero se sugiere en una regresión lineal simple, si la muestra es alrededor de 30 que sea 8 y alrededor de 60 sea 16 (Gujarati, 2004). Prueba general de heterocedasticidad de White: A diferencia de la anterior prueba (Goldfeld-Quandt) que requiere ordenar las observaciones respecto a la variable X que ocasiona heterocedasticidad, White no se apoya en el supuesto de normalidad (Gujarati, 2004). En un modelo de regresión de tres:
Para realidad la prueba de White se procede a los siguientes pasos: 1.- Estime la regresión por mínimo cuadrado ordinario y obtenga los residuos. 2.- Efectúe la siguiente regresión, llamada generalmente en la literatura auxiliar (Gujarati, 2004):
Es decir, con los residuos al cuadrado se hace una regresión sobre las variables X originales pero sobre sus productos cruzados (recordar que el anterior 57
ejemplo era con dos variables). Obténgase el R2 de este regresión (auxiliar) (Gujarati, 2004). 3.- Bajo la hipótesis nula de que no hay heterocedasticidad, demostrar que el tamaño de la muestra (n) multiplicado por el R 2 obtenido en la regresión auxiliar sigue la distribución ji-cuadrada con grados de libertad igual al número de regresores (excluyendo el término constante) de la regresión auxiliar:
4.- Si el valor ji cuadrada obtenido anteriormente excede al valor de la ji cuadrado al nivel de significancia seleccionado, la conclusión es heterocedasticidad sino homocedasticidad (Gujarati, 2004), (Wooldridge, 2006). También hay otras dócima sobre las que no se profundizará, entre ellas:
Dócima de igualdad de varianzas de Bartlett. Dócima de correlación. Dócima de Park. Dócima de Glejser. Etc.
Multicolinealidad: Dos variables tienen colinealidad si una combinación lineal de todas ellas vale cero, en circunstancias que no todos los coeficientes de las variables son nulos.
Si algún , indica colinealidad perfecta o matemática. Es decir, la variable Xi se puede escribir como una combinación lineal de las anteriores. Al formar un modelo se debe evitar la colinealidad perfecta; si ocurre, hay que eliminar la variable que la produce. La multicolonealidad aumenta la varianza de los estimadores MCO, lo cual trae como consecuencia: Las dócima de t-student para los β son insensibles y las observaciones se tornan influyentes. Para poder detectar la multicolonealidad hay muchas formas, entre ellas:
Calcular correlaciones (R 2) simples entre variables. Si hay correlaciones altas indican colinealidad. Requisito suficiente pero no necesario. Calcular correlaciones parciales, si hay ciertas correlaciones que son altas y otras bajas, es símbolo de colinealidad entre ellas. Encontrar R2 alto con pocas β significativas. Usar el indicador Cp de Mallows: Sean p variables predictoras más el intercepto (p + 1 en total), Cp es igual a: 58
Siendo SCE la suma de cuadrados del error, CME los cuadrados medios del error. Para interpretar este estadístico, se define el error cuadrático medio de predicción para los puntos observados cuando se utiliza un modelo con p parámetros como ∑
(̂ )
̂
Siendo un buen criterio de selección del modelo el de elegir el modelo que tenga el ECMPp mínimo. Este criterio es equivalente a minimizar el estadístico Cp de Mallows. Además puede probarse que en los modelos sin sesgo Cp = p. Por tanto, aquellos subconjuntos de j variables explicativas que tengan un Cp p = j + 1, son “buenos”. Normalmente se construirá una gráfica de Cp para los diferentes subconjuntos que se quieren analizar frente a p. Y se considerarán buenos los subconjuntos que tienen Cp pequeño y además están por debajo de la diagonal Cp = p.
El último método consiste en calcular el factor de incremento de la varianza (FIV) de cada una de las variables explicativas. Se calcula de la siguiente manera: ̂ ̂
donde (̂ )
̅
∑
es la varianza óptima en el caso de ausencia de correlación entre los estimadores. (̂)
̅
∑
Es la varianza de un estimador cualquiera y el coeficiente de determinación de la regresión entre Xj y el resto de las variables explicativas del modelo 59
inicial. Valores del FIVj > 5 están asociados a > 0,8 en cuyo caso se puede considerar que las consecuencias sobre el MRLM ya pueden ser relevantes.
3.6 Autocorrelación La autocorrelación es la dependencia de un valor de su anterior valor dado si estos son ordenados. Si esto ocurre al nivel de los residuales se violan los requisitos para estimar un modelo por MCO o por MV. La autocorrelación invalida las dócima global de los estimadores (F) y la particular de cada estimador (t), (Wooldridge, 2006). Para detectar la autocorrelación de primer orden AR (1) existe la dócima de Durbin y Watson (Gujarati, 2004). En la cual es estadígrafo sería: ∑ ∑ Teniendo esto se entra a las tablas de DW y dependiendo la muestra se pueden sacar los valores Di y Ds, los cuales sirven para formas las regiones criticas de la forma que se ve en la figura:
FIG. 26: TEST DE DURBIN Y WATSON
En la figura, donde dice “???”, es que las zonas no son concluyentes sobre la autocorrelación. Prueba de rachas: El contraste de rachas permite verificar la hipótesis nula de que la muestra es aleatoria, es decir, si las sucesivas observaciones son independientes. Este contraste se basa en el número de rachas que presenta una muestra. Una racha se define como una secuencia de valores muéstrales con una característica común precedida y seguida por valores que no presentan esa característica. Así, se considera una racha la secuencia de k valores consecutivos superiores o iguales a la media muestral (o a la mediana o a la moda, o a cualquier otro valor de corte) siempre que estén precedidos y seguidos por valores inferiores a la media muestral (o a la mediana o a la moda, o a cualquier otro valor de corte).
60
El número total de rachas en una muestra proporciona un indicio de si hay o no aleatoriedad en la muestra. Un número reducido de rachas (el caso extremo es 2) es indicio de que las observaciones no se han extraído de forma aleatoria, los elementos de la primera racha proceden de una población con una determinada característica (valores mayores o menores al punto de corte) mientras que los de la segunda proceden de otra población. De forma idéntica un número excesivo de rachas puede ser también indicio de no aleatoriedad de la muestra. Si la muestra es suficientemente grande y la hipótesis de aleatoriedad es cierta, la distribución muestral del número de rachas, R, puede aproximarse mediante una distribución normal de parámetros:
√ donde n1 es el número de elementos de una clase, n2 es el número de elementos de la otra clase y n es el número total de observaciones. Si este test da que no es aleatoria la muestra, se puede intuir autocorrelación. 3.7 Análisis de Residuos Tras los anteriores análisis, si es que el modelo no se puede llevar se pueden ver maneras de arreglarlo o ver por qué ocurre. Entre ellos está la búsqueda de variables atípicas e influyentes. Las variables atípicas son las que el residuo tipificado es mayor a 3 (en valor absoluto) y las variables influyentes son las que al ser sacadas cambian completamente el modelo (Gujarati, 2004). Para ver esto se hace un análisis de residuos, de los cuales existen:
Residuos no tipificados: son los residuos ordinarios del modelo de regresión. Residuos tipificados: tienen media cero y varianza próxima a 1. Un sujeto con un residuo tipificado grande se puede considerar atípico. Se suelen considerar atípicos los sujetos con residuos tipificados absolutos superiores a 3. Residuos estandarizados: de un sujeto se calcula igual que el anterior sólo que de la varianza residual se elimina el residuo del sujeto correspondiente. Los residuos estandarizados siguen una distribución t-student con N-p-2 grados de libertad. Son observaciones atípicas las correspondientes a residuos estandarizados significativos.
61
Los residuos anteriores nos permiten identificar observaciones alejadas lo cual no significa que sean observaciones influyentes. Que una observación sea atípica no conlleva necesariamente que sea influyente. Observaciones influyentes son aquellas que tienen un peso muy grande en los coeficientes del modelo. Se sabe si una observación es influyente comparando las estimaciones obtenidas cuando se le incluye en la muestra con las obtenidas cuando se le excluye. Varios son los estadísticos que miden la influencia de cada sujeto sobre los estadísticos. Se han seleccionado las siguientes distancias:
Distancia de Mahalanobis: es una medida de influencia a priori, mide la distancia de cada caso respecto a las medias de las variables independientes. En regresión simple es el cuadrado de la puntuación típica de cada caso. No debe superar al valor de chi-cuadrado para p grados de libertad y un nivel de significación de 0,001. Distancia de Cook es una medida de influencia a posteriori. La influencia se mide por la diferencia en los coeficientes de la ecuación calculados con la muestra completa y con la muestra menos la observación en cuestión. Valores de la distancia (D) mayores que 1 o mayores que F para un α = .50 y con p+ l y N- p- 1 grados de libertad se pueden considerar influyentes.
Se cree que con estas nuevas variables, se obtiene información suficiente para evaluar casos atípicos y/o influyentes.
3.8 Caso modelo de regresión lineal del PIB El propósito de este caso es obtener un modelo de regresión lineal múltiple que represente la relación que pueda existir entre la variable dependiente producto interno bruto PIB, con otras variables de la economía, en este caso se considera el precio del cobre, el IPC y el desempleo. Para el modelamiento y análisis de los datos se utilizará el software SPSS versión 17. Se puede observar cómo trabajar con este software en el anexo 1. Definición de las variables y análisis inicial: Primero, hay que especificar adecuadamente las variables: Variable dependiente: PIB (Unidad: US$) Fuente: Banco Mundial El producto interno bruto “PIB” (Samuelson, 2001) se mide sumando todas las demandas finales de bienes y servicios en un período dado. Existen cuatro grandes áreas de gasto: el consumo de las familias (C), la inversión en nuevo capital (I), el consumo del gobierno (G) y los resultados netos del comercio exterior (exportaciones (X) – importaciones (M)):
62
Variables independientes consideradas para el modelo: 1. IPC (Unidad: Promedio anual diciembre 1998 = 100) Fuente: Banco Central de Chile. 2. Precio del cobre (centavos de dólar la libra) Fuente: Cochilco. La Comisión Chilena del Cobre (Cochilco) es un organismo técnico y altamente especializado, creado en 1976. Desde esa fecha asesora al gobierno en materias relacionadas con la producción de cobre y sus subproductos. 3. Desocupados. Fuente: INE, Instituto Nacional de Estadísticas de Chile. Graficaremos la variable dependiente con las variables independientes.
63
Se puede observar en todos los casos, menos en el de desocupados, una tendencia. Eso puede significar que esta variable, presente algún problema o que no sea significativa en el modelo. Modelo saturado: Primero se hará el modelo con todas las variables.
Resumen del modelob Error típ. de la Modelo
R
R cuadrado a
1
,986
R cuadrado corregida
,972
estimación
,968
Durbin-Watson
1,12749E10
,898
a. Variables predictoras: (Constante), Desocupados, Cobre, IPC b. Variable dependiente: PIB
Coeficientes
Modelo 1
(Constante)
a
Coeficientes no
Coeficientes
Estadísticos de
estandarizados
tipificados
colinealidad
B
Error típ.
Beta
-8,097E10
1,165E10
IPC
9,297E8
9,103E7
Cobre
3,782E8
Desocupados
3,462E7
t
Sig.
Tolerancia
FIV
-6,948
,000
,578
10,214
,000
,396
2,523
2,983E7
,531
12,680
,000
,725
1,380
3,143E7
,056
1,102
,283
,500
2,000
a. Variable dependiente: PIB
64
Diagnósticos de colinealidad
a
Proporciones de la varianza
Índice de Modelo
Dimensión
Autovalores
condición
(Constante)
IPC
Cobre
Desocupados
1
1
3,789
1,000
,00
,00
,01
,00
2
,120
5,610
,04
,00
,74
,03
3
,078
6,986
,14
,50
,10
,00
4
,013
16,826
,82
,50
,15
,97
a. Variable dependiente: PIB
De la regresión anterior se puede apreciar que el coeficiente de determinación R2 de 0,972, lo cual es muy alto, y si además se observa la tabla ANOVA, se puede deducir que las variables predictoras explican de gran manera la variable PIB. Observando los valores del FIV, también se puede decir que no existe multicolinealidad, algo que se afirma en el índice de condición de la colinealidad, ya que ninguno es mayor a 30, como se dice en el anexo 1. El primer problema es la dócima t de la variable “desocupados”. Tomando una significancia que no pueda ser mayor que 0,05 los estimadores calculados para esta variable no son significativos. Dado el análisis gráfico anterior, lo más aconsejable sería sacar la variable, ya que es muy probable que no afecte al modelo. El segundo problema que se observa es la autocorrelación. Dado el criterio entregado en el anexo 1, la dócima de Durbin-Watson da autocorrelación positiva. Entre
Correlación
0 - 1,078
Positiva
1,078 - 1,66
Incierta
1,66 - 2,34
Nula
2,34 - 2,922
Incierta
2,922 - 4
Negativa
Si es que quedara en una zona incierta, habría que aplicar otro test, como lo es el test de rachas. El siguiente paso será sacar la variable “desocupados” y hacer de nuevo un modelo con las variable que quedan, para ver si es que se elimina el problema de la autocorrelación también.
65
Resumen del modelo
Modelo
R
R cuadrado
Error típica de la
corregida
estimación
R cuadrado a
1
,985
b
,971
,968
Durbin-Watson
1,13272E10
,885
a. Variables predictoras: (Constante), Cobre, IPC b. Variable dependiente: PIB
b
ANOVA Suma de Modelo 1
cuadrados
Gl
Media cuadrática
Regresión
9,710E22
2
4,855E22
Residual
2,951E21
23
1,283E20
Total
1,001E23
25
F
Sig. a
378,398
,000
a. Variables predictoras: (Constante), Cobre, IPC b. Variable dependiente: PIB
a
Coeficientes
Modelo 1
(Constante)
Coeficientes no
Coeficientes
Estadísticos de
estandarizados
tipificados
colinealidad
B
Error típ.
-7,010E10
6,229E9
IPC
9,993E8
6,582E7
Cobre
3,706E8
2,916E7
Beta
a. Variable dependiente: PIB
66
T
Sig.
Tolerancia
FIV
-11,253
,000
,622
15,184
,000
,765
1,307
,520
12,710
,000
,765
1,307
Diagnósticos de colinealidad
a
Proporciones de la varianza
Dimensió Modelo
n
Autovalores
Índice de condición
(Constante)
IPC
Cobre
1
1
2,827
1,000
,01
,01
,02
2
,095
5,447
,47
,04
,88
3
,078
6,035
,51
,94
,10
a. Variable dependiente: PIB
No se eliminó el problema de la autocorrelación, pero ahora todas las variables son significativas. Al existir autocorrelación en el modelo, los coeficientes siguen siendo insesgados, pero dejan de ser eficientes. Por lo que, para obtener nuevos coeficientes insesgados, y además eficientes, se tendrá que utilizar el métodos de mínimos cuadrados ponderados (MCP). Antes de hacer la regresión por MCP, se analizaran los supuestos de homocedasticidad y normalidad en los errores. Esto ya que si el modelo presenta heterocedasticidad, necesitamos saber cual variables es la causante del problema, y así aplicar el método MCP para poder solucionar ese problema junto con el de autocorrelación. Y el análisis de la normalidad de los residuos no afecta en el método de MCP, pero se realizara antes para así terminar de verificar el cumplimiento de los supuestos econométricos. Análisis de heterocedasticidad: Este se llevará acabo de modo gráfico, ya que igual posteriormente se aplicará el método de MCP y, si existe heterocedasticidad, se eliminará. Pero lo que se busca es ver si los errores tienen alguna relación con alguna variable en particular, lo cual serviría para realizar de manera correcta la regresión por MCP. Para poder saber si los residuos presentan relación con alguna variable, se grafican los residuos al cuadrado con respecto a cada variable del modelo, obteniendo los siguiente gráficos.
67
De los gráficos se aprecia que los residuos no presentan ninguna clara relación con alguna de las variables, por lo que a simple vista se puede decir que el modelo no presenta heterocedasticidad. Es importante mencionar que si posteriormente no se fuese aplicar MCP, sería necesario aplicar un test más formal para ver si efectivamente el modelo presenta o no heterocedasticidad. Ya que si existiera, y se dejara la regresión actual, los estimadores serian insesgados, pero ineficientes. Y esto impediría que el modelo sea un buen predictor del PIB, sirviendo nada más para saber el comportamiento y, a groso modo, de esta variable con respecto a las variables independientes. Análisis de normalidad de los residuos Este análisis busca corroborar que los residuos se comporta de manera normal, para lo cual se grafican sus valores esperados con respecto a los estimados. Buscando que si lo errores se comportan de manera normal, el gráfico se asemeje a lo que es una línea recta. 68
A pesar de la tendencia a una línea recta, se puede ver algunas curvas. Se puede decir que hay cierto grado de heterocedasticidad. Igual comprobaremos con el test de Jarque-Bera y la dócima de Shapiro Wilk para confirmar (Gujarati, 2004), (Wooldridge, 2006). Jarque - Bera se formula: T: Tamaño de muestra K: Es la curtosis S: Es la asimetría k: Número de regresores
JB
T k 6
2 K 32 S 4
Regla de decisión:
JB (2 ;2)
69
Para ilustrar mejor, tomaremos datos del caso que se plantea al final del capítulo. Veremos si el error no estandarizado tiene una distribución normal según el test de Jarque Bera. En este caso tenemos: k=3 T = 25
(20,95;2) 0,1026 Nos quedaría calcular la asimetría y la curtosis, esto lo haremos con el programa SPSS:
Estadísticos Unstandardized Residual N
Válidos
25
Perdidos
1
Asimetría
,513
Error típ. de asimetría
,464
Curtosis
-1,044
Error típ. de curtosis
,902
Tenemos una asimetría negativa y una distribución es platicúrtica según la curtosis.
JB
2 1,044 32 15,956061 T k 2 K 3 25 3 2 S 0 , 513 6 4 6 4
JB no es menor que ( 0,95; 2) por lo tanto se refuta la hipótesis nula de que la 2
distribución es normal. Es decir, podemos asegurar que la distribución no se parece a la distribución normal. Regresión por mínimos cuadrados ponderados: Habiendo analizado todos los supuestos, se procede a realizar una regresión por medio de MCP, con el fin de poder encontrar estimadores insesgados y eficientes para cada una de las variables. Y además poder utilizar este modelo con el fin de la predicción del PIB.
70
Resumen del modelo
b,c
Error típ. de la Modelo
R
R cuadrado a
1
,981
R cuadrado corregida
,963
estimación
,959
Durbin-Watson
1,62045E10
1,107
a. Variables predictoras: (Constante), Cobre, IPC b. Variable dependiente: PIB c. Regresión de mínimos cuadrados ponderados - Ponderada por Residuos
b,c
ANOVA Modelo 1
Suma de cuadrados
Gl
Media cuadrática
F
Regresión
1,550E23
2
7,751E22
Residual
6,039E21
23
2,626E20
Total
1,611E23
25
Sig.
295,174
a
,000
a. Variables predictoras: (Constante), Cobre, IPC b. Variable dependiente: PIB c. Regresión de mínimos cuadrados ponderados - Ponderada por Residuos
Coeficientes
a,b
Coeficientes Coeficientes no estandarizados Modelo 1
(Constante)
B
Error típ.
tipificados Beta
-5,650E10
7,401E9
IPC
8,708E8
1,031E8
Cobre
3,887E8
4,678E7
Estadísticos de colinealidad t
Sig.
Tolerancia
-7,634
,000
,527
8,445
,000
,419
2,387
,518
8,309
,000
,419
2,387
a. Variable dependiente: PIB b. Regresión de mínimos cuadrados ponderados - Ponderada por Residuos
Es importante mencionar que lo que hace la regresión por MCP, es darle un peso a cada dato, dándole más peso los datos que se creen más relevantes. En este caso el peso se asigno según los residuos al cuadrado, de forma que los que tuviesen más error, se les dé menos peso para la regresión.
71
FIV
Y analizando la información que nos dan de la regresión, vemos que el modelo se comporta muy bien, explicando con un 98,1% de seguridad el comportamiento del PIB según las variables independientes. Además, se puede observar que todos los coeficientes encontrados son significativos en el modelo.
72
CAPÍTULO 4: Serie de Tiempo Una serie temporal es una secuencia ordenada de observaciones cada una de las cuales está asociada a un momento de tiempo. Ejemplos de series temporales las podemos encontrar en cualquier campo de la ciencia. En economía, cuando buscamos datos para estudiar el comportamiento de una variable económica, estos datos se presentan frecuentemente en forma de series temporales. Así, podemos pensar en series como los precios diarios de las acciones, las exportaciones mensuales, el consumo mensual, tasa de desempleo, tasa de inflación, precio del dólar, precio del cobre, los beneficios trimestrales, etc. En meteorología: cantidad de agua caída, temperatura máxima diaria, velocidad del viento (energía eólica), energía solar, etc. En geofísica: series sismológicas. En química: viscosidad de un proceso, temperatura de un proceso. En transporte: series de tráfico. Etc. Se define serie temporal o serie de tiempo como un conjunto de observaciones, datos o valores {Yt; t = 1, 2, ... n } realizadas a lo largo del tiempo (Gujarati, 2004). Típicamente, en cada instante t se tiene una única respuesta Yt y se habla de un modelo longitudinal. 4.1 Componentes de las Series de Tiempo El análisis tradicional de las serie de tiempo descansa en la idea general que una serie de tiempo se puede descomponer en términos de elementos parciales que, agregados de alguna manera, reproducen el valor correspondiente de la serie de tiempo. Estos componentes son los siguientes: Tendencia: Es el comportamiento de la variable a largo plazo, refleja el sentido de la serie de tiempo y corresponde a un modelo de regresión Y = f(t). Habitualmente, f(t) se define con un método de suavizamiento exponencial, modelo simple o cuadrático, se puede utilizar otros tipos de regresiones, como logística, exponencial, entre otros. Exportación Tendencia 2 2,1 2,5 2,4 2,6 2,6 3,1 2,9 3,2 3,2 3,3 3,5 3,6 3,8 4,3 4,1 4,4 4,4 4,8 4,7 5,1 5,0 5,2 5,3
Exportación de la empresa S&D 6 Millones de dólares
Año 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011
5
Recta Tendencia
4 3 2
Datos observados
1 0
2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 Años
FIG. 27: TENDENCIA EN UNA SERIE DE TIEMPO.
Estacionalidad: Son movimientos regulares de la serie que se repiten periódicamente en el corto plazo y dentro de un año. Ocurre con variables 73
como las ventas de trajes de baño, tarjetas de saludo, frutas frescas y similares. La palabra "estacional" se refiere directamente a las estaciones climatológicas del año, pero la idea es referirse a movimientos oscilatorios dentro del año, coincidan o no con las estaciones climáticas. Ventas 2,5 2,1 3,9 2,5 3,2 4,1 3,2 4,6 4,3 3,7 5,1 5,4
Ventas de la empresa S&D 6
Millones de dólares
Mes Enero Febrero Marzo Abril Mayo Junio Julio Agosto Septiembre Octubre Noviembre Diciembre
5
Variación Estacional
4
3 2 1 0
Meses
FIG. 28: ESTACIONALIDAD EN UNA SERIE DE TIEMPO
Variaciones cíclicas: Parecidas a la estacionalidad, son movimientos de la serie que se observan a largo plazo (varios años) y suelen corresponder a los ciclos económicos.
FIG. 29: VARIACIONES CÍCLICAS EN UNA SERIE DE TIEMPO
Componente no sistemático: Los movimientos irregulares (al azar) representan todos los tipos de movimientos de una serie de tiempo que no sea tendencia, variaciones estacionales y fluctuaciones cíclicas. Son aquellas variaciones producidas por sucesos de ocurrencia imprevisible o accidental que producen movimientos sin un patrón discernible; así por ejemplo, las exportaciones de una empresa pueden ser afectadas por sucesos inusuales no previsibles tales como huelgas, guerras, terremotos, inundaciones, etc. Estas variaciones irregulares son de corta duración y de magnitud muy variable.
74
Y
Tiempo FIG. 30: COMPONENTE NO SISTEMICO EN UNA SERIE DE TIEMPO
Sin considerar las variables independientes x del modelo transversal, el modelo de series de tiempo debe incluir los cuatro componentes anteriores. En general, si Yt es una serie de tiempo, su modelo es una función f(Tt; St; Ct; It) cualquiera. Esta función se decide en base de los datos disponibles y del conocimiento técnico y profesional del investigador. En general, para los temas siguientes, los modelos pueden ser aditivos o multiplicativos. Modelo aditivo: Se define en la forma Yt = Tt + St + Ct + I t, donde T, S, C e I representan los componentes de tendencia, estacionales, cíclicos e irregulares, respectivamente. Los componentes estacionales, ciclos e irregulares corresponden a desviaciones en torno a la tendencia.
FIG. 31: COMPONENTES DE UNA SERIE DE TIEMPO, MODELO ADITIVO.
Modelo multiplicativo: Se expresa por Yt = Tt * St * Ct * I t. En este caso sólo la tendencia está expresada en las unidades de Y, mientras que los otros componentes se expresan como razones, números puros o porcentajes. El modelo aditivo sufre el supuesto irreal de que los movimientos o componentes son independientes uno de otro, algo que difícilmente se da en el caso de la vida real. 75
El modelo multiplicativo supone que los movimientos o componentes interactúan entre sí y no se mueven independientemente, por lo que este modelo es más utilizado que el aditivo. Sin embargo, el criterio fundamental que se debe seguir en el caso de una situación dada es emplear el modelo que mejor se ajuste a los datos. Modelos mixtos: La conceptualización de los modelos en puramente aditivo o puramente multiplicativo tiene relación con el análisis tradicional de las series de tiempo, descomponiéndolas en cada uno de sus factores. La tendencia actual usa otras técnicas para el estudio y análisis de las series de tiempo. Por ejemplo, a través de datos de panel se pueden modelar los efectos estacionales usando variables ficticias, al mismo tiempo que se aísla el factor de tendencia. Consideraciones de este tipo llevan a la formulación de modelos mixtos, mezcla de los dos anteriores. Por ejemplo, un modelo mixto puede tener la expresión Yt = Tt * (1 + St ) * (1 + Ct ) + It , donde se supone que el componente aleatorio es una perturbación directa sobre la respuesta Y y no representa una variación proporcional. 4.2 Procesos Estocásticos Elementales Un proceso estocástico es un conjunto de variables aleatorias asociadas a distintos instantes de tiempo. Los elementales que se encuentran en la econometría son (Gujarati, 2004), (Wooldridge, 2006): Ruido blanco: Un proceso de ruido blanco representa una variable que es constante, oscila en torno a una media constante, con una volatilidad constante y cuyo pasado no contiene información útil para predecir valores futuros.
(
)
76
FIG. 32: GRÁFICO RUIDO BLANCO
Proceso estocástico estacionario: Una serie de tiempo Yt es un proceso estocástico estacionario (Gujarati, 2004) si tiene una media y una varianza constante σ2 en el tiempo y si el valor de la covarianza entre dos periodos depende solamente de la distancia o rezago entre estos dos periodos de tiempo y no del tiempo en el cual se ha calculado la covarianza. La serie de tiempo Yt es una serie estocástica estacionaria si cumple las siguientes propiedades: Media E(Yt) = µ Varianza var(Yt) = E(Yt - µ)2 = σ2 Covarianza ﻻk = E[(Yt - µ) (Yt+k - µ)] Donde ﻻk, la covarianza al rezago k, es la covarianza entre los valores de Yt y Yt+k, es decir, entre dos valores Y que están separados k periodos. Caminata aleatoria: Es un proceso tal que la diferencia entre dos valores consecutivos de la variable se comporta como un ruido blanco.
Si existe una tendencia sistemática en el cambio se denomina camino aleatorio con deriva.
Proceso autorregresivo: Definimos un proceso autorregresivo de primer orden AR(1) como un proceso aleatorio que donde Y tiene relación con sí misma en el periodo anterior de la serie. Matemáticamente sería:
Los procesos autorregresivos pueden generalizarse al orden p, AR(p) sin más que añadir términos retardados en la expresión general.
Media móvil: Definimos una media móvil de primer orden MA(1) como un proceso aleatorio que responde a una expresión del tipo: 77
con
en diferencias a la media
Los procesos de medias móviles son estacionarios y, al igual que los autorregresivos pueden generalizarse al orden q, MA(q) sin más que añadir términos retardados en la expresión general.
Procesos integrados: Un proceso integrado es aquel que puede convertirse en estacionario aplicando diferencias. Así, por ejemplo, un camino aleatorio sería un proceso integrado de orden 1 I(1), ya que puede convertirse en estacionario tomando primeras diferencias. Definimos el orden de integración de un proceso como el número de diferencias que debemos aplicarle para convertirlo en estacionario (Wooldridge, 2006), (Gujarati, 2004). En el contexto de las series económicas los órdenes de integración más frecuentes son 1 ó 2, I(1) ó I(2). En algunas ocasiones las diferencias deben aplicarse sobre el valor estacional. con
estacionario.
4.3 Técnicas de Suavizamiento Se entiende por suavizar una serie de tiempo la aplicación de métodos que aminoren o cancelen el efecto de fluctuaciones aleatorias y muestren las tendencias y componentes cíclicos. Hay dos tipos de técnicas de suavizamiento: promedios móviles y suavización exponencial. Promedios móviles: Es el método de predicción más simple, donde se selecciona un número dado de periodos n, y se obtiene la media o promedio de la variable para los n periodos, permitiendo que el promedio se mueva conforme se observan los nuevos datos de la variable en cuestión. Una forma de visualizar la tendencia, es mediante suavizamiento de la serie. La idea central es definir a partir de la serie observada una nueva serie que filtra o suaviza los efectos ajenos a la tendencia (estacionalidad, efectos aleatorios), de manera que podamos visualizar la tendencia. Utilizando adecuadamente estos movimientos medios se eliminan los movimientos o variaciones estacionales, cíclicas e irregulares, quedando sólo el movimiento de tendencia. Este método presenta el inconveniente de que se pierden datos iniciales y finales de la serie original. También se puede observar que a medida que n crece, la cantidad de nuevos datos se reduce.
78
El método consiste en fijar un número k, preferentemente impar, como 3, 5, 7, etc., y calcular los promedios de todos los grupos de k términos consecutivos de la serie.
FIG. 33: COMPARACIÓN SERIE ORIGINAL Y SERIE SUAVIZADA. SUAVIZAMIENTO EXPONENCIAL.
Por ejemplo, consideremos una serie de seis observaciones y fijemos el orden k =3. Entonces en términos de la serie suavizada son: t 1 2
X(t) X(1) X(2)
3
X(3)
4
X(4)
5
X(5)
6
X(6)
Z(t) media móvil de orden 3 --
--
Suavización exponencial: es una técnica de pronóstico de series de tiempo que pondera los datos históricos exponencialmente para que los datos más recientes tengan más peso en el promedio móvil. Con la suavización exponencial simple, el pronóstico Ft se construye con la predicción del último periodo Ft-1 por una porción α y (1- α) por el valor de la demanda real del periodo anterior Yt-1. Ft = (1- α)* Yt-1 + α (Ft-1).
t≥ 2.
F = Y (cálculo del primer pronóstico). 1
1
79
La constante de suavización α es un número entre 0 y 1 que entra multiplicando en cada pronóstico, pero cuya influencia declina exponencialmente al volverse antiguos los datos. Con un α cercano a 0, la serie suavizada pondera más fuertemente el valor original, luego ambas se parecen, y en consecuencia, el suavizamiento es poco. La selección de α depende de las características de la demanda. Los valores altos de α son más sensibles a las fluctuaciones en la demanda. Si α se acerca a 1/2, se ponderan moderadamente la serie original y la suavizada, por lo que el suavizamiento es moderado. Y si α es cercano a 1, (1- α) es cercano a cero, y la serie suavizada pondera más fuertemente el valor suavizado inmediatamente anterior, por lo que el suavizado es importante. Los valores bajos de α, son más apropiados para demandas relativamente estables (sin tendencia o ciclicidad), pero con una gran cantidad de variación aleatoria. La suavización exponencial simple es un promedio suavizado centrado en el periodo presente. No se puede extrapolar para efectos de tendencia, por la que ningún valor de α compensará completamente la tendencia en los datos. Los valores ordinarios de α varían entre 0.01 y 0.40. Los valores bajos de α disminuyen efectivamente la variación aleatoria (ruido – dispersión). Los valores altos son más sensibles a cambios en la demanda (introducciones de nuevos productos y error buscando cuál valor reduce el error del pronóstico. Esto puede hacerse fácilmente modelando el pronóstico en un programa de cómputo, tratando con diferentes valores de α. Un valor de α que proporcione aproximadamente un grado equivalente de suavización tanto como un promedio móvil de un periodo es: α = 2 / (n + 1) Para saber cuan preciso es el método empleado en la realización del pronóstico se utiliza la siguiente fórmula del cuadrado medio del error (CME o MSD) como indicador de precisión del pronóstico: ∑ Y(t): Valor pronosticado en t X(t): Valor observado en t
80
∑|
̂ ∑| ∑
| ̂ | ̂
En las expresiones anteriores representa la observación, ̂ representa el valor pronosticado y n representa el número de predicciones a realizar. Para estas tres medidas, cuanto menor sea su valor, mejor será el ajuste del modelo. Tipos de suavizamiento exponencial: Simple: este modelo es adecuado para las series en las que no existe tendencia o estacionalidad. Su único parámetro de suavizado es el nivel. El suavizado exponencial simple es el más similar a un modelo ARIMA con cero órdenes de autorregresión, un orden de diferenciación, un orden de media móvil y sin constante. Tendencia lineal de Holt: este modelo es adecuado para las series con una tendencia lineal y sin estacionalidad. Sus parámetros de suavizados son el nivel y la tendencia, y sus valores no se restringen mutuamente. El modelo de Holt es más general que el modelo de Brown pero puede llevar más tiempo de computación con series largas. El modelo de suavizado exponencial de Holt es muy similar a un modelo ARIMA con cero órdenes de autorregresión, dos órdenes de diferenciación y dos órdenes de media móvil. Tendencia lineal de Bown: este modelo es adecuado para las series con una tendencia lineal y sin estacionalidad. Sus parámetros de suavizado son el nivel y la tendencia, que se asumen iguales. Por ello, el modelo de Brown es un caso especial del modelo de Holt, y es similar a un modelo ARIMA con cero órdenes de autorregresión, dos órdenes de diferenciación y dos órdenes de media móvil, con el coeficiente para el segundo orden de media móvil igual al cuadrado de la mitad del coeficiente de primer orden. Tendencia amortiguada: este modelo es adecuado para las series con una tendencia lineal que va desapareciendo y sin estacionalidad. Sus parámetros son el nivel, la tendencia y la amortiguación de la tendencia. El suavizado exponencial amortiguado es similar a un modelo ARIMA con un orden de autorregresión, un orden de diferenciación y dos órdenes de media móvil. Simple estacional: este modelo es adecuado para series con tendencia y un efecto estacional que es constante a lo largo del tiempo. Sus parámetros de suavizado son el nivel y la estación, es similar a un modelo ARIMA con cero órdenes de autorregresión, un orden de diferenciación, un orden de diferenciación estacional y órdenes de media móvil, p y p+1, donde p es el 81
número de períodos contenidos en un intervalo estacional (para los datos mensuales, p = 12). De Winters aditivo: es un modelo para series con tendencia lineal y un efecto estacional que no depende del nivel de la serie. Sus parámetros de suavizado son el nivel, la tendencia y la estación, es similar a un modelo ARIMA con cero órdenes de autorregresión, un orden de diferenciación, un orden de diferenciación estacional y p+1 órdenes de media móvil, donde p es el número de períodos contenidos en un intervalo estacional (para los datos mensuales, p = 12). De Winters multiplicativo: es un modelo para series con tendencia lineal y un efecto estacional que depende del nivel de la serie. Sus parámetros de suavizado son el nivel, la tendencia y la estación. No es similar a ningún modelo ARIMA. El procedimiento de descomposición estacional, como lo son los modelos de Winters, generan cuatro nuevas variables (series) con los siguientes prefijos de tres letras para cada serie especificada (Gujarati, 2004): SAF: Factores de corrección estacional. Estos valores indican el efecto de cada periodo en el nivel de la serie. SAS: Serie corregida estacionalmente. Son los valores obtenidos después de eliminar la variación estacional de una serie. STC: Componentes de tendencia-ciclo suavizado. Estos valores muestran la tendencia y comportamiento cíclico de la serie. ERR: Valores de residuo o “error”. Son los valores que permanecen después de eliminar los componentes estacionales, de tendencia y ciclo de la serie. 4.4 Caso: Variación de Precios de un Producto. El propósito de este caso es presentar el método de suavizamiento exponencial para una situación hipotética de la variación del precio de un producto cualquiera que se transa en el mercado.
82
Año 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 CME
Precio 118 120 115 122 210 240 218 220 150 130 308 370 360 345 290 300 255 525 540 480 440 610 615 650 625 630 510 670 720 750 790 740 670 685 700 705 725 740
a=0,0779 118,0 118,0 119,8 115,4 121,5 203,1 237,1 219,5 220,0 155,4 132,0 294,3 364,1 360,3 346,2 294,4 299,6 258,5 504,2 537,2 484,5 443,5 597,0 613,6 647,2 626,7 629,7 519,3 658,3 715,2 747,3 786,7 743,6 675,7 684,3 698,8 704,5 723,4 5719,04
a=0,5 118,0 118,0 119,0 117,0 119,5 164,8 202,4 210,2 215,1 182,5 156,3 232,1 301,1 330,5 337,8 313,9 306,9 281,0 403,0 471,5 475,7 457,9 533,9 574,5 612,2 618,6 624,3 567,2 618,6 669,3 709,6 749,8 744,9 707,5 696,2 698,1 701,6 713,3 6366,91
a=0,7 118,0 118,0 118,6 117,5 118,9 146,2 174,3 187,4 197,2 183,0 167,1 209,4 257,6 288,3 305,3 300,7 300,5 286,9 358,3 412,8 433,0 435,1 487,6 525,8 563,1 581,6 596,1 570,3 600,2 636,1 670,3 706,2 716,3 702,4 697,2 698,0 700,1 707,6 8259,45
PronosSPSS 118,1 118,0 119,8 115,4 121,5 203,0 237,1 219,5 220,0 155,5 132,0 294,1 364,0 360,3 346,2 294,4 299,6 258,5 504,0 537,2 484,5 443,5 596,9 613,6 647,1 626,7 629,7 519,4 658,1 715,1 747,3 786,6 743,7 675,8 684,3 698,8 704,5 723,4 5719,67
FIG. 34: PRECIO DEL PRODUCTO, EJEMPLO SUAVIZAMIENTO EXPONENCIAL.
83
Descripción del modelo Tipo de modelo ID del modelo
P
Modelo_1
Simple
FIG. 35: GRÁFICO OBSERVADO Y AJUSTE DEL PRECIO, EJEMPLO SUAVIZAMIENTO EXPONENCIAL
Caso: Consumo de Helado, con Método de Descomposición Estacional. El propósito de este caso es analizar el consumo de un producto que tiene un comportamiento con tendencia y estacionalidad. Por este motivo se utilizará el método de descomposición estacional. Modelo Aditivo: Yt = Tt + St + Ct + I t. Año Trimestre Consumo Helado Tendencia 2010 1 201 190,6 2 195 195,5 3 176 200,4 4 199 205,4 2011 1 230 210,3 2 225 215,2 3 203 220,1 4 229 225,0 2012 1 246 230,0 2 236 234,9 3 224 239,8 4 248 244,7 2013 1 2 3 4
Serie 206,0 199,0 181,3 205,6 225,7 218,7 201,0 225,3 245,4 238,4 220,7 245,0
Serie SPSS 202 195 177 201 224 218 202 226 250 242 223 248 271 264 246 271
84
2010 10,417 -0,506 -24,429 -6,352
2011 19,725 9,802 -17,121 3,956
2012 16,033 1,110 -15,813 3,264 R prom
E(i) 15,392 3,469 -19,121 0,289 0,0072
FE(i) 15,385 3,462 -19,128 0,282
FIG. 36: CONSUMO DE HELADOS, EJEMPLO DESCOMPOSICIÓN ESTACIONAL
Como se puede observar en los resultados al aplicar el modelo aditivo de descomposición estacional con el procedimiento presentado y desarrollado en Excel, comparado con los resultados obtenidos al utilizar software SPSS, son similares en comportamiento, la diferencia esta en el método para determinar el comportamiento de la componente de tendencia, que un caso se determina con un modelo de regresión lineal simple y en el otro caso, con un método de suavizamiento exponencial. Una vez obtenido el modelo se puede hacer un pronóstico para el consumo de helado en los periodos siguientes.
Descripción del modelo Tipo de modelo ID del modelo
Consumo Helado
Modelo_1
Aditivo de Winters
Previsión Modelo Consumo HeladoModelo_1
T1 2013
T2 2013
T3 2013
T4 2013
Previsión
271
264
246
271
LCS
280
274
256
281
LCI
262
255
237
261
Para cada modelo, las predicciones comienzan después del último valor no perdido del rango del período de estimación solicitado y finalizan en el último período para el que hay disponibles valores no perdidos de todos los predictores o en la fecha de finalización del período de predicción solicitado, lo que ocurra antes.
85
FIG. 37: OBSERVADO Y AJUSTE, CONSUMO DE HELADO, EJEMPLO DESCOMPOSICIÓN ESTACIONAL.
Caso: Consumo de Helado, con Método de Descomposición Estacional El objetivo de este caso es analizar el consumo de un producto que tiene un comportamiento con tendencia y estacionalidad. Por este motivo se utilizará el método de descomposición estacional y un modelo es mixto. Modelo Mixto: Yt = Tt * (1 + St ) * (1 + Ct ) + It Año 2010
2011
2012
2013
Trimestre Consumo Helado Tendencia 1 201 190,6 2 195 195,5 3 176 200,4 4 199 205,4 1 230 210,3 2 225 215,2 3 203 220,1 4 229 225,0 1 246 230,0 2 236 234,9 3 224 239,8 4 248 244,7 1 2 3 4
Serie 204,440 198,610 182,680 205,347 225,563 218,614 200,628 225,038 246,687 238,619 218,576 244,730
Serie SPSS 202 195 177 201 224 218 202 226 250 242 223 248 271 264 246 271
2010 1,055 0,997 0,878 0,969
2011 1,094 1,046 0,922 1,018
2012 1,070 1,005 0,934 1,013 R prom
E(i) 1,073 1,016 0,911 1,000 1,0000
FE(i) 1,073 1,016 0,911 1,000
Como se puede observar en los resultados al aplicar el modelo mixto de descomposición estacional con el procedimiento presentado y desarrollado en Excel, comparado con los resultados obtenidos al utilizar software SPSS, son similares en comportamiento. Una vez obtenido el modelo se puede hacer un pronóstico para el consumo de helado en los periodos siguientes.
86
4.4 Modelos Autorregresivos Definimos un modelo como autorregresivo si la variable endógena de un período t es explicada por las observaciones de ella misma correspondientes a períodos anteriores añadiéndose, como en los modelos estructurales, un término de error. En el caso de procesos estacionarios con distribución normal, la teoría estadística de los procesos estocásticos dice que, bajo determinadas condiciones previas, toda Yt puede expresarse como una combinación lineal de sus valores pasados (parte sistemática) más un término de error (innovación). Los procesos autorregresivos de orden p (Gujarati, 2004), AR(p). Los órdenes autorregresivos especifican los valores previos de la serie utilizados para predecir los valores actuales. Por ejemplo, un orden autorregresivo igual a 2 especifica que se van a utilizar los valores de la serie correspondientes a dos periodos de tiempo del pasado para predecir el valor actual.
La serie de tiempo Yt, sigue un proceso de media móvil de orden q (Gujarati, 2004), MA(q). Los órdenes de media móvil especifican el modo en que se utilizan las desviaciones de la media de la serie para los valores previos con el fin de predecir los valores actuales. Por ejemplo, los órdenes de media móvil de 1 y 2 especifican que las desviaciones del valor medio de la serie de cada uno de los dos últimos períodos de tiempo se tienen en cuenta al predecir los valores actuales de la serie.
Por supuesto, es muy probable que la serie de tiempo Yt, tenga características de AR y MA a la vez, es decir, un proceso autorregresivo y de media móvil, ARMA. Por ejemplo, si Yt sigue un proceso ARMA(1,1), este puede escribirse como Yt = at + ɵ1Yt-1 + β1ϵt + β2ϵt-1 Porque hay un término autorregresivo y uno de media móvil, y a t representa un término constante. En general, en un proceso ARMA(p,q), habrá p términos autorregresivos y q términos de medias móviles. Se sabe que muchas series económicas no son estacionarias (Gujarati, 2004), los supuestos para que una serie sea estacionaria son, que la media y varianza de la serie son constantes y su covarianza es invariante en el tiempo, por consiguiente se deben diferenciar d veces para hacerla estacionaria. Si se debe diferenciar una serie de tiempo d-veces para hacerla estacionaria y luego se aplica a ésta el modelo ARMA(p,q), se dice que la serie original es ARIMA(p,d,q), es decir, es una serie de tiempo autorregresiva integrada de 87
media móvil (Gujarati, 2004), donde p denota el número de términos autorregresivos, d el número de veces que la serie debe ser diferenciada para hacerla estacionaria y q es el número de términos de media móvil. Diferencia (d), especifica el orden de diferenciación aplicado a la serie antes de estimar los modelos. La diferenciación es necesaria si hay tendencias (las series con tendencias suelen ser no estacionarias y el modelado de ARIMA asume la estacionariedad) y se utiliza para eliminar su efecto. El orden de diferenciación se corresponde con el grado de la tendencia de la serie (la diferenciación de primer orden representa las tendencias lineales, la diferenciación de segundo orden representa las tendencias cuadráticas, etc.). La metodología de Box-Jenkins (Gujarati, 2004) resulta útil para determinar el modelo de serie de tiempo que represente el fenómeno que se quiere explicar, este consiste de los siguientes pasos: 1. Identificación, encontrar los valores apropiados de p, d y q. Se recurre al correlograma y el correlograma parcial para ayudar a identificar estos valores. 2. Estimación, habiendo identificado los valores apropiados de p y q, la siguiente etapa es estimar los parámetros de los términos autorregresivos y de media móvil incluidos en el modelo. Algunas veces, este cálculo puede hacerse mediante mínimos cuadrados simples, pero otras se tendrá que recurrir a métodos de estimación no lineal (en parámetros). 3. Verificación, después de seleccionar un modelo ARIMA particular y de estimar sus parámetros, se trata de ver luego si el modelo seleccionado se ajusta a los datos en forma razonablemente buena, ya que es posible que exista otro modelo ARIMA que también lo haga. 4. Prueba simple, probar si los residuos son ruido blanco, sino lo son iterar. 5. Predicción, una vez ajustado el modelo, en muchos casos las predicciones obtenidas por este método son confiables, pero por supuesto, cada caso debe ser verificado. Las herramientas principales en la identificación de los valores de p, d y q son la función de autocorrelación (FAC o ACF), la función de autocorrelación parcial (PACF) y los correlograma resultantes, que son los gráficos de ACF y de PACF frente a la longitud del rezago. La ACF al rezago k, denotada por ρk, se define como, ρk = [covarianza al rezago k/ varianza] ρk = ﻻk/ﻻ0 y -1 ≤ ρ k ≤ 1. Si se grafica ρk con respecto a k, se obtiene el correlograma poblacional. Por consiguiente, la función de autocorrelación muestral al rezago k es que es simplemente la razón entre la covarianza y varianza muestral. 88
La grafica de ﯢk frente a k se conoce como correlograma muestral. Caso: Una Serie de Tiempo del Precio del Petróleo. Hoy en día el petróleo y sus derivados, son una de las principales fuentes de energía en el mundo. Esto lo podemos ver cotidianamente en el combustible que consumen los automóviles, los aviones, calefacciones a petróleo, etc. Es por esto que es importante saber cómo se comporta, si hay estaciones del año en el cual sus precios bajan o suben, si su precio tiende a subir o a bajar a medida que pasa el tiempo, entre otras cosas. Para esto, en el presente estudio se busca modelar el precio del petróleo, con el fin de obtener las mejores predicciones posibles. Para lo cual se usaran series de tiempo con los precios mensuales del petróleo, desde enero del año 2000, hasta octubre del año 2010. Una vez ingresados los datos en el programa y definida la periodicidad de los datos, como esta explicado en el anexo 2, lo primero que se hace es graficar la serie con respecto al tiempo. Esto nos servirá para tener alguna idea del comportamiento de la serie, para ver si tiene estacionalidad, tendencia y ver con qué modelo se pudiese modelar.
FIG. 38: GRÁFICO PRECIO DEL PETRÓLEO, CASO SERIE DE TIEMPO
Del gráfico se puede apreciar una leve tendencia al alza en el precio. Además no se ven claramente las estacionalidades, por lo que podríamos deducir que la serie no presenta estacionalidad. 4.5 Análisis de Autocorrelaciones
89
Al examinar las autocorrelaciones y las autocorrelaciones parciales de una serie temporal, se obtiene una conclusión más cuantitativa sobre la relación entre los distintos periodos de esta, a diferencia de lo que se podría inferir simplemente mirando el grafico de la serie. Por esto mediante un análisis de autocorrelación hecho por el programa se obtuvo:
FIG. 39: ACF CASO PRECIO PETRÓLEO
90
FIG. 40: ACF PARCIAL, CASO PRECIO PETRÓLEO
En el primer gráfico, se puede ver una clara tendencia. Este tipo de diagramas es común en los procesos que no son estacionarios, por lo que se confirma la no existencia de estacionalidad vista en el grafico de la serie. Al analizar el gráfico de autocorrelaciones parciales, que considera la relación existente solo con el retardo señalado, eliminando la de anteriores rezagos, se pueden realizar afirmaciones más concluyentes sobre la relación entre periodos. En este caso podemos ver que existe una alta correlación con el retardo uno, pero además, se puede ver una correlación significativa para los retardos 2,3 y 14. Modelo: Ahora para crear el modelo para la serie, se utiliza la herramienta “crear modelo” del SPSS. Esta es capaz de elegir el mejor modelo para la serie, dándonos además la posibilidad de elegir nosotros el modelo. Además, pregunta cuantos pronósticos se quieren obtener, gráficos que se desean, etc. En esta ocasión se deja que se elija solo el mejor modelo, pidiéndole al programa las 6 proyecciones siguientes a los datos que se tienen, obteniendo lo siguiente. Descripción del modelo Tipo de modelo
91
Descripción del modelo Tipo de modelo ID del modelo
Petróleo
Modelo_1
Tendencia amortiguada
Ajuste del modelo Percentil
Estadístico de ajuste R-cuadrado
Media
ET Mínimo Máximo
5
10
25
50
75
90
95
,206 .
,206
,206
,206
,206
,206
,206
,206
,206
,206
,963 .
,963
,963
,963
,963
,963
,963
,963
,963
,963
RMSE
4,999 .
4,999
4,999
4,999
4,999
4,999
4,999
4,999
4,999
4,999
MAPE
7,265 .
7,265
7,265
7,265
7,265
7,265
7,265
7,265
7,265
7,265
estacionaria R-cuadrado
MaxAPE MAE MaxAE BIC normalizado
25,602 .
25,602 25,602 25,602 25,602 25,602 25,602 25,602 25,602 25,602
3,740 .
3,740
19,611 .
3,740
3,740
3,740
3,740
3,740
3,740
3,740
3,740
19,611 19,611 19,611 19,611 19,611 19,611 19,611 19,611 19,611
3,331 .
3,331
3,331
3,331
3,331
3,331
3,331
3,331
3,331
3,331
Estadísticos del modelo Estadísticos de ajuste del modelo
Modelo
Número de
R-cuadrado
predictores
estacionaria
petróleo-
0
Ljung-Box Q(18) Número de
R-cuadrado
,206
,963
Estadísticos 20,306
GL
Sig.
15
valores atípicos
,161
0
Modelo_1 Parámetros del modelo de suavizado exponencial Modelo petróleo-Modelo_1
Estimación Sin transformación
ET
T
Sig.
Alpha (Nivel)
,849
,250
3,393
,001
Gamma
,998
1,062
,939
,349
(Tendencia)
92
Estadísticos del modelo Estadísticos de ajuste del modelo
Modelo
Número de
R-cuadrado
predictores
estacionaria
Ljung-Box Q(18) Número de
R-cuadrado
Estadísticos
Phi (Factor de
GL
Sig.
,600
,208
valores atípicos 2,885
,005
amortiguación de la tendencia)
Previsión Modelo
Nov 2010
petróleo-Modelo_1
Dic 2010
Ene 2011
Feb 2011
Mar 2011
Abr 2011
Previsión
84,01
85,91
87,05
87,74
88,15
88,39
LCS
93,91
102,60
110,48
117,45
123,60
129,10
LCI
74,12
69,23
63,62
58,03
52,69
47,69
Para cada modelo, las predicciones comienzan después del último valor no perdido del rango del período de estimación solicitado y finalizan en el último período para el que hay disponibles valores no perdidos de todos los predictores o en la fecha de finalización del período de predicción solicitado, lo que ocurra antes.
FIG. 41: CASO PRECIO PETRÓLEO, OBSERVADO Y PREVISIÓN, SERIE DE TIEMPO
El programa dice que el mejor modelo que se ajusta a la serie es el de tendencia amortiguada. Este modelo es adecuado para las series con una 93
tendencia lineal que va desapareciendo y sin estacionalidad. Sus parámetros de suavizado son el nivel, la tendencia y la amortiguación de la tendencia. Por lo visto en los análisis de autocorrelación, y en el gráfico de la serie, era de esperar que el modelo no tuviese estacionalidad. Por lo que la elección de modelos es congruente con los análisis realizados anteriormente. El suavizado exponencial amortiguado es muy similar a un modelo ARIMA con un orden de autorregresión, un orden de diferenciación y dos órdenes de media móvil. Se puede ver que el valor de R cuadrado es de 0.963, por lo que el modelo se ajusta de muy buena manera a lo que es la serie.
94
CAPÍTULO 5: Análisis Clúster El análisis de clúster (o análisis de conglomerados) es una técnica de análisis exploratorio de datos para resolver problemas de clasificación. Consiste en ordenar objetos (personas, cosas, animales, plantas, variables, etc.) en grupos (conglomerados o clústeres) de forma que el grado de similitud entre miembros del mismo clúster sea más fuerte que el grado de asociación entre miembros de diferentes clúster. Cada clúster se describe como la clase a la que sus miembros pertenecen (Wooldridge, 2006). El análisis clúster se ocupa principalmente para:
Segmentación del mercado Comprensión del comportamiento del comprador Identificación de oportunidades para productos nuevos Selección de mercados de prueba Reducción de datos
En análisis clúster poca o ninguna información es conocida sobre la estructura de las categorías, lo cual lo diferencia de los métodos multivariantes de asignación y discriminación. De todo lo que se dispone es de una colección de observaciones, siendo el objetivo operacional en este caso, descubrir la estructura de las categorías en la que se encajan las observaciones. Más concretamente, el objetivo es ordenar las observaciones en grupos tales que el grado de asociación natural es alto entre los miembros del mismo grupo y bajo entre miembros de grupos diferentes. 5.1 Clasificación de las Técnicas Clúster Podemos encontrarnos dos tipos fundamentales de métodos de clasificación: jerárquicos y no jerárquicos. En los primeros, la clasificación resultante tiene un número creciente de clases anidadas, mientras que en el segundo las clases no son anidadas. Los métodos también pueden dividirse en aglomerativos y divisivos. En los primeros, se parte de tantas clases como objetos tengamos que clasificar y en pasos sucesivos vamos obteniendo clases de objetos similares, mientras que en los segundos se parte de una única clase formada por todos los objetos que se va dividiendo en clases sucesivamente. Métodos jerárquicos: Estos métodos tienen, como ya se dijo anteriormente, por objetivo agrupar clústers para formar uno nuevo o bien separar alguno ya existente para dar origen a otros dos, de tal forma que se minimice alguna función distancia o bien se maximice alguna medida de similitud. Los métodos jerárquicos se subdividen a su vez en aglomerativos y disociativos. Los aglomerativos comienzan el análisis con tantos grupos como individuos haya en el estudio. A partir de ahí se van formando grupos de forma 95
ascendente, hasta que, al final del proceso, todos los casos están englobados en un mismo conglomerado. Los métodos disociativos o divisivos realizan el proceso inverso al anterior. Empiezan con un conglomerado que engloba a todos los individuos. A partir de este grupo inicial se van formando, a través de sucesivas divisiones, grupos cada vez más pequeños. Al final del proceso se tienen tantos grupos como individuos en la muestra estudiada. Independientemente del proceso de agrupamiento, hay diversos criterios para ir formando los conglomerados; todos estos criterios se basan en una matriz de distancias o similitudes. Por ejemplo, dentro de los métodos aglomerativos destacan: 1. 2. 3. 4. 5. 6.
Método del amalgamamiento simple. Método del amalgamamiento completo. Método del promedio entre grupos. Método del centroide. Método de la mediana. Método de Ward.
Dentro de los métodos disociativos, destacan, además de los anteriores, que siguen siendo válidos: 1. El análisis de asociación. 2. El detector automático de interacción. Métodos no jerárquicos: En cuanto a los métodos no jerárquicos, también conocidos como partitivos o de optimización, tienen por objetivo realizar una sola partición de los individuos en K grupos. Ello implica que el investigador debe especificar a priori los grupos que deben ser formados, siendo esta, posiblemente, la principal diferencia respecto de los métodos jerárquicos, (no obstante hay que señalar que hay diversas versiones de estos procedimientos que flexibilizan un tanto el número final de clusters a obtener). La asignación de individuos a los grupos se hace mediante algún proceso que optimice el criterio de selección. Otra diferencia de estos métodos respecto a los jerárquicos reside en que trabajan con la matriz de datos original y no precisan su conversión en una matriz de distancias o similitudes. Estos se pueden clasificar en: Métodos de reasignación: Permiten que un individuo asignado a un grupo en un determinado paso del proceso sea reasignado a otro grupo en un paso posterior, si ello optimiza el criterio de selección. El proceso acaba cuando no quedan individuos cuya reasignación permita optimizar el resultado que se ha conseguido. Dentro de estos métodos están: a) El método K-medias. 96
b) El Quick-Clúster análisis. c) El método de Forgy. d) El método de las nubes dinámicas. Métodos de búsqueda de la densidad: Dentro de estos métodos están los que proporcionan una aproximación tipológica y una aproximación probabilística. En el primer tipo, los grupos se forman buscando las zonas en las cuales se da una mayor concentración de individuos. Entre ellos destacan: a) El análisis modal de Wishart. b) El método Taxmap. c) El método de Fortín. En el segundo tipo, se parte del postulado de que las variables siguen una ley de probabilidad según la cual los parámetros varían de un grupo a otro. Se trata de encontrar los individuos que pertenecen a la misma distribución. Entre los métodos de este tipo destaca el método de las combinaciones de Wolf. Métodos directos: Permiten clasificar simultáneamente a los individuos y a las variables. El algoritmo más conocido dentro de este grupo es el Block-Clustering. Métodos de reducción de dimensiones: Estos métodos consisten en la búsqueda de unos factores en el espacio de los individuos; cada factor corresponde a un grupo. Se les conoce como Análisis Factorial tipo Q. 5.2 Etapas de un Análisis Clúster Para hacer un análisis clúster se debe seguir los siguientes pasos: 1. Selección de muestra de datos. 2. Selección y transformación de variables a utilizar. 3. Selección del método y concepto de distancia o similitud. Cuando se refiere a selección del concepto de distancia o similitud habla del criterio que se usará para definir los grupos, por lo tanto es importante tenerlo en mente para el análisis antes de formar los clúster y después de ellos. Los criterios pueden ser variados y depende de la persona encargada del estudio. Los criterios pueden ser de:
Correlación: Se traslada el concepto tradicional de covariación, de conexión entre variables, de "pautas" de transición (por ejemplo, el 97
cálculo de un coeficiente de correlación) aplicándolo a las observaciones de los sujetos como si fuesen observaciones de variables. Medidas de similitud o distancia: Definen proximidad, no covariación, y su elección (tipos) viene determinada por la escala de medida de las variables: binaria u ordinal o de intervalo/razón.
Algunas medidas de distancia serían: Euclidea (para "t" variables) √∑ Manhattan (o función de la distancia absoluta, o City-Block) ∑|
|
Formulación general de Power (s,r) (∑
)
D2 de Manhalanobis ∑ 4. Selección y agrupación por el criterio de agrupación elegido. Hay diferentes métodos para la selección y agrupación de grupos según el método que se use. La selección de uno u otro método se basa en la forma en que la distancia se considera en el algoritmo de agrupación, los cuales fueron descritos anteriormente. 5. Determinación de la estructura correcta. La determinación de la estructura correcta o el número de conglomerados es una decisión subjetiva y dependerá del encargado del estudio. Pero hay gráficos que ayudan a ver como se forman los conglomerados. Dendograma: Es un gráfico que muestra como se agrupan los conglomerados (Siendo este un caso de conglomerados jerárquicos), donde salen los casos y las distancias, mientras que las líneas muestran que conglomerados se agrupan y cuáles no.
98
FIG. 42: DENDOGRAMA DE TÉMPANOS, ANÁLISIS CLUSTER
Este diagrama se lee de abajo hacia arriba. Al principio todos los casos están separados, excepto el 146 y el 77 que se unen formando el primer grupo. Mientras más se avanza hacia arriba más grupos se van uniendo y menos son los números de conglomerados, hasta llegar arriba donde todos son un gran conglomerado. También el dendograma puede ser mostrado en forma horizontal: Rescaled Distance Cluster Combine C A S E Label Num
0 5 10 15 20 25 +---------+---------+---------+---------+---------+
72 146 231 174 145 171 209 20 126 181 117 178 336 275 333
-+ -+ -+ -+-------+ -+ +-----------------------+ -+-------+ +---------------+ -+ | | ---------------------------------+ | -+ | -+ | -+-+ | -+ | | -+ +---------------------------------------------+ -+ | ---+
99
5.3 Caso: Estudio del Producto APV en las AFP. El objetivo de este caso es analizar el comportamiento del Ahorro Previsional Voluntario “APV”, que es un mecanismo que permite a los trabajadores dependientes e independientes ahorrar por sobre lo que cotizan obligatoriamente en su Administradora de Fondos de Pensión “AFP”, con importantes beneficios tributarios (Contreras, 2012). Para realizar el análisis se utilizará el método de clúster para hacer la segmentación de mercado, los datos disponibles del APV se obtienen de la Superintendencia de Pensiones. En este análisis de debe considerar que las únicas variables demográficas que hay en los datos que tiene la superintendencia sobre las APV, es el número de personas y el saldo total de cada fondo por sexo, si es dependiente o independiente y edad. Siendo elegido los datos por edad ya que son los que más permiten análisis, para formar conglomerados. Además, de los datos de la Superintendencia de Pensiones, se buscaron variables que representaran la preocupación por el desempleo, la preocupación por la vejez y la estabilidad económica, ya que estas son las tres razones por lo cual dicen las AFP que se toma un APV. Siendo estos obtenidos de la Encuesta Nacional Urbana de Seguridad Ciudadana (ENUSC) a nivel nacional, esta es el fruto del convenio suscrito entre la Subsecretaría de Prevención del Delito del Ministerio del Interior y Seguridad Pública y el Instituto Nacional de Estadísticas (INE); la que tiene un error muestral de 4,5%, por lo tanto se pueden tomar como representativas del país. Las preguntas de la encuesta de seguridad ciudadana son las siguientes (Contreras, 2012): “Indique en orden de importancia las tres situaciones que más le generan preocupación” Perder el trabajo Dificultad de insertarse en el mercado laboral Ser víctima de delito Que un miembro del grupo familiar caiga en el alcoholismo o la drogadicción La inestabilidad económica del hogar No tener acceso a la vivienda propia o perderla Incertidumbre en la vejez (salud, previsión, desamparo) Que usted o alguien de su familia no reciba una educación que mejore sus oportunidades laborales No contar con un sistema de salud que cubra enfermedades o accidentes No sabe No responde 100
“¿Cuál de los siguientes problemas de actualidad nacional tiene mayor importancia para usted? ¿Y en segundo lugar?” La pobreza La situación económica La contaminación ambiental El tráfico de drogas La educación El desempleo La salud La delincuencia El consumo de drogas La corrupción Otro No sabe No responde Se escogieron para este análisis las que están marcadas con negrita, ya que son las variables que más representan lo que se quiere estudiar. De estas se tomó la frecuencia relativa de la mención, es decir, en la primera pregunta el porcentaje de la gente de la misma edad que nombró en sus tres primeras preocupaciones y, en la segunda, el porcentaje de las personas de la misma edad que mencionaron el problema a nivel nacional. Teniendo esto, las variables para el análisis clúster serían, (Contreras, 2012): 1. Número de ahorrantes fondo A (Diciembre 2011). Fuente: Superintendencia de pensiones. 2. Saldo promedio por ahorrante fondo A (Diciembre 2011). Fuente: Superintendencia de pensiones. 3. Número de ahorrantes fondo B (Diciembre 2011). Fuente: Superintendencia de pensiones. 4. Saldo promedio por ahorrante fondo B (Diciembre 2011). Fuente: Superintendencia de pensiones. 5. Número de ahorrantes fondo C (Diciembre 2011). Fuente: Superintendencia de pensiones. 6. Saldo promedio por ahorrante fondo C (Diciembre 2011). Fuente: Superintendencia de pensiones. 7. Número de ahorrantes fondo D (Diciembre 2011). Fuente: Superintendencia de pensiones. 8. Saldo promedio por ahorrante fondo D (Diciembre 2011). Fuente: Superintendencia de pensiones. 9. Número de ahorrantes fondo E (Diciembre 2011). Fuente: Superintendencia de pensiones. 10. Saldo promedio por ahorrante fondo E (Diciembre 2011). Fuente: Superintendencia de pensiones. 11. Menciones “Perder el trabajo” por edad. Fuente: Pregunta “Indique en orden de importancia las tres situaciones que más le generan preocupación” Encuesta seguridad ciudadana 2011 (ENUSC) 101
12. Menciones “La inestabilidad económica del hogar” Fuente: Pregunta “Indique en orden de importancia las tres situaciones que más le generan preocupación” Encuesta seguridad ciudadana 2011 (ENUSC) 13. Menciones “Incertidumbre en la vejez (salud, previsión, desamparo)” Fuente: Pregunta “Indique en orden de importancia las tres situaciones que más le generan preocupación” Encuesta seguridad ciudadana 2011 (ENUSC) 14. Menciones “No contar con un sistema de salud que cubra enfermedades o accidentes” Fuente: Pregunta “Indique en orden de importancia las tres situaciones que más le generan preocupación” Encuesta seguridad ciudadana 2011 (ENUSC) 15. Menciones “La situación económica”. Fuente: Pregunta “¿Cuál de los siguientes problemas de actualidad nacional tiene mayor importancia para usted? ¿Y en segundo lugar?” Encuesta seguridad ciudadana 2011 (ENUSC) 16. Menciones “El desempleo”: Fuente: Pregunta “¿Cuál de los siguientes problemas de actualidad nacional tiene mayor importancia para usted? ¿Y en segundo lugar?” Encuesta seguridad ciudadana 2011 (ENUSC) 17. Menciones “La salud”: Fuente: Pregunta “¿Cuál de los siguientes problemas de actualidad nacional tiene mayor importancia para usted? ¿Y en segundo lugar?” Encuesta seguridad ciudadana 2011 (ENUSC) 18. Menciones “La pobreza”: Fuente: Pregunta “¿Cuál de los siguientes problemas de actualidad nacional tiene mayor importancia para usted? ¿Y en segundo lugar?” Encuesta seguridad ciudadana 2011 (ENUSC) Todas estas variables tienen datos dentro de estos rangos de edades: 1. 15-19 2. 20-24 3. 25-29 4. 30-39 5. 40-49 6. 50-59 7. 60 y más Se debe considerar en el análisis que hay rangos de edades que son distintos (“15-19”, “20-24” y “60 y más”). Aunque esto solo afecta significativamente a la variable “número de afiliados”. Los datos en concreto se pueden ver en el Anexo 6. Dado esto, hacemos el análisis en SPSS dando los siguientes resultados: Historial de conglomeración
102
Etapa en la que el conglomerado Conglomerado que se combina Etapa
Conglomerado 1
aparece por primera vez
Conglomerado 2
Coeficientes
Conglomerado 1
Próxima
Conglomerado 2
etapa
1
1
2
23,662
0
0
2
2
1
3
67,994
1
0
4
3
5
6
154,551
0
0
5
4
1
4
293,459
2
0
6
5
5
7
436,388
3
0
6
6
1
5
599,637
4
5
0
H I E R A R C H I C A L
C L U S T E R
A N A L Y S I S
Dendrogram using Average Linkage (Between Groups) Rescaled Distance Cluster Combine C A S E Label Num
0 5 10 15 20 25 +---------+---------+---------+---------+---------+
1 2 3 4 5
-+-+ -+ +-------------------+ ---+ +-------------------------+ -----------------------+ | -----------+-----------------------+ |
103
6 7
-----------+ +-------------+ -----------------------------------+
FIG. 43: DENDOGRAMAS, CASO APV, ANÁLISIS CLUSTER
Sabido es que la elección de los clústeres en base a un dendograma es subjetiva y depende del criterio de la persona encargada del estudio. En la imagen se muestra una línea que indica el corte elegido para esta ocasión, el cual fue elegido por, (Contreras, 2012): Como se ve, la separación de los grupos tendía a hacer por edad, los jóvenes con los jóvenes y los viejos con los viejos, por lo tanto se eligió la separación donde se pudiera ver la diferencia entre los que están en edad de jubilarse y los que no. A pesar de que se podría unir en tres clústeres y representar en grupo de “Personas trabajadoras”, “Personas a menos de 10 años de jubilarse” y “Personas jubiladas” se considero que el dato 4 (30-39 años) tiene un comportamiento lo suficientemente distinto a los tres anteriores como para hacer su propio clústeres. Tras esto, se puede decir que quedan cuatro clúster: 1. 15 – 39 años 2. 30 – 39 años 3. 40 – 59 años 4. 60 y más Para analizar las diferencias y las características de cada clúster, se hicieron gráficos de dispersión de cada una de las variables como el que se muestra a continuación:
104
Encerrados en cada círculo se ven los diferentes clústeres y su comportamiento por cada variable. Los demás gráficos se pueden ver en el Anexo 3. Con los gráficos de dispersión se puede concluir que, (Contreras, 2012): Conglomerado 1 (15-29 años) o Tienen bajo saldo promedio en todos los fondos. o Creciente entrada al fondo A. o Tienen una creciente entrada al fondo B y E. o Creciente preocupación por perder el trabajo. o Son los que más le preocupa la inestabilidad en el hogar. o Les preocupa el desempleo. Conglomerado 2 (30 – 39 años) o Tienen un saldo promedio bajo en todos los fondos, pero creciente. o Son los que más personas participan en el fondo A y B. o Tienen una creciente entrada al fondo B y E. o Los más preocupados por perder el trabajo. o Decreciente preocupación por la inestabilidad en el hogar. o Decreciente preocupación por el desempleo. Conglomerado 3 (40-59 años) o Tienen el más alto saldo promedio en todos los fondos. o Alta y decreciente participación en los fondos A, B, C y E. 105
o o
Baja y creciente participación en el fondo D. Creciente preocupación por el desamparo en la vejez, por el sistema de salud y la situación económica. o Decreciente preocupación por el desempleo. o Creciente preocupación por la pobreza y la salud. Conglomerado 4 (60 y más años) o Saldo alto en todos los fondos. o Baja participación en el fondo A, B, C y E. o Alta participación en el fondo D. o Les preocupa el desamparo en la vejez, por el sistema de salud y la situación económica. o Les preocupa la pobreza.
106
CAPÍTULO 6: Árboles de Decisión Un árbol de decisión es un modelo de predicción utilizado en el ámbito de la inteligencia artificial. Dada una base de datos se construyen diagramas de construcciones lógicas, muy similares a los sistemas de predicción basados en reglas, que sirven para representar y categorizar una serie de condiciones que ocurren de forma sucesiva, para la resolución de un problema. La decisión final a tomar se puede determinar siguiendo las condiciones que se cumplen desde la raíz del árbol hasta algunas de sus hojas (Hernández, J., Ferri Ramirez, C., Ramirez Quintana, Ma, 2004), (Shmueli, G., Patel, N., & Bruce, P., 2007). Edad
Raíces
< 25 años
≥ 25 años
Rechazar
Experiencia ≥ 3 años
< 3 años Rechazar
Aceptar
FIG. 44: EJEMPLO ÁRBOL DE DECISIÓN
Como se ve en la figura anterior, es sencillo aplicar un árbol de decisión en casos como selección de personal. Vemos como primero se discrimina por edad y después por experiencia, siendo un clasificador que ayuda a tomar una decisión en concreto. Por otro lado, los sistemas de reglas son una generalización de los árboles de decisión, de hecho, un árbol de decisión se puede expresar como un conjunto de reglas. Pero en este no se exige exclusión ni exhaustividad en las condiciones de las reglas, es decir, podría aplicarse más de una regla o ninguna (Hernández, J., Ferri Ramirez, C., Ramirez Quintana, Ma, 2004), (Shmueli, G., Patel, N., & Bruce, P., 2007). ¿Es candidato para el cargo? Si Edad ≥ 25 años Y Experiencia ≥ 3 años Entonces SI En otro caso No.
107
Hojas
La representación en forma de reglas suele ser más reducida que la de los árboles, ya que permite englobar condiciones y permite el uso de reglas por defecto, como la de “En otro caso” que se muestra en el ejemplo anterior. En general, la diferencia más importante entre los sistemas de aprendizaje de árboles de decisión y los sistemas de inducción de reglas es el algoritmo que utilizan. Si es por partición o cobertura. 6.1 Sistemas por Partición: Árboles de Decisión para Clasificación. La característica más relevante de los problemas de clasificación es que se asume que las clases son disjuntas, es decir, que un caso es de la clase a o de la b, pero no puede ser de las dos. Casos simples sería: La raza de un perro, si es un planeta o una estrella, etc. Lo cual es distinto a la categorización, donde se permite más de una clase, un ejemplo es la temática de una película, donde perfectamente puede ser una película de acción y de humor al mismo tiempo. Un árbol de decisión en un problema de clasificación conducirá un ejemplo de una sola hoja, es decir, solo tendrá una clase el ejemplo. Por ende, las clases deben ser también disjuntas. Esta propiedad dio el esquema para los primeros algoritmos de aprendizaje de árboles de decisión. El espacio se iba partiendo de arriba abajo, utilizando cada vez una partición, es decir, un conjunto de condiciones excluyentes y exhaustivas. Estos algoritmos se llaman algoritmos de partición. Por lo tanto, uno de los aspectos más importantes en los sistemas de aprendizaje de árboles de decisión es el denominado criterio de partición. Simplemente el algoritmo va construyendo el árbol añadiendo particiones y los hijos resultantes de cada partición. Finalmente, se llega a la situación en la que todos los ejemplos caen en un nodo inferior son de la misma clase. Por lo tanto el árbol no sigue creciendo. Los dos puntos más importantes a considerar para que el algoritmo funcione bien son los siguientes: Particiones a considerar. Criterio de selección de particiones. Esto es lo que diferencia a los distintos algoritmos de partición existentes, como CART (Breiman, 1984), ID3 (Quinlan 1983), C4.5 (Quinlan, 1993), etc. 6.2 Particiones Posibles Las particiones son un conjunto de condiciones exhaustivas y excluyentes. Cuantas más particiones permitamos más precisos podrán ser los árboles de decisión generados. Pero, a cuantas más particiones se elijan la complejidad del algoritmo será mayor. El desafío es encontrar un buen equilibrio entre precisión y eficiencia. 108
Por esto es porque la mayoría de los algoritmos de aprendizaje de árboles de decisión solo permiten un juego muy limitado de particiones. Por ejemplo C 4.5 contiene solo un tipo de partición para los atributos nominales y uno solo para los numéricos, (Shmueli, G., Patel, N., & Bruce, P., 2007). Particiones nominales: El atributo xi es nominal y tiene posibles valores {v1, v2,…,vk}, solo existirá una partición posible para ese atributo, la cual será (xi = v1, xi = v2,…, xi = vk). Muchos algoritmos siguen esta partición, mientras que otros exigen que los árboles sean binarios (Solo dos hijos por nodo). Particiones numéricas: Si un valor xi es numérico y continuo, puede tomar valores diferentes en los ejemplos y tienen infinitos valores en general. Por esta razón, se intentan tomar particiones que separen los ejemplos en intervalos. Aunque las particiones descritas anteriormente son bastante simples, permiten obtener árboles de decisión precisos y muy comprensibles, esto se debe a que se pueden ajustar a muchos patrones y son fácilmente interpretables.
6.3 Criterio de Selección de Particiones Los algoritmos de decisión tienen la particularidad que una vez decidida una partición sigue hacia abajo la construcción del árbol y no se vuelven a plantearse las particiones ya construidas. Además, las particiones ya nombradas pueden llegar a ser demasiadas. Estos aspectos tienen como consecuencia que se busque un criterio que permita realizar una buena partición y que se haga sin demasiado esfuerzo computacional. Basándose en la idea de buscar particiones que discriminen o consigan nodos más puros, se han presentado en las últimas décadas numerosos criterios de partición, tales como el criterio del error esperado, el criterio Gini (Breiman 1984), los criterios Gain, Gain Ratio y la modificación del C 4.5 (Quinlan 1993) y DKM (Kearns & Mansour 1996). Estos criterios buscan la partición s con el menor I(s) (Hernández, J., Ferri Ramirez, C., Ramirez Quintana, Ma, 2004), definido de la siguiente forma: ∑
Donde n es el número de nodos hijos de la partición (Número de condiciones de la partición), pj es la probabilidad de caer en el nodo j, es la proporción de elementos de la clase 1 en el nodo j, es la proporción de elementos de la clase 2 en el nodo j, y así para las c clases. Bajo esta fórmula general, cada criterio de partición implementa una función f distinta, como se muestra en la siguiente tabla: f(p1,p2,…,pc)
Criterio 109
Min(p1,p2,…,pc) 1-Ʃ(pi)2 Ʃpi log(pi) 2(Πpi)1/2
Error Esperado GINI Entropía (gain) DKM
Estas funciones f(.) se denominan funciones de impureza y, por lo tanto, la función I(s) calcula la media ponderada (Dependiendo de la cardinalidad de cada hijo) de la impureza de los hijos en una partición. Varios de estos criterios son usados en algoritmos conocidos, como Gain Ratio o C4.5 son basados en Entropía. 6.4 Poda Los algoritmos de árboles de decisión vistos obtienen un modelo que es completo y consistente con respecto a la evidencia, es decir, el modelo cubre todos los ejemplos vistos y los cubre todos de manera correcta. Esto podría parecer optimo, pero un modelo que se ajuste demasiado a la evidencia suele comportarse mal para nuevos ejemplo. Por lo tanto, intentar aproximar demasiado un modelo puede llegar a que seamos demasiado específicos y no acertemos a los nuevos ejemplos, especialmente si existe ruido en la muestra. La manera más frecuente de solucionar este problema es modificar los algoritmos de aprendizaje de tal manera que obtengan modelos menos específicos. En lo que son los árboles de decisión el contexto es eliminar condiciones de las ramas de los árboles. Se puede ver gráficamente como lo ilustra la siguiente figura, (Shmueli, G., Patel, N., & Bruce, P., 2007):
FIG. 45: PODA, ÁRBOL DE DECISIÓN.
Los nodos que están por debajo del límite de poda se eliminan, ya que se consideran demasiado específicos. Los métodos de poda pueden dividirse en dos: prepoda y pospoda.
110
Prepoda: el proceso se realiza durante la construcción del árbol. Se trata en realidad de determinar el criterio de parada a la hora de seguir especificando una rama. En general, los criterios de prepoda pueden estar basados en número de ejemplos por nodo, en número de excepciones respecto a la clase mayoritaria (error esperado) o técnicas más sofisticadas, como el criterio MDL. Postpoda: El proceso se realiza después de la construcción del árbol, se trata de eliminar nodos de abajo a arriba hasta un cierto límite. Generalmente la postpoda, al tener el modelo ya completo, tiende a tener mejores resultados que la prepoda, pero es menos eficiente en lo que es optimización de recursos. La poda es una de las primeras y más simples modificaciones que se han ideado para mejorar el comportamiento de los árboles de decisión. Con posteridad se han definido otras serie de operadores y modificadores, generalmente apodados operadores de “restructuración”. Cuando se hace una visión global del árbol, se puede observar mucho mejor que ciertas partes se pueden reestructurar con el objetivo de simplificar la representación y/o conseguir mejor predicción.
Talla ≤ 21,7
Color = verde
Talla < 21,7
A
B
Talla ≥ 21,7
C
D
Color = verde
Color = verde
A
B
C
D
FIG. 46: EJEMPLO DE OPERADOR "TRANSPOSICIÓN", ÁRBOLES DE DECISIÓN.
El ejemplo de la figura anterior, se muestra la aplicación de un operador de “Transposición”. El resultado es un árbol diferente pero equivalente, que, además, podría provocar desencadenamiento de otros operadores y convertirlo en un árbol más simple (Hernández, J., Ferri Ramirez, C., Ramirez Quintana, Ma, 2004), (Shmueli, G., Patel, N., & Bruce, P., 2007). 6.5 Algoritmos más Populares Basándose en diferentes particiones, en un criterio de partición y otras extensiones, han aparecido numerosos algoritmos y sistemas de aprendizaje de árboles de decisión, (Shmueli, G., Patel, N., & Bruce, P., 2007).
CART (Breiman, 1984) y derivados: son métodos de partición que construyen árboles binarios y se basan en el criterio de partición GINI y que sirve tanto para clasificación como para regresión. La poda se 111
basa en una estimación de la complejidad de error. Generalmente se pueden encontrar en programas de minería de datos con el nombre C&RT.
ID3 (Quinlan 1983) (Quinlan 1986) C 4.5 (Quinlan 1993) y derivados (Assistant (Cestnik 1987): son métodos de partición de la ganancia (GainRatio). Tienen poda basada en reglas u otros mecanismos más sofisticados. Contiene métodos de colapsado de ramas y muchas otras mejoras.
IND (Buntine 1992, LMDT (Brodley & Utgoff 1995) y otros sistemas híbridos: incorporan características de varios sistemas o añaden otras técnicas de aprendizaje y construcción de árboles de decisión: regresión lineal, perceptrones, etc.
SLIQ (Mehta, 1996)y SPRINT: modificaciones de árboles de decisión clásicos para conseguir escalabilidad para grandes volúmenes de datos, paralelización, etc.
6.5 Caso: Analizar la Situación de Quiebra de una Empresa. El objetivo de este caso es explicar el fenómeno de la quiebra de empresas utilizando un método de minería de datos con la técnica de árboles y utilizando el software SPSS Clementine, (Godoy, 2012). El proceso de quiebra conlleva altos costos pecuniarios y sociales asociados al fracaso empresarial. Por esta razón, constituye un riesgo para las partes interesadas quienes temen la aparición de este evento de manera súbita e impredecible. Para este estudio se ha extraído los datos financieros de 30 empresas operando en Chile, desde sus estados financieros publicados por la Superintendencia de Valores y Seguros. Esta muestra se divide en dos grupos: empresas quebradas, registradas bajo la Superintendencia de Quiebras entre 2002 - 2011, y empresas sanas o que no hayan quebrado en ese periodo. Para conformar la población de datos se consultaron diferentes fuentes, (Godoy, 2012): 1. Base quiebras: Registro Nacional de Quiebras (2000-2012), elaborado por la Superintendencia de Quiebras. El registro completo contiene las quiebras históricas registradas en Chile desde 1956 hasta la fecha. Se trabaja con los registros de empresas quebradas a partir del 1 de enero de 2000 hasta el 31 de julio de 2012. Estos registros contienen por ejemplo, la razón social de la empresa fallida, la fecha de la declaración de la quiebra, la fecha de publicación de la quiebra en el Diario Oficial, dirección, el síndico de quiebra, el tribunal a cargo de la quiebra, entre otros datos. 112
2. Base FECU: Ficha estadística codificada uniforme (FECU) de empresas de la muestra. Estas fichas se obtienen desde la página de la Superintendencia de Valores y Seguros (SVS). La FECU es un informe mediante el cual las empresas fiscalizadas por la SVS dan a conocer sus estados financieros. Posee un formato estandarizado, debe presentarse trimestralmente e incluye el balance general y el estado de resultado, entre otros datos. 3. Base SII: A través del Servicio de Impuestos Internos (SII), se obtiene el giro de las empresas a través de la opción Situación Tributaria/Consultas y Solicitudes/Consulta tributaria de terceros disponible en su portal online. El modelo consiste en usar 8 ratios financieros tradicionales que consideran medidas de liquidez, actividad, cobertura, solvencia y rentabilidad. Variable WCTA CACL TSTA EBITTI TDTA TDTE OMTA ROA
Ratio Financiero Capital de Trabajo / Total de Activos Activo Circulante / Pasivo Circulante Ventas / Total de Activos EBIT / Gastos Financieros Total de Deuda / Total de Activos Total de Deuda / Total de Patrimonio Margen Operacional / Total de Activos Utilidad del Ejercicio / Total de Activos
Categoría Liquidez Liquidez Actividad Cobertura Solvencia Solvencia Rentabilidad Rentabilidad
Donde la variable a predecir será si es que la empresa quiebra o no. Utilizando el SPSS Clementine1 cargamos los datos y los separamos, 60% de ellos para entrenamiento (Datos que servirán para hacer el árbol) y 40% para el grupo de comprobación (Datos que no están cuando se genera el modelo y servirán para ver la efectividad de este en otros casos).
1
Anexo 6 para más detalles.
113
FIG. 47: ÁRBOL DE DECISIÓN, SPSS CLEMENTINE
En este caso, usaremos el algoritmo C5.0. Dejando las variables por defecto del algoritmo tenemos:
FIG. 48: ÁRBOL DE DECISIÓN CON NODO C5.0, CASO QUIEBRA.
Análisis del grupo de entrenamiento: Partición' Correctos Erróneos
1_Entrenamiento 15 88,24% 2 11,76% 114
Total
17
Análisis del grupo de Comprobación
'Partición' Correctos Erróneos Total 13
2_Comprobación 10 76,92% 3 23,08%
Como se ve a primera vista, el modelo es muy coherente en lo que son el grupo de entrenamiento y el grupo de Comprobación. Este modelo se ve que las empresas pueden clasificarse según la liquidez y la rentabilidad si es que quiebran o no. No obstante, se puede mejorar los resultados variando las opción “ruido esperado”, pero eso es solo recomendable hacerlo cuando los árboles que tienen muchas hojas y son muy profundos, que no es este caso. Para ver otras opciones, probaremos el nodo árbol de decisión
115
:
FIG. 49: ÁRBOL DE DECISIÓN, CASO QUIEBRA
Partición Correctos Erróneos Total 17
1_Entrenamiento 17 100% 0 0%
'Partición'
2_Comprobación 116
Correctos Erróneos Total 13
9 4
69,23% 30,77%
En esta ocasión vemos un árbol de decisión más grande y que acierta completamente con los ejemplos de entrenamiento, pero que es menos efectivo con datos que no entraron al entrenamiento. Lo cual demuestra que a veces es mejor un árbol más simple para lo que es predicción.
117
CAPÍTULO 7: Redes Neuronales Artificiales Las redes neuronales artificiales son modelos matemáticos que simulan las propiedades de las redes neuronales biológicas imitando el comportamiento del cerebro humano, lo que le da ventajas importantes respecto de otros modelos predictivos. Para entenderlos bien es bueno hacer un acercamiento a las redes neuronales biológicas. 7.1 Redes Neuronales Biológicas “El aparato de comunicación neuronal de los animales y del hombre, formado por el sistema nervioso y hormonal, en conexión a los órganos de los sentidos y los órganos efectores (músculos, glándulas) tiene la misión de recoger informaciones, trasmitirlas y elaborarlas, en parte también almacenarlas y enviarlas de nuevo en forma elaborada.” (Viñuela & León, 2004) El sistema nervioso es el que recibe la información, la elabora, en parte la almacena y envía en forma elaborada a los órganos efectores. El elemento estructural fundamental de este es la célula nerviosa o neurona, las cuales utilizan el producto de sus secreciones como señales químicas (trasmisores) para enviar la información. Dicha información se envía entre distintas neuronas, a través de prolongaciones, formando redes (Godoy, 2012).
FIG. 50: NEURONA BIOLÓGICA
La cual tiene cinco funciones principalmente: 1. Las neuronas recogen información que llega a ellas en forma de impulsos, procedentes de otras neuronas o receptores. 2. Integran la información en un código de activación propio de la neurona. 3. Trasmiten la información codificada en forma de impulsos a través de su axón. 4. A través de sus ramificaciones el axón efectúa la distribución espacial de los mensajes.
118
5. En sus terminales transmite los impulsos a las neuronas subsiguientes o a las células efectoras. 7.2 Modelo Matemático Las neuronas artificiales utilizadas para construir estas redes neuronales son verdaderamente primitivas en comparación a las que se pueden encontrar en el cerebro. Sin embargo, el notable avance y la riqueza de herramientas teóricas y tecnológicas en conjunto, generan una gran satisfacción para los investigadores en el sentido en cómo el entendimiento, radicado en la analogía neurobiológica, se ha sofisticado en los últimos años (Viñuela & León, 2004), (Godoy, 2012). Una red neuronal artificial está compuesta por capas de neuronas: una capa de entrada, una capa oculta y una capa de salida. La capa de entrada contiene neuronas receptoras que captan la información desde el exterior de la red y la traspasan a la siguiente capa. La siguiente capa corresponde a la capa oculta. La capa oculta es a menudo simplificada en una sola, pero puede estar constituida por una o más capas. Se considera entonces el conjunto de capas ocultas como la capa oculta simplificada. La información es procesada por la capa oculta y transmitida hacia la siguiente capa de salida. Esta capa de salida posee neuronas que entregan la información final. Se puede ver a una red neuronal artificial como un grafo dirigido, donde los nodos corresponden a las neuronas de cada capa, conectadas cada una con las neuronas de la capa siguiente, y donde las conexiones entre ellas corresponden a los arcos entre nodos, cada uno con sus pesos respectivos. Se pueden identificar los siguientes elementos básicos en un modelo neuronal artificial: Un conjunto de sinapsis o conexiones neuronales, cada una de los cuales está caracterizada por un peso o fuerza por sí sola.
119
FIG. 51: CAPAS DE UNA RED NEURONAL ARTIFICIAL
Específicamente, una señal x j en la entrada de una sinapsis j conectada a una neurona k es multiplicada por un peso sináptico wkj . Un peso wkj es positivo si la sinapsis es excitadora; es negativo si la sinapsis es inhibitoria. Un sumador, para sumar las señales entrantes, ponderadas por sus respectivas conexiones neuronales. Estas operaciones constituyen a una combinación lineal. Una función de activación, que limita la amplitud de salida de la neurona a un valor finito. Generalmente, la amplitud normalizada del rango de salida de la neurona se escribe como el intervalo cerrado de la unidad [0,1], o alternativamente [−1,1]. El modelo de la neurona también incluye un parámetro externo llamado umbral θk, que tiene el efecto de reducir la entrada de la función de activación. Por otro lado, la entrada a la función de activación puede ser aumentada utilizando un término de sesgo en vez de un umbral, siendo éste el negativo del umbral. Matemáticamente, se puede describir una neurona k según el par de ecuaciones: ∑
Donde x1 ,x2 ,...,xp son las señales de entrada; wk1 ,wk2 ,...,wkp son los pesos sinápticos de la neurona k; uk es la combinación lineal de la salida; θk es el umbral; (.) corresponde a la función de activación; e yk es la señal de salida de la neurona. 120
FIG. 52: MODELO DE NEURONA, RED NEURONAL ARTIFICIAL.
La figura muestra el modelo matemático no lineal de una neurona artificial con un parámetro umbral que atenúa la entrada desde la red de la función de activación. Calculada la salida de una neurona, como se explicó anteriormente, esta se propaga, vía conexiones de salida, a las células destino. Varias de estas forman una red, como se muestra a continuación:
Patrones de entrada
Patrones de Salidas
Representación interna de las unidades FIG. 53: ESTRUCTURA BÁSICA DE UNA RED MULTICAPA.
La estructura básica de una red es la red multicapa mostrada en la figura anterior. El primer nivel lo constituyen las células de entrada, las que reciben los valores representados como vectores. A continuación hay una serie de capas intermedias, llamadas ocultas, cuyas unidades responden a rasgos particulares que pueden aparecer en los patrones de entrada. Puede haber uno o varios niveles ocultos. El último nivel es la salida, las cuales sirven para calcular los resultados finales de la red.
121
7.3 Tipos de Función de Activación La función de activación, denotada por (.), define la salida de una neurona en términos de su nivel de actividad en su entrada. Se pueden identificar tres tipos de funciones de activación: 1.- Función umbral: Para este tipo de función de activación, descrita en la siguiente ecuación: {
FIG. 54: FUNCIÓN UMBRAL
Correspondientemente, la salida de la neurona k empleando esta función de activación, será: ∑
Este modelo neuronal en particular, que utiliza una función umbral como función de activación, corresponde al llamado modelo de McCulloch-Pitts (McCulloch and Pitts, 1943). Aquí la salida de la neurona toma el valor de1 si el nivel de actividad interna total de esa neurona es no negativo y 0 en cualquier otro caso. Dicho de otro modo, si la suma de los entradas ponderadas que llegan a una neurona desde otras ( ∑ ), supera (o es mayor) al umbral de esa neurona (θk), la salida tomará valor de 1, y en cualquier otro caso tomará un valor de 0. 2.- Función lineal por tramos: Se ilustra esta función en la siguiente figura, se tiene:
122
{
FIG. 55: FUNCIÓN UMBRAL.
donde el amplificador dentro de la región lineal en operación se asume como la unidad; mientras este sea mayor, el rango del dominio de la región intermedia disminuye su amplitud. De esta función pueden existir dos situaciones, (Godoy, 2012): a) Surge una combinación lineal, si la región en operación se mantiene sin correr en saturación. b) La función lineal por tramos se reduce a una función umbral, si el factor de amplificación es infinitamente grande. 3.- Función sigmoidal: Esta función es por lejos la forma más común usada en la construcción de redes neuronales artificiales. Es definida como una función estrictamente creciente que exhibe propiedades asintóticas y de suavidad. Un ejemplo es la función logística, definida por:
123
donde a es un parámetro de pendiente de la función sigmoidal. En el límite, cuando el parámetro de pendiente se acerca al infinito, la función sigmoidal se convierte básicamente en una función umbral. Mientras que la función umbral toma los valores de 0 o 1, una función sigmoidal asume un rango continuo de valores desde 0 a 1. Esta propiedad continua la hace diferenciable, característica conveniente en el tratamiento matemático de la teoría de redes neuronales (Godoy, 2012). 7.4 Estructuras y Arquitectura de Red La topología describe la estructura de la red neuronal, esto es, como sus capas de neuronas están organizadas y conectadas. Una conexión es una única línea de comunicación que va desde una neurona que envía información hasta otra que recibe. Cuando la salida de una neurona es la entrada de una neurona de la misma capa u otra precedente, la red es una red con propagación hacia atrás. Aquellas redes propagadas hacia atrás que van en sólo una dirección se llaman redes recurrentes. Cuando la salida de una neurona va en una sola dirección, desde la capa de entrada hacia la capa de salida, la red es una red con propagación hacia adelante. Con esta información se distinguen entonces las siguientes estructuras de red, (Viñuela & León, 2004): a) Red con propagación hacia adelante con una capa (también llamada perceptrón). b) Red con propagación hacia adelante multicapa (también llamada perceptrón multicapa). c) Red recurrente. La forma en que las neuronas de una red están estructuradas está íntimamente relacionada al algoritmo de aprendizaje usado para entrenar a la red. Se habla entonces, de algoritmo de aprendizaje usado en el diseño de la red neuronal cuando se refiere a cómo se ha sido estructurada esta misma. 7.5 Aprendizaje Las redes neuronales son sistemas de aprendizaje basados en ejemplos. La capacidad de una red para resolver un problema estará ligada de forma fundamental al tipo de ejemplos que dispone el proceso de aprendizaje. Desde el punto de vista de los ejemplos, el proceso de aprendizaje debe poseer las siguientes características: 1. Ser significativo: Debe haber un número suficiente de ejemplos. 2. Ser representativo: Los componentes del conjunto de aprendizaje deberán ser diversos. Esto quiere decir, si se quiere medir la aparición de un caso especial, el conjunto de datos de entrenamiento debe tener datos con esa anomalía. El proceso de aprendizaje de una red de neuronas artificiales consiste en ir introduciendo paulatinamente todos los ejemplos del conjunto de aprendizaje y 124
modificar los pesos de las conexiones siguiendo un determinado esquema de aprendizaje hasta llegar a un criterio de convergencia dado. El criterio de convergencia depende del tipo de red utilizado, los cuales son: 1. Mediante un número fijo de ciclos. 2. Cuando el error descienda bajo una cantidad establecida. 3. Cuando la modificación de los pesos sea irrelevante. Sobre el tipo de aprendizaje, hay tres formas, (Godoy, 2012): 1. Aprendizaje supervisado (entrada, salida, objetivo). En este tipo de aprendizaje se le proporciona a la red un conjunto de ejemplos que determinan el comportamiento propio de la red. Se controla el entrenamiento según la respuesta que debería generar la red a partir de una entrada determinada. Algunos ejemplos de aprendizaje supervisado son: Aprendizaje por corrección del error: • Regla de aprendizaje del perceptrón. • Regla delta o del mínimo error cuadrado. • Regla delta generalizada o algoritmo de retro-propagación de error. Aprendizaje por refuerzo. Aprendizaje estocástico. 2. Aprendizaje no supervisado o aprendizaje auto-organizado (entrada, salida). Las entradas son las únicas disponibles para el aprendizaje, el algoritmo de la red aprende a categorizar las entradas. Lo que hace a la rede reconocer regularidades en el conjunto de entradas, es decir, estimar una función densidad de probabilidad que describe la distribución de patrones. Se enfoca generalmente a problemas de clustering, compresión de datos, clasificación y mapas topográficos. Este es una gran aproximación del aprendizaje humano y la percepción. Algunos ejemplos son:
Aprendizaje asociativo: Hebbiano. Aprendizaje competitivo y cooperativo: • Red de Kohonen • Cognitron
3. Aprendizaje reforzado (recompensa/castigo). A la red se le proporciona un grado de desempeño de la misma que debiese lograr. No se proporciona una salida deseada, pero si se le indica a la red una cierta medida del error que puede cometer, aunque es un error global. Aquí se pueden mencionar:
Algoritmo lineal con recompensa y penalización. Algoritmo asociativo con recompensa y penalización. Heurística crítica adaptativa. 125
7.6 Tipos de Redes Neuronales Artificiales Modelos de redes neuronales artificiales hay muchos como para describirlos todos, pero si se puede hacer una reseña de los más conocidos. Según su topología, algunos modelos de redes neuronales serían, (Viñuela & León, 2004): 1. Perceptron simple: Es una red unidireccional compuesta por dos capas de neuronas, una de entrada y la otra de salida, por lo tanto en este modelo las neuronas de entrada únicamente envían la información a las neuronas de salida. El aprendizaje de este tipo de red es del tipo supervisado y se basa principalmente en la regla de corrección de error con respecto a la salida deseada. 2. Perceptron multicapa: Este tipo de red neuronal artificial es una ampliación del anterior, ya que incorpora uno o más niveles de unidades ocultas. Un Perceptron multicapa es una red neuronal artificial con alimentación hacia delante y está compuesta de varias capas de neuronas entre la entrada y la salida, permitiendo de esta manera establecer regiones de decisión mucho más complejas en comparación con el Perceptron simple. 3. Redes hebbianas: Este tipo de redes tiene un aprendizaje no supervisado. Se basa en la regla de Hebb, la cual dice que cuando una neurona activa a otra, la sinapsis queda reforzada. Este tipo de redes nos indica que si en el momento de la asociación entre las neuronas, dos o más de ellas se activan simultáneamente, estas actuarán en conjunto incrementando o potenciando la sinapsis, ya que ahora la activación o desactivación de una de ellas influye en la otra, por consiguiente se pueden activar varias neuronas en la salida. 4. Redes Kohonen: Este tipo de red neuronal artificial que posee la capacidad de formar mapas de características de manera similar al cerebro. El objetivo de este modelo es demostrar que un estímulo externo (información de entrada) por si solo es suficiente para forzar la formación de estos mapas. Estos mapas se forman de la información de entrada, la cual mediante la semejanza de sus datos, forma diferentes categorías. Esta red utiliza el aprendizaje no supervisado de tipo competitivo, es decir, las neuronas compiten por activarse y sólo una de ellas permanece activa ante una determinada información de entrada, provocando que los pesos de las conexiones se ajusten en función de la neurona vencedora. 5. Redes Hopfield: Funciona como una memoria asociativa no lineal, que puede almacenar internamente patrones presentados de forma incompleta o con ruido. Esta red está formada por neuronas conectadas simétricamente (al existir una conexión desde la neurona Ni a la neurona Nj, también existe la conexión desde Nj a Ni y ambas con el 126
mismo peso Wij = Wji) y el conjunto permitido de valores de entrada y salida es (0,1) pudiendo ser (-1,1) o sea binario. Este modelo es similar al Perceptron, pero presenta una característica adicional y es que las neuronas de la capa media, presentan conexiones de salida hacia otras neuronas de la capa media. Este hecho, hace que en esta capa se dé una retroalimentación entre sus neuronas, de forma que al activarse una de las neuronas, las otras cambian su estado de activación, que a la vez hará cambiar el suyo. Por lo tanto, el patrón de activación se transmitirá sólo cuando se llegue a un equilibrio. Esta red no implica cálculo de pesos sinápticos ya que estos se mantienen constantes. 7.7 Caso: Predicción al Corto Plazo Fondo A de los Multifondos. El objetivo de este caso es estudiar el fondo A que ofrece una AFP de los multifondos (Contreras, 2012), estos son cinco alternativas de inversión, creadas para incrementar el valor esperado de las pensiones. Se han denominado alfabéticamente - A, B, C, D, E - y se diferencian unas de otras por el nivel de riesgo y rentabilidad que le dan a sus afiliados. El fondo A según la legislación chilena es definido como el fondo de pensiones donde la renta variable puede ser con un máximo de 80% y un mínimo de 40%. Para redes neuronales artificiales, por lo tanto hay que buscar variables que sus datos se adapten a los requisitos de la red. Como la rentabilidad de los multifondos esta dada de forma mensual en la superintendencia de pensiones no son datos suficientes para ingresarlos a una red, entonces se usará la cantidad de cada multifondo en su defecto, al haber datos diarios de estas variables. Es importante entender que al predecir la cantidad del fondo no solo se esta considerando la rentabilidad, sino que también como la gente mueve sus ahorros previsionales entre los fondos. Esto incluye el aporte de cada afiliado, si es que el afiliado cambia de fondos sus aportes y lo que se le paga al pensionado, (Contreras, 2012).
127
Pesos Chilenos
3,5E+13
Multifondos - Chile
3E+13 2,5E+13 2E+13 1,5E+13 1E+13 5E+12 0
Fondo A Fondo D
Fondo B Fondo E
Fondo C
FIG. 56: GRAFICO MULTIFONDOS, CASO RED NEURONAL ARTIFICIAL.
Para las variables de entrada, por parte del mercado se vio lo que las mismas AFP dicen que afecta a la rentabilidad, para así representar esa parte de la variabilidad de la cantidad del fondo. Sobre los cambios que hace el afiliado entre fondos, se sabe que tienen cierta relación con la economía y como se ven en el fondo, algo que se ve claramente en el gráfico en el caso del fondo E, donde aumento entre el 2008 y el 2009 en momentos de crisis. Esto último se debe por decisión propia del afiliado o por consejos de la misma AFP. Por ende, se supondrá que los cambios en la rentabilidad son los que explican en su totalidad o en gran parte, la variabilidad de los fondos. Las AFP dicen que la rentabilidad de los fondos está dividida en dos tipos de papeles, los de renta variable y los de renta fija, los cuales también pueden clasificarse en papeles internacionales y nacionales. Sobre la segunda clasificación nombrada las AFP dicen tener sus papeles en, (Contreras, 2012): Internacional: Asia Emergente Latino América Norteamérica Asia Pacifico Desarrollada Europa emergente África-Medio Oriente Europa Nacional: Servicios 128
Eléctrico Recursos naturales Industrial Telecomunicaciones
Para representar estas variables, en el caso internacional, se ocuparon los índices bursátiles de las economías más importantes de cada sector del mundo nombrado. En lo que es nacional, se ocuparon los índices sectoriales dados por la Bolsa de Santiago, estos índices no necesariamente representan el exacto sector económico a los que se refieren las AFP, pero si contienen a varias empresas que son importantes. Los índices que se usarán para el análisis son: Internacional Asia Emergente o SSE Composite Index (China) o BSE SENSITIVE (India) Latino América o IPC (México) o IBOVESPA (Brasil) Norteamérica o DowJones (USA) Asia Pacifico Desarrollada o Nikkei (Japón) Europa emergente o RTSI (Rusia) África-Medio Oriente o Tel Aviv (Israel) Europa o Next150 (Euronext) Nacional Banca (Chile) Construcción&Inmobiliario. (Chile) Utilities (Chile) Industrial (Chile) Retail (Chile) Consumo (Chile) Comodities (Chile) Por lo tanto, las variables para el modelo serían los datos del 3 de enero del 2006 al 30 de abril del 2012 de (Contreras, 2012): Variable objetivo 1. Cantidad diaria fondo A . Fuente: Superintendencia de pensiones. 2. Cantidad diaria fondo B. Fuente: Superintendencia de pensiones. 3. Cantidad diaria fondo C. Fuente: Superintendencia de pensiones. 4. Cantidad diaria fondo D. Fuente: Superintendencia de pensiones. 129
5. Cantidad diaria fondo E. Fuente: Superintendencia de pensiones. Variables de entrada SSE Composite Index (China). Fuente: Google Finance. BSE SENSITIVE (India). Fuente: Yahoo Finanzas. IPC (México). Fuente: Yahoo Finanzas. IBOVESPA (Brasil). Fuente: Yahoo Finanzas. DowJones (USA). Fuente: Yahoo Finanzas. Nikkei (Japón). Fuente: Yahoo Finanzas. RTSI (Rusia). Fuente: Yahoo Finanzas. Tel Aviv (Israel). Fuente: Yahoo Finanzas. Next150 (Euronext). Fuente: Yahoo Finanzas. Banca (Chile). Fuente: Bolsa de Santiago. Const.&Inmob. (Chile). Fuente: Bolsa de Santiago. Utilities (Chile). Fuente: Bolsa de Santiago. Industrial (Chile). Fuente: Bolsa de Santiago. Retail (Chile). Fuente: Bolsa de Santiago. Consumo (Chile). Fuente: Bolsa de Santiago. Comodities (Chile). Fuente: Bolsa de Santiago. Dado la cantidad de variables se hizo una división en el modelo, quedando un modelo por cada fondo en las variables objetivo y en las variables de entrada las variables que fueran más correlacionadas. Para elegirlas se uso la correlación lineal de Pearson. Esto es solo para hacer ejemplo más rápidamente, pero se aconseja buscar más formas de elegir bien las variables de entrada.
Correlaciones de Pearson SSE Composite Index - China
0.499
DowJones
0.369
Nikkei
-0.377
RTSI
0.490
Next150
0.315
IPC - Mexico
0.950
IBOVESPA
0.909
BSE SENSITIVE
0.921
TEL AVIV
0.826
Banca
0.202
CONST.&INMOB.
0.928
UTILITIES
0.802
INDUSTRIAL
0.846
130
RETAIL
0.874
CONSUMO
0.882
Comodities
0.948
Quedando: Variable objetivo 1. Cantidad diaria fondo A . Fuente: Superintendencia de pensiones. Variables de entrada BSE SENSITIVE (India). Fuente: Yahoo Finanzas. IPC (México). Fuente: Yahoo Finanzas. IBOVESPA (Brasil). Fuente: Yahoo Finanzas. Const.&Inmob. (Chile). Fuente: Bolsa de Santiago. Consumo (Chile). Fuente: Bolsa de Santiago. Comodities (Chile). Fuente: Bolsa de Santiago. Para entrenar estas redes se decidió hacer tres grupos de datos. Primero un grupo de Entrenamiento, el cual es el grupo con que se entrena la red en el programa, el grupo de Comprobación, que son datos dentro de la misma fecha del grupo de entrenamiento que no se ocupan en la red, que sirven para ver si la red fue bien entrenada y el de Validación, que sirve para ver como se comporta la red fuera de los datos que se dieron. Estos fueron conformados así, (Contreras, 2012): Datos 2006-2011
Entrenamiento
Comprobación Datos enero-abril 2012
Validación FIG. 57: GRUPOS DE ENTRENAM IENTO, COMPROBACIÓN Y VALIDACIÓN, CASO RED NEURONAL ARTIFICIAL
Después de esto se entrenaron todos los modelos disponibles dentro del SPSS Clementine. Se decidió elegir el mejor modelo considerando dos índices: El error absoluto promedio y la Correlación lineal, que representan en cierta forma lo deseado para predecir una variable. Comprobación Entrenamiento
Error absoluto promedio 131
Correlación lineal
Poda Exhaustiva Poda Dinámico Múltiple Rápido
2,91491E+11 3,3053E+11 3,64206E+11 4,003E+11 4,56332E+11
0,991 0,99 0,986 0,985 0,98
Validación Entrenamiento Rápido Poda RBFN Dinámico Múltiple Poda Exhaustiva
Error absoluto promedio Correlación lineal 3,23461E+11 0,688 4,0342E+11 0,521 4,48283E+11 0,749 4,58413E+11 0,661 4,82953E+11 0,652 6,05515E+11 0,583
Para este caso fue elegido el modelo generado por el entrenamiento del SPSS Poda. Principalmente porque es el que muestra los mejores resultados en los dos grupos de entrenamiento y una correlación lineal positiva.
FIG. 58: GRÁFICO GRUPO DE COMPROBACIÓN, CASO RED NEURONAL
132 FIG. 59: GRÁFICO GRUPO DE VALIDACIÓN, CASO RED NEURONAL
En el gráfico de comprobación se ve que la predicción (Que es la nombrada como $N-FondoA) es muy cercana y certera a los datos reales. Mientras que en la validación se ve la misma tendencia, pero al final se ve que los datos que predice la red tienden a estar más debajo de los datos reales. Antes de predecir valores en los fondos de pensiones hay que dar valores a las otras variables, es decir, generar un escenario. Para esto se tomaron las predicciones anuales hechas por la OCDE (Organización para la Cooperación y el Desarrollo Económico) para los países dentro del 2012 y las predicciones hechas por los distintos sectores económicos del país sobre su crecimiento. En el caso de no encontrarse se hizo la suposición de que crecían al mismo porcentaje anual que el año pasado.
País
% crecimiento Anual
Q1
Q2
Q3
Q4
2,40%
2,20%
2,50%
2,50%
2,50%
-0,10%
0,00%
-0,30%
0,30%
0,70%
Japón
2,00%
4,10%
0,80%
1,20%
1,40%
México
3,60%
Brasil
3,20%
China
8,20%
India
7,10%
Rusia
4,50%
Israel
3,20%
USA Euro área
Anual
Q1
Construcción e Inmobiliaria
7,50%
Banca
5,30%
Utilities
6,76%
Consumo
6,09%
Industrial
-7,40%
Retail
-16,50%
Comodities
-10,70%
Q2
Q3
Q4
Después de esto, se calcularon las tasas diarias. Tasas diarias USA Euro área Japón
Anual Q1 0,0065%
0,0239%
Q2 0,0271%
0,0271%
0,0271%
-0,0003%
0,0000%
-0,0033%
0,0033%
0,0076%
0,0054%
0,0440%
0,0087%
0,0131%
0,0152%
133
Q3
Q4
México
0,0097%
Brasil
0,0086%
China
0,0216%
India
0,0188%
Rusia
0,0121%
Israel
0,0086% Anual
Construcción e Inmobiliaria
0,0198%
Banca
0,0142%
Utilities
0,0179%
Consumo
0,0162%
Industrial
-0,0211%
Retail
-0,0494%
Comodities
-0,0310%
Q1
Q2
Q3
Q4
La predicción se hizo hasta el segundo cuarto del año 2012, empezando desde abril y considerando las tasas diarias. En las variables donde había tasas trimestrales se uso el valor diario calculado a partir de esas tasas. Resultados finales: Tras hecho todo lo anteriormente nombrado aquí están los resultados de las predicciones hechas por los modelos. Para un mayor análisis se agregará una comparación de los resultados al 30 de mayo del 2012, (Contreras, 2012).
Predicción Real
Valor (Pesos chilenos) 13.239.091.863.295.13.009.402.685.534.-
Variación Abril-Mayo -5,88% -4,22%
134
FIG. 60: PREDICCIÓN FONDO A, CASO RED NEURONAL.
El fondo A, como anteriormente se dijo, se veía que sería un buen modelo de predicción al corto plazo. Como se ve en la predicción de mayo, teniendo un error del 1% en la variación Abril-Mayo. El resultado es inusualmente cercano, para haber calculado las variables de entrada linealmente.
135
CAPÍTULO 8: Reflexiones Sobre el Modelo Propuesto El trabajo de dirección estratégica debe ser liderado por los altos ejecutivos, dado que es el corazón de la actividad de una organización; sin un marco estratégico no se sabe a dónde ir o por qué se quiere llegar allí. Por ello, tampoco importa por qué se ha llegado allí. Peter Drucker 2, autor de múltiples obras reconocidas mundialmente sobre temas referentes a la gestión de las organizaciones, sistemas de información y sociedad del conocimiento, propuso que el desempeño de un alto directivo sea juzgado mediante el doble criterio de eficacia -la habilidad para hacer las cosas “correctas”- y eficiencia -la habilidad para hacerlas “correctamente”-. También, se puede reconocer que la sociedad y su entorno están sufriendo dinámicos cambios demográficos, económicos, sociales y de competitividad nacional e internacional de gran trascendencia. Es así, que la globalización es responsable en gran parte de la creciente competitividad de los mercados, debido al alto desarrollo de las tecnologías y las comunicaciones y los tratados comerciales. De estos cambios no puede quedar fuera una organización, la cual necesita ir evolucionando para no quedar atrás, y perder participación en su sector industrial. Ante el entorno cambiante que se desenvuelven, el exceso de información y los altos niveles de competitividad, se requiere un marco de referencia confiable y práctico que permita llevar a cabo una eficiente y efectiva dirección estratégica, donde las decisiones de corto plazo no afecten los lineamientos de sustentabilidad del negocio, adquiriendo relevancia la utilización de métodos y herramientas que permitan desarrollar una apropiada gestión y sustentar los objetivos organizacionales relacionados a generar un valor agregado en el conjunto de sus actividades utilizando eficientemente sus recursos. Y una de sus actividades fundamentales es la planificación estratégica. El proceso de planificación estratégica está inserto en el marco de la dirección estratégica, el cual es un método sistémico, holístico en una organización, que tiene como principal característica ser sistemático y participativo. Este proceso se apoya en la convicción de que el futuro será muy diferente al pasado. Luego, imagina un futuro a partir del presente, lo visualiza, inventa, tomando en cuenta aquellos posibles escenarios perceptibles hoy. Parte esencial es la identificación de oportunidades y amenazas en el medio ambiente en que se desenvuelve la organización y, su contraste con las fortalezas y debilidades de la empresa. Incluye diferentes actividades que van desde: 1) acuciosa recopilación y análisis de información, utilizando métodos y técnicas estadísticas, 2
Peter Drucker, abogado y tratadista austríaco, autor de numerosas obras sobre gestión de las organizaciones y sociedad del conocimiento, reconocido como padre del management moderno. Fue uno de los líderes más influyente del siglo XX.
136
econométricas, business intelligence, data mining o minería de datos, etc. 2) examinar el futuro, producir nuevas ideas; 3) determinación de objetivos globales y estrategias; 4) hasta formalizar planes y acciones para lograrlos. Una propuesta de un paradigma de dirección estratégica es fundamental para liderar una organización en un sistema altamente competitivo y globalizado. El modelo de dirección estratégica propuesto surge de la investigación de documentos de varios autores y la experiencia de haberlo aplicado a diversas organizaciones en diferentes sectores industriales y se caracteriza por ser un procedimiento se puede aplicar en cualquier tipo de organización, utilizando un método top-down, desde el ápice estratégico hasta el nivel operativo de la organización. Por otra parte, el éxito de las organizaciones sin fines de lucro se debe a cuán eficiente y eficazmente satisfacen las necesidades de sus usuarios. El método propuesto también proporciona a estas organizaciones un instrumento para respaldar su dirección estratégica, este transforma los objetivos estratégicos en un conjunto de medidas de rendimiento posibles de evaluar y controlar periódicamente. Es un método estructurado para seleccionar los indicadores de gestión que guían la dirección en el corto y largo plazo, al combinar indicadores financieros y no financieros, y permite adelantar tendencias y realizar una política estratégica proactiva. Evaluar la gestión como se puede observar es posible en cualquier contexto y se pueden utilizar modelos y métodos cualitativos y cuantitativos que fueron pensados para empresas de todo tipo. Consecuentemente con esto el modelo propuesto muestra que la base de toda propuesta tiene que tener bases científicas robustas, ampliamente investigada por diversos científicos, pudiendo incluir la problemática actual del management al valorar, medir y gestionar incluso el valor oculto en cualquier compañía asociada al recurso humano. Dado el enfoque fundamental de este método, creando las condiciones esenciales para la obtención de las mejores capacidades y habilidades de las personas, este generará inequívocamente un impacto directo en la motivación, en el clima organizacional, en la mejora de los liderazgos, en el empoderamiento de las personas en sus funciones, y por ende, el natural impacto en los procesos internos de las compañías, con el consecuente incremento de la satisfacción de los clientes y finalmente poder obtener los resultados financieros sobresalientes. La teoría de la neurociencia puede complementar el modelo, al considerar cinco aspectos claves, que pasan a ser la base donde se construye todo sistema de dirección. Al haber incorporado la quinta perspectiva en el diseño de los sistemas de control, pensando en el comportamiento de las personas en las organizaciones, se recoge otra de las inquietudes más relevantes en materia de dirección del personal. 137
El modelo estima que el valor oculto de una organización radica en poder generar las condiciones necesarias para permitir desarrollar todas las capacidades de los individuos que forman parte de una compañía. Si bien es cierto se tiene la percepción que el modelo propuesto de dirección estratégica es un método adecuado, este requiere de mayores estudios y comprobaciones futuras, en una etapa posterior es necesario poder demostrar a ciencia cierta los resultados del nuevo modelo, donde se pueda desarrollar más experimentos, manipulación de variables y datos con modelos cuantitativos. Un principio que es esencial en esta propuesta es intuir que las personas son el centro de la dirección en las organizaciones, como muchos plantean, y existen buenas intenciones pero sin abordar realmente la problemática. La estrategia de dirección del personal no es considerada como pieza clave en las compañías, aunque todos los ejecutivos del área saben que son las personas quienes determinan la estrategia, es por esta sencilla razón que se estima que, al profundizar en la gestión de personas el trabajo aclara aspectos esenciales para ser eficientes, que todos los expertos en managment concuerdan. Los cinco aspectos fundamentales de la quinta perspectiva considerada en el sistema de control de gestión (ver mapa estratégico, FIG. 14 y 15), tienen como denominador común que todos estos son fundamentales para las personas en las organizaciones, porque incrementan la concentración, la productividad, la motivación, el liderazgo, el empoderamiento, etc. Se debe buscar crear una comunidad de talentos, de modo de atraer, desarrollar, motivar, comprender y retener la mejor dotación de personas. Permitir el desarrollo de carrera y capacitación del personal, así entonces se da cuenta de forma inequívoca la conexión del personal con la estrategia fundamental de la organización.
138
Bibliografía Beer, S. (1988). Brain of the Firm Second Edition. London and New York: John Wiley. Chang, W. & Mauborgne, R. (2005). La estrategia de Océano Azul. Editorial Norma. Contreras, R. (2012). Modelos matemáticos para el análisis estratégico de un sector financiero. Valparaíso: UTFSM. Drucker, P. F. (2004). What Makes An Effective Executive. Harvard Business Review. Godoy, F. (Octubre de 2012). Predicción de la probabilidad de quiebra de empresas en Chile mediante redes neuronales artificiales. Chile: UTFSM. Gujarati, D. N. (2004). Econometría. McGraw-Hill Interamerica. Hax, A. & Majluf, N. (1996). Gestión de Empresa. Ediciones Dolmen. Hax, A. & Wilde, D. (1999). The Delta Model: Adaptive Management for Changing World. Sloan Management Review, 11-28. Hax, A. & Wilde, D. (2003). Delta Project. Bogotá: Editorial Norma. Hernández, J., Ferri Ramirez, C., Ramirez Quintana, Ma. (2004). Introducción a la Minería de datos. Editorial Pearson. Hunger, J. D. (2003). Strategic Management. Prentice Hall. Johnson, G. & Scholes, K. (2001). Strategic Administration. Prentice Hall. Kaplan, R. & Norton, D. (Septiembre-Octubre de 2000). Having Trouble with Your Strategy? Then Map It. Harvard Business Review, 167-176. Kaplan, R., & Norton, D. (September-October de 1993). Putting the Balance Scorecard to Work. Harvard Business Review, 134-142. Kaplan, R., & Norton, D. (Enero-Febrero de 1996). Using the Balanced Scorecard as a Strategic Management System. Harvard Business Review, 75-85. Kaplan, R., & Norton, D. (2001). Cómo Utilizar el Cuadro de Mando Integral para Implantar y Gestionar su Estrategia. España: Gestión 2000. Kaplan, R., & Norton, D. (2004). Mapas Estratégicos. España: Gestión 2000. Kaplan, R., & Norton, D. (2004). The Strategy Map: Guide to Aligning Intangible Assets. Strategy & Leadership, 32(5), 10-17. Porter, M. E. (1980). Competitive Strategy. New York: Free Press. Porter, M. E. (1987). Ventaja Competitiva. México: CECSA. Porter, M. E. (Marzo-Abril de 1990). The Competitive Advantage of Nations. Harvard Business Review, 73-93. Reguera, P. F. (2000). Apuntes de Econometría. Saavedra, O. & Kristjanpoller, W. (2012). Dirección Estratégica en organizaciones sin fines de lucro & Data Warehouse (págs. 10-18). Colombia: Congreso Iberoamericano, SOCOTE. Saavedra, O., Saavedra, D. & Torres, A. (2012). Modelo de Dirección Estratégica (págs. 100-110). ENEFA. Samuelson, P. N. (2001). Macroeconomía, Decimosexta edición. España: McGraw-Hill. 139
Shmueli, G., Patel, N., & Bruce, P. (2007). Data Mining for Business Intelligence. Estados Unidos de Norteamerica : John Wiley & Sons, Inc. Viñuela, P. I., & León, I. M. (2004). Redes de Neuronas Artificiales. Un enfoque práctico. Madrid: Pearson Prentice Hall. Wooldridge, J. M. (2006). Introducción a la Econometría, Un enfoque Moderno. Paraninfo.
140
Anexos Anexo 1: Análisis de Regresión Lineal en SPSS Statistical Package for the Social Sciences (SPSS) es un programa estadístico informático muy usado en las ciencias sociales y las empresas de investigación de mercado. En la actualidad, la sigla se usa tanto para designar el programa estadístico como la empresa que lo produce. Originalmente SPSS fue creado como el acrónimo de Statistical Package for the Social Sciences aunque también se ha referido como "Statistical Product and Service Solutions". Como programa estadístico es muy popular su uso debido a la capacidad de trabajar con bases de datos de gran tamaño. El programa consiste en un módulo base y módulos anexos que se han ido actualizando constantemente con nuevos procedimientos estadísticos. Cada uno de estos módulos se compra por separado. Como se mencionó en el capítulo 3, los modelos de regresión lineal son los modelos que la variable predictora X, la variable respuesta Y y los parámetros β son lineales. Lo cual se puede presentar como:
Los estimadores pueden ser calculados de tres maneras, por Mínimos cuadrados ordinarios (MCO), Máxima Verosimilitud y Mínimos cuadrados ordinarios. En el SPSS se calculan en base a MCO, por lo tanto cuando se arma un modelo de Regresión lineal, sea simple o múltiple, hay que tener en consideración los supuestos de MCO en el cálculo de estos. En el SPSS se puede calcular entrando a:
REGRESIÓN LINEAL SPSS
Donde aparece la siguiente ventana:
141
VENTANA DE REGRESIÓN LINEAL SPSS.
En la parte izquierda, tenemos una lista con todas las variables de nuestro archivo de datos. El icono que tiene cada variable representa el tipo de dato que fue especificado para esta variable (en la vista de variables). De esta lista seleccionaremos, haciendo click sobre la variable correspondiente y luego presionando el botón con una flecha para cada opción. Las que son: Variable Dependiente: Es la variable endógena de la regresión, y es la que será explicada por las demás variables independientes o exógenas. Generalmente es se refiere a ella como “Y” en la literatura. Variables Independientes: Son las variables exógenas de la regresión, y son aquellas que explicaran el comportamiento de la variable dependiente. Los métodos disponibles son: Introducir: En este método se introducen todas las variables del bloque de un solo paso. Por pasos: En cada paso se introduce la variable independiente que no se encuentre ya en la ecuación y que tenga la probabilidad para F más pequeña, si esa probabilidad es suficientemente pequeña. Las variables ya introducidas en la ecuación de regresión se eliminan de ella si su probabilidad para F llega a ser suficientemente grande. El método termina cuando ya no hay más variables candidatas a ser incluidas o eliminadas. Eliminar: Las variables de un bloque se eliminan todas de un solo paso. Este método no es muy útil si se utiliza un solo bloque, ya que eliminamos todas las variables del modelo. Es útil cuando tenemos más de un bloque y queremos elegir que variables eliminar para realizar comparaciones entre modelos con distintas variables. 142
Eliminación hacia atrás: Procedimiento en el que se introducen todas las variables al modelo y luego se van eliminando una por una. Aquella variable que tenga la menor correlación parcial con la variable dependiente será la primera en ser considerada para su eliminación. Si satisface el criterio, será eliminada. El proceso se repite hasta que ya no queden variables en el modelo que satisfagan el criterio de eliminación. Selección hacia adelante: Aquí se tiene primero el modelo sin variables y luego se van considerando una por una para ser introducidas en el mismo. La primera variable a considerar es aquella que presenta la mayor correlación parcial con la variable dependiente. Si satisface el criterio, ingresara el modelo. El proceso se repite hasta que ya no queden variables fuera del modelo que satisfagan el criterio de selección.
Los criterios de eliminación y selección mencionados en los métodos por pasos, hacia atrás y hacia adelante se pueden configurar en la casilla “Opciones”. Aparecerá el siguiente cuadro:
VENTANA DE OPCIÓNES REGRESIÓN LINEAL
Podemos elegir utilizar o la probabilidad de F (significación) o el valor de F para los criterios de entrada y salida de variables. El programa ya viene con valores por defecto para estas opciones. Probabilidad de F: Una variable se introduce en el modelo si su nivel de significación es menor al valor de entrada y se elimina si su significación del valor de F es mayor que el valor de salida. Usar valor de F: Una variable se introduce en el modelo si su valor de F es mayor al valor de entrada y se elimina si su valor de F es menor que el valor de salida. Se debe establecer un valor de F mayor para la entrada que para la salida y utilizar dos valores positivos. 143
También en podemos elegir si queremos incluir o no la constante en la ecuación. Una ecuación sin constante (sin intercepto) pasa por el origen. Generalmente no se acostumbra a utilizar esta opción, ya que la interpretación de los resultados de un modelo con o sin intercepto no son comparables. De igual forma, podemos elegir como queremos que se traten los valores perdidos de las variables, que fueron mencionados en la primera parte. Tenemos las siguientes opciones: Excluir casos según lista: Solo se incluirán en el análisis los casos con valores validos para todas las variables Excluir casos según pareja: Los casos con datos completos para la pareja de variables correlacionadas se utilizan para calcular el coeficiente de correlación en el cual se basa el análisis de regresión. Remplazar por la media: Se emplean todos los casos en los cálculos, sustituyendo las observaciones perdidas por la media de la variable. Variable de selección: es posible establecer una regla de selección para que se escojan solo algunas observaciones. Se debe escoger la variable que queremos utilizar para discriminar la selección y luego establecemos la regla. Teniendo esto se puede especificar el modelo, al apretar aceptar en la pantalla de resultados aparecerá: Variables introducidas/eliminadas Variables
Variables
Modelo
introducidas
eliminadas
Método
1
X4, X1, X3a
.
Introducir
a. Todas las variables solicitadas introducidas.
Resumen del modelo R cuadrado
Error típ. de la
Modelo
R
R cuadrado
corregida
estimación
1
,737a
,543
-,829
,98324
a. Variables predictoras: (Constante), X4, X1, X3 TABLA 1: RESULTADOS MODELO REGRESIÓN LINEAL SPSS. (FUENTE: ELABORACIÓN PROPIA)
En resumen del modelo observamos los valores R y R 2 que son los coeficientes de determinación, los cuales nos permiten ver cuánto se explica del 144
comportamiento de las variables el modelo, en este caso sería un 54,3% dado por el R2. b
ANOVA Suma de Modelo 1
cuadrados
Gl
Media cuadrática
F
Sig.
Regresión
1,147
3
,382
,396
,790
Residual
,967
1
,967
Total
2,114
4
a
a. Variables predictoras: (Constante), X4, X1, X3 b. Variable dependiente: Y TABLA 2: RESULTADOS TABLA ANOVA SPSS. (FUENTE: ELABORACIÓN PROPIA)
Aquí se nos muestra la tabla Anova explicada en el capítulo III, además de esto nos da la significación o el valor p (También llamado p-value) este nos sirve para poder comparar las dócimas sin tener que calcular los estimadores. El valor p es la probabilidad de rechazar la hipótesis nula cuando esta es verdadera, mientras menor sea es mejor, el cual se compara con el nivel de significación que se requiere (generalmente es 0,05). En este caso se muestra un valor p bastante alto (0,79) por lo cual no se puede rechazar la hipótesis nula del estadístico F. Coeficientesa Coeficientes Coeficientes no estandarizados Modelo 1
B
Error típ.
(Constante)
-35,066
55,497
X1
,459
2,909
X3
8,516
X4
-7,017
tipificados Beta
t
Sig.
-,632
,641
,146
,158
,000
18,732
,535
,455
,728
6,737
-,971
-1,042
,487
a. Variable dependiente: Y TABLA 3: RESULTADOS MODELO REGRESIÓN LINEAL SPSS. (FUENTE: ELABORACIÓN PROPIA)
Siendo en la última tabla en coeficientes la que nos muestra los betas de la regresión en Coeficientes no estandarizados, B en este caso sería Y = -35,066 + 0,459X1 + 8,516X3 – 7,017X4. En t se ve el valor t de cada parámetro y en Sig esta el valor p de la prueba de hipótesis por cada uno, como se ve, la hipótesis nula solo se rechaza en X1, donde el valor p es menor a 0,05.
145
Análisis de los residuos Para que una regresión sea significativa hay que hacer un análisis de residuos en ella, para comprobar la no existencia de heterocedasticidad, multicolonealidad y autocorrelación. Heterocedasticidad En SPSS se pueden hacer gráficos de los residuos para poder hacer el análisis de residuos:
GRÁFICOS DE RESIDUALES SPSS
Para obtenerlos, se entra en “Gráficos”, que está en las opciones de la regresión lineal. Así se pueden obtener estos y un histograma.
GRÁFICOS REGRESIÓN LINEAL, SPSS
146
Siendo estos: DEPENDNT: Variable dependiente. *ZPRED: Valores pronosticados tipificados. *ZRESID: Residuales tipificados. *DRESID: Residuales eliminados. *ADJPRED: Valores pronosticados corregidos. *SRESID: Residuales estudentizados. *SDRESID: Residuales estudentizados eliminados. También se pueden obtener el valor de los residuos tipificados o no en el SPSS. Al entrar en análisis en la regresión se aprieta en “Guardar”, ahí nos mostrará la siguiente ventana:
RESIDUOS Y RESIDUOS TIPIFICADOS, SPSS
Multicolonealidad Para hacer pruebas de multicolonealidad en SPSS se hace un análisis de colinealidad que se puede hacer entrando en “Estadísticos” de la ventana de Regresión Lineal.
147
DIAGNOSTICO DE COLINEALIDAD SPSS
Con esto se puede calcular el FIV, que saldrá en esta tabla:
DIAGNOSTICO DE COLINEALIDAD PANTALLA DE RESULTADOS SPSS
Se ven los índices de condición mayores que 30, para estos si alguna de las proporciones de la varianza es mayor que 90%, significa que hay colinealidad. Autocorrelación Para detectar la autocorrelación en el SPSS se tienen dos herramientas principalmente en lo que es regresión lineal. Graficar los residuos (Explicado en la parte de heteroestacidad) y la dócima de DW, la cual al ser seleccionada en la ventana de estadísticos aparece en el resumen de la regresión: Resumen del modelo
Modelo 1
R
R cuadrado
Error típ. de la
corregida
estimación
R cuadrado a
,094
b
,009
-,322
Durbin-Watson
,83573
a. Variables predictoras: (Constante), X1 b. Variable dependiente: Y TABLA 44: RESULTADOS MODELO REGRESIÓN LINEAL SPSS.
Siendo los criterios para ver la autocorrelación los siguientes: 148
1,935
Entre 0 - 1,078 1,078 - 1,66 1,66 - 2,34 2,34 2,922 2,922 - 4
Correlación Positiva Incierta Nula Incierta Negativa
Análisis de residuos Todos lo explicado en el capítulo 3, para análisis de residuos puede encontrarse en la opción Regresión lineal: Guardar, en el software SPSS.
VENTANA PARA GUARDAR DATOS, REGRESIÓN LINEAL SPSS
Por el cual se termina mostrando:
149
a Estadísticos sobre los residuos
Valor pronosticado Valor pronosticado tip. Error típico del v alor pronosticado Valor pronosticado corregido Residuo brut o Residuo t ip. Residuo estud. Residuo eliminado Residuo eliminado est ud. Dist . de Mahalanobis Dist ancia de Cook Valor de inf luencia centrado
Mínimo 8,3397 -2,168
Máximo 49,8464 3,440
Media 24,3844 ,000
Desv iación típ. 7,40139 1,000
,701
2,513
,948
,286
294
8,4853
50,5264
24,3848
7,39960
294
-31,97624 -2,663 -2,675 -32,27098 -2,704 ,001 ,000
38,33554 3,192 3,205 38,65010 3,258 11,835 ,050
,00000 ,000 ,000 -,00046 ,001 ,997 ,004
11,98817 ,998 1,002 12,07426 1,006 1,559 ,007
294 294 294 294 294 294 294
,000
,040
,003
,005
294
N 294 294
a. Variable dependiente: estrés total
ESTADÍSTICOS SOBRE LOS RESIDUOS SPSS.
La tabla “Estadísticos sobre los residuos” nos ofrece información del rango, tendencia central y dispersión de las variables que hemos creado con objeto de identificar casos alejados y/o influyentes. No es necesario para saber si hay casos atípicos o influyentes listar todos esos valores. Es suficiente con evaluar si el valor máximo y/o mínimo de las medidas de alejamiento o influencia superan los umbrales establecidos. En tal caso conviene realizar un histograma, un gráfico de puntos o un gráfico de dispersión colocando el número del caso (filas de la matriz de datos) en el eje de abscisas y las medidas de alejamiento o de influencia en el eje de ordenadas. En este caso no parece que haya ningún caso claramente influyente.
GRÁFICOS REGRESIÓN LINEAL, SPSS
150
Es útil realizar el gráfico de dispersión de los residuos estandarizados frente a las puntuaciones ajustadas estandarizadas (pronósticos estandarizados). Estos gráficos de residuos frente a puntuaciones ajustadas son los que proporcionan más información acerca del cumplimiento de los supuestos del modelo y juegan un papel fundamental en la identificación de valores alejados e influyentes. Además del gráfico de dispersión, hemos seleccionado el histograma y el gráfico de probabilidad normal. Estos gráficos nos permiten, mediante inspección visual, valorar el cumplimiento del supuesto de normalidad en los residuos. No obstante, se puede realizar una prueba de significación que elimine la ambigüedad inherente a la inspección visual.
Histograma
Variable dependiente: estrés total
50
Frecuencia
40
30
20
10
0 -3
-2
-1
0
1
2
3
4
Media =1,6E-16 Desviación típica =0, 998 N =294
Regresión Residuo tipificado
HISTOGRAMA RESIDUOS, SPSS
Gráfico P-P normal de regresión Residuo tipificado
Variable dependiente: estrés total 1,0
Prob acum esperada
0,8
0,6
0,4
0,2
0,0 0,0
0,2
0,4
0,6
0,8
1,0
Prob acum observada
GRÁFICOS DE PROBABILIDAD NORMAL DE RESIDUOS, SPSS.
151
Gráfico de dispersión
Variable dependiente: estrés total
Regresión Residuo tipificado
4
3
2
1
0
-1
-2
-3 -3
-2
-1
0
1
2
3
4
Regresión Valor pronosticado tipificado
GRÁFICO DE DISPERSIÓN DE RESIDUOS, SPSS.
Los gráficos histograma y gráfico P-P normal de regresión nos permiten valorar el alejamiento del supuesto de normalidad. Comparando la curva normal con la distribución empírica en el histograma y evaluando el alejamiento de los puntos representados en el segundo gráfico con respecto a la diagonal. Podemos concluir que no existen grandes desviaciones de la curva normal. Por último el gráfico de dispersión de residuos frente a puntuaciones ajustadas. Con este gráfico podemos evaluar errores en la especificación del modelo por incumplimiento del supuesto de linealidad. En la medida en que aparezcan tendencias curvilíneas en el gráfico, el modelo utilizado sería incorrecto.
152
Anexo 2: Análisis de Series de Tiempo en el Software SPSS Para estimar modelos de serie de tiempo en el SPSS primero es conveniente definir las fechas de estas. Aunque no es necesario completamente si puede ayudar a usar opciones en los modelos de las series de tiempo, especialmente cuando se quieren crear predicciones. En la ventana para definir fechas, nos dirá que definamos como son los casos, el SPSS nos da distintas opciones. Al elegir el tipo de caso nos pedirá que definamos la fecha del primer caso. Después de esto aparecerán nuevas columnas en el editor de datos. Con estas el programa podrá saber las fechas de cada dato. DEFINIR FECHAS - SPSS
Tras esto entramos a crear modelos en Analizar > Predicciones modelos para crear nuestra serie temporal.
DEFINIR SPSS
> Crear
FECHAS -
153
MODELIZADOR DE SERIES TEMPORALES - SPSS
Aquí podemos escoger el método en que queremos que el programa modele la serie de tiempo el cual puede ser autorregresivo integrado de media móvil (ARIMA) o un modelo suavizado exponencial. También existe el procedimiento de Modelizador experto que identifica y estima automáticamente el modelo ARIMA o de suavizado exponencial eligiendo el que mejor se ajuste para una o más series de variables dependientes, lo que elimina la necesidad de identificar un modelo adecuado mediante ensayo y error. Otra posibilidad consiste en especificar un modelo ARIMA o de suavizado exponencial personalizado. Entre los modelos que se puede elegir en SPSS son: Suavizamiento exponencial: No estacional: o Simple. Este modelo es adecuado para las series en las que no existe tendencia o estacionalidad. Su único parámetro de suavizado es el nivel. El suavizado exponencial simple es el más similar a un modelo ARIMA con cero órdenes de autorregresión, un orden de diferenciación, un orden de media móvil y sin constante. o Tendencia lineal de Holt. Este modelo es adecuado para las series con una tendencia lineal y sin estacionalidad. Sus parámetros de suavizado son el nivel y la tendencia, y sus valores no se restringen mutuamente. El modelo de Holt es más general que el modelo de Brown pero puede llevar más tiempo de computación con series largas. El modelo de suavizado exponencial de Holt es muy similar a un modelo ARIMA con cero órdenes de autorregresión, dos órdenes de diferenciación y dos órdenes de media móvil. o Tendencia lineal de Brown. Este modelo es adecuado para las series con una tendencia lineal y sin estacionalidad. Sus parámetros de suavizado son el nivel y la tendencia, que se asumen iguales. Por ello, el modelo de Brown es un caso especial del modelo de Holt. El modelo de suavizado exponencial de Brown es muy similar a un modelo ARIMA 154
o
con cero órdenes de autorregresión, dos órdenes de diferenciación y dos órdenes de media móvil, con el coeficiente para el segundo orden de media móvil igual al cuadrado de la mitad del coeficiente de primer orden. Tendencia amortiguada. Este modelo es adecuado para las series con una tendencia lineal que va desapareciendo y sin estacionalidad. Sus parámetros de suavizado son el nivel, la tendencia y la amortiguación de la tendencia. El suavizado exponencial amortiguado es muy similar a un modelo ARIMA con un orden de autorregresión, un orden de diferenciación y dos órdenes de media móvil.
Estacional: o
o
o
Simple estacional: Este modelo es adecuado para series con tendencia y un efecto estacional que es constante a lo largo del tiempo. Sus parámetros de suavizado son el nivel y la estación. El modelo de suavizado exponencial simple estacional es muy similar a un modelo ARIMA con cero órdenes de autorregresión, un orden de diferenciación, un orden de diferenciación estacional y órdenes demedia móvil 1, p y p + 1, donde p es el número de períodos contenidos en un intervalo estacional (para los datos mensuales, p = 12). De Winters aditivo: Este modelo es adecuado para las series con tendencia lineal y un efecto estacional que no depende del nivel de la serie. Sus parámetros de suavizado son el nivel, la tendencia y la estación. El modelo de suavizado exponencial aditivo de Winters es muy similar a un modelo ARIMA con cero órdenes de autorregresión, un orden de diferenciación, un orden de diferenciación estacional y p +1 órdenes de media móvil, donde p es el número de períodos contenidos en un intervalo estacional (para datos mensuales p = 12). De Winters multiplicativo: Este modelo es adecuado para las series con tendencia lineal y un efecto estacional que depende del nivel de la serie. Sus parámetros de suavizado son el nivel, la tendencia y la estación. El modelo de suavizado exponencial multiplicativo de Winters no es similar a ningún modelo ARIMA.
ARIMA: Un modelo ARIMA es un modelo dinámico de series de tiempo, es decir las estimaciones futuras vienen explicadas por los datos del pasado y no por variables independientes. ARIMA es un modelo (p,d,q) en donde: o p: Autorregresión o d: Integración o Diferenciación o q: Media Móvil
155
Anexo 3: Análisis de Clúster en el Software SPSS El programa SPSS dispone de dos tipos de análisis de conglomerados: El análisis de conglomerados jerárquico y el análisis de conglomerados de K medias. El método jerárquico es idóneo para determinar el número óptimo de conglomerados existentes en los datos y el contenido de los mismos. El método de K medias permite procesar un número ilimitados de casos, pero solo permite utilizar un método de aglomeración y requiere que se proponga previamente el número de conglomerados que se desea obtener. Nos vamos a “Analizar -> Clasificar -> Conglomerados Jerárquicos” Se abrirá la siguiente ventana:
VENTANA SPSS ANÁLISIS CLUSTER
Variables: El primer paso es elegir el conjunto de variables para realizar el análisis. El conjunto de variables seleccionado debe describir la similitud entre los objetos en términos relevantes para el problema que se desea estudiar. También se puede etiquetar las variables con alguna otra variable del archivo de datos. Estadísticos: Aquí se pueden pedir tablas que describan el proceso de diferentes formas. Él Historial de conglomeración que nos dice como fueron formados los conglomerados o la matriz de distancias que es la que nos da las distancias entre cada dato, lo cual es lo que se usa para hacer los conglomerados. Gráficos: Aquí se pueden pedir los diferentes gráficos que sirven para el análisis de los conglomerados. Como el Dendograma y el gráfico de Témpanos. Método: Aquí se puede seleccionar el método que se utilizara para realizar los conglomerados, como también la medida de distancia que se utilizara. Guardar: Aquí podremos elegir si queremos guardar los conglomerados resultantes. Sin embargo, aquí necesitamos ingresar un número de conglomerados. Si no conocemos este número, es mejor hacer el análisis
156
primero, y después, cuando se pueda inferir con los resultados el número de conglomerado optimo, realizarlo nuevamente ingresando aquí este número. Volviendo a la ventana principal de conglomerados jerárquicos, verificaremos que estén marcadas las casillas de visualización para estadísticos y gráficos. Luego damos clic en aceptar. En la ventana resultado se presentaran 4 elementos principales de los resultados. Resumen de los casos. No siempre se pueden tomar los valores de la muestra completa como se ve en el ejemplo porque puede un caso tener un valor perdido o ausente para alguna variable, por lo que será descartado por el análisis. Resumen del procesamiento de los casos
a,b
Casos Válidos N
Perdidos
Porcentaje 15
N
100,0
Total
Porcentaje 0
N
,0
Porcentaje 15
100,0
a. distancia euclídea al cuadrado usada b. Vinculación promedio (Inter-grupos)
Historial de conglomeración Etapa en la que el conglomerado Conglomerado que se combina Etapa
Conglomerado 1 Conglomerado 2
aparece por primera vez Coeficientes
Próxima
Conglomerado 1 Conglomerado 2
etapa
1
72
146
,000
0
0
2
2
72
231
25,000
1
0
7
3
117
178
36,000
0
0
5
4
126
181
2885,000
0
0
8
5
117
336
9874,000
3
0
6
6
117
275
19873,000
5
0
8
7
72
174
69023,333
2
0
10
8
117
126
141724,500
6
4
11
9
171
209
168325,000
0
0
12
10
72
145
360497,500
7
0
12
11
117
333
519727,333
8
0
14
12
72
171
1990572,900
10
9
13
13
20
72
7131117,571
0
12
14
157
Historial de conglomeración Etapa en la que el conglomerado Conglomerado que se combina Etapa
Conglomerado 1 Conglomerado 2
aparece por primera vez Coeficientes
Próxima
Conglomerado 1 Conglomerado 2
etapa
1
72
146
,000
0
0
2
2
72
231
25,000
1
0
7
3
117
178
36,000
0
0
5
4
126
181
2885,000
0
0
8
5
117
336
9874,000
3
0
6
6
117
275
19873,000
5
0
8
7
72
174
69023,333
2
0
10
8
117
126
141724,500
6
4
11
9
171
209
168325,000
0
0
12
10
72
145
360497,500
7
0
12
11
117
333
519727,333
8
0
14
12
72
171
1990572,900
10
9
13
13
20
72
7131117,571
0
12
14
11
0
14
20 117 1,096E7 13 RESULTADOS CONGLOMERADOS ANÁLISIS CLUSTER, SPSS.
Cuando ya se obtiene el número de conglomerados recomendado, se volverá a hacer el análisis, pero esta vez, en la opción “Guardar”, se especificara que se realizarán 3 conglomerados:3
VENTANA ANÁLISIS CLUSTER SPSS
3
Ver detalles de eso en Capítulo 4
158
Al realizar el análisis, se verá que aparece una nueva columna en el conjunto de datos en la cual cada dato que este en ese clúster tendrá un número específico:
NUEVA VARIABLE, ANÁLISIS CLÚSTER, ANÁLISIS CLÚSTER SPSS
Después de esto se puede realizar un grafico para ver como se agruparon los datos. En “Gráficos -> Generador de gráficos” se puede realizar un grafico de dispersión, utilizando la nueva variable para clasificar los datos: 1
2 3
4
GRÁFICO DE DISPERSIÓN ANÁLISIS CLUSTER, SPSS
En (4) se debe elegir, del menú de la izquierda, los gráficos de dispersión. En las opciones de esta selección, se debe escoger el que se muestra en la foto (3), que corresponde a un grafico de dispersión con distintas capas. Para elegir este grafico, se selecciona con clic, y se arrastra al diagrama de arriba.
159
Aquí, se debe, de la misma manera, arrastrar las variables del menú de la izquierda a las distintas casillas. En el eje vertical (1) y en el horizontal (2), se graficara dos variables a analizar. Por último, se debe agregar la variable creada por el análisis de clúster, al cuadro de la esquina superior derecha. Una vez hecho esto, se realizara el grafico:
GRÁFICO DE DISPERSIÓN, ANALISIS CLUSTER
160
Anexo 4: Software SPSS Clementine SPSS Clementine (Clementine desde ahora) es un conjunto de programas de minería de datos que permite desarrollar rápidamente modelos predictivos. Con un diseño que sigue el modelo CRISP-DM. El Clementine ocupa una lógica de nodos, donde cada nodo es un proceso del proyecto, sea este un nodo para generar un modelo, para mostrar resultados, etc.
1 3
2
2 VENTANA DE USUARIO SPSS CLEMENTINE
En la ilustración anterior es una foto de pantalla de lo que es el SPSS Clementine, en este caso la versión 11.1. Dentro del cuadrado uno está la ventana que nos muestra los nodos y las diferentes rutas que generamos con él. En ella se ponen los nodos, se mueven en forma gráfica a libertad y al hacerles doble clic se entrar a la configuración de este. Para ejecutar las rutas hechas solo hay que presionar en ejecutar dentro de las opciones de los nodos o en los botones con flechas verdes que están en la parte superior del cuadro rojo. Lo que está encerrado en el cuadrado dos es la ventana que nos muestra los nodos disponibles en el programa, los cuales están divididos en:
161
1. Nodos Orígenes: Estos nodos sirven para importar datos al programa. Se puede importar de diferentes tipos de base de datos hasta archivos Excel o SPSS. 2. Nodos Operaciones con registros: Nodos que sirven para muestrear datos, seleccionar datos, unir registros de diferentes orígenes, etc. 3. Nodos Operaciones con campos: Nodos que permiten trabajar más a fondo con los datos, cambiando datos, partiendo datos en distintos grupos, etc. 4. Nodos Gráficos: Nodos que sirven para mostrar diferentes tipos de gráficos de las variables 5. Nodos Modelado: Aquí están todos los nodos que generan modelos que contiene el Clementine. 6. Nodos Resultado: Nodos que muestran diferentes análisis de los resultados de cierto modelo u de una base de datos dada. Pueden mostrar diferentes estadísticos dependiendo el tipo de variable que se tenga o generar informes personalizados. 7. Nodos Exportar: Nodos que crean archivos externos al Clementine para guardar los resultados. Se puede exportar a diferentes archivos, entre ellos archivos Excel y SPSS. Todos estos nodos tienen diferentes requisitos para ser usados que están bien explicados en el manual de referencia de nodos que viene con el programa. El tres es la ventana donde se muestran las rutas o distintos archivos de rutas que hemos abierto, las diferentes ventanas de resultado y los modelos generados. Los nodos de modelos generados aparecen cuando se ejecuta algún nodo de modelado. Finalmente, el cuatro esta una ventana que nos ofrece Clementine para ordenar los archivos de proyecto. Con dos opciones, ver los archivos ordenados a través de la metodología CRISP-DM o por clases o tipos de archivos que uno genera en el programa.
162
Anexo 5: Redes neuronales artificiales en el software SPSS Clementine El Clementine ofrece dos tipos de red neuronal, una de entrenamiento no supervisado los mapas de Kohonen y una de entrenamiento supervisado, Perceptron multicapa. La red Kohonen se encuentra en el nodo Kohonen, al ser una red es de entrenamiento no supervisado hace clasificaciones y busca redundancias dentro de los datos. La red Perceptron multicapa, disponible en el nodo red neuronal, al ser de entrenamiento supervisado aprende según los resultados que se le da.
Nodo red neuronal
El nodo red neuronal, como anteriormente se dijo, contiene el tipo de red Perceptron multicapa, este nodo no solamente hace el proceso de aprendizaje, sino que también tiene varios métodos de entrenamiento que permiten elegir el tamaño de red más adecuado. Además, tiene opciones para evitar el
sobreentrenamiento de esta. Las características principales de la red son:
P(t)
FUNCIÓN SIGMOIDE
Función de activación: Función sigmoidea en las capas ocultas y función identidad en las capas de salida. Esto último permite que la red pueda predecir modelos que no necesariamente estén entre 0 y 1, que son los límites de la función sigmoidea. 163
Algoritmo de entrenamiento: Retro propagación o Regla delta generalizada. Este algoritmo es básicamente que el error de las salidas finales se propaga hacía atrás de la red ponderado por los pesos de cada entrada. El algoritmo busca minimizar de la gradiente de los pesos, algo que puede generar mínimos locales o máximos locales. Esto produce diferencias entre redes entrenadas con los mismos conjuntos de datos y la misma estructura. A pesar de esto, generalmente los resultados no deberían tener diferencias significativas.
VENTANA DE EDICIÓN, NODO RED NEURONAL SPSS CLEMENTINE
El nodo red neuronal tiene varias opciones, divididas en cinco partes: Campos, Modelo, Opciones, Experto y Anotaciones. Campos: Aquí uno puede definir las variables objetivo y las variables de entrada. Las variables objetivo son las que se quiere predecir y las de entrada son las que uno usa para predecir. También se puede seleccionar la opción de usar la configuración del nodo tipo. Lo importante es que en alguna parte, sea en el nodo tipo, en la misma red neuronal o en el nodo donde se importan los datos, se defina las variables objetivo y las entradas. Si esto no se hace el nodo red neuronal no funcionará. Modelo: En esta opción uno define las propiedades principales del entrenamiento. El método, cuando se detiene el entrenamiento y que uno prefiere optimizar en el computador. En los métodos de entrenamiento el Clementine nos ofrece: o Rápido: Este método utiliza reglas de miniaturas y características de los datos para seleccionar una forma adecuada (Topología) para la red. Esta formula puede cambiar según versión que se use del Clementine.
164
o
o
o
o
o
Dinámico: Este método crea una topología inicial aunque, según avanza el entrenamiento, añade o elimina unidades ocultas y modifica esta topología. Múltiple: Este método crea varias redes de distintas topologías (el número exacto depende de los datos de entrenamiento). A continuación, se entrenan estas redes de acuerdo con un procesamiento en seudoparalelo. Al final del entrenamiento, se presenta como modelo final el modelo con el nivel inferior de error cuadrático medio. Poda: Este método se inicia con una red de gran tamaño y elimina (o poda) las unidades más débiles de las capas ocultas y de entrada según se va completando el entrenamiento. Aunque por lo general este método es lento, muchas veces genera resultados mejores que otros métodos. RBFN: La red de función de base radial (RBFN) utiliza una técnica similar al conglomerado de K-Medias para crear una partición de los datos basándose en valores del campo objetivo. Poda exhaustiva: Este método está relacionado con el método de poda. Se inicia con una red de gran tamaño y poda las unidades más débiles de las capas ocultas y de entrada según se va completando el entrenamiento. Poda exhaustiva selecciona los parámetros de entrenamiento de red para garantizar una búsqueda exhaustiva de los posibles modelos para seleccionar el más adecuado. Aunque por lo general este método es el más lento, muchas veces genera los mejores resultados. Tenga en cuenta que este método puede necesitar mucho tiempo para realizar entrenamientos, especialmente con conjuntos de datos de gran tamaño.
Para más detalle de los métodos se pueden ver en el Manual de Algoritmos que trae el Clementine. Opciones: Clementine ofrece varios análisis del entrenamiento como gráficos que nos muestran el desempeño mientras la red se entrena. Para hacer que estos se visualicen hay que marcarlos aquí. Experto: Los métodos de entrenamiento que tiene el Clementine traen opciones por defecto, pero si se estima que estas opciones no son suficientes se pueden cambiar aquí. Lo que se visualice dependerá del método de entrenamiento seleccionado.
Como hacer una red neuronal en SPSS Clementine Entrenamiento
1
2
3 4
165
5 Comprobación
6
Validación
7 RUTA PARA GENERAR REDES NEURONALES EN EL SPSS CLEMENTINE
Para hacer una red neuronal se necesita primero definir cuales serán los grupos de datos y variables con que se entrenaran. Después tener todo eso y ordenarlos en una base de datos (Sea SPSS, Excel o cualquiera que acepte el Clementine). En este ejemplo, haremos como si fueran tres grupos de datos los que se usarán. El grupo de entrenamiento, que se usará para entrenar la red, el grupo de comprobación, que se usará para comprobar si los datos dentro del rango de la red y el grupo de validación, que es usado para ver el comportamiento de una red neuronal con datos que no pertenecían al grupo principal.
VENTANA NODO ORIGEN, SPSS CLEMENTINE
1. Importar los datos: Sea de SPSS, Excel o cualquier otro tipo de archivo de base de datos, es imprescindible exportar los datos. Los nodos de origen tienen 4 campos principalmente Datos, donde se ve el archivo de origen y que parte de él se quiere importar. Filtro, aquí se puede escoger que variables se quiere que importen. Muy útil si la base de datos tiene muchas variables que no se usarán en el análisis.
166
Tipos, donde se puede definir el tipo de cada variable. Si es que estos variables tipo razón, ordinales, etc. Esto no es necesario hacerlo en este nodo. Anotaciones, texto anexo que se quiera agregar.
VENTANA NODO TIPO, SPSS CLEMENTINE
2. Definir tipo de variable: Dada la importancia de definir el tipo de variable para realizar la red se ha puesto un nodo tipo para representar este paso, a pesar de que se puede definir, como se ha dicho anteriormente, en el nodo de importar datos y en el nodo del entrenamiento. Lo necesario para la red neuronal es definir las variables entradas y las salidas, como se ve en la imagen en la columna dirección.
167
VENTANA NODO PARTICIÓN SPSS CLEMENTINE
3. Dividir las variables: Después se tiene repartir los datos en dos o tres grupos, en esto se ocupa el nodo partición. En este nodo uno puede definir que porcentaje de datos quedarán en cada grupo que saldrá del nodo. Para definir por donde saldrá cada uno se da una etiqueta en donde dice “Valor”. Esta servirá para definir en el nodo seleccionar porque parte de la ruta se irán.
VENTANA NODO SELECCIONAR SPSS CLEMENTINE
4. Entrenar la red: Después de esto, se entrena la red con el nodo red neuronal con las opciones que se prefieran, explicadas anteriormente. 5. Aplicar modelo al grupo de comprobación: En el paso 5 sacamos el nodo del modelo generado de la pantalla de modelos y lo conectamos al nodo seleccionar. Tras esto se pueden agregar distintos nodos de resultado según se estime conveniente.
168
6. Aplicar modelo al grupo de validación: Importamos otra base de datos con variables que separamos para el grupo de validación. Estas no necesitan ser especificadas para entrada o salida pero si tener el mismo nombre. También se puede hacer de la misma forma si se quiere hacer alguna predicción.
169
Anexo 6: Árboles de Decisión en el Software SPSS Clementine
RUTA ARBOL DE DECISIÓN – SPSS CLEMENTINE
Hacer un árbol de decisión en clementine es muy parecido a las redes neuronales descritas anteriormente, especialmente en lo que es la generación de los grupos de entrenamiento y comprobación. Lo único que cambia es el nodo de entrenamiento, que son diferentes algoritmos que hacen árboles de decisión. Hay cuatro algoritmos disponibles en Clementine para realizar un análisis de segmentación y clasificación. Todos estos algoritmos son básicamente similares: examinan todos los campos de la base de datos para detectar el que proporciona la mejor clasificación o pronóstico dividiendo los datos en subgrupos. El proceso se aplica de forma recursiva, dividiendo los subgrupos en unidades cada vez más pequeñas hasta completar el árbol (según se defina determinados criterios de parada).
El nodo de árbol de clasificación y regresión genera un árbol de decisión que permite pronosticar o clasificar observaciones futuras. El método utiliza la partición reiterada para dividir los registros de entrenamiento en segmentos minimizando las impurezas en cada paso, donde un nodo se considera “puro” si el 100% de los casos del nodo corresponden a una categoría específica del campo objetivo. Los campos objetivo y predictor pueden ser de rango o categóricos. Todas las divisiones son binarias (sólo se crean dos subgrupos).
Requisitos: Para entrenar un modelo de Árbol C&R, se precisan uno o varios campos de entrada y exactamente uno de salida. Los campos objetivo y predictor pueden ser de rango o categóricos. Se ignorarán los campos establecidos en Ambos o Ninguno. Los tipos de los campos utilizados en el modelo deben estar completamente instanciados y cualquier campo ordinal que se utilice en el modelo debe disponer de almacenamiento numérico (no en cadena). Si lo considera necesario, utilice a continuación el nodo Reclasificar para realizar las
170
conversiones. Consulte Nodo Reclasificar si desea obtener más información.
Puntos fuertes: Los modelos de Árbol C&R son bastante más robustos cuando aparecen problemas como datos perdidos y un número elevado de campos. Por lo general no precisan de largos tiempos de entrenamiento para calcular las estimaciones. Además, los modelos de Árbol C&R suelen ser más fáciles de comprender que algunos tipos de modelos: la interpretación de las reglas derivadas del modelo es muy directa. A diferencia de C5.0, Árbol C&R puede adaptar rangos numéricos como campos de salida categóricos.
El nodo CHAID genera árboles de decisión utilizando estadísticos de chicuadrado para identificar las divisiones óptimas. A diferencia de los nodos C&RT y QUEST, CHAID puede generar árboles no binarios, lo que significa que algunas divisiones tendrán más de dos ramas. Los campos objetivo y predictor pueden ser de rango o categóricos. CHAID exhaustivo es una modificación de CHAID que examina con mayor precisión todas las divisiones posibles, aunque necesita más tiempo para realizar los cálculos.
Requisitos. Los campos objetivo y predictor pueden ser de rango o categóricos. Los nodos pueden dividirse en dos o más subgrupos en cada nivel. Todos los campos ordinales utilizados en el modelo deben disponer de almacenamiento numérico (no en cadenas). Si lo considera necesario, utilice a continuación el nodo Reclasificar para realizar las conversiones.
Puntos fuertes. A diferencia de los nodos C&RT y QUEST, CHAID puede generar árboles no binarios, lo que significa que algunas divisiones generarán más de dos ramas. Es por ello que tiende a crear un árbol más extenso que los métodos de desarrollo binarios. CHAID admite todos los tipos de predictores y acepta tanto variables de frecuencia como ponderaciones de casos.
El nodo QUEST proporciona un método de clasificación binario para generar árboles de decisión; está diseñado para reducir el tiempo de procesamiento necesario para realizar los análisis de C&RT y reducir la tendencia de los 171
métodos de clasificación de árboles para favorecer a los predictores que permitan realizar más divisiones. Los campos predictores pueden ser rangos numéricos, sin embargo el campo objetivo debe ser categórico. Todas las divisiones son binarias.
Requisitos. Los campos predictor pueden ser rangos numéricos, sin embargo el campo objetivo debe ser categórico. Todas las divisiones son binarias. No podrá utilizar los campos de ponderación. Todos los campos ordinales utilizados en el modelo deben disponer de almacenamiento numérico (no en cadenas). Si lo considera necesario, utilice a continuación el nodo Reclasificar para realizar las conversiones.
Puntos fuertes. Al igual que CHAID (pero a diferencia de C&RT), QUEST utiliza comprobaciones estadísticas para decidir si se ha de utilizar un predictor o no. También separa las cuestiones relacionadas con la división y la selección de predictores, y aplica criterios distintos a ambos casos. Esto contrasta con los casos de CHAID, donde el resultado de la comprobación de estadísticos que determina la selección de variables también genera la división. De un modo similar, C&RT emplea la medida de impureza-cambio tanto para seleccionar la variable predictora como para determinar la división.
El nodo C5.0 genera un árbol de decisión o un conjunto de reglas. El modelo divide la muestra basándose en el campo que ofrece la máxima ganancia de información en cada nivel. El campo objetivo debe ser categórico. Se permiten varias divisiones en más de dos subgrupos.
Requisitos. Para entrenar un modelo C5.0, se precisa un campo de entrada y uno o varios campos de salida simbólicos. Se ignorarán los campos establecidos en Ambos o Ninguno. Los tipos de los campos utilizados en el modelo deben estar completamente instanciados.
Puntos fuertes. Los modelos C5.0 son bastante más robustos cuando aparecen problemas como datos perdidos y un número elevado de campos de entrada. Por lo general no precisan de largos tiempos de entrenamiento para calcular las estimaciones. Además, los modelos C5.0 suelen ser más fáciles de comprender que algunos tipos de modelos, ya que la interpretación de las reglas derivadas del modelo es muy directa. C5.0 también ofrece el eficaz método del aumento para obtener una mayor precisión en tareas de clasificación.
172
El Generador de árboles Esta opción puede generar un modelo de árbol automáticamente, que permita al algoritmo seleccionar la división más adecuada para cada nivel, o bien, puede utilizar el Generador de árboles interactivos para tomar el control, aplicando sus conocimientos empresariales para refinar o simplificar el árbol antes de guardar el modelo generado. Cree una ruta y añada uno de los nodos de generación de árboles C&RT, CHAID o QUEST. (Nota: los árboles C5.0 no admiten la generación de árboles interactivos.) En la ficha Modelo, seleccione Iniciar sección interactiva. Seleccione los campos objetivo y predictor y especifique las opciones del modelo adicionales que considere necesario. Para obtener instrucciones específicas, consulte la documentación de los distintos nodos de generación de árboles. Ejecute la ruta para abrir el generador de árboles. Se muestra el árbol actual desde el nodo raíz. Antes de generar uno o varios modelos, puede editar y podar el árbol nivel a nivel y acceder a ganancias, riesgos e información relacionada. Anexo 7: Datos Caso Quiebra Caso quiebra, árbol de decisión. WCTA
CACL
TSTA
EBITTI
TDTA
TDTE
OMTA
ROA
Si quiebra o no
-0,74
0,54
1,02
0,28
1,02
-43,72
0,09
-0,01
1,00
-0,08
0,13
0,01
-60,87
0,08
0,09
0,00
-0,01
1,00
0,11
1,13
0,14 47281,47
0,87
6,65
0,04
0,04
1,00
1,11 2029,03 17300,53 39490,84
7,36
559,53
758,13
1,00
4358,95 -0,79
0,19
0,01
6,17
0,98
41,52
0,00
0,01
1,00
-0,29
0,77
0,24
1,00
1,10
-10,59
0,15
-0,03
1,00
-0,62
0,30
0,01
-6,64
0,70
2,36
0,00
-0,24
1,00
-1,03
0,22
1,25
-2,41
1,22
-5,54
-0,16
-0,31
1,00
-0,38
0,81
0,80
-1,39
0,74
2,80
0,01
-0,18
1,00
-0,16
1,35
0,46
2,46
0,50
0,98
0,11
0,00
0,00
-0,64
1,03
0,76
2,35
0,84
5,07
0,10
0,09
0,00
-4,39
0,04
54,40
2,46
4,59
0,08
12,92
0,30
0,00
0,24
1,43
0,41
4,87
0,75
1,09
0,22
0,09
0,00
173
-0,02
0,98
0,06
1,02
-63,64
0,03
0,04
0,00
-0,44
1,19
0,07
1,84
0,49
0,95
0,01
0,01
0,00
-0,44
0,52
0,16
2,93
1,66
3,50
0,62
1,62
0,40
0,07
0,00
0,55
13,61
0,33
0,50
0,12
0,10
0,00
0,25
3,43
0,36
5,52
0,22
0,29
0,08
0,02
0,00
-0,13
5,59
0,20
12,01
0,41
0,69
0,07
0,12
0,00
-1,80
2,69
0,01
-5887,25
2,03
-1,97
0,00
-0,53
0,00
-0,69
0,68
0,77
2,73
0,90
8,63
0,13
0,05
0,00
-0,18
0,40
0,00
-145,03
0,19
0,23
0,00
-0,92
0,00
0,23
255,46
0,01
-177,15
0,00
0,00
0,01
-0,21
0,00
0,12
1,14
0,12
1,01
0,87
6,69
0,04
0,04
0,00
0,08
1,09
0,05
1,02
0,92
10,90
0,02
0,01
0,00
0,72
3,73
0,07
0,30
0,27
0,36
0,00
-0,01
0,00
0,89
11,04
0,50
1,04
0,09
0,10
0,14
0,11
0,00
0,81
5,56
0,57
176,37
0,18
0,22
0,38
0,15
0,00
0,04
1,04
0,21
1,02
0,96
22,48
0,01
0,01
0,00
-1,03
0,21
1,47
-5,46
1,25
-5,06
0,09
-0,47
0,00
Caso PIB, Regresión lineal múltiple. Año 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008
PIB 17722536671,00 20902096532,00 24640912616,00 28385038397,00 31558927517,00 36424168146,00 44467946384,00 47693992627,00 55154226760,00 71349202309,00 75769008174,00 82808986192,00 79373597080,00 72995286764,00 75210511780,00 68568293067,00 67265403373,00 73989608529,00 95652734478,00 123055000000,00 154670000000,00 173079000000,00 179627000000,00
IPC 21,06 25,25 28,96 33,89 42,71 52,02 60,04 67,69 75,43 81,64 87,65 93,03 97,78 101,04 104,93 108,67 111,38 114,51 115,71 119,25 123,29 128,72 139,94
Desocupados 449,15 424,02 370,83 341,86 363,05 353,22 322,36 349,68 431,06 363,82 301,98 303,63 431,15 561,03 536,94 533,72 546,28 548,11 602,67 541,11 409,93 510,81 544,68
174
Cobre 110,40 139,30 195,80 204,40 184,30 161,50 156,70 129,60 154,10 189,50 144,80 143,70 107,00 100,80 110,00 94,60 95,80 103,70 157,30 187,80 328,20 331,60 292,30
2009 2010 2011
172591000000,00 216309000000,00 248585000000,00
142,02 632,79 144,18 563,76 148,99 534,40
239,10 373,40
Caso Petróleo – Serie de tiempo Enero Febrero Marzo Abril Mayo Junio Julio
Agosto Septiembre Octubre Noviembre Diciembre
2000
27,3
29,4
29,9
25,8
28,8
31,9
29,7
31,3
33,9
33,1
34,4
28,4
2001
29,5
29,6
27,2
27,4
28,6
27,6
26,4
27,5
26,2
22,2
19,6
19,3
2002
19,7
20,7
24,4
26,2
27
25,5
26,9
28,4
29,7
28,9
26,3
29,4
2003
33
35,8
33,3
28,2
28,1
30,7
30,8
31,6
28,3
30,3
31,1
32,1
2004
34,2
34,7
36,7
36,7
40,3
38
40,8
44,9
45,9
53,3
48,5
43,2
2005
46,8
48
54,2
53
49,8
56,4
58,7
65
65,5
62,4
58,3
59,4
2006
65,5
61,6
62,9
69,5
70,9
70,9
74,4
73
63,8
58,9
59,1
62
2007
54,2
59,3
60,6
63,9
63,5
67,5
74,1
72,4
79,9
85,9
94,8
91,4
2008
93
95,4
105,5 112,6
125,4
133,9 133,4
116,6
103,9
76,6
57,3
41,4
2009
41,7
39,2
48
49,8
59,1
69,6
64,1
71,1
69,4
75,8
78
74,5
2010
78,4
76,4
81,3
84,5
73,7
75,4
76,4
76,6
75,3
81,9
Caso APV, Análisis Cluster
Edad
Fondo A Número de Saldo ahorrantes promedio
Fondo B Número de Saldo ahorrantes promedio
Fondo C Número de Saldo ahorrantes promedio
Fondo D Número de ahorrantes
Saldo promedio
15-19
231
20414
126
6540
54
1195
6
431
20-24
4122
537789
1947
108830
811
32788
114
10109
25-29
21108
4661675
8722
963323
2962
444652
525
158314
30-39
78439
52651074
36679
13447883
20576
7366291
2520
2484086
40-49
72679 117274477
19566
37342610
67000
50652600
3662
8845674
50-59 60 y más
40493 118911569
14540
55577562
59809
115545799
19851
29971745
6410
40803031
19264
88835461
40969
60211284
Edad
9932
50767031
Fondo E Número de ahorrante Saldo s promedio
15-19
54
3659
20-24
608
121063
25-29
2410
596815
30-39
9288
9162804
40-49
12092
33959731
50-59
11240
71457261
Indique en orden de importancia las tres situaciones que más le generan preocupación La Incertidumbre en la No contar con un Perder inestabilida vejez (salud, sistema de salud que el d económica previsión, cubra enfermedades o La situación trabajo del hogar desamparo) accidentes económica 9,78453 13,3448 6 17,1138 8 17,6290 1 17,5191 6 13,5055 3
16,90596
2,83778
13,3135
8,2608
17,4185
2,88559
13,35355
9,68421
14,81486
3,66478
13,46485
10,7893
13,97234
4,76635
13,07702
11,0234
13,77392
6,96278
13,14368
11,0805
13,23452
11,17458
13,7282
11,4454
175
60 y más
6955
66064499
5,39189
14,22697
15,56975
15,26988
¿Cuál de los siguientes problemas de actualidad nacional tiene mayor importancia para usted? ¿Y en segundo lugar? Edad
6 El desempleo
7 La salud
1 La pobreza
15-19
4,46411
8,35886
19,11282
20-24
6,66303
9,75863
18,01984
25-29
8,2837
8,94863
17,59088
30-39
7,42283
9,51429
15,92277
40-49
7,54623
9,49843
15,14606
50-59
7,51108
10,69749
15,85761
60 y más
4,86568
12,36294
16,6018
Caso fondo A, Redes Neuronales Artificiales Ver archivos en estos enlaces Grupo de entrenamiento y comprobación https://dl.dropbox.com/u/12063322/Ejemplo%20%20Redes%20Neuronales%20%20datos%20entrenamiento%20y%20comprobaci%C3%B3n.xls Grupo de validación https://dl.dropbox.com/u/12063322/Ejemplo%20%20Redes%20Neuronales%20-%20validaci%C3%B3n.xls
176
11,6521