Métodos de predicción – Caso 01 PASO N° 02 - CÁLCULO DEL COEF. CORRELACIÓN Con ayuda de minitab, calculamos el coeficiente de correlación para las variables Y (número de clientes nuevos atendidos) y la variable X1 (índice económico)
Del resultado podemos decir, que el coeficiente de correlación que existe entre ambas variables es positivo y fuerte. Positivo porque la pendiente es de manera positiva, además son directamente proporcionales ambas variables; y fuerte porque es cercano a 1. PASO N° 03 - PRUEBA DE HIPOTESIS Realizamos una prueba de hipótesis para probar el nivel de significancia con respecto a la variable- índice económico (x1)
A un nivel de significancia de α = 0.05. Se consideran las siguientes hipótesis: H0: β1=0 H1: β1 ≠0
Tomaremos el valor P de la siguiente tabla y la compararemos con α=0.05.
6
INTERPRETACIÓN UNIVERSIDAD NACIONAL PEDRO RUIZ GALLO
– ING.
DE
SISTEMAS
Métodos de predicción – Caso 01
Si comparamos el valor P = 0.000 con el valor α=0.05, entonces podemos concluir que P<α, entonces rechazamos H0. Es decir que tenemos evidencia
estadística suficiente para concluir que la variable X1 – índice económico es significativa con respecto a los nuevos clientes atendidos por CCC. Observamos también que el valor del coeficiente de determinación es de un 56.5%, nos da una idea que si existe una relación, siendo esta de tipo moderada, pero aquí no queda todo el trabajo para poder concluir que es nuestro mejor modelo, más adelante se realizara las pruebas correspondientes.
PARA LA VARIABLE X2 – NUMERO DE PERSONAS CON CUPONES CANJEABLES
PASO N° 01 – DIAGRAMA DE DISPERSIÓN
Diagrama de Dispersión para X2(número de personas con cupones canjeables) y la variable dependiente Y (número de clientes nuevos atendidos por CCC).
PASO N° 02 - CÁLCULO DEL COEF. CORRELACIÓN UNIVERSIDAD NACIONAL PEDRO RUIZ GALLO
7
– ING.
DE
SISTEMAS
Métodos de predicción – Caso 01 Con ayuda de minitab, calculamos el coeficiente de correlación para las variables Y (número de clientes nuevos atendidos) y la variable X2 (número de personas con cupones canjeables).
Del resultado podemos decir, que el coeficiente de correlación que existe entre ambas variables es positivo y algo bajo (no están fuertemente correlacionadas). Positivo porque la pendiente es de manera positiva, además son directamente proporcionales ambas variables.
PASO N° 03 - PRUEBA DE HIPOTESIS Realizamos una prueba de hipótesis para probar el nivel de significancia con respecto a la variable- número de personas con cupones canjeables (x2) A un nivel de significancia de α = 0.05.
Se consideran las siguientes hipótesis: H0: β1=0 H1: β1 ≠0 Tomaremos el valor P de la siguiente tabla y la compararemos con α=0.05.
8 UNIVERSIDAD NACIONAL PEDRO RUIZ GALLO
– ING.
DE
SISTEMAS
Métodos de predicción – Caso 01
INTERPRETACIÓN Si comparamos el valor P = 0.002 con el valor α=0.05, entonces podemos concluir que P<α, entonces rechazamos H0. Es decir que tenemos evidencia
estadística suficiente para concluir que la variable X2 (número de personas con cupones canjeables) es significativa con respecto a los nuevos clientes atendidos por CCC (Y). Observamos también que el valor del coeficiente de determinación es de un 18.6%, nos da una idea que si existe una relación, siendo esta de tipo muy débil, porque a un 18.6% la variabilidad de los nuevos clientes atendidos por CCC es explicada por la variabilidad del número de personas con cupones canjeables, de esto decimo que este modelo de regresión no nos permite asegurar un buen pronostico con esta variable, además un 81.4% de la variabilidad no viene siendo explicada por el número de personas con cupones.
ANALISIS PARA AMBAS VARIABLES X1, X2 PASO N° 01 - CÁLCULO DE LA MATRIZ DE COEF. CORRELACIÓN Con ayuda de minitab, calculamos la matriz de correlación para las variables Y (número de clientes nuevos atendidos), la variable X1 (índice económico) y la variable X2 (número de personas con cupones canjeables).
Con esta matriz podemos analizar si existe o no relación entre todas las variables que tenemos, analizando la imagen podemos observar que los coeficientes de correlaciones para X1 y X2 con respecto a Y, son las mismas que habíamos encontrado. Nos permite observar además si existe alguna relación entre variables independientes, si así fuese el caso, se produciría un problema de multicolienalidad. Es así, que debemos eliminar una de las variables porque seguro ya viene siendo explicada por una de ellas. 9 UNIVERSIDAD NACIONAL PEDRO RUIZ GALLO
– ING.
DE
SISTEMAS
Métodos de predicción – Caso 01 Para nuestro caso podemos observar claramente una relación muy fuerte entre las variables independientes X1 y X2, por lo que nos encontramos con el problema de la multicolienalidad, pasaremos a continuación a escoger la variable que debemos quitar.
PASO N° 02 - PRUEBA DE HIPOTESIS A un nivel de significancia de α = 0.05.
Se consideran las siguientes hipótesis: H0: β1= β2 = 0 H1: β1 ≠ β2 ≠ 0 Tomaremos el valor P de la siguiente tabla y la compararemos con α=0.05.
INTERPRETACIÓN Si comparamos el valor P x1 = 0.000 y P x2= 0.009 con el valor α=0.05, entonces podemos concluir que tanto P x1 y P x2 <α, entonces rechazamos H0. Es decir que tenemos evidencia estadística suficiente para concluir que las variables X1(índice económico) y X2 (número de personas con cupones canjeables) son significativas con respecto a los nuevos clientes atendidos por CCC (Y). Observamos también que el valor del coeficiente de determinación es de un 45.4%, nos da una idea que si existe una relación, siendo esta de tipo UNIVERSIDAD NACIONAL PEDRO RUIZ GALLO
– ING.
DE
SISTEMAS
10
Métodos de predicción – Caso 01 moderada, porque a un 45.4% la variabilidad de los nuevos clientes atendidos por CCC es explicada por la variabilidad del índice económico y la variabilidad del número de personas con cupones canjeables, pero como sabemos por conocimiento existe multicolienalidad, por lo tanto pasamos a eliminar la variable que ya está siendo explicada por la otra variable independiente. Entonces pasamos a eliminar a la variable con una probabilidad menos significativa, que en este caso es la variable x2 por tener un valor de p= 0.009.
Conclusión previa antes de escoger el mejor modelo de regresión seria que la variable que mejor se relaciona con la variable a pronosticar es el índice económico (x1), por lo tanto pasamos a proceder solo a trabajar con esta variable. Pasaremos entonces a realizar un análisis de transformación de esta variable, y ver si alguna de estas modificaciones, mejora el modelo de regresión.
TRANSFORMACION DE LA VARIABLE X2 – NUM DE PERSONAS CON CUPONES Por si las dudas realizaremos la matriz de correlaciones para la transformada de la variable x2 para verificar que la relación que existe es muy débil aun después de haber realizado las transformaciones correspondientes, por lo que decidimos desde un comienzo no trabajar con esta variable.
11 UNIVERSIDAD NACIONAL PEDRO RUIZ GALLO
– ING.
DE
SISTEMAS
Métodos de predicción – Caso 01
TRANSFORMACION DE LA VARIABLE X1 – INDICE ECONOMICO Realizamos entonces las correspondientes transformaciones de la variable X1 – índice económico y analizar si entre estas transformaciones, existe una variable transformada que nos proporcione un mejor coeficiente de correlación con la variable Y, con lo que pueda aportar un mejor modelo de regresión.
De la matriz podemos concluir que la mejor transformación de la variable X 1, es la inversa (1/X1) con un coeficiente de correlación de -0.766, lo que nos permite ver que está fuertemente relacionado con la variable Y. UNIVERSIDAD NACIONAL PEDRO RUIZ GALLO
– ING.
DE
SISTEMAS
12
Métodos de predicción – Caso 01 Luego pasamos a analizar el modelo de regresión con esta transformada inversa de la variable índice económico (1/X 1).
INTERPRETACIÓN Si comparamos el valor P = 0.000 con el valor α=0.05, entonces podemos
concluir que P< α, entonces rechazamos H0. Es decir que tenemos evidencia estadística suficiente para concluir que la variable 1/X1 – inversa del índice económico es significativa con respecto a los nuevos clientes atendidos por CCC. Observamos también que el valor del coeficiente de determinación es de un 58.7%, nos da una idea que si existe una relación, siendo esta de tipo moderada, pero mucho mejor que la variable sin transformación (X1- índice económico), además podemos ver que el Error estándar de la estimación (S = 19.4093) disminuye con respecto al inicial (S 0= 19.9159). Por lo que podríamos decir que esta ecuación de regresión es mejor para poder pronosticar la cantidad de nuevos clientes de CCC. Pero aquí no acaba todo debemos analizar si realmente es un mejor modelo de regresión lineal, para eso se realizara un análisis de los residuos más adelante.
2. Desarrolle una ecuación de regresión y utilícela para pronosticar el número de clientes nuevos para los primeros tres meses de 1993. 13 UNIVERSIDAD NACIONAL PEDRO RUIZ GALLO
– ING.
DE
SISTEMAS
Métodos de predicción – Caso 01 Según el análisis de la pregunta anterior tomamos a la inversa del índice económico como variable predictora, ya que mejor se adecua al modelo, porque como pudimos apreciar nuestro coeficiente de determinación es mucho mayor.
ECUACION DE REGRESION LINEAL Nuestra ecuación de regresión lineal quedaría expresada de la siguiente manera:
Calculando los pronósticos según lo que nos plantea el ejercicio, obtenemos lo siguiente utilizando el minitab:
PARA LOS MESES DE ENERO, FEBRERO de 1993: El valor de la inversa del índice económico es de 0.00800 para ambos caso obtenemos lo mismo
14 UNIVERSIDAD NACIONAL PEDRO RUIZ GALLO
– ING.
DE
SISTEMAS
Métodos de predicción – Caso 01 PARA EL MES DE MARZO de 1993: El valor de la inversa del índice económico es de 0.00769 reemplazando obtenemos:
Resumiendo tenemos los siguientes pronósticos: PRONOSTICOS DEL AÑO 1993 Enero
167.38
Febrero
167.38
Marzo
178.99
3. Compare los resultados de su pronóstico con las observaciones reales para los primeros tres meses de 1993. Meses Enero
OBSER. REALES 152
PRONOSTICOS DEL AÑO 1993 167.38
Febrero
151
167.38
Marzo
199
178.99
INTERPRETACIÓN: Como apreciamos en la tabla los valores para los meses de Enero y Febrero, el pronóstico ha sobreestimado el valor que dio la técnica utilizada, mientras que en el mes de Marzo el pronóstico ha subestimado el valor real. Por lo que es una evidencia que el modelo de la regresión lineal, no nos permite hacer un buen pronóstico de los nuevos clientes atendidos por CCC.
UNIVERSIDAD NACIONAL PEDRO RUIZ GALLO
– ING.
DE
SISTEMAS
15
Métodos de predicción – Caso 01 4. ¿El índice de actividad de negocios sería un buen factor de predicción del número de clientes nuevos? El índice de actividad de negocios, si es un buen factor de predicción el número de clientes nuevos, y lo podemos evidenciar realizando una regresión y verificar la probabilidad que obtenemos que sea menor que alfa (0.5), además podemos observar que el r 2 es igual a 56.5% lo que nos indica una variabilidad de los datos de la variable a pronosticar (y), y poder utilizar este modelo de regresión.
ANALISIS DE REGRESIÓN PARA LOS NUEVOS CLIENTES ATENDIDOS Y EL INDICE ECONÓMICO
ANALISIS DE REGRESION PARA LOS NUEVOS CLIENTES ATENDIDOS Y LA INVERSA DEL INDICE ECONÓMICO
16 UNIVERSIDAD NACIONAL PEDRO RUIZ GALLO
– ING.
DE
SISTEMAS
Métodos de predicción – Caso 01
Además hemos analizado la inversa del índice económico, lo que mejora el modelo de regresión lineal, por lo que optamos como el mejor modelo hasta ahora para poder pronosticar, pero más adelante observaremos que este modelo aun siendo significante no nos permite dar un buen pronóstico del número de clientes nuevos atendidos por CCC.
5. Los datos consisten en una serie de tiempo. ¿Significa esto que se ha violado el supuesto de la independencia Realizaremos las siguientes pruebas para saber si los datos son o presentan una serie de tiempo: -
Primero realizamos una gráfica de auto correlaciones a los datos para verificar si presentan un patrón: Para doce desfases a nuestros nuevos clientes que deseamos pronosticar, para el año de 1993 tenemos la siguiente imagen proporcionada por el minitab:
17 UNIVERSIDAD NACIONAL PEDRO RUIZ GALLO
– ING.
DE
SISTEMAS
Métodos de predicción – Caso 01 Analizando la gráfica podemos observar que los datos están fuertemente correlacionados entre sí, además podemos evidenciar que los datos siguen un patrón de Tendencia para los primeros meses de cada año.
Además vemos que el coeficiente de auto correlación para los primeros desfases es significativamente diferente de cero, por lo tanto podemos evidenciar que los datos no son aleatorios. Si queremos más precisión realizamos la prueba del chi-cuadrado, donde el LBQ 121.87 debe ser mayor que el resultado del chi-cuadrado.
Al evidenciar que existe un patrón en los datos, podemos evidenciar que existe una violación supuesto de independencia porque, es el más importante, ya que la falta de independencia podría distorsionar en forma drástica en las conclusiones de las pruebas t. Como pudimos ver es riesgoso porque nuestros datos presentan un patrón de serie de tiempo (tendencia). Posteriormente analizaremos los residuos para verificar si existe o no la violación del supuesto de independencia. UNIVERSIDAD NACIONAL PEDRO RUIZ GALLO
– ING.
DE
SISTEMAS
18
Métodos de predicción – Caso 01 6. Suponga que usted desarrolló una buena ecuación de regresión. ¿Usaría usted esta ecuación para hacer un pronóstico del resto de 1993? Explique su respuesta. La ecuación de regresión, encontrada por nosotros no realiza un buen pronóstico para el resto de los meses de 1993. Porque está infringiendo el supuesto de independencia, por presentar un patrón como lo habíamos mencionado antes, para eso hacemos un análisis de los residuos que hallaremos para esta regresión, de la siguiente manera: -
Realizamos la gráfica de residuales, mediante el m initab
-
Obtendremos la siguiente figura:
De las siguientes graficas podemos analizar lo siguiente: 1.- El histograma nos ayuda a ver si se cumple con el supuesto de normalidad. Podemos ver que el histograma está ligeramente centrado cerca de 0, por lo que diríamos que demuestra un buen supuesto de normalidad, podríamos incluso decir que se infringe en un porcentaje muy bajo por así decirlo. Otro motivo que infringe este supuesto es cuando se pueden apreciar una forma de campana. Aunque este supuesto no es muy significativo con respecto a los otros supuestos. 2.- En la gráfica de normalidad podemos observar que los residuos en su gran mayoría siguen una distribución normal, aunque para algunos valores no se ajusta muy bien al modelo, están ligeramente alejados dela recta. UNIVERSIDAD NACIONAL PEDRO RUIZ GALLO
– ING.
DE
SISTEMAS
19
Métodos de predicción – Caso 01 3.La segunda gráfica de la primera fila en la imagen si la dispersión alrededor del cero en la dirección vertical debe ser aproximadamente igual para todos los valores a lo largo del eje horizontal. Es decir, las magnitudes de los residuos para valores ajustados pequeños deben ser aproximadamente iguales que las magnitudes de los residuos para valores ajustados intermedios y aproximadamente iguales que las magnitudes de los residuos para valores ajustados grandes. Este comportamiento ideal sugiere dos cosas: 1. La relación subyacente entre Y y X es lineal, y 2. la variabilidad del error es constante (las Y para diferentes valores de X tienen la misma dispersión alrededor de la línea de regresión).
Por lo que diríamos que el modelo de regresión no nos asegura con certeza que podemos pronosticar el número de clientes nuevos atendidos por CCC para los meses restantes del año de 1993.
20 UNIVERSIDAD NACIONAL PEDRO RUIZ GALLO
– ING.
DE
SISTEMAS