ING. ROSMERY MAYTA H 2010
Escribir la relación entre 2 o más variables independientes independientes y una dependiente utilizando la ecuación de regresión múltiple. Calcular e interpretar el error estándar múltiple de estimación y el coeficiente de determinación. Interpretar la matriz de correlación. Realizar el cuadro de ANOVA y explicarlo. Realizar la prueba de hipótesis para determinar si los coeficientes de regresión son diferentes de cero (prueba global). Realizar una prueba de hipótesis para cada uno de los coeficientes de regresión
REGRESION MULTIPLE
Realizar la prueba de hipótesis del efecto lineal y del efecto curvilíneo. Análisis de influencia.
La regresión múltiple y el análisis de correlación múltiple consiste en estimar una variable dependiente, utilizando dos o más variables independientes. El modelo genérico será Y ˆ = f ( X 1 , X Variable dependiente
Cuando se tiene tiene dos variables. La ecuación ecuación se representa de la siguiente forma:
2
, X 3 ,....)
Variables independientes
Visualización: se puede representar una ecuación de regresión múltiple con dos variables, como un plano
Yˆ = b 0 + b 1 X 1 + b 2 X 2 : Valor estimado estimado correspondiente correspondiente a la variable variable dependiente Yˆ Donde: X1 y X2: variables independientes bo: es la intercepción con el eje Y neto en Y por cada cambio cambio unitario en X1, b1: es el cambio neto manteniendo X2 constante. Se denomina coeficiente de regresión neta . b2: Coeficiente de regresión
1
Ecuación General de Regresión Múltiple Y = a + b1 X 1 + b2 X 2 + b3 X 3 .........bk X k Donde: X1, X2, X3...X k : Variables independientes
METODO DE MINIMOS CUADRADOS Para calcular los coeficientes, se utiliza el método de Mínimos cuadrados, este método nos garantiza que la suma de cuadrados de los errores sea mínimo. Las ecuaciones normales son: ∑ Y = nb 0 + b1 ∑ X1 + b 2 ∑ X 2 ∑ X1Y = b 0 ∑ X1 + b1 ∑ X12 + b 2 ∑ X1X 2 ∑ X 2 Y = b 0 ∑ X 2 + b1 ∑ X1 X 2 + b 2 ∑ X 22 Donde bo, b1 y b2 son los coeficientes de regresión estimados.
Consideraciones acerca de la regresión y la correlación múltiples
Error estándar múltiple
El error estándar de estimación en el análisis de regresión múltiple mide el error para los valores de Y con respecto al plano de regresión ( cuando intervienen 2 variables independendientes).
∑ (Y − Y ˆ )
2
S Y .12...k =
n − (k + 1)
Donde: Y: es la observación
Las variables independientes y las variables dependientes tienen una relación lineal. La variación en la diferencia entre los valores real y pronosticado es la misma para todos los valores ajustados de Y. Esto es (Y-Y´) debe ser aproximadamente igual para todos los valores de Y´. Cuando tal sea el caso, las diferencias presentan homoscedastidad. Los residuos, calculados de Y-Y´, están distribuidos en forma normal con media igual a 0. Las observaciones sucesivas de la variable dependiente no están correlacionadas. Si tal consideración no se cumple, la situación se denomina auto correlación. Tal auto correlación ocurre con frecuencia cuando se recopilan datos sucesivamente en intervalos de tiempo.
Ŷ: es el valor estimado a partir de la ecuación de regresión
n: número de observaciones. K: número de variables independientes
Análisis de correlación múltiple Se utilizan los tres coeficientes Coeficientes de correlación Múltiple Coeficiente de determinación Múltiple Coeficiente de no determinación Coeficiente de correlación múltiple: Es la medida de la fuerza de asociación entre la variable dependiente y dos o mas variables independientes
Sus valores varían de 0 a 1 siempre es es positivo 0.95: indica una asociación muy fuerte entre las variables dependientes e independientes. 0.08: Indica una relación muy débil
2
Coeficiente de Determinación (r 2) COEFICIENTE DE DETERMINACION
Es la proporción ( porcentaje) de la variación total en la variable dependiente y que se explica por medio del conjunto de variables independientes. .R2
R
2
Y 12
=
COEFICENTE DE LA NO DETERMINACION:
SSR TotalSS
Mide la proporción de la variación total en la variable dependiente y, que no se debe a las variables independientes. Se obtiene 1-.R2
PRUEBA GLOBAL Se usa para poner a prueba la capacidad de las variables independientes, para explicar el comportamiento de la variable dependiente Y. Procedimiento 1) Ho: β1=β2=β3........βk Ha: No todas las β son iguales a cero. Donde : β1,β2,β3,....,βk = coeficientes de regresión neta en la población. 2) Nivel de significancia 3) Se utiliza el estadística F
5)
Calcular el F cal y el F (α,k, n-k-1) (tablas) : el nivel de significancia K: Numero de variables independientes .n : Tamaño de la muestra 4) Si el Fcal es > Ft, entonces se rechaza la hipótesis nula
Tabla ANOVA FV
GL
SS
MS
F
Regressions
k
SSR
MSR=SSR/K
MSR/MSE
Error
n-(k+1)
SSE
MSE=SSE/(n-(k+1))
Total
n-1
SST
Suma de cuadrado total: SS total = Suma de cuadrado del error SSE =
2
∑(Y −Y ')
Suma de cuadrado debido a la regresion: SSR = SS total - SSE
3
PRUEBA DE HIPOTESIS INDIVIDUAL PARA CADA UNO DE LOS COEFICIENTES Se usa para probar las variables individualmente para determinar cuales coeficientes de regresión podrían ser cero y cuales no. Si una β es cero, esto implica que tal variable independiente en particular, no es de ningún valor para explicar cualquier variación en el valor dependiente. 1) Plantear la hipótesis Para: Variable 1 Variable 2 ..... Variable k Ho: β1=0 Ho: β2=0 Ho: βk=0 Ha: β1≠0 Ha: β2≠0 Ha: βk≠0
Calcular el t cal y el t (α, n-k-1) (tablas) : el nivel de significancia K: Numero de variables independientes .n : Tamaño de la muestra 4) Si el Tk es > Tt, entonces se rechaza la hipótesis nula ( se realiza para cada uno de los coeficientes) y se acepta la alternativa
2) Definir el nivel de significancia 3) El estadístico a utilizar es t Calcular el valor de t para cada uno de los coeficientes Tk =( b1-β1) / Sb1 Tk =( b2-β2) / Sb2 Tk =( b3-β3) / Sb3
ESTIMACIÓN DEL INTERVALO DE CONFIANZA
Es la estimación del valor de población de un coeficiente de regresión. El análisis de regresión se puede obtener una estimación de intervalo de confianza
Estimación de intervalo para los coeficientes de regresión parcial
bk ±t n− p−1S b
K: Indica la variable independiente correspondiente. P: Numero de variables independientes Sbk: es el error estándar de la variable independiente k
4
MODELO DE REGRESIÓN CURVILÍNEO
MODELO CURVILINEO
Una de las relaciones no lineales más comunes es la relación polinomial curvilínea entre dos variables en la que Y aumenta (o disminuye) con una rapidez variable para diferentes valores de X. Este modelo da una relación polinomial entre X e Y puede expresarse como
β0 = Intersección Y β1 = Efecto lineal en Y
2
Y i = β 0 + β 1 X 1i +β 11X 1i +∈i
β11= Efecto curvilíneo en Y ∈i= Error aleatorio en Y para la
observación
PRUEBA DE SIGNIFICANCIA DEL MODELO CURVILINEO
MODELO CENTRADO
Un planteamiento alternativo al modelo de regresión curvilíneo consiste en centrar los datos mediante la sustracción de la media de la variable explicativa de cada valor del modelo. Este modelo de regresión centrada se presenta en la ecuación.
ˆi = b'0 +b'1 ( X 1i − X 1 ) + b11 ( X 1i − X 1 ) Y
2
.Prueba global 1) Plantear la hipótesis Ho: β1=0 Ho: β11=0 Ha: No todos los beta son iguales a cero 2) Definir el nivel de significancia 3) El estadístico a utilizar es F Calcular el valor de F
5
5) 2) Definir el nivel de significancia 3) El estadístico a utilizar es F 4)Calcular el F cal y el F (α,k, n-k-1) (tablas) Α : el nivel de significancia. k= 2 K: Numero de variables independientes .n : Tamaño de la muestra 5) Si el Fcal es > Ft, entonces se rechaza la hipótesis nula
PRUEBA DE HIPOTESIS PARA PROBAR EL EFECTO CURVILINEO 1) Plantear la hipótesis Para: Variable 1 Variable 2 ..... Variable k Ho: β11=0 (La inclusión del efecto curvilineo no mejora de forma significativa el modelo
Ha:
0(
β11≠ La inclusión del efecto curvilineo mejora de forma significativa el modelo
5) Calcular el valor de t para cada uno de los coeficientes Tk =( b11-β11) / Sb11 Si el Tcal es > Tt, entonces se rechaza la hipótesis nula ( se realiza para cada uno de los coeficientes) y se acepta la alternativa
2) Definir el nivel de significancia 3) El estadístico a utilizar es t 4)Calcular el t cal y el t (α, n-k-1) (tablas dos colas) : el nivel de significancia k=2 K: Numero de variables independientes .n : Tamaño de la muestra
PRUEBA DE HIPOTESIS PARA PROBAR EL EFECTO LINEAL 1) Plantear la hipótesis Para: Variable 1 Variable 2 ..... Variable k Ho: β1=0 (La inclusión del efecto lineal no mejora de forma significativa el modelo
Ha: β1≠0 (La inclusión del efecto lineal
mejora de forma
significativa el modelo
6
Calcular el t cal y el t (α, n-k-1) (tablas dos colas) : el nivel de significancia k=2 K: Numero de variables independientes .n : Tamaño de la muestra 4) Si el Tk es > Tt, entonces se rechaza la hipótesis nula ( se realiza para cada uno de los coeficientes) y se acepta la alternativa
2) Definir el nivel de significancia 3) El estadístico a utilizar es t Calcular el valor de t para cada uno de los coeficientes Tk =( b1-β1) / Sb1
Ejemplo :MODELO CURVILINEO
Se tiene los datos de precio y ventas de un determinado producto realizar la prueba de hipótesis del efecto lineal y curvilíneo
PRUEBA DE HIPOTESIS DEL MODELO CURVILINEO
Prueba global
1) Plantear la hipótesis Para: Variable 1 Variable 2 ..... Variable k Ho: β1 = β11 = 0 Ha: β1 ≠ β11≠0
7
Si el Fk es > Ft, 37.56 >3.89 ,entonces se rechaza la hipótesis nula y se acepta la alternativa
2) α= 0.05 3) El estadístico a utilizar es F 4) El Ft (0.05,2, n-k-1) : el nivel de significancia k=2 .n : Tamaño de la muestra F(2,12) = 3.89 5) Calcular el valor de F para cada uno de los coeficientes Fk = 6221.2/165.6= 37.56
PRUEBA DE HIPOTESIS PARA PROBAR EL EFECTO CURVILINEO 1) Plantear la hipótesis Para: Variable 1 Variable 2 ..... Variable k Ho: β11=0 (La inclusión del efecto curvilíneo no mejora de forma significativa el modelo
Ha:
0(
β11≠ La inclusión del efecto curvilíneo mejora de forma significativa el modelo
Si el Tkl es > Tt Como 2.64 >2.17 entonces se rechaza la hipótesis nula , se concluye la inclusión del efecto curvilíneo mejora de modo significativo el modelo.
2) α= 0.05 3) El estadístico a utilizar es t 4) Calcular el t cal y el t (0.05, 12) = 2.17 (tabla dos colas) : el nivel de significancia k=2 K: Numero de variables independientes .n : Tamaño de la muestra 5) Calcular el estadístico y tomar la decisión Calcular el valor de t para cada uno de los coeficientes Tkl = 465/ 176.2=2.64
PRUEBA DE HIPOTESIS PARA PROBAR EL EFECTO LINEAL 1) Plantear la hipótesis Para: Variable 1 Variable 2 ..... Variable k Ho: β1=0 (La inclusión del efecto lineal no mejora de forma significativa el modelo
Ha: β1≠0 (La inclusión del efecto lineal
mejora de forma
significativa el modelo
8
2) α= 0.05 3) El estadístico a utilizar es t 4) Calcular el t cal y el t (0.05, 12) = 2.17 (tabla dos colas) : el nivel de significancia k=2 K: Numero de variables independientes .n : Tamaño de la muestra
5) Calcular el valor de t para cada uno de los coeficientes Tk = -1088,7/349.5= -3.11 Si el Tk es > Tt Como -3.11 <-2.17 entonces se rechaza la hipótesis nula , se concluye que la inclusión del efecto lineal mejora el modelo del efecto curvilíneo
9