ANALISIS DE REGRESIÓN LINEAL SIMPLE
+ + , , ó Dado un valor particular de “x”, la función matemática
indicara el valor correspondiente de “y”.
MODELO DE REGRESIÓN
Donde:
METODO DE MINIMOS CUADRADOS
+ + ∴ + = = 2 0
Derivando la fórmula para
= 2 0 = :
2 2 = 0 = 0 = = 0
= = ∑ ∑
Donde:
∑ ∑ ̅ Derivando la fórmula para
Sustituyendo
:
2 0 = 0 = 0 = = = = 0
∑ ∑ = = = 0 ∑ ∑ ∑ ∑ ∑ 0 ∑ ∑ ∑ ∑ ∑ ∑ ∑ + 0 ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑
Así podemos estimar la ecuación ecuación de regresión:
+ ∑ ∑ ∑ ∑ ̅
INFERENCIAS SOBRE EL MODELO
2 ∑ ó
∑ 2 2 ∑
Pero como nos interesa la no explicada explica da para estimar
Suma de cuadrados error
Suma de cuadrados total
Suma de cuadrados regresión
INFERENCIAS A TRAVES DE INTERVALOS O PRUEBAS DE HIPOTESIS INTERVALO DE CONFIANZA PARA
/,− ≤≤/,−1 /,− ≤ ≤ + /,−1 1 + ̅
INTERVALO DE CONFIANZA PARA
(RESPUESTA DE CAMBIO)
/,− ≤≤/,−1 /,− ≤ ≤ + /,−1 :: ≠ 00
PRUEBA DE HIPOTESIS
ARA
y
INTERVALO DE CONFIANZA PARA LA ECUACIÓN DE REGRESIÓN
/ + − ̅ 2 /,− ≤ / ≤+/,−1 + a) INTERVALO PARA PRONOSTICO O PREDICCIÓN Este intervalo es para una observación aislada en específico.
1+ 1 + + − ̅
/,− ≤ / ≤+/,−1
PRUEBA DE SIGNIFICANCIA DE REGRESIÓN
+ .. ó
ANOVA Fuentes de variación Regresión
Grados de libertad k-1
Error
n-k
Total corregida
n-1
Suma de cuadrados
Cuadrado medio
∑ ∑ −− :: ≠ 00
1
k es el número de parámetros que se estiman MSR y MSE son estimadores estimadores de varianza
Rechazar
,−−,−− cuando:
> ,−−,−−
COEFICIENTE DE DETERMINACIÓN Y CORRELACIÓN Son medidas que nos ayudan a determinar qué tan bueno es el modelo.
ó 0≤0 ≤ ≤ 1 √ óó 1 ≤ ≤ 1
Nos indica que porcentaje de la variación total queda explicada por “x”.
Nos indica el grado de relación lineal que hay entre las dos variables. Si se acerca a -1 o 1 hay un alto grado de relación entre las dos variables.
F
ESTANDARIZACIÓN DE RESIDUALES
√
En ocasiones en el análisis de residuales es conveniente hacer un análisis de los residuales estandarizando, puesto que la desviación estándar del error es y es estimada por , definiremos el residual estandarizado como sigue:
̅ √ √
PRUEBA DE CARENCIA DE AJUSTE La prueba consiste en dividir el error o suma de cuadrados error en los componentes siguientes: Suma de cuadrados error = suma de cuadrados del error puro + suma de cuadrados de carencia de ajuste.
+
Para calcular SSPE es necesario tener observaciones repetidas de la respuesta “y” al menos para un nivel de “x”.
, , , … , , , … , , , …
Existen “m” niveles distintos de “x”.
= = =
Para realizar la prueba construimos un ANOVA Fuentes de variación
Grados de libertad
Regresión
k-1
Error aleatorio
n-k
Carencia de ajuste
m-2
Error puro
n-m
Total
n-1
Suma de cuadrados
= = ∑ ∑
Cuadrado medio
F
m = es el número de niveles de “x”
1 =
TRANSFORMACIONES Cuando el modelo de línea recta no se ajusta tenemos que hacer transformaciones.
y x loglog + log ln lnln + ln log loglog + log + Original
Transformado
a) Función exponencial
Función intrínseca lineal
Transformación en “y” y no en “x”.
b) Función de potencia
Transformación en “x” y “y”
c) Función reciproca
+
Transformación en “x” no en “y”
d) Función hiperbólica
+ 1 1 + + ANALISIS DE REGRESIÓN MULTIPLE Es cuando se tiene más de una variable de regresión o variable independiente. Esto es, tenemos una variable dependiente o respuesta que está en función de varias variables independientes.
Por ejemplo: El número de artículos defectuosos depende: 1. 2. 3. 4.
→→ →
La velocidad de la maquina La experiencia del operario La calidad de la materia prima El turno de trabajo
→
El modelo de regresión lineal múltiple con “k” variables de regresión será:
, , ,…, + + + +⋯+ + + + +⋯+ +
Es la verdadera ecuación de regresión múltiple.
Estimación de la ecuación de regresión a través de una muestra Suponga que el experimentador tiene “k ” variables independientes y “n” observaciones, cada una de
las cuales se puede expresar por la ecuación:
+ + + +⋯+ + 1, 1,2,1,22,3,, 33,…, ……
valor de en la primera observación de la muestra, de la muestra.
es el valor de
es el en la primera observación
Donde “n” es el número de observaciones de la muestra y “k” es el número de variables,
Planteamiento del problema:
12 ++ ++ ++ +⋯+ + +⋯+ + 3 + + + +⋯+ + 20 + + + +⋯+ + El método que utilizamos para resolver las ecuaciones es el método de mínimos cuadrados que es minimizar la suma de los cuadrados de los errores.
Hasta:
⋯ ⋯ ⋯ ⋯ ⋯
ESTIMACIÓN DE LOS PARAMETROS POR MINIMOS CUADRADOS
El conocimiento de la teoría matricial puede facilitar considerablemente las manipulaciones matemáticas. Para expresar el modelo en regresión múltiple general en términos de matrices:
11 ⋯⋮ ⋮4 1⋮ ⋮ ⋮ ⋮ ⋯⋯ ⋮ +1⋯ ) (1 1) (1 4 ⋮4 ⋮() () 1 11 1 1 En términos de matrices, el modelo de regresión lineal múltiple es:
+
1 1 + 1 1 11 1 1
→→ á → → 0 Donde:
Consecuentemente el vector aleatorio “y” tiene un valor esperado
Y la matriz de varianza- covarianza de “y”
Las ecuaciones resultantes que es necesario resolver son:
Donde
denota el vector de coeficientes de regresión estimados.
Los estimadores de mínimos cuadrados son: La matriz
es:
−
1 1 1 ⋯⋯ 1 11 ⋯⋯ ⋮ ⋮ ⋮ ⋯⋯⋯ ⋮ 1⋮ ⋮ ⋮ ⋮ ⋯⋯ ⋮ ⋯ 1 ⋯ ⋯ ⋯ ⋯ ⋮ ⋮ ⋮ ⋮ ⋯⋯ ⋮ La ecuación de regresión para este problema es:
Entonces:
+ + + + 44 − 4 4 4 4 4 4 4 4 4 4
4 − Entonces:
INFERENCIAS SOBRE EL MODELO
Primeramente estimamos la variación aleatoria. Al igual que en el caso de la regresión lineal simple la estimación de está definida en términos de la suma de cuadrados de los residuos (SSE):
Un estimador insesgado de
esta dado por el cuadrado medio error (MSE):
ú −− −
Esta última ecuación se convierte en:
Por consiguiente otra manera de obtener
es :
PRUEBA DE SIGNIFICANCIA DE LA REGRESIÓN
, , … :: ≠ 0 ⋯ 0 "j " .
Es una pr ueba ueba para determinar si existe una relación lineal entre la respuesta “y” y un subconjunto de las variables de regresión . Las hipótesis apropiadas son:
El rechazo de implica que a menos una de las variables de regresión contribución significativa en el modelo.
, , …
tiene una
En la prueba de significancia la suma total de cuadrados se divide en la suma de cuadrados debida a la regresión y la suma de cuadrados debida al error digamos:
+
Debe rechazarse si el valor calculado del estadístico de prueba es mayor que procedimiento se puede resumir en la tabla de análisis de varianza. Fuentes de variación
Grados de libertad
Regresión
k-1
Error Total
SS
MS
∑ ∑ 1 ∑ ∑ ∑ ∑ ∑ ∑ 1´ ′ ∑ ∑ ∑ ∑ ∑ ∑ n-k
n-1
F.c. or la media
Como: Entonces:
∝,−−−−
. El
COEFICIENTE DE DETERMINACIÓN MULTIPLE Es una técnica empleada para medir la adecuación de un modelo de regresión. El coeficiente de determinación múltiple está definida por:
0 ≤ ≤ 1 1≤≤1 , , …
Un valor grande de no necesariamente implica que el modelo de regresión sea bueno. La adición de una variable al modelo siempre aumenta de , sin importar si la variable es o no e stadísticamente significativa. Es así como los modelos tienen valores de grandes pueden proporcionar predicciones pobres de nuevas observaciones.
→
Coeficiente de de correlación correlación múltiple
Es una medida de la oscilación lineal existente entre “y” y
.
INFERENCIAS PARA LOS PARAMETROS DE REGRESIÓN
′ ′−
′
Para poder hacer inferencias acerca de los parámetros de regresión primeramente debemos estimar la varianza de las esta se expresa en términos de los elementos de la inversa de la matriz . La inversa de multiplicada por la constante representa la matriz varianza-covarianza o matriz de covarianza (varianza conjunta de dos variables) de los coeficientes de regresión . Los elementos de la diagonal de son las varianzas de mientras que los elementos que están fuera de la diagonal de esta matriz son las covarianzas.
, , ⋯
MATRIZ DE COVARIANZA
, ⋯ , ⋮, ⋮ ⋯⋯ ⋮ , , , ⋯ − − ⁄,−− ≤ ≤ + ⁄,−−1
INTERVALO DE CONFIANZA PARA
Donde
es la raíz cuadrada de los valores de la diagonal de la matriz de varianza-covarianza.
*si ningún parámetro pasa por cero quiere decir que son variables importantes. PRUEBA DE HIPOTESIS SOBRE LOS COEFICIENTES INDIVIDUALES DE REGRESIÓN Son útiles para valorar cada variable de regresión en el modelo. A menudo se tiene interés en hacer pruebas de hipótesis sobre los coeficientes coeficientes de regresión. Tales pruebas son útiles para determinar el valor potencial de cada una de las variables de regresión del modelo de regresión. Por ejemplo el modelo puede ser eficaz con la inclusión de variables adicionales, o quizá con la eliminación de uno o mas regresores presentes en el modelo. La adición de una variable al modelo siempre hace que SSR aumente y que la SSE es suficientemente grande como para justificar el uso de una variable mas en el modelo. Por otra parte
la adición de una variable sin importancia puede aumentar MSE, lo que contribuye un indicador de que tal variable disminuye la calidad con la que el modelo ajusta a los datos. Las hipótesis para la prueba de significancia de cualquier coeficiente de regresión individual serían: 1.
:: ≠ 00
2. Se realiza la prueba prueba con un nivel de significancia
3. El estadístico estadístico de prueba para esta hipótesis es:
Nótese que es el error estándar del coeficiente coeficiente de regresión varianza-covarianza en la diagonal.
el cual se obtiene de la matriz
:> ⁄,0− < ⁄,−
4. Se rechaza la hipótesis nula si 5. Si no se rechaza la hipótesis eliminarse del modelo.
, entonces esto indica que el regresor
puede
A esta prueba se le conoce conoce como PRUEBA PARCIAL O MARGINAL. NTERVALO DE CONFIANZA PARA LA RESPUESTA MEDIA
ℎ, ℎ,⋯,ℎ 1 ℎ ⋮ ⁄ℎ ℎ ℎ ℎ ⁄ℎ ℎ ̂⁄ℎ ℎ ℎ ℎ ℎ ℎ ℎ ℎ 1 1 ⋯ ⋮
También puede obtenerse un intervalo de confianza para la respuesta promedio en un punto en particular por ejemplo: en este punto se define el vector: vector:
La respuesta promedio en este punto es:
ℎ →
la cual es estimada por:
Son los valores para las x’s para cada experimento para cada serie de valores.
ℎ ⁄,−−ℎ ≤ ℎ ≤ ℎ + ⁄,−−ℎ1 INTERVALO DE CONFIANZA PARA PRONOSTICO O PREDICCIÓN Un modelo de regresión puede emplearse para predecir observaciones futuras de la variable respuesta “y”, correspondiente a valores particulares de las variables independientes, entonces una estimación puntual de la observación futura en el punto es:
, ,⋯, 100 1001∝ 1∝ 1 ⁄,− − ≤ ≤ + ⁄,− − 1 1 + ℎ ′−ℎ + ℎ ℎ + +ℎ
Un intervalo de pronóstico o predicción del
para esta observación futura es:
PRUEBA DE CARENCIA DE AJUSTE A continuación se presenta una prueba para determinar “bondad de ajuste” del modelo de regr esión. Las hipótesis que se desean probar son:
:: ≠ ++ ++ +⋯+ +⋯+ > ,− −− −
Se requiere tener observaciones repetidas de la respuesta “y” al menos para un nivel de
Se rechaza la hipótesis si
, ,⋯,
Para realizar la prueba construimos una tabla de análisis de varianza. Fuentes de variación
Grados de libertad
Regresión
p-1
Carencia de ajuste
m-p
Error puro
n-m
Error
n-p
Total
n-1
SS
∑ ∑ = = ∑ ∑
→ ú ú ′
MS
1
.