REGRESIÓN LINEAL SIMPLE El análisis de regresión es una técnica estadística para investigar la relación funcional entre dos o más variables , ajustando algún modelo matemático. La regresión lineal simple utiliza una sola variable de regresión y el caso más sencillo es el modelo de línea recta. Supóngase que se tiene un conjunto de n pares de observaciones observaciones (x i,yi), se busca encontrar una recta que describa de la mejor manera cada uno de esos pares observados. CP xi
SI yi
2.95
18.5
3.2
20
3.4
21.1
3.6
22.4
3.2
21.2
2.85
15
3.1
18
2.85
18.8
3.05
15.7
2.7
14.4
2.75
15.5
3.1
17.2
3.15
19
2.95
17.2
2.75
16.8
45.6
270.8
24
y = 8.1185x - 6.6269 2
22
s e u p s e r e l b a i r a V
R = 0.7185
20 18 16 14 12 10 2.6 2.7 2.8 2.9
3
3.1 3.2 3.3 3.4 3.5 3.6
Xi (variable independiente o regresiva)
Se considera que la variable X es la variable independiente o regresiva y se mide sin error, mientras que Y es la variable respuesta para cada valor específico xi de X; y además Y es una variable aleatoria con alguna función de densidad para cada nivel de X.
f (Y xi )
E (Y xi )
yi
Y x i
Regresión Lineal Simple yi
= β 0 + β 1 xi + ε i
f (Y xi )
E (Y xi ) = β 0
x
1
xi
+ β 1 xi
xn
=
+
Si la recta de regresión es: Y β 0 β 1 X Cada valor y yi observado para un xi puede considerarse considerarse como el valor valor esperado de Y dado xi más un error:
Modelo lineal simple :
yi
= β 0 + β 1 xi + ε i
Los εi se suponen errores aleatorios con distribución normal, media cero y varianza σ2 ; β 0 y β 1 son constantes desconocidas (parámetros del modelo de regresión)
Método de Mínimos Cuadrados para obtener estimadores de β 0 y β 1 Consiste en determinar aquellos estimadores de β 0 y β 1 que minimizan la suma de cuadrados de los errores εi ; es decir, los estimadores β ˆ0 y β ˆ1 de β 0 y β 1 respectivamente deben ser tales que: n 2
∑ ε i
i =1
sea mínima.
= β 0 + β 1 xi + ε i ε i = yi − β 0 − β 1 x
Del modelo lineal simple: yi de donde:
n
elevando al cuadrado:
2
n
∑ ε i = ∑ ( yi − β 0 − β 1 x) 2
i =1
i =1
Según el método de mínimos cuadrados, los estimadores de β 0 y β 1 debe satisfacer las ecuaciones:
∂ n − β − β 2 = ∑ ( yi 0 1 x) 0 ∂β 0 i =1 ∂ n − − ∑ ( yi β 0 β 1 x) 2 = 0 ∂β 1 i =1 Cuya solución es:
ˆ0 β
Al derivar se obtiene un sistema de dos ecuaciones denominadas “ecuaciones normales”:
n
n
i =1
i =1
∑ yi = nβ 0 + β 1 ∑ xi n
β 0 ∑ xi i =1
n
+ β ∑
2 x i 1 i =1
= y − β ˆ1 x n
∑ xi yi
ˆ1 = i =1 β
n n ∑ yi ∑ xi − i =1 i =1
n
2
x ∑ i n ∑ x 2 − i =1 n
i =1
i
n
Ahora, el modelo de regresión lineal simple ajustado (o recta estimada) es:
ˆ0 yˆ = β
+ β ˆ1 x
n
= ∑ xi yi i =1
Con respecto al numerador y denominador de B1 suelen expresarse como S xy y S xx respectivamente:
n
∑ xi yi
ˆ1 = i =1 β
n n y x ∑ ∑ i i − i =1 i =1
ˆ1 = β
n
2
x ∑ i n ∑ x 2 − i =1 n
i =1
i
S xy S xx
n
2
x ∑ i n n 2 i =1 S xx = ∑ x − = ∑ ( xi − x )2 n
Puede demostrarse que: y
i =1
i
n
i =1
n n y x ∑ i ∑ i n n S xy = ∑ xi yi − i =1 i =1 = ∑ ( xi − x ) yi i =1
n
i =1
Por otro lado puede demostrarse que los estimadores de insesga insesgados dos con varianza varianzas: s: 2 1 x 2 ˆ V (β 0 ) = σ + n S xx
y
ˆ1 ) = V (β
β0 y β1 son
σ 2
respectivamente.
S xx
Como σ2 (la varianza de los errores εi) es en general desconocida, para estimarla definimos el residuo como: ei = yi − yˆ i y la suma de cuadrados del error como: n n
SS E = ∑ e i =1
2 i
SS E = ∑ ( yi i =1
2
− yˆ i )
que al sustituir yˆ i también puede expresarse como: SS E donde: n
Sea MS E
=
n
= ∑ ( yi − y )2 i =1
2
∑ ( yi − yˆ i )
i =1
S yy
= S yy − β ˆ1S xy
n−2
=
SS E n−2
Entonces: E ( MS E ) = σ
2
2 σ ˆ = MS E
ˆ0 Con lo anterior, las varianzas estimadas de β son respectivamente:
x 2 1 ˆ0 ) = MS E + ˆ (β V n S xx
y
y
ˆ1 β
MS E ˆ ˆ V (β 1 ) = S xx
Además, si se cumplen los supuestos de que los εi se distribuyen normalem normalemte te con media media cero cero y varianz varianzaa σ2, entonces, los estadísticos T =
ˆ0 − β 0 β
1 x 2 MS E + n S xx
y
T =
ˆ1 − β 1 β MS E S xx
tienen cada uno uno distribución distribución t de Student Student con n-2 grados grados de libertad. libertad. Lo que permite permite efectuar efectuar pruebas de de hipótes hipótes y calcular intervalos intervalos de confianza sobre los parámetros de regresión β0 y β1 .
Un caso de particular interés es probar la hipótesis:
=0 H 1 : β 1 ≠ 0 H 0 : β 1
Ya que si la pendiente es igual cero, entonces puede significar o que la variación de X no influye en la variación de Y, o que no hay regresión lineal entre X y Y. Por otro lado, si la pendiente es diferente de cero, entonces existirá algún grado de de asociación asociación lineal entre entre las dos variables, variables, es decir, la variabilidad variabilidad de X explica explica en cierta forma la variabiliad variabiliad de Y (aunque no implica que no pueda obtenerse obtenerse un mejor ajuste con algún polinomio polinomio de mayor grado en X).
Nota: si se utilizara en lugar de una recta, una curva con grado mayor a 1 en X pero grado 1 en los coeficientes de X, la regresión sigue siendo lineal, ya que es lineal en los parámetros de regresión p.ej.
Y=βo+β1 x +β2 x 2
Estimación de intervalos de confianza en torno a la línea de regresión: BANDAS DE CONFIANZA
Recta estimada de regresión
Para un punto específico x0 yˆ 0
x
1
xi
x0
xn
= E ˆ (Y x0 ) = β ˆ0 + β ˆ1 x0
Estimació Estimación n de la respues respuesta ta media media para un x0 específico:
µ ˆ yˆ 0
= yˆ 0 = E ˆ (Y x0 ) = β ˆ0 + β ˆ1 x0
1 ( xo − x ) n + S xx 2
V ( yˆ 0 ) = σ yˆ 0
2
2 1 ( xo − x ) V ˆ ( yˆ 0 ) = MS E + S xx n
tiene distribución normal, por lo que:
yˆ 0
− µ yˆ
0
V ˆ ( yo )
tiene distribuci distribución ón T de Student Student con n-2 grados grados de libertad, libertad, por lo lo que los límites de confianza superior e inferior para la respuesta media dado x0 están dados por:
ˆ ( yo ) yˆ 0 ± t α / 2, n − 2 V
Graficando Grafican do los limites de confianza superior e inferior de µ yˆ 0 para cada punto xi de X pueden dibujarse las bandas de confianza para la recta de regresión. Puede observarse que la amplitud del intervalo de confianza es mínima cuando mientras que es mayor en los extremos de los valores observados de X.
x0 = x
Predicción de nuevas observaciones o bservaciones Nótese que yˆ 0 es la respuesta media para los valores de xi seleccionados para encontrar la recta de regresión; sin embargo, frecuentemente es de interés predecir la la respuesta respuesta futura para un xa dado seleccionado posteriormente. Sea Y a la observación futura en x = xa .,
; Y a es una variable aleatoria con
varianza σ2 y por otro lado, la varianza de
= β ˆ0 + β ˆ1xa es V ˆ ( yˆ ) = MS 1 + 1n + ( x S − x ) 2
yˆ a
a
E
a
xx