1.8. Estadística descriptiva bidimensional: Regresión lineal simple Correlación La correlación mide la asociación lineal entre las variables X e Y.
Regresión La regresión encuentra una relación funcional entre las variables X e Y.
Diagrama de dispersión Dado un conjunto de n observaciones de las variables cuantitativas X e Y: (x1, y1), (x2, y2),…, (xn, yn), El primer paso en el análisis conjunto de las variables, es construir una gráfica de los datos muestrales en un plano bidimensional. Esta gráfica se denomina diagrama de dispersión o scatter plot.
Fuente: Notas de clase de Estadística Prof. A. Calderón - PUCP
Covarianza Dados n datos (x1 , y1), (x2 , y2),…, (xn , yn), la covarianza se define como: n
sd xy n
n
n
i 1
n
i
i 1
n
i 1
i
x y i y n
n
x y x y x y i i
sd xy
x
i
i 1
n
i i
i 1
n
xy
Coeficiente de correlación lineal de Pearson Dados n datos (x1 , y1), (x2 , y2),…, (xn , yn), el coeficiente de correlación de Pearson se define como:
r
sd xy sd x sd y
El coeficiente de correlación cuantifica el grado de asociación lineal que existe entre dos variables XeY Varía dentro del intervalo de -1 y 1. Si r = 0 entonces indica que no existe una asociación lineal entre las variables (pero puede existir otro tipo de asociación entre ellas). Si r se acerca a 1 o a -1 indica que existe una asociación lineal fuerte entre las variables, directa si r = 1 e inversa si r = -1.
Observaciones Una correlación alta no indica que una variable dependa de la otra o que sea causa de las variaciones en la otra. La asociación entre ellas no necesariamente es “causal”. Una correlación alta indica que el modelo lineal podría ser adecuado para hacer predicciones en el intervalo de variación de los datos; fuera de él, el tipo de relación entre las variables puede cambiar o no existir. Podemos obtener valores de correlación muy altos si usamos una muestra de dos o tres pares de datos pero en ese caso es claro que la conclusión acerca de la asociación entre las variables puede no ser válida. Diversos grupos de datos pueden tener el mismo coeficiente de correlación (como se observa en el gráfico siguiente), sin embargo, el tipo de relación entre las variables es distinta, lo que muestra la importancia de realizar el diagrama de dispersión.
En la figura de la izquierda se muestran cuatro conjuntos de datos bivariados, en todos los casos se cumple que: n = 11 Media de los xi = 9,0 Media de los yi =7,5 Corr(x, y) = rxy =0,82
Fuente: http://www.itl.nist.gov/div898/handbook/eda/section1/eda16.htm
1.9. Regresión lineal simple El análisis de regresión lineal estudia la relación lineal entre dos variables numéricas y da como resultado una ecuación matemática y a bx que describe dicha relación. La regresión lineal simple encuentra una recta L: y = a + bx que modela los datos, para estimar un valor de la variable Y dado un valor de la variable X.
Método de mínimos cuadrados Dados n datos (x1 , y1), (x2 , y2),…, (xn , yn), donde: xi (i = 1, 2,…, n) son los valores observados de la variable independiente X e yi (i = 1, 2,…, n) son los valores observados de la variable dependiente Y. Si la recta L: y = a + bx es la recta de regresión, yˆ i a bxi (i = 1, 2,…, n) es el valor esperado de Y dado que X = xi. Luego, el error es ei yi yˆ i (i = 1, 2,…, n).
La suma de cuadrados de los errores (SCE) es: n
n
n
SCE ei yi yˆ i yi a bxi i 1
2
2
i 1
2
i 1
La recta de regresión de mínimos cuadrados de Y sobre X, es la recta L: y = a + bx que minimiza la suma de cuadrados de los errores. Los valores de b y a que minimizan SCE son:
br También se tiene que b
sd y sd x
, a y bx
sd xy sd x2
Interpretación de los coeficientes de regresión a es igual al valor estimado de la variable dependiente Y cuando la variable independiente X vale cero. b es igual al incremento estimado de la variable dependiente Y a incrementos unitarios de la variable independiente X.
Propiedad de la recta de regresión Si la recta L: y = a + bx es la recta de regresión de mínimos cuadrados de Y sobre X. El punto x, y pertenece a la recta de regresión.
La media de los errores es igual a cero, es decir, e 0
yˆ y , la media de los valores estimados con la recta de regresión es igual a la media de los valores observados.
Predicción Para predecir el valor de la variable dependiente para un valor dado de la variable independiente, basta con reemplazar el valor dado en la fórmula de la recta de mínimos cuadrados.
Coeficiente de determinación Se puede demostrar que: ( )
(̂)
( )
Donde: Var (Y) es la varianza de los valores observados de la variable dependiente. Var ( ̂ ) es la varianza de los valores estimados con la recta de regresión. Var (e) es la varianza de los errores ( ei yi yˆ i ).
El coeficiente de determinación es: n
( yˆ y)
2
( y y)
2
i
R
^
i 1 n
Var (Y ) Var (Y )
i
i 1
Mide qué proporción de la varianza de los valores observados de Y es explicada por la recta de regresión de mínimos cuadrados. Se cumple que R r 2 ,es decir, el coeficiente de determinación es el cuadrado del coeficiente de correlación lineal de Pearson. Se cumple que 0 R 1 Mientras más próximo a 1 sea el coeficiente de determinación, mejor será el ajuste de los datos al modelo lineal. Ejemplo 1 Durante ocho semanas se observó la relación, entre el número de comerciales contratados y el valor de las ventas (en miles de soles) de un artículo.
a. b. c. d. e.
Semana
Comerciales (X)
Ventas (Y)
1
58
208
2
51
171
3
85
253
4
35
126
5
62
206
6
70
220
7
98
275
8
104
281
Realice el diagrama de dispersión. Calcule la recta de regresión de las ventas sobre el número de comerciales. Si en una semana se contratan 75 comerciales, estimar las ventas en esa semana. Calcule e interprete el coeficiente de correlación. Calcule e interprete el coeficiente de determinación.
Solución a. El diagrama de dispersión es el siguiente:
[Escriba una cita del documento o el de la recta de regresión. b. Calculemos los coeficientes resumen de x 70,375, y 217,5un , sd 22,242, sd y 49,196, sd xy 1074,187 punto interesante. x b 2situar ,1712, el a 64,699 De donde Puede cuadro de texto en Por lo tanto, la recta de regresión es L : y 64,699 2,17121x cualquier lugar del documento. Use la ficha Herramientas de dibujo para cambiar el formato del cuadro de texto de la cita.]
[Escriba una cita del documento o el resumen de un punto interesante. Puede situar el cuadro de texto en cualquier lugar del documento. Use la ficha Herramientas de dibujo para cambiar el formato del cuadro de texto
c. Si x es igual a 75, entonces, yˆ a b (75) 227,5 d. El coeficiente de correlación es r
sd xy sd x sd y
1074.187 0,981, luego hay una 22.242 49.196
asociación lineal fuerte y directa entra las variables. e. El coeficiente de correlación R r 2 0.96 96 % . Con la recta de regresión se ha logrado explicar el 96% de la varianza de la variable valor de las ventas. El ajuste de los datos al modelo lineal es muy bueno. Ejemplo 2 A continuación se muestran las notas obtenidas en un examen de Estadística y la cantidad de horas dedicadas a estudiar para dicha evaluación por cada uno de 17 alumnos seleccionados al azar. X: Horas Y: Nota
5,0
6,0
12,0
10,0
8,0
8,5
4,5
5,0
2,0
2,5
4,0
5,0
6,0
3,0
4,0
6,0
12,5
15
12
17
14
15
15
13
13
10
10
10
14
12
12
13
11
17
a. Grafique el diagrama de dispersión y evalúe si parece existir relación lineal entre el tiempo de estudio y la nota obtenida en el examen de Estadística. b. c. d. e.
Determine la recta de regresión de mínimos cuadrados e interprete sus coeficientes. Estime la nota de un alumno que estudió nueve horas. Calcule e interprete el coeficiente de correlación. Calcule e interprete el coeficiente de determinación.
Ejemplo 3 Se llevó a cabo un estudio para investigar la relación entre Y: el precio de reventa (en cientos de dólares) y X: la antigüedad (en años) de automóviles compactos de lujo. Se determinó que la ecuación de la recta de regresión de mínimos cuadrados fue y = 192,7 + bx. También se determinó que por cada mes adicional de antigüedad del automóvil, la estimación del precio de reventa baja en 153,50 dólares. Con esta información estime el precio de reventa de un automóvil compacto de lujo con cuatro años de antigüedad.
Ejercicios 1.
A continuación, se muestran los datos recogidos del valor en dólares de dos acciones, una de un mercado externo cuya cotización termina a las 9 am. hora peruana, y otra de la Bolsa de Valores de Lima cuya cotización concluye a las 3 pm.
Día
Acción del mercado externo
Acción de la BVL
2-Feb-2009
14,29
16,24
3-Feb-2009
14,32
16,28
4-Feb-2009
14,33
16,33
5-Feb-2009
14,28
16,32
6-Feb-2009
14,36
16,47
9-Feb-2009
14,43
16,52
10-Feb-2009
14,35
16,38
11-Feb-2009
14,41
16,45
12-Feb-2009
14,43
16,47
13-Feb-2009
14,36
16,33
a. Encuentre la recta de regresión que mejor se ajuste a los datos y que permita predecir el precio de la acción que cotiza en la BVL cuando se conoce el precio de la acción del mercado externo. b. Estime el precio de la acción que cotiza en la BVL cuando el precio de la acción del mercado externo es de 14,25 soles. c. Calcule el coeficiente de determinación y comente sus resultados. 2.
Los datos de la siguiente tabla muestran el área construida (en metros cuadrados) y el precio de venta (en miles de dólares) de 10 departamentos nuevos ubicados en el mismo distrito. Departamento
Área (metros cuadrados)
Precio (miles de US$)
1
126
78,5
2
180
175,7
3
162
139,5
4
144
129,8
5
166
95,6
6
163
110,3
7
207
260,5
8
149
105,2
9
134
88,6
10
174
165,7
a. Calcule e interprete el coeficiente de correlación entre el área del departamento y el precio de venta. b. Determine la ecuación de la recta de regresión de mínimos cuadrados e interpretar sus coeficientes. c. Use la recta de regresión hallada en (b) para estimar el precio de un departamento de 150 metros cuadrados. d. Calcule e interprete el coeficiente de determinación.