UNIDAD 4 Análisis de Regresión Lineal Simple, no Lineal y Múltiple. 4.1 Introducción al análisis de Regresión. 4.2 Diagrama de Dispersión. 4.3 Correlación; Medición de la intensidad y dirección de la asociación entre Variables. 4.4 Significación de la R de Pearson. 4.5 Tipos de Modelo de Regresión. 4.6 Desarrollo de Modelos de Regresión Lineal Simple. 4.7 Método de mínimos cuadrados y su interpretación. 4.8 Desarrollo del Modelo de Regresión Múltiple. 4.9 Coeficiente de Determinación Múltiple y su interpretación. 4.10 Predicción de la Variable Dependiente e Independiente. 4.11 Desarrollo del Modelo de Regresión Exponencial y su Interpretación. 4.12 Desarrollo del Modelo de Regresión Logarítmica y su interpretación. ING. NADIA PUENTES- ESTADISTICA APLICADA
INTRODUCCIÓN AL ANALISIS DE REGRESIÓN • Si existe una relación entre dos variables que se estén considerando, también sería deseable determinar la fuerza de esa relación o dependencia y el valor de una variable a partir del valor de la otra. Donde los métodos empleados para manejar este tipo de problemas se conocen como técnicas de regresión y correlación. • Dos o mas variables pueden estar involucradas en el análisis de regresión y correlación. Si solamente están involucradas dos variables se dice que la técnica es una regresión o correlación simple. Cuando están implicada tres o mas variables se trata se una regresión o correlación múltiple. • La técnica de regresión se refiere al procedimiento de obtener una ecuación con fines de estimación o predicción.
ING. NADIA PUENTES- ESTADISTICA APLICADA
DIAGRAMA DE DISPERSIÓN • Un diagrama de dispersión proporciona una imagen visual del tipo de relación involucrada y sugiere el tipo de ecuación que mejor se ajustará a los datos . • La forma usual de construir un diagrama de dispersión es localizar los valores de las variables independientes X sobre el eje horizontal y los de las variable dependientes Y sobre el eje vertical; así se forma un plano bidimensional con X y Y. • EJEMPLO: – Se desea estimar la relación de los PPC (promedios de puntos de calificación) de bachillerato y universidad . Supóngase que se obtiene una muestra aleatoria de 20 estudiantes . El objetivo es ver si es posible predecir el valor de Y a partir de los valores conocidos de X. Primero se localizarán los datos en un diagrama de dispersión.
ING. NADIA PUENTES- ESTADISTICA APLICADA
DIAGRAMA DE DISPERSIÓN •
Sugiere claramente una relación lineal positiva entre X y Y, esto es, el PPC de un estudiante de la universidad tiende a variar directamente de acuerdo a su PPC en bachillerato y se obtiene como resultado una línea recta.
PPC de PPC de Bachillerato Universidad Estudiante (X) (Y) 1 3 5 2 2 4 3 4 4 4 12 9 5 11 8 6 8 9 7 9 7 8 7 8 9 6 5 10 5 6 11 4 8 12 8 4 13 3 7 14 12 6 15 9 8 16 8 5 17 11 10 18 7 7 19 8 6 20 10 5
12
10
8
6
4
2
0 0
2
4
6
ING. NADIA PUENTES- ESTADISTICA APLICADA
8
10
12
14
CORRELACIÓN, MEDICIÓN DE LA INTENSIDAD Y DIRECCIÓN DE LA ASOCIACIÓN ENTRE VARIABLES. •
•
• •
•
El objetivo principal del análisis de correlación lineal es medir la intensidad de la correlación entre dos variables. Si no existe un cambio definido en los valores de Y conforme aumentan los valores de X, se dice que no hay correlación o que no existe relación entre X e Y. En cambio , si al aumentar X hay una modificación definida de los valores de Y. Si tanto los valores de X como los de Y tienden a seguir una dirección recta, existe una correlación lineal. Si los datos forman una recta vertical u horizontal no existe correlación, pues una variable no tiene efecto sobre la otra.
No hay correlación
Correlación Positiva
ING. NADIA PUENTES- ESTADISTICA Correlación Negativa APLICADA
Correlación Perfecta Positiva
Correlación Perfecta Negativa
• El coeficiente de correlación r es la medida de la intensidad de la relación lineal entre dos variables. El coeficiente refleja el grado de relación o efecto que tiene el cambio de una variable sobre otra. • El grado de exactitud de la predicción depende de la cercanía de la relación entre X e Y, lo cual también se conoce como grado de correlación entre las dos variables. • La medida usual del grado de correlación basándose en una muestra de n pares de observaciones es el coeficiente de correlación, comúnmente denotado r. • El coeficiente de correlación lineal r siempre tiene un valor entre -1 y +1. Un valor igual a +1, o bien a -1 indica una correlación positiva o correlación negativa perfecta. ING. NADIA PUENTES- ESTADISTICA APLICADA
• Si la correlación entre X e Y es débil, muy poco de la variabilidad de Y puede atribuirse a su relación con X y r será cercano a 0. • Cuando r=0, indica que no existe correlación; esto es nada de variabilidad de Y puede atribuirse a su relación con X. • Cuando r está entre 0 y 1, existe una correlación positiva entre las dos variables X e Y. Si estas tienen una correlación positiva, los valores de X e Y tienden a moverse en la misma dirección. El valor de la variable tiende a variar directamente con el valor de la otra. • Cuando r está entre -1 y 0, existe una correlación negativa entre X e Y. Entonces los valores de X e Y tienden a moverse en dirección opuesta; cuando uno aumenta, el otro tiende a disminuir y viceversa. ING. NADIA PUENTES- ESTADISTICA APLICADA
MOMENTO PRODUCTO DE PEARSON ( x) SC ( x) x n
2
2
SC ( y )
( y ) 2 y n
SC ( xy ) xy
2
( x)( y ) n
ING. NADIA PUENTES- ESTADISTICA APLICADA
r
SC ( xy ) SC ( x ) SC ( y )
CONTINUACIÓN DE EJEMPLO 1 Estudiante 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 TOTAL
PPC de Bach. PPC de Univ. (X) (Y) 3
5
X2
Y2 9
XY 25
2
4
4
16
8
4
4
16
16
16
12
9
144
81
108
11
8
121
64
88
8
9
64
81
72
9
7
81
49
63
7
8
49
64
56
6
5
36
25
30
5
6
25
36
30
4
8
16
64
32
8
4
64
16
32
3
7
9
49
21
12
6
144
36
72
9
8
81
64
72
8
5
64
25
40
11
10
121
100
110
7
7
49
49
49
8
6
64
36
48
10
5
100
25
50
1,261
921
1,012
147
131
SUSTITUCIÓN
15
SC ( x)
SC ( y )
x
2
( x) n
2
( y ) y n
21,609 = 20
180.55
SC(y)= 921 -
17,161 = 20
62.95
2
2
SC ( xy ) xy
SC(x)= 1261 -
( x)( y ) n
SC(x y)= 1012 -
19,257 =
49.15
20
RESULTADO r
SC ( xy ) SC ( x ) SC ( y )
ING. NADIA PUENTES- ESTADISTICA APLICADA
r =
49.15 = 0.46 106.61
ECUACIONES DE PREDICCIÓN
y b0 b1 x
Lineal
y a bx cx
2
Cuadrática
x
y a(b )
Exponencial
y a log b x ING. NADIA PUENTES- ESTADISTICA APLICADA
Logarítmica
PROBLEMA 1
• Se condujo a un experimento para estudiar la relación existente entre rendimiento de maíz y e la cantidad de fertilizante aplicada por parcela. 80
70
60
50
40
30
20
10
-
0.5
1.0
1.5
2.0
ING. NADIA PUENTES- ESTADISTICA APLICADA
2.5
3.0
3.5
PROBLEMA 1
• Se condujo a un experimento para estudiar la relación existente entre rendimiento de maíz y e la cantidad de fertilizante aplicada por parcela. Cantidad de Estudio de la fertilizante relación entre Aplicada por Rend. rendimiento de parcela del maíz maíz fertilizante (X) (Y)
SC(x)= X2
Y2
1.3
60
2
3,600
78
2
2.5
72
6
5,184
180
3
1.8
61
3
3,721
110
4
3.1
70
10
4,900
217
5
2.7
68
7
4,624
184
22,029
768.40
11 .40
331
28.08
-
129.96 5
= 2.09
XY
1
TOTAL
28.08
SC(y)= 22,029.00 - 109,561.00 = 116.80 5
SC(xy)=
768.40
r= 13.72
15.62
ING. NADIA PUENTES- ESTADISTICA APLICADA
-
3,773.40 = 13.20 5
= 0.88
DESARROLLO DE MODELOS DE REGRESIÓN MÉTODO DE MÍNIMOS CUADRADOS Y SU
LINEAL SIMPLE. INTERPRETACIÓN.
• El análisis de regresión calcula una ecuación que produce valores de Y para valores dado de X. Uno de los principales objetivos del análisis de regresión es hacer predicciones. • Generalmente no se predice el valor exacto de Y . Se acepta por lo general si las predicciones están razonablemente cercanas a los valores reales. • El estadístico busca una ecuación que le permita expresar la relación entre los datos variables. La ecuación que se elige es aquella que se ajusta mejor al diagrama de dispersión. • La relación entre las dos variables será una expresión algebraica que describe la relación matemática entre X e Y.
ING. NADIA PUENTES- ESTADISTICA APLICADA
DESARROLLO DE MODELOS DE REGRESIÓN MÉTODO DE MÍNIMOS CUADRADOS Y SU
LINEAL SIMPLE. INTERPRETACIÓN.
• Si parece apropiada una relación definida por una recta, la recta de mejor ajuste se encuentra utilizando el método de mínimos cuadrados . • El criterio de mínimos cuadrado implica que la recta elegida para ajustar los puntos del diagrama de dispersión sea tal que la suma de los cuadrados de las distancias verticales entre los puntos y la recta sea lo mas pequeña posible. Es la ecuación de la recta del valor predicho de Y que corresponde a un valor particular de X.
ING. NADIA PUENTES- ESTADISTICA APLICADA
DESARROLLO DE MODELOS DE REGRESIÓN MÉTODO DE MÍNIMOS CUADRADOS Y SU
LINEAL SIMPLE. INTERPRETACIÓN.
Pendiente
SC ( xy ) b1 SC ( x) Ordenada en el Origen
1 b0 ( y b1 x) n
ING. NADIA PUENTES- ESTADISTICA APLICADA
Ecuación de la recta del mejor ajuste
y ˆ b0 b1 x
DESARROLLO DE MODELOS DE REGRESIÓN MÉTODO DE MÍNIMOS CUADRADOS Y SU CONTINUACIÓN DE EJEMPLO 1
b1 =
49.15 = 0.27 180.55
b0 =
4.56
yˆ 4.56 0.27 x
ING. NADIA PUENTES- ESTADISTICA APLICADA
LINEAL SIMPLE. INTERPRETACIÓN.
*DESARROLLO DEL MODELO DE REGRESIÓN MÚLTIPLE. *COEFICIENTE DE DETERMINACIÓN MÚLTIPLE Y SU INTERPRETACIÓN. *PREDICCIÓN DE LA VARIABLE DEPENDIENTE E INDEPENDIENTE .
• La regresión múltiple se define como el procedimiento estadístico en virtud del cual algunas variables se usan para predecir a otra variable.
• El objetivo del análisis de regresión múltiple consiste en dar a conocer aquellas variables que son de utilidad en la predicción del valor de una variable dependiente. Cuando existe una variable que no resulta de ayuda
en la predicción del análisis, esta variable puede ser eliminada del modelo de regresión múltiple y así resultaría un modelo mas fácil de utilizar.
ING. NADIA PUENTES- ESTADISTICA APLICADA
*DESARROLLO DEL MODELO DE REGRESIÓN MÚLTIPLE. *COEFICIENTE DE DETERMINACIÓN MÚLTIPLE Y SU INTERPRETACIÓN. *PREDICCIÓN DE LA VARIABLE DEPENDIENTE E INDEPENDIENTE .
• La principal ventaja del análisis, es que permite utilizar un parte mayor de la
información que disponemos para estimar la variable dependiente. • El uso de regresión múltiple en cualquier tipo de problema, se puede pronosticar una variable en término de otra con mucha precisión. • El análisis de regresión múltiple se utiliza en situaciones donde se tiene mas de un factor (variables de regresión) afecten en el resultado observado (Variable de respuesta).
ING. NADIA PUENTES- ESTADISTICA APLICADA
*DESARROLLO DEL MODELO DE REGRESIÓN MÚLTIPLE. *COEFICIENTE DE DETERMINACIÓN MÚLTIPLE Y SU INTERPRETACIÓN. *PREDICCIÓN DE LA VARIABLE DEPENDIENTE E INDEPENDIENTE . •
Ejemplos de situaciones en las que se utiliza regresión múltiple.
Variables Dependientes
Variables Independientes
Cosecha
Cantidad de fertilizante, lluvia, tipo de suelo.
Salario anual
Años en la compañía, escolaridad.
Dureza de acero
Tiempo de recorrido, cantidad de carbono, índice de enfriamiento
Volumen de Ventas
Gasto de publicidad, precio.
Demanda de la carne de pollo
Precio de carne de res, de cerdo, de pollo.
ING. NADIA PUENTES- ESTADISTICA APLICADA
ECUACIONES NORMALES DE DOS VARIABLES INDEPENDIENTES.
y nb
0
b1 ( x1 ) b2 ( x2 ) Ecuación
x y b ( x ) b ( x ) b ( x x ) 2
1
0
1
1
1
2
1 2
x y b ( x ) b ( x x ) b ( x ) 2
2
0
2
1
1 2
2
ING. NADIA PUENTES- ESTADISTICA APLICADA
2
y b0 b1 x1 b2 x2 Resultado DETERMINANTE
EJEMPLO 2 •
Los datos siguientes presentan el número de dormitorios, el número de baños y los precios a que se vendieron recientemente ocho casas unifamiliares en cierta comunidad: Número de dormitorios x1
Número de Baños x2
Precio (en dólares) y
3
2
78,800
2
1
74,300
4
3
83,800
2
1
74,200
3
2
79,700
2
2
74,900
5
3
88,400
4
2
82,900
Encuentre la ecuación lineal que nos permita pronosticar el precio de venta promedio de una casa unifamiliar en la comunidad de referencia en términos del número de baños y dormitorios. ING. NADIA PUENTES- ESTADISTICA APLICADA
PROBLEMA TAREA •
Los siguientes datos sobre las edades y los ingresos de una muestra aleatoria de cinco ejecutivos para una compañía multinacional grande y el número de años que cada uno asistió a la universidad: Edad
X1
Años de Universidad X2
Ingresos (en dólares) Y
38
4
81,700
46
0
73,300
39
5
89,500
43
2
79,800
32
4
69,900
Encuentre la ecuación lineal que nos permita pronosticar el ingreso promedio de los ejecutivos. Avalúe cada una de las fórmulas que nos permitirán realizar la determinarte para evaluar un de las x´s. ING. NADIA PUENTES- ESTADISTICA APLICADA
DESARROLLO DEL MODELO DE REGRESIÓN EXPONENCIAL Y LOGARÍTMICA
Ecuación curva exponencial
y a b
2
x
SC ( xY )
( x)( Y) xY n
x
b1
Ecuación logarítmica
log y log a x(log b)
( x) n
SC ( x)
2
SC ( xY ) SC ( x )
b0 Y b1 x
Yˆ log yˆ b0 b1 x ING. NADIA PUENTES- ESTADISTICA APLICADA
EJEMPLO 3 •
Los datos siguientes son los beneficios netos de una compañía de una compañía durante el primero de seis años que ha operado: 1000 900
Año
Beneficio neto (miles de dólares)
1
112
700
2
149
600
3
238
500
4
354
400
5
580
300
6
867
200
800
100 0
1
2
3
ING. NADIA PUENTES- ESTADISTICA APLICADA
4
5
6
EJEMPLO 4 •
Los siguientes datos relacionados con el crecimiento de una colonia de bacterias en un medio de cultivo:
Beneficio neto (miles de dólares)
700
Y
500
2
112
400
4
148
6
241
8
363
10
585
Días desde la inocula_ci ón
600
X
300 200 100
0 ING. NADIA PUENTES- ESTADISTICA APLICADA