TEMA: Regresión y Correlación El método estadístico que investiga y define la relación funcional entre dos o más variables variables se llama llama REGRESIÓN, REGRESIÓN, y la ecuación ecuación de la función función mate matemá máti tica ca cons consti titu tuye ye la FUNC FUNCIO ION N DE REGR REGRES ESIO ION N O MO MODE DELO LO DE REGRESION. El análisis del grado de asociación o modelo de regresión, constituye la CORRELACION. Cuando se relacionan dos variables, se tratará de una regresión simple y correlación simple, en tanto, cuando se considera la relación entre tres o más variables se hablará de regresión múltiple y correlación múltiple. Por su parte, si la función de regresión corresponde a una línea recta se trata de regresión lineal, y si es curva (parábola, exponencial, etc.) se denomina regresión no lineal. REGRESION SIMPLE LINEAL Considerando la ecuación de la recta: Y= a + bx Los parámetros a y b son determinados al aplicar el método de los mínimos cuadrados con las siguientes fórmulas:
∑ x .∑ y − ∑ x.∑ xy a= n∑ x − (∑ x ) n ∑ xy − ∑ x.∑ y b= n∑ x − (∑ x ) 2
2
2
2
2
CORRELACION LINEAL La correlación lineal expresa el grado de asociación o afinidad entre las variables consideradas. Se llamará CORRELACION CORRELACION SIMPLE cuando se se trata de analizar la relación relación entre dos variables. Se llamará CORRELACION RECTILINEA O LINEAL si la función es una recta, y de CORRELACION NO LINEAL cuando la función es una curva o una función de grado superior. COEFICIENTE DE CORRELACION RECTILINEA. El coeficiente de correlación rectilínea, es el estadígrafo que expresa o mide el grado de asociación o afinidad entre las variables relacionadas y se denota por “r” la cual se define como:
r
=
1−
S 2 yx S 2 y
Donde: S 2 yx =
∑ y
2
− a ∑ y − b ∑ xy n
S 2 y =
∑ y n
2
2
y − ∑ n
EJERCICIOS DE APLICACIÓN 1. Las ventas de línea blanca varían según el estado del mercado de casas nuevas: cuando las ventas de casas nuevas son buenas, también lo son las de lavaplatos, lavadoras de ropa, secadoras y refrigeradores. Una asociación de comercio compiló los siguientes datos históricos ( en miles de unidades) de las ventas de línea blanca y la construcción de casas. Construcción de casas (miles) 2 2.5 3.2 3.6 3.3 4 4.2 4.6 4.8 5
Ventas de línea blanca (en miles) 5 5.5 6 7 7.2 7.7 8.4 9 9.7 10
a) Desarrolle una ecuación para la relación entre las ventas de línea blanca (en miles) y la construcción de casas (en miles). b) Grafique el diagrama de dispersión e indique si (r<0) ó (r>0) ó (r=0) c) La construcción de casas durante el año próximo será de hasta 8.0 mil casas. Calcule las ventas de línea blanca para el próximo año. d) Calcule e interprete el coeficiente de correlación. 2. Suponga que la directora del Departamento de Salubridad de Chapel Hill está interesada en la relación que existe entre la antigüedad de un camión basura y los gastos anuales de reparación que debe esperar. Con el fin de determinar esta relación, la directora ha reunido información de cuatro de los camiones de la ciudad. Número del camión 101 102 103 104
Antigúedad del camón en años 5 3 3 1
Gastos de rep. Durante el último año en cientos de dólares 7 7 6 4
a. Determine la variable independiente y dependiente.
b. Obtenga la ecuación de la recta de regresión. c.Si
una ciudad tiene un camión de 4 años de antigüedad, ¿Cómo podría la directora usar la ecuación para predecir los gastos anuales de reparación para este camión?
3. Una compañía de máquinas despachadoras automáticas posee y controla un número muy grande de máquinas de cierto tipo. Las máquinas están instaladas en diversos sitios y tienen diferentes antigüedades. Los registros de la compañía muestran entre otras cosas, en relación con cada máquina activa, la cantidad de dinero que se gasta en su mantenimiento en su último año (completo) de uso. De ese lote de máquinas tomamos una muestra al azar de n=10 máquinas y, anotando el costo de mantenimiento de cada una, y su último año de uso, se obtiene: Años de uso 4 2 3 5 2 3 4 5 4 3
Costo de mantenimiento(dólares) 148 128 133 154 118 145 143 159 142 127
a) Determine la variable independiente(X):
dependiente(Y)
y
la
variable
Y= X= b) Estime la ecuación de regresión lineal: c) Realice un pronóstico para el costo de mantenimiento de una de las máquinas vendedoras durante su segundo año de uso. d)Grafique el diagrama de dispersión e indique si (r<0) ó (r>0) ó (r=0) e) Calcule e interprete el coeficiente de correlación “r”
4. Se seleccionó una muestra de 12 casas vendidas la semana pasada en una ciudad de EEUU. ¿Puede concluirse que a medida que aumenta la extensión del inmueble (indicada en miles de pies cuadrados), el precio de venta (en miles de dólares) aumenta también? Extensión (miles de pies cuadrados)
Precio de venta (miles de dólares)
Extensión (miles de pies cuadrados)
Precio de venta (miles de dólares)
1,4 1,3 1,2 1,1 1,4 1
100 110 105 120 80 105
1,3 0,8 1,2 0,9 1,1 1,1
110 85 105 75 70 95
a) Determine la ecuación de regresión e interprétela. b)
Calcule el coeficiente de correlación e interprételo.
5. La National Highway Association estudia las relaciones entre el número de licitadores para un proyecto de carretera, y la propuesta ganadora (la de más bajo costo) para el proyecto. De particular interés es si el número de postores aumenta o disminuye el importe de la licitación ganadora.
licitadores
Oferta ganadora (millones de $)
9 9 3 10 5 10 7 11
5,1 8 9,7 7,8 7,7 5,5 8,3 5,5
Proyecto Número de
1 2 3 4 5 6 7 8
licitadores
Oferta ganadora (millones de $)
6 6 4 7 7 7 6
10,3 8 8,8 9,4 8,6 8,1 7,8
Proyecto Número de
9 10 11 12 13 14 15
a)
Determine la ecuación de regresión e interprétela. ¿más licitadores tienden a aumentar o disminuir el importe de la propuesta ganadora?
b)
Estime el monto de la oferta ganadora si hubiese once licitadores.
6. En los siguientes datos aparece el precio al menudeo de 12 computadoras portátiles, seleccionados al azar, junto con sus velocidades de procesador correspondientes en gigahertz. Computadora Velocidad 1 2 2 1.6 3 1.6 4 1.8 5 2 6 1.2 7 2 8 1.6 9 2 10 1.6 11 1 12 1.4
Precio 2689 1229 1419 2589 2849 1349 2929 1849 2819 2669 1249 1159
a) Elabore una ecuación lineal que sirva para describir cómo depende el precio de la velocidad del procesador. b) Con base en su ecuación de regresión, ¿hay alguna computadora que parezca tener, de manera particular un precio menor o mayor? c) Calcule e interprete el coeficiente de correlación. 7. El ingreso anual disponible y los gastos de consumo de 12 familias, seleccionadas aleatoriamente, en una zona de nuestra ciudad ha sido en miles de soles, los siguientes: Gastos de consumo(miles) 7 12 18 30 20 24 8 11 8 6
Ingreso Anual (miles) 8 15 20 35 28 25 8 13 7 6
10 18 a) Determine la variable independiente(X):
12 15 dependiente(Y)
y
la
variable
Y= X= b) Estime la ecuación de regresión lineal: c) Estimar el ingreso anual de una familia que tiene un gasto en consumo anual de 19 000 soles d) Grafique el diagrama de dispersión e indique si (r<0) ó (r>0) ó (r=0) e) Calcule e interprete el coeficiente de correlación “r”
8.
Una compañía eléctrica, estudia las relaciones entre los consumos de energía (en miles de kilo watts-hora, kw) y el número de habitaciones en una residencial privada unifamiliar. Una muestra aleatoria de 10 casas produjo los siguientes resultados: Número de habitaciones Consumo (miles de Kwh.) 12 9 9 7 14 10 6 5 10 8 8 6 10 8 10 10 5 4 7 7
a. Determine la variable dependiente (y) y la variable independiente (x) Y = X = b.
Estime la ecuación de regresión lineal: Y = a + b X Y =
+
X
c. Evalúe el consumo (en miles de kilo watts-hora, Kwh.), para una casa de 13 habitaciones.
9. El departamento de producción de una fábrica desea explorar la
relación entre el número de obreros que arman n ensambles y la cantidad de estos producida. Como experimento se asignaron grupos de trabajadores para verificar su producción y los resultados obtenidos fueron los siguientes: Número de ensambladores 2 4 1 5 3
Producción en 1h (unidades) 15 25 10 40 30
a. Determine la variable dependiente (y) y la variable independiente(x) Y = X = b. Estime la ecuación de regresión lineal: Y = a + b X Y =
+
X
c. Para 6 ensambladores ¿Cuál es la producción horaria esperada? d. Calcule e interprete el valor del coeficiente de regresión lineal“ r ” 10. Un fabricante de pantalones de mezclilla sabe que un presupuesto considerable para anunciar en televisión su producto creará una demanda de éste entre los compradores de los almacenes. La tabla que sigue muestra las cantidades (en miles de dólares) que se gastan para anunciar la línea de otoño de pantalones de mezclilla durante 8 años y el número de pantalones (en miles) vendidas de cada línea para el otoño. Cantidad gastada en la publicidad por televisión (en miles de dólares) 50 65 75 100
Número de pantalones vendidos (en miles) 45 60 80 95
125 140 170 195
120 150 145 190
a) Determine la variable dependiente(Y) y la variable independiente(X): Y= X= b)Estime la ecuación de regresión lineal: c) Estimar el número de pantalones que se espera vender con un presupuesto de publicidad por televisión de un quinto de millón de dólares. d)Grafique el diagrama de dispersión e indique si (r<0) ó (r>0) ó (r=0) e) Calcule e interprete el coeficiente de correlación “r”
11. Suponga que el señor Sánchez observa el precio y el volumen de venta de leche durante 10 semanas seleccionadas al azar. Los datos que ha recabado se muestran en la siguiente tabla. Datos de galones de leche Semana
Nivel semanal de Precio de venta ($) ventas, Y (miles X de gal)
1
10
1.30
2
6
2.00
3
5
1.70
4
12
1.50
5
10
1.60
6
15
1.20
7
5
1.60
8
12
1.40
9
17
1.00
10
20
1.10
El coeficiente de correlación de la muestra de -0.86 indica una relación bastante negativa entre Y y X, -mientras el precio del galón de leche aumenta, el número de galones vendidos disminuye La pregunta que podría surgir enseguida es: ¿qué tanto desciende el volumen a medida que aumenta el precio? Esta pregunta sugiere dibujar una línea recta a través de los puntos de los datos expuestos en el diagrama de dispersión. 12. El procesamiento de carbón sin tratar implica el “lavado”, en donde se elimina la ceniza de carbón (no orgánico, material incombustible). El artículo “Quantifying Sampling Precision for Coal Ash Using Gy’s Discrete Model of the Fundamental Error” proporciona los datos relacionados con los porcentajes de ceniza con el volumen de una partícula de carbón. Se midieron los porcentajes promedio de ceniza para seis volúmenes de partículas de carbón. Los datos son los siguientes: Volumen (cm3) 0.01 0.06 0.58 2.24 15.55 276.02 Porcentaje de ceniza 3.32 4.05 5.69 7.06 8.17 9.36 a) Determine la variable dependiente (Y) y la variable independiente(X): Y= X= b) Estime la ecuación de regresión lineal: c) Grafique el diagrama de dispersión e indique si (r<0) ó (r>0) ó (r=0) d) Calcule e interprete el coeficiente de correlación “r”