INSTITUTO TECNOLOGICO DE CERRO AZUL
INGENIERIA INDUSTRIAL SISTEMA ABIERTO MATERIA: ESTADISTICA INFERENCIAL II PRESENTA: JOSE MARTIN GALINDO LUCAS LUGO DEL ANGEL MA RIA DEL CARMEN M A R C I A L S A N T IA IA G O E D U A R D O PONCIANO CRUA ELVIA EDITH P E R E Z S A N T IA IA G O D A N I E L A S A L A Z A R A G U L A R E M I L IA IA N O
CATEDRATICO: ING.JESUS MARIA MARTINEZ HERNADEZ
PERIODO ENERO – AGOSTO 2013
Unidad 1 Regresión lineal simple y múltiple
1.1.
Regresión Lineal Simple. Simple.
Introducción El término "regresión" fue acuñado por Sir Francis Galton (1822-1911), primo de Charles Darwin. Galton estudiaba la eugénica, término también introducido por sí mismo para definir el estudio de la mejora de la raza humana a partir de los caracteres hereditarios. Galton estudió la altura de los hijos con relación a la altura de sus padres, y probó que la altura de hijos altos “regresaba” hacia la media de la altura de la población a lo largo de sucesivas generaciones. En otras palabras, hijos de padres extraordinariamente altos tendían a ser en promedio más bajos que sus padres, e hijos de padres muy bajos tendían a ser en promedio más altos que sus padres. En la actualidad, el término de regresión se utiliza siempre que se busca predecir una variable en función de otra, y no implica que se esté estudiando si se está produciendo una regresión a la media. Anteriormente a Galton se debe mencionar a Legendre (1752-1833), quien introdujo el método de los mínimos cuadrados utilizándolos para definir la longitud de 1 metro como una diez millonésima parte del arco meridional. Con posterioridad a Galton, las propiedades de las técnicas de regresión fueron estudiadas por Edgeworth, Pearson y Yule. La técnica de regresión lineal simple está indicada cuando se pretende explicar una variable respuesta cuantitativa en función de una variable explicativa cuantitativa también llamada variable independiente, variable regresora o variable predictora. Por ejemplo, se podría intentar explicar el peso en función de la altura. El modelo intentaría aproximar la variable respuesta mediante una función lineal de la variable explicativa. Las suposiciones que se realizan al aplicar las técn icas de regresión lineal son: -El modelo propuesto es lineal (es decir existe relación entre la variable explicativa y la variable explicada, y esta relación es lineal). Es decir se asume que: β
e se llama error residual. -La variable explicativa se ha medido sin error. riable respuesta) es constante. -Si se desean realizar contrastes de hipótesis sobre los parámetros (coeficientes) o sobre el
Unidad 1 Regresión lineal simple y múltiple
1.1.
Regresión Lineal Simple. Simple.
Introducción El término "regresión" fue acuñado por Sir Francis Galton (1822-1911), primo de Charles Darwin. Galton estudiaba la eugénica, término también introducido por sí mismo para definir el estudio de la mejora de la raza humana a partir de los caracteres hereditarios. Galton estudió la altura de los hijos con relación a la altura de sus padres, y probó que la altura de hijos altos “regresaba” hacia la media de la altura de la población a lo largo de sucesivas generaciones. En otras palabras, hijos de padres extraordinariamente altos tendían a ser en promedio más bajos que sus padres, e hijos de padres muy bajos tendían a ser en promedio más altos que sus padres. En la actualidad, el término de regresión se utiliza siempre que se busca predecir una variable en función de otra, y no implica que se esté estudiando si se está produciendo una regresión a la media. Anteriormente a Galton se debe mencionar a Legendre (1752-1833), quien introdujo el método de los mínimos cuadrados utilizándolos para definir la longitud de 1 metro como una diez millonésima parte del arco meridional. Con posterioridad a Galton, las propiedades de las técnicas de regresión fueron estudiadas por Edgeworth, Pearson y Yule. La técnica de regresión lineal simple está indicada cuando se pretende explicar una variable respuesta cuantitativa en función de una variable explicativa cuantitativa también llamada variable independiente, variable regresora o variable predictora. Por ejemplo, se podría intentar explicar el peso en función de la altura. El modelo intentaría aproximar la variable respuesta mediante una función lineal de la variable explicativa. Las suposiciones que se realizan al aplicar las técn icas de regresión lineal son: -El modelo propuesto es lineal (es decir existe relación entre la variable explicativa y la variable explicada, y esta relación es lineal). Es decir se asume que: β
e se llama error residual. -La variable explicativa se ha medido sin error. riable respuesta) es constante. -Si se desean realizar contrastes de hipótesis sobre los parámetros (coeficientes) o sobre el
Para estudiar la validez del modelo es necesario confirmar estas hipótesis mediante el estudio de los residuos (valores observados - valores predichos): normalidad, tendencias, etc. Cuando no se cumplen los criterios de aplicación es necesario nec esario realizar transformaciones a las variables, o bien para obtener una relación lineal o bien para homogeneizar la varianza.
Regresión lineal simple. Tiene como objeto estudiar cómo los cambios en una variable, no aleatoria, afectan a una variable aleatoria, en el caso de existir una relación funcional entre ambas variables que puede ser establecida por una expresión expresión lineal, es decir, su representación gráfica es una línea recta. Cuando la relación relación lineal concierne al valor medio o esperado de la variable aleatoria, estamos ante un modelo de regresión lineal simple . La respuesta aleatoria al valor x de la variable controlada se designa por Yx y, según lo establecido, se tendrá
De manera manera equivalente, otra formulación del modelo de regresión lineal simple sería: si xi es un valor de la variable predictora e Yi la variable respuesta que le corresponde, entonces
Ei es el error o desviación aleatoria de Yi . Definición VALOR MEDIO. Constante que representa el centro de gravedad de la ley de probabilidad de una variable aleatoria y que, en casos de notable simetría en la función de densidad, puede interpretarse que dicha constante nos señala la zona donde se sitúan los valores de máxima probabilidad de la variable aleatoria.
El valor medio o valor esperado de una variable aleatoria X se define como
siempre que dicho valor exista, donde f es la función de densidad de la variable.
Estimación de parámetros.
En un grupo de 8 pacientes se miden las cantidades antropométricas peso y edad , obteniéndose los siguientes resultados: Resultado de las mediciones edad 12 8
10 11 7
7
10 14
peso 58 42 51 54 40 39 49 56 ¿Existe una relación lineal importante entre ambas variables? Calcular la recta de regresión de la edad en función del peso y la del peso en función de la edad. Calcular la bondad del ajuste ¿En qué medida, por término medio, varía el peso cada año? ¿En cuánto aumenta la edad por cada kilo de peso? Solución:
Para saber si existe una relación lineal entre ambas variables se calcula el coeficiente de correlación lineal, que vale:
ya que
Por tanto el ajuste lineal es muy bueno. Se puede decir que el ángulo entre el vector formado por las desviaciones del peso con respecto a su valor medio y el de la edad con respecto a su valor medio, , es:
es decir, entre esos vectores hay un buen grado de paralelismo (sólo unos 19 grados de desviación). La recta de regresión del peso en función de la edad es
La recta de regresión de la edad como función del peso es
que como se puede comprobar, no resulta de despejar en la recta de regresión de Y sobre X . La bondad del ajuste es
por tanto podemos decir que el de la variabilidad del peso en función de la edad es explicada mediante la recta de regresión correspondiente. Lo mismo podemos decir en cuanto a la variabilidad de la edad en función del peso. Del mismo modo puede decirse que hay un de varianza que no es explicada por las rectas de regresión. Por tanto la varianza residual de la regresión del peso en función de la edad es
y la de la edad en función del peso:
Por último la cantidad en que varía el peso de un paciente cada año es, según la recta de regresión del peso en función de la edad, la pendiente de esta recta, es decir, b1=2,8367 Kg/año. Cuando dos personas difieren en peso, en promedio la diferencia de edad entre ambas se rige por la cantidad b2=0,3136 años/Kg de diferencia.
1.1.1. Prueba Hipótesis en Regresión Lineal Simple.
1.1.2. Calidad del Ajuste en Regresión Lineal Simple.
1.1.3. Estimación y Predicción por Intervalo en regresión lineal simple.
Medición -
de
la
adecuación Análisis
del
modelo
de
regresión. residual
1.1.4. Uso de un software estadístico.
1.2.
Regresión Lineal Múltiple.
1.2.1. Pruebas de Hipótesis en Regresión Lineal Múltiple.
1.2.2. Intervalos de Confianza y Predicción en regresión múltiple.
1.2.3. Uso de un software estadístico.
1.3. Regresión no lineal
Ejemplo de regresión no lineal En estadística, la regresión no lineal es un problema de inf erencia para un modelo ti po: y = f ( x, θ) + ε Basado en datos multidimensionales x, θ , donde f es alguna función no lineal respecto a algunos parámetros desconocidos θ . Como mínimo, se pretende obtener los valores de los parámetros asociados con la mejor curva de ajuste (habitualmente, con el método de los mínimos cuadrados). Con el fin de determinar si el modelo es adecuado, puede ser necesario utilizar conceptos de inferencia estadística tales como intervalos de confianza para los parámetros así como pruebas de bondad de ajuste. El objetivo de la regresión no lineal se puede clarificar al considerar el caso de la regresión polinomial, la cual es mejor no tratar como un caso de regresión no lineal. Cuando la función f toma la forma: 2
f ( x) = ax + bx + c la función f es no lineal en función de x pero lineal en función de los parámetros desconocidos a, b, y c. Este es el sentido del término "lineal" en el contexto de la regresión estadística. Los procedimientos computacionales para la regresión polinomial son procedimientos de regresión lineal (múltiple), en este caso con dos variables predictoras x y 2 x . Sin embargo, en ocasiones se sugiere que la regresión no lineal es necesaria para ajustar polinomios. Las consecuencias prácticas de esta mala interpretación conducen a que un procedimiento de optimización no lineal sea usado cuando en realidad hay una solución disponible en términos de regresión lineal. Paquetes (software) estadísticos consideran, por lo general, más alternativas de regresión lineal que de regresión no lineal en sus procedimientos. Métodos Numéricos para Regresiones No Lineales Regresión Exponencial
En determinados experimentos, en su mayoría biológicos, la dependencia entre las variables X e Y es de forma exponencial, en cuyo caso interesa ajustar a la nube de puntos una función del tipo:
Mediante una transformación lineal, tomando logaritmos neperianos, se convierte el problema en una cuestión de regresión lineal. Es decir, tomando logaritmos neperianos:
ln( y) b x ln( a)
a
[ln( y ) b x ]
e
Ejemplo
x
y
In y
x
x Iny
In y
1
3
1,0986
1
1,0986
1,2069
1,2
3,4
1,2237
1,44
1,4684
1,4974
1,5
5
1,6094
2,25
2,4141
2,5901
2
2
0,6931
4
1,3862
0,4803
3
4,1
1,4109
9
4,2327
1,9906
3,7
5
1,6094
13,69
5,9547
2,5901
4
7
1,9459
16
7,7836
3,7865
4,5
6,5
1,8718
20,25
8,4231
3,5056
Σ 20,9 Σ 36 Σ 11,4628 Σ 67,63 Σ 32,7614 Σ 17,6455 Numero de datos = n = 8
x promedio =
=
= 2,6125
x x n
y promedio =
=
= 1,43285
ln( y )
ln( y ) n
Usando la forma lineal de la Regresión Exponencial:
b
[ x ln( y)] ln( y) x 2 x x x
b =
=
= 0,216047
= 1,43285 - (0,216047)(2,6125) = 0,868427
a
e[ln( y )
b
0,216047
a=e =e
b x]
= 2,38316
La ecuación final que modela el sistema es
y 2.38316 e 0.2166047 x ˆ
Regresión Logarítmica
La curva logarítmica a las variables originales Ejemplo
e
es también una recta, pero en lugar de estar referida , está referida a ya
x
y
ln x
ln x
ln x * y
y
1
3
0
0
0
9
1.2
3.4
0.1823
0.0332
0.6198
11.56
1.5
5
0.4054
0.1643
2.027
25
2
2
0.6931
0.4803
1.3862
4
3
4.1
1.0986
1.2069
4.5042
16.81
3.7
5
1.3083
1.7116
6.5415
25
4
7
1.3862
1.9215
9.7034
49
4.5
6.5
1.5040
2.2620
9.776
42.25
Σ 20.9 Σ 36 Σ 6.5779 Σ 7.7798 Σ 34.5581 Σ 182.62 n=8 y
y n
ln( x)
a
36
8
4.5
ln( x) 6.5779 n
8
y ln( x) y ln( x) 34.5581 4.5(6.5779) 2.090513 2 ln x ln( x) ln( x) 7.7798 0.8222(6.5779)
a=
=
b y a ln( x)
b =
0.8222
= 2.090513
4.5 (2.090513 )( 0.8222 )
= 4.5 - (2.090513)(0.8222) = 2.78117
La ecuación final que modela el sistema es
2.78117
Regresión Polinomial
Algunas veces cuando la relación entre las variables dependientes e independientes es no lineal, es útil incluir términos polinomiales para ayudar a explicar la variación de nuestra variable dependiente. Las regresiones polinomiales se pueden ajustar la variable independiente con varios términos
Ejemplo x
y
xy
x
y
xy
x
x
1
3
3
1
9
3
1
1
1.2
3.4
4.08
1.44
11.56
4.896
1.728
2.0736
1.5
5
7.5
2.25
25
11.25
3.375
5.0625
2
2
4
4
4
8
8
16
3
4.1
12.3
9
16.81
36.9
27
81
3.7
5
18.5
13.69
25
68.45
50.653
187.4161
4
7
28
16
49
112
64
256
4.5
6.5
29.25
20.25
42.25
131.625
91.125
410.0625
Σ 20.9 Σ 36 Σ 106.63 Σ 67.63 Σ 182.62 Σ 376.121 Σ 246.881 Σ 958.6147 Usando una Matriz para calcular valores de los coeficientes
Usando el método de Eliminación de Gauss-Jordan