R le
J Instituto de Economía y Geografía Madrid, II-2007
José Manuel Rojo
1
Í I. II. III. IV. V. VI. VII. VIII.
INTRODUCCIÓN .................................................................................................. 2 EL MODELO DE REGRESIÓN LINEAL MÚLTIPLE........................................ 5 HIPÓTESIS............................................................................................................. 6 ESTIMACIÓN DE LOS PARÁMETROS POR MÍNIMOS CUADRADOS........ 7 VARIANZA RESIDUAL ..................................................................................... 11 CONTRASTE DE REGRESIÓN ......................................................................... 13 COEFICIENTE DE DETERMINACIÓN R2 ....................................................... 16 DIAGNOSIS Y VALIDACIÓN DE UN MODELO DE REGRESIÓN LINEAL MÚLTIPLE ........................................................................................................... 17 VIII.1. Multicolinealidad .................................................................................................. 17 VIII.2. Análisis de residuos .............................................................................................. 18 VIII.3. Valores de influencia (leverage) ........................................................................... 20 VIII.4. Contrastando las hipótesis básicas ........................................................................ 21 VIII.5. Homocedasticidad ................................................................................................. 22 VIII.6. Errores que deben de evitarse ............................................................................... 23
IX. X.
SELECCIÓN DE LAS VARIABLES REGRESORAS ....................................... 24 EJEMPLO 1 .......................................................................................................... 25
José Manuel Rojo
1
I
Introducción
En el capitulo anterior se ha estudiado el modelo de regresión lineal simple, donde se analizaba la influencia de una variable explicativa X en los valores que toma otra variable denominada dependiente (Y). En la regresión lineal múltiple vamos a utilizar más de una variable explicativa; esto nos va a ofrecer la ventaja de utilizar más información en la construcción del modelo y, consecuentemente, realizar estimaciones más precisas.
Al tener más de una variable explicativa (no se debe de emplear el término independiente) surgirán algunas diferencias con el modelo de regresión lineal simple.
Una cuestión de gran interés será responder a la siguiente pregunta: de un vasto conjunto de variables explicativas: x1, x2, …, xk,
cuáles son las que más influyen en
la variable dependiente Y.
En definitiva, y al igual que en regresión lineal simple, vamos a considerar que los valores de la variable dependiente Y han sido generados por una combinación lineal de los valores de una o más variables explicativas y un término aleatorio:
y
b0 b1 x1 b2 x2 ... bk xk
u
Los coeficientes son elegidos de forma que la suma de cuadrados entre los valores observados y los pronosticados sea mínima, es decir, que se va a minimizar la varianza residual.
Esta ecuación recibe el nombre de hiperplano, pues cuando tenemos dos variables explicativas, en vez de recta de regresión tenemos un plano:
José Manuel Rojo
2
Linear Regression
e%&'(&)*+e,-*./
C !" #$riables explicativas tendríamos un espacio de tres dimensiones, y así sucesivamente.
Vamos a ir introduciendo los elementos de este análisis a través de un sencillo ejemplo.
Consideramos una muestra de personas como la que sigue a continuación:
Registr o 1 2 3 4 5 6 7 8
sexo mujer mujer mujer mujer mujer mujer mujer mujer
estatura l_roxto X1 158 152 168 159 158 164 156 167
X6 39 38 43 40 41 40 41 44
pie X2 36 34 39 36 36 36 36 37
l_brazo a_espald X3 68 66 72.5 68.5 68.5 71 67 73
X4 43 40 41 42 44 44.5 36 41.5
d_cráneo
peso
X5 55 55 54.5 57 57 54 56 58
Y 43 45 48 49 50 51 52 52
En base a estos datos, vamos a construir un modelo para predecir el peso 0! $ persona (Y). Esto equivale a estudiar la relación existente entre este conjunto de variables x1 ,..., x5 y la variable peso (Y).
José Manuel Rojo
3
E 1 23er lugar tenemos que la variable dependiente es el peso; y las variables que vamos a utilizar para predecir el peso reciben el nombre de variables independientes o explicativas.
En la práctica deberemos de elegir cuidadosamente qué variables vamos a considerar como explicativas. Algunos criterios que deben de cumplir serán los siguientes:
Tener sentido numérico.
No deberá de haber variables repetidas o redundantes
Las variables introducidas en el modelo deberán de tener una cierta justificación teórica.
La relación entre variables explicativas en el modelo y casos debe de ser como mínimo de 1 a 10.
La relación de las variables explicativas con la variable dependiente debe de ser lineal, es decir, proporcional.
José Manuel Rojo
4
II
El Modelo de regresión lineal múltiple
El modelo de regresión lineal múltiple es idéntico al modelo de regresión lineal simple, con la única diferencia de que aparecen más variables explicativas:
Modelo de regresión simple: b0 b1 x u
y
Modelo de regresión múltiple: b0 b1 x1 b2 x2 b3 x3 ... bk xk
y
u
Siguiendo con nuestro ejemplo, si consideramos el peso como variable dependiente y como posibles variables explicativas:
estatura pie l_brazo a_espald d_craneo
El modelo que deseamos construir es:
peso
b0 b1 estatura b2 pie b3 l _ brazo b4 a _ espald b5 d _ craneo
Al igual que en regresión lineal simple, los coeficientes b van a indicar el incremento en el peso por el incremento unitario de la correspondiente variable explicativa. Por lo tanto, estos coeficientes van a tener las correspondientes unidades de medida.
José Manuel Rojo
5
III
Hipótesis
Para realizar un análisis de regresión lineal múltiple se hacen las siguientes consideraciones sobre los datos:
a) Linealidad: los valores de la variable dependiente están generados por el
siguiente modelo lineal:
Y
X * B U
b) Homocedasticidad: todas las perturbaciones tienen las misma varianza:
V (ui ) V 2 c) Independencia: las perturbaciones aleatorias son independientes entre sí:
E (ui u j )
0, i z j
d) Normalidad: la distribución de la perturbación aleatoria tiene distribución
normal: U | N (0, V 2 ) e) Las variables explicativas Xk se obtienen sin errores de medida.
Si admitimos que los datos presentan estas hipótesis entonces el teorema de Gauss-Markov establece que el método de estimación de mínimos cuadrados va a producir estimadores óptimos, en el sentido que los parámetros estimados van a estar centrados y van a ser de mínima varianza.
José Manuel Rojo
6
I4
Estimación de los parámetros por mínimos cuadrados
Vamos a calcular un hiperplano de regresión de forma que se minimice la varianza residual:
Min¦ ( y j yˆ j ) 2
Donde:
yˆ j
b0 b1 * x1,1 5 b2 * x2, j
5 ...bk * xk , j
Utilizando notación matricial:
u
José Manuel Rojo
ª u1 º «u » « 2» «.» « » «.» «¬un »¼
ª y1 yˆ1 º «y y » « 2 ˆ2 » « . » « » « . » «¬ yn yˆ n »¼
7
y yˆ
Y !2!0 ! 6!$ 7$ 0!822629 0!
u
yˆ :
ª y1 b0 b1 * x1,1 b2 * x2,1 b3 * x3,1 ... bk * xk ,1 º « y b b * x b * x b * x ... b * x » k k ,2 » « 2 0 1 1, 2 2 2, 2 3 3, 2 « » . « » . « » « yn b0 b1 * x1,n b2 * x2,n b3 * x3,n ... bk * xk ,n » ¬ ¼
ª u1 º «u » « 2» «.» « » «.» «¬u n »¼
y yˆ
Por lo tanto:
ª y1 º ª1 x1,1 « y » «1 x 1, 2 « 2» « « »« « » « « » « «¬ yn »¼ «¬1 x1,n
u
.
.
.
.
. .
xk ,1 º ªb0 º xk , 2 »» « b1 » « » »*« . » » « » » «.» xk ,n »¼ «¬bk »¼
y X *b
Por lo tanto la varianza residual se puede expresar de la siguiente forma: n *V 2
uc * u
( y X * b)c * ( y X * b)
Es decir:
)(b)
¦( y
j
yˆ j ) 2
uc * u
Por tanto, la varianza residual es una función del vector de parámetros b y la condición para que tenga un mínimo será: w; (b) wb
:
José Manuel Rojo
8
!" 0! 0! 2#$ #$3os a simplificar la expresión de la varianza residual: uc * u
n *V 2
( y x * b )c * ( y x * b )
y c * y y c * x * b bc * x c * y bc * x c * x * b
Por lo tanto:
) (b)
¦(y
w> (b ) wb
j
yˆ j ) 2
uc * u
y c * y y c * x * b bc * x c * y bc * x c * x * b
w ( y X * b )= * ( y < X * b ) wb
2 * X c * Y 2 * X c * X * B
?@$7$0 $ 6! A 0!"1!$0D X c *G L X K * X H F y si
M cN M
es matriz no singular y por lo tanto tiene inversa, tenemos:
X c *G L X K * X H F Multiplicando por ( X c * X ) 1
( X c * X ) 1 X c * Y
( X c * X ) 1 X c * X * B
( X c * X ) 1 X c * Y
I *B
B
( X c * X ) 1 * X c * Y
Ésta es la expresión del estimador de parámetros B .
José Manuel Rojo
9
0!más X c *G L X K * X H F X c *Y P X O * X * B X c * (Y X * B )
X c *U
0
0
0
Es decir, los residuos obtenidos del modelo estimado por mínimos cuadrados no van a estar correlacionados con las variables explicativas.
Nota
Es importante observar que si las variables explicativas X están muy correlacionadas entre si, la matriz ( X Q * X )
#$ $ !! !7 0!! 3inante con valor cero o
muy cercano a cero. Si hay al menos una variable que puede ser expresada como combinación lineal del resto (ingresos mensuales, ingresos anuales) el determinante de esta matriz es cero y dicha matriz será singular y por lo tanto no tendrá inversa.
Si no hay variables que sean combinación lineal de las demás, pero están fuertemente correlacionadas, el determinante no será cero pero tendrá un valor muy próximo a cero; este caso va a producir una inestabilidad en la solución del estimador, en general, se va a producir un aumento en su varianza.
En estos casos se impone la utilización de un método de selección de variables explicativas.
A los problemas provocados por la fuerte correlación entre las variables explicativas se les llama multicolinealidad.
José Manuel Rojo
10
4
Varianza residual
Al igual que en el caso de regresión lineal simple, vamos a descomponer la variabilidad de la variable dependiente Y en dos componentes o fuentes de variabilidad: una componente va a representar la variabilidad explicada por el modelo de regresión y la otra componente va a representar la variabilidad no explicada por el modelo y, por tanto, atribuida a factores aleatorios.
Consideramos la variabilidad de la variable dependiente como:
n *V 2
S ( yi Y )
2
Es decir, la variabilidad de Y es la suma cuadrática de los valores que toma la variable respecto a la media de la variable.
Sumando y restando el valor pronosticado por el modelo de regresión obtenemos la siguiente expresión:
S ( yi y )
2
U U 2 2 S ( yi y ) S ( yi T yi )
E" 0!62 V We la suma de cuadrados de la variable Y respecto a su media se puede descomponer en términos de la varianza residual. De esta expresión se deduce que “la distancia de Y a su media se descompone como la distancia de Y a su estimación más la distancia de su estimación a la media”.
Teniendo en cuenta que el último término representa la varianza no explicada, tenemos:
VT
VE VNE
José Manuel Rojo
11
Z [826$3ente es fácil ver la relación:
Dividiendo la variabilidad total entre sus grados de libertad obtenemos la varianza de la variable dependiente Y :
SY2
VT n 1
Dividiendo la variabilidad no explicada entre sus grados de libertad obtenemos la varianza residual de la variable dependiente Y :
S R2
VNE n (k 1)
Tabla resumen
\3a de cuadrados VT VE VNE
José Manuel Rojo
¦ ( y y) ¦ ( yˆ y ) U ¦ ( y T y)
Grados de libertad
2
n-1
2
k-1 2
n-k-1
12
SY2
VT n 1
S R2
VNE n k ]
4I
Contraste de regresión
Como estamos sacando conclusiones de una muestra de un conjunto mucho más amplio de datos, a veces este conjunto será infinito, es obvio que distintas muestras van a dar distintos valores de los parámetros.
Un caso de especial interés es asignar una medida de probabilidad a la siguiente afirmación o hipótesis: H 0 { b1
b2
... bk
0
La afirmación contraria sería: H 1 { b j z 0
Nota La hipótesis nula es que todos los coeficientes menos b0 son nulos y la hipótesis alternativa o complementaria es que existe al menos uno que es distinto de 0, puede haber varios que sean nulos, pero al menos existe uno distinto de cero.
Se denomina contraste de regresión al estudio de la posibilidad de que el modelo de regresión sea nulo, es decir, los valores de las variables explicativas X no van a influir en la variable Peso.
José Manuel Rojo
13
^_`abcd f _abg`a Si los residuos siguen una distribución normal y b1 h b2
h ...
bk
0 , tenemos
que:
VT
| F n21
VE
| F1j
i2
V2
VNE
V
2
| F n2 ( k 1)
Por tanto:
VE VNE
1
n (k 1)
VE | F1, n ( k 1) S R2
Es decir, el cociente entre la varianza explicada y la varianza no explicada será aproximadamente 1.
Además, al seguir una distribución F, podemos asignar una
medida de probabilidad (p-value) a la hipótesis de que la varianza explicada es igual a la varianza no explicada.
En caso contrario la varianza no explicada será muy inferior a la varianza explicada y, por lo tanto, este cociente tendrá un valor muy superior a 1.
Nota
En general si el p-value es menor de 0.05 se acepta que el modelo de regresión es significativo; en caso contrario no podemos hablar de regresión, pues el modelo sería nulo.
José Manuel Rojo
14
\2 $6!1$3os que el modelo de regresión es significativo, es habitual mostrar el p-value; por ejemplo:
Encontramos que este modelo de regresión es estadísticamente significativo con un p-value de 0.0003
José Manuel Rojo
15
4II
Coeficiente de determinación R2
Vamos a construir un coeficiente (estadístico) que mida la bondad del ajuste del modelo. Si bien la varianza residual ( S R2 ) nos indica cómo están de cerca las estimaciones respecto de los puntos, esta varianza está influida por la varianza de la variable dependiente, la cual, a su vez, está influida por su unidad de medida. Por lo tanto, una medida adecuada es la proporción de la varianza explicada (VE) entre la varianza total (VT); de este modo, definimos el coeficiente de determinación
R2
VE VT
VT VNE VT
1
l2 D
VNE VT
Por ser cociente de sumas de cuadrados, este coeficiente será siempre positivo. Si todos los puntos están sobre la recta de regresión, la varianza no explicada será 0, y por lo tanto:
R2
no nm
1
0 Vm
1
Este coeficiente es muy importante pues determina qué porcentaje (en tantos por uno) de la varianza de la variable dependiente es explicado por el modelo de regresión.
En general, se pueden clasificar los valores de
Menor de 0.3 Muy malo
0.3 a 0.4 Malo
0.4 a 0.5 Regular
l 2 0! 7$ "2@2!! 3anera:
0.5 a 0.85 Bueno
Mayor de 0.85 Sospechoso
Además, a diferencia de la varianza residual, este coeficiente es adimensional; esto quiere decir que no está afectado por transformaciones lineales de las variables; por ello, si cambiamos las unidades de medida, el coeficiente de determinación permanecerá invariante.
José Manuel Rojo
16
4III
Diagnosis y validación de un modelo de regresión lineal múltiple VIII.1. Multicolinealidad
Si las variables explicativas se pueden expresar como una combinación lineal:
p1 x1 p 2 x2 ... p k xk p 0 h 0 Se dice que tenemos un problema de multicolinealidad.
En general, este problema va a afectar incrementando la varianza de los estimadores.
Este problema se detecta fácilmente: x
Solicitando el determinante de la matriz de varianzas-covarianzas, que estará cercano a cero.
x
Calculando el cociente entre el primer y último autovalor de la matriz de varianzas-covarianzas que será mayor de 50.
x
Calculando para cada variable el coeficiente de determinación ( l 2 q variable con el resto.
0! 0icha
La solución es eliminar del modelo aquellas variables explicativas que dependen unas de otras. En general, los métodos de selección de variables solucionan automáticamente este problema.
rsOVA ean Square z wv{x900 ~{ tvx763 ~z b
of | odel ession Squares g. tuvwx401 |ux986 x000 dual }}wx265
al u~z{x667 a. onstant), l_roxto Longitud de rodilla a tobillo, d_cráneo, a_espald, l_ brazo, pie, estatura b. Variable: peso
¡¢
£¤
a
Á²
¶· ¸¹ º»¼·½¸»º ¾¼¿À º Ì·¸·Æ¾·ÆÄ
odel
Constant) statura e _brazo d áneo _roxto Longitud de rodilla a tobillo
a.
ÅÆ½Ä ®  ÃÄ ¯°± ²±± ³±® ±²± ± ± ²± ± ® ±
andardized Coefficients d. Error 133,261 985 ,354 445 187 248 821 621 067 660 093 922 ,003
ª«¬ ÃÄ
ficientsa
andardized Coefficients a
·Ä
®± ± ± ± ®
,283 489 317 335 157
841
,001
®Ä ²±® ²± ²± ²± ®
3,030 ,796 752 323 616 186 ,004
ù ± ±± ± ± ± ±
g. 007 435 095 201 122 250 997
Ê˺ Ç
ÈÉ ²°± ´± µ± ¯±²± ¯±
linearity Statistics olerance F
±± ± ± ± ±
072 117 159 212 517 212
882 574 307 724 933 724
Variable: peso
¥ ¦ ¦§ ¨uestra el valor de los estimadores del hiperplano de regresión. La columna denominada tolerancia es: 1 © l2 Donde la variable correspondiente entra como variable dependiente y el resto de las variables explicativas actúan como regresoras.
A la vista de estos resultados, la variable estatura esta provocando problemas de multicolinealidad.
Es interesante observar que si bien el contraste de regresión es significativo, ninguna de las variables explicativas lo es.
VIII.2. Análisis de residuos
Definimos como residuo del i-esimo caso a:
ui
yi yˆi
Los residuos son variables aleatorias que siguen (¿?) una distribución normal. Los residuos tienen unidades de medida y, por tanto no se puede determinar si es grande o pequeño a simple vista.
¡¢
£Î
ÏРѦР¦ ÒЧ ¨ ÓÔÕe el residuo estandarizado Ö¨o: 1 ui * 1 hii SˆR
Zui
Se considera que un residuo tiene un valor alto, y por lo tanto puede influir negativamente en el análisis, si su residuo estandarizado es mayor de 3 en valor absoluto.
¬Zui ¼ t 3 Para evitar la dependencia entre numerador y denominador de la expresión anterior, también se utilizan los residuos estudentizados.
SZui
ui 1 * ˆ 1 h×× S (i ) R
Donde Sˆ (i ) R es la varianza residual calculada sin considerar el i-esimo caso.
El análisis descriptivo y el histograma de los residuos nos indicarán si existen casos que no se adapten bien al modelo lineal.
ØÙÚÛduals Statistics ïéðéñëñ ïìòéñëñ ïçìð îtd. Deviation ÜÝÞ9527 ßÝàÞ1509 áßÞ2963 ÜâÞ44848 ãÝßÞ69022 ßßáÞ84905 Þ00000 ÜäÞ60339 ãßÞ860 ÜÞ627 Þ000 ßÞ000 ãÞ939 ÝÞ492 Þ000 Þ877 a
åredicted Value æçèéêëìí îtd. Predicted Value îtd. Residual a. ôõöõ÷øõ÷ù Variable: peso
úûüý þÿJ
ûû
ó
Üá Üá Üá Üá
ÏÓmos observar que hay un caso que tiene un residuo anormal, pues su valor tipificado es 3.49.
VIII.3. Valores de influencia (leverage)
Se considera que una observación es influyente a priori si su inclusión en el análisis modifica sustancialmente el sentido del mismo. Una observación puede ser influyente si es un outlayer respecto a alguna de las variables explicativas:
¡¢
ÏÐ Ó¦Ö¦r estos problemas se utiliza la medida de Leverage: l (i )
1 ( x x )2 (1 i 2 ) n sx
Este estadístico mide la distancia de un punto a la media de la distribución. Valores cercanos a 2/n indican casos que pueden influir negativamente en la estimación del modelo introduciendo un fuerte sesgo en el valor de los estimadores.
VIII.4. Contrastando las hipótesis básicas
Normalidad de los residuos.
Para verificar esta hipótesis se suele utilizar el histograma de los residuos y en caso necesario el test de Kolgomorov Smirnov. O ample Kolmogorov-Smirnov Test N N arameters Mst Extreme Differences
Z
_1 Standardized Residual a,b
Mean Std. Deviation Asolute sitive Nive
Kolmogorov-Smirnov Z Asymp. Sig. (2-tailed) a. Test distribution is Normal. b. Culated from data.
2 ,0000000 ,87705802 ,117 ,117 -,105 ,609 ,852
¥ ¦ Ö Ó¦Ö¦ Ô ¦ Ó Ð¨alidad, el pvalue del test KS es de 0.852, por lo tanto se concluye que:
No se encuentran diferencias estadísticamente significativas para rechazar la hipótesis de normalidad.
José Manuel Rojo
21
V mocedasticidad
La hipótesis de homocedasticidad establece que la variabilidad de los residuos es independiente de las variables explicativas. En general, la variabilidad de los residuos estará en función de las variables explicativas, pero como las variables explicativas están fuertemente correlacionadas con la variable dependiente, bastara con examinar el gráfico de valores pronosticados versus residuos al cuadrado.
¥¦ Ö Ð ¢¨plo de falta de homocedasticidad. Existe una familia de transformaciones denominada Box-CCOS que se realizan sobre la variable dependiente encaminadas a conseguir homocedasticidad. La transformación más habitual para conseguir homocedasticidad es: Yc
log(Y )
En cualquier caso, es conveniente examinar detenidamente las implicaciones de realizar este tipo de transformaciones, pues en muchas ocasiones es peor el remedio que la enfermedad, ya que la variable dependiente puede llegar a perder el sentido.
José Manuel Rojo
22
V !"""#$ % '#(#) '# #*+./rse
Errores que son fáciles pasar por alto al realizar un modelo de regresión lineal múltiple son los siguientes: x
No controlar el factor tamaño.
x
Si hay un factor de ponderación, no tenerlo en cuenta.
x
Al calcular los grados de libertad en los contrastes de hipótesis.
x
No incluir una variable relevante en el modelo.
x
Incluir una variable irrelevante.
x
Especificar una relación lineal que no lo es.
José Manuel Rojo
23
I
Selección de las variables regresoras Los procedimientos para seleccionar las variables regresoras son los siguientes: x
Eliminación progresiva.
x
Introducción progresiva.
x
Regresión paso a paso (Stepwise Regression).
Este último método es una combinación de los procedimientos anteriores. Parte del modelo sin ninguna variable regresora y en cada etapa se introduce la más significativa, pero en cada etapa examina si todas las variables introducidas en el modelo deben de permanecer. Termina el algoritmo cuando ninguna variable entra o sale del modelo.
José Manuel Rojo
24
I
Ejemplo 1
0131451465 Glb
W PXFR PXLHFR Y[L\ ]X^iation Y_X`RXQQ Y[L\ abbcb cd Y_X`RXQQ efbtosis Ytd. Error of Kurtosis PHRHgfg PFhimum
EFGHL PHQQHRU
noqr stuvwx yozo
pXQc XQ[F[fbF 78 78 9 9 :;<=8>;? ;?=<<<> :;<=9999 ;@=9999 :9=779<> :7=<9:7B =:8? =:<8 =BB< =BB< D:=9:; D=;@< =<87 =<87 :@7=99 B?=99 :<>=99 >:=99
{|
pHX
78 9 ?<=><:@ ?>=9999 7=<;?
GlibFjc FlXQpFGL LlkbmRXc 78 78 78 9 9 9 8?=B<:@ B@=<@:> @8=7B98 8?=9999 B;=9999 @8=9999 B=>?898 B=97::? := =:8< =BB< =BB< =BB< D=;9@ =98@ D=8B9 =<87 =<87 =<87 ;;=99 ?;=99 @B=99 =99 @?=99 ;:=99
oxto Longitud de rodilla a tobillo
78 9 B?=9>7; B?=9999 ?=:@;?9 =;?7 =BB< :=9BB =<87 ?<=99 @7=99
}~
b ¤¥¦§¨ ¡ ¢ £ Watson R Square the Estimate a a. ©ª«¬®¯°ª±² ³´°µ±¯¶µ¯·¸ ¹ºª°»to Longitud de rodilla a tobillo, d_cráneo, a_ espald, l_brazo, pie, estatura b.
¼«½«µ¬«µ¯ ¾¶ª¶¿¹«² ½«±° ÀNOVAb
ÛÕÜ ÒÝ Squares ÚÒÔÍ× ÚÍÖÓ ÛÞÕÖÏÍ ß ÔÝ ÛÑÎà Ç ÌÍÎÏÍÐÐÑÒÓ ÁÂÃÄÅÂÆÇ È ÄÃÆÅÉÆÆ ÇÂÅÉÃÈ ÅÆÆÆa ÌÍÐÑÔÕÖ× ÁÃÅÊÈÁ ÊÊÄÅËÈÄ ËÆ ØÒÙÖ× ÂËÈÆÅÈÈÊ ËÈ a. áÏÍÔÑâÙÒÏÐã äåÒÓÐÙÖÓÙæÅ ×çÏÒèÙÒ éÒÓÎÑÙÕÔ ÔÍ ÏÒÔÑ××Ö Ö ÙÒêÑ××ÒÅ ÔçâÏëÓÍÒÅ ÖçÍÐìÖ×ÔÅ ×ç brazo, pie, estatura
b.
íÍìÍÓÔÍÓÙ îÖÏÑÖê×Íã ìÍÐÒ
¡¢
ï
ðñòóóôõôòö÷øa Mael
ú
( e pe l epla a d e l a de rodilla a tobillo
Ua aea
Sa aea
Coefficients
Coefficients
B
ùúûûüýþú ùüûÿ ýüú , ü ýú úü-þ, úü-4û ùü--û
Sa
ÿûü4 üÿÿ
Be
ùüý û üÿ 4 üûú, üûû üú, ùü--ú
úüýÿ üþýú üþþü4ýý ü ÿú
ùûü-ûùü,4þ úü,ý úüûýû úüþúþ úüú þ ùü--ÿ
S ü--, üÿû ü-4 üý-ú
üúýý üýü44,
lle C Statistics Tolerance V
ü-,ý üúú, üú4 üýúý üú, üýúý
úûü ý ü,ÿ þüû-, ÿü,ýÿ úü4ûû ÿü,ýÿ
a. Depeae V le pe
Rduals Statisticsa P !"#$%ed Value &!'#")*+ .%d. Predicted Value .%d. Residual
/#0#3)3 1230 821203 1707 1319
/*7imum 885975 1134415 2134 1822
a. 9:;:<=:<> Variable: peso
¡¢
¤
/!*0 68889 00000 000 000
.%d. Deviation 1157816 546058 1000 877
N
2 2 2 2
!E ?+$? /nálisis pero utilizando un algoritmo de selección de variables. @AFGH IJKKLOQc bcfgh ] \
i WXYZa WX_]b
i jkmnog W[\\ W[_`
qfrmstgf R Square W[]] W[[[
jtfu vooco cw the Estimate ^WXX\^_ ^WZYZ`_
xmoyz{| Watson \W]\Z
a. }ogfz~tcos c{stn{tW zg b. }ogfz~tcos c{stn{tW zgW ngsnhf c. xgg{fg{t
noznyhg gsc
NOVAc
¡¢ £ Squares
£
¡¤
¥
¡¦ a
b
Ì »½¾ÃÄÅ ¼¾ÆÃÅ »Ã¾ÁÀÄ Á¾Â¿Å ¾¼ÅÆ
×ÐÛÜ ¾ÆÆÆ ¾ÆÆÆ ¾ÆÆÆ ¾Æƽ ¾ÆƼ
a. §¨© ª«¬ b. §¨© ª«¬ ® c. ¯ °±©
²³´µµ¶·¶´¸¹ºa
ÕÉÔÑÓ ¿ Â
ÇÈÉÊËÌÍÊÌÎ ÏÐÑ ÇÈÉÊËÌÍÊÌÎ ÏÐÑ ÍÒÑËÏÍÓÔ
ØÊËÌÍÊÔÍÙÔÐÚÑÔ Coefficients Ö ×Ìd. Error »¼½¾¿ÀÁ ¿¼¾½Â¿ Á¾Àż ¾½À¿ »¼À¾ÂÃÆ ¿Ä¾Â¼ ¾¿Á ¾Ä¼À ¿¾½¿Ã ¾½ÅÆ
×ÌÍÊÔÍÙÔÐÚÑÔ Coefficients ÖÑÌa ¾¼ÃÆ ¾½Åà ¾½½½
a. áâãâäåâäæ çèéêèëìâí ãâîï
noqr stuvwx yozo
{ð
ÈÉÓÓÐÊÑÍÙÐÌà Statistics Ýolerance ÞßF ¿¾ÆÆÆ
¿¾ÆÆÆ
¾ÁÄÁ ¾ÁÄÁ
¾ÀÃÁ ¾ÀÃÁ
ñòóóôõö÷øôùú ûô÷üõòýùôþýa
V p
Index M D E (C p a p /0-0)'0)3'a 1 ÿ ÿ ÿ1 R&')*+-.' ÿ1 1 2 1, TJX21 ÿ1 imum TFUFWLW TAJUÿ1 SHBQ YAZFJHF[U \ 2 P@ABFGHAB ÿ IJKLA 21 ÿ1 1 1 18; 4565789 :;658<4 =56:::> <<649784 2 1 21 1, 12 1228; NAOFBLJK ?<96877>7 <867597= 699999 76:<5<8 , 1 ÿ 12 1 ÿ 1 18; SHBQ P@ABFGHAB IJKLA ?<6:9< 86977 6999 <6999 NAOFBLJK !"# $% a. SHBQ ?<6=>7 869;< 6999 6>=< 8; C
a. ]^_^`b^`c defgehi^j _^kl
noqr stuvwx yozo
{m
Histogram
Dependent Variable: peso n
6
x w v s u t sr
4
q 2
yz{n = 1,99E-15 Std. Dev. = 0,961
o
|}~
}}
|}~
}}