REGRESIÓN REGRESIÓN LINEAL LINEAL SIMPLE y MÚLT MÚLTIPLE
JORGE FALLAS 2012
Índice
1. Introducción..................................................................................................................................1 2. Concepto de regresión y predicción: línea de mejor ajuste..........................................................1 3. Calculo de la ecuación de regresión linal..................................................................................... . In!erencia y prueba de "ipótesis en regresión lineal....................................................................# .1 $rueba %: probando la signi!icancia de la ecuación de regresión...............................................& .2 In!erencia sobre 'a(..................................................................................................................11 .3 In!erencia sobre b )pendiente de la recta*+Error, -arcador no de!inido..................................13 . In!erencia sobre el error estndar de estimación )/ y0*.............................................................1 . In!erencia sobre µ0y.................................................................................................................1 . Estimación de alores indiiduales )450*.................................................................................1 .#. Coe!iciente de determinación: ariabilidad e0plicada por la ecuación de regresión..............1& .&. Anlisis de residuos: $robando por los supuestos del modelo de regresión............................1& .6. 7alidación del modelo: $redicción de alores de 4 a partir de alores de 8..........................22 .19. Aplicaciones de la regresión..................................................................................................2 .11. $recauciones al realiar un anlisis de correlación;regresión...............................................2 . ?E@@ y =>E@@*: o paramBtrica.......................33 6.
El presente documento se distribuye bajo licencia 'reconocimiento;o comercial;Compartir bajo la misma licencia( )CC 4;C;@A* de 'Creatie Commons(K la cual permite entremeclarK modi!icar y construir con base en su trabajo para !ines no comercialesK siempre y cuando se de crBdito y licencia de sus nueas creacionesK en tBrminos idBnticos.
1. Introducción Cuando se tratamos el tema de correlación lineal simple se indicó ue cuando dos ariables estn correlacionadas puede predecirse el alor de una a partir de la otra. AdemsK tambiBn se mencionó ue e0iste una relación inersamente proporcional entre la intensidad de la correlación y el error estndar de estimación )@y0*. En el presente capítulo usted aprender cómo ajustar modelos de regresión tanto lineales como no lineales )%ig. 1*L cómo someter a prueba la signi!icancia del modelo y !inalmente cómo seleccionar el MmejorM modelo de regresión.
El anlisis de regresión inolucra los siguientes pasos: De!inir: ariable predictora y ariable dependiente
>bsere ue se "a ajustado ajustado una recta a los datos de la !igura 2. Esta recta puede utiliarse utiliarse para estimar alores de altura total dado un alor de dimetro. $or ejemploK a un rbol con un dimetro )d* de 2 cm le corresponde una altura total )"t* de 29K3 m. =a ariable predictora se designa con la letra '8( y la ariable dependiente con la letra '4(. Cuadro 1: Dimetro )cm* y altura total )m* para doce rboles. Dimetro )cm* Altura total )m* Dimetro )cm* Altura total )m* 3 1& 1# 1& 16 & 13 29 1 6 6 2 1# 11 13 2 2 1 6 39 22
%igura 2:
es la di!erencia di!erenc ia entre 4 y 4P.
Error ' () (* =o anterior se ilustra en la !igura 3 para dos rboles )a y b* con un dimetro igual a 2 centímetros. centímetros. Dado ue el dimetro es igual para ambos rbolesL la altura total estimada tambiBn es la misma. @in embargoK como se muestra a continuaciónK el error de estimación es di!erente para cada obseración. Qrbol a b
Dimetro )cm*
Altura total real )m* 4
2 2
2 1#
Altura total Error 4 ; 4P 7aloración estimada )m* 4P 2 9K 3 K # @ubestimación 29K3 ;3K3 @obreestimación
%igura 3: Error de predicción o de estimación. =os errores sern positios para auellas obseraciones ue se ubican por encima de la recta de mejor ajuste y negatios negatios para auellas auellas ue se ubiuen por debajo. Conociendo Conociendo estoK debemos ubicar la recta en el diagrama de dispersión de tal !orma ue minimice el error de predicción. =o anterior se logra cuando la suma cuadrtica de los errores es un mínimoK o sea: +( ) (*,2 e un %#ni%o
Este criterio de mejor ajuste se conoce como el criterio de mínimos cuadrados promedio o mínimos cuadrados ordinarios )-C> o >=@K por sus siglas en inglBs* y !ue propuesto por Carl %riedric" Gauss en 1&91. =a línea de mejor ajuste se denomina línea de regresión de '4( en '8(.
E0isten otras ariaciones de mínimos cuadrados como mínimos cuadrados ponderados )?=@K por sus siglas en inglBs*K ue a menudo se comporta mejor ue -C>K ya ue puede modular la importancia de cada obseración en la solución !inal y mínimos cuadrados parciales. =os alores estimados para '4( utiliando la línea de regresión son estimaciones de la media de alores de 4 para cada uno de los alores de '8(. Esto se ilustró en la !igura 2. El alor de 4P igual a 29K3 m corresponde a la estimación de '4( para auellas obseraciones con un alor de '8( igual a 2 cm. Inmediatamente surge la duda: F$oruB la media es 29K3 si sólo disponemos de dos obseraciones para 8 R 2 cm con una altura total de 1# y 2 m respectiamente =a respuesta es simpleK debemos recordar ue 4P es una estimación de la altura media para rboles con un dimetro igual a 2 cm. En otras palabrasK es el alor ue esperaríamos tener para la distribución de alturas de un gran nmero de rboles con un dimetro igual a 2 cm y no sólo para los dos rboles de la muestra. El mismo raonamiento se aplica al alor de 4P R K m ue corresponde a la media estimada de 4 dado un alor de 8 igual a K cm. Auí podría surgir otra duda: FCómo se obtuo el alor de 4P )K m* si no tenemos obseraciones para rboles con un dimetro igual a K cm =a línea de regresión nos permite estimar alores de '4( para cualuier alor de '8( an cuando no se encuentre en el mbito de la muestra seleccionada )extrapolación*. Al igual ue en el caso preio )4P R 29K3 m*L K m es el alor esperado de 4 si tuiBsemos rboles con un dimetro igual a K cm. Sasta este momento nuestro ejemplo y comentarios se "an basado en el supuesto de ue deseamos estimar altura dados ciertos alores de dimetro. @in embargoK FuB pasaría si deseramos estimar dimetros en !unción de altura toral )una posibilidad poco prctica*. En este caso el criterio de mínimos cuadrados se aplicaría a minimiar errores de predicción en dimetro y no de altura total. =a línea de mejor ajuste ser igual en ambos cuando el coe!iciente de correlación lineal es igual a uno )r R 1K99*. En aplicaciones prcticas el interBs es predecir en una dirección )e.g. altura total a partir de dimetro* y no en ambas direcciones. $or lo tanto es esencial seleccionar la ariable para la cual deseamos "acer predicciones antes de iniciar el proceso de selección de la línea de mejor ajuste. Indistintamente de la ariable seleccionadaK Bsta se designar con la letra '4(L en tanto ue la ariable predictora se designar con la letra '8(. -. C$"cu"o de "$ ecu$ción de regreión "in$" =a posición de la línea de regresión en un diagrama de dispersión como la !igura 1 est determinada por una !unción matemtica denominada ecuación de regresión )%ig.*.
%igura : Ecuación de regresión lineal Cuando se trabaja con las obseraciones no trans!ormadasK la ecuación puede e0presarse de la siguiente manera: @y @y ;; ;; 4P R )r T ;;;;;;;;;; T 8* ; )r ;;;;;;;; T 8* U 4 @0 @0 )1* En donde: 4P: 7alor estimado de 4 @0 y @y: Desiación estndar de 8 y 4K respectiamente ;; ;; 8 y 4: -edia de 8 y 4K respectiamente r: Coe!iciente de correlación lineal de $earson 8: 7alor de 8 para el cual se desea estimar 4P @impli!icando la e0presión 1K tenemos: @y ;; ;; 4P R r T ;;;;;;; T )8 ; 8* U 4 @0
)2*
El tBrmino r T @yV@0 se conoce como la pendiente de la recta y se representa con la letra . >bsere ue cuanto mayor sea el alor del coe!iciente de correlación ms empinada ser la línea de regresión y menor ser el alor del error estndar de estimación )@y0*. @u alor puede calcularse directamente utiliando la siguiente e0presión: n T Ʃ 0y ; ∑0 ∑y b R ;;;;;;;;;;;;;;;;;;;;;;; n ∑02 ; )∑0*2
)3*
@ustituyendo la pendiente por b en la ecuación 1K tenemos: ;; ;; 4P R b T 8 ; bT 8 U 4
)*
@impli!icando la ecuación K tenemos ue: ;; ;; 4P R 4 U b T )8 ; 8* 4 la ecuación !inal es:
)*
4P R a U b T 0
)*
En donde ;; ;; a R 4 ; b T 8 R )∑4 ; bT∑8* V n
)#*
El uso de las ecuaciones 2K 3K y se ilustra con el siguiente ejemplo. FCul es el alor de 4 para un dimetro igual a 2 cm Considerando los datos del cuadro 1 tenemos: Dimetro )cm* ;; 8 R 1K cm @0 R &K# cm
altura total )m* ;; 4 R 1K9 m @y R K& m
<0y R 9K&& )coe!iciente de correlación lineal de $earson* @ustituyendo los símbolos por los alores respectios en la ecuación 2 tenemos: K& 4P R 9K&& ;;;;;;;;; T )2 ; 1K* U 1K9 &K# 4P R 29K3 m
@i utiliamos las ecuaciones 2 y 3 el resultado es el siguiente
@y K& b R r ;;;;;;; R 9K&& T ;;;;;;;; R 9K @0 &K#
)De la ecuación 2*
12 T 31 ; )1* )1&* b R ;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;; 12 T 3#23 ; )1*2
)Ecuación 3*
b R ;;;;;;;;;; R 9K 6#9# 4P R 9K T 2 ; 9K T 1K U 1K9
4 la ecuación !inal de regresión es: ;; ;; 4P R 4 U b T )8 ; 8* ;; 4P R 1K9 U 9K )8 ; 8* 4P R 1K9 U 9K T )8 ;1K* 4P R 3K2 U 9K T 8 =a pendiente no tiene unidades e indica ue por cada incremento de 1cm en dimetroK el alor de St incrementar en 9. metros. En tanto ue el intercepto indica ue cuando el rbol tiene cero centímetros de dimetro tendr una altura total de 3K m. $ara encontrar el alor de 4 correspondiente a una 8 igual a 2. cm sustituimos la 8 por este alor en la ecuación : 4P R 3K2 U 9KT2K 4P R K3 m @i desea "acer otra predicciónK simplemente reemplace 8 por el alor para el cual se desea conocer la estimación. $or ejemploK para un dimetro )8* de K cm la altura total )4* es igual a K m. $ara traar la línea de mejor ajuste sólo se reuiere calcular dos alores de 4P. Esto nos brinda dos pares de puntos )81y 4P1y 82K 4P2* los cuales gra!icamos y unimos posteriormente con una recta. Como eri!icación puede utiliarse el "ec"o de ue la línea debe pasar por la media de 8 y de 4. En todos los casos el alor estimado de 4P tender "acia la media de 4 )por esta raón el criterio de ajuste se denomina mínimos cuadrados promedio). Este !enómeno se denomina regresión "acia la media y se presenta cuando 'r( es di!erente de 1. Es importante tener en cuenta ue la recta de mejor ajuste estima alores medios de '4( y no alores indiiduales. $or esta raón la estimación de 4P es el alor esperado para un alor particular de 8 y no el alor nico de 4P dado un alor de 8. Cuando r R 9K la predicción de 4 para cualuier 8 ser igual a su media. =o anterior tiene sentido ya ue si '8( y '4( no estn correlacionadasK el conocer un alor especí!ico de '8( no aporta in!ormación en cuanto a la estimación del respectio alor de '4( y por endeK. la media de '4( es intuitiamente una predicción raonable para cualuier alor de '8(. /. In0erenci$ y prue$ de ipótei en regreión "ine$" Sasta el momento no "emos mencionado las condiciones o supuestos del modelo de regresión linealL sin embargo es necesario conocerlos para realiar in!erencias lidas sobre los siguientes parmetros:
• • • • •
W )intersección con el eje 4* X )pendiente* σ 2 y0 )error de predicción* µ y0 )estimación del alor medio de 4* 4P0 )estimación de un alor indiidual de 4
=os supuestos del modelo de regresión son: • =os alores de '8( se encuentran libres de error ya sea debido a muestreo o mediciónK en otras palabras las '8( son constantes ue pueden medirse. • =a distribución de '4( para cada alor de '8( es normal )%ig.*. Este supuesto es esencial para realiar pruebas de "ipótesis y calcular interalos de con!iana paramBtricos. • =a ariana poblacional de '4( es la misma para cada alor medio de '8( )supuesto de "omocedasticidadL %ig. *. Este supuesto es esencial para realiar pruebas de "ipótesis y calcular interalos de con!iana paramBtricos. • =a media poblacional de '4( es una !unción lineal de '8( )principio de linealidad*. Y i = α + β X i
•
=os residuos )4;4P* son independientesK o sea E)eie j*R9 )iYZj* y su distribución es normal E)e2i R /2*. Esto es euialente a demostrar ue las '4( obseradas a di!erentes alores de '8( son independientes.
%igura : @upuestos de normalidad e igualdad de arianas. $do 3ue e cu%p"$ con "o upueto de regreión! L$ 0ór%u"$ uti"i4$d$ p$r$ eti%$r "o coe0iciente de regreión on 5L6E +5et Line$r 6ni$ed Eti%$tor,. 5et +e" %e&or, ' 7E e" eti%$dor %8 e0iciente o e$ con "$ 9$ri$n4$ %8 pe3ue:$. Line$"! L$ %edi$ po"$cion$" de ( e un$ 0unción "ine$" de ;. 6ni$ed +Ineg$do,' <$"or eper$do de" eti%$dor ' $" p$r8%etro po"$cion$" /.1 Prue$ =! pro$ndo "$ igni0ic$nci$ de "$ ecu$ción de regreión =a línea de regresión de '4( en '8( asume ue ambas ariables estn linealmente correlacionadas y por lo tanto es posible e0plicar la ariabilidad obserada en '4( a partir de la
línea de regresión de '4( en '8(. El error o ariana no e0plicada )1;< 2* es auella porción de la ariabilidad total ue atribuimos a otros !actores no considerados en el anlisis. =a prueba de signi!icancia de la regresión determina si la ariabilidad e0plicada es signi!icatiamente mayor ue la no e0plicada. =a ariana total )alrededor de la media de 4* puede partirse de la siguiente manera )%ig. *: Su%$ Cu$dr$do Tot$" ' Su%$ Cu$dr$do regreión > Su%$ Cu$dr$do error <$ri$ción tot$" en ( 9$ri$ción e?p"ic$d$ por "$ <$ri$ción no e?p"ic$d$ regreión de 7(@ en 7;@
%igura : $artición de la ariabilidad total en un anlisis de regresión. El primer tBrmino representa la suma de cuadrados alrededor de la media de '4(K el segundo la suma de cuadrados debido a la ecuación de regresión de '4( en '8( y el ltimo tBrmino la suma de cuadrados alrededor de la línea de regresión )ariana no e0plicada*. =a prueba de "ipótesis sobre la signi!icancia de la ecuación de regresión se realia utiliando una tabla de anlisis de ariana como la ue se muestra en el cuadro 2. =a "ipótesis nula y alternatia es: So: b R 9 )no e0iste regresión* Sa: b < > 9 )e0iste regresión* 4 el estadístico de prueba es: %R Cuadrado medio de regresión )C-reg* V cuadrado medio de errro )C-error* con 1K n;1 grados de libertad.
Cuadro 2: Habla de anlisis de ariana utiliada para probar la signi!icancia de la ecuación de
regresión de 4 en 8. %uentes de ariación Grados de libertad
1 n;2
HotalT n;1 T Hotal corregido por la media
@C ;; ∑)4P ; 4*2 ∑)4 ; 4P *2 ;; ∑)4 ; 4*2
C% ;; C-regVC-error ∑)4P ; 4*2V1 2 ∑)4 ; 4P* Vn;2
=as siguientes !órmulas !acilitan el clculo de las sumas de cuadrados: ∑0 T ∑y )∑84 ;n ;;;;;;;;;;;*2
@C regresión R ;;;;;;;;;;;;;;;;;;;;;;; ∑82 ; )∑8*2 V n*
)&*
@C total R ∑42 ; )∑4*2 V n* @C error R @C total [ @C regresión
)6* )19*
=a regresión es signi!icatia si el alor de % calculado es mayor ue % crítico para un niel de signi!icancia dado )α*K con 1K n;2 grados de libertad. @i la regresión es signi!icatia podemos a!irmar ue la ariabilidad e0plicada por la regresión de '4( en '8( es mayor ue la no e0plicadaL sin embargo esta prueba no nos brinda in!ormación sobre la bondad de ajuste del modelo )e.g. no sabemos si la ecuación de regresión es la ue mejor se ajusta a los datos*. Este tema se discutir en la secciones cinco y seis. El cuadro 3 muestra la tabla de análisis de varianza generado por el programa 8=@tatistics )2um* para la ecuación ajustada a los doce alores de dimetro y altura total del cuadro 1. >bsere ue la raí del cuadrado medio del error ) Mean Square Residual * corresponde al error estndar de estimación )@y0R3K23 m*. =a probabilidad al!a )α* asociada al alor de % calculado )3K3* con 1K19 grados de libertad es 9K99916 y por lo tanto concluimos ue la regresión es altamente signi!icatia )$Y9.991*. Cuadro 3: Habla de anlisis de ariana para la ecuación de regresión "totR3.3 U 9.9Td AN
D% 1