REGRESION Y CORRELACION
1 REGRE EGRESI SIO ON LIN LINEA EAL L Iniciemos diciendo que el análisis de regresión se relaciona en gran medida con la estimación o predicción de la media (de la población) o valor promedio de la variable dependiente, con base en los valores conocidos o fijos de las variables explicativas. Para entender esto, consideremos los datos de la tabla 2.. !stos datos se refieren a la población total de "# familias de una comunidad $ipot%tica, as& como a su ingreso semanal ( X ) ' su gasto de consumo semanal ( Y ), ), en dólares. as "# familias se dividen en # grupos de ingresos (de # dólares a 2"#)* asimismo, aparecen los gastos semanales de cada familia de los diversos grupos. Por consiguiente, $a' # valores fijos de X ' los correspondientes valores Y para cada valor X * as&, $a' # subpoblaciones subpoblaciones Y . +e observa una variación considerable en el consumo semanal de cada grupo de ingreso, lo cual se aprecia con claridad en la figura 2.. o obstante, el panorama general es que, a pesar de la variabilidad del consumo semanal en cada nivel de ingreso considerado, en promedio, el consumo semanal se incrementa a medida que aumenta el ingreso. Para verificar lo anterior, en la tabla 2. se proporciona la media, o promedio, del consumo semanal que corresponde a cada uno de los # niveles de ingresos. -s&, al nivel de ingreso de # dólares le corresponde una media de consumo igual a " dólares, pero para el nivel de 2##, la media es de /0. !n total $a' # valores medios para las # subpoblaciones de Y . - estos estos valo valore ress medi medios os se les les llam llamaa valores valores esperados esperados condicionales, en virtud de que dependen de los valores de la variable (condicional) X . !n forma simbólica, se denotan con E (Y 1 X ), lo cual se lee como el valor esperado de Y , dado el valor de X .
!s impo import rtan ante te dist distin ingu guir ir entr entree los los valo valores res espe espera rado doss cond condic icio iona nale less ' el valor valor esperado esperado del consumo semanal, ( ) ). . +i sumamos los consumos semanales de las "# familias E Y incondicional que forma forman n la población ' dividimos este nmero entre "#, obtendremos la cantidad de 2.2# dólares (30 202 / "#), "#), que es el valor de la media incondicional, o esperada, del consumo semanal,
1
REGRESION Y CORRELACION
E (Y )* es incondicional porque, para obtener esta cifra, obviamos los niveles de ingreso de las diversas familias. 4omo es lógico, los diferentes valores esperados condicionales de Y de la tabla 2. var&an respecto del valor esperado incondicional de Y, igual a 2.2# dólares. 4uando se plantea la pregunta 56cuál es el valor esperado del consumo semanal de una familia78, la respuesta es 2.2# dólares (la media incondicional). Pero si se pregunta 56cuál es el valor esperado del consumo semanal de una familia cu'o ingreso mensual es de 9# dólares78, la respuesta es # (la media condicional). !n otras palabras, a la pregunta 56cuál es la mejor predicción (media) del gasto semanal de las familias con un ingreso semanal de 9# dólares78, la respuesta es # dólares. Por consiguiente, conocer el nivel de ingreso permite predecir mejor el valor medio del consumo que si se ignora esa información. :al ve; sea %sta la esencia del análisis de regresión, como lo descubriremos a lo largo de este libro.
os puntos oscuros dentro de c&rculos de la figura 2. muestran los valores medios condicionales de Y , graficados en función de los diferentes valores de X . -l unir esos valores obtenemos la línea de regresión poblacional (LRP) , o, más general, la curva de regresión poblacional (RP) . 4on palabras más sencillas, es la regresión de Y sobre X . !l adjetivo 5poblacional8 se debe a que en este ejemplo trabajamos con la población total de "# familias. Por supuesto, en realidad una población tendr&a más familias. Así, desde el punto de vista geométrico, una curva de regresión poblacional es tan sólo el lugar geométrico de las medias condicionales de la variable dependiente para los valores fijos de la(s) variable(s) explicativa(s) o independientes.
!n palabras más simples, es la curva que conecta las medias de las subpoblaciones de Y que corresponden a los valores dados de la regresora X . o anterior se ve de manera gráfica en la figura 2.2. !sta figura muestra que para cada X (es decir, el nivel de ingresos) existe una población de valores Y (consumo semanal) que se distribu'en alrededor de la media (condicional) de dic$os valores Y . Por simplicidad, suponemos que tales valores Y están distribuidos sim%tricamente alrededor de sus respectivos valores medios (condicionales). -simismo, la recta (o curva) de regresión pasa a trav%s de los mencionados valores medios (condicionales).
2
REGRESION Y CORRELACION
oncep!o de "unción de regresión poblacional (#RP)
($%$%1)
donde ƒ( X i) denota alguna función de la variable explicativa X . !n el ejemplo, E (Y 1 X i) es una función lineal de X i. a ecuación (2.2.) se conoce como "unción de esperan&a condicional (#E)' "unción de regresión poblacional (#RP) o regresión poblacional (RP) , para abreviar.
u% forma adopta la función ƒ( X i)7 !sta pregunta es importante porque en una situación real no disponemos de toda la población para efectuar el análisis. a forma funcional de la ?@P es por consiguiente una pregunta emp&rica, aunque en casos espec&ficos la teor&a tiene algo que decir. Por ejemplo, un economista puede plantear que el consumo manifiesta una relación lineal con el ingreso. Por tanto, como primera aproximación o $ipótesis de trabajo, podemos suponer que la ?@P E (Y 1 X i) es una función lineal de X i, del tipo E (Y 1 X i ) = β A β 2 X i
(
)
donde β ' β 2 son parámetros no conocidos pero fijos que se denominan coe"icien!es de regresión * β ' β 2 se conocen tambi%n como coe"icien!es de in!ersección ' de pendien!e, respectivamente. a ecuación (2.2.) se conoce como "unción de regresión poblacional lineal . !n la bibliograf&a aparecen otras expresiones, como modelo de regresión poblacional lineal o s ólo regresión poblacional lineal . !n lo sucesivo, consideraremos sinónimos los t%rminos regresión , ecuación de regresión ' odelo de regresión. !n el análisis de regresión, la idea es estimar las ?@P como la ecuación (2.2.2)* es decir, estimar los valores no conocidos de β ' β 2 con base en las observaciones de Y ' X .
#unción de regresión ues!ral (#R) Basta el momento, nos $emos limitado a la población de valores Y que corresponden a valores fijos de X . 4on toda deliberación evitamos consideraciones muestrales (observe que los datos de la tabla 2. representan la población, no una muestra). o obstante, es momento de enfrentar los problemas muestrales, porque en la práctica lo que se tiene al alcance no es más que una muestra de valores de Y que corresponden a algunos valores fijos de X . Por tanto, la labor a$ora es estimar la ?@P con base en información muestral. - manera de ilustración, supongamos que no se conoc&a la población de la tabla 2. ' que la nica información que se ten&a era una muestra de valores de Y seleccionada al a;ar para valores dados de X como se presentan en la tabla 2.9. - diferencia de la tabla 2., a$ora se tiene sólo un valor de Y correspondiente a los valores dados de X * cada Y (dada X i) en la tabla 2.9 se selecciona aleatoriamente de las Y similares que corresponden a la misma X i de la población de la tabla 2..
3
REGRESION Y CORRELACION
a cuestión es la siguienteC con base en la muestra de la tabla 2.9, 6es posible predecir el consumo semanal promedio Y de la población en su conjunto correspondiente a los valores de X seleccionados7 !n otras palabras, 6se puede estimar la ?@P a partir de los datos de la muestra7 4omo el lector con seguridad sospec$a, qui;á no pueda calcularse la ?@P con 5precisión8 debido a las fluctuaciones muestrales. Para ver esto, supongamos que se toma otra muestra aleatoria de la población de la tabla 2., la cual se presenta en la tabla 2.. -l graficar los datos de las tablas 2.9 ' 2. se obtiene el diagrama de dispersión de la figura 2.9. !n el diagrama de dispersión se tra;aron dos l&neas de regresión muestral con el fin de 5ajustar8 ra;onablemente bien las dispersionesC ?@D se basa en la primera muestra ' ?@D 2 en la segunda. 64uál de las dos l&neas de regresión representa a la l&nea de regresión poblacional 5verdadera87 +i evitamos la tentación de mirar la figura 2., que a propósito representa la @P, no $a' forma de estar por completo seguro de que alguna de las l&neas de regresión de la figura 2.9 representa la verdadera recta (o curva) de regresión poblacional. as l&neas de regresión en la figura 2.9 se conocen como líneas de regresión ues!ral .
4
REGRESION Y CORRELACION
+e supone que representan la l&nea de regresión poblacional, pero, debido a fluctuaciones muestrales, son, en el mejor de los casos, sólo una aproximación de la verdadera @P. !n general, se obtendr&an N ?@D diferentes para N muestras diferentes, ' estas ?@D no por fuer;a son iguales. -$ora, igual que la ?@P en la cual se basa la l&nea de regresión poblacional, se desarrolla el concepto de "unción de regresión ues!ral (?@D) para representar la l&nea de regresión muestral. a contraparte muestral de la ecuación (2.2.2) puede escribirse comoC
-dvierta que un es!iador, conocido tambi%n como es!adís!ico (muestral), no es más que una regla, fórmula o m%todo para estimar el parámetro poblacional a partir de la información suministrada por la muestra disponible. En valor num%rico particular obtenido por el estimador en un análisis se conoce como es!iación. -$ora, tal como la ?@P se expresa en dos formas equivalentes, (2.2.2) ' (2.9.2), la ?@D (2.".) se expresa en su forma estocástica de la siguiente maneraC
5
REGRESION Y CORRELACION
*!odo de ínios cuadrados ordinarios (O) !l m%todo de m&nimos cuadrados ordinarios se atribu'e a 4arl ?riedric$ Fauss, matemático alemán. - partir de ciertos supuestos (estudiados en la sección /.2), el m%todo de m&nimos cuadrados presenta propiedades estad&sticas mu' atractivas que lo $an convertido en uno de los más eficaces '
6
REGRESION Y CORRELACION
populares del análisis de regresión. Para entenderlo, primero explicaremos el principio de los m&nimos cuadrados. @ecuerde la ?@P de dos variablesC
Y i = β A β 2 X i A ui
($%+%$)
+in embargo, como mencionamos anteriormente, la ?@P no es observable directamente. +e calcula a partir de la ?@DC
7
REGRESION Y CORRELACION
-plicando el cálculo diferencial tenemosC
!stas ecuaciones simultáneas se conocen como ecuaciones ormales. @esolviendo tal sistema tenemosC
^ ^
´ = β + β X ´ Y 1 2
8
REGRESION Y CORRELACION
$ ORRELAION oe"icien!e de correlación rec!ilínea de Pearson !l coe"icien!e de correlación , es una medida del grado de asociación entre dos variables, trata de cuantificar el grado de relación existente entre las variables, es adimensional ' en ese sentido es una medida relativa.
OE#IIEN,E -E ORRELAION LINEAL -E PEARSON
:ambi%n podemos expresar en t%rminos de la covarian;a
r = 0: no existe correlación r = 1: correlación lineal perfecta positiva r=-1: correlación lineal perfecta negativa
) Puede variar si arbitrariamente se incrementa el tamao de la muestra. 2) !sta fuertemente afectado por las unidades de medida de cada una de las variables.
Para evitar estos problemas P!-@+J, mu' inteligentemente sugiere 5promediar la suma de los productos de las desviaciones sobre el tamao de la muestra ' al mismo tiempo ponderarlos, por las correspondientes desviaciones t&picas de ambas variables8.
9
REGRESION Y CORRELACION
. AN/LISIS -E LA 0ARIANA 10
REGRESION Y CORRELACION
-s& la varian;a total se descompone enC
0ARIANA ,O,AL 2 0ARIANA E3PLIA-A 4 0ARIANA INE3PLIA-A
S, 2 SE 4 SR S5A 5A-RA-OS ,O,AL 2 S5A 5A-RA-OS E3PLIA-A 4 S5A 5A-RA-OS -E LOS RESI-5OS
Mestra !e la variación total en los valores Y o"serva#os alre#e#or #el valor #e s $e#ia #ivi#i#a en #os partes% na atri"i"le a la l&nea #e regresión ' la otra a fer(as aleatorias% pes no to#as las o"servaciones Y caen so"re la l&nea a)sta#a*
+s& al #ivi#ir la ecación anterior entre la ,. en a$"os la#os% se o"tiene:
11
REGRESION Y CORRELACION
+/ora% #eni$os
2
r
co$o:
J tambi%n comoC
a canti#a#
2
r
asi #eni#a se conoce co$o
coefciente de determinación
$estral% ' es la $e#i#a $s co$n #e la "on#a# #el a)ste #e na l&nea #e regresión* er"al$ente% r 2 mide la proporción o el porcentaje de la variación total en Y explicada por el modelo de regresión. e#en o"servarse #os propie#a#es #e r 2: 1* s na canti#a# no negativa* 2* ,s l&$ites son 0 Y i =Y i ^
2
r
1* n
2
r
#e 1 signica n a)ste perfecto% es #ecir%
por ca#a i* or otra parte% n #e cero signica !e no /a' relación algna
entre la varia"le regresa#a ' la varia"le regresora*
E6EPLO7 !n una encuesta de $ogares (por muestro estad&stico) reali;ado a 0 familias, se obtuvo la siguiente información relativa al ingreso ' gasto famil iar en bolivianosC H (F-+:J+) "2 92 9/
G (IF@!+J) 0# "# # 0# "# 9
a)
!stimar la recta regresión m&nimo cuadrática ' estimar el gasto para un ingreso de ## Ks
b)
c)
Balle el coeficiente de determinación (
2
r
r ).
)
8I8LIOGRA#IA REOEN-A-A7
EONOE,RIA -utoresC
12
REGRESION Y CORRELACION
ES,A-IS,IA ELEEN,AL 9 -ESRIP,I0A E IN#ERENIAL PARA7 EONOIS,AS' A5-I,ORES : A-INIS,RA-ORES -E EPRESAS -utorC @al -rias Durillo
13