www.monografias.com
“UNIVERSIDAD PERUANA LOS ANDES” FACULT FA CULTAD AD DE INGENIRIA CI CIVIL VIL “Año de la consolidación del Mar de Grau”
DOCENTE : ALUMNO :
ARIAS CAMPOS RONY ANTONY
CURSO
ESTADISTIC ESTADISTICA A
TEMA
: :
CARRERA:
REGRESION Y CORRELACION LINEAL INGIENERIA CIVIL
LIMA!"#$
Para ver trabajos similares o recibir información semanal sobre nuevas publicaciones, visite www.monografias.com www.monografias.com
www.monografias.com
DEDICATORIA Por %& %sf'%r(o )% mis *a)r%s + a Dios *or %& )on )% &a ,i)a
INDICE
Dedicatoria
Ti*os )% ,aria-&%s D%finicin )% r%gr%sin &in%a& D%finicin )% corr%&acin &in%a& Pasos %n %& an/&isis )% corr%&acin + '0i&i(acin % in0%r*r%0acin )% &as 01cnicas )% corr%&acin R%gr%sin + corr%&acin &in%a& Dis0ri-'cin )i,arian0% R%gr%sin sim*&% + corr%&acin Es0imacin )% &a %c'acin )% r%gr%sin m'%s0ra& E2%m*&o )% r%gr%sin &in%a& R%c0as )% R%gr%sion A*&icacion%s )% &a r%gr%sin &in%a&
Para ver trabajos similares o recibir información semanal sobre nuevas publicaciones, visite www.monografias.com www.monografias.com
www.monografias.com
E2%rcicios r%gr%sin + corr%&acin &in%a& r%s'%&0os Conc&'sin 3i-&iograf4a o Lis0a )% r%f%r%ncias
TIPOS DE VARIABLES
Variable Independiente !" determin#stica, es decir no aleatoria." Variable Dependiente $" aleatoria Ejemplos !% N&mero de llamadas telefónicas reali'adas por un vendedor promocionando un producto. $% (nidades vendidas por el vendedor. !% )iempo *ue dedica un estudiante a una materia. $ % Evaluación *ue obtiene el estudiante en la materia. Defnición de regresión lineal
La r%gr%sin %s0a)4s0ica o r%gr%sin a &a m%)ia %s &a 0%n)%ncia )% 'na m%)icin %50r%ma a *r%s%n0ars% m/s c%rcana a &a m%)ia %n 'na s%g'n)a m%)icin. La r%gr%sin s% '0i&i(a *ara *r%)%cir 'na m%)i)a -as/n)onos %n %& conocimi%n0o )% o0ra. MODELO DE REGRESI6N LINEAL Regresión lineal
En estad#stica la regresión lineal o ajuste lineal es un m+todo matemtico *ue modeli'a la relación entre una variable dependiente Y , las variables independientes Xi - un t+rmino aleatorio . Este modelo puede ser e/presado como%
Para ver trabajos similares o recibir información semanal sobre nuevas publicaciones, visite www.monografias.com
www.monografias.com
0a regresión lineal puede ser contrastada con la regresión no lineal. R%gr%sin &in%a& sim*&% 1ólo se maneja una variable independiente, por lo *ue sólo cuenta con dos parmetros. 1on de la forma%
Dado el modelo de regresión simple, si se calcula la esperan'a valor esperado" del valor Y , se obtiene%
2bteniendo dos ecuaciones denominadas ecuaciones normales *ue generan la siguiente solución para ambos parmetros
Para ver trabajos similares o recibir información semanal sobre nuevas publicaciones, visite www.monografias.com
www.monografias.com
0a interpretación del parmetro beta 3 es *ue un incremento en !i de una unidad, $i incrementar en beta 3 4aneja varias variables independientes. Cuenta con varios parmetros. 1e e/presan de la forma%5
R%gr%sin &in%a& sim*&% Dadas dos variables $% variable dependiente6 !% independiente" se trata de encontrar una función simple lineal" de ! *ue nos permita apro/imar $ mediante% 7 8 a 9 b! ordenada en el origen, constante" pendiente de la recta" : la cantidad e8$;7 se le denomina residuo o %rror r%si)'a& . :s#, en el ejemplo de Pearson% 7 8 5< cm 9 =,a del >ijo - ! la altura del padre% En media, el >ijo gana =,< cm por cada cm del padre. R%gr%sin no &in%a& En estad#stica, la regresión no lineal es un problema de inferencia para un modelo tipo% Y7 8 9;"<=E basado en datos multidimensionales x ,y , donde f es alguna función no lineal respecto a algunos parmetros desconocidos θ . Como m#nimo, se pretende obtener los valores de los parmetros asociados con la mejor curva de ajuste >abitualmente, con el m+todo de los m#nimos cuadrados". Con el fin de determinar si el modelo es adecuado, puede ser necesario utili'ar conceptos de inferencia estad#stica tales como intervalos de confian'a para los parmetros as# como pruebas de bondad de ajuste. El objetivo de la regresión no lineal se puede clarificar al considerar el caso de la regresión polinomial, la cual es mejor no tratar como un caso de regresión no lineal. Cuando la función f toma la forma% F 9 X < 7 AX ! = BX = C la función f es no lineal en función de x pero lineal en función de los parmetros desconocidos a, b, -c . Este es el sentido del t+rmino ?lineal? en el conte/to de la regresión estad#stica. 0os procedimientos computacionales para la regresión polinomial son procedimientos de regresión lineal m<iple", en este caso con dos variables predictoras x - x 3. 1in embargo, en ocasiones se sugiere *ue la regresión no lineal es necesaria para ajustar polinomios. 0as consecuencias practicas de esta mala interpretación conducen a *ue un procedimiento de optimi'ación no lineal sea usado cuando en realidad >a- una solución disponible en t+rminos de regresión lineal. Pa*uetes software" estad#sticos consideran, por lo general, ms alternativas de regresión lineal *ue de regresión no lineal en sus procedimientos. Defnición de correlación lineal
En ocasiones nos puede interesar estudiar si e/iste o no alg&n tipo de relación entre dos variables aleatorias. Por ejemplo, podemos preguntarnos si >a- alguna relación entre las notas de la asignatura Estad#stica I - las de 4atemticas I. (na primera apro/imación al problema
Para ver trabajos similares o recibir información semanal sobre nuevas publicaciones, visite www.monografias.com
www.monografias.com
consistir#a en dibujar en el plano @3 un punto por cada alumno% la primera coordenada de cada punto ser#a su nota en estad#stica, mientras *ue la segunda ser#a su nota en matemticas. :s#, obtendr#amos una nube de puntos la cual podr#a indicarnos visualmente la e/istencia o no de alg&n tipo de relación lineal, parabólica, e/ponencial, etc." entre ambas notas. 2tro ejemplo, consistir#a en anali'ar la facturación de una empresa en un periodo de tiempo dado - de cómo influ-en los gastos de promoción - publicidad en dic>a facturación. 1i consideramos un periodo de tiempo de A= aBos, una posible representación ser#a situar un punto por cada aBo de forma *ue la primera coordenada de cada punto ser#a la cantidad en euros invertidos en publicidad, mientras *ue la segunda ser#a la cantidad en euros obtenidos de su facturación. De esta manera, obtendr#amos una nube de puntos *ue nos indicar#a el tipo de relación e/istente entre ambas variables. En particular, nos interesa cuantificar la intensidad de la relación lineal entre dos variables. El parmetro *ue nos da tal cuantificación es el coeficiente de correlación lineal de Pearson r, cu-o valor oscila entre A - 9A %
1iendo 1/ - 1- las desviaciones t#picas de / e -. Este coeficiente es adimensional siempre estar entre A - A. 1i >a- relación lineal positiva, r/-= - pró/imo a A. 1i >a- relación lineal negativa r/-= - pró/imo a A. 1i no >a- relación lineal r/- ser pró/imo a =. No0a: Cuando las variables / e - son independientes, 1/- 8=, - por tanto r/-8=. Es decir, si dos variables son independientes su covarian'a vale cero. No podemos asegurar lo mismo en sentido contrario. 1i dos variables tienen covarian'a cero, no podemos decir *ue son independientes. 1abemos *ue linealmente no tienen relación, pero podr#an tener otro tipo de relación - no ser independientes. E2%m*&o: : partir de los siguientes datos, vamos a calcular la Covarian'a - el coeficiente de correlación% :ltura AF< A5= AG3 A
Para ver trabajos similares o recibir información semanal sobre nuevas publicaciones, visite www.monografias.com
www.monografias.com
:>ora se puede calcular el coeficiente de correlación lineal r/- - el de determinación lineal @3 *ue nos indica *ue las variables estn relacionadas. El valor de r se apro/ima a 9A cuando la correlación tiende a ser lineal directa ma-ores valores de ! significan ma-ores valores de $", - se apro/ima a A cuando la correlación tiende a ser lineal inversa. Es importante notar *ue la e/istencia de correlación entre variables no implica causalidad. :tenciónJ% si no >a- correlación de ning&n tipo entre dos v.a., entonces tampoco >abr correlación lineal, por lo *ue r 8 =. 1in embargo, el *ue ocurra r 8 = sólo nos dice *ue no >a- correlación lineal, pero puede *ue la >a-a de otro tipo. El siguiente diagrama resume el anlisis del coeficiente de correlación entre dos variable% Correlación negativa perfectaKKKKKKKKKK.. ;A Correlación negativa fuerte moderada d+bilKKKKK ;=,< Ninguna correlaciónKKKKKKKKKKKKKK. = Correlación positiva moderada LuerteKKKKKKK. 9=,< Correlación positiva perfectaKKKKKKKKKK... 9 A Pasos en el análisis de correlación y utili'ación e interpretación de las t+cnicas de
correlación Determinar cul es la variable dependiente. $% Costo. 1eleccionar una muestra de tamaBo n de ambas variables ! e $, con lo *ue se obtienen n pares de observaciones /A , -A" , /3 , -3"K /n , -n". En nuestro ejemplo se tomo una muestra de 3= apartamentos. 1e midieron todas las variables independientes para cada uno de ellos. Estos m+todos se emplean para conocer las relaciones - significación entre series de datos Cuando, simultneamente, contemplamos dos variables continuas, aun*ue por e/tensión se pueden emplear para variables discretas cuantitativas, surgen preguntas - problemas espec#ficos. Esencialmente, se emplearn estad#sticos descriptivos - t+cnicas de estimación para contestar esas preguntas, - t+cnicas de contraste de >ipótesis espec#ficos para resolver dic>os problemas. 0a ma-or#a de estos m+todos estn encuadrados en las t+cnicas regresión - correlación. En este art#culo comentaremos las t+cnicas bivariantes lineales. 1i se parte de un modelo en el cual una de las dos variables continuas es dependiente o respuesta -" - la otra es independiente o e/plicativa /", surgen nuevos estad#sticos para describir los datos. 0a nube de puntos, o el diagrama de dispersión, resultante de la representación grfica de los datos est ?concentrada? en la recta de regresión de mejor ajuste obtenida por el m+todo de m#nimos cuadrados. (na condición previa, en las t+cnicas lineales, es *ue la nube de puntos debe tender a la linealidad en sentido rectil#neo, se entiende". 0os coeficientes de la regresión lineal, la ordenada en el origen a" - la pendiente de la recta b", son estad#sticos muestrales. 1e suelen presentar de la forma -M 8 a 9 b/. 0a dispersión de los puntos alrededor de la recta de mejor ajuste es una caracter#stica de los datos bidimensionales *ue merece cuantificarse. El estad#stico correspondiente es la desviación t#pica de los residuos. Es posible obtener la distribución
Para ver trabajos similares o recibir información semanal sobre nuevas publicaciones, visite www.monografias.com
www.monografias.com
de los residuos. Estos son las distancias en vertical de cada punto a la recta de regresión. 1u medida es cero esta propiedad es compartida por otras muc>as rectas de ajuste, adems de por la de mejor ajuste, *ue es la nuestra", - su desviación t#pica es el estad#stico de elección para describir la dispersión alrededor de la recta. 1us unidades son las de la variable dependiente -". Es posible, *ue estudiando una variable bidimensional, no se desee establecer ninguna relación de subordinación de una variable con respecto a la otra. En este supuesto, se intenta cuantificar la asociación entre las dos caracter#sticas. Entramos en las t+cnicas de correlación lineal. Es posible definir otro estad#stico muestral a partir del las dos pendientes teóricas de las dos posibles rectas de regresión -" sobre/" - de /" sobre -". Este estad#stico es el coeficiente de correlación r. 1u cuadrado r3 es el coeficiente de determinación - da una medida entre = - A de la cantidad de información compartida por dos caracter#sticas o variables continuas en los datos muestrales. 0a magnitud de la asociación entre dos variables continuas est en relación con la dispersión de la nube de puntos. 1e puede establecer una relación matemtica perfecta entre la desviación t#pica de los residuos - el coeficiente de determinación. El >ec>o de *ue dos variables est+n correlacionadas, e incluso *ue lo est+n con valores mu- cercanos a A, no implica *ue e/ista una relación de causalidad entre ellas. 1e pueden producir correlaciones espurias causales" entre dos variables, por estar ambas relacionadas con otra tercera variable continua - anterior en el tiempo. 0os nuevos estad#sticos generados en la regresión - correlación lineal se emplean como estimadores de los correspondientes parmetros poblacionales. Para *ue los coeficientes de la regresión - correlación sean estimadores adecuados centrados - de m#nima varian'a" de sus correspondientes parmetros poblacionales, es necesario *ue se asuman ciertas condiciones en la población de origen, referidas fundamentalmente a las distribuciones de los residuos 1e define la co,arian(a de la siguiente forma%
1in embargo, esta fórmula resulta complicada de aplicar. Podemos desarrollar el numerador - llegar a la siguiente fórmula, muc>o ms fcil para trabajar con ella%
:>ora -a si estamos en condiciones de definir el siguiente coeficiente. Co%fici%n0% )% corr%&acin &in%a& )% P%arson. 1e define este coeficiente como el cociente entre la covarian'a - el producto de las desviaciones t#picas de ambas variables, es decir%
Para ver trabajos similares o recibir información semanal sobre nuevas publicaciones, visite www.monografias.com
www.monografias.com
Este coeficiente tomar siempre valores comprendidos entre ;A - A. 1eg&n los valores *ue tome, podremos deducir *ue% 1i r8A, e/iste dependencia funcional, todos los puntos del diagrama de dispersión estn situados en una l#nea recta creciente. 1i =rA, la correlación es positiva - ser ms fuerte seg&n se apro/ime ms a A. 1i r8=, no e/iste correlación lineal, pero puede e/istir correlación curvil#nea. 1i ;Ar=, la correlación es negativa - ser ms fuerte seg&n se apro/ime ms a ;A. 1i r8;A, e/iste dependencia funcional, todos los puntos del diagrama de dispersión estn situados en una l#nea recta decreciente. 8'ncion%s + Corr%&acin ...correlación es el *ue se refiere a la e/istencia de correlación lineal la cual se presenta cuando los puntos del grafico de las variables objeto de anlisis se distribu-en alrededor de una recta. en ese sentido >ablamos de correlación lineal fuerte cuando la nube de puntos graficados se parece muc>o a una recta - la correlación lineal ser cada ve' ms d+bil o menos fuerte" cuando la nube de puntos va-a alejndose cada ve' ms de la recta. la cuantificación del grado de correlación lineal entre dos variables se >ace a trav+s del coeficiente de correlación el cual se es denotado con la letra r, el cual nos permite ver si la correlación lineal entre dos variables es fuerte o d+bil - positiva o negativa. el valor de r adopta valores entre ;A - A es decir ;A r A", indicando los valores cercanos a ;A - A la e/istencia de una fuerte correlación negativa positiva respectivamente, mientras *ue los valores *ue se acerca a = indican una correlación cada ve' ms d+bil - el valor de = para el coeficiente de correlación indica la no e/istencia de correlación o correlación nula entre las variables". 4ientras el coeficiente de correlación se apro/ima a los valores A - ;A la apro/imación a una correlación se considera buena. Cuando mas se aleja de A o de ;A - se acerca a cero se tiene menos confian'a en la relación lineal entre las variables por lo *ue una apro/imación lineal no ser apropiada. 1in embargo no significa *ue no e/iste relación entre las variables, lo &nico *ue podemos decir es *ue la relación no es lineal. 1in embargo, es importante tener presente *ue la e/istencia de correlación no implica causalidad en el sentido *ue la correlación indica *ue e/iste una relación entre las variables pero no nos indica *ue una variable cause a la otra. el concepto de causalidad es importante en econom#a pues es precisamente a trav+s de la causalidad *ue se puede inferir el comportamiento de una variable a partir del comportamiento de otra - nos permite la identificación de las variables de control para la reali'ación de pol#ticas económicas. por lo tanto, el objetivo del anlisis de causalidad es e/plicar el funcionamiento de un sistema a partir de las relaciones causales del mismo, considerando *ue para el establecimiento de tales relaciones se re*uiere de construcciones teóricas, es decir, detrs de toda relación causal debe >aber una teor#a Regresión y correlación lineal
0a regresión como una t+cnica estad#stica, una de ellas la regresión lineal simple la regresión multifactorial, anali'a la relación de dos o ms variables continuas, cuando anali'a las dos variables a esta se le conoce como variable bivariantes *ue pueden corresponder a variables cualitativas, la regresión nos permite el cambio en una de las variables llamadas respuesta - *ue corresponde a otra conocida como variable e/plicativa, la regresión es una t+cnica utili'ada para inferir datos a partir de otros - >allar una respuesta de lo *ue puede suceder. Para ver trabajos similares o recibir información semanal sobre nuevas publicaciones, visite www.monografias.com
www.monografias.com
1iendo as# la regresión una t+cnica estad#stica, por lo tanto para interpretar situaciones reales, pero a veces se manipula de mala manera por lo *ue es necesario reali'ar una selección adecuada de las variables *ue van a construir las formulas matemtica, *ue representen a la regresión, por eso >a- *ue tomar en cuenta variables *ue tiene relación, de lo contraria se estar#a matemati'ando un galimat#as. 1e pueden encontrar varios tipos de regresión, por ejemplo% @egresión lineal simple @egresión m<iple varias variables" A. 1imple 3. 4<iple, etc. @egresión log#stica 0a regresión lineal t+cnica *ue usa variables aleatorias, continuas se diferencia del otro m+todo anal#tica *ue es la correlación, por *ue esta <ima no distingue entre las variables respuesta - la variable e/plicativa por *ue las trata en forma sim+trica. 0a mate mati'ación nos da ecuaciones para manipular los datos, como por ejemplo medir la circunferencia de los niBos - niBas - *ue parece incrementarse entre las edades de 3 meses - A5 aBos, a*u# podemos inferir o predecir *ue las circunferencias del crneo cambiara con la edad, en este ejercicio la circunferencia de la cabe'a es la respuesta - la edad la variable e/plicativa. En la regresión tenemos ecuaciones *ue nos representan las diferentes clases de regresión% @egresión 0ineal% - 8 : 9 / @egresión 0ogar#tmica% - 8 : 9 0n/" @egresión E/ponencial% - 8 :cb/" @egresión Cuadrtica% - 8 : 9 / 9C/3
93 1D O5" 4edia <=" ;3 1D 3" Para obtener un modelo de regresión es suficiente establecer la regresión para eso se >ace uso del coeficiente de correlación% @. @ 8 Coeficiente de correlación, este m+todo mide el grado de relación e/istente entre dos variables, el valor de @ var#a de ;A a A, pero en la prctica se traba con un valor absoluto de @.
Para ver trabajos similares o recibir información semanal sobre nuevas publicaciones, visite www.monografias.com
www.monografias.com
El valor del coeficiente de relación se interpreta de modo *ue a media *ue @ se apro/ima a A, es ms grande la relación entre los datos, por lo tanto @ coeficiente de correlación" mide la apro/imación entre las variables. El coeficiente de correlación se puede clasificar de la siguiente manera% CORRELACI>N VALOR O RANGO A" Perfecta A" @ 8 A 3" E/celente 3" @ 8 =.O 8 @ A H" uena H" @ 8 =.5 8 @ =.O Q" @egular Q" @ 8 =.< 8 @ =.5 <" 4ala <" @ =.< Distri!ción di"ariante
0a distribución divriate es cuando se estudia en una población dos variables, *ue forman pares correspondientes a cada individuo, como por Ejm% 0as notas de A= alumnos en biolog#a - lenguaje I202RI: 3 0ENR(:SE 3
Q 3
< <
< <
G <
G F
F <
F 5
5 F
O A=
0os pares de valores son% 3, 3" Q,3" <,<"KK.5,F" O,A=" forman una distribución divriate. 0a correlación, m+todo por el cual se relacionan dos variables se pude graficar con un diagrama de dispersión de puntos, a la cual muc>os autores le llaman nubes de puntos, encuadrado dentro de un grfico de coordenadas ! $ en la cual se pude tra'ar una recta - cu-os puntos mas cercanos de una recta >ablaran de una correlación mas fuerte, >a esta recta se le denomina recta de regresión ; *ue puede ser positiva o negativa, la primera contundencia a aumentar - la segunda en descenso o decreciente. )ambi+n se puede describir un diagrama de dispersión en coordenadas cartesianas valores como en la distribución divriate, en donde la nube de puntos representa los pares de valores.
GRA8ICOS DE RECTA DE REGRESI>N
Para ver trabajos similares o recibir información semanal sobre nuevas publicaciones, visite www.monografias.com
www.monografias.com
Por <imo se pueden graficar las l#neas de tendencia ; >erramienta mu- &til para el mercadeo por *ue es utili'ada para evaluar la resistencia *ue pro-ectan los precios. Cuando una l#nea de tendencia central se rompe -a sea con tendencia al al'a o en la baja es por*ue ocurre un cambio en los precios, por lo tanto las l#neas de tendencia pueden ser alcista cuando se unen los puntos sucesivos - bajista cuando se unen los puntos m/imos. )ambi+n e/isten grficos *ue representan la dispersión de datos dentro de las coordenadas cartesianas, ósea las nubes de puntos - *ue pueden darse seg&n la relaciTn *ue representa, *ue puede ser lineal, e/ponencial - sin relación, esta <ima cuando los puntos estn dispersos en todo el cuadro sin agruparse lo cual sugiere *ue no >arelación.
LOS GR?8ICOS SIGUIENTES NOS MUESTRAN ESTA RELACI6N: R%&acin &4n%as:
R%&acin E5*on%ncia&:
Para ver trabajos similares o recibir información semanal sobre nuevas publicaciones, visite www.monografias.com
www.monografias.com
Sin R%&acin
4atemticamente las ecuaciones ser#an% :juste 0ineal % $ 8 / 9 : :juste 0ogarUtmico % $ 80n! 9 : :juste E/ponencial % $ 8 :C ! En el modelo de regresión lineal simple se utili'a la t+cnica de estimación de los m#nimos cuadrados, este modelo tiene solo una variable de predicción - se supone una ecuación de regresión lineal. En el siguiente ejemplo la relación entre la calificación - salario la variable repuesta es el salario inicial - la variable predictiva o de predicción es la calificación promedia, si se desea determinar una ecuación de regresión para el salario inicial promedio como una función de la calificación promedio se podr graficar - procesar los datos en una computadora, estos datos son% CP 8 Calificación Promedio 1I 8 1alario Inicial De este grupo de datos se obtiene el siguiente grfico de dispersión Regresión si#$le y correlación
0a @egresión - la correlación son dos t+cnicas estad#sticas *ue se pueden utili'ar para solucionar problemas comunes en los negocios. 4uc>os estudios se basan en la creencia de *ue es posible identificar - cuantificar alguna @elación Luncional entre dos o ms variables, donde una variable depende de la otra variable.
Para ver trabajos similares o recibir información semanal sobre nuevas publicaciones, visite www.monografias.com
www.monografias.com
1e puede decir *ue $ depende de !, en donde $ - ! son dos variables cual*uiera en un modelo de @egresión 1imple. @Y %s 'na f'ncin )% @ Y 7 f9< Como $ depende de !, $ es la variable dependiente, ! es la variable independiente. En el 4odelo de @egresión es mu- importante identificar cul es la variable dependiente - cul es la variable independiente. En el 4odelo de @egresión 1imple se establece *ue $ es una función de sólo una variable independiente, ra'ón por la cual se le denomina tambi+n @egresión Divariada por*ue sólo >a- dos variables, una dependiente - otra independiente - se representa as#% Y 7 f 9< @Y %s0/ r%gr%san)o *or @ 0a variable dependiente es la variable *ue se desea e/plicar, predecir. )ambi+n se le llama regresando ó variable de respuesta. 0a variable Independiente ! se le denomina variable e/plicativa ó regresor - se le utili'a para e/plicar -.
AN?LISIS ESTADSTICO: REGRESI6N LINEAL SIMPLE En el estudio de la relación funcional entre dos variables poblacionales, una variable !, llamada independiente, e/plicativa o de predicción - una variable $, llamada dependiente o variable respuesta, presenta la siguiente notación% Y 7 a = - = % Donde% a es el valor de la ordenada donde la l#nea de regresión se intercepta con el eje $. b es el coeficiente de regresión poblacional pendiente de la l#nea recta" e es el error SUPOSICIONES DE LA REGRESI6N LINEAL 0os valores de la variable independiente ! son fijos, medidos sin error. 0a variable $ es aleatoria Para cada valor de !, e/iste una distribución normal de valores de $ subpoblaciones $" 0as variancias de las subpoblaciones $ son todas iguales. )odas las medias de las subpoblaciones de $ estn sobre la recta. 0os valores de $ estn normalmente distribuidos - son estad#sticamente independientes. Esti#ación de la ec!ación de regresión #!estral
Consiste en determinar los valores de ?a? - ?b ? a partir de la muestra, es decir, encontrar los valores de a - b con los datos observados de la muestra. El m+todo de estimación es el de 4#nimos Cuadrados, mediante el cual se obtiene%
ue se interpreta como% a es el estimador de a Es el valor estimado de la variable $ cuando la variable ! 8 = Para ver trabajos similares o recibir información semanal sobre nuevas publicaciones, visite www.monografias.com
www.monografias.com
b es el estimador de b , es el coeficiente de regresión Est e/presado en las mismas unidades de $ por cada unidad de !. Indica el n&mero de unidades en *ue var#a $ cuando se produce un cambio, en una unidad, en ! pendiente de la recta de regresión". (n valor negativo de b ser#a interpretado como la magnitud del decremento en $ por cada unidad de aumento en !. Podemos clasificar los tipos de regresión seg&n diversos criterios. En primer lugar, en función del n&mero de variables independientes% @egresión simple% Cuando la variable $ depende &nicamente de una &nica variable !. @egresión m<iple% Cuando la variable $ depende de varias variables !A, !3, ..., !r" En segundo lugar, en función del tipo de función f!"% @egresión lineal% Cuando f!" es una función lineal. @egresión no lineal% Cuando f!" no es una función lineal. En tercer lugar, en función de la naturale'a de la relación *ue e/ista entre las dos variables% 0a variable ! puede ser la causa del valor de la variable $. Por ejemplo, en to/icolog#a, si ! 8 Dosis de la droga e $ 8 4ortalidad, la mortalidad se atribu-e a la dosis administrada - no a otras causas. Puede >aber simplemente relación entre las dos variables. Por ejemplo, en un estudio de medicina en *ue se estudian las variables ! 8 Peso e $ 8 :ltura de un grupo de individuos, puede >aber relación entre las dos, aun*ue dif#cilmente una pueda considerarse causa de la otra. En este tema se tratar &nicamente de la @egresión lineal simple. •
•
• •
•
•
E%e#$lo de regresión lineal
MODELO DE REGRESION LINEAL El modelo lineal relaciona la variable dependiente Y con K variables e/plicativas Xk (k = 1,...K), o cual*uier transformación de +stas, *ue generan un >#per plano de parmetros Wk desconocidos%
Para ver trabajos similares o recibir información semanal sobre nuevas publicaciones, visite www.monografias.com
www.monografias.com
SEPUESTOS DEL MODELO DE REGRESI6N LINEAL Para poder crear un modelo de regresión lineal, es necesario *ue se cumpla con los siguientes supuestos%< A. 0a relación entre las variables es lineal. 3. 0os errores son independientes. H. 0os errores tienen varian'a constante. Q. 0os errores tienen una esperan'a matemtica igual a cero. <. El error total es la suma de todos los errores. TIPOS MODELO DE REGRESI6N LINEAL E/isten diferentes tipos de regresión lineal *ue se clasifican de acuerdo a sus parmetros% #< R%gr%sin &in%a& sim*&% 1ólo se maneja una variable independiente, por lo *ue sólo cuenta con dos parmetros. 1on de la forma%G
!< An/&isis Dado el modelo de regresión simple, si se calcula la esperan'a valor esperado" del valor Y , se obtiene
Para ver trabajos similares o recibir información semanal sobre nuevas publicaciones, visite www.monografias.com
www.monografias.com
2bteniendo dos ecuaciones denominadas ecuaciones normales *ue generan la siguiente solución para ambos parmetros%G
0a interpretación del parmetro beta 3 es *ue un incremento en !i de una unidad, $i incrementar en beta 3 B< R%gr%sin &in%a& m&0i*&% 4aneja varias variables independientes. Cuenta con varios parmetros. 1e e/presan de la forma%5
Rectas de Regresion
0as rectas de regresión son las rectas *ue mejor se ajustan a la nube de puntos o tambi+n llamado diagrama de dispersión" generada por una distribución binomial. 4atemticamente, son posibles dos rectas de m/imo ajuste% O 0a recta de regresión de Y sobre X %
Para ver trabajos similares o recibir información semanal sobre nuevas publicaciones, visite www.monografias.com
www.monografias.com
0a recta de regresión de X sobre Y %
0a correlación "r" " de las rectas determinar la calidad del ajuste. 1i r es cercano o igual a A, el ajuste ser bueno6 si r es cercano o igual a =, se tratar de un ajuste malo. :mbas rectas de regresión se intersecan en un punto llamado centro de gravedad de la distribución.
A*&icacion%s )% &a r%gr%sin &in%a& L4n%as )% 0%n)%ncia T%n)%ncia (na l#nea de tendencia representa una tendencia en una serie de datos obtenidos a trav+s de un largo per#odo. Este tipo de l#neas puede decirnos si un conjunto de datos en particular como por ejemplo, el PI, el precio del petróleo o el valor de las acciones" >an aumentado o decrementado en un determinado per#odo. A= 1e puede dibujar una l#nea de tendencia a simple vista fcilmente a partir de un grupo de puntos, pero su posición - pendiente se calcula de manera ms precisa utili'ando t+cnicas estad#sticas como las regresiones lineales. 0as l#neas de tendencia son generalmente l#neas rectas, aun*ue algunas variaciones utili'an polinomios de ma-or grado dependiendo de la curvatura deseada en la l#nea. M%)icina En medicina, las primeras evidencias relacionando la mortalidad con el fumar tabaco AA vinieron de estudios *ue utili'aban la regresión lineal. 0os investigadores inclu-en una gran cantidad de variables en su anlisis de regresión en un esfuer'o por eliminar factores *ue pudieran producir correlaciones espurias. En el caso del taba*uismo, los investigadores inclu-eron el estado socio;económico para asegurarse *ue los efectos de mortalidad por taba*uismo no sean un efecto de su educación o posición económica. No obstante, es imposible incluir todas las variables posibles en un estudio de regresión.A3 AH En el ejemplo del taba*uismo, un >ipot+tico gen podr#a aumentar la mortalidad - aumentar la propensión a ad*uirir enfermedades relacionadas con el consumo de tabaco. Por esta ra'ón, en la actualidad las pruebas controladas aleatorias son consideradas muc>o ms confiables *ue los anlisis de regresión. TIPOS DE CORRELACI6N Cada conjunto de correlaciones se basa en un tipo de correlación ; *ue no es ms *ue una lista de propiedades. Xstas pueden ser propiedades de datos, *ue se encuentran en el propio mensaje, o propiedades de conte/to, *ue describen detalles del sistema o de mensajes no relacionados con los datos transmitidos en el mensaje. Puede usar un tipo de correlación en ms de un conjunto de correlaciones. 1i necesita establecer correlaciones entre distintos valores para las propiedades de un tipo de correlación, deber crear un conjunto de correlaciones nuevo% cada uno de ellos se puede iniciali'ar una sola ve'. Puede promocionar las propiedades de un es*uema de propiedades para declarar *ue algunas de las propiedades de un mensaje estn accesibles para la or*uestación. Para obtener ms información, vea Promocionar propiedades. TIPOS DE CORRELACI6N # Corr%&acin )ir%c0a
Para ver trabajos similares o recibir información semanal sobre nuevas publicaciones, visite www.monografias.com
www.monografias.com
0a correlación directa se da cuando al aumentar una de las variables la otra aumenta. 0a recta correspondiente a la nube de puntos de la distribución es una recta creciente.
! Corr%&acin in,%rsa 0a correlación inversa se da cuando al aumentar una de las variables la otra disminu-e. 0a recta correspondiente a la nube de puntos de la distribución es una recta decreciente.
B Corr%&acin n'&a 0a correlación nula se da cuando no >a- dependencia de ning&n tipo entre las variables. En este caso se dice *ue las variables son incorreladas - la nube de puntos tiene una forma redondeada.
Para ver trabajos similares o recibir información semanal sobre nuevas publicaciones, visite www.monografias.com
www.monografias.com
GRADO DE CORRELACI6N El grado de correlación indica la pro/imidad *ue >a- entre los puntos de la nube de puntos. 1e pueden dar tres tipos% #. Corr%&acin f'%r0% 0a correlación ser fuerte cuanto ms cerca est+n los puntos de la recta.
!. Corr%&acin )1-i& 0a correlación ser d+bil cuanto ms separados est+n los puntos de la recta.
B. Corr%&acin n'&a El coeficiente de correlación lineal es el cociente entre la covarian'a - el producto de las desviaciones t#picas de ambas variables. El coeficiente de correlación lineal se e/presa mediante la letra r.
Pro*i%)a)%s )%& co%fici%n0% )% corr%&acin A. El coeficiente de correlación no var#a al >acerlo la escala de medición. Es decir, si e/presamos la altura en metros o en cent#metros el coeficiente de correlación no var#a. 3. El signo del coeficiente de correlación es el mismo *ue el de la covarian'a. 1i la covarian'a es positiva, la correlación es directa. 1i la covarian'a es negativa, la correlación es inversa. Para ver trabajos similares o recibir información semanal sobre nuevas publicaciones, visite www.monografias.com
www.monografias.com
1i la covarian'a es nula, no e/iste correlación. H. El coeficiente de correlación lineal es un n&mero real comprendido entre YA A. YA Z r Z A Q. 1i el coeficiente de correlación lineal toma valores cercanos a YA la correlación es fuerte e inversa, - ser tanto ms fuerte cuanto ms se apro/ime r a YA. <. 1i el coeficiente de correlación lineal toma valores cercanos a A la correlación es fuerte - directa, - ser tanto ms fuerte cuanto ms se apro/ime r a A. G. 1i el coeficiente de correlación lineal toma valores cercanos a =, la correlación es d+bil. F. 1i r 8 A ó YA, los puntos de la nube estn sobre la recta creciente o decreciente. Entre ambas variables >a- dependencia funcional. E2%m*&os: 0as notas de A3 alumnos de una clase en 4atemticas - L#sica son las siguientes% 4atemticas L#sica
3 A
H H
Q 3
Q Q
< Q
G Q
G G
F Q
F G
5 F
A= O
A= A=
[allar el coeficiente de correlación de la distribución e interpretarlo. /i
-i
/i \-i
/i3
-i3
3
A
3
Q
A
H
H
O
O
O
Q
3
5
AG
Q
Q
Q
AG
AG
AG
<
Q
3=
3<
AG
G
Q
3Q
HG
AG
G
G
HG
HG
HG
F
Q
35
QO
AG
F
G
Q3
QO
HG
5
F
GQ
QO
A=
O
O=
A==
5A
A= A=
A==
A== A==
F3 G=
QHA
<=Q H5=
Para ver trabajos similares o recibir información semanal sobre nuevas publicaciones, visite www.monografias.com
www.monografias.com
A] [allamos las medias aritm+ticas.
3] Calculamos la covarian'a.
H] Calculamos las desviaciones t#picas.
Q] :plicamos la fórmula del coeficiente de correlación lineal.
:l ser el coeficiente de correlación positivo, la correlación es directa. Como coeficiente de correlación est mu- pró/imo a A la correlación es mufuerte. 0os valores de dos variables ! e $ se distribu-en seg&n la tabla siguiente% $^! A 3 H
= 3 A 3
3 A Q <
Q H 3 =
Determinar el coeficiente de correlación. Convertimos la tabla de doble entrada en tabla simple. /i -i
fi
/i \ fi
/i3 \ fi
-i \ fi
-i3 \ fi
/i \ -i \ fi
=
A
3
=
=
3
3
=
=
3
A
=
=
3
Q
=
=
H
3
=
=
G
A5
=
3
A
A
3
Q
A
A
3
3
3
Q
5
AG
5
AG
AG
3
H
<
A=
3=
A<
Q<
H=
Q
A
H
A3
Q5
H
H
A3
Para ver trabajos similares o recibir información semanal sobre nuevas publicaciones, visite www.monografias.com
www.monografias.com
Q
3
3
5
H3
Q
5
AG
3=
Q=
A3=
QA
OF
FG
:l ser el coeficiente de correlación negativo, la correlación es inversa. Como coeficiente de correlación est mu- pró/imo a = la correlación es mud+bil. 0a recta de regresión es la *ue mejor se ajusta a la nube de puntos. 0a recta de regresión pasa por el punto ! - $" llamado centro de gravedad. R%c0a )% r%gr%sin )% Y so-r% 0a recta de regresión de $ sobre ! se utili'a para estimar los valores de la $ a partir de los de la !. 0a pendiente de la recta es el cociente entre la covarian'a - la varian'a de la variable !.
R%c0a )% r%gr%sin )% so-r% Y 0a recta de regresión de ! sobre $ se utili'a para estimar los valores de la ! a partir de los de la $. 0a pendiente de la recta es el cociente entre la covarian'a - la varian'a de la variable $.
1i la correlación es nula, r 8 =, las rectas de regresión son perpendiculares entre s#, - sus eucaciones son% -8 /8
Para ver trabajos similares o recibir información semanal sobre nuevas publicaciones, visite www.monografias.com
www.monografias.com
E2%m*&o:0as notas de A3 alumnos de una clase en 4atemticas - L#sica son las siguientes% 4atemticas L#sica
3 A
H H
Q 3
Q Q
< Q
G Q
G G
F Q
F G
5 F
A= O
A= A=
[allar las rectas de regresión - representarlas. /i
-i
/i \-i
/i3
-i3
3
A
3
Q
A
H
H
O
O
O
Q
3
5
AG
Q
Q
Q
AG
AG
AG
<
Q
3=
3<
AG
G
Q
3Q
HG
AG
G
G
HG
HG
HG
F
Q
35
QO
AG
F
G
Q3
QO
HG
5
F
GQ
QO
A=
O
O=
A==
5A
A= A=
A==
A== A==
F3 G=
QHA
<=Q H5=
A] [allamos las medias arim+ticas.
3] Calculamos la covarian'a.
H] Calculamos las varian'as.
Para ver trabajos similares o recibir información semanal sobre nuevas publicaciones, visite www.monografias.com
www.monografias.com
Q]@ecta de regresión de $ sobre !.
Q]@ecta de regresión de ! sobre $.
E%ercicios regresión y correlación lineal res!eltos
(na compaB#a de seguros considera *ue el n&mero de ve>#culos -" *ue circulan por una determinada autopista a ms de A3= _m^> , puede ponerse en función del n&mero de accidentes /" *ue ocurren en ella. Durante < d#as obtuvo los siguientes resultados%
Acci)%n0%s 5i Nm%ro )% ,%4c'&os +i
< A<
F A5
3 A=
A 5
O 3=
Calcula el coeficiente de correlación lineal. ` 1i a-er se produjeron G accidentes, cuntos ve>#culos podemos suponer *ue circulaban por la autopista a ms de A3= _m ^ > ` Es buena la predicción Construimos una tabla, teniendo en cuenta *ue la fr ecuencia absoluta es uno. Debemos conocer la media aritm+tica de las dos variables, las varian'as, las desviaciones t#picas la covarian'a.
M%)ia ari0m10ica fi 5i +i F #F A #H A A ! #"
Varian(a 5i! +i! 3< 33< QO H3Q Q A==
Co,arian(a 5i . +i F< A3G 3=
Para ver trabajos similares o recibir información semanal sobre nuevas publicaciones, visite www.monografias.com
www.monografias.com
A A
#
H !"
A 5A
GQ Q==
5 A5=
<
3Q
FA
AG=
AAAH
Q=O
EJERCICIOS REGRESION Y CORRELACION LINEAL RESUELTOS Correlación - regresión A. El n&mero de espaBoles en millones" ocupados en la agricultura, para los aBos *ue se indican, era% :Bo AO5= AO53 AO5Q AO5G AO55 AOO= AOO3 AOOQ 2cupados 3,A 3,=Q A,OG A,FQ A,GO A,QO A,3< A,AG a" Podr#a e/plicarse su evolución mediante una recta de regresión Para ver trabajos similares o recibir información semanal sobre nuevas publicaciones, visite www.monografias.com
www.monografias.com
b" u+ limitaciones tendr#an las estimaciones >ec>as por esa recta sol a" 1i6 b" No vale para >acer estimaciones alejadas de los aBos considerados. 3. :socia las rectas de regresión - 8 / 9AG, - 8 3/ A3, - 8 =, 9 < a las nubes de puntos siguientes%
H. :signa los coeficientes de correlación lineal r 8 =,Q, r 8 =,5< - r 8 =,F, a las nubes del problema anterior. sol a" @espectivamente% c", b", a". b" @espectivamente% a", b", c" )ipo II. Clculo de la correlación - regresión Q. 1 a" Calcula la recta de regresión de $ sobre ! en la distribución siguiente reali'ando todos los clculos intermedios. ! $
A= F 3 Q
< G
H = 5 A=
Cul es el valor *ue corresponder#a seg&n dic>a recta a ! 8 F sol a" - 8 =,53FG/ 9A=,AH56 b" Q,HQQ5.
b)
<. 1 El n&mero de bacterias por unidad de volumen, presentes en un cultivo despu+s de un cierto n&mero de >oras, viene e/presado en la siguiente tabla% !% N] de >oras = A 3 H Q 5 $% N] de bacterias A3 AO 3H HQ oras - n&mero de bacterias. b" 0a covarian'a de la variable bidimensional. c" El coeficiente de correlación e interpretación. d" 0a recta de regresión de $ sobre !. sol a" x 8 3,<6 s/ 8 A,F=F536 y 8 HQ,HHHH6 s- 8 A5,GOGQ6 b" HA6 c" =,OF=5G. d" - 8 A=,G35 9 F,FGAO G. 0a tabla siguiente muestra las notas obtenidas por 5 alumnos en un e/amen, las >oras de estudio dedicadas a su preparación - las >oras *ue vieron la televisión los d#as previos al e/amen. Nota [oras de estudio [oras de )V
< G F F A= O F
G
H Q
< 5 Q O 5 A= < AQ
3 AA O
H
O
<
Para ver trabajos similares o recibir información semanal sobre nuevas publicaciones, visite www.monografias.com
www.monografias.com
a" @epresenta grficamente los diagramas correspondientes a nota;estudio - nota;)V. b" 1e observa correlación entre las variables estudiadas De *u+ tipo En *u+ caso estimas *ue es ms fuerte sol b" 1#. Directa6 inversa. F. Con los datos del problema anterior, >alla el coeficiente de correlación de nota;estudio - nota;)V. u+ puede deducirse con ms precisión conociendo la nota *ue obtuvo una persona en el e/amen% el tiempo *ue dedicó al estudio o el *ue dedicó a ver la televisión sol =,OQHH53 - =,5QG35H. El tiempo *ue dedicó al estudio. −
5. Con los mismos datos, >alla las rectas de regresión correspondientes - estima para un alumno *ue sacó un 3 en el e/amen% a" 0as >oras *ue estudió. b" 0as >oras *ue vio la )V. sol a" Est 8 =,3QGF. b" )V 8 AQ,A3OO A,3O5F \ Nota6 AA,< >. −
−
)ipo III. Estimación a partir del a recta de regresión O. 0a altura, en cm, de 5 padres - del ma-or de sus >ijos varones, son% Padre [ijo
AF= AFH AF5 AGF AFA AGO A5Q AF< AF3 AFF AF< AF= AF5 AGO A5= A5F
a" Calcula la recta de regresión *ue permita estimar la altura de los >ijos dependiendo de la del padre6 - la del padre conociendo la del >ijo. b" u+ altura cabr#a esperar para un >ijo si su padre mide AFQ $ para un padre, si su >ijo mide AO= cm sol a" [ 8 G5,A5an pesado a 4arta cada mes. En la tabla siguiente se dan sus pesos% x A y H,3
3 H Q < G F 5 O A= AA A3 H,F Q,3 <,H <,F G,< G,5 F,3 F,O F,F 5 5,<
En esta tabla, x representa la edad en meses e y el peso en _ilogramos. a) Calcula la media - la desviación t#pica de los pesos. b) Determina la ecuación de la recta de regresión de y sobre x , e/plicando detalladamente los clculos *ue >aces - las fórmulas *ue utili'as. sol a" G,33<6 A,FA5A b" - 8 =,Q5F=G/ 9 H,=
Para ver trabajos similares o recibir información semanal sobre nuevas publicaciones, visite www.monografias.com
www.monografias.com
sol HO3,F m.
CONCLUSION @egresión - correlación lineal son dos >erramientas para investigar la dependencia de una variable dependiente - en función de una variable independiente /. - 8 f/" - 8 variable dependiente *ue se desea e/plicar o predecir, tambi+n se llama regresor o respuesta / 8 variable independiente, tambi+n se llama variable e/plicativa, regresor o predictor @egresión lineal ; la relación entre / - - se representa por medio de una l#nea recta @egresión curvilinea ; la relación entre / - - se representa por medio de una curva. &oncl!sión
0as t+cnicas de regresión - correlación cuantifican la asociación estad#stica entre dos o ms variables. 0a regresión lineal simple e/presa la relación entre una variable dependiente $ - una variable independiente !, en t+rminos de la pendiente - la intersección de la l#nea *ue mejor se ajuste a las variables. 0a correlación simple e/presa el grado o la cercan#a de la relación entre las dos variables en t+rminos de un coeficiente de correlación *ue proporciona una medida indirecta de la variabilidad de los puntos alrededor de la mejor l#nea de ajuste; Ni la regresión ni la correlación dan pruebas de relaciones causa efecto.
3i-&iograf4a o Lis0a )% r%f%r%ncias 00*:KK%s.wii*%)ia.orgKwiiKR%gr%sinno&in%a& 00*:KK%s.wii*%)ia.orgKwiiKR%gr%sin&in%a& 00*:KKwww.,i0'0or.comK%s0a)is0icaK-iKcorr%&acion.0m& 00*:KKwww.,i0'0or.comK-iKcorr%&acion.0m& 00*:KK)%scar0%s.cnic%.m%c.%sKma0%ria&%s)i)ac0icosKCorr%&acionr%gr%sionr%c0ar% gr%sionKcorr%&acion+r%gr%sion.0m
Para ver trabajos similares o recibir información semanal sobre nuevas publicaciones, visite www.monografias.com