ANÁLISIS DE REGRESIÓN Y CORRELACIÓN 5.1. REGRESIÓN LINEAL SIMPLE, CURVILÍNEA Y MÚLTIPLE. REGRESIÓN LINEAL SIMPLE En estadística la regresión lineal o ajuste lineal es un método matemático que modeliza la relación entre una variable dependiente ̂ , las variables independientes X, y un término aleatorio ε. Este modelo puede ser expresado como: ̂
Donde ̂ es variable dependiente, explicada o regresando. : Es el valor de Y cuando X es igual a 0 : es el coeficiente de regresión que indica la pendiente de la recta de regresión
̅ ∑ ̅ ∑ ̅
̅ ̅
Ejemplo de una regresión lineal con una variable dependiente y una variable independiente
Método de los mínimos cuadrados, el cual fue publicado por Legendre en 1805, y en dónde se incluía una versión del teorema de Gauss-Márkov. Regresión lineal simple. Tiene como objeto estudiar cómo los cambios en una variable, no aleatoria, afectan a una variable aleatoria, en el caso de existir una relación funcional entre ambas variables que puede ser establecida por una expresión lineal, es decir, su representación gráfica es una línea recta. Cuando la relación lineal concierne al valor medio o esperado de la variable aleatoria, estamos ante un modelo de regresión lineal simple. La respuesta aleatoria al valor x de la variable controlada se designa por Y x y, según lo establecido, se tendrá
De manera equivalente, otra formulación del modelo de regresión lineal simple sería: si xi es un valor de la variable predictor a e Y i la variable respuesta que le corresponde, entonces
Ei es el error o desviación aleatoria de Yi
REGRESION LINEAL SIMPLE. ESTIMACION Estimación de los parámetros de la recta de regresión. El primer problema a abordar es obtener los estimadores de los parámetros de la recta de regresión, partiendo de una muestra de tamaño n, es decir, n pares (x1, Y 1) , (x2, Y2), ..., (x n, Yn); que representan nuestra intención de extraer para cada x i un individuo de la población o variable Y i . Una vez realizada la muestra, se dispondrá de n pares de valores o puntos del plano (x1, y1) , (x2, y 2), ..., (xn, y n). El método de estimación aplicable en regresión, denominado de los mínimos cuadrados, permite esencialmente determinar la recta que "mejor" se ajuste o mejor se adapte a la nube de n puntos. Las estimaciones de los parámetros de la recta de regresión obtenidas con este procedimiento son:
Por tanto la recta de regresión estimada será:
Por ejemplo: La recta de regresión representada corresponde a la estimación obtenida a partir de 20 pares de observaciones: x representa la temperatura fijada en un recinto cerrado e Y el ritmo cardíaco de un vertebrado.
REGRESION CURVILINEA Cuando las variables X e Y se relacionan según una línea curva, se habla de regresión no lineal o curvilínea. Es una función de segundo grado la que se ajusta lo suficiente a la situación real dada. La expresión general de un polinomio de segundo grado es: Y =a+bX+cX2 donde a , b y c son los parámetros.
El problema consiste, por tanto, en determinar dichos parámetros para una distribución dada. Se seguirá para ello, un razonamiento y la utilización de las ecuaciones normales de Gauss. Las ecuaciones normales son: ∑ Y = na + b ∑ X + C ∑ X2 (1) ∑ X Y = a ∑ X + b ∑ X2 + C ∑ X3 (2) ∑ X2 Y = a ∑ X2 + b ∑ X3 + C ∑ X4 (3)
Para lo cual se necesita elaborar el cuadro con cada una de las variables que aparecen en las ecuaciones normales y los resultados obtenidos en este sustituirlos en ellas para encontrar los valores de las constantes. Para encontrar los valores de las constantes utilizaremos matrices. Una matriz es un conjunto de elementos de cualquier naturaleza aunque, en general, suelen ser números ordenados en filas y columnas. Se llama matriz de orden "m × n" a un conjunto rectangular de elementos aij dispuestos en m filas y en n columnas. El orden de una matriz también se denomina dimensión o tamaño, siendo m y n números naturales. Las matrices se denotan con letras mayúsculas: A, B, C, ... y los elementos de las mismas con letras minúsculas y subíndices que indican el lugar ocupado: a, b, c, ... Un elemento genérico que ocupe la fila i y la columna j se escribe aij . Si el elemento genérico aparece entre paréntesis también representa a toda la matriz : A = (aij) Al encontrar los valores de las constantes que buscamos sustituimos los valores en la ecuación de regresión curvilínea para obtener los resultados que buscamos. Y poder estimar. Hacer las estimaciones correspondientes. Algunas de las regresiones curvilíneas son las siguientes
PARÁBOLA DE REGRESIÓN
En muchos casos, es una función de segundo grado la que se ajusta lo suficiente a la situación real dada. La expresión general de un polinomio de segundo grado es: Y=a+bX+cX2
Donde a , b y c son los parámetros. El problema consiste, por tanto, en determinar dichos parámetros para una distribución dada. Se seguirá para ello, un razonamiento similar al que se hace en el caso del modelo de regresión lineal simple, utilizando el procedimiento de ajuste de los mínimos cuadrados, es decir, haciendo que la suma de los cuadrados de las desviaciones con respecto a la curva de regresión sea mínima:
Donde y i son los valores observados de la variable dependiente, y y *i
valores estimados según el modelo;
Por tanto, D se puede escribir de la forma:
Para encontrar los valores de a , b y c que hacen mínima la expresión anterior, se igualarán las derivadas parciales de D con respecto a dichos parámetros a cero y se resolverá el sistema resultante. Las ecuaciones que forman dicho sistema se conocen, igual que en el caso de la regresión lineal simple, como ecuaciones normales de Gauss.
REGRESIÓN HIPERBÓLICA Cuando la dependencia entre las variables X e Y es de forma hiperbólica, interesa ajustar a la nube de puntos una función del tipo:
La función a minimizar será:
Donde
Por lo tanto,
Para minimizar la expresión, se calculan las derivadas parciales respecto a los parámetros a y b, igualando a cero:
En consecuencia, las ecuaciones normales serán:
FUNCIÓN EXPONENCIAL, POTENCIAL, Y LOGARÍTMICA El problema de ajustar un modelo potencial, de la forma Y = A X b y uno exponencial Y = A B X se reduce al de la función lineal, con solo tomar logaritmos.
REGRESIÓN LINEAL MÚLTIPLE.
La regresión lineal múltiple estima los coeficientes de la ecuación lineal, con una o más variables independientes, que mejor prediga el valor de la variable dependiente. Por ejemplo, se puede intentar predecir el total de facturación lograda por servicios prestados en una IPS cada mes (la variable dependiente) a partir de variables independientes tales como: Tipo de servicio, edad, frecuencia del servicio, tipo de usuario y los años de antigüedad en el sistema del usuario.
En la regresión lineal múltiple se utilizan más de una variable explicativa; esto nos ofrece la ventaja de utilizar más información en la construcción del modelo y, consecuentemente, realizar estimaciones más precisas.
Al tener más de una variable explicativa (no se debe de emplear el término independiente) surgirán algunas diferencias con el modelo de regresión lineal simple. El Modelo de regresión lineal múltiple El modelo de regresión lineal múltiple es idéntico al modelo de regresión lineal simple, con la única diferencia de que aparecen más variables explicativas: Modelo de regresión simple:
Modelo de regresión múltiple:
5.2. CORRELACIÓN.
La correlación es la forma numérica en la que la estadística ha podido evaluar la relación de dos o más variables, es decir, mide la dependencia de una variable con respecto de otra variable independiente. En probabilidad y estadística, la correlación indica la fuerza y la dirección de una relación lineal y proporcionalidad entre dos variables estadísticas. La correlación trata de establecer la relación o dependencia que existe entre las dos variables que intervienen en una distribución bidimensional. Es decir, determinar si los cambios en una de las variables influyen en los cambios de la otra. En caso de que suceda, diremos que las variables están correlacionadas o que hay correlación entre ellas.
Tipos de correlación 1º Correlación directa La correlación directa se da cuando al aumentar una de las variables la otra aumenta. La recta correspondiente a la nube de puntos de la distribución es una recta creciente.
2º Correlación inversa La correlación inversa se da cuando al aumentar una de las variables la otra disminuye. La recta correspondiente a la nube de puntos de la distribución es una recta decreciente.
3º Correlación nula La correlación nula se da cuando no hay dependencia de ningún tipo entre las variables. En este caso se dice que las variables son incorreladas y la nube de puntos tiene una forma redondeada.
Grado de correlación El grado de correlación indica la proximidad que hay entre los puntos de la nube de puntos. Se pueden dar tres tipos: 1. Correlación fuerte La correlación será fuerte cuanto más cerca estén los puntos de la recta.
2. Correlación débil La correlación será débil cuanto más separados estén los puntos de la recta.
3. Correlación nula
5.3. REGRESIÓN Y CORRELACIÓN PARA DATOS AGRUPADOS. REGRESIÓN PARA DATOS AGRUPADOS. REGRESIÓN MÍNIMO-CUADRÁTICA Consiste en explicar una de las variables en función de la otra a través de un determinado tipo de función (lineal, parabólica, exponencial, etc.), de forma que la función de regresión se obtiene ajustando las observaciones a la función elegida, mediante el método de Mínimos-Cuadrados (M.C.O.). Elegido el tipo de función ¦ ( ) la función de regresión concreta se obtendrá minimizando la expresión:
2 (y j - ¦ (x i ) ) . nij en el caso de la regresión de Y/X
2
(x i - ¦ (y j ) ) . nij en el caso de la regresión de X/Y
Puede probarse que es equivalente ajustar por mínimos cuadrados la totalidad de las observaciones (toda la nube de puntos) que realizar el ajuste de los puntos obtenidos por la regresión de la media; de forma que la regresión mínimocuadrática viene ser, en cierto modo, la consecución de una expresión analítica operativa para la regresión en sentido estricto.
CORRELACIÓN PARA DATOS AGRUPADOS Primero tendremos que pensar que se genera una matriz, ya que, ahora estamos juntando dos tablas de distribución de frecuencias y por ello nuestros cálculos serán más laboriosos, por lo que les recomiendo el uso de una hoja de calculo o al menos una calculadora con regresión para datos agrupados. De cualquier forma aquí también estamos evaluando numéricamente si existe relación entre dos variables y lo haremos con la siguiente ecuación.
En donde podemos encontrar k como el número de clases para la variable "y" y l para el número de clases de "x". También podemos observar que hay varios tipos de "f" es decir, la que se encuentra sola (sin subíndice) que nos habla de las frecuencias celdares (cada una de las frecuencias que se encuentran en la intersección entre una columna y un renglón) y las "f" con subíndices que representan las frecuencias de cada una de las variables. Para entender el uso de esta formula usaremos un ejemplo: Los resultados que se presentan en la siguiente tabla representan los pesos y las estaturas de 48 alumnos entrevistados el "día Anáhuac"
Marcas de clase de "x" 1.44 1.545 1.645 1.745 1.845 1.945 5 44.5
3
1
marcas 54.5
5
9
5
de clase 64.5
1
2
4
1
74.5
5
84.5 94.5
de "Y"
^2
f x y
178
7921
19
1035.5
56434.75
1
9
580.5
37442.25
1
1
7
521.5
38851.75
2
2
1
5
422.5
35701.25
1
3
4
378
35721
17
7
48
3116
212072
0
9
f x x
0
13.90 19.74 29.66 12.91 5.835 5 5 5
0
21.48 32.47 51.76 23.82 11.349 140.89 3225 23 5425 8175 075 82
^2
f x y
4
f x
f x x
12
f y
3
82.06
fxy
5380.77
Correlación= 0.695
La sustitución de la fórmula es la siguiente:
Al interpretar nuestro resultado podemos concluir que si existe relación entre el peso y la estatura, es decir, que a mayor estatura mayor peso.
En muchas ocasiones el resultado de la correlación es negativo y lo que debemos pensar es que la relación de las variables involucradas en el calculo es inverso es decir que en la medida que crece la variable independiente la variable dependiente decrece:
5.4. CORRELACIÓN POR RANGOS. La correlación de Spearman, o por rango, se basa en reemplazar los valores originales de ambas variables, por números enteros positivos, comenzando por 1 en adelante, que correspondan a su ordenamiento de mayor de menor a mayor magnitud. Para ello, lo valores reales de cada una de las variables son ordenados de menor a mayor, por separado y reemplazados por rango.
Para calcular el coeficiente de correlación de spearman o por rangos usamos la ∑
siguiente expresión: Donde = coeficiente de correlación de Spearman ( =rho) = Cuadrado de la diferencia entre los rangos de X e Y
n =numero de parejas
La correlación de Spearman es un excelente método para cuantificar la relación entre dos escalas de valores discretos y/o con jerarquía (ordinales). También es una excelente opción cuando los dos datos no tienen distribución Normal bivariante, especialmente si hay valores extremos. El método de Spearman permite calcular correlación, pero solo entre dos variables, este método tampoco permite hacer regresión, es decir, no se puede modelar la variable respuesta Y, con varios predictores en forma simultanea o ver la influencia de un pre editor sobre otro. En este sentido, el método es mucho menos poderoso, que la regresión lineal o logística.
5.5. COEFICIENTE DE CORRELACIÓN PARA DATOS NOMINALES. Coeficiente de contingencia. Este se aplica para variables nominales. Cuando los valores de dos variables no pueden ser ordenados, sino que tienen que ser clasificados, para determinar la relación entre esas dos variables empleamos el coeficiente de contingencia.
El coeficiente de contingencia posee una serie de características, estas son: 5.No existe relación entre las variables, por tanto diremos que estas tendrán una proporción similar. 6. Se utiliza para evitar el efecto del tamaño de la muestra. 7.En una tabla de dos filas por columna es recomendable realizar la corrección de Yates. También este tipo de correlación posee una serie de propiedades que tenemos que tener en cuenta: El coeficiente de contingencia C está comprendido entre 0 y 1. El coeficiente C presenta el valor cero cuando la relación entre las variables es nula, pero nunca alcanza el valor 1. El máximo dependerá del número de filas y columnas. qEl coeficiente C indica la intensidad de relación entre las variables que se están midiendo. qEl valor de C depende del número de filas y columnas de la tabla de contingencia construido para su calculo. qEl coeficiente C no es comparable a otros coeficientes de correlación, valores similares indicaría diferentes grados de correlación.
Ejemplo Queremos determinar si existe relación entre el sexo y la especialidad cursada para los alumnos que estudian Magisterio, a partir de los datos corre spondientes a 349 alumnos de una escuela de Magisterio. Distribución conjunta de frecuencias para sexo y especialidad.
En primer lugar calcularemos el valor de X . Partiendo del supuesto de que no hay relación entre las dos variables, es preciso calcular las frecuencias esperadas en cada celdilla de la tabla. Por ejemplo, la proporción de alu mnos que estudian ciencias tiene que ser similar a las alumnas que estudian ciencias. Hombres 70/178=0,39, y alumnas 40/171=0,23.Por esto
decimos que cuando con la siguiente fórmula.
las variables son independientes se pueden calcular
fe = Frecuencias esperadas ff = Frecuencia marginal de la fila fc = Frecuencia marginal de la columna