CORRELACION DE PEARSON:
El coeficiente de correlación de Pearson es un índice estadístico que mide la relación lineal entre dos variables cuantitativas. A diferencia de la covarianza covarianza,, la correlación de Pearson es independiente de la escala de medida de las variables. El cálculo del coeficiente sagas g de correlación lineal se realiza dividiendo la covariancia por el producto de las desviaciones estándar de ambas variables:
La formula suele aparecer expresada como: -La primera expresión se resuelve utilizando la covarianza y las desviaciones típicas de las dos variables (en su forma insesgada). -La segunda forma se utiliza cuando partimos de las puntuaciones típicas empíricas. Este estadístico, refleja el grado de relación lineal que existe entre dos variables. El resultado numérico fluctúa entre los rangos de +1 a -1.
ras realizar el cálculo del coeficiente de correlación de Pearson (r) debemos determinar si dicho coeficiente es estadísticamente diferente de cero. Para dicho calculo se aplica un Tes. basado en la distribución de la t de student.
T
Si el valor del r calculado (en el ejemplo previo r = 0.885) supera al valor del error estándar multiplicado por la t de Student con n-2 grados de libertad, diremos que el coeficiente de correlación es significativo. El nivel de significación viene dado por la decisión que adoptemos al buscar el valor en la tabla de la t de Student. En el ejemplo previo con 20 niños, los grados de libertad son 18 y el valor de la tabla de la t de student para una seguridad del 95% es de 2.10 y para un 99% de seguridad el valor es 2.88. (Tabla 2)
Como quiera que r = 0.885 > a 2.10 * 0.109 = 2.30 podemos asegurar que el coeficiente de correlación es significativo (p<0.05). Si aplicamos el valor obtenido en la tabla de la t de Student para una seguridad del 99% (t = 2.88) observamos que como r = 0.885 sigue siendo > 2.88 * 0.109 = 0.313 podemos a su vez asegurar que el coeficiente es significativo (p<0.001). Este proceso de razonamiento es válido tanto para muestras pequeñas como para muestras grandes. En esta última situación podemos comprobar en
la tabla de la t de student que para una seguridad del 95% el valor es 1.96 y para una seguridad del 99% el valor es 2.58.
Intervalo de confianza del coeficiente de correlación. La distribución del coeficiente de correlación de Pearson no es normal pero no se puede transformar r para conseguir un valor z que sigue una distribución normal (transformación de Fisher) y calcular a partir del valor z el intervalo de confianza. La transformación es:
L N representa el logaritmo neperiano en la base e
donde n representa el tamaño maestral. El 95% intervalo de confianza de z se calcula de la siguiente forma:
Tras calcular los intervalos de confianza con el valor z debemos volver a realizar el proceso inverso para calcular los intervalos del coeficiente r
Utilizando el ejemplo de la Tabla 1, obtenemos r = 0.885
95% intervalo de confianza de z
Tras calcular los intervalos de confianza de z debemos proceder a hacer el cálculo inverso para obtener los intervalos de confianza de coeficiente de correlación r que era lo que buscábamos en un principio antes de la transformación logarítmica.
0.726 a 0.953 son los intervalos de confianza (95%) de r.
Presentación de la correlación Se debe mostrar siempre que sea posible la gráfica que correlaciona las dos variables de estudio (Fig 1). El valor de r se debe mostrar con dos decimales junto con el valor de la p si el test de hipótesis se realizó para demostrar que r es estadísticamente diferente de cero. El número de observaciones debe a su vez estar indicado.
Interpretación de la correlación El coeficiente de correlación como previamente se indicó oscila entre –1 y +1 encontrándose en medio el valor 0 que indica que no existe asociación lineal entre las dos variables a estudio. Un coeficiente de valor reducido no indica necesariamente que no exista correlación ya que las variables pueden presentar una relación no lineal como puede ser el peso del recién nacido y el tiempo de gestación. En este caso el r infraestima la asociación al medirse linealmente. Los métodos no paramétrico estarían mejor utilizados en este caso para mostrar si las variables tienden a elevarse conjuntamente o a moverse en direcciones diferentes.
Este procedimiento estadístico para medir la correlación o asociación es complementario del coeficiente de correlación parcial de Kendall; a su vez, es una segunda opción de la correlación de Spearman. La razón por la que se expone este modelo estadístico se debe a la necesidad de comprender la mecánica aritmética y la interpretación de la prueba, pues se requiere conocerla para realizar el coeficiente parcial de Kendall. La fórmula es la siguiente: Donde: τ (tau) = coeficiente de correlación de Kendall. S = puntuación efectiva de los rangos. N = tamaño de la muestra en parejas de variables.
Fórmula para determinar el nivel de significancia mediante el valor Z: Donde: Z = valor Z de la distribución normal. τ = coeficiente de correlación de Kendall. N = tamaño de la muestra.
Pasos: 1. Alinear las observaciones del rango menor al mayor de la variable independiente (X), de manera que se deje el rango que corresponde a la pareja de la variable dependiente (Y).
2. Obtener la puntuación efectiva (S) en la variable dependiente, en función del orden de ocurrencia de los rangos de Y con respecto a X. 3. Contar el número de parejas y aplicar la fórmula. 4. Calcular el nivel de significancia en función del valor Z, de acuerdo con la ecuación, presentada anteriormente. 5. Una vez calculado el valor Z, se obtiene la probabilidad de su magnitud en la tabla de coeficientes de correlación en niveles de p 0.05 y 0.01. 6. Decidir si se acepta o rechaza la hipótesis.
Ejemplo: Un investigador está interesado en saber si el desarrollo mental de un niño se asocia a la educación formal de la madre. De esta manera, obtiene la calificación de desarrollo mental en la escala de Gesell de ocho niños elegidos aleatoriamente y se informa del grado de escolaridad de las madres. Elección de la prueba estadística.
Se desea medir asociación o correlación. Las calificaciones de la educación formal de cada madre están dadas en una medición cualitativa, pero tienen una escala ordinal, por lo cual es posible ordenarlas en rangos. Véase: Flujograma 6
Planteamiento de la hipótesis.
•
Hipótesis alterna (Ha). El desarrollo mental de los hijos es una variable dependiente de la educación formal de la madre; por lo tanto, existe una correlación significativa.
•
Hipótesis nula (Ho). La asociación entre las variables educación formal de la madre y desarrollo mental de los hijos no es significativa, ni hay correlación.
Nivel de significación.
Para todo valor de probabilidad igual o menor que 0.05, se acepta Ha y se rechaza Ho. Zona de rechazo.
Para todo valor de probabilidad mayor que 0.05, se acepta Ho y se rechaza Ha. Desarrollo mental de algunos niños y escolaridad de las madres.
Aplicación de la prueba estadística.
Inicialmente, las observaciones de las variables X y Y se ordenan en rangos. Arreglo en rangos de las observaciones presentadas en la tabla anterior.
De acuerdo con esto, se efectúa un ordenamiento natural de los rangos de las variables X y Y. Rangos de la variable independiente X y su correspondiente de la variable dependiente.
El cálculo de la puntuación efectiva (S) se realiza con el ordenamiento de los rangos de la variable dependiente (Y). El primer valor del rango de Y es 1. Respecto a los demás rangos, existen siete mayores que Y y ninguno es menor, de manera que queda: S = (7 - 0) +
Después está el rango 5, luego se hallan tres por arriba y tres por debajo de éste y se continúa: S = (7 - 0) + (3 - 3) + En rango siguiente es el 3, del cual cuatro son mayores y uno menor, y queda: S = (7 - 0) + (3 - 3) + (4 - 1) + El rango inmediato es el 2, y los cuatro subsecuentes son mayores y ninguno menor: S = (7 - 0) + (3 - 3) + (4 - 1) + (4 - 0) + Después se halla el rango 7, en el que uno es mayor y dos menores: S = (7 - 0) + (3 - 3) + (4 - 1) + (4 - 0) + (1 - 2) + Finalmente, se encuentra el rango 8, el subsecuente es el 6, que es menor y se concluye el cálculo de S, como sigue: S = (7 - 0) + (3 - 3) + (4 - 1) + (4 - 0) + (1 - 2) + (0 - 1) S = 7 + 0 + 3 + 4 - 1 - 1 = 12 Aplicamos la ecuación de la prueba estadística.
Calculamos el nivel se significancia.
Una vez calculado el valor Z, se obtiene la probabilidad en la tabla de coeficientes de correlación en niveles de p 0.05 y 0.01; a su vez en buscamos en la tabla de probabilidades asociadas en valores extremos como los de 2 en la distribución normal. Se localiza el valor 1.4 y en la intersección de la columna 0.09, se observa el valor 0.0681, el cual corresponde a la probabilidad de obtener un valor Z de esta magnitud, que difiere del promedio y es mayor que el nivel de significancia. Decisión.
Como el valor Z tiene mayor probabilidad que el nivel de significancia, se acepta Ho y se rechaza Ha. Interpretación.
La correlación entre las variables educación materna y desarrollo mental del hijo no es significativa. Esta misma conclusión se obtuvo mediante el coeficiente de correlación de Spearman.
En la sección de coeficiente de correlación de Spearman se señaló que al aumentar el tamaño de la muestra, existe mayor probabilidad de empates o ligas entre los rangos de las observaciones. Para esta condición se presenta la siguiente ecuación:
Donde: τ
(tau) = coeficiente de correlación de Kendall.
S = puntuación efectiva de los rangos. N = tamaño de la muestra en parejas de variables. Lx = sumatoria de ligas o empates dados en la variable independiente (X). Ly = sumatoria de ligas o empates dados en la variable dependiente (Y). El nivel de significancia se obtiene de la misma manera.