CORRELACION GRADUAL Al utilizar valores muéstrales precisos, o cuando la precisión no puede obtenerse, los datos pueden clasificarse en orden de tamaño, importancia, etc., empleando los números 1,2, . . . n. Si dos conjuntos correspondientes de valores x, y se clasifican de tal forma, el coeficiente de correlación gradual, denotada por rgrad o sencillamente r, está dado por:
Donde d : diferencias entre las clasificaciones de los correspondientes x, y. n : número de pares de valores (x, y) en los datos. Ejercicio: l0 trabajadores fueron clasificados según su rendimiento en la planta externa y los cursos realizados de cierta compañía de telefonía pública. Hallar el coeficiente de correlación gradual.
Planta 7 Externa Cursos 8
5
4
8
3
10
1
5
4
1
4
5
7
5
5
2
4
6
2
La diferencia de puntuaciones d en planta externa y la oficina para cada trabajador se da en la tabla siguiente. También se incluyen d2 y ∑d2. Diferencias 1 de puntuaciones, d D2 1
-1
1
-1
2
5
1
-1
2
1
1
1
1
4
25
1
1
4
4
∑d2.=
43
Indicando que hay una relación entre el rendimiento en planta externa y los cursos.
INTERPRETACION PROBABILISTICA DE LA REGRESION Un diagrama de dispersión, es una representación gráfica de los puntos de datos para una muestra particular. Al escoger una muestra diferente, o aumentar la original, un diagrama de dispersión algo diferente se obtendría generalmente. Cada diagrama de dispersión resultaría en una recta o curva de regresión diferente, aunque esperamos que las diferencias no sean significantes si las muestras se extraen de la misma población. Del concepto de curva de ajuste en muestras pasamos al de curva de ajuste para la población de donde se tomaron las muestras. La dispersión de puntos alrededor de una recta o curva de regresión indican que para un valor particular de x hay realmente varios valores de y distribuidos alrededor de la recta o curva Esta idea de distribución nos conduce naturalmente a la realización de que hay una conexión entre curva de ajuste y probabilidad. La conexión se implementa introduciendo las variables aleatorias X, Y que toman los diferentes valores muéstrales X, y respectivamente. Por ejemplo X, Y pueden representar las estaturas y pesos de adultos en una población de la cual se extraen las muestras. Entonces se supone que X, Y tienen una función de probabilidad conjunta o función de densidad, f(x, y), según si se consideran discretas o continuas. Dada la función de densidad conjunta o función de probabilidad, f(x, y), de dos variables aleatorias X, Y, es lógico de las anotaciones anteriores preguntar si hay una función g(X) taI que: {
}
Una curva con ecuación y = g(X) se llama curva de regresión de mínimos cuadrados de Y sobre X. Tenemos el teorema siguiente: TEOREMA 1: Si X, Y son variables aleatorias con función de densidad conjunta o función de probabilidad f(x, y), entonces existe una curva de regresión de mínimos cuadrados de Y sobre X , dada por: ⁄ Siempre y cuando X, Y tengan una varianza finita.
Otro caso se presenta cuando la distribución conjunta es la distribución normal bidimensional. Entonces tenemos el teorema siguiente:
TEOREMA 2: Si X, y son variables aleatorias con la distribución normal bidimensional, entonces la curva de regresión de mínimos cuadrados de Y sobre X es una recta de regresión dada por: (
)
Dónde:
Representa el coeficiente de correlación poblacional. INTERPRETACION PROBABILISTICA DE LA CORRELACION Un coeficiente de relación poblacional debe dar una medida de que tan bien una curva de regresión poblacional dada se ajusta a los datos poblacionales. Todas las anotaciones previamente enunciadas para la correlación en una muestra se aplican a la población, por ejemplo: ̅
̅
Donde Yest =g(x) y Ŷ= E(y), Las tres cantidades) se llaman las variaciones total, no explicada y explicada respectivamente. Esto conduce a la definición del coeficiente de correlación poblacional p, donde: ̅ ̅ CORRELACION Y DEPENDENCIA Si dos variables aleatorias X, Y tienen un coeficiente de correlación diferente a cero, sabemos que son dependientes en el sentido de probabilidad (esto es, su distribución conjunta no se factoriza en sus distribuciones marginales). Además, cuando p ≠ 0, podemos utilizar una ecuación pata predecir el valor de Y a partir del valor de X. EJEMPLO 1. Sean X, Y variables aleatorias que representan estaturas y pesos de individuos. Aquí hay una independencia directa entre X y Y. EJEMPLO 2. Si X representa los salarios anuales de los carpinteros en tanto que Y representa la cantidad de crímenes, el coeficiente de correlación puede ser diferente de cero y podríamos hallar una ecuación de regresión prediciendo una variable de la otra, Pero difícilmente diríamos que hay interdependencia directa entre X y Y.