MEDIDAS DE DEPENDENCIA ESTADÍSTICA. ANÁLISIS DE LA CORRELACIÓN
TEMA 9
9.1 Medidas de dependencia estadística y de la correlación En el tema 8 se ha visto cómo se puede calcular una recta de regresión cuando se tienen dos variables que tienen una dependencia estadística. Esta recta de regresión permite estimar los valores de la variable dependiente cuando se conocen los de la variable independiente. Sin embargo, la posibilidad de realizar estimaciones que permite una regresión, no estaría completa si no se conoce la fiabilidad. Dicha fiabilidad va a depender del grado de relación o correlación existente entre las dos variables, de forma que mientras mayor sea la relación o correlación entre variables más fiable serán las estimaciones que se puedan realizar a través de la regresión. Por tanto, para completar los objetivos vistos en los dos temas anteriores, es preciso disponer de unos coeficientes que indiquen el grado de representatividad o bondad del ajuste de la función matemática ajustada a los datos obtenidos empíricamente durante el proceso estadístico Existen dos medidas para cuantificar la relación entre dos variables: 1. Coeficiente de correlación (r) 2. Coeficiente de determinación (R2) Coeficiente de correlación (r): cuantifica la relación o correlación existente entre dos variables y se define como el cociente entre la covarianza y el producto de las desviaciones típicas.
Sxy r= Sx . Sy Su resultado está definido en el intervalo [-1 , +1], así si: r > 0 Existe una correlación directa entre variables, es decir las variables se comportan de la misma manera, ya se aumentando o disminuyendo. r = 0 No existe correlación entre las dos variables. r< 0 Existe una correlación inversa entre variables, es decir las variables tienen comportamientos diferentes, si una aumenta la otra disminuye.
Yj ym
r>0
y3 y2 y1
. . . . . . .
. .
Yj
.
ym
y3 y2 y1
Directa
x1 x2 x3 ……….. xn
Xi
.
. .
r<0
.
Inversa
.
. .
.
x1 x2 x3 ……….. xn
Si se representa mediante un segmento los valores del coeficiente de correlación, resulta evidente que mientras más se aproxime el resultado a cero (ausencia de correlación), menor será la relación entre las dos variables estudiadas. Por el contrario, a medida que el resultado se aproxime a -1 o +1, la relación entre variable será más fuerte. Por consiguiente se hace necesario establecer unos límites o niveles de significación (estos límites son establecidos por el test F-Snedecord en +0,65 para correlación directa y -0,65 para correlación inversa).
-1
-0,65
+0,65
0
+1
Coeficiente de determinación (R2) : cuantifica la relación o correlación existente entre dos variables y se define como el cociente entre la covarianza al cuadrado y el producto de las varianzas de ambas variables.
Sxy2
2
R =
Sx2 . Sy2
Su resultado está definido en el intervalo [0 , +1], así si: R2> 0 Existe correlación directa entre variables. R2= 0 No existe correlación entre las dos variables. Este coeficiente presenta el inconveniente de que no diferencia por tipo de correlación, por lo demás, la interpretación de sus niveles de significación resulta similar al dado para el coeficiente de correlación.
+0,65
0
+1
Ejemplo: Se ha seleccionado una muestra de 40 hoteles de playa en una localidad costera. Las variables que se han analizado han sido la categoría y el precio de la habitación estándar. Calcular los coeficientes de correlación y de determinación. Yj 25 75 125 175 225
0 - 50 50 - 100 100 - 150 150 - 200 200 - 250 ni. xi . ni. xi2 . ni.
1 3 3 3 3
2 2 5 2 1 10 20 40
3 4 5 n.j 5 1 6 7 1 10 3 8 2 14 1 2 2 5 12 10 4 40 36 44 20 123 108 176 100 427
yj . n.j 125 450 1250 2450 1125 5400
yj2 . n.j 3125 33750 156250 428750 253125 875000
Σ
xi . ni.
⎯x =
123 = 3,075 estrellas
=
Σ
N
40
yj . n.j
⎯y =
5400 = 135 euros
=
N Σ xi 2. ni .
2
Sx = N
Σ yj 2. n .j
2
Sy =
N
40
-⎯ x 2 =
427 40
-⎯ y 2 =
Σ ( xi . yj). nij Sxy =
Σ ( xi . yj). nij
- 3,075 2 = 1,2 estrellas
875.000
- 135 2
40
= 3.650 €
-⎯ x .⎯ y
N
25.3.1 + 25.2.2 + 75.5.2 + 125.2.2 + 175.1.2 + 75.1.3 + 125.7.3 + 175.3.3
= 40
N
+ 225.1.3 + 125.1.4 + 175.8.4 + 225.2.4 + 175.2.5 + 225.2.5
= 40
18.775 40
= 469,37
Sxy = 469,37 – 3,075 . 135 = 54,25 La varianza de la categoría hotelera es de 1,2 estrellas, la de la variable precio de la habitación es 3.650 € y la covarianza de 54.25.
Sxy r=
Sx . Sy
=
54.25
= 0,82
1,09 . 60.41
( 1,09 y 60.41 son respectivamente las desviaciones típicas de X e Y, es decir las raíces cuadradas de sus varianzas).
R2 =
Sxy2 Sx2 . Sy2
=
2943,06 1,2 . 3650
= 0,67