INTRODUCCIÓN AL ANÁLISIS DE DATOS Cuadernillo 1
SOLUCIÓN Francis Galton (1884) recogió los datos de 400 personas en las siguientes variables: Edad (23, 24 y 25 años), Estado Civil (soltero, casado), Color de ojos (Avellana, Azul, Gris, Marrón, Negro, Verde), Residencia (Campo, Ciudad, Suburbio, Mar y Varias), Estatura y Peso. Estos datos fueron publicados en el Journal of the Antropological Institute en 1889 y aparecen recogidos en Vélez y col. (2006) 1 pp. 18-19. La estatura en pulgadas ha sido transformada a metros (1 pulgada= 25,4 mm) y el peso en libras a kg (1 libra= 0,4536 kg.). A partir de los datos originales, se obtiene la siguiente tabla: Color de Ojos Avellana Azul Gris Marrón Negro Verde No consta
ni 27 127 111 110 15 3 7 400
1. Complete la siguiente Tabla, calculando las frecuencias relativas o proporciones y los porcentajes: Color de Ojos Avellana Azul Gris Marrón Negro Verde No consta
ni
Color de Ojos Avellana Azul Gris Marrón Negro Verde No consta
ni 27 127 111 110 15 3 7 400
pi
Pi
pi 0,0675 0,3175 0,2775 0,2750 0,0375 0,0075 0,0175 1
Pi 6,75 31,75 27,75 27,50 3,75 0,75 1,75 100
27 127 111 110 15 3 7 400
Solución:
1
Vélez, R. y col. (2 006).Métodos estadísticos en Ciencias Sociales. Ediciones Académicas. Madrid (2ª edic.).
1
INTRODUCCIÓN AL ANÁLISIS DE DATOS Cuadernillo 1
2. Represente gráficamente, mediante el diagrama de barras y el diagrama de sectores, los datos del ejercicio anterior.
Solución: Diagrama de barras
Diagrama de sectores
3. A partir de la siguiente Tabla, sobre la variable Edad, calcule la media y la varianza: Edad 23 24 25
ni 144 140 116 400
2
INTRODUCCIÓN AL ANÁLISIS DE DATOS Cuadernillo 1
Solución: E da d ( X i )
ni
n iXi
n i X i2
Xi X
(X i X ) 2
n i (X i X ) 2
23 24 25
144 140 116 400
3312 3360 2900 9572
76176 80640 72500 229316
-0,93 0,07 1,07
0,8649 0,0049 1,1449
124,5456 0,6860 132,8084 258,04
X
n X
S X2
i
i
n n i X i2
9572 400
23,93
X2
n
229316 400
23,93 2 573,29 572,6449 0,6451 0,65
También:
S
2 X
n (X i
i
n
X) 2
258,04 400
0,6451 0,65
4. A partir de los datos originales, hemos agrupado la variable Estatura en 6 intervalos obteniendo la siguiente Tabla: Estatura 1,96 - 2,05 1,86 - 1,95 1,76 - 1,85 1,66 - 1,75 1,56 - 1,65 1,46 - 1,55
ni 1 12 126 206 53 2 400
Realice la representación gráfica del Polígono de frecuencias
Solución: Estatura 1,96 1,86 1,76 1,66 1,56 1,46
- 2,05 - 1,95 - 1,85 - 1,75 - 1,65 - 1,55
ni 1 12 126 206 53 2 400
3
Punto medio 2,005 1,905 1,805 1,705 1,605 1,505
INTRODUCCIÓN AL ANÁLISIS DE DATOS Cuadernillo 1
Polígono de Frecuencias 250
200
150 n
100
50
0 1,505
1, 605
1, 705
1, 805
1, 905
2, 005
Estatura
5. Calcule la media, la desviación típica, la mediana y el índice de asimetría para los datos de la tabla del ejercicio anterior.
Solución: Estatura (X) 1,96 1,86 1,76 1,66 1,56 1,46
X
- 2,05 - 1,95 - 1,85 - 1,75 - 1,65 - 1,55
n X i
i
n
S
2 X
1 12 126 206 53 2 400
400 i
S X S X2
2 i
n i X i2 4,020025 43,548300 410,511150 598,847150 136,529325 4,53005 1197,986
(X i X ) (X i X) 2 0,276 0,176 0,076 0,024 -0,124 -0,224
0,076176 0,030976 0,005776 0,000576 0,015376 0,050176
n i (X i X ) 2
na
0,076176 0,371712 0,727776 0,118656 0,814928 0,100352 2,2096
400 399 387 261 55 2
1,729
X2
n 2 n i (X i X ) n
niXi
2,005 2,005 1,905 22,860 1,805 227,430 1,705 351,230 1,605 85,065 1,505 3,010 3,01 0 691,600
691,6
n X
2 SX
Xi
ni
1197,986 400
2,2096 400
1,729 2 2,994965 2,989441 0,005524 0,005524
0,005524 0,074323616 0,074
4
.ó
INTRODUCCIÓN AL ANÁLISIS DE DATOS Cuadernillo 1
n 400 55 nd I 1,655 2 0,1 1,655 0,070 1,725 1,73 Md L i 2 n 206 c Mo As
1,66 1,75
X Mo SX
2
1,705
1,729 1,705 0,074
0,324
Como As es mayor que cero, la asimetría es positiva
6. Para la variable Peso hemos obtenido la siguiente Tabla: PESO 47,6 - 53,5 53,6 - 59,5 59,6 - 65,5 65,6 - 71,5 71,6 - 77,5 77,6 - 83,5 83,6 - 89,5 89,6 - 95,5 95,6 - 101,5 101,6-107,5
ni 13 76 140 103 46 11 5 5 0 1 400
Calcule los percentiles 25, 50 y 75.
Solución: PESO 101,6-107,5 95,6 - 101,5 89,6 - 95,5 83,6 - 89,5 77,6 - 83,5 71,6 - 77,5 65,6 - 71,5 59,6 - 65,5 53,6 - 59,5 47,6 - 53,5
P25
ni 1 0 5 5 11 46 103 140 76 13 400
na 400 399 399 394 389 378 332 229 89 13
n 25 400 25 nd 89 6 60,02 I 59,55 100 L i 100 nc 140
5
INTRODUCCIÓN AL ANÁLISIS DE DATOS Cuadernillo 1
n 400 89 nd I 59,55 2 6 64,31 Md L i 2 nc 140 n 75 400 75 nd 229 6 69,69 I 65,55 100 P75 L i 100 nc 103
7. ¿Cuál de las dos variables Estatura y Peso presenta mayor variabilidad? (Realice los cálculos oportunos y razone la respuesta).
Solución:
n i Yi2
PESO (Y)
ni
Yi
n i Yi
101,6-107,5 95,6 - 101,5 89,6 - 95,5 83,6 - 89,5 77,6 - 83,5 71,6 - 77,5 65,6 - 71,5 59,6 - 65,5 53,6 - 59,5 47,6 - 53,5
1 0 5 5 11 46 103 140 76 13 400
104,55 98,55 92,55 86,55 80,55 74,55 68,55 62,55 56,55 50,55
104,55 0,00 462,75 432,75 886,05 3429,30 7060,65 8757,00 4297,80 657,15 26088
10930,7025 0,0000 42827,5125 37454,5125 71371,3275 255654,3150 484007,5575 547750,3500 243040,5900 33218,9325 1726255,80
Peso:
Y
n Y
S Y2
i
i
n n i Yi2
n
26088
Y2
Estatura (X) (Ver Ejercicio 5) Peso (Y)
400
65,22 1726255,80 400
- 65,22
2
6 1,9911 S Y 61,9911 7,87
X 1,729
S X 0,074
CVX
SX
Y 65,22
S Y 7,87
CVY
SY
X
Y
·100
0,074
·100
7,87
1,729
65,22
·100 4,28 ·100 12,07
Se utiliza el Coeficiente de Variación porque, aunque se trata de los mismos sujetos, se trata de dos variables (Estatura y Peso) con distinta media. La variable Peso presenta una mayor variabilidad que la variable Estatura porque la variable Peso tiene un mayor coeficiente de variación que la variable Estatura.
6
INTRODUCCIÓN AL ANÁLISIS DE DATOS Cuadernillo 1
variables Residencia Residencia y Estado Civil, hemos hemos obtenido la siguiente siguiente tabla: 8. Para las variables
ESTADO CIVIL Casado Soltero 5 58 26 186 14 103 1 7 46 354
RESIDENCIA Campo Ciudad Suburbio No consta y otras Total General
Total General 63 212 117 8 400
Determine si existe relación entre ellas e interprete el resultado.
Solución: Se trata de dos variables cualitativas por lo que calculamos chi cuadrado asumiendo que las categorías, en ambas variables residencia y estado civil , son exhaustivas y mutuamente excluyentes:
RESIDENCIA Campo Ciudad Suburbio No consta y otras Total General
ESTADO CIVIL Casado Soltero Total General 5 63 (7,245) 58 (55,755) 26 (24,38) 186 (187,62) 212 14 (13,455) 103 (103,545) 117 1 8 (0,92) 7 (7,08) 46 354 400
Nota: Dado el supuesto de categorías exhaustivas y mutuamente excluyentes, se asume que la categoría “no consta y otras” no incluye ningún sujeto que pueda incluirse en alguna de las otras categorías de la variable residencia . En negrita, y entre paréntesis, se recogen las frecuencias teóricas.
X 2
C
5 7,2452 7,245
14 13,4552 13,455 X
2
2 X n
58 55,7552 55,755
26 24,382
103 103,5452 103,545
0,94 0,94 400
24,38
1 0,92 2 0,92
186 187,622
7 7,082
187,62 7,08
0,94
0,048
El coeficiente de contingencia es casi nulo, por lo que no parece haber relación entre ambas variables. No podemos comparar el C hallado con el C máximo dado que el número de filas es distinto del número de columnas.
7
INTRODUCCIÓN AL ANÁLISIS DE DATOS Cuadernillo 1
gráfica: 9. Para las variables Estatura y Peso, tenemos la siguiente representación gráfica:
120,0
100,0
80,0 ) g k ( O 60,0 S E P
40,0
20,0
0,0 0, 00
0, 50
1, 00
1, 50
2, 00
2, 50
ESTATURA (m)
Sabiendo que r 0,42 ¿Qué podemos decir de la relación existente entre la Estatura y el Peso? 2
Solución: El porcentaje de la varianza del peso explicada por la varianza de la estatura es del 42%. 2 Si r 0,42 entonces r
0,42 0,648 (la gráfica nos indica que el signo del coeficiente de correlación de Pearson es positivo) y, por tanto, a medida que aumenta la Estatura aumenta también el Peso.
10. Para las variables Peso y Estatura hemos obtenido la siguiente ecuación de la recta de regresión: Y´ 72,06X 59,12 ¿qué puntuación pronosticaremos en el Peso a una persona que ha obtenido un valor de 1,55 en estatura?
Solución: Y’ = 72,06·(1,55) -59,12 = 52,573
8