Contexto A continuación, continuación, se tiene la información de la Gran Encuesta Integrada Integrada de Hogares (GEIH), realizada por el DANE[1]. Esta encuesta se hace en las 13 ciudades principales del Colombia (Bogotá, Medellín, Cali, barranquilla, Bucaramanga, Manizales, Pasto, Pereira, Ibagué, Cúcuta, Villavicencio, Montería, Cartagena) y 11 ciudades intermedias (Tunja, Florencia, Popayán, Valledupar, Quibdó, Neiva, Riohacha, Santa Marta, Armenia, Sincelejo, San Andrés). Esta encuesta, se solicita información sobre las condiciones de empleo de las personas (si trabajan, en qué trabajan, cuánto ganan, si tienen seguridad social en salud o si están buscando empleo), además de las características generales de la población como sexo, edad, estado civil y nivel educativo, se pregunta sobre sus fuentes de ingresos. La GEIH proporciona al país información a nivel nacional, cabecera - resto, regional, departamental, y para cada una de las capitales de los departamentos. Este trabajo colaborativo, tiene 5 actividades diferentes. Cada actividad corresponde a un tema de los cuales se desarrolla durante el módulo. El grupo debe resolver cada actividad e ir plasmando los resultados en el documento en línea. Los niveles de cada actividad varían según el tema que se esté desarrollando. Sin embargo, cabe aclarar que las actividades son independientes. Los temas que se desarrollan en este documento van hasta la semana 7. En el archivo de Excel ( https://goo.gl/rarYdV ) se tiene información sobre las características generales de las personas que respondieron en un mes en particular. Para este trabajo colaborativo, realice lo siguiente:
Parte 1 Tamaño de muestra Utilizando la variable edad (P6040), realice lo siguiente: ●
Realice un histograma y describa la información según la forma y la curtosis de los datos.
●
Realice una descripción descripci ón numérica y descripción como es la población. Media Mediana Moda Varianza Desv. Est.
33,55 31,00 11,00 438,65 20,94
●
Calcule una nueva variable que sea el
●
Teniendo en cuenta la variable anterior realice el cálculo del tamaño de muestra, utilizando la siguiente fórmula:
Donde, se tiene lo siguiente: Z: Es el cuantil de la distribución normal estándar al nivel de significancia que se establezca. S: Es la desviación estándar de la variable. Es el margen de error absoluto.
1,96 4,53 0,50
1 , 9 6 ∗ 4, 5 3 = 0,50 = 314,85 = 1 +314,314,3708585 = 170,170,1042 ≈ 170
Para calcular el tamaño de la muestra, utilice un nivel de confianza del 95% y un margen de error de absoluto que no supere 0.5. ●
Teniendo en cuenta los resultados anteriores, realice una selección de elementos para una muestra, utilizando el algoritmo del coordinado negativo.
●
Compara la media poblacional, con la media muestral y determine la variación relativa. Media 33,5486486 poblacional Media 33,2058824 Muestral
Variación relativa
533.4 −533,334 ,20 ∗ 100% = 1,021 % = 33,54−
Intervalo de confianza para dos variables numéricas Un investigador, cree determinar que existen diferencias entre los niveles de estudio de los hombres y las mujeres en Colombia. Para determinar lo anterior, se sugiere utilizar la base de la hoja “muestra” y realizar lo siguiente: ●
Utilizando la variable escolaridad (ESC) y sexo (P6020), realice un histograma para los hombres y mujeres. Según los resultados, ¿Existen diferencias?
●
Teniendo en cuenta lo anterior, realice un estudio estudio descriptivo de ambas variables. Realice lectura de resultados.
Mujeres Media
6,94
Varianza
22,25
Desv Est
4,72
Moda
11
Mediana
6
Hombres Media
●
8,14
Varianza
22,13
Desv Est
4,70
Moda
11
Mediana
8,5
Asumiendo que los datos datos son normales, calcule un intervalo de confianza del 95% y determine, determine, la escolaridad de los hombres y de las mujeres de forma individual.
Intervalo de Confianza para la población de mujeres
/ = 1,96 (̅ −− ∗ √ , ̅− ∗ √ ) (6,94−1,96∗ √ 41591,7592 , 6,94+1 4+ 1,96∗ √ 41591,7592 ) 6,2063 , 7,67 Intervalo de Confianza para la población de hombres
/ = 1,96 (̅ −− ∗ √ , ̅− ∗ √ ) (8,14−1,96∗ √ 42022,7020 , 8,14+1 4+ 1,96∗ √ 42022,7020 ) 7,49 , 8,788 ●
Asumiendo que los datos son normales, calcule un Intervalo de confianza al 95% para la diferencia de los niveles de escolaridad para los hombres y mujeres.
/ = 1,96 159−14,4,159+202−2 722 + 202−1 202−14,4,700 = 22,172 = − 1 + +ℎ −ℎ2 − 1ℎ = 159−1 ℎ − − ∗ 1ℎ + 1 , ℎ − + ∗ 1ℎ + 1
8,14−6,94−1,96∗ 22,22,172(2021 + 1591 ) , 8,14 − 6,94 + 1,96 ∗ 22,22,172(2021 + 1591 ) 0,22 , 2,178 Parte 2 Prueba de hipótesis para dos variables nominales Un investigador, cree determinar que los hombres asisten más a un colegio oficial que las mujeres en Colombia. Para determinar determinar lo anterior, se sugiere utilizar la base de la hoja de “muestra” y realizar lo siguiente: ●
Utilizando la variable si actualmente asiste a un establecimi establecimiento ento oficial (P6175) y sexo (P6020), realice un diagrama de barras comparativo para los hombres y mujeres en un solo gráfico. Según los resultados, ¿Existen diferencias?
●
Con un nivel de confianza del 95%, realice una estimación de los hombres que asisten a un establecimiento oficial.
El intervalo de confianza será
==1,4596 = 0,73 7 3 3 = ± 1− = 0,73±1,96 0,0,7331−0, 45 == 0,0,86597002
0,60.0026002< ,0<.80,497 8497497 ●
Con un nivel de confianza del 95%, realice una estimación de las mujeres que asisten a un establecimiento oficial.
El intervalo de confianza será:
●
==1,5496 = 0,76 7 6 6 = ± 1− = 0,76±1,96 0,0,7661−0, 54 == 0,0,86739460 0,60.4606460,< 0<.8739 0,8739
Realice una prueba de hipótesis para determinar la afirmación del investigador. Utilice un nivel de significancia del 5%. ¿Qué se puede decir de lo anterior?
Prueba de hipótesis de dos proporciones
Se acepta Colombia
[1]
:: >≤ 33 +540,76 = 0,74 = ++ = 4550,745+54 = 1 − − 1 + 1 0,76−0,73 1 1 = 0,3388 = 0,0, 7441−0, 744 54 + 45 0,33 <<1,96
, la proporción de hombres que asisten al colegio oficial es mayor que la proporción de mujeres en
http://www.dane.gov.co/files/investigaciones/fichas/empleo/ficha_metodologica_GEIH-01_V10.pdf