INTERVALOS DE CONFIANZA PARA MEDIA Y PROPORCIONES Métodos Cuantitativos Avanzados Avanzados Nincen Figueroa Carrera Carre ra de Ciencia Ciencia Política Política Universidad Diego Portales
[email protected]
2015
PARÁ ARÁMET METR RO Y EST ESTADÍ ADÍSTIC STICO O PARÁMETRO • Valor o cálculo cálculo numérico numérico que resume resume medicion mediciones es o datos de todos todos los sujetos de una población. • Ejemplo: Ejemplo: Número Número de hijos hijos nacidos nacidos vivos vivos del CENSO CENSO 2002 STADÍ ADÍSTI STICO CO O EST ESTADÍG ADÍGRAF RAFO O EST • Valor o cálculo cálculo numérico numérico que resume resume medicion mediciones es o datos de todos todos los sujetos de una muestra. • Ejemplo: Ejemplo: Número Número de hijos hijos nacidos nacidos vivos vivos de la CASEN 2009 2009
INFERENCIA ESTADÍSTICA: ESTIMACIÓN DE LOS PARÁMETROS
Recordemos que un estimador es una cantidad numérica calculada sobre una muestra y que esperamos que sea una buena aproximación de cierta cantidad con el mismo significado en la población (parámetro).
Cuando estimamos un parámetro podemos hacerlo de dos formas: Estimador puntual, el cual corresponde a un valor individual o a un punto que se usa para aproximar un parámetro de población Estimador por intervalo, a diferencia del puntual este tipo de estimación ofrece un intervalo como respuesta determinado por un nivel de confianza específico.
INFERENCIA ESTADÍSTICA: ESTIMACIÓN PUNTUAL
Las estimaciones puntuales son valores individuales (o puntos) que se usan para aproximar un parámetro de población. En específico, es un número concreto que se calcula sobre la muestra para estimar un parámetro.
Según la Encuesta CEP de Julio 2014, sobre una muestra de 1326 personas encuestadas, estos califican con una nota promedio de 5.72 y una desviación estándar de 1.024 al establecimiento que asiste su hijo (¿Qué nota de 1 a 7, en que 1 es pésimo y 7 es excelente, le pondría Ud. al establecimiento que asiste su hijo?) ¿Qué nota de 1 a 7, en que 1 es pésimo y 7 es excelente, le pondría Ud. al establecimiento que asiste su hijo? Válido 1326 N Perdidos 116 Media 5.72 Mediana 6 Moda 6 Desviación estándar 1.024
• 5.72 estima µ • 1.024 estima • 1.024/√1326 = 0,028 estima el error estándar de la media (/√n)
INFERENCIA ESTADÍSTICA: ESTIMACIÓN POR INTERVALO
Una estimación por intervalo de confianza es aquellas que ofrece un intervalo como respuesta. En específico, es un rango (o un intervalo) de valores que se usa para estimar el valor de un parámetro de la población.
Para representarlo se obtienen dos puntos que representan un límite inferior (L.I) y un límite superior (L.S) con los cuales se construye un intervalo de confianza.
Para el ejemplo anterior, la estimación por intervalo es: ¿Qué nota de 1 a 7, en que 1 es pésimo Media y 7 es excelente, le 95% de intervalo de Límite inferior pondría Ud. al confianza para la media Límite superior establecimiento que Desviación estándar asiste su hijo?
Estadístico 5.72 5.66 5.77 1.024
Error estándar 0.028
ESTIMACIÓN POR INTERVALO: ALGUNOS CONCEPTOS
El intervalo de confianza (IC) es un rango de valores que se usan para estimar el valor real de un parámetro de población.
El nivel de confianza es la probabilidad 1-α (a menudo expresada en porcentaje equivalente), la cual es la proporción de veces que el intervalo de confianza contiene al parámetro de la población, suponiendo que el proceso estimación se repite un gran número de veces. El nivel de confianza se llama también grado de confianza o coeficiente de confianza.
Una estimación por intervalo requiere que construyamos intervalos de confianza, en los cuales se encontrará nuestro parámetro poblacional. Nivel de confianza 100*(1-α)% Nivel de significación α%
INFERENCIA ESTADÍSTICA: ESTIMACIÓN POR INTERVALO
Los niveles de confianza son determinados por el investigador. Sin embargo, las opciones más comunes para el nivel de confianza son 90% (con α=0.10), 95% (con α=0.05) y 99% (con α =0.01). La más usada es la opción del 95% debido a que provee un equilibrio entre precisión (ancho del intervalo) y confiabilidad (nivel de confianza).
La lectura a realizar para el caso anterior es que existe un 95% de probabilidad (o “con una confianza de 95%) de que el intervalo promedio de la evaluación al establecimiento que asiste su hijo (5.66;5.77) contiene al valor verdadero de la media poblacional. ¿Qué nota de 1 a 7, en que 1 es pésimo Media y 7 es excelente, le 95% de intervalo de Límite inferior pondría Ud. al confianza para la media Límite superior establecimiento que Desviación estándar asiste su hijo?
Estadístico 5.72 5.66 5.77 1.024
Error estándar 0.028
¿Cómo realizamos una estimación por intervalo?
ESTIMACIÓN POR INTERVALO: RECORDEMOS QUE… Entonces x se distribuye N ( ;
n)
z =
x − n
INFERENCIA ESTADÍSTICA: ESTIMACIÓN POR INTERVALO
Como señalamos, el nivel de confianza se define como 1- α. Se le denomina como alfa o nivel de significancia, que tal como señalamos son niveles que define el investigador (α=0.01; α=0.05 o α =0.1 ) x p z z 1 2 2 n
ESTIMACIÓN POR INTERVALO DE LA MEDIA MEDIA Y DESVIACIÓN ESTÁNDAR CONOCIDA Bibliografía para esta sesión:
• Weiss, N.A. (2011). Elementary Statistics (8th ed.). Pearson. • Blalock, H. M. (1978). Estadística social. México: Fondo de Cultura Económica. • Johnson, R., & Romo Muñoz, J. H. (2008). Estadística elemental: lo esencial. México: Cengage Learning. • Triola, M., Pineda Ayala, L. E., & Hernández Ramírez, R. (2009). Estadística. Naucalpán de Juárez: Pearson Educación.
ESTIMACIÓN POR INTERVALO DE LA MEDIA: CÁLCULO
Para la construcción de intervalos de confianza cuando conocemos la media y la desviación estándar se necesitan tres elementos: 1. Un estimador puntual (por ejemplo, la media de la muestra) 2. Un nivel de confianza determinado por el investigador (que
depende de z) 3. El error estándar del estimador (por ejemplo, el error estándar de la media)
ESTIMACIÓN POR INTERVALO DE LA MEDIA: CÁLCULO
Conociendo los valores anteriores, la fórmula de cálculo es la siguiente con la cual se puede afirmar que con un nivel de confianza (1- α)% que el intervalo contiene a la media de la población que se está estimando:
IC = x − z * 2 Media muestral
< < x + z 1− * n 2 Media poblacional
Nivel de confianza
n Tamaño muestral
ESTIMACIÓN POR INTERVALO DE LA MEDIA: CÁLCULO
También puede escribirse como: Error máximo de estimación
IC = x ± z * 2
IC = x − z LI
2
*
n
n
Error estándar de la media
IC s = x + z − L
1
* 2
n
INFERENCIA ESTADÍSTICA: NIVEL DE CONFIANZA
puntuación z (Desviaciones estándar) < -1,65 o > +1,65 < -1,96 o > +1,96 < -2,58 o > +2,58
valor P (Probabilidad) < 0.10 < 0.05 < 0.01
Nivel de confianza 90% 95% 99%
ESTIMACIÓN POR INTERVALO DE LA MEDIA: E JEMPLO DE CÁLCULO
Considerando los datos obtenidos de la Encuesta CEP Julio 2014 sobre la evaluación al establecimiento que asiste a su hijo:
Determine una estimación por intervalo con un 99% de confianza para
μ
Determine una estimación por intervalo con un 95% de confianza para
μ
Determine una estimación por intervalo con un 90% de confianza para
μ
¿Qué nota de 1 a 7, en que 1 es pésimo y 7 es excelente, le pondría Ud. al establecimiento que asiste su hijo? Válido 1326 N Perdidos 116 Media 5.72 Mediana 6 Moda 6 Desviación estándar 1.024
ESTIMACIÓN POR INTERVALO DE LA MEDIA: E JEMPLO DE CÁLCULO
El cuadro siguiente agrupa datos de la Encuesta UDP 2010 y 2012 sobre notas de evaluación en una serie de aspecto a Sebastián Piñera. Determine los intervalos de confianza (con niveles de confianza de 99%, 95% y 90%) para tres aspectos a elección en los dos años.
En una escala de 1 a 7, ¿Cómo evaluaría el desempeño que ha tenido el gobierno de S. Piñera respecto a:
Aumentar El Empleo Generar Crecimiento Económico Disminuir La Pobreza Disminuir La Desigualdad Mejorar La Educación Mejorar La Atención En Salud Disminuir La Delincuencia Mejorar El Sistema De Pensiones Mejorar Las Relaciones De Chile Con Los Países De Latinoamérica Defender Mejor Los Intereses De Una Persona Como Usted Solucionar Los Problemas Del Transporte Público Mejorar La Calidad De La Vivienda Protección Del Medio Ambiente
2010
2012
Media 4.54 4.57 4.18 4.13 4.63 4.23 4.34 4.17
Desviación estándar 1.50 1.44 1.52 1.53 1.53 1.52 1.62 1.56
N válido 1165 1146 1139 1125 1152 1147 1168 1116
Media 4.20 4.26 3.64 3.44 3.34 3.55 3.11 3.51
Desviación estándar 1.48 1.46 1.55 1.58 1.67 1.66 1.60 1.62
N válido 1268 1253 1274 1261 1278 1273 1275 1225
4.76
1.49
1123
4.35
1.53
1223
4.27 4.15 4.29 4.58
1.60 1.54 1.54 1.58
1134 1127 1113 1102
3.54 3.53 3.80 3.78
1.63 1.56 1.61 1.59
1255 1257 1262 1236
ESTIMACIÓN POR INTERVALO DE LA MEDIA: ERROR MÁXIMO DE ESTIMACIÓN
De acuerdo a las fórmulas anteriores, el error máximo de estimación queda determinado por:. Este nos indica el máximo de error que podemos cometer por predecir la media poblacional a partir de la media muestral:
e = z * 2
n
ESTIMACIÓN POR INTERVALO DE LA MEDIA: TAMAÑO MUESTRAL
Si despejamos la fórmula anterior, nos encontraremos con la fórmula para calcular el tamaño muestral considerando un determinado nivel de confianza y un error máximo de estimación. La fórmula para el tamaño muestral se representa por:
2
n=
( z 2 ) *
e
2
2
ESTIMACIÓN POR INTERVALO DE LA MEDIA: CÁLCULO TAMAÑO MUESTRAL
Usted está encargado de un estudio el cual tiene como objetivo la evaluación de una serie de personajes de la política en Chile. Su contraparte le solicita determinar el tamaño muestral para estimar las notas de evaluación a la presidenta Michelle Bachelet con un nivel de confianza del 95% y un error máximo de 0.5 décimas ¿Cuál es el tamaño de la muestra necesario si se sabe por evaluaciones anteriores que la desviación estándar es de 1.2 décimas?
Recuerde que la fórmula a utilizar es:
n=
( z 2 )2 *
2
e2
ESTIMACIÓN POR INTERVALO DE LA MEDIA MUESTRAS PEQUEÑA O DESVIACIÓN ESTÁNDAR DESCONOCIDA Bibliografía para esta sesión:
• Weiss, N.A. (2011). Elementary Statistics (8th ed.). Pearson. • Blalock, H. M. (1978). Estadística social. México: Fondo de Cultura Económica. • Johnson, R., & Romo Muñoz, J. H. (2008). Estadística elemental: lo esencial. México: Cengage Learning. • Triola, M., Pineda Ayala, L. E., & Hernández Ramírez, R. (2009). Estadística. Naucalpán de Juárez: Pearson Educación.
ESTIMACIÓN POR INTERVALO DE LA MEDIA: DISTRIBUCIÓN T DE STUDENT
Las aplicaciones anteriores para el cálculo del intervalo de confianza se realizan cuando conocemos la media y desviación estándar, y utilizamos la distribución normal para calcular las estimaciones por intervalos de la media. Cuando la muestra es aleatoria simple y se distribuye normalmente, pero se desconoce el valor de o el tamaño muestral es pequeño,debemos utilizar la distribución-t de Student.
t
x
s
n
DISTRIBUCIÓN T DE STUDENT: CARÁCTERÍSTICAS PRINCIPALES
La distribución t(gl, α) comparte diferentes carácterísticas con la distribución normal, entre sus características podemos señalar:
Tiene forma de campana Está distribuida con una media, mediana y moda de 0; que es el centro de la distribución Es simétrica respecto de su media El conjunto de distribuciones con diferentes grados de libertad forma una familia de distribuciones. Tiene varianza mayor que 1, pero a medida que aumenta el número de grados de libertad la varianza se aproxima este valor. Se encuentra distribuida de modo más puntiaguda en la media y más ancha en las colas que la distribución normal. Tiene colas más largas que la distribución normal, estas dependerán de los grados de libertad. Mayores grados de libertad significarán colas más pequeñas y menores grados de libertad, colas más largas.
DISTRIBUCIÓN T DE STUDENT: CARÁCTERÍSTICAS PRINCIPALES
DISTRIBUCIÓN T DE STUDENT
Ejemplo: Encontrar el valor t(12, 0.975) y (t(12,0.025)
Tabla t
ESTIMACIÓN POR INTERVALO DE LA MEDIA: CÁLCULO
Modificando la fórmula de cálculo del intervalo de confianza anteriormente vista, la fórmula de cálculo del intervalo de confianza de la media con tamaño muestral pequeño y desviación estándar desconocida es la siguiente:
IC = x − t ( gl ,
2) *
; x + t ( gl , n
s
2) *
n
s
Ejemplo:
Se estudió una muestra aleatoria de 75 estudiantes con el objetivo de estimar la cantidad media de dinero que invirtieron en fotocopias durante el primer semestre. La media de la muestra fue igual a $85.300. Obtenga la estimación por intervalo de confianza de 95% del costo medio para todos los estudiantes. La desviación estándar de la muestra es de 15.
¿UTILIZO Z O LA DISTRIBUCIÓN T? Método
Utilice la distribución normal z
Condiciones
Utilice la distribución t
conocida y población distribuida normalmente o conocida y n > 30 d es conocida y población distribuida normalmente o d es conocida y n > 30
ESTIMACIÓN DE LA PROPORCIÓN POBLACIONAL DISTRIBUCIÓN BINOMAL Bibliografía para esta sesión:
• Weiss, N.A. (2011). Elementary Statistics (8th ed.). Pearson. • Blalock, H. M. (1978). Estadística social. México: Fondo de Cultura Económica. • Johnson, R., & Romo Muñoz, J. H. (2008). Estadística elemental: lo esencial. México: Cengage Learning. • Triola, M., Pineda Ayala, L. E., & Hernández Ramírez, R. (2009). Estadística. Naucalpán de Juárez: Pearson Educación.
ESTIMACIÓN DE LA PROPORCIÓN POBLACIONAL : PROPORCIONES
Las proporciones son números que van entre cero y uno que se conforman respecto a una determinada característica de interés. 1,00 0,80 0,60
Encuesta CEP Julio 2014: ¿Ud. aprueba o desaprueba la forma en que está desarrollando su labor… 0,19
Gobierno Aprueba
0,49
0,56
0,78
0,23
0,20
Oposición
Congreso
0,10 Jueces
0,52
0,00
0,24
0,30
0,40 0,20
0,12
0,28
Desaprueba
No aprueba ni desaprueba
Considerando esto, es posible estimar la proporción poblacional con la proporción de la muestra, siempre y cuando la muestra haya sido elegida aleatoriamente. Para conocer la distribución de este tipo de variables, debemos conocer la distribución binomial cuya notación es B(n,p), que permite dar cómo se distribuye el número de éxitos en un experimento realizado n veces con una probabilidad de éxito para cada uno de ellos determinado por p.
DISTRIBUCIÓN BINOMIAL: VARIABLES DISCRETAS
La distribución binomial permite conocer la distribución de variables aleatorias discretas que tiene solo dos resultados posibles. El primero denominado “p” que es la probabilidad de ocurrencia de 1 suceso en un solo ensayo (éxito) y “q” la cual es la probabilidad de que el suceso no ocurra en un solo ensayo (fracaso) En estos casos la probabilidad de que el evento ocurra exitosamente “x” veces en “n” ensayos independientes está dado por:
n k n k p X k p q , 0 k n k
Esto es lo que se conoce como distribución binomial, que se cumple bajo los siguientes supuestos: Hay un número fijo de intentos o experimentos. La probabilidad de éxito es la misma para cada intento. Todos los intentos son independientes.
DISTRIBUCIÓN BINOMIAL: VARIABLES DISCRETAS
El número de éxitos en n intentos es una variable aleatoria (v.a.) que tiene distribución binomial. En esta función, n sobre k, es el coeficiente binomial, que representa el número de formas en que puede haber x éxitos en n ensayos; p(x) es la probabilidad de obtener x éxitos exactamente y q(n-x) es la probabilidad de ocurran fracasos en los (n-x) ensayos restantes. Al igual que las otras distribuciones es posible calcular la media de la distribución binomial, la cual se encuentra determinada por el producto del número de intentos por la probabilidad de éxitos
Y la varianza por:
2
n* p n * p * q
DISTRIBUCIÓN BINOMIAL: REPRESENTACIÓN GRÁFICA 0,40 0,35 0,30
0,30
B(4;0,5)
B(8;0,5)
0,25
0,25
0,20
0,20
0,15
0,15
0,10
0,10
0,05
0,05 0,00
0,00 0;
1;
2;
3;
4;
0;
1;
2;
3;
4;
5;
6;
7;
8;
0,18 0,16 0,14
B(15;0,5)
0,12 0,10 0,08 0,06 0,04 0,02 0,00 0 ; 1 ; 2 ; 3 ; 4 ; 5 ; 6 ; 7 ; 8 ; 9; 1 0 ; 1 1 ; 1 2 ; 1 3; 14 ; 1 5 ; 1 6 ; 1 7 ; 1 8 ; 19; 20 ; 2 1 ; 2 2 ; 2 3 ; 2 4 ; 2 5 ;
La distribución binomial puede aproximarse a una distribución normal siempre y cuando su media sea n*p 5 o n*(1-p) 5. La cual se distribuye N(np,√n*p*(1−p)).
ESTIMACIÓN DE LA PROPORCIÓN POBLACIONAL : PUNTAJE Z EN BASE A UNA PROPORCIÓN
De igual forma que con las variables continuas, es posible calcular el puntaje Z para una proporción, determinado por la fórmula. ^
^
z =
(n p ) − np
n * p * q
z
( p P ) −
=
^
^
p* (1
−
p)
n
Al conocer el puntaje z, podemos calcular el intervalo de confianza de una proporción.
ESTIMACIÓN DE LA PROPORCIÓN POBLACIONAL : CÁLCULO DEL INTERVALO DE CONFIANZA
El intervalo de confianza para una proporción está determinado por la fórmula: Error máximo de estimación ^
IC = p− z *
p*q
2
n
^
< p < p+ z 1− * 2 Proporción poblacional
Proporción muestral
IC = p± z * 2
p* q n
Nivel de confianza
p*q n
Tamaño muestral
^
^
ESTIMACIÓN DE LA PROPORCIÓN POBLACIONAL: ERROR MÁXIMO DE ESTIMACIÓN Y TAMAÑO DE LA MUESTRA
Para el cálculo del error máximo de estimación para estimar la proporción poblacional está determinado por:
e = z *
p*q n
2
Por otra parte, la fórmula de cálculo del tamaño muestral para la estimación de proporciones es:
¿De qué tamaño debe tomarse la muestra si no hay antecedentes, manteniendo un nivel de confianza de 95% y un margen de error de 5%?
n=
( z 2 )2 * p * q e2
Cuando no se conoce el valor de p, se asume varianza máxima (p=q), en ese caso, el valor de p es 0.5.
ESTIMACIÓN DE LA PROPORCIÓN POBLACIONAL : E JEMPLOS
Considerando la información para el año 2014 de la aprobación presidencial de la encuesta Adimark, Determine la estimación de la proporción con un 95% de nivel de confianza.
Presidente Piñera
Bachelet
EncuestaAdimark Aprueba Mes (En porcentaje) Enero Febrero Marzo Abril Mayo Junio Julio Agosto Septiembre
49 50 54 53 56 58 54 49 47
Tamaño muestral 1125 1090 1034 1171 1143 1033 1071 1043 1063
EN RESUMEN… CINCO PASOS PARA ESTIMAR UN INTERVALO DE CONFIANZA Paso Nº1: El parámetro
Describir el parámetro poblacional de interés
Paso Nº2: El criterio del intervalo de confianza
Revisar supuestos Identificar la distribución de probabilidad y la fórmula a utilizar Establecer el nivel de confianza 1- α
Paso Nº3: La muestra
Recolectar la información de la muestra
Paso Nº4: El intervalo de confianza
Determinar el coeficiente de confianza Encontrar el error máximo de estimación Encontrar el límite inferior y superior del intervalo de confianza
Paso Nº5: Los resultados
Dar cuenta del intervalo de confianza