INTERVALO DE CONFIANZA PARA PROPORCIONES 1. PARA UNA PROPORCION A) FUNDAMENTO TEORICO Sea X1, X2, …, Xn una muestra aleatoria de tamaño n escogida de una población de Bernoulli B(1,p), donde el parámetro p es la proporción de éxitos en la población. En la muestra cada X1=1, si ocurre éxito con probabilidad p, y cada X1=0, si no ocurre éxito en la probabilidad 1-p. El estimador puntual del parámetro p es la estadística
´p proporción de éxitos en la
muestra definida por: n
∑ Xi
´=X P n
o
´ = i=1 P n
Donde, la variable aleatoria: n
X =∑ X i i=1
,
es el número de éxitos en la muestra y cuya distribución es binomial B(n,p).
El valor
´=X P n
que se obtiene de
´ P
para una muestra específica, es la
estimación puntual del parámetro p. La estadística
Su media
Y su varianza
´ P tiene las siguientes propiedades:
´ )= p μP´ =E ( P
σ
2 ´ ) =p (1− p)/n =Var ( P P
Además, si la muestra es grande (n≥30), entonces, por el teorema del límite central,
´ P
la distribución de probabilidad de
es aproximadamente la normal, con media p y
con varianza p(1-p)/n. Luego, la variable aleatoria estandarizada:
Z=
´ Además, si hacemos p= P entonces, el error típico de
´ p P− √ p(1− p)/ n
~
N(0,1)
(por estimación puntual para muestras grandes),
´ P es
ET= √ ´p x ( 1− ´p ) / n
´ Por tanto, la estadística Z definida por Z= ( p− p)/ ET
es la estadística de pivote
para deducir el intervalo de confianza del parámetro p.
Dada la probabilidad 1-α, en la distribución de Z se halla el valor
Z 0 =Z
1−
α 2
; tal
como en la figura 1, tal que:
P [−Z 0 ≤ Z ≤ Z 0 ] =1−α
Sustituyendo
la
expresión
de
´ p)/ ET Z =( P−
y
realizando
operaciones
convenientes se obtiene:
´ ´ P [ P−Z 0 xET ≤ p ≤ P+Z 0 xET ] =1−α Luego: Si
´ P es la proporción de éxitos en una muestra aleatoria de tamaño n grande,
entonces, el intervalo de confianza del
´p−Z 0 xET ≤ p ≤ ´p + Z 0 xET
(1−α )×100 para p es:
Donde,
´ P
ET= √ ´p x ( 1− ´p ) /n es el error típico de
La ilustración de la figura 1 es:
Intervalo de estimación del
(1−α )×100 para p
Donde:
a= p´ −Z 0 xET
y
b= p´ +Z 0 xET
Son los límites de confianza de p, inferior y superior respectivamente. B) Ejemplos: B.1) Ejemplo 1 Una encuestadora utilizó una muestra aleatoria de 600 electores que acaban de votar y encontró que 240 votaron a favor del candidato A. a) Estimar el porcentaje de electores a favor de A en toda la población, utilizando un intervalo de confianza del 95%. b) Si la proporción a favor del candidato A se estima en 40%, ¿cuánto es el error máximo de la estimación, si se quiere tener una confianza del 98%'?. c) Si con la misma muestra la proporción a favor de B se estima en 38% con una confianza del 98% que el error no es mayor a 4.62%, ¿Se pueJe proclamar a A como ganador de las elecciones?.
d) ¿Qué tan grande se requiere que sea la muestra si se desea tener una confianza del 94% de que el error de estimación de p no sea superior a 2%?. SOLUCION a) La estimación puntual de la proporción p a favor de A en la población, es la proporción a su favor en la muestra de n = 6 00 electores; esto es.
´p = 240/600 = 0.40. La estimación del error estándar es
Para 1 - α = 0.95 se tiene
z
1−
α 2
=z 0.975 =1.96
Los límites de confianza de p, inferior y superior, son respectivamente:
´p ± z
1−
α 2
σ^ p´ =0.40 ± 0.0392
Luego, el intervalo de confianza del 95% para p es de 0.3608 a 0.4392. Es decir, p є [36.08%, 43.92%] con confianza del 95%. b) Si p se estima por p se tiene una confianza del (1 - α) x 100% que el error de la
z
estimación no será mayor que
Para una confianza del 98%,
z
1−
α 2
z
1−
1−
α 2
α 2
√ ´p (1− ´p )/n
=z 0.9 9 =2. 33
,y
√ ´p (1− ´p )/n=2.33 √(0.40)(0.60)/600=0.0466
Luego, si con n = 600, p se estima en 0.40, se tiene una confianza del 98% de que el error de la estimación a favor de A no será mayor a 4.66%.
c) El intervalo de confianza del 98% a favor de A es [35.34%, 44.66%]. El intervalo de confianza del 98% a favor de B es [33.38%, 42.62%]. Dado que la intersección de los intervalos no es vacía, no se puede proclamar a A como ganador. En este caso se dice que hay un empate técnico d) Dado el error máximo e de la estimación de p con confianza de (1 — α) x 100% el tamaño n de la muestra, se puede determinar en dos formas: d1) Si se tiene el valor de
´p
(de una muestra preliminar o piloto), el error máximo
de estimación de p es:
e=z
1−
α 2
√ p´ (1− ´p )/n 2
´p (1− ´p ) z ( ) n= 1−
De donde resulta;
e2
´p =0.60. Para el nivel de confianza 1 - α =0.94.
En nuestro ejemplo
Se obtiene:
z
1−
α 2
α 2
=z 0.9 7 =1.88
.
Luego, se tiene una confianza del 94 % que el error al estimar p no será mayor que 0.02 si el tamaño de la muestra es:
n=( 1.88 )2 (0.6)(0.4)/ ( 0.02 )2=2120.64 ≅ 21.21
d2) Si no se tiene el valor p , entonces, se puede usar el valor máximo 1/2.
En efecto,
Luego de
2
´p × q´ = ´p (1− ´p )=− ´p − 1 + 1/4 ≤ 1/4 2
(
e=z
1−
α 2
√ p´ (1− ´p )/n
)
´p
=
q´
=
Resulta:
z ( ) n≅ 1−
2
α 2
4 e2
Para 1 —α = 0 94,
z
1−
α 2
=z 0.9 7 =1.88
.
Luego, se tiene una confianza del 94% que el error al estimar p no será mayor de 0.02 si el tamaño de la muestra es,
n=( 1.88 )2 /(4 × ( 0.02 )2)=2209 NOTA. Si el muestreo es sin reemplazo en una población (Bernoullí de valores 0 y 1) finita de tamaño N, entonces el error estándar de
σ^ p =
√
´p es:
√
´p (1− ´p ) N−n n N−1
y el valor de n se calcula por 2
z
n= z
Si se desconoce , ´p
α 1− 2
( ) 2
α 2
( ) 1−
´ N pq
2 ´ ( N −1 ) pq+e
, se puede utilizar el valor
´p =0.5.
B.2) Ejemplo 2 Una empresa va a hacer un estudio de mercado antes de lanzar un nuevo producto hacia una población de 30,000 consumidores. a) ¿Qué tamaño de muestra deberá escoger si quiere tener una confianza del 95% de que error de la estimación de la proporción a favor del producto no sea superior al 4%?. b) Si con el tamaño de la muestra calculado en a) se utiliza
´p
= 0.7 como
estimación de la proporción de todos los consumidores que prefieren su producto.
¿Qué grado de confianza utilizó si estimó de 19,783 a 22,217 el total de consumidores de la población que prefieren su producto? SOLUCION
a) Para 1 - α = 0.95 se tiene
Utilizando el valor
z
n= z
2 α 2
( )
z
1−
´p (1− p´ )=1/4
α 2
=z 0.975=1.96
y N = 30,000 se tiene
´ N pq
( 1.96 )2 (30,000) =588.49≅ 589 2 2 ´ ( N −1 ) (1.96)2+ 4 ( 0.04 )2( 30,000−1) pq+e 1−
=
(1−α2 )
b) El intervalo 19.783≤Np≤22.217, resulta de N(
´p=¿
√(
´p ( 1− ´p ) n σ¿
1−
α 2
σ p´
), donde
)( NN −n −1 )
Para n = 589, N = 30,000 y
De 22.217=N(
´p ± z
´p + z
1−
α 2
σ ´p
´p = 0.70, se obtiene σ ´p
) resulta
z
1−
α 2
=2.17
= 0.0187,
, 1 – α/2 =0.985, donde α=0.03 y
1 – α = .097
2. Intervalos de confianza para 2 proporciones Vamos a considerar que tenemos dos poblaciones de modo que en cada una de ellas estudiamos una v.a. dicotómica (Bernoulli) de parámetros respectivos p1 y p2. De cada población vamos a extraer muestras de tamaño n1 y n2
Si las muestras son suficientemente grandes ocurre que una aproximación para un intervalo de confianza al nivel 1 − α para la diferencia de proporciones de dos poblaciones es:
Ejemplo: Se cree que la osteoporosis está relacionada con el sexo. Para ello sea elige una muestra de 100 hombres de más de 50 años y una muestra de 200 mujeres en las mismas condiciones. Se obtiene que 10 hombres y 40 mujeres con algún grado de osteoporosis. ¿Qué podemos concluir con una confianza del 95 %? Solución: Llamamos p1 a la incidencia de la osteoporosis en las mujeres de más de 50 años y p2 a la de los hombres. Calculemos un intervalo de confianza para la diferencia (p1 −p2). Si 0 no forma parte de dicho intervalo con una confianza del 95% podemos decir que p1 es diferente a p2 (con tal grado de confianza, por supuesto). La estimación puntual insesgada que podemos hacer de ambos parámetros a partir de los datos muestrales son:
Es decir, tenemos una confianza del 95% en la afirmación de que la diferencia entre la incidencia de osteoporosis en mujeres y hombres esta entre 0,02 (2 %) y 0,18 (18 %). Obsérvese que como 0% no es un valor de dicho intervalo puede concluirse con una confianza del 95% que hay diferente incidencia de osteoporosis en hombres que en mujeres para las personas de más de 50 años. Esta conclusión es algo más pobre de lo que hemos obtenido con el intervalo de confianza, pero visto de esta manera, este ejemplo puede considerarse como una introducción a los contrastes de hipótesis.
PRUEBA DE HIPÓTESIS ACERCA DE PROPORCIONES 1. PRUEBA DE HIPOTESIS PARA UNA PROPORCION A) FUNDAMENTO TEÓRICO Cuando el objetivo del muestreo es evaluar la validez de una afirmación con respecto a la proporción de una población, es adecuado utilizar una prueba de una muestra. La metodología de prueba depende de si el número de observaciones de la muestra es grande o pequeño.Como se habrá observado anteriormente, las pruebas de grandes muestras de medias y proporciones son bastante semejantes. De este modo, los valores estadísticos de prueba miden la desviación de un valor estadístico de muestra a partir de un valor propuesto. Y ambas pruebas se basan en la distribución normal estándar para valores críticos. Quizá la única diferencia real entre las ambas radica en la forma corno se obtiene la desviación estándar de la distribución de muestreo. Esta prueba comprende el cálculo del valor estadístico de prueba Z
Posteriormente este valor es comparado con el valor de Z, obtenido a partir de una tabla normal a un nivel de significación seleccionado. Como ocurrió con la prueba de medias de una muestra, las pruebas de proporciones pueden ser de una o dos colas.
La primera alternativa establece una prueba de cola derecha, la segunda, izquierda y la tercera, una prueba de dos colas. EJEMPLO En un estudio se afirma que 3 de 10 estudiantes universitarios trabajan. Pruebe esta aseveración, a un nivel de significación de 0,025, respecto a la alternativa de que la
proporción real de los estudiantes universitarios trabajan es mayor de lo que se afirma, si una muestra aleatoria de 600 estudiantes universitarios revela que 200 de ellos trabajan. La muestra fue tomada de 10000 estudiantes. Los datos son:
Como en los datos aparece el tamaño de la población, se debe verificar si el tamaño de la nuestra es mayor que el 5%. Se remplaza valores en la siguiente fórmula:
Los cálculos en Excel se muestran en la siguiente figura:
El gráfico elaborado se muestra a continuación:
2. PRUEBA DE PROPORCIONES DE DOS MUESTRAS El objetivo de una prueba de dos muestras es determinar si las dos muestras independientes fueron tomadas de dos poblaciones, las cuales presentan la misma proporción de elementos con determinada característica. La prueba se concentra en la diferencia relativa (diferencia dividida entre la desviación estándar de la distribución de muestreo) entre las dos proporciones muestrales. Diferencias pequeñas denotan únicamente la variación casual producto del muestreo (se acepta H0), en tanto que grandes diferencias significan lo contrario (se rechaza H0). El valor estadístico de prueba (diferencia relativa) es comparado con un valor tabular de la distribución normal, a fin de decidir si H0 es aceptada o rechazada. Una vez más, esta prueba se asemeja considerablemente a la prueba de medias de dos muestras. La hipótesis nula en una prueba de dos muestras es
EJEMPLO Se ponen a prueba la enseñanza de la Estadística empleando Excel y Winstats. Para determinar si los estudiantes difieren en términos de estar a favor de la nueva enseñanza se toma una muestra de 20 estudiantes de dos paralelos. De paralelo A 18 están a favor, en tanto que del paralelo B están a favor 14. ¿Es posible concluir con un nivel de significación de 0,05 que los estudiantes que están a favor de la nueva enseñanza de la Estadística es la misma en los dos paralelos?. Los datos son:
Calculando la proporción muestral se obtiene:
Los cálculos en Excel se muestran en la siguiente figura:
El gráfico elaborado se muestra a continuación:
Decisión:
3. PRUEBA DE PROPORCIONES DE K MUESTRAS
Prueba de proporciones de k muestras
En una muestra se puede dar un conjunto de sucesos, los cuales ocurren con frecuencias observadas "o"(las que se observa directamente) y frecuencias esperadas o teóricas "e" (las que se calculan de acuerdo a las leyes de probabilidad).
Por lo tanto el valor estadístico de prueba para este caso es la prueba ji cuadrado o conocida también como chi cuadrado Como sucede con las distribuciones t y F, la distribución ji cuadrado tiene una forma que depende del número de grados de libertad asociados a un determinado problema. Para obtener un valor crítico (valor que deja un determinado porcentaje de área en la cola) a partir de una tabla de ji cuadrado, se debe seleccionar un nivel de significación y determinar los grados de libertad para el problema que se esté resolviendo.
EJEMPLO:
Determine el número de grados de libertad y obtenga el valores crítico en el niveles 0,05 se significación. Solución: Los grados de libertad se calculan aplicando la fórmula:
Los cálculos en Excel se muestran en la siguiente figura:
2) La siguiente tabla muestra las frecuencias observadas y las frecuencias esperadas al lanzar un dado 60 veces. Contrastar la hipótesis de que el dado es bueno, con un nivel de significación de 0,01.
Solución:
Los cálculos en Excel se muestran en la siguiente figura:
El gráfico elaborado se muestra a continuación:
Decisión: