Mé M étodos E sta stadí sti sti cos cos
V ar ela/ la/L lano lanos/ s/A A sn sna ate
CAPITULO I INTRODUCCIÓN AL MUESTREO 1. 1 INTRODUCCIÓN. Muestreo es el proceso por el cual se realiza inferencias a la población examinando una parte de ella; este proceso es aplicable en nuestra vida personal y cotidiana así por ejemplo una pareja contrae matrimonio en base a un corto enamoramiento, con un simple grano gra no de arroz el ama de casa prueba si todo el arroz esta cocinado en un recipiente, probando el café contenido en una cucharadita se determina la calidad de la marca del café, los dosajes y análisis clínicos (sangre, orina, etc.) Se realizan en base a muestras, una muestra de roca lunar proporcionan información científica sobre el origen de la luna, una zona turística de un país muestra lo atractivo de una parle turística de dicho país y así diferentes aspectos de la vida, vida, cultura y ciencia son investigados en base a muestras. El propósito del muestreo es proporcionar diferentes tipos de información estadística de naturaleza cuantitativa y cualitativa del todo mediante el examen o análisis de un poco de unidades seleccionadas. El método muestral es el procedimiento científico de selección de unidades muestrales las cuales proveerán los estimadores requeridos con cierto margen de seguridad.
1. 2 VENTAJAS DE MUESTREO: El estudio de una muestra tiene ventajas potenciales en los diferentes campos de la actividad humana e investigación científica. Las ventajas del muestreo son: a). Costo reducido; una muestra requiere relativamente mejores recursos para procesarla y diseñarla adecuadamente, así el costo de unidad de observación es alto en comparación con un censo, pero el costo total del estudio por muestreo en mucho menor cubriendo los mismos objetivos y propósitos de la encuesta o cuestionario, debido a que los datos se obtiene únicamente de una pequeña fracción del total de datos u observaciones en estudio o investigación. 1
Mé M étodos E sta stadí sti sti cos
V ar ela/ la/L lano lanos/ s/A A sn sna ate
b). Mayor Rapidez; Un numero pequeño de observaciones puede recolectarse y procesarse más rápido que la información de un censo y dar resultados más oportunos. c). Mayor Alcance; El muestreo tiene un mayor alcance frente al censo con relación a la variedad de información dado su flexibilidad adaptabilidad, y posibilidad de estudiar la interrelación de varios factores en un estudio. d). Mayor Exactitud; Los datos obtenidos con un censo o una muestra están sujeto a diferentes tipos de errores y sesgos, la magnitud de las cuales depende del procedimiento particular del estudio. Sin embargo, si el mismo procedimiento se le asigna para la muestra y el censo, la exactitud de una muestra será la misma, misma, pero comparativamente con una pequeña escala de proporciones un estudio muestral posibilita mayor exactitud por practicarse un mejor control sobre la recolección y procedimiento de datos, empleo de mejor estándar con intensidad entrenamiento y mejor equipo a los encuestadores. d). Único Método de Estudio; Se emplea en estudios donde el examen de las unidades implican su destrucción, tales como: El estudio de la calidad de alimentos envasados, estudio de la calidad de cohetes, granadas y municiones, etc. 1. 3 DESVENTAJAS DEL MUESTREO: 1. Cuando se requiere información básica para cada unidad, obviamente tiene que realizarse un censo. 2. En algunos estudios de tabulaciones cruzadas donde el numero de observaciones muestrales que caen en una cierta celda son muy pequeños y no satisfacen los requerimientos re querimientos de ciertas pruebas. 3. El error debido al muestreo tiende a ser alto en áreas administrativas pequeña y de gran variabilidad, como las observaciones en la población son muy variables, las muestras que se seleccionan difieren unas de las otras como se estudia una sola muestra para generalizar a la población, la diferencia entre el valor dado por una muestra y valor poblacional constituye el error por muestro en cual puede medirse estadísticamente según el aumento 2
Mé M étodos E sta stadí sti sti cos
V ar ela/ la/L lano lanos/ s/A A sn sna ate
b). Mayor Rapidez; Un numero pequeño de observaciones puede recolectarse y procesarse más rápido que la información de un censo y dar resultados más oportunos. c). Mayor Alcance; El muestreo tiene un mayor alcance frente al censo con relación a la variedad de información dado su flexibilidad adaptabilidad, y posibilidad de estudiar la interrelación de varios factores en un estudio. d). Mayor Exactitud; Los datos obtenidos con un censo o una muestra están sujeto a diferentes tipos de errores y sesgos, la magnitud de las cuales depende del procedimiento particular del estudio. Sin embargo, si el mismo procedimiento se le asigna para la muestra y el censo, la exactitud de una muestra será la misma, misma, pero comparativamente con una pequeña escala de proporciones un estudio muestral posibilita mayor exactitud por practicarse un mejor control sobre la recolección y procedimiento de datos, empleo de mejor estándar con intensidad entrenamiento y mejor equipo a los encuestadores. d). Único Método de Estudio; Se emplea en estudios donde el examen de las unidades implican su destrucción, tales como: El estudio de la calidad de alimentos envasados, estudio de la calidad de cohetes, granadas y municiones, etc. 1. 3 DESVENTAJAS DEL MUESTREO: 1. Cuando se requiere información básica para cada unidad, obviamente tiene que realizarse un censo. 2. En algunos estudios de tabulaciones cruzadas donde el numero de observaciones muestrales que caen en una cierta celda son muy pequeños y no satisfacen los requerimientos re querimientos de ciertas pruebas. 3. El error debido al muestreo tiende a ser alto en áreas administrativas pequeña y de gran variabilidad, como las observaciones en la población son muy variables, las muestras que se seleccionan difieren unas de las otras como se estudia una sola muestra para generalizar a la población, la diferencia entre el valor dado por una muestra y valor poblacional constituye el error por muestro en cual puede medirse estadísticamente según el aumento 2
Mé M étodos E sta stadí sti sti cos cos
V ar ela/ la/L lano lanos/ s/A A sn sna ate
del tamaño de la muestra
1. 4 RELACION ENTRE LA MUESTRA Y EL CENSO Muestra y censo en general no son competitivos en muchos casos son complementarios. En programación se emplea a menudo estimaciones gruesas, estas estimaciones serian adecuadas si frente a la falta de datos o deficiencia en los disponibles esto se obtiene mediante estudios muéstrales integrados, donde se interrelacionan la demografía sectores económicos y sociales, en la etapa de implementación de dicha programación se requieren datos seguros y en detalle, estos se obtendrán en base aren un censo. En operaciones tale como: Prueba de procedimientos censales, ordenamientos de ítems, evaluación y control de datos procesados, tabulaciones de variables seleccionadas o ampliadas, se aplica en muestreo como parte integral de un censo.
1. 5 METODOS MUESTRALES. 1. Muestreo Probabilística; Es un proceso muestral donde cada elemento de la población tiene una probabilidad perfectamente conocida de ser incluida en la muestra, solo una muestra probabilística proporciona estimaciones con medida de ser precisión. 2.
Muestreo no Probabilística; Es un proceso por el cual tío se pueden asignar objetivamente probabilidades a los elementos seleccionados y por consiguiente no se puede determinar la precisión de los resultados muestrales en términos de probabilidades. Este muestreo puede ser: muestreo ajuicio o criterio, muestreo por cuotas y también puede ser muestreo por correo (cuestionarios).
3.
Muestreo a criterio o juicio; es un proceso por el cual la selección de las muestras depende del criterio humano 3
Métodos E stadísticos
Varela/Llanos/Asnate
(experiencia) y no de la rigurosa aplicación de la teoría de probabilidades por ejemplo un experto puede coger una muestra de arroz de la parte de su cosecha para examinar su calidad puede ser físicamente imposible seleccionar muestras aleatoriamente dentro del montón de su cosecha y aplicar la teoría de probabilidades sin embargo el experto puede conocer ciertos hechos relacionados con la calidad del arroz este puede ser que todo los granos de arroz sean uniformes es decir todos los granos de arroz presenten el mismo peso o grosor lo cual es suficiente para conocer su calidad 4.
Muestreo por cuotas; Es otro forma de muestreo a juicio en que los sesgos que surgen del método no probabilística de selección de la unidades muéstrales se controlan hasta cierto huerto por la estratificación y el establecimiento de cuotas a cada estrato, es decir que la población se divide en grupos o estratos.
5.
Muestreo o Cuestionario por Correo; Se emplea por ser de bajo costo y facial administración, el principal objetivo a este muestreo es el sesgo causado por el no retorno de cuestionarios, lo cual para superarlo se propone combinar el cuestionario por correo con la entrevista personal, en los estudios de opinión y de mercado se emplea estos tipos de muestreo generalmente. También en investigaciones turísticas.
1.6. DEFINICIÓN DE TERMINOS. 1. Unidad Elemental o simplemente unidad; es el elemento del cual se requiere información (persona, familia, vivienda, etc.). 2.
Población; es el conjunto de todas las unidades que se van analizar o estudiar; la población debe ser definido en su extensión y tiempo.
3.
Marco Muestral; es el documento (lista, fichero, libreta, etc.). Donde se consigna individualmente la unidades muéstrales, de modo que se puedan sortear todo los elementos de la muestra esta documento es indispensable cuando se aplica muestreo 4
Métodos E stadísticos
Varela/Llanos/Asnate
probabilística. El marco muestral debe estar perfectamente actualizado sin omisiones de ningún tipo Ejemplo parco los ciudadanos los registros electorales son importantes para selecciono- los miembros de las cedillas electorales, para hogares y viviendas en el ministerio de vivienda existen cedillas especiales que sirven de información para el Instituto Nacional de Estadística. Para las empresas turísticas, empresas de producción y establecimientos industriales el melar marco para la muestra a este respecto lo da el registro que lleva al día las características de la razón social (SUNAT, Registro Públicos).
1.7. TIPOS DE MUESTREO PROBABILISTICO. 1. Muestreo Aleatorio Simple. Es un procedimiento de selección de una muestra por el cual todos y cada uno de los elementos de la población tienen una oportunidad igual e independiente de ser incluidos en la muestra además si se toma la muestra de tamaño “n” cualquier muestra posible de “n” elementos tiene la misma probabilidad de ser extraída que cualquier otra combinación de “n” elementos. Ya que la muestra se selecciona con o sin reposición, una muestra aleatoria simple se extrae por selección aleatoria empleando números aleatorios o colocando los elementos de la población numerados del 1 a N elementos
2. Muestreo estratificado. Es un método que trata de diseñar una muestra más eficiente que la que se tiene por un procedimiento simple, el muestreo estratificado requiere que la población este dividida en grupos homogéneas o clases llamadas estatus. Para seleccionar muestras se toman de cada uno de los estratos y hacer las respectivas estimaciones de los parámetros mas usados: Promedio, Desviación estándar o desviación típica, o error típico, coeficientes de variación y otros. 3. Muestreo Sistemático: 5
Métodos E stadísticos El muestreo
Varela/Llanos/Asnate sistemático es otra forma de seleccionar “n”
elementos de una población de tamaño “N”, donde se seguirá un
orden pre establecido es decir tomando elementos cada cierto número constante de espacios o cada cierto número de elementos, puesto que las unidades para este tipo de muestreo deben estar ordenadas o factibles de ser ordenados, su aplicación generalmente es en estudio de archivos, estudio de clientes, etc.
4. Muestreo de Conglomerados. Se refiere al procedimientos se refiere al procedimiento de dividir a la población en grupos o conglomerados de unidades o elementos de la población y se extrae muestras de conglomerados que representen a la población cuando se observan todas las unidades elementales en las agrupaciones muéstrales se conoce como el nombre de muestreo monoetapico, cuando se extrae una muestra de todas las agrupaciones se conoce con el nombre de bietapico en ambos procedimientos también se muestrea aleatoriamente. 5. Muestreo por Áreas. El muestreo por áreas es un procedimiento practico por áreas de listado que proporciona hueros marcos para seleccionar diferentes zonas: viviendas, zonas turísticas, zonas residenciales, etc. El muestreo por áreas también se emplea para seleccionar muchas clases de muestras: tiendas, granjas, flora, fauna, cosechas, otras; Aunque que por su movilidad agrega huevas complicaciones. El muestreo por áreas constituye un marco conveniente y efectivo para las viviendas y las personas, esto se debe a varias razones. a) El empleo de mapas permite identificar claramente a toda la población de viviendas (conglomerados). b) Esta identificación posee permanencia, durante el periodo de encuesta a partir del momento de listado. c) El trabajador de campo con rapidez y claridad las fronteras de manzanas y segmentos, y a las viviendas dentro de ellos. d) La vivienda sirve de medio conveniente para el muestreo de personas, puesto que se identifica con facilidad, es relativamente estable, suele contener pocas personas, y se pueden identificar, de 6
Métodos E stadísticos
Varela/Llanos/Asnate
manera única, a toda persona con una sola vivienda. En consecuencia, la vivienda sirve de unidad de muestreo única e identificable para un conglomerado pequeño de personas, y de otras poblaciones que puedan asociarse fácilmente con las viviendas.
1.8. MUESTREO E INVESTIGACIONES MUESTRALES. Las páginas anteriores se han dedicado a la variedad de técnicas que pueden aplicarse en la descripción y análisis de las observaciones. En el presente capitulo nos interesamos por algunos de los problemas que se presenten en la recogida de información estadística, hablamos que los grandes avances efectuados en las últimas décadas en cuando a la cantidad y alcance de las informaciones (datos a investigarse en los diferentes aspectos: Negocios, problemas sociales, problemas públicos y gubernamentales). El conocimiento estadístico proporciona los mejores bases para tomar las muestras en las investigaciones y luego tomar ¡ti respectivas decisiones. Por eso muestro interés también es en el campo demográfico de las poblaciones humanas. Por eso el proceso del analices estadístico descansa en la inferencia estadística, muestreo estadístico e investigación científica. Al exponer la teoría de las distribuciones en el muestreo y de los errores de muestreo los científicos e investigadores sientan las condiciones de las probabilidades y sus aplicaciones en el muestreo. Como la aplicación de los métodos de la probabilidad para optimizar las investigaciones.
7
Métodos E stadísticos
Varela/Llanos/Asnate
TÉRMINOS BÁSICOS PARAMETROS POBLACIONALES El PARAMETRO es una función de los valores de todas las N unidades de la población. Este valor es único, constante y por lo general desconocido. Entre los parámetros más usuales tenemos: MEDIA POBLACIONAL Es la media aritmética de los valores de la variable poblacional en estudio. Se obtiene dividiendo el total poblacional por el número de unidades de la población. Se denota por Y=
Y
Y o X . Así:
X
X=
N
N
VARIANZA POBLACIONAL Llamamos varianza poblacional a la variabilidad de los valores de la variable en estudios en la población y es medida por la media aritmética del cuadrado de las desviaciones de las observaciones poblacionales con respecto a su media. 2
Se denota por y así: 2 y
σ =
1
N
(Yi-Y) N
2
i=1
A esta varianza se le denomina VARIANZA TEORICA por su empleo en demostraciones de tipo teórico, pero como su estimador es SESGADO se ha creído conveniente modificarla a fin de obtener un estimador INSESGADO, resultando así la VARIANZA PRÁCTICA, denotada y definida por: 2 Y
S =
1
N
(Yi-Y) N-1
2
i=1
La diferencia con la varianza teórica está en el denominador, luego: La raíz
2
SY =
1 σ
N-1
2 Y
cuadrada positiva de la varianza se denomina 8
Métodos E stadísticos
Varela/Llanos/Asnate
DESVIACIÓN ESTANDAR POBLACIONAL y se denota por
ó
sY
. COEFICIENTE DE VARIACIÓN Para medir la variabilidad poblacional independiente de las unidades de medición. Se obtiene al dividir la desviación estándar poblacional por la media poblacional. Se denota por CV. Así: Y
CV(Y)=
σ
Y
Y
Generalmente se expresa como porcentaje. El cuadrado del CV se denomina VARIANZA RELATIVA. Con el CV es posible comparar la variabilidad de diferentes unidades. Ejemplo, variabilidad del consumo familiar en diferentes áreas y países.
RAZÓN POBLACIONAL Se obtiene dividiendo los totales o medias poblacionales correspondientes a dos variables estudio, se denota por R, Así: R=
Y X
=
Y X
Donde X, Y, X,Y son totales y medias poblacionales de las variables en estudio.
COVARIANZA POBLACIONAL ENTRE DOS VARIABLES ESTUDIO Mide la variabilidad conjunta de dos variables y se obtiene tomando la media de los productos de las desviaciones de las observaciones con respecto a su media. Se denota por C(X,Y)=σ YX =
σ
1
YX
o C(X, Y). Así:
N
(Yi -Y)(Xi -X) N i=1
9
Métodos E stadísticos
Varela/Llanos/Asnate
COEFICIENTE DE CORRELACIÓN LINEAL POBLACIONAL ENTRE DOS VARIABLES ESTUDIO Mide la relación entre dos variables y se obtiene dividiendo la covarianza por el producto de las desviaciones estándar correspondientes a las variables estudio. Se denota por XY . ρ XY =
σ XY σYσX
El coeficiente de correlación es un número puro que varía desde -1 (perfecta correlación negativa) a través de 0 (No existencia de correlación lineal) a + 1 (Perfecta correlación positiva).
PROPORCIÓN POBLACIONAL Si “A” unidades del total N poseen un cierto atributo o pertenecen a una cierta categoría (tal como N° de viviendas que no poseen desagüe), la proporción poblacional P de tales unidades es: P=
A N
FORMAS DE SELECCIONAR UNA MUESTRA 1.1 MUE STRAS SI N RE E MPL AZO.- Se obtiene una muestra sin reemplazo cuando los elementos de la población no se repiten en la muestra y esto se debe a que una unidad seleccionada para integrar la muestra no es devuelta a la población. 1.2 MUE STRAS CON RE E MPL AZO.- Cuando los elementos de la población se repiten en la muestra y esto se debe a que la unidad seleccionada es devuelta a la población antes de extraer otro elemento muestral. NUMERO DE MUESTRAS
Si el muestreo es con reemplazo Dada una población de N elementos hay Nn formas posibles de seleccionar una muestra de tamaño n. Ejemplo: sea N = 3 hogares de los cuales seleccionamos muestras de tamaño n = 2, con reemplazo. El número de muestras posibles es: N n = 32 = 9 10
Métodos E stadísticos
Varela/Llanos/Asnate
Si denotamos por A, B y C a los tres hogares, las muestras serían: AA, AB; AC; BA; BB; BC; CA; CB; CC Si el muestreo es sin reemplazo: Considerando el orden es: N(N-1)(N-2)...(N-n+1)=
N! (N-n)!
= N P n
En nuestro ejemplo anterior, el número de muestras sería: 3 P2 =
3! (3-2)!
=3x2=6
Muestras
Las muestras serían:
AB; AC; BC BA; CA; CB Note que AB BA por el orden de los elementos b) Sin considerar el orden: Dada una población de tamaño N, el número de muestras de tamaño n que pueden seleccionarse sin reemplazo y sin considerar el orden es: N! n!(N-n)!
N n
=
En nuestro ejemplo, muestras Las muestras serían:
3 2 =3
AB, AC, BC PROBABILIDAD DE SELECCIÓN DE UNA MUESTRA DE TAMAÑO “n” a) En muestreo con reemplazo: La probabilidad es igual a: 1/N n b) En muestreo sin reemplazo: b.1) considerando el orden La probabilidad es igual a:
1 N
b.2 Sin considerar el orden:
Pn
=
1 N(N-1)...(N-n+1)
1 n!(N-n)! N! N
n 11
Métodos E stadísticos
Varela/Llanos/Asnate
La probabilidad es igual a:
PROBABILIDAD DE QUE UN ELEMENTO SE ENCUENTRE EN LA MUESTRA. a) Si el muestreo es con reemplazo: La probabilidad es con reemplazo: La probabilidad de seleccionar un elemento específico en la primera ocasión es 1/N; como el 1er elemento es devuelto a la población, la probabilidad de seleccionar el 2do elemento también es 1/N y así para cualquier elemento específico en cada una de las n ocasiones. Luego. La probabilidad de que un elemento sea incluido en una muestra de tamaño n será: 1/N + 1/N + … +1/N = n/N
b) Si el muestreo es sin reemplazo La probabilidad de seleccionar un elemento específico en la 1era extracción es 1/N. En la segunda extracción, la probabilidad será igual a la probabilidad que sea seleccionado en la 2da extracción; esto es: N-1 N
= N-1 1
1 N
La probabilidad que un elemento específico sea seleccionado en la 3era extracción es igual a: Prob. que no sea seleccionada en Prob. que no sea Prob. que no sea la 1ra x seleccionada en seleccionada en la 2da x la 3ra N-1 N
=
N-2
= N-1 N-2 1
1 N
y así sucesivamente para n extracciones. Por consiguiente: la probabilidad de que un elemento sea incluido en una muestra de tamaño n será n/N. Nota: La probabilidad de que un elemento de la población se encuentra en la muestra es igual a n/N tanto para muestreo con y sin reemplazo.
12
Métodos E stadísticos
Varela/Llanos/Asnate
MUESTREO ESTRATIFICADO 1. INTRODUCCION. En ocasiones la población que se va a investigar se fracciona o subdivide en grupos de características similares, En cada subdivisión la población tiende a ser más homogénea que en la población original y esto contribuye a la exactitud del proceso de muestreo. Las subdivisiones de la población forman una partición, de manera que cada unidad pertenece a una y sólo una subdivisión y la unión de todas ellas conforman la población..En cuanto al método de selección y en parte al de estimación, a cada una de las subdivisiones se le trata en forma independiente, aunque el método de estimación las unirá en forma global. A un esquema de este tipo se le conoce como MUE STRE O ESTRATIFICADO y a cada subdivisión trabajada de manera independiente se le denomina ESTRATO. Para obtener bases para la estratificación, la población original a investigarse debe de ser estudiada cuidadosamente; una buena estratificación ayuda aumentar la precisión de la investigación realizada con una muestra. Así, por ejemplo, la población del Perú se compone de hombres, mujeres y niños de diferentes edades, grupos sociales y ocupaciones. Estas características pueden influir en los puntos de vista de las personas acerca del objeto de la investigación y es posible por lo tanto, formar estratos con personas de características similares, de tal manera que su opinión pueda evaluarse con mayor precisión. Si seleccionamos una muestra aleatoria dentro de los estratos definidos ,el muestreo se denomina MUE STRE O ALE ATOR I O ESTRATIFICADO(st) y tiende a ser más seguro que el muestreo aleatorio simple ya que las características significativas de la. Población quedan representadas adecuadamente en los diferentes estratos. Una muestra aleatoria simple puede de hecho, convertirse en la composición correcta de unidades de muestreo, tomadas de los diversos estratos de una población pero esto NO puede suponerse en todos los casos. Los E RRORE S DE MUESTRE O, que, resultan de una muestra aleatoria-simple serán mayores que los de una muestra-aleatoria 13
Métodos E stadísticos
Varela/Llanos/Asnate
estratificada del mismo tamaño .Esto sucede porque cuando se toma una muestra por el método aleatorio simple hay que considerar dos clases de errores: los que se encuentran DENTRO de cada estrato y los que hay ENTRE dos estratos diversos. Por ejemplo, la gente que se halla en determinado grupo socioeconómico puede tener perfectamente otro punto de vista diferente del que tienen los que están en otro grupo. Además, es probable que haya algunas diferencias de opinión DENTRO de cada grupo socio económico Dado que las características de los estratos de la muestra corresponden a las de la población, la variación entre los estratos ya se tiene en cuenta cuando usamos. El muestreo aleatorio estratificado. Como se anotó antes, el proceso de selección aleatoria sólo tiene lugar después de la estratificación; por eso, los errores de muestreo sólo pueden surgir de una fuente, esto es, de dentro de los estratos. Por lo tanto la estratificación es más efectiva cuando la- MAYOR PARTE DE LA VARIACION de la población es causada por la variación entre los estratos. Los estratos deben por consiguiente, diseñarse de tal manera que difieran significativamente uno de otro y la población dentro de cada estrato debe ser tan homogéneo como sea posible. De esta manera los beneficios de la estratificación se explotan completamente.
2. RAZONES RARA ESTRATIFICAR El muestreo estratificado es ampliamente empleado por varias razones, entre ellas tenemos: a) Cuando se desea estimaciones por separado para cada subdivisión de la población, tales como cuando en una investigación sobre viviendas se requiere información para grupos sociales diferentes o para grupos económicos también diferentes. b) Por conveniencias de tipo administrativo. Así por ejemplo: i) Un Centro de Investigación que tiene a cargo una encuesta y que cuenta con filiales en los diferentes departamentos del País, puede subdividir la población de manera que cada una de ellas pueda supervisar la encuesta en el ámbito correspondiente. 14
Métodos E stadísticos
Varela/Llanos/Asnate
ii) Para una investigación gubernamental, el País puede estratificarse por razones de costo y otras conveniencias, en regiones geográficas, tal como Costa, Sierra y Selva para las cuales el gobierno tiene una determinada infraestructura administrativa. c) Cuando para cada tipo de subpoblación hay problemas muestrales específicos. Así por ejemplo, sí se desea estimar las ventas de los establecimientos comerciales, se pueden estratificar de acuerdo al volumen de ventas, o área que ocupa el local o número de empleados. d) Para lograr ganancia en precisión en los estimadores de las características poblacionales. Una población heterogénea se subdivide en subpoblaciones homogéneas, en donde las unidades varían muy poco de una unidad a otra, logrando de esta manera decisión con una muestra muy pequeña en cada estrato. La ganancia en precisión es superior a la del muestreo aleatorio simple.
3 . NOTACIONES: h : Denota el estrato ( h = 1, ... L) i : Denota la unidad dentro del estrato L : Denota el número de estratos. Nh: Número de unidades en el estrato “h” o tamaño de estrato. nh : Número de unidades de la muestra seleccionada en el estrato “h” o tamaño de muestra en el estrato h. yhi: indica el valor de la i- ésima unidad observada en el estrato “h” Wh =
fh =
N h N
nh N h
:
Ponderación del estrato “h” en la población
:
Fracción de muestreo en el estrato “h”
:
Media del estrato "h"
N h
Y
hi
Yh =
i=1
N h
15
Métodos E stadísticos
Varela/Llanos/Asnate
nh
yhi y h
Medía de la muestra del estrato “h” (Estimador
nh
insesgado de Yh ) Nh
2 Y Y ( ) h hi 2
S h
Varianza Práctica del estrato “h”
N h 1 nh
2 y y ( ) hi h
sh2 Yh
Varianza de la muestra en el estrato “h”.
nh 1
Estimador insesgado del Total del Estrato “h”
Nh y h
4. ESTIMADORES
A.-E STI MADOR DE LA ME DI A POB LACI ONAL ( y st ) El estimador de la media poblacional en el muestreo estratificado es: L
y st
Y N
L
h
N
h
yh
N
Donde:
y h
:
Media de la muestra en el estrato "h"
N = Nl +….+ NL : st
:
Tamaño de la población
denota Muestreo Estratificado.
B. E STIMAD OR DE L TOTAL POBLA CI ÓNAL Si se desea estimar el valor total de una característica usando muestreo estratificado, empleamos la siguiente expresión: Y st N y st ˆ
16
Métodos E stadísticos
Varela/Llanos/Asnate
C. ESTIMADOR DE LA RAZON POBLACIONAL Si el valor de dos variables estudio para la i-ésima unidad (i= l,..N ) en el h-ésimo estrato es denotada por Yhi y Xhi respectivamente, el estimador de la razón poblacional es dado por: Y st ˆ
R ˆ
X st
NOTA.
ˆ
1) Los estimadores del. Total y de la medid poblacional son insesgados. 2) El estimador de razón poblacional es consistente pero sesgado. 3) Los estimadores del total, la media y la razón son los mismos para muestreo sin y con remplazamiento. A medida de resumen presentamos el cuadro siguiente: TOTAL, MEDIA Y RAZON DE DOS TOTALES POBLACIONALES Y SUS; ESTIMADORES
Para el h-ésimo estrato Parámetro Estimador (a) (b) Para una variable estudio TOTAL MEDIA
Para la población Parámetro Estimador (c) (d)
Nh
L
L
Yh Yhi ; Yh Nh y h Y Yh ;
yst Yh Yst
ˆ
i 1
Yh
Y h
N h Para una variables estudio Y h RAZON Rh X h DE TOTALE S
h 1
;
yh
;
r h
Y
y h xh
17
R
Y
N
Y
X
h 1
;
y st / N
;
R st ˆ
Yst ˆ
Yst / N ˆ
/ X st ˆ
r st
Métodos E stadísticos
Varela/Llanos/Asnate
PROBLEMAS RESUELTOS 1.- En una población con N = 6, A = 4 y A’ = 2, calcular el valor de a para todas las posibles muestras simples aleatorias de tamaño 3. a) Verificar los teoremas dados para la media y la varianza. b) Verificar que: N n Es un estimador insesgado de la varianza de p. pq ( n 1) N
Solución a) Si el muestreo es sin reemplazo el número total de muestras a seleccionar será: N 6 n 3 P
2
A
N
3
;
Q
A
N
20
1/ 3
Ahora, sea A1, A 2, A 3, A 4 los elementos de A y B 1, B 2 los elementos de A, entonces tenemos: Muestras a p q Pq (p – P2) (1) A1A2A3 3 1 0 0 1/9 (2) A1A2A4 3 1 0 0 1/9 (3) A1A2B1 2 2/3 1/3 2/9 0 (4) A1A2B2 2 2/3 1/3 2/9 0 (5) A1A3A4 3 1 0 0 1/9 (6) A1A3B1 2 2/3 1/3 2/9 0 (7) A1A3B2 2 2/3 1/3 2/9 0 (8) A1A4B1 2 2/3 1/3 2/9 0 (9) A1A4B2 2 2/3 1/3 2/9 0 (10) A1B1B2 1 1/3 2/3 2/9 1/9 (11) A2A3A4 3 -1 0 0 1/9 (12) A2A3B1 2 2/3 1/3 2/9 0 (13) A2A3B2 2 2/3 1/3 2/9 0 (14) A2A4B1 2 2/3 1/3 2/9 0 (15) A2A4B2 2 2/3 1/3 2/9 0 (16) A2B1B2 1 1/3 2/3 2/9 1/9 (17) A3A4B1 2 2/3 1/3 2/9 0 (18) A3A4B2 2 2/3 1/3 2/9 0 (19) A3B1B2 1 1/3 2/3 2/9 1/9 (20) A4B1B2 1 1/3 2/3 2/9 1/9 40/3 32/9 8/9 18
Métodos E stadísticos
b)
Varela/Llanos/Asnate
b.1.-
E( p) pi Pr ob( pi) (40 / 3)(1/120) 2 / 3 P Luego: E (p) = P b.2.-
V ( p) ( pi P)2 Pr ob( pi) ( pi P)2 (1/ 20) = (8/9) (1/20) = 2/45 Por otra parte: PQ N n
n N 1
Luego: c)
(2 / 3)(1 / 3) 6 3
3
(2 / 27)(3 / 5) 2 / 45 5
PQ N n
E ( s p2 )
n N 1
N n ( n 1) N
E ( pq)
(6 3)
pi qi Pr ob( Pq i i) (3 1)6
(3/12) pi qi (1/ 20)
= (3/12) (1/20) (32/9) = 2/45 = V(p) 2
Luego, s p es un estimador insesgado de V (p).
2.- En una muestra simple aleatoria de 200 obtenida de una población de 2000 colegios, 120 de éstos estuvieron a favor de una propuesta, 57 se opusieron y 23 se abstuvieron de opinar. Estimar los límites de confianza al 95% para el número de colegios en la población que favorecieron la propuesta. Solución: Proporción de colegios a favor de la propuesta: p = a/n = 120/200 = 0.6 Límites de confianza para P, usando la aproximación normal: p Z
( N n) / N
pq / n 1 1/ 2 n
0.6 1.96 (1 200) / 2000 0.6(0.4) /199 1/ 400
0.6 0.0669 19
Métodos E stadísticos
Varela/Llanos/Asnate
De donde: LS p = 0.6669 LI p = 0.5331 Luego los límites de A en la población serán: LSA = NLS p = 2000(0.6669) = 1334 LSA = NLS p = 2000(0.5331) = 1066 Por consiguiente, con el 95% de confianza, el número de colegios a favor de la propuesta se encuentra entre 1,066 y 1334.
3.- En los resultados de la muestra anterior se obtiene una evidencia contundente de que la mayoría de los colegios en la población favorecieron la propuesta. Solución: a. Hipótesis Estadística: Ho P = 0.5 Ha P = 0.5 b. Nivel de significancia: = 0.05 c. Distribución para la prueba: Distribución normal d. Función Pivotal: p P z s p e. Valor Experimental:
0.6 z
o
0.5
3.039
0.0329
Donde: 2
s p
N
(n
2000
(200
n
1) N
pq
200
1)2000
(0.6)(0.4)
= 0.00108 Luego: sp = 0.0329 f.- RR y RA de Ho RA/Ho: Si z < 1.64 se acepta Ho RA/Ho: Si z > 1.64 se acepta Ho g. como zo pertenece a la RR/Ho, entonces se acepta H1 20
Métodos E stadísticos
Varela/Llanos/Asnate
h. Conclusión: La mayoría de los colegios están a favor de la propuesta. Nota: Z = 3.039 le corresponde una probabilidad de 0.0012, o sea que la prueba es casi concluyente; pues se acepta Ha con el 0.12% de participación del azar.
4.- Una población con N = 7 consiste de los elementos de M1, C1, C2, C3, D 1, D 2 y D 3. Se toma una muestra simple aleatoria de tamaño 4 con el fin de estimar la proporción de C respecto a C + D. a) Calcule las distribuciones condicionales de esta proporción, p. b) Verifique la fórmula de su varianza condicional. Solución: a) Clase Ai Unidades 1 1 M1 2 3 C1, C2, C3 3 3 D1, D2, D3 Donde: N = 7 y N’ = C + D = 3 + 3 = 6
Ahora, con n = 4 deseamos estimar: A2 C 3 1 P A2 A3 C D 3 3 2
7 En general existen 35 muestras diferentes de tamaño 4 y las 4 cuales son: M1C1C2C3 M1C1C3D2 M1C1D1D2 M1C3D1D3 C1C2C3D1 C1C2D2D3 C2C3D1D3
M1C1C2D1 M1C1C3D3 M1C1D1D3 M1C1D2D3 C1C2C3D2 C1C3D1D2 C2C3D2D3
M1C1C2D2 M1C2C3D1 M1C2D1D2 M1C2D2D3 C1C2C3D3 C1C3D1D3 C1D1D2D3
Distribución condicional, para n’ = 3:
21
M1C1C2D3 M1C2C3D2 M1C2D1D3 M1C3D2D3 C1C2D1D2 C1C3D2D3 C2D1D2D3
M1C1C3D1 M1C2C3D3 M1C3D1D2 M1D1D2D3 C1C2D1D3 C2C3D1D2 C3D1D2D3
Métodos E stadísticos
Varela/Llanos/Asnate
A2 A3 A2 A3 / a a a a 2 3 2 3
P (a2/A2, A3, n, n’) =
3 3 6 P (3/3, 3, 4, 3) = / = 1/20 3 0 3 3 3 6 P(2/3, 3, 4, 3) = / = 9/20 2 1 3 3 3 6 P(1/3, 3, 4, 3) = / = 9/20 1 2 3 3 3 6 P(0/3, 3, 4, 3) = / = 1/20 0 3 3 Distribución condicional para n’ = 4
3 3 6 P(3/3, 3, 4, 4) = / = 1/5 3 1 4 3 3 6 P(2/3, 3, 4, 4) = / = 3/5 2 2 4 3 3 6 P(1/3, 3, 4, 4) = / = 1/5 1 3 4 b) Para n’ = 3 y donde
a2 = N° de elementos muestrales que pertenecen a C a3 = N° de elementos muestrales que pertenecen a D P = 3 / (3+3) = 1/2 b.1.- E ( p) 1x10 (2 / 3)(9 / 20) (1/ 3)(9 / 20) (0)(1/ 20) 1/2 Luego, E(p) = P
b.2.- p ( p P) Pr ob. Cond. 2
2
= (1/2)2 (1/20) + (1/6)2 (9/20) + (-1/6)2 (9/20) + (-1/2)2 (1/20) = 1/20 22
Métodos E stadísticos
Varela/Llanos/Asnate
Por otra parte, N ' n ' PQ 6 3 (3 / 6)(3 / 6) 1/20 3 N 1 n ' 6 1
Por consiguiente se cumple la formula: 2
p
N ' n ' PQ N ' 1 n '
CUADRO DE CALCULOS PARA n’ = 3
s ar ts 2 e
3 a
u
3 2 2 2 2 2 2 2 2 2
0 1 1 1 1 1 1 1 1 1
o p(
P
1 2/3 2/3 2/3 2/3 2/3 2/3 2/3 2/3 2/3
Pn
or
M
M1C1C2C3 M1C1C2D1 M1C1C2D2 M1C1C3D3 M1C1C3D1 M1C1C3D2 M1C1C3D3 M1C1C3D1 M1C2C3D2 M1C2C3D3
) d
b p
a
. . C
1/20
1/2 1/6 1/6 1/6 1/6 1/6 1/6 1/6 1/6 1/6
9/20
M1C1D1D2 M1C1D1D3 M1C2D1D2 M1C2D1D3 M1C3D1D2 M1C3D1D3 M1C1D2D3 M1C2D2D3 M1C3D2D3 M1D1D2D3
2 1 1 1 1 1 1 1 1 0
1 2 2 2 2 2 2 2 2 3
1/3 1/3 1/3 1/3 1/3 1/3 1/3 1/3 1/3 0
9/20
1/20
-1/6 -1/6 -1/6 -1/6 -1/6 -1/6 -1/6 -1/6 -1/6 -1/2
Cuadro de cálculos para n’ = 4 s ar ts 2 e
3 a
u
p a
M
C1C2C3D1 C1C2C3D2 C1C2C3D3 C1C2D1D2 C1C2D1D3 C1C2D2D3 C1C3D1D2
3 3 3 2 2 2 2
1 1 1 2 2 2 2
3/4 3/4 3/4 2/4 2/4 2/4 2/4
. ) o p(
. d b or P
1/5
3/5
Pn C
¼ 1/4 1/4 1/4 0 0 0
23
C1D1D2D3 C2D1D2D3 C3D1D2D3
1 3 1/4 1 3 1/4 1 3 1/4
1/5
-1/4 -1/4 11/4
Métodos E stadísticos C1C3D1D3 C1C3D2D3 C2C3D1D2 C2C3D1D3 C2C3D2D3
2 2 2 2 2
2 2 2 2 2
Varela/Llanos/Asnate
2/4 2/4 2/4 2/4 2/4
0 0 0 0 0
Para n’=4:
b.1.- E( p ) pi Pr ob. Cond. pi = (1/5)(3/4)+(2/4)(3/5)+(1/4)(1/5) = 1/2 Luego se cumple la relación: E (p) = P b.2.- V( p ) ( p P) Pr ob. Cond . pi 2
= (1/4) (1/5) + (0) (3/5) + (-1/4) (1/5) = = 1/40 Por otra parte,
N ' n ' PQ 6 4 (1/ 2)(1/ 2) 1/40 4 N ' 1 n ' 6 1 Luego, la relación:
N ' n ' PQ Se cumple N ' 1 n '
V ( p )
5.- Se eligió una muestra aleatoria simple de 290 familias de un área de la ciudad conteniendo 14,828 familias. A cada familia se le preguntó si la casa era suya o rentada y también si tenían el uso exclusivo de un baño interior. Los resultados fueron como sigue. Propietario Uso exclusivo de baño
Rentada
Total
Si
No
Si
No
141
6
109
34
290
a) Para familias que rentan, estimar el porcentaje en el área de familias que cuentan con un baño interior de uso exclusivo y 24
Métodos E stadísticos
Varela/Llanos/Asnate
dar el error estándar de su estimador. b) Estimar el número total de familias que rentan casa en el área y que no tienen un baño interior para uso exclusivo y da el error estándar de este estimador.
Solución a) Estimador del porcentaje de familias en el área, que cuentan con baño interior de uso exclusivo: p
p ˆ
a / n'
V ( p) 1
y DE ( p)
109 /143
76.2%
Con:
n ' pq
143 (0.762)(0.238) 0.0012648 1 N n ' 1 14828 142
0.0012648
3.6%
b) Como el número de familias en el área que rentan casas no es conocido, el estimador será: N 14,828 A a (34) 1738 familias n 290 Con un error estándar de: S ˆ
A N (1 n / N ) ˆ
pq n 1
donde; p a / n 34 / 290 0.1172
(14,828) (1 290 /14828)
ˆ
(0.1172)(0.8828) 289
= 14,828 (0.018735) = 278 familias
6.- Si en el ejercicio anterior el número total de familias que rentan casa en el área de la ciudad es de 7,526, construya un nuevo estimador del número de arrendatarios que no cuentan con la facilidad de un baño exclusivo y dar el error estándar de este estimador. 25
Métodos E stadísticos
Varela/Llanos/Asnate
Solución: Estimador de la proporción: p p = 34/143 = 0.237762237 = 0.2378 Estimador del total:
ˆ
A Np = 7526(0.2378) = 1,789 familias Error estándar del estimador: ˆ
s A N (1 n / N ) ˆ
pq n 1
= 7,526 (1 143/ 7526)
(0.2378)(0.7622) 142
= 7,526 (0.99045) (0.03573) = 276.6 Luego, DE ( A ) = 268 familias ˆ
7.- En la muestra de 30 familias dada en el cuadro siguiente, se refiere al número de visitas al dentista realizadas en el último año. Estimar la varianza de la proporción de personas que vieron a un dentista y comparar ésta con el estimador de la varianza Binomial. Solución: Sea ai, N° de personas que visitaron al dentista mi N° de integrantes por familia Luego, la proporción de personas que visitaron al dentista será: a p m i
= 22/104 = 0.21154 = 21.15%
i
Con una varianza de: V ( p)
(1 f )
ai
2
2 p ai mi p
2
mi
2
nm 2 n 1 Donde: n es el tamaño de muestra de conglomerados (familias) m es el tamaño familiar promedio = m/n = 104/30 = 3.4667 personas Como N es desconocido, asumimos que n/N tiende a 0 Luego: 26
Métodos E stadísticos
Varela/Llanos/Asnate
32 2(0.21154)(87) (0.21154(404) V ( p) 0.00184 2 30(3, 46667) 29 1
Ahora varianza Binomial: V ( p )
pq
n
Donde n es el número de personas que consultaron al
dentista (0.21154)(0.7884)
0.001603
104 Por consiguiente podemos concluir que la varianza Binomial es menor que la hipergeométrica. INFORMACIÓN DE UNA MUESTRA SIMPLE ALEATORIA DE 30 FAMILIAS 2 N° de N° de Dr. Visto No miai a 2 m i i familia persona en el año s s Si (ai) mi 1 5 1 4 5 1 25 2 6 0 6 0 0 26 3 3 1 2 3 1 9 4 3 2 1 6 4 9 5 2 0 2 0 0 4 6 3 0 3 0 0 9 7 3 1 2 3 1 9 8 3 1 2 3 1 9 9 4 1 3 4 1 16 10 5 0 4 0 0 16 11 3 1 2 3 1 9 12 2 0 2 2 0 4 13 7 2 5 14 4 49 14 4 1 3 4 1 16 15 3 0 3 0 0 9 16 5 1 4 5 1 25 17 4 4 0 16 16 16 18 4 1 3 4 1 16 27
Métodos E stadísticos 19 20 21 22 23 24 25 26 27 28 29 30
3 3 4 3 3 1 2 4 3 4 2 4
Varela/Llanos/Asnate 1 0 1 0 1 0 0 0 1 1 0 0
2 3 3 3 2 1 2 4 2 3 2 4
3 0 4 0 3 0 0 0 3 4 0 0
1 0 1 0 1 0 0 0 1 1 0 0
9 9 16 9 9 1 4 16 9 16 4 16
8.- Supongamos que el coeficiente de variación del ingreso monetario de las granjas de pollos del lugar es del 100%. De que tamaño se requiere una muestra de granjas; si se desea un error tolerable de 5% con una confianza del 95%; para una zona con 2,000 granjas; b) una zona con 200, 000; c) una zona con 5’000,000 granjas.
Solución: Si CV = 100%, entonces S = X; luego:
no
Z S
2
2
(dx)
2
2
Z
2
d
= (1.96)2 / (0.05)2 = 1,536.64 Ahora como no/N es mayor que el 5%, entonces corregimos. Esto es: n
1,536.64 1
1536.64
869
granjas
2,000
b.- Para una zona con 200,000: no/N = 1536.64/200,000 = 0.768% que es menor del 5% Por consiguiente “n” óptimo es igual a: n = 1,537 c.- Para una zona con 5’000,000 de granjas no/N = 0.03073% que es menor del 5% Por consiguiente, el tamaño de muestra óptimo, será igual a: n = 1,537 28
Métodos E stadísticos
Varela/Llanos/Asnate
Nota: A mayor tamaño de población no corresponde mayor tamaño de muestra; esto se puede apreciar en el ejercicio. El tamaño de muestra está en relación con el coeficiente de seguridad y la precisión. 9.- En un distrito conteniendo 4,000 casas va a ser estimado el porcentaje de propietarios con un error estándar no mayor de 2% y el porcentaje de familias con dos carros con un error estándar de no mas del 1% (las cifras 2 y 1% son valores absolutos, no coeficientes de variación). Se piensa que el verdadero porcentaje de propietarios está entre el 45 y el 65% y el porcentaje de familias con dos carros entre el 5 y el 10%. Que tan grande se necesita tomar la muestra para satisfacer los dos objetivos? Solución a) Para propietarios: V ( p )
N
N
n PQ 1 n
(0.02) 2
Luego, el tamaño de muestra será: i) Para P = 45% (4000 n) (0.45)(0.55) 3999 n De donde n = 535.945
ii) Para P = 65% (4000 n) (0.65)(0.35) n 3999 de donde n = 498.057
0.0004
0.0004
b) Para famílias de dos carros: V ( p )
N
N
n PQ 1 n
(0.01) 2
29
Métodos E stadísticos
Varela/Llanos/Asnate
i) Para P = 5% = 0.05 (4000 n) (0.05)(0.95) 3999 n de donde n = 424.67 ii) Para P = 10% = 0.10 (4000 n) (0.10)(0.90)
0.0001
0.0001
n 3999 de donde n = 734.84 Por consiguiente, para satisfacer los 2 objetivos se necesita tomar una muestra de 735 casas; este tamaño corresponde a familias con dos carros y P = 10%. 10.- En una población de 676 hojas de solicitud. Que tan grande debe ser la muestra si se va a estimar el número total de firmas con un margen de error de 1000 y una probabilidad de 1 en 20. se contó el número de firmas por hoja en una muestra previa de 50 hojas seleccionadas al azar (muestra del 7% aproximadamente); obteniendo los siguientes resultados: N° de 2 2 2 1 1 1 1 1 1 42 41 36 32 9 firmas yi 9 7 3 9 6 5 4 1 0 Frecuenc 23 4 1 1 1 2 1 1 2 1 1 1 1 1 ia f i
7 1
6 3
5 2
4 1
3 1
Solución La varianza de la muestra es: fi yi 2 (1471) 2 2 s fi yi (1/ 49) 54, 497 50 n 1 f i 2
1
= 229 30
Métodos E stadísticos
Varela/Llanos/Asnate
Suponiendo que el valor de s2 es el valor de s2 en la población, entonces el tamaño de muestra previa para el total de firmas será: 2
no
2
N Z S
d
Ahora, como
2
2
no N
2
2
2
(676)2 (2)2(229)2
N Z S
2
d
418.59
676
(1000)
0.5947
2
418.59
0.05
Entonces, el tamaño de muestra para el total será: no 418.59 n 258.51 259 hojas no 1 0.5947 1
N Por consiguiente, para estimar el número total de firmas se necesita una muestra de 259 hojas.¨
11.- Se va a realizar una encuesta para determinar la existencia de enfermedades comunes en una población grande. Para cualquier enfermedad que afecte cuando menos al 1% de los individuos en la población, se desea estimar el número total de casos, con un coeficiente de variación de no más del 20%. a) Que tamaño de muestra simple aleatoria es necesaria, suponiendo que la presencia de la enfermedad puede ser reconocida sin equivocación? b) Que tamaño de muestra se necesita si se desea obtener el número total de casos separadamente para hombres y mujeres, con la misma precisión. a) El coeficiente de variación del total es igual al coeficiente de variación de p; luego: PQ / n
CV ( p )
p
P
P
Q
n
P
de donde: n
Q 2
CV( p ) P
0.99 2
(0.20) (0.01)
31
2, 475 Individuos
Métodos E stadísticos
Varela/Llanos/Asnate
b) Cuando se requieren estimadores no sólo para la población como un todo; sino para subdivisiones, tales como áreas geográficas, sexo o grupos etareos de la población, el tamaño de muestra obtenido para estimar los valores poblacionales con una precisión dada, debe incrementarse dado a que se requieren estimadores para las subdivisiones con la misma precisión como los obtenidos para la población. Como regla general, tenemos: Si se requieren estimadores con varianza V en cada una de las k subpoblaciones, el tamaño de muestra será: n' = kn Donde n es el tamaño de muestra para toda la población con la misma varianza V. En nuestro caso, K = 2 y asumiendo que el número de hombres y mujeres son aproximadamente iguales en la población, obtenemos: N’ = 2(2475) = 4,950 individuos.
12.- Los siguientes coeficientes de variación fueron obtenidos en una encuesta de predios agrícolas en la unidad fue una área de una milla cuadrada Coeficiente de Características Variación Estimado % Acres en predios agrícolas 38 acres de maíz 39 Acres de Avena 44 N° de trabajadores de la familia 100 N° de trabajadores contratados 110 Número de desempleados 317 Se planea una encuesta para estimar características de área con un coeficiente de variación de 2,5% y -número de trabajadores (excluyendo a los desempleados) con un coeficiente de variación del 5%. Con una muestra simple aleatoria. Cuantas unidades se necesitan? Que también se supone que esta muestra estime el número de desempleados? Solución 32
Métodos E stadísticos
Varela/Llanos/Asnate
a) Conocemos que:
CV ( y )
y
/ n
y
y
/y
CV ( y )
n
n
CV ( y ) n= CV y ( )
De donde:
2
Luego: i) Tamaño de muestra para trabajadores: El máximo coeficiente de variación para trabajadores corresponde al número de contratados (excluyendo a desempleados), para los cuales CV (y) = 1.10 y como se desea CV ( y ) = 0.05; entonces: 2
1.10 n= = 484 trabajadores 0.05 ii) tamaño de muestra según área: El máximo coeficiente de variación en áreas corresponde a acres en avena con un CV (y) = 0.44 y como se desea CV (y) = 0.025, entonces: 2
0.44 n= = 310 0.025 De i) y ii) podemos concluir que el tamaño de muestra requerido, será de n = 484, tamaño determinado por el número de trabajadores b) El coeficiente de variación para el N° de trabajadores sin empleo y para un tamaño de muestra de n = 484, es:
CV ( y )
y
CV ( y )
3.17
0.144 14.40%
y n 484 13.- Por muestreo experimental, el valor promedio de una variable aleatoria va a ser estimado con una varianza V = (0.0005) 2. Los valores de la variable aleatoria para las primeras 20 muestras se muestran a continuación. ¿Cuántas muestras adicionales se necesitan? N° de muestra Valor de la V.A. 1 0.0725 33
Métodos E stadísticos
Varela/Llanos/Asnate 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
0.0755 0.0759 0.0739 0.0732 0.0843 0.0727 0.0769 0.0730 0.0727 0.0712 0.0748 0.0878 0.0710 0.0754 0.0712 0.0757 0.0737 0.0704 0.0723
Solución Sea yi el valor de la variable aleatoria, entonces: n1 = 20 1 s2 n1 1
yi 1.4941 y y
yi
2
2
i
1
i
2
n1
0.11197099
0.11197099
19
(1.4941) 2 20
= 1.8644736 x 10-5 Luego: 2 1.8644736 x10 5 2 s 2 1 1 n 82 2.5 x10 7 20 v n1 y por consiguiente, se necesitarán: n – n1 = 82 – 20 = 62 observaciones más
34
Métodos E stadísticos
Varela/Llanos/Asnate
14.- Los colegios con programas de estudios de cuatro años, fueron divididos en clases de 4 tamaños diferentes de acuerdo con el número de matriculados. Las desviaciones estándar de cada clase se muestran a continuación: Clases 1 2 3 4 N° de estudiantes < 1000 1000 - 3000 - + de 3000 10000 10,000 S 236 625 2008 10,023 Si conoce los límites de clase pero no los valores de S, ¿Qué también puede estimar los valores de S usando cifras matemáticas simples? Ningún colegio tiene menos de 200 estudiantes y el más grande tiene cerca de 50,000 estudiantes. Solución La relación entre el rango (R) y la varianza de la distribución matemática puede utilizarse para estimar la varianza. Deming (1,960) dio las siguientes reglas para estimar la varianza dado el rango y si la forma de la distribución era conocida o supuesta. Tipo de Distribuc.
Media
Varianza
Binomial Rectangular Triangular I Triângulo II Normal
(p) (R) (1/2)R (1/3)R (2/3)R (1/2)R
p(1-p)/R 2 R 2/12 R 2/18 R 2/18 R 2/36
Desviación Estándar R
p(1 p) 0.29R 0.24R 0.24R R/6
Coeficiente de variación
(1 p) / p 0.58 0.71 0.35 1/3
Si asumimos una distribución rectangular en cada estrato, el rango (R) y la desviación estándar = 0.29 R se dan a continuación:
N° de estudiantes
Tamaño de clase de colegios 1 2 3 200 - 1000 - 3000 35
4 – 10,000-
Métodos E stadísticos
Rango (R) A) Actual B) Estimada (0.29R)
Varela/Llanos/Asnate 1000 800 236 232
3000 2,000 625 580
10000 7,000 2,000 2,030
50000 40,000 10,023 11,600
Si asumimos una distribución normal en cada estrato la desviación estandar será: Tamaño de clase de colegios 1 2 3 4 N° de estudiantes 200 - 1000 - 3000 – 10,0001000 3000 10000 50000 Rango (R) 800 2,000 7,000 40,000 A) Actual 236 625 2,000 10,023 B) Estimada (R/6) 133 333 1,167 6,667 Si asumimos una distribución triángulo en cada estrato la desviación estándar será: Tamaño de clase de colegio 1 2 3 4 N° de estudiantes 200 - 1000 - 3000 – 10,0001000 3000 10000 50000 Rango (R) 800 2,000 7,000 40,000 A) Actual 236 625 2,000 10,023 B) Estimada (R/6) 192 480 1,680 9,600 Nota. La distribución triángulo es de tipo I y Tipo II
APLICACION DEL MUESTREO ALEATORIO SIMPLE. Se desea estimar la remuneración promedio de las Trabajadores del Sector Educación-provincia de Huaraz-con 10 a 20 años de servicios institucionales a Diciembre de 2007.Determinar: i) El tamaño de muestra adecuado. ii) Seleccionar los elementos muestrales 36
Métodos E stadísticos
Varela/Llanos/Asnate
iii) Obtener las Estimaciones correspondientes a la población descrita. Solución I.- DETERMINACION DEL TAMAÑO DE MUESTRA ADECUADO. Asumiendo que la población es grande, debemos aplicar la fórmula Sgte: 2
ZS ZS no = d % X
2
Tamaño de muestra preliminar o
correspondiente al muestreo con REMPLAZO Donde X y S son el promedio .y la desviación estándar de las remuneraciones a Diciembre de 1,987; datos que pueden obtenerse en las tres formas Sgtes:
1.1. EN BASE A DATOS ANTERIORES: En la Oficina de Planeamiento, según documento interno de trabajo se tiene que la remuneración promedio de los elementos de la población, a JULIO de 1,987 fue aproximadamente de: = 3,209 Intis con SJ = 242 Intis Conocedores que a Diciembre del mismo año el gobierno ha otorgado aumento de haberes en aproximadamente el 30% de la remuneración total; el promedio y. la desviación estándar necesarios para determinar el tamaño de muestra seria: X J
X D =M (1.30 XJ ) = 1.30 M(XJ) = 1.30(3209) = 4172 Intis SD = DE (1.30 XJ). = 1.30 DE (XJ) = 314.6 = 315 Intis. donde XJ : Remuneración a Julio ; M(X J) :Promedio de las remuneraciones a Julio. Luego, el TAMAÑO DE MUESTRA PRELIMINAR para una seguridad' del 95% (Z=1.96) y una precisión del 5% de la remuneración promedio (error relativo) sería: 2
n
0
2
1.96 x315 617.4 9 0.05 4172 208.6 x
para una precisión del 3% de la remuneración promedio sería: 37
Métodos E stadísticos
Varela/Llanos/Asnate 2
n
0
2
1.96 x315 617.4 24 x 0.03 4172 125.16
para una precisión del 2% de la remuneración promedio sería: 2
n
0
2
1.96 x315 617.4 55 0.02 x 4172 83.44
Ahora, suponiendo que dispongo aproximadamente de una semana para presentar el informe y que por lo limitado de los recursos económicos, solo dos personas pueden dedicarse a recolectar los datos; no queda otra alternativa que asumir la muestra de tamaño n = 24 esto es, con una precisión o error tolerable del 3%. NOTA.- Si asumiera el tamaño de muestra n = 55; esto es con un error tolerable del 2%, el tiempo para presentar el informe sería rebasado. Veamos: 1 persona como máximo realiza 4 encuestas diarias; luego 55 encuestas se realizará en 14 días aproximadamente. Sí se emplean dos encuestadores, se realizarán en 7 días. Como podemos apreciar sólo el recojo de, datos, abarca la semana disponible, faltando el procesamiento de datos y la confección del informe final. La confrontación del tiempo disponible y el de ejecución de encuesta me conduce a descartar la precisión del 2% de la remuneración.
I.2.- CRITERIO DEL RANGO Bajo el supuesto que la población es grande, las observaciones poblacionales seguirán una distribución normal con: = R/2 y S = R/6, donde R = LS - Li NOTA: Para obtener los límites es conveniente recurrir a algunos elementos de la población o a personal que trabaja muy cerca de los individuos de los cuales se requiere información. En nuestro ejemplo; consultando a profesores comprendidos en nuestra población, se obtuvo: Remuneración Mínima: Li = 4,000 soles Remuneración máxima: Ls = 6,000 soles Datos, que aproximadamente fueron muy próximos a los proporcionados por el personal de pagaduría. X
38
Métodos E stadísticos
Varela/Llanos/Asnate
Luego: X S
6, 0 00 4, 0 00
2
6, 000 4, 000 6
5, 000
333
Por consiguiente, para una seguridad del 95% (Z = 1.96) y un error relativo del 3% obtenemos: no = ZS 1.96 x333 19 2
d
2
0.03x5000
(Tamaño muy próximo al calculado anteriormente)
1.3.- SELECCION DE MUESTRA PILOTO: La muestra piloto además de servirnos para probar la, bondad o exactitud de la encuesta principal, sus resultados nos pueden servir para estimar la varianza poblacional, sobre todo cuando ésta muestra por sí misma es una muestra aleatoria simple. Para obtener un tamaño de muestra adecuado se recomienda ajustar la muestra piloto, mediante la expresión: n
2
S 1 V
1
2
n1
Donde; S 12 y n1 son la varianza y tamaño de muestra, piloto. V = (d/Z)2
II.- SELECCION DE OBSERVACIONES MUESTRALES. Para determinar las observaciones poblacionales que pasan a constituir la muestra usamos la tabla de números aleatorios. En nuestro ejemplo: 1. Seleccionamos como arranque aleatorio la Fila 15 y Columna 25. Esto es A(15,25) 2. Como el tamaño de población (N = 600) está constituido por tres dígitos, en la tabla trabajamos con tres columnas; la 25, 26 y 27. Así; nuestra primera observación muestral será la observación poblacional, con el número 149; la segunda será la número-186 y así. 3. Al encontrar en la tabla un número superior al tamaño de población, empleamos cualquiera de los procedimientos que 39
Métodos E stadísticos
Varela/Llanos/Asnate
permiten su empleo. Para nuestro ejemplo construimos los intervalos: (1) 1 600 (2) 601 1,200 Como el límite superior del segundo intervalo supera al tamaño poblacional deja de ser útil, reduciéndose nuestro trabajo a restar 600 a todo número de tres cifras mayor al tamaño poblacional. Así, obtenemos: Fila
Columnas 25-26-27 149 186 782 767 702
15 16 17 18 19
Observaciones X149 X186 X782 – 600 = X182 X767 – 600 = X167 X702 – 600 = X102
4.- Así, las observaciones poblacionales que pasan a constituir la muestra (n = 24); esto es, los elementos del marco muestral de los cuales se requiere información serán: Observ Muestr X1 X2 X3 X4 X5 X6 X7 X8 ación o al N° elemen Poblaci X149 X186 X182 X167 X102 X46 X439 X329 to onal N° X9 X234
X10 X354
X11 X143
X12 X276
X13 X169
X20 X21 X22 X14 X15 X67 III.- ESTIMACIONES 3.1 PUNTUALES:
X23 X231
X14 X76
X15 X191
X16 X32
X17 X190
X24 X122
i) Remuneración media: X x 4,622.29 ii) Total de remuneraciones: ˆ
X ˆ
Nx
600(4, 622.29)
40
2 ' 773, 374
X18 X467
X19 X48
Métodos E stadísticos
Varela/Llanos/Asnate
iii) Varianza y desviación Estándar de las remuneraciones: 2
S x ˆ
sx2 103,111.87
2
S x ˆ
2
sx
321.11
3.2.- INTERVALICAS Para la construcción de los intervalos de confianza para la media y el total es necesario el cálculo de las varianzas de los estimadores y para ello se requiere determinar el tipo de muestreo a trabajar. 1) El tipo de muestreo se determina mediante la fracción muestral. Así en nuestro ejemplo: f = n/N = 24/600 = 0.04 < 5% Luego, para obtener las varianzas asumimos el muestreo con reemplazo. 2) Estimador de la varianza del Estimador: De la media: V ( X ) ˆ
luego; s
s
ˆ
2
103,111.87
n
24
4296.33
65.55
x
Del total: V (X ) ˆ
ˆ
N
2
(s 2 / n)
(600) 2 (4296.33)
1546678.800
Luego; s x 39,327.84 Nota: Al trabajar con los estimadores de los estimadores, sólo requerimos del tamaño de población; el resto, es información muestral lo cual constituye una gran ventaja.
Intervalos de confianza: Para la Media: X t( / 2 ˆ
4,487
n1
) s X ˆ
x 4758
41
Métodos E stadísticos
Varela/Llanos/Asnate
Así, la remuneración promedio de los docentes con 10 a 20 años de servicio a diciembre de 1987 y con una probabilidad del 95% fluctúa entre 2’692.004.7 y 2’854,743.3
Nota: Se emplea el coeficiente de confianza t ( / 2;n 1) por ser la muestra menor de 30.
IV.- APLICACIONES Suponiendo que el 3% de la remuneración se destina al pago de alimentos del mes vencido, entonces, la disponibilidad promedio para el próximo mes, aproximadamente fluctuará entre 3,141 y 3,331 1. En una muestra de 40 familias de 6 miembros, se encontró que el consumo promedio mensual es de 5 kg. con una desviación estándar de 2.2 kg. si se conoce que el total de familias en el sector es de aproximadamente de 4,000. Determinar con una seguridad del 95% el número de sacos de arroz necesarios para abastecer el consumo de dichas familias. Solución: A. Estimador del total de kilos de arroz X ˆ
4, 000(5)
20, 000kg
B. Desviación estándar del estimador: Como n/N = 40/4,000 = 1% < 5%, entonces aplicamos el muestreo con reemplazo. Así,
2(2.2)2 V ( X ) N (4, 000) 1'936, 000 n 40 Luego; s 1,391.4 kg ˆ
ˆ
2 s
2
x
C. Estimación Interválica X Z / 2 s ˆ
x
20,000 1.96 (1391.4) 17,272.86 X 22,727.14 kg 42
Métodos E stadísticos
Varela/Llanos/Asnate
El total de kg de arroz consumidos en el mes por familias de 6 miembros, con una seguridad del 95% fluctúa entre 17,272.86 y 22,272.14 kg. Ahora, como cada saco de arroz contiene 50 kg; el número de sacos necesarios por mes fluctuará entre 346 y 455 sacos aproximadamente. Si cada saco de arroz costara 500, entonces, la cantidad total de dinero que importaría el abastecimiento fluctuará entre 173,000 y 227,500 mensuales.
2.- En un determinado hospital se llevan estadísticas de los recién nacidos. En una semana nacieron 2,000 niños con una talla promedio de 46 cm. A los siete meses de edad se elige aleatoriamente a 30 de ellos obteniéndose su talla correspondiente (yi), registrándose también su talla inicial (xi) a partir de sus fichas de nacimiento. Si los datos son los que se indican a continuación: y i
x i
5 2 3 8
6 2 4 3
7 3 5 0
5 7 4 5
6 8 4 5
5 4 4 2
5 3 4 0
5 1 3 8
6 3 4 6
7 0 4 8
7 0 5 3
7 1 5 0
5 5 4 0
5 9 4 7
7 1 4 7
5 7 7 6 5 5 5 5 6 5 7 4 5 5 7 8 2 4 3 3 2 6 7 0 8 4 8 2 7 0 4 4 4 4 4 3 4 4 4 4 5 3 3 4 4 4 8 9 6 0 9 2 1 6 4 0 7 9 4 8 Estimar: a) La talla media de los niños a los 7 meses de edad. b) El error estándar del estimador. c) Calcule el intervalo de confianza del 95% para la talla media de los niños, en base: c.1 La media muestral c.2 La razón muestral Solución: Cálculos previos 43
Métodos E stadísticos
yi 1,833; 2
2 y i 11391; sy 8.1467
s y 66.368965; s
2
x
Varela/Llanos/Asnate
xi 1,329;
xi 59, 403; 2
s y 4.2681
18.217241
a) Talla media de los niños a los 7 meses de edad: Y
ˆ
y
1,833/ 30
61.1cm.
b) Error estándar del estimador de la media: Como n/N < 0.05, se emplea las formulas para las poblaciones finitas. c) Intervalo de confianza para la talla media de los niños: LI: 61.1 – (1.96) (1.48) = 58.1992 LS: 61.1 + (1.96) (1.48) = 64.008 Luego: 58cm y 64cm. La talla media de los niños a los 7 meses de haber nacido, fluctúa entre los 58 y 64cm; con una probabilidad del 95%. C.2.Intervalo de confianza para la razón de crecimiento de los niños. LI: 1.3792 – (1.96) (0.0130) Luego: 1.352 R 1.4062 LS: 1.3792 + (1.96) (0.0130) El incremento de la talla de los niños a los 7 meses, con una seguridad del 95%, fluctúa entre el 35 y 41% con respecto a sus tallas al nacer. =n
Ni
pi qi ci
L
N k
pk qk ck
k 1
Donde: N, denota el tamaño del i-ésimo estrato pi , denota la proporción poblacional para el i-ésimo estrato ci ,
denota el costo por obtener una reservación individual de i-ésimo
estrato. 44
Métodos E stadísticos
Varela/Llanos/Asnate
03.- una muestra irrestricta aleatoria de n = 9 registros del hospital es seleccionada para estimar la cantidad promedio de la deuda sobre N = 484 cuentas abiertas. Los valores de la muestra para estos nueve registros están listados en la tabla. Estime, la cantidad promedio de la deuda, y establezca un limite para el error de estimación. Cantidad de dinero adeudado y1 33.50 y 2
32.00
y3
52.00
y 4
43.00
y5
40.00
y6
41.00
y7
45.00
y8
42.50
y9
39.00
Solución: Es conveniente presentar los datos y cálculos de la muestra como se indica en la tabla. Al sumar las cantidades en la columna “y”, obtenemos: 9
y
i
= 368.00
i 1
De la columna de
y
2
, tenemos 9
yi
2
= 15,332.50
i 1
Datos y cálculos para el ejemplo y 33.50 32.00
y2 1,122.25 1,024.00 45
Métodos E stadísticos
Varela/Llanos/Asnate
52.00 43.000 40.00 41.00 45.00 42.50 39.00
2,704.00 1,849.00 1,600.00 1,681.00 2,025.00 1,806.25 1,521.00
yi 368.00
2 y i 15,332.50
Necesitamos estas dos cantidades para calcular Y y S2. Nuestra estimación de es: 9
y 1
y
i 1
9
368.00 9
40.39
Para encontrar un límite para el error de estimación, debemos calcular: 2
9 2 y y yi y ( )2 i i /9 i 1 S2 = i 1 i 1 n 1 8 2 1 1 (368) = 15, 332.50 15, 332.50 15, 047.11 8 9 8 = 35.67 Utilizando la ecuación, obtenemos el límite para el error de estimación. 9
n
2 V ( y) 2 ˆ
s N n 2
n
N
2
35.67 484 9 9
484
= 2 3.890 = 3.944 = S/ 3.94
4.- Una empresa industrial está interesada en el tiempo por semana que los científicos emplean para ciertas tareas triviales. Las hojas de control del tiempo de una muestra irrestricta aleatoria de n = 50 empleados muestran que la cantidad promedio de tiempo empleado en esas tareas es de 10.31 horas, con una varianza muestral s 2 = 2.1. La compañía emplea N = 750 científicos. Estime el número total de horas-hombre que se pierden por semana en las tareas insignificantes y establezca un límite para error de estimación. 46
Métodos E stadísticos
Varela/Llanos/Asnate
Solución: Sabernos que la población consiste de N = 750 empleados, de los cuales una muestra aleatoria de n = 50 hojas de control del tiempo fue obtenida. La cantidad promedio de tiempo que se pierde por los 50 empleados fue y = 10.31 horas por semana. La estimación de es: = Ny = 750(10.31) = 7732.5 horas A fin de establecer un límite para el error de estimación, aplicamos la Ecuación, para obtener:
2/
V ˆ
( )
=
2.25 750 50 2 (750) 2 50 750 2
23, 625
= 307.4 horas.
Por lo tanto la estimación del tiempo total perdido es = 7732.5 horas. Estamos razonablemente confiados de que el error de estimación es menor que 307.4 horas.
5.- La cantidad promedio de dinero para las cuentas por cobrar de un hospital debe ser estimada. Aunque no se cuenta con datos anteriores para estimar la varianza poblacional 2, se sabe que la mayoría de las cuentas caen dentro de una amplitud de variación de $ 100. Existen N =1000 cuentas abiertas. Encuentre el tamaño de muestra necesario para estimar µ con un límite para el error de estimación de B = $ 3. Solución Necesitamos una estimación de 2, la varianza poblacional. Ya que la amplitud de variación es aproximadamente igual a 4 desviaciones (4 ), un cuarto de tal amplitud proporcionará un valor aproximado de y Por lo tanto, rango
4 2
y Al usar la Ecuación, obtenemos:
n
100
(25)2
4
25
625
N 2 ( N 1) D 2 47
Métodos E stadísticos
Varela/Llanos/Asnate
Donde Así,
n
D
B
2
2
3
4
2.25
4
1000(625) 999(2.25) 625
217.56
Esto es, necesitamos aproximadamente 218 observaciones para estimar µ, la media de las cuentas por cobrar, con un límite para el error de estimación de $ 3.00
6. Los dirigentes del consejo estudiantil en un colegio desean realizar una encuesta para determinar la proporción de estudiantes que está a favor de una propuesta de código de honor. Ya que entrevistar a N = 2000 estudiantes en un lapso razonable es casi imposible, determine el tamaño de muestra (número de estudiantes a entrevistarse) necesario para estimar p con un límite para el error de estimación de magnitud 13 = 0.05. Suponga que no hay información previa disponible para estimar p. Solución: Cuando no se cuenta con información previa, podemos aproximar los tamaños de muestra requeridos, estableciendo p = 0.5 en la Ecuación. Tenemos que: D
B
2
4 n
=
(0.05) 2
4
0.000625
Npq
( N
1) D pq
(2000)(0.5)(0.5) (1999)(0.000625)
(0.5)(0.5)
500 1.499
= 333.56 Esto es, 334 estudiantes deben ser entrevistados para estimar la proporción de estudiantes que está a favor de una propuesta de código de honor, con un límite para el error de estimación de B = 0.5.
7.- Con referencia al Ejemplo, supóngase que además de estimar la proporción de estudiantes que apoya la propuesta de código de honor, los dirigentes del consejo estudiantil también desean estimar el número 48
Métodos E stadísticos
Varela/Llanos/Asnate
de estudiantes que considera que la organización del consejo estudiantil funciona de acuerdo a sus necesidades. Determine el tamaño de muestra combinado que se requiere en una encuesta para estimar p, la proporción de quienes están a favor de la propuesta de código de honor, y 11 2, la proporción de los que opinan que el consejo estudiantil funciona de acuerdo con sus necesidades, con límites para los errores de estimación de magnitud B1 = 0.05 y B = 0.07. Aunque no se dispone de información anterior para estimar p 2 aproximadamente el 60% de los estudiantes opinó que el consejo satisfizo adecuadamente sus necesidades en una encuesta similar llevada a cabo el año anterior. Solución: En este ejemplo debemos determinar un tamaño de muestra que nos permita estimar p, con un límite B 1 = 0.05 y p 2 con un límite B2 = 0.07. Primero determinamos los tamaños de muestra que satisfacen cada objetivo separadamente. Luego, el mayor de los dos será el tamaño de muestra combinado para una encuesta que satisface ambos objetivos. Del ejemplo el tamaño de muestra requerido para estimar p 1 con un límite para el error de estimación de B 1 = 0.05, fue n = 334 estudiantes. Podemos usar los datos de la encuesta del año anterior para determinar el tamaño de muestra necesario para estimar p 2. Tenemos que: D
B
2
4
(0.07)2
Y por lo tanto, con p 2 = 0.60 n=
0.001225
Npq
( N
=
4
1) D pq
(2000)(0.6)(0.4) (1999)(0.001225) (0.6)(0.4)
480 2.68877
= 178.52 Esto es, 179 estudiantes deben ser entrevistados para estimar p 2, la proporción de N = 2000 estudiantes que considera que el consejo estudiantil satisface sus necesidades, con un límite para el error de estimación igual a 0.07. El tamaño de muestra requerido para lograr ambos objetivos en una encuesta es 334, el mayor de los dos tamaños de muestra. 49
Métodos E stadísticos
Varela/Llanos/Asnate
8.- Una empresa publicitaria está interesada en determinar qué tanto debe enfatizar la publicidad televisiva en un determinado municipio, y decide realizar una encuesta por muestreo para estimar el número promedio de horas por semana que se ve la televisión en los hogares del municipio. Este comprende dos pueblos, pueblo A y pueblo B, y un área rural, El pueblo A circunda una fábrica, y la mayoría de los hogares son de trabajadores fabriles con niños en edad escolar. El pueblo B es un suburbio exclusivo de una ciudad vecina y consta de habitantes más viejos con pocos niños en casa. Existen 155 hogares en el pueblo A, 62 en el pueblo B y 93 en el área rural. Analice los méritos de usar muestreo aleatorio estratificado en esa situación. Solución: La población de hogares se ubica en tres grupos naturales, dos pueblos y un área rural, de acuerdo con su localización geográfica. Entonces la población dividida en tres estrato, bastante natural, simplemente por conveniencia administrativa para seleccionar las muestras y para ejecutar el trabajo de campo. Además, los elementos de cada estrato deben presentar tendencias similares de comportamiento entre ellos mismos. Se espera relativamente poca variabilidad en el número de horas que se ve televisión en los hogares de cada grupo, y este es precisamente el caso en que la estratificación produce una reducción en el límite para el error de estimación. La empresa publicitaria puede desear producir estimaciones por separado, del número promedio de horas que se ve televisión en cada pueblo. El muestreo aleatorio estratificado permite estas estimaciones. Para la muestra aleatoria estratificada, tenemos N 1 =155, N2 = 62 y N3 = 93, con N = 310.
9.- Suponga que se lleva a cabo la encuesta planteada en el ejemplo. La empresa publicitaria tiene tiempo y dinero suficientes para entrevistar n = 40 hogares, y decide seleccionar muestras aleatorias de tamaño n1 = 20 del pueblo A, n2 = 8 del pueblo B y n5 = 12 del área rural. (Después analizaremos la elección de los tamaños de muestras). Se seleccionan las muestras irrestrictas aleatorias y se realizan las entrevistas. Los 50
Métodos E stadísticos
Varela/Llanos/Asnate
resultados, con mediciones del tiempo que se ve la televisión en horas por semana, se muestran en las tablas. Estime el tiempo promedio que se ve televisión, en horas por semana, para (a) todos los hogares en el pueblo A y (b) todos los hogares en el pueblo B. En ambos casos fije un límite para el error de estimación. Los términos s12 , s22 , s32 en la tabla son las varianzas muéstrales para estratos 1, 2 y 3, respectivamente: fueron obtenidos mediante la fórmula: ni
( yi
j
2
si
ni
y
yi )2
j 1
ni
2
ij
1
ni yi2
j 1
ni
1
Para i = 1, 2, 3 donde y ij es la observación j-ésima en el estrato i. Estas varianzas estiman las correspondientes varianzas verdaderas en los estratos
2 2 2 1 2 3
,
,
Solución: a) De la tabla y ecuación: y st
1
1
N
N
1
y1
N 2 y2
N 3 y3
(155)(33.900) (62)(25.125) (93)(19.000)
310 = 27.7 es la mejor estimación del número promedio de horas por semana en que en todos los hogares del municipio se ve televisión. También, Ni ni si2 V ( y st ) N 2 N i 1 Ni ni 1
3
2 1
= (155)2 (0.871)(35.358) (62) 2 (0.871)(232.411) (93) 2(0.871)(87.636) (310) 2 20 8 12 1
La estimación de la media poblacional, con un límite para el error de estimación aproximadamente dos desviaciones estándar, está dada por: y st
2 V ( y st ), ˆ
27.675 51
2 1.97,
27.7
2.8
Métodos E stadísticos
Varela/Llanos/Asnate
Entonces estimamos que el número promedio de horas por semana que se ve televisión en los hogares del municipio es de 27.7 horas. El error de estimación debe ser menor que 2.8 horas, con una probabilidad aproximadamente igual a 0.95 (b) Las ni = 8 observaciones del estrato 2 constituyen una muestra irrestrictamente aleatoria; por ello podemos aplicar las formulas del capitulo anterior. Tiempo que se ve televisión en horas por semana Estrato 1, pueblo A 35 28 26 41 43 29 32 37 36 25 29 31 39 38 40 45 28 27 35 34
Estrato 2, pueblo B 27 4 49 10 15 41 25 30
Cálculos para la tabla Estrato 1 Estrato 2 N1 = 20 n2 = 8 Y1 = 33.900 Y2 = 25.125 s
2
1
35.358
Estrato 3, área rural 8 15 21 7 14 30 20 11 12 32 34 24
Estrato 3 n3 = 12 Y3 = 19.000
2
s2 232.411
s
2
3
87.636
N1=155 N2=62 N3 = 93 Tiempo promedio de ver televisión para el pueblo B, con un límite de aproximadamente dos desviaciones estándar para el error de estimación, está dada por: y 2
N 2 n2 s22 N 2 n2
osea
25.1 2
62 8 232.411 8 68
o sea 25.1 10.1 Esta estimación tiene un límite grande para el error de estimación porque s22 es grande y el tamaño de muestra n 2 es pequeño. Entonces la estimación y st de la media poblacional es bastante buena, pero la estimación y 2 de la media del estrato 2 es deficiente. Si se desea una 52
Métodos E stadísticos
Varela/Llanos/Asnate
estimación para un estrato particular, la muestra del estrato debe ser lo suficientemente grande para proporcionar un límite razonable para el error de estimación.
10.- Remítase al ejemplo anterior y estime el número total de horas por semana que las familias del municipio dedican a ver televisión. Fije un límite para el error de estimación. Solución: Con los datos de la tabla: N y st = 310 (27.7) = 8587 horas La varianza estimada de Nyst está dada por:
V ( N y st ) N 2V ( y st ) (310)2 (1.97) 189.278.560 La estimación del total de la población, con un límite para el error de estimación, está dada por: ˆ
N y st
ˆ
2
V ( N y st ) ˆ
o sea
8587 2 189, 278.560
o sea 8587 870 De esta manera estimamos que el tiempo semanal total que en los hogares del municipio se ve televisión es de 8587 horas. El error de estimación debe ser menor que 870 horas.
11.- Una encuesta anterior sugiere que las varianzas de los estratos para el ejemplo, aproximadamente s22
2
25, 2
225
y
2
3
100 .
Deseamos estimar la media poblacional mediante yst. Seleccione el tamaño de muestra para obtener un límite para el error de estimación igual a 2 horas, si las fracciones asignadas son w 1 = 1/3, w2 = 1/3 y w3 = 1/3. en otras palabras, se debe tomar un número igual de observaciones de cada estrato. Solución: Un límite para el error de estimación de 2 horas significa que: 2 V ( y st ) 2 o sea
V(yst) = 1
Por tanto D = 1 En el ejemplo anterior N1 = 55, N2 = 62 y N3 = 93. Por eso: 53
Métodos E stadísticos 2
3
i 1
2
Ni i wi
2
2
N 2 1
w1
(155)2 (25)
Varela/Llanos/Asnate 2
2
2
2
N 2 2 N 3 3 w2
w3
(62) 2 (225)
(93) 2 (100)
(1/ 3) (1/ 3) (1/ 3) = (24,025) (75) + (3844)(675) + (8649) (300) = 6,991.275 3
N i
2 i
N1 12 N 2 22 N 3 32
i 1
= (155) (25) + (62) (225) + (93) (100) = 27,125 N2D = (310)2 (1) = 96,100 De la ecuación tenemos que: 3
N n
2
2
i
i
/ wi
i 1
3 2
N D
2
N i i
6,991.275 96.100 27.125
6,991.275 123.225
56.7
i 1
Entonces el experimentador debe tomar n = 57 observaciones con n1 = n(w1) = 57(1/3) = 19 n2 = 19 n3 = 19
12.- Una investigación quiso estimar el peso promedio de 90 ratas (50 machos y 40 hembras) que han sido alimentados con cierta dieta. Las ratas fueron separadas por sexo; por lo que el uso de, muestreo aleatorio estratificado con dos estratos pareció apropiado. Para aproximar la variabilidad dentro de cada estrato, la investigadora seleccionó la rata más pequeña y la más grande en cada estrato y las pesó. Ella encontró que la amplitud de variación fue de 10 gramos para los machos y 8 para las hembras. ¿Qué tan grande debió tomarse la muestra para estimar el promedio poblacional con un límite de 1 gramo para el error de estimación? Suponga que el costo de muestreo fue el mismo para ambos estratos. Solución: 54
Métodos E stadísticos
Varela/Llanos/Asnate
Denotemos los machos como el estrato 1 y las hembras como el estrato 2. Para usar la Ecuación primero debemos aproximar 1 y 2. La desviación estándar debe ser alrededor de un cuarto de la amplitud de variación, suponiendo que los pesos tienen una distribución normal. Entonces 10 1
2.5
4
y
2
8
4
2.0
De la ecuación: ni = n N N i
i
2
i
i
i
1
2
Donde:
N i
i
(50)(2.5) (40)(2.0) 125 80 205
i 1
Entonces: ni = n N N i
i
2
i
i
i 1
y
125 n 0.61n 205
80 n n 0.39n 205 2
Entonces w1 = 0.61 y w2 = 0.39 Debemos calcular las siguientes cantidades para poder encontrar n: 2
2
N i i
2
2
(50)(2.5) (40)(2.0) 472.50
i 1
D
B 2
(1) 2
0.25
4 4 Usando la ecuación tenemos:
55
Métodos E stadísticos N 3
i
n
i
1
i
Varela/Llanos/Asnate
2
2
2
N D
N
i
2
i
i 1
n
(205)2
2
(90) (0.25) 472.50
16.83
n1 = n w1 = (17) (0.61) = 10 n2 = nw2 = (17) (0.39) = 7
V.- VARIANZAS MUESTRALES Y SUS ESTIMADORES PARA MUESTREO SIN REEMPLAZO PARA MUESTREO CON REEMPLAZO a) Varianza del Estimador de la media poblacional:
V ( y st )
N
S h2
L
1 2
Nh( N h nh ) n h 1
h
L
V ( y st ) W
2 h
h 1 L
=
W
2 h
h 1
S h2 nh
S h2 nh
(1 f h )
b) Varianza del estimador del total poblacional: v(yst) = v(n yst) L
V (Y st ) N 2 Wh2 ˆ
h 1
S h2 nh
(1 f h ) 2
L
V (Y st ) N ˆ
W
2
2
h
nh
h 1
L
=
S h2
Nh ( Nh nh ) n h 1
h
S h
L
=
N
2 h
h 1
S h2 nh
56
Mé M étodos E sta stadí sti sti cos cos
V ar ela/ la/L lano lanos/ s/A A sn sna ate
c) Estimador de la varianza del estimador de la media poblacional
V ( y st ) ˆ
L
W
2 h
h 1
S h2
(1 f h )
nh L
V ( y st ) W
2 h
ˆ
h 1
S h2 nh
Donde sh2 es el estimador insesgado de
2
S h
d) Estimador de la varianza del estimador del total poblacional L
V (Y st ) N ˆ
ˆ
2
W
2 h
h 1
S h2 nh
(1 fh ) 2
L
V (Y st ) N ˆ
ˆ
W
2
2
h
nh
h 1
S h2
L
=
N h ( N h nh ) n h 1
S h
L
=
N
2
h
h 1
h
2
S h
nh
Nota: El muestreo sin reemplazo también se le conoce como muestreo para poblaciones finitas, y al muestreo con reemplazo como muestreo para poblaciones infinitas no olvidar, que cuando f = n/N es menor del 10% se considera a la población como INFINITA.
VI.- INTERVALOS DE CONFIANZA
st Z / 2 V ( st ) ˆ
ˆ
ˆ
PARA POBLACIONES FINITAS POBLACIONES POBLACIONES INFINITAS
PARA
a) Intervalo de confianza para la media poblacional (u , Y)
57
Mé M étodos E sta stadí sti sti cos 2 s 2 h
L
Wh
y st Z / 2
V ar ela/ la/L lano lanos/ s/A A sn sna ate
nh
(1 f h ) 2 s 2 h
L
y Z
b)
Intervalo
y st Z
/2
/2
W h
de
confianza
L
2 s 2 h
Wh
N
nh L
Y Z
nh
/ 2N
para
el
total
poblacional
(Y)
(1 f h ) 2
2 sh Wh nh
PROBLEMAS 1.- Sea la población hipotética de 6 familias (N = 6), clasificadas en N 1 = 3 familias del sector I y N 2 = 3 familias del sector II; para las cuales presentamos los siguientes datos correspondientes al ingreso familiar. FAMILIAS DEL SECTOR I DEL SECTOR II N1 = 3 N2 = 3 Y1i Y2i 58
Mé M étodos E sta stadí sti sti cos cos
V ar ela/ la/L lano lanos/ s/A A sn sna ate
Y11 = 2 Y12 = 4 Y13 = 6 Y1 = 12 Y 1
Y21 = 8 Y22 = 12 Y23 = 16 Y2 = 36
4
Y 2
12
a. Número de estratos: L = 2 L 2
b. N N h N1 N 2 3 3 6 h 1
c. Total de ingreso en el estrato: Y h = Yhi En estrato I: Y1
3
Y
1i
Y11 Y12 Y13 13 2 4 6 12
i 1 3
En estrato II:
Y2
Y2i Y21 Y22 Y23 8 12 16 36 23 i 1
d. Total Poblacional L
L
Nh
Y Yh Yhi Y1 Y2 12 36 48 h 1
h 1 i 1
e. Media en el estrato o ingreso ingreso medio por sector Y Y h h N h En sector I
Y 1
En sector II
Y 2
Y 1 N 1
Y 2 N 2
12
4
3
36 3
12
f. Media poblacional o ingreso familiar promedio Y
Y N
(Y1 ( N1
Y 2
)
N 2 )
(12 36) 33
8
ESTIMADORES DEL TOTAL Y LA MEDIA POBLACIONAL Ejemplo 59
Métodos E stadísticos
Varela/Llanos/Asnate
Obtener muestras sin reemplazo de tamaño 2 en cada estrato de nuestra población hipotética y demostrar que: E( Y st ) = Y
y
ˆ
E ( y st ) Y
Demostración: a) N° de muestras en cada estrato: De estrato I
3 2 3
3 2 3
De estrato II
b) N° de muestras posibles a seleccionar de la población:
3 3 2 2 9 c) Muestras y estimadores Estratos I II y y 1
2,4
8,12 8,16 12,16 8,12 8,16 12,16
2,6
6
8
10
2
20 24 28 20 24 28 20 24 28
y1
y 2
N1 y1
N1 y 2
Y st
y st
3
10 12 14 10 12 14 10 12 14
9
30 36 42 30 36 42 30 36 42
39 45 51 42 48 54 45 51 57
39/6 45/6 51/6 42/6 48/6 54/6 45/6 51/6 57/6
4
5
12
15
a) E (Y st ) ˆ
M 9
Y
st
P(Y st ) 39 / 6(1/ 9) 45 / 6(1/ 9) ... 57 / 6(1/ 9) ˆ
= (1/9)(432) = 48 Como Y = Y1 + Y2 = 12 + 36 = 48 Entonces: E(Y st ) Y 8 ˆ
y 60
Métodos E stadísticos Por consiguiente,
Varela/Llanos/Asnate es INSESGADO de Y
Y st ˆ
b) E ( y st ) y st P( y st ) 39 / 6(1/ 9) 45 / 6(1/ 9) ... 57 / 6(1/ 9)
= (1/9)(432/6) = 8 Como
Y =
Y/N = 48/6 = 8
Entonces: E( y st ) Y 8
y
Por consiguiente, y st
es INSESGADO de
Y
Ejemplo: En el ejercicio anterior, encontrar M = 9 posibles estimadores de
V ( y st ) y demostrar que: E V ( y st ) V ( y st )
Demostración Estratos I
ˆ
II
2
2
s1
2,4
8,12 2 8,16 12,16 2,6 8,12 8 8,16 12,16 4,6 8,12 2 8,16 12,16 a) Varianzas muestrales en los estratos sh2
s2
V ( y st )
8 32 8 8 32 8 8 32 8
15/36 51/36 15/36 24/36 60/36 24/36 15/36 51/36 15/36
2
sh
( yh1 yh 2 ) 2 / 2
En estrato I
En estrato II
s12 (2 4) 2 / 2 2
s2
= (2 – 6)2/2 = 8 = (4 – 6)2/2 = 2
2
(8 12) 2 / 2 8
= (8 – 16)2/2 = 32 = (12 – 16)2/2 = 8 61
Métodos E stadísticos
Varela/Llanos/Asnate
b) Estimador de la varianza de y st Se obtiene para cada muestra de tamaño n = 4 Para muestra: (2, 4, 8, 12) obtenemos:
S h2 V ( y st ) W (1 f h ) nh h 1 2
2 h
ˆ
2
2
2 N1 ( N1 n1 ) s1
=
N
2 N 2 ( N 2 n2 ) s2 n1 N N2 n2
N1
2
2
= 3 (3 2) 2 3 (3 2) 8 15 3 2 6 3 2 36 3 y de esta manera obtenemos todos los valores de la columna V ( y st ) ˆ
c) Valor esperado de V ( y st ) ˆ
M
V ( y
E V ( y st )
ˆ
ˆ
st
)P V ( y st )
ˆ
= (1/9) (15/36 + 51/36 + … +15/36)
= 30/36 d) Varianza de y st 2
V( y st ) =
w
2 h
N h nh S h2
h 1
2 1
=W
N1 n1 S12 N1
n1
N h
nh 2 2
W
N 2 n2 S 22 N2
n2
= (3/6)2 (3-2/3) + (3/2)2 (3-2/3) (16/2) = 30/36 De c) y d) concluimos que V ( y st ) es INSESGADO de V ( y st ) ˆ
MUESTREO ESTRATIFICADO PARA PROPORCIONES: 62
Mé M étodos E sta stadí sti sti cos cos
V ar ela/ la/L lano lanos/ s/A A sn sna ate
NOTACIONES Ah : N° de unidades del estrato “h” que poseen el atributo. ah : N° de unidades muestrales muestrales del estrato “h” que poseen el atributo. Ph : Proporción en la muestra en el estrato “h”: P h = ah / nh ESTIMADORES Y VARIANZAS MUESTRALES 1. Estimador de la proporción poblacional: L
P st pst N h ph / N ˆ
h 1
2. Varianza del estimador de la proporción poblacional: Para poblaciones finitas Para poblaciones infinitas V ( p st )
L
1 N 2
N h2 ( N h nh ) Ph Qh ( N h 1)nh 1
V ( p st )
L
N h2 Ph Qh
N 2 nh 3. Estimador de la varianza del estimador de la proporción poblacional
V ( p st ) s ˆ
2 p
1 N 2
L
nh
h 1
V ( p st ) ˆ
N h ( N h nh ) PhQh
L
Wh2 PhQh
h 1 L
nh
Wh2 PhQh (1 f h )
nh Nota: No olvidar que: h 1
VARIANZA DE LA PROPORCIÓN MUESTRAL EN EL ESTRATO “h”
Para muestreo sin reemplazo reemplazo
Para muestreo sin
63
Mé M étodos E sta stadí sti sti cos V ( ph )
PhQh ( Nh nh
V ar ela/ la/L lano lanos/ s/A A sn sna ate
nh )
V ( ph )
nh 1
Ph Qh nh
ESTIMAR DE LA VARIANZA DEL ESTIMADOR DE LA PROPORCIÓN DEL ESTRATO “h”
V ( ph )
PhQh ( Nh nh
nh )
V ( ph )
nh 1
Ph Qh nh
Ejemplo: 1.- Supongamos que tenemos los siguientes datos correspondientes a familias que usan cierto detergente. a. Encontrar P, Ph b. Extraer muestras de tamaño n1 = 2, n2 = 3 de los estratos I y II y estimar P h Solución: Datos: Estratos I II Y11 = 1 Y21 = 1 Y12 = 0 Y22 = 0 Y13 = 1 Y23 = 1 Y14 = 0 Y24 = 1 Y15 = 0 Y25 = 1 2/5 4/5 a. Encontrar P, p h 5
Y 1i P 1
N 1
2 5
40%
5
P 2
Y
2i
4
80%
N 2 5 La proporción poblacional es: 64
Mé M étodos E sta stadí sti sti cos cos
V ar ela/ la/L lano lanos/ s/A A sn sna ate
10
Y
1i
P
N 1
6 10
60%
Que se puede obtener también como: L
N
h
P h
P N
N1 P1 N 2 P 2 N
5(2 / 5) 5(4 / 5) 10
6 / 10 10 60%
3.- Sean las observaciones, para n1 = 2 y n2 = 3, las que se dan en el cuadro siguiente: N1 n2 y11 = 1 y21 = 1 y12 = 0 y22 = 0 y23 = 1 p11/2 p2 = 2/3 Proporciones muestrales en cada estrato n1
y
1i
p1
n1
1 2
50%
n2
y p2
2i
n2
2 3
66.7%
P1 = p1 = 50% = 1/2 P2 = p2 = 66.7% = 2/3 3. Estimador de P: pst =
N h ph N
(5)(1/ 2) (5)(2 / 3) 10
7/12
Por consiguiente: P p st 7 /12 /12 58.3%
65
Métodos E stadísticos
Varela/Llanos/Asnate
4.- Dada la siguiente población con dos estratos, seleccionar muestras de n1 = 2 y n2 = 2 desde cada estrato y demostrar que: E(pst) = P Demostración 1) Número de muestras posibles: 3 3 3 x3 9 Muestras 2 2 2) Las muestras son de tamaño n = n 1 + n2 = 4 3) Estimadores de P. I II 1 1 0 0 1 0 Estratos I 1, 0
1, 1
0, 1
II 1, 0 1, 0 0, 0 1, 0 1, 0 0, 0 1, 0 1, 0 0, 0
p1
p2 0.5 0.5 0.0 0.5 0.5 0.0 0.5 0.5 0.0
0.5
1.0
0.5
Luego, E(pst) = ( 1/9) (4.5) = 0.50 Pero, p = (2+1)/6 = 1/2 = 0.50 y INSESGADO de p.
por
consiguiente
pst 0.50 0.50 0.25 0.75 0.75 0.50 0.50 0.50 0.25 4.50
pst
es
5.- Según datos obtenidos en el último censo agropecuario el número de cabezas de ganado vacuno de acuerdo a la extensión de Hras de tierras de cultivo y números de establos se distribuyen de acuerdo a lo indicado en el cuadro siguiente. Así mismo en el figuran el número de establos en 66
Métodos E stadísticos
Varela/Llanos/Asnate
el presente año. Si se desea estimar el número total de cabezas de ganado en el presente año, así como su varianza tomando una muestra de 500 establos. a) Determine la afijación de la muestra según: Afijación de Neyman, proporcional al número total de cabezas de ganado en cada estrato. b) calcular las varianzas para cada afijación Cuadro N° 1 Número de cabezas de ganado obtenido desde un censo previo y N° total de establos en cada estrato para el presente año. Estrato h
Censo N° total de establos Nh
I: 0 – 15 625 II: 16 – 30 564 III: 31 – 50 476 IV: 51 – 75 304 V: 76 - 100 86 Total Nh = 2055 N = 2072
N° promedio de cabezas de ganado
y h
3.91 10.38 14.72 21.99 27.38
a) Afijación de Neyman
nh
Nh sh
Nh sh
nh
Y
' h
4.5 7.3 9.6 12.2 15.8
N° total de establos en el presente año Nh 635 570 475 303 89
Afijación Proporcional
(500)
nh
Afijación proporcional al total Y h'
Desv. Estandar estimada sh
(500)
67
N h N
(500)
Métodos E stadísticos
Varela/Llanos/Asnate
Las afijaciones así como los cálculos correspondientes para su obtención se encuentran contenidos en el Cuadro N° 2 Calculo de las afijaciones de una muestra de 500 establos
A fijacione s (nh)
'
Estrat o
Y h Nh' y h
' ' h s
N s
Neyman I II III IV V TOTA L
2812.5 417.2 4569.6 3708.8 1358.8 16566.9
2444 5854 7007 6685 2355 24345
84 125 138 112 41 500
Proporcion al 153 138 115 73 21 500
Proporcion al al total '
Y h
50 120 144 137 49 500
b) Para encontrar la varianza para cada afijación, reemplazamos el tamaño de muestra que corresponde a cada una de ellas en la formula general de varianza del estimador del total para muestreo estratificado. V (Y st ) ˆ
2 2
N h sh nh
Nh nh N h
Así, varianza para la afijación de Neyman: V (Y st ) ˆ
(635)2 (4.5)2 635 84 84
635
(570)2 (7.3)2 570 125 125 570
(475)2 (9.6) 2 475 138 (303) 2 (12.2) 2 303 112 138 112 475 303
68
Métodos E stadísticos
Varela/Llanos/Asnate
(89)2 (15.8)2 89 41
41 26011 = 402356
84374 + 108136 + 106902 + 76960 +
89
Las varianzas de cada estrato de acuerdo a esta afijación, así como la varianza para el estimador del total se encuentran en el cuadro N° 3 Varianza para la afijación proporcional al total
V (Y st ) ˆ
(635)2 (4.5)2 635 50
50
635
(475)2 (9.6) 2 475 144 144
475
(570)2 (7.3)2 570 120
120
570
(303)2 (12.2) 2 303 137 137
303
(89)2 (15.8) 2 89 49
150447 + 113908 + 100624 + 54645 +
49 89 18137 = 437761 Cuadro N° 3 Varianzas del N° total de cabezas de ganado de acuerdo a las diferentes afijaciones Estrato Neyman Proporcional Proporcional a Y '
h
I II III IV V V (Y )
84347 108236 106902 76960 2011 402356
40509 95088 137038 142679 71944 487258
150447 113908 100624 54645 18137 437761
6.- Se ha diseñado una encuesta para estimar la proporción de familias que poseen radios a transistores, en dos ciudades diferentes. Estimaciones del número total de familias, la proporción que posee 69
Métodos E stadísticos
Varela/Llanos/Asnate
radios y el costo de muestrear un familia sin dadas en cuadro N° 1 tratándose cada ciudad como estrato y sumiendo un muestreo aleatorio con reemplazo en cada estrato; obtener el tamaño optimo de muestra y afijarla a los estratos si el costo total (excluyendo gastos generales) se fija en: 20,000 dólares. Cuadro N° 1 Estimaciones del N° total de familias, proporción con radios a transistores y costo de muestrear una familia en cada ciudad.
Ciudad h I II
N° de familias Proporción Nh radio Ph 140 000 0.10 30 000 0.25 170 000
con Costo de muestreo Ch 2.25 1.00
Afijación para un costo fijo: nh =
CN h Ph Qh / Ch
N h
Ph Qh / C h
Los cálculos correspondientes figuran en cuadro N° 2 Tamaño de muestra: n = n1 + n2 = 7,369 + 3419 Luego el tamaño óptimo de muestra es n = 10,788 Las cuales cubren el costo establecido o especificado. Observamos: C = n1 c1 + n2 c2 = 7369 (2.25) + 3419(1) = 19,999.25 = 20,000 Cuadro N° 2 Cálculos para la fijación optima
H PhQh
PhQh C h
I II
0.450 0.4330
N h PhQhC h
PhQh / C h
Nh PhQh / C h
nh
63 000 12 990
0.20 0.4330
28 000 12 990
7 369 3 419
70
Métodos E stadísticos
Varela/Llanos/Asnate 75 990
10 788
7.- Diferencia los siguientes pares de términos: a) Error de muestreo y error no de muestreo b) Muestreo probabilístico y muestreo a juicio c) Precisión y exactitud d) Unidades de muestreo, elementales y primarias Solución: a) Error de Muestreo.- Las estimaciones de un muestreo se ven afectadas inevitablemente por el error de muestreo, el cual debe ser recorrido y cuantificado; la magnitud de este error deberá ser objeto de permanente análisis con el fin de minimizarlo. Error de no Muestreo.- Son los errores que se cometen fuera del muestreo es decir en cálculo, tabulaciones, etc. b) Muestreo Probabilístico.- Es un proceso en donde cada elemento de la población tiene una misma probabilidad de ser seleccionada (probabilidad perfectamente conocida e igual). Muestreo a juicio.-
Es el proceso por el cual la
selección de la muestra
depende del “juicio humano” y
no de la rigurosa aplicación de la teoría de las probabilidades, una muestra obtenida por este método no es representativa.
c)
Precisión.- La precisión es la obligación o necesidad de hacer una cosa. Exactitud.- La exactitud es la puntualidad y fidelidad en la ejecución de una cosa.
d) Unidad de Muestreo.- Las unidades de muestreo:
71
Métodos E stadísticos
Varela/Llanos/Asnate Unidad elemental .- Es el elemento o conjunto de elementos sobre la cual se requiere información. Unidad de registro.- Es un elemento común o grupo de elementos por los cuales se registra información. Unidad de Análisis o de estudio.- Es la unidad por la cual se realiza el análisis.
8.- Se extrae una muestra aleatoria de 36 elementos de una población, ¿Cuántos elementos debe contener otra muestra de la misma población, para que el error estándar de la media de la segunda muestra sea 2/3 del error estándar de la media de la primera muestra? Solución:
n1
n2
x2
2 3
x
36
x
?
2
n1
x
1
x
1
1
2 3
x
2
2 1 / 2 (n 1 ) 3
(n 2 ) 1 / 2
n 2 (6 x3) / 2
2
n 2 81 Rpta. 9.- Se extrae dos muestras aleatorias de una misma población y si el error estándar de una de ellas es k veces el error estándar de la media de la otra ¿Cuál es la relación entre los tamaños de ambas muestras? Solución:
n1 n 2 ? x k. x 1
2
x
x
1
.n 1
72
n1 1 / 2
k. .n
-1/2
Métodos E stadísticos n1
Varela/Llanos/Asnate
1
n1 n2
k 2
n2
1
k 2
Rpta.
10.- Una firma constructora de canales desea estimar la residencia promedio de las barras de acero utilizadas para dichas construcciones. ¿Qué tamaño de muestra se requiere para garantizar que habrá un riesgo solo del 0.001 de sobrepasar un error de 5Kg o más en la estimación? La desviación estándar de la resistencia de este tipo de barras se estima en 50 libras. Solución: 50 lb.
E
E
50 lb.(
0.001
Z 1
x z
.
n 0.4536
Por tablas: Z 1 2
.......... .....(*)
1 lb,
)
22.68 kg 1 -
0.999
3.085
En (*):
5
3.08522.68
n 195.8
n
196 Rpta.
11.- Se desea investigar sobre el número de unidades defectuosas en 4000 cajas y la proporción de cajas que contienen unidades defectuosas, se realiza una encuesta preliminar de 80 cajas, obteniéndose el siguiente resultado: №
de
unidades
0
1
2
3
4
5
10
12
37
16
8
8
4
2
2
13
defectuosas №
de
cajas
examinadas 73
Métodos E stadísticos
Varela/Llanos/Asnate
Determine el tamaño de muestra que con las dos condiciones: un error del 6% para el promedio; y un error del 12% para la proporción con una confianza del 95% para ambos casos. Solución: N = 4000 E1=0.06 E2= 0.12 n=80 80 P 0.02 5% sin reemplazo 4000 Y 1.725 S2
95% n
n2
Z 1.96
Z 2 SN d 2 N S 2 Z 2
n1
Z 2 S 2y N d12 N Z 2 S 2y (1.96) 2 (7.95)(4000)
n1
(0.06)
n1
2718 Rpta.
n2
n2
7.95
( 4000) (1.96) 2 (7.95)
Z 2 S 2y N d 22 N Z 2 S 2
Z 2S 2y N 2 2
2
2
d N Z S
2 y
(1.96) 2 (7.95)(4000)
(0.12)
2
( 4000) (1.96) 2 (7.95)
1386 Rpta.
12.- El departamento de tránsito y transporte requiere estimar la proporción de conductores con experiencia de 1 año o menos, que puede clasificarse como conductores descuidados ¿Cuál será 74
Métodos E stadísticos
Varela/Llanos/Asnate
el tamaño de muestra para que los resultados estén dentro de un 2%, con una confianza del 95%?. Se espera observar que aproximadamente ¼ del total de los conductores sea de cuidado, si el número de conductores a investigar fuera de 10000. ¿Cuál será el tamaño de muestra? Solución: 1 P 0.25 4 2 Z 2 PQ (1.56) (0.26)(0.75) 1800.75 1801 a) n 2 2 d (0.02) n 1801 Conductore s, un experiment o de un año o menos. b) Si N 10000 Población finita M.C.R. n
PQ
d 2 PQ N 2
n 1526
n
Nd
n0 n
Z PQ
Z 2 PQ 2
d n0
(0.25)(0.75)
0.02 2 (0.25)(0.75) 10000 1.96
Conductore s con experienci a de un año o menos.
Z 2 NPQ 2
2
(1.96) 2 (10000)(0.25)(0.75)
(10000)(0.02)
2
(1.96) (0.25)(0.75) 2
1526 Conductore s
1800.75
n0 1 N
1800.75
1800.75 1 10000
n 1526
13.- Una muestra de fierro para construcción de canales es tomada al azar para la estimar el grosor promedio, el error debe de hallarse dentro de un rango de 0.30 mm., con un nivel de confianza del 95.¿ Cuál deberá ser el tamaño de muestra? Suponga que el error estándar es 1.2 mm. Solución: 75
Métodos E stadísticos
Z 2S
n
n
E
2
Varela/Llanos/Asnate
(1.96) 2 (1.2) 2
(0.3)
2
61.4656
62 Rpta.
14.- ¿Cuántos alumnos deben encuestarse para estimar el número total de lapiceros anuales que consumen los 1500 alumnos de la especialidad con una precisión de 500 lapiceros y una seguridad del 95%?. En una encuesta preliminar se obtuvo que la desviación estándar fuera de 3 lapiceros. Solución: N 1500 Z
2
95% 1.96 2
i 3i 9
d 500 n n
N 2 Z 2S2 d2 (1500) 2 (1.96) 2 (9) (500) 2
n 311.16 312 n N
312 1500
n
5% 312
312 1 1500
258.278
n 259 Rpta.
15.- Se tiene 120 hoteles en la ciudad de Huaraz estratificados según su categoría se requiere estimar el promedio el promedio y la varianza proporcional de sus ingresos en miles de soles al día, los datos se muestran en el siguiente cuadro: 76
Métodos E stadísticos
Estrato h I. categoría II. categoría III. categoría
Varela/Llanos/Asnate
Nh
nh
Xh
S2h
Nhxhi
30 40 50
6 8 10
5 3 2
2 4 6
150 120 100
Solución:
370 N h X1t w h x h X1t ( x h ) 120 N X1t 3.083
Nh 2 520 520 1 2 (S h) V ( X 1t ) prop ( h i h) (24)(120) 2880 n Nn V (X1t ) prop 0.18 16.- La siguiente información correspondiente a las edades de 5 niños 6,8,10,12,14: a) Extraiga muestras tamaño 2 con y sin reemplazo. b) Encuentre la medida de cada muestra y determine E(x), V(x), E(S2), usando el resultado del punto a. c) Encuentre la distribución de frecuencias para la media caso(a) y para la varianza poblacional, grafique cada caso. d) Encuentre los estimadores posibles de la varianza de la media muestral. Solución: 6
8
10
12
14
6 8 10
6,6 8,6 10,6
6,8 8,8 10,8
6,10 8,10 10,10
6,12 8,12 10,12
6,14 8,14 10,14
12
12,6
12,8
12,10
12,12
12,14
77
Métodos E stadísticos 14
14,6
Varela/Llanos/Asnate 14,8
14,10
14,12
14,14
Diagonal superior Diagonal inferior Para muestra de tamaño 2: Con reemplazo Nn=52=25 todos Sin reemplazo: Considerando el orden:
P25
5! (5 2)!
20 parte diagonal superior e inferior
Sin considerar el orden:
C
5 2
5!
(2!)(3!)
10 diagonal superior
17.-Con el fin de evaluar la viabilidad de aserrar y procesar una plantación total de 2000 árboles de cedro, se extrae una muestra aleatoria simple de 200 árboles encontrándose que 120 de ellos estaban listos para su proceso forestal 57 estaban deteriorados y 23 no tenían aún las condiciones para ser procesados. a) Estimar el número de árboles disponibles para ser procesados y los límites de confianza de la estimación con un 95% de confianza. b) Se puede considerar que la mayoría de árboles de la plantación son susceptibles de ser procesados de inmediato. Solución: a)
yi 120
78
Métodos E stadísticos f
n N
200
Varela/Llanos/Asnate
0.1
2000 a 120 NP N 2000 1200 n 200 Límites de confianza usando Z 1.96
pq N L.C() NP NZ (1 - f ) n 2n (0.9)(0.6)(0.4) 2000 L.C() 1200 2000(1.96) 2000 400 L.C() 1333.8243; 1066.1756 L.C() 1334 :1066 árboles de cedro disponible s b)
pq
n
1 2n
L.C(P)
P Z 1 - f
L.C(P)
0.6 1.96( (0.9)(0.6)(0.4)(12000) 1 400
L.C(P)
(0.667; 0.533)
18.-En una zona forestal se cree que la proporción de árboles de cedro es de 40%, cual sería el error de muestreo que se esperaría alcanzar si deseáramos estimar dicha proporción seleccionando una muestra simple aleatoria de 500 árboles de la zona, sabiendo que el total de árboles de la zona forestal es de 10.000. ¿Cuál sería la interpretación que debería darse a dicho resultado? Solución: N=10000; n=500 P=0.4 Q=0.6
79
Métodos E stadísticos
V ( P )
Varela/Llanos/Asnate ( N - n) PQ N n 2
(10000 500) (0.4)(0.6) V ( P ) 10000 500 V ( P )
0.000456
Luego el error estandar sería : S(e)
(0.000456) 0.021
La probabilidad con que una muestral de 500 árboles obtengamos estimadores de P comprendidos entre los límites PKS(p), K=1,2,...
PKS(p) 0.41(0.021) 0.42(0.021) 0.43(0.021)
Límite Superior Inferior 0.421 0.379 0.442 0.358 0.463 0.337
Probabilidad 68% 95% 99.7%
Por lo tanto que aproximadamente el 68% de muestras estimaciones sufre la proporción de árboles de cedro en la zona (P=∆/N) hechas por nuestras simples aleatorias de 500 árboles,
estarán comprendidas entre 42% y 37.9% posibilidad de realizar muestras repetidas.
asumiendo la
19.- En una ciudad de 16000 hogares se tomó una muestra aleatoria simple de 1000 familias dichas familiares fueron visitadas y se encontraron los resultados siguientes:
80
Métodos E stadísticos
Varela/Llanos/Asnate
Tipo de Familia IMIGRANTES: - Propietarios de vivienda - Inquilinos NATIVOS DEL PAIS: - Propietarios de su vivienda - Inquilinos Total
Número Hogares Personas 766 2442 350 1177 416 1265 234 881 57 245 177 636 1000
3323
Solución: a) Proporción de familias nativas: a 234 0.234 23.4% P n 1000 pq 1000 0.766 V ( P ) (1 - f) 1 N 16000 1000 V ( P ) 0.0001682 El error estándar será : S(P)
0.0001682 0.013
b) Proporción de las familias nativas -inquilinos: P1
d1 n1
177 416 177
177 593
0.298
Como se conoce N 1 , reemplazamos f 1
n1 N
por f
n N
p 1 q 1 p 1 q 1 1 (0.298)(0.702) V(P) (1 - f 1 ) V(P) (1 - f) 1 n1 n1 593 6
81
Métodos E stadísticos V ( P )
Varela/Llanos/Asnate
0.0003312
El error estándar será : S(P) 0.0003312 0.0182 c) El tamaño medio de una familia inmigrante:
Y1
Yi n1
2442 766
3.188
Como no se conoce , reemplazam os f 1 por 1 16 V (Y 1 )
(1 - f 1 ) S 12 n1
(1 f)S12 n1
(17.785 (2442) 2 ) 1 Donde : S 13.072 766 (766 1) 2 1
V (Y ) 1
1 13.072
0.016 16 766
Error estándar será : S(Y)
0.016 0.1265
El coeficiente de variación es : CV(Y)
S(Y) Y
0.1265 3.188 3.97% 100
(100)
N d) Y1 Y1 16( 245) 3920 Varianza estimada es:
82
Métodos E stadísticos V ( Y1 )
Varela/Llanos/Asnate
N(1 - f)S12 n1
donde :
2 2 1 Y 1 ( 215 ) 1 2 2 S1 Y1 1053 (n 1) n 1000 999 1 0.994 2 ( ) (16000) 1 V Y 1 238540.8 6 1000
Su error estándar será : S(Y)
238540.8 488.41
La C.V(y) es : C.V(y)
S(y) y.100
(
488.41 3920
)(100) 12.46 Rpta.
20.-Se desea realizar una encuesta familiar en una gran ciudad para estimar la proporción de familias que poseen ciertos atributos, para las principales características, el valor de Pi=Ai/N se espera oscile entre el 30% y el 70% ¿Cuál deberá ser el tamaño de nuestra necesaria para estimar los parámetros siguientes con un error estándar no mayor al 3%? a) La proporción global de P b) Las proporciones individuales de P1 para las familias. c) Clase 1 2 3
Rango de ingresos anuales De menos de 5000 De 5000 a menos de 10 000 De 10 000 a más
d) La diferencia entre las proporciones (Pi-P j) para cada para de clase de familias según sus ingresos anuales. Las estadísticas de la ciudad sobre distribuciones de ingresos indican que las proporciones de familias según las tres clases de ingresos definidos anteriormente son: 50%, 38% y 12% respectivamente. 83
Métodos E stadísticos
Varela/Llanos/Asnate
Solución: a) La proporción global P. Si 130% P≤70% asumiremos que P=0.50 pues en éste valor
se esperaría el máximo error estándar(pesimista), además si S(p) ≤0.03 la varianza deseada sería V 0=(0.05)2 consideramos que el valor 1/N, es muy pequeño y se omite. Entonces:
n
(0.5)(0.5)
2
(0.03)
278 Deberían ser encuestadas
b) Para estimar las proporciones individuales Pi: Clase 1 2 3
Rango de ingresos De <5000 De 5000 a <100000 De 10000 a más
Pi 0.50 0.38 0.12
(1/Pi)
N=(PQ/V0Pi)
2 2.6316 8.333
556 732 2317
Luego: n=Max[PQ//V0Pi]=2.317 serán necesarios visitar. c) Las diferencias entre las proporciones (P i-P j) Pi - P j
[(1/Pi) – (1/P j)]
n=(PQ/V0) [(1/Pi) – (1/P j)]
P1 – P2 P1 – P3 P2 – P3
4.6316 10.3330 10.9649
1288 2873 3048
Luego: el máx. n= máx(PQ/V0) [(1/Pi) – (1/P j)] n= 3048. 21.- A fin de estimar la proporción de apoyo que dan los 10 000 empleados de una fábrica a una circular emitida por la gerencia , se enviará un cuestionario a una muestra al azar de empleados; se cree que dicho apoyo fluctuará entre 10% y 60%. 84
Métodos E stadísticos
Varela/Llanos/Asnate
a) Encuentre el error estándar del estimador que se esperaría lograr enviando el cuestionario a 400 empleados. b) ¿Cuántos cuestionarios beberán ser remitidos para que el error estándar del estimador, no supere el 2%?. d) Determine el tamaño de muestra necesaria para que el coeficiente de variación del estimador sea menor al 10% en cuanto se estimará con dicho coeficiente de variación de 250 se desea estimar a la proporción verdadera. Solución: a) El error estándar del estimador que se espera lograr enviando el cuestionario a 400 empleados: S ( p )
pq 1 - f n si p 0.1
400 (0.10)(0.90) S(p) 1 10000 400 S(p) 0.0147 en tal caso el error estándar fluctuará entre 1.5% Si p 0.5 (el error estándar máximo esperado) S(p)
400 (0.5)(0.5) 1 10000 400
S ( p ) 0.0245
En tal caso el error estándar fluctuará entre 2.5% b) Asumiendo un apoyo del 50% por ser el de mayor varianza:
85
Métodos E stadísticos
Varela/Llanos/Asnate
n0 Z 2 PQ PQ PQ n0 n 2 2 n d V 0 d 0 1 N Z n0 n
(0.5)(0.5) (0.02)
2
625
625 588 cuestionar ios 625 1 10000
86
PQ
S ( P )
2
Métodos E stadísticos
Varela/Llanos/Asnate MUESTREO SISTEMÁTICO
Partimos de una población de tamaño N , y agrupamos sus elementos en n zonas (filas) de tamaño k(N=nk). Podríamos representar la población como sigue: i\j 1 2 3 j k 1
u
u
12
u13
u1 j
u1k
2
u 21
u 22
u 23
u 2 j
u 2 k
i
u i1
ui 2
ui3
n
u n1
un2
u n3
11
u ij
u ik
u nj
u nk
A continuación se muestra los elementos de la tabla anterior de izquierda a derecha empezando por la primera unidad de la primera fila y pasando a la primera unidad de la fila siguiente cuando se agota cualquier fila. Tendremos la siguiente estructura: j …k i \ j1 2 3 1
u
u
2
u k 1
u k 2
3
u 2 k 1
1
i u ( i 1) k 1
n u ( n 1) k 1
u k 3 u k j u k
u 2 k
u 2 k
2
3
u 2 k j u 2 k
u ( i 1) k 2
u ( i 1) k 3
u ( n 1) k 2
u j u k
u3
2
u (i
1) k j
u ( n 1) k 3 u ( n 1) k j
k
k
u (i
1) k k
u ( n 1) k k
Para extraer una muestra de tamaño n se elige al azar una unidad en la primera zona, y para seleccionar las n-1 unidades restantes para la 87
Métodos E stadísticos
Varela/Llanos/Asnate
muestra se toma en cada zona la unidad que ocupa el mismo lugar dentro de su zona que el que ocupaba la primera unidad seleccionada para la muestra al azar en la primera zona es la tercera, se elegirán las n1 unidades restantes para la muestra tomando la tercera unidad de cada zona. Las muestras sistemáticas así obtenidas (columnas de la tabla anterior) suelen denominarse muestras 1 en k. La probabilidad de seleccionar cualquier muestra será la probabilidad de elegir la unidad que la originaria en la primera fila por muestreo aleatorio simple, es decir, 1/k . Por tanto, el muestreo sistemático proporciona muestras equiprobables. Por otro lado, la probabilidad que tiene cualquier unidad de la población (de N unidades) de pertenecer a la muestra (de tamaño k ) es k/N=k/nk=1/n.; por lo tanto, el muestreo sistemático es un tipo de muestreo con probabilidades iguales. Las muestras del espacio muestral pueden representarse como sigue:
u~1
u1 , u1
, u1 n 1k u~ j u j , u j k ,, u j n 1k u~k u k , u k k , , u k n 1k
k ,
El muestreo sistemático extiende la muestra a toda la población, recoge el posible efecto de estratificar debido al orden en que figuran las unidades de la población (cada fila se puede considerar como un estrato), permite la consideración de conglomerados en la población (cada columna se puede considerar como un conglomerado), es fácil de aplicar y comprobar. No representa problemas de cálculo algebraico y no precisa distinción entre aleatoria, la selección sistemática equivale a un muestreo aleatorio 88
Métodos E stadísticos
Varela/Llanos/Asnate
simple. Por ultimo, el error de muestreo suele ser menor que en muestreo aleatorio simple o incluso que en estratificado. Por otro lado, hay que tener presente la posibilidad de aumento de la varianza si existe periodicidad en la población y el problema teórico que se presenta en la estimación de varianzas debido a que no hay independencia en la selección de unidades en las distintas zonas, ya que la unidades extraídas en cada zona dependes de la seleccionada en la primera zona. En general solo hay selección aleatoria para la primera unidad de la muestra
ESTIMADORES Y VARIANZAS Se utilizarán el estimador lineal insesgado de Horwitz Thompson por que el muestreo sistemático es sin reposición. En general sabemos que: HT ˆ
n
Y i
i
Estima insesgadamente el parámetro poblacional:
i n
Y i . i
En muestreo sistemático la población
i
de selección de un elemento
poblacional cualquiera para la muestra será igual a la probabilidad de que resulte elegida la zona que lo contiene, esto es, i
1 k n (nk ) n N , luego podemos utilizar la forma general
del estimador de Horwitz Thompson para asegurar lo siguiente: n 1 Y i estima insesgadamente el parámetro poblacional ˆ
i
j
1
k
n
1
Y
ij
i
.
j
Si aplicamos la expresión anterior a las estimaciones del total, media, proporción y total de clase poblacionales, se obtienen los siguientes estimadores: 89
Métodos E stadísticos
Varela/Llanos/Asnate n
1
i
j 1
Total X Y ij X ij X
X ij
n
X ij N k
ˆ
1
i 1 n
k
1
n
X ij N x j n i 1
N
X ij Media X Y ij
X ij N
n
X ˆ
1
j 1
i
nk
1
nk
n
X ij n
1
x j
i 1
k
Aij proporción P Y ij
Aij
n
1
P nk ˆ
nk
j 1
i
1
1
n
A n
ij
P j ˆ
i 1
k n
1
Totaldecla se X Y ij Aij A ˆ
i
j 1
Aij 1
k
n
k Aij N i 1 n
1
n
Aij N P j n ˆ
i 1
N
Hemos demostrado que un estimador lineal insesgado para la media poblacional es la media de la muestra sistemática obtenida, para la proporción poblacional es la proporción de la muestra sistemática, para el total poblacional es N veces el total de clase maestral. Es decir, podemos escribir lo siguiente:
Total X N x j
Media X x j
proporción P P j
Totaldecla se A N P j
ˆ
ˆ
ˆ
ˆ
ˆ
ˆ
VARIANZAS DE LOS ESTIMADORES Definimos la cuasivarianza entre las k muestras posibles o cuasivarianza intermuestral como: 90
Métodos E stadísticos
Varela/Llanos/Asnate
S bs 2
n
1
k
x k 1 i
X
2
j
j
Y la cuasivarianza dentro de las muestras o cuasivarianza intramuestral como: 2 S ws
n
1
k
X
ij
x j
2
N k i j Con lo que la descomposición de la suma de cuadrados para el análisis de la varianza poblacional permite escribir lo siguiente n
2
k
n
2
k
n
2
k
X ij X X ij x j x j X i 1 j 1
i 1 j 1
i 1 j 1
N 1S 2
2 ( N k ) S ws
( k 1) S bs2
N 1S N k S ws k 1S bs 2
2
2
A partir de la tabla del análisis de la varianza para la población que se presenta a continuación. Puede calcularse los errores de los estimadores. Fuente Grados de Cuadrados Suma de cuadrados variación libertad medios Entre muestras
n
k-1
N-k
total
k-1+(N-k) = N-1
ˆ
V x j
1
f
V N x
V X ˆ
j
2
S bs
2 X x ( )
S bs
( x X )
Dentro de muestras
V X
k
S bs2 n
i
j
n
k
i
j
n
k
( X X ) i
2
S ws
j
,
N V x j N 1 f 2
91
2
S bs2 n
2
2
2
Métodos E stadísticos
V P V P j ˆ
ˆ
1
k
P j P k
2
ˆ
Varela/Llanos/Asnate
j
n
1
k
P j P nk
2
ˆ
i
j
1
n
k
P j P N
2
ˆ
i
PQ
j
k
1
P j Q j k ˆ
ˆ
j
k 1 V A V N P j N V P j N P j P N P j P N PQ P j Q j k j k j i j
ˆ
2
ˆ
2
ˆ
k
1
n
2
k
ˆ
2
2
ˆ
ˆ
ˆ
Un concepto interesante en muestreo sistemático es el coeficiente de correlación intramuestral
w ,
que mide la interrelación entre las
unidades dentro de las muestras. Lógicamente, esta interrelación debe ser lo mas pequeña posible, ya que en el muestreo sistemático interesa la heterogeneidad intramuestral, con la finalidad de que una única muestra sistemática represente lo mejor posible a toda la población. Para que una muestra sistemática aspire a ser fiel espejo de toda la población ha de ser heterogénea, y la interrelación entre sus unidades ha de ser baja. Por lo tanto, inicialmente parece lógico que interesen valores muy pequeños del coeficiente de correlación intramuestral. La expresión matemática de w es la siguiente: k
n
j
i z
X ij X X zj X
2
w
2
k
1
N n 1 2
n
X ij X nk j
,
2
cional var ianzapobla
i
La varianza de los estimadores pueden expresarse en funciones de w . Para la medida tenemos: V x j
V N x
V X ˆ
j
2
n
1 n 1 w
N 2V x j N 2
2
n
92
N 1 S 2 N
n
1 n 1 w S 2
1 n 1 w N N 1 1 n 1 w n
Métodos E stadísticos
V P j ˆ
PQ
Varela/Llanos/Asnate
1 n 1 w
V A ˆ
N
2
PQ
1 n 1 w
n n Según esta expresión, la precisión del muestreo sistemático puede analizarse en función del coeficiente de correlación intramuestral, de tal
modo que la precisión máxima se produce para mínima para
w
0,
w
igualándose la precisión del muestreo
sistemático con la del muestreo aleatorio simple para forma, para valores de
1 /( n 1) , y la
w entre
1 /( n 1) y
w
0.
De esta
0, el muestreo
sistemático es mas precisó que el aleatorio simple, y para valores de
w entre 0 y 1, el muestreo sistemático es menos preciso que el aleatorio simple. Por lo tanto, en cuanto a precisión, convienen valores negativos del coeficiente de correlación intraconglomerados w .
RELACIÓN ENTRE MUESTREO SISTEMÁTICO Y MUESTREO ALEATORIO SIMPLE El muestreo sistemático se ideo con la finalidad de mejorar el muestreo aleatorio simple pero habrá ocasiones en que esta mejora es máxima. Se demuestra mas
supera
la cuasivarianza intramuestral
2
S ws
a la
cuasivarianza poblacional S 2 el muestreo sistemático más gana e precisión al muestreo simple. El párrafo anterior puede interpretarse diciendo que le muestreo sistemático es más preciso que el aleatorio simple cuando la variabilidad dentro de muestras es superior a la coincide con la del 2 aleatorio simple cuando S ws = S 2 , es decir, cuando la variabilidad
dentro muestras es similar a la variabilidad dentro de las unidades de la población, y esto se da cuando la disposición de los elementos en la población es aleatorio. RELACIÓN ENTRE MUESTREO SISTEMÁTICO Y MUESTREO ESTRATIFICADO 93
Métodos E stadísticos
Varela/Llanos/Asnate
En el muestreo sistemático puede considerarse cada zona de k elementos consecutivos a partir del primer como un estrato ; es decir se puede dividir la población en n estratos constituidos cada uno de ellos por una finalidad de la tabla (k unidades ) del cuadro en que hemos representado los elementos de al población numerados consecutivamente. 1
j
k
1
X 1
2
X 1 k
X j
i
X 1 ( i 1) k
X j
k
X j
X k k
( i 1) k
X 1 ( n 1) k
n
X k
X j
( n 1) k
X k
( i 1) k
X k
( n 1) k
Obtener una muestra sistemática seria entonces seria entonces equivalente a obtener une muestra estratificada con la finalidad con unidades por estrato. debe tenerse en cuenta ,sin embargo ,que en el muestreo estratificado aleatorio la selección se efectúa independientemente en cada estrato ,mientras que en el muestreo sistemático todos los elementos seleccionados ocupan el mismo lugar o numeró de orden dentro de cada zona de k elementos , con la que no hay aleatoriedad de selección .además ,seria conveniente que a las zonas sistemáticas de k elementos cada una (estratos) sean lo mas homogéneas posible dentro de ellas y heterogéneas entre ellas .estas clasificaciones de los elementos de la población en n filas de k unidades cada una origina la siguiente tabla del análisis de la varianza poblacional: F de V
G.L.
+ de Cuadr. n
Entre estratos
n 1
k
2 ( ) X X i i
94
Cuad. Med.
j
2
S bs t
Métodos E stadísticos
Varela/Llanos/Asnate
Dentro de estratos
n
k
i
j
2 X X ( ) ij i
N n
2
S wst n
Total
n 1 ( N 1)
N 1
k
( X ij X j ) i
2
S
j
Si definimos la cuasivarianza entre la n estratos posibles, o el cuasivarianza intraestratal como: 2 bss
S
n
1
k
( X i X ) n 1 i
2
j
Y la cuasivarianza dentro de los estratos o cuasivarianza intraestratal como: 2 wss
S
1 N n
n
k
i
j
2
2 ( X ij X i )
Tenemos: n
k
n
k
n
k
2 2 2 2 ( ) ( ) ( ) ( 1 ) ( ) ( 1 ) X X X X X X N S N n S n S ij ij i i wst bst 2
i 1 j 1
2
i 1 j 1
i 1 j 1
2 2 ( N 1) S 2 ( N n) S wst (n 1) S bst Tenemos entonces que la varianza de la media puede expresarse como:
S i2
1 n V X V X st W h V X h W i V X i 1 f i 1 S i ni n k i h i i n L
n
n
2
ˆ
2
1
2
1
2
2
2
S wst N n 1 1 1 S wst 1 f 1 X ij X i X ij X i Nn n n k i k 1 j n k i j 1
2
n
k
n
2
k
2
2
2
95
Métodos E stadísticos
Varela/Llanos/Asnate 2 ( N n) S wst
Si definimos el coeficiente de correlación intraestratal wst como el coeficiente de correlación lineal entre las desviaciones respecto de las medias de los estratos de todos los pares de valores que están en la misma muestra sistemática, su expresión puede calcularse de la siguiente forma: k
1
n
X X X n ij
wst
cov X ij ; X zj 1
k
k
2
n
X X N
Zj
X z
k
j i z
1
k
2
n
i
ij
j i 1
i
zj
2 nn 1k 1S wst
i
j i 1
2 ( N n) S wst
Se demuestra que la varianza del estimador de la media en función de wst y S wst
tiene la forma siguiente:
V X V X j 1 f ˆ
2 S wst
1 n 1 wst
n Y lo mismo se calculará las varianzas del resto de los estimadores en función del coeficiente de correlación intraestratal wst . La precisión máxima, que evidentemente se da cuando el error de
muestreo es cero V X j 0 , se produce si
n
1 wst
1,
luego
se puede asegurar que la precisión máxima si:
V X j
0
1
wst
n 1
La precisión mínima, que evidentemente se da cuando la varianza es máxima, se produce si wst 1 (valor máximo de wst que será el
que efectivamente hace máxima V X j ), luego se puede asegurar que PRECISÓN MÍNIMA wst 1 . Por otra parte: 96
X z
j i z
2
ij
n
X X X
X X N
2
ij
i
Métodos E stadísticos
wst
Varela/Llanos/Asnate
1
0 V X j
f
2 S wst
n Como lo que el muestreo sistemático coincide en precisión con el muestreo aleatoria independiente en cada estrato. De esta forma, wst
es en cierta forma una medida de la falta de aleatoriedad en la selección de unidades para la muestra en las distintas zonas sistemáticas (filas o estratos).
ESTIMACIÓN DE LA VARIANZA No podemos decir que en muestreo sistemático haya un método directo para la estimación de varianzas a partir de una muestra sistemática. Tenemos las siguientes situaciones: a.
próximo a cero o S
2
ws
S
2
Si el coeficiente de correlación intramuestral se aproxima a cero puede suponer la población y si S 2 ws S 2 la precisión del aleatorio simple y el estratificado coinciden, con lo que la estimación de ka varianza puede realizarse con la misma expresión que en muestreo aleatorio simple, es decir:
V x (1 f ) ˆ
S 2 ˆ
n
Siendo S 2 la cuasivarianza de la muestra sistemática ˆ
b.
st
Si
st
próximo a cero se aproxima a cero se puede utilizar el muestreo sistemático
como muestreo estratificado considerando cada zona sistemática como un estrato y seleccionando una muestra estratificada con una unidad por estrato. La razón de esta utilización es que la precisión del muestreo sistemático se iguala con la del muestreo aleatorio estratificado para st =0.
En la practica, lo que se hace es mezclar antes de la selección,
las 2k unidades de dos zonas en una única zona, con lo que se transforman las n zonas de k unidades cada una en n/2 zonas de 2k unidades cada una (si n s impar, para la zona que queda suelta se repite 97
Métodos E stadísticos
Varela/Llanos/Asnate
aleatoriamente un elemento de la muestra). Con este método se transforman las n zonas de k unidades de 2k unidades. Con ello se dispone de dos unidades muéstrales por zona. Aplicando las formulas de muestreo estratificado tenemos: n
n
n 2
x x 2 V x st W h 1 f h 1 f h h nh h n 2 h 2
ˆ
2 ˆ
2
S h
2
2
1
2
2
1 f
n2
2
xh xh
2
1
2
h
c. Ni ni st están próximos a cero: En este caso utilizaremos alguno de los métodos especiales generales para la estimación de varianzas. Concretamente podemos utilizar el método de las muestras interpenetrantes, que se utiliza cuando tenemos un conjunto de dos o más muestras, elegidas con el mismo esquema de muestreo (independientes o no) y tales que cada una proporcione una estimación válida del parámetro que se pretenda estimar con el mismo error de muestreo. Si las muestras son independientes es fácil obtener un estimador in sesgado de la varianza del estimador. Para aplicar el método de las muestras interpenetrantes al muestreo sistemático supongamos que en vez de elegir una muestra sistemática de tamaño n para un solo valor j, ≤ j ≤ k , es decir, con un solo arranque aleatorio, obtenemos t muestras de tamaño n/t utilizando t arranques aleatorios. Estas muestras pueden considerarse independientes, ya que la elección del arranque es aleatoria en la primera zona sistemática. Podemos formar un estimador combinado de la media poblacional basado en las medias de la t muestras (cada media muestral es un estimador insesgado de la misma media poblacional) definido como: x c
1
t
xt t 1
Siendo el estimador in sesgado de su varianza mediante la aplicación del método de las muestras interpenetrantes:
98
Métodos E stadísticos
V xc ˆ
1
Varela/Llanos/Asnate 1 x x x x t t 1 t t 1
t
x t t 1
2 i
t x
t
1
2 c
i
t
t
2
2
2
2
i
c
i
c
i
i
i
La fórmula puede multiplicarse también por (1- f ) En particular para t = 2 tenemos: xc
x1
x 2
2
V x x ˆ
c
2
1
2
2
x x x x x x 4 2 2 x1
2
2
1
2
2
1
2
Se observa que al aumentar el número de arranques aleatorios, manteniendo el mismo tamaño de muestra, la precisión obtenida se aproxima a la del muestreo aleatorio simple.
RELACIÓN ENTRE MUESTREO SISTEMÁTICO Y POR CONGLOMERADOS En el muestreo sistemático puede considerarse cada columna de n elementos como un conglomerado; es decir, se puede dividir la población en k conglomerados constituidos cada uno de ellos por una columna de la tabla (n unidades). Obtener una muestra sistemática sería entonces equivalente a obtener una muestra por conglomerados de tamaño l.
1 X 1 k
1
j
X 1
X j
X j k
i
X 1 ( i 1) k
n
X 1 ( n 1) k
X k
k 2
X k
k
X j
( i 1) k
X j
( n 1) k
PROBLEMAS RESUELTOS 99
X k ( i 1) k X k ( n1) k
2
Métodos E stadísticos
Varela/Llanos/Asnate
1.- En un proceso de fabricación de automóviles se trata de analizar la producción de piezas en serie de trece robots. Para ello se controlaron las piezas en de trece robots en la primera hora de su funcionamiento y se obtuvo la siguiente distribución Nº de 1 2 3 4 5 6 7 8 9 10 11 12 13 robots Nº de 5 5 4 2 5 4 5 4 3 4 4 3 2 piezas producidas Con la finalidad de estimar el numero de piezas defectuosas en el proceso de fabricación, se realiza un muestreo sistemático 1 en 5, es decir, se selecciona una de cada cinco piezas, para pasar a continuación la primera pieza del segundo robot hasta que se agoten sus piezas, y así sucesivamente hasta que se agoten todas las piezas de todos los robots. Suponiendo que la primera pieza producida por cada robot es defectuosa y que todas las demás son correctas, se pide lo siguiente: a) Calcular la varianza del estimador de la producción de piezas defectuosas producidas por los robots y el valor del coeficiente de correlación intramuestral. ¿Existirá ganancia en presión respecto de un muestreo irrestricto aleatorio con fracción de muestreo del 20%? ¿Por qué? Cuantificarla. realizar la tabla del análisis de la varianza para la producción total. b) Estimar l varianza para cada muestra sistemática posible según nuestro procedimiento de muestreo. ¿Con qué muestra sistemática nos quedaremos que presente mejor a toda la producción? ¿Existirá ganancia en precisión si se estima las varianzas utilizando estatificación? Dar la estimación de la proporción de piezas defectuosas producidas por los robots. Solución: Si definimos una variable dicotomica A a la que asignamos el valor 1 para las piezas defectuosas y el valor de 0 para las piezas correctas, y clasificamos las 50 piezas en la 10 filas de 5 piezas 100
Métodos E stadísticos
Varela/Llanos/Asnate
cada una (muestreo sistemático 1 en 5) siguiendo el orden del enunciado del problema, tendremos la tabla 1 0 0 0 0 1/5 1 0 0 0 0 1/5 1 0 0 0 1 2/5 0 1 0 0 0 1/5 0 1 0 0 0 1/5 1 0 0 0 0 1/5 1 0 0 0 1 2/5 0 0 1 0 0 1/5 0 1 0 0 0 1/5 1 0 0 1 0 2/5 6/10 3/10 1/10 1/10 2/10 13/50 A continuación, se construye la tabla del análisis de la varianza para la población (producción total) utilizando Ecxel. Como estamos clasificando los datos en 5 grupos (columnas), utilizaremos una variable G, que clasificara los valores de A (ceros o unos) por grupos (por columnas). Introducimos los valores de g en columnas de la hoja de cálculo de Excel y elegimos Análisis de varianza de un factor en la opción Análisis de datos del menú Herramienta, rellenando su pantalla de entrada como indica en la Figura presenta los resultados.
101
Métodos E stadísticos
Varela/Llanos/Asnate
Con la notación que utilizamos habitualmente, la tabla ANOVA será: Fuent e
Grado s de Libert ad
Sumas de Cuadrados n
k
Entre
k-1=51=4
i
j
Dentr o
Nk=505=45
n
k
Total
N1=501=49
_
_
2 ( x X ) 1.72 j
_
( X ij x j ) i
j
n
k
_
2
( X ij X j ) i
Cuadrados Medios
2
S bs
7.9
2
1.72 / 4 1.43
2
S ws
2
S 9.62
7.9 / 45
9.62 / 49
0.1755
0.1963
j
Conocida esta tabla, pueden realizarse ya todos los cálculos. La varianza del estimador de la proporción puede calcularse como: 2
2
S BS 1 0.43 n S BS V P V P J 1 (1 f ) 1 0.0344 n N n 5 10
ˆ
ˆ
102
Métodos E stadísticos
Varela/Llanos/Asnate
La varianza para el estimador del total de clase será:
V A V N P J N 2V P J N 2 (1 f ) ˆ
ˆ
ˆ
2 S BS
2
50 * 0.0344 86
n
Del valor de la varianza puede deducirse el valor del coeficiente de correlación intramuestral a través de la fórmula
V x J
2
n
(1 ( N 1) ) .Tenemos:
49 0.0344 50
0.1963 (1 (10 1)
10
Se observa un valor de
muy
0.0875
cercano a cero. Lo que indica que el
muestreo sistemático va a tener una precisión muy cercana a la del aleatorio simple en la estimación de la proporción de piezas defectuosas. Esto concuerda con el hecho valores muy cercanos. Concretamente
S
2
S
2
2 y S ws también tienen
= 0.1963 >
2
S ws
=0.1755, lo
que indica que es mas preciso el muestreo aleatorio simple. La varianza del estimador de la proporción en el muestreo aleatorio simple es ((11/5)0.1963)/10 = 0.0157, lo que indica que la ganancia en precisión del aleatorio simple será (0.0344-0.0157)/0.0344 = 54.3%. Dado el valor del coeficiente de correlación intramuestral, muy cercano a cero, podemos estimar varianzas mediante la formula del muestreo aleatorio simple. Se tiene:
V P 1 1 f ˆ
ˆ
S 12 n
(1 f )
6 6 1 10 1 101
1 n 1 5
P 1Q1 ˆ
ˆ
103
10 1
0.0213
Métodos E stadísticos
V P 2 1 f ˆ
ˆ
V P 3 1 f ˆ
ˆ
S 22 ˆ
n
S 32 ˆ
n
Varela/Llanos/Asnate
(1 f )
(1 f )
3 3 1 1 101 10
1 n 1 5
P 2 Q2 ˆ
ˆ
10 1
1 1 1 1 101 10
1 n 1 5
P 3Q3 ˆ
ˆ
10 1
0.0186
0.008
V P 4 V P 3 0.008 ˆ
ˆ
ˆ
ˆ
V P 5 1 f ˆ
ˆ
S 52 ˆ
n
(1 f )
2 2 1 1 101 10
1 n 1 5
P 5 Q5 ˆ
ˆ
10 1
0.0142
Según estos resultados las muestras más precisas son la tercera y la cuarta También podemos estimar la varianza a partir del muestreo estratificado, agrupando las 10 filas (estratos) de la población en grupos de 2, y considerando cada 2 filas como un estrado del que seleccionamos 2 unidades para la muestra. Tendremos:
V P 1 ˆ
ˆ
V P 2 ˆ
n
xh1 xh2
2
ˆ
2
1 f n / 2 n
1 0.2
h
ˆ
V P 3 ˆ
1 f n / 2
2
2 xh1 xh 2
h
0.008(0 1) 2
10
2
(1 1)
1 0.2 10
2
2
2
(0 0)
0.008
2
2
2
(1 0) (0 1) (1 0) (0 1) 0.032
2
2
2
2
V P 4 ˆ
ˆ
0.008(1 0) 2 (1 0) 2 0.016 Las mejores según el método del muestreo estratificado también resultan ser la tercera y la cuarta, y además coinciden en varianza con el V P 5 ˆ
ˆ
104
2
(0 1) (1 0) (0 0) (1 0) 0.024
Métodos E stadísticos
Varela/Llanos/Asnate
método anterior. Para las restantes muestras se observa ganancia en presión del método de estimación utilizando la formula del muestreo aleatorio simple. La proporción estima de de piezas defectuosa producidas será la derivada de la 3ª o 4ª muestra, esto es P ˆ
P 3 ˆ
P 4 ˆ
1 / 10 ;
es decir que estima 10% de producción
defectuoso
2.- Una manzana de casas de una ciudad contiene 36 hogares numerados del 1 al 36. Los hogares con ingresos mensuales superiores a 1500 soles son las que tienen los números 3, 5-7, 11-13, 15-16, 20-22, 25-26, 28 y 30-34. a) Se trata de estimar la proporción de hogares con sueldo mensual superior a 1500 soles utilizando muestre sistemático. Comparar la precisión de una muestra sistemática 1en 4 con una muestra aleatoria simple del mismo tamaño para estimar la proporción de hogares con sueldo mensual superior a 1500 soles. Justificar la respuesta en función del valor del coeficiente de correlación intramuestral y en función de la cuasivarianza intramuestral. b) Halle el tamaño de la muestra necesaria para estimar la proporción de viviendas en las que los ingresos mensuales son superiores a 1500 euros para un error de muestreo de 16 centésimas. Hallar ese mismo tamaño para muestreo aleatorio simple y comentar el resultado. Solución: Si definimos una variable dicotómica A, a la que asignamos el valor 1 para los hogares en que los ingresos mensuales superan los 1500 soles y el valor de 0 para el resto de los hogares, y clasificamos los 36 hogares en 9 filas de 4 viviendas cada una(muestreo sistemático uno en 4) siguiendo el orden del enunciado del problema, tendremos la siguiente tabla: 0 1 0 1 0
0 1 0 0 0
1 1 1 1 0 105
0 0 1 1 1
¼ ¾ ½ ¾ ¾
Métodos E stadísticos
Varela/Llanos/Asnate
1 1 0 1
1 1 1 1
0 0 1 0
0 1 1 0
½ ¾ ¾ ½
5
5
5
5
5
9
9
9
9
9
Para calcular la varianza del estimador sistemático de la proporción hacemos:
5 5 5 5 5 5 5 5 V P 4 9 9 9 9 9 9 9 9 2
1
2
ˆ
2
2
0
También podemos calcular la varianza del estimador de la proporción como 20 20 1 5 4 5 4 5 4 5 4 V P PQ P j Q j 1 0 k j 1 36 36 4 9 9 9 9 9 9 9 9
ˆ
1
k
ˆ
ˆ
A continuación se construye la tabla de análisis de la varianza para la población (Producción total) utilizando Excel. Como estamos clasificando los datos en 4 grupos (columnas), utilizamos una variable G, en columnas de la hoja de cálculo de Excel y elegiremos análisis de varianza de un factor en la opción Análisis de datos del menú Herramientas.
106
Métodos E stadísticos
Varela/Llanos/Asnate
Por lo tanto, la tabla del análisis de la varianza para la población es la siguiente:
107
Métodos E stadísticos
Varela/Llanos/Asnate
Grados de Libertad
Fuente
Sumas de Cuadrados
n
Entre
k-1=4-1=3
i
n
N-k=364=32
Dentro
N-1=361=35
Total
2 ( x X ) 0 j
k
2
S bs
_
2
S ws
( X ij x j ) 8.88 j
n
k
i
_
_
0/3
0
j
i
k
Cuadrados Medios
2
8.88 / 32
0.277
_
2 ( X X ) 8.88 j ij
2
S
8.88 / 35
0.254
j
Conocida esta tabla pueden realizarse ya todos los cálculos. Por ejemplo, la varianza del estimador de la proporción también podría calcularse como: 2
2
S n S 1 0 V P V P j 1 bs 1 f bs 1 0 n N n 4 9 ˆ
ˆ
Del valor de la varianza puede deducirse el valor del coeficiente de correlación intramuestral a través de la formula: 2
V ( x j )
n
(1 (n 1) )
Tendremos:
35 0
36
0.254 9
(1 (9 1) )
1
1
8
n
0.125
1
Estamos ante el caso de máxima precisión del muestreo sistemático, ya que la varianza es nula, o lo que es lo mismo,
1
n 1
108
.
Métodos E stadísticos
Varela/Llanos/Asnate
Este hecho concuerda con los valores que toman Concretamente
S
2
0.254
2
S ws
0.277 ,
S
2
y
2
S ws .
lo que indica que es
más preciso el muestreo sistemático que el aleatorio simple. La varianza del estimador de la proporción en el muestreo aleatorio simple es (1 - 1/4) * 0.254/9 0.021 . Para resolver la segunda parte del problema consideramos ahora cada una de las 9 zonas (filas) como un estrato de 4 unidades. Tenemos entonces dividida la población en 9 estratos de 4 unidades cada uno, de modo que la muestra sistemática consta de una unidad por estrato que de forma general no es elegida aleatoriamente dentro del mismo. Esta clasificaron de los elementos de la población en 9 filas y 4 unidades cada una origina una tabla del análisis de la varianza que se puede calcular con Excel. Como estamos clasificando los datos en 9 filas (estratos), utilizamos las
variables
G5
a
G13 ,
que recogen los valores de las 9 filas. A
continuación elegimos análisis de varianza de un factor en la opción análisis de datos del menú herramientas.
109
Métodos E stadísticos
Varela/Llanos/Asnate
El cuadro de análisis de la varianza por estrato es entonces el siguiente: Grados de Fuente Sumas de Cuadrados Cuadrados Medios Libertad n
Entre
Dentro
Total
n-1=9-1=8
N-n=36-9=27
N-1=36-1=35
k
j
n
k
j
n
k
i
_
2 ( X x ) 7.5 j ij
i
_
2 ( x X ) 1.388 j
i
_
_
2
S bs
110
1.388 / 8 0.1735
2
S ws
2
2 ( X ij X j ) 8.888S j
7.5 / 27
8.888 / 35
0.2777
0.254
Métodos E stadísticos
Varela/Llanos/Asnate
Calculamos ahora el valor del coeficiente de correlación st como sigue: k n
( X X )( X X )
2 st
ij
i
zj
z
j i z 2 n(n 1)(k 1)S wst
1 1 3 1 1 3 (0 )(1 ) (0 )(0 ) ... (1 )(0 ) 0.125 9 * 8 * 3 * 0.277 4 4 4 2 4 2 2
Para calcular el tamaño de la muestra necesario para cometer un error de muestreo igual a 0.16 despejamos n en la expresión que define la varianza de la proporción en función de st tenemos:
V P st 1 f ˆ
2 S wst
n
n 0.277 (1 (n 1)(0.125)) 36 n
(1 (n 1) st ) 0.16 2 1
n5 Para calcular el tamaño de muestra anterior en muestreo aleatorio simple despejamos n en la expresión que define la varianza de la proporción de ese tipo de muestreo. Tenemos:
V P st 1 f ˆ
n 0.254 0.162 1 n 8 n 36 n
S 2
Obviamente el tamaño de muestra necesario para cometer el mismo error de muestreo es mayor en muestreo aleatorio simple que en muestreo sistemático, ya que en este problema el muestreo sistemático es más preciso que el muestreo aleatorio simple.
RECOMENDACIONES Y SUGERENCIAS 111
Métodos E stadísticos
Varela/Llanos/Asnate
Las muestras sistemáticas son de extracción y ejecución conveniente. En la mayoría de estudios sobre poblaciones artificiales y poblaciones naturales pudieron compararse favorablemente en lo que a la preedición respecta con las muestras aleatorias estratificadas. Sus desventajas son que pueden dar una precisión mediocre cuando se presenta una periodicidad insospechada, y que no se conoce aún un método confiable
para estimación de V Y sy a partir de los datos de la muestra. A la luz de estos resultados podemos recomendar el muestreo sistemático en las situaciones siguientes. 1. Cuando el ordenamiento de la población es esencialmente aleatorio o contiene a lo mas un estratificación débil. Aquí, el muestreo sistemático se usa por conveniencia y se esperan pocas ganancias de precisión. Se cuenta con estimaciones muéstrales de error que son razonablemente insesgadas. 2. cuando se emplea una estratificación con numerosos estratos y se toma una muestra sistemática independiente en cada estrato. Los efectos de la periodicidades ocultas tienen tendencia a neutralizar en esta situación y puede obtenerse una estimación del error que se sabe es una sobreestimación. En forma alternativa, podemos usar la mitad de los estratos y tomar dos muestras sistemáticas, con inicios aleatorios independientes en cada estrato. Este método da una estimación insesgada del error. 3. para unidades conglomerados de sub muestreo. En este caso puede obtenerse una estimación casi insesgada o insesgada del error de muestreo en la mayoría de las situaciones practicas. 4. para muestrear poblaciones que tienen una variación de tipo continuo a condición de que no se requiera regularmente una estimación de error del muestreo. Si se hace una serie de 112
Métodos E stadísticos
Varela/Llanos/Asnate
encuestas de ese tipo, será suficiente una verificación ocasional de los errores de muestreo.
Observación El método tal como se ha definido anteriormente es sesgado si
N n
no es entero, ya que los últimos elementos de la lista nunca pueden ser escogidos. Un modo de evitar este problema consiste en considerar la lista como si fuese circular (el elemento N +1 coincide con el primero) y: N
Sea k el entero más cercano a
Se selecciona un número al azar m, entre 1 y N ; Se toma como muestra los elementos de la lista que consisten en ir saltando de k elementos en k , a partir de m, teniendo en cuenta que la lista es circular
n
;
VENTAJAS RESPECTO AL MUESTREO ALEATORIO SIMPLE 1. Es más fácil sacra una muestra y a menudo, hacerlo sin cometer errores. Esta es una ventaja particular cuando la extracción se hace en el área. Aunque la extracción se haga en una oficina este método, puede ahorra mucho tiempo. 2. Intuitivamente, el muestreo sistemático parece ser más preciso que el aleatorio simple. En efecto, estratifica la población en n estratos, que consisten de las primeras k unidades, las segundas k unidades, etc. Por lo tanto, podemos esperar que la muestra sistemática sea tan preciso como la muestra aleatoria estratificada correspondiente con una unidad por estrato.
113
Métodos E stadísticos
Varela/Llanos/Asnate
GLOSARIO Cuasivarianza: Característica de una muestra o población que cuantifica su dispersión o variabilidad. La cuasivarianza se obtiene multiplicando la varianza por n / (n-1). La cuasivarianza muestral es un estimador centrado (no sesgado) de la varianza poblacional. Estimador Insesgado: Es un estimador cuyo promedio es el valor del parámetro desconocido. Su valor esperado es el valor del parámetro poblacional. Un estimador insesgado es uno que tiene la propiedad de exactitud. Insesgadez: Se denomina sesgo de un estimador a la diferencia entre la esperanza (o valor esperado) del estimador y el verdadero valor del parámetro a estimar. Es deseable que un estimador sea insesgado o centrado, es decir, que su sesgo sea nulo por ser su esperanza igual al parámetro que se desea estimar. Intramuestra: Es la variación que se da dentro de cada muestra. Estratal: Son las diferentes operaciones que se da entre estratos.
114
Métodos E stadísticos
Varela/Llanos/Asnate
BIBLIOGRAFIA: 1.- Azorín, F; Sánchez-Crespo, J. L. (1986) Métodos y aplicaciones del muestreo Alianza Universidad textos, Alianza editorial. 2.- Cochran, W. G. (1971) Técnicas de muestreo Compañía editorial continental Lislv, L. (1972) Muestreo de encuestas, Editorial Trillar. 3.- Miras, J. (1985) Elementos de muestreo para poblaciones finitas INE. 4.- Silva Ayçaguer, L. C. (1993) Muestreo para la investigación en ciencias de la salud, Editorial Díaz Santos. 5.- Scheaffer, R. L.; Mendenhall, W; Ott, L. (1987) Elementos de muestreo, Grupo editorial Iberoamérica 6.- Cristobal Exebio C. - Univercidad Nacional de Trujillo - muestreo y aplicaciones. 7- César Pérez López – Universidad Complutense de Madrid – Muestreo estadístico. 8.- Sharon l. Lohr – Arizona State University – muestreo, diseño y análisis. 9.- www.elestadistico.com
115