13. MUESTREO Y ESTIMACIÓN MUESTREO Muestra Aleatoria de tamaño n es una colección de n variables aleatorias, todas con la misma distribución y todas independientes. La colección de donde extraemos la muestra aleatoria, se denomina Población. Nuestra intención al tomar una muestra, es la de hacer Inerencia. Este Este térm términ ino o lo usam usamos os en esta estadí díst stic icaa para para denot denotar ar al procedimiento con el que hacemos afirmaciones acerca de valores enerales de la población mediante los n!meros que observamos en la muestra. " un valor valor calculad calculado o con los datos datos de una muestr muestraa es el Esta!"stico. "l valor del par#metro en la población es el Esti#a!or. $ es es Esti#a!or Puntual cuando se estima el par#metro poblacional a partir de un u n valor !nico%.
Caracter"sticas $robabil"sticas !e un esti#a!or. &uando se tiene una fórmula para estimar y se aplica a una muestra aleatoria, el resultado es aleatorio, es decir los estimadores son variables aleatorias. 'or e(emplo si se recibe un embarque de ob(etos que pueden estar listos para usarse ó defectuosos. 'odemos seleccionar, al a)ar, alun alunos os de ello elloss para para darn darnos os una idea idea de la prop propor orci ción ón de defe defect ctuos uosos os en el embar embarque que.. El par# par#me metr tro o de inte interé réss es la propo proporc rció ión n de defe defect ctuo uoso soss en toda toda la población, pero lo que observamos es la proporción de defectuosos en la muestra.
%alor es$era!o es$era!o !e un esti#a!or & ses'o. El valor esperado de un estimador nos da un valor alrededor del cual es muy probable que se encuentre el valor del estimador. 'ara poner un e(emplo, si supiéramos que el valor esperado de un estadístico es *, esto sinificarí sinificaríaa que al tomar una muestra+ No creemos que el valor de la estadísti estadística ca vaya a ser *, pero tampoco creemos que el valor de la estadística vaya a estar le(os de *. $a que es muy probable que el valor del estimador esté cerca de su valor esperado, una propiedad muy deseable es que ese valor esperado del estimador coincida con el del par#metro que se pretende estimar. "l menos, quisiéramos que el valor esperado no difiera mucho del par#metro estimado. 'or esa ra)ón es importante la cantidad que, técnicamente llamamos seso. &onvención, para efectos del estudio de ahora en adelante se presentan la siuiente convenc convención ión,,
θ
y θ, representan, el par#metro que estamos midiendo y el valor
obtenido en la medida o muestreado, respectivamente
-
El ses'o es la diferencia entre el valor esperado del estimador y el par#metro que , estima. E( x −µ) , /eso = E .θ% −θ /i el seso 0, se dice que el estimador es inses'a!o y ésta es una característica buena para un estimador. 1n estimador que es insesado tiene una alta probabilidad de tomar un valor cercano al valor del par#metro.
%arian(a !e un esti#a!or. 2tra propiedad importante de un estimador es su varian)a. La importancia de la desviación est#ndar es que nos permite darle un sentido numérico a la cercanía del valor del estimador a su valor esperado. Entre menor sea la desviación est#ndar de un estimador, ser# m#s probable que su valor en una muestra específica se encuentre mas cerca del valor esperado. 'ara aclarar esto, considere dos estimadores 3- y 34, supona que ambos son insesados y supona que la varian)a de 3- es menor que la de 34, lo cual quiere decir que los valores de 3- son m#s probables que los de 34. 2 sea que vamos a encontrar a 3- m#s cerca del valor del par#metro que a 34. Esto hace que nuestras preferencias estén con 3-. &uando un estimador tiene una varian)a menor que otro decimos que el estimador es m#s eiciente.
)a !istribución !e $robabili!a! !e un esta!"stico. 5ui)# el resultado m#s importante para la estadística es el 3eorema del Límite &entral. Este resultado nos indica que, para el estadístico promedio de la muestra
- el valor esperado es la media de la población. - la varian)a es iual a la de la población dividida por el n!mero de elementos de la muestra. - la distribución de probabilidad es la normal. Este teorema es muy importante porque permite calcular probabilidades acerca de dónde se encuentra el valor promedio muestra. Es sólo cuestión de usar la tabla normal teniendo cuidado al estandari)ar de usar la desviación est#ndar adecuada que es la de la población dividida por la raí) cuadrada del n!mero de elementos de la muestra.
Esti#ación !el error !e una #e!i!a !irecta. La estimación del error de una medida tiene siempre una componente sub(etiva. En efecto, nadie me(or que un observador experimentado para saber con buena aproximación cu#l es el rado de confian)a que le merece la medida que acaba de tomar. No existe un con(unto de
4
relas bien fundadas e inalterables que permitan determinar el error de una medida en todos los casos imainables. 6uchas veces es tan importante consinar cómo se ha obtenido un error como su propio valor. /in embaro, la aplicación de alunos métodos estadísticos permite ob(etivar en ran medida la estimación de errores aleatorios. La estadística permite obtener los par#metros de una población en este caso el con(unto de todas las medidas que es posible tomar de una manitud%, a partir de una muestra el n!mero limitado de medidas que podemos tomar%.
Me*or +alor !e un con*unto !e #e!i!as. /uponamos que medimos una manitud un n!mero n de veces. 7ebido a la existencia de errores aleatorios, las n medidas ( x 1, x 2 ,..., x n ) ser#n en eneral diferentes. El método m#s ra)onable para determinar el me(or valor de estas medidas es tomar el valor medio. En efecto, si los errores son debidos al a)ar, tan probable es que ocurran por defecto como por exceso, y al hacer la media se compensar#n, por lo menos parcialmente, y este es el valor que deber# darse como resultado de las medidas. x=
-
n
∑ n
i =-
xi
Ti$os !e esti#ación esta!"stica. 1n problema importante de la inferencia estadística es la estimación de par#metros de la población, brevemente par#metros tales como la media y la variación de la población%, de los correspondientes estadísticos muéstrales, o simplemente estadísticos tales como la media y la variación de la muestra%.
Esti#aciones sin ses'o. /i la media de las dispersiones de muestreo con un estadístico es iual que la del correspondiente par#metro de la población, el estadístico se llamara estimador sin seso o insesado del par#metro8 si no, si no se llama estimador sesado. Los correspondientes valores de tal estadístico se llaman estimación sin seso, y estimación con seso respectivamente.
E*e#$lo, la media de las distribuciones de muestreo de medias μ o µ , media de la x
población. 'or lo tanto, la media muestral es una estimación sin seso de la media de la población.
E*e#$lo, las medias de las distribuciones de muestreo de las variables son µ
s
4
=
n −n
4
σ
En donde, s 4 sea una estimación sin seso, sin embaro, s es una estimación sesada, pues, en términos del valor esperado es insesado E.9% = µ
4
E./ % = σ
4
:
Esti#ación Eiciente. /i las distribuciones de muestreo de dos estadísticos tienen la misma media o esperan)a%, el de menor varian)a se llama un estimador eficiente de la media, mientras que el otro se llama un estimador ineficiente, respectivamente. /i consideramos todos los posibles estadísticos cuyas distribuciones de muestreo tiene la misma media, aquel de varian)a mínima se llama a veces, el estimador de m#xima eficiencia, ósea el me(or estimador.
E*e#$lo, Las distribuciones de muestreo de media y mediana tienen ambas la misma media, a saber, la media de la población. /in embaro, la varian)a de la distribución de muestreo de medias es menor que la varian)a de la distribución de muestreo de medianas. 'or tanto, la media muestral da una estimación eficiente de la media de la población, mientras la mediana de la muestra da una estimación ineficiente de ella. 7e todos los estadísticos que estiman la media de la población, la media muestral proporciona la me(or la m#s eficiente% estimación. En la pr#ctica, estimaciones ineficientes se usan con frecuencia a causa de la relativa sencille) con que se obtienen alunas de ellas. Estimaciones de punto y estimaciones de intervalo, su iabili!a!, una estimación de un par#metro de la población dada por un solo n!mero se llama una estimación de punto del par#metro. 1na estimación de un par#metro de la población dada por dos puntos, entre los cuales se pueden considerar enca(ado al par#metro, se llama una estimación del intervalo del par#metro. Las estimaciones de intervalo que indican la precisión de una estimación y son por tanto preferibles a las estimaciones de punto La ;nferencia Estadística comprende los métodos que son usados para sacar conclusiones de la población en base a una muestra tomada de ella. ;ncluye los métodos de estimación de par#metros y las pruebas de hipótesis. La Esti#ación !e $ar-#etros comprende a su ve) la Estimación 'untual, en donde se estudian los diversos métodos de encontrar estimadores y las propiedades óptimas que deben tener éstos, y la Esti#ación $or Inter+alos !e Conian(a, en donde se estima un par#metro usando un intervalo centrado en un estimado del par#metro y de lonitud iual a dos veces el error de estimación. El Error de estimación depende del nivel de confian)a deseado, usualmente, <0, <= ó << por ciento. En este texto solamente se tratar# el c#lculo de intervalos de confian)a. Los diversos métodos de encontrar estimadores y, las propiedades de estimadores óptimos son discutidos en un curso de Estadística 6atem#tica. 1na i$ótesis Esta!"stica es una afirmación que se hace acerca de un par#metro poblacional. La afirmación que est# establecida y que se espera sea recha)ada después de aplicar una $rueba esta!"stica es llamada la /i$ótesis nula y se
*
representa por >o. La afirmación que se espera sea aceptada después de aplicar una $rueba esta!"stica es llamada la /i$ótesis alterna y se representa por >a. 1na $rueba esta!"stica es una fórmula, basada en la distribución del estimador del par#metro que aparece en la hipótesis y que va a permitir tomar una decisión acerca de aceptar o recha)ar una hipótesis nula. "l iual que una prueba de laboratorio para detectar cierta enfermedad, una prueba estadística no es ciento por ciento seura y puede llevar a una conclusión errónea. >ay dos tipos de errores que pueden ocurrir. El error ti$o I, que se comete cuando se recha)a una hipótesis nula que realmente es cierta y el error ti$o II que se comete cuando se acepta una hipótesis nula que realmente es falsa. El ni+el !e si'niicación, representada por α, es la probabilidad de cometer error tipo ;, y por lo eneral se asume que tiene un valor de 0.0= ó 0.0-.3ambién puede ser interpretado como el #rea de la reión que contiene todos los valores posibles donde la hipótesis nula es recha)ada. La probabilidad de cometer error tipo ;;, se representa por β y al valor -?β se le llama la $otencia !e la $rueba. 1na buena prueba estadística es aquella que tiene una potencia alta. En este capítulo, primero se discutir# el c#lculo de intervalos de confian)a y pruebas de hipótesis para la media poblacional, para una proporción y finalmente para la varian)a de una población. Lueo se tratar# los intervalos de confian)a y prueba de hipótesis para la ra)ón de dos varian)as poblacionales, para la diferencia de dos medias poblacionales y por !ltimo para la diferencia de dos proporciones.
Esti#aciones !e Inter+alos !e Conian(a $ara $ar-#etros !e $oblación. /ean µs
y
σs la media y la desviación típica error típico% de la distribución de muestreo
de un estadístico /. Entonces, si la distribución de muestreo de s es aproximadamente normal que como hemos visto es cierto para muchos estadísticos si el tamaño de la muestra es N ≥ 30), entonces, podemos esperar hallar un estadístico muestral real / que esté en el intervalo ( µ s − σ s , µ + σ s ) , ( µ s − 4σ s , µ + 4σ s ) , ( µ s − :σ s , µ + :σ s ) en un @A.4BC, <=.*=C y <<.B0 C, respectivamente. En la tabla siuiente, se muestran los niveles de confian)a usados en la pr#ctica. 'ara niveles de confian)a que no aparecen en la tabla, los valores Dc se pueden encontrar racias a las tablas de #reas ba(o la curva Normal. Nivel de confian)a C
<<.B0 <<.00
<@.00
<=.*=
<=.00
<0.00
=
Dc :.00 -.00
4.=A 4.:: 0.@B*=
4.0=
4.00
-.<@ -.@*=
-.4A
Inter+alos !e conian(a $ara la #e!ia. /i el estadístico es de la media de 9 de la ± -.<σ x ± 4.=Aσ x , y muestra, entonces los limites de confian)a respectivamente. /i el muestreo de la población es infinita por lo tanto viene dado por 9 = ±D α
σ N
E*e#$lo. >alar los límites de confian)a de
σ
n
Feneralmente, la desviación típica de la población no es conocida. "sí pues, para obtener los limites usamos la estimación s o / es satisfactorio si N ≥ :0, si a aproximación es pobre y debe de empleare la teoría de pequeñas muestras.
C-lculo !el ta#a0o !e la #uestra. " la hora de determinar el tamaño que debe alcan)ar una muestra hay que tomar en cuenta varios factores, el tipo de muestreo, el par#metro a estimar, el error muestral admisible, la varian)a poblacional y el nivel de confian)a. 'or ello antes de presentar alunos casos sencillos de c#lculo del tamaño muestral delimitemos estos factores.
Par-#etro. /on las medidas o datos que se obtienen sobre la población. Esta!"stico. Los datos o medidas que se obtienen sobre una muestra y por lo tanto una estimación de los par#metros.
Error Muestral. Es la diferencia entre un estadístico y su par#metro correspondiente. Es una medida de la variabilidad de las estimaciones de muestras repetidas en torno al valor de la población, nos da una noción clara de hasta dónde y con qué probabilidad una estimación basada en una muestra se ale(a del valor que se hubiera obtenido por medio de un censo completo. /iempre se comete un error, pero la naturale)a de la investiación nos indicar# hasta qué medida podemos cometerlo los resultados se someten a error muestral e intervalos de confian)a que varían muestra a muestra%. Garía se!n se calcule al principio o al final. 1n estadístico ser# m#s preciso en cuanto y tanto su error es m#s pequeño. 'odríamos decir que es la desviación de la distribución muestral de un estadístico y su fiabilidad.
@
Ni+el !e Conian(a. 'robabilidad de que la estimación efectuada se a(uste a la realidad. &ualquier información que queremos recoer est# distribuida se!n una ley de probabilidad, así llamamos nivel de confian)a a la probabilidad de que el intervalo construido en torno a un estadístico capte el verdadero valor del par#metro.
%arian(a Poblacional. &uando una población es m#s homoénea la varian)a es menor y el n!mero de entrevistas necesarias para construir un modelo reducido del universo, o de la población, ser# m#s pequeño. Feneralmente es un valor desconocido y hay que estimarlo a partir de datos de estudios previos.
Ta#a0o !e #uestra $ara esti#ar la #e!ia !e la $oblación. Geamos los pasos necesarios para determinar el tamaño de una muestra empleando el muestreo aleatorio simple. 'ara ello es necesario partir de dos supuestos+ en primer luar el nivel de confian)a al que queremos traba(ar8 en seundo luar, cual es el error m#ximo que estamos dispuestos a admitir en nuestra estimación. "sí pues los pasos a seuir son+ 2btener el tamaño muestral imainando que n → ∞ , siendo D αH 4 el D con el valor del nivel de confian)a eleido, σ4 varian)a poblacional y e el error m#ximo
n= n=
D 4α H 4 σ 4 e4
o aplicar
n∞ - + ( n ∞ H n)
'ara obtener el tamaño de la muestra si hay randes diferencias en el tamaño muestral o hay escase) de información
E*e#$lo, 1na población a encuestar tiene -0000 personas y una varian)a de <.@*A. 3raba(ando con un nivel de confian)a de 0.<= y estando dispuestos a admitir un error m#ximo del -0C, Icu#l debe ser el tamaño muestral para traba(arJ En las tablas de la curva Normal el valor de Z / 2 que corresponde con el nivel de confian)a eleido, D αH 4 ±-.<@ α
n ∞ =-.<@ 4 ⋅ <.@*A H 0.-4 = :.B0@
&omprobamos que no se cumple, pues en este caso -0.000 K :.B0@ :.B0@ ? -%8 -0.000 K -:.B:0.B:0, por tanto, usamos n ∞ = :.B0@ H- + :.B0@ H -0.000%% = 4.B0*
Ta#a0o !e #uestra $ara esti#ar la $ro$orción !e la $oblación. 'ara calcular el tamaño de muestra para la estimación de proporciones poblaciones hemos de tener en cuenta los mismos factores que en el caso de la media. La fórmula que nos permitir# determinar el tamaño muestral es la siuiente,
B
n=
N ∗ D α4 H 4 ∗ ' ∗ - − '% N − -% ∗ e 4 + D α4 H 4 ∗ ' ∗ - − '%
7onde, D αH 4 correspondiente al D con el nivel de confian)a eleido, ' es la proporción de una cateoría de la variable, e es el error m#ximo, y N es el tamaño de la población. 1na parte fundamental para reali)ar un estudio estadístico de cualquier tipo es obtener unos resultados confiables y que puedan ser aplicables. &omo ya se comentó anteriormente, resulta casi imposible o impr#ctico llevar a cabo alunos estudios sobre toda una población, por lo que la solución es llevar a cabo el estudio bas#ndose en un subcon(unto de ésta denominada muestra. /in embaro, para que los estudios tenan la valide) y confiabilidad buscada es necesario que tal subcon(unto de datos, o muestra, posea alunas características específicas que permitan, al final, enerali)ar los resultados hacia la población en total. Esas características tienen que ver principalmente con el tamaño de la muestra y con la manera de obtenerla. El muestro, implica alo de incertidumbre que debe ser aceptada para poder reali)ar el traba(o, pues aparte de que estudiar una población resulta ser un traba(o en ocasiones demasiado rande, por tanto, se ofrecen las siuientes ra)ones extras+
Recursos li#ita!os. Es decir, no existen los recursos humanos, materiales o económicos para reali)ar el estudio sobre el total de la población. Es como cuando se compra un aparato, un automóvil usado por e(emplo%, que se prueba unos minutos el encendido, una carrerita, etc.% para ver si funciona correctamente y lueo se adquiere, pero no se espera a probarlo toda la vida encendiéndolo y apa#ndolo o, simplemente, de(#ndolo encendida% antes de reali)ar la adquisición.
Escase(. Es el caso en que se dispone de una sola muestra. 'or e(emplo, para el estudio paleontolóico de los dinosaurios sería muy bueno contar con, al menos, muchos restos fósiles y así reali)ar tales investiaciones8 sin embaro, se cuenta sólo con una docena de esqueletos fosili)ados casi todos incompletos% de esas criaturas en todo el mundo.
Pruebas !estructi+as. Es el caso en el que reali)ar el estudio sobre toda la población llevaría a la destrucción misma de la población.
El #uestreo $ue!e ser #-s e2acto. Esto es en el caso en el que el estudio sobre la población total puede causar errores por su tamaño o, en el caso de los censos, que sea necesario utili)ar personal no lo suficientemente capacitado8 mientras que,
A
por otro lado, el estudio sobre una muestra podría ser reali)ada con menos personal pero m#s capacitado. 'ara calcular el tamaño de una muestra hay que tomar en cuenta tres factores+ ? El porcenta(e de confian)a con el cual se quiere enerali)ar los datos desde la muestra hacia la población total. ? El porcenta(e de error que se pretende aceptar al momento de hacer la enerali)ación. ? El nivel de variabilidad que se calcula para comprobar la hipótesis. La conian(a o el $orcenta*e !e conian(a es el porcenta(e de seuridad que existe para enerali)ar los resultados obtenidos. Esto quiere decir que un porcenta(e del -00C equivale a decir que no existe ninuna duda para enerali)ar tales resultados, pero también implica estudiar a la totalidad de los casos de la población. 'ara evitar un costo muy alto para el estudio o debido a que en ocasiones llea a ser pr#cticamente imposible el estudio de todos los casos, entonces se busca un porcenta(e de confian)a menor. &om!nmente en las investiaciones sociales se busca un <=C. El error o $orcenta*e !e error equivale a eleir una probabilidad de aceptar una hipótesis que sea falsa como si fuera verdadera, o la inversa+ recha)ar a hipótesis verdadera por considerarla falsa. "l iual que en el caso de la confian)a, si se quiere eliminar el rieso del error y considerarlo como 0C, entonces la muestra es del mismo tamaño que la población, por lo que conviene correr un cierto rieso de equivocarse. &om!nmente se aceptan entre el *C y el @C como error, tomando en cuenta de que no son complementarios la confian)a y el error. La +ariabili!a! es la probabilidad o porcenta(e% con el que se aceptó y se recha)ó la hipótesis que se quiere investiar en aluna investiación anterior o en un ensayo previo a la investiación actual. El porcenta(e con que se aceptó tal hipótesis se denomina +ariabili!a! $ositi+a y se denota por p, y el porcenta(e con el que se recha)ó se la hipótesis es la +ariabili!a! ne'ati+a, denotada por q. >ay que considerar que p y q son complementarios, es decir, que su suma es iual a la unidad+ pq-. "dem#s, cuando se habla de la m#xima variabilidad, en el caso de no existir antecedentes sobre la investiación no hay otras o no se pudo aplicar una prueba previa%, entonces los valores de variabilidad es pq0.=. 1na ve) que se han determinado estos tres factores, entonces se puede calcular el tamaño de la muestra como a continuación se expone. >ablando de una población de alrededor de -0,000 casos, o mínimamente esa cantidad, podemos pensar en la manera de calcular el tamaño de la muestra a través de las siuientes fórmulas. >ay que mencionar que estas fórmulas se pueden aplicar de manera aceptable pensando en
<
instrumentos que no incluyan preuntas abiertas y que sean un total de alrededor de :0. Gamos a presentar dos fórmulas, siendo la primera la que se aplica en el caso de que no se cono(ca con $recisión el ta#a0o !e la $oblación, y es+ 4 ) pq n= 4 e 7onde, n es el tamaño de la muestra8 ) es el nivel de confian)a8 p es la variabilidad positiva8 q es la variabilidad neativa8 y e es la precisión o error.
E*e#$lo /i se quiere un porcenta(e de confian)a del <=C, entonces hay que considerar la proporción correspondiente, que es 0.<=. Lo que se buscaría en seuida es el valor ) para la variable aleatoria z tal que el #rea simétrica ba(o la curva normal desde -) hasta ) sea iual a 0.<=, es decir, '?)KDK)%0.<=. 1tili)ando las tablas de la función de distribución Normal se puede calcular el valor de ), que sería -.<@ con una aproximación a dos decimales%. Esto quiere decir que '?-.<@KDK-.<@%0.<=. En el caso de que s" se cono(ca el ta#a0o !e la $oblación entonces se aplica n=
) 4 pqN Ne 4 + ) 4 pq
7onde, n es el tamaño de la muestra8 ) es el nivel de confian)a8 p es la variabilidad positiva8 q es la variabilidad neativa8 y e es la precisión o error.
E*e#$lo 1n &oleio desea reali)ar una investiación sobre los alumnos inscritos en primer y seundo años, para lo cual se aplicar# un cuestionario de manera aleatoria a una muestra, pues los recursos económicos y el tiempo para procesar la información resultaría insuficiente en el caso de aplic#rsele a la población estudiantil completa. En primera instancia, suponiendo que no se conoce el tamaño exacto de la población, pero con la seuridad de que ésta se encuentra cerca a los die) millares, se aplicar# la primera fórmula. /e considerar# una confian)a del <=C, un porcenta(e de error del =C y la m#xima variabilidad por no existir antecedentes en la institución sobre la investiación y porque no se puede aplicar una prueba previa. 'rimero habr# que obtener el valor de Z de tal forma que la confian)a sea del <=C, es decir, buscar un valor de Z tal que '? )KDK)%0.<=. Entonces, )-.<@. Mesultando, n:A*.-@
-0
Las técnicas de #uestreo $robabil"stica son aquellas en las que se determina al a)ar los individuos que constituir#n la muestra. Estas técnicas nos sirven cuando se desean enerali)ar los resultados que se obtienen a partir de la muestra hacia toda la población. Lo anterior se dice dado que se supone que el proceso aleatorio permitir# la obtención de una muestra re$resentati+a de la población. Los muestreos probabilísticas pueden ser con o sin reempla)o. Los #uestreos con ree#$la(o son aquellos en los que una ve) que ha sido seleccionado un individuo y estudiado% se le toma en cuenta nuevamente al eleir el siuiente individuo a ser estudiado. En este caso cada una de las observaciones permanece independiente de las dem#s, pero con poblaciones pequeñas tal procedimiento debe ser considerado ante la posibilidad de repetir observaciones. En el caso de poblaciones randes no importa tal proceder, pues no afecta sustancialmente una repetición a las frecuencias relativas. Los #uestreos sin ree#$la(o son los que una ve) que se ha tomado en cuenta un individuo para formar parte de la muestra, no se le vuelve a tomar en cuenta nuevamente. En este caso, y hablando específicamente para el caso de poblaciones pequeñas, las observaciones son dependientes entre sí, pues al no tomar en cuenta nuevamente el individuo se altera la probabilidad para la selección de otro individuo de la población. 'ara el caso de las poblaciones randes por e(emplo la población de un país% dicha probabilidad para la selección de un individuo se mantiene pr#cticamente iual, por lo que se puede decir que existe independencia en las observaciones. Las técnicas de muestreo probabilística que mencionaremos ser#n b#sicamente tres+ el aleatorio simple, el aleatorio estratificado y el sistem#tico.
Muestreo aleatorio si#$le. 'odemos aquí mencionar que para el caso de que se estuviese estudiando un propoción dentro de la población una elección de candidato, la aceptación o recha)o de una propuesta en una comunidad, la presencia o ausencia de una característica hereditaria%, y el en caso de un muestreo aleatorio simple, la estimación que se puede hacer de la proporción buscada a partir de la proporción hallada en la muestra se obtiene mediante la construcción de un intervalo de confian)a+ π ' tolerancia de la muestra 7onde π es la proporción buscada en la población y ' es la proporción presente en la muestra. 'or otro lado, la tolerancia !e la #uestra est# relacionada directamente con el nivel de confian)a y se obtiene a partir de la distribución normal al iual que como se obtuvo para el c#lculo del tamaño de las muestras. La representaremos con ) para obtener,
--
π= ' ±)
?
pq n
Muestras aleatorias. 'ara que las conclusiones de la teoría del muestreo y de la inferencia estadística sean validas, las muestras deben escoerse representativas de la población. El an#lisis de los métodos de muestreo y problemas relacionados se llaman el diseño del experimento.
Muestras no aleatorias. &uando el método de extracción de las muestras no aseure a cada individuo de la población o del estrato, iual probabilidad de ser eleido, entonces la muestra obtenida no es aleatoria. " veces, esto se hace por ra)ones de practicidad en el sentido del costo o del tiempo. /i se desea tomar una muestra probabilística de la población arentina no parece ra)onable usar a cada individuo como unidad de muestreo. Lo mismo cuando se desea hacer un muestreo a los escolares de una provincia, es muy difícil empadronar a todos primero para lueo sortear, y se tardaría demasiado para ubicarlos uno por uno hasta terminar el traba(o. ? En el #uestreo !e eta$as #4lti$les se utili)a para el caso de randes poblaciones humanas. "c#, la unidad de muestreo en la primera etapa son los departamentos de cada provincia. /e los lista y se hace un primer sorteo para la selección. En una seunda etapa se distinue la población rural de la urbana, subdividiendo en fracciones diferentes superficies con densidad de población seme(ante%. 2tra ve) se sortea para eleir, y se contin!a con otra división en radios dentro de las fracciones, sementos dentro de radios, y así sucesivamente. La ra)ón es repartir equitativamente el traba(o del encuestador. ? En el #uestreo $or con'lo#era!o s se elien con(untos donde naturalmente se arupan los individuos. Es, por e(emplo, el caso de las escuelas para hacer un muestreo alumnos en el sistema educativo, o las facultades para los universitarios. /i se trata de estudiar las condiciones laborales de los empleados de comercio que traba(an en supermercados, primero se empadronan a los luares naturales de traba(o supermercados%, y lueo se sortea entre estos conlomerados para eleir a uno. Lueo se entrevista a todos los empleados del supermercado eleido, y se acepta esto como una muestra representativa del sector. ? El #uestreo siste#-tico se usa para el caso de sucesiones de elementos. 'or e(emplo, el caso de las historias clínicas de pacientes, certificados de nacimiento, tar(etas de cat#loo en una biblioteca, etc. /on los casos donde la información est# en archivos y hay que traba(ar con estos para obtenerlas. /e elie una cifra entera, ra)onable, tomando en cuenta el tamaño de la muestra y el de la población. 'or e(emplo, hay que tomar una muestra de tamaño 4= de un archivo que contiene *AA
-4
fichas8 lueo, el cociente entre población y muestra es *AA H4=, aproximadamente -<. Notar que si se elie 40 el tamaño muestral no llea a 4=. Entonces, se cuentan las fichas y a llear a la décimo novena se la extrae, se siue hasta la n!mero :A que ser# la seunda escoida, y así sucesivamente hasta tener las 4= fichas necesarias. Es también el caso de los soldados que se numeran de - en adelante y cada = u otro n!mero cualquiera% dan un paso al frente. Es un método sencillo y r#pido de selección.
a. N4#eros Aleatorios. 1na forma para obtener una muestra representativa es mediante el muestreo aleatorio, de acuerdo con el cual, cada miembro de la población tiene la misma probabilidad de ser incluido en la muestra. 1n método para lorarlo es asinarle a cada uno un n!mero, escribir cada n!mero en una papeleta, y reali)ar en una urna un soporte (usto en ella. 1n método alternativo consiste en recurrir una tabla de n!meros aleatorios.
b. Siste#-tico. Es an#loo al anterior, aunque resulta m#s cómoda la elección de los elementos. /i hemos de eleir *0 elementos de un rupo de @00, se comien)a por calcular el cociente @00H*0 que nos dice que existen *0 rupos de -= elementos entre los @00. /e elie un elemento de salida entre los -= primeros, y suponiendo que sea el O?ésimo, el resto de los elementos ser#n los O?ésimos de cada rupo. En concreto, si el elemento de partida es el n!mero @, los restantes ser#n los que tenan los n!meros+ -=@ ,4x-=@,......,:
c. Estratiica!o. " veces nos interesa, cuando las poblaciones son muy randes, dividir éstas en sub?poblaciones o estratos, sin elementos comunes, y que cubran toda la población. 1na ve) hecho esto podemos eleir, por muestreo aleatorio simple, de cada estrato, un n!mero de elementos iual o proporcional al tamaño del estrato. Este procedimiento tiene la ran venta(a de que se puede obtener una mayor precisión en poblaciones no homoéneas aunque en este curso no estudiaremos los métodos necesarios% /i decidiéramos hacer una encuesta sobre la incidencia del tabaco en nuestro centro, podríamos ra)onar de la siuiente forma+
-: