""~
1
t
~
t
t
t
,•
1
í
, t , t • t
t
•
. '; .
,-,", ~
- ~'~
e mos . M" "IJ F-L V!V"NCO
l" s.:(ipciún 1\0 151 ti>lI, Santia go de Chile
Manuel Vivanco
Dnech05 de edició n re'~rv,ldo, para tod,,, los paí~ por
e
ED iTORI AL 1J " [ Vf: R SrrA ~ J", S."
Avda Bernardo 0 '1liAAi", lOSO, S. lltiago de Chile. edi tor@uni'-ersitaría.d Nin¡(tL na part e de est e libro, incluido el disen o de la po rt. da, pllede ser reprod ucida, transm it ida O . 1,n'cena da, se" por procedimient os mecánicos, ópüeos, quimico, o ..I" 'i rónicos, inclu idas 13-, fotoco pias, s;n per miso escrito dd ed itor. ISBN 956 · 11-1801 _3 T""to comp"c s{o cn tipografja Berlú,t J JI! 3 Se (,,, minó de imprimir ".
Muestreo Estadístico
I' RrM ER.A EDlC10 N
d.. L OOO ejemplares, en los taH" n: s de Impre nta Sdle' ;Jnos S.A. G\",..ral G dna 148 6, S. ntiago de Ch ile, en diciemf:,re de 2005.
. Diseño y Aplicaciones
D I5FJ\lO D E l'(l~l""[)"" Y DI....CR /\ MA CI(¡ N
Pauld Diaz RoJrigttt"~ Yenny 1,1. Rod rigtLe?, l'(ll(l A D/\
Re"é M a ~ritte G ak (Jnde, 1953 (Fragmen to) O leo sobre li,·nw, SI " IOOcm Hou,ton [I"",s), "¡'h e Menil C ollecno n
ww w .univ e rsita ri a .cl
IMPRESO EN CH ILE I PRJI'i'TED IN CHILE
EDITOR IAL U NI VERSITAR IA
Índice
A la Rama de Montañ a de la Uni versidad de C h ile A concagua . Oju;; del Salado TOl¡llamju - Vallu1/a mjll Placa Roja de Lo ValJés Cas cada Clásica de Yerba Loca Tupungalo - Maipo Exponencial - Constelaciones
Introducción
13
C ...rlTUI.O I
La e ncu esta por m ue streo l. I . T ipos de encuest a 1.2. Etapas de 1:1 e ncuesta 1.2.1. D ecisiones previas al m uest reo 1.2.2. Decisiones propi as del m uestreo 1.3. 1.4 .
1.5. 1.6.
1. 2.3 . Decisiones posteriores al m uest reo Poblacíón y muestra Errores siste mát icos l A . I . Errores por no ob se rvación 1.4 .2. Erro res de m edición Rcpresen t atívíded Resu men históri co
15 15 16 16 17 17
19 19
20 20 20 21
C APtnJI.O 2
Conceptos básicos 2. 1. Glosario de diseño de muestras 2.2. G losa rio de inferen cia estadtsttca C APITULO
23 ZJ 25
3
Tipos de muestreo p rchabilist ico
27
C Af1ru L.O 4
Estim adores del parámetro poblactonal 4.1. Propiedades de los est imadores 4. l . 1. Estimador tnsesgad o 4.1 .2 . Esti mad or consistente 4.1. 3. Esti mador eficiente
4. 1.3.1. Eficiencia absoluta 4 .1 .3.2. Eficiencia relativa 4. 1.4. Estim ador suficiente 4 .1.5. Est imador resistente
31 JI
31 33
34 34 34 35 35
4.2.
Procedimientos para generar est imadores
35
CAPiTU LO 5
Distribución muestral de estadísticos S.l . Distribución de la media 5.1. 1. Distribución en la población 5. 1.2 . Distribución en la muestra 5. 1.3. Distribución del estadístico media m ues t ral 5.2. D istr ibución de la proporción 5.2. 1. D ist rib ución en la po blación 5.2.2 . D ist ribuc ión en la muestra 5.2.3. D istribución del est adístico p ro po rció n m uest ral C APiT ULO
CAJ'l"llJl.O
38
40 41 42 42
45 45 46 47 48 48 48
49 50 50 51 52
7
El er ro r total y sus componentes 7.1. Error total 7.2 . Err or po r sesgo no muestra! 7.3 . Error po r sesgo m uestra ! 7.4 . Error por variació n de la m uestra C Al't l"UI.O 8 Tamaño de la muest ra 8.1 . Factores que cond icionan el tama ño de la muestra 8.1.1. Recursos econó m icos 8.1.2 . Proce-dimientos de ana lisis 8. 1.3. H et erogeneidad de la poblac ión 8 .2. Precisión de la estimación 8.3 . Tam año de la muestra y tamaño de la población ~.4 . Tamaño de la m u est ra y pa rámetros 8.S . fórmula del ta m año de la muestra
D ecisiones su bjetivas en cálculo del tamaño mucstral
9 Notació n y fórmul as 9.1. Notación general 9 .2 . N otaci ón de m ed ias. Población 9.3. Notaci ón de proporciones. Población 9.4 . Notación de m edias. M ues tra 9 .5. Notación de pr oporciones. Muestra
C APIT ULO
37 37 37 37
6
Int e rva lo de confianza 6 .1. ¿Qué es un inte rvalo de confianza? 6.2 . Confianza en la est im ació n 6.3 . Valores sigma 6.4 . Nivel de confianza y t ama ño de la m uestra 6.5 . Errores asociados al in tervalo de co nfianza 6.5. 1. Pro bab ilid ad de e rror u 6 .5 .2 . Erro r máximo admisible 6.5 .3. Err or típico 6.5.3. 1. Erro r típico de la m edia 6.5 .3.2 . Erro r típico de pro po rcio nes 6.6. Co nstrucción del intervalo de confi anza
8.6.
55 55 56 57
58 59 59 59
59 60 60 61
62 62
CW[T ULO
10
\-Iuestreo alea torio simple 10 .1. Sel ección de unidades de muestreo 10.2. Varianza y cuasivarianza 10.3 . Corrección para poblaciones finitas 10 .4 , Esti mación de la m edia 10.4.1. Error típico 10.4.2. Tamaño de la muestra 10 .4.3. Int ervalo de confia nza 10.5. Estimaci ón de- la proporció n 10 .5. 1. Error t ípico 10.5 .2. Tamaño de la m uest ra 10.5 .3. Intervalo de confi anza CAPITULO
1I
Muestreo estratificado 11.1 . Precisión de la esti m ac ió n 11.2. Tamaño de los estratos 1 1.3. Número de estratos 11 .4 . Selección aleatoria de elementos 11.5. Afijecíón 11.6 . Not ación 1 1.6 . \. Pob laci ón 11 .6 .2. Muest ra 11.7. T ipos de afijacíó n 11.7.1 . A fijocíón igual 11 .7.2 . Atijación proporcio nal 1 1.7.3 . Afijación ópti m a CAPITU l. O 12 Mu estreo estrati ficado de medias 12 .1. Est im ación de la m edia 12 .1.1 . Med ia aritmética 12.1. 2. Med ia aritm ética po nderada
62 65
65 66 67 68 68 69
69 70 71 71 71 72
74 76 76 77 79
81
82 82 82 83 83
84 85 86 88 88
89 89 93 93 93 94
12.Z. Varia nz a gen érica del est imador de la media l Z.3. Ta m a ño genérico de la muestra l ZA. Ahjeci ón p roporcional 12.4 .1. Estimación d e la media 12.4 .2. Error típico 12.4 .J . Tamaño de la muestra 12.4.4. Intervalo de confianza 12.5 . Afijacíón óptima de varianza 12.5 .1. Est imació n de la me dia 12.5 .2. Erro r upi co 12.5 .J . Tam a ño de la m uestra 12.5.4 . Inte rvalo d<.' confianza IZ .6 Afijación óptima de costo 12.6 .1. Estimación de la media 12.6.2. Error típico 12.6 .3 . Tam año de la m ues tra 12 .6.4 ., Inter valo de confianza
95 96
97 97 97 97
l OO 10Z 102
IOZ
103 106 108 108 108 109 11Z
errur.o
lJ restreo estratificado de proporciones I J .l . Esti mación de la proporción 13.2. Varianza gené rfca del esti mador de la proporción 13.3. Tamaño de la m uestra gené rico 13.4 . Atiject ón p roporcional IJ .4 . 1. Estimación de la proporción 13A.Z. Error típico 13.4.3. Tamaño de la muestra 13.4.4. Intervalo de confianza 13.5. Afijaci ón óptima de var ianza 13 .5. l . Estimación de la p roporció n 13.5 .2 . Error típico 13.5 .3. Tamaño de la muestra lJ .s.4. Intervalo de confianza 13 .6 . Afijací ón óptima de costo 13 .6 .1 . Estimación de la proporción 13 .6.2. Error tí pico 13 .6.3 . Ta m año de la m uestr a 13 .6 .4 . Intervalo de co nfianza
115
CAPITULO 15 . . _ :-'luestr CO po r con glome rados sin sobrnues trco . D lst mto tamano 15.1. Estim ación de !J. m edia 15 .1.1. Error típico 15.\ .2. Tamaño de la muest ra 15. 1.3 . Int ervalo de co nfianza 15.2. Estimación de la p ropo rción 15.2.1. Errortipico 15 .2 .2. Inte rvalo deo con fianza
139 139 140 140 14 1 142 142
144 1-15
145 149 149 150 I SO 151 154 154
155
115 116 116 117 117
l iS 118
1ZI I ZZ
I ZZ I Z3 I Z3 126 128 I Z8 128 128
13Z
1TULO 14
est rco por conglome rado s sin sub m uesrreo. Igual tamaño 14. 1. Selecció n de las unidades de muestreo 14.2. Pre cisión de la estimación 14.3 . Congl omerados de igual tam año
14.4. Notació n 14.4 . 1. Notación población 14.4.2. Notación muestra \4.5 . Esurnacíón de la media 14 .5 .1. Error típico 14.5 .2 . Tama ño de la m uestra 14 .5.3 . Intervalo de confianza 14.6 . Est im ación de la p roporción 14 .G.l . Error tip ico 14 .6 .Z. Inter valo de confianza
C.. . rn1JLO 16 Muest ro p or conglomerados co n submucs t rco 16 .1. Est imación de la m edia 16 .1.1. Error típico 16 .1.2 . Tam año de la m uestra 16 .1 .3 . Int ervalo de confianza 16 .2 . Estimación de la proporción 16 .2 .1. Error t ípico 16 .2.2. Inte rvalo de confianza . . . 16 .3 . Selección de u nidad es de muestreo e n r;'u est reo pol ietápico 16 .3 .1. COIl¡i!;lo me rado de tamaño granee 16 .3 .2. Co nglome rado de t amaño peque ño CArhu LO 17 Otros dise ño s proh abi\ístkos 17.1. Muest reo siste mático 17.2. Mu estreo pol ifásico 17.3 . Muestr eo con ré pli cas 17.4 . Mu estr eo po r áre as
150 162 16 2
163 163 166
166 166
169 170 170 171 171
173 174
174
135
136
C APITULO 18
138
Prob ab ilidad de sele cció n p ropo rcional al ta m año 18 .1. Estimación de la m ed ia
139
177 177
18.2. Erro r típico 18.3 . Interval o dt= co nfian za C...ernno 19 M étodos indirectos de est imad ón 19.1. Estimador de razó n 19.2. Estadístico muestra! 19.3 . Error típi co del estimador de 19.4 . Inte rvalo de confia nza
177 178
cxnuroiar y medir la amfiabilidad de la iflJormcuión estudístíca úril a través de la teoría sle la probob ílidad.
x I
CAPITuLO 20 D iseños no probahilist i..:os 20 . 1. Mu estreo por cuotas 2\ ).2. Muestreo cuasiprobélbilístico 20 .2 . 1. Muestreo aleat orio po r cuotas 20.2.2. Mu est reo de rutas aleatorias 20.3 . Otros diseñ os no probabilísticos 20.3 . 1. Mu estreo enatico 20.3.2. Muestrt·o op iná tico
181 182 183 183 184
187 187
190 190 190 19 1
191 19 1
C',f'11UI.O 2 1
Funciones de cost o
193 C""!TIJLO 22 Tasa de no respuesta 195
Comno 23 Efecto de d ise ño
201 CAPITU l.O 24 Error absoluto y error relativo :
203 CAI'ITULO 25 Pond eración y elevación 2~ . 1. C oe ficiente d e pon deración 2:::1 .2. Coeficiente d e el evación
El m u estreo no es una simple sus riturujn de Ulla cobmura tocal por WUI porcíoi. El mues Creo es la cinlria y a rte de
205
206 207
B IMIJOCltAFlA
209
w. E. D eming Sorne Theory of Sarnplmg. New York: Dover; 1950 .
Introducción El p resent e te xto tiene dos orígenes. A saber, las lecciones sob re teoría de muestr as que me ha correspondido impa rtir durante los últimos anos e n el Dep art amento de Sociología de la Universidad de Chile y, por otra parte, la practi ca en diseno de mu estras consec ue ncia de asesorías real izadas a instituciones públicas y privadas. H a sido escrito con el propósito de satisfacer los inte reses de dist intos lectores. En efecto, estudiantes que aspiren a una formación rigurosa e n el ámbito de diseno de m uestr as y, sírnult éneamente, p rofesionales de las C ie ncias Humanas que realice n investigacio nes empíric as mediante e-ncuesta por m uest reo. Como text o de estud io res ulta adecu ado en una asignatura de p rcgrado de carác te r anual. Sin e mb argo, el igiendo los capítulos pe rtinentes p uede ut ilizarse en un cu rso de duración semest ral. El uso del libro supone co noc imi entos de estadística bá sica . La teoria de muestras se sustenta en el cálculo de probabilidades. Desd e una perspectiva estric tamente teóri ca, co noci mie ntos de álgebra y cálculo infinitesimal resulta n necesarios para comprender los fundam entos de la inferencia estadística. Sin obv iar las e xigencias teóricas inherentes a la infe re nc ia, se ha enfatizado el aspecto instru me ntal y ap licado de la t co r ta de m uestr as. Este libro no se hab ría escrito sin la estimulante for m ación otorg ada por el profesor Rafael Pro Bermejo dd Instituto de Estadistica e Investigación Operativa de la Universidad Compluten se de Madrid . Tampoco h ubie ra sido posible sin un sabe r acumulado durante décadas plasmado en el texto inic i ático d e Yates (194 9) 'j los lib ros que nos nutrieron como est udiante Kish ( 1972), Coc hran (1980) y Azor¡n Poch (1 9 72) . Las habilid ades de M ónica Gerber han sido relevantes para generar esta obra . Supo descifrar fó rmu las imposibles y escribirlas en fo rmato d igit al, y resol víó los problemas que ilustran cad a u na de las aplicaciones El propósito de esta s p áginas es t em atizar los problemas centrales y sus solucio nes. Si bien no es un texto ex ha ustivo trata los aspectos fundamentales del diseño d e m uest ras segu n el desarr ollo a la fecha . No es un ma nual ni una acum ulació n sistemá tica de rec et as. Facilita los conocim ientos para resolver e n una situ ación concre ta la selección de u na mu estra rep resent ativa de la població n obj eto de estudio.
C~pitulo
1
La encuesta por m uestreo
La investigación cuantit ativa por antonomasia es la en cu esta por m uestreo. Se caracte riza po r utilizar informació n de una m uestra representativa par a explorar, describir o explic ar las propiedades de la po blación or igen de la m uestra. Los suste ntos teóricos de la enc uesta son la infer encia esta dística clásica y la teoría psícosoctal de la com unic ación con entre vistas. La inferencia se nutre de la teoría de la estim ación. Ésta se basa en el calculo d e probabili dades y, e n particular, en las funciones de distribución, el teorema del limite centra! y la le y de los grandes nú me ros. La tcorfa psicosocial de la comunicació n con entrevistas com pre nde comportamiento s verbales denominados speech events. En este contexto la entrevista es una com unic ació n in terpersona] orientada a un fin donde trmsrnisor y rece ptor vchiculizan el mensaje a tra v és del habl a. La entrevista media nte c uestionario es un modo de entrevista utiliza do desde una perspectiva metodológica para medir u n objeto de estudio.
1.1. Tipos de enc uest a 1.3 encuesta pu ede ser ente ndida de dos modos difere ntes. La visión amplia em ula encuesta con toda investigación en la que se produce infor mación mediant e procedimientos qu e no sean experim en tales. La perspecti va res tr ingida concibe la encuest a como un procedimícnto que consider a información de una mu estra con el objeto de infe rir a la población origen de la mu est ra. La segu nda defini ción corresponde a la encuest a por mues tr eo y será uti lizada en est e te xto. La b ibliografía distingue tres tipos de investigación a propósíto de l uso de la encues ta por mccstreoA saber;est udi os exploratorios realizados panl identificar una materia de la q m.' no se tienen antecede ntes. En es te con tex to la encuesta permi te generar hip ótesis y lineas de investigación. Encuestas descriptivas con ti propósito de ob ten er información que pe rmita carac teri zar un ob jeto de estudio en fun ción de divers os atribu tos, a fin de describir cómo so n las cosas. Las encuest as analíticas t ienen como obj eto el est udio de rela ciones e ntre variables, con el fin de explicar por qué las cosas son de ese modo. Naturalmente qu e una e ncuest a por muestreo pu ed e se r clasificada según la naturaleza de la in vesti gación en que esta se e nmarque. Asi, por eje mplo, segun su finalidad se distin gue e ncuesta básica o aplicada, de acu erdo a la medici ón en
el t iempo; encuesta d iacróni ca o sincrón ica en f .. . ' . to de estudio atomísticas o e , J ' . u ncron de la am plitud del o bjeo n ext ua es, Sl'''' U 1 J 1 I d " tnteviruentes de campo o ' lb ' gun e gral o e e centro l' variables ue a or atono, Cualquiera sea la te xo nornt a el t po r mues treo es represe ntar la realtd ~ma~~ntral del diseño de una enc ue sta La muestra es una maquet d I ~. rante un modelo reducido de est a. atributos a una escala me a Ee a po 1acron en la que están reprod ucidos sus muestra como un ('SP'" d"O'¡" ""'bite ~.ontexto, KIsh ( 1972) usa la im agen de la JO e a po acron El problem a de la e ncuesta po r mu . . . paso de lo pa rticular a lo gc J P estre~ es el de la Injerencia. Es dec ir, el nerar. ara estos erectos d fi """ no, est rategias de sel..ccícn d e e1cm en tos y post - se e nen, en pnme - . r te rrr uJ' error-mente, procedi mientos de estimación de los pa rá metros blact po anona es.
1:
1.2. Etapas de la e ncu esta Se ha produ cido una variada nom enclat ura hl en la ejec ución de la encuesta p. 'Ara. esta ecer las etapas a considerar ~" po r- m uest reo juic¡ I H ( 19) de una encuesta po r m uestreo irn li d IlC.l ~ (e enry ~ O), el diseño efec to, cabe distingui r decisi ones r .c~ ~ol7ar eCI~ I?neS en tres mo me ntos. En p ropi as del muestreo y decís " ~revlas .a a selecci ón dt' la mu est ra, decisiones slOm s postcnores a la sel ección de la mu estra.
Plan de ,m álisis. Est able ce r los procedim ientos de procesam iento esta dístico de la infor ma ción.
1.2.2 , Decisiones propias del muestreo
El momento del m uestreo se caracteriza por decision es téc nicas, e ntre las que cabe destacar las siguientes: prvu dimierlto de seleccWn de e/eme7ltos. Se t rat a de elegi r entre las opciones de muestreos probabilísticos y no probabilísticos. Tmn..l rlo de la muestra. Básicamente se tra ta de aplicar la fórm ula co rrespondie nte segú n el procedimiento de selección elegido. Nivel de amfianza y pmbabilúLld de error: Se t rata de tom ar decisiones respecto a la precis ión de- las estimaciones. Probabilidad de selección (le las unírlllrles de muestreo. Establ ece r si toda s las unidade s tendrán la mi sma pro babilidad de ser elegidas o probabilid3des distint as de selección . A sabe r, decid ir si el diseno ser á autopondcradc o no autopomkrado 1.2.3. Decisiones posteriores al muestreo El momen to po steri or al m uest reo co nte m pla materias del siguie nte o rde n. Colíiicocó wy digitaciólI. Princip alm e nt e cerrar pr egun t as abiertas y generar
1.2,1. Decisiones previas al mu estreo
un a base de datos,
El momento previo al m uestreo d' 1'· _ Objeto de estudio F d 'Ice re ación con las siguie ntes ma terias. . un «me nt a mente es tablec er C Ud·1es son 1as pregunt as de investigació n.
pesquisando er ro res de rango y consistencia. 1huam iellto de no respu esta. Se tra ta de identificar los tipo s de no respuesta 'i ap licar los procedim ientos de co rrección co rrespo nd ientes. PmuleTlu ión y elevació/!. Se pondera asignando pesos di ferentes a las un idades r nucstrales. a fin de que no h aya elementos subrepresentados o sobrerrepresentados 'i se eleva m ult iplicando las un idades m uestrales po r un coefic ien te pa ra obtener desde la muestra los valores qu e corresponderían a la població n origen de la muest ra.
Variabilizar: Establecer definiciones no mi nal es )o' operacionales de los conce ptos. Poblaci/m. Definir cuales son los elementos .. la que se realizaran infer encias qu e componen la pob lación de
Marco muestrol. Disponer del ma terial en ue f I . Y q ue permitir á su selecc ión . q gu ran as unidades mu estrales Ins tr umento de medida. Ámbito d . , . .. .. d accton de las hipótesis e n t . . e a ~onstrucClon de Ind tces y escalas. Recuestio nario. enmnos e pregun t as seg ún el forma to de un
Recogida de i ntormaaon { .. , 1. as a1tcrnauvas a e t personal , postal o telefóníc El , '. l' I s e respecto son e ntrevista co m putador. a. • registro (e os da tos pu ede ser con lápi z o Arlb'rramiento a encuestadores. Hásicamente f il¡ , . aplicación del instrum t J > :xf d. e I ami lanz~r a los entre vistadores Encuesta piloto. Se eva lúan f~lco J"d' md'd ' I~ y a estrat egia de selección de casos. • a 1 a e instrum en to de m d' J J d ' e I ( J , a tasa e no respuesta s, la var ianza J I " tabl t . . l e as liana es marcado ras j' la organ¡z "" d 1 fa b aj o ue ca mpo. rzacton e COti la
l fi
DepuraciÚ1l de la base de datos: Básicam e nte e valuar la calidad de los datos
La definición de las et apas implicadas en la e ncuesta por m uestr eo evide nci a q ue la realización de una encuesta es un pro yec to complejo, do nde concurren diversos saberes y habilidades con el propósito de gene rar UII prod ucto cor rect o. En algunas de estas tareas nada tiene qu e decir la teoría de m uest ras, por ejemplo, elaboración del instrumento de medida o realiz ación del trabajo de cam pe•. Sin emhu rgo, un cum plim iento Insatisfactorio de IJS tar eas anexas inva lida el rcsuu ado, au nqu e se utilicen procedimientos sofisticados para la sele cción de ele mentos.
17
G ráfico l . Etapas de la encuesta por muestreo
1.3. Población y muest ra
rrl"gUl1t~ deI
Cebe preguntarse por q ué una muestra y no un o-nso en el que se mid en todos 105 dcment0s de la població n. Dos razo nes justifican la pe rtinenci a del uso de mues trJs. La pri me ra es obvia y dice relació n co n el menor costo co m parativo de una e ncuest a. La segunda razón es menos evídentc. La e xper iencia enseña quc ur.a m uestra es má s precisa en b estimación de los valo res poblacío ncles que u n censo Para explicar esta paradoja es preciso diferenciar er rores de m uestreo y er,ores ajenos al muestreo. Error de muesrrev. Se produce co mo res ult ado de me dir infor ma ció n de un subco njunto - m ue st ra-, co n d objeto de esti ma r valor es correspo dícrues al c,njunto - pohlación. En conSKUenC13, es un e rro r p roducido por la naturalez a misma de la infe rencia. El número de muestras de tam año n posibles de se [eccionar en una población de
lnv~ti~~ció~ I '---r----l I
0""
I
"i~,¡""'Ó"I
Ma rco mu estral
I
I
Cuestionario
Di$C'oo muestra]
I
I
I
tamaño .N corresponde a la
ApliucíOn de la encuesta
I I
I
Plan de an;ilisis
Digiución
I
I
I ¡Depuración base de datosl--
¡Tratamiento> estadisticcs 1_ I
Proc('Samiento computacional
~~I'J(ión y elevaoon
y-
Proccd;~nit'ntos d-... no r"i~..!~
I I
Sald os complIt:ociona!t'S
inves tigación
I
I
Pregun ta de
I Informe
I I
co mbinación[~'.
El erro r de m uestreo se produce por q ue se infi er e a la pob lación desde sólo una muestra de tam año n La magn itu d de l error de m uestree varia e n función de un conju nto de- [a crores, Por ejemplo, el er ror de muestreo disminu ye." cuando la muestra es grande, y éste aumenta cuando la dispersión de las variables som et id as a m edició n es grande. Los ce nsos no presen ta n error de m uestr eo. Error oieno al muestreo. Se origina en el co njun to de o pe raciones que se realizan en el p roceso de recogida y alm acenami ento de información . La magnitud del e rror ajeno al m uestr eo d e pe nde bá sicamente del nú mero de observaciones regtstradas. En co nsecuencia, el er ror ajeno al muestr eo es im porta nte en un ce nso y m eno r e n una m uest ra. Son fuen te de e rro r la aplicación del instr ume nto, la codificación y la dígit ación de los dat os. Los e rro res de muestreo)' ajenos al muestreo so n una dificu ltad p :lra co nocer el. valor exacto del parám e tro en la població n. La e xperiencia enseña qu e los errores de m uestr eo son m en ores a los err o res ajenos al m uestr eo. En co nsecuencia, u na m uestra bien dis eñada permite estim ar el parámetro pobl acio nal co n en err or asociado me nor qu e el producido e n un censo . En éste se acu m ulan errores debido a la ca ntidad de info rmaci ón m anipulad a. Paradójicam ente las oficinas ce nsales utilizan muestras pa ra est imar los valo res de la po blació n, a fin de m ejo rar los result ados producidos por el censo.
l A. Erro res siste m át icos La calidad de la info rma ción generada m ediante la e ncues ta po r muestreo es decisiva po rq ue condiciona la efICacia de la infe-ren cia . En efec to, la sofisticación de los procedimícntos estadísticos ut ilizados para generaliza r los dat os de la mues tra a la población resulta n In útiles si la infor m ación es sesg ada y no re prese nt ativ a.
."
Cabe des taca r que el ter mino e rror e n di seno de muestras no siempre es sinóni mo de falla o deficienci a. Por ejemplo, el e rro r de muestr eo es in her en te a la inferencia y gene ra la inevitabl e imprecisió n e n la est imación. En el ámb ito de e rro res sistemáticos o ajenos al muestree cabe disti nguir Jos fuentes de error. A sabe r, errore-s po r no observación y errores de m ed ición . En ambos casos la m uestra es con formada lesion an do la e xigencia de rep resen rat ívldad.
1.4 .1. Errores por no observación La observación incompleta de las unidades q ue componen la población objetivo es una fue nte de e rro r que incide e n la injer encia. Los e rro res por no obse rvación tie ne n diversos o ríge nes. Cabe desta car e rro res ori ginados en el marco muestral y errores de 110 respuesta . El marco muestral gene ra errores ele no cobe rtura cu ando no incluye a tod a la población m arco por deficiencias de act ualizac ión ti ot ras. Los error es de no respuesta se produce n cuando elementos seleccionados respo nden parcialme nte o están inhabilitados po r razo nes de salu d u otras para contesta r un cues tio na rio.
representati va cuando reproduce parcialmente la dist ribució n de frecuencias de cierta s variab les selcc cíonadas ad hoc. Las características de la población que sirven para contrastar la representa nctdad de la m u es tra se denominan variables marcadoras. En gene rallas var iables marcador as so n variables so... íodemogréficas que tienen valor es co noc idos en la pobla ción or igen de la muestra . Se asume que la re presen tativ ided de la m ues tra vale pa ra las variab les marcadoras y nada se asegura e n relación a otras variables de investigación . Nót ese que la representatívidad en una muestra seleccio nada al azar no puede ser co nocida. El azar no es garantía de rep rescnrauvtdad. El azar; sin embargo, es la piedra angul ar de la infere-ncia estadí stica . Los sesgos se an ula rán mutuam ent e cuando se selec cion a alca to riam ente un numero grande de e le me ntos ind epe ndi ent es Nada garan tiza q ue una m ues tra sea representat iva. El aza r sólo pe rmite tener esperanza que esta eventualidad oc urra.
1.6. Resumen histórico
La representat tvídad es una propiedad qu e debe carac te rizar a toda m uest ra. Se trata de una cualid ad de las m uestras qu e permite reproducir a esca la los atributos de la población y, en cons ecuencia. perm ite inferir a la población ori gen de la muestra . No existe una definición formal de q ue es 10 qu e se entiende por represt'n · tativídad y tampoco se pu ede establ ece r con exact itud cuando una muestra es represen tat iva y en que mome nt o J eja de serlo. La práctica e nseñ a qu e es m uy dificil q ue u na m uest ra reproduzca exactamente los atributos de la pobla ción . En gene ral, se asume que la m uestra es
Los orígenes de la encu est a po r muestreo se remontan a las inves tigacio nes empíricas reali zadas en el siglo XIX en el contexto de las m on ografías soc iales medi ant e enc uesta realizada.. por precursores com o Charles Booth y Sidney \ Vebb. Existen antecedentes remotos de es tudios mediante en cue- ra. sin embargo son ajenos al m odo en que est os se realizan e n la act ualidad . Nótese q ue los trabajos ernpiricos realtzados e n Ingla t err a a fines del siglo XIX coincide n temporalm ente co n los desa rrollos estadísticos im plem e ntados por Galton, Pea rso n y Spearm an. Cabe des tac ar q ue el Instituto Internacional de Estadistica e n la reunión de Berlín en 1903 m anifestó su apoyo a los desarrollos incipientes de lo q ue llamó método represe ntativo. Sin embargo, sólo e n la re unión de Roma en 1926 se elabo ra un inform e en que se reconocen las ventaj as de la infe rencia estadística como procedimiento para la estimación de pa rámetros poblacíonales. El uso de encuestas por m uest reo se populari za e n las primer as décadas del siglo xx a part ir de los estudios de intenció n de voto real izados en Estados Unidos por age ndas e..pccíatí zada s e n est udios de opinión . Ca be m e ncio nar a George Ga llup, Elm o Roper y Archi vald Crosslcy El inicio de los procedimientos modernos de selec ción de elementos y estim ación de par ám etros es el art ículo publicado po r .lcr zy N eyman ( 19~4) en la revista de la n aya l Statísticaí Suci!'/}' de Londres con el titu lo O» tt« '¡¡/l O Different Aspl'Cts 01 the Represer uatíve A,fetllOds. En este articulo Neyman fu ndament a qu e la selección aleat oria es la ha:..e para formular u na teo ría cie ntífica que permite la inferencia de datos muestrales a valo res poblacíonales En particu lar, demuestra que es pos ible co noce r la precisión en la est imac ión de valores poblacic nales a part ir de datos de la m uestra.
20
21
1.4.2. Errores de m edición Cabe m encionar Jos fuentes de erro r: instrumento de m edida y efecto entrevistador. El instru mento d e me dida es fuente de erro r a raíz de la operecío nahza ct ón de lus nociones qu e so n sometidas a m edi ción. H ab it ualme nte se trata de con ce ptos abstractos y vago s que no so n rncdtbles directamente y pa ra los cuales se deben elaborar Indlces y escalas. El efec to de l entrevistado r es de d ificil tratamie nt o, por q ue se prod uce lnd epen díentemen te de la voluntad y sin co noc imie nto del sujeto qu e lleva a ca bo la entrevista.
1.5. Rep resentatividad
El reco noc im iento en el ámbito universitario de la madurez de la teoría de mu estras se evidencia co n la implemen taci ón de las primeras cátedras univ ersita rias en la dé cada del 40 del siglo pasado. Particula r rele vancia tuvo e l Instit uto de Investiga ción Social Aplicada de la Universidad de Columbia dtngtdc por Paul Lazarsfeld En el tra nscurso del siglo xx, desde varias latit udes se impulsó el desarroll o teórico y la ap lica ción de la teoría de m uestras. En la India se forma una escuela bajo la tuición de P. C. Mah alan obís. en Ingla terra Sir Ronald Físher fo menta e l 030 de los pr ocedim ientos de muestreo, la escuela sueca se desarrolla impulsada por T. Dalenius, en la Un ión So viética el desa rro llo d e la teoría de m uest ras crece influen ciad a por A . A . T schuprow, los Estados Unidos particip an en este desarrollo con el im p ulso de W. E. D em ing y W. G. Cochran A juicio de Azortn ( 1972), durante los años 19 49- 1954 se co nsolid a el proceso iniciad o con la p ublica ción del articulo de Jerzy Ne yruan co n la edición de textos hoy clá sicos. Los má s im portantes y au n vigentes son los libros de F. Yates (1949 ), W_E. D em ing (1 9 50 ), ~:1. H . Ha nsen, W. N. Hurwitz y W. G. M adows (1953) y P.V. Sukt hame (1 954) . Un indicad or del desa rrollo instituc ional del diseño de muestr as es la fun dación en 19 71 de la lruerncuional A sociatio'l o[ Sampl ing Statisricums. C ebe d..stacar que a principi os del siglo XXI co ntaba co n cerca de 2.000 mie mbros de m as de 100 paises.
Capítu lo 2
Con ceptos b ásicos
La nom en clatura asociada a la encuesta por muestreo ha sido pr esentada en diversos t extos. La relativa juve ntud de la d isciplina ex plica que no exista a la fech a una terminol ogía ún ica y universa lmente aceptada. A fin de estab lecer bases co nceptuales ineq uívocas se definirán dos glosarios. A saber, uno referido a disen o de muestr as y otro re lativo a Infere ncia estadística.
2.1. G losario de diseño de muestras Diseno de muestras. Saber relativo a u n conj un to de materias que permiten inferir de una muestra a la población or igen de la muestra . Cabe destacar a t.-ste resp ecto el pr ocedimiento de selección de ele me ntos, cálculo del tamañ o de la muestra, decisión respecto al er ror de estim ació n y tratamien to de la no respuesta . Población. Corresponde al agregado de ele mentos resp ect o de l cu al se rec aba ir.form ación. Los elementos. son un idades e lementales somet idas a medici ón. La bibliografía ut iliza indistintamente los termina s población y universo. A juicio de Kish ( 1972) y Tang (1 951) , am erita distin guir e nt re uno y otro. Tang denomina població n a un conjunto de nú meros y uni vers o al conjunto de e nt es que son medidos pa ra su n um eració n Población objetivo. Corresponde a una parte de la población . La población objeti vo excluye de la pob lación ele ment os que son el.. difi cil acceso o muy onerosos de encuestar. Por ejem plo, siendo la población los ciudadanos m ayores de 18 años, se de fine como población o bjetivo aq uello s Ciudad anos que vivan en entidades co n más de 2.000 hab it antes. Poblacion marco. La población marco es una par te de la població n objet ivo. Se e xcluyen de la població n objetivo los elementos que no so n encuestados po r marco insufi ciente o falta de cobertura. Po r eje m plo, siendo la pobl ación objeti vo los suscri ptores de una revis ta, la población marco se define co mp uesta po r suscriptores que se han susc rito 10 días antes de diseñar la muestra. Población de encuesta. La població n de encuesta es un a parte de la pob lación marco. Se excluyen de la población marco los d istintos tipo s de no respuesta. A saber, a.rsenc¡a de domicilio, enfermed ades ínhabilítantcs, negación a responder, et cétera. M a rco m uestra]. Los insum a s utili zados para ide nt ificar cada una de las un idades de muestreo componen el m arco muestr a!' El marco muestra ! permite
enumerar las unidades de mu estreo para su po sterio r selecctón. Se entie nde po r m arco mu estra] el ordenamien to de 13s un idades de muestreo, sean ést as e lem entos o grupos de elementos. Los insume s q ue hab itualm ent e se utiliz an para co nform ar e! marco de la muest ra son listados de indiv iduos (clientes de un ban co, abon ados a teléfo nos, re-gistros elec to rales), listados de m anzanas, listados de di stritos censa les, map as y planos. Mu esrrtl. Corresponde a una colecci ón de unidades seleccionadas de un a poblac ión con el fin de est imar los valores q ue caracterizan a la población . Los diferentes di seños muestrales refieren a dísuntos m odos de orde nar y selecciona r los elementos. Oomillios y subclases. Se util iza el té rm ino dominio para refe rirse a subdivisiones de la població n y el té rm ino subclase p ara indicar subdivisiones de la muestra Un dominio es una subpobladón para la q ue se diseña una muestra independiente. La muestra de la po blación co rrespond e al conjunto de las muestras de los do minios. Ejemplos de do m in ios son subd ivisiones de la poblaci ón en áreas - urbana y ru ral- o re gio nes - norte, centro, su r. Un a subclase es u na división de la muest ra en fun ción de ca tegorías de variables. En general las subclase; se establecen en func ión de variab les de clasificación . kí, por eje mplo, subclase según las categorías de se xo o estado civil. Elemento. Un demento co rresponde a una observación q ue forma pa rte de la población y q ue puede ser medido para par tici pa r e n la m uestra. Es una unidad ele me nta l no div isible. Unukt d de muílisis. La unidad q ue es objeto de estudio es la u nidad de an élisis. Las unidades do' an álisis pu eden ser individ uos o grupos. Co m únme nte so n ind ividuos, sin e mbargo p ueden ser agrupaciones de individ uos, como fam ilias, sindica tos, clu bes o co m unas. UniJwJ de observaci ón. Los elem en tos o gru pos de ele me nt os de los cuales se recoge inform ació n son las unida des de observación . No rm alme nte unidad de obse rvación y un idad de an álisis coi ncide n, sin em bargo no necesariam ent e es así. Por eje mplo, la unidad de ob servaci ón puede ser el je fe de hogar del c ual se recaha in fo rm aci ón de todos los m iembros del hogar, y unidades de análisis pu ede n ser los miembros del hogar q ue votará n en la próxima clcccíón . Unidad tle muestreo. $(' e ntie nde co mo unidad de muestreo al elem ento o co njunto de ele me ntos qu e se selecc io nan en una etapa del mu estreo. En los d iseña s simples - sólo u na et apa- j Ia unidad de muestreo y el elemento coinci den, y en los diseñ os co mplejos - m ás de una et ap a- las unidades de muestreo está n com puest as de m ás de u n elem ento. La disti nción unida d de muest reo y elem en to propia de dise ños complejos se puede ilustrar co nlus siguientes ejemplos. A las unidades de muestreo vivienda y sindicato le correspon de n los elem entos habi tante s de la vivienda y t rahajador es sindi calizados. N ótese qu e en m ue streo aleatorio sim ple coinciden unidad de muestreo y ele me nto.
24
2.2. Glo sario de inferencia estadí stica Inferencia estadística. La inferen cia d ice relación co n el paso de lo particular a lo general. La inferencia estadística co mprende al con jun to de p rocedimien tos estadisticos qu e per m it en generalizar los resultados de la muestra a la pobla ción origen de la muestra. A leatorio. Se d e fine como aleato ria la se-lección de elementos en la que c ada uno de éstos tien e una prob ab ilidad conocida y di stinto de O de ser selecc ionado. En este context o aleator io se usa como sinónimo d e probeb ilisnc o. Variable. Se entie nd e como variable a un a m agnitud que asume distin tos valores. En particular, varia e n un ra ngo de valo res conocidos. Una variab le aleat oria está defi nida po r u n conjunto de valor es y, además, po r una función de prob abilidad que exp resa pa ra cada valor la pro babi lidad de ocurrencia. Distribución de probabilidnd. Co rresponde a la distribución de valores de una variable aleatoria que tien e asociada la prob abili dad de ocurrencia de cad a suceso x. N ótese que el suceso pu ede se r un valor de la muestra o u n estadístico muest ral. Disrribución muestrol. Se e ntiende como dist r ibución muest ra! a la distribución teór ica de un estadístico e n tod as las m uestr as de tamaño n posibles de obtener en una població n de ta maño N (n< N) . La distribución m u estra] de- un estadístico permite conocer la proba bilidad asoci ada al valo r que asume el est adístico m uvstra l en cada una de las muestras de ta maño 11 Teorema del limite central. En los teo rem as de lim ites subyace la perspecti "a frecuencialista de probabilidad . En particula r, el teorem a del lími te central hace refer encia a la distribución de las medi as muestrales. Permite co noce r la dist rib ució n de las medias rn uestrales y est ab lecer gráficame nte el modo en que éstas se dist rib uye n. Se puede enunciar se ñalando que la distribución de m edias muestr ales extra ídas de forma aleato ria, independien temente de la distribución de la poblac ión, se aproxima a la di stribuci ón no rm al a medida qu e au me nta el tamaño de la muestra. Ley de losgrandes numerosoLa ley débil de los grand...s nú me ros establece que la dife rencia entre el estadist tco rnucstrul y ('1 pa rámetro po blacion al tiende a O cua ndo el tamaño de la m ue stra tiende a infinito. La ley fue rt e de los grandes n úmer os est ablece que c ualq uie ra sea la dist ribuc ión de una variable en la po blación, la distribución m uestra] de m edi as de la varlahlc en m uestras de tamaño n se distribuye según la ley normal. Parámetro. Un parámetro corr esponde a UIl valor descono cido de la población que es estim ado por un valor conocido de la m uestra . Estadístico. Se define CO ntO cst adtsuco a un valor calculado a partir de los valore s muestrales con el propósito de esti mar el valo r de un para metro de: la pob lación. Estimación. La esti ma ci ón dice relac ión co n el p rocedi m iento de inferenci a que utili za datos mucstrales para estima r un par ám et ro poblacíona l. Co rrespo nde a la regla mediante la cual los valores poblcc ío nalcs son est im ados.
25
Estimador: El estimado r es un valor m uestra] u tilizado para estimar el valor de .un parámetro poblactonal, Ea es te contexto la media muestra! es un bue n est im ado r de la media po blacion al. Err,or de muest reo. Correspondo:' a la diferencia entre el valor del p ar ámetro poblacío nal y el valor del est adíst ico muestra! utilizado co mo est im ador. Error que no es co nocido y es gen erado como Consecuencia de las f1uetua~-iones del m~estr~~. Se utilizan equivocadamente como silloni mo'> los t émunos e rror de estimaci ón y e rror de precisión .
E~r ~pil."'O de estimación. Mate m átil.:arnl'nte es la raiz cuadrada de la varianza de ,la ~l~tflbución teórica form ada por los distintos valor es que puede asumir el estadlstlco,.D ado el es tadístico medi a muestral el error tipico mide la dispersión de las m edia s m uestral es. ~rr?r máximo adm isible. Valor decidido por el investigado r q ue define la precisron de la inferencia . . Imervalo de confianza. Int ervalo acotado por un valor infe rior y superio r do:'nt ro.d d cual se esuma q ue está tnclutdo co n ciert a p rob abilidad el pa rám etro p oblaciona] ,
~ilJel de con~nza [1-0). El ni vel de confianza expresa en térm inos de probabll,ldad q.ue e! inter valo de confi anz a incluirá el parámetro poblacional. } robdb7.lI~ad de error (n). Cor responde a la prob ab ilidad que el inte rvalo de co nfian za no incluya el valor del parámetro poblacic na]. C::oefuiente de cQlljWnza. Valor en la abe isa de la curva norm a! estandarizad ... asoc iado a un determinado nive] de confian1.a.
Capítulo 3
Tip os de m uest reo probabilísti co
1.3 disti nción fun dame ntal en re lació n con los procedimientos u tilizados pa ra selecciona r muestras díc e relaci ón con la probabilidad de selecc ionar a los el, 'mentos q ue constituirán la muestra. Así, se dist ingue entre muestr eo pr obabilístico, no prob ebtltstíco y cuasi prcbebtlísuco, Los m uestreos probabilís ticos son estrategias de selecc ión de ele mentos q ue se suste ntan e n el principio de selecci ón aleatoria . En la práct ica esto signi fica qu~' todos los elem en tos de la población tienen un a probabilidad co nocida y distin ta de O de pe rte nece r a la muestra. La aleato riedad no es a tribu to de un a muestra, sino del proceso de se lección utilizado. Exist en diversos proced imi entos de m ues treo probabilistico. Las diferencias tienen q ue ver con el mojo en q ue se seleccionan los e lementos y co n la precisión de las est im aciones. N ótese qu e un d iseño muestral pu ede incluir mas de un procedim ien to de selección de ele me ntos. Los muestr eos probabilísti cos de uso co mú n se rese ñan bre veme nte a continuación. MW'srreoA leatotio Simple (MAS) . Proced imien to de m uestreo básico y fundame nt o de otras est rategias de selección de m uestra . Se carac teriza porq ue la selecc ión se rea liza de un list ado de la po blación asign ándole igu al proba bilidad a cada elemento, Además cada muestra de tamaño n tien e igual probabilidad de ser seleccionada. Es el prototi po del muestreo equíprobable y autopond erado Se di st ingu e entre MAS sin reposición y co n repo sició n. M uestr eo sin reposición porque una vez seleccionado un elem ento no se puede selecc ion ar . nuevam ente. Muestreo con reposici ón porque un elem ento selecc ionado puede ser selecc ionado posteriormente. Normalm ente M' usa MAS sin reposició n Las fórmul as so n rn ás sencillas y en la práctica los res ultados no difieren . En efecto, ambas alte rn ativas producen resultados casi iguales cuando la muestra es un a fracc ión pe q ueña del ta ma ño de la población. En la b ibliogra fia se utiliza n distintas denominaciones: muestreo írrestnctamcnte aleato rio, muestr eo equtprobabilistico y, últ im ame nte, diseño muestra] simple como opuesto a d iseño mcestral com plejo. M uestreo Sistem ático (MS) . Se trata de una variante del ~IAS. El propósito es facilitar la selecció n de element os cu ando la población es un list ado de mo chos casos y la selección se realiza mediante tabla de n úm er os ale ato rios. En este
27
contexto se elige un p unto de arran que aleatorio y se seleccio nan casos e n fo rm a su cesiva segun un intervalo num érico convenci onal. Muestreo Estratificado (ME). Procedi m iento m uestra! q ue se car act eriza por la utilización de inform ac ió n auxiliar para mejorar la eficien cia e n la selección de e le mentos y mejorar la precisión de las est im acio nes. La infor m ación aux iliar co rres pon de a varia bles de estratificació n-sexo, regi ón, estado civil- qu e div íde n a la població n en estratos. Los est ratos son grupos homogéneos de elementos por lo que no es preciso selec cionar un nú me ro elev ado de casos para represent ar al estrato. Mie ntr as mas hom ogéneo sea el estr ato más p rec isa sera la estima ción. M uestreo por Conglomerados (¡'vIC). Procedim ient o de muest reo q ue ab re un abanico de posibilidades relacionadas con los muestreos por etapas y muestr eos complejos. Este procedimiento se ca racteriza por constituir unidades de muestreo co m puest as por un agregado de eh-mentes. Cada grupo de elementos constituye un conglome rado.Todo conglomerado está co nstitu ido por un conjun to de ele m entos con valor es diferentes en tre sí en la variable med ida para for m ar cong lome rados. Un a pe culi arid ad del m uest reo por conglom erados es que no se requi ere el listado de todos los elementos de la población para diseñar la muestra . Muestrro Polietápico (MPE). El procedimie nto polietápico es un diseño complejc caract erizado por la selección de muestra s en etapas sucesivas. Las unid ades de la primera Na pa - unid ades pri marias de m uestreo (UI'M)- S('n potenci alme nte divisibles en la segu nda e tapa - umdades secundaria s de muestreo (USM)- y en etapas posterio res La selec ció n de cada et apa requiere de un ma rco muestral propio. El marco de la primera etapa pe rmite la selecció n de las UPM. En cada UPl\1seleccionada se requie re de un marco para seleccionar las US ~1. El ma rco m uestral de cada US M perm it e seleccionar elementos de la te rcera etapa, y así sucesivame nte. Muestrea Polifásico (MPlJ El uso de este procedi m iento sv jus tifica cuando se req uiere d istinta informació n de una m isma m uestra y el costo de los tipos de información requerida es sustancialmente distinto. Se caracteriza por una primera fase con ta m año de muest ra ma yor y una segunda fase de recogida de informadón adicional que corresponde a una fracción de la muestra mayor. Muesrreo am r robalJilidaJ Proporxional ol 1Cmwño (1'1'1]. Los procedimientos de m uestreo prob abi lístico permiten q ue a cada elemento se le asignen probab ilidades iguales o des iguales de sele cción. En MA S y MS las probabilida des de selec ci ón so n igu ales. El muestreo PPT considera información auxiliar, a fin de realizar con m as eficacia la estimación de l parámetro poblacional . En particular, se considera el tama ño de las un ida des m aestrales cuando estas va rían en tam años y éstos son con ocidos Se justifica el uso del proced imient o PI'T cuando existe relación en tre el tamaño de las u nida des muestrales y la mate ria q ue es som et ida a'medición . Por ejem plo, estudio de ingresos con em presas de distinto t am año y salario asoci ado co n el tamaño de ésta s Muestrearon Réplil:a.s (MR) . Se caracteríza este proced imien to por IJ selección de m as de u na muest ra e n una m isma pobl ación. En particula r, se seleccionan
28
- - nde~ndientes entre si que e n co njunto suman el t amaño muestra s pequenas I .- . . des u d na sola muestra mayor.Cada muestra pequeña e,s una r éplica ~'.to .15 tl~nen e u _ d arn crrce t e eel m ismo ta ma ño Dos razo nes just ifican esta opere n: necestdad aproXln1a de resu ltados prelimin ares y mejorar el err or uprco de la estimación. . Muestreo Longinulinal (ML) . Proc ed imiento de muestreo qm.,: .se c:l r~c te fl Z a - -- d e una na misma m po rales isuccs por 1ame d reten ... población en pe riodos . .te. d _ . VO $. Se ha utilizado el anglic ismo punei para identificarla . El t.ermmo ~ane e5lg n J a un ru o d... personas seleccionadas co n e-l propósito qu e sirvan de Jurad o. La ~~estra ron~itudinal se usa co múnme nte en est udios de m ercado pa r
"
.
•
,.._.
Capítu lo 4
Estimadores del parám etro poblacíonal
Los estedís ncos m uestrales son valores q ue nos perm ite n esti m ar los par ámetros pcbbcionales. Se tr ata de valores calculad os en la m uestra q ue operan corn o rcfe re:lcia em pírica del valo r desco nocido co rrespond iente a la población. En virt ud de la fun ci ón q ue cumpl en, los estadísticos maestrales son conocidos como estimadores. En principio pueden obtenerse infinitos valores para est imar un parámetro p oblecío n al.As t, por ejem plo, para estima r la m echa de una población se pued en usar divers as combinacio nes d e valo res de una m uestra. Sin e mb argo, para cada parámetro poblacicnal existir á un estadístico rnuestral q ue es su mejor estimado r. Nótese que un estim ador es un suceso aleatorio q ue asume diversos valores co n proba bilidad~s distintas. En efec to, en C.I..:L muestra de tama ño n ex tra ida de una población de tam año N, d estim ado r asum id un valor di fe rente, En co nsecuencia, un estim ad or varía en form a aleator ia en to rno al parámetro po blc cío n al. Así, por e jemplo, la m edia mu estral de cada una de las m uestras se ap ro xima en d istinto grado al valor pa rámetro poblacional.
4.1 . Propiedades de los estimadores Cabe p regu ntarse, ¿po r q ue se util izan c ie-rtos estadístico para estimar los co rrespondientes par ámetros poblacicnales? En pa rt icular, ¿po r qu e se ut iliza la media mucsrral para esti ma r la med ia poblacio nal? La re spuesta es q ut' la media maestral es el mejor estim ador de la m edi.r pobl acío nal . Los estimad ore s prese ntan un conjunto de propiedades qUl' perm iten evaluar su pertinen cia en la estimación de l parámetro poblecíonal. La teo ría de la estimación ha estab lecido cuáles son los atributos que ca ract eriz an a un buen estimador. En par ticu lar, se señ ala que un buen estimador deb e ser tnsesgado, consiste nte, c~ch:'ntl', suficiente y resiste nte.
4.1.1. Estimador insesgiuío Un estimador es ínsesgad o cuando la espe ranza m atemática del estima dor coincide COn el valo r del parámetro poblacíonal. Es deci r, cu an do el valor pro medio de la distribución de pr obabilidades gen era da por los estadísticos muestrales asu m e el m ismo valor que el valor de la pobl aci ón.
31
Se demuestra que la media m uestra] y la proporción muestral son estimadores tnscgados de los co rres pondientes pa rámetros pobl ac tonal cs.
E(')
="
E (P) = a E (P) =
(4. 1) =
(f"] q.,;-
(4.4)
~ di",)
t··,
=-'- E(i:XJ TI
.~ I
=![ü exJ] TI
.~,
E (4.2)
eaJ = • Na
L · ~=
(4.5 )
a
... 1
llevando (4.5 ) a (4.4)
Llevando (4.2) a (4.1)
E (P ) : -l
eO
)
'
1
~)t : - T1Jt ::: 11:
TI i ~1
(4 .6)
ti
Respecto a estimadores sesgados, se demuestra q ue la varianza mue-stra] es un estimado r sesgado de la varianza de la población . Asi tambi én el coeficie nte r de Pearson es un estimador sesgado del coeficie nte en la población -excepto cuando el p ar ámetr o es: O.
4.1.2. Estimador consistente Un estimador es co nsist en te si el valor de la es tim ación tie nde a coin cidi r co n el valor del parámetro, cuando el tamaño de la muestra t iende a aproximarse al tamaño de la población . En un estimado r consistente la probab íhdad ( 1\l C' el estimador coin cida con el parámetro poblacioual es 1 c uan do el tamaño de la muest ra aum ent a h ast a coi ncidi r co n el ta m año de la población . Se demuestra
32
33
qu e la media 'f la pro porción muest ra] son est im ado res consi stentes de los respect fvcs p ar ám eu 'J S poblacíonales. Ambos esta dísticos so n consiste ntes en virtud de 1.... ley de los gra nd es nú me ros. Se puede formalizar la propiedad de consiste ncia de la m edia (x) est im ado r de un parámetr o (~) en los siguien tes términos.
P (Ix-
~l
1> ;;) -- O c uando n ..... 00
(4. 7)
La p robabilidad que la di fe renci a entre la m ed ia m uestra! y el parám etro pobl acio nal sea m ayor que un núm ero cualquícra j; tie nde a O c uando el tamaño de la muestra tiende al tamaño de la población .
4. 1.3. Estimador ejiciente Un est im ador es eficie nte en terminas absolutos cu ando es el estimador de menor dispersi ón entre todos los estim ado res msesgado s del par ám et ro. Por otra parte, un estim ador es eficiente e n t érm inos re lativos cuando, com parado con otro estimador, se establece q ue presenta menor dispersión respecto al pa rámetro po blacional. En general, un est imador se ca ract eriza como relativamente m as eficiente cuando sus estimaciones son m ás próximas al parámetro pobl aci on al qu e las de otro estima do r.
4.1.3.1. EFICIENCIA AII SOl.trrA P... ra est udiar la eficiencia absol ut a se compara la cfic íenc¡ a de cualquie r estimador en relación al d e mí nima dispersión . Así, po r ejemplo, siendo e",,,, y e"... est im ado res de varianza mínima y varian za otro la expres ión de la eficiencia abso luta es la siguien te.
fj (lb = var (e ) var (e )
(48)
Se pu ede conocer el estima dor de varianza mínima utiliza ndo la desigualdad de Cramcr -R eo. Se demuestra m edia nt e este proce dim ie nto q ue la m edía mu estra! es un esti mador eficiente de la media pc blact ona l. 4.1.3 .2 . EFI CI ENCIA REI.A"IlVA
Para verificar la eficien cia rela tiva se comparan las varianzas de dos est im adores. Así, po r eje m plo, los estimadores e J y el con varianzas 2 y 4, respect ivame nte, permiten la siguiente conclusión a este respecto.
(4.9) Se d.:=duce que para el mism o ta ma ño de m ues tra la eficícnc¡a relativa de respecto a e l es <\(.,150%. Es dec ir, el es la m itad de efictentc.
el con
4.1.4. Estima dor suficiente Un estimadllr es suficie nte si utiliza la info rm ación muestra] en forma exte nsa, de modo qut' ning ún otro estimador logra con la m isma muestr a una mejor estimación del parám et ro poblacional l .a media aritmét ica ruu cstral es un estim ado r suficiente de la m edia aritm ética pobla cional , porqu e otros posibles estima dores -media geom étrica, media arm ónica- no utilizan toda la inform ació n rnu r-stral como la media ar itmé t ica para estim ar el parámetro poblacional. Se de m uestra que la pro porción m uestra] es un estim ado r suficie nt e del valor de la proporción en la población origen de la muestra. Para evalu ar Id sufi ciencia de un csurnador se utiliza el teorema de fa..- torización.
4.1.5. Estimador resistente Un estimador es resisten te si no se ve afectado por la presencia de valores anó malos. Los valores anó malo s in cide n nega tiv am ente e n la calidad de la inferenci a. Se usa el térm ino anómalo para designar valores aberran tes y valores contami-
nantes. U n valor aberrante es un valor discor dante co n los dato s q ue co mponen la muestra. Por ejemplo, un valor extremo. Un valor es co ntaminante cuando es tá presente en la mu est ra no siendo pa rte de la población objetivo.
4.2. Procedim ientos para generar estimadores U teoría de la est imació n ha est ablecido que las propiedades antes mencio nadas caracteri zan a un bu en estima do r. Establecid as las propiedades cabe plant earse có mo se co nstruye n estimad or es que satisfagan tale s pro piedades . Los desarrollos de las ú ltim as dé cadas perm iten en um erar div ersos mojos de co nst rucció n de estimadores. Procedim ie ntos clásicos son h máxima verosimilitud, el mé todo de los momentos, los mínimos cuadr ados y el mín imo X~ cuadrado, El procedimiento de m áxima veros imilitud desarrollado por Fisher es el más popular, El estimador seleccionado pa ra estimar el parám et ro poblacionnl debe SE'r el más ver osímil, es decir, aqu el que maximice la ver osim ilitud. La veros imilitud es una probabilidad Los parám etr os poblacionales son teó ricos y los estadísticos muestrales cmp.ricos. Si un valor te órico conv ierte en poco probable un valor e mp írico ame-
rita d uda r del valo r teóri co. En la disyuntiva de díferencía ent re el valor teórico y el valor empírico se duda del valo r teórico. Los valores teó ricos se su pon en ve rdaderos sólo si son refre nd ados po r da tos empíricos. El estimado r máximo verosímil sera aq uel q ue hace m áxima la probabi lidad de coincidencia entre el p arám etro poblaciona! y el estadístico muest ra\. El carácte r poco intuitivo del procedimiento máximo ve rosím il im pone ilustrar su lógica me diante un ejem plo sencillo que el uda las operaci ones ma temáticas. Supóngase qu e el propósito de la Invesrigactón es estima r el C I. promedio e n la población de est udiantes de una Facultad. Para estos efect os se obtiene una muestra de 60 estudi antes calculá ndose u n valor muestra! promedio de 115. Nótese qu e si la selecció n es aleatoria las muestras más sim ilares a la distribu ció n de CI. e n la población t ienen ma yor prob abilidad de ser elegid as. Enfrentado a la disyuntiva de decidir si la media poblacícnal es 100 ó 115 130 , el investigador puede argumen tar q ue lo m ás verosímil es que el prom edio sea 115. En efecto, el pcráruetro poblacional mas pro bable o ve rosím il es 115 si el azar ha facilita do q ue e n la m uestr a se reproduzca la di stribución de C l. e xiste nte e n la población. . Se demuestra qu e la media y la proporción son estim adores m áximos verosím iles. El procedimiento de m áxima ve rosimi litu d perm ite ob te ne r est ima dores co nsistentes, eficient es y suficien tes. No necesariamente in sesgados. ó
Capitu lo 5
Distr ibución m uest ral de estadísticos
El concep to d e dist rib ución d ice relación co n los distintos valores que asume una variable y la frec uencia o probabilidad que corresponde a cada valor. Cabe distinguir distri bución de una variab le e n la población, d ist ribución de una variab le e n la muest ra y distribución maestral de un est adístico.
5. L Distribución de la med ia 5.1.1. DisrribucWlI e11 la poblaci ón La distribución de una variable en la població n se obtie ne m idie ndo cada elemento y estab leciendo para cada valor una frecuencia de ocurre ncia . Mediante este procedimiento se puede establece r para la variable m edida una función de distribución . La función de distribución se caracte rizará por los valores que asume la variab le y la frecue ncia asociad a a cada uno de ellos. En general las medi das realizadas en la población se identifican con letras griegas Si se tra ta de m edir la m edia dela población la nom encla tu ra es la siguiente. N ;::: Tam año de la población J.l ;::: Media de la poblaci ón
o ! = Varian za de la población
5 1.2. DisrribucWlI en la muesrra La distri b ución de un a variab le en la m uest ra se obt iene del mismo m od o q ue en la població n. El res ultado de la medici ón será una función de di stribución que replicara la fu nció n d t ' di stri bu ción de la variable en la pobl ación . La replicación no se rá e xacta como co nsec uencia del sesgo de muestreo. C ada valor de la m uestra te-ndrá asociado una frecoenc¡a de ocurr encia. En gcoernl las m edidas realizad as en la muestra se ide ntifi can co n letras latinas mi núsculas . ¡\ propósito de la media de un a m uest ra la nomenclatura se presenta a co nt inuación. n x sl
Tama ño de la mu estra Medi a de la muestra Va rianza de la m uest ra
37
5.1.3. Distribución del estadístico media muestral
Tabla l.
Media~
La distribución m uestra] de un estadístico es una distribución de probabilidad constitu ida por cada uno de los valo res que puede asumir el esta d ístico en todas las muestras de t am año n posibles de extraer sin reposición en una población de tamaño N. Da dos los valores d e la población y la m uestra el n úmero de muestras posibles a extraer se calcula com o combinación (~
j.
muestrales y probabilidaes asociadas
VJlorde :r
Probabilidad de x
1,0
1 25
1,S
2 25
2,0
Para ilustrar la idea se prese nta el siguiente gr áfico.
]
2S
Gráfico 2. Distribución muestra] de medias.
2,5
Población
3,0
5 25
3.5
4 25
I muestra 1
!
[::J I
[
muestra 2
==:J
muestra h
I
I
-
C:"'",
2S
x,
X,
de medias
4,5
2 2S
5,0
1 25
Gráfico 3 Histograma de medias mucstrales
I
D istrihudón rnuest rai
3
4,0
I
-
X,
4
25
P(')~------------,
.
La m ed ia es un est ad ístico que se dist ribuye según la ley normal. Se ve rifica empírtccmente q ue los valor es de las m edias maestrales se distribuyen normal. m en te. A modo de eje mplo, su póngase que la po blación esta com puesta de 5 d em entas:x;=(I ...S). Se extraen t odas las m uest ras pos ibles de tamaño 2. El número de m uestras posibles con reposición es N":=S2",, 2S. C ada m uestra tendrá un valor de medid y una probabilidad asociada. En la Tabla 1 se presentan los valo r" , que puede asumir el est adístico medi a y la probabilidad asociada a cada valor. Una Tabla en que figure esta infor m ación present a la distribución m uest ra! de la media. Para ilustrar gráficamente la distribución de la media se presenta el histograma generado a partir de la info rmación de la Tabla l . El histograma se ase meja a una curva en forma de campa na . La curva de distribución de m edias tiende a replicar una campana de C auss a m edida que el tamaño de la muestra aumenta.
)
"
o
,
1,0
1,5
2.0 2,5
3,0
3,5
4,0
4.5
5,0
La dístribución rnues tral de la media puede conocerse em píricamente, segu.n se ha visto, efec tuando do s operaciones. A sabe r, extrayendo toda.. las m uest ras posibles de ta maño 11 de u na población de tamaño N y calculando Jlara cada m uest ra la m edia y probabilidad asociada . Sin embargo la misma conclusión puede obtenerse por procedimientos rnate máticos sin te ner que extraer todas las muestras de una población determina, da. Ejercicio éste imposible e n virtud que la m uestra es relativam ente pequeña respecto al ta ma ño de la po blación. En efect o, Lapla ce demostr ó qu e las medias muestralcs se distribuyen según una curva en form a de campan a. Liap unov, mediante el teorem a del lün itc ceno t ral, de most ró que la dis tribución muestral de medias de un a variable alea toria se d istribuye segun la ley normal indepe nd iente me nte' de' la d istribución que asuma la variable de la cua l las medias muestrales son extraídas. l.a condición para q ue se cumpla la distr ibución normal de las m edias es q ue la m uestra sea suficientemente gra nd e. Conve ncionalmente 1l>3ü . Asum ien do qu e las me dias m uest rales so n una variable aleato ria que se distri buye segun la ley no rmal, am erita definir la curva normal asocia da a Id. distribuc ión muestra! de medias. Para estos efectos es; preciso conocer la media y la desviación tipica de la distribu ción. La distr ibu ció n muestra! de m edi as m uest rales asume como m edía el valor 12,stral del p ar~metro pob.lacio nal p y la.desviación típica d e la distrilll1ciól'{ff de m edi as -deoomtnad o erro r estándar o er ro r tipico- asu me el valor ( J . En
;*)
n
co nsecuencia, la media m uestra] se distribuye segú n una curva norm al de finida en los siguientes t érm inos
N(lt
Se denomina tot al de clase al número total de elementos que present an el atributo. La pro pN ción es el cuocíente entre el to tal de clase A y el número de observaciones N .
p_ Total d~_ºª~ ~_ = ~ _ - N úm ero de observaciones N
(5. 1)
El total de clase se puede exp resar en t érminos de sum ator ia de dementas. N
(5.2)
A = }:ai
••
En virtud de lo cual la p rop orci ón asum e la sigu iente ex presión.
(53)
La proporción y la media m iden lo m ismo y tie nen la misma es truc tura algebraica. En efect o, la pro porció n y la m edia son sum ato rios de los valores q ue asumen las observaciones d iv.id idcs po r el total de observaciones.
p
0 + 0 +1 + 1 + 0
5
5.2 . Di str ibución de la pro porción La p rop orción es un a m edia en el co ntexto de variables dicotómicas. Una variab le dicot óm ica se carac teriza por asu m ir valores O y 1. La variable asume el valor 1 si se presenta el atributo m edi do y O si no se presenta . Sólo exi sten dos valo res excl uyen tes pa ra cu alquier e nsayo qu e se realice. A saber, ocurre o no ocurre el suceso. La presentación formal de una variable dicotómica es la siguiente.
Variable dicotómica con valores a,
1
a, = 1 si el elem ento i presenta el atri b uto
5.2. 1. Distribución en la población La dist ribución de una variable dicotómica e n una población p resen ta las m ism as caracte ns tícas qut.' la distribución de una variable cuan t itativa. A saber, se mide cada e lemento y se establece p ara cada valo r una frec uencia de ocurrencia. D e este modo se obtiene la func ión de distr ibució n. En general las m edi das re alizadas en la población St' ide nt ifican co n letras griegas. N
a, = O si el elem e nt o i no prese nta el atributo
40
-.: Tamaño de la población Pro porción de la población ... Varianza de la po blación
41
....... '"
5.2 .2. Distribució rl en la mu estra La distribución di~ proporción en una muestra responde al mismo m odelo que
la d ist ribución de un a med ia. En general las medidas realizadas en la m uestra se identifican co n let ras launas m inú sculas. =o: Tam año de la pobl ación =o: Me dia de la població n p (l -p) =o: Varianza de la pob lación
n p
5.2 .3 . D istribución del estadístico proporció n mu estral U na variabl e dicotómica es un a variab le discreta que se distribuye según la ley bin omia l. La distribución binomial co nve rge a la distrib ució n normal. La distribució n normal puede sustituir a la distribu ció n de proba bilidad binom ial cu ando se cumplen dos condiciones . A sab er, la proba bil idad p que ocurra el suceso debe ser cercana a 0,5 y el núm e ro de veces qu e se reali za el e nsayo debe ser suficien t em en te gran de. Convenc ionalment e se asume un valor superior a 30 . Se dem uestra em píric am ente q ue las proporciones muestral es se distribuy en según la ley norm al. El exper imento de lan zar 10 veces una moneda al aire con probabilidad cara=o:sello =O, 5 da lugar a una probabíhdad pa ra cada un o de los sucesos y una distribu ción de probabilidades p ara el conjun to de ellos. El histo grama pr esentado en la Gr áfico 4 evide ncia que el su ceso mis probable es 5 ca ras con probabilidad 0,24 6. El suceso mas improbable e s O ó 10 caras con pr obabilidad asociada O/ X)}. El histo gram a se asemeja a una curva en form a de cam pand G r áfico 4 . H istogra ma de proporciones muestralcs r(·.,,·;) r
_
0.246
0,205
0,111
0/)44
0.010
o.en 0,00
0:0 1,0 2.0 J,O ~,O 5.0 6,0 1.0 8,0 9,0 10.0
Númtro
El senti do co m ún indica q ue si se lanza 100 veces la moneda al aire [a p robabilidad de obtener 50 ca ras será u n valo r pr óximo a 0,5 . Na turalmen te q ue si se re3\iza el experimento 1.000 veces la pr ob abtlídad de 50 0 caras sera un nU' mero aún más cercano a O,S. . En ambos cases e l histograma de- la distribu ci ón de prob abilid"des te ndr á la for ma de la curva de Ge uss. No sólo se evidencia empíricamen te que las proporciones son una variable aleatori3 qu e se distribuye s egún la ley 1\On n 31. Se d emuestra que como COIIsecuen cia de la co nvergencia de- ley bi no mial a la ley no rm al las pro po rciones muestrah~s bajo ciertas condiciones se d istribuyen form ando una curva en forma de camp ana. La dist ribució n muestra! de proporciones muestrales se define co nociendo el valor del paráme tro poblaciona l n y la des viació n típic a de la dist ribu ción rnuc stral de pr oporcio nes - crro r estándar o error típico- que asume el valo rV" (l - n). n
En consecuenci a, la pro porc ión muestra!sedistribuye según una curva normal definída en los siguient es términ os
N(Jt; y "i!-
(l n-
~ ).
Capitulo 6
Intervalo de confi anza
El int ervalo de co nfianza ha rec ib ido varios nombres evidenciando la nom enclatura eq uivoc a aun presente en teoría de m uestras. Las dist intas denomin ac io nes ut ilizadas a este respecto com o e n rela ción a otros aspectos revela la relati va inmadu rez del saber acu m ulado e n di seño de muestras. Cuestió n qu e dice relación con un desarrollo intenso en un período breve. El intervalo de confianza ha sido llamado error rnucstral o error de muestreo cuando m ayoritariamente se denomina error m uestra! a la difer encia entre el estimador y el pa r ámet ro. Confusión grave po rqu e el int er valo de confi anza es un valor conocido y el er ror muestra ] es una magnitud que no se con oce. Tambié n ha sido denominado como e rror de estim ación y error de precisi ón. N"ltese que esta última denominación result a lógica en el sentido que el rango de amplitud del intervalo esta relacionada con div erso s grados de precisión .
6.1. ¿Que es un intervalo de confianza? Para estimar el valo r del pará metro poblacional e xiste n dos alte rnativas. A sabe r, definir un estadístico como la estim ación del par ámetro poblacio nal o est ablec er en tomo a un estadístico un int erval o de confianza para est ima r en términos probabilisticos el par ámetro. El primer procedimient o se conoce co m o estimación puntual y no se utiliza. Tiene co mo limitación el desco noci miento del error asociado a la es ti maci ón del par ámet ro. La form a habitu al de est imar el valor poblacío nal es mediante un inter valo compuesto de una cota superior e inferior q ue per mite in ferir co n una probabilidad conocida respecto al valo r del parámetro. El intervalo de co nfianza es un interv alo numérico co nstruido en to rno al est adístico rnu cstral . La fórmula genérica del inte rvalo de confianza se la siguien te.
(6. 1)
e± Ka,
El intervalo de confianza co nsta de tr es té rmi nos ind ependi ent es e ntre sí. A saber, el estadís tico e q ue ce ntra el int e rvalo, el nivel de confianza k q ue grad úa
45
.la am plitud del int ervalo y e l er ror típico {l que mide la variabilidad de la dis. tribución muestra! del estad ístico c . ~
6.3 , Valores sigma .veI de confia nza teó ricamente se sustenta en la di stribución norma l. Los El fll de los coeficie ntes d e con f an za d Icen ícen re relacíc iados acron COII • reas asoc ia os a estos I vaores 1 h b¡ I '" 1" curva normal. En este co ntex to resu t a a rtua rer e nr se a ruve Id e conen Ia . 3 sigm a. La lerra gnega " " h ace rerere t: " sigma (J ncra fi)nza en t ,é...... . ... inos de 2 sigma o . . . . . I d sviación tipica de un a variable distribuida normalmente. a a E~ la curva normal, las áreas corresponden a pro?ab.llida des. El área d:- probldad comprendida entre dos inte rvalos puede Indica rse seg un el n umero ~ ~~viaciones típicas q ue comprende. La figura siguiente ilustra e l nex o entre t-eas de la curva y valores o . é
6.2. Confian za en la estimación En la infe rencia no ha y certezas. En co nsecuencia, es p reciso co nocer la preci_ sión con q ue se estima el valo r poblactonal. Para co nocer la prec isión se util iza el nivel de confi anza y el co eficie nte de confianza. La probabilidad de error n es co m ple me ntario al n ivc..1d e confi anza El nivel de co nfianza es elegido por el m uestnsra en fun ció n de la pr ecisión qut' exi ge la inferen cia JI par ámetro pobla cíonal . El nivel de co nfianza e legido tiene asoci ad o un valor de coeficiente de confianza. Un nivel de co nfianza alto implica un coefic iente de confianza grande y, por el contrario, un nivel de confianz a bajo t iene asociado un coeficiente de co nfianza. pequeño, Para ilustrar la asoc iaci ón e ntr e nivel de confianza y coeficiente de co nfiJn za se prese nta n los valores correspond ientes a una distribución normal.
."
Gráfico 5. Valores sigma y áreas de la cu rva normal
Tabla 2. Nivel de confi anza asociado a coeficiente de confianza
Coeficiente de C(ltI6an13
1,64
'"
1,96
95,5%
2
99,7%
2,58
]
Un nivel de con fianza de 95% asignado a un intervalo de confianza se entiende como q ue la ex tracción de sucesiv as m uestras da lugar a q ue el 95% de tos pa· rá metrc s se encue nt re e n el intervalo definido. Un a interp ret ación co loq uial se ñala ría q ue ex iste el 95% de co nfianz a q ue el intervalo incl uya al paráme tro de la pobla ci ón o que la proba bilidad q ue el p ará me t ro esté e n el inte rvalo es 0,95. En rigor, si el p arámet ro esta e n el intervalo la probab ilidad de pe rtenecer a este es 1, y si no está la probabilidad de estar es O. N ótese q ue int ervalos anch os está n asociados a niveles de con fianza altos y q ue int ervalos an gostos est án asociados a niveles de confianza peq ue ños. En efecto, resulta razo nabl e q ue se t eng a m ucha co nfianza e n q ue el pa r ámetro poblacional per ten ezca a un int e rva lo anc ho co n co tas 20% y 80% y, por el contrario, es lógico qu<.' se t enga poc a confianza en q ue pI pa rám et ro poblacional pertenezca a un Inter valo an gost o co n co tas 48% y 52% . Cabe destacar q ue el nivcl de con fianza en la estima ción pr esen ta como com pleme nta rio la probabilidad de error e n la estim ació n. 'Convencionalm ente esta prob abilidad se designa co n la let ra griega a. D esde esta per spect iva, elnivel de co nfianza es 1- a.
I -3" -i"I I
1
I
'H 95,S ~.
"1
2
3t
9~.1 ""
En particu lar, 1 desviación tí pica incluye un áre a correspondiente al 68,3% de la curva, 2 desviaciones típicas incluye n un áre a cor respo nd ie nte aI95,5% del .tota l y 3 desviacio nes t ípicas incluyen e1 99,7% del total del área de la c urva. La figura siguiente es un resumen de q ue vincula valores (J y la p robabilidad asociada Tabla 3. Valores sigma asociados a prcbabllídades Valores (J en la
Probabilidad comprendida
~~ión normal
en d intervalo
,lo
0,683
:1: 2 0
0,955 0,997
--1
6.4. Ni vel de confianza y tamaño de la muest ra La elección del nivel de confianza es decisión del investigador. Los niveles de confianza mas utilizados son 95,5% a 9~ , 7% de confianza. Resulta evidente plan. tearsc por qué no se elige siempre el m;¡yor nivel de confianza. La respuesta dice relación con el tamaño de la muestra. La Tabla siguiente ilustri el cambio del tamaño de la muestra para dos niveles de confianza y distintos niveles de error. Se supone que se aplic a el m ismo procedim iento de selección y se mantit:ne constante la varianza de la población, Po r ejemplo, para un error convencional. mente ut ilizado de 3% y para niveles de confianza de 95,5% y 99,7% el tamaño de la muestra aumenta de 1.111 a 2.500. El aumento del nivel de confianza en 4,2% (95,5 a 99,7J d a lugar a un aumento en el tamaii.o de la muestra de 2,25 veces (1.1 11 a 2.500). El bcuehc¡o en la precisión no es sustantivo, sin embargo, los costos en trabajo de campo m ás que se duplican. Tabla 4. N ivel de confianza asociado a tamaño de la muestra. Distintos porcentajes de error Error (%)
Nivel de Confianza (%)
"
1,0
95,5 99,7
10.000
de errar. El e rror ( l es una magnitud que expresa la probabilidad de equivocars e en la estimación. Asum e valores entre O y l . La asociación entre error a y coeficiente de confianza en el contexto de distribució n normal es la siguiente. Tabla 5. Probabilidad de error a asociado a coeficiente de confianza Error (l
0,1%
O,O~ %
0,045%
0,01%
0,003%
Coeficiente de confiao'lJ
1,64
1,96
2
2,58
3
El intervalo de confianza se interpreta desde la perspectiva del error a como la probabilidad a de equivocarse al asumir que un intervalo contendría al parámetro poblaóonal si se obtuviesen m uestras sucesivas de t am año 11 en una población de tamaño N (n
6.5.2 . Error máximo ad misible
El niv el de confianza es un indicador numérico del grado de confianza con que se realiza la estimación. C om plem ent aria a esa confianza existe una probabilidad
El error m áx im o admisible es una decisión del invest igador. Se puede leer de dos modos distintos segun se estime la pro porción o la m edia poblacional . Cuando se estim a la proporción el error máxi m o admisible asume valores entre Oy l . En consecuencia, éste se puede leer en términos de po rce nt aje de error asociado a la estimación. Sin emb argo, cu ando se estima la m edia poblaciona l el valor del error máximo admisible de pe nde de la unidad de m edida de la variable en estudio Asi, por ejemplo, si la variable a estimar es el peso de una población este po d rá ser 5 kilos y si la variable es ingreso el e rro r m áx imo admisible será en decenas de miles de unidades. En principio resulta lógico elegi r el minimo de e rro r asoc iado a la estimación. ¿Por q ué no se hace siempre de este modo? Po rque el error m áximo ad m isible está asociado al t am año de la muestra. La Figura p resent ada a continuación perm ite cuanti ficar la relac ión entre error en la estimación y el tamaño de la muestra. Se asume que la estimación se realiza con 95,5% de confianza correspondiente a 2 o , Se verifica en la Tabla que errores grandes se asocian a muestras pequeñas y a errores pequeños le corresponden muestras grandes. Po r ejemplo, un error de 5% requiere una m uest ra de 400 casos y un error l % exige 1.000 casos. En consecuencia, para u n e rror cinco veces menor se requiere de 9 .60 0 casos más o una muestra 25 veces más grande. Los tamaños de er ror utilizados habitualmente son en torno a 3%. Nótese, sin embargo, que un unidad porcentual de dife rencia en el error genera diferen cias im portantes en el tamaño de la muestra . Por ejemplo, un error de 2% está asociado a 2.500 casos y un error de 3% a l l l casos.
4R
49
2,0 2,5 ], 0
l
4,0
22.500
95,5
2500
99,7
5.627
95,5 99,7
3.600
95,5 99,7
1.600
1.111 2500
95,5
625
99,7
1.406
6.5. Errores asociados al intervalo de confian za La construcción de un intervalo de confianza incluye t res er rores. Resulta imprescindible diferenciarlos sab iendo a qué refiere cada un o de ellos. En la bibliografía no hay consenso respecto al nombre de éstos. A continuación los nominamos y establecemos sus atributos.
6 .5.1. Probabilidad de error (I
Tabla 6. Error máximo admisible asociado a tamaño de la muestra Error rnhimo Idmisihlc
(%J
0,1
1,000 (00
05
40,(0)
1,0
10.000
1,5
4A4 ~
2,0
2,500
Error tipico
25
1.600
de 11 media
J ,O
l.lll
J5
816
, ,O
625
5,0
400
En virtud del nexo entre tamaño del error y tama ño de la muestra la dec isión respecto al e rror má ximo admisible est ará condicionada por la cantidad de recursos disp onibles.
6.5.3. Error t ípico
Pcblación inlinita
0
•
=
~ -
'
n
Población tilUU
_y'!'-
N -n n N _1
0. -
La medició n empírica del erro r tipicn se ~ fe< tú J desde la única m uest ra q ue se obtiene para estim ar el parámetro poblacional. Se demuestra que el esti mado r del e rro r típico t eóri co obtenido de una muestra co ncreta puede expresarse en la siguiente e xp resió n . Tabla 8. Error típico emp írico de distribución de medias Publ....:óOn infinih
Pobbóón
lini!,)
&ror upk c
En la literatura SI" usa indisti nta me nte error típico y e rror estándar para de signar la desviaci ón t ípica de la distribu ción m uest ra] del est adíst ico El error tip ico es una medida de disp ersión . Mide la variació n de l es tadíst ico muestra]. La variación de l estadístico rnucs tral se explica por las fluctu aciones del muestreo. La m uest ra selecc io nada es sólo una de las posibles muestras q ue se pueden obtene r de la poblac ión . En cada una de las muestras pos ibles se- po dría calcu lar un estadístico para esti ma r el pa rámetro poblacio nal. En consecuencia, cada m uestr a extraida darla lugar a un valo r pa ra la m edi a o la proporción. En este co ntexto el es tad ístico es una va riable aleator ia q ue p uede asumir t antos valores distintos como el nú mero de m uestras pu eden extraerse de la población . Las m ed ias y proporciones m ucstrales - u ot ro est adístic o- p rese nt an una dis persión que es descon ocida . En rigor, para conocer la disper sión del estadístico se ria necesario e xtraer todas las m uestras po sibles de la pobl ación y calcula r la varianz a de la distribu ció n de estad ísticos. 6.5.3 . 1. ERROII. r usco
El valo r del error típico no es posi ble de calcularse po rque ~unca se extraen uest ras posibles y porque no se cono ce el valor del param etro a estimar. ~ 1a 'm - entre error upr ." co teonco . - y e rnpmco. .. onte xto cabe d-íst in guir En este e Tabla 7. Error típico teórico de distribución de medias
m: LA
MEDIA
El er ror t íp ico es !:J. raíz cuad rada de la varianza de la d ist ribuci ón muestrul de m edias. La varianza de las medias rnuestrales respecto al pará metro poblacíonel se calcula promediando las k diferencias, medidas com o díferenctas de cuadrados, e nt re las medras rnue st rales y el pa rámetro po blacíonal.
de 1.1 medía
6.5.3.2. E RROR n eco
DE PROPORCIOSES
Respecto a proporciones, la referencia a error tipi co es análoga a la reali zada a propós ito de medias Tabla 9. Error típico teór ico de distribución de proporciones Población ¡n¡¡niu
Población finitl
nJN - n
Error típico
N- l
de la proporción
Tabla 10. Error típico empírico de distnbución Pohb ción infinitJ Error tipico
de 11 propo rción
d~
proporciones
Pobb ción finitl
¡
El erro r típico incluye en su fórmula el tam año de la muestra . Resulta eviden t(' que existe relación entre tamaño de la m uestr a y valor del error típico. En particular, muestras grandes dan lugar a er ror típ ico pequeño -mayor pre. cisión en la infe rencia- y muestras peq ueñas generan valor de error t ípico grande - m eno r precisión. La Tab la 11 evidencia esta relación. Nótese que manteniendo el nivel de confianza const ante para red ucir el er ro r típico a la mitad es necesario cuadruplicar el tamaño de la muestra . Dado e19S,5% de confi anza y una varianza p eqefl.S una muestra de 1.000 casos est á asociada a un er ro r típico de 3,2 y en una m uestra de 4.000 casos este valo r disminuye a 1,6 . Tabla 11. Errores típicos asociados a distintos tamaños muestrales Nivel de confianza 95,5%. Núm ~r()
de el~ment()~ de la muestra
la fórmu la básica se puede escribir en los siguientes térm inos.
(6.2)
El interv alo de confia nz a para una m uestra de tamaño n definido un nivel de confianza del 95% asume la siguiente expresión .
{X - l,96 ~ ;x+
~l
(63)
1,96 ..
Valor de p x q C%) 10/90
30/70
50/50
200
4,3
6,5
7,1
500
2,7
4,1
4,5
1.000
1,9
2,9
3,2
2.000
1,3
2,0
2,2
3.000
1,1
1,7
1,8
4.000
1,0
1,4
1,6
1000:1
0,6
1,0
1,0
Cabe destaca r que la e xpresión (6.2) se refiere a la probabilidad de confianza en un intervalo teórico y que la expresión (6.3) tiene incorporado el nivel de con fia nza según los valores t abulados de la ley normal en una muestra empírica . El interv alo (6.3) ind ica q ue en sucesiv as muestras de tamaño 11 el 95% de intervalos de esta amplitud contienen el valor de l parám etr o poblacional. La amplitud de l intervalo de confianza es un indicador de la precisión de la estim ación . En este sentido, la amplitud del inte rvalo -dtfercncia entre las cotas- corre sp onde a la precisión de la estimación . Las cot as co rrespondient es al int ervalo de confian za ser ían las siguientes. .
-
;
cota superior: x + zoJ2 ~
6 .6. Construcción del interva lo de co nfianz a La mayoría de lo s intervalos se establecen median te la mis ma metodología. El teorema o desigualdad de Chebychc v pe rm ite formalizar la construcción del int ervalo para cualquier estadístico. El teorema puede enunctarse en los siguientes t érm inos: la probabilidad q ue una variab le aleatoria asuma un valor q ue difiera en valo r absoluto de su esperanza m atemática menos que k veces la desviación típica es mayor que l menos el cociente de 1 pa rtido por el cuadrado de k Teorem a que respecto a la media muestra] se p uede formalizar en la siguiente expresión.
cota inferior:
El valo r del in tervalo de confianza genérico es fund am en talm ente teórico. Para hacerlo operativo es necesari o asum ir info rm ac ión complementaria. Asumiendo distribución normal de las medias maestrales despu és de operar algebraicamen te,
Elintervalo de confianza puede o no incluir al parámetro de la población. Nótese que en ceda muestra obtenida de la població n se puede construir un intervalo y generalmente tendrán rangos diferentes. El int ervalo de co nfianza es un suceso aleatorio resulta do de una e xperiencia aleatoria. En consecuencia, el intervalo se interpreta en térm inos que en un porcentaje de m uestras - habítualm e nre 95% o 99%- el intervalo incluirá el parámetro. O t am bié n que en suces ivos experimentos de ex tracción de m uestras el 95% o 99% de éstos incluirá el valor del parámetro poblecío nal. La construcción del intervalo permite confiar q ue dado un proceso de selección aleatorio es poc o probable q ue precisamente el inte rvalo empirico obtenido no contenga el valor del parámetro poblacional. En este entendido se concluye ~ue el parámetro poblacional pod ría estar entre la cota superior e inferior dd tntervalo segun cierto nivel de confianza.
52
53
(6.1)
...-- '"
Capitulo 7
El error total y Sll S compon entes
La p r~ cisión y el error son dos ele m entos qu e refieren a la calidad de r~a l i za d a de la m uestra a la pobl aci ón.
la inje rencia
La revisión bibliográ fi ca evidencia distintas acepciones para referirse a la precisión y el error.Así, por ejemplo, la precisi ón hól sido llam ada equívocamente nivel de co nfianza y error est ándar. Respecto al error se h an realizado distinciones dicotóm icas como error de muest reo y ajeno al m uestreo o er ro r de proceso y error proced imi ento. Para una co mprensión apropiada de la precisión y el e rror es nec esario cousi . ierarlos como dos ca ras d e una m isma moneda. En efecto, la p rec isió n aumenta cuando el error disminuye y viceversa. La precisión es máxi ma cu ando e l er ror es mínimo. La vía m ás exped ita de abo rda r el te m a precisión y error es analizan do los distintos elementos que conforma n el e rro r. Para estos efectos acu ñaremos la expresión error total que incluye todos las fuentes de error. Erro r por sesgo no muest ra] Error por sesgo muest ral Err or por variación de la muestra
de
La descom po sición del e rror en sus compo nentes pe rm itirá dar luz respecto a los condicionantes de la precisión en la estimación del pa r ámetro poblacional
7.1. Error tot al El erro r total o e rror de m uestr eo correspo nde a la d iscr epancia e nt re el estad¡ s:ico y el para met ro. La precisión dice relació n co n el grado de coi ncidencia entre estadístico y parámetro. El e rror total y la pre cisió n so n valor es desco nocidos. El propósi to del d iseño es m inimizar el e rro r y m aximiza r la precisión. Para ilust rar el concepto de error total se presen ta el e rror total de la medi a. Error total e p - X J.1 = Medía de la población x = Medía de la m uest ra
Reducir la discrepancia ent re parámetro y estadístico es la ta rea central del d iseño de muestras. La mejor gara ntía de la reducción del erro r total es un diseño que resuelva apropiadamente con dicio nantes como marco m uestral, estrategia de selección, tam año de m uest ra y distnb ucíón de recursos. La reducción absoluta del e rror total es un pro pósito que, sin embargo, no pu ede ser verificad o c mpiricamente. La ilustración co n el error total desagregado en sus co m ponentes se p resenta en el Gráfi co 6. Gráfico 6 . Error tota l y sus componen tes
PobIa.ci6n ob¡",,¡vo
l-:
Error por ....
,0
no muc; !,.1
I\>bl,.-ión ~""'t.
E,fO< po< ""C'> m~"
f.rro< touI
7.3. Error po r sesgo mu estral
D;"triboc ión munu.l
--
cuad a operacionalizació n de la población obj etivo. No siempre es fácil definíjos elementos q ue componen la población objetivo. Así, po r ejemplo, siendo la població n de cesantes el uni verso a estudia r éste puede ser entendido de distintOS modos. Se pueden co nsiderar cesa ntes a quienes no h an tra bajado el úl timo mes o también se incluy e :1 quienes t ienen trabajo informal o s610 se con sideran cesante s a qui en es no tien en y no buscan trabajo. Di fic ultades que in ciden am plian do el sesgo so n el c arácter din ámico de la población objetivo donde suelen ingresa r y egresar nue vos elementos pe rmanentemente. Po r ejem plo, la población de cesantes. Una tasa de no respuesta elevada puede ser fuente de sesgo no muestra]. Nótese que si la no respuesta es aleatoria no es una fuente de sesgo, sin embargo, no rmalmente se genera respecto a algunas pregu ntas específicas e n un gru po identificable de la muestra . Los error es q ue se p roducen en la manipulaci ón de los instrumen tos de medida son Fuente de sesgo que aument a proporcional mente al t amaño de la muestra . La codific ació n y díg ttacíón de la in forma ción son proc esos mecá nicos que por acumulación dan lugar ine vitablem ente a e rro r.
f-
lOrro,PO' u,ü"¡ón
dc l. m u,·. t..
Muo"""
7.2. Error po r sesgo no mu estral El error producido por sesgo no m ues t ra! tiene su or ige n e n fact or es ajenos a la selección de los elementos q ue co m ponen la muestra . Un a fuen te de sesgo ' no muestra ] es la difere ncia entre població n objeti vo y población e ncu esta. La población objetivo puede incluir elementos que han q ueda do al ma rgen e n la poblac ión de encuesta . La m argin aci ón de ele me ntos genera sesgo en 13 tnfcrc noa a la pobl ació n objetivo. La e xpresión fo rmal del error por sesgo no mues t ra}se pr esenta a co nti nuación.
El sesgo rnu cstr al es un com po nente de e rro r form ado por la d iferencia entre el valor del estadístico y el valo r esperado del parámet ro pobl acio nal. La esp eranza matemática de la m edi a corresponde al valo r promedio de todas las medias ex t raídas en m ues tras de tamañ o 11 en una población de tam a ño N. El valor de la esperanz a ma tem át ica de la media mue str a] es el valor de la media poblacíonal si la muestra no es sesgada . Error po r S(:sgo rnuestr al x::=
::= i
· E(í)
Media de la m uest ra
lo: (x)
::=
Esperanza matemática de la m edia
La difere ncia entre la media de la població n objet ivo y la media de la en cuesta puede tener dive rsos o r ígenes. B ásica men te se produce sesgo por una inad e-
Los componentes q ue part icipan en la generaci ón del sesgo muestra! son sesgo por selección y S5g 0 por estimación . El sesgo po r selecc ión R' produce cuando no ex iste igu.il probabili dad de selección para todos los elem entos de la población. Para ev it ar la gene ració n de sesgo se utilizan procedim ient os de ponderación. Se han desarrollado di versos modos de po nd erar, a fin de compen sar la scbrerr epre scntuc t ón y sub re pre se ntacíó n de e le mentos ge ne rada po r la probabil id ad desigual de selección de elementos de la poblac ión . El sesgo por esti m ació n se genera cuando se utiliza un estimador inapropiado pa ra estimar el pa rámetro poblacíonal . En particular, cuando el valor d o' la esperanza matem ática del estadístico es d isti nt o al valo r del pa r.imct ro poblacional.
56
57
Error por sesgo no muest ra] = X~ • X . X~
::=
Med ia de la població n o bjetivo
X.
::=
Media de la población encues ta
7.4 . Error por variación de la m uest ra El erro r generado por variación de la muestra se explica por la fl uctuación d~ muestreo. Este erro r se produce porque el esradistico es una variable alea toria q ue en las distintas m ues tras posibles p uede asu mi r un valo r diferente. En consecuencia, en cada muestra se prod uce una discrepa ncia desconocida entre el valor del estadtsuco y el valor de! parám e tro. La teoría de muestras pe rmite conocer en té rm inos de probabil idad el grado de coincidencia ent re estadístico y p arámet ro. Es decir, facilit a info rm ación respecto a la p recisi ón de la informació n. El intervalo de confianza calcula en té rminos prob abilísticos el error po r variación de la m uest ra.
Capitu lo 8
Tamaño de la m uestra
El tamaño de la muestra corresponde al número mínimo necesario pa ra estimar
el parámetro poblacíonal con la restricción que la dife re ncia e ntre el estadístico yel parámetro sea menor que u na cantidad convencionalmente aceptada. La pregunta respecto a cuál es el tamaño de muestra adecuado tie ne co mo respuesta qué exigencia de precisión existe en rela ción con la estimación. En té'münos de diseño de muestras el tamaño de la muestra de pende de la precisión asociada a la estimación del parámetro poblacíonal.
8.1. Factores que condicionan el tama ño de la muest ra Dive rsos factores inciden en el tamaño de la m uestra. Cabe destacar el e rro r má ximo admisible y el nivel de confianza por su importancia y porque ambos valores son dec isiones del rnuestrist a. También influyen en el tamaño de la muestr a los recursos económicos, los procedimientos de an álisis a ut ilizar y la heterogeneidad de la población.
8. 1. 1. Recursos económicos Respecto a la incidencia de los recursos ame rita señ alar que el costo de cada uni dad de m uestreo pu ede ser incl uido como infor m ació n en el cálc ulo del tam año de la m uestra. En efect o, distin tas funcio nes de costo se h an desarrollado con el propósito de considera r la variable económica e n el t amañ o de la muestra. Las funciones de costo su ele n se r muy especí ficas en los gastos y ser poc o apl icables en casos concret os 0 , por el co ntrario, inclu ir iternes de gastos muy generales y aportar poca información para e l cálculo del t am año de la muestra en una situ ació n con creta .
8. 1.2. Procedimientos de a nálisis La relació n del t ama ño de la mu est ra y los procedi mie ntos de a ná lisis es di recta. J.os procedim ientos de análisis univa riables no presentan en genera l exige ncias espedales respecto al número de observactoncs necesarias para su implementación Sin embargo, los procedimientos bivanablcs y mult ivariab les s610son aplicables
a partir de u n número m ínimo de obse rvaciones. Así, por ejemplo, e n el ámbito biv ariab le el uso de coeficientes d e correlación pararn étrt cos req uier en al menos d e treint a c aso s y en análisis multivariable las exi gencias pueden ser tan amplias co mo 1"0 análisis factorial, q ue seg ún Co m rey ( 1985) req uiere de trescie ntos casos para ser fiable: o como 1"0 regresió n múltipl e procedimient o slepwise, q ue segun Tabach nik el al- (19 89) nec es ita u n numero de casos cuarenta veces supe rior al núm ero de variables independientes incluidas en el modelo.
S. 1.3. Heterogeneidad de la població n
confianza co nst ante 95,5% y varianza co nsta nte, un a mu estra asocia da a un error del 2% necesita 2.500 casos pa ra infe rir a la població n. Bajo los mismos su puestos, una m uestra con un error de 1% req uiere de 10.(X)() casos y una muestra asoc iada a un erro r de 0 ,5 % necesita de 40 .00 0 observaciones. Se eviden cia q ue se nece sitan mu estra" sust antivamcnte ma yo res para un nivel de con fianz a co nstante y el mismo procedimiento de selección de c asos. Para ilustrar est a cues tión se presenta la cu rva q ue relaciona tamañ o de muestra y porce nt aje de er ro r.
8.3. Tamaño de la muestra y tamaño de la población
El ta ma ño de la muestra es p articul arm ente sensible a la het erogeneidad de la pobl aclón . El sentido común inJica que en pob laciones het ero gén eas se requi ere de ma yor número de caso s para e st ima r el parámetro poblacion al que e n poblaciones co n valores homogéneos. La di sp ersión se mide co n la var ianza, lo que perm ite concluir que poblaciones co n var ianzas grandes requ ieren muestr as mayores que pobla cio nes con var ian zas peque ñas para inferen cias co n igual precisión.
8.2 . Precisión de la estimación La relación del tam año de la m uest ra y la precisión JI" la estimación es intu iti va. Resulta inm ed iato concluir que a um entos en el tamaño de la muestra generan incremento en la precisión de las est imac iones Po r el contrario, mu estras pequeñas dan lugar a estimaciones imprecisas asociadas a un error máx imo admisible grande. Ca be destacar que no e xiste una rela ción direct am en te pro porcional entre e rro r m áximo admisibl e y tamaño de la muestra . En e fecto, dados un nivel de
. ..- ----- - --- - - ----------,
Contr a lo q ue su giere el sent ido com ún, el tamaño de la m uestra no se ve susuntivam ente influenciado por el tamaño de la población or igen de la muestra. No ex iste un aumento de la muestra proporcional al aum ento del tamaño de la población. En poblaciones grandes - sup eriores a 100.000 casos- la influ encia del tamaño de la población es ínfima e n el cálculo del ta maño de la muestra. Sin embargo en poblacio nes de tamaño medio la influencia es moderada y en poblacionrs pequeñas -ínfencres a 5.000- el t ama ño de la muestra se ve influenciado por el tamaño de la población . En poblaciones pequeñ as es necesario m uest rear a una parte importan te de la población para obtener la pr ecisión dese ada. Normalrrwnte es preferible realizar un censo de la po b laci ón. A modo de ejem plo, pard po blaciones con 100.000 y 10.000 .000 de casos una m uestra de 1.100 un idad es pe rm ite infer encias con precisión sat isfacto ria. Se demuestra que la relación de n co n N da lu gar a un a curva q ue p'lS..! por el o rigen y tien e una asínto ta par alel a al eje de abscisas. La curva e vide ncia que a part ir de cierto valor de n increme nto s de N no inciden e n e l tamaño de n . El Gráfico 8 figura la re lació n de JI con N.
Gráfico 7. Tamaño d e b muestra asociado a porcentaje de error
..
Grifico 8- Relació n tam año de muestra)" tamaño de población n
'--
-------------- - - --------
'.1 _
2uguW
l.O - . - 1.~
l oO
M
::
---4,----------- , t-------------~ -----------------------------__-
-- -
••~~-+-4) .000
10 .00J
60
N
61
8.4 . Tamaño de la muestra y p arámetros Un a e ncuest a por muestreo indaga respec to a un aspecto de la realidad utilizando no rm al m e nte un cuestionario estructurado q ue incluye un sin nú mero de preguntas, Para e l cálcu lo del tam año de la m uestra no se pu eden considerar todas y oda u na de LIS preguntas incluidas en el instrumento d", medi da . Por exceso se genera el absurdo de cálcu lo de tamaño de mu estra para cada pregunta . En la pra ct ica se calcu la la muestra consid erand o an tecedentes - veríauxa- y c xpec tauva s - ní vel de con fianza- referidos a una o algunas pregun tas que se consideren rele va nt es e n relación al tema de cstud¡o.
8.5. Fórm ula del tamaño de la muest ra El cálc u lo del t am año de la mu estra se- rea liza median te una fórmula qu t' es una ecuación q ue relac ion a dos t érmi nos. La incógnita es e l numero de ele mentos a encu es tar y el térmi no q ue permi te de spejar la incógnit a est a compuesto po r los factores que condicionan el tamaño de la muestra. Entre esto s factores cab e des tacar el nivel de confia nza, la probab ilidad de e rro r, un a me dida de la d ispersión de los datos, el cos to de la unidad de muestr eo y el tam año dela población . La fórm ula a utilizar será d istinta segun el p rocedimiento de selecci ón de element o s y el resultado de la apl icación de la fór mula variar á segú n los valores q ue asuman los factores qu e co ndic io nan el tamaño de la muestra .
8.6, Decision es subjet ivas e n cálc ulo del tam año muest ra! El calc u lo del tamaño de la muestra involucra aspectos técnicos y subje tivos. Los aspectos t écnicos dicen rela ción con el procedimient o de sele cció n y, por ex te nsió n , con la viabilidad de acceder a las unidade s de muestreo segun cos tos y cro nograma. Los aspectos subjetivos tie nen q ue ver con o pciones decid idas segun c rit er io del mucstrista . En e l ámbito de decisio nes del muest rista cabe dest acar el nivel de co nfianz a asocí ad o a la estimación y el e rror má ximo admi sible. Los valores qu e asuman incid ir án e n el tam año de la muestra. Res p e cto al nivd de con fianza exi ste la pra ctica convencional de asumir co rno valores a propiados 95 % y 99% de conhanva. En relación con el error m áxim o adnusible se utilizan valores en torno a 3% de error. El suste nt o es más uso consuetndinario qu e razones sustantivas. De hecho, en ciertos contextos los valores señalados pu eden resultar una imposici ón exces iva y en ot ros ser claram ent e insuficientes. La difi cultad de una decisi ón aprop iada para cada caso dice relación con la falt a d e claridad respec to a las consecue ncias practicas de un nivel de co nfianza de ter m in ado . En general es un a m ater ia abie rta a la subjet ividad de q uien calc ula el tamaño de la muestra
A fin de Ilustrar 13 influe ncia e n el ta ma ño J~ la m uest ra de d ecisiones distinrespec to al nivel de confianza y el erro r máximo adm isihl~ se prese.ntan des ~j ell1p los. La. Tabla 12 ilustra el tam a ño de mu estra 4ue: se obtiene co nside rando ¡lternativas d istinta s y razon ables.
taS
Tabla 12. Tam año de muestras segú n opc ion es Decisiones Propon:i(.'n ~ignida
Ñluestrista I
0)5
"'luestri
O,"
Errorm.L-cimo adm~lb l('
0,0') ..... 15
*
O.02- t:2'llo
Nivd de coo~anlJ
95.5\0 - 20
99,7% - 3u
JOO
3 soo
,
Las dife rencias en el tamaño muest ra] son significativas e im plicarían diferencias de recursos y tiempo importan te. Los resu ltad os se ob tie nen a par tir de decisiones disp ares pe ro jusnficables en rel ación co n erro r m áxi mo adrn ¡..íblc y nivel de confianza. En consecue ncia, la exactitud qu e distingue a las fórmula s se ve :)p.tcadd por la subj etividad inh er e nt e a decision es q ue so n de te rm inantes en el tamaño de muestra calculado. El calcul o del tamaño de la muest ra no t iene una solu ción úni ca 'j verdadera El cálculo del núme ro de elem en tos a muestrear tien e un a dim ensión técnica y otra im precisa q ue dice rel ación con la experien cia. capacidad e intuición del mucstrista.
Capitulo 9
Notación y fórm ulas
La teoría de m uestr as pe rmite realizar infe rencias a la po blación uti lizando diversos estadísticos muestrales. Naturalmente las fór mulas son distintas, pero la lógica es la misma. El desarrollo de la teo ría d.... muestras ha d ado lu gar a variac iones en las fórmulas a aplicar para calc ular el ta maño de la mu est ra o es timar el par ámet ro pobladon a\. En efect o, sencillas op er acio nes algebra icas pe rm iten prese ntar de variadas maner as la misma fórmu la. Un au tor pu ede ade cuar las fórmulas segun criterios de exha ustividad, cla ridad o aplicabilidad. A fin de homoge neizar la producción en castella no de t eo r ía de m ues tra s se ha seguido la nomenclat ura utilizada por A zor ¡n ( 1976) o Azorín y Sánc hez C respo ( 1986) .
9.1. Nota ción general Número de ele me ntos de la población N
N =¿X,
,.,
Núme ro de elementos de la muestra
n=i:;.,
X,
Nume ro de muestras posibles. Extracción con reem plazo
Numero de mu estr as posihles. Ext racción sin reem pla zo
) N' [N n = n!(N ~ n)!
65
Prob abilidad de selección de u na m uestra de ta maño n. Ext racción sin renp lazo.
racción de m uestren Probab ilidad que un ele mento de la población sea sclec tonado para la m ues tra
Varianza en la po blación
Cuasi varianza de la población
f= -~
N
actor de ele vación o e xp ansió n. Inverso de 13 fracción de m uestreo. Nú mero de lemcntos de la població n qu e rcpo- se nra cada ele men to de [a muestra.
e =-.1. =
f
0 =
1:!.... "
"orrecoón p ara poblacion es finítas
cpf(cu asi vari anza)
epf (varianza) =
Desviación típica dI' la po blac ión
=H Ñ'l.-
~ ='}
9.3. Notación de proporciones. Población Valor de la variable dicotómica para el i- éslmo elemento de la población
« Total de clase de la población. Numero total de elementos qu e presentan el atribut o
),2. No tación de medias. Población Valor de la vari able X pa ra el i-esimo elem ento de la población
x, r.k dia de la pohloción para los elementos de la variab le X
A Proporció n de la poblaci ón p ara los elem ento s de la variable d icotó m ica N
~a,
A
N
N
l'I = ~ = --
Varianza de la poblaci ón o; =)"[( I -l'I)
Desviación t íp ica de la población
.¡; ( 1 (; 7
9.4. Notación d e medias. Muest ra
Capítulo 10
Media de la muestr a pa ra los elem entos de la variable X
Muestreo aleatorio simple
Varianza de la muest ra El muestreo aleatorio sim ple es un procedimiento de selección basado en la libre actuación del aza r, Es el p rocedimiento de muest reo m ás elemental y es referencia de los dem ás tipos de d ise ño. Muestreo elem ental porque como procedimiento de selección es intuitivo y sus fórmulas son sencillas. Es refere ncia para evalua r la eficiencia de diseños que seleccio nan los elem en tos seg ún una lógica qu e bu sca ordenar el azar. El muestreo aleat orio simple es u n procedi m iento monoe tipico q ue puede realizarse co n o sin reposición. Teóri camente la difer encia dice relación con la independencia o dependen cia e n la probabilidad de selecci ó n. En virt ud qu e el muestreo sin reposición resu lta m ás sencillo desde el punto de vista te órico y práctico los desa rrollos siguie ntes se re alizan a partir del su pues to de no reposición de los elementos seleccio nados. Nót ese qu e ambos tienden a resu ltados sim ilares cuando la m uestr a es una parte pequeña de la po blació n. Se verifica qu e cua ndo la població n tiende a infinito la probabi hdad de repet ici ón en la se-lecci ón tiend e a o.
n
C uasi varianza de la muest ra
"_±(x,"" "-
x}2 -;-
n - 1
Desviaci ón típ ica de la m uestra
t (x.- xl'_
s = .!:.L.
n
9.5 . Notación de proporciones. Muest ra
10.1. Selecció n de uni dades de m uest reo
Propo rción de la muest ra para los elementos de la variable di cotó m ica
El procedi mien to de selección de los ele me ntos se real iza en for m a independiente y sucesiva para cada unidad según un listado que pe rm ite la selecc ión al aza r de los elem ent os qu e componen la población. Se tra ta de un mues treo probabilistico donde todos los elem e nt os tien en la misma pr ob abilidad de ser parte de la m uestra y cada un a de las muestras posibles t iene la mivrua probabdtdad de ser elegida. En consecuencia es un procedimiento aleatorio eq uip rohable. Particula ridad que la distingue d e los diseños p robabil ísticos no equiprobables en los cu ales los e lerne-ntos tien en una probabilidad co nocida y distinto J e O de ser parte de la muestra. Comú nm ent e se confunde muestreo alea torio simple y muestreo cqcnp robol-le, sin embargo, éste es sólo uno de los modos del muestreo cq uíprobable. En virtud de la naturaleza equíprobable del muestr eo aleator¡o sim ple se le califica de m uestreo autoponderudo. T érm ino éste q ue hace refe rencia a q ue el peso de tod os [os individuos en la muestra es d m ism o. Históricam ente la selección de unidad es de muest reo se ha realizado mediante una tabla de números aleatorios. Un ejemplo a este respecto es la tabla generada
Varia nza de la m uest ra
D esviación típi ca muestra!
s, = ,[ji""iti
68
69
por la Rand COl'J'(!Tu.t1un d(' 1.()(X).OCO de d ígitos. Los programas com putacionales facilita n la Urca dI' selección. En efecto, permiten asignar un n úmero a cada uno ~le los elementos de la población mar co, gene ran una serie de nú meros aleatorios, seleccionan el núm ero de eleme ntos previamente establecido e imprimen elli.~t a do de elem entos q ue co mponen la muestra. La serie de numer as aleatorios podría ser prácticament e infillita y el azar e n la serie de números puede ser evaluada m ed.i allt~ pruebas de aleatoriedad. En pa rticular la distrihución de frecuencias y la prueba serial El muestreo aleatorio simple presenta do s inconv en ientes de aplicación. A saber, necesidad ele dispon er del lista do de la poblaci ón m..reo y aumen to de cos to po r dispersió n geog rá fica de las uni dades de muestr eo selecc ionadas. Su aplicaci ón no es Frecuente en la p ráct ica del diseño de muestras, sin em bargo, los un procedim ie nto de selecció n habitua l en co mbinación con diseñ os complejos La principal ventaja es la sencillez de las fórmulas pa ra calcula r el t ama ño de la muestra y la prec isión de la estimación . La senci llez de las fór mulas se explica por el ca ráct er m on oer ápico del m uestreo y la cquí probabihdad de las unidad es de muest reo. Los elementos son las unidades de m uestreo )' todos los ele mentos ti enen la misma probabilid ad de ser seleccionados. La estimación de los par ámetros en m uestreo aleatorio simple se rea liza seg ún los cánones de la in fere ncia estad ística clásica. En particular, de la teoría de la estim ació n. En rigor, el m uest reo alea tori o simple es el nexo entre teoría de la estimación y los diseños de muest ras probabilísticos qu e re gul an la sclección alea tori a de e leme ntos. Las fórmula s de estos diseños son variaciones del muestr eo aleatorio simple.
10 .2 . Varian za y cuasiva rianz a La fórmula del e rro r np¡co incluye la cuasivarianza y la corrección para poblaciones finitas. V éase Tablas 8 y 10. A propósito del uso de la cuasivarianza amerita seña lar q ue e n diseño de m uestr as se d isti ngue ent re varianz a y cuasivarianza La dist inción se explica porque la varianza muest ra] no es un estimador insesg ado de la varian za po blacton al. En efecto, se demuestra qu e la esperanza ma temá tica de la varianza m uestra! no coincide con el valor de la varianza poblaciona\. En consecuencia, no se utili za la varianza muestral en las fórm ulas pJra co nocer la precisión de la estirn nclón. Se demuest ra que la cu asivarian za rnucst ral es un estimador ínsesgado de la ccasívana nza poblacíonal. En virtud de lo cu al se utiliza la cuasivarianza de la muestra pa ra esti mar 1<1 cuaslvarian za de la población. La d ifere nc¡a entr e varianza y cuasi varianza consis te en q ue est a úl t im a uti liza como denom inador 11- ] y no 11. La distinción tiene m ás inter és t eór ico que practico. Se dem uestra q ue en m ue-stras grandes la cuasivarianza es un estimador insesgado de la varianza .
10J. Corrección p ara poblaciones finitas La corrección pa ra poblacio nes finit as (qlf) es u n factor d e co rrección que rel aciona el tamaño de la pobla ci ón y el ta m aiio de la muest ra.
epi =!:I~" N
(10.1)
Elnombre se explica porq ue en poblacio nes injinitas asume el valo r consta nte 1 y su función como multiplicador de la varianza del estimado r pier de sen tido. En [a práct ica se trabaja co n po bl acio nes finit as; en consecue ncia, el valor es dis tin to de I }' se ju stifica su uso Sin embargo, en gene ral, el valor de la co rrecció n es cercano a 1 po rque norma lm ente la población es m ucho mayo r que la muestra. En la pr áct ica se p ued e presci nd ir de la cpf cuan do su valo r es m ayor a 0,9 5, dado q ue su efecto en la amp litud del intervalo sera irrel evante. La cpfcu mple la func ión de h acer m ás precisas las estim aciones realizadas con muestras relativam ent e gran des respecto al tam año de la poblaci ón y hace m i s imprecisas 1.Js estima ciones efectuadas co n m uestras rela tivamen te peq ue ñas.
lOA . Estimación de la m edia La medi a es una medida de te ndencia ce ntral que informa respecto al valo r promed io de una variable. Su comprensión es int uitiv a y su uso e xte ndi do. En virtud de sus propi edades y aplica ciones es comú n la neces idad de est im ar el va'or del parámetro po blacional a partir del estadístico rn uestral . La estimación de l par ámetro poblac íona l se real iza ca lculando el valor de la media muestra!. Procedim iento q ue se justifica, dado q u e la m edia muestra] es un buen estimado r de la medi a poblacional. En consecuencia se justifica para estimar la m edia de la población utili zar como es timador la media de la muestra.
1004 . 1. Error típico La precisión de las estimaciones está rela cionada co n 1.1 disper-o ón de los estadísticos mues t rales. A ma yor dispersión de los estudtstícos muestr ales menor ser á la precisión . Para con ocer la dispersión de los estadtsucos se utiliza la varian za del estim ado r en el m uestreo o su raíz cua dr ada q ue es la desviación típica del estimador. Este ult imo co nocido como error típico o e rro r está nd ar. Se demuestra que la fórmula del e rror típico del csttrnador e n muestro alea torio simple es la siguiente.
71
. ~
(102)
n
Despejando la ecuación respecto a n
L=N-2' . " N
rol1
n
Donde;
±(x,- x)'
1"
(l 0.3J
[NN-• n11
;.1
n
(IO.G)
[ NN -. nn l~ o ..i-n _ ~ N
l .a fó rmula (10.2) evidencia q ue la varia nz a del estimador será grande si el valor de la varianza de la variable e n la població n m edi da med ia nte 52 es grande. Se co ncluye también qu e la var ianz a de l est imador disminuye c uando au men ta el ta m año de la m uest ra. Por o tra part e, q ue da en evidencia q ue el tam aii.o de la poblac ión no tien e una in flue ncia significativa en la precisión de la es tim ació n.
10.4 .2. Tama ño de la muestra El cálculo del tamaño de la muestra es cro nológicame nte anter ior a la const rucción del int erv alo de co nfianza. Durante el muestreo la primera et apa es calcular cuá ntos elementos d e la población van a co m pone r la muestra . El tama ño de la muestra está co ndicionado por dos valores qu e son definidos por el mucstnsta . En co nsecue ncia, el resultado dependerá del punto de vista ut ilizado en la toma de decisiones. En efecto, es necesario es tablece r el valor del m áximo erro r dispuesto a ad mi tir y definir el ni vel de confia nza que se asumid. e n la infe rencia. La fórmu la del tamaño de la m uestr a se ob tiene a partir de U n3 ecuación q ue relaciona el tamaño de la muestra con el error máximo admisible. Nó tese q ue el e rro r m áxim o ad m isible es el p roducto de dos terminas. En rigor dos valores que son. la abcisa de la fu nción de densidad de la ley nor mal para u n determi nado nivel de confianza y la desviación tí pica de la di strib ución m uesr ral del est im ado r. Ut ilizando ex presiones co rrie ntes se t rad uce a los siguiente términos. Error m áxim o ad mís íblee coe ficientc de confi anz a · er ro r típico. A con t inuación figura n los t res t érmi nos en nom en clatura de muestr eo alea tor io simple. (10.4)
(10.5)
72
despejado n ( 10.7)
Donde:
= Erro r m áximo ad m isible Zol1 = Valor tabulado de l coeficiente de confi anza N = Tamaño de la población 52 = Varian za de la población e
Todos los tér m inos de la ecuación son conocidos ex ce pto la varianza de la población. En la practica es te valo r es reempla zado po r un indicador de la variabil idad en la mu estra . Este indicador normalmente es un a varianza calcula da al aplicar una encues t a piloto para e valuar la validez del instrumento de med ida . PIIOIlI. EMA 1
Una munícípalídad estudia hábi tos de estudio en estudiantes de- 10 básico a 4" medi o en liceos de la co m una. Se aplicará u na e ncuesta po r m uestreo. Co ndició n es calcula r el t amaño de m uestra . El tota l de estudia ntes qu e asiste n a los liceos de est a comuna es de 2 1.524 . Se ut iliza la varianza de est udios an te rio res, 122. El e rror m áxim o adm isible se fija en 1 y el nivel d e co nfianz a en 99%.
73
Reem plazando en coe ficie nte de confianza y e rror típ ico
SOLUClON
A partir del enunciado obtenemos los siguientes datos: j ±
N = 21.524
s:
~
1, 96
,,t-n" --
-'--
N- J
n
( 10.9)
122
= 1 Z "¡ 2 = 2,58
e
Donde: 1,96 = Valor del coeficiente de co nfianza asociado al nivel de co nfianza de 95% S1 = Varianza de la m uest ra N = Tamaño de la pobl ación n = Tamaño de la m uestra
PJr.l. los cálculos utili zamos la sigu iente fórmula :
n
L-+_ "_ z~
La inte rpret ació n del intervalo de co nfianza es en te rmi nas probabilísticos. El intervalo ob ten ido puede o no con te ner el valor del pa rám etro poblacíonal. En rigor el int e rvalo es u na ex periencia alea toria e n Id que se pu ede concl uir qu e un porcentaje de m edia s m a estrales -porce n taje dado por el coe ficiente de confia nza asociado a zGI2- está n incluidas e n el intervalo est able cido. La apuesta del investigador es qu e la única muestra seleccionada da lugar a un intervalo q ul:' por gracia del azar incluye al p arámet ro pob lacicnal.
N- l
Reemplazando:
122
n
_ " _ + __ 1~__ 2,58 1 2 1.524 - 1 n = 770
2 Calculado el tamaño de la muestra se q uiere esti m ar el pro medio hor as do: estudio al d ía. Para infe rir los resultados a la po blaci ón se crea un intervalo de co nfianza. Segun probl em a anterior 2 1.524 estudiantes asisten a liceos de la co muna y se encuestó a n o. El promedio de horas calculado en la m ues tra es de 0,72, con una varianza de 0,7. Se establece un in te rvalo asociado a 99% de confianza . PRO RLEMA
C ONCLUSiÓ N
Para hacer un a estimación con un er ro r máximo admisible de I y un nivel de co nfianza del 99%, la municipalidad requiere una m uestra de 770 estudiantes.
So LUCION
A partir del enunciado obtenemos los siguientes datos:
10 .4.3. íntervo lo de confianza La elaboració n del intervalo de confia nza para m edias en m uestro aleatorio simple se realiza según el procedim iento cl ásico. Tres son los valo res a considerar segun la fórm ula gen érica. X± Z..n "Oj
(10 .8)
x = Valor de la media muestra! Z..n = Valor tabulado del coefici ente de co nfianz a asociado a la est ima ción lJi = Error t ípico
N
~
TI
:=
Sl
= 1,5
x
o:c
21.524
no
0,72
Z..n = 2,58
Para los cálculos utilizamos la sigu iente fórmul a:
. ,,r-n" x± z..n
N - l ' -;;-
Dado que a, puede asumir valor es O y 1
Reemplazando
0, 72
±
2,58
,
( 10.11)
i=p (p- l )=pq 0,72 ± 0, 14
(0,58; 0,86)
La fórmula de la desviación típica del estimador o error típico ~ la sigu ien te.
CONCLU::i¡ON
Con 95% de co nfianz a, pode mos afirmar qu e el p romed io de horas q ue los estudi.mtes de los liceos de esta comun a estudian al d ía está comprendido en el inter valo 0, 58 a 0,86 ho ras.
10 .5. Estimación d e la proporción La p ro porció n es ex pres ión de un pro medio e n una variable dicotómica . El parámet ro poblacio nal se est ima usa ndo como estimador la proporción m uestra!' La proporción muestra] es un estimador ínscsgad o, eficiente y co nsistente. V éase a este respect o 4. 1.
o
II I
,
=V- N- n . J -.i.. N- 1
(10 . 12)
n
En la fórmula de la desviación típi ca del esti m ado r figuran p y q, cu yos valores son desco nocidos. ¿Que valores asignar? No d ispo niendo de información se suele estab lecer el valor de varianza má xima y se real izan las estimaciones con ese valor. La varianza m áxima co rresponde a p =q =O,S. N ótese que p+ q= 1 y q ue el produ cto 0,5 • 0,5 =0,2 5. En virt ud de lo anterior, para la varianza se pued e estab l..cer la siguie nt e desigualdad.
(10.\3)
¡
10.5. I. Error típico La varianza de la d istribuc ión muestral de proporcio nes cump le la misma [unc ió n q ue la varianza del es tim ado r de la media . Mide dispersión y,e n particular, la d ispersión do: las p roporcion es muest rales. En definitiva, es un indic ado r de la precisión de las esti m acio nes. Se dem ues tra que la varia nza de las p ro por cio nes correspo nde al p rod uct o p • q. Sien do P la propo rción q ue presenta del at rib uto y q su complementario. N
s:
N
L (a. - p)' ¿a 2 .el_ ' _ =.~""-' ~N "-
_
p'
(10 .10)
N
Cuando se utiliza la varianz a m áxim a la amplit ud del intervalo puede ser m ayor que el necesario en fu nción de la varianza real de los datos. Considérese que la imp reci sión por exceso de varianza es me nos perjudicial que inferir con un valo r de varianza menor al realm ente existente.
10.5.2. Tama ño de"fil t;lUestra El t amañ o de la m uest ra de p roporciones prese nta las mismas caract ertstíces analíticas qu e el tamaño de muestra de medías. La fórmula se obtiene fijando el error m áximo admisible y el nivel de confianza asoci ado a la estim ació n.
(10. 14) Nótese que
e z Y J:N:.l --n . P~ 1
( 10.15)
e
0/2
76
11
77
D espejan do la ecuació n respecto a n
Zca/l = 2,58 para los calculas uti liza mos la sigu ie-nte fórm ula:
(_1'-. ~) _(_"-.J'
=
N- l
• _ f'!L N- l
n
=
~- l
n
n
N
~ pq
N~ l
"
---.!:i.- • .P!L N- l
L +_J:'!1_
ron
N- 1
n
Reem pla7.ando: Despejando n
2 83 :? 30 • o 25 58 4.23 0 - 1 ' (10 16)
"
_0,03] + -----º'.9_ .2, 58 1 58 4 .230 - 1 n = 1.923
Co;-'¡CI.US IO ~
Donde: = Tam año d e la po b laci ón pq = Varian za de la muestra el = Error má xim o ad misible Z~ = Valor del coe ficie nte de co nfianza
N
Todos los térm inos de la fórm ula son co noc idos. El tama ño de la m uestra depe nde de los valo res q ue asu ma n los término s que la co mponen. P RO fll.EM A
3
Se ind aga e n una región la proporción de estudi antes q ue real izan actividades de po rt ivas. Para este fin se ap licara una e ncuesta, por lo que se req uiere calcu lar el ta m a ño de muestra. El to tal de es tudiantes de liceos de la regió n es 58 4.230. Se fijó co mo error m áximo ad misible 3%, y nivel de con fianz a 99% . Se asume un a varianza máxima de 0,2 5. SOLU CION
A partir del enunci ado ob te nemos los sigui entes datos:
N = 584.230 pq = 0,25 e = 0,03
Para hace r una estimació n co n un e rror m áximo admisib le de 0 ,03 y un nivel de confianza de1 99 %, se req uiere encuesta r a 1.9 23 est udia ntes.
10.5.3 . lmervalo de confianza La est ructura del intervalo de co nfianza de propo rcio nes es análogo al intervalo estableci do para medias. Los valo res que lo const it uye n son los m ism os. A sabe r, el estim ador, el coeficiente de confi anza y el e rro r típico. La expresión del inte rvalo se pr esen t a a co nt inuación.
P ± l ,oI1 up
( 10.17)
Don de:
p
= Pro porcional muestra] Z"12 = Valor del coefici e nte de con fi anza u, = Error t ípico
Reem plazando en coeficie nte de co nfianza y e rror típ ico
p ± 1 9ct IN - n_. PH_
, uV N_ I n
( 10 18)
Dónde:
p N n pq
Capitulo 11
Muestreo estratificado
= Propo rción m uestra] = Tam año de la població n
= Tamaño de la muestra = Varian za de la m uest ra
P ROBLEMA 4
Realizada la encu esta a los estudiantes se quiere est imar la proporción de est os que realizan act ividad deportiva. Segun problema anteri or, el to tal de estudiant es es 584 .230 y se encuestó a 1923 . La proporción de estudiantes qu e afirm aro n pract icar alguna actividad depo rt iva fue 0,35. A partir de esta información se q uiere crear un intervalo con 95% de con fianza para inferir a todos los estu diantes de la región. SOLUCIÓN
A pa rt ir del enunciado obtenemos [os siguientes datos:
N = 584.230 = 1923 P = 0,35 q = 0,65 Zun = 1,96 11
Para los cálculos util izamos la sigui ente fórmula:
p s: ' ,96V:'J - n . pq N- J
n
Reemplazando: 0,3 5 ± 1,96
584.230 - 1.9 23 . 0,35 ' 0,65
584.230 - I
1.923
0,35 . 0,02 (0,33; 0,37) C ONCLUSION
Con 95% de confi anza podem os afirm ar qu e la proporción de est ud iantes q ue practican alguna activ idad deporti va e xt raprogram ática se encuent ra e ntre 33% y
37%.
80
El muest reo estratificado se ca rac te riza por usar información auxiliar que per mi te agrupar a los elementos que componen la muestra e n es tra tos diferenciaJos. Los estra tos están conformados po r eleme nt os qu e tie nen p untuación homog énea en la vari abl e e n estudio. Los elementos que componen un estrato son pa recidos dentro de l estrato y los est ratos son agrupaciones distinta$ entre si. La vari able de estrati ficació n es auxiliar y permit e const itui r grupos ho mogéneos de elementos. Condició n par:! q ue est o ocurra es que la varia ble de est rat ificación esté rel acio nad a co n la variable a medi r. ASI, po r ejemplo, para estudiar satis facción labo ral se puede es tablecer estra tos seg ún nivel de ingreso e n e l e ntend ido que el ingreso está relac ion ado co n la sat isfacc ió n labor al. Se suele usar m ás d e una variab le de est ratificació n, a fin de asegurar m ayor hom oge neid ad en los estratos. En ta l caso se aconseja que ambas vari ables estén rel acion adas con la variable a m edir, pero no rela cionadas e nt re si. Si existe rela ción entre ellas su uso no se just ifica porque no mejoran el resultado de la estratificación . Se aconseja usar aquella que este ma s rela cion ada co n la variable en estudio. a fin de gene rar estratos más homog éneos. La lógi ca que subyace al m uestr eo estratificado es que agrupando los elementos en es t rat os homogén eos es posib le m ejo rar la precisi ón y m inimizar el costo respect o a sele cción mediante muestreo aleatorio simple. Un a bue na estratificación se prod uce cu ando se gen eran estratos altamente homog éneos. Estratos homog éneos so n condició n ne cesa ria para una buena est imación . En el limite, si cada estra to está co mp uesto po r e le mentos co n la misma puntuación la seleccíén de un elemento po r estrato se ria ad ecu ada para in fer ir sin error. Cabe destaca r que cada estr at o es una agrupación independ iente de las dem ás, lo c ual per m it e infer ir los resulta dos a la pobla ción orige n de cada estrat o en for ma au tónoma . Conside rados todos los estratos en fo rma con junt a Se infie re a la po blac ión or igen de la m ues tra . A m enudo se preci sa de result ados p ara subd ivision es de la muestra. A saber, regiones, nivel socíoecon ómtco, grupos et éreos, et c. Si esta s subdivisiones co nfo rman estratos se pu ede inferi r pa ra cad a s ubdivisió n po r se parado
81
1.1. Precisión de la estim ación del m uest reo estrat ificado da lugar a qu e la varianza del esti mador de muestr a en cada estrato es igualo meno r al valor qu e se ob tendría mediante ucstreo aleato rio simp le. En consecuencia, el m uestreo est ratific ado es siempre .ral o mas preciso que el mu est reo aleat or io simple. La precisión es igual e n lhos procedim ientos cu ando la variable de estratificación no genera est rat os cuando cada estrato presenta la misma di spe rsi ón que la generada mediante lección alea to ria simple. El éxito del m uestreo estra tificado esta suj eto a dos condic ion es. Por una rte, co nfo rm ar est rato s co n medias heterog éneas que se m anifiesta e n varíangrande en tre las m edi as de los estratos. En segundo lugar, conforma r est ratos ntro de los cuales exi sta hom ogen eidad de p unt uaciones cuy a expres ión es rianza pequeña de ntro de los estratos. El efecto de diseño en un m uestreo est ratificado con est ratos homogéneos inferio r a l . Un efecto de di se ño infe rior a I significa qu e el muestreo est ra¡cado es m ás preciso q ue el muest reo alea tor io sim ple o. en otros té rmi nos, te para una precisión prefi j.lda se req uie re n m enos observaciones en muestreo rratificad o que e n muestreo aleatorio simp le. 1 lógica
1.2. Tamaño de est ratos el ámbi to del muestreo est rat ificado el primer p aso es gen erar est ratos, a fin asignar cada ele ment o a su est rato de pert ene nci a. Existen dive rsos procedícotos para esta blec er la amplitud de un estrato : equipartición , igu alaci ón de :ales e igualación de tamaños relativos . El m ejor criterio para discernir respec to amaño de los est ratos y generación de estr atos ho mogén eos es la e xperienc ia a intuición . 1
l.3. Nu mero de estratos sentid o común señala q ue e n genera l los estra tos no deb en ser pocos o muchos rque en ambos casos se desvi rt úa la ventaj a qu e ofrec e e l agrup amiento de .rnentos. Un número re-d ucido de est ratos no perm ite aprovecha r las ventajas la estratificación y m uch os es tratos gener a agrupaciones p eq ue ñas y compli~ión e-n los cálculos. Kish ( 19 72) establece com o referencia un rango de 3 a e- tratos. Para est ablece r el núm ero óp tim o de estra tos ap ropiado se puede ut ilizar e-l ocedun íento desarrol lado po r D alenius (1957). El cálculo implica m ini m izar siguien te fun ción .
4J
(11.1 )
o'
== -;u: + l. (Le, + IIc. -
e)
Donde:
cr == Varianza de la muest ra l. = N Ume ro de estr atos 11 = Tam año de [a muestr a
c. = Costo por un idad e, = Costo por est rato c = Costo gener al El result ado generado después de aplicar el método de Lagrange p ara min imizar unJ función es el siguiente.
. N" de estratos
=s b lc
(112)
Donde: ti
= Tam año de la muestra
e = Costo po r unidad c· = Cos to por est rato
•
11.4. Selección aleatoria de elem entos Conocido el número de est ratos es preciso seleccio nar una mu estr a d~ element~s al int erior de cada uno de ellos. Para estos efectos se ejecuta una sel~Clon aleat or ia . 1 S u-le d -norninar a este procedimiento muestreo aleatorio estratlfic ll\'_'. simpreoe sue t: d 1 blaci . La selecció n aleatoria de eleme ntos e n cada est rato e a po ~71On ~ Xlb<' dispon er del list ado de to do s los ele m entos perten ecientes a la población . Notese que cada estrato de la muestra está co mpuesto de elementos q ue pe rten ecen al mismo estrato en la población orige n de la m uestra.
11.5. Afijaci ón La asignació n de los elementos de la m uestra a cada uno ~e los .t'st ratos q .ue com ponen la muestra recibe el nomb re de afijaci ón. I.a asrgna cto n sd rcall/.~ seg ún crite rios q ue e mpírica y teóricame~te ~e ha n m O'itrado adecua os. l .os principales cr iterios de asignación son los siguientes:
Numero de elementos qu e compone cada est rato Varian za de los elementos dentro de oda estrato Costo de cada elemento en los es tratos considerados En función de los criterios señalados cabe distinguir cuatro tipos de ahjaci ón En afijAción igual se asigna el mismo num ero de elementos en cada estrato. La afijaci ón igual no ti e n e uso en la pr ácti ca . Raras veces se justifica d~fin ir para todos los estratos el mismo tama ño. No parece pertine nte d..sde el pu nto de vista lógico ni es be neficioso con side rando la precisión de la est imaci ón. La af ijact ón proporcional es de uso co mú n y justificación int uitiva. La idea es que el t amaño de cad.i estrato en la muestra sea propo rcional al tamaño de l co rrespondiente estrato de la población. Presenta como ventaja ad icional que se genera una mu est ra au tcponder ada caract erizada por la mis ma fracció n de mue-treo en tod os los estratos. La afijaci ón óptima de varianza tie ne el prop ósito de considerar la lógica de la ahjaci ón proporciona ! y simul táne amente el valor de la varianza e n cada estrat o. La idea que suby ace a esta asignación es que los estratos de mayor varianza t engan más elementos que aqu ellos que son más homog éneos - respe rando la prop orcionalidad en la asignación. La a fija ci ón óptima de costos considera sim ultáneame nte los criterios de proporcionalidad, varianza y costo. Se induye la variab le costo a fin que los estratos m ás caros tengan menos elemen tos que los est ratos baratos pa ra minimi zar el costo de la invest igaci ón. Cabe desta car que en los procedimientos de ahja ci ón no autcponderados - lgual. óp tima de varia nza)" óptima de costo- ~ utilizan factores de po nderación a fin de igualar la suma d e los pesos de.' todos los elementos y elimina r el sesgo generado por la sele cción desproporcionada de ele mentos. Se demuestra que la relación e nt re la varianza del estimador e n los muestr eos aleatorio simple, estratificado proporcional y es tratificado ópt imo es la siguiente.
11.6.1. Población Los estrat os se dist ribuyen del siguien te modo en la población . Primer estrato de tamaño NI Segundo est rato de tamaño N 1
Estrato gené rico H de tamaño N H Estrato último L de tamaño N L Los elementos se distribuyen en los estratos de la población . El ele-me nto genérico "",correspo nde a la pu ntuación del elemento i e n el estrato h Primer estra to
X II
Segundo estrato
x n xl] ...x l ;
Estr ato genérico H
xm
Estrato ultimo L
X LI X u
xl l X H1
" , x/ i •••
x/N I
" ,X~l
",x H••.. x¡1'J¡¡
", x Li
• •• xtN t
Tamaño de la pob lación
.,
.,
N = roN. = N¡ + N 1 + ...N H + ... NI.
Tamaño del estrato h-ésímo
PeSO de cada est rato Siemp re la varianza del est imador del m uestreo aleatorio simple es mayo r qu e la del mu estree est ratificado, excep to cuando la variable de estratificación no est á relacionada con la variable e n estudio y no se form an est ratos. Siempre la varianza del mu estr eo con af ij acíón proporcional es mayor que la varian za del muestreo con ahjnción óptim a, excep to cuando todos los estra tos t ienen la misma varianza.
Med ia de la pobl ació n
( 11.3)
11 .6. Notación Para caracte rizar la est ruc tura del m uest reo estratificado cabe d istinguir estra tos y elementos en la población , y en la mu estra
84
85
Media del est rato h-esimo Media de la muestra. Diseño no auto po ndcrado
,
(1 l.4 )
i= ,., LWi o
(1 1.7)
Media del est rat o h- ésímo
Varianza del est rato h- ésímo
(1 1.5)
N
.
AA
¿ x¡,;
i=~
( 11.8)
",
Varianza del estrato h- ésimo
11.6 .2. M uestra (11. 9)
:"':1. muest ra es una replica e n tamaño red ucido de la pobl ació n. Presen ta la mi sma estruct ura q ue la pob laci ón difer cnc t ándose en el tam año de los est ratos. El eleme nto gen{'rico x", corresp ond e a la puntuación del ele mento i e n el -strato h.
El siguien te esquema permite visualizar la es truc tura caracte ríst ica del m uestreo estr atíficado.
(a m año de la muestra
.
.,
n = I n. = n' + "J + ' "
+",, +... +",
G ráfico 9 Estructura del diseño estra tificado
Famañc del estrato h- ésimo
Població n
",
no = LX..
'"'
Subdivisión d.. estr atos
'eso de estrato h-ésimo
Subdivisión ele cst rHilS
.I x",
-ledia de la muestra. D ise ño autoponderado
,
I
X=!~
( 11.6)
"
oc
11. 7. Tipos de atijaci ón
11.7.2 . A fijación proporcional
11.7. l . A fijación igual
La afijación pro po rcio nal h a sido co noc ida co mo afijaci ón de Bowley. La característica distintiva de la afiíactcn propo rc io nal es q ue el t am año de los est ratos muestrales es proporc ional al ta ma ño de los est ratos poblacion ales L:1 af ij ací ón proporcional da lug ar a un muestreo autoponderado. En efecto, al mantene r la fracción de m uestreo propor cional en todos los estratos asegura que todos los elem entos de la pob lación t ienen la m ism a probabilidad de pertenecer a la muestra. La est ruc tura de la muest ra co n afijacíó n proporciona l es la sigu ien te.
El tamaño de todos los estrat os en afi," ación iguales el m! E . ,1 d .. ..... '- m Ismo. :0 conseClle nCla e peso .c cada estrato se ra Igua l para tod os los. estra tosacr El cal ] doer1 pcso du;' I bt¡ carcuro cal a estrato se o tiene según el siguiente cuo cien te.
w,
=t
L = Núme ro de est ratos
Grafico 11. D ise ño est ratificado. Afijací ón proporcional El tamaño de cada es trato se o btie ne dividi endo dos t érmin os
n :: Tam año de la muestr a
Tam año d e estr atos
:fi.af:j~ción
igual. p ara efectos de fórmu la presenta los mi smo s termina s' q ue la ObJl~clOn proxorCl~n~l. No e.s un muestreo au topo nderado. La media m uestra! se H,'OC po~ er~ n o a media de cada estra to por su peso. En consec ue ncia ara real~zar e~timacl()nes med iant.e afijac íón igu al se calcula el tamaño de la m~~tra el mt~r. ~Io ?d
i
Estadístico s
., r x" X =.hl.., ",
I1I -
n · w,
.,, "
x)='7t, 1
-
11, - 1I •
w, I
r•• x x=-"''-
.".
h
o.
LL I.. i =~
Media muestra
.,x-, Pj=':t.,l.-
G ráfico 10 . D iseño estratificado. Afijacióll igual MlIt'st n"
11'1 ,- 11 ' W ,
" .,
I ",
p/ =':t-
~._,o-
,"
n
r" ....
P. = "n)~
•
LL -, p= ..Mcl-
Proporción muestra·
"
Subdivi'lión en es tratos
11.7 .3. Afijación óp tinu
Estildisticos
M..J ia muestra
,
Proporción mUCl;tra
P= !W¡JJ.
"
88
La afijaci ón óptima S~ realiza con el pro pósito de mejo rar la precisió n de las esti maciones respecto a la a fijaci ón proporcio nal. Se distin gue afijaci ón óptima de varianza y afijaci ón ópti ma de cos to. La ahjación óptima de varianza co nocida com o afi jaci ón de Ncymon tiene el prop ósito de minimizar la varianza del est im ado r p.lra un tama ño de estratos p redefinido. En particula r; los estratos de m eno r varianza serán m ás peq ueños y los de varianza m ayor serán m as grandes. La lugil";l que subyace a esta afijeción es q ue en est ratos de ele mentos sim ilares no es necesa rio muestrear muchos element os y sólo cabe sacar muestras grandes en est ratos con valo res het e rogé neos.
89
1.:1 ahja ció n ópti ma J ~ costo es una variación de la afijaci ón ópti ma de varían, za que considera ade más el costo en la selección de elementos. Presen t a como alternativas minimizar la varianza del estimador para un costo dado o m inim izar el cost o para un a varianza del esti ma do r preestablecida. Se consideran costos diferenc iados en cad a uno de los est ratos, a fin de q ue los estratos rn és caros Sean de menor tamaño, La ahjaci ón óp tima, sea de varianz a o costo, plantea la neces idad de m inimizar .sna Funci ón dada una restricció n. Para estos efectos se su ele ut iliz ar el m étod o 1<.: multiplicado res de Lagrang e. La estruct ura d e la muest ra con afijación óp tim a do.' vari anza es la sigu iente.
Gráfico 13. Diseño e5tratiíicado. Afijación ó ptima de costo
Media
T.m~ño J~
los estratos
-; ,
K 11= " - -
, ,
i ,= W, x-,J
" n = n "'1,
'
r
¡ ",... ., X, =
w, í ,
I
xl =
.,
.,r, "',',
n =n "'· '·
W 1 Xl
I X;,= W. i:ó
, X=L . ,W.
M,-dia muestra!
r "'.s, "
proporción
Tamaño de los estm to s
x" Propcrcjón muestral
Pro porció n
Tama ño de los estra to .
Pro porc ión estratos
Propo rció n muestral
estruc tur a de la muestra co n afijación óptima d e cos to es la siguiente.
90
-
n-,K_
r "',J. ".-.re:
x1-wlx1 l l x~=u'.i~ 1 i =L ,-, w~ i~
Med ia ,
"7i:
n~=
,
--
Tamaño de lo >estratos
! ......
7i:
Gr áfico 12. Dísr-ño estrettficado. Afijacíón óptima de vananza
n = n "'! ,
n1= n¡- -
I "',J• .,
~-
"','.
- ¡,
-:¡-¡:
-, .'l..
Capitulo 12
Muestr eo est ratifi cado de med ias
12.1. Estimación de la m edia En mu estreo est ratificado la fórmula del cálculo de la media mu estral varia según npo de afijación. A saber, m edia aritm ética pa ra afijacíó n proporciona l y me dia aritmética ponderada pa ra afijación igua l y óp t im a. Cebe destaca r q ue la afijaci ón proporciona l t am bién pe rm ite cálcu lo de la media n~ llest ral utiliza ndo m edia aritmé tica po nderada.
12.1.1. Media aritmética En d iseños e n los que el t amaño de lo s es tratos m uestra les (' S p roporc ional al tam año de los est rato s poblacionales el esti mador de la media poblacio nal es la media aritmética de la m uest ra . El d iseño es autopo nderado y cu m ple con las siguientes co ndicio nes:
Los estratos de la muestra tienen las misma s razones qu e sus co rrespondientes estr atos en la población n. = N '!.,. .
"
N
La fracc ión de muestreo d e cada es trato es igu al a la fracción de muestreo de la población ~ = ~ .
N. N
El peso relativo de cada estrato en la pobl ación y en la muestra cum ple con la igualdad w,,=\V~.
" "
En d i.~ l'ñ os autoponderados se asigna autom áticamente la ponderación 2 de cada est rato a cada me-dia cstratal x.' En consecuencia, no es preciso efectuar la mult iplicació n de pesos y media s estratalcs. El dise ño aotopondcrado no requiere de ponderadores, ya que la nat uralez a m isma del d iseño genera u na media pond e rada. El estadíst ico muestral se presenta a continuación.
i
,. r I x.;
=A
" 93
En este contexto la media ponderada no t ie ne restricciones respecto a la relación tamaño del estrato muestra] y el tamaño del estrato poblecíooal. A diferenci a de la ofijacíón proporcion al e-que es au topooderada-. los pesos w h no deben mantener neces ariamente la proporción en tre no y N h , La muestra será despropor cionada can la restr icción que la suma de los pesos es l .
h es indicador del h-ésimo estrat o i es indicador de t-csírnc elemento
2. 1.2. M edia aritmética ponderada uscños no autopondemdos requi er en ponderar la media ar it m ética p ara estimar l pa rámetro po blacional. Un a media po nd erada asocia el peso de cad a uno de is estratos con las respectivas m edias estratales. Nótese q ue en cada es trat o - obtiene media y peso independíenre de la m ed ia y peso de otro est rato. Se er.nuestra. q ue la suma ponderada de medias por pesos per m ite obtener un nimador ínscsgado de la me d ia poblacíonal.
(12.1)
,
,
12.2. Varianza genérica del estimador de la m edia La varianza del estimador de la media sin especificar abjación tiene una fó rm ula genérica de la cual se extraen las fórmulas específicas q u e se aplica en efijaci ón propon:ional u óptima . La varianza genérica es una variaci ón de la varianza de l estimador de m uestreo aleatorio simple. Los dos componen tes de la fórmul a son los pesos de los estratos y la varianza del estimador en cada est rato . La expresión de la varianza del estimador en muest reo estratificado es la siguiente
::: L E(WhXh)::: L W¡,E (x¡, ) ¡'~ I
hl
(12.3 )
Donde: N
Sustit uyend o
(12.2)
(Ji,==
'-
N
LUr;; · -----.L-h=/
n
~.l
!!. . - L N ¡, n ll
O perando algeb raícamente
ende: N ::: Tamaño de la población N }V¡, == == Peso del estrato h -ésimo
-ri-
01 == - 12 N
1.
í:,N¡, (NI. hl
nJ .-nI.s''
(12.4)
Donde:
XI. == Media del estrato h -éstmo NI. == Tamaño del estrat o h-é stmo e n la población asum e qu e si las muestras de cada est rato son independientes y la m ed ia muesI de .cad a es tr ato es un estim ador insesgado del correspondiente parám etr o blacíonal, la m ed ia pon derada es un estimador insesgado indep en diente del o de afijac ión .
94
(J ;~::: S~'='
Varianza del est imador de la m edia en el estrato h- ésímo
Varianz a del estrato h-éstmo
95
Nótese que los pes os de los estratos se elevan al cuadrado, dado qu e rnulti, plícan varianzas y no medias.
12.4. Afijació n proporcional 12.4. 1. Estimación de la media
12.3. Tamaño gené rico de la muestra El tamaño de la muestra de la medi a sin es peci fica r afií ecí ón es una fórm ula gené rica de la cual S<' extraen las fórmulas especi ficas que se aplica en afijacíón proporcional u óptima. La fórmula gené rica se obtiene despej ando sob re el e rro r máximo admi sible. El procedimiento es id én tico a muestreo aleatorio simple, sólo cambi an los terminas del algorit mo.
( 12.5)
La media m ucstra l es un estimador autoponclcrado de la media pobla cíonal. En afijación proporcional se obtiene un estimador tnscsgado de la media po blactonal utilizando como esti mador la medi a aritm ética de la muestr a.
.
,
X"
LLx¡,¡ hr¡_¡
" Donde: x"," Puntuación en el est ado h -ésimo d el elemento i-ési mc 11 = Tam a ño de la muest ra
12.4 .2. Error típico La varianza del estima dor de la media par a ahjación proporcional se dedu ce de la fórmu la gen ér ica de varianza del est imador e n mu estreo estr at ificado. Operando algebrai camente en la fórm ula (12.4) se ob t ie ne la fórmula de la varianza de estimador de la media en mu estr eo estratificad o con afijact ón propor cional.
) (~~'"I w11','~ w,' N
= z?n ¿
Dado que n~ ..
.'::L IL _ ..::A:.l
IIW
h
y d ividie ndo por Z'~l
(12.7)
El error típi co utilizado e n el inte rvalo de confianza se obtien e como raiz cu adrada de la varia n za.
12.4.3. Tamaño de la mu estra La fórmula del tamaño de la mues tra se' ob t iene despej ando los terminas de la ecua ción básica que relacion a e rror m áximo con coeficiente de confianza y error tipico. Operand o algcbraícame nte se deduce la fórmula para a fijació n propor cional .
(12.6)
( 12.8)
e = z.,n 0 """ ..1
2
N -n- ,1" .2 ",::" Wh~-h N · n '~I
e- = Z..n - -
96
97
SOLUCIÓ N
r)esr ejando n
,
"
A partir del enunciado ob te nem os los slgutcntes datos:
~ w~si ,.,
( 129)
N = 560 .450 e = l %<>12 =1 ,96 Para los cálculos u tilizamos las sigu ientes fórmulas:
e
'" Error m áx i m o admisible
z~ '" Coeficiente
de co nfianza asoc iado a nivel d o:" confianza
N .. "'" Tamaño de los estratos S ~ "'" Variab ilidad
de cada estrato
N
l V. "'" N·
:J tamaño de cada estra to
So:"
calc ula segun la siguiente expresión.
5 j e investiga nivel de intolerancia en mayores de 18 años habitantes de una región .ivid id a en 5 com unas. Estud ios anteri ores señ alan que la intoler ancia es distinta -n cada una de estas co m unas (probableme nte debido a difere ncias en el nivel -ocioccon ómico ]. Se decíde utilizar mu est reo estr atificado, y d ado que se quiere «presen ta r cada com una proporcionalme nte al t amaño de su población, se utiizará ahj aci ón proporcional. Para pode r apl icar la encuest a es necesario definir .arna ño de la mu estra y efijací ón para cada est rato. La región en su conju nto .ucnt a con 56 0 .450 habitantes ma yores de edad . El e rror máx imo ad misible fue ljado en 1 y el nivel de con fianza en 9 5%. En la Tabla siguiente se observan los .aruaños de cada estrato y sus respect ivas varianz as:
Para reem plazar los valores e n la fórmula, debernos primero calcular los d atos para llenar est a Tabla-
¡>ROBLD,fA
,
Comuna
N,
S'
,
128.230 59.78 1 142JtJ6 ISO.3ZO 49.753 560.450
144 49 81 100
I
3 4
5 Total
G4
",
w11.
0,23
14,72
Comuna 2
0,11
15,84
Comuna 3
0,25
12,25
Comuna 4
0,32
25,92
Comuna S
0,09
Comuna I
Tot.1
Calculo del peso de cada estrato :
.230- = O 23 w = .128 _.. ~-I 560 .450 '
,
LWI = 1
Ir '
,
9
L w¡i. =77,73 .',
Donde:
w = 142 .366 = O 25 ] 560.4 50 '
w = 49 .753 = 5
560.450
= Estim ador muestral = Coeficiente de confianza asociado a nivel de confianza
o . = Erro r típico del est imador 0' N = Tamaño de la población 11 = Tamaño de la muestra W = Peso del estrato h-ésímo h = Varianza de estr ato h- ésímo
° '
x Z0/2
09
Cákulo del t amaño de la m u estra:
6 Luego de apli car la en cuesta sobre intolerancia se p rocede a inferir mediante intervalo de confian za. Se mide intolerancia con esca la de rango I a 6. En es ta región viven 128.230 personas mayores de 18 años, de las cua les fueron encuestad as 299 .'5e ob tuvo un a media m uestra] de 3,9. Se genera intervalo para estimar con 95% de confi anza. En la Tabla siguiente se observan los pesos de cada estra to, 'sus respectivas var ianzas y el peso multiplicado por las varianzas (calc ulado en el ejercicio anterior) :
PROBLEM;\
11
= 299
Ahora distribuimos el tot al de la mues tra en los estratos: TI¡
= 299 • 0,23 = 69
n ]
= 299 • 0,11 = 33
TI]
= 299 ' 0,25 = 75
= 299 • 0,32 = 96 "s = 299 • 0,09 = 27
Com una Comuna Comu na Com una Comuna
n4
CONCLUSION
Para hace r una estimación co n un error máximo admisib le de I y un nivel de confianza del 95%, se requiere una mues tra de 29 9 pe rsonas : 69 de la comuna 1; 33 de la comun a 2; 75 de la comuna 3; 96 de la comuna 4 y 27 de la comuna 5.
Total
1 2 3 4 5
w,
~
0,23 0,11 0,25 0,32
64 144 49
0,09
100
, 2: wh =
W,S¡ 14,72 15,84 12,25 25,92 9
81
, L ws ",, 77,73 l. ' ~ 1 l
1
¡'~ J
SOLl/CION
12 .4.4. Intervalo de confianza La elaboración dd in tervalo de confianza se realiza según una adaptación de la fórmula gen érica (12A) al muestreo estr atificado con afijaci ón proporcional. Reem plazando en la fórmula se construye d inte rvalo de la estim ación.
A partir del enunciado obtenemos los siguientes da tos '
N = 5604 50 11
(12.10)
x
= 0=
Z"-' 2
(12.11)
100
299 3,9 = 1,96
Para los cálculos utilizamos la siguie nte fórmula:
JO I
(12.13) ceernplazando :
3,9 ± 1,96
Elerror típico es la raíz cuadrad a de la varianza.
56Q,'ISO -?SL'L 77 73 560.450 ·299
'
12.5.3. Tamaño de la muestra
3,9 ± 1
El cálculo de l t am año de la muestra en afijaci ón óptima de varia nza se realiza
(2,9; 4,9) '~ON C LUS 1 0 N :011
95% de confianza podemos afirmar que el promedio de intolerancia según
-scala 1 a 6 se encuentra entre 2,9 y 4,9 en los sujetos estudiados.
minimizand o un a función a fin de encontrar los valores de nh que h acen mínima la varianza del estimador prefijado e! tamaño n de la m uestra. La af ij aci ón de varianza mí nima para un n dado implica cumplir con las dos condiciones siguientes mio dL.,
12..5. A hja ción óptim a de varianza :2. 5. 1. Estimación de la media .a esti m ac i ón de la media en efitacíó» óptima de varianza mínima desarrollada aor Neyman ( 1934) se realiza con la fórm ula general de la me dia pon derada. En carticular; en cada estra to se pond era la m edia con el p ('~o relativo del estrato.
Para enc ontrar el mínimo de una fu nción se ut iliza e! método de mu lt iplicado res de Lagrange. En particula r se t rat a de e ncontrar el mínimo de la siguient e expresión.
(12 14)
(12.12)
Jonde: w~
El mínimo se obtiene deriva ndo la exp resión respecto a los O h estra tos e igualando a ecad a una de las de rivadas. O perando algebrai camen tc se obtienen la fór m ula del tamaño de cada estrato nh que sat isface la restricción preestablecida.
= Peso de l est rato h-éstmo
xh = Med ia del est rat o h -é sirno (1215)
12.5.2. Error típico :.a varian za de! estimado r de la media p ara afijación óptim a es un a variación de J fórmula genéri ca presentada e n (12.4) . En efecto, la var ianza de la me di a en rhj ación óptima utiliza como valores de n h aquellos que minimizan el t amaño le la m uestr a considerando la varianza de cada estrato. Sust ituyendo los valores -n la fórmula gen érica
Razones de exposición aconsejan presentar la fórmula del t am a ño n de la mues tra a partir de la ecuación b ásica. A saber, despejando el e rror máximo adm isible.
(12.16)
SOLUCiÓ N
A partir del e nunciado obte ne rnos los siguientes datos'
N = 1.430 despejando n
e
=o
1
zo/1
=o
2,58
( 12. 17) Para los cálculos utilizamos las siguientes fórm ulas:
l~w~s~r
, ,
L W~s~
Do nde:
e
'.1
-el-+ - - z~
N
= Error máximo admisible
z..n = Coeficiente de confianza asociado a nivel de confianza
w.si
'1, =0'1
N, = Tamaño del est rato h -ésímc ~ = Variabilidad del est rato h-éstmc
~
,r...w~s:
W = N~
• N
( 12.15)
w• =!:!.L N
PROIl I.EM A 7
S(' mi de nivel de sex ism o en estudiantes. Sabido qu e estos pun tajes son m uy dist intos según sexo, se optó por estratificar a los est udiantes por esta variable , A su vez, a partir de informac ión de otros estudios, se puede asumir que )¡IS muj er es tie nde n a ser mas sim ilares en c uanto al sexismo que los hombres. Por estas razones se decidió hace r un m uestr eo estrat ificado co n efija c í ón óptima de varia nza . Para llevar a cabo el estudio es necesario calc ular el tamaño de muestra adec uado. El to tal de estudiant es de este colegio asciende a 1.430. Se fijó como error máx imo admisible 1, y 99 % de confian za. En la sigu iente Tabl a se presenta el tamaño de cada estrato y su varianza respectiva :
Hom bres Mujeres
Tlllal
N,
r.
705
225 100
725 1430
Para reem plazar los valo res en la fórm ula, debemos p rime ro calcular los da tos para llenar est a Tabla :
Hombres Mujnn
-,
w.r.
0.'49 0,51
1I0,Z5 51
,
Tobl
,.,1:1t'. : I
, .,~IU.~ : 161,Z5
Cálcul o del peso de cada estrato:
w = _Z /)5 ;; O 49 , 1.430 ' w = 725_ = 05 1 1
104
1.430
'
105
"
11',1.
"
7~5
5,1
10
,
'l,W,i, = 12,45
,. •-- "
zeemplazando :
"
12,45 '
~..l:.- + 2,582
llill
~
wA
'.
w¡s.
Hombres
0,49
15
7,35
4,3
O,5!
22S 100
110,25
Ml.ljeres
51
10
5,1
3,1
,
lA J a
., ,
Lw,s¡=161,25
L w¡=1
Total
00'
n = 584
\ hora distribuimos el total de la m ue stra en los estra tos:
So LUCION
A partir del enunciado ob tenemos los siguientes dat os:
n¡
N = 1.430 11 = 584 ZoJ2 ;;; 2,58
=584 °T6¡,1s=185
Para los cálcul os utilizarn os las siguie ntes fór mu las:
~ONC\.USION
'ara hacer una estimac ión con un err or máximo adm isible de 1 y un nivel de onfianza del 99%, se requiere una muestra de 584 estudiantes, 399 hom br es y 85 mujeres.
,
..,
i= L Wh X¡,
2.5 .4. Intervalo de confianza :1 intervalo de confianza se obtiene co mo consecuencia de la aplicaci ón de la órm ula genérica al caso específico de la est im ación mediante afij aci ón óptima le varianzas. Reemp lazando en la fórmu la básica se obt iene para afijación óptima I siguiente int e rvalo.
(12.18)
x ± z
(12.19 )
Prime ro calc ulamos el promedio muestra] : x ~0,49 '4 ,3+0 , 5 1' 3, I =J ,7
Reemplazando:
3,7 ±2,58 ' f{O BLEM A
8
.plicada la encuesta sobre sexismo en el colegio anteriorm ente nom b rado, se uícre est ablece r un int ervalo de confianza para estimar el promedio de sexismo cgún escala 1 a 6, El nivel de confianza se fijó en 99%. En la siguiente Tabla se presenta el peso de cada est rato, varian za, p rom edio btenido en la escala de sexismo y datos calcul ados en el ejercicio ante rior neesanos pa ra calcu lar el inte rvalo :
~
w.
3,7
±
1
(2,7; 4,7)
!1_L'ti':
lEil,25
584
1.430
, Lw,••=12,45 ,.,
Con 99% de con fianza podemos afirm ar que el promedio de sexismo, en una e-scala de J a 6, se encu e ntra e nt re 2,7 y 4,7 .
proporcio nal. Lógico si se cons idera que ~a afijací ón óptim a de costo inclu ye además del costo simultáneamente los atri butos de la ahjaci ón p roporcion al y la afijación óp tima de varianza. Eliminadas las diferencias en varianza y costo se reduce a una afijs ci ón p rop orcional.
12.6 . Afijaci ón óp tima de costo
12.6 .3. Tamaño de la muescra
12.6 . 1. Estimaci ón de la media
El tamaño de la m uest ra e n afijaci ón óptima de costos se ob tiene aplicando el m étodo de mu ltiplicadores de Lagrange. En particular se tra ta de encontrar los valores
C Q.\lCllISION
La af ijaci ón ópt ima de costo conside ra como insumo el costo diferencia l en cada estrato. Para el calc ulo de la med ia m uestra! esta información no es relevante. Natura lm e nte corresponde utilizar el criterio de la afijaci ón óp tima de costo cuando se calcula lJ varian za de l est imador y el tama ño de la m uestr a. La fórmula del est imador de la media poblacional es una media mu estral ponderada. La medias estratales se po nde ran po r el peso de los disti ntos est ratos.
x '=
o
que hacen mínima la var ianz a del esti mador con la restri cción A saber, varianza mínima para un coste fijo.
C
=
L C. J1¡, .
h~ 1
min aL...-
t,
~ w. ¡lo
(1 Z.ZO)
0 .0
Donde: Do nde:
w. '=
n 10
'11 = Peso del es trato h -ésímo
x. = Media del estra to h-ésimo
e
= costo t otal
c.
'=
"..
'=
costo del est rato h-ésímo ta ma ño del estra to h -ésimo.
En particular, se de be encon tra r el minimo de la siguiente expresión. " = - 11 I' N¡,
] 2.6.2. Error típico
N
La varia nza de estimador de la media cua ndo se plantean costos variables en los distin tos estratos se obtiene como variación de la fórmula gen é rica del m uestreo estratificado. La difer encia en tre ambas fórmu las se explica po rque en mu est re-o en ahjaci ón de costos se consideran simultáneamente t amaño, varianza y costo.
hJ
s' + (N. - '11.) _/0_
"lo
).
1
[ L' c."..- e
••/
( 1z.zz)
Se deriva la expresión respect o a n I' ... ,"' y se igu ala a O. O pe rando algebraica mente en el result ado ob ten ido se ded uce las fór mul as de nh y n que cu m plen con la restricción establecida.
(12.23)
(1Z.ZI)
Nó tese q ue si la variación e n los dife rentes e-stratos es la misma y los costos son iguales en cada est rato, la fórm ula anterior se reduce a la fórmu la de la afijaci ón
La ecua ción del cálculo de n e videncia qu e el ta ma ño de un est rat o h seré mayor si se dan las siguiente condi ciones: su tama ño relativo es grande la variabilidad del est rato es grande el costo por unidad mu estr al e n el estrato es pequ eñ o
108
109
La raíz cuad rada de
(Ji- es el e rror
típ ico.
Razone s de e xpo sición aco nse jan gene r¡¡ r la fórm ula del tamaño de la mu estra a part ir de la ec uación básica. En particular; a pa rtir de la iguald ad del error m aximo admisib le co n el coefictente de co nfianza y el error t íp ico.
e = zu/2
0 ,-
i,
N,
Urb ano Ru ral
(1 2.24)
To tal
758 .230 291.959
e
100 6'
10.0l10
14.; 00
1.050 .1R9
ti = .¿ni! o:..., SOLUCIÓ~
A part ir del e nunciado obtenemos los siguiente s datus: N = 1 050.189 e == 0,5 z..n = 1,96
(12 .25)
Donde:
e
= Error m áximo admisible
z..n = Coeficiente de co nfianza asoci ado a nivel de confi anz a N~
= Tama ño del est rato h- ésimo
si
=
Vanabíhdad del estr ato hsésirnc
W• = ~ N 9 Se invest iga racism o e n una regió n co n imp or tant e po blació n indígena. D ado qu e e n esta regió n e xiste n much as zo nas rurales y sabiendo q ue el costo para realizar u na enc ues ta en áreas ru rales es mucho mayor al de ár eas urb anas, se decidió llevar a cabo u n muest reo est rati ficado co n af ijacíón ó pti ma de cost o. Para lle var a cabo la e ncuest a se req uiere calcular el tam año dIO' muestra necesario. En la región vive n 1.050 . 189 pe rso nas. Se quier e hace r u na esti m ación co n un err or m áxim o ad m isible de 0,5 y un ni vel d e co nfian za del 95%. En la siguie nte Tab la se p rese nta el t am año de m ues tra de cada estrato, sus varianzas y costos resp ectivos: PRO RLEM A
W
=!:!l!
• N
Para reemplazar los valores en la form ule. debernos primero calcular los datos para llen ar est a Tabla: l.
W'S I
W,
U'~r.
s
e
Urbano
0,72
72
10
100
720
0,072
Rur.l
0,28
17,92
8
12O
268,8
0,0 19
Total
, r,.,. .·l = 1
, r,.,u·¡S:: = 89,92
w¡sl K
,
Lw¡s.JC;= 981:1,8 ,.,
,
..
l. F. ••, el
±~~= 0,09 1
l•• "f7!;
Cálc ulo del peso de cada estrato ;
=-.l?V30
ur 1
1.050 .189
10 Aplicada la e ncuest a de racismo se q uiere calcular un intervalo de co nfianza para est imar el p rom edio de racism o regional, se gún escala I a 6. De 1.050 .189 pe rsonas que habitan e n la re gión se enc ues ta ron 1.381 , En la siguient e Tahla se p resen ta el tamaño de m uestr a de cada estrato, sus varianzas)' costos respect ivos, el peso de cada estr ato (calculado en el ejercicio anterior) y los promedios obtenidos e n la esca la de racismo.
PROBLEMA
= 0 72 '
w = 291.959 - O 28 1 1.050. 189 - ,
Reemplaza ndo ;
n-
N
988 ,8 ' 0 ,09 1
.Q,52
1,96 2
U rb~no
+ ~~
758.230 291.959
Rural
1.050. I89
.
100
.
w.
<
'
0,12 0,2 8
10,000
3., 3.9
101.400
.., t,
I W¡,=1
1381
Ahora distribuimos el total de la muestr a en los es trat os:
SOL UCIÓN
A pa rt ir del e nunciado ob ten e mos los sigu ientes d at os:
0,072
ni
r.
) ,050,189
l bt _1 '1 =
•
= 138 1 • O09f = 1093
,
N = 1.0 50 .189 = 1.38 1 = an 1,96
71
0,019
n 2 = 1381 ' 0 091 = 288
7.
,
Para los calculas utilizamos las siguientes fórm ulas:
,
:mJCI.USION
'ara hacer un a est im ació n con u n e rro r m áximo adm isible de 0,5 y un nivel de on fianza del 9 5%, se req uier e un a m uestr a de 1.381 perso nas, 1.093 de zona rbana y 288 de zona rural.
2.6.4 . Intervalo de confianza
..,
i'= Iw~j¡,
xc ±
Z""
.1 intervalo de co nfianza para la afijact ón óptim a de costos se deduce de la fórmula lásica de interva lo de confianza. Vé ase 12.4. Ést a permite obten er la fórm ula spec tfica para el interv alo en ahjació n ópt ima de m ed ias.
( 12.26)
(12.27)
112
Prim ero calculam os el pr om ed io de la po blación'
x=0,72 ·3,4 + 0,2 8 ' 3,9 = 3,5 Para reemplazar los valore s e n la fór m ul a, debemos p rim er o ca lcu lar los datos llenand o est a Tabla :
113
.,
'.
'.
,
100 110
10
Urbano
Rural
-
Nlr.
N.s¡ {E;
75.823000 18.685.3 76
753.2JO.COJ 230.280.640
, Total
;':,N.r:94.508.376
,
..,
r N. S• .¡c;;. 1.038.510540
N,s,
.fe:
zs.sn
Capitulo 13
Mu estreo est ratificado de proporcion es
19.403,93 ~N,s. 6 ..VC:", c. 95.23 ,93
0-,
Cálculo del peso de cad a estra to:
758.230 Wl
1.050.189 =0,72
Wz
= I .OSQl89- = 0,28
291.959
Reem plazando : 3,5:i: 1,96
1.038.510.640 9528693 94.5Q8.3 76 138 \ ' 1.050 .\ 89' . . 1.050.\89'
3,5 :t 0,5
13 .1. Estimación de la proporción La estim ación del par ámetro en ámb ito propo rciones prese nta las mismas caracte risticas que la esti m ación de [a media po blacional . En m ue streo con efijació n proporcion al el esti mador del parámetro rob lacíonal es la propo rció n m uestra ] :-':0 es necesari o ponder ar la proporción de cada est rato por el peso de éstos, da do que es un m uestreo autoponderado. Se demuestra que la siguiente fórmul a genera un estimador insesgado del pa r ámet ro pobl aciooal.
p
( 13.1)
(3; 4)
h es indicador del h -ésimo est rato C O NCLU SIÓ N
C on 9 5% de confianza podemos afirmar que en promedio la población o bt uvo un punt aje en tre 3 y 4 en la escala de racismo.
i es indicado r de i-esimo ele mento
La ahjacl ón igual y óp tim a exigen gene rar un estadtstlco ponderado para est im ar el parám etro poblacíonal. En particular, se po nde ra la propo rción de cada estrato por el pe so de éstos. Se asume que si las mu estras de ntro de cada est rato son independientes y la media de cada estrato es un esti mador insesgado del pa rámetro del estrato, el estimador ponderado es un est im ado r apropi ado. Se dem uestra que la fórmula presenta da a continuación es un es tim ado r de 11.
( 13.2) D ond e: Wk
= Peso del estrato h-csimo
Pk = Proporción del estrat o h -ésimo
13 .2. Varian za genérica del estimador de la proporción La varianza de! estimador de la proporción para las distintas afijaciones se obtiene segu n e! mismo procedimiento utilizado para medias. A sabe r,se deducen de una fórmula genérica que es una variación de la fórmula de la varianza de! estimador en muestreo aleatorio sim ple. La fórm ula genérica de la varianza del estimador de la proporción en muest reo estratificado es la siguiente.
Dado Que " ..··nw. y d ividiendo por Zlo/J
,
..,
{~= ~wla~
( 133)
Donde:
l_ Nh - nh .__ phqh a,._ N~
(IJ.4)
n~
± w~ p¡,~
n= ' . . /
w, • f wh phqh e: - ,
S ustituyendo:
0,;= l ul. N~ -
zk =---;N~-
n~ . ~q~
N~
....., .
(IJ .7)
n~
Donde: Operando algebraicam ente: 0 2
,.
=_!.-. ±N i . NJ h
/
"
N~.:...!!_~_ N~ - l
Z,v J
• p"q"
(13.5)
" lo
El valo r Pbq~ no se conoce y es sustit uido por un valo r conocido o po r la varianza m áxima que corresponde a p =q=O,5.
N" = Tamañ o del est rato h-ésirno si == Variab ilidad d el estrato h - ésímo
W
•
=!'N!.!.
13.4. Afijación proporcional
13 .3 . Tamaño de la m uestra genér ico El tamaño de la muestra sin especificar e l t ipo de afijacl ón se obtiene despejando sobre e! error máximo admisible. El procedim iento es idé nt ico a m uestreo aleatorio simple, sólo cam b ian los tér m inos de l algoritmo.
e = z,~ a ~
= Coeficie nte de con fian za asociado a nivel de con fianza
13.4.1. Estimaci ón de la proporci ón La afijaci ón proporcional da lugar a una m uest ra autoponderada donde el estimador de la prop orción poblacíonal se obtiene d irectamente de la propo rció n de la muestra.
( 13.6) (13.8)
11 6
117
Nó tese qu e todos los estratos de la muestr a tien en las mismas razones que su,> correspon dientes estr ato s eu la poblaci ón ~ _::::: La fracción de m uestree de
%_.
cada est r..to es igual a la frac ción de muestreo de la población ~~ =.!:. . El n, N peso relanvo de caj a estrato en 1.1 poblaci ón y en la m uestra mant iene la igual. dad Wk=tVk.
Donde: t z"n
= Error m áximo admisible = Coefici ente de confianz., asociado a nivel de confianza
N k = Tam.1ñodel est rato h -estmo Pkq~
= Variabilidad del estrato h- ésirno
N. Wk ::::: -N-
13 .4.2 . Error típico La fó rmu la gené rica de varianza de l estima dor presentada e n (13.5) permite ded ucir la expresión apropia da para afiíect ón pro porcional. 01 />
=
N-=J1_Í w N .n k. ¡
PIlOB t. E ~ A 1I k
p q lo
lo
(13.9 )
El erro r t ípico utilizado en el inte rvalo de confianza se obtiene como raiz cuadrad a de la varianza.
n A.3. Tamaño de la muestra El tamaño de la m uestra se ob tie ne operando algebraicarnente sobre la ec uaci ón que relaciona erro r máximo admisible co n nivel de co nfianza y er ror tipico. La expresión del ta ma ño de la m uestra es la siguie nte . e
= 'Z"n 0,..
".
w, =ñ-
Se m ide auto ritarismo en una regi ón . Se sabe que existe n difer t"ncias significat ivas con resp ecto a esta variable segú n hab itant es de zonas rurales o urbanas. En virtud ele lo cual se uti liza m uestr eo estratificado. A su vez, se qui ere represe ntar proporcionalmente a cad a estrato, por lo q ue se optó por una afijací ón proporcional. En la región viven 8 79. 502 personas ma yores de 18 años. Condiciones p.lra la estim ación son e rror m áximo admi sible de 2% y n ivel de confianza del 95%. No se tie ne informaci ón so bre la varianza en cad a est rato, se asumirá la varianza mayor, esto es, varianza igua l a 0,25 . En la Tabla siguiente se observan los ta maños de cad a estra to y sus respectivas varianzas: N,
P,
q.
623.1 00
0.5
0.5
Rural
Z56.4OZ
0.5
0,5
Tolal
879.502
(13.10) Urbano
SOWCION
A part ir del e nunciado obte ne mos los siguien tes datos: Despeja ndo n
N = 879 .502 e = 0,02 ( 13.11)
La fórm ula pa ra calcular el tamaño de cada estrato se presen ta a cont inuació n.
%""1 =1 ,96
, "--+ "'~'-..--z N "" }; wh ph qh
1110
0=
13.4 .4. Intervalo de confianza
nw ~
N
iv = . -!.....
• N
Para ree mplazar los valo res e n la fórmula, d ebem os prim ero calcu lar los d atos para lle nar es ta Ta bla:
El intervalo de confianza para estimar el p ar ámetro poblacional se obtiene ada ptan do la fórm ula genérica de int ervalo de co n fianza El intervalo de estimaciÓn es el siguien te.
(13 .12) Urbm,
w.
w. p. q.
0,71
0.1775
0,29
RUf'1
~1lI. "
,
.,
I
Donde:
P
0=
Estimador muestra]
N
:: Tamaño de la población
n
:::: Tamaño de la muestra :::: Peso del est rato h-esimo
w~
P RO BLEM A
12
Ap licada la encuesta del ejercicio anterior se q uiere estim ar la proporción de acuerdo con la instauración de gobk-rnos au to rit arios en caso de crisis económicas. Se c rea un inte rvalo de co nfianza para inferir los resultados a la población . La población t otal de personas ma yore s de 18 a ños de la regió n es 8 79 .502, de las cuales se encu esta ron 865 . En la Tabla siguie nte se observan los tamaños de cada estrato, los pesos (q ue ya se habían calc ulado en el ejerci cio anterior] y las proporciones observadas.
Reemplazando :
0,09 0,09 _0,_ 03_ ' + _ ""'''--_ 1 1,96 879.502
11 :::: 86 5
N.
w.
p.
Urbano
623.100
0,7 1
0,3
0,7
Rural
25G,40l
0,29
0,311
0,62
Ahora distribui mos el t otal de la muestra en los estratos: 11, :::: 865
· 0,71 :::: 6 14
1-n I ::::
( 13 13)
~~
z.,n :::: C oeficiente de co nfianza asoci ado a nivel de confi an za P.q. :::: Varianza del est rato h- ésímo
= 623.1QO_ =0 71 879.502 '
11 ::::
~
}:w. p. q. '" 0,9025
Cálculo del peso de cada estr ato:
w,
L
N ·n~":i
0,0725
, Toul
- - "wp q
N- n
p ± Zun.
Tulal
865 · 0,29 :::: 25 1
879,502
, 1:w , ."I
..
C O N CU JSI() N
SO LU CiÓN
Para ha cer un a estim ación con un e rror m áxim o admisible del 3% y un nivel de confianza del 95%, se req uiere una muestra de 865 person as, 614 reside ntes en zonas urbanas y 25 I de zo nas rura les.
A part ir del enunci ado obtenemos los siguientes datos:
120
N = 879.502 n :::: 865 ZO/2 =: 1,96
121
13.5.2. Error típico
n a los cálculos utiliza rnos la siguiente fórmula:
La varianza del estimador de la propo rción se obtiene como variaci ón d e la fórmula genérica de varíancla del estim ado r (13 .S) . La lógica de la afilacíon óp tim a -mayor representación a los estr atos m as hete rc g éncos- alte ra la fórmula genérica .
. ±zun
.';). llamas primero la proporción d e la población:
" =0,7 1 • 0,3 + 0,29 ' 0,38 =0,32 U""'"
(13 .15) N
ree m plaz ar los valores en la fórm ula, debemos primero calcular los datos
irallen ar cost a Tab la:
La raíz cu adrada de la varianza es el error t ipico. W.P~q.
Vrb. nl
0,149
13.5.3 . Tam aiio de la m uestra
R'Jnl
0,. ...
El calculo del t amañ o de la muestra en afijaci ón óptima de varianza se realiz a minimizando una fun ción tal que los valores de n~ hagan mínima la varianza del esti m ado r prefijado el ta m a ño n de la m uestra. La af ij aci ón de varian za m ínima pJra un n dado implica cu mplir con las dos condicio nes siguie n tes.
TOlal
,
..r,. ..p.q . "' 0.217
iplazan do :
min(~
11,32 ± 1,96 32 ± 0,03
( ,J ,29; 0,35) ~l.US10 N
j
) 15% de co nfianza pod emos afirmar qu e el po rcentaje de personas di spuesta s w--ptar u n gobiern o autoritario en caso de crisis ec onó mic a esta compre nd ido e,c 29% y 3 5%.
LJ . Afija ció n óptima de varianza o:
J
Para encontrar el mín imo se utiliza el m étod o de m ult iplicadores de Legrange. Operando elgebratcamente e n la siguien te expresión se pu ede ca lcular e l tamaño del estrato h .
(13 16) El min imo se obtiene der ivando la expresión respect o a los n h estratos e igualando a O cada una de las derivad as. Operando algebraicamcnte se obt ie ne la fórmula del tam año de cada estra to fl h que satisface la rest ricc ió n preestableci da
1. Estimación de la proporci ón
»porción rnuestral se calcula como una proporción ponderada. Corresponde suma po nderada de las medias de los est ratos por sus respectivos pesos.
(13 .17)
,
..,
( = ,¿w¡, P¡,
l.
= Pro po rción del est rato h-ésirno
• = Peso del est rato h- éslm c
(13. 14) Razones de exposici ón aconsejan presentar la fórm ula del tamaño n de la muestra a partir de la ec uació n b ásica. A sabe r, despejand o el e-rror m áximo ad m isible.
e=
zofl o~
(13 .16)
SoLUCIOS
A partir de l e nunciado obten em os los datos:
N = 104 .335 e = 0,03 %0/1 = 1,96 Para los cálculos u t ilizamos las siguie ntes fórmulas: despej ando n
( 13.19)
D onde : = Error m áximo admisible
= Coeficien te de co nfianza asoci ado
a nivel de confianza
= Tam año del estra to heési mo = Varianza
Para reem plazar los valor es en la fórmula, debe mos primero calcular los datos
del estr ato h-ésim o
y llenar esta Tabla :
N.
-.
IV Se quiere m edir in tolera ncia religiosa en tre escol ares. D ado q ue se espe ran resultados distintos para est udiantes de colegios cat ólicos de aq uellos qu e asisten a colegios laicos, se utiliz ar á una m uestra est ratificada. A su vez, tomando en c uenta q ue en estudios anterio res se ha observ ado una ma yor homogeneidad e nt re est ud iantes de colegios cató licos q ue entre est udiantes de colegios laicos, se decidió utiliza r u na afijación óptima de varianza. Se fijó co mo e rro r máximo admisible 3% y nivel d e co nfianz a 95%. En la Tabla sigui ente se observan los tamaños de cada est rato y sus respect ivas varianzas {o btenidas ést as de en cuesta piloto): N. CoI~'gim caróhc os
CoI"giosI¡icos
Tat. 1
w¡"r¡;¡¡;
O.'"
0,16
0,34
CoI"gios Oltólicos
P ROBLEMA 13
"'¡P1q¡
0,66
CoI"gios l¡ icos
, V ", = / ,
,
..- . ..,
Tobl
L III, P. 'l . = O,N
Cálculo del pe so de cada est rato: 1lJ I
= ~5. 2 1O = O 34 104 .335
'
q.
35.210
P. 0,35
0,65
69.125
0,45
0,55
104.335
124
0,16
125
,
..,
0,33
L III. ~ .. 0,49
-.
N.
0, 24
104.335
ColegIOS católicos
35.ZIO
Colegiosla;cos
69.125
Tonl
IOU 35
~
0,55
0,66
0,39
0,61
, ~ ",. =I .,
n = 101 5
'.
0,3 ~
P. 0,45
SOLUCiÓ N
'ro ra distribuimos el total de la m uest ra en los estra tos:
A partir del enunciado obtenemos los siguie ntes datos:
N = 104.335 n =1.01 5 Zon = 1,96 Para los cálc ulo s utilizamos las siguientes formulas:
~ O ¡.J C I.US I () :-l
A
un a esti mación con error máximo admisible de 3% y nivel de confianza 95%, se requier e un a muestra de 1.01 5 estudiantes: 338 de co legios católicos .' 677 de colegios laicos.
,.:
..,
P = r.wJ\
,J .SA. lnterva ío de confianza ~ .. fórmula del intervalo de conf ianza es un a variación de la fórmula genérica
apeada al caso espec ifico de la esti mación de proporciones med iante a fijeci ón "o ti m a de var ianzas.
Reemp lazando en la fórm ula se obti e ne para afijactón óp tima de propo rciones siguiente expresión.
p ± z..n 0_:=-
_
(13.20)
Primero calc ulamos la propor ción de la po blación:
p = 0,34 ' 0,45 + 0,66 ' 0,39 = 0,4 1 Para ree mplazar los valores en la fórmula, debemos primero calcular los datos
para llenar e-sta Tabla:
-.
( 13.21)
P :t: Ztú]
n
O,H
Col egios católicos Colegios lsicos
14 "oltcada la encuest a sobre intoleran cia religiosa en colegios, se qui er e est ima r a proporción de est udiantes qu e opina n q ue no se puede con fiar e n una perna atea . Para esto se construye un int ervalo de confi anza qu e p ermita inferir 'a población . En total son 104.33 5 los estudiantes de colegios de la región, le los cu ales 1.0 15 fueron enc ues tados . Se fijó pa ra el inte rvalo un 9 5% de nfianz a. En la Tabla siguiente se observan los ta maños de cada est rato, los pesos (calui ados en el eje rcic io anteri or) y las prop orciones observadas: OHl.EMA
126
,
¿ w,""
Tohl .
Ree m plazan do: 0,4 1 ± 1,96 0,41 ± 0 ,03
(0,3 8; 0,44)
0,66
s-r
,
..,
",. p,q.
w.vP.q.
0,08
0,17
0,16
L w¡P. q. = 0)4
,
..,
0,32
L w.';P. q. ", 0,49
CoN CLUSION
Donde :
Co n 95% de co n fianz a podem os afirm ar q ue el porce ntaje de estudia nte s que opinan que no se puede confiar en una persona ate a está comprendido entre 38% y 44%.
e
:=
n~
l 3.6. Afijación óptima de costo
costo total
c~:= costo del estrato
h-esímo = tamaño del est rato h- ésimo.
La expresión a minimiza r se present a a continuación .
D.G.1. Estimación de la proporción (13 .24)
~ I cálculo del estimador de la pro porción po blacto nal se ob tien e co mo res ulta do
ponderar las p ro porc iones estrat alcs po r e l peso de los est ratos. La fórm u la c rrespoode al procedimiento de pon deración en muest reo estrati ficado.
1("
p -=
,
..,
L WJ'~
(13.22)
n~ = n ·
p~ "" Proporció n del es trato h- ésímo w~
El mínimo se obt iene derivando e igual ando a O. Resolviendo algebratcam cn te se obtiene la fórmula de n h que satisfa ce la restricció n dcfinída
"" Peso del estrato h- ési mo
w,r, a, ~~
(13 .25)
L~!k -'!~hl
"fC¡¡
1.6 .2 . Error típico var ianza del es timador de la propor ción e n afijaci ón de costos es una ad ap -i ón de la fórmu la gen éri ca a la lógica de incluir el costo como n ue vo dat o. em p lazando en la fórmula genérica se obtiene la sigu ien te expres ió n .
d P'"''
~, Nk,¡p;¡r"yc; /IN]
-<.
-..!!.~,,!~qk
(:,..7;
t
Pkq~
Nk N)
Result a ilustrativo deducir la fórm ula del tamaño de la muestra a parti r de la ecuació n b ásica y ejecutando las operacion es algeb n cas co rre spondie ntes. (13.26)
(13 .23)
-rro r t ípico es la raíz cuad rad a de la varianza .
5.3 . Tama ño de la muestra una ño de la muestra en afijaci ón óptima de costos se obtiene aplic ando el odo de multiplicadores de Lagrange. El pro pósit o es en contra r los valores
[ 1327)
, hacen m ínim a la varianza del estimador co n la rest ricción e "" Lc~n~ . ,..
Donde: e
='
Error máximo admisible
Zun. = Cocficlentc de co nfianza asociado a nivel de confi anza
N, 128
:=
Ta m año del estrato h -ésimo
"a
Ph (ji,
::
Varianza del estrato h-éstmo
iV :: -N. • N
15 . estudia homo fob¡a en una región. D ado que en la región existen com unas -n niveles econ ó micos muy variados y con costos di sím iles en la ap licación e las encuestas, se ha decidido utilizar un muestreo estratifi cado co n ahja cidn ,.tim a de costo. Antes de aplicar la encuesta es necesario definir el tamaño 'total de pe rsonas mayores de 18 anos que habitan en la región a estudiar ; 540.3 48 . Se fijó co mo error máxi mo ad m isible 4% y nivel de confianza de J%. Dado que no se conoce la varianza de estos est ratos, se asume la máxima )sibk esto es 0, 25. En la Tabla siguiente se observan los tam años de cada est rato, sus respectivas rrianzas (obte nidas de estudios anteriores) y cost os: " OllLEMA
Para reemplazar los valores en la fórmul a, debemos primero calcular para llen ar esta Tabla: w,
p.q.
sao
0,1
C1
0,36 0,42 0,12
0,25 0,25 0,25 0,25
e3 DE
,
-..1M" .¡c;
WJ!.'ll
0,\
11)()
0,025
0,5 0,5 0,5
90 90 95
O,1O5
0,09
"'J.q,
.¡c; -
0,00025 0,001 0,0012
vc:
Wl'¡¡¡'¡;
5 16,2 1 ~,9
o,oom
l ~'
0,03
Cálculo del pe-o de cada estrato:
:: 1
IV J
_ 194 .5Z.L = O 36 540 .348 '
= ~P·05'L
540 .348
:: O42 '
OLUClÚN
. part ir del enunciado obtenemos los datos:
N :: 540 .348 e :: 0,04 Z'.J 2 :: 1,96
Reem plazand o:
45 8 · O0055 J..;: _ . _ _ 004 2 o' 2S - '- - + 2 1,96 540.3 48
n
:: ~
ara los cálculos utilizamos las siguientes fórmulas:
~
n :: 604 Ahora distr ibu im os el t ot al de la m uestra en los estratos:
000025 0,00277
n :: 604 · - '- -- ·· :: 55 I
I1n
;¡~~
0,0005 0,002 0.00233 O,O::O íJ2
SJ , 2) !J'lq.=O,25 i*?~ o ooJ77 ±w,¡r;q;.¡c;= 4S8 r5.~ 0005' ." c. , "Ói:) . 'l ' ' .-,.¡r, , .,'
ro'" Lw.-"l
IV
w.v'P. ~.
.
-604 '
'1
1-
SOLUCION
0, OO L:::: 2 18 0,00277
A p artir del enunciado obtenemos los siguien tes datos:
n - 604 • -il.OCn 2_ :::: 262 n 4
N = 540.348 n = 604 znn = 1,96
0,00277
J -
= 604 . _O~}l = 70 0,00277
Para los cálculos utilizamos las siguientes fórm ulas:
,
C ON CLUSION
Para hacer una estimación con 95 % de confianza y error de 4%, se necesita una muestra de 604 personas, SS ABe 1,2 18 C2 , 262 C 3 y 70 DE .
p=
...
~ w.
p.
13 .6 .4 . Intervalo de confia nza La fórmu la genérica de in te rvalo de con fianza es el origen de la fórmu la utilizada para const ru ir el intervalo en afije c i ón de costos. Operando algebraíc em ente en (n.5) se obtiene la siguiente expresión.
Pan reem plazar los valores en la fórmu la. debemos primero calc ular los da tos para llen ar est a Tabla:
(13.28)
(13 .29)
ABCl
C2 O
DE PRO BLEM A
P.
v'Ni:
0,13 0,16 0,18 0,21
0,36 0,< 0,42 0,46
Luego de aplicada la e ncuesta sobre homofob ia se quiere sabe r la p roporción de pe rsonas mayores de 18 años q ue est a de acue rdo con la prohibición a homosexuales pan contrae r matrimonio. El total de personas de esta región es de 540.348, de las cuales 60 4 fue ron encuest adas. Se quie re crear un intervalo de confianza al 95%. En la Tabla siguiente se obse rvan los ta maños de cada estrato, sus propo rciones obse rvadas y costos:
'.
'.
N.
P.
55.420
0,15
0,85
IO.CXXl
C2
194.577
0,2
0,8
8.1 00
C3
227.06-4
0,23
0,71
8.100
DE
6] 287
0,3
0,7
9.025
ABCI
Total
540.34 ~
132
,
'.;
N¡./f•
~ K-
1.995.1 20 7000 72 85 81019,2 2.765.64 1,9
I N,..1flf. V'.:2QJ4gm,1
Total
16
100 00 00
ss
N,.,¡p;a;:
N.'¡¡;¡;~
K
7~,6
\':19,51 864,79 1.059,63 306,44
t..'
,
31. 132)2 40871 ,52 13.290,27
YM : 2.430,37 l.,.,N,M .: 9H :l8,71 .¡r;
N •
Ree m plazando:
p = (0, 1 • 0,1 5) + (0,36' 0,2) + (0,42 ' 0,23) + (0,1 2 ' 0,3) p = 0,22 20.348. 553 , 1 ' 2 430 37 022 1 9 '" , ±, o -604 . 540 .34Sf . , -
92.498, 7 1 540 .348l
0 ,22 ± 0,03 (0, 19;0,25) C ONCLUSION
Con 9 5% de confia nza pode rnos afirma r que el po rcentaje de pe rsonas mayo res de 18 años que esta de acue rdo con la prohibición a homosexuales para cont raer matrimonio se en cue ntra entre 19% y 25 %.
l:n
Capitu lo 14
Muest reo por conglomerados sin sub muest reo. Igual tamaño
El muestreo por conglomerados presenta dist incion es im port antes respecto a los diseñ os aleatori o sim ple y est ratíficado. Un a caracte rístic a distintiva dice relació n con la naturalez a de los conglomerados. Un conglomerado es una unidad de mu estreo compues ta po r dos o mas ele mentos de la pohlación . En mu estreo por conglome rado s la inferencia 110 se realiza a partir tic la observa ción directa de los elementos q ue co m pone n la población. En efec to, la un idad de muestreo es el conglomerado y éste est.i com puesto de d0S O más elem entos. Los ele mentos q ue componen los conglome rados so n heterog éneos y los c.:mglomerados son unidades de muestreo parec idas entre si Para generar co nglome rados se requiere de una varia ble que agrupe los eleme ntos en grupos compuestos por ele m entos con p untu aciones di stintas. Por ejem plo, para estu diar con sum o de sustancias stcoac t tvas en una un iversidad se puede establecer qu e cada cu rso es un conglomer ado e n el e nt endido qu e en cada uno de ello s h ay di stintos valo re-s en el indicador de co nsumo. Nót ese q ue el r37.onam it"nto para la co nstitución de co nglomer ados es inverso al utilizado para generar est ratos. Los estratos está n co mpuestos po r eleme ntos parecidos y los conglome rados por elem entos disti ntos en la variable medida. La lógica que subya ce al m ue streo por co nglom erados se suste nta en el hecho que todo s los cong lomerados son pareci do s y, en consecu enci a, resulta razonab le elegir sólo algun os de ellos para obtener los valores qu e permitan inferir a la población . En el limi te, si todos los conglome rados son igual es es suficie nte sef ..ccionar sólo uno para est im ar el parám etro poblad ona!. Una ventaj a del m uestreo por conglome rados es q ue no se requiere de un mar co muestra ! q ue incluya a todos los elementos de la pobl ación . En efecto, sólo es nece sario disponer de l Hstado de elementos qu e cornponeu cada co nglo merado seleccio nado para conform ar la muestra. En el ámbito del mues treo po r co nglome rado s cabe diferenciar e nt re conglom erados sin submuestreo y co n subm ucstreo. Est a distinción es relev ante, dado que la realizaci ón de subrnuestreos en los conglo me rados da luga r al muest reo po r et ap as. El conglomerado sin submuestreo se conoce como co nglomf"nldo e n una e ta pa y se ca racteri za porqu e se seleccionan t odos los eleme ntos fluC componen el conglomerado elegid o.
IVi
Segú n el nume ro de eleme ntos cabe distin guir e nt re co nglom e rados de igual Iísunto tamaño. N orm alme nte los co nglomerados ser án de d istinto tamaño. r -je m plo, serán conglomerados de distin to tam año las ciudades de un país, n -anz anas de un a ciudad o las vivien das de las manzanas. Los conglo m erados igual núme ro de eleme n tos no son com unes, sin embargo, pe rmiten ilustrar uso de las fó rm ulas e introducir en la com plej idad del m uest re o po r co nglo erados de di stinto t am año. U n eje mplo de co nglo merados co n m ism o nú mero ele mentos so n los cig arrillos en cajet illas. Desde ot ra perspectiva se distingue e nt re co nglo merados na tu rales y de áre as. 1 conglom era do na tural p uede ser la su cursal de u n banco en la q m~ se est udia isfacción laboral y co nglomerado por área es un a zo na censal do nde se inda ga pe cto a co nsumo de t e le visión . El presen te capítulo t ra tará del dise ño po r conglome rad os sin submuestreo co nglomerados de igu al ta ma ño. "
Para eje m plificar gr áfica m en te lo q ue se e nt ien de por unidad d e m uestr eo se prese nta e n prime r tér m ino una población o rdenada en co nglo me rados y, po steriorm e nt e, un subconjunto de conglome rados elegidos. N ótese que no se re aliza sub mues treo, dado que se seleccio nan todos los ele m entos en cada con glome rado ele gido.
Gráfico 12. Selección de conglomerados- Tama ños iguales. Sin sc bmcestreo Población de K '" 9 conglomerados
L1. Selección de las un idades de muestreo m uestreo por co nglome rados puede ser la única alte rnativa via b le de selecci ón obabil¡..tica e n co nd icio ne s de m arco muest ra] defectuoso. Por ej em plo, q ue incluya el listad o de t odos los elementos de la poblaci ón. La división de la poblac ió n e n conglo merados de elementos d e los cuales ..e cccio nan sólo alguno ..de éstos perm ite disponer de un marco m uest ra! referido o a los co nglomerados e leg idos. En cada co nglom erado q ue com po ne la muestra la selec ción de el ementos realin mediante muest reo aleatorio sim ple. Establec er el número ade cu ado de conglomer ado s para m a xi m izar la preión y mi nim izar el costo no es tarea fácil. Lo, experiencia e nse ña que pocos rglomcradcs co mpu es tos d e muchas un idades presenta n la ventaja d e la sencoz y el costo, sin emba rgo, res ultan m e nos p recisos qu e un nú m e ro mayor de rglomcrados mas peque ños. D efinir en forma inequívoca nú mero y t ama ño de los co nglom erados e n una raci ón co ncret a no siem pre es sencillo. Eleme nt o centr al p ara una adecuada i nic lón es co nsta ta r qu e la vari anza dent ro de los co nglo merados es alt a y la la n za e nt re conglom er ados es pequeña. N ót.. "e q ue e n m uest reo por conglom e rados una u nidad pued e SN un con mer ado y e n otr a aplicació n est a puede se r un elem ent o. Por eje mplo, una ienda en Ull est udio sobre consum o de televisió n pu ede ser un conglo merado -dc los elem en tos son las pcr vunas y la m ism a viviend a en U1I es t ud io de caad de los co nd uctos de gas p uede ser un ele m e nt o dond e los conglome rados L las ma nza nas. En gene ral las un idades d e m uestreo asum e n distintos p apel es en función diseñ o de muestras en ej ecución . Una ciudad pue de ser e nte ndida co mo un rglom e rado de ma nzanas o como un elemento e n una muestr a de ciudades.
136
Muestra de 11 '" 3 co nglome rados
13 7
14.2. Precisión de la estimación general el muest reo por conglomerados es ma s económi co respecto al muesaleat orio simple por ah orro en la configura ción del marco o en la sele cción le las un idades ultimas de muestreo. Sin emba rgo, la precisión normalmente es .nor por la tende-ncia nat ural a ma yor homogen eidad de los elementos de ntro ¡' cad a conglomerado. La pr ese ncia de homogeneida d de elementos dentro Ie cada cong lomerado da lugar a una varianz a del estimador superior a la que __ _respo nde al muestreo aleato rio simple. . Para medi r la homogeneidad den tro de los conglomerados se utiliza el coefi-v-r.re de correlación int racon vlorne rado rho (p). Un valor positivo expresa que L., e~e meJltos den~ro del conglomerado son similares. En t ér m inos de varia nza )!lea que la varianza dentro de los conglomerados es menor que la varian za -vre con glom erados. En virtud del proceso de agrupación en con glomerados el 'e.or de p será normalment e positivo. El coe ficiente intrac onglomerado p será negativo cuando los elementos dentro 1" cad a conglomerado presenten mayor dispersión que la obtenida median te 11 ' 1~~streo aleatorio simpl e. En tal caso las medias de los conglomerados ser án rilares ent re si. En té rminos de varianza implica que la varianza dentro de -glo merados es mayor que la varianza entre conglomerados. l;a varianza dent ro de conglomerados m ide la dispersión de los valores del gtorner ado respecto a la me dia del conglomerado corres pondiente. Se designa
i
'0
10
La pob lación 1 presenta mayor dispersión de ntro de los con glomerado - y menor variació n eutre las me di as de los con glomerados. Nótese qu e los eleruontos den tro de cada co nglomer ado son mas distintos que la heterogeoe ídad de elementos que se obtendría me d iante selec ción alea toria . En cons ecue ncia, el diseno por conglomerados resulta más cficícnte que el mu estreo aleator ío sim ple. Los valores del coefici e nte p correspondientes a este ejemplo se rán neganvos. La población 2 presenta may or d ispersión en tre los conglomer ado s. dado que los conglomerados de nt ro de sí son relati vamente homogéneos. Los elemen tos de cada conglomerado son más parecidos que los que se obtendrían mediante selección aleatoria. En consecuencia, el diseño po r conglomerado resul ta menos preciso que el mu estreo aleatorio sim ple. Los valores del coe ficiente p obtenidos de estos datos serán posi tivos. El coeficie nte p puede asumir diversas expresiones siendo una de las más sencillas la q ue se presenta a continuación.
[(11 - 1) \-IS¡ - nS':] p =-. . _ - _. (n -l) ¡·vtSb+ n (M -l) S ~
(1 4.3 )
A modo de refer encia se pueden est ablece r las siguient es desigualdades. p > O más preciso el muestreo aleatorio simple p < O más preciso el m uestreo de conglomerados p ::: O igual p recisión amhos muestreos
S; .
14.3. Conglomerad os de igual ta maño (14 .1) .. varianza ente conglomerados m ide la dispersión de las m edias de los conglo«dos respecto a la media general. Se designa como si.
(14.2) Ira ilustrar el com portamiento del coeficiente p se presentan dos poblaciones - tres conglomerado s cada uno. Población 1 Conglom.:rado 1
150
Conglomerado 2
130
Co nglomerado 3
160
300
Todos los conglomerados pueden tene r el mismo número de elementos. No es común en la investig ación mediante encuesta. Si ade m ás no hay sub mc cst rec se trat a del m uestreo por cong lomerados más simp le. Cabe d esta car qu e los conglomerado s que participan en 1:J mu estra son seleccionados e n form a aleatoria. Los elementos dentro de cada conglomerado ta m bién .
14.4. Notación Para caracterizar la es truct ura del muestreo por cong lome rados sin submuesrreo es prec iso est ahlecer una nomenclatura de identificación.
14 .4 . 1. N otaci ón poblaci ón
Población 2
500
148
150
152
290
480
l37
140
143
310
510
153
155
158
Los conglomerados se distribuyen del siguiente modo e n la población . Primer conglomerado de tamaño M I Segundo conglomerado de t am año M!
Conglomerado genérico I [ de tama ño M H C onglomerado último de ta maño M L Los demen t a s se distribuyen del siguiente mo do en los conglomerados de la pob lación Elemento s del p rime r conglo me rado XII X l l ", x li ",x l Elementos del segu ndo conglomerado x j l »» ...x ¿, " ,xl
Elementos del conglomerado H Elementos del conglomerado L
XIII
X
xm . "
,vI I
Media del conglomerado h -ésirnc
,v12
X lli . "X I I
u X u . . ,xl. i
El calculo de la medía se obtiene como variación de la media arirnetica utilizada en muestreo uleator¡o simple. La medi a muestra] corresponde a un promedio de medias. En particular, el promedio de las medias de los conglomerados La expresión de la media de cada conglomerado y de Id med ia muestra] se present a a continuación.
,'vIlI
(14 .4)
Media de la media de los n conglomerados
,,,x L A1L
(1 4.5)
K= Nume ro de conglomerados = Elemento genérico i del con glomerado genérico h
X l.i
}v1h
'"
,
N úm ero de elementos del conglome rado h - ésimo
M= ,¿M¡, '" Tam año de la poblaci ón hl
,
__ ,¿MI. M ::O~K-- = Tamaño med io d e conglomerado
14 .4. 2. N otación muestra
14.5.\. Errortipico La est ructura de la fórmu la es análoga a la fórmula utilizada en mu estreo aleatorio sim ple con corre cció n par:! poblaciones finitas. Las diferenci as son consecuenci a de la nat uraleza distint a de las unidades de obse rvació n. A saber, en mu estreo aleato rio sim ple se miden elementos y en muestreo po r conglomerados se m iden elementos agrupados en conglomerados. Para evide nciar las similitudes y diferencias se presen ta n ambas fó rmulas. Varianza del esti mador MAS
n = N úmero de cong lomerados de la muestra
m=
Im
10 ,1
m I.
m
h
(14. 6)
= Tamaño de la m u estra
= Tamaño del conglome rado h-ésimo
Varianza del esti m ador Me
tm¡,
= ~~_ ,
n
_=Tamaño
(14.7) m edi o d e cong lo m e rados Nótese que S2 mide dispe rsión de las pu ntuaciones respecto a la media y S2 c mide la dispersión de las medi as de los cong lomerados respecto a la media muestra]. Las fórm ulas siguientes lo ponen en evidencia.
14 .5 . Estimación de la m edia La media muestra! es el m ejor es timado r de la me dia p oblacic nal . Se dem uestr a que posee los atrib u t os de u n bu en estimador: Insesgado, con sistente y eficiente.
140
h x,-x)'
i:I'---.__ n - 1
(14.8)
141
;;. .
P RORl B 4..... 1 7
(14.9)
').2. Tar'l..:lño de la muestra le te rminación del tam año de la m uestra dic e relación con dos factores mdictonantes A saber, número de elementos y número de co nglome rado a . .ccionar. ¿Cuantos elementos y cua ntos co nglomerados? ~ I mod o mas scnctllo es calcular el numero de ele mentos y utilizar el result ado lr
", =n[ I+ (M- I)p]
Se pesquc,a grado de identihcació n de em pleados co n un a institución . D ado que ésta se divide en 6S de part amentos similares ent re ellos, se optó por realizar muestr eo por conglo me rados . Para esto se seleccionó a 8 dep art am entos encuest ándosc a tod os sus empleados . Ap licada un a escala de 1 a 10 se construye un intervalo de confianza para inferi r ide ntificaci ón a Id población . Se fijó un nive l de confia nza de l 95 %. En la siguie nte Tabla se presenta n los promedios obtenidos e n la escala e n cada departamento selecciona do:
"
( 14. 10)
= Tamaño de m uestr a aleat oria sim ple co n precisión definida ¡Ve = Tamaño medio de cong lom er ado s .' = Co eficiente tntracong fome rado
Dep artamento 1
4,3
Dep artamento 2
4,\
Dep artament o S
3,9
[)"lwum
4,5
Deparummto 5
4
Departamento 6
4.2
Departamen to 7
4, \
Dep artamen to 8
' ,7
. ü
'1
SOI.UClQN
A pa rtir del enun ciado obtene mos los datos: - calcul ar el numero de conglomerados sim plemente se d ivide
n< po r
M. K
~ .3.
Intervalo de confianza
= 65
=8 z"l2 = 1,96
11
-ervalo de confianza se est ablece según el mi smo modo u t ilizado en los deproced imientos pro babil ísticos. En co nsec ue ncia, la expresión del inter valo ~ comp uest a de tres t érm inos. A sabe r, d estadístico m ucst rai, el coe f icente nfianza asociado al nivel de confianz a de finido y el error t ipico. o
Para los cálculos utilizam os las siguientes f órmulas:
(14.1 1)
.A. ± z , / K_rJ s?. <
".I2 V K .
tl
'""
t . Yla S:corre!oponde n
(14.12)
a las fórmulas presentadas en los pár rafos ante rio res. Se la med ia muestra! es una media de medias y la varianza es la dispe rsión • medias de los conglom erados respecto a la m edia muest ra]. .1 que
si-
H(x. - x.)' ;'l l d
n
1
Primero calculamos el es tadístico maest ral: -x' _ 4,3 + 4, 1 + 3,9 + 4,5+ 4,0 +4,2+ 4, 1 + 4,7 - 4,2
,-
8
Proporción promedio de los co nglom erados
A continuación se calc ula s~:
-.
D.
1 _ (4,3 - 4,2 )Z + (4,1 - 4,2)2 + (3,9 - 4,2) 2 + (4,5 - 4,2)2
8
Su -
14.6.1. Error típico El err or t ípico de la d istribuci ón muestra! de proporcio nes cum ple la misma func ión que la establecida a propós ito de la m edia. A saber, es un indicador num értco de la precisi ón de las est imacio nes. En virt ud de q ue la proporción es una media en el cont exto de variables dicotómicas se de fine el err or dd est im ado r de la proporción con los m ismos t érminos utilizados a prop ósito de la m edia .
0,03 57
4,2 ± 1,96
y65-8 S' 65 .
0,035 7
s2,.= 0,0357 4,2 ± 1,96
"
,
+ (4,0 - 4,2)2 + (4,2 - 4,2)2 + (4,1 - 4, 2)Z + (4,7 - 4,2)2 8 1 s~=
(1 4.14)
p =~
I
y65-8
65 ' 8 ' 0,0357
( l"
4,2±0,12
=
V~-: ~~ . s';.
( 14. 15)
Donde:
(4,08; 4,32 ) (14 .16) CmolCLUSION
Co n 95% de confia nza podemos afirmar qu e la m edia de ide ntificación co n la inst it ució n, segu n esca la 1 a 10, se encuen tra e ntre 4,08 y 4,32.
14.6.2. Intervalo de confianza La generación de un inte rvalo de confianza para est imar el parámetro poblacional se realiza segun la fórmula deducida de la desigualdad de Chcbychcv. La expresión del intervalo de confianza se p resen ta a conti nuación .
14.6 . Estim ación de la p roporción La proporción es la expresió n de u n promedio en el contexto de va riables di cot ómicas. El cálc ulo de la proporció n m uestral se rea liza segun la mism a lóg ica uti lizada para calcular la media muestra] . Se veri fica -que la proporción muestra! corresponde a una media de las proporciones de cada con glo me rado. En consecuencia, el estimador de la proporción poblacional es una media de proporciones. El cálculo de la proporción de cada conglo me rado y de la proporción m uestra! se presentan a con ti nua ción . Propo rción del conglomerado h-ésirno
(14.13)
( 14.17)
(14.1 8)
s;..
±5:(P.- p,)'
¡,.,
(141 9)
. 1
n PRO BI_F. MA 18
Una em pres a cre ar á un a guardería infantil y necesit a co noce r la proporc ión de eventuale s usuarios. D ado qu e la empresa se divide en departam entos sim ilares ent re sí respecto a lo q ue se m id e, se optó por llev ar a cabo un muest reo po r co nglomerados . D e los 3 2 de par t am en tos qu e tiene la empres a, se encuest ó a 6. A pa rt ir de los result ados se qu iere crea r un intervalo de
144
145
co nfian za par a pode r inferir a t odos los empleados de la e mp resa. Se fijó un nivel de confianza de 95 %. En la siguien te Tabla se prese ntan las proporcion es obse rvadas en cada departamen to:
0,5 5
[Jcp ut. rneoto 3
0,36
I D"ll Hta rnento 4
O,SS
D!opw,; umnto 5
0,'> 7
t Departamento 6
0,56
V
s~=
0,5]
lkparurTlffito 2
_ '\ / 32 - 6 0,) 6 ± 1,96 -32 ' 6 . 0,(X)(}25 0,56
P. Departamento 1
s:.c = 0,00025
±
0, 0 1
0 ,000 25
0,56 ±
1 ,96V~~ ~~, 0,000 25
0,5 6 ± 0,0 1 (0,56; 0,57 )
iOl.UClON
'. partir del enunciado ob te ne mos los datos:
C O::'CLUSIO N
Co n 95 % de confianza podemos afirmar qu e la proporción de emp leados que utilizarían guarde ría infantil est a comp rendida en tre 55%y e\57% .
K = 32 11 = 6 . ZuIl = 1,96 'ara los cálculos utilizamos las siguie ntes fórm ulas:
.\'.
D.
p< = ~-' n
I •
s;.
n(p. - pJ'
. ' 1""'_ ;:-_ _
n
-imero calculamos la proporción de la población:
P. _ 0,5 3 + 0,55 + 0,56 ~ 0,58 + 0,57 + 0,56
0,56
") segundo lugar calculamos S2
~
"
(0,53 - 0,56)' + (0,55 - 0,56) ' + (0,56 - 0,56)'
~
+ (0,58 - 0, 56)' + (0,57 - 0,56)' + (0,56 - 0,56) '
Capítul o 15
Muest reo por conglome rados sin sub muest reo. D isti nto tamaño
Los conglome rados sean éstos natu rales o po r áreas norm almente tendr án distinto número de ele me ntos. Así, por ejem plo, co nglomerados natu rales como salas de clase tiene n disti nto núm ero de alum nos, y conglo me rados de áreas como zonas censales tienen di stinto número de viviendas. Co nglomerados de dist into tamaño suponen variaciones respecto a las fórmu las utilizadas a propósito de co nglo me rados de igual tamaño. La d iferen cia que no es concep tual dice relación co n la mayor co m plejidad de cálc ulos al incluirse tam años diferentes. Así, por ejemplo, e n el ámbito de la infer enc ia las fórmulas del estimador de la med ia y el er ro r típico del estimador son m as co m plejas al considerar para cada conglomerado un tam año distinto . En rel ació n co n el costo se generan incert idumbres relativas al tam año de la m uestra , da do q ue ésta dep ender á del t am año de los co nglo me rados que la com po nga n. La nom enclatura se m antien e adquiriendo relevanci a el tamaño de cada conglo merado ffi h y el t am año promedio de los co nglo me rados -m.
15.1. Estimación de la media La m ed ia muestral es una variac ión de la m edi a aritm ética adapt ad a a unidades de m uestree de disti nto ta maño. r) iversas propuestas respect o al estadístico má s apro piado para estimar el pa rámetro pobladona!. La bibliografía perm ite p rese ntar hasta cinco opci on es. A nuestro juicio el esta dístico que resulta se r el m ejo r est im ado r es el ultimo de la list a ( 15.5). Se ut ilizará e n lus problemas ilustrativos.
(15 .1)
( 15.2)
149
x,., x,..
í r.\ i.
(1 5.3)
Donde:
=~~
.
L (x~ - -xm ¡, ) -'
M
. LX,
Sl
( 15.4)
e
= i-1-
n_ 1
_
~
I m; ¡.l
(1 5.9)
IM~ f.
J:c ..
( 15.8)
( 15.5)
"-'- tA.f~ ,.,
K == Nú mero de conglomerados en la población z<>/1 = C oeficie nte de confianza el == Error máx imo adm isible m == Ta maño prom edio de- los cong lomerados
15.1. 1. Error típico
IS.1.2 ..Intervalo de coniianza
r.a medición de la dispersión se realiza med iante el error t ípico. La fórmula es similar a la utilizada en muest reo po r con glomerados del m ismo tamaño. Nótese {ue la difer encia dice relación con la inclusión del tama ño de cada uno de los -onglom erados q ue compon en la m uestra
La construcción del interva lo de confianza se realiza según la norma propia de los m uest reos probabilísticos. En p artic ular, se utiliza el esta dístico m uestral, el coehcente de confianza y el e rro r típico del estadístico. La expresión del intervalo de con fianza se preseu r.• a con tinuación. (15 .10)
( 15.6]
Ree mplazand o:
Wpuede se r esti mado por msi no se conoce M . ( 15. 11)
(5.1.2. Tamaño de la muestra : 1 calculo del tamaño de la m uestr a e n conglomerados de distin to tamaño LOS rna ope ración más comp leja que la efect uad a a propósito de conglomerados del nisrno ta m año, En virtud que no se conoce el ta maño de cada uno de los distintos -o nglom erados no se puede utilizar la fór mu la basa da en el coeficiente p. Un a alternat iva es calcular el numero de conglo merados. Se presenta la fórnula utilizad a para estos efectos .
"
K'
51
( 15 .7)
(1 5 .1 2)
Dond e: K :::: Número de conglomerados = Nú mero de cong lo me rados e n la m uest ra
TI
_
fM~
M == ..~
"1
= Tamaño promedio de los conglome rados
,.,.Lx, == Tot al de todas las observaciones del h-éstmo conglom erado
PR.08lE~IA 19
Se est udia satisfacción labo ral en un a empresa. Se optó po r un m uestr ee por co nglomerados do: distint o ta maño, ya que la e-m p resa se divide en oficina s con desigual numero de person as. Para inferir al total de los emplead os el promedio de satisfacción laboral se const ruye un intervalo de con fianza. La e mpresa está confor_ rnada por 52 oficinas, para la muestra se seleccionan 10 . Nivel de confianza 9 5%. A continuación se presenta una Tabla co n la información de numero de e m pleados y la puntuación promedio para cada oficina: Olicin.a
N" de empleados
Puntua
M,
laboral total por co nglome rado
Pu nlu K ió!l promedio Silti~fKción
i,
"
ubol'lll
•(x
i
)'
K _ " ) ~t.,,-._--;m_,_ ( KtlMl 11 - 1
ím~
m ::o ~I--
" Se calcul a: Oficina
.\.1.i .
.',
167
4,79
1 . 2
95
5,9-1
3
9
39
4,33
6
21
108
7
21
91
:e. .....
mj
27.889
4 676
78'
"
2.025
5'0
67
H S9
918
4
OS
9.025
UZO
5,14
5
39
1.52]
351
81
3,79
6
108
11,(,(;4
2.268
441
)
91
8 281
2.184
576
8
40
1.600
300
81
9
39
1.521
J-l(l
100
)O
'O
1.600
3:!O
34
i:.M.~. ,., = 7Jl
i r. =69.615 ,.,
i:>.m•., 13.547 ,.,
i:~ = 2.723 ,.,
1
Z8
167
5,96
2
12
"
"
3,75
3
67
16
5
• 8
8
40
4,44
9
10
39
3,90
)O
8
'O
5,00
f Mo '" 151 .,
.,
± x. =7J ]
SO LU C iÓN
A partir del e nu nciado obtenemos los datos:
Cal culamos la proporció n de la población:
K = 52 = 10
1f
: ..n ::O 1,96
Para los cálculos utilizamos las sigu ient es fórmulas: Reemplazando:
i: (x..- xm~) ! = 69.6 15 - 2 ' 4,8 ' 13.547 + 4,8 ,.,
r (x.. ~j;mi = 2.30 1,72 ,., 152
153
l •
2.723
". 196
256
1"':_."
·. '
4,3 :t 1,96
15.2.2. lntl!1Valo de conjionza
2.30 1.72 10 - 1
El int ervalo de co nfianza perm ite in ferir a la po blac ión o rigen de Id mu estra de acuerdo al nivel de confianza est ablecido para estos efectos. La fór m ula se presenta a co ntinuación.
4,8 ± 0,59 (4.2 1; 5,39)
(15.17)
C;-~NCLUS I ÓN
Co n ~5% de con fianza podemos afirmar que el pun taje de satisfac ció n labo ral, una escala 1 a 10, se encuentra en tre 4,2 1 y 5,39 puntos.
e..
(15.1 8)
1-,.2. Estimación de la proporc ión
K -n Kn,'\P
Fl orcced im iento utiliz ado a propósito de u na variable c uantit ativa funciona con uu a variable dico tó mic a que genera proporcion es. En rigo r, la gene ralización del t'. am ie nto realizado con medias a proporcion es es inmediato. De hecho, la est- vctura de la medía muestra es análoga a la de 1.. pr oporci ón mu estra! y la media d~ cada co nglomerado se replica en la proporción de cad a co nglomerado. ( , L:lSfórmulas para la ~ropo~~¡ón muest ra! y la proporción de los conglomer[ 'J S se presentan a conun uacion.
" p¡, LM¡,
{
P = _¡'.'J_~ ,., ~ M¡,
.,
( 15.13)
-
f(",P,-,".)' ,./ n -
1
( 15. 19)
tm~
m=-,.1n-
( 15.20)
Donde: K = Número de co nglomerados n = N úmero de conglomerados en la m uestra
_ i>v,•
M = -~ "k- = Tamaño promedio de los co nglomera dos
0;
(1 5.14)
..
I ,:a, = Total
de t0035 las observaciones del h-ésimo co nglomerado
o.
p
•
~a ~,
= ~ l_
_
m.
20 En una empresa se encuesta p ara conocer la proporción de empleados qu e cam biaría de empleo. Se o ptó po r muest reo po r co nglom e rados de di sti nt o tamañ o, ya que la e mpresa cuenta con oficinas co n distin ta ca ntidad de funcio narios. Se dese a crear un inte rvalo con 99% de co nfianza p ara poder estim ar la proporción a nivel poblacional. La empresa t ien e 3S oficinas, de las cuales se selecc io nan 8. A continuac ión se presenta una Tab la con info rm ació n acerca del tamaño de cada ofici na, y la proporción de personas que conte stó afirmativamente: P RO BLE.\ l A
(15 .15)
, 1), 2. 1. Error típ ico (
~ l er ror t ípico es una m edi da de la dispersión de las proporciones m ucstrales. El
.c. cccpto es el mismo cid error típi co del es tim ado r de la m edia . Se prese nta la ' un...a del es timador, El e rro r típi co es su faíz cuad rad a.
(15 .16)
~"Ik empleados
Oti
S.tisf~L-ción
m.
,' 00 d ~mplo:o
Proporción
~tisf('Chos con el emplee
P.
Se calculan :
1
\O
,
0,40
2
l'
6
0,43
1
r»,
Ofiü1\a
3
12
6
0,50
2
•
8
3
0,38
3
5
15
7
0,47
6
7
3
0,43
7
22
8
0,36
8
l'
8
a l;
•
m¡
",m.
16
'0
100
6,02
36
8'
1%
6
36
72
•
144
3,04
9
24
64
5
7,05
49
105
225
6
3,01
9
21
49
0,57
7
7,92
64
17.
48'
7,98
64
112
1%
s
7
3
0,43
8
\O
11
5
0,45
9
3,01
9
21
49
\O .
4,95
25
55
121
D."'~ '" 52,9g
í ..: '" 317
í.,d,m.'" 710
í m¡a1.628
.tlll." o., 120
í d. " 5)
",
",
\ part ir del e nunciado obtenemos los datos: K
"" 35
11
""
.,
"'
Reem plazand o:
10
z,.q "" 2,58 ;~
uti lizan las siguientes fórmulas:
í (a, - p,,,,,m.) l = 31 7 .,
2 ' 4,44 ' 710 + 4,44 2 • 1.628
fCa,p" ro)l = 7,3808 j./ 0,44 ± 2,58
V :-w:-i2T ' 35 -10 35
7,38 10- 1
0,44 ± 0,05 (0,39; 0,49) C ONCLUSION
Se infiere con 99 % de confianza qu e la proporción de empleados que ca mbiaría de tr abajo corres ponde al intervalo 39% a 49%.
156
157
Capitulo 16
Muestreo por conglomerados con submues t reo
En est e cap it ulo se presentan los muest reos polier ápícos. C aracterís tica de estos procedtmtentos es real izar en form a sucesiva selección de elementos dentro de cada u no de los conglo me rados q ue co m pone n la m uestra . En efecto, puede gene rarse una segunda selección de ntro do:" cad a co nglo merado y una tercera selección dentro de las unidades de m uestreo que componen la segunda selección y as¡ sucesivam ente. En virt ud de lo anterior, se de no m inan muestreos co n submuestro y segú n las etapas reciben (,1 nombre de bict ápico, trie t ápico, etc. El submuestreo pu ede efectuarse den tro de cong lomerados naturales o dentro de áreas. En ambos casos la lógica es la mi sma . La d ijer en cia entre el muestreo mon oet ápicc y po lietá pico se pu ede ilustrar gráficam ente presentando las nni dudes pr ima rias y sec undarias de mu estreo.
G ráfico \3. Muestreo de ccnclcmerados. Monocta ptco y biet áulco
Muestreo por conglomerados I etapa
::.mri"'....;i(Í.. l""fi ro 13 Muestreo po r con glomerado s 1 eta pa
M uest reo por conglomerados 2 etapa.\ Mu estra d~ '1 = 3 conglomerado s
--;'lut"Stra de " == 3 co nglo me rados
ttEBIE
8IEEHE
Med ició n de todos los e lementos Jo" las unidades secundarias seleccionadas
18IE EHE
el co ntex to del muestreo por conglomerados se jus tífica la realización d~ ornuc st rec cua ndo un conglomerado contiene mu chos ele mentos o cuando los -me ntos del conglomerado son similares e ntre si. La obtención de sub.mlles~ s se real iza en cada un o de los conglo me rados que constituye n las unidades marias de- mu estreo. , . Los d iseños com plejos pu ede n conjugar e n un m ismo diseño políet.ipico tintos proced imie ntos de muestreo. Por ejemplo, p rime ra e tap a co nglome ra; y segunda e tap a estratos en cada cong lomerado seleccionado. y, ~n al m t'nte, ecció n de elementos en los es t ratos mediante mu estreo alea ton o simpl e. Para
1
160
refer irse a las un idades de muestreo de cada e tapa se uti lizan los te rm inas uni dad primaria de m uestreo (UPM), un idad secundaria de mu estreo (USf\I), unidad terciaria de m ue str eo ( UT M) y scc estvame nr-, La selección de la mu est ra polierjplca im plica disponer de un marco muestra! apr opiado pa ra cada una de las unidades de mu estreo. El muestreo es jerárquico, de modo que la unidad primaria de m uestr eo contiene a la un idad secundari a de m uestreo y ést a a la unidad tercia ra de mu estre o. Carta cter istica disti ntiva del mu estr eo por e tapas es que el ma rco muestra] de un a etapa posterior se limita solame nte a aquellas unidade s de m uest reo seleccionadas en la eta pa que le ante ced e. Los marco s mu estrales de las sucesivas et apas son independien tes entre si. A modo de eje mp lo, considérese un est ud io de opinión de est udiantes u niversitarios. Las unida des primarias de mu estreo serán las uni versidades del pais. Se seleccionan como un idad es sec undarias las facultades en cada un a de las unive rsidades elegidas. Las unidades terciarias se rán los cursos de cada facultad y, finalmente, las unidad es ú ltimas de muestreo so n los estudiantes de los c ursos elegidos. En este ejem plo el proceso poliet ápíco h a est ado com puesto de cu atro et ap as. Nót ese que se requerirá de marco mu est ral pa ra seleccionar estudiantes de los cursos elegidos en la última e ta pa y no se necesitara el list ado de tod os los est udiantes del un iverso de uni versidades. El diseño de u na m uestra polie t ápica implica tornar cuatro de cisiones de importancia. A, saber, qu é p recisión se requie re, cuá ntas unidades primari as amerita seleccionar, cuá l es el t amañ o ap ropiado de las unidades primarias y cuántas unidad es sec undarias am eri ta seleccionar en cada un idad primaria. Respecto a la selección de unidades primarias, sec unda rles, tercia rias, etc., ca be realizar las siguie ntes ap reciacio nes. El número de un idad es prim arias a seleccionar dice relación con la precisión requerida y con la varianza que se conjet ura corresponde al d ise ño en ejec u ción . Las unidades primarias de m uestreo sue len se-r un idad es natura les y en tal caso d tamaño está p reviame nte defin ido - u níve rstdades, com unas, sucursales de un ban co. Cuand o se t rata de áreas el criterio es definir un idades primarias de tamaño medio, dado que grandes áreas generan dispersión en la selección posterior pe rdiéndose la vent aja de costo qu e otorga la formación de conglomerados. El núme ro de unidades sec u nd ari as a seleccionar dep end e de la variación de ntro de los conglomerados . Si se verifican conglomerados homogén eos pocos elementos serán suficien tes para una satisfact ori a infe re ncia y, po r el contrario, heterogeneidad dent ro de los conglomerados imp lica m ayor núm ero de elementos a seleccionar. Para medir la homoge neidad de los conglomerados se utiliza el coeficiente Rl• . Éste ind ica la p ropor ción de dispersión total ex plicada por la d ispe rsión intraconglomerados. La fórm ula del coeficien te es la siguiente.
Me D
"
(16.1)
" =1 - - -
.
1 ¡; 1
rio ndc:
Varianza en tre conglom erados
i'.¡C D ""i'.1edia cuadrática dentro del conglo m erado S2 = Varianza to ta l
( 164)
los co nglomerados son homogéneos la variac ión ínte rconglornerados sera - -oe rior a la variació n íntracongtomerado y, en consecuencia, el valo r de R2 ~~al~ • Se puede señal ar q ue el sub muesrreo prese nta como ven tajas la necesidad de lfCOS muestrales acotados e n cada etapa y el meno r coste de selección de las .inidadcs últimas -que corresponden a las unidades de anállsis. Las desventajas · .ce n re lación co n menor p recisi ón po r acumulació n de errores en las sucesivas lpa s y la co mplejidad de calcular las fuentes de variació n asociadas a oda -tapa.
16. 1. Estimación de la med ia media muest ra! estimador de la media poblacional se obtiene como promedio las medías de los co nglo me rad os. Se han desarrollado diversas opciones lomo estimado res del parámetro poblacional. La siguiente exp resió n es un estimador sesgado, eficiente y óptimo de ¡J . 1
l~
-M-- l" I M.X:~ - (K n
:t¿, ::O
1
•
( 16.2)
~. ,
• '5. 1. 1. Error típico • 1 varianza de la d istribución m uest ra] de medias co nside ra dos varianzas como -om pon e ntes de la varianza total. La distinción t eór ica fundame nt al ent re m uest reo poliet épico y los dem ás 'ocedimientov de muestreo dice relació n con las dos fue nt es de variación qu e ' .. gene ran e n los diseños policté pícos. Las fórmulas referidas a la variación del . su mador inc-luyen dos t érminos q ue miden cada una de las dos fue ntes de varcíó n. La prim era co rrespo nde a la disper sión q ue existe en tre las medias de los -ttstintos co nglom e rados q ue componen la m uest ra. Se co noce como dispersión . ntr c co nglo merados, I,a segunda fuente de variació n co rre sp onde a la d ispe rsión .sc se produ ce en los disti ntos elementos que com ponen cada co nglomera.lo. " '~ con oce como disper sión d..-ntro de cong lom erados.
( 16 .3)
,c,
Varia nza de ntro de cada conglom er ado
m. - 1
(16.5)
La raíz cuadrada do.' la varia nza es el e rror típico del estadístico.
16 .1 .2 . Tama iio di? la m uestra El cálculo del tamaño de la muestra en muestreo polie t ápico presenta dificultades especiales. El origen de estas d ice relación con las dos fuentes de variac ión que se presenta en muestreo co n su brnuestreo. A saber, variación entre los conglome rados qu e compone n la m uestra y dentro de- los elementos q ue componen cada conglo merado, El núme ro 11 de co nglomerados a elegir y el tamaño m de cada co nglomerado seleccionado depende de los valore, que asu man las varianzas entre y dentro de co nglomerados. La norm a es asignar ma yo res recu rsos a aquella compone nte de la variació n q ue sea ma yor. Así, po r ejemplo, si la dispersión ent re conglomerados es men o r porqu e las medías de los co nglomerados son pareci das e nt re si se seleccionan pocos conglome rados y se asignan m ayor es recursos a la selección de ele me ntos dentro de cada cong lom erado. Po r el contra rio, si la disp er sió n dentro de cada co nglome rado es baja porque los elementos en cad a conglomerado son sim ilares ent re si se asignan ma yores rec urs os a la selecc ión de vanos co nglomerados.
16 . 1.3 . Interva lo de confia nza El inte rvalo de confianza se est ablece segun la fórmula de lo'> tres térm ino '>. A saber: estad íst ico, coc hcicnte de co nfianza y e rror típico
( 16 6) Reem plazando:
K~ (-M O "
l" •. -
LM~x~ ± 1
Z0/1
(I<.K=!.j(-L),¡ 11M2
+ _]~_ 2; MI
" KlvF Jo.,
('!'.c"m,)(",,-) M.
m
(! 67)
Se calculan:
PROIIU::MA 11
En una empresa se mide nivel de motivación . Se apli có un a encuesta con mu estr eo po r conglomerados en do s e tapas. En la e m presa trabajan 4.200 person as, repartidas en 15 oficinas. Se m uestrearon 7 oficin as. Para inferir a los empleados se fijó 95 % de con fianza . En la siguien te Tabla se pu ede observar la cantidad de empleados por oficina, cuántos de estos fueron seleccionados, el promedio de cada oficin a, y su respectiva varianza: 06ci na
~ de empleados
T~nt. oo drl conglomendo
Promedio de
M.
en la mu estra '" .
motiv ación i:~
1
100
z
220
3
20
42
Olicin~
S'
•
5,3
3S
7,5
130
"30
37
10
4
345
69
40
8
5
500
100
45
12
6
' 30
30
31
4,7
7
155
JI
30
6,'
i M.'" 1.720 .,
~M'.(" :~. )( ,!)
Mli l
(M'%I- ,"1,i.1l
4200
659.344
z
2120
7700
60.712,96
6600
3
5530
2190 24
6lXXl
])800
4458 .009,96
11 040
S
22500
30.913.600
24000
6
800(1
220.900
4700
7
4650
361.681,96
4278
I __
1
'"'.1 [M__)[") a " SS.738
~M.i. = 66400
..:.,.M¡
:..::.i-_ Jo
mi
"' ,
Reem plazando:
-
:t',j.
15
6
= 4.200 " 7 " 6.400 ;: 33 ,88
J\1 =l).2ü = 246 A partir del enunciado podemos obtene r los d atos:
'i o 36.~9!} 72~ o 6,148.878,82
M o 4.200 o 15 n =7 zQ/7. = 1,96
K
33,88 ± 1,96
1 J,6. 148.878,82 . 15 7 ,246, (~)(
_ 7 ' 15'1 246" >8.738
33 ,88 ± 5,46
ara hacer los cálculos: Utiliza mos las siguientes f0 ,'!m ""u~I!"LC","'-""",",-!illCSJ!!f!ililL
1i: i . ± Zon
- K _ ( ,\ 1 · n ~'" M
_
(28,42; 39,34) C ON CLU510:-:
Con 95% de confian za podem os afirmar que en la pobla ción la mo tivación de los empleado s, e n una escala de 1 a lOO, está compren dida entre 28,42 y 39,34 . n
164
165
r. 2. Estim ación de la proporció n
PROII I.EMA 12
.\ "ropo rción muestra] com o estimador co rresponde a un p romedi o de las ~ -vor c io nes de los n conglo m erad os q ue com pone n la m uestra. La sigu it2nt e jn nula es un estim ador tnscsgado de l par ám et ro poblacional .
I ( 16.8)
\ (
L z.r. Error típico
t \
varianz a del est im ador de la proporción incluye las varia nzas entre y den tro . J~ co nglo me rados co mo comp on entes de la varianza total.
( n' = pi>
,
,
lvllJe
(K K~ nl(_I~\~r- _J~>±Mi [~ - m.)(NiL] nM
s~
+
lIKi\{-
~~ I
MI.
mI. - 1
(16.9)
es la varianza e ntr e conglo merados
En la mism a encuesta del ejercicio anterior se ind agó respec to a la pro porción de em pleados q ue se sient en va l ()~a dos po r la em presa. En la em presa trabajan 4 .200 pe rsona s, repart idas en 15 oficinas. De ést as se seleccionaro n 7 como pa rte de la muestra. Se qui e re crear un inte rvalo de co nfianza para infer ir lo s resultados a todos los emplea dos. Se fijó 95 % de co nfianza. En la signíente Tsbla se puede observar la cantidad de empleado s por ofici na, cuantos de est os fueron selec cio nados. y la proporció n de ellos q ue afirmó sentirse valorado dentro de la empresa: Oficina
N" d.. . emp leados M,
Tamaño
I
100
2
220
3
,
-,
P,
q
r.q.
20
10
0,50
0050
0.25
05 7
O/IJ
0.25
150
"
25
0,-1)
0,25
) 45
69
"
0,57
36
0,51
O,4>J
0,25
0,41
0,24
30
s
500
100
ss
0,59
6
150
so
20
0,40
0,60
0.24
7
155
31
18
O,51l
O,41
O.14
• .,
( 15.10)
}:M. '" U 20
I e rro r típico es la raíz cuadrada de la varia nza del esti m ado r. A pa rtir del e nunciado podem os ob te ner los siguien tes datos:
( 1..2. Intervalo de confianza
M
( .ucrvelo de confianza para estimar el para met ro poblacíooal se co nform a ~ " 1\ las normas conocidas. Reemplazando e n la fó rmula gen ér ica se obtiene la í',¡jt' llte exp resió n.
=;
4.200
K = 15 /1 :::; 7 z
I (
) .10
±
zun°,.
( 16.11)
[-M~-]i:.'\I¡,P¡, /1
K ). F - --
Pa. = [Xi-;; t:~I~ p~
í Lm p lazando en p : ( (la. =
Util izam os las siguientes fór mulas para h acer los cálc ulos:
(16 .12)
(K-n]( I l ~' - -K
.. 1
i
-
- - ¡ nM
~~- + - l'~2'}; ¡\f
"KM ~~I
(MM~-"J[p" ) m.. - l .:.:.:11.--.:.:..;'
_ A !JI .
{'-mplazendo en fó rm uiJ del intervalo :
( l6 "~ (K K n]( n~l'l,¡ + nK~w2;~\, (M',~.m·](~~i)
(16.13)
.
se ca cu Al' (...
-m'l['.,. )
Ofidn3
M,p.
M~(P.- P..j1
I
50
9
105,6
2
l2.5,4
43'
224.58
3
,
SS,S
22S
154,8
179,4
Z97,56
352,3 1
5
295
3600
'00
6
100
306,25
245
89,9
290,7
1S3,76
i M, r. ; 925,2:
•..l M:íP, - P..f" 5.2: 12,52
7
...
•
í A-f¡ 101
16.3 . Selecció n de unidad es de muestreo en muestreo pol let ápi co
,\-r;- '".- 1
r~ )(J:"1L )'" 1.719,13 MI ,". -1
Reemplaz ando:
15
4.200 ' 7
' 92 5 2 ~ O.4 7 '
52 12,52 _ 86875 7- 1 '
i;'1 "" 1.720 7
= 245,7
0,47 . 1,96
_
~
(15
-))(_ 1__ s
i
7 .245,7
. 1 7 19,13 , ) . 868,75 + 7 ' )5 1'245,72 ·
0,47.0,07 (0,4; 0,54) C O:-JCLU510N
Con 95% de co nfianza podemos afirma r q ue el po n.:entaje.de los empleado: q ue se siente n valorados dentro de la empresa est a co m pr end ido en tre 40 % y ) 4%.
Cabe plantearse el problema de la probabil id ad de inclu sió n de las u nida des de muestreo en cada un a de las etapas de un m ue streo co n su brnoestreo. ¿Que probabilidad d e selección se asigna a cada un idad p rim a ria de m uest reo? ¿ L.a mi sma probabil idad qu e se asigna a las un idades secu ndar ias y siguien tes ? En ge ne ral se presen ta n do s alternativas e n el ám bito del muest reo eq niprobabi lístico. A sa be r, muestreo aleato rio sim ple p.. l AS) con prob abi lidad es igu ales d e selección e n cada una de la s etap as del mu est reo y, p or otra p ar te, u na varian te del muestreo con probahílídadcs de selecci ón proporci onal al t am año de cada co nglomerad o (PPT) . Lógic ame nt e se ded uce q ue el p roced im iento l'P'F gen era u na muest ra más rep rese nta tiva que el MAS. Así, por ejem plo, en un estud io de op ini ón siendo unidad es prim arias el e mu estreo las co m unas del paí s la selección mediant e m uestreo aleator io simple puede e xcl uir de la muestra comunas grand es e im portan tes e incl uir sólo co munas p eq ue ñas que segur ame nte son un nú me ro ma yor. En virtud de lo ant erior no rmalmente se seleccionan las u nidad es p rtmarias de m uestreo con probab ilid ad proporcional al tamaño y las un ida des secun darias d e m ues t reo asume n valores cons ta ntes. Así, por eje mplo, en un m u estreo bi et ápíco se asigna a cad a comuna que es un idad primaria de muest reo un a probabilidad de selec ción pr op o rcional al num ero de el em e ntos q ue 10 co m pone n y e n la seg unda e tapa se sele cciona aleatoriamente el mismo numero de en tr evista dos e n cad a comu na elegida . El uso conju nto ti"" es tos dos p roced imi entos de selecci ón per mi te igualar la s prob abüídades dt: sel ección de las unidades secu nd arias. Es decir, gen e ra u n m uestr eo equíprobabtltstíco de las u nidad es sec un da rias q ue son las uni dad es de an álisis. Nó tese que en principio los el em entos de los co nglome rados gra ndes presenta n mayor p rob abilida d de sel ecci ón que los elementos de los {"o nglomendas pequeñ os, pero en la seg und a etapa se eq u ilibra esta desproporción . A modo de ejempl o, una com una que co ntenga cien mil vivie ndas te nd rá d iez veces ma s probab ilidad d e selección qu e un a com una de di ez mil viviend as Sin e mb a rgo, si ("11 cada comuna se sele ccion a alea toriame nte el mism o n ú me ro de viviendas, e n la com una grande éstas te nd r án 1/ 10 de probabilidad de sel ecc ión resp ect o a la probabilidad de incl u sión de las vivien d as de la com un a pe q ue ña. G e nerándose como consecue nci a de ambos pas os un mu estreo cq uip rcb abilisnco. Se presenta a con tinuació n la probabilidad de selección de una unidad 51:' cundaria como prod uct o de tres términos. Prob~h ihdad
N,'m"'m de
.k 011 dtmento" ronglom.:raJos
168
l(
Tamaño de eoo~!orn('fm -T,;lTLIño de poblxión
l(
EI"mento :i<'!e«iooado por CtVlg!nmerados - - - Tlm..oode CQngiOfl"le(¡J."
Seg úu la fórmula prese ntada, cada ele mento tiene la m ism a probabíhdad de -cción indepe ndie nte del tamaño del conglomerado de pe rtenenci a. \ Resulta evide nte consi derando q ue en la fÓ nOl " .l el t am año del conglornc¡ .-lo figura simultáneame nte en el numerador y denominador. En definitiva, la ;olm uld es una expresión de IJ. fracció n de m uest reo, es dec ir, el cocie nte en tre ~ amaño de la m uestra y el t am año de la poblaci ón. \ A modo de ejem plo, supóngace que se des...a una mu estra eq uípr ob abl.... en una comun a q ue tiene 500 m anza nas y 50.000 vivie ndas Se decide selec cio nar 100 ~ oz anas con probabilidad de selección proporcional al ta m a ño y 10 viviendas i cad a manzana elegida. >'::...
Capitul o 17
Otros diseños probabilísticos
17.1. Mu estreo sistemático
(
l u.Ll . Conglomerado de tamaño grande (
J 'la ma nza na con edificios esta co mpuesta de 200 viviendas. La probabilidad de L :'-cció n de cad a unidad primari a y sec unda ria se calcula a co ntin uación. t "idJJ prim aria de muestreo •
100 (numero de co nglome rados ) ' 200 (t amaño del conglomerado) j 50.QlX) [t amaño de la población) .
0,4
~ llidad sec undaria de m uestreo 10 (viviendas por con glom e rado ] • 200 [tamaño del conglomera do) = O,OS t )bah ilidad selección de unidad secu ndaria
(
0,4 ' 0,05 = 0,02
1_.3.2. CotlglomeraJa de tamaño pequeño
~ ••a ma nz ana de casas est á co m puesta de 40 viviendas. Se calcula probabilidad ( selección de un ida d primaria y secundaria.
~llidad primaria de m uest reo /00 (número de co.~gl om erad05) ' 40 (tam~~o del co nglome rado) _ OOS 50.000 [tarnaúo de la población] , idad secundaria de muestreo
10 (vivie ndas por ("onglorne rado) ' 40 [t amaño del conglom erado) = 0,25 ( " babilidad selecc ión de unidad secundaria
(
O,OS ' 0,25 = 0,02
;... verifica q ue en las ma nza nas de edificios y casas la prob abil idad de selección
k vivien das es igual.
El muestreo sistemá tico es una variante del mu est reo aleator io sim ple q ue se rem onta a mediado s de los años -t0. Desa rrollad o por L.H . Madow y M. G. Madow ( 1944) y WG. Coc hran ( 1946), tien e el m e rito de permitir un a senci lla selecci ón de los elem entos que componen la muestr a. Se simplifica la selección po rque siendo est a aleatoria es t am b ién sistemática. El azar opera e n la selecció n según un modo predefinido. El procedim iento de selección es siste mático a pa rt ir de un element o elegido al azar qu e o pera com o arra nque aleatorio para la selecc ión autom át ica del conju nto de elem entos que co m po ne n la muestra. El primer elemento selecc io nado condiciona los siguien tes, que son elegidos a pa rti r del arra nq ue aleatorio y segú n un salto de amplitucl cons tan te . La selección sistemática implica UII núm ero de arranque y un in tervalo de muestreo. De fi nidos ambos la muestra queda au tomáticam ent e establecida . Desde el punto de vista operati vo se procede s..gún las sigu ie nt es etapa s. G e ner ar un número de arra nque aleator io. El num ero de arranqu e sera un valor i q ue est ad co ntenido en el intervalo con co ta inferior 1 y su pe rior igua l al valor del coeficien te de elevación (N/n). Este elemen to será \., primero q ue compo ndr á la m uestra. Seleccionar de modo sistem átic o los siguien tes elementos a k distancia del punt o de arranque aleato rio. El valor k co rresponde N/n . En consecuenc ia, se establece la siguiente sucesi ón a part ir del primer eleme nt o i , i-ek, i+2k, i+3k, ... .i+( n-l }k. El procedimie nt o es sistem ático porque se van selecc iona ndo elementos que están a k lugares del i- ésimo de la lista Por ejemplo, sea N= l ,000 Yn= 100 el valor de k co rresponde a 1.000/ 100== 10. El p unto de ar ranq ue aleato rio se rá un valor comprendido en t re 1 y 10, Su pó ngase q ue al azar se: selecciona el num ero yLos valores que com prende 1;1 mu estra serán los siguie ntes: S, 15, 25, 35, 45, 55, 65, 75, 85, 9 5. N ótese q ue se hall seleccionado 10 n úm eros q ue correspo nde e xactamente al tamaño de la muestra. C abe destac ar q ue en c iertas circunsta ncias e l m uestreo sis te mático puede ser mas represen tativo qu e el m uestreo alea torio simple. En efecto, el muestreo sistemático asegu ra saltos sistemáticos, de m odo q ue ningún in tervalo amplio
.
le eleme ntos q ueda sin re presentación. C uando e n el listado de la población .xís ten sucesion es de ele mentos ho mogéneos en relació n co n un at ributo, la pl íccció n de muestreo sistemático gene ra muestras m ás represe ntativas q ue el ISO de muestre o ale ato rio simple. Su pó ngase una població n de 50 elemen tos . un a mu estra ale atori a de 5 e lem entos. Un resultado ale atorio es 33, 42, 28, O, 30 . En esta muestra las dos primeras decen as no tie nen representació n. Sin mb argu, mediante selec ción siste m át ica co n k= 10 Yarran q ue aleat o rio i"A, los alores que co mponen la muestra serían 4, 14 , 24, 34 ,44 . Se evide ncia que en cdes las decenas u n elemento p art icipa en la muestra . Sin em barg o, cuando en el list ado de elem en tos existe un a racha y ésta tiende coi ncid ir co n el valor de k, el muestreo sist em átic o genera sesgo, result and o renos represent at ivo que el muestr eo alea torio sim ple. En defini tiva, c uando I perioJicidad es igua l al valo r de k el m uestreo siste mático es prácticamente uplícablc. Supóngase una población de N=60 elem entos co nst it uidos por valores ue conforman un periodo de cuatro. A sabe r, 2, 5, 1, 7 .... 2, S, 1, 7. Una muestra sterná uca n=15 ele mentos da lu gar a un valor k=N /n=601l 5 =4, lo que genera na muestra const ituida por el m ismo n úmero repetido 11 veces. Un ejemplo -al sucede si se dese a estimar el núm ero de visitantes a un museo e n un m es. Ha estos efec tos se m uestrea n ciertos días. Si los d ías sele ccionados tie nen un atrón que res pond e a u n interv alo de siete d tas siempre se m uestreará el mis mo la generando una m uest ra sesgada En general si la d istribución de los ele mentos de la pob lación es al aza r, la -ectst ón de la selecció n sistematica es similar a la selección aleatoria sim ple. En muestreo siste mát ico puede suceder que N sea m últiplo de n o que no sea. C uando no 10 es las mu estras no tendrá n tod as el m ism o tam año. El valor ~ 1\ co rresponde rá al númer o menor q ue m ultiplicado po r k sea m ayor q ue N . ) f ejemplo, sea N= IOO y k=9 h abrá de las nueve m ues tras posibles ucho de maño 11 y una mayor de 12 elem entos. El número de m uestr as posibles es mucho m en or qu e las q ue gene ra el m ues-o aleatorio simpl e. En el ejemplo sólo hay 100 pun to s de arr anq ue aleato rio, en nsecuencia. sólo I00 muestras posibles.Valor este m uy injcrior a la combinación
f
~:1qtle es el número de muestras generado en la selecció n aleator ia sim ple.
C abe destacar que el muestreo sistem ático se suele utilizar en el conte xto diseños por etapas donde este es sólo un a e tapa de la selecció n de la m ue stra. ;i, por eje mplo, siendo las unidades primarias ciudades se puede generar un a ccción sistemá tica de zo nas ce nsa les dentro de las ciudades y,pos te rio rme nte , ec ci ón siste mática de viviendas en las zon as ce nsales eleg idas. En m uest reo sistemá t ico e l es ti ma dor d e la m ed ia y la proporción es un .imadc r ínsesgado del par ametro poblacional. Sin e m bargo, f'1cálculo de la -innza del estimad o r re sulta t eóricamente probl emát ic a. En e fec t o. a dífcic¡a de otros muestreos no es posible estima r tnsesgademente la va rianza m ed ias y pro porc iones a part ir de una sola mue stra . 'Iukey )' Jones ( 19 56 ) mtean como so lución seleccionar vari as muestras siste m at icas generadas
172
al to ma r ale atori amente y sin re em p lazo varios puntos de ar ranq ue e ntre 1 y k, am bos inclusive. Por lo demás la construcción de intervalos de confianza vel calcule del tama ño de la muest ra se re alizan e n la misma lógica que los ot ros' d iseños de muestra.
17.2. Muestreo polifásico El mues t reo poli fásico se caracteriza porque la información se recoge en dos o m ás fases sucesivas. C ad a fase es una submue st ra de la fase an te rio r. La realizació n d e las fases puede se r en for m a airuultánea o sucesiva . Normalmente se apli can dos fases y se d en o m ina m u estreo doble. El desa rrollo del mue st reo poli fásico se vi ncula a sit uaciones en las cuales la infor ma ci ón req ue rida no es homogénea de sde el punto de vista del c ost o. Po r ejem plo, se in da ga respec to al estado de salud e n la población de mayoTes de 65 añ os e n una co m una det erm inada. Para estos efectos se est ahlece n dos t ipos de info rmaci ó n necesaria. A saber, datos re ferid os a hahitos de vid a como nu trició n, t ab aquismo o int er acc ión social e in formación relacionada co n p red isposició n a enferm edades, p ara lo que se re-q u ie re m ed ir pr esión sangu ínea , coleste rol .,. o t ros sim ilares. Para la primera información se aplica u n cuestio nario a la m uestra seleccionada. Sin emhargo, P;U;¡ la info r m ac ió n q ue requ ier e de perso nal y eq uipo especializad o se o btiene una segunda muest ra en una nu eva fase. La m uest ra de la segunda fase co rresponde a una parte se lecciona da aleatoriamente de la muestra p rim e ra . Tamb ién se uti liza e n el co ntexto de ex igencias de p recisión distintas pa ra difer e nt es submuestras . En pa rti cula r, la ma yor preci sión se asocia a la p rime ra fase, que es de m a yor tamaño , y para exi ge nci as de menor p rec isió n se genera una seg u nda fase obt en ida de un a selección aleator¡a de la prim era. El diseñ o polif ásico permite obte ne r en p oblacio nes que conform an grupos m ino ritarios muest ras que repre sen te n a tal e s grupos. La prime ra fase de una m uestra m ayo r se uti liza pa ra ide nti ficar a los mi e mbros de l gru po obje to de est udio. Post eriorme nt e mediante un inst rum e nt o de medida mas porm en or izad o se enc ue sta al grupo de elem entos poco co m un es pr e viamente id entificado. Un a ve ntaja del m uestreo polifásico es que pe r m ite ge ne rar u na m uestra pa tr ón e n la p rimera fase a part ir de la cual se pueden genera r sucesivas sub muestras o nuevas fases. Las fases post e rio res se ve n enriquecid as por la info rm ac ió n q ue o to rga la m uest ra p at r ón. En particu lar, se pue de disponer de in fo rm ación para es tratificar o estima r la t asa de no respuesta. C ab e pre cisar la d istinció n entre los muestreos polifásico y polietáptco. El dise ño polifásico en cada fase m ide la mi sm a un idad de muestreo)" en el pohet éptco cada e t apa co rresponde a unida des rnuest rales d istin ta s
'"
17.3 _Muestreo con r éplicas El d iseño de m uestras replic ada s o interpenetrante hace referenci a al precedímiento de d ividir una muestra e n dos o mas submuestras independientes en tre si. La generación de muest ras replicadas es posible de efectuar e n cua lquiera de los d iseñ os clásicos: aleatorio simple, estratificado o con glo me rados Las m uestras rep licadas son reprod uccion es en peque ño generadas a pa rt ir del mi smo d iseño muestr a] y ca da una de e llas del m ismo ta maño. La ge ne ració n de muestras replicad as per mite realiz ar análisis por separado para cad a un a. Resulta útil cu ando el t amaíi o de la muestr a es gra nde y se requieren resultados de avance, da do q ue posi b ilita el procesam ien to adelan tado de una de las divisiones de la m uestra . En el e ntendido q ue cada submocst ra es una selección ale ato ria de la m ues tra m ayo r. Teóricamente, la princ ipal vent aja de la d ivisión de la muestra en submuestras dice n-ladón co n el calcu lo de la varia nza del estima dor. No rmalme nt e la varianza del esti m ado r se calcula a partir de la ún ica muestr a seleccionada de la combinación
'!e{~) m uestras pos ibles. La replicaci ón de la muestra permite re alizar el cálculo de todas las m uest ras posibles, pe ro sí de numerosas muestras má s peque ñas rue la ú nica m uestra m ayo r. Así, po r ejem plo, no se calcu la la varianza de l estimado r de un a ú nic a muestra de tamaño 10 .000 sino de 10 muestr as indepen di en te s de ta mañ o 1.000. En general, la estimación de la varianza del estimador mejora uando a um enta el numero de muest ras re plicadas. En la prá ct ica tambié n se utilizan m uestr as re plicad as pa ra el estudio de errores ajenos al muestreo. Po r ejem plo, p:lra comparar la act ividad desarrollada )or d istint os equi pos de entrevistado res o codi ficadores. S upó ngase q ue e n una -nucsrra de 50 0 elem entos el levanta mie nto de datos es realizado por 10 entrevistadore-s. El efecto de los entrevistadores p odría ser co nocido si la muestra . .? di vide en 10 m uestras indep endientes de tama ño 50 asigna da cada una a un -nt revistador distinto. Considerando que las m uestras replicada s son co mpa-eblcs, un pat rón de d iferenci as entre ést as - al ma rgen de las fluct uacio nes del .iuest reo- pu ede n se r at ribuidas a sesgo de los en t rev istado res. .10
_7.4. M uestreo por áreas :1 m uestreo por áre as es un procedimiento de selecc ión aleat orio que se caracc rin po rq ue el m arco muest rallo constit uye informa ción cart ogr áfica. El uso de m uestreo por áreas resulta útil cuando sólo ex iste ma rco cartogr áfico . cuando la poblaci ón se en cuentra di spe rsa e n gran des espacios con elevados estos de acceso. El procedim iento co ns iste en div idir una ciudad o co m una en un co njunto de -eas pequeñas, entre las cua les algunas so n seleccionadas al aza r. Normalm ente
de ntro de cad a arca seleccionada se selecci ona una submuestra de los elementos que la compon<~n. Se suelen ut ilizar dos alternativas de submuestrcc dependiendo de la info rm ación disponible. A saber, subm uest re ar el arca selecctoneda en área s más peque ñas si la cartografía lo permite o enumerar todos los elementos del área seleccionada para elegir un subconjunto aleatc riarncnt e. Los lím ites de las áreas p ueden dehnirse a parti r de hitos na turales como a,vcrudas o ríos y segun divisiones politico-administrati\·as como comunas o zo nas censales. En los sectores ru rales sude ser eficaz el uso de h itos na turales para establ ece r áre as. En encuestas urbanas las arcas pe rm iten seleccionar a bajo costo viviendas Para estos e fectos se precisan m apas q ue co ntengan las m anzanas de la d uda d, a fin de enumerar todas ellas. En umer adas las m anzan as se podrían empadronar las m anzanas seleccionadas para elaborar un list ado de las viviendas que las componen. Posteriorme nte selecc ión ale ato ria de VI viendas y, por últ imo, selección de pe rson as en cada vivien da. El proc edim ien to SC' puede simplificar evita ndo el lista do de vivie ndas y realizando la selección segun salto sistemático o, sim plemente, se leccio nando al azar una de las c uatro calles de la m anzana )" encuesta ndo todas las v¡...rendas qUt.' la componen. Se aconseja, sin embargo, que el nú me ro de viviendas seleccionadas e n cada m anzana sea propo rcio nal al t ama ño de la m anzana La selección de viviendas puede presentar problemas inesperados que se resuelven según criterios p re viame nte establ ecidos. Entre estos cabe dest acar un sitio donde se espera e xista un a vivienda, hayan efectivamente dos; o una vivienda donde se su pone vive una familia, co nvivan dos, constituyendo dos hogares independien tes. En ge ne ral, el m uestreo por áreas se asoci a a dise ños po r conglomerados y poliet ápícos
Capítulo 18
Probabi lidad de selección proporcion al al ta m a ño
La selección COIl probabilidad proporcional al tama ño es una adap t ación de la lógica del m uest reo estratificado co n af ijaci ón proporcional a dise ños m uest rales no estratificad os. Se tr ata de una superació n del muestreo aleato rio simple en la q ue se incluye co mo in for mación au xiliar el tamaño de las unidades de m uestreo. El muest reo con probabilidades pro po rcio nales al ta maño puede rea lizarse en di señ os sin eta pa s y polietépicos. Subyace la lógica de diferenci ar en la m uestr a unida des de muest reo peq ueñ as y grande s y, poster iorm e nte, asigna r a las un ídudes probabilidad d e selecció n proporcional a su ta ma ño. En particula r, m ayo r probab ilidad de selecc ión a las unid ades grandes y m enor a las un idades pequeñas.
18 .1. Est im ación de la media El est adíst ico estim ador de la m ed ia poblecío nal en muestreo probabilístico con probabilidades proporcionales al tamaño asume la siguie nte e xp resión.
x
".
(x P,
1- ~----'.. • = --
N ' n
,.¡
l
( 18. 1)
D onde: N = Tama ño de la pob lación = Tama ño de la muestra x = N úme ro de elementos en q ue apa rece el suceso p', = Pro babilidad del intervalo asoc iado al suceso 11
18.2. Erro r típico La varianza del est im ado r de la media permite calcu lar el error t fpico. ,
0 (.
)
' (X, i ; - N <;)
1 ~ N 1n (n=I ) ~,
La raiz c uad rada es el error típico
177
( 18.2)
Q.3. Intervalo de confianza inte rvalo de confianza está compuesto por tres t érminos. Est adístic o, coeficiente co nfianza y error típico
(18.3)
-ernplaze ndo:
- --/ -"2: " (_Xi - Nx )
f'PIl(n -l) ¡,.¡ P,
[ /8.4)
PP'
13 indaga res pec to a la disponibilidad de tecnología computac ion al en estable«níentos de educació n m edi a, En la ciudad existen m uchos esta blecimientos }tam año pequeño, algunos medianos y poc os est ableci mientos grandes. Se -oone que la infraestructura computacional y su utili zac ión esta relacionada •.>11 el t ama ño del estableci miento, La selección de elem entos media nte m uestr eo aleatorio simple dada lugar a ' a proporció n ma yor de es tablecim ien tos peq ue ños sesgando el result ado del stud ¡o. Sin emb argo, consi de rand o el tam año del est ablec imie nto y selcc ctondo en forma proporcional al t ama ño de ésto s se obtien e una m uestra más .irescn ta ríve que m edi ante la selecci ón aleatoria sim ple. D e hecho, un diseño 'Iuip robahilistico podr ía dejar fuera de la muestra a los pocos establecimientos .J nLles exis te ntes. Supó ngansc los siguientes valores num éricos para el ejemplo rese ñad o. OIl I EM A
~
/~
Probah,lidad 81100
9- 15
11100
6
16-2 1
61100
s
22<)0
wrcc
5
10
3 1·40
10/1 011
6
s
41-0
9/ 100
10
50- 59
10/100
8
13
60·72
IJ Il UO
s
13
nss
13/ 100
10
'5
l((). IOO
15/ 100
Establec tmien to
Ntiml"fo de com r utadores
/
8
2
)
)
Intervalo i<."'lmlll¡oo
100 . uá ntos co mputa dores en promedio es tán conec tados a In te rnet ?
,
Se a'>umeque el núm..ro de co mputador>:,> por establecimiento esta aseociado con el num ero de computadores conectados a Int ernet. Se utiliza ¡'SI'T tal que la probabilidad de seleccíonar un est.lblec im iento es proporcional al número de computadores del establecimlenro, Se selecciona un a muestra n:=:5 de los N:=:IO establecimientos. Para que la selec ción sea proporcio nal al tam año de l establecimiento, mediante una t abla de números aleator ios elegi mos cinco núm eros e n el rango 1 a 100. Se obtienen los números 26, 35, 6 5, 76 Y94. En la colum na intervalo acumulado -asumc valore s entre 1 y lOO- sE.' local íznn los cinc o núm eros elegidos al azar. Los establecimientos asociados a los números aleatorios so n los elegidos para fo rm ar parte de la muestra. Así, por eje mplo, el número alcatono 26 indica q ue el est ablecimiento cu atro sera sometido a medición . La m uestra consta de los establecimientos 4, 5, 8 , 9 Y 10. La selección se ha hec ho co n probabilidad pro po rcio nal al tamaño del esta biecim ie nto. En efecto, establecimientos con mas computadores han tenido m ayor probabilidad de pertenecer a la m uest ra. Se m ide en los esta blecimientos muestreados y se verifica el num ero de computadores conect ados a Int e rnet: 6,7,9,9 y 10. Conocida esta información se procede a estimar el promedio de computadores co nec tados a Int ernet en la población o rigen de la muestra. l'a ra facilita r los cálculos se define la variable nú me ro de co m putadores con ect ados a Internet y la pr obabilidad del intervalo asociado al respectivo est ableci mien to. Esta últim a d e la colum na Probabilidad en t abla ant erior. N° compllt..dor~ um inte rfld
P,
s
6 0,09
0, 1
0,13
SO l u a ÓN
En prim er ter m ino calc ulamos el esta d ístico muestral .
x _
1
"_( x, )
"" -N ' n ~ ~
Donde: N = Número de establecimientos :=: Tamaño de la muest ra de establecimien tos x, = Número de computador es conec tados a Internet por establecimiento p, = Probabilidad del in ter valo asociado al es tablecimien to '1
_
1 [6
x". = ·j(j-:·T 009 , +
7 9 9 10 ):=: 6,8
oT " + O 13 + 01.3 , + 015 ,
'ara de finir el intervalo d e confianza se calcu la la varianza del estimador segun órm ula ( 18.4).
¡!
_
1
_º- _ (l0 ' 6.8)f , ( 009 J '
[_7__(10'6'8))', [ l _ (10'6,8)l', 0.1
0,13
'~- IO" S(5 -1 ) ( ~ __ (10 ' 6,8))', (Jo._(1O ' 6.8)1 ' 0.13
~I
0,13
J
Capítulo 19
Métodos indirectos de est imació n
=33
'
J
intervalo se presenta a con tinuació n
6,8 ± 3,6 (3,2; 10,4] :ONCl.USION
:on 95 ,5% de con fianza podem os afirm ar q ue el prome di o de com putadores onec tados a Internet por est ablecimiento esta co mprend ido e n el inter valo 3
10.
Los m étodos direc tos de est im ació n so n senci llos y si el aza r funcio na adec uadam e nte dan b ue nos resultados. Sin em bargo la eficacia de la est im ación PU1.'
18 1
J .1. Estimador de razón
19. 2 . Estad ístico mu estra}
se sustenta en la existencia de re-laci ón lineal e nt re do s .riables susceptibles de medició n. El propósito es mejo rar la es tim ació n al utiar m ás información que [a otorgada por la selecc ión aleatoria de ele mentos • una sola v anable. El estimador de razón es u n esti m ado r sesgado del parámet ro poblacíon al. .\ e-mbargo, el sesgo disminuye en mu estra s grandes, asumícndose en la p r áct ica 'e ést e es inhmo. Res ulta un est imador insesgado cuando la relación ent re X e Y es una recta .e pasa por el orig en del plan o cartes iano. En este co nte xto se le co nsidera . est ima do r lineal, insesgado y óptimo. Cumplida la condición anterior es un timador mas preciso que JI: y que otr os estim ado res indi rectos. Gr áficamente se puede verificar si el est im ado r de razó n es un buen estimar de l p aráme tro pobla cto nal . El G ráfico 14 es un plano de coo rdenadas con j a rect a ajustada a la nube de puntos qut' evidcncia q ue el estimado r de razó n un est imado r lineal, insesgado y óptimo. En efecto, se cumplen las siguiente lJidones. Re laci ón lineal entre amba s variables La recta p..lsa por el o rigen La varian za se Incrementa a med ida que aume ntan los valo res de X e Y. Exp resión de het e rocedasticidad .
d El estadístico del esti m ador de razón esta co m en tr e la variabh- X en estud¡o y la varia-ble auxif¡~re~o e ~os tderm¡ inos: ¡la raz~n de la variable auxiliar y . ' en segu n o ugar, él media
1 e- tim ado r de razón
G r áfi co 14. Re-cta Y nube- d e: puntos
La ra zón en tre ambas variables es un cociente Razón entre X e Y .
.-fx,
, =- ,-
(19.1 )
Lv' .,
Respecto a la me dia de la variab le au xiliar se usa el pa rá metro o en d f se ree m plaza por la media m uestra] y. J.l, su e ecto
(19.2)
o en t érminos de razó n.
.
' • •• • •• • • • , •
· .: •.. . •• • • • • , • · .. • •· • • •• • • . .. " • • • • • •• " .. .. .. •• • ·• • •• • • .. . . • • • ...... • ... • '
I
)
'
,
,
••
"
( 19.3)
19.3. Error típico del estimador de
x•
La varianza del estim ado r es una variación de la fórm ula util izada e n t . na I. . . m ues reo est ratific ado ...con , fi,·, e, ... ·o·" P" iporcro (J~ =_N- n . ~
'.
N .n
( 19.4)
••
Do nde :
•
i:(x,- ry,)'
.s1 '" t-_, ,
n- 1
_
El e rror típi co co rresponde a la raíz cuadr ada de la varianza.
182
(195)
Media po blacíona l años de afiliación
19.4. Intervalo de confianza El intervalo de confianza se cons truye con tos t érm inos conocidos. A saber, estadístico, coe ficiente de confianza y err or típico.
~y
= 5,5
Sumato rios cuad rados de las variables med ida y aux iliar
(19.6) Reem plazando:
r oy,
V-
± .t on
N
n
N .- tI
(19 .7)
.
,
•.
.L;Y.
N _n .j.,(x; - ryj1 N.n
D~ = 15.000 .,
Prod uctos cuadra dos de las variables medida y auxi liar
; -:""";-'-.,..,-
~ . Y ± c.,
L X; " 29 .400 ,., ~
· sf
Reemplazando con ( 2.5.2)
}:x,
~
11 - 1
~
L x,Y. =. 21.000
-,
S O LUCiÓN
14 Se e-st udia identidad sindical en afiliados a un a fede ración campesina . Se supone que esta variable está rela cion ada con los años de afiliación . Conociendo la relación e ntre amb as variables se usa estimado r de razón que sera más preciso que la est imación directa. Los valores pa ra ide nt idad sindica l se m iden aplica n. do una escala tul hoc. Los valores de la variable años de afiliación se encuent ran debidamente regist rados. Se ob t iene un a mu estr a aleatoria de 300 casos de una po bl aci ón de 5.000 afiliados. Los valores de amb as variables en la muestra seleccionada se presentan a continuación. Los datos obteni dos pe rm ite n estimar el parámetro poblacional de la variable X ide nt idad sindical segú n info rm ación aportada por la variable Y años de afiliación. PRO BLEMA
Estimador de razón de XI ~
LX x = . ¿ .y = 4 200 . 5 5 = 7 7 • "..... - )' 3 000
,.,¿Y,
Razón XIY
N " 50 .000 n=
600
x = ide ntidad sindica l
Varian za estimado r x.
y =. años de afiliació n >
0 -
"
Total en escala de iden tidad eo
N - n
= --- -
N·n
x,l - r ~ - 2r2:~; Y;
L X, " 4.200
;~l
;_/
1./
n
Total en años de afiliación ,~
LY." 3.00 0
;~l
184
18 5
-Capitu lo 20
Jl ecmplazando:
•
); = s~ =
29.400 _1 ,4 z·IS. OOO _2
-6 00 - 1
01
,4 ·21 .000
Di seños no prob abil ísticos
98
o ?= SO .Q90 -§º-º- o9 8 =O, 16
"
50.000 600 o
tervalo de confianza
I
Reemplazando
7,7 . 2 ' {U,Tb (6,9; 8,5) :J~:CI.USIO~
-; t'~·t i mJ con 9 5,5% de co nfianza q ue el valor del parám etro poblacional está co mp re ndido en e l inte rvalo 6,9 a 8,5.
Los m uestr eos no probabilíst icos son procedimientos de selección q ue se caracteri zan por q ue los elementos de la po blación no ti enen una probabi lidad co nocida de selección. El hec ho de no conocer la pro babilidad de selecció n anu la el uso de las he-rramie ntas ela boradas r ara inferir de la muestra a la poblaci ón. En co nsecuenc¡a, en el muestreo no probabilístico es im posible conocer la magni tud del error asociado a la estimació n del par áme tro poblact onal. Las dos ven tajas eviden tes del m uest reo no probabilístico son la facilidad del diseno - no se precis a ma rco rnucstral- y la dismin ución de costos. Se disti nguen diversos proced imien tos de muestreo no probabilístico. La diferencia e ntre uno y ot ro d tcc relac ión co n el modo de selección de los elementos. Se presen tan a continuación bre vemen te los procedimientos m ás utilizados. D esde la teorí a de la estimació n son diseños impropios po rq ue no pe rmi ten in jerir probabilisticarn ente rt'speno al valor del parám etro po blacio nal. En efect o, dad o qu e los ele me ntos de la po blació n no tie ne n una probab ilidad conocid a de perten ecer a la muestra , es im posible co nocer la di str ibución de probabilidades de la muest ra y estab lecer un inte rvalo de co nfianza para la injerencia Teór icam ente la d iferencia p rincipa l ent re ambos dise ños di ce relación co n la distribución Cilla pob lació n de las variable s q ue se miden . Los dise ños probubtl¡sricos no necesitan del supu esto de distribu ción norma l de las vartablcs somcttd as a est ud io. La selección aleatoria de ele me ntos seg ún el teo rema del lim ite cen tral asegura la distribución normal de las m edias m uest rales. Sin e mbargo, los diseños . no probabilísticos dependen JeI supuesto de distrib ución no rm al de las variable, para rea lizar un a est imación sat isfactoria. Una paradoja que emerge de los precep tos funda ntes de la inferencia estadística. Se sude jus tificar e-l uso de m uestreo no prohabiltst ico porq ue e n la pr ácti ca no siempre resul ta posible la selecció n es tricta mente alea toria de todos los elem entos qu e compon en la muest ra. A menudo muestras diseñadas probabilisficas pie rden esa pro piedad d urante la fase de t rabajo de cam po
20 .1. Muestreo por cuotas Se trata de un d iseño rnuestral po lémico. En sus versiones más sofist icadas se le de nomina cuasiprobabíhs nco. Se han n -ahzadoestudios empíricos para comparar
.alidad de la estimación respect o a diseño s prcbebtlíst ícos. H ist óricame nte su gen se rem on ta a los estudios de opi nión pub lica e investigaci ón de m ercados llzados por agenci as no rt eamer i__ anas e n los años t reinta. El muestreo por cuotas no es un procedim iento q ue asu m a una moda lidad ca . Existe n vari aciones que ha cen de est e proced im iento una creación especa s~'Rú n la naturaleza de la In vest igaci ón. La caracreristica mas pro pia d el muestreo por cuo tas es q ue la responsabilidad elegir q ué element os co m po ndrá n la muestr a es asu mi da po r el ent re vistador. t are a del muestrísta es establecer q ué variables de cuo ta s se usar án. de qué laño ser a cada cuota y c uánt as c uot as comprende la muestra . El entre vistador ndc qu é elem entos compon en cada cuota según la hoja q ue indica un númepara sexo y tramo de edad . El m uest rista genera la estructura de cuot as q ue n poncn la muestra y el entre vistador de cid e q ue e lementos cum pone n cada 1 de las c uot as q ue le co rre spon de co m pletar. El m uestreo po r cu otas es u n modo de muestreo estrat ificado e n el q ue la xct ón de eleme ntos q ue componen los estratos no es aleato rio. Si el ent reviso r fue ra un d ispo sitivo rigurosam ent e aleato rio, el m uestreo po r cuotas sería lla go al muestreo estra tificado co n afijac íón propo rcional. Para lím itar el campo de o pc iones del entre vista dor se estab lecen co nt roles, -do 1.1 vía ma s usada el uso de variables que restringen la po sib ilid ad de libre : ción del entrevistador. C abe se ñalar qu e el número de variables de cuota no -dc ser ilim itado, pues hace in viable el cum plimie nto de las c uotas. Su pó ngase q ue se estab lece n c uot as co n las variables sex o, eda d y nivel soeconómico cada una con las siguientes altern ativas: S('XO en Jos categorías, edad Idida en c uat ro tramos y nivel socioeconó mico cod ificado en cinco grupos. La -uctura de cuotas est ablecida ge nera una m uestra con 2x4x 5 =40 modalidades cuo ta di fere ntes. Se comprende que la inclusión sucesiv a de variables facilit a c presc nte nvi dad de la mues tr a pe ro difi culta la selecció n de los elem ent os a cada una de las m od alid ades definidas. No rmalmente no se ut ilizan m as de ; variables para establecer las cuo tas. En principio las variabl es de cuota de ben estar relacionadas COIl el objeto estudio, sin em ba rgo, es habitual generar cuotas segú n se xo y edad, y evcn [ment e nivel soc toecon ómíco. Las dos pri meras pu eden se r utilizadas co mo Iables de clas ificació n y el nivel socíoeconómico suele di scrim inar respecto a niones y co nsumo. l'ara ilustrar el procedim ient o se presenta ra un eje-mplo. En prime r term ino iefincn Lis variables de c uota. No rmalmente variables con d istribución coid a según fuentes sec undunas. Por ejempl o, 5/' XO y edad disponibles como o ce nsal a nivel com un al. Cono cida la informació n a nivel de la poblucíon se rblcce un a d istri bu ción e n la m uestra pro por cion a] a los valor es de las celdas a població n. Las Tabl as siguie ntes info rm an co n datos fict icios la dist ribuci ón a poblaci ón yen la m uestra.
188
Tabla 13.- Distribución en la población. N = 1,000.000 ~"(O-
E.a.f
Hombres
Mujo:rn
r",,1
15·24 25·39 40·54
1SO.OOO ISO.OOO 105,000
130.(0) ]SO.OO)
330.(00
115.COO
220.000
55 Ymis
SO.OOO
90.000
170.000
Tot,!
51S-Cll'Xl
485.000
1000.000
280.00)
Tabla 14.· Distribución en la muestra. n = 1.000 Sexo-Edad 15·24
Hombres
M \lj,'rr~
150
25·39
ISO
130 150
<0-,.
10;
55 ym~
80
11 5 90
Tob!
SI>
" 5
Total
2SO 3JO
220 170 1.000
l.a vida enseñ a qu e a cada en trevistador no se le debe asignar una cuo ta grande de elem en tos. Si est e no ope ra aleatoria mente generará sesgo en la m ues t ra. Las cuo ta s se form an proporcionales a la distribució n de las variables en la muestra. La Tabla 15 presenta los ele mentos quc co rresponde n a un entrevistador. Tabla 15.- Cu otas asignadas a un e nt revistado r. n = 50 Sexo-Edad
H"mb r~
Mujrre-s
Total
15·24 25·)9
7
,
6
13
40.54
6
SSYmi..
Tut,l
•
8
11
5 5
11
"
26
9 50
En la pract ica de los estudios de o pinión e invest igación de mer cado s se ha extend ido el uso de un diseño muestr a] q ue co mbin a procedi m ien tos probabilísticos co n selecci ón m edi ante cuo tas. Cabe destaca r dos lim itacio nes pro pias del diseño de cuotas.A sabe r, tem a de las no respuesta y c umplim iento falaz de las cuotas asignadas. En efec to, el diseño de cuotas no considera el proble m a de la no respuesta . Las cuot as se co m plet an sin conside rar a los elem entos q ue no respond en, po rq ue est á e n b lógica del procedimie nto qu e est os sea n rem pla zados por otros cualquiera q ue cum plan con las co ndic ion es exigidas po r la cuota. En con secuen cia est án subreprese nt ados los elem entos que no son fáciles de co ntacta r o ret icen tes a contes tar.
189
I
P""r otra part e, el cu m plimie nto de las cuotas no asegu ra la represen taci ón de p....olació n. A saber, se pueden completar cuotas for ma lm ent e co rrectas pero ~1 ente inadecuadas. Po r ejemplo, se establece para la var iab le edad u na Cuota " -eut a años y más, y se entrevista sólo a personas próximas a sesenta años, L('ti,m do subrepresentadas 13<; p... rsonas mayores de setenta. Desde el punto .4 del pr oced imien to se ha cumplido; sin embargo, la cuota generada dara ~~ 1. sesgo.. e n la infe rencia. e.abe destacar que el m uestreo po r cuotas puede ser el ú nico p rocedimiento ! cccíó n cua ndo no se dispo ne de un m arco apropiado p ara ge nerar una se:q" n p robabili stica de elementos. Nótese que para su ap licación no se precisa m arco muesrral. : m uestr eo por cuotas e~ u na especie de m uestreo estratificado no p robab íhs( ' " ¡ los en tre vistadores se transfor man e n un dispositivo alea torio en la selección I~ r-cota asignada result a un p rocedi miento pot encialmente represent ativo. \
(
,
) tJ .
cada e ntrevistador seleccion a según una co nvenció n las vivi.. ndas que componen la muestra . El entre...istador es un disposi tivo aleato rio y 1J. selección de viviendas es al aza r. Sin embargo no es probabtltsnco porque normalmente no to das las viviendas tienen la misma probabilidad de se r parte de la muestra. En particular, cuando no se efect úa un empadr on am iento previo d... la rut a a reali zar. En este contexto se suel e distinguir en el ámb ito del muestreo po r etapas entre muestreo serniprobabilistico superior e inferior. El m uestreo sem iprobabil ístco superior se caracteriza por que s.". conoce la probabilidad de selecció n d e un con glomerado de la población pero no de un eleme nto de ntro del conglomerado, y e l muestreo scmíprobabüísnco inferior se produce cua ndo se conoce la probabilidad de selección de un ele-mento dent ro de un co nglo merado pero no la prob abilidad de selecc ión de éste. Un muest reo probabilistico debe se r s i muhan ~~mentt:' semiprobab tlistico superio r e infe rior.
20.3 . Otros diseños no probab ilísticos Mu estreo cuasiprobabilístico 20 .3.1. M uestreo erráríco
ues treos cu asíp robahílís ttc os son procedim ien tos de selección qu e incluyen ,t' -cción pr obabilísti ca y no pr obabilístic a en form a simultá nea. En virt ud que prcbabihd ad de selección de cada demento no ('S co nocida, resulta Inviable c. culo de los errores de mues t reo y la infe ren cia a la po b lación or igen de la j~ ' ra. En su ve rsión m as so fistica da se le suele denomi nar mu estreo proba í-uc o de cuotas o alguna varian te que incluya el t érmin o probabilístico. Se ~~J_ltan a co ntinuación muestreos cuasíprobabíhstícos. ,<1.
20.3.2 . M uestreo opinónco
\ l."
La caracte rística de este procedim iento es la se ncillez. Con sist e en la selecció n de una pa rte de la població n sin la aplicació n de ningún cr iterio. Res ulta un procedimien to posible cuando se sabe q ue en la població n los at ributos a m edir se distri buyen de modo uniforme o cuando ésta es homogénea respecto a las mediciones a realizar.
l . Muestreo alearorio por cuoras
~ dimicnro de muestreo mixto frecu e nte e n los estu dio s de opinión y de-r- udo. Se caracteriza por la selecc ión aleatoria de- las unidad es primeras de ",_.,(.feo y la selecc ión por cuotas de las unida des últimas q ue norm almen te }' rd adanos o co nsum idores. Una c uota es un con jun to de e ntrev istados q ue l h rm J.n grupos excluyente s según sus valores en las variables de clasihcaci ón. i, tlOr eje m plo, se seleccio nan aleato riam ente distr itos ce nsales y e n cada dís•.elccc io nado se elige n al azar m anzan as y, por último, e n cada m anzan a se e-v-tonan person as segú n una hoja de cuot as. ....11 rigor, no corresponde utili zar los procedi mient os de inferencia, sin eml ,d(' modo im propi o se su ele inferir a la pob laci ón me diant e intervalo dI:' lC ~n za .
.<... .2. Muestreo de nlt(lS aleatorias procedimie nto de ru t as ale at orias se caracte riza po r la selección d e vivien das un tr ayec to azaroso esta blecid o pa ra cada entr evist ador. En el recorr ido
La selección de los elementos SI:" realiza en fu nción del juicio que respec t o a la obtención de un a muestra tiene q uien diseña la muestra. El fundame nto de selecc ión es subje tivo y result a adec uado si quien define la selecci ón dispo ne de criterios que le pe rmitan reprod ucir la población e n la muestra . C uando la población es pequeña y los elementos se pued en ordenar según un criterio o son fácilme nte d istinguibles los result ados p ueden ser sat isfactorios.
Capítulo 21
Funciones de costo
El diseño muestra] ti ene como propó sito maxi miza r la prec isión de la estimación minimizando el cos to asoc iado al muest reo. El te ma de la preci si ón d ice relació n co n la co nst rucción de int ervalos de co nfianza. El costo es una res tricción que se trata mediant e el establec imie nto de funcion es de costo. No ex iste una expresión m atemática que sea función de costo ó ptimo a todo evento. Ésta debería conside rar tod os los ñe rnes q ue inciden en maxim izar la precisión y m in imi za r el costo para cada estrateg ia de diseño. Una solución prac tica es esta blecer una expresión gene ral qu e conside re el facto r costo y permita su uso en t odas las estrateg ias muestr ales pos ibles. La fun ción el abo rada po r Kish ( 19 72) pa ra estos efec tos consider a qu e el cos to total es fun ción de cu atro componentes. Cada diseño muestral se comporta de m odo distinto en los componentes establecidos. Se trata en consecuencia de asignar para cada co mponente los valor es que se estimen segu n el diseño utilizado. La función para el costo total T se pr esenta a co ntinuació n.
K incluye factores de costo co nst ante. Se trata de insumas q ue no vartan segú n el tama ño de la m uestra o tipo de diseñe. Por ejemplo, co nstr ucci ó n del instrumento de m edída , elaboración del plan de análisis de da tos, realización del procesamiento de la inform ación, impresión de inform es y resul ta dos. Kd conside ra factores de cost o que se ve n influidos po r el t ipo de diseño y qu e son ind ependientes del tama ño de la muestra . Cabe se ñalar cálc ulo del intervalo de confi anz a, c álcul o dl' coeficientes de ponderación y de expansión, adiest ramien to de encuestad ores. nIncluye factores que varían e n form a p rop or cional al tamaño de la muestra y q u~ son invariantes al tipo de diseño. En particu lar, codificación y digitacióo de la in formación. n,~ contiene factores que varían segun el tam año ele la mu estra y tambi énsegun el tipo de diseño. Por ejemplo, ob te nción del marco mucstrul, gastos en viáticos para viajes La funci ón de Kish, pe se a su esq ue matis m o, req uie re de suposiciones pa r:! aquellos íte m cs incluidos en los cu atro co m po ne nte s de los qu e no se dispon e de informació n exa cta. En la práct ica habr á q lle asignar a alguno de los cuat ro componente s todos los tre mes que co m po ngan la e ncuesta po r m uest reo.
193
f ' mi función alternativa considera sólo tr es fact ores . Perm it e en forma rápi da c.eccr el pres up uesto aproxi m ado de un a e ncuesta por muestreo. Desde erspecuva, la fu nción para el costo to tal T esta definida en los siguientes
Capitulo 22
Tasa de no respuesta
·· \o.~
= horas hom br e de traba¡o " salario por hora .. gast os -rmino gastos se desagrega en gastos fijos y variables sigu iendo c riterio s aná _ a los propuestos po r Kish .
mo delo de cos tos es un a simplificació n de la re alid ad que pe rmite estaer co mp araciones ent re d ise ños y optar por el diseñ o más apropi ado. Presenta ~ ventaja la sencillez y un iversalidad d e su ap licaci ó n, sin embargo, resu lta na ap ro ximación al costo rea l de la en cuesta . :-.ra rr nar el terna cos to y pr ec isión se han elaborado procedi mientos espeos par J. d iseños estratificad os y de co nglomerados. En efec to, para optim izar uilo de la muestr a dos alternati vas se prese nt an en rela ción con ('1 costo. »al.lecc mediante m ult iplicador es de Lagrange un cost o fijo y se calcula el • de n co n la condic ión de que la varianza sea minirna o, p or el co nt rario, se e ne la varianz a co nstante y se c alcula el valor de ti co n la restr icció n de mínimo. .' obtención de un mini mo condicionado es una buena solución mntern áti ca, rbargo, pr esen ta la desventaja que rara vez se d ispo ne de in formación pa ra tir Sil uso rea l y práct ico. 'na funció n general per m ite un a ap ro xim ac i ón útil al t em a del costo, a fin Ina r un a decisión m ás informada respecto al d iseño apropiad o. . . '1
La no respuest a a una pa rte o todo el cuestionar io utilizado como instrumento de m ed ida es un problema ine vitable en la e nc ues ta por m ues treo. Pro blem a que debe ser t ratado ap ropiadamente pa ra no ge ne rar sesgos e n los resultados. Para ejemplificar el sesgo de no resp uest a supóngase la población d ividida en dos grupos excl uyentes. Un grupo q ue responder á las preguntas fo rmuladas y otro que no lo har á. Su pó ngase que el pro pósito de la investigación es estimar el par ám etro pobla cíon al. En particu lar, estima r la m edia de la población . Considerando ambos grupos, la expresió n de la media es la siguiente.
x = W)( .. W....X~,
(22 . 1)
A sabe r, una co mbinación lineal de los pesos por las respectiv as medias. Siendo \V el peso o proporción de cad a gru po y los subí ndices a la d istinción responden y no respo nden. El sesgo d e no respuesta se produce si ~l' ut iliza só lo la m ed ia de los rcspo ndentes pa ra estimar el parám et ro pobl acio nal. En el entendido qu e el ~w ( fi l de grupo que no respon de es difere nte al de los q ue si respond e n. En con sec uencia, el mod. , de re alizar u na buena estimación de l parámetro es haciendo pequeñ o el peso de los que no responden . Es decir, dismi nuyen do la tasa de no respuesta. Las no respuestas son los cu estionarios en blanco. Si hubiera que establecer el or igen de las no respuestas cabria mencionar los siguientes asp ectos. (AU) = Ausencia del sujeto seleccion ado, ya sea por cambio de di rección , viaje u ot ra razón que se p rolonga m ás allá del pe ríodo de trabajo de campo. ( R) = Rech azo a resp onder por prejuicios respecto a las encuestas. (1) Im posibilidad pa ra co ntestar por an alfabe tismo o enfermedad inca pacita nte. [N'C] = N o co ntacto p or vis itar al entrevistado fuera del horario de cs tac]¡a en su domicilio.
La t asa de no respuesta corresponde al coci ente fo rm ado por número de cuestionarios no respon didos respecto a nú m ero de elementos selecctonados para for mar la m ues tra. Ut iliza ndo la no mencl atu ra del párrafo an te rior, el coc iente se expresa en los siguie nte term ina s.
(AU + R+ 1 + N.5;L] rNR =o 1 - (AV + R + 1 + NC + E)
,
(22.2)
[
~ = E l t: me n tos efecti\"amt'nte entrevistados..
/ alores de TNR cer canos a 1 indica Que el sesgo por no respuesta es peque~o. -10 hay un valor convencional a partir del cual se conside re la no respuesta In -
dmísíble.
.
1
Azorin (1 974) presenta U 1I cociente de no respuesta q~le relacio na as resruestas y no respuestas producidas por los elementos elegidos para componer a muestra.
CNR
(número de no res r uesus)2 núm ero de e nt rev istas intent adas
: oc h ran et al. ( 195 4) uti lizan este coeficiente para evaluar el tamaño aproria~o le la m uestra. El valor de CNR debe ser peq ueño, para asu mir q ue el t arnano le la muestra es satis facto rio Los diferentes com pone ntes que forman la t asa de no respuesta pe rmite.con:luir que no hay un factor pr~ponder:mte. Mas b ien confluyen de modo an~logo hversos fact ores explicativos. Mosc r (1965) presenta un a Tab la q u:, COSC O? \Ias uent es de no resp uesta e n dos encuestas realizadas e n G ran Bret aña. L3 1 a ila -s la sigui ente: Tabla 16 Fuente de no respuesta en dos encuestas probabiltsricas E IKUM-U
de mncaJo ~
EnC\K'SU social ~
lllvi.ble p. n ... ntr.....i.ltar
\,7
1,7
Rechazos
6,2
2,'
Fuera de casa
2,_
2,0
\,6
3,9
t.!iKel.ine
O,,
O,S
Total
12:,3
10,9
A\ll;~nt e en hora
de visita
:.os datos de la Tabla deben co nsiderarse sólo com o una referencia. La .tas~ ~e 10 respuesta depende de modo importante de la nat urale za de ~a ,tnvt'stIgaClon '\sí por ejemplo un estudio di rigido a profesores co n el propostto de tndegor , to a sus aspir ' . aciones . .. , en dra que -cspec econonucas ra meno '-" r t asa .' de no. respuesta . .. .ma encuesta enfocada a dueñas de casa p ara conocer hábitos tele visivos.Tamb len t: rnaci ón Las encuestas cond iciona la no respuesta el me d¡10 d e recogrid a dce ¡mtor .
196
postales y vía co rreo electr ónico present an una alta t asa de no respuesta . Sin e mb argo, las en cuestas telefónicas tienen tasas de no resp uesta solo algo menores qu e las realizadas cara a cara. La experiencia p erm ite establecer el perfil de los mas reti centes a participar en enc uestas, Es út il como expresión de te ndenci as po rqu e e xiste n dife rencias según tipo de encuesta. En partic ular, los siguientes rasgos caracterizan a los generadores de no respuesta : soc loeco n ómico alto, adulto mayor, nivel cultural bajo, hombres, nivel de urbani zación alto, hogares de pocos miembros. Estudios realizado s en Gran Breta ña po r D urbin y Stu art ( 195 1), co n el pro pósito de de tec t ar diferencias e n tasa de no respuesta según experiencia del entrevistador, per mitió establecer importantes diferencias. En efecto, para un m ismo estudio e ncuest ado res profesionales y circunstanciales obtienen rechazos de 4 y 13 po r cie nto, respect ivam ente. Una prác tica ha bitual para dism inuir la tas a de no respuesta son las visita s sucesivas.Se asume como un est éndar qce es necesario realizar tres visitas antes de asumir el caso com o no respuest a. Investigacio nes realizadas por Edwards ( 1963) evide~cian un aume nto significa tivo de respuesta s cuando se realiza un a segu nda visita y un c rec imien to cua ndo despu és de la segund a se realiza una tercera visita . Sin e mbargo, visitas pos te riores -cua rta, quinta- generan un aumento m argina l de respuestas, por lo qu e en la practica no se justifica su realización. El primer paso e n el t ratamiento de las no respuestas es co nt arlas y clasíficarlas en categorías excluyentes. Dimens ionar el t ama ño de la no respuesta es una primera aproximación respecto a su eventual sesgo. La clasificació n de la no respuesta permite distingu ir los rechazos de las ausencia... de domicilio. Est ablecida la naturaleza de la no respuesta cabe plant earse proced im ientos que sirvan p ara paliar el sesgo generado por no resp uesta . La gam a de alterna tivas ut ilizadas es am plia. Los sesgos de no respuesta han recibido un tratamiento porrnenor ixado, a fin de conocer sus causas, controlar su incidencia }' red ucir su ocurrencia . Para estos efectos se han p ropues to diversas o pcion es: mejo rar ru tinas, ejec uta~ sultm ues treos, efect uar sustituciones o realizar ree m plazos. El procedimiento má s evidente es mejorar las ruti nas. No e xiste una receta general, dada la naturaleza úni ca de cada encuesta. Sin embargo, se pueden o pti mizar resu ltados asegurando el anonim ato del e ntrev ist ado, indic ando la insti tución respo nsable del estudio, acudiendo a los domicilios en las ho ras ade cua das, explicando cómo se seleccionó el domicilio, se ñalando el propósito del estudio o entrega ndo un regalo por cooperació n. La sustituciou del en trevista do es un a prá ctica com ún que no controla el sesgo po r \l O repuest a, Respecto a la no resp uesta la sustitución es una opción simpl e e inútil . Nótese que los seleccionados como sustitutos tien en un perfi l ma s parecido a los qu e sí han respondido qu e a aquellos qu e no lo han hec ho, La sustitución no impide el sesgo generado por no respuesta. Simplemente elim ina las no respuestas. En consecuencia no evalúa p robable diferencia existente entre aqu ellos que sí responden y quien es no lo hacen .
19 7
(
Sim ilar proceso a la sustitució n es de finir un ta m año de m uest ra abultado, l . . d o que absorba las eventuales no respuest as y pe rmita acceder al t amaño \ cstra predefinido. t\~í, po r ejemplo, un a muestra inicialmente estimada en 1.1 11 casos puede lw.St' a un a muestr a defin itiva de 1.46 1 casos. Dos supuestos a priori : 95% : con co ndición para ser entrevist ado -5% de no elegibles por deficiencia r- vrco- y 80% ta sa de respuesta espe rada -20% de elegibles no respo nde n. tu mula de ajuste de la mu estra se presenta a co nti nuación . n
(223)
~-= 1
~
ta m año de mues tra ajustado = tamaño de muestra o riginal
-" proporción de elegibles en e l m arco ruucstral proporción de respuesta esperada
ilazando:
1.111
(22.4)
= 0,95 ' 0,8 = 1.461
unen to del tamaño de la muestra es una solució n de uso común en el tr atade la no respuesta. Resulta de fácil aplicaci ón. sin e mba rgo, es de dudosa ' ·' 1 . La no respu esta es un problema ma yor qu e puede da r o rigen a im por: sesgo en la muest ra. En part icular, cuando las no respuest as responde n a ron ide ntificable. ' l YN eficacia para el tratamie nt o de las no respues tas es el procedimi ento no ut acio nes. Se im puta un valor c uando se realiza una predicció n razonada .0( ausente. Para predecir e l valor omitido se utili za info rm ación secundaparticul ar se detectan variables co rrel acion adas co n la variable del valor ido y se infiere el valor m ás probable para el valor ausente. •nhicn es eficaz ponderar de dis tinto m odo las res puest as recogidas. En se es tablecen los rasgos de los no respo nden tes y se asigna m ás peso a restas de sujetos de ca racte rístic as parecidas a los no respon dcm es. Ent re los ,--,i mk ntos de ponderac ión de uso co m ún cabe desta car los sustentados en abtlídad de respuesta y en la distribu c ión de la población . " S correcciones qu e se sustentan en la probabilidad de las respuestas fueron .olladas po r Hartl ey (19 56) y suge ridas por Polit z y Simmons ( 194 9) . Cocomo el método Politz-Sim m ons, se utiliza para tr ata r el sesgo produ cido '.~ no contactos. La probabilidad de resp uesta se mide segú n la disponibilidad ) e nt revistados a ser ent revistad os. La resp uesta y no respuest a se e nt iende es ) de la di sponibilidad a responder el cuestionario. Para eval uar la disponiI
.no
bílídad ~e. ~st ab lece p ~ra cad~ e nt revista do el nú mero de días de pe rtnancnc ¡., en su domicilio e n los dios pre vios a la VISIt a realizada para aplica r el cuest ion ario Para cada entre vistad o se calcu la un coeficie nte de dispon ibilidad. Este valor depende de cuantos días pr evios a la e ntrevista se e ncontraba el elem ento ~1~ciollaJo en su domicilio. El coeficiente permite ponderar las respuestas en funci ón de la disponibilidad de los sujetos. Así, por ejemplo. los sujetos que no pe rmanecían en su do micil io los d ías previos a la visita se co nsideran poco dispon ibles y reciben alt a po nd eración y, por el co ntrario, los suje tos que pe rm anectan todos los dia s rec iben baja ponderación. Se asu me q ue los sujetos poco dispo nibles t ienen un pe rfil sim ilar a los no respon den tes
Capitulo 23
Efecto de diseño
Se calcula el efecto de di seño para evaluar la prec isión respec to a muestr eo aleatorio simple. Se utiliza co mo patrón de referencia el muestreo aleatorio simple pOHlue es un m ues treo m o noe t ápico y equi pro bable do nd e el azar o pera sin rest ricciones. En general en muestreo por conglome rado - mo noe tápico o poli et ápico-la varianz a de la estimación es m ayor q ue la obtenida para el mismo numero de casos en muest reo aleatorio simple. En m uestreo por conglomerado mon oet ápico se ge nera cierta homogeneidad dentro de cada conglomerado y en mu estr eos complejos pol ietápicos cada etapa gene ra un sesgo agregado, dado q ue se seleccionan sólo algunos elementos de la eta pa an teri or. El efecto de dise ño se obtiene comparando la varianza de la estim ació n del d ise ño en uso - est rau ficado o por cong lo merados- respe cto a la varianza de la estimación del m uestr eo alea torio simple, l .a fórmula del efec to de diseño co rrespo nde al coci en te entre la var ianza del esti m ador del diseño a test ear respecto a la varianza del diseño aleato rio sim ple. El efecto de di se ño norm almente sera mayor que 1 en muestreo po r co nglo me rado y menor q ue I e n muestreo estratificado. El muestreo est rat ificado es un di seño rnonoet épico do nde el azar opera restr ingido, Normal mente la varian za del estimador sera me nor a la del muestreo alea to rio simple. Para ejem plificar la uti lización del efecto de diseño se acudirá a un eje m plo numér ico. Tahla 17. Efecto de dise ño
V~rianl~
Varimu delestimador '" 36
del estum dor .. 14
El efecto de diseño asoci ado a estos valores corres po nde al siguien te guarismo :
36- = 1 5 d,fj =-24 .
(23. 1)
20 1
)eff es acróni m o de design effect. Se interpreta qu e hay 50% de au mento de la " .an za del estim ador en el di se ño por etap as respecto al aleat or io simple. Un uso co m pleme nta rio al cálculo del efect o de diseño es el calculo del ta o f!"ño de [a muestra propio al diseño aleatorio simple mante nien do co nst ante el ~ • .Ir má ximo adm isible y nivel de co nfianza Supóngase una muestr a po r cong lot -ados de 1.600 C hOS. El ta maño co rrespo ndiente a muestr eo alea torio sim ple (" lis paribus es 1,067. Para estos efec tos se rea liza el siguiente coci ente: (
n .\lAS
=~ == 1.600 o: I 067 deff
1,5
.
Capitulo 24
Error absoluto y e rror relativo
(23.2)
I ( .hfcrenc¡a de 1.600 respec to a 1.06 7 se explica por la naturaleza de am bos ; " :00 5. El mu est reo aleatorio simpl e req uier e de menos e lem entos porque la a rianz n del estim ador es m enor. Ca lcular el efecto de dise-ño no es siemp re po sible. Los valo res req uerid os ( 1 su calculo a m enudo no es tán dispon íblcs . En la practica se util iza un rango e- fluct uación q ue dicta la e xpe riencia. Valores entre 1,5 Y3 result an apropiados ( .1 la ma yoría de los casos. En part icular, el valor sera cerc ano a 1,5 cuando se ( (m e qu e los conglomerados est án co nstitu idos por ele me ntos heterog éneos [1 las variabl es principales de investigación y, por el co ntrario, se asu m e un valo r \ . xtmo a 3 cuando se conjetura que los conglome rados son homogéneo s respecto , ~' a riables en estudio. Es decir; se o pta por valores bajos cuando la varianza del vr mador no es demasiado d ife ren te a la varianza obtenida medi ante mu estreo ~ " torio sim ple y se eligen valores altos cuando la varianza serta superio r a la ( co rrespo ndería co n selección aleatoria sim ple. C abe señ alar q ue ambos d iseños m uestra les ser ian igual de precisos si los )"glomerados fueran ta n heter og éneos co mo una selección aleatoria sim ple. El coefic iente de correlación rho (p) se util iza para medir la correlació n e nt re r- -lementos de los distintos co nglome rados. Si el valo r del coeficien te es igual a Implica qu e no hay co rrelació n entre los e le men tos de los co nglo me rados. En , -ec uencia, un valor O significa q ue éstos presen tan una dist ribución análoga .1 la , -rada medi ante selecci ón aleatoria sim ple. Por tanto la varia nza del estim ado r ra la m ism a y la precisió n de la es ti maci ón igual en ambos diseños.
El erro r en la estimació n pued e entende rse en t érm inos relativos. El error relat ivo es ad imensional y puede ex presarse en térm inos de po rce ntaje de e l ro r, Resulta de más fácil inte rpretac ió n y permite la com paraci ó n de errores en m uestr as cuyas variables t iene n distint as unid ades de me d ida. La ventaja de leer el error en té rmi nos de po rcentaje es evidente. Permi te definir que erro res relativos de m uestr eo superio res a 10% son excesivos.Trátese de medias o proporciones. La fórmul a del err or relat ivo anu la la uni dad de me dida al p resen ta r el err o r máximo ad m isible ponderado po r la m edi a o proporción respectiva . En general, (·1 er ror relati vo se obtiene co mo Inform ació n ane xa al calc ulo de! error absoluto Se presenta a continuac ión e l e rro r relativo de m ed ias y p ro po rciones. _.J' Error re lat¡ anv o m eora
Error absol uto Media
= - ~--
Error relati vo pro po rción = Err_o r ab_~l.uto Proporci ón D onde e rro r absol uto es el erro r máximo adm isible en la estimación de Id m ed ia o pro porción. A m odo de eje m plo se establecerá una Tab la co n e rro res absolutos y relativ os de pro porci ones Se define n dos ta m años de muestra y dos valo res del estadístico muestral Tabla Il:). Error absolu to y er ror relativo b lilJ i'l ico
,, ~2S0
" ,,250
" " 400Cl
1I,,4.CXX)
Muesrral p
Error ~h
Error rd Jtivo
Error absoluto
Error relativo
0,1
0,0037
0,37 Ó 37%
O,CX.19
0,090 9"
0,001
0,15 Ó 15%
0,015
0,04 Ó 4%
0,9 0,4 0,6
Se verific a que una muest ra de 250 elem en tos presenta errores relativos de restrco muy ele vados. En ambos casos superiores a 10%, Un a,mue-stra de 4JX)() 'mentas p ara los mismos est adíst icos genera errores re lau,vos ?e muestreo eriorcs al valor conven cio nal 10%. Co mo e ra de esp erar, esnmacroncs m uc ho is precisas que las obtenidas c on una muestra 16 veces m enor.
C apitulo 2 5
Pon deración y eleva ción
La pon dera ció n y elevación de la muestra son proce dimi e nt os ut iliz ados pa ra resol ve r dos problemas que se prese ntan en cier tas c o nd ici o nes. En efec to, se ponde ra n m uestras no aut opondc-rad as, a fin de asignar a los e lemen tos pesos en la mue st ra co ncordantes con los pe sos de és to s en la pohlació n. Por o t ra parte, se e levan muestras c uand o co noc ido el tamaíio de la pob laci ó n Se busca co nocer e l valor e n la población d e los re su ltados o bte nidos e n la mue st ra -se infie re m ed ian t e in te rvalos de confianza y se e leva mediant e c oeficien tes d e elev ació n. La p onderació n es u n pro cedimien to más co m ú n que la el e vació n. Nótese q ue las m uestras a utopo ndera das no requie re n de cálcu lo de coeficien tes de pon der ación porque e n ést as se respeta el princip io de cqutp ro b abilidad en la sele cc ió n de los ele mentos. L3 pro bab ilid ad de selecció n de cada ele m e nt o es fun ció n de la fracción de mue st reo. En la s m uestr as aut o ponde radas la fracció n d e muest re e es u n valor co ns t ante y e n las muestra s no autoponderadas la fracció n de muest reo asum e distin t os valores La m ues tra se despro po rc io na c uando se m anipula asig na ndo a los ele rnentos una impor ta nci a desigual resp ect o a la im po rt ancia que estos t ien e n en la pob lación . En p artic ular, se d ism inu ye el peso de los elementos con m ayo r probabi lidad de selecció n y se aumenta el peso en aque llos con meno r proba bilid ad de selecció n. En este contexto se pondera pa ra asignarle a cada uno de los e lemen tos el pe so q ue corresponde según su im po rt ancia e n la p obl ac ión . C abe destaca r que se vio la el principio d e equíprobabtlídad e n diseños rn uest rales est ratifica dos co n ahjac ión no propo rc ional y en di seños de dominí os donde aq uellos de menor tamaño so n sobrer rcprescntados en desmedro de los dominios de tamaño mayor que son subrep resentados En un d iseño c q oip rob ab lc o ac topondcrado el pe so a soci ad o <1 ,ad;] ele m e nt o es ig\13 1 a l. Se po ndera cua ndo el p eso asociado a oda elemento es inferior -subrepresentac t ón- o superior -sobrcrrcprcscutactón- a l. El pro pósito es otorgar a cada demento de cada un o de los grupos m ucstralcs e l pe so co rres pondient e a su incid e nci a <'JI la p o b laci ón.
l.
Coeficiente de ponderación
.cedi miento de ponderación puede aplicarse respecto a elementos agregados : '~'h.k"S mucstralcs colectivas como ciudades, comunas, zonas censales, ctc., y en
En general los resultados no segú n se pondere n elementos agregados en colectivos o elemen tos ind iví... Para ilus tr ar el uso Je ponderado res se simula un eje mplo con d atos fict icios. a Tabla prese nta da a continuación e nseñ a información poblecio nal y m ues...:',rida :J dos áreas de di stinto tamaño. En e!1:J se evide nci a qu e el ta ma ño nuestra de cada área no es proporcional al ta maño de cada una de éstas e n -tilaci ón. En efecto, las muest ras son desproporcionadas respecto al tamaño ..Ja área de la población. 'Ión con cada elemento qu e co m po ne la muestra. :0
Tabla 19.1'obbción y muestr a. Valores absolutos y porcentajes r
,.
A(~.,
N pobbuoo~1
n muestt;¡1
¡\(~. Ch,C~
50.000
500
14.,....grande
4;0000
500
de ~t:\l.:: a r
.. pobbciórl
,,,,, .,.
%
,,,,, I
muestf~ 50%
)
q ue si se trata de inferir los result ados a cada área en form a indo -
" -:ntt' ,],1 despro porción entre población y muest ra no incid e en la calidad i n ~' -ren c¡a. Nat uralm ente la infe rencia a Area chic a será m ás precisa que a
.;r.lnde en virtud del mayor t am año relativo de esa muestra. cons ide ración de las dos áreas en form a co njunta para inferir a la población ." de la muestra requiere la combi nación de resultados obtenidos en ambas . En este contexto se im pone el calculo de ponderadores, a fin de devolver uestra el peso diferencial q ue tienen am bas áreas en la poblaci ón. Nótese as fracciones de mu est reo so n distintas en cad a una de las dos área s. ,: h.m desarrollado diversos procedim ie ntos pa ra pon der ar. Se presenta a .uació n un coeficiente sencíllode calcular e intuit ivo de com prender. El
Coeficiente de ponderación
Ar~~ chic~
10I50=O.Z
CO MPUT E PO ND ERA = 1. lF (AREA EQ IjPONDERA = 0 .2. IF (AREA EQ 2JI'ONDERA = L B. W EIG HT BY PO ND ERA. Acti vada la instr ucció n se oto rga a cada una de las áreas de la muestra el peso que le co rresponde segu n su ta m año rela tivo en la po blación orige n de la muestra. En co nsec uencia, el cálculo de la estimación de l parámetro poblacional se rea liza.ra a partir de un est adíst ico que se ob tien e co nside rando los pesos dife renc¡ales de cada u na de las áreas en la población. Respec to a la tabul ació n conj unta de [a informa ción, cabe dest acar que ésta se efectúa despué s de eje cutada la instrucció n de po nd eraci ón.
25 .2. Coeficiente de elevac ión La e1~vación se utiliza cua ndo se desea conocer el valor en la población de un resultado obtenido en la muestra. Asi, por ejemplo, sabido que 600 personas en la muestra opinan Sí se elevan lo, datos para co ncluir q ue en la población origen de la muestra 800.000 pt' rsonas optan po r la altern ativa Si. La fór m ula para el calc ulo de los coeficie ntes de elevación es análoga seg un se trate de m uest ra auto pon derad a o desproporc io nada. En muestras desproporcionadas co n unidades de muestreo agregadas -cjemplo Área chi ca y Área grande- se obtiene un coeficiente para cada submuestra y se procede e n cada una de ellas co mo si fue ra independiente una de la otra. El mism o res ultado se obtiene multiplicando la suma tot al de elementos qu e e n la m uestra presentan el atributo - por ejemplo, responder Si- por e l co rrespondie nte coeficie nte de ele vaci ón. Para ilustrar el uso del coeficiente de elevació n se presen ta en la siguiente Tabla información referida a dos subm uestras. N ótese que se conoce la respuesta a la alternativa Si en cada sobmuestra y se q uie re conocer e l valor cor respo ndiente a la opción Si en la població n origen de la muestra . Tabla 21. Población y muestra, Valores absolutos y porcentajes Ár~a~
N poblacional
N mu~ual
ResponJ..n Si
Área chica
50,000
5W
60%
Ar~~ grande
450.000 500.000
5W 1 1)) )
'"
Total
9IVSO= 1,8
el pu nto de vista práctico, la po nderación de la m uestra se realiza computa[mente. En el programa SPSS/PC versión Windows se po ndera co n la instru c,'1'iKhr. La sint axis co rrespondiente a este ejem plo se presenta a continuación .
Se verifica qu e en Ár ea ch ica y Ar ea grande IJ. distribució n de la opción Si es la siguie nte.
.
T abla 22 . Número d e entrevistas por á re a A rca
BlBLlOGRAFIA
chica
Núm e ro de resp u~t as
Si 0,6 · 5{)(}.:) OO entre vist ad os
eva la muestra para conocer el num ero de respuestas Si e n la población de una de las subrnuestras. Para estos efect os se m ultiplica el coefici ente de ción de cada suhm uestr a por el valor de l total de personas que respo nden Sí snb rnuesrra. ',lrJ Arca chica y Area grande el coeficiente de elevación respectivo es elsiguiente. T abla
23. Coeficien te de elevación por área
Area chica Coc ficie ll!e de elevación = l/n/N = N/n :: 50.000/500 = 100
Area gra nd e CllE:ficif:nte de elt:vación = I/nIN = Nln = 450_0001500 = 900
se q ue t'1coeficiente de ele vació n es el inverso de la fracción de muestr eo . o r del coeficiente de elevaci ón se interpreta como el nume ro de elementos po blación q ue rep resent a cada eleme nto de la mu estra. ara obte ner el valor del atributo Si e n la población origen de la mu estra se de en los siguientes términos.
AM OA_ Y SERV1~ L , In t rod u cció n ~1 Mut"
d el Muestr eo, Alianza, Madri d, 1986.
CAURIN R. y BRION P., Manual J" Muestreo, I.~ Muralla, M..drid, 2()111. CooJRAN
\V., Técmc as de M u~trt''O. CECSA. M o!j icu, 1995.
CocH~ \V., Rt'iariv A
D ALfr-;¡IJS T " Sampliugin SwednJ. Almkvíst and WikSt'll, St o<:kholm. 1957. D EMli..;(; \V., Sorne T heo ry of Sam p ling, D o ver, Ne w Yo rk, 19 50 .
DVRBI" 1 y SllJ,Uf A_, Diffl'm.us i.. Rbpmts<-s Raus off & pnir>tcd ""J lnnpeoV>r.." lnfonvU-Wl'JT5. Jcurnal of the Rop l Sta ti.stic~1 Society, 114. 195 1. E Dw~R DS
F. , A spe'l:.fs 01R" ...lvm Sa...I'Plg IOT a CO"''''l'rrial Sllrtry Th.. íncorporated Stati,ticiaan. 4. 196 3
t 'ERNÁNOf Z
F. y
M AVO~ 1, M uestreo en Pobla cio nes Fillitas: Curro Básico, EUB, Bar<:<:'!on a. I99S.
H ...." "EN M _, H uswrrz W_y MAI)O'WS \V., ~('W York, 1953
S~mpl e
Sur..(')'5 Me th od and Theorj; Vol. 1 y 11. W ilcy.
1:I", Iffi.[Y H ., A RMew of R«enf Sra fisriaJ fkwl<>r ......w in $ampliPlga ...1Stl",plml: SIItw)'$. Journa l
u f th... Royal Statisucal Society, 109, 19 56 .
Tabla 24 Valores rnuestra les exp and ido,
K ENDAl.L M. y B UC KJ.AM) W., Dic cion ar¡o de htadi~ ti( ", Pirámide, M adrid , 19 7fi .
A rea chica A rt!a grande
% Sí· n > Nzn '" 0,6 * 500 · 100 = 30.000 % Si · n · N/n = 0, 44 · 500 ' 900 '" 19 8.000
cuc íón computacional de la ele vación de la m uestra se realiza mu lti plicando fi cie nte de elevación con cada elemento que compone la m uestr a. La sintaxis nst rucc ión del paquete SPSSf}'C+ para el eje mplo utilizado es Id siguiente.
l.EGUn
S_, lntroduce i"'n ~ l lI.luelitfC'O en Poblacio nes Finitas, Nu...V3S Estructura~. ~ladrid .I999 _
lI f.DAV"'T A. y SII
Pracucal Sam plinl':. Sagc, California, 19 90
K"¡1'ON G , lntroduc tío n to SUTVey Saml' lin,E:. Sage, C3 Iiforn i~, 19 83 .
KISH L., MU6 tr eo de En euestas, Trillas" M ~li co, 1972. LOtu
So, Muestreo: l),,..- i'1Oy A n ilisis, Thom.
MADOWS W. y MAI'lOWS 1.., ÜlI rlre nl/~ory QISy...em
8MPUTE EL EVA " 1. (AREA EQ I ) ELEVA " 100 . (AREA EQ 2) ELEVA " 900 . E1GHT BY ELEVA.
M IRAs
Ida la inst rucción se dispo ne de info rmación amphada de los valores de eswa a los valores correspond ientes a la poblaci ón para toda s las variables e radas en el estu dio.
20S
J., Elem ...ntcs de Muestreo pa ra Po bla ciones Finitas, INE, M adrid , 1985.
NEYM.,,:'oI 1 , Oa rheTWll ViII........' A 5p«t$ 01rhe RepresmrtJfil~ Merlro.b. Joumal of the Royal Sta n stical Society. 9 7, 193" Mosu C. A _, Sur.. ey Methods in Soct ellnvesnganon, H einern ann , London, 1965. OS~INA
1'~ ~ f.Z
D., Introdu "",n al ~lu"strt'O, Universidad Nacicn ul d e C"lo",¡'i ~ . Bog ot á. 2001
c., Técnscas de Muestreo
Esra.hsnco, Alfao mq: a, Mcjil'o. 2000.
209
y
S;''''ON~
\V., AJ1 A lu ,..,!'r ft> ';~r r},.. ~nol a / hame" ¡J11O 1M Sam ple 1I, ;¡hQll r C..libwIu.
f the Am eri.;:au Statist1Cal ,'Usoc ia tÍon, 44, 19 49. , ' . de l Muest ree, Fondo Cultu ra Eco n órrnca, Méjico, 19 79 .
"1-
.. " Iing: MdhoJo:ogics: wit h apphc ations, Chal'man ti.. Hall, N_ York. 2{)(X) J., Met ud os de Muestr eo, C !S. ~bdrid. 199 1. ( .>1'01., MuctTeO de PoblAciones Fímtas Aplicado al DiY-ño de Encuo:-st:o.s" IN E. Mad rid,
t. Mf N()fNlI.\(l \V., Y OrT , L , Elem entos d.. Mu (";treo. ~l éj1Co O. E, Grupo
Editorial
iria. 19 87.
"leona de Encue stas por Muest reo con Aplicaciones, Fondo C ultura Económíce, ~.
19 5(,_ . •'U IAr ME B. , SU~H Arr.lE S. y A SOK
· -' ty
f' r".~,
c., Sarnphng Theory ofSurveys Applic ~tion s, lowa
lowa, 19 H4
Iccs treo par a IJ Invt"stilolalión e n Ciencia s de la Salud, D iH. de San tos, Mad rid , 19 9 3 _" pIid Sa m pling , Acaderu¡c
P r~'.I5,
N ('w York, 19 76.
y FIDn L L., U~ i n g :\l ultiv" riate Sta tistks, Harpl'r Co llins, Nt'w York. 1989. ...., T1,,,.,,ry of Samplc Su rveys, Londco, Chapma'l & Hall, l.andon, 19 9 7.
arnr ling M<'lhod s for Ce nsuses and Su rveys, Mc:\l i1lA n, Nc w York, ]9 ~1.
I
. i-