Esta Estad d´ısti ıstica ca Apli Aplica cada da I
Emilio L´opez opez Escobar http://www.Info-Emilio.net
Depto. Dept o. de Estad Est ad´ ´ıstica ıst ica,, ITAM, M´ exico. exi co.
VERSION: Enero de 2014.
´Indice general
I
Info In form rmac aci´ i´ on sobre el curso on Contenido general del curso . . . . . . . . Objetivo del curso . . . . . . . . . . . . . Conocimientos previos que son necesarios . Referencias biblio bibliogr´ gr´aficas aficas del curso . . . . Softwar So ftwaree estad est ad´´ıs ısti tico co . . . . . . . . . . . . Calendarizaci´on on del curso . . . . . . . . . Horario de atenci´on on a alumnos . . . . . . Evaluaci´ on del curso . . . . . . . . . . . . on De las pr´acticas acticas fraudulent fraudulentas as (licenci (licenciatura) atura) Sobre los tel´efonos efon os . . . . . . . . . . . . .
II
II
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. iii . v . v . vi . viii . ix . x . xi . xii . xii
Estad´ Estad ´ıstica Aplicada y An´ alisis Exploratorio de datos alisis dat os
1
1. Introducci´ Introducci´ on a la Estad on Estad´ ´ıstica Aplicada 1.1. Estad Estad´´ıstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1.1. 1.1 .1. Defi Definic nici´ i´ on . . . . . . . . . . . . . . . . . . . . . . . . . on
2 3 3
ii
Emilio L´ op ez Escobar
EST-24104: Estad´ıstica Aplicada I
1.1.2. Pa Partes rtes o subdivi subdivisione sioness 1.2. Va Variabl riables, es, datos datos y escalas escalas . . 1.2.1. 1.2 .1. Defi Definic nicion iones es . . . . . 1.3.. Tipo 1.3 Tiposs de de dato datoss . . . . . . . . 1.3.1. Datos cual cualitativ itativos os . . 1.3.2. Datos cuan cuantitati titativos vos . 1.4. Esca Escalas las de medi medici´ ci´on on . . . . .
. . . . . . .
3 4 4 6 7 7 9
2. An´ alisis Exploratorio de Datos alisis 2.1. 2. 1. An An´alisis a´lisis Exploratorio de Datos . . . . . . . . . . . . . . . . . . . 2.1.1. Algo de historia del An´alisis alisis Exploratorio de Datos . . . . 2.1.2. Objetivo del An´alisis alisis Exploratorio de Datos . . . . . . . . 2.2. EDA para para variable variabless cualitativa cualitativass . . . . . . . . . . . . . . . . . . 2.2.1. Tabla ablass de frecu frecuenci enciaa . . . . . . . . . . . . . . . . . . . . 2.2.2. Diagra Diagramas mas circu circular lares es (pastel (pastel)) . . . . . . . . . . . . . . . 2.2.3. Diagramas o gr´aficos aficos de barras . . . . . . . . . . . . . . 2.3. EDA para para variables variables cuantitat cuantitativas ivas . . . . . . . . . . . . . . . . . 2.3.1. 2.3 .1. Dia Diagra grama mass de pun punto to . . . . . . . . . . . . . . . . . . . . 2.3.2. 2.3 .2. Dia Diagra grama mass de tallo tallo y hojas hojas . . . . . . . . . . . . . . . . . 2.3.3. 2.3 .3. Dist Distrib ribuc uci´ i´ on de frecuencias de variables discretas . . . . . on 2.3.4. Histogr Histogramas amas o distri distribuci buci´´on on de frec frecuenc uencias ias de var variable iabless continuas . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4. Estad Estad´´ısticos Descriptivos: Medidas de tendencia central . . . . . . 2.4. 2. 4.1. 1. La me medi diaa . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4.2. 2.4 .2. La me media diana na . . . . . . . . . . . . . . . . . . . . . . . . . 2.4.3. Per Percent centiles iles o medi medidas das de de posici´ posici´on on . . . . . . . . . . . . . 2.4.4. Inte Interpre rpretaci´ taci´ on geom´etrica on etrica de la media . . . . . . . . . . . 2.5. Estad Estad´´ısticos Descriptivos: Medidas de dispersi´on on . . . . . . . . . 2.5.1. 2.5 .1. Dia Diagra grama mass de Caja Caja y Brazo Brazo . . . . . . . . . . . . . . . . 2.5.2. 2.5 .2. Dia Diagra grama mass de Dispe Dispersi rsi´ o´n . . . . . . . . . . . . . . . . . . on 2.5.3. Diagra Diagramas mas de Burb Burbujas ujas . . . . . . . . . . . . . . . . . .
12 13 13 15 17 17 18 18 19 19 20 21
Departamento Departa mento de Estad´ıstica ıstica
. . . . . . .
iii
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
22 24 25 27 28 30 31 35 35 35
Emilio L´ op ez Escobar
EST-24104: Estad´ıstica Aplicada I
2.5.4. Dia 2.5.4. Diagra grama mass de Estr Estrell ellaa . . . . . . . . . . . . . 2.5.5. 2.5 .5. Gr´aficos afico s de Viol´ V iol´ın ın . . . . . . . . . . . . . . . 2.5.6. Gr´aficos aficos de probabilidades probabilidades (Q-Q plots) . . . . 2.6. Estad Estad´´ısticos Descriptivos: medidas de asociaci´on on lineal
III
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
Intr In trod oduc ucci ci´ ´ on al Muestreo on
41
3. El objetivo objetivo del muestreo muestreo y el marco marco muestral muestral 3.1. El objetiv objetivoo del del muestreo muestreo . . . . . . . . . . . . . . . . . . . 3.2. El objetivo del muestreo: gr´afico afico . . . . . . . . . . . . . . . 3.3. Infe Inferir rir o gene generaliza ralizar... r... . . . . . . . . . . . . . . . . . . . . 3.3.1. Siemp Siempre re inferimos, inferimos, siempre siempre generaliz generalizamos. amos... .. . . . . . 3.3.2. ¿Inf ¿Inferir erir es ap aprende render?... r?... . . . . . . . . . . . . . . . . 3.4. Infe Inferir rir o generali generalizar zar sobr sobree U a partir de s de s . . . . . . . . . . U a 3.4.1. Un ejem ejemplo plo equi equivocado vocado... ... . . . . . . . . . . . . . . 3.4.2. Inte Interpre rpretaci´ taci´ on: ¿Foto o pron´ostico? on: ostico? . . . . . . . . . 3.5. Sob Sobre re los 3 grandes grandes enfoque enfoquess te´oricos oricos del mues muestreo treo . . . . . 3.5.1. ‘Desig ‘Design-ba n-based sed app approach roach’’ . . . . . . . . . . . . . . . 3.5.2. ‘Model‘Model-base based d app approach roach’’ . . . . . . . . . . . . . . . 3.5.3. ‘Model‘Model-assist assisted ed app approach roach’’ . . . . . . . . . . . . . . 3.6. Mar Marco co mue muestral stral . . . . . . . . . . . . . . . . . . . . . . . 3.7. Radiograf Radiograf´´ıa general de una encuesta por muestreo . . . . . 3.8. Algun Algunos os comentari comentarios os para para discutir discutir . . . . . . . . . . . . . . 3.8.1. Inco Incorpora rporaci´ ci´ on de t´ecnica on ecnica a el objetivo del muestreo . 3.8.2. Un ejemplo ejemplo sobre sobre el marco marco muestral muestral (de (de Lohr, 1999) 1999) 4. Muestreo probabil probabil´ ´ıstico y extracci´ ext racci´on on de la muestra 4.1. Muestre Muestreando ando probabil probabil´´ısticam ısticamente ente . . . . . . . . . . 4.1.1. 4.1 .1. Mue Muestr streo eo en en 1 etap etapaa . . . . . . . . . . . . . 4.2. Muestreando en m´as as de 1 etapa . . . . . . . . . . . 4.2.1. 4.2 .1. Mue Muestr streo eo en en 3 etap etapas as . . . . . . . . . . . . Departamento Departam ento de Estad´ıstica ıstica
iv
36 36 36 37
. . . .
. . . .
. . . .
. . . .
. . . . . . . . . . . . . . . . .
. . . .
. . . . . . . . . . . . . . . . .
. . . .
. . . . . . . . . . . . . . . . .
42 43 44 45 45 46 47 47 50 51 52 53 54 55 57 60 62 63
. . . .
64 65 65 69 69
Emilio L´ op ez Escobar
EST-24104: Estad´ıstica Aplicada I
4.2.2. Ventaja de las muestras probabil´ probabil´ısticas sobre las no probabi ba bill´ıs ısti tica cass . . . . . . . . . . . . . . . . . . . . . . . . . 73 4.2.3. 4.2 .3. Mue Muestr streo eo en en 2 etap etapas as . . . . . . . . . . . . . . . . . . . 74
5. Estima Estimaci´ ci´ on a partir de muestras probabil on probabil´ ´ısticas 5.1.. Po 5.1 Pobla blaci´ ci´ on, muestra y selecci´on on, on . . . . . . . . . . . . . . . 5.2.. La fu 5.2 funci nci´´on on dise˜no no de muestreo . . . . . . . . . . . . . . . 5.3. Proba Probabilid bilidades ades e indicado indicadoras ras de inclusi´ inclusi´on on . . . . . . . . . 5.3.1. Las indic indicado adoras ras de de inclusi´ inclusi´ on muestral . . . . . . . on 5.3.2. Las probab probabilidad ilidades es de inclu inclusi´ si´on on . . . . . . . . . . 5.3.3. Come Comenta ntarios rios sobre sobre las probabilid probabilidades ades de inclusi´ inclusi´ on . on 5.3.4. Estad Estad´´ısticos bajo el dise˜no no muestral . . . . . . . . 5.4. Muest Muestreo reo Berno Bernoulli ulli (BE) (BE) . . . . . . . . . . . . . . . . . . 5.5. Muest Muestreo reo Aleato Aleatorio rio Simple Simple (SI) . . . . . . . . . . . . . . 6. Estimadores y sus propiedades estad estad´ ´ısticas b´ asicas asicas 6.1. Estim Estimado adores res comu comunes nes . . . . . . . . . . . . . . . 6.2.. Dist 6.2 Distrib ribuc uci´ i´ on muestral de un estimador . . . . . . . on 6.3. Los Estim Estimado adores res π y sus propiedades . . . . . . . 6.4.. El esti 6.4 estimad mador or π no BE . . . . . . . . . π bajo el dise˜no 6.5.. El esti 6.5 estimad mador or π no SI . . . . . . . . . . π bajo el dise˜no 6.6.. El efect 6.6 efectoo de dise dise˜˜no no . . . . . . . . . . . . . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . . . . .
. . . . . .
. . . . . . . . .
. . . . . .
. . . . . . . . .
. . . . . .
7. ¿Qu´e tama tama˜ ˜ no de muestra utilizar? no 7.1.. Tam 7.1 ama˜ a˜ no de muestra para una media bajo muestreo SI asumiendo no normalidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2.. Tam 7.2 ama˜ a˜ no de muestra para una media bajo muestreo SI sin asumir no normalidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2.1. Utiliz Utilizando ando el coeficiente coeficiente de variaci´ variaci´ on . . . . . . . . . . on 7.2.2. Utiliz Utilizando ando la desigua desigualdad ldad de Tcheb Tchebyche ychevv . . . . . . . .
Departamento Departam ento de Estad´ıstica ıstica
v
. . . . . . . . .
76 77 79 82 82 82 84 87 92 95
. . . . . .
98 99 101 111 122 124 126 129
. 133 . 135 . 135 . 136
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
7.3. Tama˜ no de muestra para una proporci´on bajo muestreo SI asumiendo normalidad . . . . . . . . . . . . . . . . . . . . . . . . 7.4. Tama˜ no de muestra para una proporci´on bajo muestreo SI sin asumir normalidad . . . . . . . . . . . . . . . . . . . . . . . . 7.5. ¿Cu´ ando se puede considerar a N grande? . . . . . . . . . . . 7.6. El efecto del dise˜no: ajuste del tama˜no de muestra . . . . . . . 7.7. Ajuste del tama˜ no de muestra por la tasa de respuesta . . . . . 7.8. Comentarios finales sobre el tama˜no de muestra . . . . . . . .
. 137 . . . . .
139 139 141 142 143
8. Estratificaci´ on 144 8.1. Introducci´on a la estratificaci´on . . . . . . . . . . . . . . . . . . 145 8.1.1. ¿C´omo se ve la estratificaci´on en otros textos y c´omo la trataremos? . . . . . . . . . . . . . . . . . . . . . . . . 145 8.1.2. ¿De qu´e se trata la estratificaci´on? . . . . . . . . . . . . 145 8.1.3. Utilidad y usos de la estratificaci´ on . . . . . . . . . . . . 146 8.1.4. ¿Estratificar o no estratificar? . . . . . . . . . . . . . . . 147 8.1.5. La peor de las situaciones . . . . . . . . . . . . . . . . . 148 8.1.6. Concepci´ on equivocada y muy usada al estratificar . . . . 148 8.2. ¿Hay una buena estratificaci´on? . . . . . . . . . . . . . . . . . . 149 8.3. El n´ umero de estratos . . . . . . . . . . . . . . . . . . . . . . . 151 8.4. El tama˜ no de muestra asociado a la poblaci´on a partir del tama˜no de muestra asociado a los dominios de estimaci´on . . . . . . . . 152 8.5. ¿Muestreo PPT o mejor estratificar? . . . . . . . . . . . . . . . 154 8.6. Notaci´on y uso de la estratificaci´on . . . . . . . . . . . . . . . . 155 8.6.1. El dise˜no de muestreo aleatorio simple estratificado, STSI 158 8.6.2. Sobre la estimaci´ on de un total y una media con estratificaci´on: un error com´un . . . . . . . . . . . . . . . . . . 160 8.7. Afijaci´on, asignaci´on o distribuci´on de muestra en estratos . . . . 161 8.7.1. Una funci´ on de costos . . . . . . . . . . . . . . . . . . . 165 ´ 8.7.2. Distribuci´ on Optima . . . . . . . . . . . . . . . . . . . . 166 8.7.3. Distribuci´ on de Neyman . . . . . . . . . . . . . . . . . . 167 Departamento de Estad´ıstica
vi
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
8.7.4. Distribuci´ on proporcional . . . . . . . . . . . . . . . . . 168 8.7.5. Distribuciones alternativas . . . . . . . . . . . . . . . . . 168
9. Conglomeraci´ on 170 9.1. Introducci´on a la conglomeraci´on . . . . . . . . . . . . . . . . . 171 9.1.1. ¿C´omo se ve la conglomeraci´on en otros textos y c´omo la trataremos? . . . . . . . . . . . . . . . . . . . . . . . . 171 9.1.2. ¿Qu´e problemas soluciona o qu´e facilita la conglomeraci´on? Su utilidad... . . . . . . . . . . . . . . . . . . . . . 172 9.1.3. ¿En qu´e consiste el muestreo por conglomerados? . . . . 174 9.1.4. ¿En qu´e consiste el muestreo en dos etapas? . . . . . . . 175 9.1.5. ¿En qu´e consiste el muestreo multi-et´apico? . . . . . . . 176 9.2. Estimaci´ on de totales y medias con conglomeraci´on . . . . . . . 177 9.3. Muestreo de conglomerados uniet´apico . . . . . . . . . . . . . . 179 9.4. Muestreo de conglomerados uniet´apico aleatorio simple (SIC) . . 185 9.4.1. El coeficiente de homogeneidad . . . . . . . . . . . . . . 186 9.5. Muestreo biet´apico . . . . . . . . . . . . . . . . . . . . . . . . . 189 9.5.1. Muestreo biet´ apico de elementos . . . . . . . . . . . . . 193 9.5.2. Muestreo biet´ apico de elementos: dise˜no auto-ponderado . 198 9.6. Post-Estratificaci´ on, ajuste o calibraci´on de factores de expansi´on 201
IV
Ap´ endices
203
Relaci´ on entre distribuciones de probabilidad . . . . . . . . . . . . . S´ımbolos pch para gr´aficos en R . . . . . . . . . . . . . . . . . . . . Varianzas hipot´eticas de algunas distribuciones (Kish, 1965) . . . . . Teorema Central del L´ımite, Velocidad de convergencia a una Normal, Aproximaciones a la varianza de una variable, Desigualdad de Tchebychev (Mendez, Eslava & Romero, 2004) . . . . . . . . .
Departamento de Estad´ıstica
vii
. 204 . 205 . 206
. 207
Emilio L´ opez Escobar
V VI
EST-24104: Estad´ıstica Aplicada I
Sesiones pr´ acticas en R
212
Ejercicios
240
Ejercicios de An´alisis Exploratorio de Datos . . . . . . . . . . . . . . . 241 Ejercicios de Muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . 245
Departamento de Estad´ıstica
i
Parte I
Informaci´ on sobre el curso
ii
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Contenido general del curso Bloque de Contenidos I. Estad´ıstica Aplicada, An´ alisis Exploratorio de Datos y C´ omputo con R. Introducci´on a la Estad´ıstica Aplicada.
• Motivaci´on al curso. Importancia del los conceptos del curso. • Definici´on, objetivo y ramas de la Estad´ıstica. • Tipos de datos (variables) y escalas de medici´on. An´alisis Exploratorio de datos y Estad´ıstica Descriptiva.
• Distribuciones de frecuencia. Descripci´on de poblaciones. • Medidas de tendencia central, dispersi´on y orden. Medidas de asociaci´on lineal.
• Diagr´amas de punto, de dispersi´on, de tallo y hojas, histogramas, de probabilidades (Q-Q).
Introducci´o n a R.
• Manipulaci´on y tipos de datos con R. Importaci´on de datos con R. • Estad´ısticos descriptivos, gr´aficos y an´alisis exploratorio de datos univariados con R.
• Exportaci´on de resultados num´ericos y gr´aficos en otros formatos. Bloque de Contenidos II. Muestreo. Introducci´on al muestreo.
• El enfoque particularizado vs. generalizado en el muestreo. Departamento de Estad´ıstica
iii
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
• Teor´ıa de muestreo bajo el enfoque generalizado de los estimadores π o de Narain-Horvitz-Thompson (probabilidades arbitrarias).
• Noci´on de factor de expansi´on. • Muestreo aleatorio simple. Distribuci´ on muestral de un estimador.
• Propiedades de los estimadores. La varianza del estimador, errores est´andares. Calidad de estimaciones. Coeficiente de variaci´on.
• Calidad de un esquema de muestreo espec´ıfico. El efecto de dise˜no. C´alculo de tama˜no de muestra. Estimaci´on en dominios o subpoblaciones. Estratificaci´ on. M´etodos de asignaci´on (afijaci´on) de muestra. Conglomeraci´ on. Muestreo en dos etapas. Introducci´on al muestreo en m´as de dos etapas. Introducci´on al muestreo con probabilidades proporcionales al tama˜no. Ventajas, desventajas y precauciones. Sobre dise˜nos de muestreo autoponderados, post-estratificaci´on y consecuencias de suponer muestreo aleatorio simple en la estimaci´on cuando ´este no fue utilizado en la extracci´on de la muestra. Introducci´on al muestreo complejo con paquetes estad´ısticos (SPSS o de preferencia R). Planteamiento de problemas pr´acticos y comunes de muestreo complejo.
Departamento de Estad´ıstica
iv
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Objetivo del curso Conocer los principales conceptos de la estad´ıstica aplicada, los m´etodos del an´alisis exploratorio de datos y los fundamentos de las t´ecnicas de muestreo. Se har´a especial ´enfasis en la teor´ıa de muestreo contempor´anea bajo una perspectiva unificada y generalizada. Se discutir´an ejemplos y casos. Se combinar´a con ejemplos pr´acticos de c´omputo.
Conocimientos previos que son necesarios Es deseable que los alumnos cuenten con los siguientes conocimientos previos m´ınimos:
´ Algebra (conjuntos, doble sumas, conocimientos de conteo), C´alculo de probabilidades (distribuciones de probabilidad b´asicas, c´alculo de probabilidades, funci´on de densidad Bernoulli y Normal), Inferencia estad´ıstica (deseable - estimaci´on puntual, intervalos de confianza, pruebas de hip´otesis, pruebas de significancia), Nociones de uso y/o programaci´o n en R (deseable).
Departamento de Estad´ıstica
v
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Referencias bibliogr´ aficas del curso Las referencias del curso para la parte I es: Crawley, M. J. (2012). The R Book . 2nd ed. Wiley. Departamento de Estad´ıstica ITAM. (2006). Fundamentos de probabilidad y estad´ıstica. 2da. Edici´on. Just in Time Press. Rice, J. A. (2006). Mathematical Statistics and Data Analysis . 3rd. Edition. Duxbury Press. Venables, W. N. & Ripley, B. D. (2002). Modern Applied Statistics with S . 4th Edition. Springer. Verzani, J. (2005). Using R for Introductory Statistics . Chapman & Hall. Y la referencia base del curso para la parte II, de muestreo: S¨arndal, C.-E., Swensson, B. & Wretman, J. (2003). Model Assisted Survey Sampling . Springer-Verlag.
Departamento de Estad´ıstica
vi
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Referencias adicionales de muestreo. (Tradicionales, enfoque particularizado ): Deming(1950) (Algo ilustrativo pero ya muy anticuado). Kish(1965) (Un cl´asico - Muy bueno en lo que ata˜ne a consejos y resoluci´on de problemas pr´ acticos - Mejor consultarlo despu´es del S¨arndal). Raj(1968). Kish(1972) (Traducci´ on al Espa˜nol dif´ıcil de encontrar a la venta).
oricos serios a Cochran(1977) (Un cl´asico - Anticipa varios problemas te´ los que se enfrentar´ıa un muestrista - Consultarlo despu´es del S¨arndal). Sukhatme(1984). Kish(1987) (Varios detalles importantes para investigaci´on). M´endez, Eslava & Romero(2004)( Ayuda mucho a tener una visi´on r´apida y sencilla sobre conceptos b´asicos - Mejor consultarlo despu´es del S¨arndal). Y tambi´ en nos apoyaremos en pasajes o ejemplos de: Pfeffermann, D. & Rao, C. R. (eds.) (2009). Handbook of Statistics 29A. Sample Surveys: Designs, Methods and Applications . North-Holland. Lohr, S. L. (1999). Sampling: Design and Analysis . Duxbury Press. Caracter´ısticas generales de la bibliograf´ıa que utilizaremos: El libro base ofrece un enfoque o perspectiva unificada del muestreo. El libro es rico en conceptos estad´ısticos pero a la vez no es de alto nivel matem´atico (al menos en los cap´ıtulos que tocaremos en este curso).
Y algo importante para este curso en particular, el planteamiento de este libro es el mismo que utiliza cualquier software especializado de muestreo. Departamento de Estad´ıstica
vii
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Software estad´ıstico Utilizaremos primordialmente R.
Es gratuito. Est´a en la Comprehensive R Archive Network (CRAN-ITAM):
http://www.r-project.org/
Este ser´a el paquete estad´ıstico b´asico.
¿Por qu´e R? Por que es el mejor. Para acabar pronto... terminar´an utilizando R en alg´un momento. Empiecen desde ahora. Vamos de la mano.
Si hay tiempo , podr´ıamos utilizar tambi´en software comercial de amplia distribuci´on como SPSS de IBM o cualquier otro.
Son libres de utilizar el software que prefieran . Por supuesto, se sugiere utilizar R.
Departamento de Estad´ıstica
viii
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Calendarizaci´ on del curso El curso est´a compuesto de: N´umero de sesiones:
33 sesiones en total Enero:
6 sesiones, 18 % , Acum. 18 %
Febrero:
8 sesiones, 24 %, Acum. 42 %
Marzo:
8 sesiones, 24 % , Acum. 66 %
Abril:
7 sesiones, 21 %, Acum. 87 %
Mayo:
4 sesiones, 13 % , Acum. 100 %
Asueto/Descansos:
15 y 17 de Abril; 01 de Mayo.
Duraci´on de sesi´o n:
1.5 horas (17:30-19:00 hrs. Martes y Jueves)
Total de horas:
49.5 horas efectivas en aulas
Dado el contenido general del curso (en la p´agina iii), ser´a pr´ acticamente imposible repasar o regresar a lo visto en la clase anterior .
Departamento de Estad´ıstica
ix
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Horario de atenci´ on a alumnos Lunes
de 12:00 a 13:15 horas
Martes
de 12:00 a 13:15 horas
Mi´ercoles de 12:00 a 13:15 horas Jueves
Departamento de Estad´ıstica
de 12:00 a 13:15 horas
x
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Evaluaci´ on del curso Asistencia
Individual
Ex. Parcial 1(∗)
Individual Febrero 13 15 %
Ex. Parcial 2(∗)
Individual Marzo 20
20 %
Ex. Parcial 3(∗)
Individual Abril 29
25 %
Individual Mayo
35 %
Ex. final
(∗)
5%
Notas: (∗) Los ex´amenes son estrictamente individuales, el examen on aprobatoria. final es acumulativo y debe tener calificaci´ Adicionalmente, habr´an tareas opciones que valdr´an (en total) 3 a 5 %, m´as dependiendo de cu´antas son. Traten de hacerlas para ayudarse.
No hay cambios a las fechas de los ex´amenes.
No se conf´ıen... Recuerden que tienen que utilizar tiempo de estudio adicional a su clase... (lectura, repaso, ejercicios)
No ser´a suficiente que s´olo ‘vengan a ver ’ la clase. Se trata de que se involucren en el tema y maduren conceptos.
Departamento de Estad´ıstica
xi
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
De las pr´ acticas fraudulentas (licenciatura) Para preservar la armon´ıa y el correcto desarrollo del curso nos apegaremos al reglamento del ITAM. No habr´a negociaci´on.
Recuerden...
Sobre los tel´ efonos No utilizar el tel´efono por favor (smartphones). Distrae.
Departamento de Estad´ıstica
xii
Parte II
Estad´ıstica Aplicada y An´ alisis Exploratorio de datos
1
CAP´ITULO 1
Introducci´on a la Estad´ıstica Aplicada
2
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
1.1. Estad´ıstica
1.1.1. Definici´ on
ecnicas que Rama de las matem´aticas que comprende un conjunto de t´ se encargan de la colecci´on, organizaci´on, an´alisis e interpretaci´on de datos que presentan variabilidad o incertidumbre.
No es una ciencia, se desprende de las Matem´aticas que s´ı es una ciencia.
1.1.2.
Partes o subdivisiones
A su vez, la Estad´ıstica se subdivide en varias partes o especialidades, e.g.: - Estad´ıstica descriptiva. - An´alisis exploratorio de datos. - Estad´ıstica no param´etrica. - Inferencia estad´ıstica y estad´ıstica param´etrica. - Estad´ıstica multivariada (componentes principales, escalamiento multidimensional). - An´alisis multivariado de datos (componentes principales, an´alisis de factores, an´alisis discriminante, ´arboles de regresi´on). - An´alisis multivariado de datos categ´oricos (´arboles de decisi´on, an´alisis de correspondencia, an´alisis de correspondencias m´ultiples). Departamento de Estad´ıstica
3
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
- Muestreo (design-based, model-based). - Dise˜no de experimentos (an´alisis observacional, m´etodos de captura y recaptura). - Modelos lineales (regresi´on lineal simple, regresi´on lineal m´ultiple). - Modelos lineales generalizados (regresi´on log´ıstica, regresi´ on ordinal, regresi´on Poisson, regresi´ on Probit, regresi´on log-log, regresi´ on Tobit, regresi´on zero-inflada, regresi´on binomial negativa, etc.). - Modelo lineal general. - Modelos jer´arquicos. - Modelos no lineales. - Series de tiempo. - An´alisis de supervivencia. - Simulaci´on estoc´astica. - C´omputo estad´ıstico. - Estad´ıstica Bayesiana. - Estad´ıstica Fiducial. - etc...
1.2.
Variables, datos y escalas
1.2.1. Definiciones
La materia prima con la que estaremos trabajando son los datos y sus t´erminos relacionados.
Departamento de Estad´ıstica
4
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Las siguientes definiciones pueden variar seg´un la aplicaci´on o fen´omeno de estudio.
Datos. Mediciones o en general observaciones documentadas que recolectamos de un experimento o fen´omeno.
Es decir, los datos son las diferentes mediciones que obtenemos al observar cierta caracter´ıstica en cada una de las unidades experimentales.
Unidad experimental . Puede referirse a seres, cosas o periodos de tiempo.
Variables de respuesta o variables . Es el registro u organizaci´on de los datos de modo que conforman la caracter´ıstica observada en una poblaci´on de estudio.
En un conjunto de datos, idealmente se deber´ıa definir la utilidad de cada variable antes de capturarla y considerando el tipo de an´alisis estad´ıstico que se llevar´a a cabo.
on, A veces las variables son tan complejas que resulta dif´ıcil su definici´ que tiene que ser inequ´ıvoca .
¿Ejemplos de variables dif´ıcil de definir? Departamento de Estad´ıstica
5
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
A veces las variables que interesan no est´ an disponibles. No al menos de manera directa porque son multifactoriales .
¿Ejemplos de variables multifactoriales de inter´es no disponibles de manera directa?
Entonces, tenemos un dato para cada unidad experimental y para cada variable respuesta.
¿Qu´e valores pueden tomar estos datos?
1.3.
Tipos de datos
Hay dos tipos de datos (y por consiguiente tipos de variables): 1. Datos cualitativos . 2. Datos cuantitativos.
Departamento de Estad´ıstica
6
Emilio L´ opez Escobar
1.3.1.
EST-24104: Estad´ıstica Aplicada I
Datos cualitativos
Denotan cualidades o atributos de las unidades experimentales.
Pueden clasificarse en un n´ umero finito de categor´ıas o clases .
Las categor´ıas deben ser mutuamente excluyentes y exhaustivas.
Es decir, cada unidad experimental debe ser clasificada en 1 y s´olo 1 de las categor´ıas. Todas las unidades deben pertenecer a alguna clase. En caso unica. de existir ambig¨uedad, ´esta debe resolverse de manera ´
¿Ejemplos?
1.3.2.
Datos cuantitativos
erico. Representan respuestas con significado num´
Obtenidos de un proceso de conteo o medici´on.
Departamento de Estad´ıstica
7
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Si son resultado de un conteo se denominan datos discretos.
Si vienen de un proceso de medici´on se denominan datos continuos.
De manera m´ as formal, son datos continuos si entre cualesquiera 2 dos valores potencialmente observables, puede estar otro valor potencialmente observable.
Notar que los conteos pueden tambi´en representarse de manera continua si se expresan en t´ erminos de porcentajes.
¿Ejemplos?
Categorizaci´on. Los datos cuantitativos pueden a veces re-expresarse o agruparse de modo que se obtengan clases o categor´ıas. Y entonces se pueden utilizar otras t´ecnicas estad´ısticas para datos categ´oricos.
¿Qu´e tan bueno es hacer esto ´ultimo? Depende de la escala, lo veremos...
¿Ejemplos?
Departamento de Estad´ıstica
8
Emilio L´ opez Escobar
1.4.
EST-24104: Estad´ıstica Aplicada I
Escalas de medici´ on
Dependiendo del detalle y precisi´on, los valores medidos de las variables de respuesta pueden clasificarse en niveles .
Por supuesto, dependiendo de tales escalas depender´a cu´al t´ecnica estad´ıstica es posible emplear.
Los niveles de las escalas son: (a) Escala nominal.
• El m´as bajo nivel de medici´on. • Se realiza la operaci´on m´as b´asica y sencilla: clasificar en categor´ıas. • No es posible establecer una relaci´on de orden entre las categor´ıas. • S´olo es posible decir si la observaci´on pertenece o no a cierta categor´ıa.
• ¿Ejemplos? (b) Escala ordinal.
• Igual que la escala nominal pero ahora con la presencia o establecimiento de un orden entre las categor´ıas.
• No es posible hacer operaciones aritm´eticas usuales . • ¿Ejemplos? Departamento de Estad´ıstica
9
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
(c) Escala de intervalo.
• Los valores no s´olo se clasifican sobre la base del grado de posesi´on del atributo sino que adem´as es posible medir exactamente la intensidad con la que se posee esa caracter´ıstica.
• Se requiere de una unidad de medida aceptada. • El origen o ‘cero’ se establece sobre la base de conveniencias pr´acticas. No necesariamente implica ausencia de atributo.
• Es posible hacer operaciones de suma o resta. • ¿Ejemplos? on. (d) Escala de raz´
• Igual que el anterior pero adem´as es posible situar un punto cero absoluto no arbitrario y fijo, donde ‘cero’ implica ausencia del atributo.
• Es posible hacer operaciones de suma, resta, producto, cociente. • Es posible comparar mediante proporciones o razones. • ¿Ejemplos? Notar que las escalas son acumulativas, es decir, una escala ordinal posee todas las propiedades de una escala nominal. Y as´ı sucesivamente...
Una escala de raz´on es m´as fuerte que una escala nominal porque posee m´ as informaci´ on.
Departamento de Estad´ıstica
10
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Siempre ser´a posible transformar datos que se encuentran en cierta escala as d´ ebil. a una m´
¿Entonces c´omo ser´a la relaci´on entre escalas y tipos de datos?
Departamento de Estad´ıstica
11
CAP´ITULO 2
An´alisis Exploratorio de Datos
12
Emilio L´ opez Escobar
2.1. 2.1.1.
EST-24104: Estad´ıstica Aplicada I
An´ alisis Exploratorio de Datos Algo de historia del An´ alisis Exploratorio de Datos
Originalmente la Estad´ıstica en sus comienzos (hace alrededor de 400 a˜nos), era casi s´olo registro y resumen de datos.
aficos era ocasional . La descripci´on de los datos acompa˜nada de gr´
Con el desarrollo del c´alculo y la probabilidad, la Estad´ıstica dej´o de ser o en una herramienta inferencial o de u´nicamente descriptiva y se torn´ inducci´ on (principios s. XIX).
Los m´etodos descriptivos quedaron casi en el olvido o pasaron a un segundo plano como visualizaci´on de resultados obtenidos por procedimientos anal´ıticos o inferenciales.
Debate entre el hecho de que los resultados obtenidos gr´aficamente eran suficientes y muchas veces no era si quiera necesario tener procedimientos inferenciales.
Llegada de John W. Tukey, que crea m´etodos gr´afico-num´ericos novedosos. Publicaci´ on del libro Exploratory Data Analysis (1977). Conocido como EDA. Departamento de Estad´ıstica
13
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Renacimiento del uso de gr´aficos antes o al comienzo del an´alisis de un conjunto de datos.
De enorme utilidad ante datos multivariados .
Departamento de Estad´ıstica
14
Emilio L´ opez Escobar
2.1.2.
EST-24104: Estad´ıstica Aplicada I
Objetivo del An´alisis Exploratorio de Datos
El principal objetivo del EDA es ‘ hacer hablar a los datos ’.
No hay supuestos probabil´ısticos (principal fortaleza ).
Su simplicidad, o evidencia, convierte al EDA en una herramienta muy poderosa .
Puede echar abajo cualquier otra teor´ıa aunque sea muy sofisticada (supuestos, gr´aficos de residuales, supuestos de Normalidad, etc).
Ejemplo de un gr´afico de dispersi´on de Y vs. X antes de una regresi´on.
apida y resumida un conjunto de datos. Describir de manera r´
‘Ver’ la soluci´ on de un problema estad´ıstico.
Detectar particularidades en los datos que pudieran afectar adversamente los procedimientos estad´ısticos inferenciales tradicionales.
Departamento de Estad´ıstica
15
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Se˜nalar caracter´ısticas que nos hagan conocer m´as el fen´omeno (observaciones at´ıpicas).
Despu´es al EDA, la inferencia estad´ıstica surge naturalmente (confirma, desecha, cuantifica diferencias o asociaciones encontradas previamente).
Ambos campos, el exploratorio y el inferencial se refuerzan mutuamente .
Departamento de Estad´ıstica
16
Emilio L´ opez Escobar
2.2. 2.2.1.
EST-24104: Estad´ıstica Aplicada I
EDA para variables cualitativas Tablas de frecuencia
Contiene las frecuencias (conteos, apariciones) de cada categor´ıa.
Pueden ser frecuencias absolutas o frecuencias relativas.
Frecuencia absoluta: n´umero de veces en que se observ´o cierta categor´ıa Frecuencia relativa: divide la frecuencia absoluta entre el total de observaciones. Regularmente se expresan en porcentaje (multiplic´andolas por 100).
A las tablas de frecuencia se les conoce tambi´ en como ‘distribuciones de frecuencia’.
Entonces, una tabla de frecuencia me muestra dos cosas: 1. Todos los posibles valores que puede tomar una variable categ´orica. 2. La frecuencia.
Implementaci´ on en R: ver clase pr´actica.
Departamento de Estad´ıstica
17
Emilio L´ opez Escobar
2.2.2.
EST-24104: Estad´ıstica Aplicada I
Diagramas circulares (pastel)
Compara las partes que componen una entidad con la entidad completa.
Regularmente expresados en porcentaje.
Implementaci´ on en R: ver clase pr´actica.
2.2.3.
Diagramas o gr´ aficos de barras
Despliega gr´afico de frecuencias (relativas o absolutas).
Implementaci´ on en R: ver clase pr´actica.
Departamento de Estad´ıstica
18
Emilio L´ opez Escobar
2.3. 2.3.1.
EST-24104: Estad´ıstica Aplicada I
EDA para variables cuantitativas Diagramas de punto
Sirven para exhibir gr´aficamente un conjunto de datos cuantitativos.
Se puede apreciar el n´umero de veces en que se presenta cada valor en el conjunto de datos.
Se hacen evidentes:
• Observaciones at´ıpicas: Valores observados sustancialmente grandes o peque˜nos con respecto al resto del conjunto.
• Huecos: Espacios grandes entre conjuntos de puntos. • Perfil de la distribuci´on: Valores que son m´as frecuentes. F´aciles de construir e interpretar si el n´umero de observaciones es peque˜no, digamos 25. De lo contrario se pierde claridad.
Implementaci´ on en R: ver clase pr´actica.
Departamento de Estad´ıstica
19
Emilio L´ opez Escobar
2.3.2.
EST-24104: Estad´ıstica Aplicada I
Diagramas de tallo y hojas
Con este diagrama se obtienen dos cosas:
• Un orden de los datos. • Una idea de la distribuci´on de los datos. Nos permite determinar:
• Alejamiento de los datos entre s´ı. • Concentraci´on de observaciones. • Si existen muchos datos cuyos valores se alejan mucho del resto del conjunto.
• Simetr´ıa. • Si hay grupos aislados de observaciones. Pasos para hacer un diagrama de tallo y hojas a mano: 1. Hallar el m´aximo y el m´ınimo. 2. Determinar la regla para los tallos y las hojas. 3. Ordenar los tallos de arriba hacia abajo. 4. Por cada dato ingresar una hoja (sin orden) 5. Ordenar las hojas de izquierda a derecha.
Adecuaciones si queda muy largo hacia la derecha: abrir o amplificar los niveles en los tallos. Departamento de Estad´ıstica
20
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Implementaci´ on en R: ver clase pr´actica.
on de frecuencias de variables discretas 2.3.3. Distribuci´
Las distribuciones de frecuencias de variables discretas es igual a lo que vimos para variables categ´oricas.
En este caso, las categor´ıas son los valores discretos que toma la variable.
Es decir, en la construcci´on necesitamos contar apariciones (comando table(), recuerdan?) para determinar las frecuencias absolutas y relativas.
De modo que podemos notar los valores m´as frecuentes, concentraciones, alejamientos, simetr´ıa, etc... darnos una idea de c´omo est´an distribuidos los datos.
Implementaci´ on en R: ver clase pr´actica.
Departamento de Estad´ıstica
21
Emilio L´ opez Escobar
2.3.4.
EST-24104: Estad´ıstica Aplicada I
Histogramas o distribuci´ on de frecuencias de variables continuas
Las distribuciones de frecuencias de variables continuas no puede hacerse de manera directa. ¿Por qu´e?
Necesitamos la construcci´on de intervalos ¿cu´antos intervalos? ¿de qu´e longitud? ¿de igual longitud o de diferente longitud?
A los intervalos de igual longitud se les suele llamar ‘intervalos de clase’
Notar que si se cambian los anchos de los intervalos de clase, la distribuci´on de frecuencias puede cambiar.... Hay m´ etodos con algunos criterios de optimalidad, pero es algo con lo que tienen que vivir.
Entonces, un histograma es una representaci´on gr´afica (barras) de estas frecuencias... Las frecuencias de los intervalos de clase.
Con los histogramas podemos ver:
• Simetr´ıa • Sesgo • Bimodalidad • Observaciones at´ıpicas Departamento de Estad´ıstica
22
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
• Huecos • Etc... Gr´aficos an´alogos: Pol´ıgono de frecuencias, Ojiva (frecuencias relativas acumuladas).
Implementaci´ on en R: ver clase pr´actica.
Departamento de Estad´ıstica
23
Emilio L´ opez Escobar
2.4.
EST-24104: Estad´ıstica Aplicada I
Estad´ısticos Descriptivos: Medidas de tendencia central
Nos hemos dado una idea de la distribuci´on de los datos para algunas variables utilizando frecuencias, histogramas, barras, pasteles, puntos, etc.
Existe otro tipo de descripciones no gr´aficas que est´an basadas en unos n´ umeros resumen o estad´ısticos descriptivos. Estos proporcionan aspectos relevantes de los datos.
Por ejemplo, hemos visto en algunos ejercicios pr´acticos c´omo los datos se amontonan o se aglomeran alrededor de cierto valor.
Nos interesa ese valor, esa tendencia central y tambi´en nos interesan medidas de variabilidad con respecto a ese valor.
Ejemplo de motivaci´on: Los 2 estudiantes.
Nos interesan estad´ısticos que resuman... ‘summary statistics’.
Departamento de Estad´ıstica
24
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Fuente: Gonick & Smith, 1993
2.4.1.
La media
Es la medida de tendencia central m´as com´ un.
Es el promedio aritm´etico de un conjunto de mediciones (suma de todas las observaciones dividida entre el n´umero de observaciones).
Conceptualmente, sabemos que existe una media poblacional. Que no conocemos pero que est´ a ah´ı y la podemos definir. Se suele denotar por µ: N 1 µ = X k N k=1
La media muestral o promedio muestral se suele denotar por x¯ 1 x¯ = n Departamento de Estad´ıstica
25
n
k=1
xk
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
¿En qu´e casos conviene utilizar la media como medida de tendencia central y en qu´e casos no?
¿Alguna alternativa?
Departamento de Estad´ıstica
26
Emilio L´ opez Escobar
2.4.2.
EST-24104: Estad´ıstica Aplicada I
La mediana
Es el percentil del 50 % (veremos percentiles m´as adelante).
Es el valor que, una vez ordenados los datos, los divide en 2 partes con mismo n´umero de observaciones.
En otras palabras, una vez obtenida la mediana, el 50 % de los datos est´an por debajo o igual a ese valor y el 50 % est´an por arriba.
En textos, regularmente se denota a la mediana poblacional (la que no conocemos pero que sabemos existe) con una M y a la mediana muestral con una m.
Ejemplo:
Departamento de Estad´ıstica
27
Emilio L´ opez Escobar
2.4.3.
EST-24104: Estad´ıstica Aplicada I
Percentiles o medidas de posici´ on
Si queremos describir todav´ıa m´as a una distribuci´on emp´ırica, est´an los percentiles. Con ellos podemos comparar dos distribuciones, por ejemplo. O focalizarnos en los extremos o en alg´un lugar especifico de una distribuci´on. Para entender los percentiles, la forma m´as f´acil es explicar los percentiles m´as utilizados... Veamos primero estos y luego regresamos a los percentiles. As´ı como el percentil 50 es la mediana, que corta en 2 nuestra distribuci´on, nos interesan tambi´en aquellas medidas que cortan en 4 partes nuestra distribuci´on. Estos son los cuartiles.
Cuartiles. Son valores que dividen al conjunto de observaciones ordenadas en cuatro partes. Son las abscisas que tienen por debajo al 25 %, 50 % (mediana), y el 75 % de los valores de la distribuci´on de frecuencias. El cuartil inferior o primer cuartil. Es aquel que acumula 25 % de las observaciones. Notar que este ser´ıa la mediana de los datos inferiores a la mediana original con todos los datos. El cuartil superior o tercer cuartil. Es aquel que acumula 75 % de las observaciones.
De modo que los percentiles es la generalizaci´on de lo anterior para cualquier porcentaje acumulado. Existe tambi´en el concepto de deciles. Ya se imaginar´an... Departamento de Estad´ıstica
28
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Ejemplo, a partir de un diagrama de hoja y tallo. Suponga que tiene 31 observaciones que producen el siguiente diagrama:
¿Cu´al es la mediana? ¿Cu´al es el primer cuartil? ¿Cu´al es el tercer cuartil? ¿Y el segundo cuartil? ¿Y el primer decil?
Departamento de Estad´ıstica
29
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
on geom´etrica de la media 2.4.4. Interpretaci´
Departamento de Estad´ıstica
30
Emilio L´ opez Escobar
2.5.
EST-24104: Estad´ıstica Aplicada I
Estad´ısticos Descriptivos: Medidas de dispersi´ on
Hemos podido resumir el sentido de un conjunto de datos pero a´un nos falta dar medidas de dispersi´on para caracterizarlo bien.
Recuerden el ejemplo de los estudiantes. Nos interesa qu´e tan dispersos est´ an los datos con respecto, regularmente, a las medidas de tendencia central como la media.
Amplitud o Rango (R): Es la medida de dispersi´on m´as simple de todas. Mide la distancia entre el m´aximo y el m´ınimo de los valores observados. R = Amplitud = valor m´aximo - valor m´ınimo
De modo que podemos comparar dos distribuciones de datos. Nos podemos dar cuenta cu´al est´a m´as dispersa. Esto ser´a bueno o malo seg´un lo que estamos estudiando.
Amplitud Intercuart´ılica (AI): Es la distancia que hay entre los cuartiles 1 y 3. AI = q3 - q1
Departamento de Estad´ıstica
31
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Luego tenemos a la siguiente medida basada en las desviaciones de cada valor con respecto a la media.
Varianza (σ2 ): (Poblacional) Suma las desviaciones cuadr´aticas de las observaciones con respecto a la media poblacional y las divide entre el n´umero de observaciones en la poblaci´on. N
σ
2
1 = (X k N k=1
− µ)
2
¿Por qu´e esta definici´on?
¿Por qu´e desviaciones al cuadrado? ¿Qu´e pasa si no tenemos ese cuadrado?
Si lo que tenemos es una muestra o subconjunto de datos observados de la poblaci´on. Entonces tenemos a la varianza muestral s =
n
− 1
2
n
1
k=1
(xk
2
− ¯x)
Esa varianza muestral nos sirve para estimar la varianza poblacional. Es posible demostrar que se obtiene una mejor estimaci´on utilizando n 1 en lugar de n.
−
Departamento de Estad´ıstica
32
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Notar que las unidades en que se expresa la varianza son el cuadrado de las unidades originales, por lo que se acostumbra aplicar la ra´ız cuadrada a las definiciones anteriores para tener una medida de dispersi´on que tenga las unidades originales.
Obtenemos entonces la desviaci´on est´andar (σ y s) σ =
√
s =
√
y
σ2
s2
Coeficiente de Variaci´ on (CV): Este mide la dispersi´on relativa de un conjunto de datos. Relativiza la dispersi´on con respecto a la media. CV =
σ µ
¿Relativizar? Ejemplo de los millones de d´olares.
De modo que podemos expresar la dispersi´on en t´erminos de la media (porcentaje), con la gran ventaja de que este coeficiente es independiente de las unidades de medici´on ¿por qu´e?
Entonces por eso resulta muy ´util para hacer comparaciones de variabilidad en diversos datos. Departamento de Estad´ıstica
33
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Ejemplo (datos de la sesi´on pr´ actica en R): Billetes suizos (francos viejos).
Tenemos un conjunto de datos con 200 observaciones. Se trata de mediciones de billetes suizos. La mitad de las observaciones son de billetes genuinos mientras que la otra mitad se trata de billetes falsos.
Se midieron las siguientes variables que se expresan en el dibujo: X 1 = Largo del billete. X 2 = Ancho izquierdo del billete. X 3 = Ancho derecho del billete. X 4 = Margen inferior de la figura del billete. X 5 = Margen superior de la figura del billete. X 6 = Diagonal del billete.
Departamento de Estad´ıstica
34
Emilio L´ opez Escobar
2.5.1.
EST-24104: Estad´ıstica Aplicada I
Diagramas de Caja y Brazo
Ver clase pr´actica en R.
Importante saber los nombres y c´omo se construye cada elemento del gr´afico.
2.5.2.
Diagramas de Dispersi´ on
Ver clase pr´actica en R.
Importante saber los nombres y c´omo se construye cada elemento del gr´afico.
2.5.3.
Diagramas de Burbujas
Ver clase pr´actica en R.
Importante saber los nombres y c´omo se construye cada elemento del gr´afico.
Departamento de Estad´ıstica
35
Emilio L´ opez Escobar
2.5.4.
EST-24104: Estad´ıstica Aplicada I
Diagramas de Estrella
Ver clase pr´actica en R.
Importante saber los nombres y c´omo se construye cada elemento del gr´afico.
2.5.5.
Gr´aficos de Viol´ın
Ver clase pr´actica en R.
2.5.6.
Gr´ aficos de probabilidades (Q-Q plots)
Ver clase pr´actica en R.
Departamento de Estad´ıstica
36
Emilio L´ opez Escobar
2.6.
EST-24104: Estad´ıstica Aplicada I
Estad´ısticos Descriptivos: medidas de asociaci´ on lineal
Ya vimos gr´aficamente algo sobre asociaci´on de variables utilizando diagramas de dispersi´on.
Para medir la asociaci´on de dos variables se tiene el coeficiente de correlaci´ on
Motivemos gr´aficamente al coeficiente de correlaci´on en el pizarr´on...
Entonces tenemos a la covarianza muestral entre X y Y definida como: Cov(X, Y ) =
n
− 1
n
1
(xi
i=1
− ¯x)(y − ¯y) i
Tiene como unidades el producto de las unidades de X por las unidades de Y .
En la pr´actica resulta conveniente eliminar la dependencia de la covarianza con las unidades de medici´on de las variables. Entonce se divide la covarianza entre el producto de las desviaciones est´andar de cada variable.
Departamento de Estad´ıstica
37
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
on muesSe obtiene entonces lo que se denomina coeficiente de correlaci´ tral, usualmente abreviado como r, Corr(X, Y ) = r =
n i=1 (xi
− ¯x)(y − ¯y) i
sX sY
Entonces r ya no depende de unidades.... Ejemplo...
|r | ≤
1
Se le suele tambi´ en llamar coeficiente de correlaci´on lineal, porque la asociaci´on que mide es lineal.... Gr´afico en el pizarr´on.
De modo que si hay alg´un otro tipo de asociaci´on entre las variables en cuesti´ on, esta pasar´a inadvertida por r.
Por ello, como vimos en la clase pr´actica pasada, hay que acompa˜nar de gr´aficos nuestras conclusiones.
Importante: Ni los diagramas de dispersi´on, ni el coeficiente de correlaci´on deben tomarse como evidencia de causalidad.
Para concluir causalidad, se requiere de informaci´on externa de un experto en el fen´omeno estudiado. Departamento de Estad´ıstica
38
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Resumiendo:
La covarianza es una medida de dependencia o asociaci´on.
La covarianza mide s´olo dependencia lineal.
La covarianza es dependiente de la escala utilizada (unidades de medici´on).
Covarianza cero no implica independencia.
La independencia implica covarianza cero.
Una covarianza negativa corresponde a un gr´afico de dispersi´on con pendiente negativa.
La covarianza de una variable consigo misma es la varianza de la variable.
La correlaci´on es una medida de dependencia o asociaci´on estandarizada.
Departamento de Estad´ıstica
39
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
El valor absoluto de la correlaci´on siempre ser´a menor o igual a 1.
La correlaci´on s´olo mide dependencia lineal.
Existen dependencias no-lineales que tienen correlaci´on cero.
Una correlaci´on cero no implica independencia.
Independencia implica correlaci´on cero.
Una correlaci´on negativa corresponde a una pendiente negativa en un diagrama de dispersi´on.
Una correlaci´on positiva corresponde a una pendiente positiva en un diagrama de dispersi´on.
Departamento de Estad´ıstica
40
Parte III
Introducci´ on al Muestreo
41
CAP´ITULO 3
El objetivo del muestreo y el marco muestral
42
Emilio L´ opez Escobar
3.1.
EST-24104: Estad´ıstica Aplicada I
El objetivo del muestreo
Hay una poblaci´ on finita (conjunto de elementos) de la cual nos interesa conocer alguna(s) caracter´ıstica(s).
Nos aproximaremos a esta poblaci´on mediante una muestra (subconjunto de elementos).
Se trata entonces de inferir sobre ciertas propiedades de una poblaci´ on a partir de la informaci´on parcial de ´esta.
Departamento de Estad´ıstica
43
Emilio L´ opez Escobar
3.2.
EST-24104: Estad´ıstica Aplicada I
El objetivo del muestreo: gr´ afico
Departamento de Estad´ıstica
44
Emilio L´ opez Escobar
3.3.
3.3.1.
EST-24104: Estad´ıstica Aplicada I
Inferir o generalizar... Siempre inferimos, siempre generalizamos...
Notemos que siempre estamos infiriendo.
No podemos estar experimentando exhaustivamente todas las cosas o vivencias... inferimos a partir de una peque˜na muestra.
Probamos y luego decidimos, inferimos sobre el resto.
Ejemplo: Enolog´ıa.... ¿Otros ejemplos?
Como tenemos memoria, siempre estamos en proceso de inducci´ on... generalizamos a partir de informaci´ on parcial.
Departamento de Estad´ıstica
45
Emilio L´ opez Escobar
3.3.2.
EST-24104: Estad´ıstica Aplicada I
¿Inferir es aprender?...
Ejemplo: Opiniones formadas.... ¿Ustedes qu´e creen?
Departamento de Estad´ıstica
46
Emilio L´ opez Escobar
3.4.
3.4.1.
EST-24104: Estad´ıstica Aplicada I
Inferir o generalizar sobre U a partir de s Un ejemplo equivocado...
Un ejemplo del Lohr (1999).
En el libro: Mujeres y amor: Una revoluci´ on cultural en progreso por Shere Hite (1987) se encuentran los siguientes resultados:
84 % de las mujeres est´an “no satisfechas emocionalmente con su relaci´on sentimental” (p. 804) 70 % de todas las mujeres “casadas 5 o m´as a˜nos tienen relaciones sexuales fuera de sus matrimonios” (p. 856) 95 % de las mujeres “reportan formas de abuso emocional o psicol´ogico de parte de hombres con quienes est´an en una relaci´on amorosa” (p. 810) 84 % de las mujeres reportan formas de desd´ en o indiferencia por parte de los hombres en su relaci´on amorosa (p. 809)
Resultados citados y criticados bastante en Estados Unidos por peri´odicos y revistas. ¿Por qu´e tan criticado? ¿Ser´a informaci´on que ofende?
El estudio de Hite discute temas de inter´es, no obstante su error es generalizar a todas las mujeres por el s´olo hecho de haber o no participado en su encuesta .
Departamento de Estad´ıstica
47
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Tal generalizaci´ on no es posible porque:
La muestra fue auto-seleccionada. Las mujeres que recib´ıan el cuestionario por correo decid´ıan si estar´ıan en muestra o no. Hite mand´o 100,000 cuestionarios y s´olo le regresaron 4.5 % Los cuestionarios llegaron mediante asociaciones profesionales de mujeres, grupos de trabajo, iglesias, etc. y dejaron fuera a todas las dem´ as mujeres que no acud´ıan a tales lugares La encuesta tiene 127 preguntas abiertas y varias preguntas ten´ıan varias partes ¿Qui´en tender´ıa a contestar tales preguntas? Muchas preguntas son vagas y usan palabras como “amor”. Un concepto de muchas interpretaciones - sin criterios v´alidos o comparables. Muchas de las preguntas son tendenciosas. Por ejemplo: “¿Tu esposo/amante te ve como igual? ¿O hay veces en que parece que ´el te trata como alguien inferior? ¿O no te deja tomar decisiones? ¿O act´ua superior? (p. 795)”
Hite escribe: “¿Es posible que una investigaci´on no basada en la probabilidad o en una muestra aleatoria permita generalizar sus resultados a la gran poblaci´on? Si el estudio es lo suficientemente grande y la muestra lo suficientemente amplia y si una generaliza con cuidado, s´ı. (p. 778)”
Para un estad´ıstico muestrista la respuesta es no. La muestra final no representa a las mujeres de los Estados Unidos y los estad´ısticos obtenidos s´olo describen a las mujeres que decidieron responder.
Departamento de Estad´ıstica
48
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Entonces, por ejemplo...
¿son v´alidos los sondeos por Internet?
¿son v´alidos los cuestionarios por correo electr´ onico a empleados de una empresa?
¿son v´alidas las generalizaciones que se hacen a partir de este tipo de sondeos?
La respuesta es: s´ı son v´alidos. Lo que puede no ser v´alido son las generalizaciones que se hagan.
Entonces, nos tenemos que fijar no s´olo en el ‘instrumento’ o cuestionario, sino qui´enes contestan, qu´e se infiere o generaliza. Abusados.
Esto aunque simple es un abuso muy com´un....
Departamento de Estad´ıstica
49
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
on: ¿Foto o pron´ostico? 3.4.2. Interpretaci´
Los votantes probables... ¿En qu´e consiste?
La estimaci´on directa... ¿En qu´e consiste?
¿Qu´e diferencia de interpretaci´on tiene?
¿Cu´al es mejor?
Departamento de Estad´ıstica
50
Emilio L´ opez Escobar
3.5.
EST-24104: Estad´ıstica Aplicada I
Sobre los 3 grandes enfoques te´ oricos del muestreo
Hay varias formas de resolver el mismo problema con matem´ aticas.
El objetivo o problema de muestreo puede tambi´en resolverse de varias formas.
Hay 3 principales enfoques o perspectivas, dependiendo de d´onde se encuentra (o se asume) est´a la estructura estoc´astica del problema.
Antes de definir cada enfoque... Vamos a ejemplificarlos..
Ejemplo: Observar el movimiento de una mano con un ojo y un tubo.
Departamento de Estad´ıstica
51
Emilio L´ opez Escobar
3.5.1.
EST-24104: Estad´ıstica Aplicada I
‘Design-based approach’
Lo importante: ¿C´omo fue extra´ıda la muestra? El muestrista puede elegir c´omo, lo crucial ser´a que considere este c´omo a la hora de estimar. Otros nombres: ‘muestreo’ a secas por colegas no expertos, ‘muestreo basado en dise˜no’, ‘muestreo con enfoque aleatorizado’, ‘muestreo directo’.
Fortalezas:
• Objetividad. Si se hace de manera documentada, nadie puede cuestionar la objetividad de la muestra, o el que haya o no sido seleccionada de acuerdo a un dise˜no de muestreo.
No se confundan. Notar que la objetividad no est´a ligada a la arbitrariedad del dise˜no de muestreo que elija el muestrista (e.g. una vez de acuerdo todos en c´omo se extraer´a la muestra no hay subjetividad). La aparente confusi´on es un argumento mal utilizado para atacar este enfoque.
• Exactitud (insesgamiento). Y conforme se aumente el tama˜no de muestra se tender´a al verdadero valor.
Debilidades:
• Tama˜nos de muestra grandes. Para obtener buenas estimaciones se
requieren tama˜nos de muestra considerables o de plano muy grandes.
• Elevados costos. Por el tama˜no de muestra grande necesita de m´as recursos econ´omicos.
Departamento de Estad´ıstica
52
Emilio L´ opez Escobar
3.5.2.
EST-24104: Estad´ıstica Aplicada I
‘Model-based approach’
Asume la existencia de una super-poblaci´on U ∗ que ‘gener´o’ a la poblaci´on U que tenemos enfrente a trav´es de un modelo. Lo importante: ¿el modelo? El muestrista tiene que elegir el modelo que impondr´a. El modelo determina qu´e partes son aleatorias y qu´e parte no lo son, tambi´en la estructura estoc´astica de la parte aleatoria. Otros nombres: ‘muestreo basado en modelos’, ‘muestreo con enfoque de super-poblaci´on’ (´areas peque˜nas, etc.). Notar que el modelo se impone subjetivamente. Se impone un modelo a algo que no se conoce. Fortalezas:
• Precisi´on (estabilidad de las estimaciones). • Se pueden manejar tama˜nos de muestra muy peque˜nos o de plano tama˜no de muestra cero.
• Encuestas muy econ´omicas. Debilidades:
• No insesgamiento. Ni siquiera aumentando el tama˜no de muestra te puedes quitar el sesgo.
• Subjetividad. (e.g. aunque todos estemos de acuerdo en el modelo, no es cierto, porque no conocemos la super-poblaci´on).
Ojo, no estoy diciendo que este enfoque sea equivocado. Claramente tiene sus ventajas (principalmente econ´omicas y muy fuertes). El problema es la subjetividad que puede echar abajo todo. Como siempre que se utilizan modelos, no hay forma alguna de saber si son ciertos. ¡Aguas! Departamento de Estad´ıstica
53
Emilio L´ opez Escobar
3.5.3.
EST-24104: Estad´ıstica Aplicada I
‘Model-assisted approach’
Lo importante: La informaci´on auxiliar disponible y los recursos computacionales. En palabras llanas, combina los dos anteriores. Otros nombres: ‘muestreo modelo asistido’, ‘estimaci´on GREG’.
Fortalezas:
• Robustez: ‘Siempre jala’. Aunque el modelo est´a mal especificado se
obtienen buenas estimaciones porque autom´aticamente se le da m´as peso a la parte design-based. Si el modelo est´a muy bien especificado (result´o ser muy realista) autom´aticamente el m´etodo da m´as peso a la parte model-based.
• Objetividad. • Exactitud (insesgamiento). • Precisi´on (estabilidad de las estimaciones). Debilidades:
• Para que de verdad funcione y mejore al design-based, lo necesario
para dar estimaciones (los g-weights) son a nivel m´aximo de desagregaci´ on (individuo - observaci´on). Los g-weights dependen de las probabilidades de inclusi´on de los individuos y de un par´ametro de variabilidad por individuo.
• Elevados costos inform´aticos (informaci´on, c´omputo, etc.). Departamento de Estad´ıstica
54
Emilio L´ opez Escobar
3.6.
EST-24104: Estad´ıstica Aplicada I
Marco muestral
Para extraer una muestra de la poblaci´on se requiere de algo que denominamos marco muestral, marco de muestreo o simplemente marco.
Este es una lista que me permitir´a: 1. Identificar los individuos de mi poblaci´on y proporcionarme informaci´on adicional ´util para un mejor uso del muestreo. ¿Cu´antos individuos hay en la poblaci´on, c´omo est´a dividida, etc.? 2. Acceder a los individuos o poder establecer contacto con ellos. ¿D´onde est´an, tel´efono, direcci´on, coordenadas, etc..?
En el peor de los casos si no existe una lista, un marco muestral puede ser: un mapa geogr´afico, una delimitaci´on en el plano cartesiano, el boot de un disco duro, el directorio de un CD, el directorio telef´onico, el listado nominal electoral, el padr´on de un partido pol´ıtico, etc.
Departamento de Estad´ıstica
55
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Lo importante es que el marco me esquematice a la poblaci´on de inter´es.
Problemas o imperfecciones en el marco muestral: Incompleto (No cobertura). Muy general (Muy grueso, sin detalle ni informaci´on adicional necesaria para muestrear). Desactualizado. Inexistente (el cl´asico problema en M´exico).
Mucha de la labor de muestreo tiene que ver con la construcci´on de un buen marco muestral.
Importante: los errores de marco pueden ser indetectables en la lectura de resultados de una muestra si en su construcci´on fueron obviados detalles, huecos, etc. Pueden llegar a ser grandes errores arrastrados . Un marco muestral equivocado puede ser un verdadero desastre.
En muestreos m´as complejos se requerir´a que el marco proporcione informaci´on adicional para la obtenci´on de estimaciones m´as precisas y esquemas de selecci´on m´as econ´omicos.
La bibliograf´ıa base del curso, S¨arndal et al.(1992), habla m´as sobre marcos muestrales y tambi´en aquella bibliograf´ıa cl´asica como el Kish (1965) que toca el tema de manera muy completa y hasta con sugerencias ante complicaciones.
Departamento de Estad´ıstica
56
Emilio L´ opez Escobar
3.7.
EST-24104: Estad´ıstica Aplicada I
Radiograf´ıa general de una encuesta por muestreo
Para ir familiariz´ andonos m´as con el problema al que da respuesta el muestreo (inferir sobre una poblaci´on a partir de un subconjunto de individuos) y con la nomenclatura (sin´onimos) de lo que utilizaremos, consideremos el siguiente listado muy sint´etico del proceso de una encuesta (una aplicaci´on muy natural del muestreo, ojo, pero no la ´unica).
1. Una encuesta tiene que ver con un conjunto de elementos denominado poblaci´ on finita.
2. Se dispone de una regla o listado que define de manera inequ´ıvoca a los elementos que pertenecen a la poblaci´on; a tal regla se le denomina marco muestral.
3. El objetivo de la encuesta es proveer de informaci´on sobre la poblaci´on finita o sobre subpoblaciones de especial inter´es, por ejemplo, hombres y mujeres como dos subpoblaciones; tales subpoblaciones son denominadas dominios de estudio o simplemente dominios .
4. Se tiene asociado un valor de una o m´as variables de estudio para cada elemento de la poblaci´on. El objetivo de la encuesta es obtener informaci´on ametros . sobre caracter´ısticas poblacionales o par´
Departamento de Estad´ıstica
57
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
5. Los par´ametros son funciones de los valores de las variables de estudio. Estos, son desconocidos y pueden ser medidas cuantitativas de inter´es para la investigaci´on en curso, por ejemplo, el ingreso total, el ingreso medio, n´umero de desempleados; para la poblaci´on entera o para dominios espec´ıficos.
6. En la mayor´ıa de las encuestas, la observaci´on y el acceso a los elementos individuales (en ocasiones denominados unidades de an´ alisis ) de la poblaci´on es establecido a partir de un marco muestral . Este asocia a los elementos de la poblaci´on con las unidades muestrales contenidas en el marco.
7. Una muestra (un subconjunto) de elementos se selecciona de la poblaci´on. Esto se lleva a cabo seleccionando unidades muestrales de un marco.
8. Una muestra es una muestra probabil´ıstica si fue obtenida mediante un mecanismo aleatorio y con ciertos lineamientos.
on de los elementos muestrales, esto es que, para 9. Se realiza una observaci´ on de las variables de cada elemento de la muestra, se hace una medici´ estudio y sus valores son registrados. Las mediciones son acorde a un plan de medici´ on bien definido.
Departamento de Estad´ıstica
58
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
10. Los valores registrados de las variables son utilizados para el c´alculo de estimaciones (puntuales) de los par´ametros poblacionales de inter´es (totales, medias, medianas, razones, coeficientes de regresi´on, etc.). Luego se realizan estimaciones de la precisi´ on de las estimaciones (los errores). Por u´ltimo, se publican los resultados.
En una encuesta por muestreo, el ejercicio de observaci´on se limita a un subcon junto de la poblaci´on. Un tipo especial de encuesta es aquella en donde toda la on completa. poblaci´on es observada; denominada censo o enumeraci´
¿Un censo significa autom´ aticamente la estimaci´on de un par´ametro sin errores?
¿Qu´e se suele hacer con los censos en lo que toca al gran n´umero de variables de estudio?
¿Cu´al es la tendencia cada vez m´as creciente en primer mundo con respecto a los censos?
Departamento de Estad´ıstica
59
Emilio L´ opez Escobar
3.8.
EST-24104: Estad´ıstica Aplicada I
Algunos comentarios para discutir
Considerando los ejemplos anteriores y lo hasta ahora visto, n´otese lo siguiente:
1. La complejidad de una encuesta por muestreo puede variar mucho.
2. Aunque una encuesta involucra observaciones individuales de los elementos de la poblaci´on, el prop´osito de la encuesta no es utilizar esos datos a nivel individual sino la obtenci´on de estad´ısticos resumen para la poblaci´ on o subgrupos espec´ıficos.
3. En la misma encuesta pueden haber muchas variables de estudio, muchos dominios de estudio, muchos par´ametros de inter´es y quiz´as muchos tipos de estos.
4. Una muestra es cualquier subconjunto de la poblaci´on. Puede o no ser extra´ıda mediante un mecanismo aleatorio. Nosotros nos concentraremos en aquellas probabil´ısticas . Un ejemplo de aquellas no probabil´ısticas son aquellas en las que un experto en la materia del estudio ligada a la encuesta decide la selecci´on de los individuos de modo que la muestra represente las caracter´ısticas de la poblaci´on de estudio.
Departamento de Estad´ıstica
60
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
olo en circunstancias “afortunadas” una selecci´o n no En general, s´ probabil´ıstica arrojar´ıa estimaciones adecuadas .
5. La correcta medici´ on y registro de informaci´on pude ser dif´ıcil y en ocasiones imposible. Respuestas falsas, no respuesta, rechazo a responder. Todos estos errores no muestrales pueden llegar a ser considerables.
6. Existe cada vez mayor posibilidad de la combinaci´on e incorporaci´o n de informaci´on proveniente de otras encuestas, diversas bases de datos gubernamentales (esto gracias a la ley federal de transparencia y acceso a la informaci´on p´ublica gubernamental - ¡hay que aprovecharla! ).
Departamento de Estad´ıstica
61
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
on de t´ ecnica a el objetivo del muestreo 3.8.1. Incorporaci´
Departamento de Estad´ıstica
62
Emilio L´ opez Escobar
3.8.2.
EST-24104: Estad´ıstica Aplicada I
Un ejemplo sobre el marco muestral (de Lohr, 1999)
Poblaci´on objetivo y poblaci´on muestreada en una encuesta telef´ onica de posibles votantes en una elecci´on. No todos los hogares tienen tel´efono, de modo que cierta cantidad de personas de la poblaci´on objetivo de posibles votantes no estar´an asociados a los n´umeros telef´onicos del marco muestral. En algunos hogares con tel´efono, los residentes no est´an empadronados para votar y entonces no son elegibles para la encuesta. Algunas personas que s´ı son elegibles y que est´an en el marco muestral no responden debido a varias razones: No pueden contestar, no quieren contestar, o son incapaces de contestar.
Departamento de Estad´ıstica
63
CAP´ITULO 4
Muestreo probabil´ıstico y extracci´on de la muestra
64
Emilio L´ opez Escobar
4.1.
EST-24104: Estad´ıstica Aplicada I
Muestreando probabil´ısticamente
Ahora... ¿C´omo es la extracci´on? ¿C´omo se extrae la muestra? Respuesta: Mediante muestreo probabil´ıstico . ´ es una forma de selecci´on de muestras que satisface ciertas condiciones . Este Si no, entonces no se le puede llamar probabil´ıstico.
4.1.1.
Muestreo en 1 etapa
Para el caso en el que se hace una selecci´ on directa de elementos de la poblaci´on, es decir, muestreo en una etapa; tales condiciones son las siguientes:
1. Es posible definir a = s1 , s2 , . . . , sM , el conjunto de todas las muestras posibles del esquema de selecci´on.
S {
}
2. Se tiene una probabilidad conocida de selecci´on p(s) asociada con cada posible muestra s .
∈ S
3. El esquema de selecci´on p( ), aunque est´a definido para s, ‘hereda’ a cada elemento k en la poblaci´on una probabilidad de ser seleccionado π k = 0.
·
Departamento de Estad´ıstica
65
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
4. Se selecciona una muestra s mediante un ‘mecanismo aleatorio’ que permita que cada s posible tenga exactamente la probabilidad p(s) de ser seleccionada.
N´otese que 1, 2 y 4 tienen que ver con muestras (subconjuntos de elementos de la poblaci´on) o probabilidades de obtener ´estas; mientras que 3 tiene que ver con elementos de la poblaci´on.
Se le denomina muestra probabil´ıstica a una muestra obtenida bajo estas cuatro condiciones.
La funci´on p( ) define una distribuci´on de probabilidad sobre
·
S = {s , s , . . . , s } , 1
2
M
el conjunto de todas las muestras posibles.
A la funci´on p( ) se le denomina funci´ on dise˜ no de muestreo o simplemente funci´ on dise˜ no. Es la que “matematiza” la forma en que previamente establecimos ser´a seleccionada la muestra.
·
La probabilidad mencionada en el punto 3 es denominada la probabilidad de inclusi´ on (en la muestra) de los elementos en la poblaci´on.
El proceso de aleatorizaci´on del punto 4 regularmente puede llevarse a cabo mediante un algoritmo f´acil (que muchas veces, trat´andose de situaciones est´andar , ya viene integrado a alg´un software estad´ıstico).
Departamento de Estad´ıstica
66
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Un tipo com´un de algoritmo es aquel en el que un experimento aleatorio se lleva a cabo para cada elemento listado en el marco indicando inclusi´on o no inclusi´on del elemento en la muestra (simulaci´on de distribuciones Uniformes y definiendo una probabilidad tope).
Ejemplo simple de Excel o en el Pizarr´on.
Departamento de Estad´ıstica
67
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Esquema de muestreo en 1 etapa
Departamento de Estad´ıstica
68
Emilio L´ opez Escobar
4.2.
EST-24104: Estad´ıstica Aplicada I
Muestreando en m´as de 1 etapa
La selecci´on de una muestra regularmente se lleva a cabo en dos o m´ as etapas.
Esto quiere decir que se seleccionan conglomerados de elementos en la etapa inicial por ejemplo y posteriormente se seleccionan individuos o elementos dentro de los conglomerados seleccionados.
Esto puede suceder en una o m´as etapas de muestreo ( submuestreo); los elementos tal cual son muestreados entonces hasta la ´ultima etapa.
Importante: En un dise˜no de muestreo probabil´ıstico de m´as de 1 etapa se tienen que cumplir las condiciones 1-4 en cada etapa.
4.2.1.
Muestreo en 3 etapas
Por ejemplo, pensemos que tenemos un muestreo en 3 etapas.
Para ello necesito un marco muestral organizado de manera “anidada” en 3 niveles.
Departamento de Estad´ıstica
69
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Esto es, tengo un marco muestral a partir de donde voy a extraer una muestra que est´a organizado en forma desagregada por niveles.
Por ejemplo, de la siguiente forma: 1. Manzanas (representado por rombos) compuesta de viviendas 2. Viviendas que estan conformadas por individuos 3. Individuos
La poblaci´on U de individuos est´ a organizada de modo que tengo una poblaci´on U I de manzanas, una poblaci´on U II de viviendas y una poblaci´on U II I de individuos.
La siguiente tabla ejemplifica esta estructura anidada en los datos.
Departamento de Estad´ıstica
70
Emilio L´ opez Escobar
Departamento de Estad´ıstica
EST-24104: Estad´ıstica Aplicada I
71
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Esquema de muestreo en 3 etapas
Departamento de Estad´ıstica
72
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Entonces, finalmente, se deber´a tener una probabilidad de inclusi´ on de ser seleccionado para cada uno de los elementos de la poblaci´ on sin importar el n´umero de etapas del esquema de muestreo.
Esto lo veremos m´as adelante, y se denominan las probabilidades de inclusi´on de individuos (elementos) de una poblaci´on en muestra.
Hay que tener cuidado en no confundir estas con la probabilidad de selecci´on de una muestra.
4.2.2.
Ventaja de las muestras probabil´ısticas sobre las no probabil´ısticas
La ventaja principal que tienen las muestras probabil´ısticas sobre las dem´as es que permiten el uso de la teor´ıa estad´ıstica para inferir sobre la poblaci´on de la que fueron tomadas.
Con esto se tiene la capacidad de producir medidas de error y de precisi´ on en t´ erminos probabil´ısticos .
Por u´ltimo, el muestreo probabil´ıstico garantiza la eliminaci´on de cualquier subjetividad en el proceso de selecci´ on de elementos en una muestra.
Departamento de Estad´ıstica
73
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Esa subjetividad ausente, es lo que coloquialmente algunos llaman sesgo. No obstante esta palabra tiene otras connotaciones estad´ısticas.
Es por ello que las muestras obtenidas mediante muestreo probabil´ıstico son objetivas y por lo tanto gozan de mayor aceptaci´on.
4.2.3.
Muestreo en 2 etapas
Con lo ´unico que se sabe del ejemplo anterior de 3 etapas...
R´apidamente... ¿C´omo podr´ıa mejorar el dise˜no de muestreo anterior?
¿M´as etapas implica un mejor dise˜no?
¿M´as etapas implica un dise˜no m´as econ´omico?
¿Hay respuesta absoluta a estas preguntas?
Departamento de Estad´ıstica
74
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Esquema de muestreo en 2 etapas
Departamento de Estad´ıstica
75
CAP´ITULO 5
Estimaci´ on a partir de muestras probabil´ısticas
76
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
5.1. Poblaci´ on, muestra y selecci´ on on, U , un conjunto finito de N elementos etiquetados Consid´erese la poblaci´ k = 1, . . . , N , (5.1) u1 , . . . , uk ,...,uN
{
}
Por simplicidad, representemos al elemento k-´esimo, u k , ´unicamente por su etiqueta k. De modo que: def
U = 1, . . . , k , . . . , N
{
}
(5.2)
no de Por lo pronto, tomaremos como conocido a N , que representar´a el tama˜ la poblaci´ on.
Ahora, consid´erese a y la variable de estudio , y sea yk , k U el valor de la variable y para el k-´esimo elemento de la poblaci´on U . Sabemos que yk existe pero la desconocemos.
∈
Sup´ongase que interesa el total poblacional t de la variable y, t =
def
yk =
yk
(5.3)
U
k∈U
o de la media poblacional y U de la variable y, yU = t/N =
U
Departamento de Estad´ıstica
77
yk /N
(5.4)
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
N´otese que cuando y toma ´unicamente los valores 0 y 1 tendr´ıamos que on. yU es una proporci´
on es una media y la media es un total Entonces, como una proporci´ dividido entre la constante N , plantearemos todo en t´ erminos del problema de estimar al total t.
Esto, de nuevo es otra generalizaci´on del libro base del curso que antes no se efectuaba en libros tradicionales.
Para la estimaci´o n de t a partir de una muestra probabil´ıstica s, subconjunto de elementos de la poblaci´on U seleccionados mediante un mecanismo aleatorio, tendremos que observar los valores que toma y k , k s; es decir, los valores de y u´nicamente para aquellos elementos que fueron seleccionados en la muestra probabil´ıstica.
∈
Esto es, se generar´an estimaciones de t con la informaci´on que contengan las y k , k s.
∈
Departamento de Estad´ıstica
78
Emilio L´ opez Escobar
5.2.
EST-24104: Estad´ıstica Aplicada I
La funci´ on dise˜ no de muestreo
Ya tenemos definida nuestra poblaci´on U de tama˜no N , le extraeremos una muestra probabil´ıstica s mediante un esquema aleatorio de selecci´on.
De modo que es posible (aunque no siempre sencillo) determinar la probabilidad de selecci´on p(s) de la muestra espec´ıfica s.
Asumimos que existe la funci´on p( ) tal que p(s) indica la probabilidad de seleccionar s bajo el esquema utilizado.
·
on dise˜ no de muestreo. A la funci´on p( ) la denominaremos funci´
·
Es fundamental pues determina las propiedades estad´ısticas de las cantidades aleatorias calculadas a partir de la muestra... por eso son aleatorias, porque no sabemos qu´e muestra estamos observando.
Por ejemplo: la distribuci´on muestral, el valor esperado y la varianza de la media muestral, la mediana muestral y la varianza muestral.
Estas cantidades aleatorias vendr´ıan siendo lo que en cursos como Inferencia Estad´ıstica se denominan estimadores, i.e. funciones con variabilidad pues dependen de un conjunto aleatorio. Departamento de Estad´ıstica
79
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Para un dise˜no de muestreo dado p( ), se puede entonces considerar cualquier muestra s como la realizaci´on de la variable aleatoria (o output del evento aleatorio) S , cuya distribuci´on de probabilidad queda explicitada mediante la funci´on p( ).
·
·
Sea el conjunto de todas las muestras s posibles. Entonces, es un conjunto de 2N subconjuntos de U , si incluimos al conjunto vac´ıo y tambi´en al conjunto U mismo; i.e. con un mismo dise˜no muestral se tienen un total de 2N muestras posibles incluyendo a la muestra vac´ıa y a la muestra censal.
S
S
Entonces tenemos que: P r S = s = p(s)
{
para cualquier s , tenemos
S
(5.5)
}
∈ S . Como p(s) es una distribuci´on de probabilidad sobre ≥ 0, ∀s ∈ S
i. p(s) ii.
s∈S
p(s) = 1
(5.6) (5.7)
N´otese que muchas de las 2N muestras contenidas en pueden tener de hecho probabilidad cero. El subconjunto de compuesto de aquellas s cuyas p(s) son estrictamente mayores que cero constituyen el conjunto de
S
Departamento de Estad´ıstica
80
S
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
muestras verdaderamente posibles. Ellas ser´an las ´unicas que podr´an ser extra´ıdas seg´un el dise˜no especificado.
El tama˜ no de muestra, ns , es el n´umero de elementos en s, es decir la cardinalidad del conjunto s.
ns no es necesariamente el mismo para todas las muestras posibles, esto depender´ıa del dise˜no de muestreo utilizado.
El dise˜no de muestreo p( ), como ya se dijo, determina las propiedades estad´ısticas de las cantidades calculadas a partir de la muestra. No obstante, p( ) es principalmente una herramienta matem´atica, un constructo te´ orico, no pr´actico per se para la extracci´on de una muestra. Pero s´ı fundamental para el desarrollo de toda la teor´ıa que sostiene el muestreo probabil´ıstico.
·
·
Es importante la elecci´on del dise˜no de muestreo y a su vez la simultanea elecci´on de un esquema de selecci´on que haga posible la implementaci´on del dise˜no. Ambos tienen que estar ligados .
En otras palabras, la realidad de mi forma de extraer muestras tiene que estar perfectamente compaginada con la teor´ıa que asumo para la extracci´on y/o proceso de inferencia.
Departamento de Estad´ıstica
81
Emilio L´ opez Escobar
5.3.
EST-24104: Estad´ıstica Aplicada I
Probabilidades e indicadoras de inclusi´ on
Suponga que determinado dise˜no de muestreo p(s) ha quedado establecido , i.e. que se tiene una forma matem´atica para p(s).
5.3.1.
Las indicadoras de inclusi´ on muestral
on de un elemento determinado k en una muestra es un Entonces, la inclusi´ evento aleatorio indicado por la variable aleatoria I k , denominada la indicadora de inclusi´ on muestral del elemento k, definida como, I k =
1 si k S 0 en otro caso
∈
(5.8)
N´otese que I k = I k (S ) es una funci´on de la variable aleatoria S .
5.3.2.
Las probabilidades de inclusi´ on
De modo que la probabilidad de que el elemento k est´e en muestra es π k donde, πk = P r k S = P r I k = 1 =
{ ∈ }
Departamento de Estad´ıstica
{
82
}
p(s)
sk
(5.9)
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Y la probabilidad de que los elementos k y l est´an simult´aneamente en muestra, πkl = π lk = P r k&l S = P r I k I l = 1 =
{ ∈ }
{
}
(5.10)
p(s)
sk&l
Tambi´en, tenemos que,
πkk = P r I k2 = 1 = P r I k = 1 = π k ,
{
∀k = 1, . . . , N
}
(5.11)
Formalmente para evitar abusos de notaci´on, en la ecuaci´on (5.9) lo escrito como k S debe ser interpretado como el evento aleatorio S k , el cual es el evento una muestra en cuya realizaci´ on contiene al elemento k.
{ ∈ }
{ }
Entonces, dado p( ), se tienen asociados N valores,
·
π1 , . . . , πk , . . . , πN
(5.12)
denominadas las probabilidades de inclusi´on de primer orden . Tambi´en est´an asociados N (N 1)/2 valores,
−
π12 , π13 , . . . , πkl , . . . , πN
−1,N
(5.13)
denominadas las probabilidades de inclusi´on de segundo orden .
Desde luego, as´ı le podemos seguir con probabilidades de inclusi´on de tercer orden, etc... partiendo de p( ), pero no ser´an necesarias para este curso y tampoco son necesarias para dise˜ nos com´unmente usados.
·
Departamento de Estad´ıstica
83
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Usualmente el dise˜no de muestreo se escoge en funci´on de la facilidad para el c´alculo de las probabilidades de inclusi´on de primero y segundo orden.
Tambi´en se busca un compromiso entre que sea f´acil manejo t´ecnico y factible llevar tal selecci´on a la realidad.
Por otro lado, p( ) pueda llegar a ser complicada pero eso no afecta tanto mientras podamos obtener las πk y las π kl .
·
Como veremos, es posible alcanzar uno de los objetivos principales, la obtenci´ on del valor esperado y la varianza de ciertas cantidades calculadas a partir de la muestra, a partir de las π k y las πkl u´nicamente.
5.3.3.
Comentarios sobre las probabilidades de inclusi´ on
Formalmente, hemos visto en la secci´on 4.1 en el punto 3, que para que una muestra sea considerada una muestra probabil´ıstica, se tendr´ıa que cumplir que π k > 0, k U .
∀ ∈
actica a veces se le asigna probabilidad cero a algunos No obstante, en la pr´ individuos en la poblaci´on de modo que estos nunca salgan en muestra.
Departamento de Estad´ıstica
84
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Esta pr´ actica (previa a la extracci´on de la muestra) tiene como objeto eliminar de posibles muestras a individuos que se sabe no importante la informaci´on que aportan. Desde luego, esta es una pr´actica delicada porque varias expresiones tienen estos valores como denominador.
En el muestreo directo de individuos (es decir, una sola etapa de muestreo), todas las πk , k = 1, . . . , N son (y deben ser) normalmente conocidas antes de la extracci´ on de la muestra.
En dise˜nos de muestreo m´ as complejos esto no es posible o resulta muy complicado. Sin embargo, en muestreo de varias etapas, conocer todas las πk y las πkl no es indispensable pues basta con el conocimiento a priori de las probabilidades de inclusi´on para las unidades de muestreo al momento de la extracci´on en cada etapa .
En otras palabras, basta con conocerlas previo a muestrear en cada etapa. As´ı lo podemos apreciar en el siguiente gr´afico.
Departamento de Estad´ıstica
85
Emilio L´ opez Escobar
Departamento de Estad´ıstica
EST-24104: Estad´ıstica Aplicada I
86
Emilio L´ opez Escobar
5.3.4.
EST-24104: Estad´ıstica Aplicada I
Estad´ısticos bajo el dise˜no muestral
En Estad´ıstica el t´ermino estad´ıstico es una funci´on que toma valores reales cuyo valor puede variar acorde con las diferentes realizaciones de determinado experimento.
En muestreo, queremos examinar c´omo un estad´ıstico var´ıa de la realizaci´ on de una muestra s seg´ un var´ıe el conjunto aleatorio S .
on muestra a muestra es lo que nos interesa . Es decir, la variaci´
Si Q(S ) es una funci´on real del conjunto aleatorio S , esta funci´o n tomar´a valores una vez que se tenga la realizaci´on s de S y se tengan recolectados los datos de los elementos que componen a s.
En la pr´actica cuando una muestra es extra´ıda, exactamente una realizaci´on s del conjunto aleatorio S ha ocurrido.
Una vez que s se realiz´o, asumimos que es posible medir la o las variables de inter´es, e.g. y y z , para cada elemento k s.
∈
Por ejemplo para el estad´ıstico Q(S ) = S yk / S z k , despu´es de la medici´on, podemos calcular (la realizaci´on del estad´ıstico) Q(s) = s yk / s z k . Departamento de Estad´ıstica
87
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
¡Importante!. En este ejemplo y y z son variables en el sentido matem´atico determin´ıstico o de bases de datos...
i.e. pueden tomar posibles valores diferentes yk y z k para k s. No obsan tratados como variables aleatorias . tante, y y z no ser´
∈
¿Por qu´e esto u´ltimo?
Departamento de Estad´ıstica
88
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
¡Importante!. La naturaleza aleatoria del estad´ıstico Q(S ) recae solamente del hecho de que el conjunto S es aleatorio.
Es muy importante que esto quede claro . La aleatoriedad reside en cu´ al muestra fue extra´ıda y no en los posibles valores de las variables de inter´ es en los elementos de la muestra.
Consideraremos que los valores de las variables de inter´es son dados ( fijos) en los elementos, no son aleatorios pero s´ı son desconocidos.
La incertidumbre vendr´ a, entonces, de la muestra que utilizaremos y no de lo que medimos en los elementos que componen la muestra.
Como el estad´ıstico Q(S ) es una variable aleatoria, ´esta tiene varias propiedades estad´ısticas.
Departamento de Estad´ıstica
89
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Definici´ on 5.3.4.1 La esperanza y la varianza del estad´ıstico Q = Q(S ) se definen, respectivamente, por las siguientes expresiones,
E (Q) =
(5.14)
p(s)Q(s)
s∈S
2
V (Q) = E [Q
− E (Q)] p(s) [Q(s) − E (Q)]
=
(5.15)
2
(5.16)
s∈S
La covarianza entre dos estad´ısticos Q 1 = Q 1 (S ) y Q 2 = Q2 (S ) se define por, C (Q1 , Q2 ) = E [Q1 =
− E (Q )][Q − E (Q )]} p(s)[Q − E (Q )][Q − E (Q )].
{
1
1
2
1
2
2
2
(5.17)
(5.18)
s∈S
N´ otese (de nueva cuenta) que estas definiciones hacen referencia a la variaci´ on sobre todas las muestras posibles que pueden ser obtenidas bajo el dise˜no de muestreo dado, p(s).
Entonces, ¿hacia donde vamos?
Para hacer ´enfasis, algunos textos de muestreo utilizan los t´erminos esperanza dise˜no, varianza dise˜no y covarianza dise˜no. Aqu´ı no utilizaremos la palabra dise˜ no (como apellido) en estos estad´ısticos.
No hay riesgo de mala interpretaci´on porque todo lo estamos viendo bajo el enfoque basado en dise˜no. Departamento de Estad´ıstica
90
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Los estimadores que nos interesan son los que pueden expresarse como funciones de las indicadores de inclusi´on muestral definidas en la ecuaci´on (5.8).
Es importante entonces describir las propiedades b´asicas de los estad´ısticos I k = I k (S ), para k = 1, . . . , N .
Resultado 5.3.1.1 Para un dise˜ no de muestreo p(s) arbitrario, y para k, l = 1, . . . , N , E (I k ) = πk
V (I k ) = πk (1 C (I k , I l ) = πkl
−π ) − π π = ∆
(5.19) (5.20)
k
def
k
l
kl
(5.21)
Demostraci´ on. Tarea opcional 1 para la pr´o xima clase, antes de su comienzo (clase despu´ es del examen). Se entrega por e-mail -LaTeX o algo legible escaneado-, les tengo que confirmar recepci´ on, revisar´ e mi correo antes de comenzar la clase.
Dependiendo del dise˜no, C (I k , I l ) puede ser positiva, negativa o cero. N´otese que si k = l, (5.22) V (I k ) = ∆kk
Departamento de Estad´ıstica
91
Emilio L´ opez Escobar
5.4.
EST-24104: Estad´ıstica Aplicada I
Muestreo Bernoulli (BE)
N elementos en un marco muestral con cierto orden, que no nos interesa.
De antemano, se fija π constante, 0 < π < 1, i.e. πk = π, k U
∀ ∈
Sean ε1 , . . . , εN un conjunto de N realizaciones independientes de una variable aleatoria Unif (0, 1).
La selecci´on o no del elemento k-´esimo se decide de la siguiente forma: Si ε k < π, entonces k es seleccionado, de otro modo no. k = 1, . . . , N .
Entonces, la probabilidad de seleccionar al individuo k-´esimo es: P r εk < π
{
}
= π,
∀k ∈ U.
Y tenemos que para k = los eventos k s y s son independiente.
{ ∈ } { ∈ }
El n´umero de elementos seleccionados ns = #(s) =
U
Departamento de Estad´ıstica
92
I k ,
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
se distribuye Bin(N, π). Es decir, n s no es fijo, es una variable aleatoria. P r ns = n
{
}
=
N n π (1 n
N −n
− π)
, n = 1, . . . , N .
De modo que: E BE [ns ] = Nπ
y
VBE (ns ) = N π(1
− π)
Y entonces tenemos que: p(s) = π ns (1
N −ns
− π)
Notar que no tenemos que conocer N para determinar las π’s.
no de muestra es aleatorio , pero sabemos como se Notar que el tama˜ comporta.
Ojo: Esto no es un modelo impuesto. Predefinimos que as´ı ser´ıa la selecci´on de individuos, con una probabilidad fija π.
¿En qu´e casos es ´util este dise˜no de muestreo?
¿Alg´un ejemplo real?
Departamento de Estad´ıstica
93
Emilio L´ opez Escobar
Departamento de Estad´ıstica
EST-24104: Estad´ıstica Aplicada I
94
Emilio L´ opez Escobar
5.5.
EST-24104: Estad´ıstica Aplicada I
Muestreo Aleatorio Simple (SI)
Queremos seleccionar espec´ıficamente n elementos de una poblaci´on de N sin reemplazo y donde cada selecci´on sea con igual probabilidad.
Lo m´as f´acil es imaginarlo como si seleccion´aramos n elementos de una urna con N elementos. Elemento que fue seleccionado se separa y se siguen extrayendo elementos de la urna hasta alcanzar una muestra de tama˜no n.
Hay varias formas de llevar a cabo este esquema de selecci´on. El m´as sencillo es un procedimiento ‘basado en extracciones’, tal cual como se mencion´ o, con una urna o con ‘papelitos’: 1. Seleccionar con igual probabilidad 1/N al primer elemento de entre N posibles y apartarlo. 2. Seleccionar con igual probabilidad 1/(N 1) al segundo elemento de entre los restantes N 1 y apartarlo.
−
−
.. .
n. Seleccionar con igual probabilidad 1/(N n + 1) al n-´esimo elemento de entre los restantes N n + 1 despu´es de n 1 extracciones y apartarlo.
−
−
¿Otra forma? ¿Se les ocurre otra forma?
Otra forma es ‘sigui´endose’: Departamento de Estad´ıstica
95
−
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
1. Seleccionar con igual probabilidad 1/N al primer elemento de entre N posibles y reemplazarlo (devolverlo a la urna). 2. Repetir el paso anterior ν veces hasta obtener n elementos distintos, P r ν n = 1.
{ ≥ }
¿Otra forma? ¿Se les ocurre otra forma?
Otra forma es, grosso modo, convirtiendo el primer esquema en un esquema ’secuencial de lista’ (Fan, Muller & Rezucha, 1962). 1. Se generan ε 1 , ε2 , . . . realizaciones Unif (0, 1) independientes. Seleccionar el primer elemento si ε 1 < n/N , si no, no. 2. Para los siguientes elementos k = 2, 3, . . ., sea n k el n´umero de elementos que hemos seleccionado entre los primeros k 1 elementos en la lista de la poblaci´on (marco). Si
−
εk <
n nk N k + 1
− −
se elige el elemento k-´esimo, si no, no. 3. El procedimiento termina cuando n k = n.
¿Otro? S´ı, uno muy f´acil que yo llamo ‘con hojita de Excel’. Pizarr´on.
1. Se generan ε 1 , ε2 , . . . , εN realizaciones Unif (0, 1) independientes.
Departamento de Estad´ıstica
96
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
2. Ordenar la poblaci´on acorde con estas variables generadas. Y elegir los primeros n elementos.
´ Este ´ultimo tiene la particularidad de generar tantas muestras SI como yo quiera y que adem´as no se traslapen (‘negatively coordinated samples’).
¿Desventajas de estos esquemas? ¿Alternativas?
De modo que, bajo SI tenemos que: p(s) =
1/ 0
N n
si #(s) = n, en otro caso .
Y usando la definiciones que vimos, podemos calcular π k y π k .
−1 Tenemos exactamente N muestras s que tienen al elemento k-´esimo, n−1 −2 y N muestras s que tienen a los elementos k y -´esimo (k = ). n−2
Dado que todas las muestras de tama˜no n tienen la misma probabilidad:
− − −
πk = y πk =
N 1 N / n 1 n
N 2 N / n 2 n
−
=
=
n , N
n(n 1) , N (N 1)
− −
k = 1, . . . , N
k = = 1, . . . , N
Notar que aqu´ı ns = n es fijo. Por c´omo definimos que ´ıbamos a seleccionar.
¿C´omo ven los textos tradicionales al muestreo aleatorio simple?
Departamento de Estad´ıstica
97
CAP´ITULO 6
Estimadores y sus propiedades estad´ısticas b´asicas
98
Emilio L´ opez Escobar
6.1.
EST-24104: Estad´ıstica Aplicada I
Estimadores comunes
Vimos en general estad´ısticos bajo el dise˜no muestral...
La gran mayor´ıa de los estad´ısticos que utilizaremos son estimadores.
Un estimador es un estad´ıstico pensado para la producci´on de valores cercanos a un valor poblacional de inter´es que desconocemos, que ametro y denotaremos por θ. denominaremos par´
Si, por ejemplo, s´olo hay una variable de estudio y, se puede pensar a θ como una funci´on de y 1 , . . . , yN , los N valores de y en la poblaci´on. θ = θ(y1 , . . . , yN ) Un ejemplo de par´ametro podr´ıa ser el total poblacional t de y, θ
= t =
yk
k∈U
def
=
U
Departamento de Estad´ıstica
99
yk
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Otro, la media poblacional y U de y, θ = y U t = N =
U yk
N
Otro ejemplo de par´ametro que es funci´on de dos variables de estudio y y on de los totales poblacionales de y y z , z , ser´ıa la raz´ θ =
U y k U z k
Denotaremos al estimador de θ como,
θ = θ (S )
Si s es una realizaci´on del conjunto aleatorio S , entonces podemos calcular θ a partir de la(s) variable(s) de estudio asociadas a los elementos k s.
∈
Departamento de Estad´ıstica
100
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
6.2. Distribuci´ on muestral de un estimador Como ya se dijo, para nosotros es de inter´ es describir la variaci´ on muestra a muestra del estimador θ que utilicemos.
Un estimador que var´ıe poco alrededor del valor desconocido del par´ametro θ es intuitivamente mejor que otro que var´ıe mucho.
Esta descripci´on del comportamiento muestra a muestra de θ la logramos on muestral del estimador θ. mediante la distribuci´
Departamento de Estad´ıstica
101
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
En ella se describen todos los valores posibles del estimador junto con la probabilidad correspondiente para cada uno de esos valores, todo esto bajo el dise˜no de muestreo p(s) en uso.
Ejemplo de la Distribuci´on Muestral: Las Letras (A,B,C,D,E,F,G,H). k uk yk θ
θ
N n #( )
S
i si
θ(si ) Frecuencias relativas
Distribuci´ on muestral de θ
Departamento de Estad´ıstica
102
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
En teor´ıa, dado el dise˜no, el estimador y las mediciones de la variable de inter´es; habr´ıa de ser posible la obtenci´on de la distribuci´on muestral del estimador.
No obstante, puede ser complicado debido al gran n´umero de muestras posibles que se traducir´ıan en un gran n´umero de valores del estimador.
Sin embargo, es posible tener, de manera te´orica a partir de la Definici´on 5.3.4.1, medidas resumen (usualmente desconocidas) que describen importantes aspectos de la distribuci´on muestral de un estimador.
La esperanza de θ est´a dada por,
E (θ) =
p(s) θ(s)
s∈S
Mientras que la varianza est´a dada por,
−
V (θ) =
p(s) θ(s)
s∈S
Departamento de Estad´ıstica
103
E (θ)
2
Emilio L´ opez Escobar
Departamento de Estad´ıstica
EST-24104: Estad´ıstica Aplicada I
104
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Hay dos medidas importantes de la calidad de un estimador θ, son el sesgo y el error cuadr´atico medio. El sesgo de θ se define como,
−
B(θ) = E (θ)
θ
(6.1)
Un estimador θ se dice que es insesgado de θ si:
B(θ) = 0,
N
∀y = (y , . . . , y ) ∈ R 1
(6.2)
N
atico medio de θ se define como, El error cuadr´
− −
MSE (θ) = E θ =
θ
2
p(s) θ(s)
θ
(6.3) 2
(6.4)
s∈S
= V (θ) + B(θ)
2
(6.5)
Y, por supuesto, si el estimador θ es insesgado para θ, entonces por la ecuaci´on (6.5), M SE (θ) = V (θ).
(Es muy importante que esto quede claro, es un error muy com´un.) N´ otese la diferencia entre una estimaci´on y un estimador . Una estimaci´on θ(s) es un Departamento de Estad´ıstica
105
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
n´umero, es producido por un estimador θ = θ(S ), una funci´on.
θ(s) es un n´umero que puede ser calculado una vez que hay una realizaci´on s del conjunto aleatorio S y ha sido observado y la(s) variable(s) de estudio ha(n) sido medida(s) para los elementos k s.
∈
En adelante, ignoraremos la diferencia tipogr´ afica entre S , el conjunto aleatorio y s la realizaci´ on de S . Por simplicidad designaremos a ambos con la notaci´on s.
En palabras, un estimador es insesgado si el promedio ponderado (sobre todas las muestras posibles utilizando las probabilidades p(s) como pesos) es igual al valor del par´ametro desconocido.
Los estimadores que son de mayor inter´ es al muestreo son aquellos que son insesgados o aproximadamente insesgados .
Estos u´ltimos son aquellos en donde el sesgo es muy peque˜no. ¿Qu´e tan peque˜no? Se puede relativizar tal sesgo con lo que se est´ a midiendo (coeficiente de variaci´on). Tambi´en, es posible calcular tal sesgo. El muestrista decidir´a si lo considera grande o peque˜no.
Una nota, formalmente hablando. No existen estimaciones insesgadas pues las estimaciones (como ya se dijo) son n´umeros, valores constantes. Los que pueden o no ser insesgados son ´unicamente los estimadores. No obstante, en la pr´actica, cuando se habla coloquialmente de una estimaci´on insesgada se
Departamento de Estad´ıstica
106
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
est´a hablando de una estimaci´on proveniente de un estimador insesgado.
Un muestrista en la pr´actica tendr´ a que decidir entre varios posibles estimadores para un mismo par´ ametro . Buscar´a utilizar aquel cuya distribuci´on muestral est´a altamente concentrada, poco dispersa alrededor de θ.
un cuando la distribuci´on muestral est´ a altamente concenNo obstante, a´ trada alrededor de θ siempre existir´a una peque˜ na posibilidad de que nuestra muestra en particular haya sido desafortunada (mala), de tal manera que la estimaci´ on caiga en una de las colas de la distribuci´on, muy lejos de an que vivir con esta posibilidad . θ. Tendr´
¿Entonces qu´e puede uno controlar como muestrista?
Departamento de Estad´ıstica
107
Emilio L´ opez Escobar
Departamento de Estad´ıstica
EST-24104: Estad´ıstica Aplicada I
108
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
A la ra´ız cuadrada de la varianza del estimador V (θ)
1/2
se le denomina el
error est´ andar del estimador θ. Al cociente del error est´andar del estimador y 1/2
la esperanza del estimador, CV (θ) = V (θ) /E (θ) se le denomina el error est´ andar relativo o el coeficiente de variaci´ on del estimador.
En la pr´ actica, se desconoce a V (θ). Esto porque tendr´ıa que conocer todos los valores posibles que toma el estimador de muestra en muestra y para ello necesitar´ıa conocer la variable de inter´es en toda la poblaci´on.
Por lo tanto, tal varianza se estima a partir de los datos disponibles de la muestra mediante el estimador V (θ).
Departamento de Estad´ıstica
109
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Pero este estimador, V (θ), nos dice poca informaci´on de manera directa, pues est´a en unidades al cuadrado de las unidades en las que est´a el estimador θ, de modo que se acostumbra tomar su ra´ız cuadrada, el error est´andar esti-
1/2
mado, V (θ) on estimado, y tambi´en se calcula el coeficiente de variaci´ (normalmente expresado en porcentaje) que se define de la siguiente manera,
V (θ)
cve(θ) =
1/2
θ
(6.6)
Nota. En la pr´actica suele llamarse coloquialmente al cve como el coeficiente de variaci´on, aunque esto no es correcto si observamos las dos definiciones anteriores. No obstante, no hay confusi´on pues es evidente que si uno est´a trabajando con datos muestrales, no es posible el c´alculo del coeficiente de variaci´on de acuerdo a la definici´on de la expresi´on espec´ıfica y por lo tanto se utiliza la expresi´on (6.6) que finalmente tiene la misma intenci´on o utilidad.
¿Para qu´e nos sirve el cve ?
¿Por qu´e no lo utilizan en M´exico?
¿Tiene sentido que al muestrear de la misma forma, con el mismo tama˜no de muestra y medir lo mismo, se tengan mejores o peores estimaciones que otras?
Ejemplo de los Millones de D´ olares
¿Entonces, cu´ales son los niveles aceptables o utilizados para el cve ?
Departamento de Estad´ıstica
110
Emilio L´ opez Escobar
6.3.
EST-24104: Estad´ıstica Aplicada I
Los Estimadores π y sus propiedades
ametro del total de la poblaci´on t, Suponer que interesa estimar el par´ de la variable de estudio y, definido como: t =
yk
U
Considerar al estimador π del total t tˆπ =
s
yk πk
(6.7)
Este estimador puede ser expresado en t´erminos de una funci´on lineal de las variables indicadoras de inclusi´on muestral I k . Entonces, tˆπ =
I k
U
yk πk
(6.8)
De (6.8) y como E [I k ] = π k y π k > 0, k U tenemos que:
E tˆπ = E
U
y I k k = πk
U
∀ ∈
y E [I k ] k = πk
por lo tanto tˆπ es insesgado para t =
πk
U
yk = πk
yk = t (6.9)
U
U y k .
Las cantidades yk /πk se llaman los valores de y π -expandidos del k´ esimo elemento . Usualmente son denotados como: yˇk =
Departamento de Estad´ıstica
111
yk πk
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Entonces (6.7) es simplemente la suma de los valores de y, π-expandidos. tˆπ =
s
yˇk =
I k yˇk
U
(6.10)
Pregunta ¿Los valores yˇk son constantes o son variables aleatorias? Explique.
Pregunta ¿Donde est´a la aleatoriedad en tˆπ ? Explique.
Lo aleatorio est´a incorporado por s o equivalentemente por las indicadoras I 1 , . . . , IN . Los valores π -expandidos yˇk son constantes fijas.
Notar que en (6.10) se logra la conexi´on anal´ıtica entre s y U , gracias a el uso de las indicadoras I 1 , . . . , Ik , . . . , IN .
¿Qu´e efectos tiene el dividir yk entre π k ?
La expansi´on π aumenta la importancia de elementos en la muestra; como la muestra contiene menos elementos que la poblaci´on se requiere forzosamente de una expansi´on.
Departamento de Estad´ıstica
112
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
El elemento k-´esimo cuando est´a presente en muestra representar´a 1/πk elementos de la poblaci´on.
Las f´ormulas (6.7), (6.8) y (6.10) anteriores conforman un principio extremadamente importante:
Es posible usar los valores muestrales π -expandidos para estimar insesgadamente el total poblacional a´ un cuando el muestreo es hecho con probabilidades de inclusi´on arbitrarias positivas.
Pregunta ¿Por qu´e las π k ’s pueden ser arbitrarias? Explique.
Cuando asignamos arbitrariamente πk a yk , no ha habido nada aleatorio.
∀k ∈ U , lo hacemos en U y
Una vez realizada la extracci´on siguiendo las πk ’s arbitrarias, despu´es reconstruyo .
En otras palabras, antes de extraer, estamos decidiendo c´omo vamos a empaquetar o comprimir independientemente de qu´e muestra nos toque... y despu´ es de la extracci´on desempaquetamos o descomprimimos la informaci´on de la muestra.
Departamento de Estad´ıstica
113
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Los or´ıgenes de este principio de expansi´on vienen de Narain (1951) y de Horvitz & Thompson (1952), y por eso estos estimadores se conocen tambi´en con el nombre de estimadores de Narain-Horvitz-Thompson o s´olo estimadores de Horvitz-Thompson .
Algo similar hab´ıa sido utilizado por Hansen & Hurwitz (1943), pero para muestreo probabil´ıstico con reemplazo (y probabilidades desiguales).
Notar que el estimador π es lineal en I k , esto, como se ver´a m´as adelante simplificar´a la derivaci´on de la varianza.
La siguiente expresi´on se sintetiza cierta notaci´on y algunas equivalencias para el f´acil manejo de dobles sumas, mismas que utilizaremos en algunos desarrollos matem´aticos posteriores.
def
akl =
akl =
U
k∈U l∈U
akk +
U
=l} {k U
akl
(6.11)
Tambi´en, para toda k, l U , definamos al expandido de ∆ (que denota la covarianza entre I k y I l ),
∈
ˇ = ∆ /π ∆ kl kl kl y por la definici´on (5.21) dentro del Resultado 5.3.1.1 tenemos que, ˇ =1 ∆ kl
Departamento de Estad´ıstica
− (π π /π k
l
kl
) para k = l ;
114
ˇ =1 ∆ kk
−π
k
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Resultado 6.3.1 El estimador π
tˆπ =
es insesgado para t =
U y k ,
s
yˇk
(6.12)
y tiene la varianza,
V tˆπ
=
∆kl yˇk yˇl
U
(6.13)
donde ∆kl se define por ( 5.21) dentro del Resultado 5.3.1.1. Luego, dado que πkl > 0, k = l U , un estimador insesgado de V tˆπ est´a dado por,
∀ ∈
V tˆπ
ˇ = ∆ /π . donde ∆ kl kl kl
Departamento de Estad´ıstica
=
115
s
ˇ yˇ yˇ ∆ kl k l
(6.14)
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Demostraci´ on. De (6.9), tenemos demostrado el insesgamiento. Respecto a la varianza, partiendo de (6.10) tenemos que tˆπ = U I k yˇk , entonces por la sabida f´ormula de varianza de combinaci´on lineal de variables aleatorias (en este caso las I k )
V tˆπ =
2
V (I k )ˇyk +
U
{k =l} U
C (I k , I l )ˇ yk yˇl
(6.15)
Ahora, por (5.21) y (5.22), donde C (I k , I l ) = ∆kl y V (I k ) = ∆kk , y tambi´en por el manejo de dobles sumas visto en ( 6.11), tenemos
V tˆπ
{k =l}
∆kk yˇk2 +
=
U
=
U
∆kl yˇk yˇl
∆kl yˇk yˇl
(6.16)
U
(6.17)
Para la demostraci´on del insesgamiento de V tˆπ , primero expresemos (6.14) utilizando las indicadoras I k , ˇ yˇ yˇ I k I l ∆ kl k l
V tˆπ =
U
(6.18)
dado que π kl > 0, k, l U . Luego, como I k I l toma el valor 1 si y s´olo si ambas k y l pertenecen a s. Entonces, por la ecuaci´on (5.10), E [I k I l ] = P r I k I l = 1 = π kl , de modo que
∀ ∈
{
}
E V tˆπ
= E =
Departamento de Estad´ıstica
ˇ yˇ yˇ = I k I l ∆ kl k l
U
ˇ yˇ yˇ = πkl ∆ kl k l
U
116
ˇ yˇ yˇ(6.19) E [I k I l ] ∆ kl k l
U
∆kl yˇk yˇl = V tˆπ (6.20)
U
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
La varianza V tˆπ = ˇk yˇl puede alternativamente ser expreU ∆kl y sada de las siguientes formas en t´erminos de valores originales (es decir, no expandidos) de y k como
V tˆπ
=
=
U
πkl πk πl
− − 1 yk yl
πkl y y U π π k l k l
yk
V tˆπ
1 sπ kl
=
πkl πk πl
(6.21)
2
(6.22)
U
−
Y por su parte, el estimador de varianza V tˆπ =
ˇ
ˇk yˇl como s ∆kl y
1 yk yl
(6.23)
Como ya se mencion´o anteriormente (p´agina 80) el tama˜no de muestra, ns , puede o no ser fijo, puede o no ser el mismo para todas las muestras s posibles contenidas en (el conjunto de todas las muestras s posibles). Esto depender´a del dise˜no de muestreo p(s) utilizado o por utilizar.
S
Cuando utilicemos un dise˜no de muestreo con tama˜no de muestra fijo, denotaremos a n s ´unicamente con n.
Departamento de Estad´ıstica
117
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Resultado 6.3.2 (Sen; Yates-Grundy, 1953) Si p(s) es un dise˜ no de muestreo de tama˜ no de muestra fijo, entonces la varianza del estimador π puede alternativamente ser escrita como
V tˆπ
=
− 1 2
∆kl (ˇ yk
U
−
yˇl )2
Dado que π kl > 0, k = l
∀ ∈ U , un estimador insesgado de V
V tˆπ
− 1 2
=
s
ˇ (ˇ ∆ yk kl
−
(6.24)
tˆπ est´a dado por
yˇl )2
(6.25)
Demostraci´ on. Tarea opcional 2 para la pr´oxima clase, antes de su comienzo. Se entrega por e-mail -LaTeX o algo legible escaneado-, les tengo que confirmar recepci´ on, revisar´ e mi correo antes de comenzar la clase. Pista: Desarrollar el t´ermino al cuadrado, sumar y utilizar los resultados siguientes para dise˜nos de tama˜no de muestra fijo:
πk = n
U =l} {k
U =l} {k U
πkl = n(n πkl =
− 1) (n − 1)π
(6.26)
k
(6.27)
(6.28)
Departamento de Estad´ıstica
118
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Tarea opcional 3 para la pr´oxima clase, antes de su comienzo. Se entrega por e-mail -LaTeX o algo legible escaneado-, les tengo que confirmar recepci´ on, revisar´ e mi correo antes de comenzar la clase . Demostrar las 3 expresiones anteriores. Sobre el Resultado 6.3.2. Como y k yl = 0 si k = l, los t´erminos en donde k = l no contribuyen con valores en la doble suma del resultado. De modo =l} {k que es posible, en el Resultado 6.3.2, utilizar en la f´ormula para U =l} {k en la f´ormula para V tˆπ . V tˆπ ,y s
−
Notar tambi´en, a partir de la demostraci´on, que las dos varianzas (6.13) y (6.24) son id´ enticas cuando el dise˜n o es de tama˜ no de muestra fijo.
No obstante, a´un con dise˜no con tama˜no de muestra fijo, las dos varianzas enticas, pero ambas son (6.14) y (6.25), no son necesariamente id´ insesgadas.
Pregunta ¿Por qu´e no son necesariamente id´enticas? Explique.
Ahora, notar que ambas varianzas (6.14) y (6.25), requieren que πkl > 0, k = l
∀ ∈ U
Pregunta ¿Por qu´e este requerimiento? Explique. Departamento de Estad´ıstica
119
(6.29)
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Pregunta ¿Por qu´e es tan fuerte? Explique.
Para cualquier s seleccionada, p(s) es necesariamente positiva y por lo as fuerte (6.29), puede tanto πkl > 0, k = l s, el requerimiento m´ no satisfacerse. ¿Alguien sabe un ejemplo?
∀ ∈
Ojo: Las varianzas (6.14) y (6.25) pueden ser calculadas para cualquier s. No obstante, si no se cumple (6.29), estas estimaciones de varianza no deben utilizarse, pueden estar totalmente equivocadas
Un resultado ´util relativo a los valores π-expandidos es el siguiente, cuya demostraci´on es muy parecida a la utilizada en la demostraci´on de los Resultados 6.3.1. y 6.3.2.
Resultado 6.3.3 Sean a1 , . . . , ak , . . . , aN n´ umeros fijos y a ˇk = ak /πk (con πk > 0) para k = 1, . . . , N . Entonces s ˇak es insesgado para U ak . Sean umeros fijos y a ˇkl = akl /πkl (con πkl > 0) para a11 , a12 , . . . , akl , . . . , aNN n´ k, l U . Entonces akl es insesgado para s ˇ U a kl .
∈
Departamento de Estad´ıstica
120
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Comentarios en clase
¿Entonces, qu´e estamos haciendo con el Resultado 6.3.1.?
¿De qu´e se trata el principio este de utilizar los factores de expansi´on?
¿Cu´ al es el chiste del uso de los estimadores de Horvitz-Thompson(1952)?
¿C´omo lo entiendo de manera f´acil, intuitiva?
Para contestar esto, veamos el siguiente ejemplo que contiene la idea...
Ejemplo del Arca de No´e mezclado con la Carretera Inter-Gal´actica.
Departamento de Estad´ıstica
121
Emilio L´ opez Escobar
6.4.
EST-24104: Estad´ıstica Aplicada I
El estimador π bajo el dise˜ no BE
Retomando lo que vimos del dise˜no de muestreo BE, tenemos que: πk = π,
∀k ∈ U,
y tambi´en que: πk = π 2 ,
∀(k = ) ∈ U
De modo que aplicando los resultados que vimos, tenemos el siguiente resultado
Resultado 6.4.1 Bajo un dise˜ no BE, el estimador π del total poblacional t = U y k toma la forma:
1 tˆπ = π
s
yk .
(6.30)
La varianza est´a dada por,
−
V BE tˆπ
1 π
=
1
U
yk2 .
(6.31)
Un estimador insesgado de tal varianza es,
− VB E tˆπ
Departamento de Estad´ıstica
=
1 π
1 π
122
1
U
yk2 .
(6.32)
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Y si habl´aramos de estimar una media....
Pregunta ¿C´omo ser´ıa un estimador para la media utilizando los estimadores π o de Narain-Horvitz-Thompson cuando conocemos a N ?
Pregunta ¿Cu´al es la varianza de tal estimador?
Pregunta ¿Cu´al es un estimador insesgado de tal varianza?
Pregunta Y si queremos estimar la proporci´on de hombres de cierta poblaci´on bajo un dise˜no BE, ¿C´omo adecuamos tales expresiones?
Departamento de Estad´ıstica
123
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
El estimador π bajo el dise˜ no SI
6.5.
Vimos que bajo el dise˜no SI: πk = f =
n , N
∀k ∈ U,
on de muestreo. Y tambi´en vimos que: donde f denota la fracci´ n(n 1) , N (N 1)
− −
πk =
∀(k = ) ∈ U
Tenemos entonces el siguiente resultado...
Resultado 6.5.1 Bajo un dise˜ no SI, el estimador π del total poblacional t = U y k toma la forma:
1 tˆπ = N ¯ ys = f
s
yk .
(6.33)
La varianza est´a dada por,
V SI tˆπ 2 donde S yU =
− 1 n
2
= N
1 N −1
U (yk
1 N
− ¯y
U )
2
VS I tˆπ
2 con S ys =
1 n− 1
= N 2
s (yk
Departamento de Estad´ıstica
2
= N
− 1
f
n
2 S yU ,
(6.34)
. Un estimador insesgado de tal varianza es,
− − 1 n
2 S yU
1 N
2 = N 2 S ys
¯ ys )2 .
124
− 1
f
n
2 S ys ,
(6.35)
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Tarea opcional 4 para la pr´oxima clase, antes de su comienzo. Se entrega por e-mail -LaTeX o algo legible escaneado-, les tengo que confirmar recepci´ on, revisar´ e mi correo antes de comenzar la clase. Demostrar que, en efecto, a partir de las expresiones generales se obtienen las expresiones ( 6.31) y (6.34) cuando se utiliza un dise˜no BE y SI, respectivamente.
Tarea opcional 5 para la pr´oxima clase, antes de su comienzo. Se entrega por e-mail -LaTeX o algo legible escaneado-, les tengo que confirmar recepci´ on, revisar´ e mi correo antes de comenzar la clase. Demostrar que la expresi´on (6.35) es insesgada para (6.34).
Resultado 6.5.2 En un dise˜ no de muestreo SI (por lo tanto, de tama˜ no de muestra fijo), el estimador π de la media poblacional de la variable de inter´es y, es decir, y U = U y k /N , es
tˆ yˆUπ = π = N La varianza estar´a dada por,
1
1
s
V SI ys = donde S y2U =
1 N −1
U (yk
− y
U
1 n−1
− f S
2
n
yU
(6.36)
(6.37)
)2 . Y un estimador insesgado de tal varianza es,
VSI ys =
donde S y2s =
yˇk /N = y s
− f S
2
n
ys
(6.38)
2
− y ) .
s (yk
s
Demostraci´ on. La demostraci´on se desprende de manera muy sencilla de la demostraci´ on del Resultado 6.5.1.
Departamento de Estad´ıstica
125
Emilio L´ opez Escobar
6.6.
EST-24104: Estad´ıstica Aplicada I
El efecto de dise˜ no
¿C´omo puedo comparar dise˜nos? ¿Qu´e se les ocurre?
¿C´omo puedo saber qu´e dise˜no es el adecuado para cada situaci´on?
¿C´omo puedo comparar dos dise˜nos dado el uso del mismo estimador?
¿C´omo puedo comparar dos estimadores dado el mismo dise˜no de muestreo?
Por ejemplo, de los resultados anteriores ¿C´omo puedo saber bajo cu´ al dise˜no, BE o SI, el estimador π es mejor?...
O dicho de otra forma m´as formal... ¿Qu´e dise˜no es mejor cuando utilizo el estimador π?
Primero recordemos la importancia del dise˜no SI: (a) El m´as importante. (b) Te´orico. (c) Ideal. Departamento de Estad´ıstica
126
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
(d) Contra el que se comparan todos los desarrollos nuevos.
Entonces, tiene sentido tomar al dise˜no SI como referencia.
Kish (1965) propuso la medida Design Effect , efecto de dise˜no, usualmente denotado como Deff ,
Deff ( p, θ) =
V p (θ)
V SI (θ)
.
(6.39)
Notar que utilizamos valores poblacionales... Las varianzas reales, pero no las conocemos porque no tenemos todas las muestras posibles, entonces se . define al efecto de dise˜ no estimado deff (o a veces denotado Deff ´ Este lo ´unico que hace es utilizar estimaciones de la varianza en lugar de las varianzas poblacionales que utiliza la expresi´on (6.40):
deff ( p, θ) =
V p (θ)
VS I (θ)
.
Notar los valores que pueden tomar...
Si utilizamos un dise˜no SI tenemos que Deff = 1 y deff = 1
Entonces, siempre queremos que Deff < 1... ¡buscamos eso!
Departamento de Estad´ıstica
127
(6.40)
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Normalmente, el Deff < 1 siempre que se utilicen dise˜nos con estratificaci´on y el Deff > 1 siempre que se utilicen dise˜nos con conglomeraci´on.
El problema en la pr´ actica es que vamos a utilizar estratificaci´on y conglomeraci´on... y no sabemos qu´ e efecto es el que domina.
Lo importante es, anotar la posibilidad de mejorar los dise˜nos de muestreo utilizados.
Con el paso del tiempo o en el repetido ejercicio dela misma encuesta, uno puede mejorar a˜nadiendo experiencia previa.
Esto es, cambiando el dise˜no: la forma de estratificar, los tama˜n os de muestra de estratos, el tama˜no de muestra utilizado, etc.
Cuidado con las definiciones y las notaciones de diferentes fuentes.
Departamento de Estad´ıstica
128
CAP´ITULO 7
¿Qu´e tama˜ no de muestra utilizar?
129
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
El tama˜no de muestra a utilizar es un tema claves en muestreo.
Pregunta que le hacen regularmente a un muestrista o estad´ıstico.
Bajo la teor´ıa moderna de muestreo el tema no es tan clave . Es m´as una cuesti´ on de $. Por eso el libro base del curso no incluye este tema.
Desde otras disciplinas ajenas a la estad´ıstica creen que existe un tama˜ no de muestra preestablecido que aplica siempre .
Salen entonces varias interrogantes, las primeras muchas veces de nuestro jefe, cliente o compa˜nero de oficina:
• ¿Es suficiente el tama˜no de muestra de # para estimar esto? • ¿Con un tama˜no de muestra de # ya es representativa mi muestra? • ¿Qu´e dice S¨arndal al respecto? ¿Se utiliza en S¨arndal el concepto de representatividad ?
• ¿Qu´e hace en la pr´actica el mercado actual de encuestas en M´exico? El tama˜ no de muestra depende fundamentalmente de lo que se intenta medir, en particular de la variabilidad de lo que se mide .
Si lo que se quiere medir tiene mucha variabilidad se necesitar´a un tama˜no de muestra mayor, a que si es bastante homog´eneo. Departamento de Estad´ıstica
130
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Tenemos algo aparentemente parad´ojico:
• ¿C´omo sabemos la variabilidad de lo que se intenta medir? • Aunque parezca paradoja, muchas veces se puede tener una idea o se pueden tener estudios del mismo tipo (o similares) anteriores.
• Ejemplos para casos extremos del Deming (1950) y del Kish (1965) Existen varias expresiones matem´ aticas para el c´alculo del tama˜no de muestra, tambi´en existen varias interrogantes y consideraciones; se ir´an resolviendo con la pr´ actica y el manejo repetido.
Listaremos de manera esquematizada algunas expresiones e ideas simples para el c´alculo del tama˜no de muestra (viene mayormente extendido en M´endez et al. (2004)[pp. 12-15, 44-50]).
Importante no perderse en la teor´ıa siguiente. La mec´anica b´asica a seguir es:
Utilizaremos el Teorema Central del L´ımite (trata medias, recordar la relaci´on entre media, total y proporci´on).
Se obtienen f´ormulas para un dise˜no SI.
Departamento de Estad´ıstica
131
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Posteriormente el tama˜no de muestra obtenido se altera seg´un qu´e tanto nos alejamos del dise˜no SI cuando utilizamos cualquier dise˜no de muestreo.
Finalmente se incorporan alteraciones seg´un tasas de no respuesta
Como se menciona en M´endez et al. (2004), de manera laxa dice que los promedios de muchas muestras probabil´ısticas de una poblaci´ on tienden, al aumentar el tama˜ no de muestra, a tener una distribuci´ on normal, a pesar de que la variable que se mide no tenga distribuci´ on normal en la poblaci´ on.
Para alcanzar una distribuci´on muestral parecida a una Normal, se requiere que el tama˜no de muestra sea grande.
La rapidez con la que se alcanza tal Normalidad depende del tipo y de c´omo es la variable en la poblaci´on. Con estudios emp´ıricos de simulaci´on estoc´astica, se han determinado algunos tama˜nos de muestra m´ınimos: 1, 5, 20, 30, etc. Observar las Figuras 1.6 y 1.7 del M´endez et al. (2004)[pp. 12-13].
Una vez que se considera un tama˜no de muestra m´ınimo, entonces puedo decir:
∼ − ≤ ≤ θ
N [θ, V (θ)],
(7.1)
de modo que es posible determinar la probabilidad P [θ
Departamento de Estad´ıstica
δ
θ
θ + δ ] = 1
132
− α,
(7.2)
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
que estar´ıa asociada al intervalo de confianza
− ≤ ≤ | − |
P [θ
θ + δ ] = 1
δ θ
− α,
(7.3)
que puede expresarse sint´eticamente:
θ < δ ] = 1
P [ θ
− α.
(7.4)
omo tendria que ser (qu´e tama˜no de Esta ´ultima expresi´on me determinar´ıa c´ muestra utilizar en) θ, para que discrepe a lo m´ as δ (la “precisi´on” o “error absoluto” o “margen de error”) del verdadero valor θ, y para que esto suceda con un nivel de confianza del (1 α) 100%.
− ×
7.1. Tama˜ n o de muestra para una media bajo
muestreo SI asumiendo normalidad Si utilizamos el Teorema Central del L´ımite, entonces necesitamos una sucesi´on de variables aleatorias independientes id´enticamente distribu´ıdas. Esto lo cubrimos utilizando un muestreo SI y cuando interesa estimar una media en la poblaci´on (es decir, θ = y¯U ), de modo que tenemos expresiones para θ y para V (θ).
Entonces, sea n el tama˜no de muestra llegamos a que, para una media, bajo un dise˜ no SI y asumiendo normalidad en la distribuci´on muestral de θ: n =
1 δ2
2 zα/2
Departamento de Estad´ıstica
S y2 U
133
+
1 N
(7.5)
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
donde, S y2U
=
− 1
N
1
(yk
U
− ¯y
U )
2
.
(7.6)
Notar que S y2U se desconoce, pero podr´ıa ser sustituido por alg´un valor aproximado de mediciones anteriores de lo mismo o mediante una prueba piloto.
La expresi´on (7.5) la podemos simplificar utilizando un nivel de confianza del 95 % y si podemos suponer que N es muy grande, tal que 1/N sea muy peque˜no.
Ojo: Notar lo conservador del supuesto de que 1/N 0 en (7.5).
Asi, (7.5) es aproximado de la siguiente forma, n
Departamento de Estad´ıstica
(1.96)2 S y2U δ 2
134
(7.7)
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
7.2. Tama˜ n o de muestra para una media bajo
muestreo SI sin asumir normalidad Cuando no es posible asumir normalidad en la distribuci´on muestral de θ hay dos opciones.
on o utilizar la deUtilizar una expresi´on asociada al coeficiente de variaci´ sigualdad de Tchebychev.
7.2.1.
Utilizando el coeficiente de variaci´ on
Si utilizamos el coeficiente de variaci´on cuando θ = y¯s tenemos que:
CV =
V (θ)
=
E [θ]
V (¯ys ) , E [y¯s ]
(7.8)
expresi´on que bajo el dise˜no SI resulta ser:
CV =
1−n/N 2 S U n y
y¯U
,
(7.9)
y despejando n y estableciendo un coef. de variaci´on deseado de C V 0 , n =
S y2U (CV 0 )2 (¯yU )2 +
Departamento de Estad´ıstica
135
S 2
y U
N
,
(7.10)
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
La expresi´on (7.10) es u ´til cuando es de inter´ es tener una precisi´ on del orden de lo que se est´ a midiendo , es decir, cuando el error absoluto o nuestra precisi´ on se quiere establecer en t´erminos porcentuales de lo que intentamos medir.
Desafortunadamente, (7.10) tiene la desventaja de que necesita adicionalmente tener un valor aproximado o de una prueba piloto de lo que intentamos medir ¯yU , cosa a veces no muy f´acil de determinar si consideramos que estamos hablando de una media.
7.2.2.
Utilizando la desigualdad de Tchebychev
La otra opci´on cuando no se puede asumir normalidad, es la Desigualdad de Tchebychev, en cuyo caso para la expresi´on (7.5) tendriamos la correspondiente expresi´on siguiente que no asume normalidad: n =
1 δ2 (4.4)2
S y2 U
+
1 N
.
(7.11)
Que equivalentemente, como ocurri´o anteriormente, puede simplificarse si podemos suponer que N es muy grande, como: n
Departamento de Estad´ıstica
(4.4)2 S y2U . δ 2
136
(7.12)
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
An´alogamente, tambi´en se pueden derivar expresiones donde se utiliza el coeficiente de variaci´on simult´aneamente con el uso de la desigualdad de Tchebychev, e.g. M´endez et al. (2004, p. 48).
7.3. Tama˜ n o de muestra para una proporci´ on
bajo muestreo SI asumiendo normalidad Consideremos la expresi´on que ya vimos para la media ( 7.5). Entonces, cuando el par´ametro de inter´es a estimar es una proporci´on, es decir θ = P , se tiene que: 1
n = 2 zα/2
δ2 N N −1
P (1−P )
+
(7.13)
1 N
donde P representa la proporci´on que se quiere estimar, que desconocemos y cuyo valor en la expresi´on anterior puede ser sustituido por alguno aproximado de estudios anteriores o de una prueba piloto.
Simplificando la expresi´on (7.13), utilizando un nivel de confianza del 95 % y si podemos suponer que N es muy grande de modo que 1/N sea muy peque˜no y de modo que N/(N 1) sea casi 1, tenemos entonces la siguiente versi´on de (7.13) simplificada:
−
n
Departamento de Estad´ıstica
(1.96)2 P (1 δ 2
137
− P ) ,
(7.14)
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
expresi´on que puede todavia simplificarse m´as si se considera que P (1 P ) toma su valor m´aximo cuando P = 0.50 y que reflejar´ıa absoluta ignorancia sobre cu´al ser´ıa el valor del par´ametro P que queremos estimar.
−
Y si adem´as amplificamos, conservadoramente, el tama˜no de muestra todav´ıa m´as considerando gruesamente que 1.96 2, entonces podr´ıamos re-escribir (7.14) como: n
(2)2 (0.25) 1 = . δ 2 δ 2
(7.15)
Desde luego, considerando el hecho de que para poder asumir normalidad en (7.13), (7.14) y en (7.15) se tendr´ıa que dar la conocida condici´on emp´ırica de que: nP > 5
(7.16)
y simult´aneamente de que n(1
− P ) > 5.
(7.17)
Hay que recordar de que ´este resultado viene de lo ya visto sobre el Teorema Central del L´ımite, v´ease M´endez et al. (2004, p. 13).
Adicional a esto, en varios textos de muestreo se sugiere que el valor de P se encuentre entre 0.2 y 0.8 para que las expresiones vistas para proporciones suponiendo normalidad funcionen bien. Esto ´ultimo ya quedar´a a criterio de ustedes.
Departamento de Estad´ıstica
138
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
7.4. Tama˜ n o de muestra para una proporci´ on
bajo muestreo SI sin asumir normalidad An´alogamente a lo que ya hemos visto, para el caso en que se requiera utilizar la desigualdad de Tchebychev para proporciones y simplificando (de la misma manera que ya hemos visto) tenemos que la expresi´on correspondiente ser´ıa: n
7.5.
(4.4)2 (0.25) δ 2
5 . δ 2
(7.18)
¿Cu´ ando se puede considerar a N grande?
Para contestar a esta pregunta observemos las siguientes tablas que nos dar´ıan una idea del comportamiento de las expresiones hasta ahora vistas
Departamento de Estad´ıstica
139
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
no de la poblaci´ on N no Podemos decir entonces que, en general, el tama˜ es fundamental para el c´ alculo del tama˜no de muestra n . Basta con que N sea lo suficientemente “grande”.
As´ı, considerando la expresi´on (7.13) tenemos los siguientes tama˜nos de muestra para diferentes niveles de error absoluto o precisi´on predefinidos:
Departamento de Estad´ıstica
140
Emilio L´ opez Escobar
7.6.
EST-24104: Estad´ıstica Aplicada I
El efecto del dise˜ no: ajuste del tama˜ n o de muestra
Una vez determinado el tama˜no de muestra n adecuado a nuestras necesidades y conforme a lo desarrollado en p´arrafos anteriores, ´este tiene que ser modificado si el dise˜ no de muestreo a utilizar no es un muestreo aleatorio simple .
Para ello basta con multiplicar el tama˜no de muestra obtenido originalmente por el Deff (design effect).
erdida o ganancia en precisi´ on El Deff proporciona una medida de p´ conforme al dise˜ no de muestreo que estamos utilizando y respecto al dise˜ no de muestreo SI.
Por ejemplo, tratandose de dos Deff ’s del mismo dise˜no pero para diferentes variables o estimadores, ´este me indicar´ıa de entre esos dos para cu´al variable o estimador es m´as adecuado el dise˜no de muestreo que estamos utilizando.
nos de muestreo “malos”, lo que hay son dise˜nos Esto es, no hay dise˜ m´ as adecuados que otros para lo que se est´ a midiendo y el c´ o mo se est´ a midiendo .
Para efectos de calculo de tama˜no de muestra, ´este puede tomarse de estudios o experiencias anteriores.
Problemas pr´acticos con el uso del Deff : Departamento de Estad´ıstica
141
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Para c´alculo de tama˜nos de muestra pueden no tenerse a disposici´on valores del de estudios anteriores. Y como vimos, el dise˜no que vamos a utilizar puede usar estratificaci´on y conglomeraci´ on, no sabemos qu´e efecto domina.
Otra vez, lo importante es la posibilidad de mejorar los dise˜nos de muestreo utilizados con el paso del tiempo o en encuestas repetidas.
7.7.
Ajuste del tama˜ n o de muestra por la tasa de respuesta
Otra modificaci´on que se puede hacer al tama˜no de muestra n es ajustar por la tasa de respuesta r (valor entre 0 y 1) que se˜nala el porcentaje de respuesta a una encuesta. Para realizar dicho ajuste basta con dividir a n entre r.
Departamento de Estad´ıstica
142
Emilio L´ opez Escobar
7.8.
EST-24104: Estad´ıstica Aplicada I
Comentarios finales sobre el tama˜ no de muestra
Finalmente, el tama˜no de muestra (y/o el dise˜no de muestreo utilizado) suele estar muchas veces definido por los recursos econ´omicos destinados a la encuesta.
Esto se combina con la importancia que el cliente o consumidor d´ e a la informaci´on obtenida.
Si, por ejemplo, se trata de simplemente tener una idea de determinadas proporciones se destinar´a poco dinero a la encuesta y por consiguiente ser´a un tama˜no de muestra peque˜no con respecto al “ideal” que el muestrista calcule. Se tendr´ an estimaciones con precisiones modestas.
En el mercado de encuestas en M´exico, le llaman “Error Te´orico de Estimaci´on” al δ que se obtiene bajo muestreo aleatorio simple con el tama˜no de muestra impuesto por las restricciones econ´omicas.
En lo que respecta a la tasa de no respuesta, su consideraci´on en la pr´actica depende de la forma de cobrar de las empresas de campo, por cuestionario efectivo o aplicado. Siendo la primera opci´on la que normalmente se cobra.
Departamento de Estad´ıstica
143
CAP´ITULO 8
Estratificaci´on
144
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
8.1. Introducci´ on a la estratificaci´ on
8.1.1.
¿C´ omo se ve la estratificaci´ o n en otros textos y c´ omo la trataremos?
Se ve m´as como un tipo de dise˜no de muestreo.
Nosotros lo veremos como una t´ecnica o una herramienta que podemos implementar para mejorar nuestro dise˜no.
Es una de las t´ecnicas m´as importantes para mejorar un dise˜no.
Ayuda grandemente a mejorar la calidad de un ejercicio de muestreo sin aumentar la complejidad matem´ atica de ´este.
8.1.2.
¿De qu´ e se trata la estratificaci´on?
En palabras llanas, dividir un problema grande de estimaci´on en varios problemas peque˜ nos de estimaci´ on y ulteriormente combinar las estimaciones obtenidas en estas subdivisiones (estratos) para la obtenci´on de una estimaci´on global (de toda la poblaci´on).
Departamento de Estad´ıstica
145
Emilio L´ opez Escobar
8.1.3.
EST-24104: Estad´ıstica Aplicada I
Utilidad y usos de la estratificaci´ on
Me ayuda a enfrentar problemas de marco muestral .
Me ayuda a separar los pedazos de la poblaci´on en partes que tienen que tratarse de diferente forma.
on de informaci´ on El estratificar me ayuda tambi´en a la incorporaci´ adicional (proveniente de mi marco muestral o de mi experiencia) para la mejora del dise˜no de muestreo a utilizar.
Otra utilidad importante de la estratificaci´on es el control de mi muestra .
Lo anterior, de modo que puedo mejorar la dispersi´ on de mi muestra.
Ojo: Notar la palabra dispersi´ on... ¿Es dispersi´on geogr´afica?
Tambi´en puede ser una herramienta para el manejo de costos y administraci´ on de recursos en las tareas operativas
Otra utilidad importante de la estratificaci´on es que muchas veces se requiere tener estimaci´on para determinadas subpoblaciones o dominios de estudio. Departamento de Estad´ıstica
146
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Para poder arrojar estimaciones por dominios, sin desv´ıos de muestra. Es decir, sin tener m´as muestra donde no nos interesa, o tener m´as donde hay m´as variabilidad o s´ı nos interesa.
Por ejemplo, si un grupo de pol´ıticos solicitan una muestra, desde luego que exigir´an que “caigan”, digamos, todos los estados de la rep´ublica; en este caso la estratificaci´on s´olo se utiliza para fines de control de la muestra y no para mejorar la precisi´on.
¿Qu´e est´a pasando, en t´erminos generales, cuando estratificamos y como es que me ayuda ante problemas de marco muestral, mejoras de precisi´on o manejo de costos? Es una idea muy b´asica. Al estratificar se trata por separado cada estrato.
Puede ser que se utilicen esquemas de muestreo independientes entre estratos y m´as adecuados para cada estrato (costos, precisi´on o marco muestral).
8.1.4.
¿Estratificar o no estratificar?
¿Estratificar o no estratificar?.... Respuesta....
Departamento de Estad´ıstica
147
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
¿Se gana siempre, estratificando?.... Respuesta....
Claro, esto ´ultimo siempre y cuando se haga una adecuada estratificaci´ on.
8.1.5.
La peor de las situaciones
En el peor de los casos, ante una estratificaci´ on no adecuada, se obtienen niveles de precisi´ on equivalentes a no haber utilizado estratificaci´ on.
En otras palabras, si una estratificaci´on no es adecuada es como si no se hubiera estratificado.
Esta es una propiedad muy interesante, noble y ´util pues te permite experimentar e intentar mejorar tu dise˜no de muestreo sin grandes consecuencias.
8.1.6. Concepci´ on equivocada y muy usada al estratificar
¿Necesariamente los estratos tienen que ser bloques geogr´aficos definidos o colindantes?
Departamento de Estad´ıstica
148
Emilio L´ op ez Escobar
EST-24104: Estad´ıstica Aplicada I
´ es una idea err´onea Esta onea de la gente que cree tener mucho contacto con la materia de muestreo y piensa a la estratificaci´on como cortes geogr´aficos aficos unicamente. u´nicamente.
En realidad los estratos pueden ser cualquier corte en mi poblaci´on objetivo.
Estos cortes tienen que ser a manera de lo que en matem´ aticas aticas se conoce on on”. como una “ partici´
Es decir cortes exhaustivos (todos los elementos de la poblaci´on pertenecen a alg´un un estrato, no podr´an an quedar quedar fuera) y excluyentes excluyentes (un elemento no puede estar en m´as as de un estrato). estrato ).
8.2.
¿Hay ¿Hay una buena estratificac estratificaci´ i´ on? on?
¿Qu´e es lo m´as as importante importa nte para que mi estratificaci´ estrat ificaci´on on sea fruct´ fruct´ıfera en t´erminos ermi nos de precisi´ preci si´on? on?
M´as as all´ al l´a de la cl´asica as ica recom re comend endaci aci´´on on de los viejos libros de muestreo....
Departamento Departa mento de Estad´ıstica ıstica
149
Emilio L´ op ez Escobar
EST-24104: Estad´ıstica Aplicada I
“Los estratos estrat os deben ser homog´eneos eneos al interior y heterog´eneos eneos entre s´ı, i.e. los individuos dentro de un estrato deben ser muy parecidos y dos individuos pertenecientes a diferentes estratos deben ser muy distintos”
¿Cu´al al creen cree n ustede us tedes?. s?.... .....
Que la variable de estratificaci´on on (una variable categ´orica orica o continua “categorizada” en intervalos int ervalos)) est´e ´ıntimamente ıntimament e ligada lig ada o asociada asoc iada a la variable variabl e de estudio est udio relativ rel ativaa al a l par´ametro amet ro de inter´ int er´es. es.
Por ejemplo, si me interesa medir la estatura media de una poblaci´on, una muy buena variable a utilizar para estratificar ser´ ser´ıa la estatura de la poblaci´on on en mediciones pasadas.
Esto Est o porque p orque yo como co mo inves i nvestig tigador ador s´e de antemano ante mano que la l a estat es tatura ura est´ e st´a ´ıntiınt imamente ligada (correlacionada) con el peso.
Entonces, podr p odr´´ıamos utilizarla en intervalos de estatura, etc.
Claro, esto depender´a si tenemos tal variable disponible en nuestro marco muestral.
Departamento Departa mento de Estad´ıstica ıstica
150
Emilio L´ op ez Escobar
EST-24104: Estad´ıstica Aplicada I
obtend r´ıamos una buena estratificaci´ estratific aci´on on mientr mie ntras as m´ as as De modo que obtendr relacionada est´e la variable variable que utilizamos para estratificar con la variable asociada a lo que nos interesa .
8.3.
El n´ umero umero de estratos
¿Cu´antos anto s estratos estr atos usar?
Esto equivale equivale a responder responder ¿Cu´ ¿Cu´antos antos intervalos intervalos usar? usar? en el caso de que tengamos que “categorizar” alguna variable continua que queremos utilizar para la estratificaci´on. on.
¿Alguien sabe?
La respuesta respues ta tiene tie ne que ver con cu´anta anta muestra muest ra tenemos tenemo s disponible disp onible para p ara ser en cuestiones ejecutivas, es decir, dist di stri ribu´ bu´ıda ıd a en nuestros estratos y tambi´en si la estratificaci´on on es vendible al jefe o cliente no experto en muestreo.
Nosotros, expertos, tenemos que tener en mente siempre que la variable de estratificaci´on on debe estar muy asociada a lo que queremos medir.
Departamento Departa mento de Estad´ıstica ıstica
151
Emilio L´ op ez Escobar
EST-24104: Estad´ıstica Aplicada I
De nuevo, si esto ´ultimo ultimo no sucede, no pasa nada, pero desperdiciaremos concentraci´ on on de muestra donde debi´eramos eramos concentrarla. concentrarl a.
¿Donde deber´ deber´ıamos concentrarla? concentrarl a?
Donde hay mayor variabilidad.
Hab´ Hab´ıamos ıamo s dicho, dich o, que depende dep ende de cu´anta anta muestra mues tra tenemos. tene mos... .. ¿Por qu´e? e?
Para Para determinar determinar cu´antos antos estratos utilizar, se tiene que considerar considerar que se necesitan al menos 2 elementos por estrato. Esto nos limita en el n´umero de estratos a utilizar.
8.4.
El tama˜ tama˜ no de muestra asociado a la poblano ci´ on on a partir del tama˜ no no de muestra asociado a los dominios de estimaci´ on on
La estratificaci´on on nos permite tratar a cada estrato por separado.
De modo mo do que se podr p odr´´ıa planificar una muestra a partir de los tama˜nos nos de muestra necesarios para arrojar buenas estimaciones por dominio. Departamento Departa mento de Estad´ıstica ıstica
152
Emilio L´ op ez Escobar
EST-24104: Estad´ıstica Aplicada I
Y, entonces, tendr´ tendr´ıamos un tama˜no no de muestra para toda la poblaci´on
Claro, va a salir gigante y eso no le va a gustar al jefe o cliente, ni modo, as´ as´ı tiene que ser si quieren dar estimaciones con precisiones muy exigentes por dominio.
Esto es dif´ dif´ıcil de explicar a gente g ente de otras o tras disciplin di sciplinas... as... ¿c´ ¿ c´omo omo lo expli exp licar car´´ıan ustedes? ¿A alguien se le ocurre algo?
Departamento Departa mento de Estad´ıstica ıstica
153
Emilio L´ opez Escobar
8.5.
EST-24104: Estad´ıstica Aplicada I
¿Muestreo PPT o mejor estratificar?
Hay que resaltar el punto que se menciona en la bibliograf´ıa base del curso, S¨arndal et al. (1992, p. 100).
A estas alturas del curso ya hemos platicado un poco del muestreo con probabilidades proporcionales al tama˜no (PPS, o PPT en Espa˜nol), entonces ya tiene sentido este comentario.
Como se platic´o, el tener probabilidades proporcionales a cierta variable relacionada con la variable de inter´es trae beneficios en precisi´on.
Estos beneficios, sin necesidad de utilizar probabilidades desiguales es posible obtenerlos si se utiliza una buena estratificaci´on.
A diferencia de utilizar un dise˜no de muestreo PPS, al estratificar no tendr´ıamos que manejar teor´ıa matem´atica de muestreo que pudiere llegar a ser complicada.
Departamento de Estad´ıstica
154
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
8.6. Notaci´ on y uso de la estratificaci´ on
Tenemos una poblaci´on U = u1 , . . . , uk , . . . , uN que dijimos representar´ıamos (por pura simplificaci´on de notaci´on) como:
{
U =
}
{1, . . . , k , . . . , N} .
Ahora, haremos una partici´on de ´esta poblaci´on en H subpoblaciones que se denominan estratos y que denotaremos por U 1 , . . . , Uh , . . . , UH donde, U h =
{k : k ∈ U }. h
Una vez “estratificada” nuestra poblaci´on U , extraemos una muestra sh del estrato U h de acuerdo al dise˜no de muestreo p h ( ), para h = 1, . . . , H .
·
Como ya se mencion´o, la extracci´on de muestra en un estrato es independiente de la extracci´on en otro estrato.
De modo que se puede decir que s est´a compuesta de la siguiente manera: s = s1
Departamento de Estad´ıstica
∪ s ∪ ... ∪ s
155
2
H
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
y por la independencia (que ya hemos comentado mucho) p(s) = p(s1 ) p(s2 ) . . . p(sH ).
Los estratos son de tama˜no N h (que tambi´en asumiremos un dato conocido para este curso), entonces H
N =
N h .
h=1
Y por lo tanto el total poblacional t de la variable de inter´es y lo podemos descomponer de la siguiente manera: t
=
yk
(8.1)
th
(8.2)
U H
=
h=1 H
=
N h y¯U h
(8.3)
h=1
donde t h = U h yk es el total de la variable y en el estrato h, y y¯U h es la correspondiente media de y en el estrato h.
Definamos ahora el tama˜ no relativo del estrato W h =
Departamento de Estad´ıstica
156
N h , N
(8.4)
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
entonces la media poblacional la podr´ıamos descomponer de la siguiente manera: H
y¯U =
W h y¯U h .
h=1
Resultado 8.6.1 En un dise˜ no de muestreo estratificado, el estimador π del total poblacional t = U y k puede escribirse como
H
tˆπ =
tˆhπ
(8.5)
h=1
donde tˆhπ es el estimador π de t h = como,
U h
yk . La varianza de tˆπ puede escribirse
H
V ST
tˆπ
V h tˆhπ
=
(8.6)
h=1
donde V h tˆhπ es la varianza de tˆhπ . Un estimador insesgado de la varianza a dado por, V ST tˆπ est´ H
V ST tˆπ
Vh tˆhπ
=
(8.7)
h=1
suponiendo que existe un estimador insesgado Vh tˆhπ para cada h.
Demostraci´ on. Tarea opcional 6 para la pr´oxima clase, antes de su comienzo. Se entrega por e-mail -LaTeX o algo legible escaneado-, les tengo que confirmar recepci´ on, revisar´ e mi correo antes de comenzar la clase.
Departamento de Estad´ıstica
157
Emilio L´ opez Escobar
8.6.1.
EST-24104: Estad´ıstica Aplicada I
El dise˜ no de muestreo aleatorio simple estratificado, STSI
Sea nh el tama˜no de muestra fijo de un muestreo bajo el dise˜no SI para el estrato h, con h = 1, . . . , H .
Resultado 8.6.2 Bajo el dise˜ no STSI, el estimador π del total poblacional t = U y k es
H
tˆπ =
N h y¯sh
(8.8)
h=1
donde y¯sh =
sh
yk /nh es la media muestral del estrato h. La varianza de ˆtπ es,
H
−
V S TSI tˆπ
V h tˆhπ
=
h=1 H
N h2
=
1
h=1
f h
nh
(8.9)
S y2U h
(8.10)
donde f h = nh /N h es la fracci´ on de muestreo para el estrato h y
S y2U h =
−
1 N h
1
U h
(yk
− ¯y
U h )
2
.
Un estimador insesgado de la varianza V S TSI tˆπ est´a dado por,
Departamento de Estad´ıstica
158
(8.11)
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I H
VS TSI tˆπ
N h2
=
1
− f
h
nh
h=1
S y2sh
(8.12)
donde
S y2sh
=
−
1 nh
1
(yk
sh
− ¯y
sh )
2
.
(8.13)
es la varianza muestral de y para el estrato h.
Demostraci´ on. Tarea opcional 7 para la siguiente clase, se entrega electr´onicamente como le hemos venido haciendo.
Departamento de Estad´ıstica
159
Emilio L´ opez Escobar
8.6.2.
EST-24104: Estad´ıstica Aplicada I
Sobre la estimaci´ o n de un total y una media con estratificaci´ on: un error com´ un
Entonces, para la estimaci´on de un total poblacional, bajo estratificaci´on basta con estimar el total en cada estrato y luego hacer una suma de tales estimaciones por estrato.
En este caso, para la varianza, basta con sumar las varianzas por estrato, esto por la independencia entre estratos.
Para el caso de una media (proporciones) , se estiman las medias en cada estrato y luego se suman de manera ponderada por el tama˜no relativo del estrato W h , definido anteriormente en (8.4).
La varianza, entonces, ser´a la suma de las varianzas por estrato (para una media) ponderando por el cuadrado de los tama˜nos relativos del estrato
Un error muy com´un es, para el caso de la media, querer combinar las estimaciones (y sus correspondientes estimaciones de varianza) por estrato de la misma manera que para un total.
Este error es m´as com´un para el c´alculo de la varianza.
Departamento de Estad´ıstica
160
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
8.7. Afijaci´ on, asignaci´ on o distribuci´ on de mues-
tra en estratos
Un resumen breve de lo anterior ...
La estratificaci´on es mi amiga... siempre ayuda.
Nos ayuda con (no nos quita) problemas de marco, administraci´on, dispersi´on, precisi´on y lo mejor de todo es que es barata o f´acil.
¿Los estratos deben estar predefinidos?
¿Deben ser delimitaciones geogr´aficas?
¿Qu´e necesito en mi marco muestral para poder estratificar?
¿Se vale estratificar por una variable que no tengo en mi marco?
¿Qu´e hab´ıamos comentado que es fundamental para una buena estratificaci´on m´as all´a de lo que dicen los viejos libros de muestreo? ¿Qu´e dicen los libros tradicionales? Departamento de Estad´ıstica
161
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Una vez comprendido c´omo opera la estratificaci´on... o decidimos llevarla a cabo, viene la siguiente pregunta...
Si no se necesita dar estimaciones por estrato, ¿cu´ anta muestra de la que ya hab´ıa calculado para U y para la estimaci´on global, asigno o distribuyo a mis estratos?.....
Depende de varias cosas... Sabemos que depende de costos, tama˜nos de los estratos y de la variabilidad...
¿Y si tuvi´eramos que dar estimaciones por cierto estrato o sub-estrato (es decir, por ciertos dominios) c´omo se calculaba la muestra?
Ejemplo: Una encuesta nacional, con posibilidad de dar estimaci´on nacional a cierta precisi´on y a la vez con posibilidad de dar estimaciones en Iztapalapa, D.F., Toluca, Monterrey y Guadalajara. ¿Por donde empiezo?
Departamento de Estad´ıstica
162
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Ejemplo del presidente municipal de un pueblo que cuestiona insistentemente y pide que usemos menos muestra... 2 posibles soluciones o explicaciones que pongo a su consideraci´on: (1) La historia del pueblo y la de M´exico. (2) La recta num´erica.
Tarea opcional 8 para la siguiente clase despu´ es del examen, se entrega verbalmente ante el sal´ on (bien preparado - escr´ıbanlo para ustedes - pueden usar pizarr´on). Pensar en un buen EJEMPLO (no explicaci´on) para el presidente municipal. Ojo, es darle un ejemplo al presidente municipal (o diputado local de bajos estudios) para que le caiga el veinte de porqu´e a cierta precisi´on y confianza tenemos que (suponiendo un dise˜no SI) encuestar a la misma cantidad de gente en el pa´ıs y en el pueblo indistintamente.
Entonces, en el problema de asignar muestra a mis estratos... hay varios m´etodos. Aqu´ı listaremos los m´as importantes.
El primero, “distribuci´on ´optima”, es poco utilizado pero es importante tenerlo en consideraci´on. De ´el se desprenden los otros dos que listaremos.
El m´etodo de “Neyman”, caso particular del ´optimo cuando los costos son fijos.
Departamento de Estad´ıstica
163
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
El de Neyman es el m´as importante ya que indica como se incorpora informaci´on que tengamos de los estratos.
Esta informaci´on tiene que ver con la variabilidad de lo que queremos medir de estudios pasados o de variables muy asociadas a lo que queremos medir.
Es informaci´on de la que tendr´ıamos que disponer en nuestro marco muestral, claro.
El m´etodo de Neyman asignar´a m´as muestra en aquellos estratos en donde m´as se requiera (donde haya m´as variabilidad, si no, como dicen: “para muestra un bot´on”).
Finalmente, se lista la expresi´on de la distribuci´on “proporcional”, en esta s´olo se consideran los tama˜nos de los estratos. Se ignora la variabilidad.
El proporcional no es muy bueno por obvias razones, tiramos informaci´on de gran utilidad para ganar mayor precisi´on en la estratificaci´on, desaprovechamos muestra en estratos donde no es necesaria tanta muestra.
Es el m´as utilizado. A´un con nociones rudimentarias de muestreo puede ser m´as f´acil de venderse de manera ejecutiva, sin oposici´on, sin discusi´on de colegas, jefes o clientes.
Departamento de Estad´ıstica
164
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Si utilizamos este ´ultimo m´etodo, entonces utilizamos la estratificaci´ on unicamente como control de extracci´on y/o dispersi´on de la muestra .
Es decir, aseguramos que la muestra caiga en todos los estratos. No obstante, en t´erminos de precisi´on, no mejoramos o mejoramos muy poco con respecto a no estratificar.
8.7.1.
Una funci´ on de costos
Para la distribuci´on ´optima, de donde se desprenden las dem´as distribuciones, necesitamos establecer siguiente funci´on de costo total C .
Son costos asociados al ejercicio pr´actico de muestrear, por ejemplo operativos de levantamiento, etc. H
C = c0 +
nh ch
h=1
donde: c0 es el costo fijo, igual para todos los estratos; ch > 0 es el costo variable de estrato en estrato.
Entonces, surge un problema de optimizaci´on matem´atica...
Departamento de Estad´ıstica
165
Emilio L´ op ez Escobar
EST-24104: Estad´ıstica Aplicada I
Minimizar la varianza total del estimador global sujeto al costo total C , C ,
O puede verse como un problema de maximizar la precisi´on, dado un costo total fijo (gobierno).
Este problema se resuelve con la desigualdad de Cauchy, y su resoluci´on no se desarrollar´ desarrollar´a en el presente texto (viene en cualquier libro est´andar andar de muestreo, muestreo , incluso los m´as as viejos).
Las expresiones est´an an calculadas cal culadas bajo un dise˜ dis e˜no no de muestreo SI para cada estrato, es decir un dise˜no no STSI y suponiendo respuesta completa (tasa de respuesta respuesta del 100 %).
Recuerden... todo lo que tiene que ver con tama˜nos de muestra se hace bajo el dise˜no no SI y posteriormente se hacen los ajustes con los deff y y las tasas de respuesta, para tener el tama˜no no de correspondiente a un dise˜no no cualquiera que utilicemos.
´ 8.7.2. Distribuci´ on on Optima
nh = (C
− c ) −
Departamento Departa mento de Estad´ıstica ıstica
0
√ √ c S
N h S yU h / ch
H h=1
166
N h
yU h
h
(8.14)
Emilio L´ op ez Escobar
EST-24104: Estad´ıstica Aplicada I
8.7.3. Distribuci´ on on de Neyman
Si es posible asumir costos constantes en todos los estratos, entonces tenemos esta forma de afijaci´on on de muestra en estratos: nh = n
N h S yU h H h=1
N h S yU h
En este caso, S yU h tiene que ser conocida.
De nueva cuenta, pueden obtener aproximaciones, rescatar informaci´on de una encuesta previa.
O bien, utilizar informaci´on on de alguna variable auxiliar x que est ´e alt a ltame amente nte x que est´ correlacionada correlacio nada con c on la variable de inter´ i nter´es es y, utilizar´ıamos: y , de modo que utilizar´ nh = n
Departamento Departa mento de Estad´ıstica ıstica
167
N h S xU h H h=1
N h S xU h
Emilio L´ op ez Escobar
EST-24104: Estad´ıstica Aplicada I
on on proporcional 8.7.4. Distribuci´
si es posible asumir que tanto los costos y la variabilidad de la variable de inter´es es es constante (o cercanamente cercanamente constante) en todos los estratos: nh = n
N h H h=1
N h
= n
N h N
´ expresi´on, Esta on, es la que regularmente es utilizada cuando lo que se quiere es utilizar la estratificaci´on on como un control de nuestra muestra o para forzar cierta dispersi´on on de la muestra.
Ejemplo gr´afico afico en el pizarr´on. on.
Si utilizamos esta distribuci´on, on, habriamos de obtener casi la misma precisi´on on a que si s i no estratifi es tratific´ c´aramos aramos pero p ero asegurariamos aseg urariamos la presencia de muestra en diversos estratos en que previamente fue cortada la poblaci´on U .
8.7.5.
Distribuciones Distribuciones alternativas
Desde luego, las expresiones anteriores pueden ser modificadas seg´un lo requiere el estudio en cuesti´on. on.
Departamento Departa mento de Estad´ıstica ıstica
168
Emilio L´ op ez Escobar
EST-24104: Estad´ıstica Aplicada I
Normalmente estas modificaciones modifi caciones siguen la misma l´ınea que el m´etodo eto do de Neyman, pero modificando modifi cando a los lo s t´erminos erminos S yU h .
Por ejemplo, a veces se utiliza S Sy U h . Esto ayuda a suavizar el efecto de la distribuci´on on de Neyman. Asi, se env´ env´ıa m´as as muestra donde hay m´as as variabilidad pero de manera menos pronunciada a si se utiliza la expresi´on original de Neyman.
Otra modificaci´on on com´un, un, como ya se vi´o, o, es hacer uso de S xU h en lugar de S de S yU h . O tambi´ t ambi´en, en, a veces se hacen hac en asignaciones asi gnaciones ad hoc .
En algunos algu nos ejercicios ejer cicios pr´acticos, acticos, cuando se tiene un tama˜ no de muestra muy grande, se prefiere afectar la calidad de la estimaci´ on global y mejorar las estimaciones por estratos o dominios .
Departamento Departa mento de Estad´ıstica ıstica
169
CAP´ITULO 9
Conglomeraci´on on
170
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
9.1. Introducci´ on a la conglomeraci´ on
9.1.1.
¿C´ omo se ve la conglomeraci´on en otros textos y c´ omo la trataremos?
Al igual que la estratificaci´on, se ve m´as como un tipo de dise˜no de muestreo.
Nosotros lo veremos como una t´ecnica o una herramienta que podemos implementar no para mejorar nuestro dise˜ no, sino para solucionar problemas pr´ acticos del muestreo.
Ojo: No ‘mejoramos’ la estimaci´on.
De entrada, conglomerar disminuye nuestra precisi´on. Esto es, aumenta la variabilidad de nuestro estimador sea el que sea .
Pero, nos sirve para solucionar problemas...
Departamento de Estad´ıstica
171
Emilio L´ opez Escobar
9.1.2.
EST-24104: Estad´ıstica Aplicada I
¿Qu´ e problemas soluciona o qu´ e facilita la conglomeraci´ on? Su utilidad...
Hasta ahora los dise˜nos que hemos utilizado o comentado son los dise˜nos en 1 etapa.
Es decir, muestreo directo de elementos.
No obstante, en muchas encuestas o estudios que utilizan muestreo, el actico por alguna muestreo directo de elementos no es viable o es impr´ de las siguientes razones:
• No existe o no se tiene disponible un marco muestral. • Obtener un marco muestral con mucha desagregaci´on geogr´afica y con mucho detalle puede no existir o ser excesivamente caro.
• El marco muestral de las unidades de inter´es para el estudio que realizamos es, de plano, imposible.
• Por ejemplo, la poblaci´on de abejas en una regi´on de Michoac´an, la poblaci´on ind´ıgena de la sierra oaxaque˜na.
A lo m´as que podr´ıamos llegar, en el segundo ejemplo, es a un listado de viviendas (y eso, tambi´ en no es tan sencillo o barato)
• ¿Se les ocurre alg´un otro ejemplo de marco muestral dif´ıcil, caro, inaccesible o inexistente?
Departamento de Estad´ıstica
172
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
• Otra raz´on... La poblaci´on de elementos est´a muy dispersa geogr´aficamente y los operativos de medici´on o levantamiento de campo ser´ıan muy costosos.
• Es decir, es necesario abaratar la encuesta. • Otra raz´on para conglomerar... La poblaci´on de elementos est´a, naturalmente aglomerada en escuelas, barrios, etc. y entonces la supervisi´on de campo es m´as f´acil si consideramos tales grupos.
De modo que, al igual que en la estratificaci´on, siempre podemos cuestionar cierta conglomeraci´on e intentar mejorarla... i.e. disminuir su da˜no.
Volvemos a lo que vimos en primeras clases de manera muy platicada... ¿En realidad hay que seguir cierta conglomeraci´on hecha por ‘tradici´o n’?
¿Qu´e comentamos en el ejemplo que ten´ıamos de pasar de 3 a 2 etapas?
¿Qu´e nos limita para cierta conglomeraci´on aparte de los recursos econ´omicos?
Vamos a lo b´asico... muestreo por conglomerados en una etapa...
Departamento de Estad´ıstica
173
Emilio L´ opez Escobar
9.1.3.
EST-24104: Estad´ıstica Aplicada I
¿En qu´ e consiste el muestreo por conglomerados?
Pizarr´ on.... Empecemos por el caso de muestreo por conglomerados como lo define nuestro texto base (despu´es submuestrearemos).
En muestreo por conglomerados la poblaci´on finita es agrupada en conglomerados.
Luego se selecciona una muestra de conglomerados.
Posteriormente todos los elementos contenidos en los conglomerados seleccionados son encuestados.
El muestreo por conglomerados tambi´en se le llama muestreo de conglomerados en una etapa .
O si no, tambi´en como muestreo uniet´apico de conglomerados.
Departamento de Estad´ıstica
174
Emilio L´ opez Escobar
9.1.4.
EST-24104: Estad´ıstica Aplicada I
¿En qu´ e consiste el muestreo en dos etapas?
apico, Por otro lado, en el muestreo de dos etapas o muestreo bi-et´ una muestra de elementos dentro de los conglomerados es seleccionada en lugar de (censarlos) medirlos a todos.
Es decir, el muestreo en dos etapas es el resultado de dos etapas en donde se muestrea.
Esto es:
• La poblaci´on de elementos es agrupada en subpoblaciones disjuntas
llamadas unidades primarias de muestreo (UPMs) (o PSUs en Ingl´es)
• Se selecciona una muestra de UPMs (primera etapa de muestreo) • Para cada UPM seleccionada en la primera etapa de muestreo se lleva a cabo una segunda etapa de muestreo al interior.
• Estas unidades secundarias de muestreo (USMs) (o SSUs en Ingl´es) pueden ser elementos o incluso conglomerados.
• Cuando las USMs son conglomerados, todos los elementos de estos
conglomerados son encuestados, a estos dise˜nos se les llama muestreo bi-et´apico de conglomerados .
Departamento de Estad´ıstica
175
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
• Trat´andose del caso en que las USMs son elementos, se utiliza el apido de elementos t´ermino muestreo bi-et´
Entonces, si se habla de un dise˜no de muestreo bi-et´apico hablamos de dos posibles opciones. Ojo, ev´ıtense confusiones..
9.1.5.
¿En qu´ e consiste el muestreo multi-et´apico?
´ Este consiste en tres o m´as etapas de muestreo.
Hay una jerarqu´ıa de unidades muestrales... UPMs, USMs, UTMs,... UPUMs, UUMs.
An´alogamente, cuando se trata de elementos o conglomerados podemos tener un muestreo multi-et´apico de elementos o un muestreo multi-et´apico de conglomerados.
De modo que ya podemos ir viendo en los reportes de las encuestadoras mexicanas quienes llaman de manera correcta lo que reportan que est´an haciendo...
Departamento de Estad´ıstica
176
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
9.2. Estimaci´ on de totales y medias con conglo-
meraci´ on
Trat´andose de totales, la teor´ıa que hemos visto aplica directamente (ya lo veremos).
Si se dan cuenta, vimos una forma general de estimar y solo estamos revisando como se adapta bajo estratificaci´on, conglomeraci´on y dem´as...
¿Y si trabajamos con medias... es igual?
Departamento de Estad´ıstica
177
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Trat´andose de medias, no es posible dividir las estimaciones puntuales entre N y las varianzas entre N 2 .
Esto porque usualmente N es desconocido en muestreos donde se requiere conglomerar.
Entonces, la media es una raz´on de dos totales desconocidos que tienen que ser estimados, esto se ver´a m´as adelante.
Y esto, como se imaginar´ an traer´a complicaciones en la estimaci´o n de varianzas...
Departamento de Estad´ıstica
178
Emilio L´ opez Escobar
9.3.
EST-24104: Estad´ıstica Aplicada I
Muestreo de conglomerados uniet´ apico
Como hab´ıamos introducido, se tiene que la poblaci´on finita U =
{1, . . . , k , . . . , N}
(9.1)
se particiona en N I subpoblaciones llamados conglomerados, y se denotan
U 1 , . . . , Ui , . . . , UN I
(9.2)
Entonces tenemos una nueva poblaci´on, una poblaci´on de conglomerados U I =
{1, . . . , i , . . . , N }
I
(9.3)
de donde ser´an muestreados conglomerados.
Notar que el ´ındice I lo utilizaremos para identificar objetos o entidades asociados con los conglomerados.
El n´umero de elementos en el i-´esimo conglomerado U i se denota N i . Es decir, el tama˜no del conglomerado i.
Entonces, por la partici´on de U tenemos que U =
U i
(9.4)
N i
(9.5)
i∈U I
y entonces, N =
i∈U I
Departamento de Estad´ıstica
179
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Consecuentemente, definimos el muestreo uniet´apico conglomerado de la siguiente manera:
1. Se extrae una muestra s I de la poblaci´on de conglomerados U I de acuerdo a un dise˜no p I ( ).
·
El tama˜no de sI lo denotamos como nI o n sI para dise˜nos de tama˜no no fijo
2. Todos los elementos dentro de los conglomerados seleccionados son observados
Aqu´ı, p I ( ) representa cualquier dise˜no de muestreo convencional, e.g. muestreo aleatorio simple sin reemplazo, muestreo aleatorio simple con reemplazo, muestreo aleatorio simple estratificado (ojo: podemos estratificar en p I ( )), etc.
·
·
Entonces
¿C´omo ser´ıa s?
¿C´omo ser´ıa ns ?
Departamento de Estad´ıstica
180
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
s =
U i
(9.6)
N i
(9.7)
i∈sI
y su tama˜no ns =
i∈sI
Notar que aunque p I ( ) sea de tama˜ no de muestra fijo, el n´ umero n s en general no ser´ a fijo porque los tama˜ nos de los conglomerados N i pueden variar.
·
Y de manera an´aloga a lo ya visto anteriormente, la funci´on dise˜no p I ( ) induce las siguientes probabilidades
·
πIi =
pI (sI )
(9.8)
sI i
y para dos conglomerados i y j , πIij =
pI (sI )
(9.9)
sI i& j
Tambi´en tenemos que π Iii = π Ii .
Entonces, en lo que respecta a las probabilidades de inclusi´on de elementos....
¿C´omo ser´ıan?...
Departamento de Estad´ıstica
181
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Dado que s contiene cada elemento de los conglomerados seleccionados, tenemos, para cada k en U i , πk = P r(k s) = P r(i s I ) = πIi .
∈
∈
(9.10)
Y las probabilidades de inclusi´on de segundo orden est´an dadas por, πkl = P r(k&l s) = P r(i s I ) = πIi ,
∈
∈
(9.11)
si ambas k y l est´an contenidas en el mismo conglomerado U i , y πkl = P r(k&l s) = P r(i& j
∈ s )
∈
I
= πIij ,
(9.12)
si k y l pertenecen a diferentes conglomerados U i y U j . Notar que π kk = π k .
Ahora, para simplificar la notaci´on definamos, ti =
yk ,
(9.13)
U i
para el total del conglomerado i-´esimo. Entonces, el total a ser estimado puede re-expresarse como (9.14) t = yk = ti .
U
ˇ Iij = ∆Iij /πIij , con ∆ Iij = π Iij Sea ∆
U I
Ii πIj ,
− π
tˇi = ti /πIi .
Departamento de Estad´ıstica
182
y definamos
(9.15)
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Resultado 9.3.1 En un muestreo conglomerado uniet´apico, el estimador π del total poblacional t = U yk puede escribirse como
tˆπ =
tˇi =
sI
ti /πIi
(9.16)
∆Iij tˇi tˇj
(9.17)
(9.18)
sI
La varianza de ´este est´a dada por,
V tˆπ =
U I
Un estimador insesgado de V tˆπ est´a dado por,
V tˆπ =
ˇ tˇi tˇj ∆ Iij
sI
Demostraci´ on. La demostraci´on se desprende de manera muy sencilla de la demostraci´ on del Resultado 6.3.1.
Como ha sucedido anteriormente, si pI ( ) es un dise˜no de muestreo de tama˜no de muestra fijo, la varianza V tˆπ puede expresarse como
V tˆπ
=
−
1 2
·
− − ∆Iij tˇi
tˇj
2
ˇ ∆ tˇi Iij
tˇj
2
U I
,
(9.19)
.
(9.20)
con el siguiente estimador insesgado
V tˆπ
Departamento de Estad´ıstica
=
−
1 2
sI
183
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
De esta ´ultima ecuaci´on podemos extraer interesantes conclusiones sobre la eficiencia del muestreo de conglomerados (uniet´apico).
Si todos los ˇti = t i /πIi son iguales, entonces V tˆπ = 0. De modo que podemos escoger πIi aproximadamente proporcional a los totales por conglomerado t i , y asi el muestreo por conglomerados uniet´apico ser´a eficiente.
Si los tama˜nos de los conglomerados N i son conocidos en la etapa de planeaci´ on, uno puede escoger un dise˜no con π Ii N i .
∝
Y, como ti = N i y¯U i = U i yk esta es una buena elecci´on si existe poca variaci´on entre las medias de los conglomerados y¯U . Si todas las medias y¯U i fueran iguales tendriamos V tˆπ = 0.
Un muestreo de conglomerados uniet´apico con probabilidades iguales (i.e. las π Ii todas iguales) es usualmente una mala elecci´on cuando los conglomerados son de diferente tama˜no. Para que tal dise˜no sea eficiente necesitar´ıamos que ¯ yU i fueran m´as o menos proporcionales a N i−1 . Esto es raro en la pr´actica.
Departamento de Estad´ıstica
184
Emilio L´ opez Escobar
9.4.
EST-24104: Estad´ıstica Aplicada I
Muestreo de conglomerados uniet´apico aleatorio simple (SIC)
Consideremos ahora el muestreo aleatorio simple (sin reemplazo) de conglomerados (SIC).
Se utilizar´a un dise˜no SI para extraer una muestra sI de tama˜no nI de la poblaci´on de conglomerados U I de tama˜no N I , y todos los elementos contenidos en los conglomerados extra´ıdos son observados.
Entonces, por el resultado 9.3.1 tenemos que el estimador π del total poblacional est´a dado por tˆ = N I t¯sI , donde t¯sI = en s I .
sI ti /nI es
la media de los totales de los conglomerados ti
La varianza, entonces, se puede expresar como 1 V SI C (tˆπ ) = N I 2
− f S I
nI
2 t U I
donde f I = nI /N I es la fracci´on de muestreo de conglomerados y S t2U I
Departamento de Estad´ıstica
=
− 1
N I
185
1
U I
(ti
− t¯
U I )
2
,
Emilio L´ opez Escobar
con t¯U I =
EST-24104: Estad´ıstica Aplicada I
U I ti /N I .
donde
El estimador insesgado de la varianza es 1 VS I C (tˆπ ) = N I 2
I
1
nI
2 t sI
nI
− 1
S t2sI =
9.4.1.
− f S
(ti
sI
− t¯
sI )
2
.
El coeficiente de homogeneidad
Ahora comparemos el dise˜no SIC contra el dise˜no SI.
Para ello es util trabajar con el coeficiente de homogeneidad δ = 1 donde S y2 W =
1
− N
N
S y2 W , S y2 U
−
(yk
I U I
U i
− ¯y
U i )
2
,
es la varianza combinada intra-conglomerado , con la media del conglomerado i-´esimo: yk y¯U i = N i U
i
Hay varias formas de re-expresar el coeficiente de homogeneidad.
Departamento de Estad´ıstica
186
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
alisis de regresi´on, δ no es m´as que el coeficiente (Pizarr´ on.) Desde el an´ de determinaci´ on ajustado por los grados de libertad , obtenido de correr una regresi´on lineal sobre y en las N I variables dummy (que indican la membres´ıa a los conglomerados) en toda la poblaci´on con N puntos.
El coeficiente de homogeneidad δ satisface
− N N − −N 1 ≤ δ ≤ I
1
I
Un valor peque˜no de δ significa...
... que los elementos en el mismo conglomerado son disimilares con respecto a la variable de estudio, esto es, tienen un bajo nivel de homogeneidad.
Por otro lado, si δ = 1 tenemos el caso de que hay variaci´on cero dentro de cada conglomerado, i.e. total homogeneidad.
El extremo inferior de δ es usualmente cercano a cero, especialmente si N es grande comparado con N I .
Departamento de Estad´ıstica
187
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Y uno obtiene exactamente el valor δ = 0 si la varianza promedio dentro de los conglomerado es igual a la varianza de la poblaci´on entera U .
Una vez definido δ , vamos a obtener el efecto de dise˜no del dise˜no SIC.
¯ = N/N I el n´umero promedio de elementos por conglomerado, y Sea N 2 sea Cov la covarianza entre N i y N i y¯U dada por: i Cov =
− 1
N I
1
(N i
U I
¯ − N )N y¯
2 i U i
´ Haciendo un poco de Algebra tenemos entonces que: V SI C (tˆπ ) N N I Cov = 1 + Deff (SIC, tˆπ ) = δ + ¯ 2 N I 1 N S y U V SI (tˆπ )
− −
Entonces, si todos los conglomerados tuvieran el mismo tama˜no C ov = 0 y si δ << 0 se podr´ıa dar que V SI C < V SI . Anal´ıticamente s´ı se podr´ıa...
No obstante, que δ << 0 es muy dif´ıcil que se d´e en la pr´actica ya que los conglomerados, usualmente est´an conformados de elementos cercanos geogr´aficamente y tender´an a parecerse en t´erminos de la variable y.
Por ejemplo, incluso con δ = 0.08 y un tama˜no promedio de conglomerados ¯ = 300 tenemos que Deff (SIC, tˆπ ) 25. N Departamento de Estad´ıstica
188
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Hay m´ as resultados parecidos al anterior.... Todos, en general, exhiben que siempre, en la pr´ actica y en casos f´acilmente encontrables, se pierde precisi´ on al conglomerar.
9.5.
Muestreo biet´ apico
Dado que perdemos precisi´on al conglomerar, para controlar costos y aumentar el n´umero de conglomerados a seleccionar (que como ya vimos tambi´en, habria de mejorar nuestra precisi´on) hace sentido muestrear dentro de los conglomerados seleccionados en lugar de observar a todos.
Entonces, tenemos que estimar cada total de cada conglomerado ti con submuestras dentro de los conglomerados.
Si la variaci´on dentro de los conglomerados es peque˜na (cosa que podemos esperar), entonces habr´ıamos de tener estimadores ˆti con peque˜na varianza, incluso para utilizando poca cantidad de elementos en tales estimaciones.
Y entonces, intuitivamente, si tenemos, digamos, un n´umero limitado de ‘lecturas’ o mediciones en nuestra muestra global, o si tenemos fijo el tama˜no de muestra global sin importar c´omo se distribuye la muestra por etapas (pizarr´on), habr´ıamos de mejorar las estimaciones globales.
Departamento de Estad´ıstica
189
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
En un muestreo biet´apico hay dos fuentes de variaci´ on, la primera de la selecci´ on de unidades primarias de muestreo (UPM) y la segunda del submuestreo o selecci´on de unidades secundarias de muestreo (USM) dentro de las UPMs seleccionadas en la primera etapa.
La poblaci´on U se particiona, entonces, en N I UPMs, denotadas U 1 , . . . , UN I . Tenemos entonces, una poblaci´on de conglomerados U I de tama˜no N I .
De nuevo, denotaremos el tama˜no del conglomerado U i como N i .
Tenemos entonces que, N =
N i
i∈U I
Definimos el muestreo biet´apico de la siguiente manera: 1. Se extrae una muestra sI de la poblaci´on de conglomerados U I de acuerdo a un dise˜no p I ( ).
·
El tama˜no de sI lo denotamos como nI o nsI para dise˜nos de tama˜no no fijo.
2. Para cada i s I , se extrae una muestra si de elementos a partir de U i de acuerdo al dise˜no pi ( sI )
∈
Departamento de Estad´ıstica
·|
190
Emilio L´ op ez Escobar
EST-24104: Estad´ıstica Aplicada I
Formalmente hemos visto que en la segunda etapa estamos utilizando el dise˜no p no p i ( sI ).
·|
El supuesto que usualmente se hace, a estas alturas, son los de invarianza e independencia. independencia .
De manera sencilla y en palabras, esto significa que p i ( sI ) = p i ( ) y que el submuestreo dentro de una UPM se lleva a cabo independientemente de lo que pase en las l as dem´as as UPMs.
·|
·
Hay dise˜nos nos m´as as generales en donde los dos supuestos de independencia e invarianza no se hacen. Nosotros, en lo que queda de conglomeraci´on (en particular el dise˜no no biet´apico) apico) nos restringiremos al muestreo de elementos en dos etapas.
El n´umero umero de UPMs en sI se denota nsI , o simplemente nI , si el dise˜no no de muestreo de la primera etapa p I ( ) es de tama˜no no de muestra fijo.
·
Los elementos muestreados en la UPM i-´esi es ima, ma , si se denota como nsi , o simplemente ni , si p si p i ( ) es de tama˜no no de muestra fijo.
·
El n´umero umero total de elementos muestreados en s es denotado n denotado n s .
Departamento Departa mento de Estad´ıstica ıstica
191
Emilio L´ op ez Escobar
EST-24104: Estad´ıstica Aplicada I
Entonces, tenemos que: s =
si
i∈sI
y su tama˜no no ns =
ni
i∈sI
Ahora, para las probabilidades de inclusi´on asociadas asoci adas al muestreo biet´apico apico tenemos: para el dise˜no no de muestreo de la primera etapa p I ( ), tenemos a πIi y πIij .
·
Sea, ∆Iij = πIij
−
πIi πIj
con ∆Iii = πIi (1
−
πIi )
y con ˇ Iij = ∆Iii /πIij ∆
Correspondientemente, para la segunda etapa de muestreo pi ( ), utilizamos la notaci´ notaci´on π on π k|i y π kl |i .
·
As´ı, ∆kl|i = πkl |i
Departamento Departa mento de Estad´ıstica ıstica
192
−
πk|i πl|i
Emilio L´ op ez Escobar
EST-24104: Estad´ıstica Aplicada I
con ∆kk |i = πk|i (1
−
πk|i )
y con, ˇ kl|i = ∆kl|i /πkl |i ∆
9.5.1.
Muestreo biet´ apico apico de elementos el ementos
Para obtener el estimador π estimador π,, su varianza y el correspondiente estimador de varianza podemos aplicar tal cual el Resultado 6.3 6.3.1 .1 general sustituyendo las correspondientes probabilidades de inclusi´on π on π k y π kl subyacentes
En un u n muestreo mue streo biet´apico apico de elementos: elementos : πk = πIi πk|i
y, πkl =
si k si k
∈ U
i
si k si k = l = l U i πIi πk|i si k si k& &l U i , k = l πIi πkl |i si k U i and and l l U j , i = j πIij πk|i πl| j si k
∈ ∈ ∈ ∈
En muestreo biet´apico apico condicionamos en el evento realizado de extracci´on on de la muestra s muestra s I de la primera etapa.
Departamento Departa mento de Estad´ıstica ıstica
193
Emilio L´ op ez Escobar
EST-24104: Estad´ıstica Aplicada I
Sea
yk πk|i
yˇk|i = y sea tˆiπ =
si
yˇk|i
(9.21)
el estimador π estimador π con respecto a la etapa 2 del total i-´ es imo de UP UPMs Ms i -´esimo ti =
U i
yk
Entonces, sub-muestreando muestras s muestras s i de manera repetida a partir de U i , de acuerdo al dise˜no no pi ( ), tˆiπ es insesgado para t i .
·
La varianza con respecto a la etapa 2 es V i =
U i
∆kl|i yˇk|i yˇl|i
la cual es estimada insesgadamente mediante el estimador de varianza
V V i =
si
ˇ kl |i yˇk|i yˇl|i ∆
Alternativamente, como ha sucedido anteriormente, para dise˜nos de muestreo p treo p i ( ) de tama˜no no fijo, V fijo, V i puede escribirse como
·
V i =
Departamento Departa mento de Estad´ıstica ıstica
−
1 2
U i
194
∆kl|i yˇk|i
−
yˇl|i
2
(9.22)
Emilio L´ op ez Escobar
EST-24104: Estad´ıstica Aplicada I
la cual es estimada insesgadamente mediante el estimador de varianza
V Vi =
−
1 2
si
ˇ kl |i yˇk|i ∆
−
yˇl|i
2
(9.23)
A continuaci´on, on, la varianza del estimador π la escribiremos como la suma de dos componentes V U P M y V U SM , que representan las dos fuentes de variabilidad.
El subsub -´ındic ın dicee 2st lo st lo utilizaremos para denotar que hay 2 etapas (de“two stages”).
on (9.21 9.21), ), y Importante: Notar la diferencia entre tˆiπ de la ecuaci´on ti tˇi = πIi
apico de elementos, el estimador π del Resultado 9.5.1 Resultado 9.5.1.1 .1 En un muestreo biet´apico total poblacional t t = U y k puede escribirse como
tˆπ =
sI
tˆiπ πIi
(9.24)
donde tˆiπ es el estimador π de ti con respecto a la etapa 2. La varianza de tˆπ puede escribirse como la suma de dos componentes, V 2st (tˆπ ) = V U P M + V U SM
Departamento Departa mento de Estad´ıstica ıstica
195
(9.25)
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
con
V U P M =
U I
donde tˇi = t i /πIi , y
V U SM =
∆Iij tˇi tˇ j
U I
V i πIi
(9.26)
(9.27)
donde V i est´a dado por la ecuaci´ on ( 9.22 ). El primer componente V U P M es estimado insesgadamente mediante ˆU P M = V
sI
ˇ Iij ∆
tˆi tˆ j πIi πIj
− − 1 sI πIi
1 πIi
1
ˆi (9.28) V
ˆi est´a dado por la ecuaci´ donde V on ( 9.23 ), y el segundo componente V U SM es estimado insesgadamente mediante ˆU SM = V
sI
ˆi V 2 πIi
(9.29)
Un estimador insesgado para V 2st (tˆπ ) es ˆ2st (tˆπ ) = V ˆU P M + V ˆU SM V
(9.30)
ˆi V sI πIi
(9.31)
Y se puede demostrar, haciendo el ´algebra, que ˆ2st (tˆπ ) = V
sI
ˆ ˆ ˇ Iij ti t j + ∆ πIi πIj
Es importante notar que los dos componentes de estas dos ´ ultimas ecuaciones no corresponden. Demostraci´ on. La demostraci´on se desprende de la teor´ıa vista.
Departamento de Estad´ıstica
196
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Dado que el segundo t´ermino de la ultima expresi´on es complicado de calcular en la pr´actica, en algunos ejercicios pr´acticos se utiliza, como simplificaci´ on s´olo el primer componente.
Ojo: Esta pr´actica simplifica, no obstante, subestima la verdadera varianza, aunque por poco (en la mayor´ıa de los casos). Es importante, saberlo.
Ojo: Como ya se dijo. No es lo mismo ignorar el ´ultimo t´ermino que ignorar ˆU SM . V
En algunas aplicaciones es necesario saber cu´anto contribuye cada etapa en la varianza. Regularmente, se utiliza un estudio piloto.
ˆU P M no siempre da estimaciones positivas. Notar que V
¿En qu´e condiciones cada componente da cero?
(a) si S I = U I con probabilidad 1, entonces πIi = πIij = 1, i, j. Entonces V U P M = 0 y V U SM = U I V i . Es decir la varianza del estimador π en muestreo estratificado.
∀
(b) si s i = U i entonces tenemos...
Departamento de Estad´ıstica
197
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Hablar de Srinath & Hidiroglou (1980).
Otra ventaja de ignorar el ´ultimo t´ermino, aunque sub-estime, es que en la vida real uno puede utilizar cualquier dise˜no de muestreo probabil´ıstico en la segunda etapa.
9.5.2.
Muestreo biet´apico de elementos: dise˜ no auto-ponderado
Uno de los dise˜no m´as comunes en la pr´actica son los dise˜ nos autoponderados.
B´asicamente por dos razones:
1. Ayudan a controlar el trabajo de campo.
2. Simplifican los c´alculos de estimaciones (puntuales).
Un dise˜no auto-ponderado de dos etapas se hace de la siguiente manera:
(a) Se supone la existencia y conocimiento de una medida de tama˜no (gruesa) u i de la i-´esima UPM. Departamento de Estad´ıstica
198
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
(b) Seleccionamos UPMs de acuerdo a un dise˜no tal que π Ii
∝ N . i
(c) Submuestreamos un n´umero fijo de USMs, ni dentro de las UPMs seleccionadas, utilizando un dise˜no SI. (d) Si se utiliza un dise˜no de muestreo de tama˜no de muestra fijo nI entonces tenemos que: N i πIi = nI . N i
(e) Tenemos entonces que: πk = πIi πk|i = nI
N i ni ni = nI N i N i N
Obtenemos entonces que todos los individuos en nuestra muestra pesan lo mismo.
¿Es lo mismo que considerar, entonces, un dise˜no SI?
¿Qu´e creen que hacen las empresas encuestadoras que tenemos en M´exico?
Y es que, entonces se tiene la misma carga de trabajo de campo en cada UPM. Departamento de Estad´ıstica
199
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Se puede utilizar software est´andar, al menos para la estimaci´on puntual.
¿Qu´e pasa con el c´alculo de varianzas?
El vicio del mercado...
Este ‘auto-ponderamiento’ se puede tambi´ en implementar en dise˜n o de m´as de dos etapa, por supuesto.
Departamento de Estad´ıstica
200
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
9.6. Post-Estratificaci´ on, ajuste o calibraci´ on de
factores de expansi´ on
¿C´omo lograr que si calculamos las frecuencias de una encuesta por ejemplo, se tengan proporciones de hombres y mujeres igual a la poblaci´on objetivo si la informaci´on del sexo del entrevistado no la sabemos si no hasta que ya nos contesto?
¿C´omo evitar desviaciones de tal o cual caracter´ıstica en mi muestra y que adem´as s´e que esa caracter´ıstica est´a relacionada con lo que me interesa medir?
Es decir, lograr lo que en algunos textos o clientes llaman coloquialmente ‘representatividad’ en lo que se refiere a cierta variable que no pudimos controlar previo a la extracci´on de la muestra.
Hay que utilizar un Factor de Ajuste, F Ac =
P c P M c
donde P c es la proporci´on poblacional (esperado) del cruce c, y P M c es la proporci´ on muestral (observada) del cruce c.
Explicando en el pizarr´on... Departamento de Estad´ıstica
201
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
¿Cu´anto deben sumar los F Ac en mi base de datos muestral?
Otros nombres: ponderaci´on (com´un), calibraci´on (correcto), post-estratificaci´on (correcto).
El vicio del mercado...
¿C´omo saber cuando te dan una base de datos qu´e es el ponderador que reportan en tal base de datos?
¿Un ponderador o el producto de varios ponderadores?
El otro vicio del mercado... anclar.
Otras opciones...
Departamento de Estad´ıstica
202
Parte IV
Ap´ endices
203
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Relaci´ on entre distribuciones de probabilidad
Fuente: Leemis, L. M. (1986). Relationships among common univariate distributions. Am.
Departamento de Estad´ıstica
204
Stat. . 40,
pp. 143–6.
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
S´ımbolos pch para gr´aficos en R
Departamento de Estad´ıstica
205
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Varianzas hipot´ eticas de algunas distribuciones (Kish, 1965)
Departamento de Estad´ıstica
206
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Teorema Central del L´ımite, Velocidad de convergencia a una Normal, Aproximaciones a la varianza de una variable, Desigualdad de Tchebychev (Mendez, Eslava & Romero, 2004)
Departamento de Estad´ıstica
207
Parte V
Sesiones pr´ acticas en R
212
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
################################################################ ################################################################ ################################################################ ## ## Estadistica Aplicada I ## ## Clase Practica 00 (Instalacion de R y R-Studio) ## ## ## Emilio Lopez Escobar (http://www.info-Emilio.NET) ## Departamento de Estadistica, ITAM. ## D.F., Mexico. Enero 16, 2014 ## ################################################################ ################################################################ ################################################################ Instalacion de R en el equipo. ################################################################ Este se encuentra más rápidamente en el siguiente servidor mexicano: http://cran.itam.mx (Si tienen curiosidad esta es la página principal de R: http://www.r-project.org) Hay que seleccionar la versión de R según el sistema que se esté utilizando. Bajar, ejecutar la instalación y seguir las instrucciones del instalador de Windows. Importante: Cuando pregunte el instalador el tipo de formato que se desea para la ayuda hay que elegir html (o html2). Es más fácil navegar por la ayuda con el navegador. Posteriormente, si se desea, instalar R-Studio (opcional, sugerido). Está aquí: http://rstudio.org Para la instalación de R-Studio, tiene que haberse instalado antes R. R-Studio es una "mascara" de R que lo hace más amigable. Propiamente, no es necesario para ejecutar R, es opcional. Una vez instalado R (y en su caso R-Studio), hay que ejecutar R (o R-Studio si se instaló, directamente sin ejecutar antes a R). Dentro de R (o R-Studio), en la línea de comandos, hay que aprender 2 comandos básicos que ecesitaremos para saber donde estamos trabajando. El primer comando indica el directorio de trabajo actual: getwd() Y otro que me permite manualmente determinar el directorio que yo quiero utilizar para trabajar. or ejemplo, si quiero trabajar en una carpeta llamada R, en el disco F. (Ojo, la carpeta que se indica debe de existir. Notar que las diagonales que se utilizan son diagonales NO INVERSAS, de división. Así se indican las carpetas en R bajo Windows. También, no olvidar las comillas al inicio y al final.): setwd("E://WORK//Lecturing//2014_01_ITAM_Licenciatura_EstadisticaAplicada_I//08_R" ) setwd("E:/WORK/Lecturing/2014_01_ITAM_Licenciatura_EstadisticaAplicada_I/08_R" ) Otra forma es hacer esto con el mouse... Una vez determinado el directorio de trabajo hay que colocar allí los archivos de datos que se van a leer. También, es en esa carpeta donde se guardaran las cosas que guarden.
Departamento de Estad´ıstica
213
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
################################################################ ################################################################ ################################################################ ## ## Estadistica Aplicada I ## ## Clase Practica 01 (Introduccion a R) ## ## ## Emilio Lopez Escobar (http://www.info-Emilio.NET) ## Departamento de Estadistica, ITAM. ## D.F., Mexico. Enero 16, 2014 ## ################################################################ ################################################################ ################################################################ Basta con copiar y pegar cualquier linea en la consola de R. Ojo: Es quizas necesario copiar, pegar y correr las lineas anteriores a la linea de interes. Precisamente para que pudieran copiar y pegar no estoy utilizando acentos ni letras hispanas. Para ir aprendiendo y que tenga chiste, hay que ir viendo lo que pasa con cada linea. Si quiero comentar algo sin que lo ejecute R, utilizo el signo # antes getwd() # Me indica la carpeta de trabajo setwd("C:/Emilio/R") # Cambia la carpeta de trabajo a C:\Emilio\R (tiene que existir) setwd("C:\\Emilio\\R") # Cambia la carpeta de trabajo a C:\Emilio\R (tiene que existir) elp(sum) # Llama la ayuda relativa al comando sum ?sum # Llama la ayuda relativa al comando sum ??sum # Llama la ayuda relativa a la palabra sum (cuando estamos ignorando mas) Si de plano no encuentro, entonces utilizo Google tecleando por ejemplo: R sum of values c(1, 2.5, 3) # Arroja un vector de tamano 3 <- c(1, 2.5, 3) # Asigna a x un vector conformado de 3 numeros # Arroja el valor de x length(x) # Devuelve el tamano del vector x <- c(x, 4) # Sobre-escribe a x, extiende su dimension en uno con el valor 4 # Arroja el valor de x length(x) # Devuelve el tamano del vector x ean(x) # Calcula la media de los elementos del vector x ar(x) # Calcula la varianza de los elementos del vector x ean(x^2) # Calcula el cuadrado de cada elemento del vector x, luego calcula la media Entonces estas dos lineas: sum(x)/length(x) sum( (x-mean(x))^2 ) / (length(x)-1) me tienen que dar lo mismo, respectivamente, que estas dos lineas: ean(x) ar(x) arianza.Que.Me.Interesa <- var(x) # Crea una variable que guarde la varianza de x sqrt(Varianza.Que.Me.Interesa) # Calcula la raiz cuadrada de la variable con el nombre raro sd(x) # Calcula la desviacion estandar del vector x <- 5 # Crea una variable con el valor de n igual a 5 c(1:n) # Arroja un vector que tiene la secuencia del 1 al valor de n rep(x, times=2) # Arroja un vector que repite al vector x, 2 veces rep(x, each=2) # Arroja un vector que repite 2 veces cada elemento de x z <- c(1:6)^2 # Crea un vector z con valores enteros del 1 al 6 y los eleva al cuadrado z # Arroja el valor de z sMenorADos <- z<2 # Crea un vector logico con nombre chistoso evaluando contra 2 sMenorADos # Arroja el valor del vector EsMenorADos sIgualACuatro <- z==4 # Crea un vector logico con nombre chistoso evaluando contra 4 sIgualACuatro # Arroja el valor del vector EsIgualACuatro z # Arroja el valor de z z[3] # Arroja el tercer elemento del vector z z[c(1,3)] # Arroja el 1er y 3er elemento del vector z z[z<2] # Arroja los elementos del vector z que son menores a 2 z[EsMenorADos] # Arroja los elementos del vector z que son menores a 2 z[-3] # Arroja el valor de z pero omitiendo el 3er elemento summary(z) # Dependiendo de lo que sea z (datos, vector, matrix,.. arroja estadisticos basicos
Departamento de Estad´ıstica
214
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
################################################################ ################################################################ ################################################################ ## ## Estadistica Aplicada I ## ## Clase Practica 02 (Introduccion a R y BilletesSuizos) ## ## ## Emilio Lopez Escobar (http://www.info-Emilio.NET) ## Departamento de Estadistica, ITAM. ## D.F., Mexico. Enero 21, 2014 ## ################################################################ ################################################################ ################################################################ Primero, es recomendable revisar cual es el directorio de trabajo que tenemos actualmente definido ara trabajar en R. getwd() # Del vocablo en Ingles "get working directory" Si es necesario definimos el directorio donde trabajaremos. Es decir, en donde estaran los datos que utilizaremos. setwd("E://WORK//Lecturing//2014_01_ITAM_Licenciatura_EstadisticaAplicada_I//08_R" ) A continuacisn, leemos el conjunto de datos llamado BilletesSuizos.csv. Este esta en formato .csv (Comma Separated Values) illetesSuizos <- read.table( file = "BilletesSuizos.csv" ,#Nombre del archivo #debe estar en el #direct. de trabajo. header = TRUE, #Indicamos que los datos #tienen encabezados en las #columnas. sep = ",") #Indicamos que los datos estan #separados por coma. Notar que escribí el comando en varias líneas para irles explicando qué significa cada cosa. El comando de arriba lo puedo alternativamente correr como: illetesSuizos <- read.table(file = "BilletesSuizos.csv", header= TRUE, sep= ",") Otra forma de hacerlo es utilizando los botones de R-studio... Hagámoslo... Ahora, echemos directamente un vistazo a los datos cargados... Una primera forma de hacerlo es que llamemos, tal cual a la tabla (o matriz) que acabamos de cargar. illetesSuizos Otra forma es que demos doble click a el arreglo de datos que tenemos en nuestro espacio de rabajo en el R-studio Si quiero ver en la consola los primeros 10 renglones (por ejemplo). illetesSuizos[1:10, ] También tenemos al comando head() que sirve para mostrar los primeros 6 renglones de algún arreglo. ead(BilletesSuizos) Puedo ver que son puras variables continuas.... Si tuvieramos muchas variables, tambien vale la pena ejecutar el comando names() ames(BilletesSuizos) En este caso puedo ver que tengo 6 variables y sus nombres. Utilizando los botones de R-studio quizás esto no es necesario pero sirve saber que hay un comando que arroja los nombres en la consola. Podemos averiguar la estructura de los datos en la ventana de espacio de trabajo (Workspace) de Rstudio, vemos que son 200 observaciones de 6 variables. Otra forma de averiguar el tamaqo de los datos es con el comando dim() dim(BilletesSuizos) Tal comando me arroja la dimensisn del arreglo de datos que estoy utilizando. Entonces utilizamos 200 observaciones (filas) y 6 variables (columnas) Vimos que es util calcular la media de cada variable: colMeans(BilletesSuizos) # Este comando me sirve para calcular la media de las columnas de una atriz de datos Si tuviera una sola variable, entonces utilizo el comando mean() ean(BilletesSuizos$LARGO) #Estoy indicando me calcule la media del vector que conforma la columna con nombre LARGO en mi matriz de datos. Ahora... sabemos que los primeros 100 registros son de billetes genuinos y los otros 100 son de illetes falsos. Vamos a crear una variable (aparte) 0 y 1 donde 1 es genuino y 0 es falso. GENUINO <- c(rep(1, times=100), rep(0, times=100)) GENUINO # Vemos cómo quedo mi nueva variable en la consola y en visualizador de datos de R-studio
Departamento de Estad´ıstica
215
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
colMeans(BilletesSuizos[GENUINO==1, ]) # Los genuinos colMeans(BilletesSuizos[GENUINO==0, ]) # Los falsos Ahora, si quiero, ese vector se lo pegamos a nuestra matriz de datos como otra columna, para ello tilizamos el comando cbind() illetesSuizos <- cbind(BilletesSuizos, GENUINO ) Ahora, le pedimos a R que nos de un resumen esquematico de los datos. Para ellos utilizamos el comando summary() summary(BilletesSuizos) # Todos los billetes summary(BilletesSuizos[GENUINO==1, ]) # Los genuinos summary(BilletesSuizos[GENUINO==0, ]) # Los falsos
Departamento de Estad´ıstica
216
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
################################################################ ################################################################ ################################################################ ## ## Estadistica Aplicada I ## ## Clase Practica 03 (Analisis Exploratorio de Datos: Variables Cualitativas) ## ## ## Emilio Lopez Escobar (http://www.info-Emilio.NET) ## Departamento de Estadistica, ITAM. ## D.F., Mexico. Enero 21, 2014 ## ################################################################ ################################################################ ################################################################ Tip de R-Studio: Utilicen CTRL + R para correr la linea en la que estan situados. Primero, revisamos el directorio de trabajo. getwd() Si es necesario definimos el directorio donde trabajaremos. Es decir, en donde estaran los datos que utilizaremos. setwd("E://WORK//Lecturing//2014_01_ITAM_Licenciatura_EstadisticaAplicada_I//08_R" ) Ahora vamos a cargar unos datos para ejemplificar. Vamos a cargar la biblioteca MASS.... Platicar sobe la biblioteca MASS. library(MASS) Una vez hecho esto, vamos a utilizar el dataset "bacteria" acteria Para ver el conjunto de datos solo unas cuantas observaciones y encabezados utilizamos el comando ead() ead(bacteria) Como este conjunto de datos esta cargado en un paquete (es decir, es un comando del paquete MASS), entonces podemos ver que significa cada variable utilizando la ayuda: ?bacteria Ahora, para que ustedes puedan reciclar los siguientes comandos, vamos a asignar el conjunto de datos a una variable atos <- bacteria De modo que todo lo que hagamos a continuación, lo pueden hacer ustedes modificando el conjunto de datos bacteria por el que ustedes quieran en la linea anterior. Por supuesto, en comandos siguientes endrá que modificar los nombres de columnas, etc... Podemos observar que ahora tenemos un objeto de 220 observaciones y 6 variables en la ventana superior derecha de R-Studio Podemos darle doble click para navegar en los datos. Digamos que ahora vamos a hacer una tabla de frecuencias simple de la variable y able(Datos$y) En la linea de comando anterior tratamos a Datos como un data.frame.... Ahora vamos a hacer lo ismo tratando a Datos como una matriz able(Datos[,"y"]) O equivalentemente, como una matriz donde no se tiene nombre de columna y nos interesa la primera columna. able(Datos[,1]) Si queremos estas frequencias en términos relativos y en porcentaje... rop.table(table(Datos[,1])) * 100 Pensemos ahora que queremos `cruzar' dos variables cualitativas, una forma es: able(Datos$y, Datos$trt) able(Datos$trt, Datos$y) #Vean que pasa. Otra forma es (notar la diferencia del output): ith(Datos, table(y, trt)) Si me interesan las proporciones por celda, es decir, de toda la tabla (que sumen 1): rop.table(table(Datos$y, Datos$trt)) Si les interesa que las proporciones sumen 1 por renglones: rop.table(table(Datos$y, Datos$trt),1) Si queremos anadir una columna con la suma para darle mas presentacion, utilizaremos el comando cbind() que pega columnas, y el comando rowSums() que suma por renglones... <- prop.table(table(Datos$y, Datos$trt),1) # Estamos guardando lo anterior en el objeto x otal <- rowSums(x) # Guardamos los totales de la tabla x por renglon ablaCruzada1 <- cbind(x, Total) # Pegamos a y del lado derecho de x (agregamos una columna) # Y guardamos todo en TablaCruzada1
Departamento de Estad´ıstica
217
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Ahora vemos como quedo: ablaCruzada1 Si queremos a nuestra tabla en terminos porcentuales multiplicamos por 100 y sobreescribimos el objeto: ablaCruzada1 <- TablaCruzada1 * 100 ablaCruzada1 Si quisiera menos decimales utilizo round() ablaCruzada1 <- round(TablaCruzada1, digits = 2 ) ablaCruzada1 Ahora, si queremos la misma tabla pero que las proporciones sumen por columna (ahora lo voy a escribir mas rapido sin tanta explicacion). Utilizare esta vez el comando colSums() y el comando rbind(), que suma por columnas y pega renglones, respectivamente. Entonces, seria: ablaCruzada2 <- 100 * prop.table(table(Datos$y, Datos$trt),2) ablaCruzada2 <- rbind(TablaCruzada2, Total = colSums(TablaCruzada2)) ablaCruzada2 Entonces, con estas tres lineas puedo hacer una tabla que sume por columnas. De modo que puedo ver la distribucion de los datos, por ejemplo, de "trt" dado "y". Y en el caso pasado, cuando sumaba por renglones, podiamos observar la distribucion de los datos, de "y" dado "trt". Si ahora queremos hacer una tabla cruzada simple con 3 variables: <- table(Datos$y, Datos$ap, Datos$trt) Y podemos seguir usando table con mas variables, pero para mejorar el formato del output, mejor tilizamos otro comando... ftable(x) Y lo mismo, si queremos proporciones: ftable(prop.table(x)) Y si queremos un poco más de formato, parecido a SAS o a SPSS... Utilizamos el paquete gmodels Para instalarlo, podemos usar el comando install.packages() o si no, utilizando el R-Studio... agamoslo... Una vez instalado, hay que cargar el paquete con el comando library() library(gmodels) Otra forma de cargar los paquetes es utilizando require() que carga en memoria un paquete si no ha sido cargado (para ahorrar tiempo) require(gmodels) Y utilizamos el comando CrossTable() del paquete gmodels. CrossTable(Datos$y, Datos$trt) El comando CrossTable tiene un monton de configuraciones... veamos: ?CrossTable Veamos por ejemplo las diferentes versiones de la misma tabla utilizando configuraciones diferentes... CrossTable(Datos$y, Datos$trt, digits=8) CrossTable(Datos$y, Datos$trt, digits=1, prop.r=TRUE, prop.c=TRUE, prop.t=TRUE, prop.chisq=TRUE ) CrossTable(Datos$y, Datos$trt, digits=1, prop.r=FALSE, prop.c=TRUE, prop.t=FALSE, prop.chisq=FALSE ) Pensemos que ahora queremos ver graficamente estos datos... Vamos a utilizar un grafico de pastel o pay... rebanadaspay <- prop.table(table(Datos$trt)) ie(rebanadaspay, main="Pay de la variable trt" ) ie(rebanadaspay, labels = levels(Datos$trt), main="Pay de la variable trt" ) Ahora vamos a poner mas informacion... ct <- round(rebanadaspay/sum(rebanadaspay)*100) etiquetas <- levels(Datos$trt) etiquetas <- paste(etiquetas, pct) # Agregamos porcentajes a las etiquetas etiquetas <- paste(etiquetas,"%",sep="") # Agregamos el signo porcentaje a etiquetas ie(rebanadaspay, labels = etiquetas, main="Pay de la variable trt" ) Cambiamos a otra paleta de colores... ie(rebanadaspay, labels = etiquetas, main="Pay de la variable trt" , col=rainbow(length(etiquetas))) Si queremos hacer un pay en 3D, hay un paquete que lo hace (quizás hay mas opciones). Es el aquete plotrix... lo instalamos con R-Studio Lo cargamos... library(plotrix) ie3D(rebanadaspay, labels = etiquetas, main= "Pay de la variable trt" , col=rainbow(length(etiquetas)))
Departamento de Estad´ıstica
218
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Si queremos separar las rebanadas... ie3D(rebanadaspay, labels = etiquetas, main= "Pay de la variable trt" , col=rainbow(length(etiquetas)), explode=0.12) Si queremos poner diferentes las etiquetas, agregamos un cambio de linea... etiquetas <- levels(Datos$trt) etiquetas <- paste(etiquetas, "\n") # Agregamos cambio de linea a etiquetas etiquetas <- paste(etiquetas, pct) # Agregamos porcentajes a las etiquetas etiquetas <- paste(etiquetas,"%",sep="") # Agregamos el signo porcentaje a Corremos de nuevo... ie3D(rebanadaspay, labels = etiquetas, main="Pay de la variable trt" , col=rainbow(length(etiquetas)), explode=0.05) Y asi sucesivamente... Ahora para realizar un grafico de barras... conteos <- table(Datos$trt) arplot(conteos, main="Distribucion de trt" , xlab="Numero de Observaciones" ) Y si hacemos el grafico acostado... arplot(conteos, main="Distribucion de trt" , horiz=TRUE, xlab="Numero de Observaciones" ) Y si ahora apilamos por la variable y conteos <- table(Datos$y, Datos$trt) arplot(conteos, main="Distribucion de observaciones por trt y la variable y" , xlab="Number de observaciones en trt" , col=c("darkblue","red"), legend = rownames(conteos)) Y ahora no apilados, lado a lado... arplot(conteos, main="Distribucion de observaciones por trt y la variable y" , xlab="Number de observaciones en trt" , col=c("darkblue","red"), legend = rownames(conteos), beside=TRUE) Ver R gallery en : http://rgraphgallery.blogspot.mx//
Departamento de Estad´ıstica
219
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
################################################################ ################################################################ ################################################################ ## ## Estadistica Aplicada I ## ## Clase Practica 04 (Analisis Exploratorio de Datos: Variables Cuantitativas) ## ## ## Emilio Lopez Escobar (http://www.info-Emilio.NET) ## Departamento de Estadistica, ITAM. ## D.F., Mexico. Enero 23, 2014 ## ################################################################ ################################################################ ################################################################ getwd() # Revisamos el directorio de trabajo. setwd("E://WORK//Lecturing//2014_01_ITAM_Licenciatura_EstadisticaAplicada_I//08_R" ) # Definimos el directorio donde trabajaremos, donde estan los datos. Ahora vamos a borrar todo lo que tengamos en memoria desde la consola (se puede hacer también con la escobill en el Workspace) rm(list=ls()) # el comando "remove" rm() borra objetos en memoria y el comando ls() me lista lo que engo en memoria. Si uso los dos juntos me borra todo en la memoria gc() # Este es el comando "Garbage Collection", sirve para re-establecer la memoria y elimiar asura que haya quedado en memoria por "memory-leaks". Ahora cargamos los datos que utilizaremos. Nos interesan los datos "TVcable.csv" atos <- read.table(file = "TVcable.csv", header= TRUE, sep= ",") Borremos de nuevo... todo rm(list=ls()) Si lo quisiera hacer directamente con R-Studio.... Hagamoslo... Revisemos... ead(Datos) ¿Que sabemos hasta ahora? Veamos los datos... ¿Podemos decir algo? Hagamos un diagrama de puntos de la variable RENTA. ¿Como se hace a mano? Con R, hay un comando para hacer diagramas de puntos es stripchart() Veamos como se usa... ?stripchart() stripchart(Datos$RENTA) stripchart(Datos$RENTA, method = "stack", vertical = TRUE, axes=TRUE, pch=21, col= "blue", ain='Diagrama de puntos, con los datos : TVcable', ylab = agar al mes") Otro mas cambiando configuracion stripchart(Datos$RENTA, method = "stack", vertical = FALSE, axes=TRUE, pch=19, col= "red", ain='Diagrama de puntos, con los datos : TVcable', xlab = agar al mes") Ahora un diagrama de tallo y hojas... ¿Como se hace a mano? Ahora con R utilizando el comando stem() Primero veamos como se usa... ?stem Ahora lo hacemos con R y revisamos que esté bien hecho... stem(Datos$RENTA) Y si nos preguntaran de TVTOT? stem(Datos$TVTOT) Y si quiero más detalle? stem(Datos$TVTOT, scale = 2) Ahora, para observar una distribucion de frecuencias de una variable discreta... Retomamos lo visto en la clase pasada... No abordaremos esta vez las tablas, nos iremos solo a los graficos. Por ejemplo, pensemos en las variables ADULTOS y NINOS... conteos1 <- table(Datos$ADULTOS) conteos2 <- table(Datos$NINOS) arplot(conteos1, main="Distribucion de frecuencias absolutas" , col="red", xlab="Número de adultos en el hogar"
Departamento de Estad´ıstica
220
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
) arplot(conteos2, main="Distribucion de frecuencias absolutas" , col="blue", xlab="Número de niños en el hogar" ) #NOTA: abusados con las comas #cuando escriban los comandos #de esta forma Ahora utilicemos histogramas... ¿Como se harian a mano? Ok, hagamoslo en R con el comando hist()... Hay, por supuesto, mas comandos y opciones para hacer istogramas mas exoticos y presentables... Nosotros utilizaremos lo basico.... Recuerden, simple siempre es bueno. Veamos como se usa el comando hist() ?hist Ahora supongamos que nos interesa la variable VALOR ist(Datos$VALOR) Y si le queremos dar mas formato... ist(Datos$VALOR, col = "blue", breaks = 4) ist(Datos$VALOR, col = "blue", breaks = 8) ist(Datos$VALOR, col = "blue", breaks = 12) ist(Datos$VALOR, col = "red", breaks = "Sturges", #Nota: Default, ponerlo o no ponerlo es igual. main = "Histograma más presentable" , xlab = "Valor catastral del hogar (en miles de pesos)" , ylab = "Frecuencia", ) Hagamos ahora un ejemplo mas elaborado con histogramas... Utilicemos los datos de los "Billetes Suizos" illetesSuizos <- read.table(file = "BilletesSuizos.csv", header= TRUE, sep= ",") ead(BilletesSuizos) GENUINO <- c(rep(1, times=100), rep(0, times=100)) Pegamos a nuestra matriz de datos la informacion del vector GENUINO illetesSuizos <- cbind(BilletesSuizos, GENUINO ) Ahora, le pedimos a R que nos de un resumen esquematico de los datos. Para ellos utilizamos el comando summary() summary(BilletesSuizos) # Todos los billetes summary(BilletesSuizos[GENUINO==1, ]) # Los genuinos summary(BilletesSuizos[GENUINO==0, ]) # Los falsos ¿Qué vemos? Ahora digamos que quiero ver cómo están distribuidos los datos ist(BilletesSuizos$LARGO, col = "blue", breaks = 20 ) ist(BilletesSuizos$ANCHOIZQ, col = "blue", breaks = 20 ) ist(BilletesSuizos$ANCHODER, col = "blue", breaks = 20 ) ist(BilletesSuizos$MARGENINF, col = "blue", breaks = 20 ) ist(BilletesSuizos$MARGENSUP, col = "blue", breaks = 20 ) ist(BilletesSuizos$DIAGONAL, col = "blue", breaks = 20 ) Me doy cuenta que parece ser que la variable DIAGONAL es la que tiene dos montoncitos y que quizás udiera diferenciar mis billetes entre genuinos y falsos más fácilmente. Vuelvo a hacer esos histogramas pero diferenciando entre genuinos y falsos ist(BilletesSuizos$DIAGONAL[GENUINO==1], col=rgb(0,0,1,1/4), breaks = 20, xlim=c (138, 142)) ist(BilletesSuizos$DIAGONAL[GENUINO==0], col=rgb(1,0,0,1/4), breaks = 20, xlim=c (138, 142), add= RUE) A ver otra variable??? ist(BilletesSuizos$MARGENSUP[GENUINO==1], col=rgb(0,0,1,1/4), breaks = 20, xlim=c (8, 12)) ist(BilletesSuizos$MARGENSUP[GENUINO==0], col=rgb(1,0,0,1/4), breaks = 20, xlim=c (8, 12), add= TRUE) ¿Que puedo concluir?
Departamento de Estad´ıstica
221
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
################################################################ ################################################################ ################################################################ ## ## Estadistica Aplicada I ## ## Clase Practica 05 (Analisis Exploratorio de Datos: Variables Cuantitativas - Diagramas de Caja y razos) ## ## ## Emilio Lopez Escobar (http://www.info-Emilio.NET) ## Departamento de Estadistica, ITAM. ## D.F., Mexico. Enero 28, 2014 ## ################################################################ ################################################################ ################################################################ Revisamos y definimos el directorio de trabajo. getwd() # Revisamos el directorio de trabajo. setwd("E://WORK//Lecturing//2014_01_ITAM_Licenciatura_EstadisticaAplicada_I//08_R" ) Definimos el directorio donde trabajaremos, donde estan los datos. getwd() # Volvemos a revisar. Borramos memoria. rm(list=ls()) gc() Ahora cargamos los datos que utilizaremos... illetesSuizos <- read.table(file = "BilletesSuizos.csv", header= TRUE, sep= ",") Los vemos... ead(BilletesSuizos) Creamos la variable GENUINO... GENUINO <- c(rep(1, times=100), rep(0, times=100)) Pegamos a nuestra matriz de datos la informacion del vector GENUINO illetesSuizos <- cbind(BilletesSuizos, GENUINO ) Sabíamos de la clase pasada que la variable DIAGONAL de los billetes suizos es la que mejor me odía discriminar entre los genuinos y los falsos... Ahora vamos a llegar a la misma conclusión haciendo unos gráficos de Caja y Brazos... Primero, los elementos de un diagrama de caja y brazos (caja y bigotes en Inglés)... En el izarrón. Adyacente inferior q1 m q3 Adyacente superior Valores atípicos (o atípicos menores) Valores extremos (o atípicos mayores) Factor de escala: fes = 1.5 * AI AI = Amplitud Intercuartílica Barreras interiores: f1 = q1 - fes y f2 = q3 + fes Barreras exteriores: F1 = f1 - fes y F2 = f2 + fes Para hacer un diagrama de caja y brazos utilizamos el comando boxplot() oxplot(BilletesSuizos$LARGO, xlab = "Largo del Billete" , col = "red", horizontal = TRUE ) oxplot(BilletesSuizos$ANCHOIZQ, xlab = "Ancho Izquierdo del Billete" , col = "red", horizontal = TRUE ) oxplot(BilletesSuizos$ANCHODER, xlab = "Ancho Derecho del Billete" , col = "red", horizontal = TRUE ) oxplot(BilletesSuizos$MARGENINF, xlab = "Margen Inferior del Billete" , col = "red", horizontal = TRUE ) oxplot(BilletesSuizos$MARGENSUP, xlab = "Margen Superior del Billete" , col = "red", horizontal = TRUE )
Departamento de Estad´ıstica
222
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
oxplot(BilletesSuizos$DIAGONAL, xlab = "Diagonal del Billete" , col = "red", horizontal = TRUE ) Ahora hacemos diagramas de caja y brazos de cada variable y separando por genuinos y falsos. oxplot(BilletesSuizos$LARGO ~ BilletesSuizos$GENUINO, xlab = "Largo del Billete" , ylab = "Genuino 1", col = "red", horizontal = TRUE ) oxplot(BilletesSuizos$ANCHOIZQ ~ BilletesSuizos$GENUINO, xlab = "Ancho Izquierdo del Billete" , ylab = "Genuino 1", col = "red", horizontal = TRUE ) oxplot(BilletesSuizos$ANCHODER ~ BilletesSuizos$GENUINO, xlab = "Ancho Derecho del Billete" , ylab = "Genuino 1", col = "red", horizontal = TRUE ) oxplot(BilletesSuizos$MARGENINF ~ BilletesSuizos$GENUINO, xlab = "Margen Inferior del Billete" , ylab = "Genuino 1", col = "red", horizontal = TRUE ) oxplot(BilletesSuizos$MARGENSUP ~ BilletesSuizos$GENUINO, xlab = "Margen Superior del Billete" , ylab = "Genuino 1", col = "red", horizontal = TRUE ) oxplot(BilletesSuizos$DIAGONAL ~ BilletesSuizos$GENUINO, xlab = "Diagonal del Billete" , ylab = "Genuino 1", col = "red", horizontal = TRUE ) Podemos concluir lo mismo que la vez pasada pero ahora utilizando otro tipo de grafico...
Departamento de Estad´ıstica
223
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
################################################################ ################################################################ ################################################################ ## ## Estadistica Aplicada I ## ## Clase Practica 06 (Analisis Exploratorio de Datos: Más gráficos) ## ## ## Emilio Lopez Escobar (http://www.info-Emilio.NET) ## Departamento de Estadistica, ITAM. ## D.F., Mexico. Enero 28, 2014 ## ################################################################ ################################################################ ################################################################ setwd("E://WORK//Lecturing//2014_01_ITAM_Licenciatura_EstadisticaAplicada_I//08_R" ) # Definimos el directorio donde trabajaremos, donde estan los datos. getwd() Utilizaremos el conjunto de datos: mtcars que ya viene con R... Es buena idea ver la descripciónn de las variables utilizando ?mtcars ?mtcars ################################################################ ################### Gráficos de Dispersión ##################### ################################################################ Son como los diagramas de punto pero en 2 dimensiones Lo pueden pensar tal cual como los gráficos en un plano cartesiano (2D) Empecemos por hacer un grafico de dispersion en 2 dimensiones. Un diagrama de dispersiónn simple se hace con el comando: plot() ?plot() Utilicemos las variables wt y mpg de la base de datos... Grafiquemos una primera version... lot(x = mtcars$wt, y = mtcars$mpg, xlab ="Peso del carro " , ylab ="Millas por galon" , main ="Grafico de dispersion simple/crudo" , col = "red", pch = 19) Otra versión cambiando configuraciones... ¿Qué creen que cambie? lot(x = mtcars$wt, y = mtcars$mpg, xlab ="Peso del carro " , ylab ="Millas por galon" , main ="Grafico de dispersion simple/crudo" , cex = 3, col = "dark green", pch = 21) Otra versión cambiando configuraciones lot(x = mtcars$wt, y = mtcars$mpg, xlab ="Peso del carro " , ylab ="Millas por galon" , main ="Grafico de dispersion simple/crudo" , cex = 2, col = "dark red", pch = 8) A continuación un listado de los posibles simbolos para pch... También pueden ver en sus notas, he añadido en el apéndice un listado. pch=0, square pch=1, circle pch=2, triangle point up pch=3, plus pch=4, cross pch=5, diamond pch=6, triangle point down pch=7, square cross pch=8, star pch=9, diamond plus pch=10, circle plus
Departamento de Estad´ıstica
224
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
pch=11, triangles up and down pch=12, square plus pch=13, circle cross pch=14, square and triangle down pch=15, filled square blue pch=16, filled circle blue pch=17, filled triangle point up blue pch=18, filled diamond blue pch=19, solid circle blue pch=20, bullet (smaller circle) pch=21, filled circle red pch=22, filled square red pch=23, filled diamond red pch=24, filled triangle point up red pch=25, filled triangle point down red Supongamos que queremos agregar a ese grafico (el último) un par de lineas. la línea ajustada de una regresion lineal simple y la de suvizamiento (promedio movil) abline(lm(mtcars$mpg ~ mtcars$wt), col="red") # Agrega linea de regresion lines( lowess(mtcars$wt, mtcars$mpg), col="blue") # Agrega linea de suavizamiento Ahora unos diagramas de dispersiónn por parejas con el comando: pairs() Primero todas las parejas de variables... airs(mtcars, main = "Todas las parejas de variables" , cex = 2, col = "red", pch = 20) Ahora una selección de variables... airs(mtcars[ , c("mpg","disp","hp")], main = "Una seleccion de variables" , cex = 2, col = "red", pch = 20) Ahora una selección de variables... cambiando la expansion de etiquetas... airs(mtcars[ , c("mpg","disp","hp")], main = "Una seleccion de variables" , cex = 2, cex.labels = 1.5, col = "red", pch = 20) Ahora un diagrama de dispersion en 3D... Hay que instalar el paquete "scatterplot3d" library(scatterplot3d) ?scatterplot3d scatterplot3d(x = mtcars$wt, y = mtcars$disp, z = mtcars$mpg, main = "Diagrama de dispersion 3D" , color = "red", col.grid = "grey", pch = 19) Ahora agamos el mismo grafico pero con mas cosas activadas en la funcion... scatterplot3d(x = mtcars$wt, y = mtcars$disp, z = mtcars$mpg, main = "Diagrama de dispersion 3D" , highlight.3d = TRUE, col.grid = "grey", pch = 19) Ahora con "spikes" o lineas de proyecccion y con etiquetas cambiadas scatterplot3d(x = mtcars$wt, y = mtcars$disp, z = mtcars$mpg, main = "Diagrama de dispersion 3D" , xlab = "Peso", ylab = "Desplazamiento", zlab = "Millas/galon", highlight.3d =TRUE, col.grid ="blue", type ="h", pch = 19)
Departamento de Estad´ıstica
225
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Ahora digamos que quieren interactuar con el grafico 3D... Instalen el paquete "rgl" library(rgl) ?plot3d lot3d(x = mtcars$wt, y = mtcars$disp, z = mtcars$mpg, main = "Dispersion 3D", xlab = "Peso", ylab = "Despl.", zlab = "Mill/galon", col = "red", size = 9) lot3d(x = mtcars$wt, y = mtcars$disp, z = mtcars$mpg, main = "Dispersion 3D", xlab = "Peso", ylab = "Desplazamiento", zlab = "Mill/galon", col = "blue", box = FALSE, size = 9) Otra opcion de grafico 3D... Ojo: requiere de instalar un paquete que a su vez requiere de más paquetes, etc... Puede tomar tiempo instalarlo porque son graficos de alta resolucion... Hay que instalar el paquete: "Rcmdr" Después poner aceptar en los demas paquetes y aplicaciones que necesita... library(Rcmdr) ?scatter3d scatter3d(x = mtcars$wt, y = mtcars$disp, z = mtcars$mpg, main = "Diagrama de dispersion 3D" , xlab = "Peso", ylab = "Desplazamiento", zlab = "Millas/galon", point.col = "red") Pongamos más opciones... y cambiemos colores scatter3d(x = mtcars$wt, y = mtcars$disp, z = mtcars$mpg, main = "Diagrama de dispersion 3D" , xlab = "Peso", ylab = "Desplazamiento", zlab = "Millas/galon", surface.col = "dark red", point.col = "yellow") Pongamos más opciones... y cambiemos colores scatter3d(x = mtcars$wt, y = mtcars$disp, z = mtcars$mpg, main = "Diagrama de dispersion 3D" , xlab = "Peso", ylab = "Desplazamiento", zlab = "Millas/galon", surface.col = "white", point.col = "yellow", bg.col = "black", surface = FALSE, ellipsoid = TRUE) ############################################################### ################### Gráfico Combinado 1 ####################### ############################################################### Ahora un gráfico estático mas sofisticado, no interactivo pero con mas informacion: Hay que instalar el paquete "graphics" Indicaremos que se grafique la variable mpg (galones por milla) contra la variable disp (desplazamiento) Pero queremos que todo esté cortado o desglosado por la variable (cilindros) Antes, como la variable cilindros no es una variable categórica le aplicamos el comando
Departamento de Estad´ıstica
226
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
levels(mtcars$cyl) # Con este comando confirmamos que, en efecto, no es categórica porque fue definida como no categórica... También (como hay 3 tipos de cilindros: 4, 6 y 8, pedimos que los tres graficos los ponga en un solo renglon. Se pide tambien que suavice los datos con una linea utilizando panel.smooth... Si quieren ver que hace cada cosa, quiten algun parametro, cambien su valor, etc... library(graphics) #Solicita que se cargue el paquete graphics (ya debe estar instalado) ?coplot coplot( mpg ~ disp | as.factor(cyl), data = mtcars, panel = panel.smooth, rows = 1) coplot( mtcars$mpg ~ mtcars$disp | as.factor(mtcars$cyl), panel = panel.smooth, rows = 1) coplot( mpg ~ disp | as.factor(cyl), xlab = "Desplazamiento", ylab = "Millas/galón", data = mtcars, panel = panel.smooth, rows = 1) Notar que aquí ya estamos metiendo mucha información... Ahora vamos a ver un grafico muy sencillo en el que puedo representar varias dimensiones y que quizás es más fácil de interpretar... ################################################################ ################### Gráficos de Burbujas ####################### ################################################################ A continuacion, un grafico de burbujas que utiliza el comando symbols() ?symbols symbols( x = mtcars$mpg, y = mtcars$disp, circles = mtcars$cyl, inches = 0.3, fg = "blue", bg = rgb(0,0,1,1/4), xlab = "Millas por galon" , ylab = "Desplazamiento", main = "Burbujas de los Carros" ) Ahora vamos añadir etiquetas a los circulos por si no es muy clara la diferencia de tamaños.. ?text ext(x = mtcars$mpg, y = mtcars$disp, labels = mtcars$cyl, cex = 0.8) Recuerden, para que aprendan a usar estos graficos vayan moviendo y cambiando cosas y vean que asa..... Notar que el grafico esta utilizando 3 dimensiones... los 2 ejes y el tamaño de las burbujas... Adicionalmente se podria etiquetar con otra variable en lugar de repetir la 3er variable en el comando text() con la variable que esta en el argumento circles... Otra variante.... symbols( x = mtcars$mpg, y = mtcars$disp, squares = sqrt(mtcars$cyl), inches = 0.5, fg = "blue", bg = rgb(0,0,1,1/4), xlab = "Millas por galon" , ylab = "Desplazamiento", main = "Cuadrados de los Carros" ) ext(x = mtcars$mpg, y = mtcars$disp, labels = mtcars$cyl, cex = 0.8) Como les decia... vayan moviendo y cambiando cosas y vean que pasa..... ################################################################# ################### Gráficos de Estrellas ####################### ################################################################# Ahora el grafico de estrellas con el comando stars() Primero observar los datos mtcars... tcars
Departamento de Estad´ıstica
227
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Notar que los renglones tienen nombres, estos nombres ya los traian nuestros datos.... R permite poner nombre a los renglones asi como tambien permite que las columnas tengan nombres... ?stars stars(mtcars[, 1:7], len = 0.8, key.loc = c(12, 1.5), main = "Carros", draw.segments = TRUE) Podemos cambiar la paleta de colores a una mejor... alette(rainbow(12, s = 0.6, v = 0.75 )) Y volvemos a graficar... stars(mtcars[, 1:7], len = 0.8, key.loc = c(12, 1.5), main = "Carros", draw.segments = TRUE) Notar que estamos graficando 7 dimensiones.... Si quisieramos graficar solo algunos renglones... y cambiar algunas cosas....indicamos por ejemplo... alette(rainbow(14, s = 0.55, v = 0.85 )) stars(mtcars[c(2, 3, 6, 7, 8, 9, 10, 12 :31), 1:5], len = 0.9, key.loc = c(12, 1.5), main = "Carros", draw.segments = TRUE, cex = 0.95, nrow = 5) Aqui estamos graficando 5 dimensiones.... que carros son mas parecidos??? por ejemplo. ############################################################### ################### Gráfico Combinado 2 ####################### ############################################################### Grafico combinado de 3... estamos poniendo un diagrama de dispersion, luego unos de caja y brazos luego unos de puntos unidimensionales apilados... Esto es muy artesanal... iremos viendo cada cosa paso a paso... lot.new() # Por si habí?a alguna grafica incompleta, esperando nueva sobreescritura. Decimos que se a a hacer un nuevo grafico... esto me da una hoja en blanco nueva. ar(fig=c(0, 0.8, 0, 0.8), new=TRUE) # Establece ubicacion nueva lot(mtcars$wt, mtcars$mpg, xlab="Peso del carro", ylab="Millas por galon", pch=19, col="red") # ace el grafico de dispersion en la ubicacion determinada anteriormente ar(fig=c(0,0.8,0.46,1), new=TRUE) # Establece otra ubicacion nueva (arriba) oxplot(mtcars$wt , horizontal=TRUE , axes=FALSE, col= "red", boxwex = 0.25) # Hace el boxplot orizontal de arriba ar(fig=c(0,0.8,0.61,1), new=TRUE) # Establece otra ubicacion nueva (mas arriba) stripchart(mtcars$wt, method = "stack", vertical = FALSE, axes=FALSE, pch=19, col= "blue", add=TRUE) Grafico unidimensional de puntos arriba ar(fig=c(0.525,1,0,0.8),new=TRUE) # Establece otra ubicacion nueva (a la derecha) oxplot(mtcars$mpg, horizontal=FALSE, axes=FALSE, col= "red", boxwex = 0.25) # Hace el boxplot ertical de la derecha ar(fig=c(0.7,1,0,0.8),new=TRUE) # Establece otra ubicacion nueva (mas a la derecha) stripchart(mtcars$mpg, method= "stack", vertical = TRUE, axes=FALSE, pch=19, col= "blue", add=TRUE)# Grafico unidimensional de puntos a la derecha text("Grafico combinado: dispersion, caja y brazos y puntos unidimensional" , side=3, outer=TRUE, line=-3) # Pone titulo al grafico Ahora un ejemplo, para resaltar la importancia de usar información gráfica... Se trata de mostrarles la utilidad de los graficos y no solo de los estadisticos basicos. Por supuesto, hagamoslo para el caso mas simple, bidimensional... Imaginemos que tenemos 2 variables, x1 y x2 con los siguientes datos... 1 <- c(3, 4, 2, 6, 8, 2, 5) 2 <- c(5, 5.5, 4, 7, 10, 5, 7.5 ) Hagamos el gráfico combinado que vimos ... Para ello copiamos y pegamos lo de arriba pero hacemos los cambios pertinentes... Para evitar estar cambie y cambie de aqui en adelante, mejor defino todo en terminos de las ariables x1 y x2 y todo lo corro con esas variables de aqui en adelante.... solo tendre que ir odificando los valores de x1 y x2 y no de las lineas correspondientes a los graficos.... lot.new() ar(fig=c(0, 0.8, 0, 0.8), new=TRUE) lot(x1, x2, xlab="x1", ylab="x2", pch=19, col="red") ar(fig=c(0,0.8,0.46,1), new=TRUE) oxplot(x1 , horizontal=TRUE , axes=FALSE, col= "red", boxwex = 0.25 ) ar(fig=c(0,0.8,0.61,1), new=TRUE)
Departamento de Estad´ıstica
228
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
stripchart(x1, method = "stack", vertical = FALSE, pch=19, col="blue", add=TRUE) ar(fig=c(0.525,1,0,0.8),new=TRUE) oxplot(x2, horizontal=FALSE, axes=FALSE, col= "red", boxwex = 0.25 ) ar(fig=c(0.7,1,0,0.8),new=TRUE) stripchart(x2, method= "stack", vertical = TRUE, pch=19, col="blue", add=TRUE) text("Grafico combinado" , side=3, outer=TRUE, line=-3 ) Entonces, de este grafico podemos ver la covarianza entre x1 y x2 será positiva Ahora, podemos reordenar las parejas de modo que tengamos los mismo graficos marginales de puntos una relacion totalmente diferente entre las variables... 1 <- c(5, 4, 6, 2, 2, 8, 3) 2 <- c(5, 5.5, 4, 7, 10, 5, 7.5 ) Volvemos a graficas.... Notar que los graficos de puntos siguen iguales... lot.new() ar(fig=c(0, 0.8, 0, 0.8), new=TRUE) lot(x1, x2, xlab="x1", ylab="x2", pch=19, col="red") ar(fig=c(0,0.8,0.46,1), new=TRUE) oxplot(x1 , horizontal=TRUE , axes=FALSE, col= "red", boxwex = 0.25 ) ar(fig=c(0,0.8,0.61,1), new=TRUE) stripchart(x1, method = "stack", vertical = FALSE, pch=19, col="blue", add=TRUE) ar(fig=c(0.525,1,0,0.8),new=TRUE) oxplot(x2, horizontal=FALSE, axes=FALSE, col= "red", boxwex = 0.25 ) ar(fig=c(0.7,1,0,0.8),new=TRUE) stripchart(x2, method= "stack", vertical = TRUE, pch=19, col="blue", add=TRUE) text("Grafico combinado" , side=3, outer=TRUE, line=-3 ) Entonces, de este segundo grafico esperariamos una covarianza negativa entre las dos variables... De modo que podemos concluir algo.... podemos tener la misma distribucion marginal para las ariables pero la distribucion conjunta de ambas puede variar... importa entonces como estan aparejados los datos (ordenados o relacionados)... Esto mismo se cumplira generalizando a mas dimensiones.... Es por esto que yo puedo estar viendo solo cosas marginales pero la idea del analisis multivariado es considerar la combinacion de informacion... y entonces "sacar mas" Veamos otro ejemplo...... Pensemos ahora que nos encontramos en la situacion de que alguien en la oficina no quiere utilizar graficos pues aduce que con el puro estadistico descriptivo numerico se captura toda la informacion... Puede que si, pero nosotros sabemos que no... o mejor dicho, con un grafico podriamos contar mejor la pelicula de lo que esta pasando con nuestros datos... Digamos que tenemos los siguientes datos... Que son una recreacion aproximada de datos publicados en Forbes, Abril, 30, 1990) relativos a la productividad de 16 empresas 1 <- c( 11, 11, 20, 25, 9, 10, 29, 36, 20, 15, 5, 9, 5, 8, 73, 25 ) # Miles de empleados 2 <- c( 4, 6, 5, 9, 9, 10, 10, 11, 11, 15, 22, 27, 32, 35, 12, -9 ) # Ganancia por empleado en iles de dolares Supongamos que las empresas estan etiquetadas del 1 al 16... Utilicemos el comando seq() para crear secuencias. tiquetas <- seq(from=1, to=16, by= 1 ) Calculamos el coeficiente de correlacion entre las dos variables cor(x1,x2) Los graficamos... lot.new() lot(x1, x2, xlab="x1", ylab="x2", type="n") ext(x1, x2, Etiquetas) Calculamos el coeficiente de correlacion entre las dos variables pero probando quitar la empresa 15, luego la 16 y luego quitando las dos, 15 y 16. cor(x1,x2) # Todas las 16 empresas cor(x1[-15],x2[-15]) # Quitando la empresa numero 15 cor(x1[-16],x2[-16]) # Quitando la empresa numero 16 cor(x1[-c(15,16)],x2[-c(15,16)]) # Quitando las empresas 15 y 16 Podemos entonces ver que si nos hubieramos quedado solo con la informacion numerica nos hubieramos erdido de lo que esta pasando... Sucede que estas dos empresas son muy diferentes del resto y por anto "jalan" nuestro estadistico descriptivo. El dejar o quitar la observacion u observaciones de nuestras conclusiones sobre la industria dependera de los objetivos de nuestro estudio.
Departamento de Estad´ıstica
229
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
################################################################ ################################################################ ################################################################ ## ## Estadistica Aplicada I ## ## Clase Practica 07 (Analisis Exploratorio de Datos: Q-Q plot y Violin Plot) ## ## ## Emilio Lopez Escobar (http://www.info-Emilio.NET) ## Departamento de Estadistica, ITAM. ## D.F., Mexico. Enero 30, 2014 ## ################################################################ ################################################################ ################################################################ setwd("E://WORK//Lecturing//2014_01_ITAM_Licenciatura_EstadisticaAplicada_I//08_R" ) # Definimos el directorio donde trabajaremos, donde estan los datos. getwd() illetesSuizos <- read.table(file = "BilletesSuizos.csv", header= TRUE, sep= ",") GENUINO <- c(rep(1, times=100), rep(0, times=100)) ############################################################### ################### Gráfico de Violin ######################### ############################################################### Un primo un poco más moderno de los diagramas de caja y brazos (BoxPlots), se llaman gráficos de iolines o "violin plots" install.packages("vioplot") library(vioplot) Graficamos la DIAGONAL de todos los billetes.... ioplot(BilletesSuizos$DIAGONAL, names=c("Todos"), col="red", rectCol ="white", colMed ="black", chMed =19, ylim=c(138, 143)) itle("Violines de los billetes TODOS juntos" ) # Ponemos titulo al grafico... Graficamos la DIAGONAL de todos los billetes pero separando... ioplot(BilletesSuizos$DIAGONAL[GENUINO==1], BilletesSuizos$DIAGONAL[GENUINO==0], names=c("Genuinos", "Falsos"), col="red", rectCol ="white", colMed ="black", pchMed =19, ylim=c (138, 143)) itle("Violines de los billetes separados" ) # Ponemos titulo al grafico... ############################################################### ################### Gráfico de Probabilidades QQ ############## ############################################################### Vimos que más o menos la DIAGONAL se comportaban como una Normal cuando hicimos histogramas y iolines para los GENUINOS y para los FALSOS... Primero... Graficamos la DIAGONAL de todos los billetes... Esperamos que los datos no se distribuyan como una Normal... qqnorm(BilletesSuizos$DIAGONAL, # Hace el gráfico de probabilidades Normales, tal cual sin odificar ylab = "Diagonal TODOS", pch = 21, col = "blue") qqline(BilletesSuizos$DIAGONAL, # Dibuja la linea de probas Normales col = "red") oints(qnorm(c(.25, .50, .75)), # Dibuja los puntos con los cuartiles centrales quantile(BilletesSuizos$DIAGONAL, c(.25, .50, .75)), pch=20, col="red", cex = 2) Y si ahora lo hacemos por separado para los GENUINOS qqnorm(BilletesSuizos$DIAGONAL[GENUINO==1], ylab = "Diagonal GENUINOS" , pch = 21, col = "blue") qqline(BilletesSuizos$DIAGONAL[GENUINO==1], col = "red") oints(qnorm(c(.25, .50, .75)), quantile(BilletesSuizos$DIAGONAL[GENUINO==1], c(.25, .50, .75)), pch=20, col="red", cex = 2) Y si ahora lo hacemos por separado para los FALSOS qqnorm(BilletesSuizos$DIAGONAL[GENUINO==0], ylab = "Diagonal FALSOS", pch = 21, col = "blue") qqline(BilletesSuizos$DIAGONAL[GENUINO==0], col = "red")
Departamento de Estad´ıstica
230
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
oints(qnorm(c(.25, .50, .75)), quantile(BilletesSuizos$DIAGONAL[GENUINO==0], c(.25, .50, .75)), pch=20, col="red", cex = 2)
Departamento de Estad´ıstica
231
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
################################################################ ################################################################ ################################################################ ## ## Estadistica Aplicada I ## ## Clase Practica 08 (Estimacion 1) ## ## Emilio Lopez Escobar (http://www.info-Emilio.NET) ## Departamento de Estadistica, ITAM. ## D.F., Mexico. Marzo 04, 2014 ## ################################################################ ################################################################ ################################################################ Primero, revisamos el directorio de trabajo actual en R. getwd() # Del vocablo en Ingles "get working directory" Si es necesario definimos el directorio donde trabajaremos. Es decir, en donde estaran los datos que utilizaremos. setwd("E://WORK//Lecturing//2014_01_ITAM_Licenciatura_EstadisticaAplicada_I//08_R") A continuacion, leemos el conjunto de datos llamado MU284.csv. Este esta en formato .csv (Comma Separated Values) arco <- read.table( file = "MU284.csv",#Nombre del archivo #debe estar en el #direct. de trabajo. header = TRUE, #Indicamos que los datos #tienen encabezados en las #columnas. sep = ",") #Indicamos que los datos estan #separados por coma. Notar que escribi el comando en varias lineas para irles explicando que significa cada cosa. El comando de arriba lo puedo alternativamente correr como: arco <- read.table(file = "MU284.csv", header= TRUE, sep= ",") Otra forma de hacerlo es utilizando los botones de R-studio... Hagamoslo... Ahora, echemos directamente un vistazo a los datos cargados... Podemos ver que ya aparece un dataframe en nuestra memoria, vemos sus caracter?sticas. Vamos a ver las variables y les voy explicando que es cada una... Ahora vamos a instalar dos paquetes.... el paquete "sampling" y el paquete "samplingVarEst" Los paquetes se instalan utilizando clicks con R-studio o con el comando ?install.packages # Cuando no sepa que hacer utilizo el signo de interrogación para abrir la ayuda relativa a ese comando.... Si no tengo ni idea del comando, entonces utilizo doble ?? Tercera opcion de ayuda, es utilizar Google, ponga una R antes... Ok, instalemos utilizando clicks con el R-Studio o con la siguiente linea de comando install.packages("samplingVarEst") Una vez instalados, ahora los cargamos... Recordar aqu? que podemos tener muchos paquetes instalados y no necesariamente cargados (activos) en memoria... library(sampling) require(samplingVarEst) Ahora vamos a dar una revisada rapida al paquete sampling (paquete especializado en seleccion de uestras) En particular los comandos que utilizaremos en esta sesion: srswor1 inclusionprobabilities UPmaxentropy UPbrewer Tambien utilizaremos el paquete samplingVarEst (paquete especializado en estimacion de varianza) En particular utilizaremos los comandos: Pk.PropNorm.U Est.Total.NHT VE.HT.Total.NHT VE.SYG.Total.NHT Una vez que ya sabemos que hace cada comando, supongamos que me interesa estimar Theta... Theta: Total de la variable P85 n: De acuerdo con cierto nivel de confianza y de error absoluto... para este ejercicio tilizaremos 50 De modo que: <- 50
Departamento de Estad´ıstica
232
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Y tenemos que N es: <- dim(Marco)[1] Si tienen duda que hace el comando dim, tecleen ?dim Supongamos que vamos a utilizar un diseno SI (muestreo aleatorio simple - sin reemplazo) Entonces, como no es necesario que calculemos las Pk antes de extraer la muestra, nos vamos directo a la extraccion... Recuerden, cada renglon en mi marco muestral es un municipio sueco.... Revisamos de nuevo como se ejecuta el comando de seleccion de muestras aleatorias simples (sin reemplazo) ?srswor1 ### ### Nota: Estas lineas de comando que siguen a continuaci?n NO SON EFICIENTES, son mas bien didacticas. Traten de mejorarlas o comentarlas para ustedes mismos. ### Extraemos las muestras... saquemos 4, piensen en 4 compa?ias que hacen lo mismito... s.SI1.U <- srswor1(n,N) # Compania "El buen número" s.SI2.U <- srswor1(n,N) # Compania "Salgo en la TV" s.SI3.U <- srswor1(n,N) # Compania "Salgo en el periódico" s.SI4.U <- srswor1(n,N) # Compania "Macondo" Suponemos que se levantan los datos.... Entonces, tenemos la variable de interes pero para cada muestra ecY.s.SI1 <- Marco$P85[s.SI1.U==1] ecY.s.SI2 <- Marco$P85[s.SI2.U==1] ecY.s.SI3 <- Marco$P85[s.SI3.U==1] ecY.s.SI4 <- Marco$P85[s.SI4.U==1] Tratandose de muestreo aleatorio simple tenemos que se tienen los mismos valores en las robabilidades de inclusion para todos los individuos. Tambien en este caso, como cada empresa tiene el mismo tama?o de muestra, todas tendran las mismas robabilidades de inclusion. ecPk.s <- rep(n/N, times=n) Si tienen duda de como se usa el comando rep, teclear ?rep Entonces, si estimamos puntualmente utilizando Narain(1951);Horvitz-Thompson (1952) stTheta1 <- Est.Total.NHT(VecY.s.SI1, VecPk.s) stTheta2 <- Est.Total.NHT(VecY.s.SI2, VecPk.s) stTheta3 <- Est.Total.NHT(VecY.s.SI3, VecPk.s) stTheta4 <- Est.Total.NHT(VecY.s.SI4, VecPk.s) Veamos las estimaciones stTheta1 stTheta2 stTheta3 stTheta4 A cual le creen? Vamos a calcular el coeficiente de variaci?n estimado de cada medici?n. Pero para ello primero ecesitamos calcular la varianza Veamos c?mo se utilizan los dos comandos ?VE.HT.Total.NHT ?VE.SYG.Total.NHT Me hace falta la matriz de probabilidades de inclusi?n conjuntas MatPkl.s La podemos calcular de la siguiente forma: Camino largo... atPkl.s <- matrix(n*(n-1)/(N*(N-1)), ncol=n, nrow=n) diag(MatPkl.s) <- n/N atPkl.s[1:5,1:5] Camino corto gracias a nuestro amigo Hajek que en 1964 public?... Ojo: esto es solo para uestreos de alta entropia. atPkl.s <- Pkl.Hajek.s(VecPk.s) atPkl.s[1:5,1:5] Entonces, calculemos las varianzas.... stVarEstTheta1 <- VE.HT.Total.NHT(VecY.s.SI1, VecPk.s, MatPkl.s) stVarEstTheta2 <- VE.HT.Total.NHT(VecY.s.SI2, VecPk.s, MatPkl.s) stVarEstTheta3 <- VE.HT.Total.NHT(VecY.s.SI3, VecPk.s, MatPkl.s) stVarEstTheta4 <- VE.HT.Total.NHT(VecY.s.SI4, VecPk.s, MatPkl.s) Y entonces los errores estandar son... StdErrEstTheta1 <- sqrt(EstVarEstTheta1) StdErrEstTheta2 <- sqrt(EstVarEstTheta2) StdErrEstTheta3 <- sqrt(EstVarEstTheta3) StdErrEstTheta4 <- sqrt(EstVarEstTheta4) Y ahora calculemos nuestro error absoluto o precision al 95% de confianza alpha <- 0.05 AbsErrEstTheta1 <- StdErrEstTheta1*qnorm(1-alpha/2)
Departamento de Estad´ıstica
233
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
AbsErrEstTheta2 <- StdErrEstTheta2*qnorm(1-alpha/2) AbsErrEstTheta3 <- StdErrEstTheta3*qnorm(1-alpha/2) AbsErrEstTheta4 <- StdErrEstTheta4*qnorm(1-alpha/2) Entonces nuestros 4 intervalos de confianza a un nivel de 95% son: imInfICEstTheta1 <- EstTheta1 - AbsErrEstTheta1 imInfICEstTheta2 <- EstTheta2 - AbsErrEstTheta2 imInfICEstTheta3 <- EstTheta3 - AbsErrEstTheta3 imInfICEstTheta4 <- EstTheta4 - AbsErrEstTheta4 imSupICEstTheta1 <- EstTheta1 + AbsErrEstTheta1 imSupICEstTheta2 <- EstTheta2 + AbsErrEstTheta2 imSupICEstTheta3 <- EstTheta3 + AbsErrEstTheta3 imSupICEstTheta4 <- EstTheta4 + AbsErrEstTheta4 Ahora calculemos el coeficiente de variacion estimado de cada una de las 4 estimaciones... CVEEstTheta1 <- StdErrEstTheta1/EstTheta1 CVEEstTheta2 <- StdErrEstTheta2/EstTheta2 CVEEstTheta3 <- StdErrEstTheta3/EstTheta3 CVEEstTheta4 <- StdErrEstTheta4/EstTheta4 Entonces si queremos tener un output bonito: (cbind pega vectores columna) OUTPUT1 <- c(EstTheta1, EstTheta2, EstTheta3, EstTheta4) OUTPUT1 <- cbind(EstTheta = OUTPUT1, StdErr = c(StdErrEstTheta1, StdErrEstTheta2, StdErrEstTheta3, StdErrEstTheta4)) OUTPUT1 <- cbind(OUTPUT1, LInfCI95 = c(LimInfICEstTheta1, LimInfICEstTheta2, LimInfICEstTheta3, imInfICEstTheta4)) OUTPUT1 <- cbind(OUTPUT1, LSupCI95 = c(LimSupICEstTheta1, LimSupICEstTheta2, LimSupICEstTheta3, imSupICEstTheta4)) OUTPUT1 <- cbind(OUTPUT1, CVE = c(CVEEstTheta1, CVEEstTheta2, CVEEstTheta3, CVEEstTheta4)) OUTPUT1 Y si ahora muestreamos con probabilidades desiguales... Con que sera mejor muestrear, con probabilidades proporcionales a la variable P75 o con robabilides iguales...? Hagamoslo... Primero construimos nuestras probabilidades de inclusion proporcional a P75 ?Pk.PropNorm.U ecPk.U <- Pk.PropNorm.U(n, Marco$P75) Ahora necesitamos las probabilidades de inclusion de segundo orden, esto seria con el comando atPkl.U <- Pkl.Hajek.U(VecPk.U) #Ojo: No espantarse, puede salir error si excedemos las dimensiones permitidas... Que alternativas tenemos? Por que antes cuando utilizmos SI primero extrajimos las muestras y luego construimos las Pik's? Claramente porque no importa que muestra cae, podemos reconstruir las probabilides de inclusion sin problema... Para el caso de probabilidades desiguales podemos hacer lo mismo con el comando Pkl.Hajek.s en lugar de utilizar Pkl.Hajek.U Este comando Pkl.Hajek.s estima las probas de inclusion de segundo orden a partir de las probas de inclusion de primer orden pero de los individuos que tenemos en la muestra extraida... Es decir, manejaremos matrices de n por n, que son mucho mas manejables... Entonces vamos a extraer primero las muestras... y luego estimamos las Pikls Extraemos las muestras... vamos a utilizar el muestreo de Brewer que es de alta entropia Grafstrom (2010, p. 97) da evidencia de que es de alta entrop?a aunque no est? demostrado. Berger (2011) lantea que basta que el muestreo sea de alta entrop?a (aunque no maxima) para poder utilizar los resultados de Hajek (1964) s.Br1.U <- UPbrewer(VecPk.U) s.Br2.U <- UPbrewer(VecPk.U) s.Br3.U <- UPbrewer(VecPk.U) s.Br4.U <- UPbrewer(VecPk.U) Notar que si hubieramos utilizado UPmaxentropy hubiera sido muy lento... pueden hacer la prueba en su computadora... Notar tambien que el paquete sampling esta programado en R, seria bueno tener una ersion mas veloz (programado en C) Y entonces ahora si, estimamos nuestras probabilidades de inclusion de 2do orden a partir de datos uestrales.... (ver la expresion en el manual del paquete samplingVarEst). Primero creo un vector con las probabilidades de inclusion de primer orden con solo los datos uestrales (tengo que hacer uno para cada muestra que saque) ecPk.s1 <- VecPk.U[s.Br1.U==1] ecPk.s2 <- VecPk.U[s.Br2.U==1] ecPk.s3 <- VecPk.U[s.Br3.U==1] ecPk.s4 <- VecPk.U[s.Br4.U==1] Como tenemos la matrix N por N de Pkl's tenemos que quedarnos con los renglones y las columnas de esta: atPkl.s1 <- MatPkl.U[s.Br1.U==1,s.Br1.U==1] atPkl.s2 <- MatPkl.U[s.Br2.U==1,s.Br2.U==1]
Departamento de Estad´ıstica
234
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
atPkl.s3 <- MatPkl.U[s.Br3.U==1,s.Br3.U==1] atPkl.s4 <- MatPkl.U[s.Br4.U==1,s.Br4.U==1] atPkl.s1[1:5,1:5] Si no tuviera la matrix poblacional de Pkl's entonces creo las matrices de probas de 2do orden estimadas utilizando la version muestral del Hajek(1964) atPkl.s1 <- Pkl.Hajek.s(VecPk.s1) atPkl.s2 <- Pkl.Hajek.s(VecPk.s2) atPkl.s3 <- Pkl.Hajek.s(VecPk.s3) atPkl.s4 <- Pkl.Hajek.s(VecPk.s4) atPkl.s1[1:5,1:5] Ahora creo mis datos muestrales, i.e. solo tendre datos observados de la variable Y para aquellos que cayeron en muestra... ecY.s.Br1 <- Marco$P85[s.Br1.U==1] ecY.s.Br2 <- Marco$P85[s.Br2.U==1] ecY.s.Br3 <- Marco$P85[s.Br3.U==1] ecY.s.Br4 <- Marco$P85[s.Br4.U==1] Entonces, si estimamos puntualmente utilizando Narain(1951);Horvitz-Thompson (1952) stTheta1 <- Est.Total.NHT(VecY.s.Br1, VecPk.s1) stTheta2 <- Est.Total.NHT(VecY.s.Br2, VecPk.s2) stTheta3 <- Est.Total.NHT(VecY.s.Br3, VecPk.s3) stTheta4 <- Est.Total.NHT(VecY.s.Br4, VecPk.s4) Entonces, calculemos las varianzas....
Pero aqui, como usamos probabilidades desiguales tiene m?s sentido utilizar SYG en lugar de NHT ara la estimaci?n de varianza, no tanto por el asunto de obtener valores negativos, sino porque es ejor estimador (quizas estas diferencias aqu? no sean tan importantes porque tenemos una poblaci?n grande y un tamano de muestra grande... estos argumentos son mas utiles cuando se est? operando en oblaciones moderadas y tamanos de muestra m?s peque?os, e.g. en algunos estratos en particular) Ademas, recuerden que el estimador de varianza de SYG es mas rapido porque hace la mitad de calculos
stVarEstTheta1 <- VE.SYG.Total.NHT(VecY.s.Br1, VecPk.s1, MatPkl.s1) stVarEstTheta2 <- VE.SYG.Total.NHT(VecY.s.Br2, VecPk.s2, MatPkl.s2) stVarEstTheta3 <- VE.SYG.Total.NHT(VecY.s.Br3, VecPk.s3, MatPkl.s3) stVarEstTheta4 <- VE.SYG.Total.NHT(VecY.s.Br4, VecPk.s4, MatPkl.s4) Y entonces los errores estandar son... StdErrEstTheta1 <- sqrt(EstVarEstTheta1) StdErrEstTheta2 <- sqrt(EstVarEstTheta2) StdErrEstTheta3 <- sqrt(EstVarEstTheta3) StdErrEstTheta4 <- sqrt(EstVarEstTheta4) Y ahora calculemos nuestro error absoluto o precision al 95% de confianza alpha <- 0.05 AbsErrEstTheta1 <- StdErrEstTheta1*qnorm(1-alpha/2) AbsErrEstTheta2 <- StdErrEstTheta2*qnorm(1-alpha/2) AbsErrEstTheta3 <- StdErrEstTheta3*qnorm(1-alpha/2) AbsErrEstTheta4 <- StdErrEstTheta4*qnorm(1-alpha/2) Entonces nuestros 4 intervalos de confianza a un nivel de 95% son: imInfICEstTheta1 <- EstTheta1 - AbsErrEstTheta1 imInfICEstTheta2 <- EstTheta2 - AbsErrEstTheta2 imInfICEstTheta3 <- EstTheta3 - AbsErrEstTheta3 imInfICEstTheta4 <- EstTheta4 - AbsErrEstTheta4 imSupICEstTheta1 <- EstTheta1 + AbsErrEstTheta1 imSupICEstTheta2 <- EstTheta2 + AbsErrEstTheta2 imSupICEstTheta3 <- EstTheta3 + AbsErrEstTheta3 imSupICEstTheta4 <- EstTheta4 + AbsErrEstTheta4 Ahora calculemos el coeficiente de variaci?n estimado de cada una de las 4 estimaciones... CVEEstTheta1 <- StdErrEstTheta1/EstTheta1 CVEEstTheta2 <- StdErrEstTheta2/EstTheta2 CVEEstTheta3 <- StdErrEstTheta3/EstTheta3 CVEEstTheta4 <- StdErrEstTheta4/EstTheta4 Y como ahora estamos muestreando diferente del SI entonces s? tiene sentido calcular el deff (estimado) ecPk.s <- rep(n/N, times=n) # Ya lo teniamos en memoria pero para recordar que es... Notar que es igual en todas las estimaciones porque es para un diseno SI y todas las muestras tienen el ismo tama?o.
Departamento de Estad´ıstica
235
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
deffEstTheta1 <- EstVarEstTheta1/VE.SYG.Total.NHT(VecY.s.Br1, VecPk.s, Pkl.Hajek.s(VecPk.s)) deffEstTheta2 <- EstVarEstTheta2/VE.SYG.Total.NHT(VecY.s.Br2, VecPk.s, Pkl.Hajek.s(VecPk.s)) deffEstTheta3 <- EstVarEstTheta3/VE.SYG.Total.NHT(VecY.s.Br3, VecPk.s, Pkl.Hajek.s(VecPk.s)) deffEstTheta4 <- EstVarEstTheta4/VE.SYG.Total.NHT(VecY.s.Br4, VecPk.s, Pkl.Hajek.s(VecPk.s)) Entonces si queremos tener un output bonito: OUTPUT2 <- c(EstTheta1, EstTheta2, EstTheta3, EstTheta4) OUTPUT2 <- cbind(EstTheta = OUTPUT2, StdErr = c(StdErrEstTheta1, StdErrEstTheta2, StdErrEstTheta3, StdErrEstTheta4)) OUTPUT2 <- cbind(OUTPUT2, LInfCI95 = c(LimInfICEstTheta1, LimInfICEstTheta2, LimInfICEstTheta3, imInfICEstTheta4)) OUTPUT2 <- cbind(OUTPUT2, LSupCI95 = c(LimSupICEstTheta1, LimSupICEstTheta2, LimSupICEstTheta3, imSupICEstTheta4)) OUTPUT2 <- cbind(OUTPUT2, CVE = c(CVEEstTheta1, CVEEstTheta2, CVEEstTheta3, CVEEstTheta4)) OUTPUT2 <- cbind(OUTPUT2, deff = c(deffEstTheta1, deffEstTheta2, deffEstTheta3, deffEstTheta4)) OUTPUT2 Como son los FE de cada diseno? summary(1/VecPk.s) lot(sort(1/VecPk.s)) summary(1/VecPk.s1) lot(sort(1/VecPk.s1)) Notar que si el tamano de muestra es generoso, incluso con muestreo SI se obtienen buenas estimaciones. Pero si tenemos poquita muestra, entonces el SI tendera a fallar y sera mucho mejor tilizar pesos desiguales. Entonces, utilizando probabilidades desiguales esperamos que la distribucion muestral de nuestro estimador est? m?s concentrada alrededor del verdadero valor, es decir, que utilizando robabilidades desiguales voy a obtener con mucho menor frecuencia relativa estimaciones que disten ucho del verdadero valor... Nom?s por puro ocio, revisemos qu? tan lejos estamos del verdadero valor en cada caso OUTPUT1 OUTPUT2 El verdadero valor es: heta <- sum(Marco$P85) heta Esperamos que vamos a tener mejores estimaciones utilizando un diseno diferente al muestreo SI por como se comporta la variable de interes Para que esto de utilizar probas desiguales funcione, tenemos que la variable de interes tiene que estar correlacionada con la variable que estamos utilizando para calcular las Pks Chequemos que tal esta la correlacion cor(Marco$P75,Marco$P85) Usar las muestras con probas desiguales pero estimar con SI (vicio del mercado - exagerado) stTheta1 <- Est.Total.NHT(VecY.s.Br1, VecPk.s) stTheta2 <- Est.Total.NHT(VecY.s.Br2, VecPk.s) stTheta3 <- Est.Total.NHT(VecY.s.Br3, VecPk.s) stTheta4 <- Est.Total.NHT(VecY.s.Br4, VecPk.s) stTheta1 stTheta2 stTheta3 stTheta4
Departamento de Estad´ıstica
236
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
################################################################ ################################################################ ################################################################ ## ## Diplomado en Estadistica Aplicada : Modulo Muestreo ## ## Clase Practica 09 (Estimación 1 - samplingEstimates) ## ## ## Emilio Lopez Escobar (http://www.info-Emilio.NET) ## Departamento de Estadistica, ITAM. ## D.F., Mexico. Marzo 06, 2014 ## ################################################################ ################################################################ ################################################################ ## Esta sesión tiene que ejecutarse habíendo entendido la sesión anterior... No se explicará con anto detalle algunas cosas ya que no vale la pena repetir y repetir lo mismo. ## La idea de esta sesión es hacer lo mismo que la clase pasada pero de manera más rápida tilizando el paquete: samplingEstimates Primero, revisamos el directorio de trabajo actual en R. getwd() # Del vocablo en Ingles "get working directory" Si es necesario definimos el directorio donde trabajaremos. Es decir, en donde estaran los datos que utilizaremos. setwd("E://WORK//Lecturing//2014_01_ITAM_Licenciatura_EstadisticaAplicada_I//08_R" ) El comando de arriba lo puedo alternativamente correr como: arco <- read.table(file = "MU284.csv", header= TRUE, sep= ",") Ahora vamos a instalar el paquete "samplingEstimates" install.packages("samplingEstimates") Una vez instalado, ahora lo cargamos y También cargamos el paquete que muestrea que vimos la clase asada: library(samplingEstimates) require(sampling) Ahora vamos a dar una revisada rápida al paquete samplingEstimates (paquete "máscara" del paquete samplingVarEst, con el objeto de hacerlo más amigable) En particular el comando que utilizaremos en esta sesión (del paquete samplingEstimates): Estimate.Total.NHT (ver el manual en PDF para entender cómo trabaja) Una vez que ya sabemos como opera el comando, supongamos que me interesa estimar Theta... Theta: Total de la variable P85 n: De acuerdo con cierto nivel de confianza y de error absoluto... para este ejercicio tilizaremos 50 <- 50 Y tenemos que N es: <- dim(Marco)[1] Supongamos que vamos a utilizar un dise?o SI (muestreo aleatorio simple - sin reemplazo) Entonces, como no es necesario que calculemos las Pk antes de extraer la muestra, nos vamos directo a la extracci?n... Extraemos las muestras... saquemos 4, piensen en 4 compa?ias que hacen lo mismito... s.SI1.U <- srswor1(n,N) # Compañía "El buen número" s.SI2.U <- srswor1(n,N) # Compañía "Salgo en la TV" s.SI3.U <- srswor1(n,N) # Compañía?"Salgo en el periódico" s.SI4.U <- srswor1(n,N) # Compañía "Macondo" Suponemos que se levantan los datos.... tenemos la variable de interés pero para cada muestra ecY.s.SI1 <- Marco$P85[s.SI1.U==1] ecY.s.SI2 <- Marco$P85[s.SI2.U==1] ecY.s.SI3 <- Marco$P85[s.SI3.U==1] ecY.s.SI4 <- Marco$P85[s.SI4.U==1] En este caso, cada empresa tiene el mismo tamaño de muestra, todas tendrían las mismas robabilidades de inclusión. ecPk.s <- rep(n/N, times=n) También necesito la matriz de probabilidades de inclusion conjuntas MatPkl.s atPkl.s <- Pkl.Hajek.s(VecPk.s) ### OJO: el paquete samplingEstimates me pide pesos muestrales en lugar de probabilidades de inclusión de primer orden. Entonces, estimamos con el paquete samplingEstimates utilizando el estimador de un total de arain(1951);Horvitz-Thompson (1952) esultados1 <- Estimate.Total.NHT (MatY.s = VecY.s.SI1, VecWk.s = 1/VecPk.s , VarEst = "SYG" , MatPkl.s = MatPkl.s ,
Departamento de Estad´ıstica
237
Emilio L´ op ez Escobar
EST-24104: Estad´ıstica Aplicada I
PopSize = N ) esultados2 <- Estimate.Total.NHT (MatY.s = VecY.s.SI2, VecWk.s = 1 /VecPk.s , VarEst = "SYG" , MatPkl.s = MatPkl.s , PopSize = N ) esultados3 <- Estimate.Total.NHT (MatY.s = VecY.s.SI3, VecWk.s = 1 /VecPk.s , VarEst = "SYG" , MatPkl.s = MatPkl.s , PopSize = N ) esultados4 <- Estimate.Total.NHT (MatY.s = VecY.s.SI4, VecWk.s = 1 /VecPk.s , VarEst = "SYG" , MatPkl.s = MatPkl.s , PopSize = N ) OUTPUT1 <- rbind rbind( (Resultados1, Resultados2, Resultados3, Resultados4 ) OUTPUT1 Y si ahora muestreamos con probabilidades desiguales... Primero construimos nuestras probabilidades de inclusión proporcional a P75 para todos los individuos en la población ?Pk.PropNorm.U ecPk.U <- Pk.PropNorm.U( Pk.PropNorm.U (n, Marco$ Marco $P75) P75) Ahora necesitamos las probabilidades de inclusi?n de segundo orden, esto ser?a con el comando atPkl.U <- Pkl.Hajek.U( Pkl.Hajek.U (VecPk.U) VecPk.U) #Ojo: No espantarse, puede salir error si excedemos las dimensiones permitidas... Extraemos las muestras... vamos a utilizar el muestreo de Brewer que es de alta entrop?a Grafstr?m (2010, p. 97) da evidencia de que es de alta entrop?a aunque no est? demostrado. Berger (2011) lantea que basta que el muestreo sea de alta entrop?a (aunque no m?xima) para poder utilizar los resultados de H?jek (1964) s.Br1.U <- UPbrewer( UPbrewer (VecPk.U) VecPk.U) s.Br2.U <- UPbrewer( UPbrewer (VecPk.U) VecPk.U) s.Br3.U <- UPbrewer( UPbrewer (VecPk.U) VecPk.U) s.Br4.U <- UPbrewer( UPbrewer (VecPk.U) VecPk.U) estimamos nuestras probabilidades de inclusi?n de 2do orden a partir de datos muestrales.... Primero creo un vector con las probabilidades de inclusi?n de primer orden con s?lo los datos uestrales (tengo que hacer uno para cada muestra que saqu?) ecPk.s1 <- VecPk.U[ VecPk.U [s.Br1.U==1] s.Br1.U==1 ] ecPk.s2 <- VecPk.U[ VecPk.U [s.Br2.U==1] s.Br2.U==1 ] ecPk.s3 <- VecPk.U[ VecPk.U [s.Br3.U==1] s.Br3.U==1 ] ecPk.s4 <- VecPk.U[ VecPk.U [s.Br4.U==1] s.Br4.U==1 ] Como tenemos la matrix N por N de Pkl's tenemos que quedarnos con los renglones y las columnas de esta: atPkl.s1 <- MatPkl.U[ MatPkl.U [s.Br1.U==1,s.Br1.U==1 s.Br1.U==1,s.Br1.U==1] ] atPkl.s2 <- MatPkl.U[ MatPkl.U [s.Br2.U==1,s.Br2.U==1 s.Br2.U==1,s.Br2.U==1] ] atPkl.s3 <- MatPkl.U[ MatPkl.U [s.Br3.U==1,s.Br3.U==1 s.Br3.U==1,s.Br3.U==1] ] atPkl.s4 <- MatPkl.U[ MatPkl.U [s.Br4.U==1,s.Br4.U==1 s.Br4.U==1,s.Br4.U==1] ] atPkl.s1[ atPkl.s1 [1:5,1: 5,1:5] Si no tuviera la matrix poblacional de Pkl's entonces creo las matrices de probas de 2do orden estimadas utilizando la versi?n muestral del H?jek(1964) atPkl.s1 <- Pkl.Hajek.s( Pkl.Hajek.s (VecPk.s1) VecPk.s1) atPkl.s2 <- Pkl.Hajek.s( Pkl.Hajek.s (VecPk.s2) VecPk.s2) atPkl.s3 <- Pkl.Hajek.s( Pkl.Hajek.s (VecPk.s3) VecPk.s3) atPkl.s4 <- Pkl.Hajek.s( Pkl.Hajek.s (VecPk.s4) VecPk.s4) atPkl.s1[ atPkl.s1 [1:5,1: 5,1:5] Ahora creo mis datos muestrales, i.e. s?lo tendr? datos observados de la variable Y para aquellos que cayeron en muestra... ecY.s.Br1 <- Marco$ Marco $P85[ P85[s.Br1.U==1] s.Br1.U==1 ] ecY.s.Br2 <- Marco$ Marco $P85[ P85[s.Br2.U==1] s.Br2.U==1 ] ecY.s.Br3 <- Marco$ Marco $P85[ P85[s.Br3.U==1] s.Br3.U==1 ] ecY.s.Br4 <- Marco$ Marco $P85[ P85[s.Br4.U==1] s.Br4.U==1 ] Entonces, si estimamos: esultados1 <- Estimate.Total.NHT (MatY.s = VecY.s.Br1, VecWk.s = 1 /VecPk.s1, VarEst = "SYG" , MatPkl.s = MatPkl.s1 , PopSize = N ) esultados2 <- Estimate.Total.NHT (MatY.s = VecY.s.Br2, VecWk.s = 1 /VecPk.s2, VarEst = "SYG" ,
Departamento Departa mento de Estad´ıstica ıstica
238
Emilio L´ op ez Escobar MatPkl.s PopSize esultados3 <- Estimate.Total.NHT (MatY.s VecWk.s VarEst MatPkl.s PopSize esultados4 <- Estimate.Total.NHT (MatY.s VecWk.s VarEst MatPkl.s PopSize OUTPUT2 <- rbind rbind( (Resultados1, Resultados2, OUTPUT2 Notar las diferencias de los comandos: stimate.Total.NHT( stimate.Total.NHT (MatY.s = VecY.s.Br1, VecWk.s VarEst MatPkl.s PopSize stimate.Total.NHT( stimate.Total.NHT (MatY.s = VecY.s.Br1, VecWk.s VarEst MatPkl.s stimate.Total.NHT( stimate.Total.NHT (MatY.s = VecY.s.Br1, VecWk.s VarEst stimate.Total.NHT( stimate.Total.NHT (MatY.s = VecY.s.Br1, VecWk.s
Departamento Departa mento de Estad´ıstica ıstica
EST-24104: Estad´ıstica Aplicada I = MatPkl.s2 , = N ) = VecY.s.Br3, = 1 /VecPk.s3, = "SYG" , = MatPkl.s3 , = N ) = VecY.s.Br4, = 1 /VecPk.s4, = "SYG" , = MatPkl.s4 , = N ) Resultados3, Resultados4 )
= = = =
1 /VecPk.s1, "SYG" , MatPkl.s1 , N )
= 1 /VecPk.s1, = "SYG" , = MatPkl.s1 ) = 1 /VecPk.s1, = "SYG" ) = 1 /VecPk.s1) VecPk.s1)
239
Parte VI
Ejercicios
240
Emilio L´ op ez Escobar
EST-24104: Estad´ıstica Aplicada I
Ejercicios Ejerci cios de An´ alisis alisis Exploratorio de Datos 1. (Verdadero o Falso) La Estad´ıstica ıstica es una ciencia. 2. (Pregunta (Pregunta abierta) abierta) Definici´ Definici´ on de Estad´ıstica. ıstica. 3. (Pregunta abierta) ¿Por qu´e importa que haya una noci´ on de azar o incertidumbre en la definici´ on on de Estad´ Est ad´ıstic ıs tica? a? 4. (Reflex (Reflexi´ i´ on) on) ¿D´ onde onde est´a el azar asociado a un objeto: en el objeto per se o en mi ignorancia sobre el comportamiento del objeto? Justifique. 5. (Reflex (Reflexi´ i´ on) on) Con su intuici´ on, suponiendo que no tiene conocimientos de muestreo. Intente calcular la on, probabilida probabilidad d de que su vecina Chuchita caiga seleccionada en una muestra. ¿C´ omo omo le har´ har´ıa? Justifiqu e. 6. (Pregunta abierta) Dar 3 ejemplos de variables dif´ıciles ıciles de definir y que son de inter´ es es p´ ublico (i.e. que interesen a INEGI, CONAPO, CONEVAL, CNSF, etc.). 7. (Pregunta (Pregunta abierta) abierta) Dar 3 ejemplos ejemplos de variables variables multifactoria multifactoriales les que son de inter´ inter´es es p´ ublico (i.e. que interesen a INEGI, CONAPO, CONEVAL, CNSF, etc.) 8. (Pregunta (Pregunta abierta) Dar 3 ejemplos de variables variables categ´ oricas de inter´ es es p´ ublico (i.e. que interesen a ublico INEGI, CONAPO, CONEVAL, CNSF, etc.) 9. (Pregunta abierta) Dar 3 ejemplos de variables continuas de inter´ es es p´ ublico. 10. (Pregunta (Pregunta abierta) Dar 3 ejemplos ejemplos de variables variables continuas de inter´ inter´es es p´ ublico que son recodificadas a ublico variables categ´ oricas. oricas. 11. (Pregunta abierta) Dar 3 ejemplos de variables con escala nominal (de inter´es es p´ ublico). 12. (Pregunta abierta) Dar 3 ejemplos de variables con escala ordinal (de inter´es es p´ ublico). 13. (Pregunta abierta) Dar 3 ejemplos de variables con escala de intervalo (de inter´es es p´ ublico). 14. (Pregunta (Pregunta abierta) abierta) Dar 3 ejemplos de variables variables con escala de raz´ on (de inter´es es p´ ublico). ublico). 15. (Pregunta (Pregunta abierta) ¿Por qu´e se recomienda recomienda hacer un EDA como punto de partida partida para un estudio estudio o investigaci´ on? on? 16. (Pregunta (Pregunta abierta) abierta) ¿Cu´ ¿Cu´ al es la diferencia entre un diagrama de barras y un histograma? al 17. (Pregunta (Pregunta abierta) Explique Explique las diferencias diferencias entre una escala de intervalo y una escala escala de raz´ on. 18. (Pregunta abierta) Explique porqu´e se dice que hay una jerarqu´ jerarqu´ıa entre los niveles de las escalas en los datos.
Departamento Departa mento de Estad´ıstica ıstica
241
Emilio L´ op ez Escobar
EST-24104: Estad´ıstica Aplicada I
19. (Ejercicio (Ejerci cio Pr´ actico) actico) Utilizar Utilizar los datos TVcable2 (ojo, est´ an an en formato XLS) 1. Hacer en R un gr´afico afico de pastel y uno de barras barras de la variable variable asociada al tipo de televisor televisor.. Tratar de hacerlo lo m´ as as bonito que se pueda. Escribir unas l´ıneas interpretando los gr´aficos. aficos. 2. Hacer en R un gr´afico afico de pastel y uno de barras barras de la variable asociada asociada al tipo de televisor televisor pero ahora uno por cada colonia. Tratar de hacerlo lo m´ as bonito que se pueda. Escribir unas l´ıneas interpretando interpr etando los gr´ aficos aficos para cada colonia y luego otras l´ıneas ıneas platicando si se observan diferencias. 3. Hacer en R un diagrama de puntos con alguna variable variable (que corresponda, corresponda, por supuesto). supuesto). Tratar Tratar de hacerlo lo m´ as as bonito que se pueda. Escribir unas l´ıneas interpretando. 4. Hacer Hacer en en R un gr´ gr´ afico de frecuencias de variables discreta con alguna variable (que corresponda, afico por supuesto). Tratar de hacerlo lo m´ as as b onito que se pueda. Escribir unas l´ıneas interpretando. 5. Hacer Hacer en R un histog histogram rama a con alguna alguna varia variable ble (que corre correspond sponda, a, por supuesto) supuesto).. Tratar ratar de hacerlo lo m´ as as b onito que se pueda. Escribir unas l´ıneas interpretando. 20. (Tarea (Tarea moral) Investigue de qu´ e se trata el pol´ pol´ıgono de frecuencias. 21. (Tarea (Tarea moral) Investigue de qu´e se trata el diag rama llamado ojiva. 22. (Ejercicio (Ejercicio algebraic algebraico) o) A partir de la definici´ on vista en clase de s 2 , demostrar que:
2
s
=
n 2 nx ¯2 k=1 xk − n¯
n − 1
23. (Ejercicio (Ejercicio Pr´ actico) actico) Se tiene el siguiente diagrama de tallo y hojas de ciertos ciertos p orcentajes orcentajes para 129 pa´ pa´ıses. Las cifras del gr´ afico se interpretan de la siguiente manera, por ejemplo 1|5 significa 15 %. afico ´ Uselo para determinar: El rango. El primer cuartil. La mediana. La amplitud amplitu d intercu art´ art´ılica. 24. (Ejercicio (Ejercicio Pr´ actico) actico) Suponga que tienen solamente dos datos: 14 y 160. Calcule: El rango. El primer cuartil. La mediana. La amplitud amplitu d intercu art´ art´ılica. 25. (Repaso (Repaso de concep conceptos tos)) ¿Cu´ ¿Cual a´l es la funci´ funci´ on o n de distri distribuc buci´ i´ on o n Bernoul Bernoulli, li, su esperanz esperanza, a, su varia varianza nza?? ¿Qu´ e mo dela una variable aleatoria con tal distribuci´ on on de probabilida probabilidades? des?
Departamento Departa mento de Estad´ıstica ıstica
242
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
26. (Repaso de conceptos) ¿Cu´ al es la funci´ on de distribuci´ on Normal, su esp eranza, su varianza? ¿Qu´e modela una variable aleatoria con tal distribuci´ on de probabilidades? 27. (Ejercicio Pr´actico) Indique hacia qu´ e lado (derecho o izquierdo) se tiene un sesgo en el siguiente gr´afico.
28. (Ejercicio) Determine, en ese orden, si las siguientes variables son: cualitativas o cuantitativas, discretas o continuas, y determine su escala de medici´ on. El INPC. (
)(
)(
)
El rendimiento de las acciones de una empresa que cotiza en la BMV. ( El volumen de acciones vendidas por d´ıa. (
)( )(
)
La clasificaci´ o n del riesgo-pa´ıs emitida por JP Morgan. ( ) (
Departamento de Estad´ıstica
243
)(
)
)(
)(
)
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
La intenci´ o n de voto del entrevistado. (
) ( ) ( )
El ingreso mensual del entrevistado. ( ) ( ) ( ) El n´ u mero de focos en el hogar del entrevistado. ( ) ( La colonia donde vive el entrevistado. ( ) ( El g´ e nero del entrevistado. (
)(
)(
)
)
) ( ) ( )
La etnia del entrevistado. ( ) ( ) ( ) Edad del entrevistado en a˜ n os cumplidos. (
)(
)(
)
El estado civil del entrevistado. ( ) ( ) ( ) Tipo de poblaci´ o n en que habita el entrevistado (urbana o rural). ( ) (
)(
)
29. (Verdadero o Falso) La covarianza mide s´ olo dependencia lineal. 30. (Verdadero o Falso) Si hay independencia entre 2 variables, esto implica que la correlaci´ on entre ´estas es cero. 31. (Verdadero o Falso con justificaci´ on) La Estad´ıstica es una ciencia. 32. (Verdadero o Falso) Con datos cualitativos, las categor´ıas no necesariamente tienen que ser excluyentes. Puede haber observaciones en 2 o m´as categor´ıas. 33. (Verdadero o Falso con justificaci´ on) Los datos cuantitativos tienen un n´ umero finito de clases. Puede ser muy grande, pero es finito. 34. (Verdadero o Falso) Los datos cuantitativos discretos son aquellos donde hace falta informaci´ on de la unidad de medici´ on. 35. (Verdadero o Falso con justificaci´ on) No es posible, de manera alguna, representar a los datos cuantitativos discretos como datos cuantitativos continuos. 36. (Verdadero o Falso con justificaci´ on) No es posible recodificar una variable continua a una variable categ´ orica. 37. (Verdadero o Falso con justificaci´ on) No es posible determinar causalidad a partir de una correlaci´ on, aunque esta sea muy cercana a 1. 38. (Verdadero o Falso con justificaci´ on) No es posible o no tiene sentido utilizar un histograma con una variable categ´ orica. 39. (Verdadero o Falso con justificaci´ on) Existen dependencias no-lineales que pueden tener una correlaci´ on cero. 40. (Verdadero o Falso con justificaci´ on) Si la covarianza entre dos variables da un valor de cero, esto implica que las dos variables en cuesti´on son independientes. (... trabajo en curso)
Departamento de Estad´ıstica
244
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
Ejercicios de Muestreo 1. (Pregunta abierta) ¿Cu´ al es el objetivo principal del muestreo, es decir, en qu´ e situaciones se usa o qu´e pregunta ayuda a responder el muestreo? 2. (Pregunta abierta) ¿C´ omo podemos relacionar las siguientes ideas en una sola oraci´ on: variabilidad, muestreo, obtenci´ on y recolecci´ on de datos, estimaci´ on, inferencia, poblaci´ on, responder preguntas, precisi´ on, t´ erminos probabil´ısticos, control, medici´ on, parte de la estad´ıstica? Es decir, haga una oraci´ on que contenga todas las palabras y que a la vez no est´e diciendo algo equivocado. 3. (Pregunta abierta) ¿Qu´ e diferencia tienen los libros tradicionales de muestreo y el libro de S¨arndal que estamos utilizando? 4. (Pregunta abierta) ¿Qu´ e relaci´ on hay entre el software de muestreo en general y el S¨arndal? 5. (Pregunta abierta) ¿Cu´al es la principal desventaja de un enfoque particularizado del muestreo en la pr´ actica, en la o ficina, en la r ealidad? 6. (Pregunta abierta) Comente en su s palabras cu´al ser´ıa el procedimiento general o esqueleto del proceso que involucra una encuesta. Como si lo estuviera platicando o explicando a un p ol´ıtico o a un joven sin contacto previo con el muestreo. 7. (Pregunta abierta) Proporcione 3 ejemplos sobre el uso del muestreo diferente a una encuesta electoral o de opini´ o n p´ ublica. Es decir, se necesitan ejemplos en donde no se trate de una encuesta. En donde no se necesite un cuestionario tal cual como ordinariamente se hace en una encuesta de opini´o n. De preferencia de ejemplos diferentes a los comentados en clase. 8. (Pregunta abierta) Es importante definir bien todos los elementos o detalles involucrados dentro de un ejercicio de muestreo de poblaciones finitas ¿Qu´e relaci´ on tiene esto con el ejercicio de inferir? 9. (Pregunta abierta) ¿Qu´ e es un marco muestral y para qu´e me sirve dentro de la teor´ıa de muestreo? 10. (Pregunta abierta) ¿Por qu´e es importante tener un marco muestral de buena calidad y actualizado? 11. (Pregunta abierta) ¿En qu´e casos tengo problemas con mi marco muestral, cu´ ales son los t´ıpicos problemas que pueden presentarse? 12. (Pregunta abierta) ¿Una encuesta me sirve para responder preguntas de un individuo en particular. S´ı o n o? Explique ampliamente. 13. (Pregunta abierta) ¿Todos los errores en una encuesta tienen que ver con muestreo. S´ı o no? Explique ampliamente. 14. (Pregunta abierta) Explique de manera simple las ventajas y desventajas de un enfoque de muestreo basado en dise˜ no.
Departamento de Estad´ıstica
245
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
15. (Pregunta abierta) Pensando en un enfoque de muestreo basado en modelos, explique ¿por qu´ e es posible tener tama˜ nos de muestra muy peque˜ n os en este .approach¿ 16. (Pregunta abierta) Explique ¿c´ omo es posible que el enfoque basado en dise˜ no pueda utilizar dise˜ nos de muestreo (o probabilidades de inclusi´ on) arbitrarias y a la vez no se considera un enfoque subjetivo? 17. (Pregunta abierta) ¿Qu´ e es el muestreo probabil´ıstico? 18. (Pregunta abierta) Comente por qu´e no es posible determinar que una muestra es probabil´ıstica si s´ olo se observa la muestra extra´ıda. 19. (Pregunta abierta) ¿Qu´e son las probabilidades de inclusi´ on? 20. (Pregunta abierta) ¿Qu´e es el dise˜ no de muestreo? 21. (Pregunta abierta) ¿Cu´ al es la diferencia entre p(s) y π k ? 22. (Pregunta abierta) ¿Para qu´e me sirve determinar p(s) y πk en todo este asunto del muestreo que vemos en el cur so. Qu´ e importancia tiene cada uno en la teor´ıa vista? 23. (Pregunta abierta) ¿Es posible (¿y p or que?) utilizar t´ ecnicas de muestreo que hemos visto con muestras no probabil´ısticas? 24. (Pregu nta abierta) ¿Qu´e es un par´ametro (en la teor´ıa de muestreo)? 25. (Pregu nta abierta) ¿Un par´ametro tiene variabilidad. S´ı, no, por qu´e? 26. (Pregunta abierta) ¿Y la variable de estudio, es una variable aleatoria. S´ı, no, por qu´e? 27. (Pregunta abierta) ¿Un estimador de un par´ ametro tiene variabilidad. S´ı, no, por qu´e? 28. (Pregunta abierta) Explique c´ omo es eso de que un estimador estima un par´ ametro. ¿Qu´ e es un estimador? ¿C´ omo funciona con ”peras y manzanas¿ ¿Qu´e quiero de un estimador y c´ omo me aseguro de que eso que quiero suceda? Expl´ıquelo a un ni˜ no pregunt´ on. 29. (Pregunta abierta) ¿De donde viene la variabilidad en el muestreo bajo el enfoque basado en dise˜ no? 30. (Pregunta abierta) ¿La variabilidad en el muestreo basado en dise˜ no la puedo controlar o m´ınimo describir? ¿Para qu´ e me interesa controlarla o describirla? ¿C´ omo? ¿Mediante qu´e? Explique. 31. (Pregunta abierta) ¿Cu´al es la diferencia entre un estimador y una estimaci´ on? 32. (Pregunta abierta) ¿Qu´e es la distribuci´ on muestral? ¿Qu´e me dice? ¿Es f´acil obtener la siempre. S´ı, no, por qu´e? En caso de q ue n o, ¿Qu´ e p uedo hacer entonces? 33. (Pregunta abierta) ¿Por qu´e nos importa estimar en todo momento la media y la varianza de un estimador? ¿C´ omo se conecta con el concepto de la distribuci´on muestral? 34. (Pregunta abierta) ¿Qu´ e tiene que ver con la calidad del dise˜ no de muestreo que utilicemos el c´ alculo o estimaci´ on de la varianza?
Departamento de Estad´ıstica
246
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
35. (Pregunta abierta) ¿C´ omo se relaciona en general un total, una media y una proporci´ on? 36. (Pregunta abierta) Si la calidad de un estimador, una de las caracter´ısticas de las que depende es el sesgo de ´este, ¿Qu´e significa que un estimador sea insesgado formalmente hablando? ¿Y que significa en palabras colo quiales como las entender´ıa p ara un pol´ıtico o cliente comercial? 37. (Pregunta abierta) ¿Es lo mismo hablar del sesgo de un estimador que de que una muestra tiene sesgo, como habla coloquialmente la gente ajena a t´ ecnicas de muestreo? S´ı, no, explique ampliamente. 38. (Pregunta abierta) ¿Por qu´e formalmente hablando no existe u na estimaci´ on insesgada? 39. (Pregunta abierta) ¿Explique c´ omo se construye una distribuci´ on muestral de un estimador? Explique como para un chavito de preparatoria. 40. (Pregunta abierta) Hasta lo q ue hemos visto, si se q uisieran mejorar las estimaciones. ¿En qu´e elementos tengo control (es decir, no depende del azar) y qu´e cosa usted p odr´ıa alterar o mejorar? 41. (Pregunta abierta) ¿En poblaciones finitas, es posible determinar todas las muestras posibles? ¿Sirve de algo eso en la pr´actica, necesito listarlas todas? 42. (Pregunta abierta) ¿Para qu´ e nos sirve el coeficiente de variaci´ on estimado? Explique su utilidad pr´actica a un subalterno que estudi´ o matem´aticas. 43. (Pregunta abierta) ¿C´ omo explicarle a un pol´ıtico o a un ni˜ no en t´ erminos coloquiales en realidad qu´e hace el coeficiente de variaci´ on? Ejemplifique si lo considera p ertinente. 44. (Pregunta abierta) En palabras, sin f´ ormulas ni notaci´ on matem´atica. . . ¿De qu´e se trata el uso de los estimadores π o de Narain-Horvitz-Thompson? ¿Cu´al es la idea intuitiva que hay detr´ as? Explique ampliamente de manera simple. Ejemplifique si lo considera pertinente. 45. (Pregunta abierta) ¿Qu´ e restricciones hay en las probabilidades de inclusi´ on para poder utilizar los estimadores de Narain-Horvitz-Thompson? ¿Qu´e restricciones tengo para establecerlas? 46. (Pregunta abierta) ¿Qu´ e es la fracci´ on de muestreo y qu´ e informaci´ on me da si la tengo t´erminos porcentuales? 47. (Pregu nta abierta) Explique ¿qu´e significa estratificar en t´erminos pr´ acticos y en t´erminos matem´aticos? 48. (Pregu nta abierta) ¿Por qu´e se recomienda estratificar como un a t´ ecnica u´til para mejorar estimaciones? ¿C´ omo convencer´ıa a su jefe ignorante en muestreo sin tanto tecnicismo? 49. (Pregunta practica abierta) Suponga que tiene un marco muestral de 40mil registros. Usted sabe de antemano que la variable Z , disponible en su marco, es ¨ıdeal”para utilizarse como variable de estratificaci´ on. Desafortunadamente, no todos los registros en su marco tienen registros de esa variable. Aproximadamente un 20 % de su marco muestral no presenta informaci´ on sobre tal variable. ¿Cu´al es la mejor alternativa que usted sugerir´ıa? Discuta ampliamente las otras alternativas y por qu´e lo que propone es mejor. Convenza al jefe que estudi´ o medicina.
Departamento de Estad´ıstica
247
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
50. (Verdadero o Falso con justificaci´ on) La funci´ on dise˜ no de muestreo es la que determina las propiedades estad´ısticas del estad´ıstico que estoy utilizando como estimador. 51. (Verdadero o Falso con justificaci´ on) En muestreo directo de elementos, es decir en 1 etapa, y bajo un dise˜ no SI se requiere forzosamente tener el marco muestral completo que identifique a los elementos de la poblaci´ on. 52. (Verdadero o Falso) Si se incorporan m´ as etapas al dise˜ no de muestreo regularmente se aumenta la varianza del estimador. 53. (Verdadero o Falso) La ventaja principal de las muestras probabil´ısticas sobre las no probabil´ısticas es que no hay errores no muestrales. 54. Para mejorar la precisi´ on en un dise˜ no de muestreo de varias etapas se sugiere tratar de aumentar el tama˜ no de muestra de las unidades primarias de muestreo, es decir el n´ umero de elementos a muestrear en la primera etapa. Muchas veces esto tiene que hacerse disminuyendo el n´umero de unidades u ´ltimas de muestreo para no afectar el tama˜ no de muestra global. 55. (Verdadero o Falso con justificaci´ on) Es posible obtener muestras insesgadas incluso bajo dise˜ nos de muestreo diferentes al SI. 56. (Verdadero o Falso con justificaci´ on) El tama˜ no de muestra se determina mayormente por el tama˜no de la poblaci´ on objetivo. 57. (Verdadero o Falso con justificaci´ on) En un muestreo SI. Si censamos se obtiene una varianza del estimador igual a cero y tambi´ en la estimaci´ on de la varianza del estimador es igual a cero. 58. (Verdadero o Falso con justificaci´ on) Una proporci´ on es una media de variables continuas. 59. (Verdadero o Falso) En el muestreo aleatorio simple, todas las muestras tienen la misma probabilidad de ser extra´ıdas. 60. (Verdadero o Falso) En el muestreo aleatorio simple estratificado, todos los elementos de la poblaci´ on tienen la misma probabilidad de ser seleccionados. 61. (Verdadero o Falso) En el muestreo aleatorio simple, todos los elementos de la poblaci´ on tienen la misma probabilidad de ser seleccionados. 62. (Verdadero o Falso con justificaci´ on) Para mejorar la precisi´ o n en un dise˜ no de muestreo se sugiere aumentar el tama˜ no de muestra. 63. (Verdadero o Falso con justificaci´ on) Siempre que tenga un nivel de precisi´ o n en los dominios de estimaci´ on, al combinar las estimaciones para dar una estimaci´ on global, el nivel de precisi´o n de la estimaci´ on global es mejor que el de la estimaci´ on por dominios. 64. (Verdadero o Falso con justificaci´ on) Para estimar proporciones se pueden usar pr´ acticamente las mismas expresiones matem´aticas que para estimar medias.
Departamento de Estad´ıstica
248
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
65. (Verdadero o Falso con justificaci´ on) El muestreo poliet´apico, es decir en m´ as de dos etapas de muestreo requiere forzosamente de un marco muestral completo que identifique a todas las unidades u´ltimas de muestreo. 66. (Verdadero o Falso con justificaci´ on) El deff te´ orico para cualquier estimador del dise˜ n o SI es igual a cero siempre. Esto por su definici´ on. 67. (Verdadero o Falso con justificaci´ on) Siempre que utilizamos conglomeraci´ on se aumenta la precisi´ on en mis estimaciones. 68. (Verdadero o Falso con justificaci´ on) Seg´ un la teor´ıa vista en el curso. El esquema real de muestreo puede ser diferente a mi funci´ on dise˜ no de muestreo al momento de estimar. Se vale y es correcto. 69. (Verdadero o Falso con justificaci´ on) Siempre que se quiera mejorar la precisi´ on en un dise˜ n o de muestreo en varias etapas se sugiere reducir el n´ umero de etapas, es decir dejar de conglomerar para algunas etapas. 70. (Verdadero o Falso con justificaci´ on) El coeficiente de variaci´ on (te´ orico, no estimado) puede tener valores iguales a cero si censo. 71. (Verdadero o Falso con justificaci´ on) El error est´ andar y la desviaci´ on est´ andar n o son lo mismo. 72. (Verdadero o Falso) Si muestreamos bajo el enfoque basado en modelos lo estoc´ astico o variabilidad est´ a en el componente aleatorio del modelo. 73. (Verdadero o Falso con justificaci´ on) No se pueden calcular errores de estimaci´ o n con muestreo no probabil´ıstico. Por eso no tiene sentido calcular un tama˜ no de muestra. 74. (Verdadero o Falso con justificaci´ on) Para calcular un tama˜ no de muestra a cierta precisi´on y confianza necesito siempre el supuesto de Normalidad. 75. (Verdadero o Falso con justificaci´ on) Una manera de estimar a N , el tama˜ n o de la poblaci´ o n, es sumando los factores de expansi´ on de los individuos ca´ıdos en muestra. 76. (Verdadero o Falso) La probabilidad de inclusi´ on conjunta para el par de elementos (k, k), es igual a la probabilidad de inclusi´ on de primer orden del elemento k . 77. (Verdadero o Falso con justificaci´ on) Es posible tener probabilidades de inclusi´ on de primer orden igual a n/N y tener un dise˜ no de muestreo p(·) distinto del muestreo SI. 78. (Verdadero o Falso con justificaci´ on) No se puede estimar puntualmente una proporci´ on si no se conocen sus probabilidades π kl . 79. (Verdadero o Falso con justificaci´ on) Con las expresiones que vimos en clase, no es posible calcular la varianza con un tama˜ no de muestra menor a 2. 80. (Verdadero o Falso con justificaci´ on) Las probabilidades de inclusi´ on de primer orden son iguales a las probabilidades de inclusi´ on conjuntas si trabajamos con un dise˜ no de muestreo aleatorio simple.
Departamento de Estad´ıstica
249
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
81. (Verdadero o Falso con justificaci´ on) El tama˜ no de muestra se determina mayormente por el tama˜no de la poblaci´ on objetivo. 82. (Verdadero o Falso con justificaci´ on) Es conservador que la estimaci´ on de varianza de un estimador tenga un sesgo negativo a uno positivo. Es decir, es conservador obtener errores est´ andares ligeramente sub-estimados. 83. (Verdadero o Falso con justificaci´ on) En las expresiones de estimaci´ on puntual de Narain-HorvitzThompson las probabilidades de inclusi´ on pueden ser arbitrarias sin restricci´ on. 84. (Verdadero o Falso con justificaci´ on) Los .errores no muestrales”siempre son peque˜ nos en comparaci´ on a los errores muestrales. 85. (Verdadero o Falso con justificaci´ on) Al incorp orar m´as etapas al dise˜ no de muestreo se puede perder el insesgamiento del estimador puntual lineal. 86. (Verdadero o Falso con justificaci´ on) Siempre que la poblaci´ on es mucho m´ as grande, la muestra tiene que ser mucho m´ as grande. 87. (Verdadero o Falso con justificaci´ on) Siempre que se quiera mejorar la precisi´ on en una etapa espec´ıfica de muestreo se sugiere disminuir el n´ umero de unidades muestrales correspondientes a esa etapa. 88. (Verdadero o Falso con justificaci´ on) Se necesitan al menos tanta cantidad de estratos como cantidad de dominios de estudio tengo planeados. 89. (Verdadero o Falso) Si censamos una poblaci´ on de elementos tenemos una fracci´ on de muestreo de 1. 90. (Verdadero o Falso con justificaci´ on) De acuerdo a la teor´ıa vista en el curso. El total de elementos en mi poblaci´ on a los que les asigno probabilidad π k = 1 no puede ser mayor al tama˜no de muestra n . 91. (Verdadero o Falso con justificaci´ on) Si sumamos las probabilidades de inclusi´ on de los elementos en toda mi poblaci´ on obtenemos exactamente el valor n . 92. (Verdadero o Falso con justificaci´ on) Cuando usamos muestreo aleatorio simple no podemos asumir el gran supuesto estad´ıstico de tener observaciones independientes id´ enticamente distribuidas. 93. (Verdadero o Falso con justificaci´ on) Siempre que la poblaci´ on es m´ as chica mejora la precisi´ on de mis c´alculos. 94. (Verdadero o Falso con justificaci´ on) Por su definici´ on, ∆kl es la correlaci´ on de las indicadoras de inclusi´ on muestral de los elementos k y l . 95. (Verdadero o Falso con justificaci´ on) Un par´ ametro tiene variabilidad y esta se mide por la varianza de ´este, pero para calcular su varianza se requiere de toda la informaci´ on de la poblaci´ on. 96. (Verdadero o Falso con justificaci´ on) Cuand o alcanzo cierto error est´ andar en mis estimaciones globales, si quiero dar resultados por sub-poblaciones, dominios o cruces, estos tendr´ an un error est´ andar m´as grande.
Departamento de Estad´ıstica
250
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
97. (Verdadero o Falso con justificaci´ on) Las probabilidades de inclusi´ on de primer orden son iguales a las probabilidades de inclusi´ on conjuntas si trabajamos con un dise˜ no de muestreo aleatorio simple. 98. (Verdadero o Falso con justificaci´ on) Las probabilidades de inclusi´ on de primer orden son iguales a las probabilidades de inclusi´ on conjuntas si trabajamos con un dise˜ no de muestreo Bernoulli. 99. (Verdadero o Falso con justificaci´ on) Siempre que se quiera mejorar la precisi´ on en un dise˜ n o de muestreo se sugiere estratificar. 100. (Verdadero o Falso con justificaci´ on) La varianza del estimador de un par´ ametro en un muestreo estratificado aleatorio simple es casi siempre menor que la varianza si no hay estratos y se utiliz´ o un muestreo aleatorio simple. 101. (Verdadero o Falso con justificaci´ on) Siempre se disminuye la varianza del estimador si se aumenta el tama˜ no de muestra en un dise˜ no SI. 102. (Verdadero o Falso con justificaci´ on) De acuerdo al curso. No es posible asignar probabilidades de inclusi´ on 1 a algunos elementos en el marco muestral p orque no estar´ıamos haciendo muestreo probabil´ıstico. 103. (Verdadero o Falso con justificaci´ on) Si estratificamos un dise˜ no de muestreo (sin importar si es un dise˜ no de muestreo de m´ as de una etapa), ´esta puede hacer perder al estimador lineal su insesgamiento. 104. (Verdadero o Falso con justificaci´ on) No es posible tener tama˜ n o de muestra 1 en un estrato, aun cuando su tama˜ no poblacional sea 1. 105. (Verdadero o Falso con justificaci´ on) No existen restricciones en el tama˜no de muestra asignado a los estratos cuando se incorpora una estratificaci´ on al dise˜ no de muestreo utilizado. 106. (Verdadero o Falso con justificaci´ on) En un muestreo en varias etapas. No es posible utilizar la muestra de la etapa anterior como poblaci´ on para extraer muestras en la etapa siguiente. 107. (Ejercicio algebraico) Vimos en clase (y usted demostr´ o como tarea opcional) que: no de muestreo p(s) arbitrario, y para k, l = 1, . . . , N , Resultado 5.3.1.1 Para un dise˜ E (I k )
=
πk
V (I k )
=
πk (1 − πk )
C (I k , I l )
=
πkl − πk πl = ∆kl
def
Sea n s el tama˜ no de muestra para cualquier dise˜ no de muestreo, tenemos que ´este puede expresarse en t´ erminos de las ind icadoras de inclusi´ on muestral I k como: n s = U I k .
(a) Calcule: E (ns )
Departamento de Estad´ıstica
251
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
(b) Sabiendo que: V
I k
=
U
C (I k , I )
k∈U ∈U
Complete la expresi´ on para V (ns ), rellenando las siguientes expresiones: V (ns )
=
πk (1 − πk ) +
U
−
=
πk
U
(... trabajo en curso)
Departamento de Estad´ıstica
252
2
+
´Indice alfab´etico
W h , 156 πkl , 83 πk , 82
tablas de frecuencia, 17 para variables cuantitativas, 19 diagramas de punto, 19 diagramas de tallo y hojas, 20 afijaci´on, asignaci´on o distribuci´o n de frecuencias de variables continuas, muestra, 161 22 distribuci´on ´optima, 166 frecuencias de variables discretas, distribuci´on de Neyman, 167 21 distribuci´on proporcional, 168 histogramas, 22 distribuciones alternativas, 168 Tukey, 13 ajuste de tama˜n o de muestra por no ap´endices, 204 respuesta, 142 an´alisis exploratorio de datos, 2, 12, 13 coeficiente de variaci´on, 109 EDA, 13 estimado, 110 historia, 13 coeficiente de variaci´on estimado, 110 objetivo, 15 conglomeraci´ on, 170 para variables cualitativas, 17 bi-et´ apico, 175 diagramas circulares, 18 biet´apico, 189 diagramas de barras, 18 de elementos, 193 diagramas de pastel, 18 biet´apido 253
Emilio L´ opez Escobar
EST-24104: Estad´ıstica Aplicada I
varianza, 195 diagramas de tallo y hojas, 20 coeficiente de homogeneidad, 186 frecuencias de variables continuas, estimaci´ on de totales y medias, 177 22 muestreo por conglomerados, 174 frecuencias de variables discretas, multi-et´apico, 176 21 SIC, 185 histogramas, 22 uniet´apico, 179 efecto de dise˜no, 126 uniet´apico aleatorio simple, 185 efecto de dise˜no estimado, 126 utilidad, 172 ejercicios, 241 CV, 109 exploratorio de datos, 241, 245 encuesta, 60 datos, 4 elementos, 57 cualitativos, 7 dominios de estudio, 57 cuantitativos, 7 marco muestral, 57 definiciones, 4 error cuadr´atico medio, 105 tipos, 6 error est´andar, 109 Deff, 126, 141 error est´andar relativo, 109 deff, 126, 142 escalas, 4 distribuciones de probabilidad de medici´on, 9 relaci´on, 204 Estad´ıstica dominios de estudio, 57 definici´ on, 3 partes o subdivisiones, 3 EDA, 13 Estad´ıstica aplicada, 2 objetivo, 15 introducci´on, 2 para variables cualitativas, 17 estad´ısticos descriptivos diagramas circulares, 18 medidas de dispersi´on, 31 diagramas de barras, 18 amplitud, 31 diagramas de pastel, 18 amplitud intercuart´ılica, 31 tablas de frecuencia, 17 coeficiente de variaci´on, 33 para variables cuantitativas, 19 rango, 31 diagramas de punto, 19
Departamento de Estad´ıstica
254
Emilio L´ opez Escobar
varianza muestral, 32 varianza poblacional, 32 medidas de posici´on percentiles, 28 medidas de tendencia central, 24 media, 25, 30 mediana, 27 estimaci´ on, 106 estimador, 98 π, 111 dise˜no BE, 122 dise˜no SI, 124 comunes, 99 de expansi´on simple, 112 definici´on, 99 distribuci´on muestral, 101 error cuadr´atico medio, 105 esperanza, 103 Horvitz-Thompson, 111 dise˜no BE, 122 dise˜no SI, 124 MSE, 105 Narain-Horvitz-Thompson, 111 dise˜no BE, 122 dise˜no SI, 124 notaci´on, 100 propiedades, 103 sesgo, 105 varianza, 103 estratificaci´ on, 144
EST-24104: Estad´ıstica Aplicada I
afijaci´on de muestra, 161 distribuci´ on ´optima, 166 distribuci´ on de Neyman, 167 distribuci´ on proporcional, 168 distribuciones alternativas, 168 asignaci´ on de muestra, 161 distribuci´ on ´optima, 166 distribuci´ on de Neyman, 167 distribuci´ on proporcional, 168 distribuciones alternativas, 168 de qu´e se trata, 145 dise˜no aleatorio simple estratificado, 158 distribuci´ on de muestra, 161 la buena, 149 n´umero de estratos, 151 peor de los casos, 148 STSI, 158 tama˜no relativo del estrato, 156 utilidad y usos, 146 expansi´ on π, 112 fracci´on de muestreo, 124 funci´on dise˜no de muestreo, 66, 79 definici´ on, 79 funciones indicadoras, 82 Horvitz-Thompson, 114 indicadoras de inclusi´on muestral, 82 introducci´on al muestreo, 42 marco muestral, 55
Departamento de Estad´ıstica
255
Emilio L´ opez Escobar
definici´on, 55 errores, 56 informaci´on adicional, 56 problemas, 56 media, 78 interpretaci´ on geom´etrica, 30 medidas de dispersi´on, 31 amplitud, 31 amplitud intercuart´ılica, 31 coeficiente de variaci´on, 33 rango, 31 varianza muestral, 32 varianza poblacional, 32 medidas de posici´on percentiles, 28 medidas de tendencia central, 24 media, 25 interpretaci´ on geom´etrica, 30 mediana, 27 MSE, 105 muestreo aleatorio simple estratificado, 158 bi-et´apico, 175 biet´apico, 189 de elementos, 193 biet´apido varianza, 195 coeficiente de homogeneidad, 186 Deff, 127, 141
Departamento de Estad´ıstica
EST-24104: Estad´ıstica Aplicada I
deff, 127, 142 efecto de dise˜no, 141 elementos t´ecnicos, 62 esquema 1 etapa, 68 2 etapas, 75 3 etapas, 72 fracci´on de muestreo, 124 introducci´on, 42 multi-et´apico, 176 no respuesta, 142 objetivo, 43, 44 por conglomerados, 174 principio de expansi´on, 112 probabil´ıstico, 64 SIC, 185 STSI, 158 uniet´apico, 179 uniet´apico aleatorio simple, 185 muestreo probabil´ıstico, 64 condiciones, 65 elementos, 65 ventajas, 73 niveles de escala de medici´on, 9 par´ametro, 99 definici´ on, 99 media poblacional, 100 total poblacional, 99 percentiles, 28 256