¿Qué tamaño de muestra necesito? La forma en que mido el error
Cuando quiero fijar el máximo error que estoy dispuesto a aceptar en una encuesta, lo habitual es referirnos a dos parámetros: el margen de error y el nivel de confianza. ¿Qué significa cada cosa !l margen de error es el inter"alo en el cuál espero encontrar el dato que quiero medir de mi uni"erso. !l dato puede ser en general de dos tipos: una media o una proporci#n. $or ejemplo, ejemplo, si quiero calcular calcular la media de hijos que tienen los habitantes habitantes de %rasil entre &' y (' a)os, me gustar*a poder decir que la media es +,& hijospersona hijospersona con un margen de error del '-. !so significar*a que espero que la media esté entre +,& '- y +,& / '-, lo que da un inter"alo de +,00 123 +,+&. 4i quis quisie iera ra defi defini nirr un marg margen en de erro errorr para para un unaa proporción, proce procede der*a r*a de forma forma similar. $or ejemplo, me gustar*a poder estimar el n5mero de personas de %rasil entre &' y (' a)os que "i"en en un piso de propiedad, afirmando que son un total de (&.6' millones personas 78'- de la poblaci#n9 con un margen del '- de error, lo que significar*a que la realidad está entre ( millones 7'0-9 y '8,' millones 780-9. !l nivel de confianza expresa la certe;a de que realmente el dato que buscamos esté dentro del margen de error. $or ejemplo, siguiendo con el caso anterior, si obtenemos un ni"el de confian;a del <'-, podr*amos decir que el porcentaje de personas de mi uni"erso que "i"en en un piso de propiedad, en el <'- de los casos se encontrará entre el 80- y el '0-. = dicho de otra manera, si repitiese &00 "eces mi encuesta seleccionando muestras aleatorias del mismo tama)o, <' "eces la proporci#n que busco estar*a dentro del inter"alo y ' "eces fuera. Relación entre error y tamaño de muestra
>argen de error, ni"el de confian;a y tama)o de la muestra siempre "an de la mano. 4i quiero obtener un margen de error y un ni"el de confian;a determinado 7por ejemplo, error del '- con confian;a <'-9 necesitaré un tama)o de muestra m*nimo correspondiente. >odificar cualquiera de los 6 parámetros, altera los restantes: &. ?educir el margen de error obliga a aumentar el tama)o de la muestra. +. @umentar el ni"el de confian;a obliga a aumentar el tama)o de la muestra. 6. 4i aumenta aumenta el tama)o de mi muestra, puedo reducir el margen de error o incrementar el ni"el de confian;a. $ero, ¿qué f#rmulas gobiernan la relaci#n entre los parámetros anteriores !l conjunto de teoremas que se conocen como A!B ! A=4 D?@E!4 EF>!?=4 "iene a nuestro
rescate. !stos teoremas son los que dan soporte matemático a la idea de que el promedio de una muestra al a;ar de una poblaci#n de gran tama)o tenderá a estar cerca de la media de la poblaci#n completa. !n concreto, el teorema del límite central demuestra que, en condiciones muy generales, la suma de muchas "ariables aleatorias independientes 7en el ejemplo, los habitantes de %rasil que tienen piso de propiedad9 Gse aproxima bienH a una distribuci#n normal 7también llamada campana de Gauss9. Dracias al teorema del l*mite central, cuando calculamos una media 7p.e. hijos por persona9 o una proporci#n 7p.e. - de personas con piso de propiedad9 sobre una muestra, podemos saber cuál es la probabilidad de que el uni"erso tenga ese mismo "alor o un "alor parecido. !l "alor que calculemos en la muestra será el más probable para nuestro uni"erso y a medida que nos alejamos de este "alor 7por arriba o por abajo9 cada "e; serán "alores menos probables. !n mi ejemplo, si el 8'- de mi muestra de brasile)os tiene piso de propiedad, puedo afirmar que 8'- es el "alor más probable del uni"erso estudiado. In porcentaje de 88- será algo menos probable, 86- a5n menos, etcJ Ao mismo sucede para "alores superiores: 8(- es menos probable que 8'-. Aa forma en que disminuye la probabilidad a medida que me alejo de la media corresponde a una distribuci#n gaussiana. $odemos fijar un inter"alo alrededor del "alor más probable, de manera que englobemos el <'- de la probabilidad 7ni"el de confian;a9. Aa distancia a la que me tengo que alejar del "alor más probable para englobar este <'- determina el margen de error.
4eg5n el gráfico anterior, para una distribuci#n normali;ada 7media 0, des"iaci#n &9 si queremos englobar los "alores que cubren el <'- de los casos, tengo que definir un margen de error entre 2&,<( y /&,<( de la media. 4i quiero cubrir el <<- de los casos, el margen debe alejarse hasta /2+,'.
Conociendo la propiedad anterior, es muy fácil adaptar las f#rmulas de la distribuci#n gaussiana a cualquier caso 7sea cuál sea la media y des"iaci#n9. Kamos a "er con detalle el caso de la estimaci#n de una proporci#n. $ara ello usamos la siguiente f#rmula:
onde: n L !l tama)o de la muestra que queremos calcular N L Mama)o del uni"erso 7p.e. &6( millones de brasile)os entre &' y (' a)os9 L
!s la des"iaci#n del "alor medio que aceptamos para lograr el ni"el de confian;a deseado. !n funci#n del ni"el de confian;a que busquemos, usaremos un "alor determinado que "iene dado por la forma que tiene la distribuci#n de Dauss. Aos "alores más frecuentes son: Ei"el de confian;a <0- 23 NL&,(8' Ei"el de confian;a <'- 23 NL&,<( Ei"el de confian;a <<- 23 NL+,'O' e L !s el margen de error máximo que admito 7p.e. '-9 p L
!s la proporci#n que esperamos encontrar. !ste parámetro suele confundir bastante a primera "ista: ¿c#mo "oy a saber qué proporci#n espero, si justamente estamos haciendo una encuesta para conocer esta proporci#n Aa ra;#n de que esta p apare;ca en la f#rmula es que cuando una poblaci#n es muy uniforme, la con"ergencia a una poblaci#n normal es más precisa, lo que permite reducir el tama)o de muestra. 4i en mi ejemplo, yo espero que como máximo el - de personas que tengan un piso de propiedad sea un '-, podr*a usar este "alor como p y el tama)o de mi muestra se reducir*a. 4i por el contrario, descono;co completamente qué puedo esperar, la opci#n más prudente ser*a usar el peor caso: la poblaci#n se distribuye a partes iguales entre propietarios y no propietarios, por lo que pL'0-. Como regla general, usaremos pL'0- si no tengo ninguna informaci#n sobre el "alor que espero encontrar. 4i tengo alguna informaci#n, usaré el "alor aproximado que espero 7ajustando hacia el '0- ante la duda9.
Aa f#rmula anterior podemos simplificarla cuando trabajamos con uni"ersos de tama)o muy grande 7se considera muy grande a partir de &00.000 indi"iduos9, resultando lo siguiente:
Ejemplo: Retomamos nuestro caso anterior. Tenemos una población de 136 millones de brasileños entre 15 y 65 años, ueremos saber u! " de ellos #i#e en un piso de propiedad, con un mar$en de error del 5" y un ni#el de con%ian&a del '5". (upondremos ue no tenemos nin$una in%ormación pre#ia sobre cu)l puede ser el " de propietarios ue podemos obtener en la encuesta. En este caso puedo usar la %órmula simpli%icada pues 136 millones * 1++.+++, y usaremos p5+" pues no ten$o in%ormación pre#ia sobre el resultado esperado: n 1,'6 - +,5 /1 0 +,5 2 +,+5- 34,16 * 385
ebo encuestar por lo tanto a 68 personas para mantenerme dentro de los ni"eles de error definidos. 4i a ra*; de un estudio reali;ado el a)o anterior obtu"imos que el - de brasile)os propietarios de su "i"ienda era del +0-, y se espera que el dato de este a)o no haya "ariado en más de ' puntos 7entre &'- y +'-9, podr*amos reempla;ar p por el peor caso esperado L +'-. !l resultado ser*a: n 1,'6 - +,-5 /1 0 +,-5 2 +,+5- -,1- * 289
! si estoy tratando de estimar una media
Aas f#rmulas anteriores se emplean para determinar el tama)o de muestra que necesito cuando quiero estimar una proporci#n, pero existen unas f#rmulas equi"alentes cuando lo que trato de estimar es una media 7por ejemplo, la edad media de los habitantes de un pa*s9. Aas f#rmulas son idénticas teniendo en cuenta que p"p#$% en realidad es una medida de la "arian;a de la poblaci#n. 4i estimo una media, debo usar una estimaci#n de dicha "arian;a en la f#rmula, en lugar de p"p#$%. e esta forma, el tama)o de la muestra cuando trabajo con uni"ersos finitos es
onde: 2
: Es la varianza que esperamos encontrar en la población (es el cuadrado de la desviación estándar, σ). Nuevamente, es un dato que debemos obtener de un estudio previo o de una estimación propia. σ
Eue"amente, podemos simplificar esta f#rmula cuando el tama)o del uni"erso es muy grande.
Ejemplo: (upon$amos ue ueremos estimar cual es el coe%iciente intelectual medio de la población mundial con un mar$en de error de -+ y un ni#el de con%ian&a del ''" /corresponde a 7-,585. (abemos de un estudio anterior ue la des#iación est)ndar de este coe%iciente intelectual es 5+. 9sando la %órmula para uni#ersos $randes /puesto ue la población mundial es mayor a 1++.+++ indi#iduos, tendramos n -,585- 5+- 2 -+- 41,44 * 42
Aos "alores de 7 ; más utili;ados y sus ni"eles de confian;a son: Kalor de 7 ; Ei"el de confian;a
&,&' O'-
&,+ 0-
&,88 '-
&,(' <0-
&,<( <'-
+,+8
+,' <<-
7$or tanto si pretendemos obtener un ni"el de confian;a del <'- necesitamos poner en la f#rmula 7 ;1.'6 9 e: es el error muestral deseado, en tanto por ciento. !l error muestral es la diferencia que puede haber entre el resultado que obtenemos preguntando a una muestra de la poblaci#n y el que obtendr*amos si preguntáramos al total de ella. !jemplos:
!jemplo &: si los resultados de una encuesta dicen que &00 personas comprar*an un producto y tenemos un error muestral del '- comprarán entre <' y &0' personas. !jemplo +: si hacemos una encuesta de satisfacci#n a los empleados con un error muestral del 6- y el (0- de los encuestados se muestran satisfechos significa que entre el 'O- y el (6- 7(0- /2 6-9 del total de los empleados de la empresa lo estarán. !jemplo 6: si los resultados de una encuesta electoral indicaran que un partido iba a obtener el ''- de los "otos y el error estimado fuera del 6-, se estima que el porcentaje real de "otos estará en el inter"alo '+2'- 7''- /2 6-9.