ESTADÍSTICA
INFERENCIA ESTA ESTADÍSTICA DÍSTICA INTRODUCCIÓN. El empleo de encuestas es uno de los métodos de investigación más utilizados en la actualidad. La realidad, en continuo cambio y con muchísimas opciones diferentes, diferentes, es muy difícil de abarcar en su totalidad. Por este motivo se hace necesario seleccionar seleccionar una parte lo más peue!a posible, pero representativa del total, en la ue sea posible medir las carac caracter teríst ística icass desea deseadas das.. Esta Esta necesi necesida dadd ha obliga obligado do a crear crear un instru instrume mento nto matemático ue llamamos muestreo. Las muestras ue se eli"an para hacer un estudio deben ser lo más peue!as posible por e#igencias de tiempo y coste. $demás, el aumento del n%mero de datos no siempre acarrea una mayor certeza, ya ue más importante ue escoger muchos datos es ue los datos estén bien seleccionados, con el fin de ue sean representativos de la población ue se desea estudiar. estudiar. &e verá como el azar "uega un papel importante en la elección de la muestra para ue ésta sea representativa. En este tema estudiaremos dos parámetros de una población' la media de una determinada característica numérica y la proporción o porcenta"e de la población ue comparte un determinado rasgo com%n. La inferencia estadística se basa en resultados de la teoría de la probabilidad, los cuales nos aseguran, ue al estudiar la media o la proporción de muestras, tomadas adecuadamente en la población, estas características serán muy similares a las de la población total. El método de inferencia estadística hace estimaciones de lo ue ocurre en toda la población estudiando lo ue ocurre en una parte de la misma (la muestra). *omo se pretende sacar conclusiones sobre el total de la población a partir de una muestra de la misma, estas conclusiones estarán su"etas a error. La teoría de la probabilidad permite también acompa!ar a la estimación muestral de una media o de una proporción, en una población, de la probabilidad de ue el error cometido no e#ceda de un determinado valor, o del riesgo (probabilidad de euivocación) ue se corre al aceptar o al rechazar una hipótesis sobre los valores de la media o de la proporción de la población. $horaa bien $hor bien,, la infe infere renc ncia ia se hace hace a part partir ir de mues muestr tras as ue ue debe debenn esta estar r debidamente escogidas. Por esta razón trataremos previamente a los métodos de la inferencia, las técnicas de muestreo, es decir, las diversas formas de poder seleccionar una muestra ue sea adecuada para realizar las inferencias, controlando el posible error. Para traba"ar este tema se necesita el mane"o de los n%meros combinatorios como herramienta de cálculo y el conocimiento y uso de la distribución normal y sus propiedades. +inalmente, insistir en la importancia de la inferencia estadística como disciplina fundamental en todas las áreas científicas, tanto naturales como sociales.
Inferencia estadística.
1
ESTADÍSTICA
POBLACIÓN Y MUESTRA. En el campo de la Estadística el concepto de población se encuentra pró#imo a la noción general de grupo o con"unto. Definición.
POBLACIÓN. &e llama población o univ!"o a cualu cualuier ier con con"un "unto, to, colec colectiv tivoo o colección finita o infinita de individuos o elementos. na población puede ser, no sólo un con"unto de personas, sino también un con"unto de animales, ob"etos, fenómenos f enómenos,, medidas, ..... Ejemplo: &i pasamos un test a todos los alumnos espa!oles de una determinada edad, los resultados obtenidos constituyen una población de medidas de la capacidad a la ue se derige el test. Definición.
CENSO. &e da el nombre bre de cn"o a la enumeración y anotación de ciertas características de todos los elementos de una población. Ejemplo: El profesor-tutor de un grupo de un instituto realiza un listado de los alumnosas de su tutoría, en la incluye, nombre y apellidos, nombre de los padres, domicilio, teléfono, n%mero de hermanos hermanos y asignaturas pendientes pendientes del curso anterior. anterior. Este sería un e"emplo de censo de la población formada por el alumnado del grupo en cuestión.
Las poblaciones en Estadística pueden ser finitas o infinitas. na población es finita cuando consta de un n%mero limitado de unidades, y una población es infinita cuando su tama!o es indefinidamente grande. Ejemplo: - &i consideramos el n%mero de hermanos ue tienen los alumnosas de un curso de un instituto determinado, estaríamos hablando de una población finita. /abría tantos valores como alumnosas haya en dicho curso. - &i obtenemos una serie de medidas del tiempo ue tarda un alumno en resolver una división de dos cifras, estas medidas pueden consideradas parte de un con"unto mucho mayor, de tama!o indefinidamente grande, constituido por todas las medidas ue obtendríamos si repitiésemos la e#periencia una y otra vez. - &upongamos ue se lanza un dado en reiteradas ocasiones, y anotamos el valor de la cara superior. 0al e#periencia puede ser repetidamente hasta el infinito, por lo ue cualuier con"unto de resultados podría ser considerado una parte e#traída de una población indefinidamente indefinidamente grande. En defi defini niti tiva va,, con con frecu frecuen enci cia, a, las las pobl poblac acio ione ness en Esta Estadí díst stic icaa suel suelen en ser ser consideradas infinitas.
Inferencia estadística.
#
ESTADÍSTICA El gran tama!o ue presentan algunas poblaciones es precisamente la principal razón ue hace recomendable reducir su estudio a muestras obtenidas de ellas. Definición.
MUESTRA. &e defi define ne $u"%!a como una parte o subcon"unto de una población, debidamente elegida, ue se somete a observación científica en representación de la misma, con el propósito de obtener resultados válidos para el total de la población. Para ue una muestra se considere válida debe cumplir ue' • • •
&u tama!o sea proporcional al tama!o de la población. 1o haya distorsión distorsión en la elección elección de los elementos elementos de la muestra. muestra. &ea representativa r epresentativa..
n estudi estudioo e#hau e#hausti stivo vo cuy cuyos os datos datos se utiliz utilizan an para para multit multitud ud de traba" traba"os os e investigaciones es el *enso de Población. 2euiere un gran esfuerzo tanto económico como de medios y en él se recaba información de todos los habitantes de un país. &in embargo, para el conocimiento de algunas características de la población, se utilizan métodos alternativos ue reducen el costo y el tiempo. Los modelos reducidos de la población, constituidos por las muestras, tienen como finalidad obtener resultados ue puedan ser aplicables aplicables (e#trapolables) (e#trapolables) a la población. población. Las principales razones ue inducen a tomar muestras son' El coste temporal. Estudiar una población de tama!o considerable e#ige una dedicación de tiempo ue retrasaría enormemente las investigaciones en marcha y prolongaría en e#ceso la realización de los estudios. $ veces, esto %ltimo podría entrar además en conflicto con el carácter vivo, cambiante, en cont contin inua ua evol evoluc ució iónn de las las real realid idad ades es ue ue ocup ocupan an el inte interé réss de los los investigadores en el campo de las ciencias sociales, cuyo estudio desde una perspectiva sincrónica, reuiere la concreción en segmentos temporales limitados. Por e"emplo, si ueremos saber cómo ha afectado a la intención de voto de los espa!oles determinadas declaraciones de un destacado líder político no disponemos de un tiempo indefinido, porue otros hechos o decla declarac racion iones es poster posterior iores es influi influiría ríann en las opinio opinione ness y tenden tendencia ciass de la población. En este caso, sería necesario recurrir a un muestreo ue permita abordar el estudio con un ba"o coste temporal. b) El coste económ económico ico.. La inversió inversiónn en recurso recursoss tempor temporale aless y human humanos os necesaria para abordar algunos problemas de investigación sería elevada si pretendiéramos pretendiéramos abarcar a la población. La recogida de los datos ue posteriormente van a ser analizados estadísticamente estadísticamente reuiere desplegar estrategias ue e#igen disponer de recursos. El envío de cuestionarios por correo, la realización de entrevistas por parte de personas especializadas, el desplazamiento de observadores a los lugares estudiados, etc., suponen un coste económico ue ueda reducido si nos limitamos al estudio de una muestra e#traída de la población. a)
Inferencia estadística.
&
ESTADÍSTICA El impacto sobre la realidad estudiada. *uando el estudio realizado pudiera provocar efectos en los su"etos, parece adecuado limitar la realización de e#pe e#perim rimen ento toss a ámbi ámbito toss redu reduci cido dos. s. Por Por e"em e"empl plo, o, la medi medici ción ón de los los resultados de un nuevo método de aprendiza"e de la lectura habría de hacerse sobre un n%mero reducido de alumnos, sin e#tender a toda la población la nueva metodología hasta no confirmar los resultados positivos de la misma. d) na población homogénea. &i la población es homogénea se pueden obtener muy buenos resultados a partir de cualuier muestra. e) La falta de personal. &i no se dispone de suficiente personal preparado para llevar a cabo un estudio e#haustivo, también resulta aconse"ables hacer un muestreo. c)
Por otro lado, el uso del muestreo presenta limitaciones, entre estas destacamos' destacamos' a) b) c) d)
El riesgo riesgo ue supone supone la toma toma de una muestra muestra ue pueda pueda no ser represe representati ntativa. va. *uando es necesaria información información de todos los elementos de la población. población. *uando *uando no se domina domina bien bien la técnica técnica de de muestreo muestreo.. *uan uando la pobl poblaación ión esté sté form formad adaa por un n%me %mero muy peue ue!o de elementos, ya ue una ligera euivocación en la toma de la muestra puede originar grandes errores.
Para el investigador tienen especial interés las muestras en la medida en ue permiten generalizar los resultados de un estudio a las poblaciones de las ue fueron e#traídas. Para ue ello sea posible es necesario ue el muestreo se realice siguiendo determinados procedimientos ue garanticen la representatividad de la muestra y, por tanto, las posibilidades de generalización. generalización.
PAR'METRO Y ESTIMADOR DE UN PAR'METRO. La Estadística 3escriptiva se ocupa del estudio de series de puntuaciones, para las cuales se calculan las medias, varianza, desviación típica, etc. Definición.
PAR'METRO. &e denom nomina ina pa!($%!o a todo todo valo valorr ue ue sirv sirvaa para para desc descri ribi birr un con"unto de datos. Ejemplo: &upongamos ue tenemos la estatura, medida en centímetros, de un grupo de diez "óvenes' 4567, 568, 597, 56:, 569, 5;<, 569, 5=:, 567, 569>. La estatura media es de 56= centímetros y la desviación típica es (apro#imadamente) de 6.: centímetros. La media y la desviación típica son valores ue describen al con"unto de estaturas, y serían e"emplos de parámetros.
En cambio, en la Estadística ?nferencial se estudian con"untos de puntuaciones, las muestras, con el fin de generalizar los resultados a con"untos de puntuaciones más amplios, las poblaciones, de las ue fueron e#traídos.
Inferencia estadística.
)
ESTADÍSTICA Definición.
ESTAD*STICO Y ESTIMADOR DE UN ESTAD*STICO. Los valores ue describen a las poblaciones recibirán el nombre de pa!($%!o" o "%a+,"%ico", mientras ue las medidas ue describen el comportamiento de una muestra se denomina "%i$a+o! +l pa!($%!o o "%i$a+o! +l "%a+,"%ico . Ejemplo: $ partir del valor alcanzado por la media en una muestra podríamos intentar estimar el valor de la media de en la población. $sí, si los diez "óvenes del e"emplo anterior son alumnosas elegidos al azar de una escuela de baloncesto, intentaríamos deducir la estatura media de los integrantes de dicha escuela, tomando como referencia los 56= centímetros obtenidos.
TIPOS DE MUESTREO. Definición.
MUESTREO. &e llama $u"%!o al procedimiento mediante el cual elegimos a las unidades estadísticas ue forman la muestra, dentro del con"unto ue constituye la población. 3iremos ue el muestreo es p!obabil,"%ico cuando todos los elementos de la población poseen un probabilidad conocida (o calculada de antemano), no nula, de ser elegidos para formar parte de la muestra. &e contrapone al llamado muestreo no p!obabil,"%ico , en el ue, o bien no se conoce la probabilidad de ue los elementos de la población sean seleccionados para la muestra, o bien para parte de ellos esta probabilidad es nula y, por tanto, no es posible llevar a cabo inferencias estadísticas. Lógicamente, el muestreo ue se encuentra en la base de la mayoría de los métodos de la Estadística ?nferencial es el muestreo probabilístico. Para llevarlo a cabo es necesario ue la selección pueda considerarse como una prueba o e#perimento aleatorio o de azar, de los ue constituyen la base de la teoría de la probabilidad en la cual se fundamenta la estadística matemática. Las generalizaciones de resultados, a partir del estudio de muestras e#traídas mediante procedimientos de muestreo no probabilístico, nos impiden conocer el margen de error con el ue hacemos las generalizaciones a la población. En cambio, el muestreo probabilítico permite hacer inferencias sobre la población, y gracias a los procedimientos de la Estadística ?nferencial podemos conocer el error con el ue se realizan las generalizaciones. En las páginas siguientes, se describen muestreos probabilísticos (muestreo aleatorio con y sin reposición, muestreo aleatorio sistemático, muestreo estratificado, muestreo por conglomerados, muestreo polietápico) y muestreos no probabilíticos (muestreo intencional, por cuotas, incidental y accidental), pero antes incluiremos dos
Inferencia estadística.
-
ESTADÍSTICA conceptos ue aparecen al referirnos al muestreo' factor o coeficiente de elevación y fracción de muestreo. Definiciones.
ACTOR DE ELE/ACIÓN. &e denomina 0ac%o! o co0icin% + lvación al cociente entre el tama!o de la población y el tama!o de la muestra,
N n
. 2epresenta el n%mero
de elementos ue hay en la población por cada elemento de la muestra.
RACCIÓN DE MUESTREO. &e denomina 0!acción + $u"%!o al cociente entre el tama!o de la muestra y el tama!o de la población,
n N
. &i se multiplica por 577, representa el
porcenta"e de la población ue representa la muestra.
A MUESTREOS PROBABIL*STICOS. Mu"%!o ala%o!io "i$pl con 2 "in !po"ición. &e denomina muestreo aleatorio simple a auel en ue todos los elementos de la población tienen la misma probabilidad de formar parte de la muestra y ésta es determinada %nicamente por el azar. &e trata de un tipo de muestreo probabilístico ue permite con facilidad llevar a cabo inferencias estadísticas y calcular la probabilidad de error asociada a las mismas. *oncretando, el muestreo aleatorio simple consiste en seleccionar n elementos con o sin reemplazamiento de entre los N elementos ue componen la población, de tal modo ue todas las muestras de tama!o n ue se puedan formar tengan la misma probabilidad de ser elegidas. &i la muestra se selecciona sin reemplazamiento (es decir, cuando un elemento ha sido e#traído ueda descartado de cara a la siguiente e#tracción) se habla de $u"%!o ala%o!io "in !po"ición , también llamado $u"%!o i!!"%!ic%a$n% ala%o!io. &i la muestra se selecciona con reemplazamiento (es decir, el elemento elegido en cada e#tracción vuelve a ser incluido en la población antes de e#traer el siguiente elemento) se habla de $u"%!o ala%o!io con !po"ición , también llamado generalmente $u"%!o ala%o!io "i$pl . &i bien los dos métodos son distintos, cuando el tama!o de la población es infinito o tan grande ue pueda considerarse como infinito, ambos métodos llegan a las mismas conclusiones. &i la fracción de muestreo
n N
es mayor de 7.5 (se muestrea más
del 57 @ de la población) la diferencia entre ambos métodos puede ser apreciable, llegando a conclusiones contradictorias seg%n se apliue un método u otro. Ejemplo:
Inferencia estadística.
3
ESTADÍSTICA En el muestreo aleatorio sin reposición, el n%mero de muestras de tama!o n ue
N n
se pueden formar es'
, y, por tanto, la probabilidad de elegir una muestra
( −)
5 N n A nAB
p= = determinada es' N N A .
n
La probabilidad de ue un elemento determinado de la población forme parte de la muestra viene dada por
p =
n N
.
En efecto'
N −5
casosfavorables n−5 N( −5) NAB( −n)A nAB n p = = = = casosposibles N N( −n)AB(n−5 N)A AB N n .
En la práctica el procedimiento de muestreo aleatorio consiste en e#traer al azar los elementos ue constituyen la muestra, obteniendo la muestra unidad a unidad. Para
Inferencia estadística.
4
ESTADÍSTICA ello, si la población es finita, se enumeran los elementos de la población desde 5 hasta N , y se e#traen a continuación n elementos usando una urna o un bombo. Este procedimiento, aunue sencillo, reuiere tener unos medios materiales' un bombo o una urna, papeles numerados o bolas numeradas, etc., por lo ue se suelen utilizar otras alternativas como las tablas de n%meros aleatorios o la generación de n%meros aleatorios con la calculadora. Las tablas de n%meros aleatorios son tablas de n%meros colocados de tal forma ue no e#ista ninguna relación entre ellos sea cual sea el sentido en ue los leamos. $l final de los contenidos teóricos de este tema aparece una tabla de n%meros aleatorios. Ejemplo: &i en una población de 9C< individuos deseamos e#traer una muestra de <8, asignaríamos un n%mero a cada uno de los 9C< elementos de la población. Para determinar los <8 elementos de la muestra, marcaríamos un n%mero en la tabla de n%meros aleatorios al azar y a partir de éste leeríamos en dicha tabla n%meros de tres dígitos en cualuier dirección, desestimando los ue superen 9C<.
0ambién podríamos encontrar estos <8 n%meros generando n%meros de forma aleatoria con la calculadora. $sí' - *on la calculadora 0e#as ?nstruments 0?-;8, utilizando la orden Drand(9C<), obtendríamos n%meros entre 5 y 9C<. - *on la calculadora *$&?F fx-597P, debemos utilizar la sucesión de teclas, D?1G D(B) 2$1, y descartamos los n%meros ue superen 9C<.
Mu"%!o ala%o!io "i"%$(%ico. El muestreo aleatorio sistemático resulta ser un procedimiento más cómodo ue el muestreo aleatorio, con o sin reposición, cuando la población o la muestra ue vamos a e#traer son grandes. En lugar de recurrir a papeletas, bolas, tablas de n%meros aleatorios o calculadora, puede determinarse la muestra eligiendo sistemáticamente, en una relación ordenada de los individuos de la población, auellos ue se encuentren a una distancia determinada. &uponiendo ue el tama!o de la muestra es N y ue la muestra ue ueramos e#traer constara de n individuos, procederíamos del siguiente modo' a) *alculamos el coeficiente de elevación, k =
N n
.
b) Elegimos aleatoriamente un n%mero m comprendido entre 5 y k . c) 3eterminamos la muestra sumándole repetidamente k al n%mero, m, elegido. La muestra estará constituida por los individuos' m,
m + k ,
m + 8k ,
m + Ck ,
........,
m + ( n − 5) k
Para ue la muestra conserve el carácter aleatorio, debemos procurar ue la ordenación de los individuos de la población no presente tendencias ue hagan recaer la elección sistemática sobre unidades ue no sean representativas de la heterogeneidad de la población. Ejemplo:
Inferencia estadística.
5
ESTADÍSTICA &upongamos ue ueremos hacer una investigación en un instituto de 687 alumnos y alumnas, de los ue ueremos tomar una muestra de 97 individuos. En primer lugar, ordenar todos los alumnos y alumnas alfabéticamente sería un buen criterio de ordenación. &in embargo, disponer los alumnos situando una tras otra las listas de los alumnosas de cada clase, en las ue estos aparezcan por orden de calificaciones, podría llevar a ue se seleccionaran sistemáticamente los alumnosas con calificaciones altas y no los de las calificaciones ba"as, o viceversa. na vez ordenados adecuadamente, calculamos el coeficiente o factor de elevación
687 97
= ; . Elegimos aleatoriamente un n%mero entre 5 y ; (tabla de n%meros
aleatorios, calculadora, .....). &i el n%mero obtenido fuese =, los individuos seleccionados serían' 4=, 5: (H =I;), 8< (H =I8 B ;), CC (H=IC B ;), ........, 656 (H=I6; B ;)> Evidentemente, k no suele ser un n%mero entero. &i se desprecian los decimales ocurrirá ue una parte de los su"etos ue se encuentran al final de la ordenación pierden toda posibilidad de ser elegidos. na solución podría consistir en mantener los decimales del coeficiente k y redondear el resultado de las sumas al n%mero entero más pró#imo, una vez ue se han realizado todas ellas. Ftra sería, sumar alternativamente las cantidades Ent (k ) y Ent (k ) I5. $demás del procedimiento ue acabamos de e#poner, e#isten otras formas de muestreo ue también se consideran muestreos sistemáticos. Por e"emplo, para elegir una muestra de personas, podemos seleccionar una o varias letras del abecedario y tomar como muestra todos los su"etos cuyo apellido comience por esa(s) letra(s). Mu"%!o "%!a%i0ica+o. El muestreo estratificado se realiza cuando ueremos garantizar cierta representatividad de la muestra respecto de alguna característica. Para ello, en función de esa característica, dividimos la población de tama!o N en K estratos o subpoblaciones de tama!os respectivos N 5 , N 8 , N C , ........, N K y elegimos de forma aleatoria (mediante sorteo, tablas, procedimientos sistemáticos, .....) submuestras de tama!os n5 , n 8 , nC , ........, nk en cada estrato, asegurándonos de este modo de ue todas las subpoblaciones estarán representadas en la muestra. La muestra total será la suma de las submuestras elegidas en cada estrato, es decir, n = n5 + n 8 + nC + ........ + n k . *abe diferenciar entre muestreo estratificado con asignación proporcional o de afi"ación proporcional, muestreo estratificado con asignación constante o de afi"ación igual y muestreo estratificado con asignación óptima. En el $u"%!o "%!a%i0ica+o con a"i6nación p!opo!cional , o + a0i7ación p!opo!cional , se respeta la importancia cuantitativa de cada estrato, asignando en la muestra un n%mero de individuos proporcional al tama!o del estrato en la población. n5 N 5
=
n8 N 8
=
nC N C
= .......... .. =
nk N k
=
n N
En el $u"%!o "%!a%i0ica+o con a"i6nación con"%an% , o + a0i7ación i6ual , todos los estratos contribuyen a la muestra con idéntico n%mero de individuos, con independencia de cual sea la importancia numérica de dicho estrato.
Inferencia estadística.
8
ESTADÍSTICA
+inalmente, se habla de $u"%!o "%!a%i0ica+o con a"i6nación óp%i$a cuando la contribución de cada estrato se determina a partir de parámetros ya conocidos de la población. Ejemplo: &e desea e#traer una muestra de =7 alumnos y alumnas de un centro escolar en el ue hay :77 matriculados, de los ue C77 son ni!os y 877 son ni!as, para estimar la estatura media. • &i se utiliza un muestreo estratificado de afi"ación igual deberíamos seleccionar C7 ni!os y C7 ni!as. • &i se utiliza un muestreo estratificado de asignación proporcional deberíamos escoger C= ni!os y 8< ni!as. • &i conocemos la variabilidad de la característica considerada, y sabemos ue la varianza en el caso de los alumnos es de 5: cm y en las alumnas : cm, la proporción de alumnos a alumnas sería de C ' 5, y usando un muestreo estratificado de asignación óptima, los tama!os de las submuestras deberían ser de <: ni!os y 5: ni!as.
Lógicamente, el menos recomendable de los tres tipos de muestreo estratificado es el de asignación constante, ya ue asigna el mismo tama!o a cada estrato, y como consecuencia se favorece a los estratos de menor tama!o y per"udica a los grandes, en cuanto a la precisión de los resultados ue obtengamos.
Mu"%!o po! con6lo$!a+o". El muestreo por conglomerados se utiliza cuando las unidades de la población presentan alguna forma de agrupamiento, ue permite elegir grupos en lugar de individuos. 3e esta forma, el acceso a la muestra ueda facilitado considerablemente, al uedar reunidos en una serie de grupos los individuos ue la constituyen. $l realizar el muestreo, seleccionaríamos aleatoriamente una serie de grupos o conglomerados, tratando de reunir el n%mero total de individuos ue pretendemos incluir en la muestra. Los conglomerados deben ser lo más representativos posible de la población, es decir, deben representar la heterogeneidad de la población del estudio y ser entre sí homogéneos. Este procedimiento no reuiere construir censos o listados completos de los elementos de la población, ue son sustituidos en este caso por los censos de conglomerados. En realidad, el muestreo por conglomerados no es más ue la aplicación de los muestreos aleatorios con o sin reposición, sistemático o estratificado al caso en ue la unidad de muestreo no son los individuos sino los grupos de individuos. sando este procedimiento se evita la dispersión de unidades a la ue conducen otros tipos de muestreo, y se reducen los costes y el tiempo de un traba"o de recogida de datos. *uando los conglomerados se corresponden con zonas geográficas, y se define el conglomerado como un área o parte bien limitada del terreno, se denomina $u"%!o po! (!a". Ejemplo:
Inferencia estadística.
19
ESTADÍSTICA &i ueremos hacer un estudio sobre la influencia de un determinado pienso en el engorde de cerdos criados en gran"as, podemos seleccionar aleatoriamente las gran"as y luego dentro de ellas estudiar los pesos de los cerdos, bien de todos los cerdos de cada gran"a o de una muestra representativa de la población de cerdos de la misma.
Mu"%!o poli%(pico. En el muestreo polietápico las unidades ue finalmente componen la muestra se determinan en etapas sucesivas. &e trata de un caso particular del muestreo por conglomerados, en el ue la unidad final no son los conglomerados sino subdivisiones de éstos. Por tanto, será interesante aplicarlo cuando los conglomerados contengan un elevado n%mero de individuos y resulte aconse"able hacer una selección entre ellos. &i %nicamente desarrollamos dos etapas, $u"%!o bi%(pico, el procedimiento consistiría en la selección de los conglomerados en la primera etapa, y la selección de los individuos en la segunda. 1o obstante, el muestreo polietápico puede e#tenderse a más de dos etapas dando lugar a una selección sucesiva de unidades cada vez menores, ue están "eraruizadas de tal modo ue la unidades de la primera etapa son divisibles en unidades de la segunda etapa, éstas a su vez en unidades de la tercera etapa, y así hasta alcanzar las unidades ue finalmente constituirán la muestra. Estas unidades finales no necesariamente han de ser los individuos. En cada etapa, la selección de las unidades podrá hacerse siguiendo procedimientos de muestreo aleatorio, sistemático o estratificado. Ejemplo: En el e"emplo anterior referido al estudio sobre la influencia de un determinado pienso en el engorde de cerdos, supongamos ue el estudio se realiza a nivel de toda Espa!a. Entonces, en una primera etapa, podríamos seleccionar de forma aleatoria una serie de provinciasJ en segundo lugar, en cada una de las provincias seleccionar también aleatoriamente algunas comarcas (bien delimitadas)J posteriormente, dentro de cada comarca elegir al azar un grupo de gran"asJ y finalmente, en cada una de ellas estudiar todos los cerdos o una muestra de ellos elegida adecuadamente.
B MUESTREOS NO PROBABIL*STICOS. Mu"%!o in%ncional u opin(%ico. En el muestreo intencional u opinático la representatividad depende de la intención u opinión de la persona ue selecciona la muestra, y ue, seg%n su criterio, procura ue sea representativa. Por tanto, la evaluación de la representatividad es sub"etiva. En este caso, la composición de la muestra puede estar influida por las preferencias o tendencias, aun las inconscientes, del individuo ue la obtiene, y no sólo por factores ob"etivos ue son los ue deben tenerse en cuenta de modo riguroso, como ocurre en el muestreo probabilístico. Ejemplo:
&e pretende hacer una encuesta en un instituto, entre los alumnos de
Inferencia estadística.
11
ESTADÍSTICA estudiando. El Mefe de Estudios pregunta a unos cuantos alumnos de cada grupo de
Mu"%!o po! cuo%a". En el muestreo por cuotas, el investigador establece estratos de la población, determina el n%mero de individuos a seleccionar en cada uno de ellos y elige intencionadamente individuos para completar las cuotas establecidas. &e aseme"a al muestreo por estratos en cuanto ue supone un conocimiento previo de la población, ue permite diferenciar segmentos o estratos dentro de la misma, pero se distancia de auel por el hecho de ue auí los individuos ue constituyen la cuota aportada a la muestra por cada estrato no son determinados aleatoriamente, sino en función de otros criterios (accesibilidad, comodidad, economía, etc.). La %nica condición impuesta es ue los individuos cumplan los reuisitos fi"ados en las cuotas. Ejemplo: El agente visitador o entrevistador recoge información de personas o familias en n%mero proporcional al de las ue cumplen determinadas condiciones en la población, y puede elegirlas a su arbitrio dentro de grupos establecidos por se#o, edad o ciertos niveles socioeconómicos. $sí, se podría fi"ar ue el 5: @ de la muestra ha de constar de mu"eres ue tengan menos de <7 a!os, sean de clase media y habiten en determinado barrio, y esta sería la %nica condición para seleccionar este 5: @ de la muestra.
El muestreo por cuotas no es un muestreo probabilístico, y por tanto, no permite llevar a cabo estimaciones rigurosas en las ue podamos calibrar el error cometido. Mu"%!o inci+n%al. En el muestreo incidental el investigador determina deliberadamente ué individuos formarán parte de la muestra, tratando de recoger a los casos considerados típicamente representativos de la población. Los criterios de elección suelen basarse generalmente en el conocimiento teórico sobre el tema de estudio. Pero, en definitiva, a pesar de la posible buena intención y conocimiento del tema y de la población ue tenga el investigador, la muestra no servirá para hacer inferencias a toda la población ya ue siempre cabe ue pueda estar distorsionada por tendencias o preferencias subconscientes o inconscientes del investigador. Ejemplo: Para estimar el problema de absentismo escolar, un investigador puede seleccionar los alumnos de un centro situado en una zona de traba"adores agrícolas temporeros ue han de desplazarse en determinadas épocas del a!o, los alumnos de un centro situado en una barriada marginal de una gran ciudad y los de un centro residencial, dado ue por su conocimiento teórico del problema sabe ue éstos representan los diferentes tipos de comportamientos en relación con la asistencia a clase.
Mu"%!o acci+n%al. En el muestreo accidental, también llamado "in no!$a, ci!cun"%ancial o !!(%ico, se seleccionan determinados individuos o grupos de individuos sin ue e#ista ning%n criterio aparente. La muestra se toma de cualuier manera, a la aventura, por razones de comodidad o por las circunstancias ue rodean al
Inferencia estadística.
1#
ESTADÍSTICA proceso o a capricho. Este tipo de muestreo se considera el más ale"ado de la posibilidad de generalizar a la población los resultados obtenidos. &ólo si la población es homogénea la representatividad de la muestra puede ser satisfactoria. $ veces la uniformidad puede sustituirse por una buena mezcla antes de tomar muestras, como en el caso de los avisos Dagítese antes de usar, o bien cuando se bara"an los naipes o se hacen girar las bolas dentro de un bombo. Ejemplo: Estas muestras se emplean a menudo en la vida corriente, por e"emplo, en el comercio cuando se supone ue un trozo de tela o un sorbo de vino, representa bien a los artículos completos. Por otra parte, influye en la adopción de este procedimiento en estas cuestiones de la realidad cotidiana el hecho de ue, en caso de euivocación, las consecuencias no serían demasiado graves. Una broma final. El uso de un muestreo no probabilístico podría llevarnos a consecuencias curiosas. ?maginemos un investigador ue hace un estudio sobre la respuesta anímica ante la lluvia. Este investigador está de vacaciones en un comple"o turístico de Gera, durante una semana de principios de oto!o. &abe ue en $lmería la probabilidad de ue llueva es mínima. *uriosamente, aparecen las nubes y empieza a llover. 3ecide aprovechar para recoger unas entrevistas de personas de una zona muy seca en la ue llueve. Pero como no tenía previsto ue lloviera, no ha traído paraguas, y pregunta a las personas ue están en el bar social del comple"o turístico. 0odos se ue"an de la lluvia. DEn $lmería no debería llover. Le sorprende la respuesta.... 1o ha tenido en cuenta ue la muestra ha de ser tomada aleatoriamente. N, los turistas ue vienen a $lmería esperan ue el &ol forme parte del paisa"e como el Ddesierto de 0abernas.
INERENCIA ESTAD*STICA. Llamamos inferencia al paso de lo particular a lo general, no en el sentido de la inducción completa utilizada en matemáticas, sino tal como se emplea en las ciencias de la naturaleza. &e podría decir ue es una afirmación relativa a poblaciones estadísticas, efectuada a partir de ciertas observaciones con determinada medida de incertidumbre. Podemos considerar como un problema crucial de la Estadística el de Dinferir la población o afirmar algo sobre ella a partir de una muestra. Esto euivale a basar conclusiones yo decisiones en la ignorancia o incertidumbre parciales. Para ue la inferencia sea la más satisfactoria posible en una situación determinada se emplean técnicas estadístico-matemáticas, ue permiten estimar, por medio de muestras, las características de una población, sustituyendo las con"eturas más o menos ingeniosas por procedimientos ob"etivos cuya representatividad puede medirse. En conclusión, el problema fundamental ue trata de resolver la ?nferencia estadística es obtener de las propiedades de la muestra las de la población en estudio.
DISTRIBUCIÓN MUESTRAL DE UN ESTAD*STICO. &upongamos ue en una población de tama!o N hemos atribuido a cada elemento de la población un valor de acuerdo con determinada característica X ue
Inferencia estadística.
1&
ESTADÍSTICA hemos medido. Podemos seleccionar una muestra de tama!o n y calcular un estadístico, por e"emplo, la media, para los n valores seleccionados. &i volvemos a e#traer muestras aleatorias y repetimos la operación sucesivamente, lograremos reunir un n%mero elevado de medias. *on las medias obtenidas, podemos construir una distribución de frecuencias para los valores de las medias, X . Pues bien, a medida ue aumenta el n%mero de muestras e#traídas de tama!o n, esa distribución se apro#ima a una distribución teórica ue denominaremos distribución muestral del estadístico media. Definición.
3?&02?*?O1 E&02$L 3E 1 E&0$3Q&0?*F. La +i"%!ibución $u"%!al + un "%a+,"%ico se define como la función de probabilidad (o función de densidad de probabilidad) del estimador de ese estadístico. Es decir, se trata de una función ue e#presa la probabilidad asociada a cada posible valor del estadístico obtenido a partir de una muestra aleatoria de tama!o n. Ejemplo: Para ilustrar este concepto, construiremos la distribución muestral del estadístico media, X , cuando e#traemos muestras aleatorias de tama!o 8 en una población constituida por los valores 45, 8, C>. La muestra estará formada por los valores de las dos variables aleatorias' x5 (resultado de la primera selección) y x 8 (resultado de la segunda elección). $ su vez, la media muestral X es también una variable aleatoria, puesto ue se obtiene por combinación lineal de las dos variables aleatorias x5 y x 8 . +ormaremos muestras de tama!o 8 recurriendo a dos vías diferentes'
a) Procedimiento empírico.- &eleccionamos al azar una muestra con reposición de 8 elementos y calculamos su media. 2epetimos el proceso hasta un total de 87 veces. Los resultados de este proceso podrían ser, por e"emplo' x5
x 8 x
x5
x 8 x
5 8 5.:
5 C 8
5 8 8 C 5.: 8.:
8 8 5 C 5.: 8.: C C C
C 8 8.:
8 8 8
5 C 8
8 5 5.:
5 8 5.:
8 5 5.:
C 5 8
C C C
5 5 5
5 C 8 8 5.: 8.:
C 5 8
5 C 8
La distribución de frecuencias para los valores de la media obtenidos uedaría tal y como muestra la siguiente tabla'
Inferencia estadística.
x
ni
f i
5 5.: 8 8.: C
5 6 = < 8
7.7: 7.C: 7.C7 7.87 7.57
1)
ESTADÍSTICA
$sí habremos construido una distribución muestral empírica. b) Procedimiento teórico.- &in tener ue e#traer repetidas muestras para calcular la media de los valores ue las componen, podemos construir una distribución muestral teórica, valiéndonos de conceptos probabilísticos. $sí podemos determinar las ; muestras aleatorias posibles con reposición a partir de la población considerada y calcular las respectivas medias. x5
x 8 x
5 5 5
5 8 5.:
5 C 8
8 5 5.:
8 8 8
8 C 8.:
C 5 8
C 8 8.:
C C C
0eniendo en cuenta las medias de las nueve muestras posibles, todas ellas euiprobables, puedo construir la función de probabilidad para la variable aleatoria X . x
ni
f i
5 5 5; H 7.55 5.: 6 8; H 7.88 8 = C; H 7.CC 8.: < 8; H 7.88 C 8 5; H 7.55 *onociendo esta distribución muestral teórica, se tiene ue la probabilidad de obtener el valor X = 5 para la media de una muestra e#traída al azar de la población es p ( X = 5) = 7R55 , mientras ue la probabilidad de obtener el valor X = 8 es p ( X = 8 = 7RCC . Es decir, en un 55 @ de los casos, la muestra tendrá como media 5 y en un CC @ de los casos, el valor de la media de la muestra será 8. *omo afirmábamos anteriormente, la distribución muestral empírica de un estadístico se apro#ima a la distribución muestral teórica a medida ue aumenta el n%mero de muestras e#traídas. Las frecuencias relativas obtenidas empíricamente llegan a coincidir con las probabilidades teóricas cuando el n%mero de muestras crece indefinidamente. Geamos someramente otro e"emplo. &upongamos ue la población es P H 45, 8, C, :> y ue representa el tiempo (en horas diarias) ue cada uno de un grupo de cuatro estudiantes de la universidad dedican al estudio. &iguiendo la misma técnica utilizada en e"emplo anterior tenemos' a) El con"unto de muestras de tama!o 8 de la población P tiene 5= elementos diferentes. edias de las muestras de tama!o 8. 5 8 C : 5 5 5.: 8 C
Inferencia estadística.
1-
ESTADÍSTICA 8 C :
5.: 8 C
8 8.: C.:
8.: C <
C.: < :
La información ue da la tabla anterior se puede organizar en una tabla de distribución de frecuencias del siguiente modo' 3istribución de medias muestrales ( n H 8) x
ni
5 5.: 8 8.: C C.: < :
5 8 C 8 C 8 8 5
/emos construído la distribución muestral de medias de tama!o 8. Esa distribución, igual ue toda distribución, tiene gráfica de una determinada forma, una media, una desviación típica, etc. b) El con"unto de muestras de tama!o C de la población P tiene =< elementos diferentes. N procediendo de un modo análogo podemos obtener la siguiente tabla' 3istribución de medias muestrales ( n H C) x
ni
5 5 <C C :C = 8 6 6C ; 9C ; C 57 57C = 55C = < C 5CC C : 5 $sí hemos construido la distribución muestral de medias de tama!o C. c) ?gual podemos hacer la distribución muestral de medias de tama!o <. En este caso hay 8:= muestras diferentes. 3istribución de medias muestrales ( n H <)
Inferencia estadística.
x
ni
5
5
13
ESTADÍSTICA :< =< 6< 8 ;< 57< 55< C 5C< 5<< 5:< < 56< 59< : 0H
< 57 5= 8C 89 C< C8 C5 8< 88 58 57 < < 5 8:=
En resumen, se han construido las tres distribuciones muestrales de medias, asociadas con la población P. Las características de la población P y de las tres distribuciones muestrales se e#ponen a continuación. Población 3istribución muestral de medias, n H 8 3istribución muestral de medias, n H C 3istribución muestral de medias, n H <
0ama!o < 5= =< 8:=
edia 8.6: 8.6: 8.6: 8.6:
3esviación 0ípica 5.<6;75= 5.7<:98: 7.9:C;58 7.6C:7;
3istribución de la población.
3istribución de las medias de las muestras de tama!o 8.
Inferencia estadística.
14
ESTADÍSTICA 3istribución de las medias de las muestras de tama!o C. 3istribución de las medias de las muestras de tama!o <. $l observar las gráficas anteriores se comprueba ue la gráfica de la población es uniforme y los diagramas de las distribuciones muestrales van apro#imándose a la curva normal a medida ue el tama!o de las muestras se aumenta.
0ambién vemos ue las medias de las cuatro distribuciones coinciden, y en cambio, las desviaciones típicas disminuyen a medida ue aumenta el tama!o de las muestras. Geamos como se relacionan la desviación típica de la población con la desviación típica de la distribución muestral y con el tama!o de las muestras. Fbsérvese ue' 5.7<:98:7CC
×
8
= 5.<6;75;;<:
7.9:C;58:=:
×
C
= 5.<6;75;;<9
7.6C;:7;;68
×
<
= 5.<6;75;;<<
Los tres productos dan, prácticamente, el mismo resultado ue el valor de la desviación típica de la población. En realidad, el producto entre la desviación típica de la distribución muestral de las medias y la raíz cuadrada del tama!o de las muestras es igual a la desviación típica de la población (la ine#actitud de los resultados anteriores se debe a las apro#imaciones tomadas). Lo traba"ado anteriormente nos conduce al enunciado de uno de los resultados más %tiles en estadística' el conocido como TEOREMA DEL L*MITE CENTRAL'
TEOREMA CENTRAL DEL L*MITE. E#isten muchos fenómenos ue se pueden considerar como una suma de una serie de efectos parciales independientes. N puede ocurrir ue, aunue esos efectos no se a"usten a una normal, el fenómeno resultante tienda a la distribución normal. Este resultado conocido como 0eorema central del límite, fue enunciado, por primera vez,
Inferencia estadística.
15
ESTADÍSTICA por Pierre &imon de Laplace (5.6<; S 5.986), y fue Liapunov (5.9:6 S 5.;56) dio en 5.;75 una demostración rigurosa del teorema.
TEOREMA CENTRAL DEL L*MITE. D*onsideramos una población cuya medida es µ y cuya desviación típica es σ. &i de esa población se e#traen, al azar, todas las muestras de tama!o n, obtenidas con reposición y con orden, se puede construir una distribución de medias muestrales, la cual tiene forma apro#imadamente normal cuando n es suficientemente grande. $demás, la media µ X y la desviación típica σ X de esa distribución muestral están relacionadas con la media y la desviación típica de la población del siguiente modo. µ µ =
σ
y
X
X
=
σ n
0ras la lectura del teorema central del límite, cabe preguntarse' Tué entendemos por un n sufucientemente grandeU.
Si la población + pa!%i+a " no!$al: la +i"%!ibución + $+ia" $u"%!al" %a$bi;n " no!$al: cual
DISTRIBUCIÓN DE LAS MEDIAS MUESTRALES. Definición.
DISTRIBUCIÓN DE LAS MEDIAS MUESTRALES. 3ada una población V. *onsideramos todas las muestras posibles de tama!o n en la población. N en cada una de esas muestras se determina su media. La distribución de todas las medias muestrales se denomina +i"%!ibución + la" $+ia" $u"%!al": X . *uando realizamos un muestreo sin reposición en una población finita de media µ y desviación típica σ, la variable aleatoria X tiene como media y desviación típica' µ
= µ
σ
=
X X
σ
n
B
N − n N − 5
donde N y n son los tama!os de la población y la muestra, respectivamente. En la práctica, las poblaciones de las ue se e#traen las muestras son indefinidamente grandes, o al menos, el tama!o de las muestras está por deba"o del : @ del tama!o de las poblaciones. En estos casos el muestreo sin reposición puede considerarse euivalente al muestreo con reposición.
Inferencia estadística.
18
ESTADÍSTICA En los casos de poblaciones finitas con reemplazamiento o infinitas con o sin reemplazamiento se tiene' µ
= µ
σ
=
X X
σ
n
Pero por el teorema del límite central sabemos ue la distribución muestral de las medias se acerca a la distribución normal cuando aumenta el tama!o de la muestra. ?nsistimos, cuánto más se ale"e la distribución poblacional del modelo normal, más debe incrementarse el tama!o de la muestra para ue la distribución muestral de la media se apro#ime a una curva normal. Por tanto, en la práctica' a) &i la población es normal no habrá ning%n problema al afirmar ue la σ distribución muestral de la media es normal N µ , . n b) &i la distribución poblacional no es normal, se asume ue la distribución muestral de las medias se apro#ima a la normal σ N µ , cuando el tama!o de la muestra es mayor o igual ue n C7. Puesto ue X presenta una distribución muestral normal, la variable tipificada Z X se distribuye normalmente N (7 , 5). Z X
=
X − µ σ
n
&in embargo, no siempre conocemos el valor del parámetro σ. *uando σ es desconocido, podemos utilizar una estimación de su valor y calculamos la desviación típica de la media muestral (también llamado error típico) por la siguiente formula' σ
X
=
s
n −5 n
=
s
n n −5
Es decir, nos basamos en la desviación típica ( sn) de una muestra aleatoria e#traída de la población. Observación importante:
*uando n ≥ C7 podemos aceptar como desviación típica de distribución muestral de medias la desviación típica de la muestra. Ejemplos: - *onsideremos la población P H 4:, 6, ;>. &upongamos ue formamos todas las posible muestras de tama!o 8 e#traíbles de esta población, sin reposición' 4: , 6>, 4: , ;>, 46 , :>, 46 , ;>, 4; , :>, 4; , 6>. En cada una estas medias calculamos la correspondiente media'
Inferencia estadística.
#9
ESTADÍSTICA 4: , 6> =, 4: , ;> 6, 46 , :> =, 46 , ;> 9, 4; , :> 6, 4; , 6> 9. La distribución de medias muestrales es' = 6 9 0otal X N i 8 8 8 =
σ
n
B
Puedes comprobar fácilmente ue' µ = 6 , es igual a µ = 6 . X σ = 7.95=:.... , X N − n 5.=C;; C−8 B = = 7.95;;:.. . N − 5 C −5 8 -
es
igual
a
*onsideremos la población P H 4:, 6, ;>. &upongamos ue formamos todas las posible muestras de tama!o 8 e#traíbles de esta población, con reposición' 4: , :>, 4: , 6>, 4: , ;>, 46 , :>, 46 , 6>, 46 , ;>, 4; , :>, 4; , 6>, 4; , ;>. En cada una estas medias calculamos la correspondiente media' 4: , :> :, 4: , 6> =, 4: , ;> 6, 46 , :> =, 46 , 6> 6, 46 , ;> 9, 4; , :> 6, 4; , 6> 9, 4; , ;> ;.
La distribución de medias muestrales es' : = 6 X N i 5 8 C
9 8
; 5
0otal ;
Puedes comprobar fácilmente ue' µ = 6 , ue es igual a µ = 6 . X σ
X
= 5.5:<6.... , ue es igual a
σ
n
= 5.=C;; = 5.5:<6.. 8
.
DISTRIBUCIÓN MUESTRAL DE LAS PROPORCIONES. Definición.
DISTRIBUCIÓN DE LAS PROPORCIONES MUESTRALES. 3ada una población V. *onsideramos todas las muestras posibles de tama!o n en la población. N en cada una de esas muestras se determina proporción de individuos ue poseen una determinada característica. La distribución de todas las proporciones muestrales (de la característica estudiada) se denomina +i"%!ibución + la" p!opo!cion" $u"%!al": X p . &e puede demostrar ue' &ea p la proporción de individuos ue poseen la característica estudiada y q H 5 S p la proporción de los ue no la poseen.
Inferencia estadística.
#1
ESTADÍSTICA La +i"%!ibución $u"%!al + la" p!opo!cion" , ap!o=i$a+a$n% co$o una +i"%!ibución no!$al N p , p B q
p 2 +"viación %,pica
n
acerca ni a 7 ni a 5, verificando o finita con reemplazamiento.
, " +i"%!ibu2 p B q : + $+ia n
X p
, cuando n es suficientemente grande y p no se n B p
≥ : y
n Bq
≥ : , y la población es infinita
1o obstante, la e#tracción de las muestras de una población de tama!o 1 se puede realizar con reemplazamiento o sin reemplazamiento, verificándose' a) &i la población es indenidamente grande (infinita) o finita con reemplazamiento tenemos' µ
= p
σ
=
p p
pq n
b) &i la población es finita y la e#tracción se hace sin reemplazamiento, tenemos' µ
= p
σ
=
p p
pq n
B
N − n N − 5
Ejemplo: - *onsideramos la población P H 45, 8, C>. La proporción de cifras pares es p
5
= y de cifras impares es
q
C
=
8 C
. Las muestras con reemplazamiento de tama!o 8 y
sus correspondientes proporciones pW de cifras pares son' uestra 5 , 5 5 , 8 5 , C 8 , 5 8 , 8 8 , C pW 7 7.: 7 7.: 5 7.:
C,5 7
C,8 7.:
C,C 7
*on todas las proporciones consideradas como valores de una variable estadística calculamos su media y su desviación típica. X p ni 7 < 7.: < 5 5 ; Fbtenemos así la distribución muestral de las proporciones, desviación típica' µ p =
5 C
y σ p
=
X p
, de media y
5 C
Pero también podemos obtener la desviación típica así'
Inferencia estadística.
##
ESTADÍSTICA
σ
p
p B q
=
=
n
5 8 B C C 8
=
5 C
- *onsideramos la población P H 45, 8, C>. La proporción de cifras pares es
p
5
= y de cifras impares es
q
C
8
=
C
. Las muestras sin reemplazamiento de tama!o 8
y sus correspondientes proporciones pW de cifras pares son' uestra 5 , 8 5 , C 8 , 5 8 , C pW 7.: 7 7.: 7.:
C,5 7
C,8 7.:
*on todas las proporciones consideradas como valores de una variable estadística calculamos su media y su desviación típica. X p ni 7 8 7.: < = Fbtenemos así la distribución muestral de las proporciones, X p , de media y desviación típica' µ
p
=
5
y σ p
C
=
5 59
=
5 C 8
Pero también podemos obtener la desviación típica así' σ
p
=
p B q n
B
N − n N − 5
=
5 8 B C C B 8
C− 8 C −5
=
5 C
B
5 8
=
5 C 8
ESTIMACIÓN DE PAR'METROS. &i θ es un parámetro característico de una población, cuyo valor desconocemos, ∧ a partir de las muestras e#traídas de esa población podemos calcular un estadístico E , ue nos permita estimar el valor del parámetro poblacional. Por e"emplo, sea la media µ de edad de los alumnos universitarios espa!oles. El estadístico X calculado a partir de muestras de alumnos universitarios puede ser considerado un estimador del parámetro media, µ. En una población, cualuier parámetro θ es %nico. En cambio, cada una de las ∧ posibles muestras de esa población puede tener diferentes valores del estadístico E . El estadístico ue tomamos como estimador es por tanto una variable, mientras ue el parámetro es una constante. *ada uno de los valores del estimador constituye una estimación del parámetro. En el e"emplo sobre las edades de los alumnos universitarios, e#traemos : muestras aleatorias y calculamos la media de edad de cada una de ellas. Las respectivas medias X , X , X , X y X son estimaciones µ, puesto ue hemos tomado el estadístico X como estimador de µ. 5
8
C
<
:
Pero para ue un estadístico sea tomado como estimador de un parámetro poblacional, debemos contar con ciertas garantías de ue los valores del estadístico
Inferencia estadística.
#&
ESTADÍSTICA (estimaciones) se apro#iman al verdadero valor del parámetro. na de las condiciones básicas es ue la muestra sea representativa de la población, a lo ue contribuye especialmente el ue la muestra sea aleatoria. 2ecordamos ue definimos "%i$a+o! como un estadístico ue permite obtener un valor apro#imado para alguna característica de la población. *ada uno de los valores de ese estadístico representan una estimación. ientras ue el estimador es una variable aleatoria, la estimación es un valor numérico alcanzado por esa variable aleatoria. La estimación de un parámetro se puede hacer mediante estimación puntual o por estimación por intervalos. La estimación puntual consiste en obtener un %nico valor del parámetro poblacional a partir de las observaciones muestrales, y se llama así porue se le puede asignar un punto sobre la recta real. ientras ue en la estimación por intervalo se obtienen dos puntos, ue definen un intervalo en la recta real ue contendrá el valor del parámetro desconocido con cierta seguridad.
ESTIMACIÓN POR INTER/ALOS. En la estimación por intervalos atribuimos al parámetro desconocido un segmento de posibles valores entre los ue se encuentra, con elevada probabilidad, el valor verdadero del parámetro. Es decir, para estimar el valor del parámetro θ, podemos ofrecer un intervalo de puntuaciones dentro del cual se encuentra, con una probabilidad conocida, el valor buscado. Por e"emplo, podríamos determinar ue con una probabilidad de 7.;7, el valor de θ se encuentra dentro del intervalo Xa , bY. *uando realizamos una estimación por intervalos resulta imprescindible apoyarse en la distribución muestral de los estadísticos utilizados como estimadores. Por e"emplo el estadístico X , estimador de µ. &abemos ue si e#traemos muestras de una población en la ue la media es µ y la varianza σ 8 , la distribución muestral de X tiene como media µ y como varianza
σ
8
X
=
σ
8
n
. &i el tama!o n de las muestras es
suficientemente grande, la distribución muestral del estadístico σ normal N µ , . n
X tiende
al modelo
ERROR MUESTRAL. &iempre ue tomamos una muestra en representación de toda la población se comete un error. 1ormalmente e#iste una diferencia entre los valores obtenidos a partir de la muestra y los correspondientes a la población. Pero cuando hablamos del error muestral no nos referimos al error real ue hemos obtenido nosotros, sino a un error determinado estadísticamente, válido para todas las posibles muestras del mismo tama!o. &ea x la media de una muestra de tama!o n y sea µ la media poblacional de la población de tama!o N . Fbteniendo todas las muestras de tama!o n y calculando la media x de cada una, se obtiene una distribución normal, llamada distribución muestral de las medias o distribución de las medias muestrales X .
Inferencia estadística.
#)
ESTADÍSTICA
La curva de Zauss representa la distribución de todas las medias de tama!o n obtenidas en la población. La media de las medias coincide con la media de la población, obteniéndose muchas muestras cuyas medias, x , son iguales o muy cercanas a µ y muy pocos casos de medias muestrales, ale"adas o muy ale"adas de la media proporcional µ. Definición.
ERROR MUESTRAL. &e define el !!o! $u"%!al o !!o! + $u"%!o como la desviación típica de la distribución muestral de las medias o de las proporciones. 2ecordamos ue, para la distribución de las medias muestrales y para la distribución de las proporciones muestrales, respectivamente' •
*uando la población es finita y la e#tracción es con reemplazamiento, o cuando la población es infinita' σ
X
•
=
σ
n
,
σ
p
=
p B q n
*uando la población es finita y la e#tracción es sin reemplazamiento' σ
X
=
σ
n
B
N − n N − 5
,
σ
p
=
p B q n
B
N − n N − 5
ERROR M'>IMO ADMISIBLE. σ n y su representación gráfica es la curva de Zauss. Estadísticamente nunca se puede abarcar toda el área comprendida entre la curva de Zauss y el e"e FV, por ser éste una asíntota de la curva, siendo preciso fi"ar el área se pretende abarcar. Esta área, (5- α), recibe el nombre de nivl + con0ian?a porue representa el área ue contendrá, probablemente, el valor de la media poblacional µ. &e e#presa en tanto por ciento. La distribución muestral de las medias sigue una ley normal
Inferencia estadística.
N µ ,
#-
ESTADÍSTICA
Definición.
NI/EL DE CONIAN@A. &e denomina nivl + con0ian?a o co0icin% + con0ian?a a la probabilidad de ue el estimador por intervalo cubra el verdadero valor del parámetro ue se pretende estimar. &e e#presa por 5 - α. Estrictamente, establece el porcenta"e de muestras (de un tama!o dado) en las ue el estadístico ue deseamos estimar tiene un valor dentro del intervalo estimado. n nivel de confianza de ;7@ o del ;:@ indica ue, de toda el área encerrada por la curva de Zauss y el e"e FV, probablemente el ;7@ o el ;:@ de las veces contendrá a la media poblacional µ, desestimando el 57@ o el :@, restante. Definición.
NI/EL DE SINIICACIÓN. &e denomina nivl + "i6ni0icación o nivl + !i"6o a la diferencia entre la certeza y el nivel de confianza deseado. Por tanto, se e#presa por α. Definición.
ERROR M'>IMO ADMISIBLE. &e define el !!o! $(=i$o a+$i"ibl como el valor D d ue verifica ue la probabilidad de ue la media muestral x y la media poblacional µ difieran en menos de la cantidad D d con el nivel de confianza elegido (5 - α)' (
p µ − x
D lo an%!io! " ++uc F lo ue es lo mismo'
<
d
) = 5 − α
p( − d < µ − x
< d ) = 5 − α
(
p x − d < µ < x + d
= 5 − α
&i' d = σ X
entonces
d = 8σ X entonces
d = Cσ X entonces
p x − σ X
< µ < x + σ X = 7.=98= p ( x − 8σ X < µ < x + 8σ X ) = 7.;:<< p ( x − Cσ X < µ < x + Cσ X ) = 7.;;6C
Es decir' d = σ X
d = 8σ X d = Cσ X
En general'
(
para un nivel de confianza del =9.8= @. para un nivel de confianza del ;:.<< @. para un nivel de confianza del ;;.6C @.
p x − k σ X
< µ < x + k σ X ) = 5 − α
Para una variable tipificada, el valor de k se obtiene así'
Inferencia estadística.
#3
ESTADÍSTICA
p( − k < Z < k )
= 5 − α p( − k < Z < k ) = p( Z < k ) − p( Z ≤ −k ) = = p ( Z < k ) − [5 − p ( Z < k ) ] = 8 p ( Z < k ) − 5 = 5 − α
3e donde' p( Z < k )
= 5−
α
8
cuyo valor lo podemos obtener en la tabla N (7 , 5) para una valor dado α. Galores de k , más usuales, seg%n el nivel de confianza 5 - α: 5-α K
:7 @ =9W8 @ ;7 @ 7.=6 5 5.=:
;: @ ;:W: @ ;; @ ;;W6 @ 5.;= 8 8.:9 C
En el caso de las proporciones' f n − k
p B q
p
n
< p <
f n
+ k
p B q n
= 5 − α
El error má#imo admisible D d y el error muestral σ x o σ p están relacionados por el valor k obtenido a partir del nivel de confianza (5 - α). $sí' Error má#imo admisible para la estimación de la media poblacional' σ • d = k B σ X = k B (población infinita o finita con reemplazamiento). n
•
d = k B σ X
= k B
σ
n
B
N − n N − 5
(población finita sin reemplazamiento).
Error má#imo admisible para la estimación de la proporción poblacional' •
d = k B σ p
= k B
p B q
•
d = k B σ p
= k B
p B q
(población infinita o finita con reemplazamiento).
n n
B
N − n N − 5
(población finita sin reemplazamiento).
TAMAO DE LA MUESTRA. Las encuestas se realizan en una muestra representativa de la población. &u tama!o varía de unas encuestas a otras y viene recogido en la llamada ficha técnica. En dicha ficha técnica debe aparecer' el tama!o de la muestra, el nivel de confianza y el margen de error. El tama!o D n de la muestra depende del tama!o N de la población, del nivel de confianza (5 - α) adoptado y del error má#imo admisible D d . 3?&02?*?O1 3E L$& P2FPF2*?F1E& E&02$LE&'
Inferencia estadística.
#4
ESTADÍSTICA •
Para una población infinita, o finita con reemplazamiento, a partir de la e#presión ue relaciona el error má#imo admisible o margen de error d y el error muestral σ p se tiene' d
= k B σ p = k B
p B q n
⇒n =
k 8 B p B q d 8
*uando no se conoce la proporción D p, se estima para el caso más desfavorable, es decir, ue tanto D p como Dq sean el :7@. • Para una población finita y muestreo sin reemplazamiento se tiene, a partir de la e#presión del error má#imo admisible' d
p B q
= k B σ p = k B
n
N − n N − 5
B
⇒n=
k 8 B N B p B q ( N − 5) B d 8 + k 8 B p B q
3?&02?*?O1 3E L$& E3?$& E&02$LE&. •
Para poblaciones infinitas o poblaciones finitas con reemplazamiento, la e#presión ue relaciona el error má#imo admisible d y el error muestral σ x nos permite obtener el tama!o de la muestra' d = k B σ X
•
= k B
σ
n
⇒n =
k 8 B σ 8 d 8
&i la población es finita y el muestreo es sin reemplazamiento, el tama!o sería' d
= k B σ
X
= k B
σ
n
B
N − n N − 5
⇒n =
N B k 8 B σ 8 d 8 B ( N − 5) + k 8 B σ 8
INTER/ALO DE CONIAN@A DE LA MEDIA. En una población cuya distribución es conocida, pero con alg%n parámetro desconocido, podemos estimar dicho parámetro a partir de una muestra representativa. Estamos traba"ando en el caso de la estimación de parámetros mediante un in%!valo + con0ian?a. En este apartado determinaremos el intervalo de confianza para la media. El intervalo de confianza X a , bY debe contener a la media poblacional nivel de confianza 5- α: p(a < µ < b)
µ
con un
= 5 − α
El valor 5-α, ue indica con ué probabilidad el intervalo X a , bY contiene el valor real del parámetro estimado µ : se elige previamente, siendo un n%mero real comprendido entre 7 y 5. El valor 5- α se e#presa en porcenta"e.
Inferencia estadística.
#5
ESTADÍSTICA &ea V una variable aleatoria con distribución N ( µ , σ ) y #5, #8, ......, #n, una muestra aleatoria de tama!o n. La distribución muestral de las medias X sigue una ley X − µ σ Z = σ normal N µ , es una distribución 1(7,5). y la variable tipificada n n 2ecordemos ue si la población no es normal basta con tomar una muestra suficientemente grande. Zráficamente'
p − z
α
8
< Z <
z
α
8
= 5 − α
&ustituyendo' µ X − p − z < z = 5 − α < α α σ 8 8 n
o bien' µ − X < p − z < z = 5 − α α α σ 8 8 n
de donde' p X − z B α 8
σ
n
< µ < X + z α B 8
σ
n
= 5 − α
En la práctica no se suelen tomar distintas muestras para calcular el intervalo de confianza, se toma una sola, de ahí ue X = x . El intervalo de confianza parte del conocimiento de un estadístico, x , obteniendo en una muestra de tama!o n y mediante una estimación se obtiene un intervalo ue cuenta con una probabilidad del ;:@, del ;7@, etc., es decir, (5- α)@ de contener el parámetro desconocido media poblacional µ .
Inferencia estadística.
#8
ESTADÍSTICA *$13F &E *F1F*E L$ 3E&G?$*?O1 0QP?*$ PFL$*?F1$L. En este caso, el intervalo de confianza de la media poblacional x − z B α 8
σ
n
, x
+ z
α
B
σ
n
8
µ es'
*$13F 1F &E *F1F*E L$ 3E&G?$*?O1 0QP?*$ PFL$*?F1$L. En este caso, cuando la muestra está formada por C7 o más de C7 individuos u observaciones, se puede obtener el intervalo de confianza de la media poblacional a partir de la e#presión' x − z B α 8
s n
, x
+ z α B
s n
8
siendo s la desviación típica de la muestra. Observaciones.
Para establecer los intervalos de confianza' *uando no se conoce la desviación típica de la población, siendo rigurosos se debe usar el parámetro muestral raíz cuadrada de la cuasi varianza, s n8−5 , para estimar dicha desviación típica poblacional. 8 ( xi − x ) B ni ∑ 8 2ecordamos la e#presión de la cuasivarianza' s n −5 = , de n −5 8 ( xi − x ) B ni ∑ donde se tiene' s n −5 = , ue sería el valor ue debería sustituir n −5 a la desviación típica poblacional. 1o obstante, si n ≥ C7 se puede utilizar la desviación típica muestral. • En el caso de ue el muestreo no sea con reemplazamiento y la población sea N − n finita, se debe multiplicar el error muestral por el factor , donde N es N − 5 el tama!o de la población y n el tama!o de la muestra. $sí, el intervalo de confianza sería' •
x − z α B 8
σ
n
B
−n N − 5
N
, x
+ z α B 8
σ
n
B
−n N − 5
N
INTER/ALO DE CONIAN@A DE LA PROPORCIÓN. Para estimar la proporción D p de elementos ue posee una característica de una población, lo hacemos mediante una muestra de tama!o n en donde p R =
Inferencia estadística.
f es n
la
&9
ESTADÍSTICA proporción de elementos ue poseen la característica determinada y qW H 5 - pW la proporción de elementos ue no la poseen. La distribución de las proporciones muestrales se distribuye de acuerdo a una normal N p ,
pq n
p R− p
Z = , lo ue permite tipificar la variable
ue sigue una
pq n
distribución 1(7,5) y obtener con un nivel de confianza (5- α), el intervalo de confianza para el parámetro poblacional p, a partir de la e#presión' p − z < α 8
p R− p < z α = 5 − α pq 8 n
p − z < α 8
p − p R < z α = 5 − α pq 8 n
o lo ue es igual'
de donde'
p p R− z B α 8
El error má#imo admisible
d
pq
<
n
p
<
p R+ z
α
pq
B
n
8
= z α
B
p B q n
= 5 − α
, tiene el grave inconveniente de
8
ue está dado en función de p. Por tanto, una vez e#traída la muestra y obtenida la proporción muestral pW, debemos estimar los valores de p y q, mediante' p H pW y q H qW. *uando n es grande,
n ≥ C7 ,
(y, además,
n B p
≥: y
n Bq
determinar el intervalo de confianza se puede sustituir el parámetro p por
≥ : ) para
pR =
f n
de la
muestra, resultando'
p pR− z α B 8
p R qR n
< p < pR+ z
B α 8
p R qR n
= 5 − α
Ejemplos: - &upongamos ue deseamos valorar el grado medio de conocimientos en historia de una población de varios miles de estudiantes. &abemos ue la desviación típica poblacional es de 8.C puntos. 1os proponemos estimar la media poblacional, µ, pasando una prueba a 577 alumnos, con un nivel de confianza del ;: @. *alculamos la media en la muestra, resultando ser de =.C8. Para hacer esta estimación vamos a construir el intervalo de confianza de µ con un nivel de confianza del ;: @. El intervalo de confianza para la media en poblaciones infinitas o finitas con reemplazamiento, caso ue suponemos (de varios miles), es'
Inferencia estadística.
&1
ESTADÍSTICA x − z α 8
B
σ
n
, x
+ z
α
B
σ
n
8
En nuestro e"emplo' α 7.7: z = 5.;= *omo' p Z < z , y así' = 5 − 8 = 5 − 8 = 7.;6: , tenemos 8
α
8
α
8 .C 8.C , =.C8 + 5.;= B =.C8 − 5.;= B 577 577 3e donde, operando, tenemos el intervalo de confianza buscado' ( :.96 , =.66 )
-
Para estimar la media de los resultados ue obtendrían al resolver un cierto test los alumnos de < @ de E.&.F. de toda una comunidad autónoma, se les pasa dicho test a <77 de ellos escogidos al azar. Los resultados obtenidos en dicha muestra dan una media de C.8: con una desviación típica de 5.58. $ partir de ellos, pretendemos estimar el valor de la media de la población con un nivel de confianza del ;: @. En este caso se procedería como en el caso anterior, sólo ue deberemos utilizar el valor de desviación típica muestral en lugar de la poblacional, cosa ue se puede hacer ya ue el tama!o de la muestra es superior a C7. En definitiva, el intervalo de confianza para la media poblacional sería' x − z α 8
B
s n
, x
+ z
α
8
B
s n
C.8: − 5.;= B 5.58 , C.8: + 5.;= B 5.58 <77 <77 ( C.5< , C.C= ) N así el intervalo buscado es' - 3e la duración de un proceso sabemos ue la desviación típica poblacional es 7.: segundos. T*uál es el n%mero mínimo de medidas ue hay ue realizar para ue, con un nivel de confianza del ;; @, el error de estimación no e#ceda de 7. 5 segundosU.
α
$l nivel de confianza del ;; @ ( α H 7.75), p Z < z = 5 − 8 , corresponde 8
α
un z 8 = 8.:6: . α
Fbtenemos el tama!o n de la muestra a partir de la relación'
z α B 8
σ
n
≤ d ,
8
z B σ 8 de donde' n ≥ d . Es decir, α
-
8
8.:6: B 7.: = 5=: .6= y el n≥ 7.5
tama!o de la muestra debe ser 5== medidas (el menor entero mayor ue 5=:.6=). n monitor de un gimnasio uiere estimar la estatura media de todos los asociados al mismo, con un error menor de 7.: cm, utilizando una muestra de C7 asociados. &abiendo ue la desviación típica σ H :.C cm, Tcuál sería el nivel de confianza con el ue se realiza la estimaciónU.
Inferencia estadística.
ESTADÍSTICA *omo, el error d es'
d = z α B 8
deducimos'
-
z α 8
σ
n
, tenemos'
7.: = z α B 8
= 7.:8 . $hora bien,
p ( Z < 7.:8)
=5−
α
:.C C7
, y de auí
, ue nos permite
8 8 B (5 − p( Z < 7.:8) )
despe"ar el coeficiente de significación' α = , y al = 7.=7C7 . N finalmente, el nivel sustituir, α = 8 B (5 − 7.=;9:) = 8 B 7.C75: de confianza, 5 − α = 5 − 7.=7C7 = 7.C;67 , sería del C;.6 @. 0omada una muestra de C77 personas mayores de 5: a!os en una gran ciudad, se encontró ue 57< de ellas leían el periódico regularmente. *on estos datos ueremos hallar, con un nivel de confianza del ;7 @, un intervalo de confianza para la proporción de lectores de periódicos entre los mayores de 5: a!os. n nivel de confianza del ;7 @ nos da un z 8 = 5.=<: , y la proporción α
muestral obtenida es sería
d = z α B
p R B q R
8
-
pR =
n
57< C77
= 7.C<6 . $sí, el error má#imo admisible 7.C<6 B 7.=:C
= 5.=<: B
= 7.7<: , y con este dato
C77
tenemos ue el intervalo buscado se obtendrá como' ( 7.C<6 − 7.7<: , 7.C<6 + 7.7<: ) , o lo ue es lo mismo el intervalo de confianza es' ( 7.C78 , 7.C;8) . F sea, con un nivel de confianza del ;7 @, la proporción de lectores de periódicos, en el colectivo total, está entre el C7.8 @ y el C;.8 @. 0eniendo en cuenta los resultados del e"emplo anterior, se pretende repetir la e#periencia para conseguir una cota de error de 7.75 con el mismo nivel de confianza del ;7 @. T*uántos individuos debe tener la muestraU. 3e la e#presión del error,
d = z α B 8
p R B q R n
, podemos despe"ar el tama!o
8
de la muestra' n =
z α B p R B qR 8
d
8
=
5.=<: 8 B 7.C<6 B 7.=:C 8
7.75
= =5C5.= . Es
decir, la muestra debe contar con un mínimo de =5C8 individuos. *on esta muestra, se volvería a calcular la proporción muestral de lectores de periódicos p , y con ella se determinaría el intervalo de confianza ( pWW7.75 , pWW I 7.75).
CONTRASTE DE IPÓTESIS. El con%!a"% + ipó%"i" o la p!uba + +ci"ión "%a+,"%ica permite comprobar ciertas afirmaciones ue realizamos acerca de una población, referidas a sus parámetros o a la forma en ue se distribuye. ediante este tipo de pruebas podríamos decidir acerca del a"uste de las distribuciones observadas a distribuciones teóricas, la e#istencia de diferencias entre grupos, relaciones entre variables, etc. Definición.
TEST ESTAD*STICO.
Inferencia estadística.
&&
ESTADÍSTICA n %"% "%a+,"%ico es un procedimiento para, a partir de una muestra aleatoria y significativa, e#traer conclusiones ue permitan aceptar o rechazar una hipótesis previamente emitida sobre el valor de un parámetro desconocido de esa población.
IPÓTESIS ESTAD*STICAS. En cualuier estudio sobre la realidad el investigador se plantea interrogantes a los ue trata de dar respuesta o temas de interés sobre los ue pretende incrementar su conocimiento. En la indagación sobre esos interrogantes, el investigador formula hipótesis, ue son posibles soluciones o respuestas a los problemas planteados. 0ales hipótesis permanecerán en el terreno de la con"etura hasta tanto no sean comprobadas. La estadística permite comprobar hipótesis científicas a partir de los datos recogidos sobre un problema, pero para ello es necesario ue tales hipótesis sean formuladas en términos estadísticos. Es decir, las hipótesis científicas tienen ue ser operativizadas previamente, e#presadas en forma de afirmaciones acerca de parámetros. Por tanto, en una prueba de decisión estadística no contrastamos directamente las hipótesis científicas, sino ue traba"amos con hipótesis estadísticas ue son una traducción de auellas. 0ras comprobar la hipótesis estadística, podemos inferir ue la hipótesis científica ueda validada. Las hipótesis estadísticas son proposiciones acerca de parámetros de la población (media, proporciones, varianza, diferencia de medias, etc.) o de su distribución. *uando llevamos a cabo una prueba estadística, estamos traba"ando con una ipó%"i" nula, ue simbolizaremos por H 9. Munto a esta, consideramos la ipó%"i" al%!na%iva, opuesta a la anterior, ue ueda simbolizada por H 1. Geamos en ué consiste cada una de ellas'
ipó%"i" nula F H 9. Establece una hipótesis ue provisionalmente se considera como verdadera. • ipó%"i" al%!na%iva F H 1. 0oda hipótesis nula va acompa!ada de una hipótesis alternativa, la cual afirma el supuesto contrario de la hipótesis nula. •
Puesto ue cada una de estas hipótesis afirma lo contrario ue la otra es incompatible ue ambas sean ciertas. Por tanto, si llegamos a la conclusión de ue la hipótesis nula no se cumple, podemos afirmar ue se cumple la hipótesis alternativa y viceversa.
CONTRASTE DE IPÓTESIS PARA LA MEDIA. El proceso ue se sigue para contrastar un hipótesis respecto a la media, a través de una muestra es el siguiente' •
Establecer la hipótesis nula, ! 7. En ella supondremos ue la media, µ, es igual al valor µ 7 . ! 7 ' µ = µ 7
Inferencia estadística.
&)
ESTADÍSTICA Esta hipótesis se denomina ipó%"i" nula porue parte del supuesto de ue es nula la diferencia entre el valor verdadero de la media y su valor hipotético. •
Establecer la hipótesis complementaria a la hipótesis nula, ue es la ipó%"i" al%!na%iva ' ! 5 ' µ ≠ µ 7
•
3efinir la ley de probabilidad de la población y de la muestra, ue en nuestro caso es la ley de distribución normal.
•
&e establece el nivel de confianza, 5 - α, o el correspondiente nivel de significación, α.
•
3eterminar la zona de aceptación de ! 7. Para ello partimos del intervalo de confianza antes visto' − z α B 8
p x
restando
x
n
< µ < x + z α B
σ
n
8
= 5 − α
a los tres miembros y operando, se obtiene'
p µ − z
•
σ
B
α
8
σ
n
< x < µ + z α B 8
σ
n
= 5 − α
&i el valor de la media x de la muestra está dentro del intervalo, se acepta la hipótesis nula ! 7 y en caso contrario se rechaza, admitiendo la hipótesis alternativa ! 5. La zona de rechazo se denomina !6ión c!,%ica .
n contraste de hipótesis no establece la verdad de la hipótesis, sino un criterio de aceptación de la misma y la decisión se toma a partir de una muestra y con un determinado nivel de significación.
CONTRASTES BILATERALES Y UNILATERALES. Las hipótesis nula y la hipótesis alternativa deben ser mutuamente e#cluyentes y complementarias, y el contraste de hipótesis puede ser bilateral o unilateral. •
*uando la región crítica se situa a ambos lados de la zona de de aceptación de la hipótesis nula se denomina con%!a"% bila%!al o con%!a"% + +o" cola". α/2
Inferencia estadística.
α/2
&-
ESTADÍSTICA
− z
α
z α
8
8
/?PO0E&?&' ! 7 ' µ = µ 7 ! 5 ' µ ≠ µ 7
2egión de aceptación'
µ 7 − z B 8
σ
α
n
, µ 7
n
σ
+ z
B α 8
2egión de rechazo o crítica' x ≤ µ 7 − z α B 8
σ
n
o
x ≥ µ 7 + z α B 8
σ
n
Observación.
*uando la desviación típica poblacional no sea conocida, y la muestra sea suficientemente grande podremos utilizar la desviación típica de la muestra o, en su caso, la indiue la hipótesis. Ejemplo: &e cree ue el cociente intelectual medio de los estudiantes de una universidad es 55C, con una desviación típica de 6. Para contrastar la hipótesis, se e#trae una muestra de 597 estudiantes y se obtiene en estos estudiantes un cociente intelectual medio de 55:. TPodemos aceptar la hipótesis con un nivel de significación del : @U. ! 7 ' µ = 55C . /ipótesis nula, /ipótesis alternativa, ! 5 ' µ ≠ 55C . *omo el tama!o de la muestra es superior a C7, las medias muestrales se 6 distribuirían (si la hipótesis fuese cierta) seg%n una ley N 55C, . 597 La región de aceptación al nivel de confianza del ;: @ es 55C − 5.;= B 6 , 55C + 5.;= B 6 H (555 .;9 , 55<.78) . 597 597 En la muestra hemos obtenido una media de 55:, ue no pertenece a la región de aceptación sino ue pertenece a la región crítica. Por tanto, con un nivel de confianza del ;: @ rechazamos la hipótesis nula, y aceptamos la alternativa, es decir, no podemos dar por bueno ue el cociente intelectual medio de los alumnos de esa universidad sea de 55C. •
*uando la región crítica se sit%a en una de las dos colas, se denomina con%!a"% unila%!al o con%!a"% + una cola.
CONTRASTE UNILATERAL DERECO. La región crítica se sit%a en el lado derecho.
Inferencia estadística.
&3
ESTADÍSTICA
α
zα /?PO0E&?&' ! 7 ' µ ≤ µ 7 ! 5 ' µ > µ 7
2egión de aceptación'
− ∞ , µ 7 + z
B
µ 7 + z
,
α
n
σ
R6ión + !ca?o α
B
σ
n
+ ∞
Observación.
Es importante hacer notar ue al uedar la región crítica en una sola cola, determinamos z , con la condición p ( Z < z ) = 5 − α . CONTRASTE UNILATERAL I@GUIERDO. La región crítica se sit%a en el lado izuierdo. α
α
α
-zα /?PO0E&?&' ! 7 ' µ ≥ µ 7 ! 5 ' µ < µ 7
2egión de aceptación'
Inferencia estadística.
&4
ESTADÍSTICA
µ 7 − z B
σ
α
,
n
+ ∞
R6ión + !ca?o − ∞
, µ 7
− z
α
B
n
σ
Ejemplo:
El peso de los pollos de una gran"a es una distribución normal de media 8.= [g y desviación típica 7.:. &e e#perimenta un nuevo tipo de alimentación con :7 crías. *uando se hacen adultos se les pesa y se obtiene una media de 8.69 [g. Gamos a contrastar la hipótesis de ue el peso medio de la población no aumenta con un nivel de significación del 5 @. ! 7 ' µ ≤ 8.= /ipótesis nula' /ipótesis alternativa' ! 5 ' µ > 8.= *omo el nivel de confianza es del ;; @, p ( Z < z ) = 7.;; , de donde se obtiene 7.: ue z = 8.CC . N, por tanto, la región de aceptación es' − ∞ , 8.= + 8.CC B , o :7 sea, ( − ∞ , 8.6= ) . $hora comprobamos ue el valor obtenido mediante la muestra ueda en la región crítica, fuera de la región de aceptación, y por esto, rechazamos la hipótesis nula y aceptamos la alternativa con un nivel de significación del 5 @. Es decir, aceptamos ue la población aumentará de peso con la nueva alimentación utilizada en la gran"a. α
α
CONTRASTE DE IPÓTESIS PARA LA PROPORCIÓN. CONTRASTE BILATERAL. IPÓTESIS = p7 ! 5 ' p ≠ p 7 ! 7 ' p
R6ión + acp%ación p − z α B 7 8
p q 7 7 n
, p
7
p q 7 7 n
+ z α B 8
R6ión c!,%ica o + !ca?o p R ≤ p
7
− z α B 8
p q 7 7 n
o
p R ≥ p
7
+ z α B
p q 7 7 n
8
Ejemplo:
Inferencia estadística.
&5
ESTADÍSTICA n dentista afirma ue el <7 @ de los ni!os de diez a!os presentan indicios de caries dental. 0omada una muestra de 577 ni!os, se observó ue C7 presentaban indicios de caries. tilizando la apro#imación normal ueremos comprobar, con un nivel de significación del : @, si el resultado proporcionado por la muestra permite rechazar la hipótesis del dentista. ! 7 ' p = 7.< /ipótesis nula' /ipótesis alternativa' ! 5 ' p ≠ 7.< n nivel de significación del : @ determina ue z = 5.;= , y tenemos la α
8
siguiente región de aceptación' p − z α B 7 8
7.< − 5.;=
B
p q 7 7 n
, p
7
+ z α B
p q 7 7 n
8
7.< B 7.= 577
, 7.< + 5.;= B
7 .< B 7 .= 577
( 7.C7< , 7.<;= )
Es decir, si la hipótesis nula fuese cierta, con un nivel de significación del : @, la proporción de ni!os con indicios de caries en esa población estaría comprendida entre el C7.< @ y el <;.= @. *omprobamos ue la proporción obtenida en la muestra ueda en la región crítica, y por esto, rechazamos la hipótesis nula y aceptamos la alternativa con ese nivel de significación. Es decir, rechazamos la hipótesis del dentista, y aceptamos ue el porcenta"e de ni!os con indicios de caries es distinto del <7 @. CONTRASTE UNILATERAL DERECO. /?PO0E&?&' ≤ p 7 ! 5 ' p > p 7 ! 7 ' p
2egión de aceptación'
R6ión c!,%ica
7
, p
7
+ z α
p + z B 7 α
p B
7
Bq
7
n
p q 7 7 , 5 n
Ejemplo: &eg%n la ley electoral de cierto país, para obtener representación parlamentaria, un partido político ha de conseguir más del : @ de los votos. Poco antes de celebrarse las elecciones, una encuesta realizada sobre 5777 ciudadanos elegidos al azar revela ue sólo =: de ellos votarán al partido G. TPuede estimarse, con un nivel de significación del 5 @, ue G no tendrá representación parlamentariaU. TN con un nivel de significación del : @U ! 7 ' p ≤ 7.7: /ipótesis nula' /ipótesis alternativa' ! 5 ' p > 7.7:
Inferencia estadística.
&8
ESTADÍSTICA n nivel de significación del : @ determina ue y tenemos la siguiente región de aceptación' 7
, p
7 ,
7
+ z α
z α
= 8.CC , ( p ( Z < z ) = 7.;; ), α
p B
7
Bq n
7.7: + 8.CC B
7
7.7: B 7.;: 5777
[ 7 , 7.7== )
Es decir, si la hipótesis nula fuese cierta, con un nivel de significación del 5 @, la proporción de votantes de G sería inferior al =.= @. *omprobamos ue la proporción =: = 7.7=: , es de un =.: @ y ueda en la región de obtenida en la muestra 5777 aceptación, y por esto, aceptamos la hipótesis nula, y rechazamos la hipótesis alternativa, con ese nivel de significación. Es decir, aceptamos ue el partido tendrá menos del : @ de los votos y por tanto no tendrá representación parlamentaria. &i el test lo hiciésemos con un nivel de significación del : @, la región de aceptación sería [ 7 , 7.7=5) y rechazaríamos la hipótesis nula. N, por tanto, con ese nivel de significación diríamos ue si tendría representación parlamentaria el partido G.
CONTRASTE UNILATERAL I@GUIERDO. /?PO0E&?&' ≥ p 7 ! 5 ' p < p 7 ! 7 ' p
2egión de aceptación' p − z 7 α
p B
7
Bq
n
7 , 5
R6ión c!,%ica 7 , p − z B 7 α
p q 7 7 n
Ejemplo: En las %ltimas votaciones, hace un a!o, el :C @ de los votantes de un pueblo estaban a favor del alcalde. &e acaba de realizar una encuesta a C=7 personas elegidas al azar y 56= de ellas estaban a favor del alcalde. T&e puede afirmar con un nivel de confianza del ;7 @ ue el alcalde no pierde popularidadU 0est de hipótesis para la proporción (unilateral izuierdo). ! 7 ' p ≥ 7.:C /ipótesis nula' /ipótesis alternativa' ! 5 ' p < 7.:C Es decir, la hipótesis nula mantiene ue la proporción de votos favorable al alcalde es la misma de las pasadas elecciones o ha aumentado.
Inferencia estadística.
)9
ESTADÍSTICA n nivel de confianza del ;7 @, nos da un interpolando). 2egión de aceptación' p − z 7 α
p B
7
7.:C − 5.89 B ( 7.<;=
z α
Bq
n
= 5.89 ( z = 5.8956 , α
7 , 5
7.:C B 7.<6 C=7
, 5]
, 5
*onsideramos ahora los resultados de la muestra' un <9.; @ estuvieron a favor 56= = 7.<9; , y como este resultado cae fuera de la región de aceptación del alcalde C=7 rechazamos la hipótesis nula, y aceptamos ue el alcalde ha perdido popularidad. 1o podemos considerar ue el alcaldde no la haya perdido.
ERRORES EN EL CONTRASTE DE IPÓTESIS. $l aplicar un test estadístico, podemos cometer dos tipos de errores. E""O" #E $%&O %. &e
comete cuando la hipótesis nula es verdadera y, como consecuencia del contraste, se rechaza. E""O" #E $%&O %%. &e
comete cuando la hipótesis nula es falsa y, como consecuencia del contraste, se acepta. 1aturalmente, al aplicar el test ignoramos si cometemos error o no lo cometemos. Lo ue si podemos hacer es intentar evaluar la probabilidad de cometer error de uno u otro tipo y dise!ar el e#perimento de modo ue dichas probabilidades de error se reduzcan al má#imo. Ejemplo:
Las estaturas de las alumnas de *F eran, en 5;;7, de media 5=6 cm y desviación típica 6 cm. Emitimos la hipótesis de ue las actuales alumnas de 8K de achillerato tienen la misma media. Gamos a contrastar la hipótesis mediante una muestra de tama!o =7 y con un nivel de significación del 7.5. ! 7 ' µ = 5=6 /ipótesis nula' /ipótesis alternativa' ! 5 ' µ ≠ 5=6 (5=: .:5 , 5=9 .<; ) La región de aceptación sería' &i al e#traer la muestra obtenemos una media de 5=9.68 cm, rechazamos la hipótesis nula. Pero podemos estar euivocados. Es decir, podemos cometer un error de tipo ?. &i al e#traer la muestra obtenemos una media de 5=9.58 cm, aceptamos la hipótesis nula. &i estuviéramos euivocados se cometería un error de tipo ??. *uando se acepta la hipótesis nula / 7 decimos ue la diferencia e#istente entre el valor del parámetro formulado por la hipótesis nula y el valor ue le correspondería, seg%n la información ue proporciona la muestra, es no "i6ni0ica%iva, mientras ue si se
Inferencia estadística.
)1
ESTADÍSTICA rechaza la hipótesis nula / 7 para α H :@ decimos ue e#iste una +i0!ncia "i6ni0ica%iva y para α H 5@ decimos ue e#iste una +i0!ncia $u2 "i6ni0ica%iva .
PROBABILIDAD DE COMETER UN ERROR DE UN TIPO U OTRO. La probabilidad de cometer error de tipo ? es precísamente α, el nivel de significación, pues si la hipótesis es verdadera, nos e#ponemos a rechazar el α B 577 @ de las medias muestrales. Esta probabilidad no depende del tama!o de la muestra. La probabilidad de cometer un error de tipo ?? depende del verdadero valor de µ y del tama!o de la muestra. &i suponemos ue se comete un error de tipo ??, y si µ es el verdadero valor de la media y µ7 el ue le atribuimos mediante la hipótesis nula, estos valores son distintos. En los gráficos siguientes la curvas de línea continua representan la verdadera distribución de las medias muestrales (media µ). Las curvas de línea discontinua son las supuestas distribuciones (media µ7). &obre ellas se construyen los intervalos de aceptación. El área marcada nos da, en cada caso, la proporción de muestras para las cuales se aceptaría la hipótesis nula y, por tanto, se cometería un error de tipo ??. Es claro ue para muestras grandes esta probabilidad es mucho menor. n p
n 6!an+
Inferencia estadística.
)#