Concepto de distribución de muestreo
La comprensión del concepto de la distribución de muestreo es fundamental para el correcto entendimiento de la inferencia estadística. Una distribución de la población es la distribución de la totalidad de las medidas individuales de una población, en tanto que una distribución muestral es la distribución de los valores individuales incluidos en una muestra. En contraste con estas distribuciones de medidas individuales, una distribución de muestreo se refiere a la distribución de los diferentes valores que una estadística muestral, o estimador, podría adoptar en muchas muestras del mismo tamaño. Así, aunque por lo general disponemos únicamente de una muestra aleatoria o subgrupo racional, reconocemos que la estadística muestral particular que determinamos, como la media o mediana de la muestra, no es exactamente igual al respectivo parámetro de la población. Más aún, el valor de una estadística muestral variará de una muestra a otra, a causa de la variabilidad del muestreo aleatorio, o error de muestreo. Ésta es la idea en la que se apoya el concepto de que toda estadística muestral es de hecho un tipo de variable cuya distribución de valores está representada por una distribución de muestreo. Distribución muestral de medias Una distribución muestral de medias o una distribución en el muestreo de la media se define como el conjunto de todas las medias que se pueden calcular en todas las muestras posibles que se pueden extraer, con o sin reemplazo, de una determinada población. Para detectar las relaciones a que nos hemos referido, partiremos de un ejemplo con una población pequeña. Media
Es el promedio aritmético de las medias del conjunto de datos; ya sea de la población o de la muestra.
También habremos de referirnos a la media como el valor esperado de X, y se denotará con E (X). Varianza
Es el promedio de la suma de los cuadrados de las desviaciones. Se entiende por desviación la diferencia de una media respecto a la media
Como puede verse, la varianza es una medida de dispersión. Indica, en promedio, qué tan alejados están los datos respecto de la media. Desviación típica o estándar
Es la raíz cuadrada de la varianza.
Por simplicidad, en las expresiones anteriores se acostumbra suprimir el subíndice i, así como los límites de las sumatorias:
Objetivo:
Obtener por medio de los estadígrafos (media y varianza) los parámetros poblacionales para poder determinarla distribución que presentan los años de las monedas de 10 centavos Hipótesis: Haciendo un muestro en la población de monedas de 10C, decimos que la medias
poblacionales del año de fabricación se distribuirán de manera normal Método:
Se tomaron muestras de los años de una población de monedas de 10 centavos, el muestreo se hizo con reemplazo el tamaño de las muestras fue de 20 de las cuales se tomaron 8 en cada una de las muestras n = 8. La otra muestra de 20 de las cuales se tomaron 30 en cada una n = 30, de cada una de estas 20 muestras tanto de 8 como de 30 se obtuvo la media, mediana, varianza, desviación estándar y posteriormente se analizaron los datos
El teorema del límite central o teorema central del límite indica que, en condiciones muy generales, si S n es la suma de nvariables aleatorias independientes, entonces la función de distribución de S n «se aproxima bien» a una distribución normal (también llamada distribución gaussiana, curva de Gauss o campana de Gauss). Así pues, el teorema asegura que esto ocurre cuando la suma de estas variables aleatorias e independientes es lo suficientemente grande.12 Contenido
[ocultar ] Definición
Sea
la función de densidad de la distribución normal definida como1
con una media µ y una varianzaσ 2. El caso en el que su función de densidad es la distribución se le conoce como normal estándar .
,a
Se define S n como la suma de n variables aleatorias, independientes, idénticamente distribuidas, y con una media µ y varianza σ 2 finitas (σ 2≠0):
de manera que, la media de S n es n· µ y la varianza n·σ 2, dado que son variables aleatorias independientes. Con tal de hacer más fácil la comprensión del teorema y su posterior uso, se hace una estandarización de S n como
para que la media de la nueva variable sea igual a 0 y la desviación estándar sea igual a 1. Así, las variables Z nconvergerán en distribución a la distribución normal estándar N (0,1), cuando n tienda a infinito. Como consecuencia, si Φ( z ) es la función de distribución de N(0,1), para cada número real z :
donde Pr( ) indica probabilidad y lim se refiere a límite matemático. [editar]Enunciado formal
De manera formal, normalizada y compacta el enunciado del teorema es:3 Teorema del límite central : Sea X 1, X 2, ..., X n un conjunto de variables
aleatorias, independientes e idénticamente distribuidas con media μ y varianza σ2 distinta de cero. Sea
Entonces
.
Es muy común encontrarlo con la variable estandarizada Z n en función de la media muestral ,
puesto que son equivalentes, así como encontrarlo en versiones no normalizadas como puede ser :45 Teorema (del límite central) : Sea X 1, X 2, ..., X n un conjunto de variables
aleatoria, independientes e idénticamente distribuidas de una distribución con media μ y varianza σ2≠0. Entonces, si n es suficientemente grande, la variable aleatoria
tiene aproximadamente una distribución normal con
y
.
Nota: es importante remarcar que este teorema no dice nada acerca de la distribución de X i, excepto la existencia de media y varianza.4 DISTRIBUCIÓN DE LA DIFERENCIA ENTRE DOS MEDIAS Sean X1 y X2 dos variables aleatorias con valores esperados m1 y m2 y varianzas y , respectivamente. Por ejemplo, X1 puede ser la duración de una batería para carro de una marca, y X2 la duración de una batería de otra marca diferente. Si los medias m1 y m2 son desconocidas, podríamos estar interesados en conocer si ambas baterías tienen la misma duración media. En forma similar, si las varianzas son desconocidas, podríamos estar interesados en saber si son iguales o no. Para realizar estas inferencias, se pueden someter a pruebas idénticas diferentes baterías, controlando los factores externos, de tal forma que las diferencias se deban exclusivamente a la clase de marca probada Inicialmente estaremos interesados en verificar si ambas distribuciones tienen la misma media poblacional, es decir si m1 = m2 ó equivalentemente m1 - m2 = 0. Suponga que es una muestra aleatoria de tamaño n1 tomada de una población con media m1 y varianza , es otra muestra aleatoria de tamaño n2 tomada de una población con media
m2 y varianza . Si deseamos realizar alguna inferencia sobre m1 - m2, nos podemos basar en la distribución de la diferencia de las medias muestrales. Por el TCL sabemos que tanto como se distribuyen normalmente con los siguientes parámetros: , Ahora bien, para la diferencia de las medias muestrales se tiene: Para conocer la distribución muestral de las diferencias entre las medias se debe saber si las varianzas poblacionales son conocidas o desconocidas, y en caso de que sean desconocidas, se debe saber si son iguales o diferentes. Cada uno de estos tres casos se analizará por separado. a) Distribución de la diferencia entre dos medias cuando las varianzas son conocidas. Si las varianzas y son conocidas, tanto como se distribuyen normalmente. Por lo tanto la distribución de la diferencia entre las medias muestrales es normal con el valor esperado y la varianza dados anteriormente, es decir, De acuerdo con lo anterior la siguiente variable aleatoria tiene una distribución normal estándar: Por lo tanto, con base en la expresión anterior se pueden realizar inferencias con respecto a la diferencia de medias poblacionales, bajo el supuesto de que las varianzas sean conocidas. Si además, son iguales, la expresión anterior se puede expresar como: b) Distribución de la diferencia entre dos medias cuando las varianzas son desconocidas pero iguales ( = = ) Cuando las varianzas son desconocidas, se debe realizar previamente una prueba estadística para verificar si éstas son iguales o diferentes. Para realizar esta prueba debemos hacer uso de la distribución F para verificar si la relación de varianzas es igual a uno o diferente de uno. Para cada una de las dos muestras se definen sus respectivas varianzas como: , Además tienen distribuciones chi cuadrado con n1 – 1 y n2 – 1 grados de libertad respectivamente. Por lo tanto su suma también sigue otra distribución chi cuadrado con n1+n2 – 2 grados de libertad. Es decir: Ahora bien, si Z es una variable normal (0,1) y Y tiene una distribución chi cuadrado con n grados de libertad, entonces la variable tiene una distribución t con n grados de libertad. Para nuestro caso la variable Z corresponde a la distribución de la diferencia de las dos medias, con varianzas conocidas, y la variable chi cuadrado corresponde a la variable Y acabada de definir. Por lo tanto donde es un estimador ponderado de la varianza poblacional s
obtenida ponderando las varianzas poblacionales por sus respectivos grados de libertad.
c) Distribución de la diferencia entre dos medias cuando las varianzas son desconocidas y diferentes (¹ ) Cuando las varianzas son diferentes se puede demostrar que la siguiente variable aleatoria T sigue una distribución t con n grados de libertad, donde y el número de grados de libertad n está dado por: Ejemplo. El gerente de una refinería piensa modificar el proceso para producir gasolina a partir de petróleo crudo. El gerente hará la modificación sólo si la gasolina promedio que se obtiene por este nuevo proceso (expresada como un porcentaje del crudo) aumenta su valor con respecto al proceso en uso. Con base en un experimento de laboratorio y mediante el empleo de dos muestras aleatorias de tamaño 12, una para cada proceso, la cantidad de gasolina promedio del proceso en uso es de 24.6 con una desviación estándar de 2.3, y para el proceso propuesto fue de 28.2 con una desviación estándar de 2.7. El gerente piensa que los resultados proporcionados por los dos procesos son variables aleatorias independientes normalmente distribuidas con varianzas iguales. Con base en esta evidencia, ¿debe adoptarse el nuevo proceso? DISTRIBUCION DE LA VARIANZA
La varianza de las muestras sigue un proceso distinto a los de la media y proporción. La causa es que el promedio de todas las varianzas de las muestras no coincide con la varianza de la población s2. Se queda un poco por debajo. En concreto, se verifica que Hemos usado el subíndice n para recordar que en la varianza se divide entre n. Si deseamos que la media de la varianza coincida con la varianza de la población, tenemos que acudir a la cuasivarianza o varianza insesgada, que es similar a la varianza, pero dividiendo las sumas de cuadrados entre n-1. Su raíz cuadrada es la cuasidesviación típica o desviación estándar. Si se usa esta varianza, si coinciden su media y la varianza de la población lo que nos indica que la cuasivarianza es un estimador insesgado, y la varianza lo es sesgado. Distribución muestral de la varianza La suma de cuadrados de la varianza, dividida entre la varianza de la población Se distribuye según una chi-cuadrado c2 con n-1 grados de libertad