Teorema del Límite Central Introducción El teorema central del límite, uno de los fundamentales en estadística, estudia el comportamiento de la suma de variables aleatorias, cuando crece el número de sumandos, asegurando su convergencia hacia una distribución normal en condiciones muy generales. Este teorema, del cual existen diferentes versiones que se han ido desarrollando a lo largo de la historia, tiene una gran aplicación en inferencia estadística, pues muchos parámetros de diferentes distribuciones de probabilidad, como la media, pueden expresarse en función de una suma de variables. Permite también aproximar muchas distribuciones de uso frecuente: binomial, Poisson, chi cuadrado, t-student, gamma, etc., cuando sus parámetros crecen y el cálculo se hace difícil. Por otro lado, la suma de variables aleatorias aparece en forma natural en muchas aplicaciones de la ingeniería: determinación de masa forestal, carga soportada por una estructura, tiempo de espera de servicios, etc. El teorema se apoya y relaciona entre sí con otros conceptos y procedimientos básicos en estadística, como los de variable aleatoria y sus transformaciones, distribución muestral, convergencia, tipificación, cálculo de probabilidades, etc. La distribución de frecuencias es uno de los primeros pasos que debemos realizar al inicio del análisis estadístico, conjuntamente con la aplicación de las medidas descriptivas, y refleja cómo se reparten los individuos de una muestra según los valores de una variable. Cuando se trata de poblaciones, la probabilidad de observar los diferentes valores de una variable aleatoria pueden expresarse como una función de probabilidad. La mayoría de los fenómenos de interés en investigación científica, como pueden ser la talla y la presión arterial, siguen unas leyes o distribuciones de probabilidad teóricas, especificadas matemáticamente en las que se basan la mayoría de los métodos estadísticos. La distribución más conocida es la distribución Normal o de Gauss. Muchos de los procedimientos estadísticos habitualmente utilizados asumen la normalidad de los datos observados. Aunque muchas de estas técnicas no son demasiado sensibles a desviaciones de la distribución normal, y en general esta hipótesis puede obviarse cuando se dispone de un número suficiente de datos (teorema central del límite), resulta recomendable contrastar si se puede asumir o no una distribución Normal. Para decidir si nuestra muestra procede o no de una distribución normal existen gráficos y contrastes de hipótesis que pueden ayudarnos. Cuando los datos no son normales pueden transformarse o emplearse otros métodos estadísticos que no exijan este tipo de restricciones, llamados los métodos no paramétricos. [Alvarado, H., Batanero, C.. (2008). SIGNIFICADO DEL TEOREMA CENTRAL DEL LIMITE EN TEXTOS UNIVERSITARIOS DE PROBABILIDAD Y
ESTADISTICA. Juio 28, 2008, de Universidad Católica de la Santísima Concepción Sitio web: http://www.scielo.cl/pdf/estped/v34n2/art01.pdf ]
Marco Teórico Sabemos que la distribución de la media muestral de una variable normal o bien tiene distribución normal o bien se corresponde con una t de Student. También hemos visto que si las variables originales siguen una distribución de Bernoulli, entonces su media es una proporción y, en este caso, cuando n es lo bastante grande, su distribución muestral también es una normal. El último resultado es cierto sea cual sea la distribución de los datos originales. Es decir, no es preciso que partamos ni de distribuciones normales ni de distribuciones de Bernoulli, ya que para muestras de tamaños lo bastante grandes, la distribución de la media muestral es normal sea cual sea la distribución original. Este resultado fundamental de la estadística tiene un nombre propio: el teorema del límite central. El teorema del límite central dice que si una muestra es lo bastante grande (n > 30), sea cual sea la distribución de la variable de interés, la distribución de la media muestral será aproximadamente una normal. Además, la media será la misma que la de la variable de interés, y la desviación tí- pica de la media muestral será aproximadamente el error estándar. [Rovira, C.. (2008). Teorema del Límite Central. Noviembre 22, 2009, de UOC Sitio web: http://www.calidad.com.mx/docs/art_64_1.pdf ] Una consecuencia de este teorema es la siguiente: Dada cualquier variable con aleatoria con esperanza E(x) y para n lo bastante grande, la distribución de la variable es una normal estándar. Siempre que se quiera realizar un estudio, debemos medir las variables que caracterizan los resultados del mismo. Tales variables se conocen como variables aleatorias. Decimos que una variable es continua si puede tomar cualquier valor en un intervalo conocido y es discreta si sólo puede tomar algunos valores. Si cada vez hiciéramos los intervalos más estrechos, así como también aumentáramos el tamaño de muestra veríamos que el histograma tiende a estabilizarse llegando a convertirse su perfil en la gráfica de una función. De esta forma, las distribuciones de probabilidad de variables continuas se definen mediante una función y=f(x) llamada función de probabilidad o función de densidad y asocia valores de una variable aleatoria con sus respectivas probabilidades. La función de densidad de una variable aleatoria cumple que es positiva en todo su dominio, que toma valores entre 0 y 1 y que permite obtener la
probabilidad de que un valor de la variable aleatoria se encuentre entre dos puntos, siendo esta probabilidad el área bajo la curva. El área bajo la curva de cualquier función de probabilidad es 1. EL teorema central del límite es uno de los teoremas estadísticos más importantes, pero son escasas las investigaciones específicas sobre su enseñanza, aunque muchos autores han publicado sugerencias didácticas para facilitar su comprensión por ejemplo, usando simulaciones o gráficos (e.g., Stent y McAlevey, 1990; Glencross, 1988). En relación con la comprensión del teorema central del límite y los diversos conceptos y procedimientos implícitos en él, Méndez (1991) lleva a cabo una investigación con expertos y alumnos. Su estudio tiene como propósito extraer datos fenomenológicos para representar las creencias que los sujetos tienen sobre los aspectos fundamentales del teorema, clasificar los errores más comunes y observar el alcance de las creencias de los alumnos reflejadas en la representación experta. En primer lugar, realiza un análisis de 10 libros de estadística básica e identifica cuatro propiedades básicas que deben entenderse para poder lograr una comprensión sólida del teorema, que resume de la siguiente forma: 1. La media de la distribución muestral es igual a la media de la población, e igual a la media de una muestra cuando el tamaño de la muestra tiende al infinito; 2. La varianza de la distribución muestral es menor que la de la población (cuando n>1); 3. La forma de la distribución muestral tiende a ser acampanada a medida que se incrementa el tamaño muestral y es aproximadamente normal, independientemente de la forma de la distribución en la población; 4. La forma de la distribución muestral crece en altura y decrece en dispersión a medida que el tamaño muestral crece. A partir de textos escritos por expertos matemáticos, representó el conjunto de conocimientos implícito en el teorema central del límite por medio de un mapa conceptual, utilizando las cuatro propiedades anteriores como base de un modelo mental de especialistas sobre el teorema. Este modelo lo usó para tener un marco a partir del cual investigar la comprensión del teorema. Variabilidad y Representatividad muestral Como indica Moses (1992), la idea central de la inferencia es que una muestra proporciona "alguna" información sobre la población y de este modo aumenta el conocimiento sobre la misma. El autor indica que la inferencia estadística es una colección de métodos para aprender de la experiencia y su comprensión
requiere el equilibrio adecuado entre dos ideas aparentemente antagónicas: la representatividad muestral y la variabilidad muestral. La representatividad implica que la muestra tendrá a menudo características similares a las de la población, si ha sido elegida con las precauciones adecuadas. La variabilidad indica el hecho de que no todas las muestras son iguales entre sí. El método que explica la representatividad descrito por Kahneman, Slovic y Tversky (1982), consiste en tener en cuenta sólo uno de estos dos componentes, calculando la probabilidad de un suceso sólo sobre la base de la representatividad del mismo respecto a la población de la que proviene. No se tiene en cuenta el tamaño de la muestra y la variabilidad del muestreo, produciéndose una confianza indebida en las pequeñas muestras. Enunciados Diferenciados del Teorema: Se encuentran diversos tipos de presentaciones para el teorema, según el grado de formalización, y que enfatizan diferentes aspectos del significado de los conceptos o se remiten a diferentes formas de aplicación: 1. Enunciado del teorema mediante la convergencia de sucesiones de variables aleatorias, de manera formal y rigurosa con un nivel de matemática avanzado, como el dado por Cuadras (1999): Si es una sucesión de v.a independientes de medias varianza
Var ( x)=σ 2
E ( x )=μ
y
, entonces, en ciertas condiciones generales, la
µ variable suma, reducida: ( Sn−∑ ¿ /
√∑ σ
2
¿
converge en ley N(0,1).
2. Enunciado del teorema como límite ordinario de una sucesión de funciones. En este caso la convergencia tiene un matiz determinista, mientras que en el anterior es aleatoria (en probabilidad). Se reproduce la formulación del teorema por Kalbfleisch (1984): Denotemos por suma
Sn
f n la función de densidad de la probabilidad de la
, o la altura del histograma de
S n en el caso discreto. El
teorema central del límite afirma que, para todo número real Z, 2
lim f n ( z )=
a−¿∞
1 −z exp ( ) . 2 √2 π
3. Enunciado del teorema para la suma de variables independientes no idénticamente distribuidas. (meyer, 1973) Sea
X 1 , X 2 ,… … X n una sucesión de variables aleatorias independientes
con
E ( x )=μ
y con
Var (x)=σ 2
,
i=1,2, … .n
Sea
S n= X 1+ X 2 +… …+ X n . Luego bajo condiciones generales µ Sn−∑ ¿ / √ ∑ σ 2 ¿
Z n =¿ (
tiene aproximadamente la distribución N(0,1)
4. Enunciado del teorema para la suma de variables independientes
idénticamente distribuidas. Esta presentación más restringida del teorema es la más común en los libros, pero en la mayoría se presenta para la media muestral (Mendenhall y Sincich 1997. Se presenta un ejemplo para el caso de la suma: Si se extrae una muestra aleatoria de n observaciones de una población con una media finita
μ
y una varianza
σ
2
, entonces, si n es lo
bastante grande, la distribución de muestreo de la suma
S n=∑ X i
se
puede aproximar con una función de densidad normal cuya media es
nμ
y varianza
n σ2 .
5. Enunciado del teorema de forma general. Son varios los textos aplicados
a la ingeniería que introducen el tema sin formulación matemática. Hoy en día es más conocido el teorema de manera general para el estimador de medias muestrales. Moore (1995) Obtén una muestra aleatoria simple de tamaño n de cualquier población de media
μ desviación finita
σ . Cuando n es grande, la distribución
de la media muestral se aproxima mucho a la distribución normal N(
μ , σ / √ n ) con media
μ y desviación típica
, σ /√n
.
6. Enunciado intuitivo del teorema. Otra forma de presentar el teorema es
a través de la manipulación con objetos didácticos concretos de un experimento. Montgomery y Runger (1996) introducen el teorema mostrando gráficamente que la aproximación normal para X depende del tamaño n de la muestra, mediante la distribución de lanzamientos de varios dados legal de seis caras.
Propiedades
Tauber (2001: 139 a 144) encontró nueve propiedades de la distribución normal que clasificó en geométricas, estadísticas y algebraicas. Entre ellas, las siguientes ponen en correspondencia diferentes elementos de definición, lenguaje, representación y procedimiento del teorema central del límite: P1: La media de una suma de variables aleatorias es siempre la suma de las medias, sea aproximada o exacta la distribución de dicha suma; P2: La varianza de la distribución de la suma de variables aleatorias independientes es la suma de las varianzas; P3: La media aritmética de una muestra aleatoria de tamaño suficientemente grande sigue una distribución aproximadamente normal; P4: La aproximación mejora con el número de sumandos; P5: Las transformaciones lineales de variables aleatorias también siguen una distribución asintótica normal. Además se han encontrado las siguientes propiedades que tratan aplicaciones del teorema: P6: Las medias muestrales en dos poblaciones siguen una distribución aproximadamente normal; P7: Aproximación de una distribución discreta por una continua; P8: Aproximación de algunas distribuciones clásicas a la distribución normal; P9: Los errores aleatorios siguen una distribución normal; P10: Los estimadores de máxima verosimilitud tienen distribución asintótica normal; P11: Los estimadores de los momentos tienen distribución asintótica normal; P12: Corrección de continuidad. [Alvarado, H., Batanero, C.. (2008). SIGNIFICADO DEL TEOREMA CENTRAL DEL
LIMITE EN TEXTOS UNIVERSITARIOS DE PROBABILIDAD Y ESTADISTICA. Juio 28, 2008, de Universidad Católica de la Santísima Concepción Sitio web: http://www.scielo.cl/pdf/estped/v34n2/art01.pdf ]