1
INFERENCIA ESTADÌSTICA: Profesor: Juan Garrido Zúñiga (Ms. Sc. Estadística - Matemática) Una población la constituyen todos los elementos (entidades) del universo con respecto al cual se desea investigar, obtener conclusiones, tomar decisiones, etc. Para una población finita el número nú mero de elementos se denota por N . Una muestra
aleatoria de tamaño n es un conjunto de variables aleatorias
( X 1 , X 2 , .........., X i , ........., X n ) tales
i) ii)
que: Las variables aleatorias X son independientes Las variables aleatorias X tienen la misma probabilidades i
i
distribución
de
Una muestra es un conjunto de valores ( x1 , x2 , ........., x , ......, x ) que toman las variables aleatorias X que componen una muestra aleatoria de tamaño n. i
n
i
¿Porque debemos extraer muestras desde una población? Respuesta: Porque en todo estudio, proyecto, investigación, etc. existen ciertas características numéricas que describen a la población y que reciben el nombre de parámetros. Los verdaderos valores de estos parámetros son desconocidos debido a que observar (medir, encuestar, etc.) a todas los elementos de la población (Censo) está descartado por tener costos prohibitivos y además demandar mucho tiempo. Como alternativa entonces, seleccionamos en forma aleatoria, un subconjunto de la población llamado muestra y a partir de los valores observados en la muestra calculamos estimaciones de estos parámetros desconocidos. La Inferencia Estadística es una técnica mediante la cual a partir de las observaciones obtenidas de una muestra aleatoria, se infieren conclusiones para
2
toda la población de interés. Se usa entonces el método inductivo, dado que se proyecta desde lo específico (muestra) hacia lo general (población). Evidentemente en un procedimiento de esta naturaleza debemos admitir la posibilidad de error y nunca se tendrá certeza sobre una proposición basada en la observación de una muestra. Sin embargo, la estadística es una ciencia y asociada a cualquier proposición, existe una medida de la confiabilidad de esta, la cual se mide en términos de probabilidad, esto es, para cada inferencia estadística conocemos la probabilidad de que tal inferencia sea correcta. El análisis de datos con propósitos
inferenciales consta de las siguientes etapas:
1) Estimación Puntual de un parámetro 2) Estimación de un parámetro por Intervalos de Confianza 3) Pruebas de Hipótesis para uno o más parámetros
1) Estimación Puntual: Como se mencionó anteriormente un parámetro es una característica numérica descriptiva de toda la población. Como los parámetros son desconocidos, dado que no censamos la población, extraemos muestras aleatorias desde la población, y con los valores obtenidos de la muestra, calculamos los llamados estadísticos. Por lo tanto un estadístico es una función de la muestra y el valor numérico del estadístico, llamado punto muestral, se usa como estimación del parámetro. Se obtiene entonces una estimación puntual del parámetro.
Ejemplos: En una población N ( ; 2 ) se tiene que: N
N
xi Media Poblaciona l
i 1
N
( xi y Varianza Poblaciona l 2
)
2
i 1
N
N
x
i
Pr oporción Poblaciona l P ( X i 1) y
P ( X i 0 ) 1
i 1
N
1 si el atributo está
donde xi
0 si el atributo no está
3
Son ejemplos de parámetros. Mientras que: n
n
x Media muestral X
( x
i
i 1
2
Varianza muestral S n 1
;
n
i
X )
2
i 1
n
1
n
X
i
Pr oporción
1 si el atributo está
i 1
muestral p
donde X i
0 si el atributo no está
n
in
X i
total de sujetos que poseen el atributo en la muestra
i 1
Son ejemplos de estadísticos (estimadores). Para denotar un parámetro genérico (sin especificar de cual se trata) usaremos y para denotar un estimador del parámetro usaremos . Los estimadores de los parámetros se pueden obtener por el Método de Máxima Verosimilitud, por el Método de los Momentos o por el Método de Mínimos Cuadrados (regresión lineal) ˆ
Ejemplo: Las ganancias (dólares) por acción de diez valores bursátiles, en un día fueron: 10 ; 16 ; 5 ; 10 ; 12 ; 8 ; 4 ; 6 ; 5 ; 4. Calcular estimadores puntuales para los parámetros: media, varianza, desviación estandar y la proporción de valores cuya ganancia por acción fué mayor que 8.5 dólares Solución: n
x Media muestral X
i 1
i
8 dólares
n
n
( x
i
2
Varianzamuestral S n 1
X )
2
i 1
n
15.78
1
S n 1 3.97 dólares
n
X
i
Proporción muestral p x1
1 , x2
1 , x3
i 1
0 , x4
n
1 , x5
1 si xi 8.5 0.40 ; donde X i 10 0 si xi 8.5 4
1 , x6
0 , x7
0 , x8
0 , x9
0 , x10
0
4
Propiedades de los Estimadores : Error de estimación: Sea
estimador de un parámetro . Se define el
un ˆ
“error de estimación” por la diferencia:
ˆ
(Puede ser positivo o negativo)
Estimador Insesgado: Sea un estimador de un parámetro . Se dice que el estimador es insesgado si: E ( ) Ejemplo: Sean y estimadores puntuales de un parámetro . La figura ˆ
ˆ
ˆ
ˆ
ˆ
1
2
siguiente corresponde a la distribución muestral de ambos y puede observarse que solo el estimador
1 ˆ
es insesgado puesto que
E ( 1 ˆ
)
E ( 2
y
ˆ
Si no es insesgado, define el sesgo del estimador por: sesgo ( ) ˆ
ˆ
Si un estimador es insesgado se tiene que: ˆ
Ejemplo: Sea
sesgo ( ) ˆ
E ( X i )
y V ( X i )
E ( ) ˆ
0
( X 1 , X 2 , .........., X i , ........., X n ) una mat(n) tal que:
Por lo tanto X i ~ N ( ; 2 )
)
2
E ( X i )
2 Probaremos que X y S n 1 son estimadores insesgados de
X i
2
~ N ( ; )
2
E ( X i ) y
2
2
5
2
Por lo tanto la varianza muestral S n 1 es un estimador insesgado de Es natural preferir, de entre dos estimadores, aquel estimador cuya distribución esté más concentrada alrededor del parámetro poblacional que se está estimando.
Definición: Sean
2
1 y 2 dos
estimadores insesgados de un mismo parámetro calculados con un mismo tamaño de muestra, entonces diremos que: ˆ
ˆ
i)
1
ii)
la eficiencia relativa de
ˆ
es más eficiente
2 ˆ
si Var( 1 ) < Var( 2 ) ˆ
ˆ
Var ( 1 ) ˆ
2 ˆ
respecto de
1
Si la eficiencia relativa es menor que 1, entonces
ˆ
es igual a:
1 ˆ
Var ( 2 ) ˆ
es más eficiente que
2 ˆ
6
Supongamos que tenemos una colección finita ( 1 , 2 , ...., ) de estimadores de ˆ
ˆ
ˆ
n
un parámetro . El estimador más eficiente de entre esta colección, será aquel estimador que sea insesgado de varianza mínima .
Error Cuadrático Medio de un estimador : Sea
ˆ
un estimador de un
parámetro . Se define el error cuadrático medio del estimador por: ˆ
ECM ( ) ˆ
E ( ˆ
) 2
El error cuadrático medio puede expresar como:
ECM ( )
ˆ
E ( ) 2
E ( 2 ) E 2 ( )
ˆ
ˆ
Var ( ) ˆ
E ( 2 ˆ
2 2 ) ˆ
E 2 ( ) 2 E ( ) 2 ˆ
ˆ
E ( 2 ) 2 E ( ) ˆ
Var ( ) ˆ
ˆ
( E ( ) ˆ
) 2
2 )
2 sesgo ( ) ˆ
Por lo tanto: ECM ( ) ˆ
El
ˆ
ECM ( ) es ˆ
E ( ˆ
)
2
2
sesgo ( ) ˆ
Var ( ) ˆ
la suma de dos cantidades positivas y por lo tanto es positivo
Si un estimador
ˆ
es insesgado se tiene que: ECM ( ) ˆ
sesgo ( ) ˆ
0 y en tal caso:
Var ( ) ˆ
Estimador Consistente: Sea un estimador de un parámetro , calculado para ˆ
una población de N elementos y a partir de una muestra aleatoria de tamaño Diremos que este estimador es consistente si:
n
.
Cuando n N se tiene que , lo cual significa que a medida que si se incrementa el tamaño de la muestra n , entonces el valor del estimador tiende a ser más próximo al valor del parámetro. ˆ
Criterio para consistencia: Diremos que un estimador consistente si: lim n
ECM ( )
ˆ
0
de ˆ
un parámetro es
7
Método de Máxima Verosimilitud Es un procedimiento para obtener estimadores puntuales de los parámetros desconocidos de una distribución de probabilidades discreta y/o continua. Las variables aleatorias discretas están definidas por funciones de cuantía: f ( x) P ( X x) tales que i) f ( x) 0 , x
; ii)
f ( x) 1
Las variables aleatorias continuas están definidas por funciones de densidad: b
f ( x) tales que : i) P ( a X b)
f ( x) dx
;
ii) f ( x) 0 , x ; iii ) f ( x) dx 1
a
Usaremos la siguiente secuencia de pasos para obtener un estimador puntual de máxima verosimilitud (EMV), de un parámetro
Paso 1: Se formula la función de verosimilitud, que equivale a la distribución conjunta de una muestra aleatoria ( X 1 , X 2 , .........., X , ........., X ) en la cual las i
n
variables aleatorias X i son independientes e igualmente distribuidas con una función de cuantía o densidad f ( x ; ) , siendo el parámetro a estimar. L X ( )
f ( x1
; ) f ( x2 ; ) .................. f ( xn ; )
Paso 2: Aplicamos logaritmo natural a la función verosimilitud obteniendo: n
ln L X ( ) ln f ( xi ; ) i 1
Paso 3: Se deriva (parcialmente)
ln L X ( ) con respecto al parámetro ln L X ( )
Paso 4: ln L X ( )
0
ˆ
( xi )
,
esto es:
8
Muestreo y distribuciones muestrales. Muestreo Aleatorio (muestreo probabilístico) El muestreo aleatorio es aquel en el cual cada uno de los elementos de la población de interés o población objetivo, tiene una probabilidad conocida de ser incluidos en la muestra. A las muestras obtenidas por este criterio se las llama muestras probabilísticas o científicas .
Muestreo Aleatorio Simple. Formalmente el muestreo aleatorio simple está caracterizado por la siguiente definición: Sean N y n respectivamente el número de elementos de la población y de la muestra. Una muestra aleatoria simple es aquella en que todos los elementos de la población tienen la misma probabilidad de ser seleccionados y se seleccionan independientemente, es decir la selección de un elemento no afecta la probabilidad de que sean seleccionados otros elementos.
Ejemplo: Se realiza el muestreo sin reposición y de modo que cada una de las N n
muestras posibles tenga la misma probabilidad de ser seleccionadas.
, a saber 1, 2, 3, 4, 5 y deseamos Suponga una población de N 5 elementos extraer una muestra aleatoria simple de n 2 elementos, entonces el número de muestras posibles (sin reposición) estará dado por:
N 5 n 2
10
y la probabilidad de ser seleccionada cada una es 0.1
Las diez muestras posibles sin reposición de tamaño
n
2 de este ejemplo son:
(1; 2) ; (1; 3 ) ; (1; 4 ) ; (1; 5 ) ; ( 2 ; 3 ) ; ( 2 ; 4 ) ; ( 2 ; 5 ) ; ( 3; 4 ) ; ( 3; 5 ) ; ( 4 ; 5 )
Distribución muestral (distribución de muestreo) Recordemos que un estadístico es un valor calculado a partir de los valores observados en una muestra aleatoria de tamaño n. Si desde una población
9 2
distribuida normal con una media µ y una varianza σ se extraen todas las muestras posibles de tamaño n y en cada una de ellas calculamos el valor de un estadístico, entonces la distribución de probabilidades del estadístico es la distribución muestral de ese estadístico. La figura siguiente muestra la distribución muestral del estadístico media muestral X
Teorema central del límite Sea ( X 1 , X 2 , .........., X , ........., X ) una muestra aleatoria de tamaño n extraída desde una población (finita o infinita) con cualquier distribución, con media µ y 2 varianza σ . Entonces si X es la media muestral se tiene que: X Z ~ N ( 0 ;1) aprox i
n
n
Sigue una distribución aproximada a una Normal Estandar cuando n La condición n se interpreta como un tamaño de muestra suficientemente grande y para propósitos prácticos un tamaño de muestra n 30 es suficiente
10
La distribución muestral de la media muestral
ˆ
X
Recordemos que la distribución de la media muestral X cuando la muestra 2 2 ~ ( ; ) de donde resulta que: X N ( ; ) proviene de una población N es: n 2
E ( X )
Var ( X )
y
A la desviación estándar de
Z
X
n X
~
N ( 0 ;1)
n
se la llama
error estándar de X :
X
n
Ejemplo:
Distribución poblacional y muestral de
X para
una población N(500 ; 2500) n = 25
La distribución chi cuadrado con r grados de libertad ( ) 2
r
Una variable aleatoria continua X tiene distribución chi cuadrado con r grados de libertad si su distribución corresponde a una distribución Gamma con el parámetro 2 y el parámetro . Como la media de una variable
r
2
2 distribuida Gamma es y la varianza es , se tiene entonces que:
X ~ r 2
E ( X ) ( 2r ) (2) r y Var ( X ) ( 2r ) (22 ) 2 r
11
Teorema: Sea
( X 1 , X 2 , .........., X i , ........., X n ) una muestra aleatoria de variables
distribuidas chi cuadrado con (r 1 , r 2 , .........., r , ........., r ) grados de libertad, entonces i
n
n
se tiene que:
X i
~ 2
. Por lo tanto la suma de variables aleatorias chi
r i
i 1
cuadrado se distribuye chi cuadrado con la suma de los grados las variables X (Aditividad de la distribución chi cuadrado)
de libertad de
i
La distribución muestral de la varianza muestral
2
ˆ
S n2
1
Sea ( X 1 , X 2 , .........., X , ........., X ) una muestra aleatoria extraída desde una i
población normal muestral:
J
(n 1)
n
2
) . Entonces la siguiente función de la varianza
N ( ; 2
S n
1
2
se distribuye chi cuadrado con (n-1) grados de libertad
La distribución t de Student: Sean independientes tales que: aleatoria
T
X 1 X 2
~ t n
~
X 1
N ( 0
X 1 y X 2 dos variables aleatorias
y
;1)
X 2 ~
r 2 . Entonces la variable
(t de Student con (n – 1) grados de libertad)
1
r
A partir de esta definición podemos construir una variable distribuida t de Student usando las siguientes variables aleatorias independientes: X 1
X
~
y
N (0 ;1 )
X 2
(n 1)
n
X
T
X 1
Por lo tanto se tiene que:
X
n
2
(n 1) S n
X
2
r
S n
1
~ n2
X 2
T
2
S n
S n
1
1
2
1
n
~
t ( n
1)
n
~
t ( n
1)
1
12
La distribución muestral de la proporción muestral
X i p n ˆ
Sea ( X 1 , X 2 , .........., X , ........., X ) una muestra aleatoria de variables aleatorias i
n
1
0 si
distribuidas Bernoulli, esto es: X i
si el atributo está presente el atributo no está presente
La suma de estas variable aleatorias, esto es X
i
distribución Binomial con parámetros n y p con
total de éxitos, tiene una p
X i
ˆ
n
, por
lo tanto
tendremos que: E ( X i ) np y Var ( X i ) np (1 p) . Para obtener la distribución muestral de
p
X i E ( p ) E ( )
p
ˆ
n
np n
ˆ
calculamos la media y varianza de este estimador:
Por lo tanto el error estándar de
y p ˆ
Var ( p ) Var ( ˆ
es:
p
X i )
np (1 p )
n
p (1
n
2
p (1 p) n
p )
ˆ
n
Aplicando el Teorema Central del límite tendremos entonces que: Z
p ˆ
p
p ( 1
p )
~ N ( 0 ;1) ,
equivalentemente Z
X i
n p
~ N ( 0 ;1)
n p (1 p)
n
Intervalos de confianza: Una estimación por intervalo de confianza de un parámetro desc onocido θ es un intervalo de la forma: l inf l sup , donde los límites inferior l in f y superior l su p dependen del valor numérico del estadístico (estimador) , ˆ
para una
muestra en particular, y además de la distribución muestral de . Dado que muestras diferentes generan valores distintos del estimador y de los límites inferior y superior, estos límites son variables aleatorias Linf y Lsup tales que la siguiente proposición de probabilidad es verdadera: P ( Linf Lsup ) 1 ˆ
ˆ
13
La probabilidad ( 1 ) recibe el nombre coeficiente de confianza. Por lo tanto tenemos una probabilidad ( 1 ) de seleccionar una muestra que genere un intervalo que contenga el verdadero valor del parámetro θ 2 1.- Intervalo de confianza para la media µ de una población N ( ; )
1.1.- Se conoce la varianza poblacional
2
Usaremos para obtener este IdC para µ el estadístico (pivot)
Z
X
~
N ( 0 ;1 )
n
z
z
1
1
2
De la figura podemos observar que: remplazando
X
Z
z
1
P ( z
2
)
Z z 2
1
2
, de donde
y despejando µ resulta entonces:
n
X Z
1
La expresión
Z
1
2
n
2
n
X Z
1
recibe el nombre de
por intervalo y la denotaremos por:
ME
Z
2
n
margen de error de la estimación
1
2
n
.
Como puede observarse que
el margen de error depende del nivel de confianza a través de
z
1
2
, de la
desviación estándar σ y del tamaño de muestra (inversamente proporcional) De acuerdo con esto, el intervalo de confianza (1 – α) para el parámetro µ puede escribirse como X ME X ME o como µ = X ME
14
Tamaño de muestra para estimar la media poblacional µ El tamaño de la muestra juega un papel importante para determinar la probabilidad del error y la precisión de la estimación. Una vez que se ha seleccionado el nivel de confianza, dos factores influyen en el tamaño de 2 muestra: 1) La varianza de la población σ sobre la cual nada puede hacer el investigador, y 2) el tamaño del error que el investigador está dispuesto a tolerar, el cual depende de que tan crítico sea el trabajo que se está realizando. De la distribución muestral de X se tiene que Z X desde donde podemos
n
Z
despejar n resultando:
n
2
1
( X
2
2
)
, donde
2
Z
2
1
2
depende de la confiabilidad, por ejemplo
Z 0.97 5
1.96
para un nivel de
confianza del 95 %. Recordemos que el error de estimación es E , el cual en este caso particular es E X De esta forma para estimar por un intervalo de confianza ( 1 ) la media de la
ˆ
población usaremos la fórmula:
Z n
2
1
2
2
E
2
Importante: Recordemos que se definió a la desviación estándar de X como el error estándar de X : n . Esta fórmula es apropiada solo si el muestreo X
se realiza con remplazo o si la muestra se selecciona desde una población muy grande (virtualmente infinita). Si el muestreo se realiza sin remplazo y si el tamaño de la muestra es más del 5 % de la población, esto es, n 0.05 N debe aplicarse un factor de corrección para población finita y la fórmula apropiada para el error estándar es:
X
N
n
n
N
tal caso se deduce de la expresión:
1
Z
. El cálculo del tamaño de muestra en X
N n
n
N 1
tamaño demuestra n resultando la siguiente fórmula:
, de donde despejamos el
n
N
2
2
E Z
2
1 2
( N 1)
2
15
Observación importante: En ambas fórmulas para el tamaño de muestra para 2
estimar la media µ, aparece involucrada la varianza de la población σ , que en la práctica no se conoce y debemos previamente obtener una estimación puntual. Una forma es aplicar primero un muestreo piloto, el cual consiste en seleccionar una muestra muy pequeña (Unos diez a quince casos por ejemplo) y 2 desde ella calcular una estimación S de σ y utilizar esta estimación para calcular el tamaño de la muestra. Otra opción (no siempre aplicable) es recordar que bajo la curva normal un 95 % de los casos se encuentra entre µ - 2σ y µ + 2σ (ver figura), lo cual cubre una amplitud de cuatro desviaciones estándar, esto es 4σ. Entonces si se conocen los valores mínimo y máximo de un rango igual al 95 %, se divide este rango por 2 cuatro y se obtiene así una estimación de la varianza σ 2
1.2.- No se conoce la varianza poblacional
2
Usaremos para obtener este IdC para µ el estadístico (pivot)
T
X S n 1
~ t ( n
n
T
t 1
2
De la figura podemos observar que: remplazando
T
X
S n
1
n
t
1
1
P ( t
2
)
T t 2
1
2
y despejando µ resulta entonces:
, de donde
1)
16
X t 1 2
La expresión
t
S n 1
1
n
por intervalo y la denotaremos por:
S n 1
X t
1
ME
t
2
n
margen de error de la estimación
recibe el nombre de
n
2
S n 1
S n 1
1
.
2
n
Como puede observarse que t
el margen de error depende del nivel de confianza a través de desviación estándar
S n 1
1
2
, de la
y del tamaño de muestra (inversamente proporcional)
De acuerdo con esto, el intervalo de confianza (1 – α) para el parámetro µ puede escribirse como X ME X ME o como µ = X ME
Observación respecto el tamaño de muestra para estimar µ: Para estimar la media poblacional µ cuando no se conoce la varianza 2 poblacional σ se utilizan las mismas fórmulas ya tratadas en el caso anterior 2 2 (varianza σ conocida), pero sustituyendo σ por su estimador S (varianza muestral). Por lo tanto: 2
n 1
2
t n
1
2
S n
2
E
2
1
(Población virtualmente infinita y muestreo con remplazo) 2
n
N S n 1
(Población finita y muestreo sin remplazo) ;
2
E
2 1 2
t
( N 1)
n
0.05 N
2
S n 1
Podemos observar que Z 0.97 5 1.96 y aproximar ambos valores a 2.00 y usar
Z
t 0.97 5; 30
2
1
2
=
2
t
1
2.04 por
2
lo tanto podemos
= 4.0
2.- Intervalo de confianza para una proporción p Como en los dos casos anteriores, usaremos la distribución muestral del estimador del parámetro p n , la cual, como ya lo vimos, aplicando el Teorema Central del Límite, es una distribución normal aproximada si n ≥ 30 X i
ˆ
17
resultando entonces la expresión
Z
p ˆ
p
p ( 1
p )
~ N ( 0 ;1) .
Entonces un Intervalo
n X de Confianza (1 – α) para el parámetro p n es: i
ˆ
p ˆ
Z 1
p (1 p ) ˆ
ˆ
2
n
p
p
ˆ
Z 1
p (1 p ) ˆ
ˆ
2
n
Tamaño de muestra para estimar la proporción poblacional p Del estadístico inferencial (pivot):
Z
p ˆ
resulta, teniendo en cuenta que
p
p ( 1
p )
n
el error de estimación es
E
p ˆ
p
y
Z
Z
1
, despejando n queda:
2
2
n
Z 1
20
E 2
p (1
p) .
Para aplicar esta fórmula se requiere una estimación
p ˆ
del
parámetro p, la cual puede lograrse a partir de alguna muestra piloto anterior. Otro enfoque para seleccionar el tamaño de muestra es utilizar el hecho de que la expresión para n es máxima si p 0.5 , esto es p (1 p) 0.25 , con esto se obtiene una cota superior para n con lo cual:
2 1
Z n
2
2
E
(0.25)
3.- Intervalo de confianza para la varianza poblacional σ2 El estadístico inferencial (pivot) para este caso es
2
(n 1)
S n
J
2
2
2
El intervalo de confianza (1-α) para σ es:
(n 1) S n 1
12
; n 1 2
2
1
~
(n
2
n
º
2
1) S n 1
2 2
; n 1