ESTIMACION DE PARAMETROS
La estadística descriptiva tal como la hemos visto hasta aquí, no requiere de la teoría de probabil probabilida idades des para para describ describir ir el conjunt conjunto o de datos datos x ",x #,...,x n. Como su nombre nombre lo lo indica, indica, sólo sólo son técnicas para describir, sin importar el orígen de los datos. En particular, no se hace ningún intento para generalizar más allá de la información que se tiene en ese momento. La inferencia estadística, sin embargo, está fundamentalmente interesada en la población, fuente u origen de los datos. Ella supone supone que los los números números x ",x #,...,xn son valore valoress observad observados os de variab variables les aleato aleatorias rias,, los que han han sido recolectados como resultados de realizar, por ejemplo, un experimento que sigue un modelo probabilístico. Este modelo probabilístico puede entonces ser utilizado para realizar inferencias acerca del fenómeno estudiado en el experimento.
1.1. Propósito de la Inferencia Estadística Cuando hablamos de obtener conclusiones respecto de una población particular, nos estamos refiriendo a algunas características distribucionales de la población. Específicamente, nos referimos a algunos parámetros que caracterizan la distribución poblacional. Esto significa que la inferencia en cuestión será relativa a un conjunto de parámetros poblacionales. De aquí que se habla también de inferencia paramétrica Como un ejemplo, supongamos que una estudiante de ingeniería tiene clases de Estadística a las 8 AM los días Lunes, Miércoles y Viernes y hay una probabilidad ) (desconocida) de que ella llegue atrasada a la clase en cualquiera de estos días. La llegada a esta clase cada día podemos pensarla como un ensayo Bernoulli, donde éxito corresponde al hecho de llegar atrasada a la clase de Estadística. Si consideramos que estos ensayos son independientes, para una sucesión de n días de clases clases observ observamos amos X", X #,..., Xn variabl variables es aleato aleatorias rias Bern Bernoull oullii indepen independien dientes, tes, cada cada una una de parámetro parámetro ), donde X i = 1 si la estudiante estudiante llega llega atrasada atrasada en el el día i y X i = 0 si no. no. ¿Cómo esta esta sucesión de ceros y unos podemos utilizarla para obtener información acerca de ), la probabilidad
! n
de llegar llegar atrasada a su clase de Estadística Estadística cada día?. En este caso
x i corresponde corresponde al número número de
iœ"
días, del total de n, en que ella llega llega atrasada, atrasada, por lo que parece parece intuitivamente intuitivamente claro que x =
! n
xi /n sería una buena aproximación aproximación para ).
iœ"
En este este ejemplo ejemplo hemos hemos observ observado ado valore valoress de variabl variables es aleator aleatorias ias indepe independie ndientes ntes X ", X #,..., X n, donde cada una de las X i tiene la misma distribución de probabilidades. probabilidades. En estos casos hablamos hablamos de muestra aleatoria de tamaño n, un concepto que ya habíamos adelantado en la Sección 4.9. Formalme Formalmente, nte, y a modo de recue recuerdo, rdo, si si X ", X #,..., Xn son variab variables les aleato aleatorias rias inde independ pendient ientes es y están idénticamente distribuídas, cada una con la misma distribución de alguna variable aleatoria X, entonc entonces es llamamo llamamoss a X",X#,...,Xn una muest muestra ra aleato aleatoria ria (m.a.) (m.a.) de de la variab variable le aleato aleatoria ria X.
1
Si X" , X# ,..., Xn es una mues muestra tra aleat aleatoria oria de de una varia variable ble aleat aleatoria oria X, entonce entoncess se acost acostumbr umbraa a llamar a X variable aleatoria poblacional o sencillamente población. _ ( X", X#,..., Xn ) es una Por otra otra parte, parte, si si X= una muestr muestraa aleator aleatoria, ia, enton entonces ces su su distrib distribució ución n de probabilidades conjunta está completamente especificada por sus distribuciones marginales. Esto es. fX_ (x" ,x# ,...,xn ) = fX1 (x1).fX2 (x 2).....fXn (x n) = fX (x1 ).fX (x2).....fX (x n) si X es una variable continua y pX_ (x" ,x# ,...,xn ) = pX1 (x1).pX2 (x 2).....p Xn (x n) = pX (x1 ).pX (x2).....pX (x n) si X es una variable discreta. Los Los valores valores observ observado adoss x ", x #,..., x n son llamad llamados os valore valoress de la muestr muestraa aleatori aleatoriaa seleccio seleccionad nados os desde la población en estudio. La definición que estamos manejando para una muestra aleatoria no es válida para poblaciones finitas, cuando por ejemplo n números son seleccionados al azar y sin reemplazo desde una població población n de tamaño tamaño N (N (N n); sin sin embargo embargo,, si una muestra muestra de de tamaño tamaño n se selecc selecciona iona al azar, azar, sin reemplazo, reemplazo, desde una una población población finita y n es pequeño pequeño comparad comparado o con N, entonces entonces X ", X #,..., Xn , satisface, aproximadame aproximadamente, nte, la definición definición de muestra aleatoria aleatoria.. Cuando Cuando X" , X# ,..., Xn es una una muestra muestra aleatori aleatoriaa de una poblaci población ón X, y conoce conocemos mos la la distri distribuci bución ón de probab probabilida ilidades des de X, X, entonce entoncess conocemo conocemoss también también la distri distribuc bución ión conjun conjunta ta de X ", X #,..., X n y podemos evaluar evaluar inmediatamente inmediatamente la distribución de cada X i. Generalmente, Generalmente, por supuesto, uno o más aspectos de la distribución de probabilidades para la población serán desconocidos para nosotros, por ejemplo él o los parámetros que caracterizan a la distribución o incluso podemos desconocer desconocer la densidad o función función de probabilidad, probabilidad, y por lo tanto, debemos debemos sólo suponer suponer que X ", X# ,..., Xn son independien independientes tes y nuestra interrogante interrogante es saber si tienen alguna alguna distribución distribución específica conocida, tal como una distribución normal, exponencial etc. Nuestro propósito en la inferencia, es utilizar los elementos de la muestra para determinar todos los aspectos desconocidos de nuestro interés, en la mejor forma posible, al considerar la distribución de probabilidades de la población. Veremos que ciertas funciones de los elementos de una muestra aleatoria tales como
! n
X =
Xi
iœ"
n
(Media Muestral)
2
Si X" , X# ,..., Xn es una mues muestra tra aleat aleatoria oria de de una varia variable ble aleat aleatoria oria X, entonce entoncess se acost acostumbr umbraa a llamar a X variable aleatoria poblacional o sencillamente población. _ ( X", X#,..., Xn ) es una Por otra otra parte, parte, si si X= una muestr muestraa aleator aleatoria, ia, enton entonces ces su su distrib distribució ución n de probabilidades conjunta está completamente especificada por sus distribuciones marginales. Esto es. fX_ (x" ,x# ,...,xn ) = fX1 (x1).fX2 (x 2).....fXn (x n) = fX (x1 ).fX (x2).....fX (x n) si X es una variable continua y pX_ (x" ,x# ,...,xn ) = pX1 (x1).pX2 (x 2).....p Xn (x n) = pX (x1 ).pX (x2).....pX (x n) si X es una variable discreta. Los Los valores valores observ observado adoss x ", x #,..., x n son llamad llamados os valore valoress de la muestr muestraa aleatori aleatoriaa seleccio seleccionad nados os desde la población en estudio. La definición que estamos manejando para una muestra aleatoria no es válida para poblaciones finitas, cuando por ejemplo n números son seleccionados al azar y sin reemplazo desde una població población n de tamaño tamaño N (N (N n); sin sin embargo embargo,, si una muestra muestra de de tamaño tamaño n se selecc selecciona iona al azar, azar, sin reemplazo, reemplazo, desde una una población población finita y n es pequeño pequeño comparad comparado o con N, entonces entonces X ", X #,..., Xn , satisface, aproximadame aproximadamente, nte, la definición definición de muestra aleatoria aleatoria.. Cuando Cuando X" , X# ,..., Xn es una una muestra muestra aleatori aleatoriaa de una poblaci población ón X, y conoce conocemos mos la la distri distribuci bución ón de probab probabilida ilidades des de X, X, entonce entoncess conocemo conocemoss también también la distri distribuc bución ión conjun conjunta ta de X ", X #,..., X n y podemos evaluar evaluar inmediatamente inmediatamente la distribución de cada X i. Generalmente, Generalmente, por supuesto, uno o más aspectos de la distribución de probabilidades para la población serán desconocidos para nosotros, por ejemplo él o los parámetros que caracterizan a la distribución o incluso podemos desconocer desconocer la densidad o función función de probabilidad, probabilidad, y por lo tanto, debemos debemos sólo suponer suponer que X ", X# ,..., Xn son independien independientes tes y nuestra interrogante interrogante es saber si tienen alguna alguna distribución distribución específica conocida, tal como una distribución normal, exponencial etc. Nuestro propósito en la inferencia, es utilizar los elementos de la muestra para determinar todos los aspectos desconocidos de nuestro interés, en la mejor forma posible, al considerar la distribución de probabilidades de la población. Veremos que ciertas funciones de los elementos de una muestra aleatoria tales como
! n
X =
Xi
iœ"
n
(Media Muestral)
2
! n
S# =
(XiX )#
iœ"
(Varianza Muestral)
n 1
XÐnÑ = Máximo (X" ,X# ,...,Xn ) XÐ"Ñ = Mínimo (X" ,X# ,...,Xn ) serán muy útiles en la inferencia estadística.
Definición. Cualquier función de los elementos de una muestra aleatoria que no dependa de algún parámetro desconocido se llama estadístico. Los estadísticos son, por lo tanto, variables aleatorias, cuyos valores observados pueden ser evaluad evaluados os despué despuéss que los valore valoress observ observados ados para para X ",X #,...,X n son conoc conocidos idos.. Como de de costumbre, usaremos letras mayúsculas para denotar a las variables aleatorias, y minúsculas para representar sus valores observados. Como los estadísticos son variables aleatorias, sus valores variarán de muestra en muestra y tiene sentido determinar la distribución de estas variables aleatorias. A estas distribuciones nos referiremos como distribuciones muestrales.
1.2. Distribución de la media muestral Teorema 1.1. Si Si X" ,X# ,...,Xn es una muestra muestra aleatori aleatoriaa de una poblaci población ón X que tiene tiene media media . y # # varianza 5 , entonces entonces X tiene tiene valor esperado esperado . y varianza 5 /n.
Demostración. El valor esperado esperado de X es
! ! ! n
E(X ) = E(
Xi /n)
iœ"
n
= (1/n) (1/n)
E(X E(Xi )
iœ" n
= (1/n)
.
iœ"
= (1/n)( /n)(n n.) = . y su varianza es
Var (X ) = Var (DXi /n) = (1/n# ) DVar(X Var(Xi ) por independ independenc encia ia de las X i # # = (1/n ) D5 por estar estar las X i idéntica idénticament mentee distribuí distribuídas das
3
= n5# /n# = 5 # /n.
È
error estánd estándar ar de la la La ra raíz cua cuadr drad adaa pos posit itiv ivaa de de la la var varia ianz nzaa de de X se cono conoce ce con con el el nom nombr bree de de error media, 5 n. X = 5/ Notemos que 5 X decrece a medida que el tamaño de la muestra crece. Esto significa que cuando n se hace hace grande grande por lo que tenemos tenemos más informac información ión podemos podemos esperar esperar valores valores de X más es una buena aproximación cercanos cercanos a ., lo que significa significa que el valor observado observado x aproximación de ...
Teorema 1.2. Si Si X" ,X# ,...,Xn es una muestra muestra aleatori aleatoriaa de una poblaci población ón normal normal de parámet parámetros ros . y # # 5 , entonces entonces X tiene distribución distribución Normal con parámetros parámetros . y 5 /n.
Demostración. Consideremos Consideremos la función generadora generadora de momentos de la variable aleatoria X . _ MX (t)
_ tX
= E(e ) = E(etDxi /n ) = E(etX" /n )E(e tX# /n)...E(e tXn /n) = MX" (t/n) MX# (t/n)...MXn (t/n)
’
# # = e.tÎn ÐtÎnÑ 5 Î#
“
n
" # # = e.t # Ðt 5 ÎnÑ
que corresponde a la función generadora de momentos de una variable aleatoria normal de parámetros . y 5#/n. Por otra parte, si la muestra proviene de una población que no tiene distribución normal, entonces el siguiente teorema, del Límite Central, cuya demostración ya realizamos en la sección 4.11, nos garantiza que la distribución de la sucesión de medias muestrales estandarizadas tiende a la distribución normal estándar. Este teorema, que reproducimos aquí, es la base para justificar muchas aproximaciones en Estadística.
Teorema 1.3. Si X" ,X# ,...,Xn es una una muestra muestra aleatori aleatoriaa de una població población n infinita infinita que tiene tiene media media . # y varianza 5 , entonces la distribución distribución límite (cuando (cuando n tiende a _) de Z n, donde Zn =
È
Dxi n. 5
n
=
È
(X .) 5
n
,
es la distribución Normal estándar.
4
Ejemplo. Una maquina puede ser regulada de modo que descarge un promedio de . kilos por hora (. desconocido). Se ha observado que la cantidad descargada por la maquina se distribuye normal con 5# =1.0 kg. Se selecciona al azar una muestra de tamaño n = 9 horas de descarga, pesando el total descargado en cada hora seleccionada. Se desea encontrar la probabilidad que la media muestral esté entre +/- 0.3 kg. de la verdadera media .. Si definimos la variable aleatoria Y i como el peso total descargado en la hora i, entonces Y i se distribuye N(., 1), para todo i=1,...,9, por lo tanto, de acuerdo al Teorema 6.2, Y se distribuye N(., 1/9). La probabilidad que deseamos determinar es
P(|Y .| Ÿ 0.3) = P[ 0.3 Ÿ (Y .) Ÿ 0.3]
È È
È È
= P[ 0.3
n/5 Ÿ (Y .)
= P[ 0.3
9/1 Ÿ Z Ÿ 0.3
n/5 Ÿ 0.3
È
n/5]
9/1]
= P[ 0.9 Ÿ Z Ÿ 0.9] utilizando las tablas de la distribución normal estándar, obtenemos
P(|Y .| Ÿ 0.3) = 2·(0.3159) = 0.6318. Así, la probabilidad que la media muestral esté dentro de +/- 0.3 de la media poblacional . es 0.6318.
1.3. Distribución de la Varianza Muestral En esta sección veremos algunos resultados importantes, relacionados con la variamza muestral, S# , que serán de referencia constante en este y en otros capítulos del texto.
Teorema 1.4. Si X" ,X# ,...,Xn es una muestra aleatoria de una distribución con media . y varianza 5#
D(Xi X)# , entonces la varianza muestral S = tiene valor esperado igual a n1 #
5 #.
Demostración. Utilizando la definición de esperanza tenemos 1
#
E(S# ) = n1 E[DXi# n X ]
#
1 = n1 (DE(Xi# ) nE(X ))
y usando la relación E(X #) = Var(X) + (E(X)) # cualquiera sea la variable aleatoria X, tenemos 1 E(S# ) = n1 (D(5# + .# ) n(5 #/n+ .#))
5
1 5 # +n .# ) 5# n.# ) = n1 ((n
=
(n1)5 # n1
= 5# . D(x x )#
i Notemos que si observamos x ",x #,...,xn, no es verdadero que s # = sea igual a 5 #. Lo que n1 el Teorema 6.4 dice es que si tomamos repetidas muestras aleatorias del mismo tamaño y calculamos s# para cada una de ellas, entonces el promedio de los valores de s # es 5 #. A causa de este resultado, el valor observado s # para la variable aleatoria S #, parece ser una aproximación razonable para 5#.
Un resultado muy importante que se usa frecuentemente cuando se muestrea de poblaciones normales está dado en el siguiente teorema.
Teorema 1.5. Sea X" ,X# ,...,Xn una muestra aleatoria de una población X cuya distribución es normal de media . y varianza 5#. Entonces a) La media muestral X y la varianza muestral S # son variables aleatorias independientes.
D(Xi X)# (n 1)S# = 5# es una variable aleatoria con distribución Chi-cuadrado con b) 5#
n 1 grados de libertad.
Demostración. Consideremos la forma estándar de X i , i =1,...,n Zi =
Xi . 5
, i = 1,...,n,
entonces Z",...,Zn son variables normales estándar independientes. Sea
Z = DZi /n =
D(Xi .)/5 X. = . n 5
È
#
Entonces Z µ N(0,1/n) y n Z µ N(0,1). Por lo tanto nZ es una variable aleatoria Chicuadrado con 1 grado de libertad. Ahora, como Z" ,...,Zn son variables aleatorias normales independientes, ellas están no correlacionadas (Teorema 4.3), además para cada i =1,...,n , Z y Z i Z están no correlacionadas (ver ejemplo de sección 4.9). Más aún, Z y Zi Z son independientes ya que ellas tienen distribución normal bivariante para todo i=1,2,....,n. Por Teorema 4.6, Z y D(Z i Z ) # son # independientes por lo que también lo son nZ y D(Z i Z ) #, y finalmente aplicando el Teorema 4.5 encontramos que
6
nZ = X
y 5
#
D(Xi X)# = = S# n1
# D(Zi Z)
n1
son independientes, con lo que concluye la demostración de parte (a). (n1)S#
Para la parte (b), notemos que D(Zi Z ) # = y mostremos que esta variable tiene 5# distribución Chi cuadrado con n 1 grados de libertad. En efecto, como
#
D(Zi Z )# = D Zi# nZ tenemos que
#
D Z#i = D(Zi Z )# + nZ .
! n
Por otra parte, la función generadora de momentos de
Z #i es por definición
i=1
# # # E[et D Zi ] = E[et D(Zi Z) + tnZ ] # # = E[et D(Zi Z) ] E[etnZ ]
por la independencia de las variables aleatorias involucradas.
#
Dado que DZi# y nZ tenemos
se distribuyen Chi-cuadrado con n y n-1 grados de libertad respectivamente, #
(1 2t)nÎ# = E[et D(^i ^ ) ] (1 2t) "Î# . Así,
#
E[et D(^i^ ) ] = (1 2t) Ðn"ÑÎ# es la función generadora que corresponde a una distribución Chi-cuadrado con n 1 grados de libertad.
Ejemplo. Consideremos nuevamente el Ejemplo anterior y supongamos que extraemos una muestra aleatoria de tamaño n=10. Si estas observaciones son utilizadas para calcular S #, podría ser útil especificar un intervalo de valores que incluya a S # con alta probabilidad; esto es, encontrar por ejemplo los números b " y b# tales que P(S# < b" ) = 0.05 y P(S# Ÿ b# ) = 0.95 para así tener 7
P(b" Ÿ S# Ÿ b# ) = 0.9 Notemos en este ejemplo que P(b" Ÿ S# Ÿ b#) = P[(n 1)b "/ 5 # Ÿ (n 1)S #/ 5 # Ÿ (n 1)b #)/ 5 #]. Dado que 5# =1 y n=10, se sigue que (n 1)S #/ 5 #= 9S #, tiene distribución ;# con 9 grados de libertad. Usando las tablas ;#(9) podemos encontrar los dos números 9b " y 9b # tales que P(9b" Ÿ 9S# Ÿ 9 b #) = 0.90 Los valores correspondientes de la tabla son: 9b " = 3.325 y 9b # = 16.919, de donde se tiene que b " = 0.396 y b# = 1.88. Luego, el intervalo (0.369, 1.88) contiene a S # con probabilidad 0.90. De los resultados del Teorema 1.5 es fácil ver que la distribución de la variable aleatoria n (X .)/S, cuando X",...,Xn es una muestra aleatoria de una población normal, es t-student con n 1 grados de libertad. En efecto, sabemos que n(X .)/ 5 se distribuye N(0,1) y que (n 1)S# /5 # se distribuye ;#(n 1). Además, estas dos variables son independientes, por lo que, de acuerdo a la definición de una variable t-student con / grados de libertad,
È
È
T=
È
Z ;# / /
=
È È
n(X.)/5
(n1)S /5# (n 1)
=
È
n (X .)/S
se distribuye t- student con n-1 grados de libertad. Este resultado corresponde a la desmostración del siguiente teorema:
È
Teorema 1.6. Si X" ,X# ,...,Xn es una muestra aleatoria de una población normal con media . y varianza 5#, entonces n(X .)/S tiene distribución t-student con n 1 grados de libertad.
È
Lo más importante de este resultado es que el parámetro 5 se cancela al formar el cuociente en la definición de la variable aleatoria T, y la distribución para n(X .)/S es la misma no importando el valor de 5. Esta variable aleatoria con distribución t-student será muy importante al efectuar inferencias acerca de la media . de una población normal con varianza 5# desconocida. Para aclarar las frecuentes confusiones que se producen respecto del uso de la distribución Normal (estándar) y la distribución t-student, en relación a expresiones del tipo T=
(X. ) S
y Z=
(X. ) 5
,
o como en el caso de la media
T=
È
(X . ) S/ n
y Z=
È
(X.) 5/ n
,
8
observemos que si el valor de 5 es conocido y el tamaño de n es suficientemente grande, entonces Z tendrá distribución normal estándar (utilizando el Teorema del Límite Central). Si 5 es desconocida y la población de donde se está muestreando es normal, entonces la distribución de T será la de una t-student con (n-1) grados de libertad. No obstante lo anterior, y dada la similitud de ambas distribuciones cuando n es grande; esto es, por ejemplo, cuando, n > 30 (este número es también discutible), la distribución t-student se puede aproximar por la normal estándar.
Ejemplo. La resistencia a la tracción de un cable se distribuye normalmente con media . y varianza 5# ambas desconocidas. Se seleccionan al azar 6 trozos de alambre y se mide la resistencia X i de cada uno de ellos. Tanto la media como la varianza poblacional pueden ser estimadas mediante X y S#, respectivamente. Encuentre la probabilidad que X esté entre +/2S/ n veces la verdadera media poblacional ...
È
Deseamos encontrar la probabilidad
’
P
È
2S n
Ÿ (X .) Ÿ
È “ 2S n
que es equivalente a calcular
’
P 2Ÿ
È
È
n(X.) S
“
Ÿ 2 = P(-2 Ÿ T Ÿ 2)
n(X.) S
donde T = aproximadamente a
tiene distribución t-student con n 1 = 5 g Þl. Esta probabilidad corresponde
P( 2.015 Ÿ T Ÿ 2.015) = 0.90.
Por lo tanto, hay una probabilidad de 0.90 de que X esté entre +/- dos desviaciones estándar de la verdadera media. Si 5# hubiese sido conocida, esta probabilidad se habría obtenido mediante la relación P
’ È
25 n
Ÿ (X .) Ÿ
È “ 25 n
’
=P 2
È Ÿ
n(X .) 5
“
Ÿ2
= P( 2 Ÿ Z Ÿ 2) = 0.9544.
1.4. Métodos de Estimación Los problemas de inferencia estadística (y sus soluciones) se dividen en dos áreas: Estimación de parámetros y Pruebas de Hipótesis. Examinaremos la primera en esta sección. Generalmente en un
9
problema de estimación de parámetros se dispone una muestra aleatoria de una variable poblacional X, cuya distribución de probabilidades se supone conocida, salvo por algunos parámetros que son desconocidos. El problema es entonces cómo usar las observaciones muestrales para estimar los valores de estos parámetros.
) a su estimador. No haremos distinción, en la Denotaremos por ) el parámetro desconocido, y por ^ notación, entre estadístico (variable aleatoria) usado como estimador de ) y el valor observado del estadístico, en ambos casos usaremos )^, en el entendido que quedará claro, según el contexto, a cuál de los dos nos estamos refiriendo.
1.5 Método por Momentos Un procedimiento sencillo para obtener estimadores de parámetros es el método de los momentos que fue propuesto por Karl Pearson (1894). Sea q( )), una función que deseamos estimar. El método de los momentos consiste en escribir la función de ), q( )), como una función continua h de los primeros r momentos poblacionales, esto es, q()) = h(." ,...,.< ) donde .k = E(Xk ) es el k-ésimo momento poblacional; k=1,2,...,r, y luego considerar como estimador por momentos a
) ) = h(M" ,M# ,...,M< ), T(X" ,...,Xn ) = q(s 1
donde Mk = n
! n
i=1
Xk i es el k-ésimo momento muestral; k = 1,2,...,r.
Veamos algunos ejemplos como ilustración de este método.
Ejemplo. Una muestra aleatoria de n observaciones X ",... ß X n se selecciona desde una población con distribución uniforme sobre el intervalo (0, )), en que ) es desconocido. Deseamos encontrar, ) de ). mediante el método de los momentos, un estimador s El valor de ." para una variable aleatoria uniforme es ."= E(X) = )/2. Así,
) = h(." ) = 2." y
! n
M" = 1/n
Xi = X
iœ"
es el primer momento muestral. Por lo tanto, el estimador por momentos de ) es
) = 2M" = 2X . T(X" ,X# ,...,Xn ) = s
10
Ejemplo. Supongamos que queremos estimar, por el método de momentos, la varianza, 5#, de una población cualquiera X. Sabemos que 5#= E(X #) (E(X) #) = .# ."# = h( .", .#)Þ Luego, si consideramos una muestra aleatoria X" ,...,Xn de esta población, tenemos que el estimador por momento de la varianza poblacional 5# es T(X" ,...,Xn ) = h(M" ,M# ) = M# M"# = 1n DX#i Ð 1n D Xi Ñ#
#
1
= n DXi# X
=
D(XiX)# n
Para emplear el método de momentos es necesario conocer los momentos poblacionales y no necesariamente se debe conocer la distribución de probabilidades de la población. Aunque esta es una ventaja del método, este no proporciona estimadores únicos, debido a que el método sólo exige exhibir una función h que involucre algunos momentos poblacionales y no siempre esta función es única, como lo veremos en el ejemplo siguiente.
Ejemplo. Estamos interesados en estimar el parámetro de una población X con distribución Poisson de parámetro ) y, para ello, considermos una muestra aleatoria X ",....,X n de X.
Como ) = E(X), entonces un estimador por momentos de ) es M " = X , pero como también ) = 5#, n1 en una distribución Poisson, tenemos que un estimador por momentos también sería n S #. Si n=5 y los valores observados de la muestra aleatoria son: 1, 2, 2, 3, 1,. podemos reportar como ) = 1.8 o s ) = 0.56. valor estimado de ) a s
1.6. Método Máximo Verosímil Este método es en general superior al método de los momentos (en aquellos casos que resulten dos estimadores distintos por ambos métodos). Para ilustrar el método, consideremos la siguiente situación: Supongamos que disponemos de una caja que contiene tres bolas. Sabemos que algunas de ellas son rojas y otras son blancas, pero no sabemos el número exacto de cada color y nuestro interés es estimar ), el número total de bolas rojas. Se nos permite seleccionar al azar dos bolas. Si nuestro muestreo da como resultado la extracción de dos bolas rojas, ¿Cuál sería un buen estimador para )?. Obviamente, ), el total de bolas rojas, deberá ser dos o tres. Si el contenido real es de dos rojas y una blanca, esto es ) = 2, la probabilidad de obtener dos bolas rojas en la muestra es "Î3. En cambio, si ) = 3, tres bolas rojas en total, la probabilidad de obtener dos rojas es 1.
11
Parece entonces razonable elegir el valor tres como estimador de ) el número de bolas rojas en la caja, dado que con este valor se maximiza la probabilidad de la muestra observada. Por cierto, es probable que la caja contenga sólo dos bolas rojas, pero la evidencia de la muestra otorga mayor credibilidad o verosimilitud a la existencia de tres rojas por sobre sólo dos.
Definición. Suponga que x œ x ",...,x n son los valores observados de una muestra aleatoria de una población X con función de probabilidad (o densidad), f(x. )), que depende de un parámetro desconocido ). La función de probabilidad o densidad conjunta de la muestra aleatoria considerada como función de ) define a la función de verosimilitud. L()) = f(x" ,))f(x# , )Ñ ... f(x n, )) El método de máxima verosimilitud consiste en obtener, como estimadores, aquellos valores de los parámetros que maximizan la función de verosimilitud, L( ))=L( ); x ",...,x n), considerada como una función de ). El máximo de L()) ocurre en muchos casos en aquel valor de ) donde
dL()) = d)
0. Así, en la
), se puede determinar desde mayoría de los casos el estimador máximo verosímil (EMV) de ) , s
¸
dL();x) d) )=)^
=0
Dado que L()) es siempre no negativa y logra su máximo para el mismo valor de ) que ln(L), generalmente resulta más simple obtener el EMV de ) resolviendo
¸
dlnL() ;x ) d) ) =)^
=0
En las siguientes observaciones damos algunas propiedades importantes de los EMV.
Observaciones. La extensión al caso de varios parámetros es natural. Si tenemos m parámetros, la función de verosimilitud es L()",..., )m;x",...,xn) y los EMV de )j; j = 1,...,m los obtenemos resolviendo el sistema de ecuaciones
¸
` lnL ` ) j )=)^ j = 0 ; j =1,2,...,m .
) es el EMV de ) y si g( )) es una función de ), uno a uno y Se puede probar que si s )). Esta es la propiedad conocida diferenciable con respecto a ), entonces el EMV de g( )) es g( s como invarianza, y es muy importante en inferencia estadística, ya que nos permite determinar EMV de algunas funciones de parámetros (por ejemplo de funciones lineales), en condiciones muy generales.
Ejemplo. Supongamos que x œ x " ,..., x n corresponden a la realización de n ensayos Bernoulli independientes con probabilidad de éxito ) en cada ensayo, donde x i=1 si el i-ésimo ensayo es un 12
éxito y xi = 0 si es un fracaso. Queremos determinar el estimador máximo verosímil de la probabilidad de éxito ). La función de verosimilitud de la muestra observada es: L();x) = )y(1 ))ny ,
! n
donde y =
xi.
iœ"
Para encontrar el valor de ) que maximiza L, notemos que L es igual a cero para )=0 y 1, y es dL())
continua para valores entre 0 y 1. Luego podemos encontrar el punto máximo haciendo d) = 0 y resolviendo la ecuación resultante para ). Además, dado que L es una función monótona creciente, ln(L) y L serán maximizados por el mismo valor de ), determinaremos el valor que maximiza ln(L) (denotado habitualmente como l( ); x)); esto es, l();x) =
!
xi ln()) + (n
!
xi )ln(1 )),
cuya derivada es dl();x- )/d) =
!
xi(1/ )) + (n
!
x i)( 1/(1 )))
Luego, el valor de ) que maximiza l( );x) - es la solución de la ecuación:
!
xi /) (n
!
xi)/(1 )) = 0
cuya solución es
s )=
!
xi /n = x
que corresponde precisamente a la fracción de éxitos en los n ensayos.
Ejemplo. Supongamos que X",..., Xn representan los tiempos de fallas para una cierta pieza de un equipo y que los tiempos de vida son exponenciales e independientes con parámetro (desconocido). Queremos encontrar el estimador máximo verosímil para -. Sean x- = x" ,...ß xn los valores observados de X " ,..., X n. La función de verosimilitud es entonces L(-;x- ) = -n e-Dxi , xi > 0; i = 1,n lnL(-;x- ) = nln- -Dxi . dlnL(-;x- ) d-
=
n -
Dxi n
1
s e igualando a cero, tenemos que s = = x . Evaluando en - = Dxi 13
Ejemplo. En el ejemplo anterior vimos que el estimador máximo verosímil para -, el parámetro s =1/X de una distribución exponencial es . La propiedad de invarianza, dice que el estimador s máximo verosímil para la media de una variable con distribución exponencial, . = 1/ - es . s = 1/ = X y el estimador máximo verosímil para P(X > c) es exp( c/x- ) , para c>0 fijo.
1.7. Propiedades de los Estimadores Puntuales Hemos estudiado hasta el momento dos métodos para construir estimadores de parámetros (o funciones de parámetros). En muchos casos estos dos métodos conducen a los mismos estimadores, pero también en muchos casos importantes esto no sucede así. Para la elección entre dos o más estimadores para el mismo parámetro es importante desarrollar criterios para compararlos. Consideremos la siguiente situación: Un tirador dispara a un blanco y acierta justo en el centro de él. Se trata, sin duda, de un excelente disparo. Pregunta: ¿Sujetaría Ud. el blanco sobre su cabeza para el siguiente disparo?. Obviamente no podemos establecer la precisión del tirador en base a tan pequeña evidencia muestral. Sin embargo, si éste hace un millón de disparos y todos ellos aciertan sucesivamente en el blanco, podríamos confiar en la habilidad del tirador como para sujetar el blanco en un próximo ensayo. La idea es que no podemos establecer las propiedades de un estimador en base a un sola observación. En lugar de ello, deberíamos observar los resultados del procedimiento un gran número de veces y construir distribuciones de frecuencia de los valores obtenidos para el estimador, considerando varias observaciones. De la distribución del estimador podemos observar que tan cerca del parámetro de interés se agrupan los distintos valores. Siguiendo el razonamiento anterior, nos interesa entonces establecer algunos criterios bajo los cuales la calidad de un estimador puede ser evaluada. Estos criterios definen, en general, propiedades deseables de los estimadores que nos sirven para compararlos. Supongamos que deseamos especificar un estimador puntual de un parámetro poblacional ). El ). Con el ejemplo anterior es obvio que una de las valor estimado de ) se indica por el símbolo s propiedades deseables sería que la distribución muestral de los valores estimados estuviera centrada en el valor poblacional, ), como se muestra en la Figura 5.1. En otras palabras, desearíamos que la media o el valor esperado del estimador sea igual al valor del parámetro; esto )) = ). Los estimadores puntuales que poseen esta propiedad se llaman es, deseamos que E(s estimadores insesgados.
) un estimador puntual de un parámetro ). Se dice que s ) es insesgado si y sólo si Definición. Sea s )) = ) para todo ). En caso contrario se dice que s ) es sesgado. (ssi.) E(s ) sea cercano al verdadero valor del En otras palabras, con esto esperamos que "en promedio" s parámetro.
14
) está dado por la expresión Definición. El sesgo B de un estimador puntual s )) ). B = E(s
De acuerdo a lo que hemos visto hasta aquí, si utilizamos X y S # como estimadores de la media poblacional . y la varianza poblacional 5#, éstos serían insesgados. Ahora, si usamos
1 n 1 # 5 5 Á 5 #, y por s # = n D(Xi X )# como estimador de la varianza encontramos que su media es n tanto 5 s # sería un estimador sesgado de 5 #. Parece natural que un buen estimador no sólo debe ser tal que su media esté cercana al verdadero valor del parámetro, sino que también debería variar poco. Por lo tanto, debemos considerar estadísticos que además de ser insesgados tengan varianza tan pequeña como sea posible.
a)
b) c) ^ Figura 1.1. Distribuciones de ) centradas en ) . a) y b) muestran mayor varianza que c). Las Figuras 6.1 corresponden a distribuciones de un estimador insesgado )^. Es evidente que la ) representada por Figura 6.1 c) es preferida pues tiene una menor varianza, lo que implica que s estará más "cerca" de ) que en las otras distribuciones mostradas.
) un estimador insesgado de ). Decimos que s ) es un estimador insesgado de Definición. Sea s mínima varianza para ), si para cualquier otro estimador insesgado )‡ de ) se tiene que Var()^) Ÿ Var()‡ ), a ). Lo anterior nos permite formular la siguiente regla: Dados dos estimadores para el parámetro ), y siendo todo el resto de las condiciones equivalentes para ambos, se elegirá siempre aquel de menor varianza.
Ejemplo. Sabemos que la media muestral X es un estimador insesgado de la media poblacional. Por lo tanto, X es un estimador insesgado de ., parámetro de una distribución Normal; de . la media de una distribución Poisson( .) y de p parámetro de una distribución Bernoulli. Nos interesa averiguar si la calidad de X mejora cuando n crece. E(X ) = . que no depende de n; pero V(X ) = 15
5# /n decrece cuando n aumenta. Es claro entonces que, basándose en un criterio de mínima varianza, la calidad de X como estimador de . mejora cuando n crece. Una pregunta natural de formular es: basándonos en una muestra fija de tamaño n, ¿Podríamos encontrar otro estimador mejor para ., distinto de X , en términos de insesgamiento y mínima varianza, para estas distribuciones?. La respuesta está en la desigualdad de Cramer-Rao que proporciona una cota inferior para la varianza de cualquier estimador insesgado del parámetro de una distribución de probabilidades, bajo condiciones de regularidad que incluyen: i) El espacio de valores de la variable aleatoria involucrada debe ser independiente del parámetro. ii) La función de densidad (o función de probabilidad) debe ser una función continua y diferenciable del parámetro.
Teorema 1.7. (Cramer-Rao). Sea X" ,..., Xn una muestra aleatoria de tamaño n de una población X con función de densidad (o función de probabilidad) f(x; )), que depende de un parámetro ) ) = T(X ",....,X n) un estimador desconocido, y satisface las condiciones de regularidad. Sea s insesgado para ). Entonces
)) Var(s
˜
1
` lnf(x,)) nE ( ` ) )2
™
Demostración. Desarrollaremos la demostración para el caso en que X es una variable aleatoria continua. Un resultado análogo se puede establecer cuando X es discreta. Dado que X" ,..., Xn es una muestra aleatoria., tenemos que f(x" ,..., xn ;)) = f(x" ;))...f(xn ;)). Por otra parte, por la propiedad de insesgamiento de )^ = T(X 1,..., X n) y la definición de valor esperado tenemos E(T(X1 ,...,Xn )) = ) ; esto es,
)=
(
T(x" ,...,xn ) f(x" ;))...f(xn; ))dx "...dx n
(1.1)
‘n
Además, sabemos que para i = 1,...,n
(
f(xi ;))dx i = 1
(1.2)
‘
Diferenciando (1.1) con respecto a ), tenemos
16
( (
1=
"” ”" n
T(x" ,...,xn )
‘n
=
jœ" n
T(x" ,...,xn )
‘n
jœ"
•
` f(xj ;)) f(x"; ))...f(x n; ))dx "...dx n f(x j ;)) ` ) 1
•
(1.3)
j=1,n.
(1.4)
` lnf(xj ;)) f(x "; ))...f(x n; ))dx "...dx n ` )
Diferenciando (1.2) respecto a ) tenemos 0=
( ‘
` f(x j ;)) dxj , j = 1,n ` )
que podemos escribir como
(
0=
` lnf(x j ;))f(x j; ))dx j, ‘ ` )
! n
Si hacemos Y =
jœ"
` ` ) lnf(x j ; )) obtenemos de (1.4) y (1.3) que
E(Y) = 0 y E(TY) = 1. Además,
! n
Var(Y) = Var
` ) ` ) lnf(x j ; )
jœ"
! !’ ’ n
=
jœ"
`
Var( ` ) lnf(x j ;)))
n
=
E
jœ"
= nE
` ` ) lnf(x j ;))
` ` ) lnf(x j ;))
“
“
#
#
.
Por otra parte Cov(T,Y) = E(TY) pues E(Y) = 0 y por definición de coeficiente de correlación tenemos E(TY)
3TY = 5 5 T Y
17
# donde 5T# = Var (T) y 5] = Var (Y) y 3T] es la correlación entre T e ] . Entonces
E(TY) = 3TY 5T 5Y o 1 = 3TY 5T 5Y Finalmente, notando que 3# Ÿ 1, tenemos que
)) = Var(T) Var (s
1 # 5]
=
1
. nE( ` ` ) lnf(x;) ))2
) no es un estimador insesgado de ), se puede probar que la cota de Cramer-Rao está dada por Si s la expresión 5s # )
(1+B(s ) ))#
=
nE( ` ` ) lnf(x;) ))2
(1+B(s ) ))# I())
.
La cantidad I()) es conocida como cantidad de información o Información de Fisher. De aquí que la CCR también se conoce con el nombre de Desigualdad de Información. En la clase de estimadores insesgados, la cota inferior en la desigualdad de información es 1/I( )), independientemente del estimador que estemos considerando. Bajo supuestos que implican la existencia de las segundas derivadas y el intercambio del orden de ciertas integrales con sus derivadas, la desigualdad de Cramer-Rao se puede escribir también como 1
)) nE{` # ln f(X; ) )/` )# } Var (s Esta expresión alternativa es más útil para efectos computacionales. La CCR puede extenderse fácilmente para ciertas transformaciones del parámetro. Específicamente, si : = g( )) es una transformación uno a uno y diferenciable, entonces: CCR para Var (: s ) =
Š ‹
dg()) # CCR d)
)), para Var (s
donde : s es un estimador insesgado de :. ) de ), la razón de su cota de Cramer-Rao a su varianza, se llama Dado un estimador insesgado s eficiencia de s ) . Notemos que según esta definición, la eficiencia de cualquier estimador insesgado es siempre menor o igual que uno. Un estimador insesgado con eficiencia uno se dice eficiente.
18
_ Así, con respecto a la pregunta, ¿Es X el mejor estimador para . en términos de insesgamiento y mínima varianza?, para responderla consideremos, por ejemplo, la función de densidad correspondiente a una población N( ., 5#), donde sólo . es desconocido. Entonces, ln f(X; .) = ln
Œ È 1 21 5
(X.)# 25 #
,
` ln f(X; .) (X. ) = 5# ` .
y E
œŠ
‹ œŠ ‹
` ln f(X; .) # ` .
=E
X. 2 5#
= 1/5# .
La CCR establece entonces, _ que la varianza_de cualquier estimador insesgado de . es mayor o # igual a 5 /n. Como Var(X)=5 # /n, entonces X tiene mínima varianza entre todos los estimadores _ insesgados para ., cuando la población es normal y sólo . es_ desconocido. Además, X es un estimador eficiente, pues la razón entre la CCR y la varianza de X es uno. En algunas situaciones, es deseable obtener estimadores del parámetro de interés, considerando como criterio la minimización tanto del sesgo, como de la varianza del estimador. Esto se logra ) y el verdadero valor ) del parámetro. minimizando el promedio de la distancia al cuadrado entre s Esta cantidad se denomina Cuadrado Medio del Error.
) se define por Definición. El Cuadrado Medio del error (CME) de un estimador puntual s ) ) = E(s ) ))#. CME(s Notemos que
) ) = E((s) E(s)) + (E(s)) )))# CME(s ) E(s ) ))#+ (E(s )) )))#, = E((s )) = Var (s )) + B #. dado que los dobles productos se hacen 0. Luego, CME( s ) es un estimador insesgado del parámetro ), entonces CME(s)) = Var(s )). Por lo tanto, si s Ejemplo. Sea X" , X# una muestra aleatoria de tamaño 2 de X con distribución Exponencial de _ ) "=X y a s )#= X 1X 2 estimadores de .=1/ -. En parámetro - desconocido. Consideremos a s términos del error cuadrático medio, ¿ cuál de los dos es mejor?.
È
19
_ )" )=Var(s )" )=1/(2-#), por ser X un estimador insesgado de .. Ahora, El CME(s
È
) # ) = Var ( CME(s de donde
È È È (
X1 X2 ) = E(X1 X2 ) E(
Var( .
_
X) =
y
x" /# -e-x dx =
!
Por lo tanto
È È
Var( B(
X1 X2 .)#
X1 )E(
X 2).
X) con X exponencial de parámetro -.
Caculemos E( E(
È È È
X1 X2 ) + (E
>(3/2) = (1/-)"/ #/2 " # / -
1# X1 X 2 ) = 1/-# 1# /(16-# ) = 16 16-#
X1 X2 ) = ((1/4) (1/-) 1/-)# =
Š ‹ 1 4 4-
#
) # está dado por De aquí, el Error Cuadrático Medio de s 1 ) # ) = 42 . CME(s -#
Como 4 1 < 1 tenemos EMC(s)# ) < EMC(s)" ) y, de acuerdo a este criterio, s)# es preferido a s)1. Otra propiedad adicional que un estimador puede tener es la propiedad de consistencia. Esta es una propiedad asintótica o de muestras grandes, ya que describe una propiedad límite de la distribución de probabilidades del estimador, cuando el tamaño de la muestra n aumenta. Supongamos que lanzamos una moneda n veces, con probabilidad p de obtener cara en cada ensayo. Si los lanzamientos son independientes, y definimos la variable aleatoria Y como el número de caras en los n lanzamientos, entonces Y tiene distribución Binomial. Si el verdadero ^ valor de p es desconocido, la proporción muestral p=Y/n es un estimador insesgado de p. ¿Qué pasa a esta proporción muestral si aumenta el número n de lanzamientos?. Intuitivamente diremos que a medida que n aumenta, Y/n se acercará al verdadero valor de p. Como Y/n es una variable aleatoria, esta cercanía a p en términos probabilísticos la cuantificamos mediante la expresión P(|Y/n-p|<%) para un valor arbitrario %>0. Esta probabilidad será cercana a 1 si nuestra intuición es correcta.
)n se dice consistente para ) si, para cualquier %>0, se tiene que Definición. El estimador s )n )| < %) = 1, lim (P|s n Ä _
20
o equivalentemente
) n )| > % ) = 0 . lim P(|s n Ä _ Notemos que, de la desigualdad de Chebyshev
)n )|> − ) Ÿ P(|s
E(s)n ) )# %#
=
)n ) CME(s %#
) n) tiende a cero cuando n tiende a infinito; esto es, tanto la de donde se sigue que si el CME(s )n tienden a cero cuando n tiende a infinito, entonces s )n es un varianza como el sesgo de s estimador consistente de ). )n de ) es consistente si Teorema 1.8 . Un estimador insesgado s )n ) = 0. lim Var(s n Ä _ Ejemplo. Sea X" ,...,Xn una muestra aleatoria de una _ población con distribución de probabilidades # con media . y varianza 5 < _. Verifiquemos que X es un estimador consistente de .. _ _ _ # Sabemos que E(X)=. y Var(X)=5 /n. Dado que X es un estimador insesgado para ., y como _ Var(X) p 0, cuando n crece, el teorema anterior se aplica directamente. _ Equivalentemente se puede decir que X converge en probabilidad a .. Este hecho es también conocido como la Ley de los Grandes Números. Hasta el momento hemos utilizado la información contenida en _ una muestra de tamaño n para calcular el valor de estadísticos de interés, como por ejemplo X y S #. Debemos preguntarnos, sin embargo, si este proceso de condensación de la información ha retenido toda la información disponible acerca de . y 5#, o bien, si se ha perdido alguna información acerca de los parámetros poblacionales durante el proceso de reducción de los datos. En consideración a la pregunta anterior, debemos buscar estadísticos que resuman toda la información contenida en la muestra acerca del parámetro desconocido de interés. Tales estadísticos se dice que tienen la propiedad de suficiencia o más simplemente son llamados estadísticos suficientes. Un estadístico T(X ",...,Xn) se dice suficiente si utiliza toda la información de una muestra relevante a la estimación del parámetro poblacional ); esto es, si todo el conocimiento que podemos obtener acerca de ) especificando los valores observados de X = (X ",...,X n), también _ puede ser obtenido observando el valor del estadístico T(X).
Definición. Sea X" ,...,Xn una muestra aleatoria de una distribución de probabilidades con parámetro desconocido ). T = T(X ",...,X n) es un estadístico suficiente para ), si y sólo si (ssi), la distribución condicional de (X",...,X n) dado T=t, para todo valor de t, es independiente de ). 21
Ejemplo. Consideremos los resultados observados de n ensayos Bernoulli independientes X" ,...,Xn , donde Xi =1 con probabilidad p y es 0 con probabilidad 1 p.
! n
Sea T =
Xi = N° de éxitos en los n ensayos. Si conocemos el valor de T, ¿Podemos ganar
i=1
información adicional acerca de p, observando otras funciones de X ",...,X n?. Una manera de responder es observar la distribución condicional de X ",...,X n dado T=t; esto es: P(X" =x" ,...,Xn=x n, T=t) P(T=t)
P(X" =x" ,...,Xn =xn |T=t) =
œ P(X" =x" ,...,X n=x n) P(T=tÑ
=
ˆ‰
=
ˆ‰
pt (1p)nt } n pt (1p)nt t 1
n t
.
Como esta probabilidad condicional no depende de p, podemos concluir que una vez conocido T, ninguna otra función de X",...,X n proporciona información adicional sobre el posible valor de p. En este sentido, T contiene la información relativa a p y, por tanto, es un estadístico suficiente para p. La definición anterior, no nos permite en forma directa la obtención de un estadístico suficiente para un parámetro ). El siguiente teorema nos proporciona un criterio para obtener facilmente estadísticos suficientes. _ un estadístico basado en la muestra Teorema 1.9. (de Factorización de Fisher) Sea T(X), _ _ es un estadístico suficiente para ) si y solo si, la densidad conjunta de aleatoria X=(X " ,...,Xn ). T(X) _ (la función de verosimilitud L( ),x)), puede ser factorizada en dos funciones no negativas, de la X forma _ )) h(X), L(), _ x) = g(T(x), donde g es una función sólo de T y ), y h no es función de ).
Ejemplo. Sea X" ,...,Xn una muestra aleatoria de una población con distribución exponencial con media -; esto es, Xi posee función de densidad f(); x3 ) = 1/- exp( x 3/ -),
x 3> 0,
i=1,n
La función de verosimilitud de la muestra es la densidad conjunta
22
L = f(-; x" ,...,xn ) = f (-; x" ) f(-; x# )...f(-; xn )
= [exp( x" /-)] -... [exp( x n/ -)] = [exp(
!
n
3œ"
x3/-] -n
_ = [exp ( nx/-)] -n. _ - y x, aplicando _el teorema de factorización con g( -, Como L es una función que depende sólo de _ _ _ = 1, podemos concluir que X es un estimador suficiente para -. x) = [exp( nx/-)] -n y h(x) Notemos también que X 4 es otro estadístico suficiente para -.
!
Ejemplo. Sea X" ,...,Xn es una muestra aleatoria de una distribución uniforme en (0, )) y determinemos un estadístico suficiente para ). La función de verosimilitud de la muestra aleatoria es L(), _ x) = (1/))n , x3 − (0, )) para todo i=1,...,n lo que es equivalente a escribir L(), _ x) = (1/))n , para xÐnÑ< ); donde x ÐnÑ= máx (x ", x #,...,x n). Así, tenemos la factorización L(), _ x) = (1/))n IÐ!ß)Ñ (xÐnÑ) = g(), XÐnÑ), donde IA (x) =
š
1 si x− A 0 si xÂA
es la función indicadora de un conjunto A. Por lo tanto, aplicando el teorema de factorización con h(x) = 1, un estadístico suficiente para ) es T(X ",...,X n) = X ÐnÑ.
1.8. Estimación por Intervalos Hasta aquí, hemos revisado las propiedades de estimadores puntuales de los parámetros de una distribución poblacional de probabilidades. Proporcionar un buen estimador, T(X), del parámetro o función del parámetro, ), no es suficiente, ya que debemos de alguna manera dar cierta idea de la incertidumbre de la estimación, la que puede ser producto, por ejemplo, de la selección de la muestra. Para esto incorporamos el concepto de precisión o de error del estimador. Usualmente los investigadores proporcionan como estimación de un parámetro desconocido ) a T(X) _ + %, donde % generalmente es el error cuadrático medio de T o una estimación de él. Sin _ embargo, también hay dificultades al reportar, por ejemplo que )=2+0.01, ya que a pesar que T(X) 23
sea un estimador insesgado y % sea exactamente la desviación estándar de T(X), no tenemos seguridad que las cotas T+ % y T % incluyan a ). En realidad, en la mayoría de los problemas, se tiene una probabilidad positiva que [T(X) %, T(X)+ %] no incluya a ), para cualquier % dado. Ilustremos esta idea en el ejemplo siguiente
Ejemplo. Sea X" ,...,Xn una muestra aleatoria de una población N( ), 5#) con 5# conocida. Nuestro _ interés es estimar ), la media de la población normal. Como el estimador natural a usar es X y su _ desviación estándar es 5/ n los investigadores establecerán que ) = X+_ 5/ n.
È
È
_ Podemos calcular la probabilidad que estas cotas, X+_%, no incluyan a ) como sigue
Œ¹ È
_ P(|X )|> %) = P
_ n (X) ) 5
>
È È È
= P(Z > =F(
¹ È
= 2F (
%
%
n
5
%
%
n
È n
= P(|Z| > 5 )
È È n
) + P(Z < 5 ) 5 %
n
5
) + (1 F (
%
n
5
%
n
5
))
)>0
cualquiera sea % y n, donde F indica la función de distribución de la normal estándar.
È
Si elegimos % o n suficientemente grande, esta probabilidad puede hacerse más pequeña que cualquier número positivo. Si hacemos %= 5/ n, por ejemplo, tenemos de las tablas normales que _ P(|X )|>5/ n) = 0.32, un número no muy pequeño para ser desechado.
È
Esta ilustración nos sugiere que en lugar de elegir % igual a la desviación estándar de nuestro estimador, debemos elegir un número !, y después preocuparnos de elegir % (o % y n) suficientemente grande, de manera de tener
È
_ % n P(|X )|> %) = 2F( 5 ) = ! _ _ y, finalmente, afirmar que ) está entre X % y X+ %. Equivalentemente, podemos escribir, _ _ _ P(X % Ÿ ) Ÿ X+%) = 1 P(|X )|>%) = 1 ! _ _ y afirmar con una confianza del (1 !) 100% que el intervalo aleatorio [X %, X %] incluye al verdadero valor del parámetro ). Lo anterior nos lleva, en la situación general, a buscar un par de estadísticos, T I(X) y T S(X), tal que
24
P(TI(X) Ÿ ) Ÿ TS (X)) = 1-! para un ! preasignado. En algunas ocasiones, particularmente cuando se trabaja con distribuciones discretas, no podemos encontrar intervalos (T I, T S) razonables tales que P(T I(X) Ÿ ) Ÿ T S(X)) sea exactamente igual a 1 !, para un ! fijo.
Definición. El intervalo aleatorio de extremos (T I,T S) formado por los estadísticos T I y T S, con TI Ÿ YS , es un intervalo del (1 !) 100% de confianza para ), si para todo ) P(TI(X) Ÿ ) Ÿ TS (X)) 1 !
(6.5)
Los extremos TI y T S se llaman límite de confianza inferior y superior, respectivamente. 1 ! se llama Nivel de Confianza. Es posible también, obtener cotas de confianza (1 !) 100% para ), tales que P(TI Ÿ )) 1 ! o bien P( ) Ÿ TS) 1 !, donde TS y TI son estadísticos que conforman una cota superior e inferior para ), respectivamente. Dado que la amplitud L = TS T I es una variable aleatoria, podemos pensar en elegir intervalos de longitud esperada mínima como un buen criterio de calidad. Desafortunadamente, pueden no existir estadísticos T I y T S que generen un intervalo de longitud esperada para todos los posibles valores de ). Se puede probar que si un intervalo de amplitud mínima existe, él puede obtenerse utilizando funciones de estadísticos suficientes como límites de confianza.
È
È
_ _ Ejemplo. Claramente, el intervalo (X z "!" 5/ n ; X + z "!# 5/ n ) es un intervalo de confianza a nivel 1 ( !"+ !#), para la media de una población normal con varianza 52, ya que satisface (6.5) con ! = !"+ !#. Mostremos que el intervalo más estrecho a nivel 1 ! de la forma _ (X z"!" 5/
È
È
_ n ; X+z"!# 5/
n)
se obtiene considerando !"= !#= !/2. En efecto, la longitud (esperada) del intervalo es L=
È
5 (z"!" + z"!# ) n
que, bajo la condición != !"+ !#, pasa a ser L=
È
5 (z"(!!# ) + z"!# ). n
Así, debemos encontrar !# de manera de minimizar L, lo que es equivalente a minimizar 25
f(!# ) = z1!+!2 + z1!2 = F" (1 !+!# )+ F" (1 !# ), con F(t! ) = P(Z Ÿ t! ) = ! , F" (!) = t! y Z es la normal estándar. Derivando la función f respecto de !2 tenemos 1
f w (!# ) = :(F" (1 !+! )) #
1
: (F " (1!
# ))
,
donde : es la función de densidad normal estándar. Igualando a cero la derivada obtenemos
:(F1 (1 !+!2 )) = :(F1 (1 !2 )); o bien,
:(x) = :(y), donde x = F 1 (1 !+ !2 ) e y = F1(1 !2 ) cuya solución es x = y, ya que : es una función par. Luego tenemos que F 1(1 !+ !2) = F1 (1 !2 ) que es equivalente a 1 !+ !2 =1 !2 , de donde se tiene que !2 = !/2 y luego !1 =!2 =!/2.Por lo tanto, el intervalo de confianza más estrecho a nivel 1 ! para la media de una población normal es _ (X z"! /2 5/
È
_ n ; X+z"!/2 5/
È
n)
(6.6)
Un método muy útil para encontrar intervalos de confianza es el Método del Pivote, que consiste en determinar una cantidad, llamada Pivote, que posee las siguientes dos características: es una función de las medidas muestrales y del parámetro ); y tiene una distribución de probabilidades conocida ( tabulada) que no depende del parámetro ). A continuación veremos ejemplos de uso de un pivote para construir intervalos de confianza a nivel (1 !) para distintos parámetros de interés.
6.9. Intervalos de Confianza para la media en poblaciones N(.,, 5 # ) con 5 # conocida Consideremos una muestra aleatoria _ X ",...,X n de una población X, con distribución normal. Como ya probamos en el Teorema 6.2, X se distribuye N( ., 5#/n). Si definimos P(Z< z"! / # ) = 1 !/2 y 26
P( z"! /# < Z < z"!/ # ) = 1 !. De aquí obtenemos P( z"! /# <
È
_ n (X .)/5 < z"!/ # ) = 1 !,
lo que es equivalente a _ P(X z"! /#
È
5 n
_ . < < X+z"!/ #
È ) = 1 !. 5
n
Así, los límites de confianza para . son _ _ z"! / # X+
È 5 n
que coinciden con el obtenido en (6.6). Este resultado podemos emplearlo también en el caso no normal, para estimar medias, si el tamaño muestral es suficientemente grande como para justificar la aplicación del Teorema del Límite Central. _ Notemos también que el intervalo de confianza es una función de X; por lo que variará con la muestra. Por otra parte, la amplitud del intervalo es sólo función del tamaño muestral n, siendo inversamente proporcional a n.
È
Un problema que surge de inmediato es ¿Cuál es el tamaño mínimo de la muestra para lograr un determinado grado de precisión en la estimación de .?. Esta pregunta la respondemos en la sección que sigue.
6.10. Determinación del tamaño de muestra Hasta aquí hemos calculado los intervalos de confianza basándonos en el supuesto de que se conoce el tamaño muestral n. Sin embargo, en muchas situaciones prácticas el tamaño muestral óptimo es desconocido. En tales casos es posible calcular dicho tamaño óptimo, siempre que podamos responder a las preguntas: ¿Qué nivel de confianza deseamos?, y ¿Cuál es la diferencia máxima, %, que podemos aceptar entre la estimación puntual del parámetro poblacional y el verdadero valor de dicho parámetro?. Así, si % representa el máximo error que podemos tolerar al estimar el parámetro poblacional ) ), la magnitud del máximo error permisible al estimar ) mediante s ) la definimos como mediante s
)| = |s ) )| Ÿ %. |) s
27
Entonces, el grado de precisión depende tanto de % como de 1 !, el grado de confianza de que el error no exceda al máximo error permisible. En general el tamaño de la muestra se obtiene de la expresión:
5s ) z"! / # Ÿ %, donde z"-!/ # queda determinado por el grado de confianza 1- !. Para nuestro último ejemplo tenemos:
% = z"! /#
È
È
Var (X) = z"!/ # 5n
de donde el tamaño muestral debe ser al menos z #1!/2 5#/ % #, cuando la varianza es conocida; esto es,
n z#1!/2 5# /% # .
Si en particular deseamos el promedio diario . de rendimiento de un proceso de producción de un producto químico y deseamos además que con una probabilidad .95, el error de estimación no sea mayor que 5 toneladas. Entonces, dado que si repetimos las muestras un gran número de veces, _ aproximadamente el 95% de las medias muestrales estará entre 2 5X de ., lo que estamos pidiendo _ es que 25X sea igual a 5 tons., lo que significa que 2 5/ n = 5. Despejando n obtenemos
È
n 4 5# /25. Esto siginfica que para obtener un valor numérico para n, necesitamos conocer el valor poblacional del parámetro 5#. Cuando no se dispone del verdadero valor de 5 #, debemos utilizar la mejor aproximación disponible, como por ejemplo su estimador S #, obtenido de experiencias previas.
6.11. Intervalo de Confianza para la media en poblaciones N(., 5 # ) con 5 # desconocida
È
_ Sea X" ,...,Xn una muestra aleatoria de una población N( ., 5 ). Sabemos que T = n(X .)/S se distribuye t-student con / =n 1 grados de libertad, entonces podemos determinar t "! / # tal que #
P( t"! /# Ÿ T Ÿ t"!/ # ) = 1 !. De aquí, reemplazando y despejando . nos queda _ P(X t"! /# S
È
È
_ n Ÿ . Ÿ X + t"!/ # S
Así, los límites de confianza son
28
n) = 1 !.
È È
_ _ t"! / # S X+ y
_ (x t"! /# s/
n
_ n ; x + t"!/ # s/
È
n)
_ _ es un intervalo del 100(1 !)% para ., si x y s son los valores observados de X y S, respectivamente.
6.12. Intervalos de Confianza para 5 # Recordemos aquí que 5# es un número que cuantifica la cantidad de variabilidad de la población. Este valor es generalmente estimado a partir de la expresión
!
S# =
n
3œ"
_ (X3 X)# /(n 1)
que es un estimador insesgado de 5 #. Además de necesitar información acerca de 5 #, para calcular intervalos de confianza para la media ., podríamos estar interesados en obtener intervalos de confianza para 5# propiamente tal; esto es, por ejemplo, la estimación de la cantidad de variación en un proceso de producción de ciertas unidades. Como ya hemos mencionado, debemos empezar por definir un pivote. Supongamos una vez más, que disponemos de una muestra aleatoria X ",...,X n de una distribución normal con media . y varianza 5#, ambas desconocidas. Recordemos también que
!
n
3œ"
_ [(X3 X)# ] 5 # = [(n 1) S# ] 5 #,
tiene distribución ;# con (n-1) grados de libertad. Podemos ahora, usando el método del pivote, proceder a encontrar dos cantidades ;#! /# y ;#"-!/ #, tales que # P[;#! /# Ÿ (n 1)S# /5 # Ÿ ;" !/ #)] = 1 !.
para un nivel de confianza 1 !. Debido a la asimetría de la distribución, nos preocupamos de encontrar los puntos que definen igual área en las colas. Si reordenamos los extremos de la desigualdad en la expresión probabilística anterior, se tiene, P[(n 1)S# /;1#!/# Ÿ 5# Ÿ (n 1)S #/ ;!# / #] = 1 !. Luego, [(n 1) s# /;1#!/# ; (n 1) s#/ ;!# / #]
29
es un intervalo de confianza del 100(1 !)% para la varianza de una población normal con media desconocida.
Ejemplo. Un investigador desea verificar la variabilidad de un equipo diseñado para medir el volumen de una fuente de ruido. Utilizando este equipo, se obtienen tres mediciones independientes del mismo sonido, ellas son: 4.1, 5.2 y 10.2. Se pide estimar 5# con un nivel de confianza de .90. Asumiendo normalidad, tenemos que s # = 10.57. Considerando !/2 = 0.05 y (n 1)=2 grados de libertad, se obtienen los valores de tabla ;#Þ!& = 0.103 y ;#Þ*& = 5.991. Por lo tanto, el intervalo de confianza para la varianza poblacional 5# es (3.53; 205.24). Nótese que este intervalo es muy amplio, la razón de esta amplitud es el pequeño tamaño de n.
6.13. Intervalo de Confianza para una Proporción Supongamos que deseamos construir un intervalo de confianza para el parámetro p, la probabilidad de éxito, _ de una distribución Bernoulli. Si disponemos de una muestra aleatoria, X" ,...,Xn , sabemos que X es un estimador insesgado de p, y si n es grande _ pq X µ N(p, n ), de donde Z=
_ Xp pq/ n
È
µ N(0, 1) cuando n es grande.
Entonces existe Z "-!/ # tal que P( Z"! /# < Z< Z"!/ #) = 1 - !, esto es, P( Z"! /# <
_ Xp
È
pq/n
< Z"!/ # ) = 1 !
Notemos que para determinar los límites de confianza para p, necesitamos resolver para p la ecuación _ |X p|
È
p(1p)/n
Ÿ Z"! / # ,
lo que es equivalente a: _ p(1p) # (X p)# Ÿ Z" / !# n o bien
30
p# (1+
Z#"! /# n
_ ) p(2X +
Z"!/ # n
_# ) + X Ÿ 0,
que es una parábola, cuyas raíces definen el intervalo dentro del cual la parábola es negativa. Resolviendo la ecuación cuadrática tenemos
”
_ Z# _ _ Z# ! /# "!/ # _ Z"!/# (X + " ) + X(1 X) + 2n 4n n _ 2X + Z#"! / # /n
È
•
1/2
que para n grande y para (1 !) razonable, podemos aproximarlo por
È È
_ _ _ _ Z"! /# X(1 X)/n . X+ Así, un intervalo de confianza aproximado al 100(1- !)% para p está dado por
_ x Z"! /#
_ _ _ x(1 x)/n ; x + Z"!/#
È
_ _ x(1 x)/n
_ _ donde x es el valor observado de X.
‘
Ejemplo. Supongamos que en una muestra aleatoria de 500 personas en la ciudad de Concepción se encontró que 375 no están de acuerdo con los métodos de eliminación de desechos industriales. Un intervalo de confianza del 95% para p, la proporción real de la población penquista que no está de acuerdo con dichos métodos, lo obtenemos como sigue _ De la información tenemos que n = 500 y x = 372/500=0.74 y, para ! = 0.05 tenemos de las tablas normales que Z"! / # = 1.96. Así, el intervalo del 95% de confianza para p, está dado por (0.74-0.04 , 0.74+0.04) = (0.70 , 0.78).
6.14. Tamaño de Muestra para Proporciones _ Notemos que_ la magnitud del error cometido, cuando utilizamos X como una estimación de p, está dada por X. p . Empleando nuevamente la distribución normal, podemos asegurar con probabilidad 1-! que la desigualdad
¸
¸
¸ ¸
_ X. p Ÿ z1!/2
È
p(1 p)/n
È
se cumplirá; es decir, que el error será a lo sumo z 1!/2
p(1 p)/n.
_ Reemplazando X por p tenemos que el error máximo de estimación es
È
% = z1!/2
_ _ X(1 X)/n. 31
Esta fórmula podemos utilizarla para determinar el tamaño muestral necesario para alcanzar un grado deseado de precisión. Así, obtenemos n = p(1 p) (
z1!/2 2 );
%
sin embargo, esta fórmula no podemos utilizarla en forma directa ya que, a menos que tengamos información acerca del posible valor de p. Si no se dispone de esta información se puede utilizar un criterio de varianza máxima ya que p(1 p) corresponde a la varianza de la poblacion Bernoulli considerada. Así, considerando el hecho que p(1 p) es a lo sumo 1/4, lo cual ocurre cuando p=1/2, tenemos que con el tamaño de muestra mínimo 1 z n = 4 ( 1%!/2 )2 _ podemos asegurar con una probabilidad de al menos 1 ! que el error al estimar p por X no excede a %; una vez obtenidos los datos, podremos asegurar con una confianza de al menos un 100(1 !)% que el error no sobrepasa %.
Ejemplo. Supongamos que deseamos estimar la proporción real de unidades defectuosas en un cargamento grande de ladrillos y que se se requiere una confianza del 95% de que el error en la estimación sea a lo sumo de 0.04. ¿De qué tamaño debe ser la muestra si: a) no se tiene idea acerca de la proporción muestral; b) se sabe que la proporción real no excede a 0.12?. Si no se tiene idea acerca de cómo podría ser la proporción muestral entonces usamos la segunda fórmula para el tamaño muestral y obtenemos n = 14 ( 1.96 )2 = 600.25 0.04 lo que indica que el tamaño mínimo debería ser n= 601. Si sabemos que la proporción real no excede a 0.12, entonces tomamos p=0.12, y aplicando la primera fórmula para el tamaño de muestra obtenemos 1.96
n = (0.12)(0.88)( 0.04 )2 = 253.55 o n=254, redondeando al entero más cercano. Este ejemplo ilustra la importancia de disponer de alguna información auxiliar acerca de la magnitud posible de p, ya que ello reduce en gran medida el tamaño de la muestra requerida.
6.15. Intervalos de Confianza Basados en Dos Muestras En todo lo visto anteriormente en este capítulo de estimación, hemos considerado una muestra aleatoria de tamaño n de una sola población y hemos estado interesados en hacer inferencias sobre 32
los parámetros, desconocidos, involucrados en su distribución de probabilidades. En muchos casos interesa realizar comparaciones de los parámetros de dos o más poblaciones. Así, por ejemplo, si tenemos dos tipos de autos de precios similares A y B y queremos comparar sus rendimientos (km/lt), entonces si X es la variable. asociada al rendimiento de los autos tipo A, con X µ N( .", 5"# )) e Y es la variable asociada al rendimiento del auto tipo B, con Y µ N( .", 5##), podríamos estar interesados en estimar ." .#, la diferencia entre los rendimientos medios de los dos tipos de autos. Podríamos, además, comparar las varianzas de sus rendimientos a partir del cuociente 5"# /5## . Consideraremos ahora por lo tanto, problemas que involucren dos muestras aleatorias, independientes, que provienen de dos poblaciones distintas. _ = (X" ,...,Xn" ) una muestra aleatoria de una población X con distribución de probabilidad Sea X _ = (Y ",...,Y n#) una muestra aleatoria, que depende de un parámetro desconocido )" y sea Y independiente de la anterior, de una población Y, cuya distribución de probabilidades depende de un parámetro desconocido )#. La independencia de las dos muestras implica que la función de verosimilitud para las n "+n #, la muestra conjunta, es LX_ ßY_ ()" , )# ) = LX_ ( )" ) LY_ ( )#) Luego los valores de )" y )# que maximicen la función de verosimilitud conjunta L X_ ßY_ ( )", )#) son )" los mismos valores que maximizan a las funciones de verosimilitud L X_( )") y L Y_( )#). Así, si s )#) es el valor máximo de la maximiza a LX_ ()") y s)# maximiza a LY_ ( )#) entonces L X_ ßY_ ( s)", s función de verosimilitud conjunta. Por lo tanto, los estimadores máximo verosímil para una )#). Así, función g()", )#) de los parámetros de las dos distribuciones _ de_probabilidades es g( s)", s por ejemplo, el estimador máximo verosímil de ." .# es X Y.
6.16. Intervalos de Confianza para Diferencia de Medias _eY Consideremos dos muestras aleatorias independientes X de tamaños n 1#y n#2 respectivamente, provenientes de dos poblaciones normales con medias .1, .2 y varianzas 5", 5#, respectivamente, donde las varianzas_ son_ conocidas. El estadístico natural para estimar la diferencia de medias en las poblaciones es X Y y, como sabemos, la distribución de este estadístico es _ _ X Y µ N[." .# , (5"# /n" + 5## /n# )] y Z=
_ _ XY (.1 .2 ) 5"# /n" + 5## /n#
È
µ N(0,1)
es el pivote que debemos considerar. De aquí, el intervalo de confianza del 100(1- !)% para ." .# está dado por
33
_ _ _ Z"! / # (5"# /n" + 5## /n# )" / # . (X Y) + Cuando 5"# y 5## son desconocidas, pero los tamaños de muestra n " y n # son suficientemente grandes, reemplazamos dichas varianzas por sus correspondientes estimadores S #" y S ##. Enseguida se procede como en el caso en que las varianzas son conocidas. Ahora bien, cuando 5"# y 5## son desconocidas, pero los tamaños de muestra n " y n # son pequeños, la obtención de la distribución del pivote no es directa, a menos que las varianza de las dos poblaciones normales sean iguales. En este caso, si 5"# = 5## = 5 #, entonces Z=
_ _ X Y (." .# )
5
È
1/n" + 1/n#
N(0, 1)
µ
Podemos verificar fácilmente que, un estimador máximo verosímil para la varianza común 5# de ambas poblaciones es
!
n1
#
5 s = y que S#: =
=
3œ"
!
n
3œ"
!
_ (X3 X)# + n" + n#
n#
3œ"
(Yi Y)2
!
_ _ n# (X3 X)# + 3œ" (Y3 Y)# n" + n# 2
(n" 1) S#" + (n# 1) S## n" +n# 2
es un estimador insesgado de 5#. Además, U" =
(n" 1)S"# 5#
µ ;Ð#n" ") ,
U# =
(n# 1)S## 5#
µ ;Ð#n# ") ,
y
de donde por Teorema 4.8. U = U" + U# =
(n" 1)S#" 5#
+
(n# 1)S## 5#
µ ;Ð#n" +n# #) .
Se puede probar que Z y U son variables aleatorias independientes, por lo que T=
È
Z
U/(n" +n# 2)
=
_ _ X Y (." .# )
S:
È
1/n" + 1/n#
µ
tÐn" n# 2Ñ.
34
que el pivote que utilizamos en la construcción del intervalo. Por lo tanto, el intervalo de confianza del 100(1 !)% viene dado por _ _ _ t"! / # S: (1/n"+1/n#) "Î# . (X Y) +
Ejemplo. Se realiza un estudio para comparar los contenidos de nicotina de dos marcas de cigarrillo. 10 cigarrillos de la marca A dieron un contenido promedio en nicotina de 3.1 mlgr., con una desviación estándar de 0.5 mlgr., mientras que 8 cigarrillos de la marca B dieron un contenido promedio de nicotina de 2.7 mlgr., con una desviación estándar de 0.7. Suponiendo que estos dos conjuntos de datos son muestras aleatorias provenientes de dos poblaciones normales con varianzas iguales, estamos interesados en construir un intervalo del 95% para la verdadera diferencia en el contenido medio de nicotina de las dos marcas. Para ! = 0.05 encontramos en la tabla correspondiente a la distribución t-student, con n "+n # 2 = 16 gl que t!Þ*& = 2.12. Por otra parte, el valor de S : está dado por S: = (
9Ð0.25 Ñ+ 7Ð 10.49 " / #
"'
)
= .596,
Por lo tanto un intervalo del 95% de confianza es: ( 0.20, 1.00). Ahora, como la diferencia real podría así ser cero, no podemos concluir en base a este análisis que existe una diferencia real en los contenidos de nicotina en las dos marcas.
6.17. Intervalos de confianza para la razón de varianzas de dos poblaciones Normales El ejemplo anterior fue resuelto bajo el supuesto que 5"#/ 5## = 1. Sin este supuesto no habríamos tenido un procedimiento sencillo para determinar los límites de confianza de un intervalo para ." .# . Una forma de chequear la igualdad de varianza es a través de la construcción de intervalos de confianza del 100(1 !)% para 5"#/ 5##. Para ello consideremos dos muestras aleatorias independientes X",...,Xn" y Y" ,...,Yn# , provenientes de dos poblaciones normales con medias y varianzas desconocidas. Sabemos que U"= (n " 1)S #"/ 5"# y U #= (n # 1)S ##/ 5## son variables aleatorias independientes con distribución chi cuadrado con n " 1 y n # 2 grados de libertad, respectivamente. Luego el cuociente S#" 5## U" /(n" 1) = U# /(n# 1) S## 5"#
35
se distribuye F con (n" 1) gados de libertad en el numerador y (n # 1) grados de libertad en el denominador. Entonces, utilizando este pivote, si f ! /# y f "!/ # son los correspondientes percentiles de esta distribución tenemos que
Œ
P f!Î# Ÿ
S#" 5## S## 5"#
Ÿ f"!Î#
=1!
de donde P
Œ
Por lo tanto
S## S#"
5#
S#
f!Î# Ÿ 5## Ÿ S## f"!Î# " "
Œ
S## S#"
S#
f! /# ; S## f"!/ # "
= 1!
es un intervalo del 100(1 !)% de
confianza para 5##/ 5"#.
Ejemplo. Considerando nuevamente el ejemplo anterior, tenemos que n "=10, n #=8, s "=0.5, s# =0.7. Para 1 !=0.95, de las tablas de la distribución F con 9 y 7 g.l. obtenemos: f!Þ!#& = "/f!Þ*(& (7,9) = 1/4.2 = 0.238 y f!Þ*(& (9,7) = 4.82, de donde (0.33; 6.7) es un intervalo del 95% para 5##/ 5"#.
6.18. Intervalos de Confianza para Diferencia de Proporciones Supongamos que X",...,Xn" es una muestra aleatoria de una población Bernoulli con parámetro p ", y Y" ,...,Yn# una muestra aleatoria independiente, de otra población_ Bernoulli de parámetro p #. _ Como vimos, los estimadores máximos verosímiles _ _para p " y p # son X y Y respectivamente, y para n" y n# suficientemente _ _grandes sabemos que X e Y tienen distribución aproximadamente normal. p # y _varianza Así, la diferencia X Y se distribuye aproximadamente normal _con media p" _ _ p" q" /n" + p#q# /n #. La varianza de p " p # la podemos estimar por X(1 X)/n " + Y(1 Y)/n #. De manera que Z=
_ _ X _Y (p p ) _ _" _#
X(1X)
n"
+
‘
Y(1Y) 1/2
n#
µ N(0,1)
36
en forma aproximada y es un pivote adecuado para determinar un intervalo de confianza del 100(1-!)% para la diferencia de proporciones p "-p #. Por lo tanto P( z"! /#
Ÿ
_ _ _Y (p p ) X _ _" _#
X(1X)
n"
+
‘
Y(1Y) 1/2
n#
Ÿ z"!/ #) = 1 !
nos conduce al intervalo aproximado del 100(1- !)% para la p " p #. Este está dado por
_ _ _ _ _ _ _ (X Y) + z"! / # X(1 X)/n" + Y(1 Y)/n#
‘
" / #
.
Ejemplo. Supongamos que un fabricante necesita cierta pieza que puede ser proporcionada por dos abastecedores A y B, a un mismo precio. Las piezas de A son defectuosas con probabilidad p " y las de B con probabilidad p#. Supongamos además que de n "=100 piezas del proveedor A se encontraron 10 piezas defectuosas, mientras que de n #=150 del proveedor B se encontró 11 defectuosas. Interesa determinar un intervalo del 90% de confianza para la diferencia de proporciones de piezas defectuosas de estos dos abastecedores. De los datos tenemos _
sp" = x =
10 100
_ 9 = 0.10, s p# = y = 150 = 0.06
z"-!/ # = z!Þ*& = 1.64 de la tabla normal estándar Así, _ 1.64 ( 0.10 0.06 +
(0.10)(0.90) 100
+
(0.06)(0.94) " / # ) , 150
o bien ( 0.0186; 0.986), es un intervalo del 90% de confianza para p " p #. Igual que en el penúltimo ejemplo, como este intervalo contiene al cero, no podemos establecer cual es el proveedor con menor proporción de piezas defectuosas.
37
EJERCICIOS 1. Sea X" y X# una muestra aleatoria de tamaño 2 proveniente de una población X con media . y varianza 5#. a) Si disponemos de dos estimadores para .: . s" =X=(X "+X #)/2 y . s # =(X" +2X# )/3. ¿Cuál de los dos es mejor?. b) Para un estimador de la forma . s= aX "+(1 a)X #, con 0 Ÿ a Ÿ 1. Determine el valor de a que conduce al mejor estimador en esta forma. 2. Considere una muestra aleatoria X ",...,X 8 extraida desde una población X con distribución geométrica de la forma f(x,p)=px(1 p), con 0
œ
2x/)2 0
0ŸxŸ) e.o.c.
Basándose en una muestra aleatoria de tamaño n: Determine el estimador por momento (EM) y el estimador máximo verosímil (EMV) de ). ¿Cuál de los dos es el mejor?.
6. Dada una muestra aleatoria de tamaño n, extraida de una población con densidad de probabilidad
f(x; ., 5) =
1 (x5.) e 5
x>. , . − ‘, 5>0
0
e.o.c.
Determine los estimadores máximos verosímiles para . y 5.
7. Sea X" ,...,Xn una muestra aleatoria de una distribución Gamma (r, -).Encuentre el Estimador Máximo Verosímil (EMV) y el estimador por Momentos (EM) de -, suponiendo que r es conocido. Determine, además, el EMV para )=(2 - 1)#. 8. Suponga que el crecimiento anual de cierta variedad de pino sigue una distribución normal con media y varianza desconocida. Para una muestra de 5 pinos, los siguientes valores (en pies) fueron registrados: 3, 5, 2, 1.5, y 3.5. Determine los estimadores, por el método de los momentos, de . y 5# . 38
9. Sea X una variable aleatoria Binomial con parámetros n y p, con n conocido. Dada una muestra aleatoria de m observaciones de X, determine el estimador de p mediante el método de los momentos y por el método de máxima verosimilitud. 10. El tiempo de vida de una componente se supone exponencial con parámetro -. Diez de estas componentes fueron sometidas a prueba en forma independiente y el único dato registrado fue el número de componentes que habían fallado antes de 100 horas de operación. Se encontró que 3 habían fallado antes de las 100 horas. ¿Cuál es el estimador máximo verosímil para -? 11. Sea X" ,...Xn una muestra aleatoria de una población X con densidad f(x; )) = )x)" ; 0 Ÿ x Ÿ 1, )>0 Determine el Estimador Máximo verosímil de ).
12. Una máquina puede averiarse por dos razones A y B. Se desea estimar la probabilidad de avería diaria de cada tipo sabiendo que: i) La probabilidad de avería tipo A es el doble que la de B. ii) No existen otros tipos de averías posibles. iii) Se han observado 30 días con los resultados siguientes: 2 averías tipo A, 3 tipo B; 25 días sin averías. 13. Sea X" , X# una muestra de tamaño dos de una distribución uniforme con densidad f(x) =
œ
1/) 0
si 0 Ÿ x Ÿ ) e.o.c.
Determine la constante c 1 de manera que P(0 < ) < c(X "+X #)) = 1 !, con 0< ! < 1 dado.
14. El consumo de gasolina de cierto tipo de vehículo es aproximadamente normal con desviación estándar de 6 millas por galón. Si una muestra de 64 vehículos tiene un consumo promedio de 16 millas por galón: a) Determine un intervalo de confianza del 95% para el consumo medio de gasolina de todos los vehículos de este tipo. b) Con un 95% de confianza, cuál es el posible error si se considera que el consumo medio es de 16 millas por galón? c) ¿Qué tan grande debe ser la muestra si queremos tener un 95% de seguridad que la media muestral no difiera en más de 0.5 millas por galón de la verdadera media?. 15. Supongamos que la variable aleatoria X tiene una distribución Poisson con parámetro -. Consideremos además una muestra alatoria de tamaño n. a) Determine el estimador máximo verosimil de -. 39
b) Determine un intervalo de confianza aproximado, del 95% para -.
16. El tiempo de vida de ciertas válvulas producidas por _ una industria sigue uan distribución normal. En una muestra aleatoria de 15 válvulas se tienen x=1100 hrs. y s=50 hrs. a) Determine un intervalo de confianza del 95% para el tiempo medio de vida de este tipo de válvulas. b) Determine intervalos del 95% unilaterales y bilaterales para su varianza. 17. En determinada empresa manufacturera, durante un proceso de control de calidad, se encontró que 12 de 100 items manufacturados presentaban defectos. a) Encuentre un intervalo de confianza del 99% para la proporción de items defectuosos en el proceso de manufacturación. b) Con un 99% de confianza, ¿cuál es el posible error si la proporción es estimada por 0.12?. 18. La forestal Machitun se dedica a la explotación de la especie Globulus de Eucaliptus. Una de sus preocupaciones es estimar la altura promedio de dichos árboles a una edad determinada E !, donde se sabe que la desviación estándar de las alturas de los árboles en E ! es 2.5 mts. Para este efecto, se consideró una muestra aleatoria de 100 árboles, para los cuales la altura media es 8.0 mts. y la desviación estándar resultó ser 2.0 mts. a) ¿Cuál es la probabilidad que la media poblacional y la media muestral difieran en una cantidad que no exceda de 0.5 mts? b) Determine un intervalo de confianza del 95% para la verdadera altura media de los árboles? c) Los técnicos desean que la diferencia entre la media muestral y poblacional no exceda de 0.4 mts. con un 95% de seguridad. ¿Fué suficiente la muestra considerada inicialmente?. d) Los técnicos en realidad no están muy seguros acerca del valor exacto de la desviación estándar poblacional. ¿Qué haría usted para sacarlos de esta duda?. 19. Una compañía tiene dos departamentos que produicen idénticos productos. Se sospecha que las producciones por hora son diferentes en los dos departamentos. Para averiguar esto se consideran muestras aleatorias de horas de producción que proporcionan la siguiente información: Depto. 1 Depto. 2
n1 =64 n# =49
_ x"=100 _ x# =90
Se sabe que las varianza de las producciones por hora están dadas por 5"#=256 y 5##=196, respectivamente. Hallar los límites de confianza del 95% para D= ."- .#, la diferencia verdadera entre las producciones medias de los departamentos.
20. Se desea estimar la diferencia entre los salarios semanales de maquinistas y carpinteros. Se toman dos muestras independientes, cada una de tamaño 100, y se obtiene la siguiente información: 40
Maquinistas Carpinteros
n 1=100 n#=100
_ x 1=345 _ x 2 =340
s #"=196 s ## =204
Determinar los límites de confianza del 95% para D= ."- .#, si la población se distribuye normalmente.
21. Un telar se observa a intervalos de tiempo variable para estimar la proporción de tiempo que se encuentra en estado productivo. Se desea estimar esta proporción dentro de +_ 0.03 con una confianza del 98%. a) ¿Qué tamaño de muestra mínimo se requiere para asegurar una buena precisión?. b) Si p=0.8, ¿cuál es el tamaño requerido para la muestra?. c) Si p=0.8, ¿cuál es el tamaño de muestra mínimo para estimar la proporción de la población dentro de +/- 0.02 con un 98% de confianza?. 22. Suponga que dispone de dos métodos para medir el contenido de humedad en el proceso _ de cocción de la carne. El primer método es aplicado en 41 ocasiones y se obtienen los datos_ x "=88.6 y s#" =109.63. El segundo método es aplicado a una muestra de tamaño 31 obteniéndose x #=85.1 y s## =65.99. Determine un intervalo del 99% de confianza para ."- .#, cuando se supone distribuciones normales con 5"#= 5##= 5 #. 23. Supongamos que la longitud de los clavos producidos por una máquina constituye una variable aleatoria con distribución normal. Una muestra de 5 clavos proporciona la siguiente información en cuanto a longitud (en pulgadas): 1.14; 1.14; 1.15; 1.12; 1.10. a) Construir un intervalo de confianza del 99% para la longitud media de los clavos producidos por esta máquina. b) Construir un intervalo de confianza del 90% para la varianza poblacional. 24. La probabilidad que una plancha de Zinc fabricada por una máquina sea declarada de "segunda clase", a causa de algún defecto, es p (desconocido). a) Determine el estimador máximo verosimil de p, basado en los valores observados de una muestra de 1000 planchas fabricadas por esta máquina. b) Si en 1000 planchas seleccionadas al azar en un día de producción se encuentra que 30 son de segunda, determine un intervalo de confianza del 95% para p. c) Determine el número de plancha requerida para asegurar con una confianza de 0.95 que el error en la estimación de la proporción de planchas de segunda clase, no sobrepase de 0.02.
41