Inferencia Estadística Ms. Carlos López de Castilla Vásquez1 20 de enero de 2012
1 Si
tienes comentarios
[email protected]
envíalos
al
siguiente
correo
electrónico:
Índice general 1. Teoría de la probabilidad 1.1. Teoría de conjuntos . . . . . . . . . . . . . . 1.2. Fundamentos de la teoría de la probabilidad 1.2.1. Axiomas de la probabilidad . . . . . 1.2.2. Cálculo de probabilidades . . . . . . 1.2.3. Conteo . . . . . . . . . . . . . . . . . 1.2.4. Puntos igualmente probables . . . . . 1.3. Probabilidad condicional e independencia . . 1.4. Variables aleatorias . . . . . . . . . . . . . . 1.5. Función de distribución acumulada . . . . . 1.6. Función de probabilidad y densidad . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
1 1 4 4 4 5 7 7 8 8 9
2. Transformaciones y esperanza 2.1. Transformaciones para variables aleatorias . 2.1.1. Caso discreto . . . . . . . . . . . . . 2.1.2. Caso continuo . . . . . . . . . . . . . 2.2. Valores esperados . . . . . . . . . . . . . . . 2.3. Momentos y función generatriz de momentos 2.4. Derivación bajo el signo de la integral . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
10 10 11 11 16 19 26
3. Familias de distribuciones 3.1. Distribuciones discretas . . . . . . . . . . . 3.2. Distribuciones continuas . . . . . . . . . . 3.3. Familias exponenciales . . . . . . . . . . . 3.4. Familias de locación y escala . . . . . . . . 3.5. Desigualdades e identidades . . . . . . . . 3.5.1. Desigualdades para probabilidades 3.5.2. Identidades . . . . . . . . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
31 31 36 42 46 48 48 48
i
. . . . . . .
ÍNDICE GENERAL 4. Variables aleatorias múltiples 4.1. Distribución conjunta y marginal . . . . . . 4.2. Distribuciones condicionales e independencia 4.3. Transformaciones bivariadas . . . . . . . . . 4.3.1. Caso discreto . . . . . . . . . . . . . 4.3.2. Caso continuo . . . . . . . . . . . . . 4.4. Modelos jerárquicos y distribuciones mixtas 4.5. Covarianza y correlación . . . . . . . . . . . 4.6. Distribuciones multivariadas . . . . . . . . . 4.7. Transformaciones sobre un vector aleatorio . 4.8. Desigualdades . . . . . . . . . . . . . . . . . 4.8.1. Desigualdades numéricas . . . . . . .
ii
. . . . . . . . . . .
49 49 54 61 61 62 66 71 75 80 81 81
5. Propiedades en una muestra aleatoria 5.1. Conceptos básicos sobre muestras aleatorias . . . . . . . . . . 5.2. Sumas de variables aleatorias a partir de una muestra aleatoria 5.3. Muestreo desde la distribución Normal . . . . . . . . . . . . . 5.3.1. Propiedades de la media y variancia muestral . . . . . 5.3.2. Distribuciones derivadas: t de Student y F de Snedecor 5.4. Estadísticas de orden . . . . . . . . . . . . . . . . . . . . . . 5.5. Conceptos de convergencia . . . . . . . . . . . . . . . . . . . . 5.5.1. Convergencia en probabilidad . . . . . . . . . . . . . . 5.5.2. Convergencia casi segura . . . . . . . . . . . . . . . . . 5.5.3. Convergencia en distribución . . . . . . . . . . . . . .
83 83 84 88 88 89 90 94 94 95 96
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
6. Principios de reducción de la data 6.1. Introducción . . . . . . . . . . . . . . . . . . . . 6.2. El principio de suficiencia . . . . . . . . . . . . 6.2.1. Estadística suficiente . . . . . . . . . . . 6.2.2. Estadística minimal suficiente . . . . . . 6.2.3. Estadística ancillar . . . . . . . . . . . . 6.2.4. Estadística suficiente, ancillar y completa
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
100 . 100 . 100 . 101 . 104 . 105 . 106
7. Estimación puntual 7.1. Introducción . . . . . . . . . . . . . . . . . 7.2. Métodos para encontrar estimadores . . . . 7.2.1. Métodos de momentos . . . . . . . . 7.2.2. Estimadores de máxima verosimilitud
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
108 108 108 108 110
ÍNDICE GENERAL
iii
7.3. Métodos de evaluación de estimadores . . . . . . . . . . . . . 112 7.3.1. Error cuadrático medio . . . . . . . . . . . . . . . . . . 112 7.3.2. Mejores estimadores insesgados . . . . . . . . . . . . . 114 7.3.3. Suficiencia e insesgabilidad . . . . . . . . . . . . . . . . 117 7.3.4. Consistencia . . . . . . . . . . . . . . . . . . . . . . . . 119 7.4. Otras consideraciones . . . . . . . . . . . . . . . . . . . . . . . 121 7.4.1. Variancia asintótica de los estimadores de máxima verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 7.4.2. Aproximación por series de Taylor . . . . . . . . . . . 121 8. Prueba de hipótesis 123 8.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 8.2. Métodos para encontrar pruebas . . . . . . . . . . . . . . . . . 124 8.2.1. Prueba de razón de verosimilitud . . . . . . . . . . . . 124 8.3. Métodos para evaluar pruebas . . . . . . . . . . . . . . . . . . 125 8.3.1. Probabilidades de error y potencia de prueba . . . . . . 125 8.4. Pruebas óptimas para hipótesis compuestas . . . . . . . . . . 126 8.4.1. Familias exponenciales . . . . . . . . . . . . . . . . . . 126 8.4.2. Familias con la propiedad de razón de verosimilitud monótona . . . . . . . . . . . . . . . . . . . . . . . . . 127 8.4.3. Distribución asintótica de la prueba de razón de verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 9. Estimación por intervalos 9.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . 9.2. Métodos para encontrar estimadores de intervalos . . . . 9.2.1. Invirtiendo una prueba estadística . . . . . . . . . 9.2.2. Cantidades pivotales . . . . . . . . . . . . . . . . 9.2.3. Garantizado un invervalo . . . . . . . . . . . . . . 9.3. Métodos de evaluación de estimadores por intervalos . . 9.3.1. Tamaño y probabilidad de cobertura . . . . . . . 9.4. Otras consideraciones . . . . . . . . . . . . . . . . . . . . 9.4.1. Intervalos aproximados por máxima verosimilitud 9.4.2. Otros intervalos aproximados . . . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
130 . 130 . 131 . 131 . 133 . 134 . 136 . 136 . 137 . 137 . 138
Capítulo 1 Teoría de la probabilidad 1.1.
Teoría de conjuntos
Definición 1.1.1 El conjunto S de todos los posibles resultados de un experimento aleatorio es llamado el espacio muestral. Un espacio muestral puede ser numerable o no numerable. Si los elementos del espacio muestral pueden ser puestos en correspondencia 1-1 con algún subconjunto de los números enteros entonces se dice que es numerable, de otro modo el espacio muestral es no numerable. Definición 1.1.2 Un evento es cualquier colección de posibles resultados de un experimento aleatorio, es decir cualquier subconjunto de S (incluyéndolo). Sean A y B eventos definidos en S: A⊂B⇔x∈A⇒x∈B A=B⇔A⊂B y B⊂A La unión de A y B, definida como A ∪ B, es el evento formado por los elementos de S que pertenecen por lo menos a uno de los eventos. A ∪ B = {x : x ∈ A o x ∈ B} La intersección de A y B, definida como A ∩ B, es el evento formado por los elementos de S que pertenecen a ambos eventos. 1
CAPÍTULO 1. TEORÍA DE LA PROBABILIDAD
2
A ∩ B = {x : x ∈ A y x ∈ B} El complemento de A, definido como Ac , es el evento formado por los elementos de S que no pertenecen a A. Ac = {x : x ∈ / A} Ejemplo 1.1.1 Considere el experimento que consiste en elegir al azar una carta de una baraja. Si se está interesado en la figura obtenida en la carta el espacio muestral es: S = {♣, ♦, ♥, ♠} Algunos posibles eventos son: A = {♣, ♦} y B = {♦, ♥, ♠} A partir de estos eventos se pueden formar: A ∪ B = {♣, ♦, ♥, ♠, }, A ∩ B = {♦} y Ac = {♥, ♠} Además, notar que A ∪ B = S y (A ∪ B)c = φ, que denota el conjunto vacío. Teorema 1.1.1 Sean A, B y C eventos definidos en un espacio muestral S, a. Conmutatividad: A∪B =B∪A A∩B =B∩A b. Asociatividad: A ∪ (B ∪ C) = (A ∪ B) ∪ C A ∩ (B ∩ C) = (A ∩ B) ∩ C c. Leyes distributivas: A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C) A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C)
3
CAPÍTULO 1. TEORÍA DE LA PROBABILIDAD d. Leyes de DeMorgan: (A ∪ B)c = Ac ∩ B c (A ∩ B)c = Ac ∪ B c
Las operaciones de unión e intersección pueden ser extendidas hacia colecciones infinitas de eventos. Si A1 , A2 , . . . es una colección infinita de eventos definidos sobre un espacio muestral S, entonces ∞ [
Ai = {x ∈ S : x ∈ Ai para algún i}
i=1 ∞ \
Ai = {x ∈ S : x ∈ Ai para todo i}
i=1
Ejemplo 1.1.2 Sea S = (0, 1] y se define Ai = [(1/i) , 1]. Entonces T (0, 1] y ∞ i=1 Ai = {1}.
S∞
i=1
Ai =
También es posible definir uniones e intersecciones sobre una colección no numerable de eventos. Si Γ es un conjunto de índices, entonces [
Aα = {x ∈ S : x ∈ Aα para algún α}
α∈Γ
\
Aα = {x ∈ S : x ∈ Aα para todo α}
α∈Γ
Ejemplo 1.1.3 Si se toma Γ = {Todos los números reales positivos} y Aa = S (0, a] entonces α∈Γ Aα = (0, ∞) es una unión no numerable. Definición 1.1.3 Dos eventos A y B son disjuntos (o mutumente excluyentes) si A ∩ B = φ. Los eventos A1 , A2 , . . . son disjuntos por pares si Ai ∩ Aj = φ para todo i 6= j. Ejemplo 1.1.4 La colección Ai = [i, i + 1), i = 0, 1, . . . consiste de eventos S disjuntos por pares. Notar también que ∞ i=0 Ai = [0, ∞). Definición 1.1.4 Si A1 , A2 , . . . son disjuntos por pares y tonces la colección A1 , A2 , . . . forma una partición de S.
S∞
i=1
Ai = S en-
Ejemplo 1.1.5 Los eventos Ai = [i, i + 1) foman una partición de S = [0, ∞) para i = 0, 1, . . . .
4
CAPÍTULO 1. TEORÍA DE LA PROBABILIDAD
1.2. 1.2.1.
Fundamentos de la teoría de la probabilidad Axiomas de la probabilidad
Para cada evento A definido en el espacio muestral S es posible asociarle un número entre cero y uno llamado la probabilidad de A y denotado por Pr (A). Definición 1.2.1 Una colección de subconjuntos de S es llamada un sigma álgebra (o conjunto de Borel), denotada por B, si satisface las siguientes propiedades: 1. φ ∈ B (el conjunto vacío es un elemento de B). 2. Si A ∈ B entonces Ac ∈ B (B es cerrado bajo complementos). 3. Si A1 , A2 , . . . ∈ B entonces numerables).
S∞
i=1
Ai ∈ B (B es cerrado bajo uniones
Definición 1.2.2 Dado un espacio muestral S y un sigma álgebra asociado B, una función de probabilidad es una función Pr con dominio en B que satisface: 1. Pr (A) ≥ 0 para todo A ∈ B. 2. Pr (S) = 1. S∞
3. Si A1 , A2 , . . . ∈ B son eventos disjuntos por pares, entonces Pr ( P∞ i=1 Pr (Ai ).
1.2.2.
i=1
Ai ) =
Cálculo de probabilidades
Teorema 1.2.1 Si Pr es una función de probabilidad y A es cualquier evento en B, entonces: a. Pr (φ) = 0 , donde φ es el conjunto vacío. b. Pr (A) ≤ 1. c. Pr (Ac ) = 1 − Pr (A).
CAPÍTULO 1. TEORÍA DE LA PROBABILIDAD
5
Teorema 1.2.2 Si Pr es una función de probabilidad, A y B son eventos en B, entonces: a. Pr (B ∩ Ac ) = Pr (B) − Pr (A ∩ B). b. Pr (A ∪ B) = Pr (A) + Pr (B) − Pr (A ∩ B). c. Si A ⊂ B entonces Pr (A) ≤ Pr (B). Teorema 1.2.3 Si Pr es una función de probabilidad, entonces: a. Pr (A) =
P∞
i=1
Pr (A ∩ Ci ) para cualquier partición C1 , C2 , . . .
∞ b. Pr (∪∞ i=1 Pr (Ai ) para eventos cualesquiera A1 , A2 , . . . (Dei=1 Ai ) ≤ sigualdad de Boole’s).
P
1.2.3.
Conteo
Ejemplo 1.2.1 La Tinka es una modalidad de juego de lotería electrónica que consiste en la extracción de seis bolillas sin reemplazo desde un bolillero cerrado que contiene cuarenta y cinco bolillas numeradas del 1 al 45. Para calcular la probabilidad de ganar en este juego es necesario saber cuantos grupos diferentes de seis números pueden escogerse a partir de los cuarenta y cinco. Ejemplo 1.2.2 En un torneo de eliminación simple, como el torneo abierto de tenis, los participantes avanzan hacia la final solo si ganan. Si se tienen 16 participantes se podría estar interesados en la secuencia de oponentes que debe enfrentar un participante para llegar a la final del torneo. Teorema 1.2.4 Si un trabajo consistente en k actividades separadas, la i−ésima operación puede realizarse de ni formas, i = 1, 2, · · · , k, entonces el trabajo completo puede realizarse de n1 × n2 × · · · × nk formas. Definición 1.2.3 Para un entero positivo n, el factorial de n, denotado por n!, es el producto de todos los enteros positivos menores o iguales a n. Es decir: n! = n × (n − 1) × (n − 2) × · · · × 3 × 2 × 1 Además, se define 0! = 1.
6
CAPÍTULO 1. TEORÍA DE LA PROBABILIDAD
Definición 1.2.4 Para dos enteros no negativos n y r, n ≥ r, se define el símbolo nr como: ! n n! = r r! (n − r)! Para saber el número total de jugadas necesarias para ganar el juego de la Tinka podrían considerarse las siguientes posibilidades: 1. Sin reemplazo y considerando que el orden es importante. Usando el teorema 1.2.4 el primer número puede ser elegido de 45 formas, el segundo de 44, etc. Es decir, existen: 45 × 44 × 43 × 42 × 41 × 40 = 5864443200 posibles jugadas. 2. Con reemplazo y considerando que el orden es importante. Como cada número puede ser elegido de 45 formas, existen: 45 × 45 × 45 × 45 × 45 × 45 = 456 = 8303765625 posibles jugadas. 3. Sin reemplazo y considerando que el orden no es importante. Luego de hallar el número de jugadas considerando que el orden es importante hay que dividir el resultado entre las jugadas redundantes. Nuevamente por el teorema 1.2.4 seis números pueden ser dispuestos de 6 × 5 × 4 × 3 × 2 × 1 formas, luego el número total de jugadas es: 45! 45 × 44 × 43 × 42 × 41 × 40 = = 8145060 6×5×4×3×2×1 6!39! 4. Con reemplazo y considerando que el orden no es importante. Para realizar el proceso de conteo en este caso se puede considerar que hay 45 casilleros para los números en los que hay que colocar 6 bolillas, digamos B, tal como se muestra a continuación: Tabla 1.1: 45 casilleros y 6 bolillas B 1
2
BB 3
B 4
5
··· ···
42
B 43
B 44
45
7
CAPÍTULO 1. TEORÍA DE LA PROBABILIDAD
El número de jugadas posibles es igual al número de formas en que pueden colocarse las 6 bolillas en los 45 casilleros. El trabajo puede resultar menos complicado si consideramos la disposición de las bolillas y las paredes de las cajas sin tomar en cuenta la de los extremos. Luego debe contarse el número total de arreglos de 46 paredes y 6 bolillas. Se tienen 52 objetos que pueden disponerse de 52! formas y para eliminar los ordenamientos redundantes luego hay que dividir entre 6! y 46! dando un total de: 52! = 20358520 6!46! Las cuatro situaciones anteriores se resumen a continuación: Tabla 1.2: Número de posibles arreglos de tamaño r a partir de n objetos Sin reemplazo El orden es importante El orden no es importante
1.2.4.
n! (n−r)! n r
Con reemplazo nr
n+r−1 r
Puntos igualmente probables
Suponga que S = {s1 , · · · , sN } es un espacio muestral finito. Se dice que los puntos en S son igualmente probables si Pr ({si }) = N1 , para todo punto si . Luego, usando (3) de la definición de probabilidad, se tiene que para todo evento A: X 1 Número de elementos en A Pr (A) = = Número de elementos en S si ∈A N
1.3.
Probabilidad condicional e independencia
Definición 1.3.1 Si A y B son eventos en S y Pr (B) > 0, entonces la probabilidad condicional de A dado B, representada por Pr (A|B), es: Pr (A|B) =
Pr (A ∩ B) Pr (B)
(1.3.1)
CAPÍTULO 1. TEORÍA DE LA PROBABILIDAD
8
Teorema 1.3.1 (Regla de Bayes) Sean A1 , A2 , · · · una partición del espacio muestral S y sea B un evento definido también en S. Entonces, para cada i = 1, 2, · · · Pr (B|Ai ) Pr (Ai ) Pr (Ai |B) = P ∞ Pr (B|Aj ) Pr (Aj ) j=1
Definición 1.3.2 Dos eventos A y B son estadísticamente independientes si: Pr (A ∩ B) = Pr (A) Pr (B) (1.3.2) Teorema 1.3.2 Si A y B son eventos independientes, entonces los siguientes pares también lo son: a. A y B c . b. Ac y B. c. Ac y B c . Definición 1.3.3 Una colección de eventos A1 , · · · , An son mutuamente independientes si para cualquier subcolección Ai1 , · · · , Aik se tiene: Pr
k \ i=1
1.4.
!
Aij
=
k Y
Pr(Aij )
j=1
Variables aleatorias
Definición 1.4.1 Una variable aleatoria es una función que se define desde un espacio muestral S hacia los números reales.
1.5.
Función de distribución acumulada
Definición 1.5.1 La función de distribución acumulada de una variable aleatoria X, denotada por FX (x), se define por: FX (x) = Pr (X ≤ x) , para todo x
9
CAPÍTULO 1. TEORÍA DE LA PROBABILIDAD
Teorema 1.5.1 La función FX (x) es una función de distribución acumulada si y solo si se cumplen las tres condiciones siguientes: a. l´ım F (x) = 0 y l´ım F (x) = 1. x→−∞
x→∞
b. F (x) es una función no decreciente de x. c. F (x) es contínua hacia la derecha; esto es, para todo número x0 , l´ım F (x) = F (x0 ). x↓x0
Definición 1.5.2 Una variable aleatoria X es contínua si FX (x) es una función contínua de x. Una variable aleatoria X es discreta si FX (x) es una función paso de x. Definición 1.5.3 Las variables aleatorias X y Y son identicamente distribuidas si para cada evento A ∈ B, Pr (X ∈ A) = Pr (Y ∈ A). Teorema 1.5.2 Las dos afirmaciones siguientes son equivalentes: a. Las variables aleatorias X y Y son identicamente distribuidas. b. FX (x) = FY (x), para todo x.
1.6.
Función de probabilidad y densidad
Definición 1.6.1 La función de probabilidad de una variable aleatoria discreta X esta dada por: fX (x) = Pr (X = x) , para todo x Definición 1.6.2 La función de densidad, fX (x) , de una variable aleatoria contínua X es la función que satisface: ˆx FX (x) = fX (t) dt, para todo x −∞
Teorema 1.6.1 Una función fX (x) es una función de probabilidad o función de densidad para una variable aleatoria X si y solo si: a. fX (x) ≥ 0 para todo x. b.
P
fX (x) = 1 si X es variable aleatoria discreta y si X es variable aleatoria contínua. x
´∞ −∞
fX (x) dx = 1
Capítulo 2 Transformaciones y esperanza 2.1.
Transformaciones para variables aleatorias
Si X es una variable aleatoria con función de distribución acumulada FX (x), entonces cualquier función de X es también una variable aleatoria. Si se define Y = g(X) es posible describir el comportamiento probabilistico de Y en términos de X. Formalmente, y = g(x) define un mapa desde el espacio muestral de X , X , al espacio muestral de Y , Y. Es decir: g (x) : X −→ Y Se asocia a g un mapa inverso, denotado por g −1 , definido por: g −1 (A) = {x ∈ X : g (x) ∈ A}
(2.1.1)
g −1 (A) es el conjunto de puntos en X tal que g (x) pertenece al conjunto A. Si el conjunto A es unitario, digamos A = {y}, entonces: g −1 ({y}) = {x ∈ X : g (x) = y} En este caso podria escribirse g −1 (y) en lugar de g −1 ({y}). Si existe un único x tal que g (x) = y, entonces g −1 (y) es el conjunto unitario {x} y además g −1 (y) = x. Si se define Y = g (X), entonces para cualquier conjunto A ⊂ Y: 10
11
CAPÍTULO 2. TRANSFORMACIONES Y ESPERANZA
Pr (Y ∈ A) = Pr (g (X) ∈ A) = Pr ({x ∈ X : g (x) ∈ A})
(2.1.2)
= Pr X ∈ g −1 (A)
2.1.1.
Caso discreto
Si X es una variable aleatoria discreta entonces X es numerable. El espacio muestral para Y = g(X) es Y = {y : y = g (x) , x ∈ X } el cual también es un conjunto numerable. Usando la ecuación 2.1.2 la función de probabilidad de Y es: fY (y) = Pr (Y = y) =
X
Pr (X = x) =
x∈g −1 (y)
X
fX (x)
x∈g −1 (y)
Ejemplo 2.1.1 Sea X ∼ BI (n, p) cuya función de probabilidad es: !
n x fX (x) = Pr (X = x) = p (1 − p)n−x , x
(2.1.3)
para x = 0, 1, · · · , n y 0 ≤ p ≤ 1. Considere la variable aleatoria Y = g (X) = n − X, entonces X = {0, 1, · · · , n} y Y = {0, 1, · · · , n}. Luego g −1 (y) es el conjunto unitario x = n − y, tal que: X
fY (y) =
fX (x)
x∈g −1 (y)
= fX (n − y) ! n = pn−y (1 − p)n−(n−y) n−y ! n = (1 − p)y pn−y y es decir, Y ∼ BI (n, 1 − p).
2.1.2.
Caso continuo
Si X y Y = g (X) son variables aleatorias continuas es posible encontrar fórmulas para obtener la función de distribución acumulada y la función de densidad de Y en términos de FX , fX y la función g.
12
CAPÍTULO 2. TRANSFORMACIONES Y ESPERANZA La función de distribución acumulada de Y = g (X) es: FY (y) = Pr (Y ≤ y) = Pr (g (X) ≤ y) = Pr ({x ∈ X : g (x) ≤ y}) ˆ = fX (x) dx
(2.1.4)
{x∈X :g(x)≤y}
Suelen existir algunas dificultades en identificar {x ∈ X : g (x) ≤ y} y llevar a cabo el proceso de integración de fX (x) sobre esta región. Suele ser conveniente utilizar: X = {x : fX (x) > 0} y Y = {y : y = g (x) para algún x ∈ X }
(2.1.5)
La función de densidad de la variable aleatoria X es positiva solo sobre X llamado el conjunto soporte de la distribución. Esta terminología también es aplicable a una función de probabilidad. Es sencillo trabajar con funciones g (x) que son monótonas, es decir, aquellas que satisfacen alguna de las siguientes relaciones: u > v ⇒ g (u) > g (v) (creciente) o u < v ⇒ g (u) > g (v) (decreciente) Si la transformación x → g (x) es monótona entonces es uno a uno y sobreyectiva. La transformación es uno a uno si cada x permite obtener un único y y cada y se obtiene con a lo más un x. La transformación es sobreyectiva si para cada y ∈ Y, definido en 2.1.5, existe un x ∈ X tal que g (x) = y. Si g es monótona, entonces g −1 es unitario; es decir, g −1 (y) = x si y solo si y = g (x). Si g es creciente, esto implica que: {x ∈ X : g (x) ≤ y} =
n
=
n
o
x ∈ X : g −1 (g (x)) ≤ g −1 (y) x ∈ X : x ≤ g −1 (y)
o
(2.1.6)
y usando 2.1.4, se tiene que: ˆ FY (y) =
−1 (y) gˆ
{x∈X :x≤g −1 (y)}
fX (x) dx = FX g −1 (y)
fX (x) dx = −∞
13
CAPÍTULO 2. TRANSFORMACIONES Y ESPERANZA Si g es decreciente, entonces: {x ∈ X : g (x) ≤ y} =
n
=
n
o
x ∈ X : g −1 (g (x)) ≥ g −1 (y) x ∈ X : x ≥ g −1 (y)
o
(2.1.7)
se tiene que: ˆ∞
fX (x) dx = 1 − FX g −1 (y)
FY (y) = g −1 (y)
Se resumen los resultados anteriores en el siguiente teorema. Teorema 2.1.1 Sea X una variable aleatoria con función de distribución acumulada FX (x). Se define Y = g (X) y los espacios muestrales X y Y según 2.1.5. a. Si g es una función creciente sobre X , entonces FY (y) = FX (g −1 (y)) para y ∈ Y. b. Si g es una función decreciente sobre X y X es una variable aleatoria continua, entonces FY (y) = 1 − FX (g −1 (y)) para y ∈ Y. Ejemplo 2.1.2 Suponga que X tiene función de densidad f (x) = 1 si 0 < x < 1, luego FX (x) = x. Si se realiza la transformación Y = g (X) = − log X, entonces g (x) es una función decreciente y Y = (0, ∞). Para y > 0, y = − log x implica x = g −1 (y) = e−y , luego:
FY (y) = 1 − FX g −1 (y) = 1 − FX e−y = 1 − e−y además FY (y) = 0 para y ≤ 0. La función de densidad de Y puede obtenerse derivando su función de distribución acumulada. La expresión resultante se presenta en el siguiente teorema. Teorema 2.1.2 Sea X con función de densidad fX (x) y sea Y = g (X), donde g es una función monótona. Sean X y Y tal como se definieron en 2.1.5. Suponga que fX (x) es continua sobre X y que g −1 (y) tiene una derivada continua sobre Y. Entonces la función de densidad de Y es: f
fY (y) =
d −1 −1 g (y) y ∈ Y (y)) dy X (g
0
de otro modo
(2.1.8)
CAPÍTULO 2. TRANSFORMACIONES Y ESPERANZA
14
Demostración: Usando el teorema 2.1.1 y la regla de la cadena se tiene:
f (g −1 (y)) d g −1 (y) si g es creciente d X dy fY (y) = FY (y) = d −1 −1 dy −fX (g (y)) dy g (y) si g es decreciente
Ejemplo 2.1.3 Sea fX (x) la función de densidad gamma: fX (x) =
1 xn−1 e−x/β , 0 < x < ∞ (n − 1)!β n
donde β > 0 y n es un entero positivo. Suponga que se desea encontrar la función de densidad de g (X) = 1/X. Notar que X = Y = (0, ∞). Si d −1 g (y) = −1/y 2 . Aplicando el teorema y = g (x), entonces g −1 (y) = 1/y y dy anterior:
fY (y) = fX g
−1
d −1 (y) g (y) dy !n−1
1 (n − 1)!β n
1 y
1 = (n − 1)!β n
1 y
=
e−1/(βy)
1 y2
!n+1
e−1/(βy)
se obtiene un caso especial de una función de densidad conocida como gamma inversa. En muchas aplicaciones la función g podría no ser creciente ni decreciente, por consiguiente no prodrian aplicarse los resultados anteriores. Sin embargo es común el caso en el que la función g es monótona sobre ciertos subintervalos, los que permiten obtener una expresión para Y = g (X). Ejemplo 2.1.4 Suponga que X es una variable aleatoria continua. La función de distribución acumulada de Y = X 2 , para y > 0, es: √ √ FY (y) = Pr (Y ≤ y) = Pr X 2 ≤ y = Pr (− y ≤ X ≤ y) Como X es variable aleatoria continua se tiene: √ √ FY (y) = Pr (− y < X ≤ y) √ √ = Pr (X ≤ y) − Pr (X ≤ − y) √ √ = FX ( y) − FX (− y)
15
CAPÍTULO 2. TRANSFORMACIONES Y ESPERANZA
La función de densidad de Y puede obtenerse derivando su función de distribución acumulada: d FY (y) dy d √ √ = [FX ( y) − FX (− y)] dy √ √ y usando la regla de la cadena para derivar FX ( y) y FX (− y) se tiene: fY (y) =
1 1 √ √ fY (y) = √ fX ( y) + √ fX (− y) 2 y 2 y
(2.1.9)
Notar que la función de densidad anterior esta expresada como la suma de dos componentes sobre los intervalos donde g (x) = x2 es monótona. Teorema 2.1.3 Sea X con función de densidad fX (x), Y = g (X) y el espacio muestral X definido en 2.1.5. Suponga que existe una partición A0 , A1 , · · · , Ak de X tal que Pr (X ∈ A0 ) = 0 y fX (x) es continua sobre cada Ai . Suponga además que existen funciones g1 (x) , · · · , gk (x) definidas sobre A1 , · · · , Ak respectivamente, que satisfacen: a. g (x) = gi (x) para x ∈ Ai , b. gi (x) es monótona sobre Ai , c. El conjunto Y = {y : y = gi (x) para algún x ∈ Ai } es el mismo para cada i = 1, · · · , k . d. gi−1 (y) tiene una derivada continua en Y, para cada i = 1, · · · , k . Entonces:
P k
fY (y) =
−1 d −1 i=1 fX gi (y) dy gi (y) y ∈ Y
0
de otro modo
Es importante notar que cada gi (x) es una transformación uno a uno desde Ai hacia Y. Además, gi−1 (y) es una función uno a uno desde Y hacia Ai , tal que, para y ∈ Y, gi−1 (y) permite obtener un único x = gi−1 (y) ∈ Ai para el cual gi (x) = y.
16
CAPÍTULO 2. TRANSFORMACIONES Y ESPERANZA Ejemplo 2.1.5 Sea X con distribución normal estándar, 1 2 fX (x) = √ e−x /2 , −∞ < x < ∞ 2π
Si Y = X 2 , la función g (x) = x2 es monótona sobre (−∞, 0) y (0, ∞) con lo que Y = (0, ∞). Aplicando el teorema 2.1.3 se tiene A0 = {0} y √ A1 = (−∞, 0) g1 (x) = x2 g1−1 (y) = − y √ A2 = (0, ∞) g2 (x) = x2 g2−1 (y) = y La función de densidad de Y es:
√ 2 √ 2 1 1 1 1 fY (y) = √ e−(− y) /2 − √ + √ e−( y) /2 √ 2 y 2 y 2π 2π 1 1 = √ √ e−y/2 , 0 < y < ∞ 2π y
la cual es conocida como la distribución chi cuadrado con 1 grado de libertad. Teorema 2.1.4 Sea X cuya función de distribución acumulada, FX (x), es continua. Si se define la variable aleatoria Y = FX (x), entonces Y tiene distribución uniforme en el intervalo (0, 1). Demostración: Si Y = FX (x) entonces 0 < y < 1, Pr (Y ≤ y) = Pr (FX (X) ≤ y)
= Pr FX−1 [FX (X)] ≤ FX−1 (y)
= Pr X ≤ FX−1 (y)
= FX FX−1 (y) = y
2.2.
Valores esperados
Definición 2.2.1 El valor esperado o media de una variable aleatoria g (X), denotado por E [g (X)], es: E [g (X)] =
P
g (x) fX (x) si X es discreta g (x) fX (x) dx si X es continua −∞
´ ∞
x∈X
(2.2.1)
CAPÍTULO 2. TRANSFORMACIONES Y ESPERANZA
17
siempre que la integral o suma exista. Si E [|g (X)|] = ∞ se dice que E [g (X)] no existe. Ejemplo 2.2.1 Suponga que X ∼ E (λ) , entonces su función de densidad es: 1 fX (x) = e−x/λ λ para 0 ≤ x < ∞ y λ > 0. Luego: ˆ∞ E [X] =
1 x e−x/λ dx = λ λ
0
Ejemplo 2.2.2 Si X ∼ BI (n, p), entonces: n X n x n x x p (1 − p)n−x x p (1 − p)n−x = E [X] = x x x=1 x=0 n X
!
!
Usando la identidad x
n x
=n
n−1 x−1
se tiene:
n X
!
n−1 X
!
n−1 x n p (1 − p)n−x E [X] = x − 1 x=1 n − 1 y+1 n p (1 − p)n−(y+1) = y y=0 = np
n−1 X y=0
!
n−1 y p (1 − p)n−1−y y
= np Ejemplo 2.2.3 Un ejemplo clásico de una variable aleatoria cuyo valor esperado no existe corresponde a la distribución de Cauchy cuya función de densidad es: 1 1 fX (x) = , −∞ < x < ∞ π 1 + x2 ´∞ Es fácil verificar que −∞ fX (x) dx = 1, pero con respecto a su valor esperado: ˆ ˆ ∞ |x| 1 2 ∞ x E [|X|] = dx = dx 2 π 0 1 + x2 −∞ π 1 + x
18
CAPÍTULO 2. TRANSFORMACIONES Y ESPERANZA Para cualquier número positivo M , ˆ M M x 1 1 2 2 = log 1 + x log 1 + M dx = 1 + x2 2 2 0 0 Luego, 2 E [|X|] = l´ım M →∞ π
ˆ 0
M
x 1 2 l´ ım log 1 + M =∞ dx = 1 + x2 π M →∞
y por consiguiente el E [X] de esta distribución no existe. Teorema 2.2.1 Sea X una variable aleatoria y sean a, b y c constantes. Entonces para funciones cualesquiera g1 (x) y g2 (x) cuyo valor esperado exista, a. E [ag1 (X) + bg2 (X) + c] = aE [g1 (X)] + bE [g2 (X)] + c. b. Si g1 (x) ≥ 0 para todo x, entonces E [g1 (X)] ≥ 0. c. Si g1 (x) ≥ g2 (x) para todo x, entonces E [g1 (X)] ≥ E [g2 (X)]. d. Si a ≤ g1 (x) ≤ b para todo x, entonces a ≤ E [g1 (X)] ≤ b. Ejemplo 2.2.4 Suponga que se mide la distancia entre una variable aleatoria X y una constante b mediante (X − b)2 . Mientras más cerca esté b de X más pequeñah sera dicha i cantidad. El objetivo es determinar el valor de b que 2 minimize E (X − b) . h
E (X − b)2
i
h
= E (X − E [X] + E [X] − b)2 h
i
= E ((X − E [X]) + (E [X] − b))2 h
i
i
h
= E (X − E [X])2 + E (E [X] − b)2
i
ya que E [(X − E [X])(E [X] − b)] = 0. Además (E [X] − b) es una constante. Luego: h
i
h
i
E (X − b)2 = E (X − E [X])2 + (E [X] − b)2 Como no se tiene control sobre el primer término del lado derecho y el segundo término puede ser mayor o igual a 0, el menor valor se obtiene cuando b = E[X]. Entonces: h
i
h
m´ın E (X − b)2 = E (X − E [X])2 b
i
19
CAPÍTULO 2. TRANSFORMACIONES Y ESPERANZA
2.3.
Momentos y función generatriz de momentos 0
Definición 2.3.1 Para cada entero n, el n-ésimo momento de X, µn , es: 0
µn = E [X n ] El n-ésimo momento central de X, µn , es: µn = E [(X − µ)n ] 0
donde µ = µ1 = E [X]. Definición 2.3.2 La varianza de una variable aleatoria X es su segundo momento central, Var (X) = E [(X − µ)2 ]. La raíz cuadrada positiva de la varianza es conocida como desviación estándar. Ejemplo 2.3.1 Si X ∼ E (λ), entonces: ˆ∞ h
i
Var (X) = E (X − µ)2 =
1 (x − λ)2 e−x/λ dx = λ2 λ
0
Teorema 2.3.1 Si X es una variable aleatoria con varianza finita, entonces para constantes cualesquiera a y b: Var (aX + b) = a2 Var (X) Demostración: Usando la definición de varianza: h
Var (aX + b) = E ((aX + b) − E [(aX + b)])2 h
= E (aX − aE [X])2 h
= a2 E (X − E [X])2
i
i
i
= a2 Var (X) La siguiente forma de calcular la varianza es bastante útil: h
i
Var (X) = E X 2 − E2 [X]
(2.3.1)
CAPÍTULO 2. TRANSFORMACIONES Y ESPERANZA
20
Ejemplo 2.3.2 Si X ∼ BI (n, p), entonces: h
E X
2
i
=
n X x=0
!
x
2
n x p (1 − p)n−x x
pero: !
x
2
n n! n−1 = xn =x x (x − 1)!(n − x)! x−1
!
luego, h
E X
2
i
n X
!
n−1 x = xn p (1 − p)n−x x − 1 x=1 n−1 X
!
n − 1 y+1 (y + 1) p (1 − p)n−1−y = n y y=0 = np(n − 1)p + np Finalmente: Var [X] = n2 p2 − np2 + np − (np)2 = np(1 − p) . Definición 2.3.3 Sea X una variable aleatoria. La función generatriz de momentos de X, denotada por MX (t), es: h
MX (t) = E etX
i
sujeto a que el valor esperado exista para t en algunah vecindad de 0. Es i decir, existe h > 0 tal que, para todo t en −h < t < h, E etX existe. Más explícitamente: P
etx fX (x) si X es discreta MX (t) = tx e fX (x) dx si X es continua −∞ ´ ∞x
Teorema 2.3.2 Si X tiene función generatríz de momentos MX (t) entonces: (1)
E [X] = MX (0) (n)
donde MX (0) =
dn MX (t) . dtn t=0
CAPÍTULO 2. TRANSFORMACIONES Y ESPERANZA
21
Prueba: Asumiendo que es posible intercambiar la derivada con la integral, se tiene: ˆ d d ∞ tx MX (t) = e fX (x)dx dt dt −∞ ! ˆ ∞ d tx = e fX (x)dx −∞ dt ˆ ∞ xetx fX (x)dx = −∞
h
= E XetX
h
i
i
luego dtd MX (t) = E XetX = E [X]. Trabajando de manera análot=0 t=0 ga, se puede establecer que: h i dn n tX M (t) = E X e = E [X n ] X t=0 t=0 dtn
Ejemplo 2.3.3 En el ejemplo 2.1.3 se usó un caso especial de la función de densidad gamma: f (x) =
1 xα−1 e−x/β , α Γ(α)β
0 < x < ∞, α > 0, β > 0
donde Γ(α) denota la función gamma cuyas propiedades se mencionan en la sección 3.2. La función generatriz de momentos de la distribución gamma esta dada por: ˆ ∞ 1 MX (t) = etx xα−1 e−x/β dx Γ(α)β α 0 ˆ ∞ 1 xα−1 e−x((1/β)−t) dx = Γ(α)β α 0 ˆ ∞ β 1 = xα−1 e−x/( 1−βt ) dx α Γ(α)β 0 !α 1 β = Γ(α) Γ(α)β α 1 − βt !α 1 = 1 − βt
CAPÍTULO 2. TRANSFORMACIONES Y ESPERANZA
22
y existe solo si t < 1/β. La media de la distribución gamma es: E [X] =
αβ d MX (t) = = αβ t=0 dt (1 − βt)α+1 t=0
Los otros momentos pueden calcularse de forma similar. Ejemplo 2.3.4 Si X ∼ BI (n, p), entonces: MX (t) = =
n X
!
e
x=0 n X
tx
n x p (1 − p)n−x x !
n (pet )x (1 − p)n−x x
x=0
= [pet + (1 − p)]n recordando que
Pn
x=0
n x
ux v n−x = (u + v)n .
Si la función generatriz de momentos existe, entonces caracteriza un conjunto infinito de momentos. La pregunta natural es si la condición anterior determina una función de distribución acumulada única. Ejemplo 2.3.5 Considere las siguientes funciones de densidad dadas por: 1 2 f1 (x) = √ e−(log x) /2 , 0≤x<∞ 2πx f2 (x) = f1 (x) [1 + sin(2π log x)] , 0≤x<∞ La función de densidad f1 (x) es un caso especial de la función de densidad lognormal. Se puede probar que si X1 ∼ f1 (x) entonces: E [X1r ] = er
2 /2
,
r = 0, 1, 2, · · ·
es decir, X1 tiene todos sus momentos. Ahora si X2 ∼ f2 (x) se tiene: ˆ ∞ r E [X2 ] = xr f1 (x) [1 + sin(2π log x)] dx 0 ˆ ∞ r = E [X1 ] + xr f1 (x) sin(2π log x)dx 0
La transformación y = log(x) − r muestra que la última integral sobre una función impar en (−∞, ∞) es igual a cero para r = 0, 1, 2, · · · . Es decir, que aunque X1 y X2 tienen diferentes funciones de densidad sus momentos son iguales para todo r. Las dos funciones de densidad son graficadas en la figura 2.1.
CAPÍTULO 2. TRANSFORMACIONES Y ESPERANZA
23
Teorema 2.3.3 Sean FX (x) y FY (y) dos funciones de distribución acumulada tal que todos sus momentos existen. a. Si FX y FY tienen soporte acotado, entonces FX (u) = FY (u) para todo u si y solo si E [X r ] = E [Y r ] para todo entero r = 0, 1, 2, · · · . b. Si las funciones generatrices de momentos existen y MX (t) = MY (t) para todo t en alguna vecindad de cero, entonces FX (u) = FY (u) para todo u. Teorema 2.3.4 Suponga {Xi , i = 1, 2, · · · } es una secuencia de variables aleatorias cuya función generatriz de momentos es MXi (t). Además: l´ım MXi (t) = MX (t)
i→∞
para todo t en una vencidad de cero
donde MX (t) es una función generatriz de momentos. Entonces existe una única función de distribución acumulada FX cuyos momentos estan definidos por MX (t) y, para todo x donde FX (x) es continua, se tiene: l´ım FXi (x) = FX (x)
i→∞
Es decir, la convergencia, para |t| < h, de funciones generatrices de momentos en una función generatriz de momentos implica convergencia de funciones de distribución acumulada.
CAPÍTULO 2. TRANSFORMACIONES Y ESPERANZA
24
Figura 2.1: Dos funciones de densidad con los mismos momentos
Ejemplo 2.3.6 Una aproximación usada en cursos elementales de estadística permite aproximar las probabilidades binomiales usando la distribución de Poisson. Esta aproximación es válida cuando n es grande y np es pequeño. La función de probabilidad de Poisson es: Pr(Y = y) =
e−λ λy , y!
y = 0, 1, 2, · · ·
donde λ es una constante positiva. La aproximacion es tal que si X tiene distribución binomial(n, p) y Y tiene distribución de Poisson(λ) con λ = np, entonces: Pr(X = x) ≈ Pr(Y = x)
CAPÍTULO 2. TRANSFORMACIONES Y ESPERANZA
25
Recordar que: MX (t) = [pet + (1 − p)]n es la función generatriz de momentos de la distribución binomial. Para la distribución de Poisson se puede demostrar que su función generatriz de momentos es: t MY (t) = eλ(e −1) Como λ = np, entonces: in
h
1 + p(et − 1) n 1 t = 1 + (e − 1)λ n
MX (t) =
Lema 2.3.1 Sean a1 , a2 , · · · una secuencia de números que convergen hacia a, es decir l´ımn→∞ an = a, entonces:
l´ım 1 + n→∞
an n
n
= ea
Demostración: La demostración de este lema puede encontrarse en los textos de cálculo. Luego, si se toma an = λ(et − 1) = a entonces: t
l´ım MX (t) = eλ(e −1) = MY (t)
n→∞
es la función generatriz de momentos de la distribución de Poisson. Teorema 2.3.5 Sean a y b constantes, la función generatriz de momentos de la variable aleatoria aX + b está dada por: MaX+b (t) = ebt MX (at) Prueba: Por definición: h
i
h
i
MaX+b (t) = E e(aX+b)t
= E e(aX)t ebt h
= ebt E e(aX)t = ebt MX (at)
i
CAPÍTULO 2. TRANSFORMACIONES Y ESPERANZA
2.4.
26
Derivación bajo el signo de la integral
Teorema 2.4.1 (Regla de Leibnit’z) Si f (x, θ), a(θ) y b(θ) son diferenciables con respecto a θ, entonces: ˆ b(θ) ˆ b(θ) d d d ∂ f (x, θ)dx = f (b(θ), θ) b(θ) − f (a(θ), θ) a(θ) + f (x, θ)dx dθ a(θ) dθ dθ a(θ) ∂θ Notar que si a(θ) y b(θ) son constantes, se tiene un caso especial de la regla anterior: ˆ b ˆ b d ∂ f (x, θ)dx f (x, θ)dx = dθ a a ∂θ El rango en la integral anterior es finito, en caso contrario podrian surgir complicaciones. Teorema 2.4.2 Suponga que la función h(x, y) es continua en y0 para todo x, y existe una función g(x) que satisface: a. |h(x, y)| ≤ g(x) para todo x y y, ´∞ b. −∞ g(x)dx < ∞, ˆ
entonces: l´ım
y→y0
ˆ
∞
∞
h(x, y)dx = −∞
l´ım h(x, y)dx
−∞
y→y0
Es posible aplicar el teorema anterior para el caso en que h(x, y) se identifique con la diferencia (f (x, θ + δ) − f (x, θ))/δ. Teorema 2.4.3 Suponga que f (x, θ) es diferenciable en θ = θ0 , es decir, ∂ f (x, θ + δ) − f (x, θ) = f (x, θ) l´ım δ→0 δ ∂θ θ=θ0
para todo x, y que existen una función g(x, θ0 ) y una constante δ0 > 0 tales que: a. b.
f (x,θ+δ)−f (x,θ) δ
´∞
−∞
≤ g(x, θ0 ) para todo x y |δ| ≤ δ0 ,
g(x, θ0 )dx < ∞,
27
CAPÍTULO 2. TRANSFORMACIONES Y ESPERANZA entonces: d dθ
ˆ
∞
−∞
f (x, θ)dx
ˆ
∞
= θ=θ0
−∞
"
#
∂ dx f (x, θ) ∂θ θ=θ0
(2.4.1)
A menudo no se hace hincapié en la distinción entre θ y θ0 , luego 2.4.1 se escribe como: ˆ ∞ ˆ ∞ d ∂ f (x, θ)dx = f (x, θ)dx (2.4.2) dθ −∞ −∞ ∂θ Corolario 2.4.1 Suponga f (x, θ) es diferenciable en θ y existe una función g(x, θ) tal que:
y
´∞ −∞
∂ f (x, θ) / ≤ g(x, θ)para todo θ/ tal que θ/ − θ ≤ δ0 θ=θ ∂θ
g(x, θ)dx < ∞, entonces se cumple 2.4.2.
Ejemplo 2.4.1 Sea X ∼ E(λ). Suponga que se desea calcular: ˆ ∞ d d 1 −x/λ n xn E [X ] = e dx dλ dλ 0 λ para n > 0 número entero. Si se desea intercambiar la derivada con la integral, se tiene: ˆ ∞ d n 1 −x/λ d n E [X ] = x e dx dλ dλ λ 0 ˆ ∞ n x x = − 1 e−x/λ dx 2 λ λ 0 1 h n+1 i 1 = E X − E [X n ] λ2 λ Para justificar el intercambio anterior, se acota la derivada de xn ∂ ∂λ
xn e−x/λ λ
!
=
1 λ
e−x/λ ,
xn e−x/λ x xn e−x/λ x ≤ − 1 − 1 λ2 λ λ2 λ
desde que x/λ > 0. Para alguna constante δ0 que satisface 0 < δ0 < λ, se toma: x xn e−x/(λ+δ0 ) g(x, λ) = + 1 (λ − δ0 )2 λ − δ0
CAPÍTULO 2. TRANSFORMACIONES Y ESPERANZA
28
entonces: ! xn e−x/λ ≤ g(x, λ) para todo λ/ tal que λ/ − λ ≤ δ0 / λ λ=λ
∂ ∂λ
´ ∞ Como la distribución exponencial tiene todos sus momentos, se cumple g(x, θ)dx < ∞ siempre que λ − δ0 > 0, de manera que se justifica el −∞ cambio de la derivada con la integral. La propiedad ilustrada para la distribución exponencial se cumple para una gran clase de densidades de la sección 3.2. Ejemplo 2.4.2 Sea X ∼ N (µ, σ 2 = 1) y considere su función generatriz de momentos: ˆ ∞ h i 1 2 tX MX (t) = E e =√ etx e−(x−µ) /2 dx 2π −∞ entonces: "
#
h i d d h i ∂ tX MX (t) = E etX = E e = E XetX dt dt ∂t
Ejemplo 2.4.3 Sea X ∼ GE (θ) tal que: Pr(X = x) = θ(1 − θ)x
x = 0, 1, · · ·
0<θ<1
luego: ∞ ∞ X d d X θ(1 − θ)x = θ(1 − θ)x dθ x=0 dθ x=0
=
∞ h X
(1 − θ)x − θx(1 − θ)x−1
i
x=0 ∞ X
∞ 1 X 1 x = θ(1 − θ) − xθ(1 − θ)x θ x=0 1 − θ x=0
como
P∞
x=0
θ(1 − θ)x = 1, para todo 0 < θ < 1, su derivada es cero, ∞ 1 1 X − xθ(1 − θ)x θ 1 − θ x=0 1 1 − E [X] = θ 1−θ
0 =
entonces E [X] =
1−θ . θ
29
CAPÍTULO 2. TRANSFORMACIONES Y ESPERANZA Teorema 2.4.4 Suponga que la serie un intervalo (a, b) de números reales y: a.
∂ h(θ, x) ∂θ
b.
P∞
P∞
x=0
h(θ, x) converge para todo θ en
es continua en θ para cada x,
∂ x=0 ∂θ h(θ, x)
converge uniformemente sobre cada subintervalo cerrado y acotado de (a, b),
entonces:
∞ ∞ X d X ∂ h(θ, x) = h(θ, x) dθ x=0 x=0 ∂θ
Ejemplo 2.4.4 (Continuación del ejemplo 2.4.3) Para aplicar el teorema 2.4.4 se identifica: h(θ, x) = θ(1 − θ)x ∂ h(θ, x) = (1 − θ)x − θx(1 − θ)x−1 para verificar que y ∂θ converge uniformemente. Se define Sn (θ) por:
Sn (θ) =
∞ h X
(1 − θ)x − θx(1 − θ)x−1
P∞
∂ x=0 ∂θ h(θ, x)
i
x=0
La convergencia será uniforme en [c, d] ⊂ (0, 1) si, dado > 0, se puede encontrar N tal que: n > N ⇒ |Sn (θ) − S∞ (θ)| < para todo θ ∈ [c, d] Recordar la suma parcial de la serie geométrica. Si y 6= 1, entonces: n X
1 − y n+1 y = 1−y k=0 k
luego: n X
x=0 n X x=0
1 − (1 − θ)n+1 θ n X ∂ = θ − (1 − θ)x ∂θ x=0 n d X = −θ (1 − θ)x dθ x=0
(1 − θ)x =
θx(1 − θ)x−1
d 1 − (1 − θ)n+1 = −θ dθ θ n+1 (1 − (1 − θ) ) − (n + 1)θ(1 − θ)n = θ "
#
CAPÍTULO 2. TRANSFORMACIONES Y ESPERANZA
30
finalmente: 1 − (1 − θ)n+1 (1 − (1 − θ)n+1 ) − (n + 1)θ(1 − θ)n − θ θ = (n + 1)(1 − θ)n
Sn (θ) =
Es claro que, para 0 < θ < 1, S∞ = l´ımn→∞ Sn (θ) = 0. Como Sn (θ) es continua la convergencia es uniforme sobre cualquier intervalo cerrado y acotado. Luego, las series de derivadas convergen uniformemente y el intercambio de la derivada con la integral está justificada. Teorema 2.4.5 Suponga que la serie ∞ x=0 h(θ, x) converge uniformemente en [a, b] y que para cada x h(θ, x) es una función continua de θ, entonces: P
ˆ
bX ∞
a x=0
h(θ, x)dθ =
∞ X x=0
ˆ
b
h(θ, x)dθ a
Capítulo 3 Familias de distribuciones 3.1.
Distribuciones discretas
Una variable aleatoria X se dice tiene una distribución discreta si su rango es numerable.
Distribución uniforme discreta Una variable aleatoria X tiene distribución uniforme discreta (1, N ) si: Pr(X = x|N ) =
1 , N
x = 1, 2, · · · , N
(3.1.1)
donde N es un número entero. La media y varianza de la distribución uniforme discreta son: E[X] =
N +1 2
Var (X) =
(N + 1)(N − 1) 12
Si el espacio muestral es cualquier rango de enteros N0 , N0 + 1, · · · , N1 , entonces la función de probabilidad es: Pr(X = x|N0 , N1 ) =
1 N0 − N1 + 1
Distribución hipergeométrica Una variable aleatoria X tiene distribución hipergeométrica (N, M, n) si: 31
32
CAPÍTULO 3. FAMILIAS DE DISTRIBUCIONES
Pr(X = x|N, M, n) =
M x
!
N −M n−x ! N n
!
(3.1.2)
La media y varianza de la distribución hipergeométrica son: M E[X] = n N
nM Var (X) = N
(N − M )(N − n) N (N − 1)
!
Ejemplo 3.1.1 Un ingeniero de control de calidad inspecciona una muestra tomada al azar de dos calculadoras manuales de cada lote de tamaño 18. El lote sera aceptado si ambas calculadoras están en buenas condiciones de trabajo de otra manera se inspecciona todo el lote y el costo se carga al vendedor. ¿Cuál es la probabilidad de que un lote se acepte sin tener que hacer una inspección total si éste contiene cuatro calculadoras que no están en buenas condiciones de trabajo? Aplicando la distribución hipergeométrica con N = 18, M = 14 y n = 2. Usando R, se tiene: > dhyper(x = 2, m = 14, n = 4, k = 2) [1] 0.5947712
Notar que R considera los parámetros de la distribucion hipergeométrica (N, M, n) como (m + n, m, k).
Distribución binomial Una variable aleatoria tiene distribución Bernoulli(p) si: 1
X= 0
con probabilidad p con probabilidad 1 − p
con 0 ≤ p ≤ 1. El valor de X = 1 es comunmente llamado éxito y p la probabilidad de éxito. La media y varianza de la distribución Bernoulli son: E[X] = p
Var (X) = p(1 − p)
Si se tiene una secuencia de variables aleatorias con distribución Bernoulli(p), es decir X1 , X2 , · · · , Xn tal que:
CAPÍTULO 3. FAMILIAS DE DISTRIBUCIONES
Xi =
1 0
33
con probabilidad p con probabilidad 1 − p
entonces la variable aleatoria Y = y su función de probabilidad es :
Pn
i=1
Xi tiene distribución binomial(n, p)
!
n y Pr(Y = y|n, p) = p (1 − p)n−y , y
y = 0, 1, 2, · · · , n
(3.1.3)
La media y varianza de la distribución binomial son: E[X] = np
Var (X) = np(1 − p)
Ejemplo 3.1.2 Suponga que se esta interesado en calcular la probabilidad de obtener al menos un seis en cuatro lanzamientos de un dado regular. Este experimento puede ser modelado como una secuencia de cuatro ensayos de Bernoulli con probabilidad de éxito p = 1/6. Si se define la variable aleatoria como X = número de lanzamientos en los que se obtuvo seis, entonces X ∼ binomial(n = 4, p = 1/6). Usando R, se tiene: > 1-dbinom(x = 0, size = 4, prob = 1/6) [1] 0.5177469
Distribución Poisson Una variable aleatoria X que toma valores en los enteros no negativos tiene distribución Poisson(λ) si: e−λ λx , x = 0, 1, 2, · · · x! La media y varianza de la distribución Poisson son: Pr(X = x|λ) =
E[X] = λ
(3.1.4)
Var (X) = λ
Ejemplo 3.1.3 Considere un operador telefónico que recibe, en promedio, cinco llamadas cada tres minutos según un proceso de Poisson. ¿Cual es la probabilidad de no recibir llamadas en el siguiente minuto? ¿Cual es la
CAPÍTULO 3. FAMILIAS DE DISTRIBUCIONES
34
probabilidad de recibir al menos dos llamadas? Sea X = número de llamadas telefónicas recibidas en un minuto, entonces X ∼ P (λ = 5/3). Usando R se tiene: > dpois(x=0, lambda=5/3) [1] 0.1888756 > 1-ppois(q=1, lambda=5/3) [1] 0.4963317
Distribución binomial negativa La distribución binomial cuenta el número de éxitos en un número fijo de ensayos de Bernoulli. Suponga que se desea contar el número de ensayos necesarios para obtener un número fijo de éxitos. En una secuencia de ensayos independientes de Bernoulli(p) sea la variable aleatoria X definida como el ensayo en el que se obtiene el r-ésimo éxito, donde r es un entero, entonces: !
x−1 r Pr(X = x|r, p) = p (1 − p)x−r , r−1
x = r, r + 1, · · ·
(3.1.5)
y se dice que X tiene distribución binomial negativa(r, p). La distribución binomial negativa también se define en términos de la variable aleatoria Y = número de fracasos antes del r-ésimo éxito, es decir Y = X −r. Luego, la fórmula alternativa de la distribución binomial negativa es: !
r+y−1 r Pr(Y = y|r, p) = p (1 − p)y , y
y = 0, 1, 2, · · ·
(3.1.6)
A no ser que se indique lo contrario, nos referimos a la distribución binomial negativa(r, p) usando la función de probabilidad anterior. La media y varianza de la distribución binomial negativa son: E[Y ] = r
(1 − p) p
Var (Y ) =
r(1 − p) p2
CAPÍTULO 3. FAMILIAS DE DISTRIBUCIONES
35
Ejemplo 3.1.4 Una técnica conocida como muestreo binomial inverso suele usarse en poblaciones biológicas. Si la proporción de individuos que posee cierta característica es p y se realiza el proceso de muestreo hasta observar r de tales individuos, entonces el número de individuos muestreados es una variable aleatoria con distribución binomial negativa. Por ejemplo, suponga que en una población de moscas de la fruta se esta interesado en la proporción que tienen alas vestigiales y se decide muestrear hasta encontrar 100 de estas moscas. La probabilidad que se tenga que examinar al menos N moscas es: Pr (X ≥ N ) =
∞ X x=N
= 1−
!
x − 1 100 p (1 − p)x−100 99 N −1 X x=100
!
x − 1 100 p (1 − p)x−100 99
Dados p y N es posible evaluar la expresión anterior para determinar el valor más probable para la cantidad observada de moscas de la fruta.
Distribución geométrica La distribución geométrica es un caso especial de la distribución binomial negativa. Si se toma r = 1 en 3.1.5 se tiene: Pr(X = x|p) = p(1 − p)x−1 ,
x = 1, 2, · · ·
(3.1.7)
la que define la función de probabilidad de una variable aleatoria X con distribución geométrica(p) que se puede interpretar como el ensayo en el que se obtiene el primer éxito. La media y varianza de X puede obtenerse usando las fórmulas de la binomial negativa cuando X = Y + 1. Luego: 1−p 1 Var (X) = p p2 La distribución geométrica tiene una propiedad interesante conocida como la propiedad de falta de memoria. Para enteros s > t se tiene: E[X] = E[Y ] + 1 =
Pr(X > s|X > t) = Pr(X > s − t)
(3.1.8)
Ejemplo 3.1.5 La distribución geométrica es usada para modelar el tiempo de falla de un componente. Por ejemplo, si la probabilidad que una bombilla
CAPÍTULO 3. FAMILIAS DE DISTRIBUCIONES
36
de luz falle en un dia cualquiera es 0.01, entonces la probabilidad que la bombilla dure al menos 30 días es: ∞ X
Pr (X ≥ 30) =
0,001 (0,999)x−1
x=30
y usando R, se tiene: > 1-pgeom(q=29, prob=0.001) [1] 0.970431
3.2.
Distribuciones continuas
Distribución uniforme La distribución uniforme continua se define sobre el intervalo [a, b] con la siguiente función de densidad: 1
f (x|a, b) = b−a 0
a≤x≤b de otro modo
(3.2.1)
La media y varianza de la distribución uniforme continua son: E[X] =
a+b 2
Var (X) =
(b − a)2 12
Distribución gamma La distribución gamma es una familia flexible de distribuciones sobre [0, ∞). Si α es una constante positiva, la integral: ˆ ∞ tα−1 e−t dt 0
es finita. Solo si α es un entero positivo la integral anterior puede expresarse en forma cerrada. En cualquier caso su valor define la función gamma: ˆ ∞ Γ(α) = tα−1 e−t dt (3.2.2) 0
Esta función satisface muchas relaciones útiles, en particular:
CAPÍTULO 3. FAMILIAS DE DISTRIBUCIONES
Γ(α + 1) = αΓ(α),
α>0
37
(3.2.3)
Combinando 3.2.3 se tiene que para cualquier entero n > 0: Γ(n) = (n − 1)!
(3.2.4)
como la integral en 3.2.2 es positiva, se tiene que: tα−1 e−t f (t) = , 0
0 es llamado el parámetro de forma y β > 0 el parámetro de escala. La media y varianza de la distribución gamma son: f (x|α, β) =
E[X] = αβ
Var (X) = αβ 2
La función generatriz de momentos de la distribución gamma(α, β) es: MX (t) =
1 1 − βt
!α
para t < 1/β. Existe una relación interesante entre la distribución gamma y Poisson. Si X es una variable aleatoria gamma(α, β), donde α es un entero, entonces para todo X, Pr(X ≤ x) = Pr(Y ≥ α)
(3.2.7)
donde Y ∼ P(x/β). Existen dos casos importantes de la distribución gamma. Si se toma α = p/2, donde p es un entero y β = 2, entonces la función de densidad gamma se convierte en: 1 xp/2−1 e−x/2 , 0 < x < ∞ (3.2.8) Γ(p/2)2p/2 que es conocida como la función de densidad chi-cuadrado con p grados de libertad. f (x|p) =
CAPÍTULO 3. FAMILIAS DE DISTRIBUCIONES
38
Otro caso especial se obtiene cuando α = 1, es decir: 1 −x/β e , 0 t ≥ 0: f (x|β) =
Pr(X > s|X > t) = Pr(X > s − t) Otra distribución relacionada a la familia gamma y exponencial es la distribución Weibull. Si X ∼ E (β) entonces Y = X 1/γ tiene distribución Weibull(γ, β): fY (y|γ, β) =
γ γ−1 −yγ /β y e , β
0
(3.2.10)
donde γ > 0 y β > 0.
Distribución normal La función de densidad de la distribución normal con media µ y varianza σ es dada por: 2
f (x|µ, σ 2 ) = √
(x−µ)2 1 e− 2σ2 , 2πσ
−∞ < x < ∞
(3.2.11)
donde: E[X] = µ
Var (X) = σ 2
Si X ∼ N (µ, σ 2 ) entonces la variable aleatoria Z = (X − µ)/σ tiene distribución N (0, 1) conocida como distribución normal estándar. Se puede probar que la función de densidad normal 3.2.11 toma su valor máximo en x = µ y que sus puntos de inflección (donde la curva cambia de cóncava a convexo) son x = µ ± σ. La probabilidad que X este contenida en 1, 2 ó 3 desviaciones estándar alrededor de su media es: Pr(|X − µ| ≤ σ) = Pr(|Z| ≤ 1) = 0,6826 Pr(|X − µ| ≤ 2σ) = Pr(|Z| ≤ 2) = 0,9544
CAPÍTULO 3. FAMILIAS DE DISTRIBUCIONES
39
Pr(|X − µ| ≤ 3σ) = Pr(|Z| ≤ 3) = 0,9974 La distribución normal es usada como aproximación de otras distribuciones. Por ejemplo, si X ∼ BI(n, p) entonces E[X] = np, Var (X) = np(1 − p) y bajo ciertas condiciones favorables, la distribución de X puede aproximarse a la distribución normal con media µ = np y varianza σ 2 = np(1 − p). Estas condiciones son n grande y p no debe estar cerca de 0 ó 1. Si X ∼ BI(n, p) y Y ∼ N (np, np(1 − p)) entonces: Pr(X ≤ x) ≈ Pr(Y ≤ x + 1/2) Pr(X ≥ x) ≈ Pr(Y ≥ x − 1/2)
Figura 3.1: Aproximación binomial a la distribución normal
Distribución beta La familia de distribuciones beta es una familia continua en (0, 1) indexada por dos parámetros. La función de densidad beta(α, β) es:
CAPÍTULO 3. FAMILIAS DE DISTRIBUCIONES 1 xα−1 (1 − x)β−1 , 0 < x < 1 B(α, β) donde α > 0, β > 0 y B(α, β) denota la función beta: ˆ 1 B(α, β) = xα−1 (1 − x)β−1 dx f (x|α, β) =
40
(3.2.12)
0
Figura 3.2: Densidades beta
La función beta está relacionada con la función gamma a través de la siguiente identidad: Γ(α)Γ(β) (3.2.13) Γ(α + β) El cálculo de los momentos para esta distribución se obtiene a través de la siguiente expresión: B(α, β) =
E[X n ] =
B(α + n, β) Γ(α + n)Γ(α + β) = B(α, β) Γ(α + β + n)Γ(α)
(3.2.14)
41
CAPÍTULO 3. FAMILIAS DE DISTRIBUCIONES Usando 3.2.3 y 3.2.14 con n = 1 y n = 2 se obtiene: E[X] =
α α+β
Var (X) =
αβ (α + β)2 (α + β + 1)
(3.2.15)
Distribución Cauchy La distribución Cauchy es una distribución simétrica con forma de campana sobre (−∞, ∞) cuya función de densidad es: f (x|θ) =
1 1 , π 1 + (x − θ)2
−∞ < x < ∞
(3.2.16)
Tal como se mencionó en el capítulo 2, la media de la distribución de Cauchy no existe, esto es: ˆ ∞ |x| 1 dx = ∞ (3.2.17) E[|X|] = 2 −∞ π 1 + (x − θ) por lo que tampoco existen los momentos para esta distribución. En particular, la función generatriz de momentos no existe.
Distribución log-normal Si X es una variable aleatoria cuyo logaritmo tiene distribución normal, es decir log X ∼ N (µ, σ 2 ) entonces X tiene distribución log-normal. La función de densidad de X se obtiene mediante una transformación directa de la función de densidad normal usando el teorema 2.1.2: 2 1 1 − (log x−µ) 2σ 2 e , −∞ < x < ∞ (3.2.18) 2πσ x −∞ < µ < ∞ y σ > 0, conocida como la función de densidad lognormal. Los momentos de X pueden obtenerse usando 3.2.18 o la relación con la distribución normal:
f (x|µ, σ 2 ) = √
E[X] = eµ+σ
2 /2
2
Var (X) = e2(µ+σ ) − e2µ+σ
2
(3.2.19)
42
CAPÍTULO 3. FAMILIAS DE DISTRIBUCIONES
Distribución doble exponencial La distribución doble exponencial se toma reflejando la distribución exponencial alrededor de su media. Su función de densidad esta dada por: 1 −|x−µ|/σ e , −∞ < x < ∞ (3.2.20) 2σ −∞ < µ < ∞ y σ > 0. La distribución doble exponencial proporciona una distribución simétrica con colas más pesadas. La media y varianza de esta distribución son: f (x|µ, σ) =
E[X] = µ
3.3.
Var (X) = 2σ 2
Familias exponenciales
Una familia de funciones de densidad o probabilidad es llamada una familia exponencial si puede expresarse como: f (x|θ) = h(x)c(θ) exp
( k X
)
wi (θ)ti (x)
(3.3.1)
i=1
donde h(x) ≥ 0, t1 (x), · · · , tk (x) son funciones de las observaciones x, c (θ) ≥ 0 y w1 (θ), · · · , wk (θ) son funciones del vector de parámetros θ. Muchas familias mencionadas en la sección anterior son familias exponenciales. Estas incluyen las familias continuas normal, gamma, beta y las familias discretas binomial, Poisson y binomial negativa. Para verificar si una familia de funciones de probabilidad o densidad es una familia exponencial, se deben identificar las funciones h(x), c(θ), wi (θ) y ti (x) para demostrar que la familia tiene la forma 3.3.1. Ejemplo 3.3.1 Considere la familia BI(n, p) con 0 < p < 1 y n conocido.
43
CAPÍTULO 3. FAMILIAS DE DISTRIBUCIONES Entonces la función de probabilidad es: !
f (x|p) = = = =
n x p (1 − p)n−x x ! !x n p n (1 − p) x 1−p ! ( !x ) n p n (1 − p) exp log x 1−p ! ) ! ( n p n x (1 − p) exp log 1−p x
Se define: n h (x) = x
!
c (p) = (1 − p)n
(
p w1 (p) = log 1−p
)
y t1 (x) = x
entonces se tiene: f (x|p) = h(x)c(p) exp {w1 (p)t1 (x)}
(3.3.2)
que es de la forma 3.3.1 con k = 1. Ejemplo 3.3.2 Sea f (x|µ, σ 2 ) la familia de distribuciones N (µ, σ 2 ) donde θ = (µ, σ 2 ), −∞ < µ < ∞ y σ > 0. Entonces: (
)
(x − µ)2 1 f (x|µ, σ ) = √ exp − 2σ 2 2πσ ( ) ( ) 1 µ2 x2 µx = √ exp − 2 exp − 2 + 2 2σ 2σ σ 2πσ 2
Se define: h(x) = 1 (
1 µ2 c(θ) = c(µ, σ ) = √ exp − 2 2σ 2πσ 2
w1 (µ, σ 2 ) =
1 σ2
w2 (µ, σ 2 ) =
µ σ2
)
44
CAPÍTULO 3. FAMILIAS DE DISTRIBUCIONES
t1 (x) = −x2 /2 y t2 (x) = x luego f (x|µ, σ 2 ) = h(x)c(µ, σ) exp {w1 (µ, σ)t1 (x) + w2 (µ, σ)t2 (x)} tiene la forma 3.3.1 con k = 2. El rango de la distribución no puede depender de θ en una familia exponencial. La definición completa de la función de probabilidad o densidad debe incluir el rango a través del uso de una función indicadora. Definición 3.3.1 La función indicadora de un conjunto A, denotado por IA (x), es la función: 1 x ∈ A IA (x) = 0 x∈ /A Así en el ejemplo 3.3.2 la función de densidad normal puede ser escrita como: f (x|µ, σ 2 ) = h(x)c(µ, σ) exp {w1 (µ, σ)t1 (x) + w2 (µ, σ)t2 (x)} I(−∞,∞) (x) ya que la función indicadora depende solo de x, puede incorporarse en h(x) mostrando que la función de densidad tiene la forma de una familia exponencial. Ejemplo 3.3.3 La función de densidad dada por: f (x|θ) = θ−1 exp {1 − (x/θ)} , x > θ
(3.3.3)
no es una familia exponencial aún cuando pueda escribirse como: n
o
exp {1} θ−1 exp θ−1 x = h(x)c(θ) exp {w(θ)t(x)} donde h(x) = exp {1}, c(θ) = θ−1 , w(θ) = θ−1 y t(x) = −x, ya que: f (x|θ) = θ−1 exp {1 − (x/θ)} I(θ,∞) (x) La función indicadora no puede incorporarse en ninguna de las funciones de 3.3.1 desde que no es función solamente de x o θ. Luego la función de densidad 3.3.3 no pertenece a una familia exponencial.
45
CAPÍTULO 3. FAMILIAS DE DISTRIBUCIONES Una familia exponencial puede reparametrizarse como: ∗
f (x|η) = h(x)c (η) exp
( k X
)
ηi ti (x)
i=1
donde las funciones h(x) y ti (x) son las mismas en la parametrización original 3.3.1. El conjunto: ˆ
(
∞
H = η = (η1 , · · · , ηk ) :
h(x) exp −∞
( k X
)
)
ηi ti (x) dx < ∞
i=1
es llamado el espacio paramétrico natural de la familia. La integral se reemplaza por la suma si X es discreta. Para los valores de η ∈ H, se tiene que: "ˆ ∞ ∗
c (η) =
h(x) exp −∞
( k X
)
#−1
ηi ti (x) dx
i=1
lo cual asegura que la integral de la función de densidad sea uno. Luego, el conjunto: {η = (w1 (θ), · · · , wk (θ)) : θ ∈ Θ} debe ser un subconjunto del espacio natural de parámetros. Ejemplo 3.3.4 Para determinar el espacio natural paramétrico de la familia normal, se reemplaza wi (µ, σ) con ηi en 3.3.2 y se obtiene: ( ) ( ) √ η1 η22 η1 x2 exp − + η2 x f (x|η1 , η2 ) = √ exp − 2η1 2 2π !2 √ η η1 η2 1 = √ exp − x− 2 η1 2π La integral será finita si y solo si el término dentro de la función exponencial es negativo lo cual significa que η1 debe ser positivo sin importar el valor que tome η2 . Luego el espacio paramétrico natural es: {(η1 , η2 ) : η1 > 0, −∞ < η2 < ∞} . Identificando, se tiene que η2 = µ/σ 2 y η1 = 1/σ 2 .
46
CAPÍTULO 3. FAMILIAS DE DISTRIBUCIONES
3.4.
Familias de locación y escala
En esta sección se discutirán tres técnicas para construir familias de distribuciones. Estos tipos son: familias de locación, escala y locación-escala. Cada familia se construye especificando una función de densidad simple, digamos f (x), llamada la función de densidad estándar de la familia. Luego todas las funciones de densidad en la familia se generan transformando la función de densidad estándar en la forma prescrita. Teorema 3.4.1 Sea f (x) una función de densidad y sean µ y σ > 0 constantes, entonces: 1 x−µ g(x|µ, σ) = f σ σ es una función de densidad.
Definición 3.4.1 Sea f (x) una función de densidad. Entonces la familia de funciones de densidad f (x − µ) indexada por el parámetro −∞ < µ < ∞, −∞ < µ < ∞, es llamada la familia de locación con función de densidad estándar f (x) y µ es el parámetro de locación para la familia. Ejemplo 3.4.1 Sea f (x) = e−x , x ≥ 0. Para formar la familia de locación se reemplaza x con x − µ: f (x|µ) =
e−(x−µ) 0
x − µ ≥ 0 e−(x−µ) = x − µ < 0 0
x≥µ x<µ
Definición 3.4.2 Sea f (x) una función de densidad. Entonces para todo σ > 0, la familia de funciones de densidad (1/σ)f (x/σ) indexada por el parámetro σ, es llamada la familia de escala con función de densidad estándar f (x) y σ es el parámetro de escala de la familia. Ejemplo 3.4.2 La distribución gamma con α fijo y la distribución normal con µ = 0 son ejemplos de familias de escala. En cada caso la función de densidad estándar se obtiene tomando el parámetro de escala igual a 1. Definición 3.4.3 Sea f (x) una función de densidad. Entonces la familia de funciones de densidad (1/σ)f ((x − µ)/σ), −∞ < µ < ∞ y σ > 0, indexada por los parámetros (µ, σ) es llamada la familia de locación-escala con función
47
CAPÍTULO 3. FAMILIAS DE DISTRIBUCIONES
de densidad estándar f (x), µ es el parámetro de locación y σ es el parámetro de escala. Ejemplo 3.4.3 La distribución normal y la distribución exponencial son ejemplos de familias de locación-escala. Teorema 3.4.2 Sea f (.) una función de densidad. Si µ ∈ < y σ > 0, entonces X es una variable aleatoria con función de densidad (1/σ)f ((x − µ)/σ) si y solo si existe una variable aleatoria Z con función de densidad f (z) y X = σZ + µ. Prueba: Se define z = g(x) = (x − µ)/σ entonces g −1 (z) = σz + µ y |dg −1 (z)/dz| = σ. Aplicando el teorema 2.1.1 la función de densidad de Z es:
fZ (z) = fX (g
−1
d −1 (z)) g (z) dz
!
(σz + µ) − µ σ = f (z) σ
1 = f σ
Se define x = g(z) = σz+µ entonces g −1 (x) = (x−µ)/σ, y |dg −1 (x)/dx| = 1/σ. Aplicando el teorema 2.1.1 la función de densidad de X es: fX (x) =
d fZ (g −1 (x)) g −1 (x) dx
x−µ 1 =f σ σ
Teorema 3.4.3 Sea Z una variable aleatoria con función de densidad f (z). Suponga que E[Z] y Var (Z) existen. Si X es una variable aleatoria con función de densidad (1/σ)f ((x − µ)/σ), entonces: E[X] = σE[Z] + µ y Var (X) = σ 2 Var (Z) En particular si, E[Z] = 0 y Var (Z) = 1 entonces E[X] = µ y Var (X) = 2
σ . El cálculo de una probabilidad para cualquier miembro de una familia de locación escala puede obtenerse en términos de la variable estandarizada Z ya que: x−µ x−µ X −µ ≤ = Pr Z ≤ σ σ σ El cálculo de las probabilidades para la distribución normal usando la distribución normal estándar es un claro ejemplo. Pr(X ≤ x) = Pr
48
CAPÍTULO 3. FAMILIAS DE DISTRIBUCIONES
3.5. 3.5.1.
Desigualdades e identidades Desigualdades para probabilidades
Teorema 3.5.1 (Desigualdad de Chebyschev) Sea X una variable aleatoria y sea g(x) una función no negativa. Entonces, para todo r > 0: Pr(g(X) ≥ r) ≤
E [g(X)] r
Ejemplo 3.5.1 Si Z tiene distribución normal estándar, entonces para todo t > 0: s 2 2 e−t /2 Pr (|Z| ≥ t) ≤ π t
3.5.2.
Identidades
Teorema 3.5.2 Sea Xα,β denota una variable aleatoria con distribución G (α, β) con función de densidad f (x/α, β), donde α > 1. Entonces para constantes cualesquiera a y b: Pr(a < Xα,β < b) = β (f (a/α, β) − f (b/α, β)) + Pr(a < Xα−1,β < b) 2 Lema 3.5.1 (Lema de Stein) Sea h i X ∼ N (θ, σ ) y sea g una función diferenciable que satisface E g / (X) < ∞, entonces:
h
i
E [g (X) (X − θ)] = σ 2 E g / (X)
Teorema 3.5.3 Sea χ2p que denota una variable aleatoria con distribución chi-cuadrado con p grados de libertad. Para toda función h (x), siempre que su valor esperado exista: h
E h χ2p
i
= pE
h χ2p+2 χ2p+2
Capítulo 4 Variables aleatorias múltiples 4.1.
Distribución conjunta y marginal
Definición 4.1.1 Un vector aleatorio n-dimensional es una función que va de un espacio muestral S a un espacio euclediano n-dimensional
Tabla 4.1: Valores de la función de probabilidad conjunta f (x, y) x 2 3 4 5 6 7 8 9 10 11 12
y
0 1 2 3 4 5
1 36
1 18
1 36 1 18
1 18 1 18
1 36 1 18 1 18
49
1 18 1 18 1 18
1 36 1 18 1 18
1 18 1 18
1 36 1 18
1 18
1 36
50
CAPÍTULO 4. VARIABLES ALEATORIAS MÚLTIPLES
La función de probabilidad conjunta puede usarse en el cálculo de probabilidades para cualquier evento definido en términos de (X, Y ). Sea A un subconjunto de <2 . Entonces: X
Pr ((X, Y ) ∈ A) =
f (x, y)
(X,Y )∈A
Ejemplo 4.1.2 Para (X, Y ) cuya función de probabilidad conjunta se encuentra en la tabla 4.1, suponga que A = {(x, y) : x = 7, y ≤ 4}, entonces:
Pr(X = 7, Y ≤ 4) = Pr((X, Y ) ∈ A) = f (7, 1) + f (7, 3) =
1 1 1 + = 18 18 9
Sea g(x, y) una función de valor real definido para todos los posibles valores (x, y) de vector aleatorio discreto (X, Y ). Entonces g(X, Y ) es también una variable aleatoria y su valor esperado se define por: E[g(X, Y )] =
X
g(x, y)f (x, y)
(x,y)∈<2
Ejemplo 4.1.3 Usando la tabla 4.1 el valor esperado de g(X, Y ) = XY,
E[g(X, Y )] =
X
xyf (x, y) = (2)(0)
1 11 1 + · · · + (7)(5) = 13 36 18 18
Las propiedades vistas en el teorema 2.2.1 son válidas al reemplazar x por (x, y). Por ejemplo si g1 (x, y), g2 (x, y) son dos funciones; a, b y c son constantes, entonces:
E[ag1 (X, Y ) + bg2 (X, Y ) + c] = aE[g1 (X, Y )] + bE[g2 (X, Y )] + c La función de probabilidad conjunta del vector aleatorio (X, Y ) debe cumplir con f (x, y) ≥ 0, para todo (x, y). Además: X (x,y)∈<2
f (x, y) = Pr((X, Y ) ∈ <2 ) = 1.
CAPÍTULO 4. VARIABLES ALEATORIAS MÚLTIPLES
51
Ejemplo 4.1.4 Se define f (w, z) por: f (0, 0) = f (0, 1) =
1 6
f (1, 0) = f (1, 1) =
1 3
f (w, z) = 0 para cualquier otro (w, z) Si S es el espacio muestral formado por los 36 puntos que resultan de lanzar dos dados. Sean: 0
si el 1ero es como máximo 2 W = 1 si el 1ero es más de 2 Z=
0
si el 2do es impar 1 si el 2do es par
Luego f (w, z) es la función de probabilidad conjunta para (W, Z). Teorema 4.1.1 Sea (X, Y ) un vector aleatorio discreto cuya función de probabilidad conjunta es f (x, y), entonces la función de probabilidad marginal de X, fX (x) = Pr(X = x), y de Y , fY (y) = Pr(Y = y), estan dadas por: fX (x) =
X
f (x, y) y
fY (y) =
y∈<
X
f (x, y)
x∈<
Prueba: Para todo x ∈ <, sea Ax = {(x, y) : −∞ < y < ∞}. Es decir, Ax es la línea en el plano con primer coordenada igual a x. Entonces: fX (x) = Pr(X = x) = Pr(X = x, −∞ < y < ∞) = Pr ((X, Y ) ∈ Ax ) X = f (x, y) (X,Y )∈Ax
=
X y∈<
f (x, y)
CAPÍTULO 4. VARIABLES ALEATORIAS MÚLTIPLES
52
Ejemplo 4.1.5 Usando el teorema 4.1.1 se puede calcular las distribuciones marginales de X e Y a partir de la distribución conjunta de la tabla 4.1: 1 5 2 1 1 1 fY (1) = fY (2) = fY (3) = fY (4) = fY (5) = 6 18 9 6 9 18 Ejemplo 4.1.6 Usando la función de probabilidad marginal de Y se puede calcular: fY (0) =
Pr(Y < 3) =
2 3
E[Y 3 ] = 20
11 18
Definición 4.1.3 Una función f (x, y) que va de <2 hacia < es llamada función de densidad conjunta del vector aleatorio bivariado continuo (X, Y ) si, para todo A ⊂ <2 : ¨ Pr ((X, Y ) ∈ A) = f (x, y)dxdy A
Si g(x, y) es una función de valor real, entonces el valor esperado de g(X, Y ) se define por: ˆ ∞ˆ ∞ E[g(X, Y )] = g(x, y)f (x, y)dxdy (4.1.1) −∞
−∞
Las funciones de densidad marginales de X y Y son definidas, reemplazando las sumatorias por las integrales. Estas funciones pueden usarse para calcular probabilidades o valores esperados que involucran solo a X o Y . Simplificando, las funciones de densidad marginales de X y Y son definidas por: ˆ ∞ fX (x) = f (x, y)dy, −∞ < x < ∞ −∞ ˆ ∞ (4.1.2) fY (y) = f (x, y)dx, −∞ < y < ∞ −∞
Toda función f (x, y) que satisface f (x, y) ≥ 0, para todo (X, Y ) ∈ <2 , y: ˆ ∞ˆ ∞ f (x, y)dxdy = 1 −∞
−∞
se dice que es la función de densidad conjunta para algún vector aleatorio bivariado (X, Y ).
53
CAPÍTULO 4. VARIABLES ALEATORIAS MÚLTIPLES Ejemplo 4.1.7 Se define la función de densidad conjunta por: f (x, y) =
6xy 2 0
0 < x < 1, 0 < y < 1 de otro modo
Si se desea calcular Pr(X + Y ≥ 1), sea A = {(x, y) : x + y ≥ 1} entonces: ¨ Pr(X + Y ≥ 1) =
ˆ
y=1
ˆ
x=1
6xy 2 dxdy =
f (x, y)dxdy = A
y=0
x=1−y
9 10
Usando 4.1.2 puede obtenerse la función de densidad marginal de X y Y : ˆ y=1 ˆ ∞ y=1 2 3 6xy dy = 2xy = 2x f (x, y)dxdy = fX (x) = −∞
y=0
y=0
Esta función de densidad de X puede ser usada para calcular probabilidades, por ejemplo: ˆ
x=3/4
Pr(1/2 < X < 3/4) =
2xdx = x=1/2
5 10
Ejemplo 4.1.8 Sea f (x, y) = e−y , 0 < x < y. Aparentemente f (x, y) no depende de X sin embargo: f (x, y) = e−y I{0
ˆ
y=x
(e−x − e−(1−x) )dx
= 1− 0
= 0,845182
CAPÍTULO 4. VARIABLES ALEATORIAS MÚLTIPLES
54
Figura 4.1: Región para el ejemplo 4.1.8
La función de densidad conjunta de (X, Y ) puede describirse completamente usando la función de distribución acumulada conjunta F (x, y) definida por: ˆ x ˆ y F (x, y) = Pr(X ≤ x, Y ≤ y) = f (s, t)dtds −∞
−∞
2
para todo (x, y) ∈ < . Usando el teorema fundamental del cálculo: ∂ 2 F (x, y) = f (x, y) ∂x∂y para todos los puntos de continuidad de f (x, y).
4.2.
(4.1.3)
Distribuciones condicionales e independencia
Definición 4.2.1 Sea (X, Y ) un vector aleatorio bivariado discreto con función de probabilidad conjunta f (x, y) y funciones de probabilidad marginales
CAPÍTULO 4. VARIABLES ALEATORIAS MÚLTIPLES
55
fX (x) y fY (y). Para todo x tal que fX (x) > 0, la función de probabilidad condicional de Y dado X = x es la función de y denotada por f (y|x) y definida por: f (y|x) = Pr(Y = y|X = x) =
f (x, y) fX (x)
Para todo y tal que fY (y) > 0, la función de probabilidad condicional de x dado que Y = y es la función de x denotada por f (x|y) y definida por: f (x|y) = Pr(X = x|Y = y) =
f (x, y) fY (y)
Ejemplo 4.2.1 Se define la función de probabilidad conjunta de (X, Y ) por:
x 0 1 2 fY (y)
10
y 20
2 18 3 18
2 18 4 18
0
0
5 18
6 18
f (Y = y|X = 0) =
30 0 3 18 4 18 7 18
1 2 1 2
f (Y = y|X = 1) =
0
3 10 4 10
3 10
0
f (Y = y|X = 2) =
1 0
fX (x) 4 18 10 18 4 18
si y = 10 si y = 20 de otro modo si y = 10 si y = 20 si y = 30 de otro modo si y = 30 de otro modo
También puede calcularse probabilidades condicionales, por ejemplo: Pr(Y > 10|X = 1) = f (20|1) + f (30|1) =
7 10
CAPÍTULO 4. VARIABLES ALEATORIAS MÚLTIPLES
56
1 2
Pr(Y > 10|X = 0) = f (20|0) =
Definición 4.2.2 Sea (X, Y ) un vector aleatorio continuo bivariado con función de densidad conjunta f (x, y) y funciones de densidad marginales fX (x) y fY (y). Para todo x tal que fX (x) > 0, la función de densidad condicional de Y dado que X = x es la función de y denotada por f (y|x) y definida por: f (x, y) fX (x) Para todo y tal que fY (y) > 0, la función de densidad condicional de X dado que Y = y es la función de x denotada por f (x|y) y definida por: f (y|x) =
f (x, y) fY (y) Si g(Y ) es una función de Y , entonces el valor esperado condicional de g(Y ) dado que X = x se denota por E[g(Y )|x] y se define por: f (x|y) =
ˆ E[g(Y )|x] =
X
g(y)f (y|x) y
∞
g(y)f (y|x)dy
E[g(Y )|x] = −∞
y
El valor esperado condicional tiene todas las propiedades del valor esperado vistas en el teorema 2.2.1. Ejemplo 4.2.2 Como en el ejemplo 4.1.8, sea un vector aleatorio continuo (X, Y ) con función de densidad conjunta f (x, y) = e−y , 0 < x < y. Suponga se desea calcular la función de densidad condicional de Y dado X = x. La función de densidad marginal de X se puede calcular como sigue: ˆ ∞ ˆ y=∞ fX (x) = f (x, y)dy = e−y dy = e−x , x > 0 −∞
y=x
entonces X ∼ E(β = 1). Luego: f (x, y) e−y = −x = e−(y−x) , y > x fX (x) e Dado X = x, la distribución de Y es exponencial donde x es el parámetro de locación y β = 1 es el parámetro de escala. La distribución condicional de Y es diferente para cada valor de x. Además: f (y|x) =
57
CAPÍTULO 4. VARIABLES ALEATORIAS MÚLTIPLES ˆ
y=∞
ye−(y−x) dy = 1 + x
E[Y |X = x] = y=x
La variancia de la función de densidad f (y|x) es llamada variancia condicional de Y dado X = x. Usando la notación Var(Y |X) se tiene: Var (Y |X) = E[Y 2 |X] − (E[Y |X])2 ˆ ˆ ∞ 2 −(y−x) y e dy − = x
!2
∞ −(y−x)
ye
dy
x
= 1 En este caso la variancia condicional de Y dado X = x es la misma para todos los valores de x. Esta variancia condicional puede compararse con la variancia no condicional de Y . La distribución marginal de Y es G (2, 1), la cual tiene Var(Y ) = 2. Dado el valor X = x, la variabilidad en Y se reduce considerablemente. Definición 4.2.3 Sea (X, Y ) un vector aleatorio bivariado con función de probabilidad o función de densidad conjunta f (x, y) y funciones de probabilidad o densidad marginales fX (x) y fY (y). Entonces X y Y son llamadas variables aleatorias independientes si, para todo x ∈ < y y ∈ <, f (x, y) = fX (x)fY (y)
(4.2.1)
Si X y Y son independientes, la función de probabilidad o densidad condicional Y dado X = x es: f (x|y) =
f (x, y) fX (x)fY (y) = = fX (x) fY (y) fY (y)
para cualquier valor de x. Así, para todo A ⊂ < y x ∈ <, ˆ ˆ Pr(Y ∈ A|x) = f (y|x)dy = fY (y)dy = Pr(Y ∈ A) A
A
El saber que X = x no brinda información adicional acerca de Y . Ejemplo 4.2.3 Sea el vector aleatorio bivariado discreto (X, Y ) con función de probabilidad conjunta dada por:
CAPÍTULO 4. VARIABLES ALEATORIAS MÚLTIPLES
x 10 20 fY (y)
1
y 2
3
fX (x)
1 10 1 10 2 10
1 5 1 10 3 10
1 5 3 10 5 10
5 10 5 10
58
Las variables aleatorias X y Y no son independientes debido a que 4.2.1 no se cumple para todo(x, y). Por ejemplo: 1 1 1 6= × = fX (3)fY (10) 5 2 2 1 1 Notar que f (10, 1) = 10 = 2 × 15 = fX (10)fY (1). El hecho de que 4.2.1 sea verdadera para algunos valores de (x, y) no aseguran que X y Y sean independientes. f (3, 10) =
Lema 4.2.1 Sea (X, Y ) un vector aleatorio bivariado con función de probabilidad o densidad conjunta f (x, y). Entonces X y Y son variables aleatorias independientes sí y solo si existen funciones g(x) y h(y) tales que, para todo x ∈ < y y ∈ <, f (x, y) = g(x)h(y) Prueba: Si se define g(x) = fX (x) y h(y) = fY (y) y usando 4.2.1 es fácil probar una de las direcciones.´ Para probar la otra ´ ∞ dirección, suponga que ∞ f (x, y) = g(x)h(y). Se define −∞ g(x)dx = c y −∞ h(y)dy = d, donde las constantes c y d satisfacen: ˆ ∞ˆ ∞ ˆ ∞ˆ ∞ g(x)h(y)dxdy = f (x, y)dxdy (4.2.2) cd = −∞
−∞
−∞
−∞
Además, las funciones de densidad marginales están dadas por: ˆ ∞ fX (x) = g(x)h(y)dy = g(x)d −∞ ˆ ∞ fY (y) = g(x)h(y)dx = h(y)c −∞
Luego, usando 4.2.2 y 4.2.3, se tiene: f (x, y) = g(x)h(y) = g(x)h(y)cd = fX (x)fY (y)
(4.2.3)
CAPÍTULO 4. VARIABLES ALEATORIAS MÚLTIPLES
59
demostrando que X y Y son independientes. Reemplazando las integrales por sumatorias se prueba el lema para vectores aleatorios discretos. Ejemplo 4.2.4 Considere la función de densidad conjunta: 1 2 4 −y−(x/2) xy e , x > 0, y > 0 384
f (x, y) = Si se definen:
x2 e−x/2
g(x) =
h(y) =
0
y 4 e−y /384 0
x>0 x≤0 y>0 y≤0
entonces f (x, y) = g(x)h(y) para todo x ∈ < y y ∈ <. Por el lema 4.2.1, se concluye que X y Y son variables aleatorias independientes. Notar que no fué necesario calcular las funciones de densidad marginales. Teorema 4.2.1 Sean X y Y variables aleatorias independientes: a. Para todo A ⊂ < y B ⊂ <, Pr(X ∈ A, Y ∈ B) = Pr(X ∈ A) Pr(Y ∈ B), esto es, los eventos {X ∈ A} y {Y ∈ B} son independientes. b. Sea g(x) una función que depende sólo de x y h(y) una función que depende sólo y. Entonces: E[g(X)h(Y )] = E[g(X)]E[h(Y )] Prueba: Notar que: ˆ
∞
ˆ
∞
E[g(X)h(Y )] =
g(x)h(y)f (x, y)dxdy ˆ−∞ ∞
=
ˆ−∞ ∞
g(x)h(y)fX (x)fY (y)dxdy ˆ ∞ h(y)fY (y) g(x)fX (x)dxdy −∞ −∞ ! ˆ ∞ ! ˆ ∞ g(x)fX (x)dx h(y)fY (y)dy
ˆ−∞ ∞ = =
−∞
−∞
= E[g(X)]E[h(Y )]
−∞
60
CAPÍTULO 4. VARIABLES ALEATORIAS MÚLTIPLES
Sea g(x) la función indicadora del conjunto A y sea h(y) la función indicadora del conjunto B. Notar que g(x)h(y) es la función indicadora del conjunto C ⊂ <2 definido por C = {(x, y) : x ∈ A, y ∈ B}. Notar que para una función indicadora como g(x), E[g(X)] = Pr(X ∈ A). Usando el resultado anterior se tiene: Pr(X ∈ A, Y ∈ B) = Pr ((X, Y ) ∈ C) = E[g(X)h(Y )] = E[g(X)]E[h(Y )] = Pr(X ∈ A) Pr(Y ∈ B) Ejemplo 4.2.5 Sean X y Y variables aleatorias independientes con distribución E (1). Por el teorema 4.3.2 se tiene: Pr(X ≥ 4, Y < 3) = Pr(X ≥ 4) Pr(Y < 3) Sean g(x) = x2 y h(y) = y, se tiene que:
E[X 2 Y ] = E[X 2 ]E[Y ] = Var (X) + E[X]2 E[Y ] = (1 + 12 )1 = 2 Teorema 4.2.2 Sean X y Y variables aleatorias independientes con funciones generatrices de momentos MX (t) y MY (t) respectivamente. Entonces la función generatriz de momentos de la variable aleatoria Z = X + Y es: MZ (t) = MX (t)MY (t) Prueba: Usando la definición de función generatriz de momentos: MZ (t) = E[etZ ] = E[et(X+Y ) ] = E[etX etY ] = E[etX ]E[etY ] = MX (t)MY (t) Ejemplo 4.2.6 Algunas veces el teorema 4.2.2 puede usarse para encontrar fácilmente la distribución de Z = X + Y a partir de las distribuciones de X y Y . Por ejemplo, sea X ∼ N (µ, σ 2 ) y Y ∼ N (γ, τ 2 ) variables aleatorias independientes. Las funciones generatrices de momentos de X y Y son: n
o
MX (t) = exp µt + σ 2 t2 /2
n
o
MY (t) = exp γt + τ 2 t2 /2
y
Luego: n
o
MZ (t) = MX (t)MY (t) = exp (µ + γ)t + (σ 2 + τ 2 )t2 /2
La función generatriz de momentos de Z corresponde a una variable aleatoria con distribución normal con media (µ + γ) y varianza (σ 2 + τ 2 ).
CAPÍTULO 4. VARIABLES ALEATORIAS MÚLTIPLES
4.3.
61
Transformaciones bivariadas
Sea (X, Y ) un vector aleatorio bivariado con una distribución conocida. Considere un nuevo vector aleatorio bivariado (U, V ) definido por U = g1 (X, Y ) y V = g2 (X, Y ) donde g1 (x, y) y g2 (x, y) son funciones específicas. Si B es cualquier subconjunto de <2 , entonces (U, V ) ∈ B sí y solo si (X, Y ) ∈ A, donde A = {(x, y) : (g1 (x, y), g2 (x, y)) ∈ B}. Luego Pr ((U, V ) ∈ B) = Pr(X, Y ) ∈ A) y la distribución conjunta de (U, V ) se determina completamente usando la distribución conjunta de (X, Y ).
4.3.1.
Caso discreto
Si (X, Y ) es un vector aleatorio bivariado discreto, entonces existe solo un conjunto numerable de valores para los que la función de probabilidad conjunta de (X, Y ) es positiva, digamos el conjunto A. Se define el conjunto B = {(u, v) : u = g1 (x, y), v = g2 (x, y) para algún (x, y) ∈ A}. Entonces B es el conjunto numerable de posibles valores para el vector aleatorio discreto (U, V ). Si para todo (u, v) ∈ B, Auv se define como {(x, y) ∈ A : g1 (x, y) = u, g2 (x, y) = v} entonces la función de probabilidad conjunta de (U, V ), fU,V (u, v), puede calcularse a partir de la función de probabilidad conjunta de (X, Y ) por: fU,V (u, v) = Pr((x, y) ∈ Auv ) =
X
fX,Y (x, y)
(4.3.1)
(x,y)∈Auv
Ejemplo 4.3.1 Sean X ∼ P (θ) y Y ∼ P (λ) variables aleatorias independientes. La función de probabilidad conjunta de (X, Y ) es: fX,Y (x, y) =
θx eθ λy e−λ , x! y!
x = 0, 1, 2, · · · ; y = 0, 1, 2, · · ·
El conjunto A = {(x, y) : x = 0, 1, 2 · · · ; y = 0, 1, 2, · · · }. Se define U = X + Y y V = Y . El conjunto B = {(u, v) : v = 0, 1, · · · ; u = v, v + 1, · · · } . Para todo (u, v) ∈ B, el único valor (x, y) que satisface x + y = u y y = v es x = u − v e y = v. El conjunto Auv consiste de los puntos (u − v, v), entonces:
fU,V (u, v) = fX,Y (u − v, v) =
θu−v eθ λv e−λ , (u − v)! v!
v = 0, 1, · · · ; u = v, v + 1, · · ·
CAPÍTULO 4. VARIABLES ALEATORIAS MÚLTIPLES
62
En este ejemplo sería interesante calcular la función de probabilidad marginal de U . Para todo entero no negativo u, fU,V (u, v) > 0 solo si v = 0, 1, · · · , u. Es decir:
fU (u) =
u X
u X θu−v eθ λv e−λ θu−v λv = e−(θ+λ) , u = 0, 1, 2, · · · v! v=0 (u − v)! v=0 (u − v)! v!
Lo anterior puede simplificarse multiplicando y dividiendo cada término entre u! y usando el teorema binomial: u e−(θ+λ) X u u u−v e−(θ+λ) fU (u) = λ θ = (θ + λ)u , u = 0, 1, 2, · · · u! v=0 v u!
!
Luego U ∼ P (θ + λ). Teorema 4.3.1 Si X ∼ P (θ) y Y ∼ P (λ) son variables aleatorias independientes, entonces X + Y ∼ P (θ + λ).
4.3.2.
Caso continuo
Si (X, Y ) es un vector aleatorio continuo con función de densidad conjunta fX,Y (x, y), entonces la función de densidad conjunta de (U, V ) puede espresarse en términos de fX,Y (x, y), en forma análoga a 2.1.1. Sea A = {(x, y) : fX,Y (x, y) > 0} y B = {(u, v) : u = g1 (x, y), v = g2 (x, y) para todo (x, y) ∈ A}. La función de densidad conjunta fU,V (u, v) será positiva sobre el conjunto B. Si se asume que u = g1 (x, y) y v = g2 (x, y) definen transformaciones uno a uno de A hacia B entonces dichas transformaciones seran sobreyectivas según la definición de B. Entonces para todo (u, v) ∈ B existe solo un (x, y) ∈ A tal que (u, v) = (g1 (x, y), g2 (x, y)). Para cada transformación uno a uno y sobreyectiva, se pueden resolver las ecuaciones u = g1 (x, y) y v = g2 (x, y) para x y y en términos de u y v. Denotemos estas transformaciones inversas por x = h1 (u, v) y y = h2 (u, v). El rol que tuvo la derivada en el caso univariado ahora lo asume una cantidad llamada el Jacobiano de la transformación. Esta función de (u, v), denotada por J, es el determinante de la matriz de derivadas parciales. Se define por:
63
CAPÍTULO 4. VARIABLES ALEATORIAS MÚLTIPLES
J=
∂x ∂u ∂y ∂u
∂x ∂v ∂y ∂v
=
∂x ∂y ∂y ∂x − ∂u ∂v ∂u ∂v
donde: ∂x ∂h1 (u, v) ∂x ∂h1 (u, v) ∂y ∂h2 (u, v) ∂y ∂h2 (u, v) = , = , = y = ∂u ∂u ∂v ∂v ∂u ∂u ∂v ∂v Se asume que J es diferente de cero sobre B. Entonces la función de densidad conjunta de (U, V ) está dada por: fU,V (u, v) = fX,Y (h1 (u, v), h2 (u, v)) |J|
(4.3.2)
donde |J| es el valor absoluto de J. Ejemplo 4.3.2 Sea X ∼ BE (α, β) y Y ∼ BE(α + β, γ) variables aleatorias independientes. La función de densidad conjunta de (X, Y ) es: fX,Y (x, y) =
Γ(α + β + γ) α+β−1 Γ(α + β) α−1 x (1 − x)β−1 y (1 − y)γ−1 Γ(α)Γ(β) Γ(α + β)Γ(γ)
Considere las transformaciones U = XY y V = X. Estas transformaciones van de A = {(x, y) : 0 < x < 1, 0 < y < 1} al conjunto B = {(u, v) : 0 < u < v < 1} y son uno a uno. Para todo (u, v) ∈ B, las ecuaciones u = xy y v = x puede resolverse unicamente para x = h1 (u, v) = v y y = h2 (u, v) = u/v. 0 1
1 v v Luego por 4.3.2 la función de densidad conjunta es: J=
1 − vu2
=−
α+β−1
Γ(α + β + γ) α−1 u fU,V (u, v) = v (1 − v)β−1 Γ(α)Γ(β)Γ(γ) v
u 1− v
γ−1
1 v
para 0 < u < v < 1. La distribución marginal de V = X es BE(α, β). La distribución de U también lo es: ˆ 1 fU (u) = fU,V (u, v)dv u ˆ β−1 Γ(α + β + γ) α−1 1 u u γ−1 u = u −u 1− dv Γ(α)Γ(β)Γ(γ) v v v2 u
64
CAPÍTULO 4. VARIABLES ALEATORIAS MÚLTIPLES Sea w = (u/v − u) /(1 − u) tal que dw = −u/[v 2 (1 − u)]dv ˆ 1 Γ(α + β + γ) α−1 β+γ−1 wβ−1 (1 − w)γ−1 dw fU (u) = u (1 − u) Γ(α)Γ(β)Γ(γ) 0 Γ(β)Γ(γ) Γ(α + β + γ) α−1 = u (1 − u)β+γ−1 Γ(α)Γ(β)Γ(γ) Γ(β + γ) Γ(α + β + γ) α−1 = u (1 − u)β+γ−1 , 0 < u < 1 Γ(α)Γ(β + γ) Luego U ∼ BE (α, β + γ).
Ejemplo 4.3.3 Sean X y Y variables aleatorias independientes con distribución Z. Hallar f (u, v) si U = X + Y , V = X − Y y probar que son variables aleatorias independientes. Teorema 4.3.2 Sean X y Y variables aleatorias independientes. Sea g(x) una función que depende sólo de x y h(y) una función que sólo depende de y. Entonces las variables aleatorias U = g(X) y V = h(Y ) son independientes. Prueba: Asumiendo que U y V son variables aleatorias continuas. Para todo u ∈ < y v ∈ < se define: Au = {x : g(x) ≤ u} y Bv = {y : h(y) ≤ v} La función de distribución acumulada conjunta de (U, V ) es: FU,V (u, v) = Pr(U ≤ u, V ≤ v) = Pr(X ∈ Au , Y ∈ Bv ) = Pr(X ∈ Au ) Pr(Y ∈ Bv ) La función de densidad conjunta de (U, V ) es: ∂2 FU,V (u, v) = fU,V (u, v) = ∂u∂v
!
d Pr(X ∈ Au ) du
d Pr(Y ∈ Bv ) dv
!
Luego U y V son independientes. En muchas situaciones las transformaciones de interés no son uno a uno. Sea A = {(x, y) : fX,Y (x, y) > 0}. Suponga que A0 , A1 , · · · , Ak forma una
65
CAPÍTULO 4. VARIABLES ALEATORIAS MÚLTIPLES
partición de A. El conjunto A0 , que podría ser vacio, satisface Pr((X, Y ) ∈ A0 ) = 0. Las transformaciones U = g1 (X, Y ) y V = g2 (X, Y ) son uno a uno, desde Ai hacia B para cada i = 1, 2, · · · , k. Entonces para cada i se pueden hallar las funciones inversas desde B hacia Ai . Si se denotan las i-ésimas inversas por x = h1i (u, v) e y = h2i (u, v), éstas dan para (u, v) ∈ B un único (x, y) ∈ Ai tal que (u, v) = (g1 (x, y), g2 (x, y)). Sea Ji el Jacobiano calculado a partir de las i-ésimas inversas. Entonces se tiene la siguiente representación de la función de densidad conjunta fU,V (u, v): fU,V (u, v) =
k X
fX,Y (h1i (u, v), h2i (u, v)) |Ji |
(4.3.3)
i=1
Ejemplo 4.3.4 Sean X y Y variables aleatorias independientes con distribución Z. Considere las transformaciones U = X/Y y V = |Y |. Sean: A1 = {(x, y) : y > 0}, A2 = {(x, y) : y < 0} y A0 = {(x, y) : y = 0} A0 , A1 y A2 forman una partición de A = <2 y Pr((X, Y ) ∈ A0 ) = Pr(Y = 0) = 0. Para cada A1 o A2 , si (x, y) ∈ Ai , v = |y| > 0 y u = x/y ∈ <. Luego, B = {(u, v) : v > 0} es la imagen de A1 y A2 bajo la transformación. Además las transformaciones inversas desde B hacia A1 y desde B hacia A2 son: x = h11 (u, v) = uv, y = h21 (u, v) = v, y x = h12 (u, v) = −uv, y = h22 (u, v) = −v. Luego: fX,Y (x, y) =
1 −x2 /2 −y2 /2 e e 2π
Usando 4.3.3 1 −(uv)2 /2 −v2 /2 1 −(−uv)2 /2 −(−v)2 /2 e e |v| + e e |v| 2π 2π v −(u2 +1)v2 /2 = e π
fU,V (u, v) =
66
CAPÍTULO 4. VARIABLES ALEATORIAS MÚLTIPLES para −∞ < u < ∞ y 0 < v < ∞. La distribución marginal de U es: ˆ ∞ v −(u2 +1)v2 /2 fU (u) = e dv π 0 ˆ ∞ 1 2 = e−(u +1)z/2 dz 2π 0 2 1 = 2 2π (u + 1) 1 = π(u2 + 1) para −∞ < u < ∞, entonces U ∼ C (0, 1).
4.4.
Modelos jerárquicos y distribuciones mixtas
Ejemplo 4.4.1 Un insecto pone un número grande de huevos, cada uno con probabilidad de supervivencia p. En promedio, ¿cuántos huevos sobrevivirán? Sean X = Número de huevos sobrevivientes, y Y = Número de huevos puestos. Luego se tiene el siguiente modelo jerárquico: X|Y ∼ BI(Y, p),
Y ∼ P(λ)
La variable de interés, X = Número de huevos sobrevivientes, tiene la siguiente distribución: Pr(X = x) = = =
∞ X y=0 ∞ X y=0 ∞ X y=x
Pr(X = x, Y = y) Pr(X = x|Y = y) Pr(Y = y) "
!
y x p (1 − p)y−x x
#"
e−λ λy y!
#
CAPÍTULO 4. VARIABLES ALEATORIAS MÚLTIPLES
67
ya que la probabilidad condicional es cero si y < x, entonces: ∞ (λp)x e−λ X ((1 − p)λ)y−x x! (y − x)! y=x
Pr(X = x) =
∞ ((1 − p)λ)t (λp)x e−λ X x! t! t=0
=
(λp)x e−λ (1−p)λ e x! (λp)x e−λp = x!
=
es decir que X ∼ P(λp). Luego, todo proceso de inferencia marginal sobre X se hace a través de la distribución de Poisson, en la que Y no es parte del proceso. La respuesta a la pregunta inicial es E[X] = λp, es decir, en promedio, sobrevivirán λp huevos. Teorema 4.4.1 Si X y Y son variables aleatorias, entonces: E[X] = E[E[X|Y ]]
(4.4.1)
siempre que los esperados existan. Prueba: Sea f (x, y) la función de densidad de X y Y . Por definición se tiene: ˆ ˆ E[X] = xf (x, y)dxdy y x ˆ "ˆ
#
xf (x|y)dx fY (y)dy
= ˆ
y
=
x
E [X|Y ] fY (y)dy y
= EY [EX [X|Y ]] Volviendo al ejemplo anterior: E[X] = E[E[X|Y ]] = E[Y p] = pE[Y ] = pλ Definición 4.4.1 Una variable aleatoria X se dice que tiene distribución mixta si la distribución de X depende de una cantidad que también tiene distribución.
CAPÍTULO 4. VARIABLES ALEATORIAS MÚLTIPLES
68
En el ejemplo 4.4.1 la distribución P(λp) es una distribución mixta ya que es el resultado de combinar una BI(Y, p) con Y ∼ P(λ). En general, se puede afirmar que los modelos jerárquicos dan lugar a distribuciones mixtas. Ejemplo 4.4.2 Considere una generalización del ejemplo 4.4.1: X|Y ∼ BI(Y, p), Y |∧ ∼ P(∧) ∧ ∼ E(β) Entonces: E[X] = E [E[X|Y ]] = E[pY ] = pE [E[Y |∧]] = pE[∧] = pβ Notar que este modelo de tres niveles puede ser expresado como uno de dos jerarquías combinando los últimos dos estados. Si Y |∧ ∼ P(∧) y ∧ ∼ E(β), luego: ˆ ∞ Pr(Y = y) = f (y, λ)dλ 0 ˆ ∞ = f (y|λ)f (λ)dλ 0 ˆ ∞ −λ y e λ 1 −λ/β e dλ = y! β 0 ˆ ∞ 1 −1 = λy e−λ(1+β ) dλ βy! 0 1 1 = Γ(y + 1) βy! 1 + β −1 !y 1 β = 1+β 1+β
!y+1
La expresión para la función de probabilidad de Y es de la familia 3.1.5, es decir, binomial negativa. Luego, la jerarquía de tres estados de este ejemplo es equivalente a la jerarquía de dos estados: 1 , r = 1) 1+β Una mixtura útil es la Poisson-gamma, que es una generalización de una parte del modelo anterior. Si se toma la jerarquía: X|Y ∼ BI(Y, p) Y ∼ BN (p =
Y |∧ ∼ P(∧), ∧ ∼ G(α, β)
69
CAPÍTULO 4. VARIABLES ALEATORIAS MÚLTIPLES entonces Y ∼ BN .
Los modelos jerárquicos pueden hacer más sencillos los cálculos. Por ejemplo, una distribución que aparece con frecuencia en estadística es la distribución chi-cuadrado no central con p grados de libertad y parámetro de no centralidad λ cuya función de densidad es: f (X|λ, p) =
∞ X
xp/2+k−1 e−x/2 λk e−λ p/2+k k! k=0 Γ(p/2 + k)2
(4.4.2)
Calcular el E[X] puede ser tarea complicada. Sin embargo, si se examina detenidamente la función de densidad puede observarse que se trata de una distribución mixta, obtenida de una densidad chi-cuadrado central y una distribución de Poisson. Es decir: X|K ∼ χ2p+2K , K ∼ P(λ) entonces la distribución marginal de X está dada por 4.4.2. Luego: E[X] = E[E[X|K]] = E[p + 2K] = p + 2λ un cálculo bastante directo. La variancia puede ser calculada de la misma forma. Ejemplo 4.4.3 Una generalización para ensayos de Bernoulli considera que la probabilidad de éxito no sea constante de ensayo a ensayo, manteniendo los ensayos independientes. Un modelo estándar para esta situación es: Xi |pi ∼ B(pi ), i = 1, 2, · · · , n pi ∼ BE(α, β) Este modelo puede ser apropiado, por ejemplo, si se mide el éxito de una droga en n pacientes y debido a que cada paciente es diferente no es posible asumir que la probabilidad de éxito sea constante. Una variable aleatoria de P interés es Y = ni=i Xi , el número de éxitos, cuya media es:
E[Y ] =
n X i=1
E[Xi ] =
n X i=1
E [E[Xi |pi ]] =
n X i=1
E[pi ] =
n X
α nα = α+β i=1 α + β
Teorema 4.4.2 Sean X y Y dos variables aleatorias, entonces: Var (X) = E [Var (X|Y )] + Var (E[X|Y ])
(4.4.3)
70
CAPÍTULO 4. VARIABLES ALEATORIAS MÚLTIPLES Prueba: Por definición: h
Var[X] = E (X − E[X])2
i
h
= E (X − E[X|Y ] + E[X|Y ] − E[X])2 h
i
i
h
= E (X − E[X|Y ])2 + E (E[X|Y ] − E[X])2
i
+2E [(X − E[X|Y ])(E[X|Y ] − E[X])] h
= E[(X − E[X|Y ])2 ] + E (E[X|Y ] − E[X])2
i
= E [Var (X|Y )] + Var (E[X|Y ]) Ejemplo 4.4.4 Para calcular Var(Y ) del ejemplo 4.4.3: Var(Y ) = Var
n X
!
Xi =
n X
Var (Xi )
i=1
i=1
ya que las Xi son independientes. Usando 4.4.3: Var(Xi ) = Var (E [Xi |pi ]) + E [Var(Xi |pi )] como E(Xi |pi ) = pi y pi ∼ BE(α, β): Var (E [Xi |pi ]) = Var(pi ) =
αβ (α +
β)2 (α
+ β + 1)
También, Xi |pi ∼ B(pi ), Var(Xi |pi ) = pi (1 − pi ): E [Var(Xi |pi )] = E [pi (1 − pi )] ˆ Γ(α + β) 1 pi (1 − pi )pα−1 = (1 − pi )β−1 dpi i Γ(α)Γ(β) o Γ(α + β) Γ(α + 1)Γ(β + 1) = Γ(α)Γ(β) Γ(α + β + 2) αβ = (α + β)(α + β + 1) Como Var(Xi ) no depende de i, entonces: Var(Y ) =
nαβ (α + β)2
CAPÍTULO 4. VARIABLES ALEATORIAS MÚLTIPLES
4.5.
71
Covarianza y correlación
Definición 4.5.1 La covarianza de X y Y es el número definido por: Cov(X, Y ) = E [(X − µX )(Y − µY )] Definición 4.5.2 La correlación de X y Y es el número definido por: Cov(X, Y ) σX σY también es llamado coeficiente de correlación. ρXY =
El valor ρXY
Teorema 4.5.1 Sean X y Y dos variables aleatorias, entonces: Cov(X, Y ) = E [XY ] − µX µY Ejemplo 4.5.1 Sea la función de densidad conjunta: f (x, y) = 1
0
2 La distribución marginal de X es U (0, 1), luego µX = 1/2 y σX = 1/12. La distribución marginal de Y es:
y
fY (y) = 2−y con µY = 1 y σY2 = 1/6. Además: ˆ 1ˆ E[XY ] = 0
Luego Cov(X, Y ) =
7 12
ρXY =
−
( 12 )(1)
x+1
xydydx =
x
=
0
1 . 12
7 12
El coeficiente de correlación es:
Cov(X, Y ) 1/12 1 q =q =√ σX σY 2 1/12 1/6
Teorema 4.5.2 Si X y Y son variables aleatorias independientes, entonces Cov(X, Y ) = 0 y ρXY = 0.
CAPÍTULO 4. VARIABLES ALEATORIAS MÚLTIPLES
72
Teorema 4.5.3 Si X y Y son variables aleatorias, a y b son constantes, entonces: Var(aX + bY ) = a2 Var(X) + b2 Var(Y ) + 2abCov(X, Y ) Si X y Y son variables aleatorias independientes, entonces: Var(aX + bY ) = a2 Var(X) + b2 Var(Y ) Teorema 4.5.4 Para dos variables aleatorias X y Y : a. −1 ≤ ρXY ≤ 1 b. |ρXY | = 1 sí y solo si existen números a 6= 0 y b tales que Pr(Y = aX + b) = 1. Si ρXY = 1 entonces a > 0 y si ρXY = −1 entonces a < 0. Ejemplo 4.5.2 Sean X ∼ U(0, 1) y Z ∼ U(0, 1/10) variables aleatorias independientes. Sea Y = X + Z y considere el vector aleatorio (X, Y ). La distribución conjunta de (X, Y ) puede obtenerse a partir de la función de densidad conjunta de (X, Z) usando las técnicas de la sección 4.3. La función de densidad conjunta de (X, Y ) es: f (x, y) = 10
0
1 10
El resultado anterior tambien puede justificarse como sigue. Dados X = x, 1 Y = x + Z, la distribución condicional de Z dado X = x es U(0, 10 ) ya que X y Z son independientes. Así x sirve como parámetro de locación en la distribución condicional de Y dado X = x, y esta distribución marginal 1 es U(x, x + 10 ). Multiplicando esta función de densidad condicional por la función de densidad marginal de X, que es U(0, 1), se obtiene la función de densidad conjunta anterior. Esta representación Y = X + Z hace fácil el cálculo de la covariancia y el coeficiente de correlación :
E[X] =
1 2
E[Y ] = E[X + Z] = E[X] + E[Z] =
1 1 11 + = 2 20 20
73
CAPÍTULO 4. VARIABLES ALEATORIAS MÚLTIPLES
Cov(X, Y ) = E[XY ] − E[X]E[Y ] = E[X(X + Z)] − E[X]E[X + Z] = E[X 2 ] + E[XZ] − (E[X])2 − E[X]E[Z] 1 2 = σX = 12 Además σY2 = Var(X + Z) = Var (X) + Var (Z) = ρXY =
1 q q 12 1 1 1 + 1200 12 12
s
=
1 12
+
1 . 1200
Luego:
100 101
√ que es mucho mayor que ρXY = 1/ 2 del ejemplo 4.5.1. ¿Por qué? Figura 4.2: Regiones para las que f (x, y) > 0 de los ejemplos 4.5.1 y 4.5.2
Ejemplo 4.5.3 Sean X ∼ U(−1, 1) y Z ∼ U(0, 1/10) variables aleatorias independientes. Sea Y = X 2 + Z y considere el vector aleatorio (X, Y ). Tal como en el ejemplo 4.5.2, dado X = x, Y = x2 + Z y la distribución 1 condicional de Y dado X = x es U(x2 , x2 + 10 ). La función de densidad conjunta de X y Y , el producto de esta condicional y la función de densidad marginal de X, es: f (x, y) = 5
−1 < x < 1 x2 < y < x2 +
1 10
CAPÍTULO 4. VARIABLES ALEATORIAS MÚLTIPLES
74
El conjunto sobre el que f (x, y) > 0 se muestra en la figura 4.5.3. Existe una fuerte relación entre X y Y , tal como lo indica la distribución condicional de Y dado X = x, pero la relación no es lineal. Figura 4.3: Región donde f (x, y) > 0 del ejemplo 4.5.3
Como X ∼ U(−1, 1) entonces E[X] = E[X 3 ] = 0 y como X y Z son independientes, E[XZ] = E[X]E[Z]. Luego: Cov(X, Y ) = E[X(X 2 + Z)] − E[X]E[X 2 + Z] = E[X 3 ] + E[XZ] − E[X]E[X 2 + Z] = 0 y ρX,Y = 0. Definición 4.5.3 Sean −∞ < µX < ∞, −∞ < µY < ∞, 0 < σX , 0 < σY , y −1 < ρ < 1 números reales. La función de densidad normal bivariada con 2 medias µX , µY varianzas σX , σY2 y coeficiente de correlación ρ esta dada por:
75
CAPÍTULO 4. VARIABLES ALEATORIAS MÚLTIPLES
x − µX 1 1 √ f (x, y) = exp − 2 2 2(1 − ρ ) σX 2πσX σY 1 − ρ
x − µX − 2ρ σX
2
y − µY σY
−
y − µY + σY
2
para −∞ < x < ∞,−∞ < y < ∞. Algunas de las propiedades de la función de densidad conjunta anterior son: 2 a. La distribución marginal de X es N (µX , σX ).
b. La distribución marginal de Y es N (µY , σY2 ). c. El coeficiente de correlación entre X y Y es ρX,Y = ρ. d. Para a y b constantes, la distribución de aX + bY es: 2 N (aµX + bµY , a2 σX + b2 σY2 + 2abρσX σY )
e. Todas las distribuciones condicionales también son normales. Por ejemplo: σY (x − µX ), σY2 (1 − ρ2 ) f (Y /X = x) ∼ N µY + ρ σX
4.6.
Distribuciones multivariadas
El vector aleatorio X = (X1 , · · · , Xn ) tiene un espacio muestral que es subconjunto de
X
f (x)
(4.6.1)
x∈A
si (X1 , · · · , Xn ) es un vector aleatorio continuo, entonces la función de densidad conjunta de (x1 , · · · , xn ) es la función f (x1 , · · · , xn ) que satisface:
CAPÍTULO 4. VARIABLES ALEATORIAS MÚLTIPLES
ˆ Pr(X ∈ A) =
ˆ ···
ˆ f (x)dx =
76
ˆ ···
A
f (x1 , · · · , xn )dx1 · · · dxn (4.6.2) A
Sea g(x) = g(x1 , · · · , xn ) una función de valor real definida sobre el espacio muestral de X. Entonces g(X) es una variable aleatoria y su valor esperado es: ˆ E[g(X)] =
X
g(x)f (x) y
∞
···
E[g(X)] = −∞
x∈
ˆ
∞
g(x)f (x)dx (4.6.3) −∞
en el caso discreto y continuo respectivamente. La función de probabilidad marginal o función de densidad marginal para algún subconjunto de coordenadas de (X1 , · · · , Xn ) puede calcularse sumando o integrando la función de probabilidad o función de densidad conjunta sobre las otras coordenadas. Por ejemplo, la distribución marginal de (X1 , · · · , Xk ), las primeras k-coordenadas de (X1 , · · · , Xn ), está dada por la función de probabilidad o función de densidad: X
f (x1 , · · · , xk ) =
f (x1 , · · · , xn )
(4.6.4)
(xk+1 ,··· ,xn )∈
f (x1 , · · · , xn )dxk+1 · · · dxn
···
f (x1 , · · · , xk ) = −∞
(4.6.5)
−∞
para todo (x1 , · · · , xk ) ∈ 0, la función de probabilidad o función de densidad condicional de (xk+1 , · · · , xn ) dados X1 = x1 , · · · , Xk = xk es la función de (xk+1 , · · · , xn ) definida por: f (xk+1 , · · · , xn |x1 , · · · , xk ) =
f (x1 , · · · , xn ) f (x1 , · · · , xk )
Ejemplo 4.6.1 Sea la función de densidad conjunta:
(4.6.6)
CAPÍTULO 4. VARIABLES ALEATORIAS MÚLTIPLES
f (x1 , x2 , x3 , x4 ) =
3 (x2 4
0
1
77
+ x22 + x23 + x24 ) 0 < xi < 1 de otro modo
del vector aleatorio (X1 , · · · , X4 ). Se puede obtener la función de densidad marginal de (X1 , X2 ) integrando las variables X3 y X4 : ˆ ∞ˆ ∞ f (x1 , · · · , x4 )dx3 dx4 f (x1 , x2 ) = −∞ −∞ ˆ 1ˆ 1 3 2 = (x1 + x22 + x23 + x24 )dx3 dx4 4 0 0 3 2 1 = (x1 + x22 ) + 4 2 para 0 < x1 < 1, 0 < x2 < 1. Cualquier probabilidad o valor esperado que incluya solo X1 y X2 puede calcularse usando esta función de distribución marginal. Por ejemplo: ˆ ∞ˆ ∞ x1 x2 f (x1 , x2 )dx1 dx2 E[X1 X2 ] = −∞ −∞ ˆ 1ˆ 1 1 3 2 (x1 + x22 ) + = x1 x2 dx1 dx2 4 2 0 0 5 = 16 Para todo (x1 , x2 ) con 0 < x1 < 1, 0 < x2 < 1, f (x1 , x2 ) > 0 y la función de densidad condicional de (X3 , X4 ) dados X1 = x1 y X2 = x2 puede obtenerse usando 4.6.6: f (x1 , x2 , x3 , x4 ) f (x1 , x2 ) 3 (x2 + x2 + x2 + x2 ) = 4 31 2 2 2 3 1 4 (x1 + x2 ) + 2 4 2 x + x2 + x2 + x2 = 1 2 2 2 3 2 4 x1 + x2 + 3
f (x3 , x4 |x1 , x2 ) =
Definición 4.6.1 Sean n y m enteros positivos y sean p1 , · · · , pn números P tales que 0 ≤ pi ≤ 1, i = 1, · · · , n y ni=1 pi = 1. Entonces el vector aleatorio (X1 , · · · , Xn ) tiene distribución multinomial con m ensayos y probabilidades de celda p1 , · · · , pn si su función de probabilidad conjunta es:
78
CAPÍTULO 4. VARIABLES ALEATORIAS MÚLTIPLES
f (x1 , · · · xn ) =
n Y pxi i m! px1 1 · · · pxnn = m! x 1 ! · · · xn ! i=1 xi !
sobre el conjunto de (x1 , · · · , xn ) tal que cada xi es un entero no negativo y Pn i=1 xi = m. El factor m!/(x1 ! · · · xn !) es llamado coeficiente multinomial. Ejemplo 4.6.2 Considere el experiento aleatorio que consiste en lanzar 10 veces un dado. Suponga que el dado no se encuentra balanceado, tal que la probabilidad de observar i es 21i . Sea el vector aleatorio (X1 , · · · , X6 ) tal que Xi representa el número de lanzamientos en los que se observó el número i, entonces su distribución es multinomial con m = 10 lanzamientos, n = 6 1 2 6 posibles resultados y probabilidades de celda p1 = 21 , p2 = 21 , · · · , p6 = 21 . La fórmula anterior puede usarse para calcular la probabilidad de obtener el número 6 en cuatro lanzamientos, el número 5 en tres lanzamientos, el número 4 en dos lanzamientos y el número 3 en solo un lanzamiento: 1 10! f (0, 0, 1, 2, 3, 4) = 0!0!1!2!3!4! 21 59 = 10000
0
2 21
0
3 21
1
4 21
2
5 21
3
6 21
4
Teorema 4.6.1 (Teorema Multinomial) Sean m y n enteros positivos. Sea A el conjunto de vectores x = (x1 , · · · , xn ) tal que cada xi es un entero P no negativo y ni=1 xi = m. Entonces, para números reales p1 , p2 , · · · , pn : (p1 + · · · + pn )m =
m! px1 1 · · · pxnn x∈A x1 ! · · · xn ! X
Definición 4.6.2 Sean X1 , · · · , Xn vectores aleatorios con función de probabilidad o función de densidad conjunta f (x1 , · · · , xn ). Sea fXi (xi ) la función de probabilidad o función de densidad marginal de Xi . Entonces X1 , · · · , Xn son vectores aleatorios mutuamente independientes si, para todo (x1 , · · · , xn ): f (x1 , · · · , xn ) = fX1 (x1 ) · · · fXn (xn ) =
n Y
fXi (xi )
i=1
si todas las Xi ’s son unidimensionales, entonces X1 , · · · , Xn son llamadas variables aleatorias mutuamente independientes.
CAPÍTULO 4. VARIABLES ALEATORIAS MÚLTIPLES
79
Teorema 4.6.2 Sean X1 , · · · , Xn variables aleatorias mutuamente independientes. Sean g1 , · · · , gn funciones de valor real tales que gi (xi ) es una función solo de xi , i = 1, 2, · · · , n, entonces: E [g1 (X1 ) · · · gn (Xn )] = E [g1 (X1 )] · · · E [gn (Xn )] Teorema 4.6.3 (Generalización del teorema 4.2.2) Sean X1 , · · · , Xn variables aleatorias mutuamente independientes con funciones generatrices de momentos MX1 (t), · · · , MXn (t). Si Z = X1 + · · · + Xn , entonces la función generatriz de momentos de Z es: MZ (t) = MX1 (t) · · · MXn (t) En particular, si las variables aleatorias X1 , · · · , Xn tienen la misma distribución, con función generatriz de momentos MX (t), entonces: MZ (t) = [MX (t)]n Ejemplo 4.6.3 Suponga X1 , · · · , Xn son variables aleatorias mutuamente independientes y la distribución de Xi ∼ G(αi , β). La función generatriz de momentos de una G(α, β) es MX (t) = (1 − βt)−α . Si Z = X1 + · · · + Xn su función generatriz de momentos es: MZ (t) = MX1 (t) · · · MXn (t) = (1 − βt)−α1 · · · (1 − βt)−αn = (1 − βt)−(α1 +···+αn ) entonces Z ∼ G(α1 + · · · + αn , β). Corolario 4.6.1 Sean X1 , · · · , Xn variables aleatorias mutuamente independientes con funciones generatrices de momentos MX1 (t), · · · , MXn (t). Si a1 , · · · , an y b1 , · · · , bn son constantes, entonces la función generatriz de momentos de Z = (a1 X1 + b1 ) + · · · + (an Xn + bn ) es:
P
MZ (t) = et(
bi )
MX1 (a1 t) · · · MXn (an t)
Ejemplo 4.6.4 Sean X1 , · · · , Xn variables aleatorias mutuamente independientes con Xi ∼ N (µi , σi2 ) . Si a1 , · · · , an y b1 , · · · , bn son constantes, entonces:
80
CAPÍTULO 4. VARIABLES ALEATORIAS MÚLTIPLES
Z=
n X
n X
n X
i=1
i=1
i=1
(ai Xi + bi ) ∼ N
(ai µi + bi ),
!
a2i σi2
Teorema 4.6.4 (Generalización del teorema 4.3.2) Sean X1 , · · · , Xn vectores aleatorios independientes. Sea gi (xi ) una función que solo depende de xi , i = 1, · · · , n. Entonces las variables aleatorias Ui = gi (Xi ) son mutuamente independientes.
4.7.
Transformaciones sobre un vector aleatorio
Sea (X1 , · · · , Xn ) un vector aleatorio con función de densidad fX (x). Sea A = {x : fX (x) > 0}. Considere un nuevo vector aleatorio (U1 , · · · , Un ) definido por Ui = gi (X1 , · · · , Xn ), i = 1, · · · , n. Suponga que A0 , A1 , · · · , Ak forman una partición de A. El conjunto A0 , el cual podría ser vacio, satisface Pr((X1 , · · · , Xn ) ∈ A0 ) = 0. La transformación (U1 , · · · , Un ) es una transformación 1 - 1 desde Ai hacia B . Entonces para cada i, se puede obtener las funciones inversas desde B hacia Ai . Denote la i-ésima inversa por x1 = h1i (u1 , · · · , un ), x2 = h2i (u1 , · · · , un ), · · · , xn = hni (u1 , · · · , un ). Estas inversas dan un único (x1 , · · · , xn ) ∈ Ai tal que (u1 , · · · , un ) = (g1 (x1 , · · · , xn ), · · · , gn (x1 , · · · , xn )). Sea Ji el jacobiano calculado desde la i-ésima inversa, es decir:
Ji =
∂x1 ∂u1 ∂x2 ∂u1
∂x1 ∂u2 ∂x2 ∂u2
··· ··· ...
∂x1 ∂un ∂x2 ∂un
∂xn ∂u1
∂xn ∂u2
···
∂xn ∂un
.. .
.. .
.. .
=
∂h (u) 1i ∂u1 ∂h2i (u) ∂u1 .. . ∂hni (u) ∂u1
∂h1i (u) ∂u2 ∂h2i (u) ∂u2
··· ··· .. .
∂hni (u) ∂u2
···
.. .
∂h1i (u) ∂un ∂h2i (u) ∂un
.. . ∂hni (u) ∂un
es el determinante de la matriz n×n. Luego la función de densidad conjunta, fU (u1 , · · · , un ) para u ∈ B es: fU (u1 , · · · , un ) =
k X
fX (hi1 (u1 , · · · , un )) , · · · , (hn1 (u1 , · · · , un )) |Ji | (4.7.1)
i=1
Ejemplo 4.7.1 Sea (X1 , X2 , X3 , X4 ) con función de densidad conjunta:
CAPÍTULO 4. VARIABLES ALEATORIAS MÚLTIPLES
81
fX (x1 , x2 , · · · , x4 ) = 24e−x1 −x2 −x3 −x4 , 0 < x1 < x2 < x3 < x4 < ∞ Considere las transformaciones: U1 = X1 , U2 = X2 − X1 , U3 = X3 − X2 , U4 = X4 − X3 que van del conjunto A sobre el conjunto B = {u : 0 < ui < ∞} para i = 1, 2, 3, 4. Además son transformaciones 1 - 1, luego k = 1 y la inversa es: X1 = U1 , X2 = U1 + U2 , X3 = U1 + U2 + U3 , X4 = U1 + U2 + U3 + U4 El Jacobiano de la inversa es:
1 1 J= 1 1
0 1 1 1
0 0 1 1
0 0 0 1
=1
Luego: fU (u1 , · · · , u4 ) = 24e−u1 −(u1 +u2 )−(u1 +u2 +u3 )−(u1 +u2 +u3 +u4 ) = 24e−4u1 −3u2 −2u3 −u4 sobre B Además fU (ui ) = (5 − i)e−(5−i)ui , ui > 0, es decir Ui ∼ E(1/(5 − i)). Del teorema 4.3.2 se puede observar que U1 , U2 , · · · , U4 son variables aleatorias mutuamente independientes.
4.8. 4.8.1.
Desigualdades Desigualdades numéricas
Lema 4.8.1 Sean a, b números positivos y p, q números positivos mayores que 1 que satisfacen: 1 1 + =1 (4.8.1) p q entonces: 1 p 1 q a + b ≥ ab (4.8.2) p q
CAPÍTULO 4. VARIABLES ALEATORIAS MÚLTIPLES
82
Teorema 4.8.1 (Desigualdad de Holder) Sean X y Y son variables aleatorias que satisfacen 4.8.1, entonces: 1/p
|E [XY ]| ≤ E [|XY |] ≤ (E [|X|p ])
1/q
(E [|Y |q ])
(4.8.3)
Teorema 4.8.2 (Desigualdad de Cauchy-Schwarz) Si X y Y son variables aleatorias, entonces: h
|E [XY ]| ≤ E [|XY |] ≤ E |X|2
i1/2 h
E |Y |2
i1/2
(4.8.4)
Capítulo 5 Propiedades en una muestra aleatoria 5.1.
Conceptos básicos sobre muestras aleatorias
Definición 5.1.1 X1 , · · · , Xn son llamadas una muestra aleatoria de tamaño n de una población f (x) si son variables aleatorias mutuamente independientes y la función de probabilidad o densidad marginal de cada Xi es f (x). Alternativamente, X1 , · · · , Xn son llamadas variables aleatorias independientes e identicamente distribuidas con función de probabilidad o densidad f (x). Si la función de probabilidad o densidad es miembro de una familia paramétrica f (x|θ), entonces la función de probabilidad o densidad conjunta es: f (x1 , · · · , xn |θ) =
n Y
f (xi |θ)
(5.1.1)
i=1
Ejemplo 5.1.1 Sea X1 , · · · , Xn una muestra aleatoria de una población E(β) que corresponden al tiempo de funcionamiento (en años) de n circuitos idénticos sometidos a prueba. La función de densidad conjunta de la muestra es:
83
CAPÍTULO 5. PROPIEDADES EN UNA MUESTRA ALEATORIA
f (x1 , · · · , xn |β) =
n Y i=1
f (xi |β) =
84
n Y
1 1 −xi /β e = n e−(x1 +···+xn )/β β i=1 β
La probabilidad que todos los circuitos funcionen al menos dos años es: ˆ ∞ ˆ ∞ 1 −(x1 +···+xn )/β ··· Pr(X1 > 2, · · · , Xn > 2) = e dx1 · · · dxn βn 2 2 ˆ ∞ ˆ ∞ 1 −(x2 +···+xn )/β −2/β ··· e dx2 · · · dxn = e n−1 β 2 2 = (e−2/β )n = e−2n/β Usando independencia: Pr(X1 > 2, · · · , Xn > 2) = Pr(X1 > 2) · · · Pr(Xn > 2) = (e−2/β )n = e−2n/β Ejemplo 5.1.2 Suponga {1, · · · , 1000} es una población finita, es decir N = 1000. Si se elige una muestra sin reemplazo de tamaño n = 10, ¿cuál es la probabilidad que los 10 valores sean mayores a 200? Si se asume que X1 , · · · , X10 son independientes: Pr(X1 > 200, · · · , X10 > 200) = Pr(X1 > 200) · · · Pr(X10 > 200) 800 10 = 0,107374 = 1000 Sea Y = número de valores en la muestra que son mayores a 200, entonces Y ∼ H(N = 1000, M = 800, k = 10). Luego: Pr(X1 > 200, · · · , X10 > 200) = Pr(Y = 10)
=
5.2.
800 200 10 0 1000 10
= 0,106164
Sumas de variables aleatorias a partir de una muestra aleatoria
Definición 5.2.1 Sea X1 , · · · , Xn una muestra aleatoria de tamaño n de una población y sea T (X1 , · · · , Xn ) una función cuyo dominio incluye el espacio
CAPÍTULO 5. PROPIEDADES EN UNA MUESTRA ALEATORIA
85
muestral de (X1 , · · · , Xn ), entonces la variable aleatoria Y = T (X1 , · · · , Xn ) es llamada una estadística cuya distribución es llamada la distribución de muestreo de Y . Definición 5.2.2 La media muestral es el promedio aritmético de los valores en la muestra aleatoria. Usualmente se denota por: X=
n 1X X 1 + · · · + Xn = Xi n n i=1
Definición 5.2.3 La varianza muestral es la estadística definida por: S2 =
n 1 X (Xi − X)2 n − 1 i=1
La desviación estándar muestral es la estadística definida por S =
√ S2 .
Teorema 5.2.1 Sean x1 , · · · , xn números cualesquiera y x¯ = (x1 + · · · + xn )/n, entonces: a. m´ın
Pn
i=1 (xi
b. (n − 1)s2 =
− a)2 =
Pn
− x¯)2
Pn
− x¯)2 =
Pn
i=1 (xi
i=1 (xi
i=1
¯2 x2i − nx
Lema 5.2.1 Sea X1 , · · · , Xn una muestra aleatoria de una población y sea g(x) una función tal que E[g(X1 )] y Var (g(X1 )) existen, entonces: E
" n X
#
g(Xi ) = nE [g(X1 )] y Var
i=1
n X
!
g(Xi ) = nVar (g(X1 ))
(5.2.1)
i=1
Teorema 5.2.2 Sea X1 , · · · , Xn una muestra aleatoria de una población con media µ y varianza σ 2 < ∞, entonces: a. E[X] = µ
b. Var X = c. E[S 2 ] = σ 2
σ2 n
CAPÍTULO 5. PROPIEDADES EN UNA MUESTRA ALEATORIA
86
Teorema 5.2.3 Sea X1 , · · · , Xn una muestra aleatoria de una población con función generatriz de momentos MX (t), entonces la función generatriz de momentos de la media muestral es: MX (t) = [MX (t/n)]n Ejemplo 5.2.1 Sea X1 , · · · , Xn una muestra aleatoria de una población N (µ, σ 2 ). La función generatriz de momentos de la media muestral es: t σ 2 (t/n)2 MX (t) = exp µ + n 2 ) ( 2 (σ /n)t2 = exp µt + 2 "
(
)#n
entonces, X ∼ N (µ, σ 2 /n). Ejemplo 5.2.2 Sea X1 , · · · , Xn una muestra aleatoria de una población G(α, β). La función generatriz de momentos de la media muestral es: "
MX (t) = =
!α #n
1 1 − β(t/n) !nα 1 1 − (β/n)t
entonces, X ∼ G(nα, β/n). Si el teorema 5.2.3 no es aplicable puede usarse el método de la transformación para hallar la función de densidad de Y = (X1 + · · · + Xn ) y luego la de X. En estos casos la siguiente fórmula es útil. Teorema 5.2.4 Si X y Y son variables aleatorias continuas independientes con función de densidad fX (x) y fY (y), entonces la función de densidad de Z = X + Y es: ˆ ∞ fZ (z) = fX (w)fY (z − w)dw (5.2.2) −∞
Ejemplo 5.2.3 Suponga que desea obtener la distribución de Z, la media de Z1 , · · · , Zn observaciones independientes e identicamente distribuidas según
CAPÍTULO 5. PROPIEDADES EN UNA MUESTRA ALEATORIA
87
C(0, 1). Aplicando 5.2.2 se puede demostrar que Z1 + · · · + Zn tiene distribución C(0, n) y Z ∼ C(0, 1), es decir la media muestral tiene la misma distribución de las observaciones individuales. Suponga X1 , · · · , Xn es una muestra de (1/σ)f ((x−µ)/σ) un miembro de una familia de locación-escala. Entonces la distribución de X tiene relación con la distribución de Z, la media muestral a partir de la función de densidad estándar f (z). Recordar que según el teorema 3.4.2 existen variables aleatorias Z1 , · · · , Zn tales que Xi = σZi + µ y la función de densidad de cada Zi es f (z). Además se tiene que Z1 , · · · , Zn son mutuamente independientes por lo que se trata de una muestra aleatoria de f (z). Las medias muestrales X y Z estan relacionadas por: n n 1X 1X X= Xi = (σZi + µ) = σZ + µ n i=1 n i=1
Luego, aplicando nuevamente el teorema 3.4.2, se tiene que si g(z) es la función de densidad de Z, entonces (1/σ)g((x − µ)/σ) es la función de densidad de X. Ejemplo 5.2.4 Si Z1 , · · · , Zn es una muestra aleatoria de una distribución de C(0, 1), entonces Z ∼ C(0, 1). Luego si X1 , · · · , Xn ∼ C(µ, σ) entonces X ∼ C(µ, σ). Es importante notar que la dispersión de X medida por σ, es la misma sin tomar en cuenta el tamaño de muestra n, lo cual entra en aparente contradicción con el teorema 5.2.2 ya que la distribucion de Cauchy no tiene varianza finita. Cuando se muestrea a partir de una familia exponencial la distribución de muestreo de la suma es fácil de encontrar. Las estadísticas T1 , · · · , Tk en el siguiente teorema son medidas de resumen importantes, tal como se verá más adelante. Teorema 5.2.5 Suponga X1 , · · · , Xn es una muestra aleatoria tomada de una función de probabilidad o densidad f (x|θ) donde: f (x|θ) = h(x)c(θ) exp
( k X
)
wi (θ)Ti (x)
i=1
es un miembro de una familia exponencial. Se definen las estadísticas T1 , · · · , Tk por:
CAPÍTULO 5. PROPIEDADES EN UNA MUESTRA ALEATORIA
Ti (X1 , · · · , Xn ) =
n X
Ti (Xj ),
88
i = 1, · · · , k.
j=1
Suponga que: {(w1 (θ), · · · , wk (θ) : θ ∈ Θ} y {(T1 (x1 , · · · , xn ), · · · , Tk (x1 , · · · , xn )) : xj ∈ X } donde n ≥ k, Θ es el espacio parámetrico y X es el espacio muestral de Xj . Luego, la distribución de (T1 , . . . , Tk ) es miembro de una familia exponencial de la forma: n
fT (t1 , · · · , tk |θ) = H(t1 , · · · , tk )[c(θ)] exp
( k X
)
wi (θ)ti
i=1
Ejemplo 5.2.5 Suponga que X1 , · · · , Xn es una muestra aleatoria de una distribución B(p) que pertenece a una familia exponencial con k = 1, c(p) = (1 − p), w1 (p) = log(p/(1 − p)) y t1 (x) = x. Luego T1 = X1 + · · · + Xn ∼ BI(n, p) que pertenece a una familia exponencial con w1 (p) y c(p) = (1 − p).
5.3.
Muestreo desde la distribución Normal
5.3.1.
Propiedades de la media y variancia muestral
Teorema 5.3.1 Sea X1 , · · · , Xn una muestra aleatoria de la distribución P 1 Pn 2 N (µ, σ 2 ) y sean X = n1 ni=1 Xi y S 2 = n−1 i=1 (Xi − X) . Entonces: a. X y S 2 son variables aleatorias independientes. b. X ∼ N (µ, σ 2 /n). c. (n − 1)S 2 /σ 2 ∼ χ2n−1 . Lema 5.3.1 Sea χ2p una variable aleatoria con distribución chi-cuadrado con p grados de libertad. a. Si Z ∼ N (0, 1) entonces Z 2 ∼ χ21 .
CAPÍTULO 5. PROPIEDADES EN UNA MUESTRA ALEATORIA
89
b. Si X1 , · · · , Xn son independientes y Xi ∼ χ2pi entonces X1 + · · · + Xn ∼ χ2p1 +···+pn . Lema 5.3.2 Sea Xj ∼ N (µj , σj2 ), j = 1, · · · , n independientes. Para constantes aij y brj (i = 1, · · · , k; r = 1, · · · , m) donde k + m ≤ n, se define: Ui =
n X
aij Xj , i = 1, · · · , k
j=1
Vr =
n X
brj Xj , r = 1, · · · , m
j=1
a. Las variables aleatorias Ui y Vr son independientes si y solo si Cov(Ui , Vr ) = Σnj=1 aij brj σj2 = 0. b. Los vectores aleatorios (U1 , · · · , Uk ) y (V1 , · · · , Vm ) son independientes sí y solo si Ui es independiente de Vr para todos los pares i, r (i = 1, · · · , k; r = 1, · · · , m).
5.3.2.
Distribuciones derivadas: t de Student y F de Snedecor
Si X1 , · · · , Xn es una muestra aleatoria de la distribución N (µ, σ 2 ) se sabe que: X −µ √ σ/ n
(5.3.1)
tiene distribución N (0, 1). Muchas veces σ no se conoce, en este caso el proceso de inferencia se realiza sobre: X −µ √ S/ n
(5.3.2)
Definición 5.3.1 Sea X1 , · · · , Xn es una muestra aleatoria de una distribuX−µ √ tiene distribución t-student con n − 1 grados ción N (µ, σ 2 ). La cantidad S/ n de libertad. Equivalentemente, una variable aleatoria T tiene distribución t de student con p grados de libertad, y se denota por T ∼ tp , si tiene la siguiente función de densidad:
CAPÍTULO 5. PROPIEDADES EN UNA MUESTRA ALEATORIA
) 1 Γ( p+1 1 2 fT (t) = , p 1/2 2 Γ( 2 ) (pπ) (1 + t /p)(p+1)/2
−∞ < t < ∞
90
(5.3.3)
Si p = 1 entonces 5.3.3 se convierte en la distribución Cauchy, lo cual ocurre cuando el tamaño de muestra es 2. La distribución t de student no tiene función generatriz de momentos ya que no todos sus momentos existen. De hecho, si existen p grados de libertad, entonces solo existen p − 1 momentos. Por lo tanto, t1 no tiene media, t2 no tiene variancia, etc. Es fácil chequear que si Tp es una variable aleatoria con distribución tp entonces: E[Tp ] = 0 si p > 1 p si p > 2 Var (Tp ) = p−2
(5.3.4)
Definición 5.3.2 Sea X1 , · · · , Xn una muestra aleatoria de una población 2 N (µX , σX ) y sea Y1 , · · · Ym una muestra aleatoria de una población inde2 2 )/(SY2 /σY2 ) tiene /σX pendiente N (µY , σY2 ). La variable aleatoria F = (SX distribución F de Snedecor con n − 1 y m − 1 grados de libertad. Equivalentemente, la variable aleatoria F tiene distribución F con p y q grados de libertad, si su función de densidad es: Γ( p+q ) fF (x) = p 2 q Γ( 2 )Γ( 2 )
p q
!p/2
x(p/2)−1 , [1 + (p/q)x](p+q)/2
0
(5.3.5)
Teorema 5.3.2 Usando la técnica de la transformación es posible establecer los siguientes resultados: a. Si X ∼ Fp,q entonces 1/X ∼ Fq,p . b. Si X ∼ tq entonces X 2 ∼ F1,q . c. Si X ∼ Fp,q entonces (p/q)X/(1 + (p/q)X) ∼ BE(p/2, q/2).
5.4.
Estadísticas de orden
Definición 5.4.1 Las estadísticas de orden de una muestra X1 , · · · , Xn son los valores puestos en orden ascendente y se denotan por X(1) , · · · , X(n) .
CAPÍTULO 5. PROPIEDADES EN UNA MUESTRA ALEATORIA
91
Las estadísticas de orden son variables aleatorias que satisfacen X(1) ≤ · · · ≤ X(n) . En particular: X(1) =
m´ın Xi
1≤i≤n
X(2) = segundo valor más pequeño Xi .. . X(n) = m´ax Xi 1≤i≤n
El rango muestral, R = X(n) − X(1) es la diferencia entre la observación más grande y pequeña. La mediana muestral, denotada por M , es el número tal que aproximadamente la mitad de las observaciones son menores que M y la otra mitad es mayor. En términos de las estadísticas de orden, M se define por: X si n es impar ((n+1)/2) M= (5.4.1) (X (n/2) + X(n/2+1) )/2 si n es par Para todo número p entre 0 y 1, el percentil muestral 100p es la observación tal que aproximadamente np de las observaciones son menores que el mencionado percentil y n (1 − p) de las observaciones restantes son mayores. El percentil muestral 50 es la mediana muestral. Para otros valores de p, se puede definir de forma precisa los percentiles muestrales en términos de las estadísticas de orden. Definición 5.4.2 La notación {b}, cuando aparezca como subíndice, se define como el número b redondeado al entero más cercano, es decir, si i es un número entero y i − 0,5 ≤ b < i + 0,5, entonces {b} = 1. 1 < p < 0,5 y X(n+1−{n(1−p)}) si 0,5 < El percentil 100p es X({np}) si 2n 1 p < 1 − 2n . Por ejemplo, si n = 12 y se desea hallar el percentil 65, se tiene 12(1 − 0,65) = 4,2 y 12 + 1 − 4 = 9. Luego el percentil 65 es X(9) . Teorema 5.4.1 Sea X1 , · · · , Xn una muestra aleatoria de una distribución discreta con función de probabilidad fX (xi ) = pi donde x1 < x2 < · · · son
CAPÍTULO 5. PROPIEDADES EN UNA MUESTRA ALEATORIA
92
los posibles valores de X en orden ascendente. Se definen: P0 = 0 P1 = p 1 P2 = p 1 + p 2 .. . Pi = p 1 + p 2 + · · · + p i Sean X(1) , · · · , X(n) las estadísticas de orden de la muestra, entonces: Pr(X(j) ≤ xi ) =
n X k=j
!
n Pik (1 − Pi )n−k k
(5.4.2)
y
Pr(X(j) = xi ) =
n X k=j
! i n h k k Pi (1 − Pi )n−k − Pi−1 (1 − Pi−1 )n−k k
(5.4.3)
Teorema 5.4.2 Sean X(1) , · · · , X(n) las estadísticas de orden de una muestra aleatoria de una población continua con función de distribución acumulada FX (x) y función de densidad fX (x). Entonces la función de densidad de X(j) es: fX(j) (u) =
n! fX (u)[FX (u)]j−1 [1 − FX (u)]n−j (j − 1)!(n − j)!
(5.4.4)
Ejemplo 5.4.1 Sean X1 , · · · , Xn variables aleatorias independientes e identicamente distribuidas como U(0, 1), tal que fX (x) = 1 y FX (x) = x para x ∈ (0, 1). Usando el teorema 5.4.2 se tiene que la función de densidad de la j-ésima estadística de orden es: n! uj−1 (1 − u)n−j (j − 1)!(n − j)! Γ(n + 1) = uj−1 (1 − u)(n−j+1)−1 Γ(j)Γ(n − j + 1)
fX(j) (u) =
Es decir, X(j) ∼ BE(j, n − j + 1). Luego: E[X(j) ] =
j j(n − j + 1) y Var X(j) = n+1 (n + 1)2 (n + 2)
CAPÍTULO 5. PROPIEDADES EN UNA MUESTRA ALEATORIA
93
Teorema 5.4.3 Sean X(1) , · · · , X(n) las estadísticas de orden de una muestra aleatoria X1 , · · · , Xn de una población continua con función de distribución acumulada FX (x) y función de densidad fX (x). Entonces la función de densidad conjunta de X(i) y X(j) , 1 ≤ i < j ≤ n, es: fX(i) ,X(j) (u, v) =
n! fX (u)fX (v)[FX (u)]i−1 (i − 1)!(j − 1 − i)!(n − j)! [FX (v) − FX (u)]j−1−i [1 − FX (v)]n−j
(5.4.5)
para −∞ < u < v < ∞. Es posible obtener la función de densidad conjunta de tres o más estadísticas de orden usando argumentos similares pero más complicados. La función de densidad conjunta de todas las estadísticas de orden está dada por: n!f
fX(1) ,··· ,X(n) (x1 , · · · , xn ) =
X (x1 ) · · · fX (xn )
0
−∞ < x1 < · · · < xn < ∞ de otro modo
Ejemplo 5.4.2 Sean X1 , · · · , Xn variables aleatorias independientes e identicamente distribuidas según U(0, a) y sean X(1) , · · · , X(n) las estadísticas de orden. El rango muestral fue definido como R = X(n) −X(1) . El rango medio o semirango es una medida de localización como la mediana o media muestral, y se define por S = (X(1) + X(n) )/2. Se pide hallar la función de densidad conjunta de R y S a partir de la función de densidad conjunta de X(1) y X(n) . De 5.4.5 se tiene que: n(n − 1)(v − u)n−2 , 0
X(1) = S − R/2 X(n) = S + R/2 Las transformaciones anteriores son 1-1 y van desde A = {(u, v) : 0 < u < v < a} hacia B = {(r, s) : 0 < r < a, r/2 < s < a − r/2}. El jacobiano es: 1 −1 2 J = 1 = 1 1 2
CAPÍTULO 5. PROPIEDADES EN UNA MUESTRA ALEATORIA
94
La función de densidad conjunta de (R, S) es: n(n − 1)rn−2 , 0 < r < a, r/2 < s < a − r/2 an La función de densidad marginal de R es: fR,S (r, s) =
ˆ
a−r/2
fR (r) = r/2
n(n − 1)rn−2 n(n − 1)rn−2 (a − r) ds = an an
(5.4.6)
Si a = 1, se tiene que r ∼ BE(n − 1, 2). Se puede probar que R/a tiene distribución beta, donde a es el parámetro de escala. La función de densidad marginal de S es: ˆ 2s n(2s)n−1 n(n − 1)rn−2 dr = , 0 < s ≤ a/2 fS (s) = an an 0 y ˆ fS (s) = 0
5.5. 5.5.1.
2(a−s)
n [2(a − s)]n−1 n(n − 1)rn−2 dr = , a/2 < s ≤ a an an
Conceptos de convergencia Convergencia en probabilidad
Definición 5.5.1 Una secuencia de variables aleatorias X1 , X2 , · · · converge en probabilidad hacia la variable aleatoria X, si para todo > 0 l´ım Pr (|Xn − X| ≥ ) = 0 ó
n→∞
l´ım Pr (|Xn − X| < ) = 1
n→∞
Las variables aleaorias X1 , X2 , · · · en la definición 5.5.1, y en las otras definiciones de esta sección, no son necesariamente independientes e identicamente distribuidas como en una muestra aleatoria. Frecuentemente se tiene que la secuencia de variables aleatorias corresponde a medias muestrales y que la variable aleatoria límite es constante. El resultado más famoso es el siguiente.
CAPÍTULO 5. PROPIEDADES EN UNA MUESTRA ALEATORIA
95
Teorema 5.5.1 (Ley débil de los grandes números) Sean X1 , X2 , · · · variables aleatorias independientes e identicamente distribuidas con E[Xi ] = P µ y Var(Xi ) = σ 2 < ∞. Si se define X n = (1/n) ni=1 Xi entonces, para todo > 0:
l´ım Pr X n − µ < = 1
n→∞
es decir, X n converge en probabilidad hacia µ. Ejemplo 5.5.1 Suponga se tiene la secuencia X1 , X2 , · · · de variables aleatorias independientes e identicamente distribuidas con E[Xi ] = µ y Var (Xi ) = σ 2 < ∞. Si se define: Sn2
n 1 X = (Xi − X n )2 n − 1 i=1
Si se desea probar la ley débil de los grandes números para Sn2 se usa la desigualdad de Chebychev: E [(Sn2 − σ 2 )2 ] Var (Sn2 ) = 2 2 Una condición suficiente para que Sn2 converja en probabilidad a σ 2 es que Var (Sn2 ) → 0 conforme n → ∞.
Pr Sn2 − σ 2 ≥ ≤
Teorema 5.5.2 Si X1 , X2 , · · · converge en probabilidad hacia la variable aleatoria X y h es una función continua, entonces h(X1 ), h(X2 ), · · · converge en probabilidad hacia h(X).
5.5.2.
Convergencia casi segura
Definición 5.5.2 Una secuencia de variables aleatorias, X1 , X2 , · · · converge de manera casi segura hacia la variable aleatoria X si, para todo > 0
Pr
l´ım (|Xn − X| ≥ ) = 1
n→∞
Ejemplo 5.5.2 Sea el espacio muestral S = [0, 1] con distribución de probabilidad uniforme. Se definen las variables aleatorias Xn (s) = s + sn y X(s) = s. Para todo s ∈ [0,1], sn → 0 conforme n → ∞ y Xn (s) → s = X(s). Sin embargo, Xn (1) = 2 para todo n tal que Xn (1) no converge a X(1) = 1.
CAPÍTULO 5. PROPIEDADES EN UNA MUESTRA ALEATORIA
96
Pero como la convergencia ocurre en el conjunto [0, 1] y Pr ([0, 1]) = 1, Xn converge de forma casi segura hacia X. Teorema 5.5.3 (Ley fuerte de los grandes números) Sean X1 , X2 , · · · variables aleatorias independientes e identicamente distribuidas con E[Xi ] = P µ y Var (Xi ) = σ 2 < ∞ y se define X n = (1/n) ni=1 Xi . Entonces, para todo > 0,
Pr
l´ım
n→∞
X n
− µ
< =1
es decir, X n converge de forma casi segura hacia µ.
5.5.3.
Convergencia en distribución
Definición 5.5.3 Una secuencia de variables aleatorias, X1 , X2 , · · · converge en distribución a la variable aleatoria X si: l´ım FXn (x) = FX (x)
n→∞
en todos los puntos x donde FX (x) es continua. Ejemplo 5.5.3 Sean X1 , X2 , · · · variables aleatorias con distribución U(0, 1) y sea X(n) = m´ax1≤i≤n {Xi }. Conforme n → ∞ se espera que X(n) se encuentre cerca de 1, entonces para todo > 0:
Pr X(n) − 1 ≥ = Pr X(n) ≥ 1 + + Pr X(n) ≤ 1 −
= Pr X(n) ≤ 1 −
= Pr (Xi ≤ 1 − , i = 1, · · · , n) = (1 − )n luego X(n) converge en probabilidad hacia 1. Además, si se toma = t/n se tiene: Pr X(n) ≤ 1 − t/n = (1 − t/n)n → e−t lo cual es equivalente a:
Pr n 1 − X(n) ≤ t → 1 − e−t
es decir, la variable aleatoria n 1 − X(n) converge en distribución a la variable aleatoria E (1).
CAPÍTULO 5. PROPIEDADES EN UNA MUESTRA ALEATORIA
97
Teorema 5.5.4 (Teorema central del límite) Sea X1 , X2 , · · · variables aleatorias independientes e identicamente distribuidas cuyas funciones generatrices de momentos existen en alguna vecindad de 0 (esto es, MXi (t) existe para |t| < h para algún h positivo). Sea E[Xi ] = µ y Var (Xi ) = σ 2 > 0 (µ y σ 2 son finitos desde que la función generatriz de momentos existe). Se define Pn X n = (1/n) i=1 Xi y sea Gn (x) la función de distribución acumulada de √ n(X n − µ)/σ. Entonces para −∞ < x < ∞: ˆ x 1 2 √ e−y /2 dy l´ım Gn (x) = n→∞ 2π −∞ √ esto es, n(X n − µ)/σ tiene distribución límite normal estándar. Prueba: Se probará que para| t |< h, la función generatriz de momentos √ 2 de n(X n − µ)/σ converge hacia et /2 , la función generatriz de momentos de una variable aleatoria N(0, 1). Se define Yi = (Xi − µ)/σ y sea MY (t) la función generatriz de momentos de las Yi0 s, las cuales existen para | t |< σh. Sea W tal que: √ n 1 X n(X − µ) =√ Yi W = σ n i=1 Luego: MW (t) = M √1 Pn n
i=1
Pn Yi (t) = M
i=1
h √ √ in (t/ n) = M (t/ n) Y Yi
√ Se expande MY (t/ n) en una serie de potencias de Taylor alrededor de 0. Entonces: √ ∞ X √ (t/ n)k dk (k) (k) MY (t/ n) = MY (0) donde MY (0) = k MY (t) k! dt t=0 k=0 Como la función generatriz de momento existe para | t |< h, la expresión √ (0) en serie de potencias es válida si t < nσh. Usando el hecho que MY = 1, (1) (2) MY = 0 y MY = 1, ya que por construcción la media y varianza de Y son 0 y 1 respectivamente. Entonces: √ √ √ √ (t/ n)0 (t/ n)2 (0) (2) MY (t/ n) = MY (0) + · · · + MY (0) + RY (t/ n) 2! √ 0! √ (t/ n)2 = 1+ + RY (t/ n) 2
CAPÍTULO 5. PROPIEDADES EN UNA MUESTRA ALEATORIA
98
donde RY es el residuo en la expansión de Taylor. Una aplicación del teorema 7.4.1 de Taylor muestra que , para t 6= 0 fijo, se tiene: √ √ RY (t/ n) √ 2 = 0 entonces l´ım nRY (t/ n) = 0 l´ım n→∞ (t/ n) n→∞ Luego: # √ √ n (t/ n)2 l´ım 1 + + RY (t/ n) n→∞ 2 " !#n √ 1 t2 = l´ım 1 + + nRY (t/ n) n→∞ n 2
√ in = l´ım MY (t/ n) h
n→∞
"
y usando el lema 2.3.1 se tiene: h √ in 2 l´ım MY (t/ n) = et /2
n→∞
que es la función generatriz de momentos de la distribución N (0, 1). Teorema 5.5.5 (Forma fuerte del teorema central del límite) Sean X1 , X2 , · · · variables aleatorias independientes e identicamente distribuidas Pn con E[Xi ] = µ y Var[Xi ] = σ 2 < ∞. Se define X n = (1/n) i=1 Xi y sea √ Gn (x) la función de distribución acumulada de n(X n − µ)/σ. Entonces para −∞ < x < ∞: ˆ x 1 2 √ e−y /2 dy l´ım Gn (x) = n→∞ 2π −∞ √ esto es, n(X n − µ)/σ tiene distribución límite normal estándar. Ejemplo 5.5.4 Suponga que X1 , · · · , Xn es una muestra aleatoria de una distribución BN (r, p). Recordar que: E[X] =
r(1 − p) p
y
Var (X) =
El teorema central del límite dice que: √ n(X − r(1 − p)/p) q
r(1 − p)/p2
r(1 − p) p2
CAPÍTULO 5. PROPIEDADES EN UNA MUESTRA ALEATORIA
99
tiene distribución aproximada N (0, 1). Por ejemplo si r = 10, p = 1/2 y n = 30 entonces: Pr(X ≤ 11) = Pr
30 X
!
Xi ≤ 330
i=1 330 X
! 1 300 1 x
300 + x − 1 = x i=1 = 0,8916 ya que
2
2
Pn
Xi ∼ BN (nr, p). Usando el teorema central de límite: √ √ ! 30(X − 10) 30(11 − 10) √ √ Pr(X ≤ 11) = Pr ≤ 20 20 ∼ = Pr(Z ≤ 1,2247) ∼ = 0,8888 i=1
Teorema 5.5.6 (Teorema de Slutsky) Si Xn → X en distribución y Yn → a en probabilidad, donde a es constante, entonces: a. Yn Xn → aX en distribución. b. Xn + Yn → X + a en distribucion. Ejemplo 5.5.5 Suponga que: √ n(X n − µ) → N (0, 1) σ pero el valor de σ no se conoce. Como se vió en el ejemplo 5.5.1, si l´ımn→∞ Sn2 = 0, entonces Sn2 → σ 2 en probabilidad. Se puede probar que σ/Sn → 1 en probabilidad y según el teorema de Slutsky: √ √ σ n(X n − µ) n(X n − µ) = → N (0, 1) Sn Sn σ
Capítulo 6 Principios de reducción de la data 6.1.
Introducción
Un experimentador usa la información en una muestra X1 , · · · , Xn para realizar el proceso de inferencia sobre algun parámetro desconocido θ. Si el tamaño de muestra es grande entonces los valores observados en la muestra x1 , · · · , xn podrían ser difíciles de interpretar de forma individual. Es necesario resumir la información en la muestra para determinar algunas características de interés a través del cálculo de estadísticas como la media, la varianza, el máximo, el mínimo, la mediana, etc.
6.2.
El principio de suficiencia
Una estadística suficiente para un parámetro θ es una estadística que, de cierta forma, captura toda la informacion acerca de θ contenida en la muestra. No es posible obtener información adicional en la muestra, además del valor de la estadística suficiente. Estas consideraciones nos llevan a la técnica de reducción de datos conocida como el principio de suficiencia: “si T (X) es una estadística suficiente para θ, entonces el proceso de inferencia sobre θ depende de la muestra X solo a través del valor T (X)”.
100
101
CAPÍTULO 6. PRINCIPIOS DE REDUCCIÓN DE LA DATA
6.2.1.
Estadística suficiente
Definición 6.2.1 Una estadística T (X) es una estadística suficiente para θ si la distribución de la muestra X dado el valor de T (X) no depende de θ. Teorema 6.2.1 Si f (x|θ) es la función de probabilidad o densidad conjunta de X, y q(t|θ) es la función de probabilidad o densidad de T (X), entonces T (X) es una estadística suficiente para θ si y solo si: f (x|θ) q (T (x|θ)) no depende de θ para todo X. Ejemplo 6.2.1 Sean X1 , · · · , Xn variables aleatorias independientes e identicamente distribuidas según B(θ), 0 < θ < 1. Para probar que T (X) = X1 + X2 + · · · + Xn es una estadística suficiente para θ hay que recordar que P T (X) ∼ BI(n, θ). Si se define t = xi : f (x|θ) = q (T (x|θ)) =
Qn 1−xi xi i=1θ (1 − θ) n t
θ
P
xi
n t
θt (1 − θ)n−t P
(1 − θ)n−
xi
θt (1 − θ)n−t
1 = n t
entonces T (X) = X1 + X2 + · · · + Xn es una estadística suficiente para θ. Ejemplo 6.2.2 Sean X1 , · · · , Xn variables aleatorias independientes e identicamente distribuidas según N (µ, σ 2 ), donde σ 2 es conocido. Se desea probar si T (X) = X es una estadística suficiente para µ, entonces: f (x|µ) =
n Y
(2πσ 2 )−1/2 exp −
i=1
= (2πσ ) = (2πσ )
= (2πσ )
)
n 1 X exp − 2 (xi − x¯)2 + n(¯ x − µ)2 2σ i=1
(
2 −n/2
)
n 1 X exp − 2 (xi − x¯ + x¯ − µ)2 2σ i=1
(
2 −n/2
n 1 X exp − 2 (xi − µ)2 2σ i=1
(
2 −n/2
1 (xi − µ)2 2σ 2
!)
102
CAPÍTULO 6. PRINCIPIOS DE REDUCCIÓN DE LA DATA 2
además X ∼ N (µ, σn ), luego: f (x|θ) = q(T (x|θ))
n
o
Pn
(2πσ 2 )−n/2 exp − 2σ1 2 (
¯)2 + n(¯ x − µ)2 ) i=1 (xi − x n
n1/2 (2πσ 2 )−1/2 exp − n(¯x2σ−µ) 2
2
o
n 1 X exp − 2 (xi − x¯)2 2σ i=1
(
= n
−1/2
2 −(n−1)/2
(2πσ )
)
entonces X es una estadística suficiente para µ. Teorema 6.2.2 (Teorema de Factorización) Sea f (x|θ) la función de probabilidad o densidad conjunta de la muestra X. La estadística T (X) es suficiente para θ si y solo si existen funciones g(t|θ) y h(x) tales que: f (x|θ) = g(T (x)|θ)h(x)
(6.2.1)
Ejemplo 6.2.3 Considere nuevamente el ejemplo 6.2.2: n n(¯ x − µ)2 1 X (xi − x¯)2 exp − f (x|µ) = (2πσ ) exp − 2 2σ i=1 2σ 2 = h(x)g(T (x)|µ)
)
(
(
)
2 −n/2
entonces X es una estadística suficiente para µ. Ejemplo 6.2.4 Sean X1 , · · · , Xn variables aleatorias independientes e identicamente distribuidas según U(0, θ) cuya función de densidad es: 1 f (x|θ) = , 0 ≤ x ≤ θ θ luego: f (x|θ) =
n Y
1 I(0,θ) (xi ) i=1 θ
n 1 Y = n I(0,θ) (xi ) θ i=1 1 = n I(0,θ) (x(n) ) θ
entonces T (X) = X(n) es una estadística suficiente para θ.
103
CAPÍTULO 6. PRINCIPIOS DE REDUCCIÓN DE LA DATA
Ejemplo 6.2.5 Nuevamente asuma que X1 , · · · , Xn son variables aleatorias independientes e identicamente distribuidas según N (µ, σ 2 ), donde ambos parámetros son desconocidos, es decir θ = (µ, σ 2 ). Según el teorema de factorización: n 1 X f (x|µ, σ ) = (2πσ ) exp − 2 (xi − x¯)2 + n(¯ x − µ)2 2σ i=1 1 2 2 2 −n/2 x − µ) + (n − 1)s = (2πσ ) exp − 2 n(¯ 2σ
(
!)
2 −n/2
2
Si T1 (x) = x¯ y T2 (x) = s2 , entonces: 1 f (x|µ, σ ) = (2πσ ) exp − 2 n(t1 − µ)2 + (n − 1)t2 2σ 2 = g(T1 (x), T2 (x)|µ, σ )h(x) 2
2 −n/2
luego T (x) = (T1 (x), T2 (x)) = (X, S 2 ) es una estadística suficiente para el modelo normal. Teorema 6.2.3 Sean X1 , · · · , Xn observaciones independientes e identicamente distribuidas según la función de probabilidad o densidad f (x|θ). Suponga que f (x|θ) proviene de una familia exponencial dada por: f (x|θ) = h(x)c(θ) exp
( k X
)
wi (θ)ti (x)
i=1
donde θ = (θ1 , θ2 , · · · , θd ), d ≤ k. Entonces:
T (X) =
n X
t1 (Xj ), · · · ,
j=1
n X
tk (Xj )
j=1
es una estadística suficiente para θ. Ejemplo 6.2.6 Sean X1 , · · · , Xn observaciones independientes e identicamente distribuidas según P(λ) cuya función de probabilidad pertenece a una familia exponencial: e−λ λx 1 = e−λ exp {x log λ} x! x! Pn entonces T (X) = i=1 Xi es una estadística suficiente para λ. f (x|λ) =
CAPÍTULO 6. PRINCIPIOS DE REDUCCIÓN DE LA DATA
6.2.2.
104
Estadística minimal suficiente
Como es posible encontrar muchas estadísticas suficientes en un mismo problema sera necesario establecer cuál es la mejor. Recordar que el propósito de una estadística suficiente es lograr resumir la data sin pérdida de información acerca del parámetro θ, es decir que se debe buscar aquella estadística que logre la mayor reducción de data reteniendo aún toda la información sobre θ. Definición 6.2.2 Una estadística suficiente T (X) es llamada estadística min0 imal suficiente si, para cualquier otra estadística suficiente T (X), T (x) es 0 función de T (x). Ejemplo 6.2.7 Sean X1 , · · · , Xn independientes e identicamente distribuidas según N (µ, σ 2 ) donde σ 2 es conocido. Se sabe que T (X) = X es una estadís0 tica suficiente para µ y T (X) = (X, S 2 ) es una estadística suficiente para µ en el mismo problema. Claramente T (X) logra una mayor reducción de 0 0 data que T (X). Puede escribirse T (X) como función de T (X) a través de r(a, b) = a entonces: 0
T (x) = x = r(x, s2 ) = rT (x) Teorema 6.2.4 Sea f (x|θ) la función de probabilidad o densidad de una muestra X. Suponga que existe una función T (X) tal que, para dos puntos muestrales x y y, el ratio f (x|θ)/f (y|θ) no depende de θ si y solo si T (x) = T (y). Entonces T (X) es una estadística minimal suficiente para θ. Ejemplo 6.2.8 Sean X1 , · · · , Xn independientes e identicamente distribuidas según N (µ, σ 2 ) ambos parámetros desconocidos. Sean x y y dos muestras tales que (¯ x, s2X ) y (¯ y , s2Y ) son las medias y varianzas muestrales respectivamente. Entonces, usando 6.2.4: n
o
(2πσ 2 )−n/2 exp − 2σ1 2 (n(¯ x − µ)2 + (n − 1)s2X ) f (x|µ, σ 2 ) n o = f (y|µ, σ 2 ) (2πσ 2 )−n/2 exp − 2σ1 2 (n(¯ y − µ)2 + (n − 1)s2Y ) 1 2 2 2 2 = exp − 2 −n(¯ x − y¯ ) + 2nµ(¯ x − y¯) − (n − 1)(sX − sY ) 2σ El ratio anterior no dependerá de µ y σ 2 si y solo si x¯ = y¯ y s2X = s2Y . Luego por el teorema 6.2.4 (X, S 2 ) es una estadística minimal suficiente para (µ, σ 2 ).
CAPÍTULO 6. PRINCIPIOS DE REDUCCIÓN DE LA DATA
105
Ejemplo 6.2.9 Suponga X1 , · · · , Xn independientes e identicamente distribuidas según U(θ, θ + 1), −∞ < θ < ∞ entonces la función de densidad conjunta de X es: n Y
I(θ,θ+1) (xi ) = I(x(n) −1,x(1) ) (θ)
i=1
Luego: I(x −1,x(1) ) (θ) f (x|θ) = (n) f (y|θ) I(y(n) −1,y(1) ) (θ) no depende de θ si x(n) = y(n) y x(1) = y(1) . Luego T (X) = (X(1) , X(n) ) es una estadística minimal suficiente. Una estadística minimal suficiente no es única. Cualquier función uno a uno de una estadística minimal suficiente es también una estadística minimal 0 suficiente. Luego, T (X) = (X(n) − X(1) , (X(1) + X(n) )/2) es también una esP P 0 tadística minimal suficiente en el ejemplo 6.2.9 y T (X) = ( ni=1 Xi , ni=1 Xi2 ) es también una estadística minimal suficiente en el ejemplo 6.2.8.
6.2.3.
Estadística ancillar
En las secciones anteriores se consideraron las estadísticas suficientes que contienen toda la información sobre θ en la muestra. En esta sección se introduce un tipo diferente de estadística que tiene un propósito complementario. Definición 6.2.3 Una estadística S(X) cuya distribución no depende del paramétro θ es llamada estadística ancillar. Ejemplo 6.2.10 Sean X1 , · · · , Xn independientes e identicamente distribuidas según U(θ, θ+1). Sean X(1) < · · · < X(n) las estadísticas de orden de la muestra. Si R = X(n) − X(1) se tiene que: F (x|θ) =
0
x−θ 1
x≤θ θ
La función de densidad conjunta de X(1) y X(n) es: fX(1) ,X(n) (u, v|θ) =
n(n − 1)(v 0
− u)n−2
θ
106
CAPÍTULO 6. PRINCIPIOS DE REDUCCIÓN DE LA DATA
Usando las transformaciones R = X(n) − X(1) y M = (X(1) + X(n) )/2 se tiene X(1) = (2M − R)/2 y X(n) = (2M + R)/2 tal que J = 1. Luego:
fR,M (r, m|θ) =
n(n − 1)r n−2 0
θ + (r/2) < m < θ + 1 − (r/2) de otro modo
La distribución marginal: θ+1−(r/2) ˆ
n(n − 1)rn−2 dm = n(n − 1)rn−2 (1 − r), 0 < r < 1
fR (r|θ) = θ+(r/2)
Es decir, R tiene distribución BE(α = n − 1, β = 2) y no depende de θ por lo que R es una estadística ancillar.
6.2.4.
Estadística suficiente, ancillar y completa
Definición 6.2.4 Sea f (t|θ) una familia con función de probabilidad o densidad para una estadística T (X). La familia de distribución de probabilidad es llamada completa si Eθ [g(T )] = 0 para todo θ implica que Prθ [g(T ) = 0] = 1 para todo θ. Equivalentemente, T (X) es llamada una estadística completa. Ejemplo 6.2.11 Sea T ∼ BI(n, p), 0 < p < 1. Sea g una función tal que Ep [g(T )] = 0, es decir: n X
n X n t n g(t) p (1 − p)n−t = (1 − p)n g(t) Ep [g(T )] = t t t=0 t=0
!
!
p 1−p
!t
p t luego nt=0 g(t) nt ( 1−p ) = 0 entonces g(t) = 0 para t = 0, 1, 2, · · · , n y Prp (g(T ) = 0) = 1, para todo p. Luego T es una estadística completa.
P
Ejemplo 6.2.12 Sean X1 , · · · , Xn observaciones independientes e identicamente distribuidas como U(0, θ), 0 < θ < ∞. Se tiene que T (X) = X(n) es una estadística suficiente y que su función de densidad es: f (t/θ) =
ntn−1 θ 0
0
CAPÍTULO 6. PRINCIPIOS DE REDUCCIÓN DE LA DATA
107
Suponga g(t) es una función que satisface Eθ [g(T )] = 0 para todo θ. Como Eθ [g(T )] = 0 es una función constante su derivada con respecto a θ es cero, entonces se tiene: d d 0 = Eθ [g(T )] = dθ dθ
ˆθ g(t)ntn−1 θ−n dt 0
Para toda función Riemman integrable d −n θ = dθ
´θ
d dθ
0
g(t)dt = g(θ). Luego:
ˆθ g(t)ntn−1 0
= θ
−n
d dθ
ˆθ n−1
g(t)nt
d dt + ( θ−n ) dθ
0
ˆθ ng(t)tn−1 dt 0
= (θ−n )g(θ)nθn−1 + 0 1 = g(θ)n = 0 θ entonces g(θ) = 0, luego T es una estadística completa. Teorema 6.2.5 Sean X1 , · · · , Xn observaciones independientes e identicamente distribuidas de una familia exponencial con función de probabilidad o densidad o función de probabilidad de la forma: f (x|θ) = h(x)c(θ) exp
k X
wj (θ)tj (x)
j=1
donde θ = (θ1 , θ2 , · · · , θk ), entonces la estadística T (X) =
n X i=1
t1 (Xi ), · · · ,
n X
!
tk (Xi )
i=1
es completa si {(w1 (θ) , · · · , wk (θ) : θ ∈ Θ)} contiene un conjunto abierto en
Pn
i=1
Xi es una estadística
Capítulo 7 Estimación puntual 7.1.
Introducción
Definición 7.1.1 Un estimador puntual es cualquier función W (X1 , · · · , Xn ) de la muestra. Es decir, cualquier estadística es una estimador puntual. Se debe tener clara la diferencia entre estimador y estimación. Un estimador es una función de una muestra, mientras que una estimación es el valor obtenido al aplicar un estimador a los datos de una muestra. Es decir, un estimador es una función de las variables aleatorias X1 , · · · , Xn mientras que una estimación es una función de los valores muestrales x1 , · · · , xn .
7.2.
Métodos para encontrar estimadores
En muchos casos habrá un candidato evidente o natural para ser el estimador puntual de un parámetro particular y a menudo la intuición puede inducirnos a obtener buenos estimadores. Por ejemplo, la media muestral es un candidato natural para estimar la media poblacional.
7.2.1.
Métodos de momentos
Sea X1 , · · · , Xn una muestra de una población con función de probabilidad o densidad f (x|θ1 , · · · , θk ). Los estadísticos por el método de momentos se encuentran igualando los k primeros momentos muestrales a sus correspondientes k momentos poblacionales y resolviendo simultáneamente las
108
CAPÍTULO 7. ESTIMACIÓN PUNTUAL
109
ecuaciones. Es decir, se definen: m1 =
n 1X X 1, n i=1 i
µ1 = E[X 1 ]
m2 =
n 1X X 2, n i=1 i
µ2 = E[X 2 ] .. .
mk =
n 1X X k, n i=1 i
µk = E[X k ]
El momento poblacional µj es, por lo general, una función de θ1 , · · · , θk digamos µj (θ1 , · · · , θk ). El estimador por el método de momentos (θ˜1 , · · · θ˜k ) de (θ1 , · · · , θk ) se obtiene resolviendo el siguiente sistema de ecuaciones en términos de (m1 , · · · , mk ): m1 = µ1 (θ1 , · · · , θk ) m2 = µ2 (θ1 , · · · , θk ) .. . mk = µk (θ1 , · · · , θk ) Ejemplo 7.2.1 Suponga X1 , · · · , Xn independientes e identicamente disP tribuidas según N (µ, σ 2 ). Se tiene m1 = X = µ1 , m2 = n1 ni=1 Xi2 = µ2 y resolviendo: n 1X µ ˜=X y σ ˜2 = (Xi − X)2 n i=1 En este caso, el estimador por el método de momentos coincide con nuestra intuición sobre el candidato natural para µ. Ejemplo 7.2.2 Suponga X1 , · · · , Xn independientes e identicamente distribuidas según BI(k, p), ambos parámetros desconocidos: n 1X m1 = Xi = kp = E[X] n i=1
m2 = resolviendo :
n 1X X 2 = kp(1 − p) + k 2 p2 = E[X 2 ] n i=1 i
110
CAPÍTULO 7. ESTIMACIÓN PUNTUAL
ke
7.2.2.
=
X X−
1 n
Pn
2
i=1 (Xi
−
X)2
X y pe = e k
Estimadores de máxima verosimilitud
Definición 7.2.1 Sea f (x|θ) que denota la función de probabilidad o densidad conjunta de la muestra X = (X1 , · · · , Xn ). Entonces, dado que X = x es observado, la función de θ definida por: L(θ|x) = f (x|θ) es llamada función de verosimilitud. Si X1 , · · · , Xn es una muestra independiente e identicamente distribuida de una población con función de probabilidad o densidad f (x|θ1 , · · · , θk ), la función de verosimilitud se define por:
L(θ|x) = L(θ1 , · · · , θk |x1 , · · · , xn ) =
n Y
f (xi |θ1 , · · · , θk )
(7.2.1)
i=1
ˆ el valor del parámetro Definición 7.2.2 Para cada punto muestral x, sea θ(x) en que L(θ|x) toma su máximo valor como función de θ, con x fijo. Un estimador de máxima verosimilitud del parámetro θ basado en la muestra X es ˆ θ(X). Si la función de verosimilitud es diferenciable en θi , los posibles candidatos para estimadores de máxima verosimilitud son los valores de (θ1 , · · · , θk ) que resuelven: ∂ L(θ|x) = 0, i = 1, · · · , k ∂θi
(7.2.2)
Ejemplo 7.2.3 Suponga X1 , · · · , Xn independientes e identicamente distribuidas según N (θ, σ 2 = 1) entonces: L(θ|x) =
n Y
Pn 1 1 − 12 (xi −θ)2 − 12 (x −θ)2 i=1 i e = e 1/2 n/2 (2π) i=1 (2π)
P d Como dθ L(θ|x) = 0 se reduce a ni=1 (xi − θ) = 0 entonces θˆ = x es un posible candidato. Luego verificando que:
111
CAPÍTULO 7. ESTIMACIÓN PUNTUAL
d2 L(θ|x) <0 dθ2 θ=x
se concluye que θˆ = X es el estimador de máxima verosimilitud. En muchos casos es fácil trabajar con el logaritmo natural de L(θ|x) conocido como logaritmo de la verosimilitud. Lo anterior es posible debido a que la función log-verosimilitud es estrictamente decreciente sobre (0, ∞). Ejemplo 7.2.4 Sea X1 , · · · , Xn independientes e identicamente distribuidas según B(p): L(p|x) =
p Y
pxi (1 − p)1−xi = p
Pn i=1
xi
Pn
(1 − p)n−
i=1
xi
i=1
El logaritmo de la verosimilitud es: log L(p|x) =
n X
xi log p + (n −
n X
xi ) log(1 − p)
i=1
i=1
d Luego dp log L(p|x) = 0, entonces pˆ = x es el candidato a estimador de máxima verosimilitud. Luego, verificando que:
d2 log L(p|x) <0 2 dp p=x
se concluye que pˆ = X es el estimador de máxima verosimilitud. Teorema 7.2.1 (Propiedad de invariancia) Si θˆ es el estimador de máxima verosimilitud de θ, entonces para toda función τ (θ), su estimador de ˆ . máxima verosimilitud es τ (θ) Usando el teorema anterior, se puede establecer que en el problema 7.2.3 2 2 el estimador de máxima verosimilitud de q θ es X . Además, el estimador de q máxima verosimilitud de p(1 − p) es X(1 − X) en el problema 7.2.4. Ejemplo 7.2.5 Suponga X1 , · · · , Xn independientes e identicamente distribuidas según N (θ, σ 2 ), ambos parámetros desconocidos. Entonces: 1
L(θ, σ 2 |x) = (2πσ 2 )−n/2 e− 2σ2
Pn i=1
(xi −θ)2
112
CAPÍTULO 7. ESTIMACIÓN PUNTUAL n n 1 X n log L(θ, σ 2 |x) = − log(2π) − log σ 2 − 2 (xi − θ)2 2 2 2σ i=1
las derivadas parciales con respecto a θ y σ 2 son: n n 1 X ∂ n 1 X ∂ log L = 2 log L = − + (xi − θ) = 0 y (xi − θ)2 = 0 ∂θ σ i=1 ∂σ 2 2σ 2 2σ 4 i=1
ˆ 2 = n−1 ni=1 (xi − x¯)2 , pero ¿se trata de un máximo entonces θˆ = x y σ global? Para eso al menos una derivada parcial de segundo orden deber ser negativa: P
n ∂2 1 X n log L = (−1) = − <0 ∂θ2 σ 2 i=1 σ2 θ=x
y además el Jacobiano debe ser positivo: ∂ 2 log L ∂θ2 ∂ ∂θ∂σ 2 log L
∂ ∂θ∂σ 2 ∂ ∂(σ 2 )2
log L log L
Luego: =
− σ14
1 n2 = σ6 2
−n Pn σ 2 2 i=1 (xi − θ)
− σ14 ni=1 (xi − θ)2 P n − σ14 ni=1 (xi − θ)2 σ4 P
ˆ σ2 = σ θ = θ, ˆ2
ˆ σ 2 = σb 2 θ = θ,
1 n2 >0 σb 6 2 P Finalmente, θˆ = X y σ ˆ 2 = n−1 ni=1 (Xi − X)2 son los estimadores de máxima verosimilitud. =
7.3. 7.3.1.
Métodos de evaluación de estimadores Error cuadrático medio
Definición 7.3.1 El error cuadrático medio del estimador W de un parámetro θ se define por Eθ [(W − θ)2 ]. Se puede probar que:
113
CAPÍTULO 7. ESTIMACIÓN PUNTUAL
Eθ [(W − θ)2 ] = Varθ (W ) + Sesgo2θ [W ]
(7.3.1)
Definición 7.3.2 El sesgo del estimador puntual W del parámetro θ, es la diferencia entre su valor esperado y θ. Es decir, Sesgoθ [W ] = Eθ [W ] − θ. Un estimador cuyo sesgo es cero es llamado insesgado. Para estimadores insesgados se tiene Eθ [(W − θ)2 ] = Varθ (W ). Ejemplo 7.3.1 Suponga X1 , · · · , Xn independientes e identicamente distribuidas según N (µ, σ 2 ). Las estadísticas X y S 2 son ambos estimadores insesgados ya que: E[X] = µ y E[S 2 ] = σ 2 Lo anterior es cierto aún sin el supuesto de normalidad. El error cuadrático medio de estos estadísticos es:
E[(X − µ)2 ] = Var X =
σ2 n
2σ 4 n−1 2 un estimador alternativo para σ es el estimador de máxima verosimilitud P s2 , entonces: σ ˆ 2 = n1 ni=1 (xi − x¯)2 = (n−1) n
E[(S 2 − σ 2 )2 ] = Var S 2 =
n−1 2 n−1 2 S = σ n n es decir, σ ˆ 2 es un estadístico sesgado de σ 2 . La variancia de σ ˆ 2 puede calcularse como: E[ˆ σ2] = E
Var σ ˆ 2 = Var
n−1 2 n−1 S = n n
2
Var S 2 =
2(n − 1) 4 σ n2
Luego: ECM[ˆ σ 2 ] = E[(ˆ σ 2 − σ 2 )2 ]
= Var σ ˆ 2 + Sesgo2 [ˆ σ2] 2(n − 1) 4 n−1 2 σ + σ − σ2 2 n n 2n − 1 4 = σ n2
=
2
114
CAPÍTULO 7. ESTIMACIÓN PUNTUAL Finalmente: ECM[ˆ σ2] =
7.3.2.
2n − 1 4 2 σ < σ 4 = ECM[S 2 ] 2 n n−1
Mejores estimadores insesgados
Definición 7.3.3 Un estimador W ∗ es el mejor estimador insesgado de τ (θ) si satisface que Eθ [W ∗ ] = τ (θ), para todo θ y para cualquier otro estimador W con Eθ [W ] = τ (θ) se tiene Varθ (W ∗ ) ≤ Varθ (W ) para todo θ. W ∗ también es llamado estimador insesgado uniforme de mínima variancia de τ (θ). Ejemplo 7.3.2 Sean X1 , · · · , Xn independientes e identicamente distribuidas según P(λ) y sean X y S 2 . Recordar que para la función de probabilidad de Poisson, la media y la varianza son iguales a λ. Luego aplicando el teorema 5.2.2 se tiene: Eλ [X] = λ Eλ [S 2 ] = λ es decir que ambos son estimadores insesgados de λ. Para determinar cuál es mejor se comparan las aplicando nuevamente el teorema 5.2.2, varianzas, obteniendose que Varλ X ≤ Varλ (S 2 ). Aún considerando que X es mejor que S 2 , considere la siguiente clase de estimadores: Wa (X, S 2 ) = aX + (1 − a)S 2 para toda constante a, Eλ [Wa (X, S 2 )] = λ, es decir se tienen infinitos estimadores insesgados de λ. La pregunta es, aún siendo X mejor estimador que S 2 , ¿X es mejor que Wa (X, S 2 ) para todo a? Teorema 7.3.1 (Cramér-Rao) Sea X1 , · · · Xn una muestra con función de probabilidad o densidad f (x|θ) y sea W (X) = W (X1 , · · · , Xn ) algún estimador donde Eθ [W (X)] es una función diferenciable de θ. Suponga que la función de densidad conjunta f (x|θ) = f (x1 , · · · , xn |θ) satisface: d dθ
ˆ
ˆ ···
ˆ h(x)f (x|θ)dx1 · · · dxn =
ˆ ···
h(x)
∂ f (x|θ)dx1 · · · dxn ∂θ (7.3.2)
115
CAPÍTULO 7. ESTIMACIÓN PUNTUAL para cualquier función h(x) con Eθ [|h(X)|] < ∞. Entonces:
Varθ (W (X)) ≥ Eθ
2
d E [W (X)] dθ θ
∂ ∂θ
log f (X|θ)
(7.3.3)
2
Corolario 7.3.1 (Crámer-Rao caso independiente e identicamente distribuido) Sean X1 , · · · , Xn independientes e identicamente distribuidos con función de probabilidad o densidad f (x|θ) y sea W (X) = W (X1 , · · · , Xn ) cualquier estadística tal que Eθ [W (X)] es una función diferenciable de θ. Si Q la función de densidad conjunta f (x|θ) = f (xi |θ) satisface 7.3.2 :
Varθ (W (X)) ≥ nEθ
2
d E [W (X)] dθ θ
∂ ∂θ
2
log f (X|θ)
∂ La cantidad Eθ [ ∂θ log ni=1 f (Xi |θ))2 ] es llamada número de información o información de Fisher de la muestra.
Q
Lema 7.3.1 Si f (x|θ) satisface: " # " !# ˆ d ∂ ∂ ∂ Eθ log f (X|θ) = log f (x|θ)f (x|θ) dx dθ ∂θ ∂θ ∂θ lo cual es verdadero para una familia exponencial, entonces:
!2
∂ log f (X|θ) Eθ ∂θ
"
= −Eθ
∂2 log f (X|θ) ∂θ2
#
Ejemplo 7.3.3 Volviendo al ejercicio de la distribución de Poisson: 2 d E [W (X)] λ dλ h i ∂ nEλ ( ∂λ log f (X|λ))2
Varλ (W (X)) ≥
Si consideramos cualquier estimador insesgado:
Varλ (W (X)) ≥ ≥
2
d (λ) dλ
h
i
h
i
∂ nEλ ( ∂λ log f (X|λ))2 1 ∂ nEλ ( ∂λ log f (X|λ))2
116
CAPÍTULO 7. ESTIMACIÓN PUNTUAL
y como la distribución de Poisson pertenece a una familia exponencial: 1
Varλ (W (X)) ≥
h
∂2 ∂λ2
−nEλ 1 ≥ −n(− λ1 ) λ ≥ n
i
log f (X|λ)
Como Varλ X = λ/n, entonces X es el mejor estimador insesgado de λ. Es importante recordar que un supuesto clave en el teorema de CrámerRao es la posibilidad de derivar bajo el signo de la integral, algo que es en cierto modo restrictivo pero que se satisface si la densidad pertenece a una familia exponencial. Ejemplo 7.3.4 Sean X1 , · · · , Xn independientes e identicamente distribuidos según N (µ, σ 2 ). Considere el problema de estimar σ 2 cuando µ es conocido. La función de densidad cumple con las condiciones del teorema de Crámer-Rao y el lema 7.3.2, luego: 1 (x − µ)2 ∂2 log f = − ∂(σ 2 )2 2σ 4 σ6 "
#
"
#
(X − µ)2 1 ∂2 1 −E log f = −E − = 4 2 2 4 6 ∂(σ ) 2σ σ 2σ Para todo estimador insesgado W de σ 2 se tiene: Var(W |µ, σ 2 ) ≥
2σ 4 n
En el ejemplo 7.3.1 se vió que: 2σ 4 n−1 es decir que S 2 no alcanza la cota inferior de Crámer-Rao. La pregunta ahora es, ¿existe algún estimador insesgado de σ 2 cuya varianza alcance la cota mencionada? Var(S 2 |µ, σ 2 ) ≥
117
CAPÍTULO 7. ESTIMACIÓN PUNTUAL
Corolario 7.3.2 Sean X1 , · · · , Xn independientes e identicamente distribuidos como f (x|θ) tal que satisface las condiciones del teorema Crámer-Rao. Q Sea L(θ|x) = ni=1 f (xi |θ) denota la función de verosimilitud. Si W (X) = W (X1 , · · · , Xn ) es cualquier estimador insesgado de τ (θ), entonces W (X) alcanza la cota inferior real de Crámer-Rao sí y solo si: a(θ)[W (x) − τ (θ)] =
∂ log L(θ|x) ∂θ
(7.3.4)
para alguna función a(θ). Ejemplo 7.3.5 Retomando el ejemplo 7.3.4 se tiene: L(µ, σ 2 |x) =
2 1 − 12 Σn i=1 (xi −µ) 2σ e (2πσ 2 )n/2
y además: n n X (xi − µ)2 ∂ 2 log L(µ, σ |x) = − σ2 ∂σ 2 2σ 4 i=1 n
!
Luego: n (xi − µ)2 n X (xi − µ)2 − σ2 = 4 − σ2 a(σ ) n 2σ n i=1 i=1 2
n X
!
!
entonces:
n 2σ 4 P Es decir, el mejor estimador insesgado de σ 2 es (xi − µ)2 /n y puede ser calculado solo si µ es conocido, en caso contrario no puede alcanzarse la cota. a(σ 2 ) =
7.3.3.
Suficiencia e insesgabilidad
Recordar que si X y Y son dos variables aleatorias cualesquiera entonces, siempre que los esperados existan, se tiene: E[X] = E[E[X|Y ]] Var[X] = Var (E[X|Y ]) + E[Var(X/|Y )]
118
CAPÍTULO 7. ESTIMACIÓN PUNTUAL
Teorema 7.3.2 (Rao-Blackwell) Sea W un estimador insesgado de τ (θ) y sea T una estadística suficiente para θ. Se define φ(T ) = E[W |T ]. Entonces Eθ [φ(T )] = τ (θ) y Varθ (φ(T )) ≤ Varθ (W ) para todo θ, es decir, φ(T ) es el mejor estimador insesgado uniforme de τ (θ) . Teorema 7.3.3 Si W es el mejor estimador insesgado de τ (θ), entonces W es único. Teorema 7.3.4 Sea T una estadística suficiente y además completa para un parámetro θ y sea φ(T ) algún estimador basado sólo en T . Entonces φ(T ) es el único mejor estimador insesgado de su valor esperado. Ejemplo 7.3.6 Sean X1 , · · · , Xn variables aleatorias independientes e identicamente distribuidas según BI(k, θ). Se desea estimar la probabilidad de obtener un éxito, es decir: τ (θ) = Pr(X = 1) = kθ(1 − θ)k−1 θ
Σni=1 Xi
∼ BI(kn, θ) es una estadística suficiente y completa. El Además siguiente estimador: 1
h(X1 ) =
si X1 = 1 0 de otro modo
satisface Eθ [h(X1 )] = kθ(1 − θ)k−1 por lo que se trata de un estimador insesgado de τ (θ). Luego: φ
n X
!
"
Xi = E h(X1 )|
i=1
n X
#
Xi
i=1
es el mejor estimador insesgado de τ (θ). Suponga que se observa t, entonces: "
φ(t) = E h(X1 )|
n X i=1
#
Xi = t = Pr(X1 = 1| θ
n X i=1
aplicando la definición de probabilidad condicional:
Xi = t)
Pn
i=1
Xi =
CAPÍTULO 7. ESTIMACIÓN PUNTUAL
119
Prθ (X1 = 1, ni=1 Xi = t) φ(t) = P Prθ ( ni=1 Xi = t) P Prθ (X1 = 1, ni=2 Xi = t − 1) = P Prθ ( ni=1 Xi = t) P Prθ (X1 = 1) Prθ ( ni=2 Xi = t − 1) = P Prθ ( ni=1 Xi = t) P
Pn
Además Xi ∼ BI(k, θ) y
i=2
h
φ(t) =
Xi ∼ BI(k(n − 1), θ). Entonces:
kθ(1 − θ)k−1
= k
i
k(n−1) t−1 kn t θ (1 t
θt−1 (1 − θ)k(n−1)−(t−1)
− θ)kn−t
k(n−1) t−1 kn t
es el mejor estimador insesgado de τ (θ) = Pr(X = 1).
7.3.4.
Consistencia
Definición 7.3.4 Una secuencia de estimadores Wn = Wn (X1 , · · · , Xn ) es una secuencia consistente de estimadores del parámetro θ si, para todo > 0 y todo θ ∈ Θ: l´ım Pr(| Wn − θ |< ) = 1
n→∞ θ
(7.3.5)
Ejemplo 7.3.7 Sean X1 , · · · , Xn independientes e identicamente distribuidas según N (θ, 1) y considere la secuencia: Xn =
n 1X Xi n i=1
120
CAPÍTULO 7. ESTIMACIÓN PUNTUAL recodando que X n ∼ N (θ, n1 ) se tiene: x ¯nˆ=θ+
Pr | X n − θ |< θ
=
( x ¯n =θ− ˆy=
=
n 1 − n (¯xn −θ)2 )2 e 2 d¯ xn 2π
n 2π
1 2
n 2
e− 2 y dy (y = xn − θ)
y=− √ t= ˆ n
= √ t=− n
1 2π
1
2
√ 1 e− 2 t dt (t = y n)
√ √ = Pr(− n < Z < n) → 1 θ
cuando n → ∞. Luego X n es una secuencia consistente de estimadores de θ. Teorema 7.3.5 Si Wn es una secuencia de estimadores del parámetro θ que satisfacen a. l´ımn→∞ Varθ [Wn ] = 0. b. l´ımn→∞ Sesgoθ [Wn ] = 0 . entonces Wn es una secuencia consistente de estimadores de θ. Ejemplo 7.3.8 Como: 1 n satisfacen las condiciones del teorema 7.3.5, luego la secuencia X n es consistente. Además, del teorema 5.2.2, X n proveniene de un muestreo independiente e identicamente distribuido de cualquier población con media θ por lo que es consistente para dicho parámetro siempre que la varianza sea finita.
Eθ [X n ] = θ y Varθ X n =
Teorema 7.3.6 Si Wn una secuencia consistente de estimadores del parámetro θ. Sean a1 , a2 , · · · y b1 , b2 , · · · secuencias de constantes que satisfacen: a. l´ımn→∞ an = 1.
121
CAPÍTULO 7. ESTIMACIÓN PUNTUAL b. l´ımn→∞ bn = 0 .
entonces, Un = an Wn + bn es una secuencia consistente de estimadores de θ. Teorema 7.3.7 (Consistencia de los estimadores de máxima verosimilitud) Sean X1 , · · · , Xn variables aleatorias independientes e identicamente Q distribuidas de f (x|θ), y sea L(θ|x) = ni=1 f (xi |θ) la función de verosimilitud. Sea θˆ el estimador de máxima verosimilitud de θ y τ (θ) una función continua de θ. Bajo ciertas condiciones de reguralidad sobre f (x|θ), y por consiguiente L(θ|x), para todo > 0 y θ ∈ Θ,
ˆ − τ (θ) |≥ = 0 l´ım Pr | τ (θ)
n→∞ θ
ˆ es un estimador consistente de τ (θ). es decir, τ (θ)
7.4.
Otras consideraciones
7.4.1.
Variancia asintótica de los estimadores de máxima verosimilitud
Definición 7.4.1 Una secuencia de estimadores Wn es asintóticamente eficiente para un parámetro τ (θ) si: l´ım
n→∞
Varθ (Wn ) [τ 0 (θ)]2 ∂ nEθ [( ∂θ log f (x|θ))2 ]
=1
esto es, Wn alcanza la cota inferior de Crámer-Rao conforme n → ∞.
7.4.2.
Aproximación por series de Taylor
Definición 7.4.2 Si una función g(x) tiene derivadas de orden r, es decir que dr existe g (r) (x) = dx r g(x), entonces para cualquier constante a, la polinomial de Taylor de orden r alrededor de a es: Tr (x) =
r X g (i) (a) i=0
i!
(x − a)i
122
CAPÍTULO 7. ESTIMACIÓN PUNTUAL Teorema 7.4.1 (Taylor) Si g (r) (a) = l´ım
x→a
dr g(x) |x=a dxr
g(x) − Tr (x) =0 (x − a)r
existe, entonces:
Capítulo 8 Prueba de hipótesis 8.1.
Introducción
Definición 8.1.1 Una hipótesis es una afirmación acerca de un parámetro. Definición 8.1.2 Las dos hipótesis complementarias en un problema de prueba de hipótesis son llamadas hipótesis nula e hipótesis alternativa y se denotan por H0 y H1 respectivamente. El objetivo de una prueba de hipótesis es decidir, en base a una muestra extraída a partir de la población, cuál de las dos hipótesis complementarias es verdadera. Definición 8.1.3 Una prueba de hipótesis es una regla que especifíca: a. Para que valores muestrales la decisión es no rechazar H0 y suponer que es verdadera. b. Para que valores muestrales la decisión es rechazar H0 y aceptar H1 como verdadera. El subconjunto del espacio muestral para el que se rechaza H0 se denomina región de rechazo o región critica. El complemento de la región de rechazo es llamado la región de no rechazo.
123
124
CAPÍTULO 8. PRUEBA DE HIPÓTESIS
8.2. 8.2.1.
Métodos para encontrar pruebas Prueba de razón de verosimilitud
Si X1 , · · · , Xn es una muestra aleatoria de una población con función de probabilidad o función de densidad f (x|θ) entonces la función de verosimilitud es: L(θ|x1 , · · · , xn ) = L(θ|x) =
n Y
f (xi |θ)
i=1
Definición 8.2.1 La prueba estadística de razón de verosimilitud para probar H0 : θ ∈ Θ0 versus H1 : θ ∈ Θc0 es: supΘ0 L(θ|x) supΘ L(θ|x) donde Θ denota el espacio paramétrico completo. Una prueba de razón de verosimilitud es aquella con región de rechazo de la forma {x : λ(x) ≤ c}, donde 0 ≤ c ≤ 1. λ(x) =
Suponga que θˆ es el estimador de máxima verosimilitud de θ sin restricción. Considerar además que θˆ0 es el estimador de máxima verosimilitud de θ asumiendo que el espacio paramétrico restringido es Θ0 , es decir θˆ0 es el valor de θ ∈ Θ0 que maximiza L(θ|x). Entonces, la prueba de razón de verosimilitud es: λ(x) =
L(θˆ0 |x) ˆ L(θ|x)
Ejemplo 8.2.1 Sea X1 , · · · , Xn una muestra aleatoria de una población N (θ, 1). Considerar la hipótesis H0 : θ = θ0 versus H1 : θ 6= θ0 donde θ0 es una constante específicada a priori por el experimentador. Como existe un solo valor de θ especificado por H0 el numerador de λ(x) es L(θ0 |x). El estimador de máxima verosimilitud no restringido de θ es x¯, entonces la prueba de razon de verosimilitud es: (2π)−n/2 exp {−Σni=1 (xi − θ0 )2 /2} (2π)−n/2 exp {−Σni=1 (xi − x¯)2 /2} ( !) n n X X 1 2 2 = exp − (xi − θ0 ) + (xi − x¯) 2 i=1 i=1
λ(x) =
125
CAPÍTULO 8. PRUEBA DE HIPÓTESIS además: n X
2
(xi − θ0 ) =
i=1
n X
(xi − x¯)2 + n(¯ x − θ0 )2
i=1
Luego, n
o
λ(x) = exp −n(¯ x − θ0 )2 /2
La región de rechazo {x : λ(x) ≤ c} se puede escribir como:
8.3.
x :| x¯ − θ0 |≥
q
−2 log c/n
Métodos para evaluar pruebas
8.3.1.
Probabilidades de error y potencia de prueba
Una prueba de hipótesis para H0 : θ ∈ Θ0 vs H1 : θ ∈ Θc0 puede conducir a dos tipos de error.
Hipótesis verdadera H0 H1
Decisión No se rechaza H0 Se rechaza H0 Decisión correcta Error tipo I Error tipo II Decisión correcta
Suponga que R denota la región de rechazo de una prueba, entonces: Pr(X ∈ R) = θ
Pr (Cometer
error tipo I) si θ ∈ Θ0 1 − Pr (Cometer error tipo II) si θ ∈ Θc 0
Definición 8.3.1 La función potencia de una prueba de hipótesis con región de rechazo R es la función de θ definida por β(θ) = Prθ (X ∈ R). Ejemplo 8.3.1 Sea X1 , · · · , Xn una muestra aleatoria de una población N (µ, σ 2 ), σ 2 conocido. Una prueba de razón de√verosimilitud para H0 : θ ≤ θ0 versus H1 : θ > θ0 rechaza H0 si (¯ x − θ0 )/(σ/ n) > c . La constante c puede
126
CAPÍTULO 8. PRUEBA DE HIPÓTESIS ser cualquier número positivo. La función potencia para esta prueba es: !
X − θ0 √ >c β (θ) = Pr θ σ/ n ! X −θ θ0 − θ √ >c+ √ = Pr θ σ/ n σ/ n ! θ0 − θ = Pr Z > c + √ θ σ/ n Conforme θ se incrementa desde −∞ a ∞ es fácil ver que esta probabilidad se incrementa de cero a uno, es decir que β (θ) es una función creciente de θ con: l´ım β (θ) = 0, l´ım β (θ) = 1 y β (θ0 ) = α si Pr (Z > c) = α
θ→−∞
θ→∞
donde α es la probabilidad de cometer error tipo I o nivel de significación de la prueba. El gráfico de β (θ) para c = 1,28 se muestra a continuación.
8.4. 8.4.1.
Pruebas óptimas para hipótesis compuestas Familias exponenciales
Teorema 8.4.1 Sea X1 , · · · , Xn una muestra aleatoria de una función de probabilidad o densidad de la forma f (x|θ) = h(x)c(θ) exp {w(θ)t(x)}. Si P T (x) = ni=1 t (xi ) y se desea probar H0 : θ ≤ θ0 versus H1 : θ > θ0 . a. Si w (θ) es monótona creciente entonces: ϕ (x) =
1 0
si T (x) ≥ c otro modo
es una prueba uniformemente más poderosa. b. Si w (θ) es monótona decreciente entonces: ϕ (x) =
1
si T (x) ≤ c 0 otro modo
es una prueba uniformemente más poderosa.
CAPÍTULO 8. PRUEBA DE HIPÓTESIS
127
Teorema 8.4.2 Sea X1 , · · · , Xn una muestra aleatoria de una función de probabilidad o densidad de la forma f (x|θ) = h(x)c(θ) exp {w(θ)t(x)}. Si P T (x) = ni=1 t (xi ) y se desea probar H0 : θ ≥ θ0 versus H1 : θ < θ0 . a. Si w (θ) es monótona creciente entonces: ϕ (x) =
1 0
si T (x) ≤ c otro modo
es una prueba uniformemente más poderosa. b. Si w (θ) es monótona decreciente entonces: 1
ϕ (x) =
si T (x) ≥ c 0 otro modo
es una prueba uniformemente más poderosa. Ejemplo 8.4.1 Sea X1 , · · · , X5 una muestra aleatoria a partir de la distribución N (2, θ). Hallar la prueba uniformemente más poderosa de tamaño α = 0,05 para probar las hipótesis H0 : θ ≤ 0,8 versus H1 : θ > 0,8.
8.4.2.
Familias con la propiedad de razón de verosimilitud monótona
Definición 8.4.1 Una familia de densidades tiene la propiedad de razón de verosimilitud monótona si para todo θ1 < θ2 : Qn
f (xi |θ1 ) i=1 f (xi |θ2 )
ψ = Qni=1
es una función creciente o decreciente en T (x). Teorema 8.4.3 Sea X1 , · · · , Xn una muestra aleatoria de una función de densidad que pertenece a una familia con la propiedad de razón de verosimilitud monótona en T (x) y se desea probar H0 : θ ≤ θ0 versus H1 : θ > θ0 . a. Si la razón de verosimilitud monótona es creciente en T (x) entonces: ϕ (x) =
1
si T (x) ≤ c 0 otro modo
es una prueba uniformemente más poderosa.
CAPÍTULO 8. PRUEBA DE HIPÓTESIS
128
b. Si la razón de verosimilitud monótona es decreciente en T (x) entonces: ϕ (x) =
1
si T (x) ≥ c 0 otro modo
es una prueba uniformemente más poderosa. Teorema 8.4.4 Sea X1 , · · · , Xn una muestra aleatoria de una función de densidad que pertenece a una familia con la propiedad de razón de verosimilitud monótona en T (x) y se desea probar H0 : θ ≥ θ0 versus H1 : θ < θ0 . a. Si la razón de verosimilitud monótona es creciente en T (x) entonces: ϕ (x) =
1
si T (x) ≥ c 0 otro modo
es una prueba uniformemente más poderosa. b. Si la razón de verosimilitud monótona es decreciente en T (x) entonces: ϕ (x) =
1
si T (x) ≤ c 0 otro modo
es una prueba uniformemente más poderosa. Ejemplo 8.4.2 Sea X1 , · · · , Xn una muestra aleatoria a partir de la distribución f (x|θ) = 2x/θ2 , 0 < x < θ. Hallar la prueba uniformemente más poderosa de tamaño α para probar las hipótesis H0 : θ ≥ θ0 versus H1 : θ < θ0 .
8.4.3.
Distribución asintótica de la prueba de razón de verosimilitud
Teorema 8.4.5 Sea X1 , · · · , Xn una muestra aleatoria de una función de probabilidad o densidad f (x|θ). Bajo ciertas condiciones de regularidad sobre el modelo f (x|θ) y si θ ∈ Θ0 entonces la distribución del estadístico −2 log λ(X) converge a la distribución χ2 conforme n → ∞. Los grados de libertad de la distribución límite se obtienen como la diferencia entre el número de parámetros libres especificados por θ ∈ Θ0 y el número de parámetros libres especificados por θ ∈ Θ.
CAPÍTULO 8. PRUEBA DE HIPÓTESIS
129
Ejemplo 8.4.3 Sea X1 , · · · , Xn una muestra aleatoria a partir de la distribución N (θ, 1). Use la prueba de razón de verosimilitud monótona de tamaño α = 0,05 para probar las hipótesis H0 : θ = 3 versus H1 : θ 6= 3.
Capítulo 9 Estimación por intervalos 9.1.
Introducción
Definición 9.1.1 Una estimación por intervalo de un parámetro θ es algún par de funciones de la muestra, L(x1 , · · · , xn ) y U (x1 , · · · , xn ), que satisfacen L(x) ≤ U (x) para todo x ∈ X . El intervalo aleatorio [L(X), U (X)] es llamado un estimador por intervalo. Ejemplo 9.1.1 Para una muestra X1 , · · · , X4 de la distribución N(µ, 1) un estimador por intervalo de µ es [X − 1, X + 1]. Definición 9.1.2 Sea [L(X), U (X)] un estimador por intervalo de θ, la probabilidad de cobertura de [L(X), U (X)] es la probabilidad que el intervalo aleatorio cubra al paramétro θ, es decir, Prθ (θ ∈ [L(X), U (X)]) . Ejemplo 9.1.2 En el ejemplo anterior la probabilidad que µ sea cubierto por [X − 1, X + 1] es 0,9544. Definición 9.1.3 Sea [L(X), U (X)] un estimador por intervalo para θ, el coeficiente de confianza es el ínfimo de las probabilidades de cobertura, es decir ´ınf θ Prθ (θ ∈ [L(X), U (X)]). Los estimadores de intervalo junto con una medida de confianza, usualmente un coeficiente de confianza, son conocidos como intervalos de confianza.
130
131
CAPÍTULO 9. ESTIMACIÓN POR INTERVALOS
Ejemplo 9.1.3 Sea X1 , · · · , Xn una muestra aleatoria de una población unifome(0, θ) y sea X(n) el máximo. Se está interesado en un estadístico por intervalo de θ. Si consideramos los siguientes candidatos: [aX(n) , bX(n) ]
y
[X(n) + c, X(n) + d]
1≤a
0≤c
donde a, b, c y d son constantes. Notar que θ es necesariamente mayor que X(n) . Para el primer intervalo se tiene:
Pr θ ∈ [aX(n) , bX(n) ]
θ
= Pr aX(n) ≤ θ ≤ bX(n)
θ
X(n) 1 1 ≤ ≤ = Pr b θ a 1 1 ≤T ≤ = Pr b a n n 1 1 − = a b
!
y no depende del parámetro. Para el segundo intervalo:
Pr θ ∈ [X(n) + c, X(n) + d] θ
= Pr X(n) + c ≤ θ ≤ X(n) + d
θ
d c = Pr 1 − ≤ T ≤ 1 − θ θ !n n c d = 1− − 1− θ θ
!
y depende del parámetro.
9.2. 9.2.1.
Métodos para encontrar estimadores de intervalos Invirtiendo una prueba estadística
Ejemplo 9.2.1 Sean X1 , · · · , Xn independientes e identicamente distribuidas según N(µ, σ 2 ). Considere las hipótesis H0 : µ = µ0 versus H1 : µ√6= µ0 . Para un nivel α, se tiene la región de rechazo {x :|√x¯ − µ0 |> z1−α/2 σ/ n}. Notar que H0 no se rechaza si | x¯ − µ0 |≤ z1−α/2 σ/ n, o equivalentemente:
132
CAPÍTULO 9. ESTIMACIÓN POR INTERVALOS σ σ x¯ − z1−α/2 √ ≤ µ0 ≤ x¯ + z1−α/2 √ n n
Como la prueba tiene tamaño α, esto significa que Pr(H0 se rechaza /µ = µ0 ) = α, o visto de otra forma Pr(No rechazar H0 /µ = µ0 ) = 1 − α. Luego:
!
σ σ Pr X − z1−α/2 √ ≤ µ0 ≤ X + z1−α/2 √ µ = µ0 = 1 − α n n Pero lo anterior es verdadero para todo µ0 , entonces: σ σ Pr X − z1−α/2 √ ≤ µ ≤ X + zα/2 √ µ n n
!
=1−α
Teorema 9.2.1 Para todo θ0 ∈ Θ, sea A(θ0 ) la región de no rechazo para una prueba con nivel α de H0 : θ = θ0 . Para cada x ∈ X se define el conjunto C(x) en el espacio paramétrico por: C(x) = {θ0 : x ∈ A(θ0 )}
(9.2.1)
Entonces el conjunto aleatorio C(X) es un conjunto de confianza 1 − α. Inversamente, sea C(X) un conjunto de confianza 1 − α. Para todo θ0 ∈ Θ, se define: A(θ0 ) = {x : θ0 ∈ C(x)} Entonces A(θ0 ) es la región de no rechazo de una prueba a un nivel α de H0 : θ = θ0 . Ejemplo 9.2.2 Suponga que se desea un intervalo de confianza para la media λ de una población exponencial usando la prueba H0 : λ = λ0 versus H1 : λ 6= λ0 a un nivel α:
λ(x) =
1 − e λn 0
supλ
P
P
xi /λ0
1 − e λn
P
xi /λ
=
1 − xi /λ0 e λn 0 P 1 n e−n ( xi /n)
=
Σxi nλ0
!n
en e−
Para λ0 fijo la región de no rechazo es: (
A(λ0 ) = x :
Σxi nλ0
!n −
e
P
) xi /λ0
≥c
P
xi /λ0
133
CAPÍTULO 9. ESTIMACIÓN POR INTERVALOS
donde c es la constante que satisface Prλ0 (x ∈ A(λ0 )) = 1 − α. Invirtiendo la región de no rechazo se obtiene el conjunto de confianza 1 − α: (
C(x) = λ :
9.2.2.
Σxi λ
!n
e
−
P
) xi /λ
≥c
Cantidades pivotales
Definición 9.2.1 Una variable aleatoria Q(X, θ) = Q(X1 , · · · , Xn , θ) es una cantidad pivotal, o pivote, si la distribución de Q(X, θ) es independiente de todo parámetro. Es decir, si X ∼ F (x/θ) entonces Q(X, θ) tiene la misma distribución para todos los valores de θ. Ejemplo 9.2.3 En los casos de las familias de locación y escala existen muchas cantidades pivotales Forma f (x − µ) 1 x f σ σ 1 f σ
x−µ σ
Tipo Locación Escala
Cantidad pivotal X −µ X σ X−µ S
Locación-escala
Ejemplo 9.2.4 Suponga que X1 , · · · , Xn son independientes e identicamente P distribuidos según la exponencial(λ). Entonces T = Xi es una estadística 2 es un suficiente para λ y T ∼ gamma(n, λ), luego Q(T, λ) = 2T /λ ∼ X2n pivote. Recordar además que la distribución gamma es una familia de escala. Ejemplo 9.2.5 En el ejemplo 9.2.2 se obtuvo un intervalo de confianza para la media invirtiendo la prueba de nivel α, H0 : λ = λ0 versus H1 : λ 6= λ0 . Si se tiene una muestra aleatoria X1 , · · · , Xn y se define T = ΣXi y Q(T, λ) = 2T /λ ∼ χ22n , pueden escogerse las constantes a y b que satisfacen Pr(a ≤ χ22n ≤ b) = 1 − α, entonces: 2t Pr(a ≤ Q(T, λ) ≤ b) = Pr a ≤ ≤b λ 2t 2t = Pr ≤λ≤ b a = 1−α
CAPÍTULO 9. ESTIMACIÓN POR INTERVALOS
134
Ejemplo 9.2.6 Si X1 , · · · , Xn son independientes e identicamente distribuidas X−µ √ es un pivote cuando σ 2 es conocido y puede según N(µ, σ 2 ), entonces σ/ n utilizarse para calcular un intervalo de confianza para µ: !
X −µ √ ≤ a = Pr(−a ≤ Z ≤ a) Pr −a ≤ σ/ n entonces: (
9.2.3.
σ σ µ : x − a√ ≤ µ ≤ x + a√ n n
)
Garantizado un invervalo
Teorema 9.2.2 Sea T una estadística con función de distribución acumulada FT (t/θ) y 0 < α < 1 una constante fija. Suponga que para cada t ∈ T , las funciones θL (t) y θU (t) se definen como: a. Si FT (t/θ) es una función decreciente de θ para cada t, se define θL (t) y θU (t) por: FT (t/θU (t)) = α/2, FT (t/θL (t)) = 1 − α/2 b. Si FT (t/θ) es una función creciente de θ para cada t, se define θL (t) y θU (t) por: FT (t/θU (t)) = 1 − α/2, FT (t/θL (t)) = α/2 Entonces, el intervalo aleatorio [θL (T ), θU (T )] es un intervalo de confianza 1 − α para θ. Ejemplo 9.2.7 Si X1 , · · · , Xn son independientes con función de densidad f (xi /θ) = e−(x−θ) I[θ,∞) (x), entonces T = X(1) es una estadística suficiente para θ con función de densidad: fT (t/θ) = ne−n(t−θ) I[θ,∞) (t) cuya función de distribución acumulada: FT (t/θ) = 1 − e−n(t−θ)
135
CAPÍTULO 9. ESTIMACIÓN POR INTERVALOS
es una función decreciente de θ. Entonces, fijado α y definidos θL (t) y θU (t) que satisfacen las ecuaciones: FT (t/θU (t)) = 1−e−n(t−θU (t)) =
α , 2
FT (t/θL (t)) = 1−e−n(t−θL (t)) = 1−α/2
cuyas soluciones son: α 1 log 1 − , n 2
θU (t) = t +
α 1 log n 2
θL (t) = t +
Luego: 1 1 α α C(X(1) ) = θ : X(1) + log ≤ θ ≤ X(1) + log 1 − n 2 n 2
es un intervalo de confianza (1 − α) para θ. Teorema 9.2.3 Sea T una estadística discreta con función de probabilidad acumulada FT (t/θ) = Pr(T ≤ t/θ) y 0 < α < 1 un valor fijo. Suponga que para todo t ∈ T , θL (t) y θU (t) pueden definirse como sigue: a. Si FT (t/θ) es una función decreciente de θ para cada t, se define θL (t) y θU (t) por: Pr(T ≤ t/θU (t)) = α/2, Pr(T ≥ t/θL (t)) = α/2 b. Si FT (t/θ) es una función creciente de θ para cada t, se define θL (t) y θU (t) por: Pr(T ≥ t/θU (t)) = α/2, Pr(T ≤ t/θL (t)) = α/2 Entonces, el intervalo aleatorio [θL (T ), θU (T )] es un intervalo de confianza 1 − α para θ. Ejemplo 9.2.8 Sea X1 , · · · , Xn una muestra aleatoria de una población P Poisson con parámetro λ y se define la estadística suficiente Y = Xi cuya distribución es Poisson(nλ). Aplicando el método anterior si se observa Y = y0 esto conduce a resolver las ecuaciones: y0 X k=0
e−nλ
α (nλ)k = k! 2
y
∞ X k=y0
e−nλ
(nλ)k α = k! 2
136
CAPÍTULO 9. ESTIMACIÓN POR INTERVALOS
Recordando la identidad 3.2.7 entre las familias Poisson y gamma se tiene: y0 α X (nλ)k = e−nλ = Pr(Y ≤ y0 /λ) = Pr(χ22(y0 +1) > 2nλ) 2 k=0 k!
cuya solución es λ = ecuación se obtiene:
1 2 χ 2n 2(y0 +1),α/2
. De manera similar para la segunda
∞ X (nλ)k α = e−nλ = Pr(Y ≤ y0 /λ) = Pr(χ22(y0 +1) < 2nλ) 2 k=y0 k!
Finalmente, el intervalo de confianza 1 − α para λ es: 1 2 1 2 λ: χ2y0 ,1−α/2 ≤ λ ≤ χ 2n 2n 2(y0 +1),α/2 Si y0 = 0, se define χ20,1−α/2 = 0.
9.3. 9.3.1.
Métodos de evaluación de estimadores por intervalos Tamaño y probabilidad de cobertura
Ejemplo 9.3.1 Sean X1 , · · · , Xn independientes y distribuidas según N(µ, σ 2 ) donde σ 2 es conocida. Usando el método de la sección 9.2.2 y además: Z=
X −µ √ σ/ n
es un pivote con distribución normal estándar. Considerando a y b que satisfacen: Pr(a ≤ Z ≤ b) = 1 − α permite obtener el intervalo de confianza 1 − α (
σ σ µ : x − b√ ≤ µ ≤ x − a√ n n
)
¿Qué elección a y b es la mejor? ¿que elección de a y b minimiza la longitud del intervalo de confianza manteniendo la cobertura 1 − α?
CAPÍTULO 9. ESTIMACIÓN POR INTERVALOS
137
Teorema 9.3.1 Sea f (x) una función de densidad unimodal. Si el intervalo [a, b] satisface: a.
´b a
f (x)dx = 1 − α.
b. f (a) = f (b) > 0, y c. a ≤ x∗ ≤ b, donde x∗ es una moda de f (x). entonces [a, b] es el más pequeño entre todos los intervalos con cobertura 1 − α. Ejemplo 9.3.2 Para intervalos de la distribución normal basados en la canX−µ √ se sabe que el intervalo de confianza 1 − α de longitud tidad pivotal S/ n más pequeña es de la forma: s s x¯ − b √ ≤ µ ≤ x¯ − a √ n n La longitud del intervalo es una función de s: s Longitud(s) = (b − a) √ n Aplicando el teorema 9.3.1 se llega a que a = −tn−1;α/2 y b = tn−1;α/2 permite obtener el intervalo óptimo.
9.4. 9.4.1.
Otras consideraciones Intervalos aproximados por máxima verosimilitud
Si X1 , · · · , Xn son independientes distribuidas según f (x/θ) y θˆ es el estimador de máxima verosimilitud para θ, entonces de 7.4.1 la varianza de ˆ puede ser aproximada por: una función h(θ) d ˆ Var(h( θ)/θ)
[h0 (θ)]2 |θ=θˆ ≈ ∂2 − ∂θ2 log L(θ/x) |θ=θˆ
Luego, para un valor de θ arbitrario pero fijo y bajo condiciones generales de regularidad se tiene:
138
CAPÍTULO 9. ESTIMACIÓN POR INTERVALOS
ˆ − h(θ) h(θ) −→ N(0, 1) d ˆ Var(h( θ)/θ)
q
lo cual permite obtener el intervalo aproximado de confianza: q
q
d d ˆ − zα/2 Var(h( ˆ ˆ + zα/2 Var(h( ˆ h(θ) θ)/θ) ≤ h(θ) < h(θ) θ)/θ)
Ejemplo 9.4.1 Se tiene un muestra aleatoria X1 , · · · Xn de una población Bernoulli(p). Si se desea estimar la razón de odds p/(1 − p) puede utilizarse pˆ/(1 − pˆ) donde pˆ es el estimador de máxima verosimilitud. Luego:
!
d Var
0
2
[h (θ)] |θ=θˆ pˆ ≈ ∂2 = 1 − pˆ − ∂θ2 log L(θ/x) |θ=θˆ
h
i2
1 (1−ˆ p)2 n pˆ(1−ˆ p)
=
pˆ n(1 − pˆ)3
Finalmente, se puede construir el intervalo de confianza aproximado: v u
!
v u
u u p pˆ pˆ pˆ pˆ d d − zα/2 tVar ≤ ≤ + zα/2 tVar 1 − pˆ 1 − pˆ 1−p 1 − pˆ 1 − pˆ
9.4.2.
!
Otros intervalos aproximados
Si se tienen las estadísticas W ,V y un paramétro θ tal que cuando n → ∞, W −θ → N(0, 1) V entonces se puede construir un intervalo de confianza aproximado para θ por: W − zα/2 V ≤ θ ≤ W + zα/2 V