Repaso de Probabilidad y Estadística Miguel Ataurima Arellano
[email protected] [email protected]
14 de abril de 2016
Índice 1. Densidades Densidades y Distribuciones Distribuciones
2
2. Momento Momentoss poblacionales poblacionales
2
3. Esperanz Esperanza a
2
4. Momento Momentoss muestrale muestraless
3
5. Sesgo Sesgo y E…cienci E…ciencia a
3
6. Distribucio Distribuciones nes Conjuntas Conjuntas
3
7. Distribucio Distribuciones nes Condicionales Condicionales
4
8. Ley de Esperanzas Esperanzas Iteradas Iteradas
4
9. Independencia Independencia
5
10.Covarianza
5
11.Correlación
5
12.Relación 12.Relación entre entre Correlación Correlación e Independencia Independencia
5
13.Ortogonalidad
6
14.Moment 14.Momentos os poblacionales poblacionales de Sumas
6
15.La Distribució Distribución n Normal Normal
6
16.Skew y Kurtosis
7
17.Otras Distribuciones Univariadas
7
18.Función de verosimilitud
7
19.Estimación por Máxima Verosimilitud
8
20.Probabilidad Límite
9
21.Ley de los Grandes Números
9
22.Convergencia en Media Cuadrática
9
1
1. Densidades y Distribuciones Una variable estocástica o aleatoria X se dice que es de valor discreto si ésta puede tomar sólo uno de los K valores particulares; llámese x1 ; x2 ; : : : ; xK . Su distribución de probabilidad es un conjunto de numeros que otorgan la probabilidad de cada resultado. Pr [X = x k ]
probabilidad que X tome el valor x k ,
k = 1; : : : ; K
Las probabilidades suman uno K
X
Pr [X = x k ] = 1
k=1
Asumiendo que los posibles resultados están ordenados x1 < x2 < tome un valor menor o igual al valor xj viene dado por
< xK , la probabilidad que X
j
X
Pr [X
xj ] =
Pr [X = x k ]
k=1
Si X es igual a una constante c con probabilidad 1, entonces X no es estocástico . La ley de probabilidad para una variable aleatoria continua X puede ser a menudo descrita por la función de densidad f X (x) con
Z
1
f X (x) dx = 1
(1)
1
El subíndice X en f X (x) indica que ésta es la densidad de la variable aleatoria X ; el argumento x de f X (x) indexa la integración en (1). La función de distribución acumulada de X (denotada por F X (a)) otorga la probabilidad que X tome un valor menor o igual que a: F X (a)
Pr [X
Z
a
=
a]
(2)
f X (x) dx
1
2. Momentos poblacionales La media poblacional de una variable aleatoria de valor contínuo X esta dada por
Z
1
=
x f X (x) dx
1
siempre que esta integral exista. (En las fórmulas que siguen, asumimos por simplicidad de la exposición que las funciones de densidad son continuas y que todas las integrales indicadas existen). La varianza poblacional es
Z
1
var [X ] =
(x
1
)2 f X (x) dx
La raíz cuadrada de la varianza es llamda la desviación estándar poblacional. En general el momento r ésimo poblacional esta dado por
Z
1
xr f X (x) dx
1
La media poblacional puede ser descrita como el primer momento poblacional.
3.
Esperanza
La media poblacional es también llamada la esperanza de X , denotado por E [X ] o a menudo por simplemente E X . En general, la esperanza de una función g (X ) está dada por
Z
1
E [g (X )] =
g (x) f X (x) dx
1
2
(3)
donde f X (x) dx es la densidad de X . Por ejemplo, el momento r ésimo poblacional de X es la esperanza de X r . Considere la variable aleatoria a + bX con a y b constantes. La esperanza es
Z Z 1
E [a + bX ]
=
(a + bx) f X (x) dx
1 1
Z
1
= a
f X (x) dx + b
1
1
= a + bE [X ]
x f X (x) dx
La varianza de a + bX es
Z
[(a + bx)
2
(x
1
var [a + bX ]
=
1
= b
Z
1
)2 f X (x) dx
1
2
= b Otro resultado importante es
(a + b)]2 f X (x) dx
var [X ]
E X 2 = var [X ] + (E [x])2
4. Momentos muestrales
Un momento muestral es una estimación particular de un momento poblacional basado en un conjunto de datos observados, digamos, x1 ; x2 ; : : : ; xT . El primer momento muestral es la media muestral
f
g
T
x
1 xt T t=1
X
el cual es un estimador natural de la media poblacional . La varianza muestral, T
s
2
1 (xt T t=1
X
x)2
da un estimado de la varianza poblacional 2 . De forma mas general, el momento r ésimo muestral está dado por T 1 xr T t=1 t
donde xrt denota x t elevado a la potencia r .
X
5. Sesgo y E…ciencia ^ un estimador muestral de un vector de parámetros poblacionales . Por ejemplo, ^ puede ser Sea ^] = . la media x y la media poblacional . Ele stimador se dice que es insesgado si E [ ^ es un estimador insesgado de . El estimador ^ se dice que es e…ciente si este es el Suponga que caso en el que para cualquier otro estimador insesgado ^ , la siguiente matriz es semide…nida positiva P
E [(^ )(^ 0)] E [(^ )(^ 0)]
6. Distribuciones Conjuntas Para dos variables aleatorias X e Y con densidad conjunta f X;Y (x; y), calculamos la probabilidad del evento conjunto en el que X a y Y b a partir de
Pr [X
a; Y b] =
Z Z a
b
1
1
3
f X;Y (x; y) dy dx
Esta puede ser representada en terminos de la función de distribución acumulada conjunta: F X;Y (a; b) = Pr [X
a; Y b]
La probabilidad de que X
a por sí sola puede ser calculada a partir de a 1 Pr [X a; cualquier Y ] = f X;Y (x; y) dy
Z Z 1
1
dx
(4)
La comparación de (4) con (2) revela que la densidad marginal f X (x) es obtenida mediante la integración de la densidad conjunta f X;Y (x; y) con respecto a y :
Z
1
f X (x) =
f X;Y (x; y) dy
1
(5)
7. Distribuciones Condicionales La densidad condicionl de Y dado X esta dado por f Y jX (y x)
j
8< :
f X;Y (x; y) f X (x) 0
si f X (x) > 0
(6)
en otro caso
Observe que ésta satisface el requerimiento de una densidad ( 1)
Z
1
Z
1
f Y jX (y x) dy
j
1
=
1
=
f X;Y (x; y) dy f X (x)
Z | {z }
1 f X (x)
1
f X;Y (x; y) dy = 1
1
f X (x)
Una mayor implicación obvia de la de…nición en (6) es que una densidad conjunta puede ser escrita como el producto de una densidad condicional y la densidad marginal f X;Y (x; y) = f Y jX (y x) f X (x)
(7)
j
La esperanza condicional de Y dado que la variable aleatoria X toma un valor particular x es
Z
1
E [Y X = x] =
j
y f Y jX (y x) dy
1
(8)
j
8. Ley de Esperanzas Iteradas Observe que la esperanza condicional es una función del valor de la variable aleatoria X . Para diferentes realizaciones de X , la esperanza condicional será un numero diferente. Suponga que vemos a E [Y X ] como una variable aleatoria y tomemos su esperanza con respecto a la distribución de X :
j
Z Z j j Z Z Z Z Z Z Z 1
1
1
1
E X E Y jX [Y X ] =
y f Y jX (y x) dy f X (x) dx
Podemos usar los resultados (7) y (5) para expresar esta esperanza como
Z Z 1
1
1
1
1
1
1 1
1 1
1 1
1
y f Y jX (y x) dy f X (x) dx =
j
y f Y jX (y x) f X (x) dy dx
=
y f X;Y (x; y) dy dx
=
1
y
1 1
=
y f Y (y) dy
= E Y [Y ]
f X;Y (x; y) dx
1
1
4
j
dy
Así,
E X E Y jX [Y X ] = E Y [Y ]
j
(9)
En palabras, la variable aleatoria E [Y X ] tiene la misma esperanza que una variable aleatoria Y . Esto es conocido como la ley de esperanzas iteradas .
j
9. Independencia Las variables X e Y se dicen que son independientes si f X;Y (x; y) = f X (x) f Y (y)
(10)
Comparando (10) con (7), si Y y X son independientes, entonces f Y jX (y x) = f Y (y)
j
10.
(11)
Covarianza
Denotemos X a E [X ] y Y a E [Y ]. La covarianza poblacional entre X y Y está dada por cov [x; y]
11.
Z Z 1
1
1
1
(x
X ) (y Y ) f X;Y (x; y) dy dx
(12)
Correlación
La correlación poblacional entre X e Y está dada por corr [X; Y ]
cov [X; Y ] var[X ] var [Y ]
p p
Si la covarianza (o correlación) entre X e Y es cero, entonces X e Y se dicen que no estan correlacionados .
12. Relación entre Correlación e Independencia Observe que si X y Y son independientes, entonces ellos no estan correlacionados cov [X; Y ]
= =
Z Z Z Z 1
1
1 1
1
(x
1
(x
X ) (y Y ) f X (x) f Y (y) dy dx 1
X )
(x
1
(y
1
Y ) f Y (y) dy
f X (x) dx
0
1
=
Z 2 zZ 6 6 }| Z 4 | {z } | {z 1
X )
1
y f Y (y) dy
1
Y
3{ 77 } 5
f Y (y) dy
1
Y
1
Así, si X e Y son independientes, entonces
f X (x) dx = 0
cov [X; Y ] = 0 La proposición contraria, sin embargo, no es verdad – el hecho que X e Y no esten correlacionadas no es su…ciente para deducir que ellas son independientes. Para constuir un contraejemplo, suponga que Z e Y son variables aleatorias independientes cada una con media 0, y sea X Z Y . Entonces
cov[X; Y ]
= E [(X X ) (Y Y )] = E [(ZY E [ZY ]) (Y 0)] = E [(ZY E [Z ] E [Y ]) Y ] = =
E [(ZY ) Y ] E [Z ] E Y 2 = 0
y así X e Y no están correlacionados. Ellos no son, sin embargo, independientes – el valor de Z Y , o sea de X , depende de Y . 5
13.
Ortogonalidad
f gT t=1 y fyt gT t=1. Las dos variables
Considere una muestra de tamaño T de dos variables aleatorias xt se dicen que son ortogonales si T
X
xt yt = 0
t=1
Así, la ortogonalidad es el análogo de la muestra de ausencia de correlación. Por ejemplo, denotemos xt = 1 a una secuencia de constantes y sea yt = wt (1=T ) T t=1 wt es la media muestral de la variable w. Entonces x e y son ortogonales:
P
T
w, donde w
T
X
1 (wt
t=1
X
= w)
wt
t=1
0 T w =
14. Momentos poblacionales de Sumas Considere la variable aleatoria aX + bY . Su media esta dada por E [aX + bY ] = aE [X ] + bE [Y ] y la varianza es
(13)
var [aX + bY ] = a 2 var [X ] + b2 var [Y ] + 2ab cov[X; Y ]
(14)
Cuando X e Y no estan correlacionados var [aX + bY ] = a 2 var [X ] + b2 var[Y ] Generalizando el resultado (13) (14). Si X 1 ; X 2 ; : : : ; Xn denotan una colección de n variables aleatorias, entonces
f
E [a1 X 1 + a2 X 2 + var[a1 X 1 + a2 X 2 +
g
+ anX n] = a1E [X 1] + a2E [X 2] + + an E [X n]
= a21 var [X 1 ] + a22 var [X 2 ] + + a2n var[X n ] +2a1 a2 cov [X 1 ; X 2 ] + 2a1 a3 cov [X 1 ; X 3 ] + +2a2 a3 cov [X 2 ; X 3 ] + 2a2 a4 cov [X 2 ; X 4 ] +
+ anX n]
(15)
+ 2a1an cov [X 1; X n] + 2a2an cov [X 2; X n]
+ + +2an2 an1 cov [X n2 ; X n1 ] + 2an2 an cov[X n2 ; X n ] +2an1 an cov[X n1 ; X n ]
"X # X n
var
n
ai X i =
i=1
n1
a2i var[X i ] + 2
i=1
(16)
n
XX
ai aj cov [X i ; X j ]
i=1 j=i+1
Si los X 0 s no estan correlacionados, esto es cov [X i ; X j ] = 0 para todo i = j, entonces
6
"X # X n
var
n
ai X i
=
i=1
var [a1 X 1 + a2 X 2 +
+ anX n]
=
a2i var[X i ]
i=1 a21 var [X 1 ] + a22 var[X 2 ] +
+ a2nvar [X n]
(17)
15. La Distribución Normal La variable Y t tiene una distribución Normal o Gaussiana con media y varianza 2 si f Y (yt ) = t
"
1 (yt ) p 2 exp 22
Escribimos Y t
N
6
; 2
2
#
(18)
para indicar que la densidad de Y t está dada por (18). Los momentos poblacionales de orden impar centrados de una variable Gaussiana son cero: E [(Y t
)r ] = 0
El cuarto momento centrado es
h
E (Y t
16.
para r = 1; 3; 5; : : : 4
)
i
= 3 4
Skew y Kurtosis
El skewness (asimetría) de una variable Y t con media es representada por
h
E (Y t
)3
i
[var (Y t )]3=2
Una variable con un skewness negativo es mas probable a estar muy por debajo de la media que estar por encima de la media. La kurtosis es E (Y t )4
h
[var (Y t )]2
i
Una distribución cuya kurtosis excede de 3 tiene mas masa en las colas que una distribución Gaussiana con la misma varianza.
17. Otras Distribuciones Univariadas Sea (X 1 ; X 2 ; : : : ; Xn ) variables N (0; 1) independientes e identicamente distribuidas (i:i:d:), y considere la suma de sus cuadrados Y = X 12 + X 22 + + X n2
Entonces Y se dice que tiene una distribución chi-cuadrado con n grados de libertad, denotado por Y
2 (n)
N (0; 1) y Y 2(n) con X e Y independientes. Entonces
Sea X
Z =
X Y =n
p
se dice que tienen una distribución t con n grados de libertad, denotado por Z
t (n)
2 (n1) y Y 2 2 (n2) con Y 1 y Y 2 independientes. Entonces
Sea Y 1
Z =
Y 1 =n1 Y 2 =n2
se dice que tienen una distribución F con n1 grados de libertad del numerador y n2 grados de libertad del denominador, denotado por Z F (n1 ; n2 )
t (n), entonces Z 2 F (1; n).
Observe que si Z
18. Función de verosimilitud Suponga que tiene una muestra de tamaño T sobre alguna variable aleatoria Y t . Denotemos a f Y ;Y ;:::;Y (y1 ; y2 ; : : : ; yT ; ) 1
2
T
como la densidad conjunta de Y 1 ; Y 2 ; : : : ; YT . 7
La notación hace incapié en que la densidad conjunta se presume depender de un vector poblacional de parámetros. Si observamos a esta densidad conjunta como una función de (dados los datos en Y ), el resultado es llamado la función de verosimilitud muestral . Por ejemplo, considere una muestra de T variables i:i:d: extraidas de una distribución N ; 2 . Para 0 esta distribución, = ; 2 , y a partir de (10) la densidad conjunta es el producto de los terminos individuales como en (18): f Y ;Y ;:::;Y 1
T
2
y1 ; y2 ; : : : ; yT ; ; 2
Y
= f Y y1 ; ; 2 1
T
f Y y2 ; ; 2 2
f Y yt ; ; 2
=
yT ; ; 2
f Y
T
t
t=1
El logaritmo de la densidad conjunta es la suma de los logaritmos de estos términos log f Y ;Y ;:::;Y 1
2
T
T
y1 ; y2 ; : : : ; yT ; ;
2
X
log f Y yt ; ; 2
=
t
t=1
=
T log (2) 2
T log 2 2
T
X t=1
(yt )2 2 2
Así, para una muestra de T variables aleatorias Gaussianas con media y varianza 2 la función de ; 2 ; y1 ; y2 ; : : : ; yT , esta dada por verosimilitud logarítmica muestral , denotada por
L
L
2
; ; y1 ; y2 ; : : : ; yT = k
T log 2 2
T
X
t=1
(yt )2 2 2
(19)
En el cálculo de la función de verosimilitud logaritmica muestral, cualquier término constante que no involucra a los parámetros o 2 puede ser ignorado para la mayoría de los propósitos. En (19), este termino constante es T k log2 2
19. Estimación por Máxima Verosimilitud Para una muestra dada de observaciones (y1 ; y2 ; : : : ; yT ), el valor de que hace la verosimilitud muestral lo mas grande posible es llamado el estimador de máxima verosimilitud (MLE , por sus siglas en inglés) de . Por ejemplo, el estimador de máxima verosimilitud de la media poblacional para una muestra i:i:d: de tamaño T proveniente de una distribución N ; 2 es encontrada tomando la derivada de (19) con respecto a e igualando a cero:
@ = @
L
o
T
X
yt
=0
2
t=1
T
1 yt T t=1
X |{z} | {z } X L ^
=
MLE de
(20)
media muestral
El M LE de 2 es caracterizado por
T
T (yt )2 + =0 2 2 t=1 2 4
@ = @ 2
(21)
Sustituyendo (20) en (21) y resolviendo para un 2 obtenemos T
^
2
1 = (yt T t=1
X
^ )2
|{z} | {z }
MLE de 2
(22)
varianza muestral
Asi, la media muestral es el M LE de la media poblacional y la varianza muestral es el M LE de la varianza poblacional para una muestra i:i:d: de variables Gaussianas. 8
20. Probabilidad Límite Denotemos X 1 ; X 2 ; : : : ; XT a una secuencia de variables aleatorias. A menudo estamos interesados en saber que sucede con esta secuencia conforme T se hace grande. Por ejemplo, X T puede denotar la media muestral de T observaciones
f
g
X T =
1 (Y 1 + Y 2 + T
+ Y T )
(23)
en cuyo caso podemos querer saber las propiedades de una media muestral conforme el tamaño T de la muestra aumenta de tamaño. La secuencia X 1 ; X 2 ; : : : ; XT se dice que converge en probabilidad a c si para todo > 0 y > 0 existe un valor N tal que, para todo T N ,
f
g
Pr [ X T
j cj > ] <
f
(24)
Cuando (24) es satisfecha, el numero c es llamado la probabilidad límite , o plim , de la secuencia X 1 ; X 2 ; : : : ; XT . Esto es a veces indicado como
g
X T
21.
p c !
Ley de los Grandes Números
En virtud de las condiciones generales descritas en el Capítulo 7 del libro de Hamilton, la media muestral (23) converge en probabilidad a la media poblacional T
1 Y t T t=1
X ! | {z } | {z } p
E [Y t ]
(25)
media p oblacional
media muestral
Cuando (25) se mantiene, decimos que la media muestral brinda una estimador consistente de la media poblacional.
22. Convergencia en Media Cuadrática Una condición mas fuerte que la convergencia en probabilidad es la convergencia en media cuadrática . La secuencia X 1 ; X 2 ; : : : ; XT se dice que converge en media cuadrática si para todo > 0 existe un valor N tal que, para todo T N E (X T c)2 < (26)
f
g
h
i
Indicamos que la secuencia converge a c en media cuadrática tal como sigue X T
m:s: c !
La convergencia en media cuadrática implica convergencia en probabilidad pero la convergencia en probabilidad no implica convergencia en media cuadrática.
9