Cota Inferior de Cramer Rao Tratami rat amiento ento Estad Est ad´´ıstico ıst ico de Se˜nales nales Pablo Mus´e, e, Ernest Ern esto o L´opez op ez & Lu´ Lu´ıs Di Martino Marti no
{pmuse,elopez}@fing.edu.uy Departamento de Procesamiento de Se˜ nales nales Institu Inst ituto to de Ingenie Ing enierr´ıa El´ectric ect rica a Facultad Facul tad de Ingenie Ing enierr´ıa
Curso 2015
Repaso Objetivo: Estimaci´on on de par par´´amet ametro ross Encontrar un “buen” estimador estimador de de los p los par ar´´ametros de una se˜nal nal discreta. ◮ Dado el conjunto de N N datos x[0], [0], x[1], [1], . . . x[N 1] que dependen dep enden de un par´ametro ametr o desconoc desco nocido ido θ , ◮
{
◮ ◮
− − }
Se quiere estimar θ a partir de los datos Se define un estimador θˆ de θ, θˆ = g ( g (x x[0], [0], x[1], [1], . . . x[N − 1])
Condiciones sobre el estimador ◮
En media conduzca al valor verdadero del par´ ametro, ametro,
Estimadorr insesgad Estimado insesgadoo E (θˆ) = θ ◮ La variabilidad del estimador sea lo menor posible θˆ = min var(θˆ) θˆ
Estima Est imador dor de vari varianz anzaa m´ıni ınima ma
Estimador insesgado de varianza m´ınima (MVU)
Cota Inferior de Cramer-Rao (CRLB) La Cota Inferior de Cramer-Rao establece una cota una cota inferior te´orica en orica en la varianza de un estimador insesgado: var(θˆ)
ˆ CRLB(θθ), para todo estimador insesgado θ. ≥ CRLB(
Utililid Ut idad ad pr´acti actica ca ◮
Permite afirmar si un estimador insesgado es el estimador MVU. ◮
Este es el caso si el estimador alcanza la cota para todos los valores posibles po sibles del par´ ametro ametr o desconoci descon ocido, do,
var(θˆ) = CRLB(θ CRLB(θ ), para todo valor de θ Provee una referencia una referencia contra contra la cual comparar el desempe˜no no de cualquier estimador insesgado. ◮ Indica la imposibilidad imposibil idad f´ısica de encontrar un estimador insesgado ins esgado con varianza menor que la cota. Esto es ´util util en estudios de viabilidad.. viabilidad ◮
La teor teor´´ıa pe permite rmite adem´as as determinar determ inar si exist existee un estim estimador ador que alcan alcanza za la cota.
Descripci´on on intuitiva de la CRLB Dependencia de la PDF de los datos con el par par´´ametro ametro Toda la informaci´on on est´a contenida en los datos observados y en la funci´on on de densidad de probabilidad (PDF) de esos datos. ◮ Por lo tanto, la precisi´ on on de la estimaci´on on depende directamente de la PDF. ◮
◮
◮
No se puede esperar una estimaci´ on on con mucha precisi´ on on si la PDF dep de p en ende de d´ebil ebilme ment ntee de dell par´amet ametro ro.. An´ alogamente, alogamente, no se puede esperar una estimaci´ on on precisa si el model mo delo o depend dep endee d´ebilme ebi lmente nte del par´ametro. amet ro.
Cuanto may mayor or es la influencia del par´ ametro desconocido sobre la PDF, ametro mejor deb deber er´´ıa po poder der estim estimarse. arse.
Descripci´on on intuitiva de la CRLB Ejemplo: dependencia de la PDF con el par par´´ametro ametro Se quiere estimar el nivel de DC (par´ ametro ametro A) en WGN cuando se observa una sola muestra, (0, σ 2 ) N (0,
= A + w[0], [0], donde w[0] = x[0] = A
Se espera que la estimaci´ on on sea mejor si σ 2 es peque˜ no. no. ◮ Un buen estimador insesgado es ◮
Aˆ = x = x[0] [0] ◮
La varianza del estimador es ˆ) = σ 2 . var(A
◮
La precisi´on on del estimador mejora a medida que σ 2 decrece.
Descripci´on on intuitiva de la CRLB Ejemplo: dependencia de la PDF con el par par´´ametro ametro ◮
Se considera la PDF para dos valores distintos de varianza pi (x[0]; A) =
◮
− 1
2πσ i2
exp
1 (x[0] 2 2σ i
− A)2
,
con i = 1, 2.
Se observa la PDF para x[0] = 3 fijo 3 fijo en funci´ en funci´on on de dell par´amet ametro ro desconocido.. Se consideran los valores σ1 = 1/3 y σ2 = 1. desconocido
Definici´on: on: cuando la PDF es vista como una funci´on on del del par´amet am etro ro desconocido con x fijo, se denomina funci´ denomina funci´on on de verosimilitud. verosimilitud. p (x[0]=3;A) con σ =1/3 1
p (x[0]=3;A) con σ =1
1
2
1
1
0.5
0.5
0
0
2
4 A
6
0
0
2
2
4 A
6
Descripci´on on intuitiva de la CRLB Ejemplo: dependencia de la PDF con el par par´´ametro ametro ◮
con σ1 = 1/3, los valores de A > 4 tienen una probabilidad de
{
|
}
Pr A > 4 x[0] = 3 = 1 ◮
− − − − Φ
A
x[0]
σ1
= 1
− Φ(3) ≈ 0.0013
con σ2 = 1, los valores de A > 4 tienen una probabilidad de
{
|
}
Pr A > 4 x[0] = 3 = 1
Φ
A
x[0]
σ2
p (x[0]=3;A) con σ =1/3 1
2
1
0.5
0.5
0
2
4 A
− Φ(1) ≈ 0.1587
p (x[0]=3;A) con σ =1
1
1
0
= 1
6
0
0
2
2
4 A
6
Descripci´on on intuitiva de la CRLB Ejemplo: dependencia de la PDF con el par par´´ametro ametro Si x (µ, σ 2 ) Pr x µ 3σ 0.9973 9973.. ◮ Valores de A en el intervalo x[0] 3σi son viables. Valores fuera de ese intervalo tienen una probabilidad muy peque˜na. na.
∼ N
◮
◮ ◮
⇒
{| − | ≤ } ≈ ±
Con σ1 = 1/3, los candidatos viables son A ∈ [2, [2, 4] Con σ2 = 1, los candidatos viables son A ∈ [0, [0, 6]
Observaciones La funci´on on de verosimilitud p2 (x[0] = 3; A) tiene una dependencia una dependencia m´as d´ebil del del par´ par´amet am etrro A que p1 (x[0] = 3; A) por lo que los candidatos viables de A se encuentran en un intervalo mas amplio. amplio. ◮ Intuitivamente, la “agudeza” la “agudeza” de de la funci´on on de verosimilitud determina la precisi´on on con la cual es posible estimar el par´ ametro ametro desconocido. ◮ Una forma de medir la agudeza de la funci´ on on de verosimilitud es a tra tr av´es del opuesto de la derivada segunda re segunda resp spect ecto o al par´ametro ame tro (curvatura) en el pico. ◮
Descripci´on on intuitiva de la CRLB Derivada segunda del logaritmo de la funci´on on de verosimilitud ◮
La funci´on on de verosimilitud es p( p(x[0]; A) =
◮
√
2πσ 2
exp
−
1 (x[0] 2 2σ
− ln
√
2πσ 2
−
1 (x[0] 2σ 2
Tomando la derivada primera, ∂ ln ∂ ln p p((x[0]; A) 1 = 2 (x[0] ∂A σ
◮
− A)2
El logaritmo de la funci´on on de verosimilitud es ln p ln p((x[0]; A) =
◮
1
− A).
y el opuesto de la derivada segunda queda,
−
∂ 2 ln p ln p((x[0]; A) 1 = 2. ∂ A2 σ
− A)2
Descripci´on on intuitiva de la CRLB Ejemplo: dependencia de la PDF con el par par´´ametro ametro
− ◮
∂ 2 ln p ln p((x[0]; A) 1 = ∂ A2 σ2
◮
La curvatura crece a medida que la varianza del ruido σ 2 decrece.
Teniendo en cuenta que el estimador es Aˆ = x = x[0] [0],, y por lo tanto su ˆ) = σ 2 , para este ejemplo particular se cumple que varianza es var( es var(A ˆ) = var(A
1
− ∂ ln p∂A(x[0];A) 2
2
◮
En este ejemplo, la derivada segunda no depende de los datos (x ( x[0]), [0]), pero en general lo har´ har´a. a. Por Por lo tanto, una medida mas apropiada apropiada de la curvatura es ◮
−
∂ 2 ln p ln p((x[0]; A) E ∂ A2
◮
Mide la curvatura promedio de la funci´ on on de verosimili veros imilitud tud logar´ logar´ıtmica. ıtmica . La esperanza se toma sobre los datos (x[0] en [0] en este caso), resultando en una funci´ on on unicamente u ´nicamente de A.
Descripci´on on intuitiva de la CRLB Resumen Se dispone de un conjunto de datos y un modelo de los datos que depende de un par´ ametro ametro desconocido que se quiere estimar. ◮ El modelo impone una PDF de los datos, la cual depende del par´ametro ame tro descono des conocid cido. o. ◮
◮
Si se considera la PDF como funci´ on on del par´ ametro ametr o manteniend mante niendo o fijos los datos, la funci´ on on se denomina funci´ on on de verosimilitud.
Cuanto mas fuerte es la dependencia de la funci´on on de verosimilitud con el par´ametro, ametr o, ´este este puede estimarse estim arse con mayor mayor precisi´ precision. o´n. ◮ Una forma de medir la dependencia de la funci´ on on de verosimilitud con el par´ametro ametr o es a trav´es es de la concavidad concav idad (opuesto (opues to de la derivada deriva da segunda segund a respecto resp ecto al par´ametro). ametr o). ◮
◮
◮
Cuanto mayor es la concavidad, mayor es la dependencia con el par´ametro ame tro y mejor mej or puede pue de estimars est imarsee el par´ametro ame tro..
El estimador estim ador del par´ametro ametr o tendr´a menor varianza cuanto mayor esa e sa la concavidad de la funci´on on de verosimilitud.
Cota Inferior de Cramer-Rao Teorema: Cota Inferi Inferior or de d e Cramer Cramer-Rao, -Rao, par´ametro ametro escalar Hip´otesis: otesis: La PDF p(x; θ ) satisface la condici´on on de regularidad,
∀θ,
∂ ln ∂ ln p p((x; θ ) E = 0 ∂θ
(1)
◮
La esperanza se toma sobre los datos x.
T´esis: 1. La varianza de todo estimador insesgado estimador insesgado θˆ cumple que var(θˆ)
≥
1 ∂ 2 ln p ln p((x; θ ) E ∂ θ2
−
◮
(2) ◮
La derivada se eval´ ua ua en el valor verdadero de θ. La esperanza se toma sobre los datos x.
2. Existe un estimador que alcanza la cota para todo θ si y solo si ∂ ln ∂ ln p p((x; θ) = I ( I (θ )(g )(g (x) ∂θ
− θ)
para alguna funci´ on on I y g
Este estimador, que es el MVU, es θˆ = g g((x) y su varianza es
(3) 1 . I (θ)
CRLB. Consideraciones. Esperanza de las derivadas de la funci´on de verosimilitud ◮
La esperanza se toma respecto a los datos x,
2
∂ ln p ln p((x; θ ) E = 2 ∂θ
◮
∂ 2 ln p ln p((x; θ ) p(x; θ )dx 2 ∂θ
La esperanza reconoce el hecho de que la funci´on on de verosimilitud y sus derivadas son variables aleatorias por depender de los datos observados x. La cota depende en general del par´ ametro ametro desconocido θ.
CRLB. Consideraciones. Condici´on on de regularidad E
∂ ln ∂ ln p p((x; θ ) = ∂θ
∂ ln ∂ ln p p((x; θ) p(x; θ )dx ∂θ ∂ p(x; θ ) (a) = dx ∂θ (b) ∂ = p(x; θ )dx ∂θ (c)
=0
(a) Regla de la cadena (b) Cambio del orden de integraci´ on on y diferenciaci´ on on (c) ∀θ,
p(x; θ)dx = 1.
La condici´on on de regularidad se cumple si es posible cambiar el oreden de integraci´on on y diferenciaci´on. on. ◮ Esto es cierto en general salvo cuando el soporte de p(x; θ ) depende del par´ametro ame tro descon des conoo cido cid o θ. ◮
◮
se deduce de la regla de integraci´ on on de Leibniz Leibni z (ver ap´endice endic e I)
Ejercicio: Demostrar que en el caso en que x por lo tanto no es posible calcular la CRLB.
∼ U [0, θ ] no
se cumple la condici´on on de regularidad y
Ejemplo I CRLB para muestra de DC en WGN Estimar A a partir de x[0] = A = A + w[0] [0] donde donde w[0] = (0, (0, σ 2 ). ˆ = ˆ) = σ 2 . ◮ Eligiendo A = x x[0] [0],, se tiene que var( que var(A ◮ Las derivadas primera y segunda de la funci´ on on de verosimilitud son,
N
◮
∂ ln ∂ ln p p((x[0]; A) 1 = 2 (x[0] A) (4) [visto [vi sto en la p´agina agi na 9] ∂A σ ∂ 2 ln p ln p((x[0]; A) 1 = (5) ∂ A2 σ2 ◮ Aplicando la ecuaci´ on on 2 de la cota de Cramer-Rao se tiene que
−
−
ˆ) var(A
≥ σ2 ∀A.
No existe un estimador insesgado de varianza menor a σ 2 ◮ Conclusi´ on: Como el estimador elegido es insesgado y alcanza la on: CRLB para todo A, es el estimador MVU.
Ejemplo I CRLB para muestra de DC en WGN ◮
En el caso de no haber descubierto a Aˆ = x = x[0] [0] como como estimador, se podr po dr´´ıa emplear la segunda parte del teorema de la CRLB.
De la ecuaci´on on 3 del teorema de la cota de Cramer-Rao
La derivada de la funci´on on de verosimiltud es (ec. 4)
∂ ln ∂ ln p p((x; θ) = I ( I (θ)(g )(g (x) ∂θ ◮ Iden Id enti tific fican ando do t´ermi ermino noss
∂ ln ∂ ln p p((x[0]; A) 1 = 2 (x[0] A) ∂A σ
− θ)
−
Se concluye que ◮
θ = A 1 I (θ ) = 2 σ g (x[0]) = x = x[0] [0]
◮
◮
Aˆ = g = g((x[0]) = x = x[0] [0] es es el estimador MVU. ˆ) = 1 = σ 2 var(A I (θ) Como el estimador alcanza la cota, se cumple la ecuaci´ on on 2 con igualdad, y I (θ) = −E
2
∂ ln p ln p((x[0]; A) ∂ A2
Ejemplo II CRLB para nivel de DC en WGN Como generalizaci´ on del ejemplo anterior, en este caso se observan on m´ ultiples muestras del nivel de continua en WGN, ultiples (0, σ 2 ) ∀n ∼ N (0,
−
x[n] = A + w[n] con n = 0, 1, . . . , N 1 y w[n] Se quiere determinar la CRLB de A. ◮ La funci´ on on de verosimilitud es N −1
p( p(x; A) =
√
2πσ 2
n=0
= ◮
1
1 (2πσ (2πσ 2 )
N 2
exp
exp
−
1 (x[n] 2 2σ
− 1 2σ 2
− A)2
N −1
(x[n]
n=0
− A)2
.
Tomando el logaritmo queda, ln p ln p((x; A) =
− ln
(2πσ (2πσ 2 )
N 2
− 1 2σ 2
N −1 n=0
(x[n]
− A)2
(6)
Ejemplo II CRLB para nivel de DC en WGN ◮
Aplicando la derivada primera se tiene que ∂ ln ∂ ln p p((x; A) ∂ = ∂A ∂A 1 = 2 σ N = 2 σ
− − − − 2
ln (2πσ (2πσ )
n=0
(x[n]
− A)2
N −1
(x[n]
A)
n=0
1 N
N = 2 (x ¯ σ ◮
1 2σ 2
N 2
N −1
N −1
x[n]
A
n=0
− A)
(7)
y diferenciando nuevamente, ∂ 2 ln p ln p((x; A) = 2 ∂A
− σN 2
Ejemplo II CRLB para nivel de DC en WGN ◮
Teniendo en cuenta que la derivada segunda es constante, empleando la ecuaci´on on 2 se obtiene la CRLB, ˆ) var(A
◮
≥
1 ∂ 2 ln p ln p((x; A) E ∂ A2
−
σ2 = . N
(8)
Adem´ Ade m´as, as, asocia aso ciando ndo los t´ermino erm inoss de la ecuaci ecu aci´ on o´n 7 con los de la ecuaci´on on 3 se llega a que ◮
◮
Aˆ = x ¯ (media muestral) alcanza la CRLB y por lo tanto es el estimador MVU. La ecuaci´ on on 8 se cumple con igualdad, 2 1 σ ˆ) = var(A = . I (A) N
La varianza del estimador es inversamente proporcional a la cantidad de datos observados.
Ejemplo III Estimaci´on on de fase Se quiere estimar la fase φ de una sinusoide contaminada con WGN, x[n] = A cos(2 cos(2πf πf 0 n + φ) + w[n]
−
con n = 0, 1, . . . , N 1,
donde w[n] (0, (0, σ 2 ) para todo n. ◮ La derivada del logaritmo de la funci´ on de verosimilitud es (ejercicio) on
∼ N
∂ ln ∂ ln p p((x; φ) = ∂φ
− σA2
2
N −1
x[n] sin( sin(22πf 0 n + φ)
n=0
≈−
sin(4πf 0 n + 2φ 2 φ) − A2 sin(4πf
(9)
2 ∂ ln p ln p((x; φ) N A2 2 σ ◮ Ad Adem´as E = var(φˆ) 2 2 ∂φ 2σ N A2 ◮ No se cumple la condici´ on para alcanzar la cota porque la ecuaci´on on on 9 no se puede expresar en la forma de la ecuaci´on on 3. ◮ Es posible que de todas formas exista un estimador MVU, pero mediante el teorema de Cramer-Rao no es posible determinar su existencia ni encontrarlo.
⇒
≥
.
Estimador eficiente Definici´on on Un estimador que es insesgado y alcanza la cota de Cramer-Rao para todos los valores del par´ ametro ametro desconocido se dice que es eficiente es eficiente..
Obsevaci´on on Un estimador MVU puede ser o no ser eficiente. θˆ1 es eficiente y MVU
θˆ1 es MVU pero no eficiente
Ninguno alcanza la CRLB. ˆ1 es menor que la ◮ La varianza de θ de los otros estimadores insesgados. Es el MVU. ◮
◮
θˆ1 alcanza la CRLB y por lo tanto es el MVU.
Informaci´on on de Fisher Definici´on on La informaci´ La informaci´ on de Fisher para on Fisher para los datos x se define como:
◮
◮
I (θ) =
Cuando un estimador alcanza la CRLB, su varianza es:
−
∂ 2 ln p ln p((x; θ ) E ∂ θ2
var(θˆ) =
(10)
1 ∂ 2 ln p ln p((x; θ) E ∂ θ2
−
1 = I (θ)
Propiedades I (θ ) tiene las propiedades de una medida de informaci´on: on: ◮ Es no-negativa Es no-negativa.. Esto puede verse a partir de la siguiente igualdad:
−
∂ 2 ln p ln p((x; θ) E = E = E 2 ∂θ
◮
∂ ln ∂ ln p p((x; θ ) ∂θ
2
-Ejercicio, -Ejer cicio, ver Ap´ endice endice 3A en [Kay, en [Kay, 1993] -Ejercicio: -Ejercicio: calcular calcular la CRLB para nivel de DC en WGN
Es aditiva Es aditiva para para observaciones independientes Si I (θ ) es la informaci´on on de N observaciones IID y i(θ ) de una ´unica unica observaci´
I (θ ) = N i(θ)
Informaci´on on de Fisher Aditividad para observaciones IID ◮
La densidad de probabilidad de N observaciones N observaciones IID cumple que N −1
− − 1]; θ) =
p( p(x; θ ) = p( p (x[0], [0], x[1], [1], . . . , x[ x[N ◮
p( p(x[n]; θ).
n=0
La informaci´ on on de Fisher es entonces I (θ) =
− E
con i(θ ) =
∂ 2 ln p ln p((
−
x; θ )
∂ θ2
− N −1
=
E
n=0
∂ 2 ln p ln p((x[n]; θ ) ∂ θ2
= N = N i(θ ),
∂ 2 ln p ln p((x[n]; θ ) E la informaci´ on on de Fisher de una 2 ∂θ
muestra. La CRLB al observar N N muestras muestras IID es N N veces veces menor que al observar una muestra (como muestra (como en los ejemplos I y II) Inde Independ penden enci ciaa No Indepe Independ nden encia cia Depend Dependen enci ciaa co comp mplet letaa I (θ ) = N i(θ) I (θ ) < N i(θ) I (θ ) = i( i (θ)
CRLB general para se˜nales nales en WGN Se derivar´ a la CRLB para el caso de una se˜ nal nal s[n; θ ] con AWGN, frecue fre cuente nte en la pr´actica act ica.. ◮ Sea una se˜ nal nal determ det ermin in´´ıstica ıst ica con un par´ametro ame tro descon des conoo cido cid o θ observada en AWGN,
−
x[n] = s s[[n; θ ] + w[n] con n = 0, 1, . . . , N 1 y w[n] ◮
La funci´on on de verosimilitud es p( p(x; θ) =
◮
1
− − −
(2πσ (2πσ 2 )
N 2
1 2σ 2
exp
N −1
(x[n]
n=0
− s[n; θ])2
Tomando el logaritmo queda ln p ln p((x; θ) =
◮
(0, σ 2 ) ∀n ∼ N (0,
− ln
(2πσ (2πσ 2 )
1 2σ 2
N 2
N −1 n=0
(x[n]
− s[n; θ])2
Diferenciando una vez se tiene que ∂ ln ∂ ln p p((x; θ ) 1 = 2 ∂θ σ
N −1
(x[n]
n=0
∂ s(n; θ) s[n; θ]) ∂θ
CRLB general para se˜nales nales en WGN ◮
Una segunda diferenciaci´ on on resulta en ∂ 2 ln p ln p((
x; θ )
1 = 2 σ
∂ θ2 ◮
N −1
(x[n]
n=0
− s[n; θ])
∂ 2 s(n; θ) ∂ θ2
− ∂ s(n; θ) ∂θ
2
y tomando el valor esperado,
2
− −
∂ ln p ln p((x; θ ) 1 E = 2 ∂ θ2 σ (a)
=
N −1
(E (x[n])
n=0
1 σ2
N −1
∂ s(n; θ) ∂θ
n=0
2
∂ s(n; θ) s[n; θ ]) ∂ θ2
− ∂ s(n; θ) ∂θ
2
,
en donde en (a) se emple´o que E (x[n]) = s[ s [n; θ ]. ◮ La CRLB es por lo tanto var(θˆ)
≥ N
σ2
−1
n=0
∂ s(n; θ ) ∂θ
2
(11)
Se obtiene una mejor estimaci´on on cuando la se˜ nal nal cambia mas r´apid ap idam amen ente te co con n el par´ par ´amet am etro ro..
2
CRLB general para se˜nales nales en WGN Ejemplo: Estimaci´on on de la frecuencia de una sinusoide Se considera una se˜nal nal sinusoidal en AWGN y se quiere estimar su frecuencia. ◮ Sea la se˜ nal nal
−
x[n] = s s[[n; θ ] + w[n] con n = 0, 1, . . . , N 1 y w[n]
(0, σ 2 ) ∀n ∼ N (0,
donde s[n; f 0 ] = A cos(2πf cos(2πf 0 n + φ)
con 0 < f 0 <
con la amplitud A y la fase φ conocida. ◮ Usando la ecuaci´ on on 11 11,, la CRLB es ˆ0 ) var(f
≥
σ2 A2
N −1 n=0
[2πn [2πnsen sen(2 (2πf πf 0 n + φ)]2
1 2
CRLB general para se˜nales nales en WGN Ejemplo: Estimaci´on on de la frecuencia de una sinusoide Observaciones En la precisi´on on del estimador hay frecuencias preferidas. ◮ Cuando f 0, CRLB . Esto es porque para f 0 0, 0 peque˜ nos nos cambios en f 0 no alteran la se˜nal nal significativamen significativamente. te. ◮ Mediante la teor´ teor´ıa de Cramer-Rao, se encontr´ o una cota de la varianza del estimador, pero no es posible encontrar el estimador en este ejemplo. ◮
→
≈
Estimacion de frecuencia, N = 10, φ = 0, SNR = 0 dB
−4
4
→∞
x 10
B 3 L R C2
1
0
0.05
0.1
0.15
0.2
0.25 0. 3 Frecuencia
0.35
0.4
0.45
0.5
Transformaci´on on de par par´´amet ametro ross Ejemplo: potencia de DC en WGN ¯ es un estimador eficiente de A. En el Ejemplo II se vio que x ◮ Podr´ Podr´ıa ocurrir que no interese el signo de A y en cambio interese por ejemplo, la potencia A2 de la se˜nal. nal. ◮ Surgen las preguntas: ◮
1. ¿x ¯2 es un buen estimador de A2 ? 2. ¿C´ omo o mo obtener la CRLB de A2 ?
1. x ¯2 como estimador de A2 : estudio del sesgo. Como x ¯ es un estimador eficiente de A y la CRLB( la CRLB(A A) = σ 2 /N , N , x ¯
N ) ∼ N (A, σ2/N )
E x ¯2 = E = E 2 (x ¯) + var (¯ x) σ2 = A + (12) N = A 2 2
¯2 ni siquiera es un estimador insesgado de A2 x Una transf transform ormaci´ aci´ on no lineal destruye la eficiencia de un estimador. on
Transformaci´on on de par par´´amet ametro ross Ejemplo: potencia de DC en WGN 2. C´alculo alculo de la CRLB de A2 Teorema:: La CRLB del estimador de α = g Teorema = g((θ ) es
var(ˆ α)
≥
2
∂g ∂θ ∂ 2 ln p ln p((x; θ ) E ∂ θ2
−
=
∂g ∂θ
2
CRLB(θˆ)
(13)
Ver demostraci´ on on en Ap´ endice endice 3A en [Kay, en [Kay, 1993]
En el caso del ejemplo, α = g = g((A) = A 2 y por lo tanto,
≥
var(A2 )
(2A (2A)2 4A2 σ 2 = N/σ 2 N
Observaci´on: on: Al emplear la ecuaci´on on 13, 13, la la CRLB queda en general expresada en funci´on on del valor del par´ametro ametr o θ .
(14)
Transformaci´on on de par par´´amet ametro ross Eficiencia bajo transformaciones lineales Se supone que θˆ es un estimador eficiente estimador eficiente de θ y se quiere estimar g (θ ) = aθ a θ + b. ◮ Como estimador se elige g (θ ) = g( g (θˆ) = a θˆ + b. ◮
Esperanza
E g (θ) = E = E (aθˆ + b)
◮
◮
= aE ( aE (θˆ) + b = aθ + aθ + b = g( g (θ )
Varianza
var g (θ) = var(a var(aθˆ + b) = a var(θˆ) 2
CRLB
≥
var g (θ )
=
∂g ∂θ I (θ)
2
∂g ∂θ
2
var(θˆ)
= a 2 var(θˆ)
El estimador transformado es insesgado, ya que E g (θ) = g = g((θ ). Tambi´en en es eficiente, ya que la varianza coincide coinci de con la CRLB.
Las transformaciones lineales mantienen la eficiencia de los estimadores
Transformaci´on on de par par´´amet ametro ross Sesgo y eficiencia asint´oticos oticos La eficiencia es aproximadamente es aproximadamente mantenida mantenida bajo transformaciones no lineales si el si el conjunto de datos es suficientemente grande ◮
Estimador asint´ oticamente oticamente insesgado: insesgado: lim E (θˆ) = θ N →∞
◮
Estimador asint´ oticamente oticamente eficiente: eficiente: lim var(θˆ) = CRLB(θ CRLB(θ ) N →∞
Ejemplo: potencia de DC en WGN Previamente se vio que x ¯2 es un estimador sesgado de A2 . ◮ Sin embargo, la esperanza es (ecuaci´ on on 12 12)) ◮
σ2 E (x ¯ ) = A + N 2
2
−→ N
→∞
A2
x ¯2 es un estimador asint´oticamente oticamente insesgado de A2
Transformaci´on on de par par´´amet ametro ross Ejemplo: potencia de DC en WGN ◮
Ade A dem´ m´as, co como mo x ¯
N ) es posible evaluar la varianza, ∼ N (A, σ2/N ) var(¯ x2 ) = E ( E (x ¯4 ) − E 2 (x ¯2 )
Observaci´ on: Si ξ ∼ N (µ, σ2 ), los momentos segundo y cuarto son on: respectivamente, E (ξ 2 ) = µ 2 + σ 2
var(ξ var(ξ 2 ) = E (ξ 4 ) − E 2 (ξ 2 )
E (ξ 4 ) = µ 4 + 6µ 6µ2 σ 2 + 3σ 3σ4
= 4µ2 σ2 + 2σ 2σ4
Demostraci´ on: on: ejercicio. ejercicio.
4A2 σ 2 2σ 4 var(¯ + 2 x )= N N 2
− → N
→∞
4A2 σ 2 = CRLB( CRLB(x ¯2 ) N
x ¯2 es un estimador asint´oticamente oticamente eficiente de A2
Transformaci´on on de par par´´amet ametro ross Linealidad Lineali dad estad estad´´ıstica de una transformac transformaci´ i´on on no lineal ¯ se concentra alrededor de la A medida que crece N , N , la PDF de x media A. Los valores observados de x ¯ est´an an en un intervalo inter valo peque˜ peq ue˜no no en torno de A. ◮ En ese intervalo peque˜ no, no, la transformaci´ on on no lineal es aproximadamente lineal. ◮ Los valores de x ¯ en la regi´on on no lineal ocurren raramente. ◮
N pequeño
N grande
Transformaci´on on de par par´´amet ametro ross Linealidad Lineali dad estad estad´´ıstica de una transformac transformaci´ i´on on no lineal Formalmente, esto se puede ver linealizando la transformaci´ on on g en A, dg( dg (A) g (x ¯) g (A) + (x ¯ A). dA ◮ Con esta aproximaci´ on, on, se cumple que ◮
≈
dg( dg (A) E [ E [g (x ¯)] = g( g (A) + (E ( E (x ¯) dA = g( g (A)
− A)
= A 2 El estimador es asint´oticamente oticamente insesgado
−
2
dg( dg (A) var [g (x ¯)] = var(¯ x) (15) dA 2 2σ = (2A (2A) N 4A2 σ 2 = N El estimador alcanza la CRLB asint´oticamente oticamente
La linealizaci´ on conduce a un estimador asint´oticamente on oticamente eficiente. eficiente. ◮ La ecuaci´ on on 15 15 provee provee intuici´on on de la forma de la ecuaci´on on 13 13.. ◮
Transformaci´on on de par par´´amet ametro ross
Resumen ◮
Una transformaci´ Una transformaci´ on lineal de on lineal de un estimador eficiente mantiene eficiente mantiene la eficiencia.. eficiencia ◮
El estimador transformado es un estimador eficiente del par´ ametro ametro transformado.
Una transformaci´ Una transformaci´ on no lineal de on lineal de un estimador eficiente destruye eficiente destruye la eficiencia,, e incluso puede hacerlo sesgado. eficiencia ◮ Sin embargo, el estimador transformado no linealmente es asint´oticamente oticamente insesgado y eficiente. eficiente. ◮
◮
Cuando la cantidad N de N de datos crece, el estimador tiende a ser insesgado y eficiente.
Extensi´on on a ve vect ctor or de par´ametr ametros os Se estudi est udiar´ ar´a la extens ext ensi´ i´on on de los resultados al caso en que hay mas de un par´ametro ame tro descon des conoc ocido ido.. T ◮ Se desea estimar estim ar el e l vector de par´ametros ametr os θ = [θ1 θ2 . . . θ p ] . ˆ es insesgado, la CRLB para un vector ◮ Asumiendo que el estimador θ de par´ ametros ametros establece una cota en la varianza de cada elemento, ◮
var(θˆi )
≥ I−1 (θ )
ii
,
donde I(θ) es la matriz la matriz de informaci´on on de Fisher p ◮ La matriz de informaci´ on de Fisher se define como on [I(θ)]ij =
− E
2
p. × p.
ln p((x; θ ) ∂ ln p i = 1, 2, . . . , p , con j = 1, 2, . . . , p ∂ θi ∂ θj
(16)
en donde al evaluar esta ecuaci´on on hay que emplear el valor verdadero de θ . ◮ Notar que en el caso escalar ( p ( p = = 1), I(θ ) = I ( I (θ ), con I (θ ) definida en la ecuaci´on on 10 10,, obteniendo la CRLB escalar.
Ejemplo IV CRLB para nivel de DC en WGN Como extensi´on on del Ejemplo II, se considera la observaci´on on de N muestras del nivel de continua en WGN,
−
x[n] = A + w[n] con n = 0, 1, . . . , N 1 y w[n]
(0, σ 2 ) ∀n ∼ N (0,
pero per o ahora, adem´as as de desconoc descon ocerse erse A tambi´ tamb i´en en se descono des conoco coce ce σ 2 .
En este caso, el vector de par´ ametros ametros es θ = A σ 2 ◮ La matriz de informaci´ on on de Fisher 2 2 es, ◮
I(θ ) =
− −
∂ 2 ln p ln p((x; θ ) E ∂ A2 ∂ 2 ln p ln p((x; θ ) E ∂ σ2 ∂A
sim´etrica etrica y definida defini da positiva pos itiva..
×
− −
T
, y p = 2.
∂ 2 ln p ln p((x; θ ) E ∂A∂σ 2 ∂ 2 ln p ln p((x; θ ) E ∂ σ22
,
Ejemplo IV CRLB para nivel de DC en WGN ◮
La funci´on on de verosimilitud verosimilitud logar logar´ıtmica, al igual que en el ejemplo II II (ecuaci´on on 6), es ln p ln p((x; θ) =
◮
−
N ln 2π 2
−
N ln σ 2 2
−
1 2σ 2
N −1
(x[n]
n=0
y las derivadas son (ejercicio), ∂ 2 ln p ln p((x; θ) = 2 ∂A
− σN 2
∂ 2 ln p ln p((x; θ) = 2 ∂A∂σ
1 σ4
ln p((x; θ) ∂ 2 ln p ∂σ22
−
N = 2σ 4
N −1
− A)
(x[n]
n=0
−
1 σ6
N −1
n=0
(x[n]
− A)2
− A)2.
Ejemplo IV CRLB para nivel de DC en WGN ◮
◮
Tomando el opuesto de la esperanza, se construye la matriz de Fisher, Como en este caso la matriz de Fisher Fishe r es diagonal, diago nal, es f´acil acil de invertir, conduciendo a que la cota de Cramer-Rao es
I(θ) =
N σ2 0
ˆ) var(A
≥ ˆ2 ) ≥ var(σ
0 N 2σ4
.
σ2 N 2σ 4 N
Observaciones La CRLB de Aˆ es la misma que en el caso en que σ 2 es conocido (ejemplo II). ◮ An´ alogamente, alogamente, se puede ver que la CRLB de σˆ2 es la misma si A es conocido (ejercicio). ◮ Lo anterior se debe a que la matriz de Fisher es diagonal. ◮
Extensi´on on a ve vect ctor or de par´ametr ametros os Teorema: Cota Inferi Inferior or de Cramer Cramer-Rao, -Rao, par´ametro ametro vectorial Hip´otesis: otesis: La PDF p(x; θ ) satisface la condici´on on de regularidad,
∀θ ,
E
∂ ln ∂ ln p p((x; θ) = 0 ∂ θ
◮
La esperanza se toma respecto a los datos x.
T´esis: 1. La matriz de covarianza de todo estimador insesgado θˆ cumple que Cθˆ ◮ ◮ ◮ ◮
−1
−I
(θ )
≥ 0,
donde [I(θ)]ij =
− E
2
∂ ln p ln p((x; θ ) ∂ θi ∂ θj
(17)
on on de Fisher I(θ) es la matriz de informaci´ ≥ 0 se interpreta en el sentido de matriz semidefinida positiva La derivada se eval´ ua en el valor verdadero de θ. ua La esperanza se toma respecto a los datos x.
2. Existe un estimador que alcanza la cota Cθˆ = I −1 (θ) si y solo si para alguna funci´ on on g : RN → Rp y alguna matriz I p × p. p.
∂ ln ∂ ln p p((x; θ ) = I (θ )(g(x) θ) (18) ∂ θ ˆ = g (x) con matriz de covarianza I−1 , MVU. Ese estimador es θ
−
Extensi´on on a ve vect ctor or de par´ametr ametros os Consecuencias ◮
◮
◮
Como en una matriz semidefinida positiva todos los elementos de la diagonal son no negativos, la ecuaci´ on on 17 17 implica implica que
Cθˆ
− ≥ ≥ −1
I
(θ)
ii
0
Por lo tanto, la varianza de cada elemento del vector estimador cumple que var(θˆi ) = Cθˆ ii (19) I−1 (θ ) ii . Si se cumple la condici´on on de la ecuaci´on on 18, 18, la la ecuaci´on on 19 se cumple con igualdad, var(θˆi ) = I−1 (θ)
ii
.
ˆ = g(x) es eficiente El estimador θ es eficiente y y por lo tanto MVU. Ver la definici´ on on de la matrix de covarianza covarianza en el ap´ endice endice en pag. 45
Ap´endice I Distribuci´on on de probabilidad ◮
La distribuci´on on de probabilidad (CDF , Cumulative Distribution Function) de una variable aleatoria real X X se se define como
{ ≤ ≤ x} .
F X (x) = Pr X ◮
Se puede expresar como la integral de la PDF pX (x) como
pX (x) = N (0, 1)
x
F X (x) =
1
pX (u) du.
−∞
◮
0 .5
∼ ∼ N
Si X (0, (0, 1), 1), la CDF se denomina funci´on on Φ, Φ(x Φ(x) =
√ 1 2π
x
−3
x
3
x
Φ(x)
1 2
e−u
/2
du, 0 .5
−∞
y sus valores val ores est´an an tabulados.
3
3
Ap´endice I
Distribuci´on on de probabilidad ◮
∼ ∼ N (µ, σ2), se cumple que Pr {X ≤ ≤ x} = Φ x − µ
Si X X es es una variable aleatoria con X
σ
◮
Notar que la transformaci´on on de la variable aleatoria ′
x = hace que X ′
(0, 1). 1). ∼ N (0,
x
−µ σ
Ap´endice II Regla de Integraci´on on de Leibniz d dθ
◮
b(θ )
a(θ )
b(θ )
∂ f ( f (x, θ) dx + f b(θ), θ ·b (θ) − f a(θ), θ ·a (θ) ∂θ
f ( f (x, θ) dx =
a(θ )
′
′
De la regla surge que el orden de derivaci´ on on y integraci´ on on puede cambiarse si los l´ımites ımite s de integraci´ integ raci´ on on no dependen de θ, a(θ) b(θ)
= =
a b
′
⇒
′
a (θ) = b (θ) = 0,
y d dθ
b
a
b
f ( f (x, θ) dx
=
a
∂ f ( f (x, θ) dx. ∂θ
Ap´endi dicce III Covarianza ◮
La covarianza entre dos variables aleatorias X y Y se Y se define como
− −
−
cov(X, cov(X, Y ) Y ) = E (X E [X ])(Y ])(Y E [Y ]) Y ]) = E [X Y ] Y ] E [X ]E [Y ] Y ]. ◮
◮
◮
Es una medida de la la dependencia entre dependencia entre variables aleatorias.
Definici´ on: dos variables on: variables aleatorias aleatorias X y Y Y se dicen no correlacionadas si cov(X, cov(X, Y ) Y ) = 0.
Independencia: si dos varia variables bles aleatori aleatorias as X y Y son independientes se cumple que cov( que cov(X, X, Y ) Y ) = 0,
−
cov(X, cov(X, Y ) Y ) = E [X Y ] Y ] E [X ]E [Y ] Y ] = E [X ]E [Y ] Y ] E [X ]E [Y ] Y ]
−
(Lo rec´ rec´ıproco ıpro co no es cierto.)
Ap´endi dicce III
Matriz de Covarianza ◮
Sea el vector de variables aleatorias X = X 1 X 2 . . . Xn de covarianza se define como
= E (X C = E
− E [X]) (X − E [X])
T
T
, la matriz
donde la esperanza de un vector y una matriz con entradas aleatorias se define como la esperanza de las entradas.
Ap´endi dicce III Matriz de Covarianza
C =
=
E [(X [(X 1 − µ1 )(X )(X 1 − µ1 )]
E [(X [(X 1 − µ1 )(X )(X 2 − µ2 )]
···
E [(X [(X 1 − µ1 )(X )(X n − µn )]
E [(X [(X 2 − µ2 )(X )(X 1 − µ1 )]
E [(X [(X 2 − µ2 )(X )(X 2 − µ2 )]
···
E [(X [(X 2 − µ2 )(X )(X n − µn )]
.. .
.. .
..
.. .
E [(X [(X n − µn )(X )(X 1 − µ1 )]
E [(X [(X n − µn )(X )(X 2 − µ2 )]
···
var(X var(X 1 )
cov(X 1 , X 2 )
· · · cov(X cov(X 1 , X n )
cov(X cov(X 2 , X 1 )
var(X 2 )
· · · cov(X cov(X 2 , X n )
.. .
.. .
..
cov(X cov(X n , X 1 )
cov(X n , X 2 )
···
.
.. . var(X var(X n )
.
E [(X [(X n − µn )(X )(X n − µn )]
Referencias I
Kay, S. M. (1993). Fundamentals of Statistical Signal Processing, Volume I: Estimation Theory , chapter 3.
Prentice Hall, 1st edition.