COTA DE CRAMER RAO

Cota Inferior de Cramer Rao Tratami rat amiento ento Estad Est ad´´ıstico ıst ico de Señales nales Pablo Musé, e, Ernest Ern esto o López op ez & Lu´ Lu´ıs Di Martino Marti no

{pmuse,elopez}@fing.edu.uy Departamento de Procesamiento de Se˜ nales nales Institu Inst ituto to de Ingenie Ing enierr´ıa Eléctric ect rica a Facultad Facul tad de Ingenie Ing enierr´ıa

Curso 2015

Repaso Objetivo: Estimación on de par par´ámet ametro ross Encontrar un “buen” estimador estimador de de los p los par ar´ámetros de una señal nal discreta. ◮ Dado el conjunto de N N datos x[0], [0], x[1], [1], . . . x[N 1] que dependen dep enden de un parámetro ametr o desconoc desco nocido ido θ , ◮

{

◮ ◮

− − }

Se quiere estimar θ a partir de los datos Se define un estimador θˆ de θ, θˆ = g ( g (x x[0], [0], x[1], [1], . . . x[N − 1])

Condiciones sobre el estimador ◮

En media conduzca al valor verdadero del par´ ametro, ametro,

Estimadorr insesgad Estimado insesgadoo E (θˆ) = θ ◮ La variabilidad del estimador sea lo menor posible θˆ = min var(θˆ) θˆ

Estima Est imador dor de vari varianz anzaa m´ıni ınima ma

Estimador insesgado de varianza m´ınima (MVU)

Cota Inferior de Cramer-Rao (CRLB) La Cota Inferior de Cramer-Rao establece una cota una cota inferior teórica en orica en la varianza de un estimador insesgado: var(θˆ)

ˆ CRLB(θθ), para todo estimador insesgado θ. ≥ CRLB(

Utililid Ut idad ad prácti actica ca ◮

Permite afirmar si un estimador insesgado es el estimador MVU. ◮

Este es el caso si el estimador alcanza la cota para todos los valores posibles po sibles del par´ ametro ametr o desconoci descon ocido, do,

var(θˆ) = CRLB(θ CRLB(θ ), para todo valor de θ Provee una referencia una referencia contra contra la cual comparar el desempeño no de cualquier estimador insesgado. ◮ Indica la imposibilidad imposibil idad f´ısica de encontrar un estimador insesgado ins esgado con varianza menor que la cota. Esto es útil util en estudios de viabilidad.. viabilidad ◮

La teor teor´´ıa pe permite rmite además as determinar determ inar si exist existee un estim estimador ador que alcan alcanza za la cota.

Descripción on intuitiva de la CRLB Dependencia de la PDF de los datos con el par par´ámetro ametro Toda la información on está contenida en los datos observados y en la función on de densidad de probabilidad (PDF) de esos datos. ◮ Por lo tanto, la precisi´ on on de la estimación on depende directamente de la PDF. ◮

◮

◮

No se puede esperar una estimaci´ on on con mucha precisi´ on on si la PDF dep de p en ende de débil ebilme ment ntee de dell parámet ametro ro.. An´ alogamente, alogamente, no se puede esperar una estimaci´ on on precisa si el model mo delo o depend dep endee débilme ebi lmente nte del parámetro. amet ro.

Cuanto may mayor or es la influencia del par´ ametro desconocido sobre la PDF, ametro mejor deb deber er´´ıa po poder der estim estimarse. arse.

Descripción on intuitiva de la CRLB Ejemplo: dependencia de la PDF con el par par´ámetro ametro Se quiere estimar el nivel de DC (par´ ametro ametro A) en WGN cuando se observa una sola muestra, (0, σ 2 ) N (0,

= A + w[0], [0], donde w[0] = x[0] = A

Se espera que la estimaci´ on on sea mejor si σ 2 es peque˜ no. no. ◮ Un buen estimador insesgado es ◮

Aˆ = x = x[0] [0] ◮

La varianza del estimador es ˆ) = σ 2 . var(A

◮

La precisión on del estimador mejora a medida que σ 2 decrece.

Descripción on intuitiva de la CRLB Ejemplo: dependencia de la PDF con el par par´ámetro ametro ◮

Se considera la PDF para dos valores distintos de varianza pi (x[0]; A) =

◮

  − 1

2πσ i2

exp

1 (x[0] 2 2σ i

− A)2



,

con i = 1, 2.

Se observa la PDF para x[0] = 3 fijo 3 fijo en funci´ en función on de dell parámet ametro ro desconocido.. Se consideran los valores σ1 = 1/3 y σ2 = 1. desconocido

Definición: on: cuando la PDF es vista como una función on del del parámet am etro ro desconocido con x fijo, se denomina funci´ denomina función on de verosimilitud. verosimilitud. p (x[0]=3;A) con σ =1/3 1

p (x[0]=3;A) con σ =1

1

2

1

1

0.5

0.5

0

0

2

4 A

6

0

0

2

2

4 A

6

Descripción on intuitiva de la CRLB Ejemplo: dependencia de la PDF con el par par´ámetro ametro ◮

con σ1 = 1/3, los valores de A > 4 tienen una probabilidad de

{

|

}

Pr A > 4 x[0] = 3 = 1 ◮

  − −   − − Φ

A

x[0]

σ1

= 1

− Φ(3) ≈ 0.0013

con σ2 = 1, los valores de A > 4 tienen una probabilidad de

{

|

}

Pr A > 4 x[0] = 3 = 1

Φ

A

x[0]

σ2

p (x[0]=3;A) con σ =1/3 1

2

1

0.5

0.5

0

2

4 A

− Φ(1) ≈ 0.1587

p (x[0]=3;A) con σ =1

1

1

0

= 1

6

0

0

2

2

4 A

6

Descripción on intuitiva de la CRLB Ejemplo: dependencia de la PDF con el par par´ámetro ametro Si x (µ, σ 2 ) Pr x µ 3σ 0.9973 9973.. ◮ Valores de A en el intervalo x[0] 3σi son viables. Valores fuera de ese intervalo tienen una probabilidad muy pequeña. na.

∼ N

◮

◮ ◮

⇒

{| − | ≤ } ≈ ±

Con σ1 = 1/3, los candidatos viables son A ∈ [2, [2, 4] Con σ2 = 1, los candidatos viables son A ∈ [0, [0, 6]

Observaciones La función on de verosimilitud p2 (x[0] = 3; A) tiene una dependencia una dependencia más débil del del par´ parámet am etrro A que p1 (x[0] = 3; A) por lo que los candidatos viables de A se encuentran en un intervalo mas amplio. amplio. ◮ Intuitivamente, la “agudeza” la “agudeza” de de la función on de verosimilitud determina la precisión on con la cual es posible estimar el par´ ametro ametro desconocido. ◮ Una forma de medir la agudeza de la funci´ on on de verosimilitud es a tra tr avés del opuesto de la derivada segunda re segunda resp spect ecto o al parámetro ame tro (curvatura) en el pico. ◮

Descripción on intuitiva de la CRLB Derivada segunda del logaritmo de la función on de verosimilitud ◮

La función on de verosimilitud es p( p(x[0]; A) =

◮

√

2πσ 2

exp

−

1 (x[0] 2 2σ

− ln

√

2πσ 2

−

1 (x[0] 2σ 2

Tomando la derivada primera, ∂ ln ∂ ln p p((x[0]; A) 1 = 2 (x[0] ∂A σ

◮

− A)2



El logaritmo de la función on de verosimilitud es ln p ln p((x[0]; A) =

◮

1

− A).

y el opuesto de la derivada segunda queda,

−

∂ 2 ln p ln p((x[0]; A) 1 = 2. ∂ A2 σ

− A)2

Descripción on intuitiva de la CRLB Ejemplo: dependencia de la PDF con el par par´ámetro ametro

− ◮

∂ 2 ln p ln p((x[0]; A) 1 = ∂ A2 σ2

◮

La curvatura crece a medida que la varianza del ruido σ 2 decrece.

Teniendo en cuenta que el estimador es Aˆ = x = x[0] [0],, y por lo tanto su ˆ) = σ 2 , para este ejemplo particular se cumple que varianza es var( es var(A ˆ) = var(A

1

− ∂ ln p∂A(x[0];A) 2

2

◮

En este ejemplo, la derivada segunda no depende de los datos (x ( x[0]), [0]), pero en general lo har´ hará. a. Por Por lo tanto, una medida mas apropiada apropiada de la curvatura es ◮

 −

∂ 2 ln p ln p((x[0]; A) E ∂ A2



◮

Mide la curvatura promedio de la funci´ on on de verosimili veros imilitud tud logar´ logar´ıtmica. ıtmica . La esperanza se toma sobre los datos (x[0] en [0] en este caso), resultando en una funci´ on on unicamente u ńicamente de A.

Descripción on intuitiva de la CRLB Resumen Se dispone de un conjunto de datos y un modelo de los datos que depende de un par´ ametro ametro desconocido que se quiere estimar. ◮ El modelo impone una PDF de los datos, la cual depende del parámetro ame tro descono des conocid cido. o. ◮

◮

Si se considera la PDF como funci´ on on del par´ ametro ametr o manteniend mante niendo o fijos los datos, la funci´ on on se denomina funci´ on on de verosimilitud.

Cuanto mas fuerte es la dependencia de la función on de verosimilitud con el parámetro, ametr o, éste este puede estimarse estim arse con mayor mayor precisi´ precision. oń. ◮ Una forma de medir la dependencia de la funci´ on on de verosimilitud con el parámetro ametr o es a través es de la concavidad concav idad (opuesto (opues to de la derivada deriva da segunda segund a respecto resp ecto al parámetro). ametr o). ◮

◮

◮

Cuanto mayor es la concavidad, mayor es la dependencia con el parámetro ame tro y mejor mej or puede pue de estimars est imarsee el parámetro ame tro..

El estimador estim ador del parámetro ametr o tendrá menor varianza cuanto mayor esa e sa la concavidad de la función on de verosimilitud.

Cota Inferior de Cramer-Rao Teorema: Cota Inferi Inferior or de d e Cramer Cramer-Rao, -Rao, parámetro ametro escalar Hipótesis: otesis: La PDF p(x; θ ) satisface la condición on de regularidad,

∀θ,





∂ ln ∂ ln p p((x; θ ) E = 0 ∂θ

(1)

◮

La esperanza se toma sobre los datos x.

Tésis: 1. La varianza de todo estimador insesgado estimador insesgado θˆ cumple que var(θˆ)

≥

1 ∂ 2 ln p ln p((x; θ ) E ∂ θ2

 −

◮



(2) ◮

La derivada se eval´ ua ua en el valor verdadero de θ. La esperanza se toma sobre los datos x.

2. Existe un estimador que alcanza la cota para todo θ si y solo si ∂ ln ∂ ln p p((x; θ) = I ( I (θ )(g )(g (x) ∂θ

− θ)

para alguna funci´ on on I y g

Este estimador, que es el MVU, es θˆ = g g((x) y su varianza es

(3) 1 . I (θ)

CRLB. Consideraciones. Esperanza de las derivadas de la función de verosimilitud ◮

La esperanza se toma respecto a los datos x,



2

 

∂ ln p ln p((x; θ ) E = 2 ∂θ

◮

∂ 2 ln p ln p((x; θ ) p(x; θ )dx 2 ∂θ

La esperanza reconoce el hecho de que la función on de verosimilitud y sus derivadas son variables aleatorias por depender de los datos observados x. La cota depende en general del par´ ametro ametro desconocido θ.

CRLB. Consideraciones. Condición on de regularidad E



  

∂ ln ∂ ln p p((x; θ ) = ∂θ

∂ ln ∂ ln p p((x; θ) p(x; θ )dx ∂θ ∂ p(x; θ ) (a) = dx ∂θ (b) ∂ = p(x; θ )dx ∂θ (c)



=0

(a) Regla de la cadena (b) Cambio del orden de integraci´ on on y diferenciaci´ on on (c) ∀θ,



p(x; θ)dx = 1.

La condición on de regularidad se cumple si es posible cambiar el oreden de integración on y diferenciación. on. ◮ Esto es cierto en general salvo cuando el soporte de p(x; θ ) depende del parámetro ame tro descon des conoo cido cid o θ. ◮

◮

se deduce de la regla de integraci´ on on de Leibniz Leibni z (ver apéndice endic e I)

Ejercicio: Demostrar que en el caso en que x por lo tanto no es posible calcular la CRLB.

∼ U [0, θ ] no

se cumple la condición on de regularidad y

Ejemplo I CRLB para muestra de DC en WGN Estimar A a partir de x[0] = A = A + w[0] [0] donde donde w[0] = (0, (0, σ 2 ). ˆ = ˆ) = σ 2 . ◮ Eligiendo A = x x[0] [0],, se tiene que var( que var(A ◮ Las derivadas primera y segunda de la funci´ on on de verosimilitud son,

N

◮

∂ ln ∂ ln p p((x[0]; A) 1 = 2 (x[0] A) (4) [visto [vi sto en la página agi na 9] ∂A σ ∂ 2 ln p ln p((x[0]; A) 1 = (5) ∂ A2 σ2 ◮ Aplicando la ecuaci´ on on 2 de la cota de Cramer-Rao se tiene que

−

−

ˆ) var(A

≥ σ2 ∀A.

No existe un estimador insesgado de varianza menor a σ 2 ◮ Conclusi´ on: Como el estimador elegido es insesgado y alcanza la on: CRLB para todo A, es el estimador MVU.

Ejemplo I CRLB para muestra de DC en WGN ◮

En el caso de no haber descubierto a Aˆ = x = x[0] [0] como como estimador, se podr po dr´´ıa emplear la segunda parte del teorema de la CRLB.

De la ecuación on 3 del teorema de la cota de Cramer-Rao

La derivada de la función on de verosimiltud es (ec. 4)

∂ ln ∂ ln p p((x; θ) = I ( I (θ)(g )(g (x) ∂θ ◮ Iden Id enti tific fican ando do térmi ermino noss

∂ ln ∂ ln p p((x[0]; A) 1 = 2 (x[0] A) ∂A σ

− θ)

−

Se concluye que ◮

θ = A 1 I (θ ) = 2 σ g (x[0]) = x = x[0] [0]

◮

◮

Aˆ = g = g((x[0]) = x = x[0] [0] es es el estimador MVU. ˆ) = 1 = σ 2 var(A I (θ) Como el estimador alcanza la cota, se cumple la ecuaci´ on on 2 con igualdad, y I (θ) = −E



2

∂ ln p ln p((x[0]; A) ∂ A2



Ejemplo II CRLB para nivel de DC en WGN Como generalizaci´ on del ejemplo anterior, en este caso se observan on m´ ultiples muestras del nivel de continua en WGN, ultiples (0, σ 2 ) ∀n ∼ N (0,

−

x[n] = A + w[n] con n = 0, 1, . . . , N 1 y w[n] Se quiere determinar la CRLB de A. ◮ La funci´ on on de verosimilitud es N −1

p( p(x; A) =

 √

2πσ 2

n=0

= ◮

1

1 (2πσ (2πσ 2 )

N 2

exp

exp

−

1 (x[n] 2 2σ

−  1 2σ 2

− A)2



N −1

(x[n]

n=0

− A)2



.

Tomando el logaritmo queda, ln p ln p((x; A) =

− ln



(2πσ (2πσ 2 )

N 2

−  1 2σ 2

N −1 n=0

(x[n]

− A)2

(6)

Ejemplo II CRLB para nivel de DC en WGN ◮

Aplicando la derivada primera se tiene que ∂ ln ∂ ln p p((x; A) ∂ = ∂A ∂A 1 = 2 σ N = 2 σ

−   −   −   − 2

ln (2πσ (2πσ )

n=0

(x[n]

− A)2



N −1

(x[n]

A)

n=0

1 N

N = 2 (x ¯ σ ◮

1 2σ 2

N 2

N −1

N −1

x[n]

A

n=0

− A)

(7)

y diferenciando nuevamente, ∂ 2 ln p ln p((x; A) = 2 ∂A

− σN 2

Ejemplo II CRLB para nivel de DC en WGN ◮

Teniendo en cuenta que la derivada segunda es constante, empleando la ecuación on 2 se obtiene la CRLB, ˆ) var(A

◮

≥

1 ∂ 2 ln p ln p((x; A) E ∂ A2

 −



σ2 = . N

(8)

Adem´ Ade más, as, asocia aso ciando ndo los término erm inoss de la ecuaci ecu aci´ on oń 7 con los de la ecuación on 3 se llega a que ◮

◮

Aˆ = x ¯ (media muestral) alcanza la CRLB y por lo tanto es el estimador MVU. La ecuaci´ on on 8 se cumple con igualdad, 2 1 σ ˆ) = var(A = . I (A) N

La varianza del estimador es inversamente proporcional a la cantidad de datos observados.

Ejemplo III Estimación on de fase Se quiere estimar la fase φ de una sinusoide contaminada con WGN, x[n] = A cos(2 cos(2πf πf 0 n + φ) + w[n]

−

con n = 0, 1, . . . , N 1,

donde w[n] (0, (0, σ 2 ) para todo n. ◮ La derivada del logaritmo de la funci´ on de verosimilitud es (ejercicio) on

∼ N

∂ ln ∂ ln p p((x; φ) = ∂φ

− σA2



2



N −1

x[n] sin( sin(22πf 0 n + φ)

n=0

≈−



sin(4πf 0 n + 2φ 2 φ) − A2 sin(4πf

(9)

2 ∂ ln p ln p((x; φ) N A2 2 σ ◮ Ad Además E = var(φˆ) 2 2 ∂φ 2σ N A2 ◮ No se cumple la condici´ on para alcanzar la cota porque la ecuación on on 9 no se puede expresar en la forma de la ecuación on 3. ◮ Es posible que de todas formas exista un estimador MVU, pero mediante el teorema de Cramer-Rao no es posible determinar su existencia ni encontrarlo.

⇒

≥

.

Estimador eficiente Definición on Un estimador que es insesgado y alcanza la cota de Cramer-Rao para todos los valores del par´ ametro ametro desconocido se dice que es eficiente es eficiente..

Obsevación on Un estimador MVU puede ser o no ser eficiente. θˆ1 es eficiente y MVU

θˆ1 es MVU pero no eficiente

Ninguno alcanza la CRLB. ˆ1 es menor que la ◮ La varianza de θ de los otros estimadores insesgados. Es el MVU. ◮

◮

θˆ1 alcanza la CRLB y por lo tanto es el MVU.

Información on de Fisher Definición on La informaci´ La informaci´ on de Fisher para on Fisher para los datos x se define como:

◮

◮

I (θ) =

Cuando un estimador alcanza la CRLB, su varianza es:

 −

∂ 2 ln p ln p((x; θ ) E ∂ θ2

var(θˆ) =



(10)

1 ∂ 2 ln p ln p((x; θ) E ∂ θ2

 −



1 = I (θ)

Propiedades I (θ ) tiene las propiedades de una medida de información: on: ◮ Es no-negativa Es no-negativa.. Esto puede verse a partir de la siguiente igualdad:

 −

 

∂ 2 ln p ln p((x; θ) E = E = E 2 ∂θ

◮

∂ ln ∂ ln p p((x; θ ) ∂θ

 2

-Ejercicio, -Ejer cicio, ver Ap´ endice endice 3A en [Kay, en [Kay, 1993] -Ejercicio: -Ejercicio: calcular calcular la CRLB para nivel de DC en WGN

Es aditiva Es aditiva para para observaciones independientes Si I (θ ) es la información on de N observaciones IID y i(θ ) de una única unica observaci´

I (θ ) = N i(θ)

Información on de Fisher Aditividad para observaciones IID ◮

La densidad de probabilidad de N observaciones N observaciones IID cumple que N −1

− − 1]; θ) =

p( p(x; θ ) = p( p (x[0], [0], x[1], [1], . . . , x[ x[N ◮



p( p(x[n]; θ).

n=0

La informaci´ on on de Fisher es entonces I (θ) =

 − E

con i(θ ) =

∂ 2 ln p ln p((

 −

x; θ )

∂ θ2

 −   N −1

=

E

n=0

∂ 2 ln p ln p((x[n]; θ ) ∂ θ2



= N = N i(θ ),

∂ 2 ln p ln p((x[n]; θ ) E la informaci´ on on de Fisher de una 2 ∂θ

muestra. La CRLB al observar N N muestras muestras IID es N N veces veces menor que al observar una muestra (como muestra (como en los ejemplos I y II) Inde Independ penden enci ciaa No Indepe Independ nden encia cia Depend Dependen enci ciaa co comp mplet letaa I (θ ) = N i(θ) I (θ ) < N i(θ) I (θ ) = i( i (θ)

CRLB general para señales nales en WGN Se derivar´ a la CRLB para el caso de una se˜ nal nal s[n; θ ] con AWGN, frecue fre cuente nte en la práctica act ica.. ◮ Sea una se˜ nal nal determ det ermin in´´ıstica ıst ica con un parámetro ame tro descon des conoo cido cid o θ observada en AWGN,

−

x[n] = s s[[n; θ ] + w[n] con n = 0, 1, . . . , N 1 y w[n] ◮

La función on de verosimilitud es p( p(x; θ) =

◮

1

−   −   −

(2πσ (2πσ 2 )

N 2

1 2σ 2

exp

N −1

(x[n]

n=0

− s[n; θ])2



Tomando el logaritmo queda ln p ln p((x; θ) =

◮

(0, σ 2 ) ∀n ∼ N (0,

− ln

(2πσ (2πσ 2 )

1 2σ 2

N 2

N −1 n=0

(x[n]

− s[n; θ])2

Diferenciando una vez se tiene que ∂ ln ∂ ln p p((x; θ ) 1 = 2 ∂θ σ

N −1

(x[n]

n=0

∂ s(n; θ) s[n; θ]) ∂θ

CRLB general para señales nales en WGN ◮

Una segunda diferenciaci´ on on resulta en ∂ 2 ln p ln p((

x; θ )

1 = 2 σ

∂ θ2 ◮

 

N −1

(x[n]

n=0

− s[n; θ])

∂ 2 s(n; θ) ∂ θ2

−   ∂ s(n; θ) ∂θ

2

y tomando el valor esperado,



2

  −    −

∂ ln p ln p((x; θ ) 1 E = 2 ∂ θ2 σ (a)

=

N −1

(E (x[n])

n=0

1 σ2

N −1

∂ s(n; θ) ∂θ

n=0

2

∂ s(n; θ) s[n; θ ]) ∂ θ2

−   ∂ s(n; θ) ∂θ

2

,

en donde en (a) se empleó que E (x[n]) = s[ s [n; θ ]. ◮ La CRLB es por lo tanto var(θˆ)

≥ N

σ2

   −1

n=0

∂ s(n; θ ) ∂θ

2

(11)

Se obtiene una mejor estimación on cuando la se˜ nal nal cambia mas rápid ap idam amen ente te co con n el par´ par ámet am etro ro..

2

CRLB general para señales nales en WGN Ejemplo: Estimación on de la frecuencia de una sinusoide Se considera una señal nal sinusoidal en AWGN y se quiere estimar su frecuencia. ◮ Sea la se˜ nal nal

−

x[n] = s s[[n; θ ] + w[n] con n = 0, 1, . . . , N 1 y w[n]

(0, σ 2 ) ∀n ∼ N (0,

donde s[n; f 0 ] = A cos(2πf cos(2πf 0 n + φ)

con 0 < f 0 <

con la amplitud A y la fase φ conocida. ◮ Usando la ecuaci´ on on 11 11,, la CRLB es ˆ0 ) var(f

≥

σ2 A2



N −1 n=0

[2πn [2πnsen sen(2 (2πf πf 0 n + φ)]2

1 2

CRLB general para señales nales en WGN Ejemplo: Estimación on de la frecuencia de una sinusoide Observaciones En la precisión on del estimador hay frecuencias preferidas. ◮ Cuando f 0, CRLB . Esto es porque para f 0 0, 0 peque˜ nos nos cambios en f 0 no alteran la señal nal significativamen significativamente. te. ◮ Mediante la teor´ teor´ıa de Cramer-Rao, se encontr´ o una cota de la varianza del estimador, pero no es posible encontrar el estimador en este ejemplo. ◮

→

≈

Estimacion de frecuencia, N = 10, φ = 0, SNR = 0 dB

−4

4

→∞

x 10

B 3 L R C2

1

0

0.05

0.1

0.15

0.2

0.25 0. 3 Frecuencia

0.35

0.4

0.45

0.5

Transformación on de par par´ámet ametro ross Ejemplo: potencia de DC en WGN ¯ es un estimador eficiente de A. En el Ejemplo II se vio que x ◮ Podr´ Podr´ıa ocurrir que no interese el signo de A y en cambio interese por ejemplo, la potencia A2 de la señal. nal. ◮ Surgen las preguntas: ◮

1. ¿x ¯2 es un buen estimador de A2 ? 2. ¿C´ omo o mo obtener la CRLB de A2 ?

1. x ¯2 como estimador de A2 : estudio del sesgo. Como x ¯ es un estimador eficiente de A y la CRLB( la CRLB(A A) = σ 2 /N , N , x ¯

N ) ∼ N (A, σ2/N )



E x ¯2 = E = E 2 (x ¯) + var (¯ x) σ2 = A + (12) N = A 2 2



¯2 ni siquiera es un estimador insesgado de A2 x Una transf transform ormaci´ aci´ on no lineal destruye la eficiencia de un estimador. on

Transformación on de par par´ámet ametro ross Ejemplo: potencia de DC en WGN 2. Cálculo alculo de la CRLB de A2 Teorema:: La CRLB del estimador de α = g Teorema = g((θ ) es

var(ˆ α)

≥



2

∂g ∂θ ∂ 2 ln p ln p((x; θ ) E ∂ θ2

 −

   =

∂g ∂θ

2

CRLB(θˆ)

(13)

Ver demostraci´ on on en Ap´ endice endice 3A en [Kay, en [Kay, 1993]

En el caso del ejemplo, α = g = g((A) = A 2 y por lo tanto,

 ≥

var(A2 )

(2A (2A)2 4A2 σ 2 = N/σ 2 N

Observación: on: Al emplear la ecuación on 13, 13, la la CRLB queda en general expresada en función on del valor del parámetro ametr o θ .

(14)

Transformación on de par par´ámet ametro ross Eficiencia bajo transformaciones lineales Se supone que θˆ es un estimador eficiente estimador eficiente de θ y se quiere estimar g (θ ) = aθ a θ + b. ◮ Como estimador se elige g (θ ) = g( g (θˆ) = a θˆ + b. ◮

Esperanza



E g (θ) = E = E (aθˆ + b)

◮

◮

= aE ( aE (θˆ) + b = aθ + aθ + b = g( g (θ )



Varianza



var g (θ) = var(a var(aθˆ + b) = a var(θˆ) 2

CRLB

   ≥  

var g (θ )

=

∂g ∂θ I (θ)

2

∂g ∂θ

2

var(θˆ)

= a 2 var(θˆ)

El estimador transformado es insesgado, ya que E g (θ) = g = g((θ ). También en es eficiente, ya que la varianza coincide coinci de con la CRLB.

Las transformaciones lineales mantienen la eficiencia de los estimadores

Transformación on de par par´ámet ametro ross Sesgo y eficiencia asintóticos oticos La eficiencia es aproximadamente es aproximadamente mantenida mantenida bajo transformaciones no lineales si el si el conjunto de datos es suficientemente grande ◮

Estimador asint´ oticamente oticamente insesgado: insesgado: lim E (θˆ) = θ N →∞

◮

Estimador asint´ oticamente oticamente eficiente: eficiente: lim var(θˆ) = CRLB(θ CRLB(θ ) N →∞

Ejemplo: potencia de DC en WGN Previamente se vio que x ¯2 es un estimador sesgado de A2 . ◮ Sin embargo, la esperanza es (ecuaci´ on on 12 12)) ◮

σ2 E (x ¯ ) = A + N 2

2

−→ N

→∞

A2

x ¯2 es un estimador asintóticamente oticamente insesgado de A2

Transformación on de par par´ámet ametro ross Ejemplo: potencia de DC en WGN ◮

Ade A dem´ más, co como mo x ¯

N ) es posible evaluar la varianza, ∼ N (A, σ2/N ) var(¯ x2 ) = E ( E (x ¯4 ) − E 2 (x ¯2 )

Observaci´ on: Si ξ ∼ N (µ, σ2 ), los momentos segundo y cuarto son on: respectivamente, E (ξ 2 ) = µ 2 + σ 2

var(ξ var(ξ 2 ) = E (ξ 4 ) − E 2 (ξ 2 )

E (ξ 4 ) = µ 4 + 6µ 6µ2 σ 2 + 3σ 3σ4

= 4µ2 σ2 + 2σ 2σ4

Demostraci´ on: on: ejercicio. ejercicio.

4A2 σ 2 2σ 4 var(¯ + 2 x )= N N 2

− → N

→∞

4A2 σ 2 = CRLB( CRLB(x ¯2 ) N

x ¯2 es un estimador asintóticamente oticamente eficiente de A2

Transformación on de par par´ámet ametro ross Linealidad Lineali dad estad estad´´ıstica de una transformac transformaci´ ión on no lineal ¯ se concentra alrededor de la A medida que crece N , N , la PDF de x media A. Los valores observados de x ¯ están an en un intervalo inter valo peque˜ peq ueño no en torno de A. ◮ En ese intervalo peque˜ no, no, la transformaci´ on on no lineal es aproximadamente lineal. ◮ Los valores de x ¯ en la región on no lineal ocurren raramente. ◮

N pequeño

N grande

Transformación on de par par´ámet ametro ross Linealidad Lineali dad estad estad´´ıstica de una transformac transformaci´ ión on no lineal Formalmente, esto se puede ver linealizando la transformaci´ on on g en A, dg( dg (A) g (x ¯) g (A) + (x ¯ A). dA ◮ Con esta aproximaci´ on, on, se cumple que ◮

≈

dg( dg (A) E [ E [g (x ¯)] = g( g (A) + (E ( E (x ¯) dA = g( g (A)

− A)

= A 2 El estimador es asintóticamente oticamente insesgado

−

 

2

dg( dg (A) var [g (x ¯)] = var(¯ x) (15) dA 2 2σ = (2A (2A) N 4A2 σ 2 = N El estimador alcanza la CRLB asintóticamente oticamente

La linealizaci´ on conduce a un estimador asintóticamente on oticamente eficiente. eficiente. ◮ La ecuaci´ on on 15 15 provee provee intuición on de la forma de la ecuación on 13 13.. ◮

Transformación on de par par´ámet ametro ross

Resumen ◮

Una transformaci´ Una transformaci´ on lineal de on lineal de un estimador eficiente mantiene eficiente mantiene la eficiencia.. eficiencia ◮

El estimador transformado es un estimador eficiente del par´ ametro ametro transformado.

Una transformaci´ Una transformaci´ on no lineal de on lineal de un estimador eficiente destruye eficiente destruye la eficiencia,, e incluso puede hacerlo sesgado. eficiencia ◮ Sin embargo, el estimador transformado no linealmente es asintóticamente oticamente insesgado y eficiente. eficiente. ◮

◮

Cuando la cantidad N de N de datos crece, el estimador tiende a ser insesgado y eficiente.

Extensión on a ve vect ctor or de parámetr ametros os Se estudi est udiar´ ará la extens ext ensi´ ión on de los resultados al caso en que hay mas de un parámetro ame tro descon des conoc ocido ido.. T ◮ Se desea estimar estim ar el e l vector de parámetros ametr os θ = [θ1 θ2 . . . θ p ] . ˆ es insesgado, la CRLB para un vector ◮ Asumiendo que el estimador θ de par´ ametros ametros establece una cota en la varianza de cada elemento, ◮

var(θî )

≥  I−1 (θ )

ii

,

donde I(θ) es la matriz la matriz de información on de Fisher p ◮ La matriz de informaci´ on de Fisher se define como on [I(θ)]ij =

 − E

2



p. × p.

ln p((x; θ ) ∂ ln p i = 1, 2, . . . , p , con j = 1, 2, . . . , p ∂ θi ∂ θj

(16)

en donde al evaluar esta ecuación on hay que emplear el valor verdadero de θ . ◮ Notar que en el caso escalar ( p ( p = = 1), I(θ ) = I ( I (θ ), con I (θ ) definida en la ecuación on 10 10,, obteniendo la CRLB escalar.

Ejemplo IV CRLB para nivel de DC en WGN Como extensión on del Ejemplo II, se considera la observación on de N muestras del nivel de continua en WGN,

−

x[n] = A + w[n] con n = 0, 1, . . . , N 1 y w[n]

(0, σ 2 ) ∀n ∼ N (0,

pero per o ahora, además as de desconoc descon ocerse erse A tambi´ tamb ién en se descono des conoco coce ce σ 2 .

 

En este caso, el vector de par´ ametros ametros es θ = A σ 2 ◮ La matriz de informaci´ on on de Fisher 2 2 es, ◮

I(θ ) =

 −  − 

∂ 2 ln p ln p((x; θ ) E ∂ A2 ∂ 2 ln p ln p((x; θ ) E ∂ σ2 ∂A

simétrica etrica y definida defini da positiva pos itiva..

×

− −

T

, y p = 2.

∂ 2 ln p ln p((x; θ ) E ∂A∂σ 2 ∂ 2 ln p ln p((x; θ ) E ∂ σ22

  

,

Ejemplo IV CRLB para nivel de DC en WGN ◮

La función on de verosimilitud verosimilitud logar logar´ıtmica, al igual que en el ejemplo II II (ecuación on 6), es ln p ln p((x; θ) =

◮

−

N ln 2π 2

−

N ln σ 2 2

−

1 2σ 2

N −1



(x[n]

n=0

y las derivadas son (ejercicio), ∂ 2 ln p ln p((x; θ) = 2 ∂A

− σN 2

∂ 2 ln p ln p((x; θ) = 2 ∂A∂σ

1 σ4

ln p((x; θ) ∂ 2 ln p ∂σ22

−

N = 2σ 4

N −1



− A)

(x[n]

n=0

−

1 σ6

N −1



n=0

(x[n]

− A)2

− A)2.

Ejemplo IV CRLB para nivel de DC en WGN ◮

◮

Tomando el opuesto de la esperanza, se construye la matriz de Fisher, Como en este caso la matriz de Fisher Fishe r es diagonal, diago nal, es fácil acil de invertir, conduciendo a que la cota de Cramer-Rao es

I(θ) =

 

N σ2 0

ˆ) var(A

≥ ˆ2 ) ≥ var(σ

0 N 2σ4

 

.

σ2 N 2σ 4 N

Observaciones La CRLB de Aˆ es la misma que en el caso en que σ 2 es conocido (ejemplo II). ◮ An´ alogamente, alogamente, se puede ver que la CRLB de σˆ2 es la misma si A es conocido (ejercicio). ◮ Lo anterior se debe a que la matriz de Fisher es diagonal. ◮

Extensión on a ve vect ctor or de parámetr ametros os Teorema: Cota Inferi Inferior or de Cramer Cramer-Rao, -Rao, parámetro ametro vectorial Hipótesis: otesis: La PDF p(x; θ ) satisface la condición on de regularidad,

∀θ ,

E





∂ ln ∂ ln p p((x; θ) = 0 ∂ θ

◮

La esperanza se toma respecto a los datos x.

Tésis: 1. La matriz de covarianza de todo estimador insesgado θˆ cumple que Cθˆ ◮ ◮ ◮ ◮

−1

−I

(θ )

≥ 0,

donde [I(θ)]ij =

 − E

2

∂ ln p ln p((x; θ ) ∂ θi ∂ θj



(17)

on on de Fisher I(θ) es la matriz de informaci´ ≥ 0 se interpreta en el sentido de matriz semidefinida positiva La derivada se eval´ ua en el valor verdadero de θ. ua La esperanza se toma respecto a los datos x.

2. Existe un estimador que alcanza la cota Cθˆ = I −1 (θ) si y solo si para alguna funci´ on on g : RN → Rp y alguna matriz I p × p. p.

∂ ln ∂ ln p p((x; θ ) = I (θ )(g(x) θ) (18) ∂ θ ˆ = g (x) con matriz de covarianza I−1 , MVU. Ese estimador es θ

−

Extensión on a ve vect ctor or de parámetr ametros os Consecuencias ◮

◮

◮

Como en una matriz semidefinida positiva todos los elementos de la diagonal son no negativos, la ecuaci´ on on 17 17 implica implica que



Cθˆ

 − ≥   ≥     −1

I

(θ)

ii

0

Por lo tanto, la varianza de cada elemento del vector estimador cumple que var(θî ) = Cθˆ ii (19) I−1 (θ ) ii . Si se cumple la condición on de la ecuación on 18, 18, la la ecuación on 19 se cumple con igualdad, var(θî ) = I−1 (θ)

ii

.

ˆ = g(x) es eficiente El estimador θ es eficiente y y por lo tanto MVU. Ver la definici´ on on de la matrix de covarianza covarianza en el ap´ endice endice en pag. 45

Apéndice I Distribución on de probabilidad ◮

La distribución on de probabilidad (CDF , Cumulative Distribution Function) de una variable aleatoria real X X se se define como

{ ≤ ≤ x} .

F X (x) = Pr X ◮

Se puede expresar como la integral de la PDF pX (x) como



pX (x) = N (0, 1)

x

F X (x) =

1

pX (u) du.

−∞

◮

0 .5

∼ ∼ N

Si X (0, (0, 1), 1), la CDF se denomina función on Φ, Φ(x Φ(x) =

 √ 1 2π

x

−3

x

3

x

Φ(x)

1 2

e−u

/2

du, 0 .5

−∞

y sus valores val ores están an tabulados.

3

3

Apéndice I

Distribución on de probabilidad ◮

∼ ∼ N (µ, σ2), se cumple que Pr {X ≤ ≤ x} = Φ x − µ

Si X X es es una variable aleatoria con X

  σ

◮

Notar que la transformación on de la variable aleatoria ′

x = hace que X ′

(0, 1). 1). ∼ N (0,

x

−µ σ

Apéndice II Regla de Integración on de Leibniz d dθ



◮

b(θ )

a(θ )

 

b(θ )

∂ f ( f (x, θ) dx + f b(θ), θ ·b (θ) − f a(θ), θ ·a (θ) ∂θ

 

f ( f (x, θ) dx =

a(θ )

′

 

′

De la regla surge que el orden de derivaci´ on on y integraci´ on on puede cambiarse si los l´ımites ımite s de integraci´ integ raci´ on on no dependen de θ, a(θ) b(θ)

= =

a b

′

⇒

′

a (θ) = b (θ) = 0,

y d dθ

b

 a

b

 

f ( f (x, θ) dx

=

a

∂ f ( f (x, θ) dx. ∂θ

Apéndi dicce III Covarianza ◮

La covarianza entre dos variables aleatorias X y Y se Y se define como



− −

−



cov(X, cov(X, Y ) Y ) = E (X E [X ])(Y ])(Y E [Y ]) Y ]) = E [X Y ] Y ] E [X ]E [Y ] Y ]. ◮

◮

◮

Es una medida de la la dependencia entre dependencia entre variables aleatorias.

Definici´ on: dos variables on: variables aleatorias aleatorias X y Y Y se dicen no correlacionadas si cov(X, cov(X, Y ) Y ) = 0.

Independencia: si dos varia variables bles aleatori aleatorias as X y Y son independientes se cumple que cov( que cov(X, X, Y ) Y ) = 0,

−

cov(X, cov(X, Y ) Y ) = E [X Y ] Y ] E [X ]E [Y ] Y ] = E [X ]E [Y ] Y ] E [X ]E [Y ] Y ]

−

(Lo rec´ rec´ıproco ıpro co no es cierto.)

Apéndi dicce III

Matriz de Covarianza ◮



Sea el vector de variables aleatorias X = X 1 X 2 . . . Xn de covarianza se define como



= E (X C = E

− E [X]) (X − E [X])

T





T

, la matriz

donde la esperanza de un vector y una matriz con entradas aleatorias se define como la esperanza de las entradas.

Apéndi dicce III Matriz de Covarianza

C =

=

E [(X [(X 1 − µ1 )(X )(X 1 − µ1 )]

E [(X [(X 1 − µ1 )(X )(X 2 − µ2 )]

···

E [(X [(X 1 − µ1 )(X )(X n − µn )]

E [(X [(X 2 − µ2 )(X )(X 1 − µ1 )]

E [(X [(X 2 − µ2 )(X )(X 2 − µ2 )]

···

E [(X [(X 2 − µ2 )(X )(X n − µn )]

.. .

.. .

..

.. .

E [(X [(X n − µn )(X )(X 1 − µ1 )]

E [(X [(X n − µn )(X )(X 2 − µ2 )]

···

       

var(X var(X 1 )

cov(X 1 , X 2 )

· · · cov(X cov(X 1 , X n )

cov(X cov(X 2 , X 1 )

var(X 2 )

· · · cov(X cov(X 2 , X n )

.. .

.. .

..

cov(X cov(X n , X 1 )

cov(X n , X 2 )

···

.

.. . var(X var(X n )

   

.

   

E [(X [(X n − µn )(X )(X n − µn )]

Referencias I

Kay, S. M. (1993). Fundamentals of Statistical Signal Processing, Volume I: Estimation Theory , chapter 3.

Prentice Hall, 1st edition.

COTA DE CRAMER RAO

Recommend Documents