APPENDICE I Proprietà del coefficiente binomiale: r n ∈ n n n! n( ) con = = = r n − r r ! n − r ! r ! + ( ) r ∈
n + 1 n n n n − 1 = + ; r = n r r − 1 r r r − 1 s n s n − s Formula di cancellazione: r ( ) = n( ) r r − s ∞ a b a + b Identità ipergeometrica: ∑ = n r n r − r = 0 n n −1 n n − 2 2 n n −1 n n n n − r r n n Binomio di Newton: ( a + b ) = a + a b + a b + ... + ab + b = ∑ r a b 1 2 n 1 − r = 0 n r = 0
se n < r oppure r < 0 ;
Coefficienti multinomiali:
n n! P ( x1...xk ) = f ( x1...xk ) = = x1 x2 ... xk x1 ! x2 !... xk !
con x1 + x2 + ... + xk = n
Funzione gamma: ∞
Γ ( n) = ∫ x
e dx = −e x
n −1
−x
−x
n −1
0
Γ (1) = 1;
∞
∞
0 + ( n − 1) ∫ x n − 2e − xdx ⇒ Γ ( n ) = ( n − 1) Γ ( n − 1)
con n > 1
0
Γ ( n + 1) = n!;
1 Γ = 2
π;
1 1 3 1 Γ n + = n − n − ... 2 2 2 2
π
Formula di Stirling:
n! ≈
2π n ( n ne − n )
CAPITOLO I - Introduzione Distribuzione non uniforme o Geometrica: esperimento relativo al tempo di vita di una lampadina. Supponiamo di avere inizialmente N lampadine e che, nell’intervallo di un’ora, la percentuale di lampadine che sopravvive sia pari ad s ad s (con s (con s costante col trascorrere delle ore), cioè: dopo la prima ora sN lampadine sopravvivono " lampadine si guastano (hanno zero ore di vita) N − sN = (1 − s ) N N
dopo la seconda ora " …dopo la i-esima ora "
s ⋅ sN = s 2 N sN − s 2 N = (1 − s ) sN s i N s i −1 N − s i N = (1 − s ) s i −1 N
lampadine sopravvivono lampadine si guastano (hanno un’ora di vita) lampadine sopravvivono lampadine si guastano (hanno i-1 ore di vita)
I possibili risultati dell’esperimento sono “0 ore”, “1 ora”, ... (di vita) e a questi risultati (eventi semplici) possiamo associare i numeri naturali. Lo spazio campionario è quindi S = {0 ,1 ,2 ,...}, e p n
= (1 − s )s n
è la
probabilità che una lampadina abbia n ore di vita. CAPITOLO II – Calcolo combinatorio Disposizioni semplici: i gruppi che si possono formare con n oggetti dati in modo che ognuno contenga solo k oggetti k oggetti distinti e che due gruppi differiscano tra loro o per qualche elemento o per l’ordine:
Dn , k = n ( n − 1) ( n − 2) ... ( n − k
+ 2 ) ( n − k + 1) ≡ n ( k )
con k
≤n
Permutazioni: disposizioni semplici di n oggetti di classe n (differiscono solo per l’ordine):
Pn
= Dn , n = n ( n ) = n ( n − 1) ( n − 2 )...2 ⋅ 1 = n !
Combinazioni: i gruppi di k oggetti che si possono formare con n oggetti, in modo che i gruppi
1
differiscano almeno per un oggetto; nelle disposizioni semplici i gruppi possono differire anche per l’ordine, nelle combinazioni differiscono tra loro solo quando differiscono per almeno un elemento: Dn , k n ( n − 1)( n − 2 ) ... ( n − k + 1) n( k ) n n n! = = = = C n , k = = k! k! k! k !( n − k ) ! n − k k Disposizioni con ripetizione: i gruppi che si possono formare con n oggetti dati in modo che ognuno contenga solo k oggetti, con la possibilità di ripetere ciascuno di essi una o più volte all’interno di una stessa sequenza, e che due gruppi differiscano tra loro o per qualche elemento o per l’ordine: Dn′ , k = n k CAPITOLO III – Risultati equiprobabili Distribuzione Ipergeometrica: se una certa caratteristica divide una intera popolazione in due gruppi distinti a e b e un campione di dimensione n viene estratto a caso (random) e senza reimmissione, la probabilità che il campione contenga x membri di tipo 1 (e quindi n-x membri del secondo tipo), è: Tipo 1 Tipo 2 Totale Popolazione a b a+b Campione x n-x n •Sequenze ordinate:
N A n ( x ) ( n − x) 1 f x P A a b ⇔ = = = ( ) ( ) n x n − x ( n) N S x N A = a ( )b ( ) (a + b) x •Sequenze non ordinate: a + b N S ′ = N A′ Ca , xC b, n − x a b a + b n ′ f x P A ⇔ = = = = ( ) ( ) N S ′ C a + b, n a b x n − x n N A′ = x n − x a − x +1 n − x +1 Relazione di ricorrenza: f ( x ) = r ( x ) f ( x − 1) r ( x ) = ⋅ x b−n+x N S = ( a + b )
(n)
con x ∈
Campioni con tutti gli elementi distinti nel campionamento random con reimmissione: probabilità che tutti gli elementi siano distinti:
P ( A ) =
N A N s
=
n(
r )
nr
=
n!
( n − r )!n r
≡ qr 2π nn ne − n
n − r
n e − r ⇔ q → 1 per n → ∞ ⇒ ≅ = r n − r n−r n −r ( n − r )!n r 2π ( n − r ) ( n − r ) e − n + r n r n!
n
→1
r = 1+ n − r
n − r
→ er
Distribuzione Binomiale: come nell’ipergeometrica ma con reimmissione: a p = n x n− x a+b ⇔ f ( x ) = p (1 − p ) ≡ b ( n, p ) b x 1 − p = a +b n − x +1 a Relazione di ricorrenza: f ( x ) = r ( x ) f ( x − 1) con r ( x ) = ⋅ b Approssimazione dell’Ipergeometrica alla Binomiale:
2
n ( a + b ) con x ∈ a p = a+b
a b a + b n x n−x p 1 p ≈ − ( ) x n − x n x
CAPITOLO IV - Spazi di probabilità e Calcolo delle probabilità Algebra booleana: è l’insieme della parti β ( S ) ⊆℘( S ) se:
∀ A ∈ β ( S ) ⇒ A ∈ β ( S ) ; cioè è chiuso rispetto a ∪, ∩, c.
∀ A, B ∈ β ( S ) ⇒ A ∪ B ∈ β ( S )
Misura: un qualsiasi valore reale non negativo associato ad ogni insieme con: A ∩ B = ∅ ⇒ m ( A ∪ B ) = m ( A ) + m ( B ) B ⊆ A ⇒ m ( B ) ≤ m ( A ) Spazi di probabilità: si passa alla σ-algebra passando all’unione di infiniti sottoinsiemi. E’ formato da: 1)S = insieme o spazio campionario (i possibili risultati; 2)℘(S ) = insieme delle parti di S ; 3) p = probabilità; Probabilità: misura di massa totale pari a 1. Eventi indipendenti: P ( AB ) = P ( A ) ⋅ P ( B )
con A, B eventi (vedi “Variabili random indipendenti”)
Eventi disgiunti o mutuamente esclusivi: P ( S n ) = P ( a1 ) + P ( a 2 ) + ... + P ( a n ) con S n
= a1 + a 2 + ... + a n
Prove di Bernoulli: ripetizioni indipendenti di un esperimento che dà luogo a due soli possibili risultati (con reimmissione) s (success) ed f (failure). La probabilità di ottenere esattamente x successi in n prove di Bernoulli è data dalla binomiale b(n, p). Probabilità condizionata: probabilità di A dato (che si è verificato) B: P ( AB ) P ( A | B ) = con P ( B ) ≠ 0 P ( B )
Regola di Bayes: P ( AB ) = P ( A | B ) P ( B ) = P ( B | A ) P ( A )
essendo AB
= BA
Ogni evento B può essere scritto come unione di k eventi mutuamente esclusivi con: S = A1 ∪ A2 ∪ ... ∪ Ak ; Ai ∩ A j = φ ; i≠ j; B = ( BA1 ) ∪ ( BA2 ) ∪ ... ∪ ( BAk ) ⇔ P ( B ) =
k
∑ P ( B | A )P ( A ) i
i
i =1
Teorema di Bayes: P ( Ai | B ) =
P ( BAi ) P ( B )
=
P ( B | Ai ) P ( Ai ) P(B)
=
(
) ( )
P B | A P A i i k
∑ P B | A j P A j j =1
Binary symmetric channel: esperimenti dipendenti, poiché l’output dipende dall’input:
P (1O | 0i ) = P ( 0O |1i ) = ε P (1O |1i ) = P ( 0O | 0i ) = 1 − ε P (1o ) = ∑ P (1o , j ) = ∑ P (1o | j ) P ( j ) = P (1o | 0i ) P ( 0i ) + P (1o |1i ) P ( 1i ) = ε ( 1 − p) + ( 1 − ε ) p = ε + p − 2ε p Distorsione del segnale
j∈I
P ( 0o ) =
j∈I
∑ P (0 , j ) = ∑ P (0 o
j∈I
P (1i |1o ) =
o
| j ) P ( j ) = P ( 0 o | 0 i ) P ( 0 i ) + P ( 0 o |1i ) P (1i ) = (1 − ε )(1 − p ) + ε p
= 1 − ε − p + 2ε p
j ∈I
P (1i ,1o ) P (1o )
=
P (1o |1i ) P (1i ) P (1o )
=
(1 − ε ) p q
=
(1 − ε ) p ε + p − 2ε p 3
CAPITOLO V – Variabile aleatoria discreta Variabile aleatoria: funzione. Funzione di probabilità: gode delle proprietà delle probabilità: f ( x ) = P ( X = x ) = pi ∀x ∈ Rx
∑
i∈( X = x )
Funzione indicatrice di A: è la v.a. X A che assume valore 1 se l’evento A si avvera e 0 in caso contrario:
f (1) = P ( X A
= 1) = P ( A) ;
f (0) = P ( X A
= 0) = P ( A)
Funzione Cumulativa o di ripartizione: distribuzione di probabilità dell’vento x ≤ t :
−∞ ≤ t ≤ ∞ F ( t ) = P ( X ≤ t ) = ∑ f ( x ) con F ( −∞ ) = 0 x ≤ t F +∞ = 1 ( ) f (xi ) = P(X = x i ) = P {( X ≤ xi ) − ( X ≤ x i − 1 )} = P(X ≤ xi ) − P (X ≤
xi − 1
) = F ( x i ) − F ( xi −1)
Funzioni composte: una funzione a valori reali y=h( X ) di una v.a. X è una v.a. con distribuzione: g ( y ) = f ( x)
∑
x:h ( x ) = y
Tempi di attesa nelle prove di Bernoulli:
n n− x con x = 0, 1, ... , ≡ n° di successi nelle prime n prove ⇒ P ( X n = x ) = p x (1 − p ) x n − 1 x n− x N x ≡ n° di prove per x successi ⇒ P ( N x = n ) = p (1 − p ) con n = x , x + 1, ... x 1 − X n
P ( N x
= n) =
x n
P(Xn
= x) ;
P ( N x
n
> n) = P ( X n < x)
Mancanza di memoria nella legge geometrica: se X è una v.a. che segue una legge geometrica di parametro p vale la relazione: ∞
P ( X
≥ k ) = ∑ p (1 − p ) = (1 − p ) n
∞
k
n=k
∑ p (1 − p )
n− k
= (1 − p )
∞
k
n= k
∑ p (1 − p ) = (1− p ) l
l=0
k
= k + m, X ≥ k ) P( X = k + m) p(1 − p)k + m = = = p(1 − p)m = P( X = m) k P( X ≥ k ) P( X ≥ k ) (1 − p) P ( N 1 = k + m | N 1 > k ) = P ( N 1 − 1 = k + m − 1 | N 1 − 1 > k − 1) = P ( N 1 − 1 = k + m − 1 | N 1 − 1 ≥ k ) = P ( N1 − 1 = m − 1) = P ( N1 = m) P( X
= k + m | X ≥ k) =
P( X
Tempi di attesa nel semplice campionamento random: estrazioni non indipendenti, senza reimmissione: n x n − x a b a + b (n) P ( X n = x ) = a ( )b ( ) ( a + b ) = x x n − x n
Come prove Bernoulli.: P ( N x
= n) =
x n
P(Xn
n − 1 ( x ) ( n − x) ( n) a b = x) = (a + b ) ; x − 1
P ( N x
> n) = P ( X n < x )
Distribuzione di Poisson: o legge degli eventi rari: x ∈ µ x − µ f ( x ) = e con + x ! µ ∈ = media della distrbuzione
Formula di ricorrenza:
f ( x ) f ( x − 1)
=
µ x
Approssimazione di Poisson alla Binomiale: di parametro µ =np:
4
n x µ x − µ n− x n p ⇒ n np ⇔ p (1 − p ) ≈ e x x ! Distribuzioni bivariate – Congiunta, Marginale e Condizionale: Funzione probabilità congiunta di X e Y : f ( x, y ) = P ( X = x, Y = y )
con x ∈ R x , y ∈ R y
= x ) = ( X = x ) ∩ S = ( X = x ) ∩ ∪ (Y = yi ) = ∪ ( X = x ) ∩ (Y = yi ) ⇔ i i ⇔ f1 ( x) = P( X = x ) = P ∪ ( X = x )∩(Y = yi ) = ∑ P ( X = x ,Y = yi ) = ∑ f (x , y )
( X
{
}
i
y∈R y
i
Funzione probabilità marginale di X e Y : f 1 ( x ) =
∑
f ( x, y ) ;
f 2 ( y ) =
y∈ R y
P (Y
= y | X = x) =
= y , X = x ) f ( x, y ) = ⇔ P ( X = x ) f1 ( x )
P (Y
f 2 ( y | x ) = P (Y
∑
f ( x, y )
x∈ R x
= y | X = x) =
f ( x, y ) f1 ( x )
Funzione probabilità condizionale (di Y condizionato ad X=x) è: f 2 ( y | x ) =
N.B.:
= y , X = x ) f ( x, y ) = ⇔ f ( x, y ) = P ( X = x ) f1 ( x )
P (Y
∑ f
2
( y | x) =
y∈R y
y ∈ R y con f1 ( x ) ≠ 0
f 2 ( y | x ) f1 ( x )
f1 ( x )
1
∑ f ( y, x ) = f ( x ) = 1 f ( x ) y∈ Ry
1
1
Variabili random indipendenti: per definizione gli eventi ( X=x) e (Y=y) sono indipendenti se e solo se:
f ( x, y ) = f1 ( x ) ⋅ f 2 ( y ) P (Y = y , X = x ) = P ( X = x ) ⋅ P (Y = y ) ⇔ f 2 ( y | x ) = f 2 ( y ) Due v.a. X e Y sono indipendenti se l’equazione di prima è vera ∀ ∈ R x , ∀y ∈ R y Legge della somma di due variabili o Convoluzione: date due v.a. X e Y con distribuzioni f 1 ( x) ed
= X + Y . La probabilità dell’evento si può scrivere come: g ( z ) = P ( Z = z ) = P ( X + Y = z ) = P ∪ ( X = i ) ∩ (Y = z − i ) = ∑ P (X = i ,Y = z − i ) = ∑ f (i , z − i ) i i i Se le v.a. sono indipendenti si ha: g ( z ) = ∑ P ( X = i )P (Y = z − i ) = ∑ f1 (i ) f 2 (z − i ) f 2 ( y ) , si vuole trovale la legge Z
i
i
Variabili indipendenti e identicamente distribuite IID: sono variabili random indipendenti con la stessa distribuzione di probabilità marginale; la distribuzione di probabilità congiunta è:
f ( y1 , y2 , ... , yn ) =
n
∏ f (y ) i
i
i =1
Somma di distruzioni poissoniane: date due v.a. indipendenti X e Y con distribuzione poissoniana di media µ e ν rispettivamente, si ha che la v.a. Z = X+Y è data da una poissoniana di media µ +ν :
f1 ( x ) = µ x e − µ x !
z
µ iν z − i
µ ν e− − ⇔ ⇔ g ( z ) = P (Z = z ) = P (X + Y = z ) = ∑ f (i , z − i ) = ∑ f1 (i ) f 2 (z − i ) = ∑ f 2 ( y ) = ν e y ! i i i = 0 i !( z − i )! i z 1 1 z ! 1 z e − µ −νν z z z µ e − µ −νν z µ ( µ +ν ) z − ( µ +ν ) ⇔ = = ⇔ g ( z ) = ∑ = z ! 1 + ν = z ! e i !( z − i )! z ! i !( z − i )! z ! i z ! i =0 i ν y
−ν
Distribuzione Multinomiale: caso generale della distribuzione binomiale:
5
Evento
A1 A2 ... Ak
tot
Pr obabilità
p1 p 2 ... p k
1
Frequenza
X 1 X 2 ... X k
n
n x1 x2 xk f ( x1 , x2 , ... , xk ) = p1 p2 ... pk x x ... x 1 2 k
con il fattore multinomiale
n x x ... x = 1 2 k
CAPITOLO VI – Media, Varianza e Covarianza Aspettazione matematica o Media: sia X una v.a. discreta con range R x = { x 1,
n! 1
! x2 !... xk !
2,
...} e funzione
probabilità f . L’aspettazione matematica di X é il numero reale definito da: (ammesso che questa serie converga assolutamente) E ( X ) = xf ( x ) = x1 f ( x1 ) + x2 f ( x2 ) + ...
∑
x∈R x
Quando le probabilità vengono interpretate in termini di frequenze relative, E ( X ) rappresenta la media aritmetica dei risultati ottenuti in una lunga serie di esperimenti ripetuti e da il centro della distribuzione. Aspettazione o Media di una funzione di X : sia U ≡ h(X ) una funzione della v.a. X , dove h é una funzione a valori reali definita su R x . Sappiamo che anche U é una v.a.. Indichiamo con Ru l’insieme dei suoi possibili valori e con g la sua funzione probabilità: E (U ) = E {h ( X )} = h (x) f (x)
∑
x∈R x
E ( X ) =
∑∑ xf ( x, y ) = ∑ x ∑ f ( x, y ) = ∑ xf ( x ) 1
x∈ R x
y∈Ry
x∈ Rx
Il vantaggio di questo risultato é che per calcolare il valore aspettato di U non é necessario ricavare la funzione probabilità g . Tale risultato si estende al caso di più variabili random: se U ≡ h( X , Y ) , dove X e Y sono v.a. con funzione probabilità congiunta f , allora: E (U ) = E {h ( X ,Y )} = Aspettazione di funzioni lineari: E ( aX + b ) = aE ( X ) + b ; E ( aX
∑ ∑ h ( x , y ) f ( x, y )
x∈R x y∈Ry
+ bY ) = aE ( X ) + bE (Y ) = a µ X + b µ Y
Momento r -esimo: sia X una v.a. discreta con range X e distribuzione di probabilità n, e sia X un intero non negativo. Il momento r -esimo di X (o della distribuzione f ) é definito come il valore medio della potenza r -esima di X e sono dei numeri reali che descrivono la distribuzione di probabilità:
mr = E ( X r ) =
∑x
r
f ( x)
(ammesso che la serie converga assolutamente)
x∈ R x
Media: il primo momento è la media di X e specifica la posizione del centro della distribuzione: m1 = E ( X )
E ( X ) = µ
⇒ E ( X − µ ) = E ( X ) − µ = 0
Varianza: è il secondo momento di X-µ , e da la larghezza della distribuzione:
var ( X ) = σ 2
= E {( X − µ ) } = 2
∑ ( x − µ )
2
f ( x)
con var ( X ) ≥ 0
x∈ R x
var ( X ) = 0 ⇒ P ( X = µ ) = 1 2 2 2 Un’espressione equivalente della varianza di X è data da: σ = E ( X ) − E ( X )
= E ( X 2 ) − µ 2
Deviazione standard: la radice quadrata positiva della varianza è la deviazione standard di X che si indica con σ ed é una misura dell’incertezza sul valore che la v.a. assume in relazione ad un dato esperimento; essa descrive la larghezza o la dispersione della distribuzione di probabilità. Con la disuguaglianza di Chebyshev: gli 8/9 della probabilità sono contenuti in: ( µ − 3σ , µ + 3σ ) Varianza di una funzione lineare:
6
var ( aX
+ b ) = a2 var ( X ) ;
σ aX + b
=
a σ x
Forma standard: v.a. con media 0 e varianza 1: X − X ∗ ≡ σ 1 1 E X ∗ = E ( X − µ ) = [ E ( X ) − µ ] = 0 ; σ σ
( )
1 σ
var ( X ∗ ) = var
X
µ 1 − = 2 var ( X ) = 1 σ σ
Disuguaglianza di Chebyshev: sia X una v.a. con deviazione standard σ e media µ finite: 1 1 t = 3 ⇒ P { X − µ ≥ 3σ } ≤ ; ∀t > 0 ⇒ P { X − µ ≥ tσ } ≤ 2 ; ( µ − 3σ , µ + 3σ ) t 9 Momento fattoriale r -esimo: momento fattoriale r -esimo g r è definito con:
(se la serie converga assolutamente) = E { X ( X − 1)... ( X − r + 1)} = ∑ x (r ) f ( x ) g 1 = E { X } = m1 = ; g 2 = E { X ( X − 1)} = E ( X 2 ) − E ( X ) = m2 − µ 2 2 2 σ = m2 − µ = g 2 + µ − µ g r = E X (r )
Distribuzione di Poisson: x − µ x− r −µ ∞ ∞ µ e µ e r =µ g r = ! − x r ) x = r ( x = r ( x − r )!
∑
∑
=µ
∞
r
∑ y= 0
y
µ e
− µ
y!
= µ r
E { X } = g 1
= µ var ( X ) = g 2 + µ − µ 2 = µ
Distribuzione Binomiale: n− x r n − r x g r = n( ) p (1 − p ) x − r
∑
n − r x − r n− x = n( r ) p r ∑ p (1 − p ) ⇔ y = x − r ⇒ x − r
n − r y n− r− y 1 ⇒ n( r ) p r ∑ − ⇔ g r = n( r ) p r p p ( ) y binomio di Newton b ( n - r , p )
E { X } = g 1
= np 2 2 2 2 var ( X ) = g 2 + µ − µ = n ( n − 1) p + np − n p = np (1 − p )
Distribuzione dei tempi di attesa nelle prove di Bernoulli: il tempo di attesa medio per il primo successo cresce al diminuire della probabilità p di ottenere un successo nella singola prova: ∞ p ∞ p 1− p 1 n −1 E ( N1 ) = ng1 (n ) = np (1 − p ) = n (1 − p )n = ⋅ = 2 n 1 − p n = 0 1 − p [1 − (1 − p )] p n =1
∑
E ( N1 ) = 2
∑
∑
n g1 (n) = n 2
∑
2 − p
p 2
var( N1 ) = E ( N12 ) − E ( N 1 )2
=
1− p
p
2
Distribuzione Ipergeometrica: ∞ a b (r ) = x( r ) g r = E X x = 0 n − x
∞ b a + b a + b (r) a ( r) a − r ( r ) a − r ⇔ = ⇔ = x a g a { } ∑ ∑ r n x x−r x − r n − x n x =0 ( r ) ( r ) n!( a + b − n )! a + b − r a + b ( r ) ( a + b − r )! a n ⇔ gr = a( r ) = ⋅ = a ( r ) ( n − r )!( a + b − n )! ( a + b )! n−r n (a + b)
7
g 1
=
an
a+b = np
σ 2
;
g 2
= np(1 − p )
=
a ( a − 1) n ( n − 1)
( a + b )( a + b − 1)
a+b−n a +b −1
p = a a+b
;
Processo di Poisson: 1)Indipendenza = il numero di eventi in intervalli temporali che non sovrappongono sono indipendenti; 2)Individualità = gli eventi avvengono singolarmente e non a coppie o a gruppi; 3)Omogeneità = nell’intervallo di tempo totale considerato gli eventi si succedono ad un tasso uniforme; Viene anche usato per esperimenti in cui gli eventi avvengono in modo casuale e uniforme nello spazio. Varianza di una somma e Covarianza: indica la presenza di una certa interdipendenza, o correlazione, tra le due variabili: var ( X + Y ) = var ( X ) + var (Y ) + 2cov ( X ,Y ) ; var ( aX + bY ) = a 2 var ( X ) + b 2 var (Y ) + 2ab cov ( X ,Y )
Covarianza di X e Y : cov ( X , Y ) = E
{( X − µ ) (Y − µ )} = E ( XY ) − E ( X ) E ( Y ) x
y
> 0 ⇔ le due variabili sono correlate cov ( X , Y ) = 0 ⇔ le due variabili non sono correlate < 0 ⇔ le due variabili sono anticorrelate Coefficiente di Correlazione: il coefficiente di correlazione ρ di due variabili random X e Y si definisce: cov ( X , Y ) ρ ( X , Y ) = cov ( X ∗ ,Y ∗ ) = con − 1 ≤ ρ ≤ 1 σ xσ y
+ b, cY + d ) =
ρ ( aX
ac ⋅ cov ( X , Y ) ac ⋅ σ xσ y
ac > 0 ⇒ ρ ( X , Y ) da questa relazione si ha che se la covarianza = < ⇒ − 0 ρ , ac X Y ( )
dipende dalla scala di misura usata, ciò non accade per il coefficiente di correlazione. var ( X ∗ ± Y ∗ ) = var ( X ∗ ) + var ( Y ∗ ) ± 2cov ( X ∗ , Y ∗ )
∗ ∗ ⇔ var ( X ± Y ) = 2 (1 ± ρ ) ≥ 0
var ( X ∗ ) = var (Y ∗ ) = 1
ρ = ±1 ⇒ una v.a. può essere espressa come una funziona lineare dell’altra: X
≡ aY + b
ρ = 1 ⇒ a = µ ; σy con b = µ x − aµ y
ρ = −1 ⇒ a = −
µ x σ y
Variabili random non correlate: due variabili random t.c. cov ( X , Y ) = 0 sono non correlate:
+ Y ) = var ( X ) + var (Y ) indipendenti ⇒ non correlate ∼
var ( X N.B.:
cov=0 (non il viceversa; l’indipendenza è più “forte” della non
correlazione) N.B.: correlate ∼ cov≠0 ⇒ dipendenti Media di una somma: E ( S n ) = E ( X i ) = µ i ;
∑
∑
E ( X
+ Y ) = E ( X ) + E (Y )
sempre
Varianza di una somma:
var (S n ) =
∑
σ i2
+2
∑∑
(
cov X i , X j
)
i < j
8
Se tutte le covarianze sono nulle le variabili sono non correlate: cov ( X i , X j ) = 0 ⇒ var ( S n ) =
∑σ
2 i
Varianza di una combinazione lineare: 2 E (∑ ai X i ) = ∑ ai E( X i ) ⇒ var(∑ ai X i ) = ∑ ai var( X i ) + 2
∑∑ a a cov( X , X ) i
j
i
j
i< j
v.a. indipendenti
⇒ cov( X i , X j ) = 0 ⇔ var(∑ ai X i ) = ∑ a i2 var( X i )
Proprietà notevole della varianza di X : al crescere di n la varianza decresce e la distribuzione di X diventa sempre più concentrata nell’intorno di µ . Sample mean: è la media aritmetica delle X i , dati X 1 , X 2 , ... , X n variabili random indipendenti con la
stessa media µ e stessa varianza σ 2, cioè: 1 X ≡ X i n 1 1 n nµ = µ = E ( X ) µ= E ( X ) = E( X i ) = n n i =1 n
∑
∑
var ( X ) =
∑
∑
2 1 var ( X ) = 1 i n2 n
n
∑
σ
2
i =1
=
1 n
2
nσ
2
=
σ 2
n
intervallo che contiene la quasi totalità della probabilità ⇒ E ( X ) ± 3 var( X )
= µ ± 3σ n
quindi la sua larghezza tende a zero quando n→∞. Con alta probabilità, X sarà vicino a µ per n grande. Questo risultato giustifica l’uso del valore osservato di X come stima di µ . CAPITOLO VII – Informazione ed Entropia Informazione: come misura della sorpresa. Si considera una I che sia una funzione decrescente della probabilità P ( E ) dell’evento E , cioè richiediamo che, se E ed F sono eventi di S con
P ( E ) ≤ P ( F ) ⇒ I ( E ) ≥ I ( F ) :
a > 1 ; k > 0
I ( E ) = − k log a P ( E ) ≥ 0
a = 2 ⇔ I ( E ) = − log2 P ( E ) k 1 =
con
solitamente
P ( E ) → 0 ⇔ I ( E ) → ∞ Se eventi indipendenti: I ( E1 E2 ) = I ( E1 ) + I ( E 2 ) Bit: unità del contenuto di informazione; si guadagna un bit d’informazione quando si sceglie tra due alternative ugualmente probabili. Entropia: il contenuto d’informazione di X si può considerare come una v.a., funzione di X , che si indica con I ( X ). La media dell’informazione I ( X ) è detta entropia di X e che si indica con H ( X ):
H ( X ) ≡ E { I ( X )} = −
n
f ( x )
∑p
j
j =1
x
log ( p j )
p j
= 0 ⇔ H ( X ) = 0
Si può interpretare come l’informazione media che prevediamo di acquisire dal sistema, ed è massima quando massima è l’incertezza. Per calcolare l’entropia di una variabile random X di Bernoulli di parametro p si ha che il range di X è R x = { x1 , x2 } con probabilità p1 = p e p 2 = 1 − p , mentre il range di I ( X ) è R I = { I ( p ), I (1 − p )} : H ( X ) ≡ H b ( p ) = E {I ( X )} = −
2
∑p j =1
j
log ( p j ) = − p log ( p ) − (1 − p ) log (1 − p )
Lemma 7.1 ln(x ) ≤ x − 1 e l’uguaglianza vale ⇔ x = 1 Teorema 7.1 Sia X una v.a. discreta, e sia n il numero dei suoi possibili valori, allora:
9
A. H ( X ) ≥ 0 e H ( X ) = 0 se e solo se X assume uno dei suoi possibili valori con certezza; B. H ( X ) ≤ log(n ) e l’uguaglianza vale se e solo se X è uniformemente distribuita; La parte (a) ci dice che l’entropia di X è nulla proprio quando siamo in presenza dell’evento certo. La parte (b) mostra che l’entropia ha un massimo quando si ha la massima incertezza sul fe nomeno aleatorio, cioè quando tutte le opzioni sono ugualmente probabili. Denotando con H n l’entropia di una v.a. che può assumere n valori, con distribuzione di probabilità uniforme: H n = log ( n ) ; m ≤ n ⇒ log ( m ) ≤ log ( n ) ⇔ H m ≤ H n ossia si ha maggiore incertezza (sul risultato) quando il numero dei possibili risultati (equiprobabili) è relativamente grande e si ha una maggiore entropia, cioè una aspettativa di maggiore informazione.
10
CAPITOLO VIII - Variabili aleatorie continue Definizioni e notazione: data la v.a. X a valori reali, la funzione di distribuzione cumulativa o integrale di probabilità F (t ) è definita come la probabilità dell’evento ( X ≤ t ) :
F ( t ) = P ( X
≤ t)
con
− ∞ ≤ t ≤ ∞ ;
F (− ∞ ) = 0 ;
F (∞ ) = 1
Variabile random continua: è una variabile random a valori reali con funzione di ripartizione F ( x) continua, la cui derivata esiste ed è continua eccetto, eventualmente, in un numero finito di punti: d f ( x ) = F ( x ) ≥ 0 ∀x dx La funzione f è detta funzione densità di probabilità di X . Da notare che f può risultare non definita in un numero finito di punti. x
Condizione di normalizzazione nel caso continuo: F ( x ) = N.B.: è la quantità f (t ) dt che ha significato di probabilità.
∫ f ( t )dt = 1
−∞
b
P (a < X
≤ b) = P{( X ≤ b) − ( X ≤ a)} = P( X ≤ b) − P( X ≤ a) = F (b) − F ( a) ⇔ P( a < X ≤ b) = ∫ f ( x) dx a
N.B.: f (b) non dà la probabilità che X =b; la probabilità che una variabile continua assuma un particolare valore reale è zero. b
Se (a, b) è piccolo e se f ( x) esiste ed è continua per a< x
≤ b) = ∫ f ( x )dx ≈ (b − a ) f (t ) a
Aspettazione matematica o Media: di una v.a. X è definito da: ∞
E ( X ) =
∫ xf ( x)dx
−∞
∞
La media di una funzione è: E {h( X )} =
∫ h( x) f ( x)dx .
−∞
Mediana m di X (o della distribuzione): è il valore della variabile random per cui: 1 1 F ( m) = P ( X < m ) = ⇔ P ( X > m ) = 2 2 La mediana indica il “centro” della distribuzione continua, e sarà minore della media per quelle distribuzioni che hanno una lunga coda a destra. Per una distribuzione con una lunga coda a sinistra si avrà m>µ . Se una distribuzione ha un punto di simmetria centrale, tale punto sarà la media e la mediana. Quantile: quantità che generalizza il concetto di mediana. Data la v.a. X continua con funzione cumulativa F ( x), il quantile di ordine α di X (o della distribuzione), con 0<α <1, è definito come il valore qα di X tale che:
P ( X
≤ qα ) = F ( qα ) = α
Distribuzione Uniforme o Rettangolare: a < x < b ⇔ k X ~ U ( a, b ) ⇔ f ( x ) = altrove ⇔ 0
Poiché l’area sotto la curva della densità di probabilità deve essere 1, segue che:
x ≤ a ⇔ F ( x ) = P ( X ≤ x ) = 0 x x 1 x − a k= ⇔ a < x < b ⇔ F ( x ) = ∫ f (t )dt = ∫ k ⋅ dt = b−a (b − a ) a −∞ x ≥ b ⇔ F ( x ) = 1 Distribuzione Esponenziale: risulta appropriata come distribuzione dei tempi di vita nei casi in cui non
11
c’è invecchiamento con l’età:
x > 0 ⇔ λ e− λ x X ~ Γ(1, λ ) ⇔ f ( x ) = con λ ∈ + x ≤ 0 ⇔ 0 x x 1 x > 0 ⇔ ∫ e − t θ dt = − e −t θ = 1 − e − x θ 1 0 F ( x ) = con θ = θ 0 λ x ≤ 0 ⇔ 0 ∞
mr
∞
1
= E ( X ) = ∫ x f ( x)dx = ∫ x e r
r
−∞
E ( X ) = µ
0
= m1 = θ =
r
θ
− x θ
dx ⇔ u =
x θ
∞
, dx = θ du
⇔ mr = θ ∫ u re− u du = θ rΓ(r + 1) = r !θ r r
0
1
λ var ( X ) = σ = m2 − µ 2 = 2θ 2 − θ 2 2
=θ2
Una caratteristica importante della distribuzione esponenziale è la proprietà di mancanza di memoria: P ( X > b + c | X > b) = P( X > c) con b, c ≥ 0 Tempi di attesa in un processo di Poisson:
X t ≡ n° di eventi in un intervallo di tempo t ⇒ ft ( x) = P ( X t = x) = (λ t )
x
T x
≡
tempo d’attesa per l’ x-esimo evento ⇒ g x (t ) =
d dt
Gx (t ) =
λ x
Γ( x )
x −1
t
e−
e−
λ t
x! λ t
con t > 0
> t ) = P ( X t < x) G x (t ) = P (Tx ≤ t ) = 1 − P (Tx > t ) = 1 − P ( X t < x ) = 1 − [ f t (0) + f t (1) + ... + ft ( x − 1)] = (λ t ) 2 (λ t ) x −1 − λ t con t > 0 = 1 − 1 + λ t + + ... + e 2! ( x 1)! −
P (T x
Derivando rispetto a t e semplificando, troviamo che la densità di probabilità per T x è data da:
g x (t ) =
d dt
Gx (t ) =
E ( X ) = µ =
α
var ( X ) = σ 2
=
λ x
Γ( x)
x −1
t
e−
λ t
con t > 0 è detta distribuzione gamma o di Erlang
λ α λ 2
Tempo di attesa per il primo evento: il tempo di attesa tra eventi consecutivi in un processo di Poisson segue una distribuzione esponenziale con media θ = 1 λ . Distribuzioni Gamma o di Erlang: una v.a. X continua è distribuita secondo la legge gamma di parametri α >0 e λ >0 se la relativa densità di probabilità è data da un’espressione del tipo: α > 0 λ α α −1 − λ x X ∼ Γ(α , λ ) ⇔ f ( x ) = x e con λ > 0 Γ(α ) x > 0
E ( X ) = µ =
α
var ( X ) = σ 2
=
λ α λ 2
Distribuzione Normale o Gaussiana: una variabile random continua X con densità di probabilità:
12
1
X ~ N ( µ ,σ 2 ) ⇔ f ( x ) =
2πσ
e −
( x − µ )
2
2
2σ
µ ,σ ∈ con σ > 0 −∞ < x < ∞
E ( X ) = µ = x var ( X ) = σ 2 La distribuzione gaussiana è una curva “a campana” centrata in x=µ che è la media e la mediana della distribuzione. La larghezza dipende da σ e si può vedere che il 99.7% della probabilità è contenuto nell’intervallo ( µ − 3σ , µ + 3σ ) . Distribuzione Normale Standardizzata: distribuzione normale con media µ =0 e varianza σ 2=1:
X ~ N (0,1) ⇔ f ( x ) = x
F ( x) =
∫
x 2
1 2π
e
−
2
con
−∞< x<∞
x
f (u )du =
−∞
∫
1
−∞
e 2π
−u 2
2
du
Quest’integrale non può essere calcolato algebricamente e si ricorre all’integrazione numerica o alle tavole (Appendice B). Per l’uso di queste tavole è utile ricordare che, essendo la distribuzione normale standardizzata simmetrica rispetto a x=0 si ha: P ( X ≤ − x) = P( X ≥ x) ⇔ F ( − x) = 1 − F ( x) 2
Forma standard: supponiamo che X ~ N (µ ,σ ) e sia Z ≡
X − σ
la forma standard di X . Poiché la
trasformazione è monotona, la funzione densità di Z è:
( x − µ ) 2 = g ( z ) = f ( x ) e − ⋅ σ = 2σ 2 dz 2πσ dx
1
1 2π
z 2
e
−
2
Se X ha una distribuzione gaussiana, la forma standard di X ha una distribuzione gaussiana standardizzata. Questo risultato ci permette di ottenere le probabilità di ogni distribuzione normale 2 X ~ N (µ ,σ ) dalle tavole di (0,1) . Con argomenti simili si dimostra che :
X ~ N ( µ , σ 2 )
⇒ aX + b ~ N (aµ + b, a 2σ 2 )
Distribuzione del Chi-quadrato: si chiama legge del chi-quadrato a n gradi di libertà e si indica con α = n n 1 2 2 χ ( n) la distribuzione gamma Γ , con 2 2 λ = 1 2 2
X ~ χ ( n )
∼ χ
2 ( n)
n 2 n 1 (1 2) ≡ Γ , ⇔ f ( x) = x n 2 −1e− x 2 Γ(n 2) 2 2
Il parametro n caratterizza la media e la varianza della stessa distribuzione: 2r Γ(n 2 + r ) mr = Γ(n 2) E ( X ) = m1
=n var ( X ) = m2 − m12 = 22 ( n 2 + 1)( n 2 ) − n 2 = 2n
Funzioni cumulative di χ 2( n ) da 2 a 10 gradi di libertà: x x
∫
2
χ
0
(1)dx =
2 π
2
∫
e − t dt 2
0
13
2
χ
(2 ) =
1
1
1 2
χ
e x
2
(3)
=
1 χ 2(5)
χ
= 2
(8)
=
x 3
1
96
x
χ2(6) =
1
32 x 3 1,329
χ 2 (4 )
1 8 x x 0,8862 e
e x
x 2
1
16
e x
=
χ
e
(9)
= 512 x 7 11,6317
1
4
e x
1
χ2(7 ) =
128 x 5 3,3234
1 2
x
1
χ
2 (10)
x
e
=
x 4
1
768
e x
1 e x
Proprietà additive del Chi-quadrato: supponiamo che le v.a. X 1 , X 2 , ... , X n siano indipendenti, e che
X i sia distribuita secondo la legge χ 2 con ν i gradi di libertà. Dalla proprietà di additività delle leggi gamma segue che la somma delle X i ha una distribuzione χ 2 , con gradi di libertà pari alla somma X 1 + X 2
∑ν i :
+ ... + X n ∼ χ (2ν1 +ν 2 + ... +ν n )
Tale proprietà additiva è molto simile a quella di una distribuzione di Poisson. Connessione con la N (0,1) : 2 ⇒ Z 2 ~ χ (1) Z12 + Z 22 + ... + Z n2 ~ χ (2n ) la somma dei quadrati di n variabili random IID, distribuite secondo la N (0,1) ,
Z ~ N (0,1)
ha una distribuzione χ 2 con n gradi di libertà. 2 Z ~ N (0,1) ⇔ Z 2 ~ χ (1)
Poniamo X ≡ Z 2 , e poiché tale trasformazione non è monotonica, usiamo il metodo della cumulativa. Sia G la funzione di ripartizione di X , allora: G ( x ) = P( X
≤ x) = P( Z 2 ≤ x) = P(| Z |≤ x ) = P( − x ≤ Z ≤ x ) = F ( x ) − F ( − x )
dove F è la cumulativa di Z . La densità g ( x) di X è data quindi dall’espressione: d d d g ( x) = G( x) = F x − F − x dx dx dx Notiamo che queste relazioni valgono in generale. Tenendo conto del fatto che la densità di Z è la
( )
d
1
F ( z ) = f ( z ) =
e
− z 2
(
2
)
(0,1)
d d dz d x d− x 1 −1 2 − x 2 ⇔ = − f (− x ) = x e ⇔ g ( x) = f ( x ) dx dx 2π dx dz dx
dz 2π Torema del limite centrale: ogni combinazione lineare di variabili random normali indipendenti X 1 , X 2 , ... , X n ha una distribuzione normale. Si può mostrare che se: X i ~ N ( µi , σ i2 ) ⇒
∑a X i
i
~ N(
∑a µ ,∑a σ i
i
2 i
2 i
)
Considerando un insieme di variabili random indipendenti X 1 , X 2 , ... , X n , con la stessa media µ e stessa varianza σ 2. La somma S n e la media campione X delle variabili { X i } sono date da: S n
= ∑ X i ;
X
=
1
∑
Xi
1
= S n
n n Dalla varianza di una combinazione lineare con v.a. indipendenti e dal sample mean si ha: var ( S n ) = nσ 2 E ( S n ) = n ; E ( X ) = ; var ( X ) = σ 2 n Se le X i sono normalmente distribuite si ottiene: 2
Sn ~ N (nµ , nσ ) 14
x >0
X ~ N ( µ, σ 2 n) La somma di variabili random indipendenti e gaussiane ha ancora una distribuzione gaussiana, con media ∑ i e varianza ∑ σ i2 . Se X 1 , X 2 , ... , X n sono variabili random indipendenti con medie 1 , 2 , ..., n e varianze σ 12 , σ 22 , ..., σ n2 allora la variabile somma S n ha media di S n, S n∗
= ( S n − ∑ µ i )
∑
i
e varianza
∑ σ i2 . La forma standard
∑ σ i2 , ha media 0 e varianza 1 per ogni n.
Il Teorema del limite centrale afferma che la forma standard di S n è distribuita approssimativamente come la normale standardizzata S n∗ ≈ N (0,1) per n sufficientemente grande; quindi la distribuzione limite di S n∗ è la stessa a prescindere dalle distribuzioni delle X i . Approssimazione Normale della Binomiale: considerando n prove di Bernoulli, definiamo la variabile random X i che assume valore 1 se il risultato dell’i-esima prova è un successo, 0 in caso contrario:
= 0) = 1 − p con i = 1, 2, ... , n Considerando la somma S n = X 1 + X 2 + ... + X n , ogni successo dà un contributo 1, ogni insuccesso dà
P ( X i
= 1) = p ;
P ( X i
contributo nullo; quindi S n rappresenta il numero totale di successi in n prove. Conseguentemente, S n ha una distribuzione Binomiale b( n, p) , con media np e varianza np(1− p). Le X i si riferiscono a prove indipendenti, quindi sono variabili indipendenti, e per il Teorema del limite centrale si ha che la distribuzione di S n approssima quella Normale per n sufficientemente grande N ( np, np(1 − p)) . Approssimazione Normale della Poissoniana: prese X 1 , X 2 , ... , X n variabili random indipendenti
poissoniane con media m e S n
= X 1 + X 2 + ... + X n la loro somma; questa ha ancora una distribuzione
poissoniana di media µ =nm. Poiché le v.a. sono indipendenti, il Teorema del limite centrale assicura che, per n grande, S n ha una distribuzione Normale. Da queste considerazioni segue che una distribuzione di Poisson con media µ grande può essere approssimata da una distribuzione Normale N ( µ, µ ) . Tempo di attesa per il primo evento: si è visto che il tempo di attesa per il primo evento non dipende dall’origine dell’intervallo, cioè il tempo medio di attesa per il primo evento coincide con il tempo medio tra eventi consecutivi; questo risultato sembra apparentemente paradossale e va contro l’intuizione. Supponiamo di avere una collezione di aste di varia lunghezza. Ne selezioniamo una in modo random e la spezziamo, in modo random, in due parti di cui una viene conservata. Ripetiamo l’operazione molte volte. E’ ovvio, e in questo caso è vero, che la lunghezza media delle aste spezzate sarà pari alla metà della lunghezza media delle aste madri. Sembra legittimo, per analogia, estendere la stessa conclusione alla collezione di intervalli di tempo in un processo di Poisson: in questo caso gli intervalli di tempo tra eventi consecutivi prendono il posto delle aste. Il tempo di attesa per il primo evento, che è l’intervallo tra un’origine random e il primo evento, successivo a tale origine, dovrebbe essere, per analogia con l’esempio precedente, pari alla metà del tempo medio tra eventi consecutivi (l’origine random dovrebbe spezzare il generico intervallo in due parti di lunghezza pari, mediamente, alla metà della lunghezza media degli intervalli tra eventi consecutivi). In realtà, questi due tempi medi coincidono. Una spiegazione qualitativa può essere la seguente; la scelta dell’origine random è equivalente a porre stocasticamente un punto su un asse temporale. Quindi l’origine random cadrà preferibilmente sugli intervalli più lunghi, con probabilità proporzionale alla lunghezza, cosicché quella che appare essere una scelta casuale è effettivamente sbilanciata a favore degli intervalli di tempo più lunghi. Tornando all’esempio precedente, è come se selezionassimo le aste da spezzare in modo tale che la probabilità di beccare un’asta non fosse uniforme, ma proporzionale alla lunghezza delle aste. Rimane sorprendente, in qualche misura, che i due effetti si compensino esattamente. Se si vuole, questa è una prerogativa della poissoniana. CAPITOLO IX - Processi stocastici. Teoria delle code Processi: si dividono in: 1)stocastici = funzione di 2 v.a. di cui una è il tempo t : X (t ) = f (Y , t )
15
2)di Markov = il passo n dipende soltanto da quello precedente: f ( xnt n | xn −1t n −1 , ... , x1t1 ) = f ( xnt n | x n−1t n−1 ) con t1 < t 2 < ... < t n 3)ad un passo = continui nel tempo con R x ∈ : d
pn (t ) = µn +1 pn +1 (t ) + λn −1 pn −1(t ) − ( µ n + λn ) p n (t ) dt
4)di Poisson = ad un passo di puro ingresso con µ n
con p n (t )
≡ P( X (t) = n)
= 0 e con tasso di transizione costante λ n = λ :
d
p n (t ) = λ [ p n−1 (t ) − p n (t )] dt Facendo la derivazione di quest’equazione differenziale si ha che, con (t , t + ε ]
con ε > 0 , il
numero aspettato di eventi in questo intervallo è λε , si può scrivere λε = 0 ⋅ q0
+ 1 ⋅ q1 + 2 ⋅ q2 + ... e segue che q1 = λε , q0 = 1 − λε e q2 = q 3 = ... = 0. Considerando ora l’intervallo (0, t + ε ] come l’unione dei due intervalli disgiunti, (0, t ] e (t , t + ε ] . Poiché n eventi in (0, t + ε ] si possono suddividere nei due sottointervalli disgiunti in n+1 modi, segue che (per l’indipendenza): pn (t + ε ) ≡ P {n eventi in (0, t + ε ]} =
n
n
i =0
i =0
∑ P{n − i eventi in (0, t ] e i eventi in (t, t + ε ]} = ∑ p
cioè: pn (t + ε ) = pn (t ) ⋅ q0
+ pn −1(t ) ⋅ q1 = pn (t ) ⋅ (1 − λε ) + pn −1(t) ⋅ λε ⇔
n −i
( t) ⋅ qi
pn (t + ε ) − pn (t )
= λ[ pn−1(t) − pn(t )] ε Per ε →0 si ottiene infine l’equazione differenziale, con p0 (0) = 1; pn (0) = 0 ⇒ pn (0) = δ n,0 poiché in un intervallo temporale di lunghezza nulla non si possono avere eventi. Si può facilmente verificate che la soluzione dell’equazione differenziale con le condizioni dà la distribuzione di Poisson: (λ t ) n −λ t p n (t ) = e n! 5)Catene di Markov = processi di Markov ad un passo con t ∈ . Una catena di Markov, vista come processo di Markov, è caratterizzata da: P{ X n +1 = j | X n = i, X n −1 = k , ..., X1 = m} = P{ X n +1 = j | X n = i} ≡ pij (n) Una classe particolare di catene è quella in cui le probabilità pij (n) non dipendono da n; in questo caso diciamo che la catena è omogenea nel tempo e si scrive P { X n +1
= j | X n = i} = pij
Se l’insieme degli stati della catena, cioè i possibili valori di X , è finito allora l’insieme dei numeri pij forma una matrice quadrata di ordine pari alla cardinalità di R x , detta matrice di transizione, che ha le seguenti proprietà: •tutti i suoi elementi sono ≥0;
•la somma degli elementi di ciascuna riga è pari a 1 ⇒
∑ pij = 1 ;
j∈ R x
Teoria delle code: xxx
16