Calcolo delle Probabilità Paolo Baldi, Università di Roma Tor Vergata
McGraw-Hill 2011 Prima parte: soluzioni pag. 3 Seconda parte: risultati degli esercizi proposti pag. 105
Paolo Baldi Calcolo delle Probabilità McGraw-Hill 2011
1 Soluzioni
1.1 Due modi possibili: possiamo innanzitutto considerare tutti i numeri di telefono come equiprobabili. Essi sono dunque 9 · 107 (9 possibilità per la prima cifra, 10 per le altre 7). Tra di essi quelli che non contengono lo 0 sono 9 · 97 (9 possibilità per ognuna delle 8 cifre). La probabilità che un numero scelto a caso non contenga lo 0 è dunque 9 7 9 · 97 = = 0.48 . 9 · 107 10 Alternativamente, indichiamo con Ai , i = 2, . . . , 8 l’evento ‘‘la i-esima cifra del numero da chiamare è diversa da 0’’. La probabilità richiesta è quella dell’intersezione degli eventi 9 Ai , i = 2, . . . , 8. Ora P(Ai ) = 10 , i = 2, . . . , 8, poiché è ragionevole supporre che tutte le cifre abbiano la stessa probabilità di apparire allo i-esimo posto. E se supponiamo che i valori delle diverse cifre che appaiono in un numero siano indipendenti ritroviamo ancora 9 7 . P(A2 ∩ . . . ∩ A8 ) = P(A2 ) . . . P(A8 ) = 10 1.2 a) L’insieme dei possibili risultati è costituito da tutti i numeri da 000000 a 999999 (che sono 1 milione). Possiamo scegliere questo insieme come . Naturalmente su considereremo la distribuzione uniforme di probabilità, poiché non c’è motivo di supporre che alcuni numeri siano più probabili di altri. Poiché ha cardinalità 1 milione, la probabilità che il biglietto di Ole Kamp vinca è 10−6 . b) L’evento A è costituito da tutti i numeri le cui prime 4 cifre sono 0096, che sono 100. #A Dunque P(A) = # = 10−4 . Se ω ∈ A allora P({ω} ∩ A) = P({ω}) = 10−6 e quindi P({ω}) 1 P({ω}|A) = P(A) = 10−2 = #A . Se invece ω 6∈ A allora l’evento {ω} ∩ A è vuoto e P({ω}|A) = 0. In conclusione la probabilità che un numero ω sia estratto è ora 1 P({ω} ∩ A) = #A se ω ∈ A P({ω}|A) = 0 se ω 6∈ A . P(A) Paolo Baldi Calcolo delle Probabilità McGraw-Hill 2011
4
Parte 1: soluzioni
In altre parole la probabilità condizionale dato A vale 0 se il numero ω non si trova in A, mentre tutti i numeri che si trovano in A sono equiprobabili. La probabilità del biglietto di Ole Kamp 1 1 , cioè 100 . Se invece A fosse l’evento costituito dai numeri che iniziano con 00967, la è ora #A 1 1 probabilità P( |A) varrebbe 10 (cioè sempre #A ) per tutti i biglietti ω le cui cifre iniziano con 00967 e 0 per gli altri.
1.3 Risolveremo il problema con due modelli diversi. 1) Primo modello. Supponiamo di numerare le palline nell’urna e di indicarle B1 , B2 , B3 , B4 , N1 , N2 , N3 . Consideriamo come spazio l’insieme di tutte le coppie del tipo ω = (ω1 , ω2 ), dove ω1 e ω2 possono prendere i valori B1 , B2 , B3 , B4 , N1 , N2 oppure N3 ; ovvero = {B1 , B2 , B3 , B4 , N1 , N2 , N3 }2 . Poiché siamo in una situazione di estrazioni con rimpiazzo è naturale supporre che tutti gli elementi di siano equiprobabili. In questo caso sappiamo che per calcolare la probabilità #A . In di un evento A basta contare quanti elementi esso contiene, perché poi si ha P(A) = # particolare ogni ω ∈ ha probabilità P({ω}) =
1 1 1 = 2 = · # 7 49
a) L’evento A di cui si richiede la probabilità è quello formato dalle coppie (ω1 , ω2 ) per le quali ω1 e ω2 sono entrambi B oppure entrambi N. In altre parole A = {B1 , B2 , B3 , B4 }2 ∪ {N1 , N2 , N3 }2 e dunque #A = 42 + 32 = 25 e
25 · 49 b) Ora si tratta di calcolare la probabilità dell’evento D delle coppie (ω1 , ω2 ) dove uno almeno tra ω1 e ω2 è diverso da B1 , B2 , B3 , B4 . Dunque il complementare di D è l’evento P(A) =
D c = {B1 , B2 , B3 , B4 }2 e poiché #D c = 16 allora P(D) = 1 − P(D c ) = 1 − 2) Secondo modello. Consideriamo gli eventi Z1 Z2 W1 W2
16 49
=
33 49 .
= una pallina bianca viene estratta alla prima estrazione = una pallina bianca viene estratta alla seconda estrazione = una pallina nera viene estratta alla prima estrazione = una pallina nera viene estratta alla seconda estrazione .
Senza preoccuparci per ora di definirlo esplicitamente, è chiaro che, in uno spazio (, !, P) adeguato a descrivere questa situazione, gli eventi Z1 e Z2 devono risultare indipendenti e così
Esercizio 1.4
5
pure W1 e W2 (poiché le palline vengono rimesse nell’urna i risultati di estrazioni successive devono essere indipendenti). Inoltre dovrà essere 4 7 3 P(W1 ) = P(W2 ) = 7 P(Z1 ) = P(Z2 ) =
poiché in ogni singola estrazione è ragionevole considerare la distribuzione uniforme di probabilità. a) L’evento ‘‘vengono estratte due palline dello stesso colore’’ non è altro che (Z1 ∩ Z2 ) ∪ (W1 ∩ W2 ). Poiché i due eventi Z1 ∩ Z2 e W1 ∩ W2 sono disgiunti (se si estraggono palline bianche non se ne possono estrarre di nere) e per le relazioni d’indipendenza che abbiamo già segnalato, deve essere P((Z1 ∩ Z2 ) ∪ (W1 ∩ W2 )) = P(Z1 ∩ Z2 ) + P(W1 ∩ W2 ) = 4 2 3 2 25 = P(Z1 )P(Z2 ) + P(W1 )P(W2 ) = + = · 7 7 49
b) L’evento ‘‘una almeno delle palline estratte è nera’’ con la formulazione appena introdotta non è altro che W1 ∪ W2 . Usando la formula della probabilità della unione di eventi (osservare che W1 e W2 non sono disgiunti) abbiamo P(W1 ∪ W2 ) = P(W1 ) + P(W2 ) − P(W1 ∩ W2 ) =
33 3 3 3 2 + − = · 7 7 7 49
• Questo esercizio mostra che, in generale, lo spazio di probabilità adatto a descrivere un problema non è unico (pur portando allo stesso risultato). Inoltre qui vediamo l’uso dei due principali strumenti elementari nella costruzione dello spazio di probabilità, cioè l’equiprobabilità e l’indipendenza. Da segnalare l’idea di calcolare la probabilità di un evento spezzandolo nella unione di eventi la cui probabilità è facile da calcolare e l’uso della formula, (1.8), della probabilità della riunione di due eventi non disgiunti.
1.4 Anche questo esercizio può essere risolto in (almeno) due modi, uno usando la formula delle probabilità totali (1.12), l’altro costruendo esplicitamente lo spazio di probabilità e usando i metodi del calcolo combinatorio (cioè contando la cardinalità degli eventi). Come abbiamo già visto negli esempi il metodo della partizione dell’evento certo consiste nel cercare degli eventi A1 , . . . , Am disgiunti, tali che la loro unione abbia probabilità 1 e tali che il calcolo delle probabilità condizionali P(C |Ai ) sia facile. In questo caso una buona scelta è costituita dagli eventi Ai =‘‘la prima pallina estratta è la numero i’’, i = 1, . . . , 6. È chiaro che gli eventi A1 , . . . , A6 costituiscono una partizione dell’evento certo (sono disgiunti e la loro unione esaurisce tutte le possibilità). Inoltre P(Ai ) = 61 per ogni i = 1, . . . , 6. Se indichiamo con C l’evento ‘‘le due estrazioni danno luogo a due numeri consecutivi’’, allora si ha P(C |A2 ) =
2 · 5
6
Parte 1: soluzioni
Infatti dopo la prima estrazione (della pallina con il numero 2) nell’urna sono rimaste 5 palline e l’evento C si verifica se vengono estratte le palline numero 1 oppure 3, con probabilità 25 , appunto. Per lo stesso motivo si ha anche P(C |A3 ) = P(C |A4 ) = P(C |A5 ) =
2 · 5
Se invece la prima pallina estratta è la numero 1, nell’urna restano sempre 5 palline, ma ora l’evento C si verifica solo se la seconda estratta è la numero 2, con probabilità 51 . Lo stesso vale se la prima pallina estratta è la numero 6, perché anche in questo caso si ha lo stesso ‘‘effetto di bordo’’. Dunque 1 P(C |A1 ) = P(C |A6 ) = · 5 Possiamo ora applicare la formula (1.12): P(C) = P(C |A1 )P(A1 ) + . . . + P(C |A6 )P(A6 ) =
2 1 1 1 2· +4· = · 6 5 5 3
Secondo modo: se poniamo E = {1, 2, 3, 4, 5, 6}, l’estrazione delle due palline dall’urna equivale alla scelta a caso di un sottoinsieme di due elementi dell’insieme E. L’insieme dei possibili risultati dell’esperimento casuale è dunque =‘‘insieme di tutti i sottoinsiemi di due elementi di E’’. Sappiamo dalle formule del calcolo combinatorio (Proposizione 1.24) che # = 26 = 15. L’evento C corrisponde in questo modello al sottoinsieme di dei sottoinsiemi di E formati da due elementi consecutivi. Poiché la cardinalità di è piccola possiamo semplicemente passare in rivista tutti i possibili sottoinsiemi di due elementi e trovare che C è formato dai sottoinsiemi 5 {1, 2}, {2, 3}, {3, 4}, {4, 5}, {5, 6}. Dunque la cardinalità di C è uguale a 5 e P(C) = 15 = 13 . Osserviamo che gli elementi di sono sottoinsiemi di cardinalità 2 e non coppie ordinate. Sarebbe stato comunque possibile anche scegliere come spazio l’insieme delle coppie ordinate di elementi di E (cioè le disposizioni di elementi di E a due a due). La cardinalità di sarebbe 6! però ora pari a 4! = 30 ed il calcolo della cardinalità dell’evento corrispondente a C diventa solo un po’ più complicato.
1.5 a) Indichiamo con ω1 , ω2 le posizioni dei due amici nella coda. L’insieme {ω1 , ω2 } è un sottoinsieme di {1, . . . , n} di cardinalità 2. Possiamo dunque considerare come modello di questo problema l’insieme dei sottoinsiemi di cardinalità 2 di {1, . . . , n} con la probabilità (Proposizione 1.24) e l’evento di cui vogliamo uniforme. La cardinalità di è n2 = n(n−1) 2 calcolare la probabilità corrisponde al sottoinsieme A ⊂ formato dagli {ω1 , ω2 } tali che |ω1 − ω2 | = k + 1. Osserviamo che gli elementi di sono sottoinsiemi e non coppie ordinate, cioè {1, 2} e {2, 1} rappresentano lo stesso elemento di . Per rappresentare un elemento di in maniera univoca indicheremo un sottoinsieme con la coppia (ω1 , ω2 ) dove ω1 è il numero più piccolo, (cioè ω1 < ω2 ). Per calcolare la probabilità di A è abbastanza naturale usare la formula delle probabilità totali (1.12) usando la partizione A1 , . . . , An , dove Ai = {ω1 = i} (cioè Ai
Esercizio 1.6
7
corrisponde all’evento ‘‘quello dei due amici che nella coda ha il numero più basso si trova allo i-esimo posto’’). È facile vedere che n (i, i + k + 1) se i + k + 1 ≤ n A ∩ Ai = ∅ altrimenti ovvero A ∩ Ai contiene un solo elemento se i + k + 1 ≤ n ed è vuoto altrimenti. Quindi ( 1 P(A ∩ Ai ) = # se i ≤ n − k − 1 0 altrimenti e dunque P(A) = P(A ∩ A1 ) + . . . + P(A ∩ An ) =
2(n − k − 1) n−k−1 = · # n(n − 1)
b) Scegliere due palline dall’urna senza rimpiazzo equivale a scegliere un sottoinsieme di cardinalità 2 dall’insieme {1, . . . , n}. Sceglieremo dunque costituito dai sottoinsiemi di cardinalità 2 di {1, . . . , n} e l’evento di cui vogliamo calcolare la probabilità corrisponde al sottoinsieme A ⊂ formato dai sottoinsiemi {ω1 , ω2 } tali che |ω1 − ω2 | = k. Il problema dunque, anche se la sua formulazione è diversa, si riconduce esattamente allo stesso modello del punto a) (solamente con k al posto di k + 1). Dunque la probabilità richiesta vale 2(n − k) n−k = · # n(n − 1) • In particolare scegliendo k = 1 otteniamo che la probabilità di estrarre dall’urna due numeri consecutivi è 2(n − 1) 2 = · n(n − 1) n Ciò fornisce una nuova soluzione all’esercizio precedente (dove si aveva n = 6).
1.6 Se indichiamo con A e B gli eventi corrispondenti rispettivamente alla presenza del primo e del secondo difetto, allora P(A) = 0.03, P(B) = 0.07 ed inoltre gli eventi A e B devono risultare indipendenti. a) La probabilità che entrambi i difetti siano presenti è P(A ∩ B) = P(A)P(B) = 0.03 · 0.07 = 0.0021 . b) La probabilità che uno almeno dei difetti sia presente è P(A ∪ B) = P(A) + P(B) − P(A ∩ B) = 0.03 + 0.07 − 0.0021 = 0.0979 . c) La probabilità che un pezzo abbia il primo difetto sapendo che è difettoso è P(A|A ∪ B) =
P(A ∩ (A ∪ B)) P(A) 0.03 = = = 0.306 = 30.6% P(A ∪ B) P(A ∪ B) 0.0979
8
Parte 1: soluzioni
(infatti A ⊂ A ∪ B e quindi A ∩ (A ∪ B) = A). d) La probabilità che vi sia uno solo dei difetti sapendo che il pezzo è difettoso è uguale a 1 meno la probabilità che entrambi i difetti siano presenti (sempre sapendo che il pezzo è difettoso). Dunque, poiché A ∩ B ⊂ A ∪ B, la probabilità richiesta è 1 − P(A ∩ B |A ∪ B) = 1 −
P(A ∩ B) 0.0021 =1− = 0.978 = 97.8 .% P(A ∪ B) 0.0979
1.7 Indichiamo con A1 l’evento ‘‘viene scelta la carta 1’’ (quella con i due lati neri) e con A2 l’evento ‘‘viene scelta la carta 2’’. Con B invece indichiamo l’evento ‘‘viene scelto un lato nero’’. È chiaro che P(A1 ) = P(A2 ) = 21 , poiché non vi è motivo di supporre che le due carte non siano equiprobabili. Inoltre P(B |A1 ) = 1, P(B |A2 ) = 21 , poiché se viene scelta la carta 2, allora vi sono due lati possibili, uno bianco e l’altro nero, entrambi con probabilità 21 . Anche il secondo lato è nero se si è scelta la carta 1. Dunque la probabilità richiesta non è altro che P(A1 |B) e basta dunque applicare la formula di Bayes: P(A1 |B) =
P(B |A1 )P(A1 ) · P(B)
Resta ora solo da calcolare P(B). Ma con il metodo della partizione dell’evento certo, dato che A1 , A2 è una partizione, P(B) = P(B ∩ A1 ) + P(B ∩ A2 ) = P(B |A1 )P(A1 ) + P(B |A2 )P(A2 ) =
3 1 1 + = · 2 4 4
Dunque P(A1 |B) = 23 . 1.8 a) Indichiamo con Ai , i = 1, 2, 3 l’evento ‘‘lo i-esimo lancio ha dato 6’’; è chiaro che P(A1 ) = P(A2 ) = P(A3 ) = 61 . Ci viene richiesto di calcolare P(A1 ∪ A2 ∪ A3 ). Gli eventi A1 , A2 , A3 non sono però disgiunti (ad esempio A1 ∩ A2 non è altro che l’evento ‘‘i primi due lanci danno entrambi 6’’) e dunque la probabilità della unione non è uguale alla somma delle probabilità. Possiamo però sfruttare il fatto che gli eventi A1 , A2 , A3 sono indipendenti come pure i loro complementari e usare la formula P(A1 ∪ A2 ∪ A3 ) = 1 − P (A1 ∪ A2 ∪ A3 )c = 1 − P(Ac1 ∩ Ac2 ∩ Ac3 ) = 5 3 = 1 − P(Ac1 )P(Ac2 )P(Ac3 ) = 1 − = 0.42 6 (abbiamo usato le formule di De Morgan, vedi in fondo a pag. 3 del libro). b) Ripetendo questo ragionamento si vede che la probabilità che in n lanci si ottenga 6 almeno una volta è 1 − ( 65 )n . Perché questa quantità sia più grande di 0.9 occorrerà che sia 1−
5 n 6
> 0.9
Esercizio 1.10
9
Cioè, svolgendo la disuguaglianza, 0.1 > ( 65 )n , ovvero, prendendo i logaritmi e dividendo per log 65 , n > log(0.1) log 65 e cioè n > 12.62 . Attenzione: quando si divide per log 56 occorre invertire il verso della disuguaglianza, perché si tratta di una quantità negativa. Dunque deve essere n ≥ 13. • Da segnalare l’uso della formula P(A) = 1 − P(Ac ). Talvolta il calcolo della probabilità di Ac è più facile del calcolo diretto della probabilità di A.
1.9 Con la distribuzione ipergeometrica si trova che, se i voti si ripartissero a caso tra i commissari, essi si distribuirebbero come è avvenuto con probabilità 5 3 5 0 8 5
=
1 = 1.78 .% 56
Il giudice può probabilmente decidere che l’evento verificatosi è effettivamente troppo improbabile per essere il frutto del caso. Se invece i 5 voti fossero stati dati da 4 donne e un uomo, la probabilità sarebbe stata 5 3 15 4 1 = 26.78% = 8 56 5
che è un valore abbastanza alto perché l’evento possa non essere giudicato improbabile.
1.10 a) Possiamo considerare le 52 carte del mazzo divise in due gruppi, uno composto dai 4 assi e l’altro dalle altre 48 carte. La probabilità di ottenere esattamente k assi, per k = 1, 2, 3, 4, non è altro che la probabilità di ottenere k elementi dal primo gruppo in una estrazione di 5 elementi senza rimpiazzo. La distribuzione ipergeometrica dà
pk :=
4 48 k 5−k 52 5
=
4! 48! 5! 47! · k! (4 − k)! (43 + k)! (5 − k)! 52!
Se indichiamo l’evento ‘‘si ricevono (esattamente) k assi’’ con Ak , l’evento ‘‘si ricevono almeno 2 assi’’ non è altro che la riunione A2 ∪ A3 ∪ A4 . Poiché gli eventi Ak al variare di k = 1, 2, 3, 4 sono disgiunti, la probabilità richiesta p è allora uguale a P(A2 )+P(A3 )+P(A4 ) = p2 +p3 +p4 . Non ci resta che calcolare queste tre quantità, il che si fa con una calcolatrice dopo avere
10
Parte 1: soluzioni
semplificato al massimo i coefficienti binomiali e i fattoriali che ne risultano: 4 48 4! 48! 5! 47! 5! 47 · 46 = = 0.04 p2 = 2 523 = 2! 2! 45! 3! 52! 52 · 51 · 50 · 49 5 4 48 4! 48! 5! 47! 2 · 5! 47 p3 = 3 522 = = = 0.0017 3! 46! 2! 52! 52 · 51 · 50 · 49 5 4 48 48! 5! 47! 5! = = 1.847 · 10−5 p4 = 4 521 = 47! 52! 52 · 51 · 50 · 49 5
e dunque p = p2 + p3 + p4 = 0.042. Da notare che p4 = 1.847 · 10−5 è la probabilità di ricevere poker d’assi servito. b) Cominciamo col fissare un colore, quadri ad esempio. La probabilità di ricevere cinque carte di quadri (cioè colore servito a quadri) si calcola considerando le carte del mazzo ancora suddivise in due gruppi: le 13 carte di quadri e le altre 39. Le formule della distribuzione ipergeometrica dicono che la probabilità di ricevere 5 carte del primo gruppo e 0 dal secondo è 13 39 13! 5! 47! 13 · 12 · 11 · 10 · 9 11 · 3 0 5 = = = = 4.95 · 10−4 · 52 5! 8! 52! 52 · 51 · 50 · 49 · 48 17 · 5 · 49 · 16 5
Se indichiamo con A♦ l’evento ‘‘si riceve colore a quadri servito’’ e con A♥ , A♣ , A♠ , gli analoghi eventi per gli altri semi, allora ognuno di questi ha probabilità 4.95 · 10−4 , grazie al calcolo appena fatto. Inoltre la probabilità richiesta non è altro che la probabilità della unione A♦ ∪ A♥ ∪ A♣ ∪ A♠ . Poiché si tratta di eventi disgiunti, la probabilità di ricevere colore servito è 4 · 4.95 · 10−4 = 0.00198 = 0.198%. c) Abbiamo già calcolato in a) la probabilità di ricevere un poker servito di assi. Naturalmente questa è la stessa che la probabilità di ricevere un poker servito di un altro numero. Poiché i numeri (comprese le figure) sono 13 e poiché gli eventi ‘‘si riceve poker servito di assi’’, ‘‘. . . di 2’’, ‘‘. . . di 3’’ etc. sono tra di loro disgiunti, la probabilità di ricevere un poker servito è uguale a 13 · 1.847 · 10−5 = 2.4 · 10−4 . • La risoluzione di questo esercizio usa, in modo ripetitivo, solo due idee: il fatto che gli eventi considerati si possono ricondurre a un modello di prove ripetute senza rimpiazzo (che permette di servirsi delle formule della distribuzione ipergeometrica) e il metodo della partizione dell’evento certo: in ognuno dei punti a), b) e c) abbiamo suddiviso l’evento che ci interessava in sottoinsiemi disgiunti, per ciascuno dei quali era facile calcolare la probabilità.
1.11 È facile calcolare la probabilità che le due palline numero 1 vengano estratte insieme: basta considerare le 93 palline presenti nell’urna come suddivise in due gruppi, il primo formato dalle due palline n◦ 1 ed il secondo dalle 91 rimanenti. Si tratta di calcolare la probabilità di estrarre 2 palline dal primo gruppo e 3 dal secondo in cinque estrazioni senza rimpiazzo. La probabilità richiesta si può calcolare con le formule della distribuzione ipergeometrica e vale 2 91 p=
2
3 93 5
= 2.34 × 10−3 .
Esercizio 1.11
11
Se ora indichiamo con Ai , i = 1, 2, 3, l’evento ‘‘le due palline numero i vengono estratte entrambe’’ è chiaro che i tre eventi hanno la stessa probabilità e dunque P(A1 ) = P(A2 ) = P(A3 ) = p. Inoltre la probabilità richiesta non è altro che la probabilità della riunione degli eventi A1 , A2 , A3 . Questi non sono però disgiunti, poiché, ad esempio, la cinquina (1, 1, 2, 2, 37) si trova sia in A1 che in A2 (ovvero è possibile che simultaneamente vengano estratte le due palline n◦ 1 e le due n◦ 2). Possiamo però ricorrere alla formula della probabilità della unione di tre eventi non disgiunti (formula (1.9) a pag. 8 del libro). Chiaramente l’evento A1 ∩ A2 ∩ A3 ha probabilità 0 (non è possibile estrarre insieme le due palline 1, le due 2 e le due 3, visto che ne vengono estratte 5 in totale). Il problema è quindi risolto se sappiamo calcolare P(A1 ∩ A2 ) (le probabilità delle altre intersezioni è la stessa per simmetria). Ancora usando la distribuzione ipergeometrica (probabilità di estrarre 4 elementi dal gruppo {1, 1, 2, 2} ed 1 dal gruppo formato dalle altre 89 palline) si ha P(A1 ∩ A2 ) = q = per cui in definitiva la probabilità richiesta è
4 89 4 1 93 5
= 1.71 × 10−6
3p − 3q = 0.007 = 0.7% . b) Cominciamo col calcolare la probabilità di fare terno in un’estrazione normale: ci possiamo ancora ricondurre alla distribuzione ipergeometrica (probabilità di estrarre 3 palline dal gruppo composto dalle palline numero 1, 2, 3 e 2 da quello composto da tutte le altre): 3 87 3 2 90 5
= 8.51 × 10−5 .
Il calcolo della probabilità di fare terno con l’urna manomessa è un po’ più complicato. Basta però dare un’occhiata alla parte finale dell’Esempio 1.28: il numero totale di cinquine è 93 5 , mentre il numero di cinquine che contengono esattamente una pallina col numero 1, una col numero 2 e una col numero 3 è 2 2 2 87 . 2 1 1 1 La probabilità di fare terno con l’urna manomessa è dunque 2 2 2 87 1 1 1 2 93 5
= 5.76 × 10−4 .
• Nella soluzione di questo esercizio abbiamo usato due idee utili anche in altre situazioni: la prima consiste nel calcolare la probabilità di un evento scrivendolo come riunione di altri eventi e poi usando la formula sulla probabilità della unione di eventi non (necessariamente) disgiunti. La seconda consiste nel ricondursi, se possibile, ad un modello già studiato e universale (cioè che può applicarsi a molte situazioni diverse) come quello delle prove ripetute senza rimpiazzo, che dà luogo alla distribuzione ipergeometrica.
12
Parte 1: soluzioni
1.12 a) Indichiamo con Ei , i = 1, . . . , n, l’evento ‘‘la i-esima pallina non viene messa nell’urna 1’’. Per come il problema è stato posto gli eventi Ei si possono supporre indipendenti; inoltre, poiché ogni volta ognuna delle tre urne ha la stessa probabilità di essere scelta, la probabilità dell’evento Ei è 23 . L’evento ‘‘l’urna 1 rimane vuota’’ non è altro che l’intersezione E1 ∩ . . . ∩ En . Quindi P(E1 ∩ . . . ∩ En ) = P(E1 ) . . . P(En ) =
2 n 3
.
Alternativamente avremmo potuto osservare che siamo in presenza di uno schema di Bernoulli (Esempio 1.20), cioè di una sequenza di prove ripetute e indipendenti ciascuna delle quali ha due possibili risultati: successo (corrispondente in questo caso all’evento ‘‘l’urna 1 viene prescelta’’) con probabilità p (= 31 nel nostro caso) e insuccesso con probabilità 1−p. Abbiamo visto nell’Esempio 1.20 che in questa situazione la probabilità che non si verifichi nessun successo è appunto (1 − p)n . Il nostro calcolo non è altro che una ridimostrazione di questo fatto. b) La probabilità che una singola pallina non finisca né nell’urna 1 né nella 2 (ovvero che finisca nell’urna 3) vale 13 . Siamo quindi nella situazione di uno schema successo-insuccesso come lo abbiamo appena descritto con p = 23 . La probabilità richiesta è dunque ( 31 )n . c) Consideriamo gli eventi A1 = l’urna 1 è rimasta vuota A2 = l’urna 2 è rimasta vuota A3 = l’urna 3 è rimasta vuota . L’evento di cui dobbiamo calcolare la probabilità è l’unione A1 ∪ A2 ∪ A3 e possiamo usare la formula (1.9) sulla probabilità della unione di tre eventi non disgiunti: l’evento A1 ∩ A2 ∩ A3 ha chiaramente probabilità 0 (non è possibile che tutte e tre le urne restino vuote). Inoltre abbiamo già calcolato le altre probabilità che figurano nella formula: gli eventi A1 , A2 , A3 hanno chiaramente la stessa probabilità, per motivi di simmetria, che vale ( 23 )n per il punto a); così pure le probabilità delle intersezioni a due a due valgono ( 31 )n per il punto b). In conclusione la probabilità richiesta vale 1 n 2 n −3 . 3 3 3 • In questo esercizio ritroviamo alcune idee già viste: a) l’uso di modelli standard (in questo caso lo schema successo-insuccesso, o di Bernoulli) a cui ci si riconduce per sfruttare formule stabilite una volta per tutte; b) il calcolo della probabilità di un evento ottenuta scrivendolo come riunione di altri, la cui probabilità è facile da calcolare, per poi usare la formula della unione di eventi non disgiunti. Osserviamo infine che in questa risoluzione non abbiamo precisato quale sia lo spazio di probabilità. Abbiamo semplicemente supposto che ne esistesse uno contenente degli eventi E1 , . . . , En , A1 , A2 , A3 aventi certe proprietà. In realtà sarebbe stato possibile costruire uno spazio (, !, P) adatto, ma ciò avrebbe appesantito lo svolgimento senza renderlo né più chiaro
Esercizio 1.13
13
né più rigoroso. La costruzione completa dello spazio di probabilità verrà spesso sottintesa negli altri esercizi.
1.13 a) Indichiamo con Ai l’evento ‘‘viene scelta l’urna i-esima’’ e con B l’evento ‘‘vengono estratte due palline di colori diversi’’; poiché si tratta di estrazioni senza rimpiazzo la probabilità di estrarre una pallina bianca e una rossa è data dalla distribuzione ipergeometrica. Poiché nell’urna i-esima vi sono 4 palline R e i palline B, deve essere i 4 8i 1 1 (1.1) P(B |Ai ) = 4+i = := qi . (4 + i)(3 + i) 2
Inoltre P(Ai ) =
1 10 ;
dunque, con la formula delle probabilità totali (1.12) e una calcolatrice,
P(B) =
10 X i=1
10
P(B |Ai )P(Ai ) =
1 X 8i = 0.506 . 10 (4 + i)(3 + i) i=1
b) Possiamo applicare la formula di Bayes P(Ai |B) =
qi P(B |Ai ) P(Ai ) = . P(B) 10 P(B)
Determinare l’urna più probabile significa trovare il valore di i per cui qi è massima. Ciò si può fare (oltre che con un calcolo numerico con un PC o una calcolatrice) studiando per quali valori di i si ha qi+1 qi ≥ 1. Si trova qi+1 (4 + i)(3 + i) 8(i + 1) i 2 + 4i + 3 = = · qi (5 + i)(4 + i) 8i i 2 + 5i La disuguaglianza x 2 + 4x + 3 >1 x 2 + 5x è soddisfatta per 0 < x < 3; inoltre la frazione è = 1 per x = 3 ed è < 1 per x > 3. Dunque i = 1, 2 i=3 i = 4, . . . , 10 .
qi+1 > qi qi+1 = qi qi+1 < qi
Il massimo di i → qi è quindi raggiunto per i = 3 e i = 4: e urne 3 e 4 sono le più probabili. •
1
•
2
•
•
•
3
4
5
Figura 1.1 Andamento del valore di P(Ai |B) =
•
•
•
•
•
6
7
8
9
10
qi 10 P(B)
per i = 1, . . . , 10.
14
Parte 1: soluzioni
c) Basta ripetere gli argomenti dei punti precedenti, solo che ora P(Ai ) = 2 e P(A10 ) = 11 . Dunque
1 11
per i = 1, . . . , 9
9
P(B) =
2 1 X qi + q = 0.500 . 11 11 10 i=1
•
•
1
•
•
•
•
•
•
•
•
2
3
4
5
6
7
8
9
10
Figura 1.2 Andamento del valore di P(Ai |B) quando le urne sono 11.
Applicando ancora la formula di Bayes si trova P(Ai |B) = P(B|Ai )
P(Ai ) · P(B)
1 qi per i = 1, . . . , 9 (valore massimo raggiunto ancora per i = 3, 4), Ora però P(Ai |B) = 11 P(B) 2 mentre P(A10 |B) = 11 P(B) q10 . Un confronto numerico mostra che ora il valore i = 10 è il più probabile, poiché P(A3 |B) = P(A4 |B) = 0.103 mentre P(A10 |B) = 0.158. • Gli aspetti importanti di questo esercizio sono l’uso della nozione di probabilità condizionale e della formula di Bayes.
1.14 Vari modi sono possibili (il secondo è in realtà il più semplice). Primo modo: indichiamo con Ai , i = 1, . . . , k l’evento ‘‘nelle prime i assegnazioni non si sono avuti conflitti’’. È chiaro che A1 ⊃ A2 ⊃ . . . ⊃ Ak ed inoltre la probabilità richiesta è proprio P(Ack ). Calcoliamo P(Ai |Ai−1 ). Se l’evento Ai−1 è verificato ciò vuol dire che alle prime i − 1 variabili sono state assegnate i − 1 celle di memoria diverse. Ne restano dunque libere n − i + 1 e la probabilità di non avere conflitti alla i-esima assegnazione è P(Ai |Ai−1 ) =
n−i+1 · n
Quindi la probabilità che non vi siano conflitti è P(Ak ) = P(Ak |Ak−1 )P(Ak−1 ) = P(Ak |Ak−1 )P(Ak−1 |Ak−2 )P(Ak−2 ) = = ... = = P(Ak |Ak−1 )P(Ak−1 |Ak−2 ) . . . P(A2 |A1 ) P(A1 ) = | {z } =1
n−1 n! n−k+1 n−k+2 ... = k = n n n n (n − k)!
Esercizio 1.15
15
n! . e quindi la probabilità che vi sia almeno un conflitto è 1 − P(Ak ) = 1 − nk (n−k)! Secondo modo: Scegliere a caso un’assegnazione di variabili alle celle di memoria significa scegliere a caso un’applicazione da {1, . . . , k} (l’insieme delle variabili) a valori in {1, . . . , n} (l’insieme delle celle di memoria). Indichiamo con l’insieme di queste applicazioni. Si può vedere come l’insieme delle k-uple (i1 , . . . , ik ) dove i1 , . . . , ik sono numeri interi compresi da 1 a n (non necessariamente distinti); dunque # = nk . L’insieme B delle assegnazioni che non danno luogo a conflitto non è altro che l’insieme delle applicazioni iniettive da {1, . . . , k} in {1, . . . , n}, ovvero l’insieme delle k-uple (i1 , . . . , ik ) dove numeri i1 , . . . , ik sono distinti. In altre parole B è l’insieme delle disposizioni di n elementi a k n! a k ed ha dunque cardinalità (n−k)! (Proposizione 1.23). Inoltre, poiché si può supporre che tutte le possibili assegnazioni siano equiprobabili, considereremo su la distribuzione uniforme di probabilità e dunque la probabilità che non vi siano conflitti è
P(B) =
#B n! = k · # n (n − k)!
Per n = 1000, k = 25, facendo attenzione a semplificare al massimo numeratore e denominatore per evitare errori di arrotondamento, la probabilità di avere almeno un conflitto è 1−
999 998 976 ... = 0.261 = 26.1% 1000 1000 1000
che è una probabilità inaspettatamente elevata per così tante celle di memoria rispetto alle variabili. • Un esempio classico quando si parla di calcolo combinatorio è quello dei compleanni dell’Esempio 1.26: qual è la probabilità che in un gruppo di k persone ve ne siano almeno due che sono nate nello stesso giorno dell’anno? È abbastanza utile rendersi conto che l’esempio dei compleanni ‘‘è lo stesso’’ di questo appena svolto, nel senso che entrambi si riconducono allo stesso modello. In entrambi, infatti, si considera come spazio di probabilità lo stesso insieme delle k-uple di numeri {i1 , . . . , ik } scelti in {1, . . . , n} (n = 365 nel caso dei compleanni) e si deve poi calcolare la cardinalità dello stesso insieme A delle k-uple formate da numeri diversi tra loro. La morale è che problemi che nascono in situazioni applicative diverse possono ricondursi allo stesso modello (e quindi risolversi con gli stessi calcoli).
1.15 a) A vince se l’ultima pallina rimasta nell’urna è rossa, ovvero se tra le prime 5 palline estratte ve ne sono una rossa e quattro nere. Usando la distribuzione ipergeometrica la probabilità che ciò accada è 2 4 1 2 · 5! 1 4 = · = 6 6! 3 5
Più semplicemente si sarebbe anche potuto osservare che in uno schema di estrazioni senza rimpiazzo la probabilità di avere un determinato risultato alla prima, alla seconda, . . . , alla k-esima estrazione è sempre la stessa (vedi l’Esempio 1.30). La probabilità di avere una pallina rossa alla sesta (e ultima) estrazione è dunque la stessa che alla prima e cioè 31 .
16
Parte 1: soluzioni
b) Se la prima estrazione dà una pallina rossa, nell’urna ne rimangono 4 nere e 1 rossa. A dunque vince se dalle successive 4 estrazioni risultano tutte palline nere. Ancora la distribuzione ipergeometrica dà come probabilità 1 4 4! 1 1 4 = = · 5 5! 5 4
c) Se indichiamo con D l’evento ‘‘il giocatore A vince’’ e con E l’evento ‘‘la prima pallina estratta è rossa’’, allora dobbiamo calcolare P(D ∩ E). Ora P(D ∩ E) = P(D|E)P(E). Ma P(E) = 26 = 31 mentre abbiamo calcolato nel punto b) che P(D|E) = 15 . Dunque 1 P(D ∩ E) = 15 .
1.16 Il risultato dell’esperimento casuale è una 5-upla {k1 , . . . , k5 } di numeri compresi tra 1 e 100. Poiché le palline sono estratte a caso e con rimpiazzo possiamo considerare tutte le 5-uple equiprobabili. Uno spazio di probabilità ragionevole per descrivere questo problema è dunque lo spazio formato da queste 5-uple (ovvero il prodotto cartesiano di {1, . . . , 100} moltiplicato per se stesso 5 volte) e munito della distribuzione uniforme di probabilità. La cardinalità di è naturalmente 1005 ; l’evento di cui vogliamo calcolare la probabilità è invece rappresentato dall’insieme A ⊂ delle 5-uple (k1 , . . . , k5 ) tali che tra i numeri k1 , . . . , k5 ve ne siano almeno due uguali. Il problema è quindi ridotto al calcolo della cardinalità di A. Il calcolo diretto non è semplice; ma un attimo di riflessione mostra che il suo complementare Ac non è altro che l’insieme delle 5-uple (k1 , . . . , k5 ) tali che i numeri k1 , . . . , k5 siano tutti diversi tra loro, ovvero l’insieme delle disposizioni di 100 elementi a 5 a 5; dunque #Ac = 100! 95! . Quindi #Ac = # 99 98 97 96 100! =1− =1− = 0.096 = 9.6% . 100 100 100 100 1005 95! P(A) = 1 − P(Ac ) = 1 −
• Qui vale la stessa osservazione che abbiamo fatto alla fine dell’Esercizio 1.14: il problema dei compleanni, quello dell’assegnazione delle variabili e questo sono ‘‘lo stesso’’ problema, nel senso che si riconducono al calcolo della probabilità dello stesso evento nello stesso modello.
1.17 a) Indichiamo con FA l’evento ‘‘il primo genitore fornisce un allele di tipo A’’ e con A1 , A2 , A3 rispettivamente gli eventi ‘‘il primo genitore è di tipo AA, Aa, aa rispettivamente’’. Per come il problema è stato posto sarà P(FA |A1 ) = 1,
P(FA |A2 ) =
1 , 2
P(FA |A3 ) = 0
e dunque P(FA ) = P(FA |A1 )P(A1 ) + P(FA |A2 )P(A2 ) + P(FA |A3 )P(A3 ) = p +
1 q. 2
Esercizio 1.18
17
La probabilità che anche il secondo genitore trasmetta un allele di tipo A sarà la stessa e, supponendo che i geni trasmessi dai due genitori siano indipendenti, otteniamo che un discendente sarà di tipo AA con probabilità p1 = (p + 21 q)2 . Analogamente esso sarà di tipo aa con probabilità r1 = (r + 21 q)2 e di tipo Aa con probabilità q 1 = 1 − p 1 − r1 = 1 − p +
1 2
q
2
− r+
1 2
q
2
=2 p+
1 2
q r+
1 2
q .
b) Alla generazione successiva, la probabilità di osservare dei discendenti di dato tipo genetico si otterrà dalle formule precedenti, sostituendo a p, q, r i valori p1 , q1 , r1 appena calcolati. Otteniamo 2 p2 = (p1 + 21 q1 )2 = (p + 21 q)2 + (p + 21 q)(r + 21 q) = 2 = (p + 21 q)2 = p1 . = (p + 21 q) p + 21 q + r + 21 q {z } | =1
Con calcoli simili si vede che anche q2 = q1 , r2 = r1 . Quindi le proporzioni dei tre genotipi restano costanti in tutte le generazioni successive. In altre parole, nel modello di HardyWeinberg la popolazione raggiunge l’equilibrio genetico dopo la prima generazione.
1.18 Tra Est e Ovest vanno ripartite 26 carte di cui 5 atout. Se indichiamo con Ai , i = 0, . . . , 5 l’evento ‘‘Ovest ha i atout’’, allora usando la distribuzione ipergeometrica P(Ai ) = e per i = 2 P(A2 ) =
5 21 2 11 26 13
5 21 i 13−i 26 13
=
13 · 3 = 0.339 23 · 5
che è la probabilità richiesta. b) Se in Ovest vi sono 2 atout, allora la Q cadrà con due giri di atout solo se in Ovest si trova anche la Q (altrimenti essa sarebbe terza in Est). Dunque se indichiamo con C l’evento ‘‘la Q cade con due giri di atout’’, la quantità P(C |A2 ) non è altro che la probabilità che la Q si trovi in Ovest sapendo che Ovest ha due carte di atout. Quindi P(C |A2 ) = 25 . c) Usando il metodo della partizione dell’evento certo: P(C) =
5 X i=0
P(C ∩ Ai ) =
5 X i=0
P(C |Ai )P(Ai )
(dove gli eventi Ai sono quelli definiti in a)). In quest’ultima somma vi sono molti termini di cui già conosciamo il valore: sono note infatti le probabilità P(Ai ), le probabilità condizionali P(C |Ai ) per i = 2 (calcolata in b)) e per i = 0, 5 (uguali a 0 perché se Ovest possiede 5 atout oppure nessuno, la Q è quinta e non può cadere con solo due giri). Inoltre per i = 1, ripetendo Paolo Baldi Calcolo delle Probabilità McGraw-Hill 2011
18
Parte 1: soluzioni
il ragionamento del punto b), P(C |A1 ) = 15 , poiché, se in O vi è un solo atout, la Q cadrà solo se questo è proprio la Q e ciò si verifica appunto con probabilità 15 . In modo simile si possono calcolare le probabilità condizionali per i = 3, 4, ma è più semplice osservare che P(C ∩ A2 ) = P(C ∩ A3 ),
P(C ∩ A1 ) = P(C ∩ A4 )
per motivi di simmetria: se Ovest ha 2 atout allora Est ne ha 3 e viceversa e la situazione tra Est e Ovest è chiaramente simmetrica. Lo stesso vale per i = 1, 4. Basta ora sostituire i valori numerici: P(A2 ) = P(A3 ) =
13 · 3 = 0.339 23 · 5
13 = 0.141 4 · 23 P(C) = 2 (0.2 · 0.141 + 0.4 · 0.339) = 0.328 . P(A1 ) =
d) Si tratta di ripetere gli stessi ragionamenti dei punti precedenti, solo che ora Est e Ovest hanno insieme 3 atout. Se indichiamo ancora con Ai , i = 0, 1, 2, 3 gli eventi ‘‘Ovest ha i atout’’, allora P(C ∩ A0 ) = 0 perché se Ovest ha 0 atout, ciò vuole dire che la Q si trova in Est insieme ad altri due atout e non cadrà al giro successivo. Per lo stesso motivo, scambiando i ruoli di Est e Ovest, P(C ∩ A3 ) = 0. Dunque P(C) = P(C ∩ A1 ) + P(C ∩ A2 ) = 2P(C ∩ A1 ) = 2P(C |A1 )P(A1 ) . Ora P(C |A1 ) =
1 3
perché se Ovest ha un atout la Q cadrà solo se essa è uno di questi. Inoltre P(A1 ) =
Quindi P(C) =
6 23
3 21 1 11 24 12
=
9 = 0.391 . 23
= 0.260. La probabilità è un po’ diminuita.
2.1 Supponiamo che il comportamento di ogni singolo passeggero sia indipendente da quello degli altri e poniamo Zi = 1 se lo i-esimo passeggero si presenta alla partenza e Zi = 0 altrimenti. Il numero di passeggeri che si presenta alla partenza è dunque lo stesso che il numero di successi in uno schema di Bernoulli e dunque (Esempio 2.4) segue una legge binomiale. Il numero di passeggeri che si presenta su un volo in cui si è accettato il massimo di prenotazioni è quindi una v.a. X1 di legge B(22, 0.9) per il primo tipo di aereo ed una v.a. X2 di legge B(11, 0.9) per il secondo. La probabilità di lasciare a terra almeno un passeggero nel volo da 20 posti vale 22 22 0.922 = 0.339 0.921 · 0.1 + P(X1 ≥ 21) = 22 21 mentre vale
11 0.911 = 0.314 P(X2 = 11) = 11
Esercizio 2.4
19
per l’altro tipo di aereo. Il rischio è maggiore per il volo da 20 passeggeri. • Il punto chiave della soluzione di questo esercizio consiste nel riconoscere che il problema si può ricondurre a un modello generale. In questo caso lo schema di Bernoulli. 2.2 Se X indica il numero di volte in cui si ottiene il 6 in n lanci, allora X ∼ B(n, 61 ). Dunque 5 a) la probabilità che in tre lanci il 6 sia uscito due volte è 23 612 56 = 72 = 0.07. b) La probabilità che in n lanci il 6 sia uscito 2 volte è n(n − 1) 5 n−2 n 1 5 n−2 = . pn = 2 72 6 2 6 6 Calcolando numericamente si vede che il massimo è raggiunto per n = 11 e n = 12. Più rigorosamente si sarebbe potuto fare uno studio della funzione t → t (t − 1)( 56 )t−2 , che è crescente fino a t = 11.49 e poi decrescente; ciò implica che il massimo di pn può essere raggiunto o per n = 11 o per n = 12 e un controllo diretto mostra che entrambi questi valori realizzano il massimo. Per questi due valori la probabilità vale 0.296.
2.3 Supponiamo che i 24 operatori siano indipendenti. Ognuno di essi ad un dato istante si troverà in uno stato di collegamento (che indicheremo convenzionalmente con 1) oppure no (0). Quindi se Xi indica lo stato dello i-esimo operatore, si modellizza il problema con delle v.a. X1 , . . . , X24 indipendenti e di Bernoulli B(1, p) con p = 0.6. Sappiamo che la somma di n v.a. di Bernoulli indipendenti B(1, p) segue una legge binomiale B(n, p). Quindi il numero totale di utenti collegati X = X1 + . . . + X24 ha legge B(24, 0.6) ed il problema proposto non è altro che il calcolo della probabilità P(X ≥ 20) =
24 X 24 0.6k 0.424−k = 0.0135 = 1.35% . k
k=20
2.4 a) Il calcolo di p si riconduce alla distribuzione ipergeometrica: probabilità di estrarre 1 pallina dal gruppo formato dal solo elemento 67 e 4 dal gruppo degli altri 89 numeri in 5 estrazioni senza rimpiazzo: 1 89 5 1 p = 1 904 = = = 0.0556 = 5.56 .% 90 18 5
Poiché è ragionevole supporre che le estrazioni di settimane diverse siano indipendenti tra loro, sappiamo che il numero T di settimane che trascorrono fino alla prima estrazione del 67 segue 1 . Dunque, ricordando il valore una distribuzione geometrica modificata di parametro p = 18 della speranza matematica di una v.a. geometrica modificata (Esempi 2.38 e)), il numero medio di settimane prima della prima estrazione è E(T ) =
1 = 18 . p
20
Parte 1: soluzioni
b) In due modi: poiché le estrazioni di settimane diverse sono indipendenti, il numero di volte in cui il 67 viene estratto in 30 settimane si modellizza come il numero di successi in 30 prove 1 di successo in ogni singola prova. Il numero di estrazioni indipendenti con probabilità p = 18 che contengono il 67 tra i numeri estratti è dunque una v.a. di legge binomiale B(30, p). La probabilità di avere 0 successi è dunque 30 (1 − p)30 = 0.18 = 18% . 0 Alternativamente si può osservare che, poiché il primo istante T di successo in uno schema successo-insuccesso ha una distribuzione geometrica modificata, ricordando le regole di somma delle serie geometriche (vedi il riquadro pag. 39), P(T > 30) =
∞ X
k=31
p(1 − p)k−1 =
p(1 − p)30 = (1 − p)30 . 1 − (1 − p)
c) Ancora in due modi: indichiamo con A l’evento ‘‘il 67 non è uscito nelle prime 100 estrazioni’’ e con B e C rispettivamente gli eventi ‘‘il 67 esce entro la 101-esima estrazione’’ e ‘‘il 67 esce solo dopo la 130-esima estrazione’’. Per ottenere P(B |A) calcoleremo prima P(B c |A) (qualche volta è più facile calcolare la probabilità del complementare di un evento. . . ). In effetti P(B c ∩ A) P(B |A) = 1 − P(B c |A) = 1 − · P(A) L’evento B c ∩ A è l’evento ‘‘il 67 non esce nelle prime 101 estrazioni’’ ed ha probabilità (1 − p)101 (probabilità di ottenere 0 successi in 101 prove), mentre, per lo stesso motivo P(A) = (1 − p)100 . Quindi P(B |A) = 1 − P(B c |A) = 1 −
(1 − p)101 = 1 − (1 − p) = p (1 − p)100
cioè la probabilità è la stessa che se le prime 100 estrazioni non avessero avuto luogo, un fatto abbastanza intuitivo dato che le estrazioni sono indipendenti. Allo stesso modo si risolve l’ultima parte del punto c): P(C |A) =
P(C ∩ A) (1 − p)130 = = (1 − p)30 . P(A) (1 − p)100
Alternativamente se T , come prima, indica il numero di settimane fino alla prima estrazione del 67, allora gli eventi A, B, C appena definiti si possono scrivere A = {T > 100},
B = {T ≤ 10},
C = {T > 130} .
Per la proprietà di mancanza di memoria della legge geometrica P(B c |A) = P(T > 101|T > 100) = P(T > 1) = 1 − p
P(C |A) = P(T > 130|T > 100) = P(T > 30) = (1 − p)30 .
Esercizio 2.5
21
d) Il numero di volte in cui il 67 viene estratto in 50 settimane segue una legge binomiale 1 B(50, p) con p = 18 . Dunque la probabilità che il 67 sia presente almeno 6 volte in 50 settimane vale 50 X 50 k p (1 − p)50−k . k k=6
Si tratta di una somma di 45 termini che occorre calcolare numericamente. È utile osservare che la relazione 50 5 X X 50 k 50 k 50−k p (1 − p) =1− p (1 − p)50−k = 1 − 0.94 = 0.06 k k k=6
k=0
permette di ricondurre il calcolo alla somma di 6 termini solamente.
2.5 Indichiamo con A l’evento ‘‘viene scelto uno dei dadi truccati’’ e con B ‘‘viene scelto uno dei dadi che non sono truccati’’. Naturalmente P(A) = P(B) = 21 . a) Con la formula delle probabilità totali (1.12) (A e B formano una partizione dell’evento certo) P(X = 3) = P(X = 3|A)P(A) + P(X = 3|B)P(B) =
1 1 1 1 2 + = · 10 2 6 2 15
La speranza matematica di X è data da E(X) =
6 X k=1
kP(X = k) .
Conosciamo già la probabilità di avere 3, ed anche quella di ottenere ognuno dei risultati 2, 4, 5, 6, che sarà uguale a quella di avere 3. D’altra parte la probabilità di avere 1 sarà P(X = 1) = 1 − P(X = 2) − P(X = 3) − . . . − P(X = 6) = 1 − 5 ·
2 1 = · 15 3
Dunque 2 1 + (2 + . . . + 6) = 3 . 3 15 b) Se X e Y indicano i risultati del primo e del secondo lancio rispettivamente allora E(X) =
P(X = 2, Y = 3) = P(X = 2, Y = 3|A)P(A) + P(X = 2, Y = 3|B)P(B) = 1 1 1 17 = + · = 2 100 36 900
Viceversa se poniamo C = {X = 2, Y = 3}, la probabilità che si tratti di uno dei dadi truccati sapendo che i due lanci hanno dato 2 e 3 non è altro che P(A|C). Per la formula di Bayes P(A|C) =
P(C |A)P(A) · P(C)
22
Parte 1: soluzioni
1 17 e sappiamo che P(A) = 21 . Inoltre P(C |A) = 100 , Abbiamo appena calcolato P(C) = 900 1 perché ognuno dei due risultati 2 e 3 ha probabilità 10 di essere ottenuto da un dado truccato. In conclusione 9 900 1 = = 0.26 . P(A|C) = 17 200 34
c) No. Per mostrarlo basta trovare dei valori i, j tali che P(X = i, Y = j ) 6= P(X = i)P(Y = j ). Ad esempio 2 2 4 16 P(X = 2)P(Y = 3) = = = 15 15 225 900 che è diverso dal valore di P(X = 2, Y = 3) calcolato in b). • L’intuizione potrebbe spingere a rispondere immediatamente alla domanda c) che le variabili sono indipendenti. Ma abbiamo già visto (vedi il riquadro pag. 13) che in probabilità l’intuizione, se non adeguatamente addestrata, può portare a conclusioni errate. In questo caso l’errore consiste nell’aver trascurato il fatto che il risultato del primo lancio dà informazioni su quale delle due urne sia stata scelta.
2.6 Primo modo: consideriamo la v.a. T =‘‘numero di tentativi necessari’’. La domanda posta in questo esercizio non è altro che il calcolo della legge di T . Per determinarla conviene prima calcolare la quantità P(T > k) = 1 − FT (k), dove FT è la f.r. di T , per poi ricavare la densità di T con la formula P(T = k) = P(T > k − 1) − P(T > k) .
(1.2)
Ora la probabilità che la chiave giusta non si trovi tra le prime k è la stessa che la probabilità di ottenere 0 successi in k estrazioni (senza rimpiazzo) su n oggetti, dei quali uno solo corrisponde a ‘‘successo’’. Possiamo applicare la distribuzione ipergeometrica e si ha P(T > k) = e usando la (1.2)
1 n−1 0 k n k
=
P(T = k) =
(n − 1)! k!(n − k)! n−k = k!(n − k − 1)! n! n n−k+1 n−k 1 − = n n n
ovvero la probabilità di trovare la chiave giusta al k-esimo tentativo è la stessa per ogni k e vale 1 n. Secondo modo: consideriamo un’urna contenente n − 1 palline bianche e una rossa e di effettuare delle estrazioni senza rimpiazzo. La probabilità richiesta è chiaramente la stessa che quella di estrarre la pallina rossa al k-esimo tentativo. Abbiamo già visto (Esempio 1.30) che questa probabilità non dipende da k e che vale n1 . • I due modi in cui abbiamo risolto questo esercizio sono abbastanza diversi. Mentre il secondo usa una tecnica tipica del calcolo combinatorio, il primo fa ricorso alla nozione di funzione di ripartizione di una v.a. con un metodo di calcolo che useremo spesso nel seguito (per calcolare la legge di una v.a. si determina prima la f.r., per poi usare la (1.2) o formule
Esercizio 2.7
23
simili). Il primo metodo è certo più semplice ed è tipico soprattutto (ma non solo) per v.a. che, come in questo caso, rappresentano tempi d’attesa.
2.7 a) Indichiamo con A, B e C rispettivamente gli eventi ‘‘il pezzo proviene dalla linea A’’, ‘‘proviene dalla linea B’’ e ‘‘il pezzo è difettoso’’. I dati del problema ci permettono di affermare che P(A) = 0.3,
P(B) = 0.7,
P(C |A) = 0.1,
P(C |B) = 0.17 .
Inoltre gli eventi A e B costituiscono una partizione dell’evento certo (sono disgiunti e la somma delle loro probabilità vale 1). Dunque per la formula delle probabilità totali (1.12), P(C) = P(C |A)P(A) + P(C |B)P(B) = 0.1 · 0.3 + 0.17 · 0.7 = 0.15 . b) Se consideriamo una scatola contenente 10 pezzi provenienti dalla linea A, allora ciascuno di essi può essere difettoso con probabilità 0.1. Possiamo inoltre supporre che ogni pezzo sia difettoso oppure no indipendentemente dagli altri. Dunque il numero di pezzi difettosi in una scatola di 10 proveniente dalla linea A si modellizza con una v.a. di legge binomiale B(10, 0.1). Analogamente se la scatola proviene dalla linea B il numero di pezzi difettosi seguirà una legge B(10, 0.17). Se ora indichiamo con C1 l’evento ‘‘nella scatola vi è (esattamente) un pezzo difettoso’’, allora avremo 10 0.1 · 0.99 = 10 · 0.1 · 0.99 = 0.39 P(C1 |A) = 1 10 0.17 · 0.839 = 10 · 0.17 · 0.839 = 0.32 . P(C1 |B) = 1 La probabilità che un pezzo difettoso provenga dalla linea A non è altro che la probabilità condizionale P(A|C1 ). Per calcolarla si usa la formula di Bayes: P(A|C1 ) =
P(C1 |A)P(A) · P(C1 )
Nella frazione a destra nella formula precedente conosciamo tutte le quantità che intervengono tranne P(C1 ). Il calcolo di questa probabilità è però facile, sempre usando la formula delle probabilità totali (1.12): P(C1 ) = P(C1 |A)P(A) + P(C1 |B)P(B) = 0.39 · 0.3 + 0.32 · 0.7 = 0.341 . Dunque P(A|C1 ) =
0.39 · 0.3 = 0.343 . 0.34
Allo stesso modo P(B |C1 ) =
P(C1 |B)P(B) 0.32 · 0.7 = = 0.657 . P(C1 ) 0.34
24
Parte 1: soluzioni
È quindi più probabile che la scatola provenga dalla linea B. 4 2.8 a) La probabilità vale 52 (è un caso particolare dell’Esempio 1.30: è come se facessimo delle estrazioni senza rimpiazzo da un’urna con 4 palline rosse e 48 nere, la probabilità di estrarre una pallina rossa alla k-esima estrazione è la stessa che alla prima estrazione). b) Indichiamo con T il numero di carte necessario per ottenere il primo asso: dobbiamo calcolare la legge di T . Come abbiamo visto uno dei metodi possibili consiste nel calcolo preliminare della f.r. oppure della ‘‘funzione di sopravvivenza’’ k → P(T > k). È questo spesso il caso quando, come ora, si ha a che fare con v.a. che rappresentano tempi di attesa. Ora l’evento {T > k} corrisponde al fatto che siano state girate k carte ottenendone 0 dal gruppo dei 4 assi e k dal gruppo delle altre 48. Possiamo quindi applicare la distribuzione ipergeometrica che dà 4 48
P(T > k) =
0
e sviluppando i coefficienti binomiali
k 52 k
pk = P(T = k) = P(T > k − 1) − P(T > k) = 48! (52 − k + 1)! (52 − k)! 48! (52 − k + 1)! − (52 − k)!(48 − k + 1) − = = = 52! (48 − k + 1)! (48 − k)! 52! (48 − k + 1)! 48! (52 − k)![(52 − k + 1) − (48 − k + 1)] 48! (52 − k)! = · =4· 52! (48 − k + 1)! 52! (48 − k + 1)! Per vedere per quali valori di k pk è massima basta osservare che per ogni valore di k si ha 52 − k pk = ≥1 pk+1 49 − k e dunque la probabilità è massima per k = 1. 2.9 Un attimo di riflessione mostra che la probabilità che tra le 24 figurine acquistate ve ne siano esattamente k di quelle già possedute è la stessa che la probabilità che in un’estrazione senza rimpiazzo da un’urna contenente 60 palline di un tipo (corrispondenti alle figurine già possedute) e 40 di un altro, su 24 palline estratte ve ne siano k del primo tipo. La probabilità di questo evento è data dalla distribuzione ipergeometrica e vale
Dunque la probabilità richiesta è
60 40 k 24−k 100 24
·
60 40 k 24−k 100 24 k=20 24 X
Esercizio 2.10
25
e con un calcolo numerico si ottiene il valore 0.00594 = 0.594%. Il numero medio di nuove figurine non è altro che la speranza matematica E(X) della v.a. X =‘‘numero di nuove figurine’’. La speranza matematica di una v.a. di legge ipergeometrica è calcolata nell’Esempio 2.39 ed è uguale al numero di ‘‘tentativi’’ (qui sono 24) per la probabilità di successo in un singolo 40 tentativo (= 100 = 25 ) ovvero 48 E(X) = = 9.6 . 5
2.10 a) Supponiamo per semplicità i = 1 (per valori di i diversi da 1 procedimento e risultato sono identici). Si tratta di calcolare P(X1 = 1|Sn = r) =
P(X1 = 1, Sn = r) · P(Sn = r)
Se r = 0 si vede subito che la probabilità condizionale vale 0, perché Sn ≥ X1 e quindi gli eventi {X1 = 1} e {Sn = 0} hanno intersezione vuota. Altrimenti sappiamo già che il denominatore vale nr pr (1 − p)n−r , poiché Sn è binomiale B(n, p). Per il numeratore invece P(X1 = 1, Sn = r) = P(X1 = 1, X1 + . . . + Xn = r) = = P(X1 = 1, X2 + . . . + Xn = r − 1) = P(X1 = 1)P(X2 + . . . + Xn = r − 1) = n−1 r n − 1 r−1 p (1 − p)n−r p (1 − p)n−r = =p· r −1 r −1
e dunque P(X1 = 1|Sn = r) =
n−1 r−1 n r
=
r · n
La legge condizionale di X1 dato Sn = r è di Bernoulli B(1, nr ) (e non dipende da p!). b) Sfruttiamo la stessa idea del punto a). Se r ≥ k abbiamo P(Sm = k, Sn = r) = P(Sm = k, Sm + Xm+1 + . . . + Xn = r) = = P(Sm = k, Xm+1 + . . . + Xn = r − k) = P(Sm = k)P(Xm+1 + . . . + Xn = r − k) = m k m n−m r n − m r−k p (1 − p)m−k = p (1 − p)n−r . p (1 − p)n−m−r+k = k r −k k r −k Quindi P(Sm = k |Sn = r) = 0 se k > r mentre se k ≤ r P(Sm = k, Sn = r) P(Sm = k |Sn = r) = = P(Sn = r)
m n−m k r−k n r
·
Riconosciamo una distribuzione ipergeometrica: P(Sm = k |Sn = r) è uguale alla probabilità di estrarre k palline di tipo 1 da un’urna contenente m palline di tipo 1 e n − m di tipo 2 in r estrazioni senza rimpiazzo. Osserviamo ancora che la legge condizionale ottenuta non dipende
26
Parte 1: soluzioni
da p. Ricordando il valore della media delle v.a. ipergeometriche si ha immediatamente che la media della legge condizionale di Sm sapendo che Sn = r vale rm n . 2.11 a) Il numero totale di telefonate ricevute dai due centralini è X + Y ed ha legge di Poisson di parametro λ + µ = 6, per la regola della somma di v.a. indipendenti di Poisson (Esempio 2.28). Dunque la probabilità richiesta è 62 63 P(X + Y ≤ 3) = e−6 1 + 6 + + = 0.15 . 2 6
b) Se indichiamo con p¯ X|X+Y (·|n) la probabilità condizionale di X dato X + Y = n, allora, se 0 ≤ k ≤ n, P(X = k, Y = n − k) P(X = k, X + Y = n) = = P(X + Y = n) P(X + Y = n) k µn−k e−λ λk! e−µ (n−k)! P(X = k)P(Y = n − k) λ k µ n−k n = . = = n P(X + Y = n) λ+µ k λ+µ e−(λ+µ) (λ+µ) n! p¯ X|X+Y (k |n) =
λ ). La sua media è uguale a La legge condizionale è dunque binomiale B(n, λ+µ c) Per il punto precedente la probabilità richiesta vale 8 1 k 2 8−k pk := . k 3 3
nλ λ+µ .
Per determinare il valore di k per cui questa quantità è massima studiamo per quali valori di k si ha pk+1 ≥1. pk Poiché
pk+1 18−k = ≥1 pk 2k+1
dallo studio della disuguaglianza si ha che ( > 1 per k = 0, 1 pk+1 = 1 per k = 2 è pk < 1 per k = 3, 4, . . . Se ne deduce che il massimo valore di pk si raggiunge per k = 2 oppure k = 3. d) La retta di regressione di X rispetto a X + Y è x = az + b dove a=
Cov(X, X + Y ) , Var(X + Y )
b = E(X) − aE(Y ) .
Ora Cov(X, X + Y ) = Cov(X, X) + Cov(X, Y ) = Cov(X, X) = Var(X) = λ | {z } =0
Esercizio 2.12
27
mentre Var(X + Y ) = λ + µ. Dunque a=
λ λ+µ
b =λ−
λ (λ + µ) = 0 λ+µ
λ z. La retta dunque è x = λ+µ • Se X e Y sono v.a. indipendenti e a valori discreti, la legge congiunta di X e X + Y si calcola sempre con facilità, come in questo esercizio, usando la relazione
P(X = k, X + Y = n) = P(X = k, Y = n − k) = P(X = k)P(Y = n − k) . 2.12 a) Se indichiamo con X il numero di palline rosse estratte dalla prima urna, allora naturalmente X ∼ B(n, p). D’altra parte, se indichiamo con A l’evento ‘‘la pallina estratta (dalla seconda urna) è rossa’’ allora naturalmente P(A|X = k) =
k n
perché se X = k, ciò vuol dire che nella seconda urna vi sono k palline rosse su un totale di n. Possiamo ora usare la formula delle probabilità totali: n X k n k P(A|X = k)P(X = k) = P(A) = p (1 − p)n−k = n k k=0 k=0 n X 1 n k = p (1 − p)n−k = p , k k n n X
k=0
dove abbiamo riconosciuto nella somma la speranza matematica di una v.a. B(n, p). b) Si tratta di calcolare P(X = k |A) =
P(A|X = k)P(X = k) · P(A)
Vediamo subito che la probabilità condizionale vale 0 per k = 0 mentre se k = 1, . . . , n 1 k n k n − 1 k−1 n−k P(X = k |A) = p (1 − p)n−k . p (1 − p) = k−1 p n k La media della legge condizionale di X sapendo che A si è verificato è n X n − 1 k−1 p (1 − p)n−k . k E(X|A) = k−1 k=1
28
Parte 1: soluzioni
Per calcolare questa somma conviene cercare di ricondursi alla somma che dà la speranza matematica delle leggi binomiali; sostituendo i = k − 1 si ha n−1 X n−1 i p (1 − p)n−1−i = (i + 1) E(X|A) = i i=0
n−1 X
n−1 X n−1 i n−1 i n−1−i p (1 − p) i = + p (1 − p)n−1−i = (n − 1)p + 1 . i i i=0 i=0 | {z } | {z } =1
=media di una B(n−1,p)=(n−1)p
2.13 a) X non è altro che l’istante di primo successo in uno schema di prove ripetute indipendenti, nelle quali ad ogni prova si ha successo con probabilità 61 . Sappiamo quindi che X è una v.a. geometrica modificata di parametro p = 61 , ovvero 1 5 k−1 k = 1, 2, . . . P(X = k) = 6 6 Per lo stesso motivo Y è una v.a. geometrica modificata di parametro 26 = 31 . Sappiamo che una v.a. geometrica modificata di parametro p ha speranza matematica p1 (Esempi 2.38); dunque E(X) = 6,
E(Y ) = 3 .
b) Per calcolare la densità discreta di Z conviene calcolarne prima la f.r. Poniamo per semplicità p = 16 e q = 31 . Allora, poiché X e Y sono indipendenti, P(Z ≤ k) = P(max(X, Y ) ≤ k) = P(X ≤ k, Y ≤ k) = = P(X ≤ k)P(Y ≤ k) =
k X i=1
p(1 − p)i−1
k X i=1
q(1 − q)i−1 =
1 − (1 − p)k 1 − (1 − q)k q = (1 − (1 − p)k )(1 − (1 − q)k ) . =p 1 − (1 − p) 1 − (1 − q) per k = 1, 2, . . . Dunque la densità di Z, sempre per k = 1, 2, . . . , è data da P(Z = k) = P(Z ≤ k) − P(Z ≤ k − 1) = = (1 − (1 − p)k )(1 − (1 − q)k ) − (1 − (1 − p)k−1 )(1 − (1 − q)k−1 ) = = 1 − (1 − p)k − (1 − q)k + [(1 − p)(1 − q)]k + −1 + (1 − p)k−1 + (1 − q)k−1 − [(1 − p)(1 − q)]k−1 = = p(1 − p)k−1 + q(1 − q)k−1 − (p + q − pq)[(1 − p)(1 − q)]k−1 . | {z } =1−p−q+pq
Infine
E(Z) = =
∞ X k=1
kp(1 − p)k−1 +
∞ X k=1
∞ X k=1
kP(Z = k) =
kq(1 − q)k−1 −
∞ X k=1
k(p + q − pq)(1 − p − q + pq)k−1 .
Esercizio 2.14
29
1 p = 6. Per lo stesso 1 9 p+q−pq = 4 . Dunque
Riconosciamo però nella prima serie la speranza matematica di X, cioè motivo la somma della seconda serie vale
1 q
= 3 e quella della terza
E(Z) = 6 + 3 −
27 9 = · 4 4
c) Usiamo il metodo della partizione dell’evento certo: gli eventi {Y = i}, al variare di i = 1, 2, . . . , sono disgiunti e la loro unione ha probabilità 1, dunque P(X ≥ Y ) =
∞ X i=1
P(X ≥ Y, Y = i) =
∞ X i=1
P(X ≥ i, Y = i) =
∞ X i=1
P(X ≥ i)P(Y = i) .
D’altra parte P(X ≥ i) = e quindi P(X ≥ Y ) =
∞ X i=1
∞ X k=i
p(1 − p)k−1 = (1 − p)i−1
(1 − p)i−1 q(1 − q)i−1 = q
∞ X i=1
[(1 − p)(1 − q)]i−1 =
q q = = 1 − (1 − p)(1 − q) p + q − pq
e sostituendo i valori p = 16 , q =
1 3
si ottiene P(X ≥ Y ) = 43 .
2.14 a) Fissiamo una lettera i e consideriamo l’evento Ai =‘‘la lettera i viene usata’’. La 1 probabilità che la lettera i non venga usata come prima lettera della parola è n−1 n = 1 − n. Poiché le apparizioni di una lettera nelle posizioni successive della parola sono indipendenti, la probabilità che la lettera non venga mai usata sarà (1 − n1 )k . Dunque P(Ai ) = 1 − (1 − n1 )k . Se k = n allora
P(Ai ) = 1 − (1 − n1 )n
b) Poniamo
→
n→∞
1 − e−1 .
n
1 se la lettera i-esima viene utilizzata 0 altrimenti . Il numero X di lettere utilizzate è dunque X = X1 + . . . + Xn e il numero medio richiesto è Xi =
E(X) = E(X1 ) + . . . + E(Xn ) . D’altra parte le v.a. X1 , . . . , Xn sono di Bernoulli e {Xi = 1} = Ai , dove gli eventi Ai sono quelli definiti nel punto a). Sono dunque B(1, p) con p = P(Ai ) = (1 − n1 )k . Dunque E(Xi ) = 1 − (1 − n1 )k e E(X) = n 1 − (1 − n1 )k .
30
Parte 1: soluzioni
Per n = 21, k = 100 si ha E(X) = 20.84; per n = 21, k = 50 si ha E(X) = 19.17. Se la probabilità di apparizione della lettera i è pi , allora la probabilità che la lettera i-esima venga utilizzata diviene P(Ai ) = 1 − (1 − pi )k e dunque anche E(Xi ) = 1 − (1 − pi )k , per cui E(X) =
n X i=1
(1 − (1 − pi )k ) .
Con i dati numerici assegnati la somma vale 7 · 1 − (1 − 2.15
3 100 28 )
+ 7 · 1 − (1 −
3 100 112 )
+ 7 · 1 − (1 −
1 100 112 )
= 17.68 .
a) Poniamo Zi =
n
1 0
se lo i-esimo assicurato deve essere indennizzato altrimenti .
Allora il numero totale di indennizzi nel corso del primo anno si modellizza con la v.a. X = Z1 + . . . + ZN . Poiché le v.a. Zi sono indipendenti si ha X ∼ B(N, p). Ma se N è grande e p piccolo, la legge di X si può approssimare con una legge di Poisson di parametro λ = Np. Ripetendo lo stesso ragionamento si vede che anche Y è di Poisson di parametro λ. Poiché si suppone Y indipendente da X, allora Z = X + Y è di Poisson di parametro 2λ. Calcoliamo la legge congiunta di X e Z: se 0 ≤ k ≤ m P(X = k, Z = m) = P(X = k, Y = m − k) = P(X = k)P(Y = m − k) = λk λm−k λm = e−λ e−λ = e−2λ k! (m − k)! k!(m − k)! mentre naturalmente P(X = k, Z = m) = 0 se m < k oppure k < 0. b) La compagnia incassa ogni anno un ammontare pari a 45 pNI e paga in indennizzi X · I . Quindi in media il beneficio è 5 5 1 pNI − I · E(X) = pNI − pNI = pNI · 4 4 4 c) La probabilità richiesta si esprime, in termini delle v.a. X e Z come P({X > 2} ∪ {Z > 3}) = 1 − P(X ≤ 2, Z ≤ 3) = = 1 − P(X = 0, Z = 0) − P(X = 0, Z = 1) − P(X = 1, Z = 1) − P(X = 0, Z = 2)+ −P(X = 1, Z = 2) − P(X = 2, Z = 2) − P(X = 0, Z = 3)+ −P(X = 1, Z = 3) − P(X = 2, Z = 3) = = 1 − e−2λ 1 + λ(1 + 1) + λ2 21 + 1 + 21 + λ3 16 + 21 + 21 ·
Esercizio 2.16
31
Sostituendo il valore λ = Np = 1 si ottiene che la probabilità richiesta vale 0.165. 2.16 a) Dire che il programma deve accedere all’unità 1 significa dire che tra le 40 registrazioni che gli sono necessarie ce n’è almeno una che si trova nel disco 1. Se indichiamo con Z1 il numero di file necessari all’esecuzione del programma che si trovano nell’unità 1, si riconosce facilmente che Z1 segue una distribuzione ipergeometrica e in particolare, osservando che i file in totale sono 3000 di cui 100 nell’unità 1, che 100 2900 P(Z1 = i) =
i
40−i 3000 40
i = 0, . . . , 40 .
La probabilità che l’unità 1 sia necessaria all’esecuzione del programma vale quindi
(1.3)
p = P(Z1 > 0) = 1 − P(Z1 = 0) = 1 − =1−
100 2900 40 0 3000 40
=
2900 · 2899 · . . . · 2861 = 0.745 . 3000 · 2999 · . . . · 2961
b) Se Z indica il numero di file necessari che si trovano nell’unità 1 oppure nell’unità 2, ripetendo il ragionamento del punto a), Z segue anch’essa una distribuzione ipergeometrica, solo che ora considereremo i 3000 file suddivisi nelle due classi formate dalle 200 registrazioni che si trovano in una delle prime due unità disco e dalle altre 2800. Dunque P(Z = i) =
200 2800 40−i i 3000 40
i = 0, . . . , 40
e la probabilità che una delle prime due unità sia necessaria vale ora
(1.4)
w = P(Z > 0) = 1 − P(Z = 0) = 1 − =1−
200 2800 40 0 3000 40
=
2800 · 2799 · . . . · 2761 = 0.938 . 3000 · 2999 · . . . · 2961
Se indichiamo con A1 l’evento ‘‘l’unità 1 è necessaria’’ e con A2 l’analogo evento per l’unità 2, abbiamo appena calcolato P(A1 ∪ A2 ), mentre la probabilità che entrambe le unità siano necessarie è P(A1 ∩A2 ); ma dalla formula della probabilità della unione di due eventi otteniamo P(A1 ∩ A2 ) = P(A1 ) + P(A2 ) − P(A1 ∪ A2 ) = 0.745 + 0.745 − 0.938 = 0.552 . c) Le v.a. Yi sono di Bernoulli (prendono solo i valori 0 e 1) di parametro p = P(Yi = 1) = 0.745, calcolato in a). L’intuizione vorrebbe che le v.a. Yi non siano indipendenti, perché se, ad esempio, fosse Y1 = 1 ciò vorrebbe dire che almeno una delle registrazioni si trova nell’unità 1 e ciò rende minore la probabilità che siano necessarie le altre unità. Per rendere rigorosa questa intuizione calcoliamo il coefficiente di correlazione: se esso risulterà diverso da 0 ciò
32
Parte 1: soluzioni
implicherà che le v.a. Yi , i = 1, . . . , 40 sono correlate e quindi non sono indipendenti e neanche indipendenti a due a due. Il coefficiente di correlazione di Y1 e Y2 è per definizione ̺Y1 ,Y2 = p
Cov(Y1 , Y2 ) Var(Y1 ) Var(Y2 )
=
E(Y1 Y2 ) − E(Y1 )E(Y2 ) · p Var(Y1 ) Var(Y2 )
Sappiamo già che Var(Y1 ) = Var(Y2 ) = p(1 − p) ed inoltre che E(Y1 )E(Y2 ) = p2 , poiché Y1 e Y2 sono entrambe B(1, p). Resta da calcolare E(Y1 Y2 ). Ma anche la v.a. Y1 Y2 è di Bernoulli, poiché anch’essa può prendere solo i valori 0 oppure 1. Resta dunque da calcolare P(Y1 Y2 = 1) = P(Y1 = 1, Y2 = 1). Ma quest’ultima non è altro che la probabilità che sia l’unità 1 che la 2 siano necessarie per l’esecuzione del programma e dunque vale 0.552 per il punto b). In conclusione 0.552 − 0.7452 = −0.016 0.745 · 0.255 che conferma l’intuizione iniziale di una correlazione negativa tra le variabili. Inoltre il valore del coefficiente di correlazione, vicino a 0, indica che la dipendenza tra le variabili è abbastanza piccola. d) Il calcolo della media di X secondo la definizione di speranza matematica richiederebbe preliminarmente il calcolo della legge di X, che è abbastanza complicato. Si può però osservare che X = Y1 + . . . + Y30 e dunque E(X) = E(Y1 ) + . . . + E(Y30 ) (la speranza matematica di una somma di v.a. è sempre uguale alla somma delle speranze matematiche, anche se le v.a. non sono indipendenti). Inoltre, poiché le Yi sono tutte di Bernoulli B(1, p) con p = 0.745, ̺Y1 ,Y2 =
E(X) = 30 · p = 22.35 . • Questo esercizio usa alcune idee di cui ci serviamo ripetutamente. Ci limitiamo a segnalare il modo di calcolare la speranza matematica di una v.a. X scrivendo che essa è uguale alla somma X1 + . . . + Xn , dove X1 , . . . , Xn sono v.a. di cui è facile calcolare la speranza matematica. Talvolta questa idea è fondamentale: il calcolo della legge di X, necessario per applicare la definizione di speranza matematica, può risultare molto complicato.
2.17 a) Converrà fare i calcoli scrivendo n al posto di 90. La probabilità che alla k-esima estrazione si ottenga la pallina i-esima è naturalmente uguale a n1 (Esempio 1.30). In particolare, scegliendo k = i si ha P(Ai ) = n1 . Per studiare l’indipendenza degli eventi Ai , i = 1, . . . , n, conviene costruire esplicitamente uno spazio di probabilità. Una scelta naturale può essere quella di porre =insieme delle permutazioni di n elementi. Con questo modello si ha Ai = {ω, ωi = i}, cioè Ai corrisponde all’insieme delle permutazioni che lasciano i allo i-esimo posto. Ora A1 ∩ A2 = {ω, ω1 = 1, ω2 = 2} e dunque A1 ∩ A2 ha cardinalità (n − 2)! (la cardinalità delle permutazioni che lasciano fissi 1 e 2 è la stessa che la cardinalità delle permutazioni di {3, . . . , n}). Dunque P(A1 ∩ A2 ) =
(n − 2)! 1 , = n! n(n − 1)
Esercizio 2.17
33
mentre sappiamo che P(A1 )P(A2 ) = n12 . Dunque gli eventi Ai , i = 1, . . . , n non sono a due a due indipendenti e quindi neppure indipendenti. b) Poniamo n 1 se si ha coincidenza alla i-esima estrazione Xi = 0 altrimenti . Allora X = X1 + . . . + Xn ed inoltre le v.a. Xi sono di Bernoulli di parametro p = P(Xi = 1) = P(Ai ) = n1 . Per la proprietà di additività della speranza matematica E(X) = E(X1 ) + . . . + E(Xn ) = n ·
1 =1. n
Dunque il numero medio di coincidenze è 1 qualunque sia il numero di palline nell’urna. c) Sempre con le notazioni del punto b), per la formula della varianza della somma di v.a. abbiamo Var(X) =
(1.5)
n X i=1
Var(Xi ) +
n X
Cov(Xi , Xj ) .
i,j =1 i6=j
Sappiamo già che Var(Xi ) = n1 (1 − n1 ), perché le v.a. Xi sono di Bernoulli di parametro p = n1 ; resta da calcolare Cov(Xi , Xj ) = E(Xi Xj ) − E(Xi )E(Xj ). Quanto vale E(Xi Xj )? La v.a. Xi Xj è di Bernoulli di parametro p = P(Xi Xj = 1) = P(Xi = 1, Xj = 1); ma {Xi = 1, Xj = 1} = Ai ∩ Aj dove gli eventi Ai , i = 1, . . . , n sono definiti in a). Per motivi di simmetria la probabilità di questi eventi non dipende da i, j (purché i 6= j ) e sappiamo, dal punto a), che scegliendo i = 1, j = 2, 1 P(X1 = 1, X2 = 1) = P(A1 ∩ A2 ) = n(n − 1) per cui Cov(Xi , Xj ) = Cov(X1 , X2 ) =
1 1 − · n(n − 1) n2
Infine osserviamo che nella prima somma della (1.5) vi sono n termini, mentre nella seconda n(n − 1). Dunque Var(X) = n ·
1 1 1 1 − 2 =1. 1− + n(n − 1) n n n(n − 1) n
Anche la varianza del numero di coincidenze è uguale a 1 e non dipende dal numero di palline. • Anche qui l’idea di scrivere X come somma delle Xi per calcolare la speranza matematica è fondamentale. Il calcolo della legge del numero di coincidenze X, che è abbastanza importante in combinatoria, è in effetti possibile ma non facile.
Paolo Baldi Calcolo delle Probabilità McGraw-Hill 2011
34
Parte 1: soluzioni
2.18
a) Definiamo i seguenti eventi: A = {viene scelta l’urna A} B = {viene scelta l’urna B} Ri = {alla i-esima estrazione si ottiene una pallina rossa} Ni = {alla i-esima estrazione si ottiene una pallina nera} .
Osserviamo che gli eventi A e B costituiscono una partizione dell’evento certo. Dunque la probabilità richiesta vale P(R1 ) = P(R1 ∩ A) + P(R1 ∩ B) = P(R1 |A)P(A) + P(R1 |B)P(B) . Per come il problema è stato posto è chiaro che deve essere P(R1 |A) = 1,
P(R1 |B) = nr ,
P(A) = P(B) =
e dunque P(R1 ) =
1 2
+
1 r 2 n
=
1 2
1+
r n
1 2
.
b) Indichiamo con C l’evento ‘‘le prime due estrazioni danno palline di colori diversi’’. La probabilità che in due estrazioni dall’urna A si ottengano una pallina rossa e una nera è chiaramente 0. Invece il numero di palline rosse estratte dall’urna B in due estrazioni segue una legge binomiale B(2, nr ). Dunque P(C |A) = 0 2 r r r(n − r) P(C |B) = 1− =2 1 n n n2 P(C) = P(C |A)P(A) + P(C |B)P(B) =
r(n − r) · n2
c) Indichiamo con T la v.a. ‘‘tempo d’attesa della prima estrazione di una pallina rossa’’. Dobbiamo calcolare la speranza matematica di T e per farlo calcoliamone prima la legge. Ora, sempre con la formula delle probabilità totali (1.12), P(T = k) = P(T = k |A)P(A) + P(T = k |B)P(B) . Ma, poiché l’urna A contiene solo palline rosse, P(T = k |A) = mentre P(T = k |B) =
n
1 0
se k = 1 altrimenti
p(1 − p)k−1 0
se k = 1, 2, . . . altrimenti
Esercizio 2.19
dove abbiamo posto p = E(T ) =
∞ X k=1
r n
35
e dunque
kP(T = k) =
∞ X k=1
k P(T = k |A)P(A) + P(T = k |B)P(B) =
∞ 1 1X 1 1 1 n = + kp(1 − p)k−1 = 1+ = 1+ 2 2 2 p 2 r k=1
dove abbiamo riconosciuto nell’ultima serie la speranza matematica di una legge geometrica modificata, che vale appunto p1 . d) Poniamo Ek = R1 ∩ . . . ∩ Rk . Ek è l’evento ‘‘le prime k estrazioni hanno dato tutte palline rosse’’. La probabilità richiesta non è altro che P(A|Ek ). Per la formula di Bayes P(A|Ek ) = Ora P(Ek |A) = 1 mentre P(A) = probabilità totali (1.12) dà
1 2.
P(Ek |A)P(A) · P(Ek )
Resta da calcolare P(Ek ). Ancora la formula delle
P(Ek ) = P(Ek |A) P(A) + P(Ek |B)P(B) . | {z } =1
Ma se l’urna prescelta è la B il numero di palline rosse estratte segue una legge binomiale B(k, nr ). Dunque P(Ek |B) = P(R1 |B) . . . P(Rk |B) = ( nr )k e in conclusione P(Ek ) = 21 (1 + ( nr )k ) e P(A|Ek ) = Per n = 12, r = 4
1 · 1 + ( nr )k
1 1 + 3−k e dopo qualche manipolazione algebrica si vede che perché sia P(A|Ek ) =
1 ≥ 0.99 1 + 3−k deve essere 3k ≥ 99 e cioè k ≥ 5. 2.19
a) Poniamo Xi =
n
1 0
se la i-esima pallina finisce nella scatola 1 altrimenti .
36
Parte 1: soluzioni
La probabilità che una singola pallina finisca nella scatola 1 vale 1r poiché, per come il problema è posto, possiamo supporre che tutte le scatole abbiano la stessa probabilità di essere scelte. Dunque P(Xi = 1) = 1r e cioè Xi ∼ B(1, 1r ). Inoltre le v.a. X1 , . . . , Xn si possono supporre indipendenti. Il numero di palline finite nella scatola 1 è dunque Y1 = X1 + . . . + Xn ; se ne ricava che Y1 è binomiale B(n, 1r ) per cui la probabilità richiesta vale P(Y1 = i) =
1 n−i n 1 i . 1− r r i
b) Indichiamo con Y1 , Y2 , Y3 il numero di palline che finiscono rispettivamente nella scatola 1, nella 2 e in una qualunque delle scatole dalla 3 alla r. Allora la loro legge congiunta è multinomiale di parametri 1r , 1r , 1 − 2r rispettivamente. Quindi P(Y1 = i, Y2 = j ) =
1 i 1 j n! 2 n−i−j . 1− i!j !(n − i − j )! r r r
2.20 a) Indichiamo con A l’evento ‘‘il messaggio proviene dalla sorgente A’’ e naturalmente con B l’evento ‘‘il messaggio proviene dalla sorgente B’’. Indichiamo con C l’evento ‘‘un messaggio di lunghezza 10 contiene 4 bit uguali a 1’’. Si richiede di calcolare P(A|C). Per la formula di Bayes P(A|C) =
(1.6)
P(C |A)P(A) · P(C)
Se il messaggio proviene dalla sorgente A, allora il numero di bit uguali a 1 segue una legge binomiale B(n, 21 ). Dunque 10 1 P(C |A) = · 4 210 Invece se esso proviene dalla sorgente B il numero di bit uguali a 1 seguirà una legge B(n, 41 ). Dunque 10 1 4 3 6 P(C |B) = . 4 4 4 Per il calcolo di P(C) useremo la formula delle probabilità totali:
P(C) = P(C |A)P(A) + P(C |B)P(B) = 1 10 1 1 10 1 4 3 6 1 10 1 36 = + = 1 + 2 4 210 2 4 4 4 2 4 210 210 e dunque, riprendendo la (1.6), P(A|C) =
1 1+
36 210
= 0.584 .
Esercizio 2.21
37
Poiché P(B |C) = 1 − P(A|C) = 0.416, la sorgente A è la più probabile. Se fosse n = 100, la (1.6) resta valida, ma ora 1 100 P(C |A) = 100 40 2 100 1 40 3 60 P(C |B) = 4 4 40 per cui
P(C) = P(C |A)P(A) + P(C |B)P(B) = 1 100 1 1 1 100 1 40 3 60 1 100 360 = + = 1 + 2 40 2100 2 40 4 4 2 40 2100 2100 e quindi P(A|C) =
1 1+
360 2100
= 0.968
e la sorgente A è di gran lunga la più probabile. b) Basta ripetere i calcoli del punto a) sostituendo P(A) = 0.3, P(B) = 0.7. Quindi 10 1 4 3 6 10 1 + 0.7 · . P(C) = P(C |A)P(A) + P(C |B)P(B) = 0.3 · 4 4 4 4 210 Sostituendo nella (1.6) e semplificando P(A|C) =
P(C |A)P(A) 0.3 = 0.376 = 6 P(C) 0.3 + 0.7 2310
mentre per n = 100 P(A|C) =
P(C |A)P(A) 0.3 = 0.928 . = 60 P(C) 0.3 + 0.7 23100
Quindi per n = 100 la sorgente A resta la più probabile, mentre per n = 10 prevale il fatto che a priori la più probabile fosse B.
2.21
a) La legge delle v.a. Xi è data da p0 = P(Xi = 0) =
1 4
,
p1 = P(Xi = 1) =
1 2
,
p2 = P(Xi = 2) =
1 4
mentre pk = P(Xi = k) = 0 per gli altri valori di k. La funzione generatrice delle probabilità di Xi vale dunque 1 1 t t2 t 2 ψ(t) = + + = + . 4 2 4 2 2
38
Parte 1: soluzioni
b) Per il calcolo della legge della somma di v.a. indipendenti tra i metodi possibili c’è l’uso delle funzioni generatrici delle probabilità, che in questo caso sembra praticabile, visto che la f.g.p. calcolata nel punto precedente ha un’espressione semplice. Poiché si tratta di v.a. indipendenti, la f.g.p. ψn di X1 + . . . + Xn vale ψn (t) = ψ(t)n =
1 2
+
t 2n . 2
Per calcolare la densità di X1 + . . . + Xn non resta che sviluppare la funzione ψn (t) con la regola del binomio ψn (t) =
2n X 2n t k 1 2n−k
2
k
k=0
2
2n X 2n 1 k = t k 22n k=0
2n
per cui P(X1 + . . . + Xn = k) = k 212n . L’osservatore acuto avrebbe anche potuto riconoscere che la funzione generatrice delle probabilità di Xi è quella di una v.a. binomiale B(2, 21 ). Dunque Xi ∼ B(2, 21 ) e X1 + . . . + Xn ∼ B(2n, 21 ). 2.22
a) Consideriamo le v.a. Xi =
n
1 0
se lo i-esimo lancio dà testa se dà croce.
Le Xi hanno tutte legge di Bernoulli B(1, p) e le v.a. N, X1 , X2 , . . . possono essere considerate indipendenti. Il numero di teste ottenute si modellizza quindi mediante la somma aleatoria X = X1 + . . . + XN , con l’intesa che X = 0 se N = 0. Per calcolare la legge di X possiamo prima calcolarne la funzione generatrice delle probabilità ψ. Quest’ultima è data dalla formula ψ(t) = ψN (ψXi (t)) (vedi la Proposizione 2.62) dove ψN e ψXi indicano le funzioni generatrici di N e di Xi rispettivamente. Ricordando l’espressione delle funzioni generatrici delle probabilità delle leggi di Poisson e di Bernoulli si ha ψN (z) = eλ(z−1) e ψXi (t) = 1 − p + pt. Dunque ψ(t) = eλ(pt+1−p−1) = eλp(t−1) . Riconosciamo qui la funzione generatrice delle probabilità di una legge di Poisson di parametro λp, che è quindi la legge cercata. Per lo stesso motivo Y è di Poisson di parametro λ(1 − p). • In realtà il calcolo appena fatto era già stato sviluppato nell’Esempio 2.63. Lo stesso risultato si può ottenere senza l’uso delle f.g., come nell’Esempio 2.32. b) Come al solito la prova dell’indipendenza di X e Y si riconduce al calcolo delle loro leggi congiunte. Poiché X + Y = N, si ha {X = k, Y = m} = {X = k, N = m + k} e P(X = k, Y = m} = P(X = k, N = m + k) = P(X1 + . . . + Xm+k = k, N = m + k) .
Esercizio 2.23
39
Ma le v.a. N, X1 , X2 , . . . sono indipendenti e X1 + . . . + Xm+k ∼ B(m + k, p), quindi P(X = k, Y = m) = P(X1 + . . . + Xm+k = k)P(N = m + k) = (pλ)k −λ(1−p) ((1 − p)λ)m m+k k λm+k = e−λp e = p (1 − p)m e−λ = (m + k)! k! m! k = P(X = k)P(Y = m) e quindi X e Y sono indipendenti. In realtà volendo essere precisi il calcolo precedente vale solo quando uno almeno tra i numeri k e m è > 0. Se entrambi sono nulli il calcolo è comunque immediato, tenendo conto del punto a): P(X = 0, Y = 0) = P(N = 0) = e−λ
P(X = 0)P(Y = 0) = e−λp e−λ(1−p) = e−λ . 2.23 (1.7)
a) Consideriamo, per cominciare, il caso k = 1 e poniamo Zi =
n
1 0
se lo i-esimo errore non viene individuato altrimenti
per i = 1, . . . , N. È chiaro che il numero di errori rimasti dopo il passaggio del primo revisore è X1 = Z1 +. . .+ZN . Poiché, per la natura del problema, si possono supporre le v.a. Z1 , . . . , ZN indipendenti ed inoltre P(Zi = 1) = 1 − p, si vede subito che X1 ∼ B(N, 1 − p). Per studiare la legge di X2 , si può osservare che X2 è ancora una somma di v.a. Zi come nella (1.7), solo che ora l’indice i varia tra 1 e X1 (numero di errori rimasti). Ovvero X2 = Z1 +. . .+ZX1 . Poiché possiamo supporre le v.a. Zi e X1 indipendenti, sappiamo (Proposizione 2.62) che la funzione generatrice delle probabilità ψX2 è data da ψX2 (t) = ψX1 (ψZ1 (t)) = (p + (1 − p) (p + (1 − p)t))N = {z } | f.g.p. di Z1
2
N
= (p(2 − p) + (1 − p) t) = 1 − (1 − p)2 + (1 − p)2 t
N
.
Si riconosce quindi che X2 è binomiale B(N, (1 − p)2 ). Ciò suggerisce che la v.a. Xk abbia legge B(N, (1 − p)k ). La verifica rigorosa di questo fatto si può fare per ricorrenza: se Xk ∼ B(N, (1 − p)k ), allora Xk+1 = Z1 + . . . + ZXk e dunque ψXk+1 (t) = ψXk (ψZ1 (t)) = (1 − (1 − p)k + (1 − p)k (p + (1 − p)t))N = = (1 − (1 − p)k+1 + (1 − p)k+1 t)N
che è appunto la funzione generatrice delle probabilità di una v.a. B(N, (1 − p)k+1 ). La probabilità che dopo il lavoro di k revisori restino ancora degli errori è P(Xk > 0) = 1 − P(Xk = 0) = 1 − (1 − (1 − p)k )N .
40
Parte 1: soluzioni
b) Se supponiamo che il numero N di errori sia a sua volta aleatorio il ragionamento è simile a quello appena visto: il numero di errori rimasti dopo il lavoro del primo revisore è X1 = Z1 + . . . + ZN . Poiché la funzione generatrice delle probabilità di N è ψ(z) = eλ(z−1) , quella di X1 è ψX1 (t) = ψN (ψZ1 (t)) = eλ((p+(1−p)t)−1) = eλ(1−p)(t−1) e quindi X1 è di Poisson di parametro λ(1 − p). Analogamente la funzione generatrice delle probabilità di X2 = Z1 + . . . + ZX1 sarà ψX2 (t) = ψX1 (ψZ1 (t)) = eλ(1−p)((p+(1−p)t)−1) = eλ(1−p)
2 (t−1)
per cui X2 è di Poisson di parametro λ(1 − p)2 . Per ricorrenza, come nel punto a) si vede che Xk è di Poisson di parametro λ(1 − p)k . Con i valori numerici assegnati X3 segue una legge di Poisson di parametro λ(1 − p)3 = 300 · 10−3 = 0.3. Dunque la probabilità che restino degli errori è P(X3 > 0) = 1 − P(X3 = 0) = 1 − e−0.3 = 0.259 = 25.9% . Il numero medio di errori rimasti è E(X3 ) = λ(1 − p)3 = 0.3 . 2.24 Perché una funzione g sia la funzione generatrice di qualche v.a. X occorre che siano soddisfatte alcune proprietà: essa deve intanto essere sviluppabile in serie di potenze con un intervallo di convergenza che deve contenere [−1, 1]. Inoltre tutti i coefficienti pk dello sviluppo devono P essere ≥ 0, poiché deve essere pk = P(X = k); infine deve essere g(1) = 1, perché g(1) = ∞ k=0 pk = 1. Da quest’ultima condizione si vede che c, se esiste, deve essere uguale a (log 21 )−1 = −(log 2)−1 . Per questo valore di c si ha, ricordando lo sviluppo in serie di potenze della funzione z → log(1 − z), ∞ X 1 g(z) = zn n2n log 2 n=1
e g è dunque realmente una funzione generatrice (tutti i coefficienti dello sviluppo sono ≥ 0). Se X è una v.a. avente funzione generatrice g, allora P(X = n) =
1 · n2n log 2
La media di X si calcola facilmente osservando che g è derivabile in z = 1 e E(X) = g ′ (1) =
1 1 · = (2 − z) log 2 z=1 log 2
Esercizio 3.2
41
3.1 a) La v.a. X prende i suoi valori, con probabilità 1, nell’intervallo [0, 10]: infatti P(0 ≤ X ≤ 10) = F (10) − F (0) = 1. b) La f.r. F è derivabile a tratti con derivata continua. Dunque X ha densità che si ottiene derivando la f.r. La densità è dunque data da 1 25 t se 0 ≤ t ≤ 5 f (t) = − 1 t + 2 se 5 ≤ t ≤ 10 5 25 0 altrimenti .
La densità f è lineare a tratti ed il suo grafico è dato dalla Figura 1.3. 0.2
...................... ........ ........ ........ ........ ........ ........ . . . . . . . ........ . ........ ........ ........ ........ . . . . . . ........ . ..... . . ........ . . . . . ........ ..... . . . . . . ........ . ..... . ........ . . . . . . ........ ..... . . . . . ........ . . ..... . ........ . . . . . . ........ ..... . . . . ........ . . . ..... ........ . . . . . . . ........ ..... . . . . ........ . . . ........ ..... . . . . . . . ........ ..... . . . ........ . . . . ........ .... . ........
0
1
2
3
4
5
6
7
8
9
10
Figura 1.3
c) La simmetria del grafico della densità di X suggerisce immediatamente il valore di E(X). Ad ogni modo il calcolo dà E(X) =
Z
Z 10 2 1 1 2 t dt + t dt = − t2 + 25 5 5 −∞ 0 25 125 1000 125 100 25 = − + + − =5. 3 · 25 3 · 25 3 · 25 5 5 +∞
tf (t) dt =
Z
5
3.2 a) Calcoliamo la f.r. di Z = X 2 ; poiché la densità di X è > 0 solo per t > 0, si ha FZ (t) = 0 per t ≤ 0, mentre per t > 0 essa vale √ P(X ≤ t) = P(X ≤ t) = 2
Z
√ 0
t
√ 2x −x 2 /θ 2 t e dx = −e−x /θ = 1 − e−t/θ . 0 θ
Riconosciamo la f.r. di una legge esponenziale di parametro θ1 . b) Calcoliamo la f.r. di W ; sfrutteremo il fatto che conosciamo già la f.r. di X 2 . Intanto osserviamo che, poiché X 2 è a valori positivi, W prenderà valori tra 0 e 1. Se 0 < t < 1 P(e−X
2 /θ
≤ t) = P(X 2 ≥ −θ log t) = e(θ log t)/θ = t .
Dunque W è uniforme su [0, 1]. • Da notare, in questo esercizio, il calcolo della densità di una v.a. eseguito passando prima per il calcolo della f.r.: è un metodo semplice e che è possibile applicare in molti casi.
42
3.3
Parte 1: soluzioni
a) Si ha Z
+∞ −∞
f (x) dx = c
Z
+∞
r
x −(λ+1) dx =
c λr λ
e dunque, poiché l’integrale deve valere 1, c = λr λ . b) Calcoliamo la f.r. di Y : se t > 0 P(Y ≤ t) = P log Xr ≤ t = P(X ≤ ret ) = λr λ =−
Z
ret
r
x −(λ+1) dx =
1 t −λ (e r) − r −λ λr λ = 1 − e−λt . λ
Y è dunque esponenziale di parametro λ. • Un calcolo tipico che viene richiesto durante la soluzione di molti esercizi è il seguente: viene data una funzione nella forma k · g(x) e si richiede di determinare k in modo che x → k ·g(x) sia una densità di probabilità. La costante k è sempre determinata dal fatto che l’integrale della densità deve valere 1 e dunque −1 Z . g(x) dx k= 3.4 Poiché la funzione tangente è monotona crescente nell’intervallo ] − della f.r. di Y è immediato: FY (y) = P(tan X ≤ y) = P(X ≤ arctan y) = P X ∈ ] − π2 , arctan y] =
e derivando
fY (y) =
1 π
π π 2 , 2 [,
il calcolo
arctan y +
π 2
1 · π (1 + y 2 )
3.5 a) Se indichiamo con T1 , T2 , T3 i tempi di vita dei singoli elementi, è chiaro che T = min(T1 , T2 , T3 ). Il punto a) si riduce quindi al calcolo delle legge del minimo di tre v.a. indipendenti di cui si conosce la legge. Questo problema si può risolvere passando per il calcolo della f.r. FT di T , oppure, che è lo stesso, di 1 − FT . Ricordando che la f.r. di una v.a. esponenziale di parametro λ vale, se t > 0, F (t) = λ
Z
t 0
e−λs ds = 1 − e−λt
si ha facilmente, per t > 0, 1 − FT (t) = P(min(T1 , T2 , T3 ) > t) = P(T1 > t, T2 > t, T3 > t) = = P(T1 > t)P(T2 > t)P(T3 > t) = e−λt e−µt e−γ t = e−(λ+µ+γ )t .
Esercizio 3.5
43
La v.a. T ha quindi la stessa f.r. di una v.a. esponenziale di parametro λ + µ + γ . È quindi anch’essa esponenziale con questo parametro e E(T ) =
1 = 1.67 . λ+µ+γ
b) Se T e W sono i tempi di vita di ognuno dei due componenti in parallelo, il tempo di vita del complesso formato dai due componenti non è altro che X = max(T , W ). Calcoliamo la f.r. GX di questa v.a. Se t > 0 GX (t) = P(max(T , W ) ≤ t) = P(T ≤ t, W ≤ t) = P(T ≤ t)P(W ≤ t) = (1 − e−(λ+µ+γ )t )2 mentre GX (t) = 0 per t ≤ 0. Da quest’espressione si ricava per derivazione la densità g di X: gX (t) = GX ′ (t) = 2(λ + µ + γ )e−(λ+µ+γ )t (1 − e−(λ+µ+γ )t ) se t > 0, mentre naturalmente gX (t) = 0 se t ≤ 0. Infine E(X) =
Z
+∞ 0
Z t gX (t) dt = 2(λ + µ + γ )
+∞
te
−(λ+µ+γ )t
0
dt −
Z
+∞ 0
te−2(λ+µ+γ )t dt =
1 1 1 2 = 2(λ + µ + γ ) − − = 2.49 . = 2 2 (λ + µ + γ ) (2(λ + µ + γ )) λ + µ + γ 2(λ + µ + γ ) c) Possiamo ancora dire che il tempo T di vita del complesso della Figura 3.20 è uguale a min(T1 , T2 , T3 ), dove però ora T1 è il tempo di vita del componente formato dai primi tre elementi in parallelo, T2 quello formato dal secondo elemento, T3 quello formato dagli ultimi due in parallelo. Ripetendo i ragionamenti del punto b) per calcolare la legge del max di variabili aleatorie, si ricava facilmente P(T1 ≤ t) = (1 − e−λt )3 ,
P(T2 ≤ t) = 1 − e−µt ,
P(T3 ≤ t) = (1 − e−γ t )2 .
Ripercorrendo i metodi del punto a) per calcolare la legge del min di v.a. abbiamo P(T > t) = P(T1 > t) P(T2 > t) P(T3 > t) = (1 − (1 − e−λt )3 ) e−µt (1 − (1 − e−γ t )2 ) . Dunque, sviluppando con un po’ di pazienza il quadrato e il cubo si ottiene che la funzione di ripartizione G di T è data da 1 − G(t) = P(T > t) = (3e−λt − 3e−2λt + e−3λt ) e−µt (2e−γ t − e−2γ t ) = = 6e−(λ+µ+γ )t −6e−(2λ+µ+γ )t +2e−(3λ+µ+γ )t −3e−(λ+µ+2γ )t +3e−(2λ+µ+2γ )t −e−(3λ+µ+2γ )t e dunque la densità è g(t) = G′ (t) = 6(λ + µ + γ ) e−(λ+µ+γ )t − 6(2λ + µ + γ ) e−(2λ+µ+γ )t + +2(3λ + µ + γ ) e−(3λ+µ+γ )t − 3(λ + µ + 2γ ) e−(λ+µ+2γ )t + +3(2λ + µ + 2γ ) e−(2λ+µ+2γ )t − (3λ + µ + 2γ ) e−(3λ+µ+2γ )t
44
Parte 1: soluzioni
da cui, ricordando l’espressione della speranza matematica di una legge esponenziale, Z +∞ E(T ) = g(t) dt = 0
6 6 2 3 3 1 = − + − + − · λ + µ + γ 2λ + µ + γ 3λ + µ + γ λ + µ + 2γ 2λ + µ + 2γ 3λ + µ + 2γ Il calcolo numerico dà il risultato E(T ) = 3.26, sensibilmente migliore che nel caso b). • Da segnalare in questo esercizio il calcolo della legge del massimo di due v.a. indipendenti effettuato determinandone prima la f.r. Per calcolare la densità del minimo invece si opera in maniera del tutto analoga usando piuttosto la funzione di sopravvivenza 1 − F . 3.6
a) E(X) =
Z
+∞ 0
x·
Z +∞ 2x −x 2 /θ 2 +∞ 2 + e dx = −xe−x /θ e−x /θ dx . θ 0 {z 0 } | =0
L’ultimo integrale si calcola con il cambio di variabile di
√y 2
2 e−x /2 :
Z
+∞ 0
e
−x 2 /θ
=
√x θ
in modo da ricondurlo a quello
√ Z +∞ √ √ Z +∞ √ θ θ θ √ πθ −y 2 /2 −y 2 /2 e dy = √ e dy = √ 2π = dx = √ · 2 2 0 2 2 −∞ 2 2
Per ottenere la varianza calcoliamo prima il momento del second’ordine Z 2 +∞ 3 −x 2 /θ x e dx . E(X 2 ) = θ 0 L’integrale si può fare per parti oppure con il cambio di variabile x 2 = y riconducendolo a quello di una densità Ŵ(2, θ1 ): E(X 2 ) =
1 θ
Z
+∞
0
ye−y/θ dy =
1 2 θ Ŵ(2) = θ θ
e quindi Var(X) = E(X 2 ) − E(X)2 = θ 1 − b) Una v.a. Y è di Cauchy se ha densità fY (y) =
π 4
.
1 · π (1 + y 2 )
Perché Y abbia speranza matematica finita deve essere assolutamente convergente l’integrale Z +∞ y dy . 2 −∞ π (1 + y )
Esercizio 3.8
45
L’integrando però per |y| → ∞ tende a zero in modulo come |y|−1 e l’integrale non è dunque assolutamente convergente. Y quindi non ha speranza matematica finita. c) La speranza matematica è finita se e solo se è convergente l’integrale Z +∞ Z +∞ x · x −(λ+1) dx = x −λ dx r
r
e cioè se λ > 1. Se λ > 1 si trova immediatamente Z +∞ λr λ −λ+1 +∞ λr λ E(X) = λr x −λ dx = − x · = r λ − 1 λ −1 r
Perché la varianza sia finita occorre invece che sia convergente anche l’integrale Z +∞ Z +∞ 2 −(λ+1) x ·x dx = x −λ+1 dx r
r
e cioè che sia λ > 2. In questo caso si ha Z +∞ λr 2 λr λ −λ+2 +∞ 2 λ x · = E(X ) = λr x −λ+1 dx = − r λ−2 λ−2 r
e dunque la varianza vale
Var(X) = E(X 2 ) − E(X)2 =
λr 2 λ2 r 2 λr 2 (λ − 1)2 − λ2 r 2 (λ − 2) − = = λ − 2 (λ − 1)2 (λ − 2)(λ − 1)2 λr 2 · = (λ − 2)(λ − 1)2
Per λ → +∞ la media tende a r, mentre la varianza converge a 0. 3.7 √1 (X 2
Basta osservare che la v.a. X − Y = X + (−Y ) segue una legge N(0, 2) e dunque − Y ) ∼ N(0, 1). Dunque P(X > Y ) = P(X − Y > 0) = P
mentre allo stesso modo
− Y ) > 0 = 1 − 8(0) =
= P X − Y > 21 = P √1 (X − Y ) > 2 1 √ = 1 − 8(0.35) = 0.36 . =1−8
P X>Y +
1 2
√1 (X 2
2 2
1 √ 2 2
1 2
=
3.8 Se il modello normale è valido, la probabilità che uno studente ottenga un voto superiore al 24 è pari a P(X ≥ 24), dove X ∼ N(21, 9). Ma sappiamo che si può scrivere X = 3Z + 21, dove Z ∼ N(0, 1). Dunque = P(Z ≥ 1) = 1 − 8(1) P(X ≥ 24) = P(3Z + 21 ≥ 24) = P Z ≥ 24−21 3
46
Parte 1: soluzioni
dove 8 indica la f.r. di una legge N(0, 1). Uno sguardo alle tavole dà il valore 8(1) = 0.84. Dunque la probabilità richiesta è 1 − 8(1) = 0.16. Allo stesso modo la probabilità che uno studente ottenga un voto ≤ 17 è = P(Z ≤ −1.33) = 8(−1.33) = P(X ≤ 17) = P(3Z + 21 ≤ 17) = P Z ≤ 17−21 3 = 1 − 8(1.33) = 1 − 0.908 = 0.092 . La probabilità che uno studente non ottenga la sufficienza alla prova scritta è del 9.2%. • L’argomento chiave di questo esercizio è il fatto che se X è N(µ, σ 2 ), allora si può scrivere X = σ Z + µ, dove Z ∼ N(0, 1). Questo metodo, che consiste nel ridursi sempre al caso di una legge N(0, 1), è quello che conviene usare sempre per calcolare quantità legate alle leggi normali.
3.9 La probabilità che un individuo abbia un’altezza superiore ai 190 cm è P(X > 190) dove X ∼ N(175, 81). Ma sappiamo che si può scrivere X = 9Z + 175, dove Z ∼ N(0, 1). Dunque P(X > 190) = P Z > 190−175 = P(Z > 53 ) = 1 − 8(1.67) 9
dove 8 è la f.r. di una v.a. N(0, 1). Uno sguardo alle tavole dà 8(1.67) = 0.95 e dunque 1 − 8(1.67) = 0.05. La percentuale d’italiani di statura > 190 cm sarebbe del 5%. Allo stesso modo la probabilità che un italiano sia riformato alla visita di leva sarebbe P(X ≤ 153) = P Z ≤ 153−175 = P Z ≤ − 22 9 9 = 8(−2.44) = 0.008 . Dunque la percentuale di reclute scartate sarebbe dello 0.8%.
3.10 La probabilità che una bottiglia risulti insufficientemente riempita è P(X < 730). Osserviamo di nuovo che si può scrivere X = σ Z + µ con Z ∼ N(0, 1). Dunque P(X < 730) = P(σ Z + µ < 730) = P Z < 730−µ . σ
Uno sguardo alle tavole ci informa che, perché questa probabilità sia inferiore a 0.002, occorre ≤ −2.88, ovvero µ ≥ 730 + σ · 2.88 = 802. Se invece la varianza fosse che sia 730−µ σ σ 2 = 400 si otterrebbe µ ≥ 787.6.
3.11 a) k deve essere scelto in modo che l’integrale di f valga 1, cioè deve essere uguale all’inverso di Z +∞
x 3 e−x/2 dx .
0
In questo caso però basta riconoscere che f è una densità Ŵ(4, 21 ) e dunque k =
1 24 Ŵ(4)
=
1 . 24 3!
b) X + Y ha legge Ŵ(8, 21 ), per la regola della somma di due v.a. Gamma indipendenti. Sappiamo inoltre che in generale la v.a. aX ha densità faX (x) =
1 f |a|
x a
.
Esercizio 3.12
47
Dunque nel nostro caso f2X (x) =
1 f 2 X
x 2
ovvero 2X è Ŵ(4, 41 ). 3.12
=k
x 3 −x/4 e 24
a) La f.r. si calcola con il cambio di variabile s α = u, αs α−1 ds = du: se t > 0 F (t) =
Z
t
λαs 0
α−1 −λs α
e
ds =
Z
tα 0
α
λe−λu du = 1 − e−λt .
Per mostrare che f è una densità occorre calcolarne l’integrale e mostrare che esso vale 1. Ma, poiché già abbiamo calcolato la f.r., basta osservare che Z t Z +∞ f (s) ds = lim F (t) = 1 . f (s) ds = lim −∞
t→+∞
t→+∞ −∞
b) Se X è esponenziale di parametro λ, ricordando i valori delle costanti per le leggi Gamma, si ha Z +∞ λŴ(β + 1) Ŵ(β + 1) E(X β ) = λ t β e−λt dt = = · β+1 λ λβ 0
Per calcolare la legge di X β usiamo il solito metodo della funzione di ripartizione: se G è la f.r. di X β allora, per t > 0, G(t) = P(X β ≤ t) = P(X ≤ t 1/β ) = 1 − e−λt
1/β
da cui si vede che X β è di Weibull di parametri λ e α = β1 (ha la stessa f.r.). Dunque una v.a. Y di Weibull di parametri λ e α è della forma X 1/α , dove X è esponenziale di parametro λ; essa ha dunque media Ŵ(1 + α1 ) · E(Y ) = E(X 1/α ) = λ1/α Per la varianza, evidentemente E(Y 2 ) = E(X 2/α ) = e Var(Y ) = E(Y 2 ) − E(Y )2 =
Ŵ(1 + α2 ) λ2/α
Ŵ(1 + α2 ) − Ŵ(1 + α1 )2 λ2/α
c) Basta osservare che Ŵ(1 + 2t) − Ŵ(1 + t)2 è la varianza di una v.a. di Weibull di parametri λ = 1 e α = 1t e quindi si tratta di una quantità positiva. d) Per simulare una v.a. di Weibull di parametri α, λ basta dunque simulare una v.a. esponenziale Y di parametro λ e poi porre X = Y 1/α . In maniera equivalente si può anche ricordare da a) (o dall’Esempio 3.48) che la funzione di ripartizione di una v.a. di Weibull è α
F (t) = 1 − e−λ t ,
t > 0,
48
Parte 1: soluzioni
È facile ora vedere che, per y > 0, si ha 1 1/α F −1 (y) = − log(1 − y) λ La funzione di ripartizione in questo caso è quindi invertibile e quindi, come indicato a pag.142, basta porre X = F −1 (Z), dove Z è uniforme su [0, 1]. 3.13 a) Sappiamo che se X ∼ N(µ, σ 2 ) allora Z = X − µ ∼ N(0, σ 2 ). Sappiamo però che i momenti di ordine dispari delle leggi normali centrate sono tutti nulli, quindi E((X − µ)3 ) = E(Z 3 ) = 0 e dunque γ = 0. In effetti in questo calcolo abbiamo utilizzato unicamente il fatto che le v.a. normali hanno una legge che è simmetrica rispetto alla media, cioè sono tali che X − µ e −(X − µ) hanno la stessa legge. Per tutte le v.a. con questa proprietà si ha E[(X − µ)3 ] = E[−(X − µ)3 ] = −E[(X − µ)3 ] per cui E((X − µ)3 ) = 0 e γ = 0. Tutte le v.a. simmetriche intorno alla media (cioè tali che X − µ e −(X − µ) hanno la stessa legge) hanno dunque indice di skewness = 0. b) Ricordiamo che per una v.a. X ∼ Ŵ(α, λ) il momento di ordine k vale E(X k ) =
(α + k − 1)(α + k − 2) . . . α Ŵ(α + k) = λk Ŵ(α) λk
ovvero per i primi tre momenti: E(X) =
α , λ
E(X 2 ) =
α(α + 1) , λ2
E(X 3 ) =
α(α + 1)(α + 2) · λ3
Sviluppando il binomio di terzo grado (qui µ = αλ ) E((X − µ)3 ) = E(X 3 ) − 3E(X 2 )µ + 3E(X)µ2 − µ3 = 1 = 3 α(α + 1)(α + 2) − 3α 2 (α + 1) + 3α 3 − α 3 = λ α = 3 α 2 + 3α + 2 − 3α 2 − 3α + 2α 2 = λ 2α = 3· λ D’altra parte la varianza vale σ 2 =
α λ2
per cui
γ =
2α λ3 α 3/2 λ3
= 2α −1/2 .
Esercizio 3.13
49
In particolare l’indice di skewness non dipende da λ e quello di una legge esponenziale Ŵ(1, λ) è sempre uguale a 2. Osserviamo anche che la skewness di una legge Ŵ è sempre positiva, il che è in accordo con l’intuizione (il grafico delle densità è sempre come nella Figura 3.21, almeno per α > 1). c) Useremo sempre lo sviluppo del binomio di terzo grado, ma occorre ora calcolare il momento del terz’ordine di una legge di Poisson. In effetti già conosciamo i momenti di ordine uno: E(X) = λ e di ordine due: E(X 2 ) = Var(X) + E(X)2 = λ + λ2 . Il momento di ordine tre può essere ottenuto in modi diversi: intanto direttamente con la definizione: E(X 3 ) = e−λ = λe−λ
∞ X k=0
∞ X i=0
k3
∞
∞
k=1
i=0
X X λk λi+1 λk k2 (i + 1)2 = e−λ = e−λ = k! (k − 1)! i!
(i 2 + 2i + 1)
λi
i!
= λ(λ2 + λ + 2λ + 1) = λ3 + 3λ2 + λ
Oppure anche derivando, a scelta, la funzione caratteristica oppure la funzione generatrice dei momenti. Ricordiamo che, per quest’ultima, si ha (vedi la (3.68)) d3 m (0) = E(X 3 ) . dθ 3 X
(1.8)
La funzione generatrice dei momenti di una v.a. di Poisson di parametro λ è (Esempio 3.71 b)) mX (θ ) = eλ(e
θ −1)
.
Derivando pazientemente d θ mX (θ ) = λeθ eλ(e −1) dθ d2 θ mX (θ ) = (λeθ + λ2 e2θ )eλ(e −1) 2 dθ d3 θ m (θ ) = (λeθ + 3λ2 e2θ + λ3 e3θ )eλ(e −1) dθ 3 X da cui, ponendo θ = 0, E(X 3 ) =
d3 m (0) = λ + 3λ2 + λ3 . dθ 3 X
Finalmente E((X − µ)3 ) = E(X 3 ) − 3E(X 2 )µ + 3E(X)µ2 − µ3 = = λ + 3λ2 + λ3 − 3(λ + λ2 )λ + 3λ3 − λ3 = λ e quindi γ = Paolo Baldi Calcolo delle Probabilità McGraw-Hill 2007
λ = λ−1/2 . λ3/2
50
Parte 1: soluzioni
3.14
a) Se X ∼ N(0, 1), ripetendo i calcoli dell’Esempio 3.72, 1 E(esX ) = √ 2π 1 =√ 2π
Z
+∞
1
2
e− 2 (x−s) dx es
2 /2
−∞
Z
+∞
esx e−x
−∞
=
↑ y=x−s
es
2 /2
2 /2
1 √ 2π
dx = Z
+∞
e−y
2 /2
−∞
dy = es
2 /2
.
b1) Se Y è lognormale di parametri µ e σ 2 , allora Y = eX , dove X ∼ N(µ, σ 2 ); d’altra parte sappiamo che si può rappresentare X = σ Z + µ, dove Z ∼ N(0, 1). Dunque, per il calcolo precedente 2 E(Y ) = E(eX ) = E(eσ Z+µ ) = eµ eσ /2 . Per la varianza invece calcoliamo prima E[(eX )2 ] = E[e2X ] = E[e2(σ Z+µ) ] = e2µ e2σ
2
e dunque 2
Var(eX ) = e2µ e2σ − eµ eσ 0.9 . ...
2 /2
2
2 2 = e2µ eσ eσ − 1 .
....... ....... ....... ...... .
.... ... . ..... ... .. . . . . . . . . . . . . . . . . ......... ..... ..... . . . . . . . . . . . .. . .. ............. ... . ..... ........ .. .. . . . . . ........ ...... .. ........ .. . . ........ σ 2 = 41 .. . . . ......... ...... . ւ ......... ... .... .......... . . . . . . ... ........... . .. ........... ....... .. .. ............ .. ... .............. .. ................ ..... ..... .. ..................... .. .. .. ....................... ր ... ............................... . . 2 . . ....... .. .................................. σ =1 .. .......... ..... ....... ... .. ....... ....... ......................... . . . . .. ....... ... .. . . . ...... .......
1
Figura 1.4 Grafico della densità lognormale per diversi valori di σ 2 e µ = 0. Da notare che al crescere di σ 2 la media cresce, come si è visto nell’esercizio, mentre la moda (cioè il punto di massimo della densità) diventa più piccolo. Sempre per µ = 0, la mediana vale 1 per ogni valore di σ 2 .
b2) Se Y è lognormale di parametri µ e σ 2 e Z ∼ N(0, 1), allora P(Y ≤ z) = P(eσ Z+µ ≤ z) = P Z ≤
1 σ
(log z − µ)
Poiché P(Z ≤ x) = 21 se e solo se x = 0, si ha P(Y ≤ z) = 21 se e solo se z = eµ , che dunque è il valore cercato della mediana. La mediana dunque non dipende da σ 2 e, se si tiene fisso il valore di µ e si fa variare σ 2 , la media cresce al crescere di σ 2 , mentre la mediana rimane costante (vedi anche la Figura 1.4).
Esercizio 3.17
51
3.15 Nella risoluzione di questo esercizio supporremo che il lettore sappia come simulare le v.a. N(0, 1) e le esponenziali, come indicato nel paragrafo 3.10. χ 2 (n) è la legge della somma dei quadrati di n v.a. N(0, 1). Basterà quindi simulare n v.a. N(0, 1) indipendenti X1 , . . . , Xn , dopo di che X12 + . . . + Xn2 avrà legge χ 2 (n). Ŵ(n, λ) è la legge della somma di n v.a. indipendenti ed esponenziali di parametro λ. Queste si ottengono considerando che, se X è uniforme su [0, 1], allora Y = − λ1 log X è appunto esponenziale di parametro λ. Allo stesso modo per ottenere una v.a. Ŵ( n2 , λ) si possono sommare n v.a. indipendenti ciascuna di legge Ŵ( 21 , λ). Per ottenere ciascuna di queste basta osservare che è Ŵ( 21 , λ) la legge del quadrato di una v.a. N(0, √1 ) (Esempio 3.42). 2λ
3.16 a) La v.a. Y è a valori discreti (interi ≥ 0). Inoltre è chiaro che Y = k se e solo se k ≤ X < k + 1. Dunque Z k+1 P(Y = k} = P(k ≤ X < k + 1) = λ e−λt dt = e−λk − e−λ(k+1) = e−λk (1 − e−λ ) . k
Si può riconoscere che Y ha legge geometrica di parametro p = 1 − e−λ e quindi media
e−λ · 1 − e−λ b) Simulare una v.a. esponenziale è facile, poiché è esponenziale di parametro λ la v.a. X = − λ1 log U , dove U è uniforme su [0, 1]. Abbiamo ora visto che è geometrica la v.a. ⌊X⌋, che si calcola facilmente a partire da X. Occorre solo scegliere λ in modo che sia p = 1 − e−λ , cioè λ = − log(1 − p). Dunque la procedura di simulazione è la seguente: 1) Si simula una v.a. U uniforme su [0, 1]. 2) Si pone 1 log U X = log(1−p) che è allora geometrica di parametro p.
3.17 a) Il calcolo delle leggi del massimo o del minimo di v.a. indipendenti è stato visto varie volte nei Capitoli 2 e 3. Ricordando che la f.r. di una v.a. esponenziale di parametro λ è F (t) = 1 − e−λt per t > 0, mentre F (t) = 0 per t < 0, la f.r. di X(3) è data, sempre per t > 0, da G(t) = P(X(3) ≤ t) = P(X1 ≤ t, X2 ≤ t, X3 ≤ t) = = P(X1 ≤ t)P(X2 ≤ t)P(X3 ≤ t) = (1 − e−λt )3
da cui derivando si ottiene la densità di X(3) : se t > 0, g(t) = G′ (t) = 3λe−λt (1 − e−λt )2 (per t ≤ 0 naturalmente g(t) = 0). La speranza matematica di X(3) vale dunque Z +∞ E(X(3) ) = 3λ t e−λt (1 − e−λt )2 dt = 0 Z +∞ 3 1 1 11 = 3λ t e−λt − 2e−2λt + e−3λt dt = · 1− + = λ 2 9 6λ 0
52
Parte 1: soluzioni
Per il calcolo della legge di X(1) invece, se H ne indica la f.r. e t > 0, H (t) = 1 − P(X(1) > t) = 1 − P(X1 > t, X2 > t, X3 > t) = = 1 − P(X1 > t) P(X2 > t) P(X3 > t) = 1 − e−3λt .
Quindi X(1) è esponenziale di parametro 3λ ed ha media b) Per t fissato poniamo, per i = 1, 2, 3, Yi =
n
1 0
1 3λ .
se Xi ≤ t altrimenti
allora le v.a. Yi sono indipendenti e di Bernoulli di parametro p = P(Xi ≤ t) = 1 − e−λt . Poiché Zt = Y1 + Y2 + Y3 , allora Zt ∼ B(3, 1 − e−λt ). c) L’idea per il calcolo della f.r. K di X(2) consiste nel collegare la f.r. di X(2) con la legge di Zt , dato che gli eventi {X(2) ≤ t} e {Zt ≥ 2} sono uguali. Quindi, per t > 0, K(t) = P(X(2) ≤ t) = P(Zt ≥ 2) = P(Zt = 2) + P(Zt = 3) = = 3(1 − e−λt )2 e−λt + (1 − e−λt )3 .
Derivando k(t) = K ′ (t) = 6λe−2λt (1 − e−λt ) per cui la speranza matematica di X(2) vale E(X(2) ) = 6λ
Z
+∞ 0
t e−2λt (1 − e−λt ) dt =
5 · 6λ
Poiché E(X2 ) = λ1 , E(X2 ) > E(X(2) ). d) Se indichiamo con X1 , X2 i tempi di vita dei due elementi, il tempo di vita del componente formato dai due elementi in serie è dato da min(X1 , X2 ) ed il tempo medio è la speranza matematica di questa v.a.; ripetendo il calcolo fatto in a) per determinare la legge di X(1) si vede facilmente che la legge di min(X1 , X2 ) è ancora esponenziale ma di parametro 2λ, per cui la 1 sua media vale 2λ . e) Se indichiamo con X1 , X2 , X3 il tempo di vita di ciascuno degli elementi, allora chiaramente il tempo di vita del componente è dato da X(2) e sappiamo dal punto c) che E(X(2) ) = 3.18
5 · 6λ
a) Calcoliamo la f.r. di Z: passando in coordinate polari si ha, per z ≥ 0, FZ (z) = P(Z ≤ z) = P (X, Y ) si trova nella palla di centro 0 e raggio z = Z Z 2π Z z 1 1 2 2 − 21 (x 2 +y 2 ) e dx dy = dθ = e−̺ /2 ̺ d̺ = 1 − e−z /2 2π {x 2 +y 2 ≤z2 } 2π 0 0
Esercizio 3.19
53
2
da cui derivando si ottiene la densità di Z: fZ (z) = ze−z /2 se z > 0, mentre f (z) = 0 per z ≤ 0. Uno sguardo al paragrafo 3.8 mostra che si tratta di una densità di Weibull. b) Abbiamo appena calcolato la f.r. di Z. Dunque la quantità richiesta è P(Z > 1) = 1 − FZ (1) = e−1/2 . 3.19 La prima probabilità richiesta si può scrivere P((X, Y ) ∈ A) dove A è la regione del piano formata dai punti (x, y) tali che xy > 21 . Limitandoci ai punti che hanno entrambe le coordinate positive, si vede facilmente che si tratta della regione al di sopra dell’iperbole della Figura 1.5. ... ... ............................... ........................................... ........................................ ..................................... ........................ ................................ .............................. ................. .................... ........... .......... ....... ......... ....
ւ
xy =
1 2
Figura 1.5
La probabilità richiesta è dunque l’area della porzione di quadrato che si trova in A, cioè il valore dell’integrale Z 1 Z 1 Z 1 1 1 dx = (1 − log 2) . dx dy = 1− 1 1 1 2x 2 2 2x 2 Inoltre
P XY < 41 |X >
1 2
=
P(XY < 41 , X > 21 ) · P X > 21
1 , x > 21 } che è contenuta nel quadrato è quella ombreggiata La porzione della regione {y < 4x nella Figura 1.6. La probabilità condizionale P(XY < 41 |X > 21 ) è dunque uguale all’area della superficie ombreggiata divisa per P(X > 21 ) = 21 , cioè Z 1 Z 1 Z 1 4x 1 1 dx = log 2 . 2 dy = 2 dx 1 1 4x 2 0 2 2 ... ... ... ... ... ... ... ... ... ... ... ..... ..... .. ....................... ................................... ............................................................. . . . . . . . . . . . . . . ............. ......................................................................... .......................................................... ..........................................................
ւ
1 2
Figura 1.6
xy =
1 4
54
Parte 1: soluzioni
Allo stesso modo si calcola l’ultima probabilità condizionale richiesta P(XY > 41 , X Y > 2) · P XY > 41 | X Y >2 = X P( Y > 2)
La probabilità al denominatore è pari all’area della porzione di quadrato che si trova sotto la retta y = x2 (ed è quindi 41 ), mentre il numeratore è uguale all’area della superficie ombreggiata nella Figura 1.7. Quest’ultima vale Z 1 Z x Z 1 2 x 1 1 dx dy = − dx = (1 − log 2) √ √ 2 2 2 1 4x 8 2 4x 2 e quindi 1 P XY > 41 | X Y > 2 = 2 (1 − log 2) . ... ... ... ... .. .. .. .. .. .. .. ... ... ... .... ....... ....... ... ....... ..... ....... ..... ....... . . . ..... . . . ..... .... ...... ......................................... ................. ........ ....... .. ............................. ............. ....... . . . . . . ... ...... .. ....... ....... ....... . . . . . . . . . ....
ց
y=
ւ
x 2
xy =
1 4
√2 2
Figura 1.7
• I due esercizi precedenti illustrano come il calcolo della probabilità di eventi legati a più v.a. si riconduca spesso a quello dell’integrale della densità congiunta su opportune regioni del piano, ovvero, nel caso di densità uniformi, al calcolo di aree.
3.20
a) Dobbiamo calcolare la probabilità P X2 ≤ min(X1 , X3 ) .
Ciò si può fare calcolando prima la densità f di min(X1 , X3 ). Una volta effettuato questo calcolo, indicando con f2 la densità di X2 potremo scrivere Z (1.9) P(X2 ≤ min(X1 , X3 )) = f2 (x) f (y) dx dy A
R2
dove A = {(x, y); x ≤ y} ⊂ è l’insieme dei punti del piano che hanno l’ascissa più piccola dell’ordinata. Tutto quindi si riconduce al calcolo di f e dell’integrale della (1.9). Se 0 ≤ t ≤ 1 e F indica la f.r. di min(X1 , X3 ), allora 1 − F (t) = P(min(X1 , X3 ) > t) = P(X1 > t)P(X3 > t) .
Esercizio 3.21
Poiché P(X1 > t) = P(X2 > t) =
Z
55
1 t
ds = 1 − t
si ha 1 − F (t) = (1 − t)2 . Quindi F (t) = 1 − (1 − t)2 , per 0 ≤ t ≤ 1, mentre, naturalmente, F (t) = 0 se t < 0 e F (t) = 1 se t > 1. La densità di min(X1 , X3 ) si ottiene per derivazione: n 2(1 − t) se 0 ≤ t ≤ 1 f (t) = F ′ (t) = 0 altrimenti . Riprendendo la (1.9) e ricordando che la densità f2 di X2 vale 1 su [0, 1] e 0 fuori di [0, 1], si ha infine Z Z 1 Z y P(X2 ≤ min(X1 , X3 )) = f2 (x) f (y) dx dy = 2 (1 − y) dy dx = =2
Z
A 1
0
0
0
1 2 y(1 − y) dy = 1 − = · 3 3
b) Se si suddividono i 30 numeri in terzine si vede che in tutte il numero di mezzo è più piccolo sia del primo che del terzo. Se il generatore fornisse numeri aleatori uniformi su [0, 1] e indipendenti, la probabilità che in una singola terzina il numero in mezzo sia minore degli altri due sarebbe 13 . La probabilità che ciò succeda per dieci terzine è quindi 3−10 = 1.7 · 10−5 . Un valore così piccolo fa almeno sospettare che i numeri aleatori successivi non siano indipendenti. Il generatore aleatorio quindi meriterebbe qualche controllo.
3.21 a) Se indichiamo con X1 , X2 , . . . gli intervalli di tempo tra le telefonate successive, allora il tempo di arrivo della seconda telefonata è Y = X1 + X2 . Y ha dunque una legge Ŵ(2, λ), e la sua f.r. è (vedi la (3.52)) −λt FY (t) = 1 − e (1 + λt) se t > 0 0 altrimenti . La probabilità richiesta è dunque 1 − e−2 (1 + 2) = 0.59. b) Occorre determinare la legge condizionale di X1 dato Y = T . Per fare ciò useremo il solito metodo di calcolare prima la densità congiunta di X1 e Y , che sarà ottenuta con il teorema di cambio di variabile. La v.a. (X1 , Y ) si ottiene infatti da (X1 , X2 ) mediante la trasformazione lineare associata alla matrice 1 0 A= 1 1 la cui inversa è A−1 =
1 −1
0 1
La densità congiunta di (X1 , X2 ) è f (x, y) =
λ2 e−λ(x+y) 0
se x > 0, y > 0 altrimenti .
56
Parte 1: soluzioni
Poiché det A = 1 la densità di (X1 , Y ) = (X1 , X1 + X2 ) è quindi g(x, y) = f (A−1
x y )
= f (x, y − x) .
g(x, y) è dunque = 0 se x ≤ 0 oppure y ≤ x, mentre vale λ2 e−λy per 0 < x < y. La densità condizionale di X1 dato Y vale g¯ X1 |Y (x|y) =
g(x, y) · fY (y)
Essa è nulla se x non si trova nell’intervallo ]0, y[ mentre in questo intervallo vale g¯ X1 |Y (x|y) =
λ2 e−λy 1 = · 2 −λy λ ye y
Dunque la distribuzione condizionale di X1 dato Y = y è semplicemente la distribuzione uniforme su ]0, y[. La probabilità che la prima telefonata sia giunta dopo il tempo T2 sapendo che la seconda è giunta al tempo T è uguale a 21 . 3.22
a) Perché f sia una densità occorre che sia Z
f (u, v) du dv = c
Z
0
+∞
du
Z
u 0
2u −u2 /θ c e v dv = θ θ
Z
+∞
0
u3 e−u
2 /θ
du = 1 .
L’ultimo integrale dell’espressione precedente si calcola per parti (vedi comunque il punto a) 2 dell’Esercizio 3.2). Esso vale dunque θ2 , per cui deve essere c=
2 · θ
b) Un modo per investigare l’indipendenza delle v.a. U e U V consiste nel calcolo della loro densità congiunta, per poi verificare che questa si può scrivere come prodotto di due funzioni ciascuna delle quali dipende solo da una delle variabili. Il calcolo della legge congiunta di U e U V si può fare osservando che U, U V = φ(U, V )
dove φ è la funzione φ(u, v) = (u, uv ); questa funzione è certo infinite volte derivabile per u > 0, v > 0: se essa fosse anche invertibile e la sua inversa derivabile potremmo calcolare la densità congiunta g di U e U V con il teorema di cambio di variabile negli integrali multipli, grazie al quale si ha che (1.10)
g(x, y) = f (φ −1 (x, y))| det Dφ −1 (x, y)| .
Le tappe successive per mostrare che U e U V sono indipendenti sono dunque le seguenti: prima occorre mostrare che φ è invertibile e calcolarne l’inversa (ovvero calcolarne l’inversa, il che
Esercizio 3.23
57
proverà che φ è invertibile). Poi bisogna calcolare il differenziale Dφ −1 (che in questo caso è una matrice 2 × 2) e il suo determinante. A questo punto avremo la densità congiunta g tramite la (1.10) e vedremo che essa è il prodotto di una funzione della sola variabile x moltiplicata per una funzione della sola variabile y. Come si vede si tratta di un programma abbastanza complesso, ma nel quale ogni singola parte non presenta grosse difficoltà. Per calcolare l’inversa di φ, fissati dei valori x e y dobbiamo determinare dei numeri u e v tali che φ(u, v) = (x, y). In altre parole dobbiamo risolvere rispetto a u e v il sistema u=x u v =y che dà facilmente u = x, v = xy . Dunque φ −1 (x, y) = (x, xy ). È immediato ora il calcolo del differenziale di φ −1 : 1 0 Dφ −1 (x, y) = 1 x − y2 y
per cui det Dφ −1 (x, y) = − yx2 . Abbiamo quindi calcolato tutte le quantità che compaiono nella (1.10). Sostituendo i valori trovati dobbiamo però ricordare che f (u, v) è = 0 a meno che non sia 0 < v < u. Dunque otteniamo f (φ −1 (x, y)) = f (x, xy ) = 0 a meno che non sia y > 1 e x > 0. In conclusione g(x, y) =
2 2x −x 2 /θ x e 1{x>0} (x)1{y>1} (y) θ θ y {z } | =f (φ −1 (x,y))
=
x y2 |{z}
=
=| det Dφ −1 (x,y)|
1 4 3 −x 2 /θ x e 1{x>0} (x) 1 (y) θ2 y 3 {y>1} | {z } | {z } funzione della sola x
funzione della sola y
e dunque U e U V sono indipendenti. • Il metodo di calcolo della densità congiunta (a cui si è talvolta condotti per provare l’indipendenza di due v.a.) con l’uso il teorema di cambio di variabile negli integrali multipli, illustrato in questo esercizio, è un tecnica che risulta utile in molte situazioni. Si tratta di un calcolo piuttosto complesso ed al quale conviene ricorrere solo quando non ci sono altre possibilità. Uno sguardo più da vicino mostra però che le diverse tappe del calcolo sono relativamente semplici: calcolo dell’inversa φ −1 (spesso l’operazione più difficile), calcolo del suo differenziale e del determinante di quest’ultimo, sostituzione dei valori nella (1.10). 3.23 Ricordiamo che la media di una v.a. esponenziale di parametro λ è λ1 . 1 , µ = 61 . Indichiamo con S1 e S2 i tempi di vita di ciascuno dei due a) Poniamo λ = 10 elementi che compongono il secondo componente. Se T2 è il tempo di vita di quest’ultimo, allora T2 = max(S1 , S2 ). Se supponiamo che S1 e S2 siano indipendenti allora abbiamo gi]a‘ visto altre volte come si fa il calcolo della f.r. di T2 : P(T2 ≤ t) = P(max(S1 , S2 ) ≤ t) = P(S1 ≤ t, S2 ≤ t) = = P(S1 ≤ t) P(S2 ≤ t) = (1 − e−µt )2 .
58
Parte 1: soluzioni
Derivando otteniamo la densità di T2 : f2 (t) = 2µe−µt (1 − e−µt ) per t > 0, f2 (t) = 0 per t ≤ 0; possiamo quindi calcolare la media E(T2 ) =
Z
+∞
tf2 (t) dt = 2µ
0
Z
+∞ 0
t (e−µt − e−2µt ) dt =
1 3 2 − = =9. µ 2µ 2µ
Il secondo componente dura in media meno del primo. b) Indichiamo con T1 il tempo di vita del primo componente e con f1 la sua densità. Se A = {(x, y), x > y} allora dire che T1 > T2 è lo stesso che dire che (T1 , T2 ) ∈ A. Dunque, se come appare ragionevole supponiamo che T1 e T2 siano indipendenti, Z P(T1 > T2 ) = P((T1 , T2 ) ∈ A) = f1 (x)f2 (y) dx dy = A Z +∞ Z +∞ Z +∞ 2µe−µy (1 − e−µy ) dy λe−λx dx = 2µe−(λ+µ)y (1 − e−µy ) dy = y
0
= 2µ
Z
+∞
0
e−(λ+µ)y dy − 2µ
Z
0
+∞
0
e−(λ+2µ)y dy =
2µ 2µ 25 − = = 0.48 λ + µ λ + 2µ 52
Quindi, nonostante in media duri più, la probabilità che il primo componente resti funzionante più a lungo del secondo è minore di 21 . Naturalmente l’integrale doppio precedente si sarebbe anche potuto calcolare integrando prima in y e poi in x, cioè P(T1 > T2 ) =
Z
A
f1 (x)f2 (y) dx dy =
Z
+∞
λe−λx dx
0
Z
0
x
2µe−µy (1 − e−µy ) dy .
Il risultato naturalmente resta lo stesso, ma i conti sono un po’ più complicati. • Da segnalare in questo esercizio il calcolo della probabilità di eventi della forma {T1 > T2 } effettuato usando la densità congiunta, che è un metodo di uso frequente.
3.24 a) I dati del problema permettono di affermare che la densità condizionale di Y dato X = x deve essere f¯Y |X (y |x) = xe−xy per y > 0 e f¯Y |X (y |x) = 0 altrimenti. Poiché conosciamo anche la legge di X, possiamo calcolare la legge congiunta di (X, Y ), da cui potremo ricavare la legge di Y , che ne è una marginale, e poi la legge condizionale di X dato Y = y. La legge congiunta di (X, Y ) è f (x, y) = fX (x)f¯Y |X (y |x) =
λα α −(λ+y)x Ŵ(α) x e
0
se x > 0, y > 0 altrimenti .
Calcoliamo la densità di Y come marginale di f . Per y ≤ 0 fY (y) = 0, mentre per y > 0 fY (y) =
Z
+∞ −∞
f (x, y) dx =
λα Ŵ(α) =
Z
+∞ 0
x α e−(λ+y)x dx =
αλα · (λ + y)α+1
λα Ŵ(α + 1) = Ŵ(α) (λ + y)α+1
Esercizio 3.25
59
Il valore dell’integrale è stato ottenuto immediatamente riconoscendo che l’integrando è, a meno della costante, una densità Ŵ(α + 1, λ + y). b) Y ha speranza matematica finita se e solo se è convergente l’integrale Z +∞ y dy . (λ + y)α+1 0 L’integrando tende a 0 per y → +∞ come y −α ed è quindi convergente se e solo se α > 1. Quindi Y non ha speranza matematica finita se α ≤ 1. Se invece α > 1, integrando per parti si ha Z +∞ Z +∞ y λα y +∞ λα E(Y ) = αλα dy = − dy = + α+1 α (λ + y) (λ + y) 0 (λ + y)α 0 0 | {z } =0
+∞ 1 λα λ · =− = α − 1 (λ + y)α−1 0 α−1
c) La legge condizionale di X dato Y = y, y > 0, si ottiene facendo il quoziente tra la densità congiunta e quella di Y , cioè (λ + y)α+1 α −(λ+y)x f¯X|Y (x |y) = x e αŴ(α) per x > 0, mentre è uguale a 0 per x ≤ 0. Riconosciamo che la legge condizionale è una Ŵ(α + 1, λ + y). Quindi la sua media vale α+1 λ+y . • Due sono gli aspetti interessanti di questo esercizio: in primo luogo come si usano i dati del problema per indicare le leggi marginali e/o condizionali delle v.a. che si considerano e come da queste si ottiene la densità congiunta; poi come dalla densità congiunta si riesce a calcolare tutto il resto.
3.25
a) La v.a. X − Y si può scrivere X − Y = X + (−Y ) .
Le v.a. X e −Y sono ancora indipendenti ed inoltre −Y ha legge N(0, 1). Per la regola della somma di v.a. normali indipendenti, √X − Y ha legge N(0, 2). √ b) Per calcolare la legge di (X, 2Y ) basta osservare che X e 2 Y sono ancora v.a. indipendenti. La prima è N(0, 1) mentre la seconda è N(0, 2). Dunque la densità congiunta è 1 2 2 g(x, y) = √ e−x /2 e−y /4 . 2 2π √ Avremmo anche potuto osservare che il vettore aleatorio (X, 2 Y ) segue una legge normale multivariata, essendo una funzione lineare del vettore (X, Y ). La sua legge risulta determinata dal fatto che la matrice di covarianza è 1 0 K= 0 2
60
Parte 1: soluzioni
√ √ come risulta dal calcolo delle varianze di X e 2 Y e dal fatto che X e 2 Y sono indipendenti e quindi non correlate. Per il calcolo della legge di (X, X − Y ) osserviamo che si tratta di una v.a congiuntamente gaussiana, essendo una funzione lineare delle v.a. X, Y che sono esse stesse gaussiane. La legge di (X, X − Y ) resta dunque determinata una volta che se ne conoscano media e matrice di covarianza. È chiaro che E(X) = E(X − Y ) = 0 e dunque anche (X, X − Y ) è centrata. Per la matrice di covarianza C basta osservare che Var(X) = 1 Var(X − Y ) = Var(X) + Var(−Y ) = 2 Cov(X, X − Y ) = Cov(X, X) − Cov(X, Y ) = 1 . | {z } | {z } =0
=Var(X)=1
Dunque
C=
1 1
1 2
Avremmo anche potuto ricavare la matrice di covarianza C mediante la formula 1 1 1 1 1 0 = C = AI A∗ = 1 2 0 −1 1 −1 (I indica sempre la matrice identità I=
1 0
0 1
che è la matrice di covarianza del vettore (X, Y )). In conclusione (X, X − Y ) ha legge N(0, C). √ Il calcolo delle marginali si fa immediatamente, poiché sappiamo che X √ ∼ N(0, 1), 2 Y ∼ N(0, 2), X − Y ∼ N(0, 2). In particolare le due v.a. (X, X − Y ) e (X, 2 Y ) hanno le stesse distribuzioni marginali ma leggi congiunte diverse. Per calcolare la legge condizionale di X dato X − Y = z si può usare la definizione, secondo la quale g(x, z) g¯ X|X−Y (x |z) = gX−Y (z) dove g indica la densità congiunta di X e X − Y , appena calcolata. Dunque (1.11)
1 1 2 1 1 2 2 2 2 g¯ X|X−Y (x |z) = √ e− 2 (2x −2xz+z ) ez /4 = √ e−(x −xz− 4 z ) . π π
In generale però conviene ricordare che per le leggi condizionali di variabili congiuntamente normali valgono le (3.89) e (3.90), cioè se U e Z hanno legge congiunta normale, allora la legge condizionale di U dato Z = z è ancora normale di varianza σ 2 = Var(U ) −
Cov(U, Z)2 Var(Z)
Esercizio 3.26
e media µ = E(U ) +
61
Cov(U, Z) (z − E(Z)) . Var(Z)
Nel nostro caso, in cui U = X e Z = X − Y , la densità condizionale x → g¯ X|X−Y (x |z) è dunque normale di media µ = 2z e varianza σ 2 = 21 . Un calcolo diretto mostrerebbe che l’espressione di questa densità è data proprio dalla (1.11). Questo secondo modo di derivare la densità condizionale, che vale solo per le v.a. congiuntamente normali, è molto più pratico, ad esempio perché fornisce immediatamente il valore della media condizionale, 2z , che altrimenti avrebbe richiesto il calcolo diretto della media della densità data dalla (1.11). c) Per mostrare che X − Y e X + Y sono indipendenti si può calcolare, con il teorema di cambio di variabile, la legge congiunta di X − Y e X + Y e vedere che la si può spezzare nel prodotto di due funzioni che dipendono ciascuna da una sola delle variabili. Ma in questo caso sappiamo che le v.a. X − Y e X + Y sono congiuntamente normali, essendo funzioni lineari delle v.a. X, Y che sono congiuntamente normali. Sappiamo inoltre che v.a. congiuntamente normali e non correlate sono indipendenti. Ora Cov(X − Y, X + Y ) = Cov(X, X) + Cov(X, Y ) + Cov(−Y, X) + Cov(−Y, Y ) = 0 . | {z } | {z } | {z } | {z } =Var(X)=1
=0
=0
=− Var(Y )=−1
e dunque X − Y e X + Y sono non correlate e indipendenti. Il fatto che X − Y e X + Y siano non correlate si può vedere anche calcolandone matrice di covarianza C con la formula 1 −1 2 0 1 1 C = AI A∗ = = 0 2 −1 1 1 1 Poiché C è diagonale le due v.a. sono non correlate. • Questo esercizio mette bene in evidenza alcuni fatti che rendono semplici i calcoli con le leggi normali: a) La proprietà che la somma di v.a. (reali) normali indipendenti è ancora normale con media pari alla somma delle medie e varianza uguale alla somma delle varianze. b) La proprietà che trasformazioni lineari trasformano leggi normali in leggi normali. Questo fatto è particolarmente utile perché la legge cercata rimane determinata non appena si sappiano calcolare matrice di covarianza e media (che in questo esercizio era sempre uguale a 0). Il calcolo della matrice di covarianza si fa facilmente o calcolando una per una varianze e covarianze oppure usando la formula che dice che se la v.a. m-dimensionale Z ha matrice di covarianza CZ e A è una matrice n × m, allora la v.a. W = AZ ha matrice di covarianza CW = ACZ A∗ (A∗ è la trasposta), il che riduce il calcolo della matrice di covarianza a quello di un prodotto di matrici. c) Per ultimo ricordiamo che esistono formule molto semplici che danno, per v.a. congiuntamente normali, le leggi condizionali (vedi le (3.89) e (3.90)). Esse in particolare danno immediatamente il valore della media condizionale (che non è altro che la media della legge condizionale e che quindi è data dalla (3.90)).
3.26 a) Calcoliamo la f.r. di T . Indichiamo con A l’evento ‘‘il pezzo prescelto è stato prodotto dalla prima linea’’ e con B l’evento ‘‘il pezzo prescelto è stato prodotto dalla seconda
62
Parte 1: soluzioni
linea’’. A e B hanno probabilità p e q rispettivamente, mentre, condizionalmente a A e B, T ha legge esponenziale di parametri λ e µ rispettivamente. Dunque, ricordando l’espressione della f.r. delle leggi esponenziali si ha, per t ≥ 0 P(T ≤ t) = P(T ≤ t |A)P(A) + P(T ≤ t |B)P(B) = = p(1 − e−λt ) + q(1 − e−µt ) = 1 − pe−λt − qe−µt . Naturalmente la f.r. è nulla per t ≤ 0. Derivando si ottiene la densità di T , che vale −λt + qµe−µt se t > 0 f (t) = pλe 0 altrimenti e quindi
Z
+∞
p q + · λ µ 0 b) Si tratta di calcolare P(A|T > s). Con la formula di Bayes si trova E(T ) =
P(A|T > s) =
t (pλe−λt + qµe−µt ) dt =
P(T > s |A)P(A) pe−λs p · = −λs = −µs P(T > s) pe + qe p + qe−(µ−λ)s
Per s che tende all’infinito, ricordando che supponiamo µ > λ, questa probabilità tende a 1 e dunque più s è grande e più è probabile che il componente provenga dalla linea A. Questo è in accordo con l’intuizione: infatti la condizione λ > µ implica che i pezzi della prima linea di produzione hanno in media vita più lunga. Dunque era ragionevole aspettarsi che più il pezzo risulta longevo, più è probabile che provenga dalla prima linea.
3.27 a) Se Z e W sono i tempi d’esecuzione della prima e della seconda fase rispettivamente, il tempo di esecuzione totale è T = Z + W ; basta ora ricordare che la speranza matematica di una v.a. esponenziale di parametro λ vale λ1 , per cui E(T ) = E(Z) + E(W ) =
1 1 + · λ µ
b) Se λ = µ possiamo usare la proprietà di somma delle leggi gamma: T è dunque Ŵ(2, λ) e, per x > 0, ha densità f (x) = λ2 xe−λx . Se invece λ 6= µ calcoliamo la densità di T con la formula Z +∞ f (x) = f1 (t)f2 (x − t) dt −∞
dove f1 e f2 sono densità esponenziali di parametri λ e µ rispettivamente. Ricordando che le densità esponenziali sono uguali a 0 per valori negativi della variabile, si ha Z x Z x f (x) = λµ e−λt e−µ(x−t) dt = λµe−µx e−(λ−µ)t dt = 0
0
λµ −µx λµ = e (1 − e−(λ−µ)x ) = (e−µx − e−λx ) . λ−µ λ−µ
Esercizio 3.27
63
c) La probabilità che il programma non sia terminato ancora al tempo t + s sapendo che esso non era terminato al tempo s P(T > t + s |T > s) =
P(T > t + s) 1 − F (t + s) P(T > t + s, T > s) = = P(T > s) P(T > s) 1 − F (s)
dove F è la f.r. di T . Calcoliamola: Z t λ µ λµ (e−µx − e−λx ) dx = (1 − e−µt ) − (1 − e−λt ) = F (t) = λ − µ λ − µ λ − µ 0 λe−µt − µe−λt =1− λ−µ dunque P(T > t + s |T > s) =
λe−µ(t+s) − µe−λ(t+s) . λe−µs − µe−λs
Sostituendo i valori numerici si hanno i valori 0.42 per s = 1, 0.38 per s = 2. d) La probabilità che la prima fase non sia ancora terminata, sapendo che il programma stesso è ancora in corso al tempo s, è la probabilità condizionale P(Z > s | Z + W > s). Ora l’evento {Z > s} è contenuto nell’evento {Z + W > s}, perché W è comunque una quantità > 0. Dunque, se λ 6= µ, P(Z > s, Z + W > s) P(Z > s) = = P(Z + W > s) P(Z + W > s) e−λs 1 − FZ (s) = −µs (λ − µ) = 1 − F (s) λe − µe−λs
P(Z > s |Z + W > s) =
dove abbiamo utilizzato il fatto che Z è esponenziale di parametro λ (la f.r. F di T = Z + W è stata calcolata in c)). Dunque P(Z > s |Z + W > s) =
λ−µ · λe(λ−µ)s − µ
Possiamo ora analizzare il comportamento di questa probabilità condizionale per s grande. Abbiamo due casi: i) Se λ > µ (cioè se in media l’esecuzione della prima fase è più rapida della seconda) allora e(λ−µ)s → +∞ e dunque P(Z > s |Z + W > s) → 0 per s → +∞. ii) Se λ < µ allora e(λ−µ)s → 0 e quindi P(Z > s |Z +W > s) → 1− µλ . Con i dati numerici indicati la probabilità che la prima fase non sia ancora terminata tende a 23 per s → +∞. Se invece fosse λ = µ, lo svolgimento dell’esercizio è lo stesso, solo che ora la f.r. di Z è F (s) = 1 − e−λs (1 + λs) come afferma la formula (3.52) del libro. Dunque P(Z > s |Z + W > s) =
e−λs 1 1 − FZ (s) = −λs = 1 − F (s) e (1 + λs) 1 + λs
64
Parte 1: soluzioni
che è una quantità che tende a 0 per s → ∞. 3.28 La quantità P(X + Y ≤ t) che dà la f.r. di X + Y è pari all’area ombreggiata nella Figura 1.8. Dunque ( 2 t se 0 ≤ t ≤ 1 F (t) = 2 1 1 − 2 (2 − t)2 se 1 ≤ t ≤ 2 ..... ..... ..... ..... ..... ..... ..... ..... ..... . . . . . . . . . ............ . . . . . . . . . . . . ......... . . . . . . . . . . . . . . ......... . . . . . . . . . . . . . . . . ......... . . . . . . . . . . . . . . . . . . ......... . . . . . . . . . . . . . . . . . . . . .......... . . . . . . . . . . . . . . . . . . . . . . ......... . . . . . . . . . . . . . . . . . . . . . . . . ......... . . . . . . . . . . . . . ...... . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . ............. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ......... ... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ...• . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ......... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ....... ..... ................................. ..... ................................. ..... ..... . . . . . . . . . . . . . . . . . ..... ....
ւ
x+y =t
ւ
(1, t − 1)
Figura 1.8
e F (t) = 0 altrove. Derivando si ottiene la densità f (t) =
n
se 0 ≤ t ≤ 1 se 1 ≤ t ≤ 2
t 2−t
e f (t) = 0 per t al di fuori dell’intervallo [0, 2]; f ha il caratteristico grafico ‘‘a casetta’’ della Figura 1.9. 1
... ..... ..... ..... ......... ..... ..... .... ..... . . . . . ..... ..... ..... ..... ..... . . . ..... ... . . . ..... . ... . ..... . . . ..... .... . . . ..... ... . . ..... . . ... ..... . . . . ..... .... . . ..... . ... ..... . . . . ..... ... . . . ..... . .... ..... . . . ..... .... . . . ..... . .....
0
1
2
Figura 1.9
Naturalmente sarebbe stato possibile anche usare la Proposizione 3.23: la densità f di X + Y è data da Z (1.12) f (t) = g(t − s)g(s) ds dove g(t) =
n
1 0
se 0 ≤ t ≤ 1 altrimenti .
Esercizio 3.30
65
Però il calcolo esplicito dell’integrale della (1.12) è abbastanza antipatico: la determinazione, al variare di t, dei valori di s per i quali l’integrando vale 1 (esso può valere solo 0 oppure 1) è poco agevole.
3.29 a) X e Y hanno distribuzione congiunta uniforme sul quadrato [0, 1] × [0, 1]. La probabilità richiesta è P((X, Y ) ∈ A) dove A ⊂ R2 è la regione dei punti (x, y) tali che |x − y| > 21 . Cioè l’area della regione ombreggiata nella Figura 1.10, che vale 41 . ... ..... ..... ........................................ ........................ . . . . . . . . . .. ................................ .................. ................ . . . . . .. ................... ........... . .. ........ ..... .... . . . . ... . 1 . . . .. ..... 2 ....
.... .... ..... ..... ..... . . . ..... ....... ......... ........... .................. . . . ................ .................. .................... ...................... ................................. . . . . ........................... ..... ..... .....
տ
Figura 1.10
b) Calcoliamo la f.r. di Z. Se 0 ≤ t ≤ 1, allora P(Z > t) = P(|X − Y | > t) non è altro che la probabilità che il punto (X, Y ) si trovi in una regione simile a quella della Figura 1.10 (solo con il valore t al posto di 21 ). Dunque, sempre per 0 ≤ t ≤ 1, P(Z > t) = (1 − t)2 . La f.r. di Z è dunque FZ (t) =
1 − (1 − t)2 0
se 0 ≤ t ≤ 1 altrimenti
per cui la densità è fZ (t) = 2(1 − t) per 0 ≤ t ≤ 1, fZ (t) = 0 altrimenti. La distanza media tra X e Y è quindi Z 1 1 E(Z) = 2 t (1 − t) dt = · 3 0 3.30 Indichiamo con Y la v.a. che rappresenta il valore assunto da θ . La legge congiunta di X, Y è dunque data dalla densità mista g(θ, k) = λe−λθ e−θ
θk , k!
θ > 0, k = 0, 1, . . .
La legge di X è la seconda marginale, cioè pX (k) =
Z
+∞ −∞
Paolo Baldi Calcolo delle Probabilità McGraw-Hill 2011
g(θ, k) dθ =
λ k!
Z
0
+∞
e−λθ e−θ θ k dθ =
λ k!
Z
0
+∞
e−θ(λ+1) θ k dθ
66
Parte 1: soluzioni
dove k = 0, 1, . . . Dunque, a meno della costante, l’integrando è una densità Ŵ(k + 1, λ + 1). L’integrale vale dunque Ŵ(k + 1) k! = (λ + 1)k+1 (λ + 1)k+1
da cui
pX (k) =
λ , (λ + 1)k+1
k = 0, 1, . . .
λ Con un po’ d’immaginazione si riconosce una legge geometrica di parametro p = λ+1 . Ricor1−p 1 dando che la media di una v.a. geometrica di parametro p è p otteniamo E(X) = λ . b) La legge condizionale di Y dato X = k si ottiene facendo il quoziente tra la densità congiunta e la marginale di X: se θ > 0 k
λe−θ(λ+1) θk! g(θ, k) (λ + 1)k+1 k −θ(λ+1) p¯ Y |X (θ |k) = = = θ e . λ pX (k) k! k+1 (λ+1)
Cioè la legge condizionale di Y dato X = k è Ŵ(k + 1, λ + 1). Quindi la media condizionale k+1 vale λ+1 . 3.31 a) Naturalmente Y ha legge N(0, 1 + σ 2 ), per la regola sulla somma di v.a. normali indipendenti. La legge congiunta di X e Y si può calcolare osservando che (X, Y ) è una funzione lineare di (X, W ). Dunque anche (X, Y ) ha legge normale multivariata; per determinarla basta calcolarne media e matrice di covarianza. Entrambe le componenti hanno media nulla E(X) = 0,
E(Y ) = E(X + W ) = 0
mentre Var(X) = 1, Var(Y ) = 1 + σ 2 e Cov(X, Y ) = Cov(X, X + W ) = Cov(X, X) + Cov(X, W ) = 1 . | {z } | {z } =0
=Var(X)
Quindi (X, Y ) ha matrice di covarianza
C=
1 1
1 1 + σ2
La legge di Y risulta quindi individuata: è N(0, C). Volendo, ciò permette di calcolare la densità congiunta (cosa che però non è esplicitamente richiesta dall’enunciato). Indicando z = (x, y) essa è infatti 1 1 −1 e− 2 hC z,zi . f (z) = √ 2π det C Ora det C = σ 2 mentre
C
−1
1 = 2 σ
1 + σ2 −1
−1 1
Esercizio 3.32
67
e quindi h 1 i 1 exp − 2 ((1 + σ 2 )x 2 − 2xy + y 2 ) . 2π σ 2σ b) Sappiamo, vedi le (3.89) e (3.90), che la legge condizionale di X dato Y è normale di varianza Cov(X, Y )2 1 σ2 Var(X) − =1− = Var(Y ) 1 + σ2 1 + σ2 e media y Cov(X, Y ) (y − E[Y ]) = E(X) + Var(Y ) 1 + σ2 che è quindi la speranza condizionale richiesta. 11 e per c) Abbiamo visto nel punto precedente che la legge condizionale di X dato Y = y = 20 f (x, y) =
y σ2 1 1 1 = 21 e varianza 1+σ 2 = 11 , ovvero che è N( 2 , 11 ). Dunque 1+σ 2 11 probabilità che X si trovi in [ 41 , 43 ] sapendo che Y = 20 è pari alla probabilità che una v.a. 1 1 1 3 1 1 ∼ N( 2 , 11 ) si trovi in [ 4 , 4 ]. Ma se Z ∼ N( 2 , 11 ) allora Z è della forma Z = √1 W + 21 11
σ 2 = 0.1 è normale di media
la Z dove W ∼ N(0, 1) e quindi P 41 ≤ Z ≤ 43 = P
√ − 11 4
≤W ≤
√ 11 4
= P(−0.82 ≤ Z ≤ 0.82) = = 8(0.82) − 8(−0.82) = 0.58 .
3.32 a) Le v.a. X1 , X2 , X3 sono congiuntamente normali, dunque anche le v.a. U, V , W lo sono, come funzioni lineari di v.a. congiuntamente normali. In particolare ciascuna delle tre ha legge normale e per determinarla basta calcolarne media e varianza. Le tre v.a. hanno tutte media nulla, mentre Var(U ) = Var(2X1 − X2 − X3 ) = 4 Var(X1 ) + Var(−X2 ) + Var(−X3 ) = 6 Var(V ) = Var(X1 + X2 + X3 ) = Var(X1 ) + Var(X2 ) + Var(X3 ) = 3 Var(W ) = Var(X1 − 3X2 + 2X3 ) = Var(X1 ) + 9 Var(−X2 ) + 4 Var(−X3 ) = 14 . b) Poiché, come abbiamo osservato, U, V e W sono congiuntamente normali, le coppie sono indipendenti se e solo se sono non correlate. Ora sappiamo che Cov(X1 , X2 ) = Cov(X1 , X3 ) = Cov(X2 , X3 ) = 0, mentre Cov(Xi , Xi ) = Var(Xi ) = 1, i = 1, 2, 3. Dunque Cov(U, V ) = Cov(2X1 − X2 − X3 , X1 + X2 + X3 ) = = 2 Cov(X1 , X1 ) +2 Cov(X1 , X2 ) +2 Cov(X1 , X3 ) − Cov(X2 , X1 ) − | | | {z } {z } {z } | {z } =1
=0
=0
=0
− Cov(X2 , X2 ) − Cov(X2 , X3 ) − Cov(X3 , X1 ) − Cov(X3 , X2 ) − Cov(X3 , X3 ) = {z } | {z } | {z } | {z } | {z } | =1
=0
=0
=2−1−1=0
=0
=1
e quindi U e V sono indipendenti. Analogamente Cov(U, W ) = Cov(2X1 − X2 − X3 , X1 − 3X2 + 2X3 ) = 2 + 3 − 2 = 3 6= 0 Cov(V , W ) = Cov(X1 + X2 + X3 , X1 − 3X2 + 2X3 ) = 1 − 3 + 2 = 0
68
Parte 1: soluzioni
per cui V e W sono indipendenti, mentre U e W non lo sono. Alternativamente si sarebbe potuto ragionare nel modo seguente: (U, V , W ) si ottiene da (X1 , X2 , X3 ) mediante la trasformazione lineare associata alla matrice 2 −1 −1 1 1 1 1 −3 2
A= cioè
2 −1 −1 1 1 1 1 −3 2
!
X1 X2 X3
!
!
=
U V W
!
Dunque il vettore (U, V , W ) ha legge congiunta normale e tutte le sue componenti sono centrate. Poiché la matrice di covarianza di (X1 , X2 , X3 ) è la matrice identità, (U, V , W ) ha matrice di covarianza ! ! ! 6 0 3 2 1 1 2 −1 −1 ∗ C = AA = 1 −1 1 −3 = 0 3 0 1 1 3 0 14 −1 1 2 1 −3 2 da cui si può rispondere insieme alle questioni dei punti a) e b): U ∼ N(0, 6), V ∼ N(0, 3), W ∼ N(0, 14) (gli elementi sulla diagonale di C sono le varianze di U , V e W ); inoltre U, V e V , W sono coppie di v.a. indipendenti, mentre U e W non sono indipendenti (le covarianze delle variabili si trovano, nella matrice di covarianza, fuori della diagonale).
3.33 a) Poiché S = T +W , si tratta di calcolare la legge della somma di due v.a. esponenziali indipendenti di parametri rispettivamente λ e µ. Se indichiamo con fT , fW le densità di T e W rispettivamente, la densità fS di S si può calcolare come indicato dalla Proposizione 3.23, cioè fS (x) =
Z
+∞ −∞
fT (t)fW (x − t) dt .
Il calcolo di questo integrale è già stato effettuato nel punto b) dell’Esercizio 3.27 e dà come risultato λµ fS (s) = (e−λs − e−µs ) . µ−λ
Il calcolo della legge congiunta di S e T si può fare osservando che (T , S) = (T , T + W ). Poiché T e W sono indipendenti, la loro densità congiunta è −λz −µw se z ≥ 0, w ≥ 0 g(z, w) = λµe e 0 altrimenti . La v.a. (T , S) è quindi una trasformazione di (T , W ) tramite l’applicazione lineare associata alla matrice 1 0 A= 1 1
Esercizio 3.33
69
e per il teorema di cambio di variabile negli integrali multipli la densità f di (T , S) è data da f (t, s) = Ma det A = 1 e
1 g A−1 st . | det A|
A−1 =
1 −1
0 1
t e f (t, s) = g(t, s − t). Quindi intanto f (t, s) = 0 a meno che non sia per cui A−1 st = s−t 0 ≤ t ≤ s (se fosse t > s allora sarebbe s − t < 0 e dunque g(t, s − t) = 0). Sostituendo nell’espressione di g a z e w i valori t e s − t rispettivamente, otteniamo −λt −µ(s−t) se 0 ≤ t ≤ s f (s, t) = λµe e 0 altrimenti . b) La densità condizionale di T dato S = s è, per definizione, fT |S (t |s) =
f (t, s) · fS (s)
Sostituendo le espressioni per f e per fS calcolate in a) otteniamo per s > 0 fT |S (t |s) =
(
(µ − λ)e−µs (µ−λ)t e e−λs − e−µs 0
se 0 ≤ t ≤ s
altrimenti .
La speranza condizionale di T dato S = s è dunque uguale a −µs ¯ |S = s) = (µ − λ)e E(T e−λs − e−µs
Z
s
t e(µ−λ)t dt .
0
Integrando per parti e semplificando −µs s 1 (µ−λ)s (µ−λ)s ¯ |S = s) = (µ − λ)e E(T e + (1 − e ) = e−λs − e−µs µ − λ (µ − λ)2 1 s − · = −(µ−λ)s µ−λ 1−e Sostituendo i valori si ottiene
per s = 1.5 per s = 0.1
1.3889 0.0574
c) La retta di regressione di T rispetto a S è y = ax + b, dove i valori di a e b sono dati dalle (2.52) e (2.53). Dunque, poiché Cov(T , S) = Cov(T , T ) + Cov(T , S) = Cov(T , T ) = Var(T ) a=
Cov(T , S) Var(T ) = = Var(S) Var(S)
1 λ2 1 λ2
+
1 µ2
=
µ2 λ2 + µ2
70
Parte 1: soluzioni
mentre, con un po’ di semplificazioni, b = E(T ) − aE(S) =
µ2 1 1 λ−µ 1 − 2 + · = 2 2 λ λ +µ µ λ λ + µ2
Calcolando il valore di y in corrispondenza di s = 1.5 e di s = 0.1, si trova per s = 1.5 per s = 0.1
1.3960 (1.3889) 0.0099 (0.0574)
¯ |S = s) Si vede che per valori molto piccoli di s la retta di regressione e la funzione s → E(T sono abbastanza diverse.
3.34
a) Si vede subito che f è una densità: poiché si tratta di una funzione pari Z
+∞ −∞
1 f (x) dx = 2
Z
+∞
e
−|x|
−∞
dx =
Z
+∞ 0
e−x dx = 1 .
Si tratta del resto della densità di Laplace di parametro λ = 1, che s’incontra anche negli Esercizi 3.40, 3.46, 3.55, 3.56, 3.58 e 3.63. Il grafico di questa densità si può vedere nella Figura 1.11. λ .... 2 ..... ......
... ... ... ... ... ... ... .... .... .... ..... ..... .... ..... ...... ....... ........ .......... .............. ........................... ............................................................. .........................................................................................
... ... ... .. . . ... ... .... .... . . . .... .... .... ..... ..... . . . . . ...... ......... ........... .................. ................................. .......................................................................................................................................
−3
Figura 1.11
−2
−1
0
1
2
3
Calcoliamo la sua funzione caratteristica. Dato che x → sin θ x è una funzione dispari, mentre x → cos θ x è pari, φX (θ ) =
1 2
Z
+∞
−∞
e−|x| eiθx dx =
1 2
Z
+∞
−∞
e−|x| cos θ x dx =
Z
+∞
e−x cos θ x dx
0
e integrando due volte per parti Z
+∞
−x
−x
Z +∞ cos θ x −θ
+∞
cos θ x dx = −e e−x sin θ x dx = 0 0 0 Z +∞ Z +∞ +∞ −x 2 −x 2 1 + θ e sin θ x −θ e cos θ x dx = 1 + θ e−x cos θ x dx e
0
0
0
da cui si ricava
φX (θ ) =
1 · 1 + θ2
Esercizio 4.1
71
1 b1) θ → 1+θ 2 è una funzione integrabile su R; dunque, per il Teorema 3.82 d’inversione delle funzioni caratteristiche, Z +∞ Z +∞ −ixθ 1 e 1 1 f (x) = e−|x| = e−ixθ φX (θ ) dθ = dθ . 2 2π −∞ 2π −∞ 1 + θ 2
Scambiando x con θ si ricava 1 π
Z
eixθ dx = e−|θ| 1 + x2
dunque φY (θ ) = e−|θ| . b2) Calcoliamo la funzione caratteristica di Z = 21 (Y1 +Y2 ): per i punti 1) e 3) del paragrafo 3.13, φZ (θ ) = φY1 ( θ2 ) φY2 ( θ2 ) = e−|θ|/2 e−|θ|/2 = e−|θ| . Dunque 21 (Y1 + Y2 ) ha ancora legge di Cauchy. • Osserviamo che φY non è derivabile in 0; d’altra parte abbiamo visto nell’Esercizio 3.4 che Y non ha speranza matematica finita. Si tratta quindi di un esempio di v.a. che non ha speranza matematica finita e non ha funzione caratteristica derivabile.
4.1 Primo metodo. Calcoliamo media e varianza delle v.a. χ 2 (n) ha media n e varianza 2n (vedi la (3.49)), 1 Xn = · n = 1 n 1 2 Var n1 Xn = 2 · 2n = n n E
1
1 n Xn :
ricordando che una v.a.
n
→
n→∞
0.
Le v.a. n1 Xn , n = 1, 2, . . . hanno tutte la stessa media µ = 1 e varianza che tende a 0 per n → ∞. Per la disuguaglianza di Chebyshev dunque per ogni η > 0 1 Var n1 Xn → =0 P n Xn − 1 > η ≤ n→∞ η2
e ciò, per definizione, implica che ( n1 Xn )n converge in probabilità alla costante 1. La convergenza ha luogo anche in legge (la convergenza in probabilità implica sempre quella in legge, vedi l’Osservazione 4.10). Secondo metodo. Se (Zn )n è una successione di v.a. indipendenti tutte di legge Ŵ( 21 , 21 ), allora, per ogni n, Z1 + . . . + Zn ha legge χ 2 (n), cioè la stessa di Xn ; dunque le due v.a. (1.13)
1 n
Xn
e
1 n
(Z1 + . . . + Zn )
hanno la stessa legge. Ma di queste la seconda converge in probabilità alla media E(Z1 ) = 1 per la Legge dei Grandi Numeri. Dunque, per ogni η > 0, → 0 P n1 Xn − 1 > η = P n1 (Z1 + . . . + Zn ) − 1 > η n→∞
72
Parte 1: soluzioni
che, ancora, permette di affermare la convergenza in legge della successione ( n1 Xn )n alla costante 1. • Il primo dei due metodi che abbiamo visto fornisce un criterio semplice per provare la convergenza in probabilità verso una costante µ di una successione di v.a.: si calcola, per ciascun termine media e varianza (cosa che è spesso facile); se la media è costante = µ e la varianza tende a zero allora la disuguaglianza di Chebyshev permette di concludere che la successione converge in probabilità alla costante µ.
4.2 a) Per la disuguaglianza di Chebyshev e ricordando che la varianza di una v.a. di Poisson di parametro λ vale appunto λ, P(|X¯ n − λ| ≥ η) ≤
λ Var(X¯ n ) = 2· 2 η nη
b) Basta usare l’approssimazione normale nella forma (4.8): −√nη ¯ . P(|Xn − λ| ≥ η) ≈ 28 √ λ c) La disuguaglianza di Chebyshev afferma che la probabilità in (4.17) è maggiorata da λ =1 nη2 che non è una stima particolarmente utile (che una probabilità sia più piccola di 1 lo sapevamo già da prima. . . ). Con l’approssimazione normale invece −√nη ¯ P(|Xn − λ| ≥ η) ≈ 28 √ = 28(−1) = 0.3173 . λ Il risultato esatto (ottenuto, ad esempio, con uno dei software menzionati a pag. 45) è 0.3173; dunque in questo caso l’approssimazione normale dà un valore preciso fino alle prime 4 cifre decimali. • Non è male però ricordare che la Disuguaglianza di Chebyshev ha applicazioni comunque importanti (la Legge dei Grandi Numeri ne è un esempio) ed è vera per ogni valore di n, mentre l’approssimazione normale è, appunto, un’approssimazione e vale solo se n è abbastanza grande.
4.3 a) Poiché X1 è una v.a. Ŵ(1, λ) (cioè esponenziale di parametro λ), se indichiamo con F1 la sua f.r., 1 P X1 > λ1 = 1 − F1 ( λ1 ) = e−λ· λ = e−1 = 0.37 . Per X3 sappiamo che la f.r. di una v.a. Ŵ(3, λ) è data da
(λt)2 F3 (t) = 1 − e−λt 1 + λt + 2
Esercizio 4.5
e quindi
73
P(X3 > λ3 ) = e−3 1 + 3 + 29 = 0.42 .
b) Usiamo il Teorema Limite Centrale: siano Z1 , Z2 , . . . delle v.a. indipendenti e tutte di legge Ŵ(1, λ). Allora Z1 + . . . + Zn ∼ Ŵ(n, λ) . Osservando che P
1 n Xn
>
n λ 1 λ
è proprio il valore della media di Xn e che Var(Xn ) =
n , λ2
= P Xn > λn = P Xn − λn > 0 = P Z1 + . . . + Zn − Z + . . . + Z − n 1 1 n λ =P >0 → 1 − 8(0) = · p n→∞ 2 2 n/λ
n λ
>0 =
4.4 Se indichiamo con Xi la v.a. che rappresenta il risultato dello i-esimo lancio, cioè la v.a. che vale 1 se allo i-esimo lancio Marco vince e 0 altrimenti, allora il numero di volte che Marco vince in 100 prove si modellizza con la v.a. X = X1 + . . . + X100 . Se la moneta è equilibrata le v.a. Xi hanno ciascuna legge di Bernoulli B(1, 21 ) e dunque media 21 e varianza 41 . Usando l’approssimazione normale (4.7), la probabilità che Marco vinca meno (≤) di 36 volte è P(X1 + . . . + X100 ≤ 36) ≈ 8
36.5 − 50 5
= 8(−2.7) = 0.0035 = 0.35% .
Una probabilità un po’ troppo piccola perché si possa pensare a semplice sfortuna. . . • In questo esercizio essenzialmente l’approssimazione normale si usa per stimare la f.r. di una legge binomiale B(n, p) con n grande. La stessa idea può servire per avere dei valori approssimati di altre leggi di probabilità per le quali non ci sono formule semplici della f.r. (Poisson, Gamma,. . . ). 4.5 Indichiamo con X una v.a. N(0, 1) (e quindi tale che σ X ∼ N(0, σ 2 )). Per il Teorema Limite Centrale si ha (X + . . . + X )2 1 n ≤t = n √ √t √ √ X1 + . . . + Xn t ≤ → 8 σt − 8 − σt ≤ =P − √ n→∞ σ σ σ n P(Zn ≤ t) = P
Dunque le f.r. delle v.a. Zn convergono. Occorre ora verificare che il limite sia la f.r. di una v.a. e individuarla. Ma √ √t √ √ √ √ t ≤X≤ = P(− t ≤ σ X ≤ t ) = P((σ X)2 ≤ t) . 8 σt − 8 − σt = P − σ σ Dunque Zn converge in legge verso la v.a. (σ X)2 , che è una v.a. Ŵ( 21 , 2σ1 2 ) (Esempio 3.42).
74
4.6
Parte 1: soluzioni
a) Si ha
Z 2a 1 E(Xi ) = x dx = a 2a 0 Z 2a 4 1 x 2 dx = a 2 E(Xi2 ) = 2a 0 3 a2 Var(Xi ) = E(X 2 ) − E(X)2 = · 3 b) Per il Teorema Limite Centrale √ P(X1 + . . . + Xn > na + x n) = q q X + . . . + X − na n > x a32 → 1 − 8 x a32 P 1 q a2 n 3
n→∞
dove 8 indica al solito la f.r. di una legge N(0, 1). Con i valori numerici assegnati e le tavole si ottiene √ x=a 1 − 8( 3 ) = 1 − 8(1.732) = 0.041 √ x = − 21 a 1 − 8(− 21 3 ) = 1 − 8(−0.866) = 0.807 . 4.7 Se indichiamo con Xi l’errore commesso nella i-esima addizione, allora l’errore complessivo è X = X1 + . . . + X106 . Osserviamo che le v.a. Xi hanno densità (discreta) 10 se −0.5 · 10−10 ≤ t ≤ 0.5 · 10−10 f (t) = 10 0 altrimenti . Esse hanno dunque media nulla (per simmetria, chi non ci crede può calcolare l’integrale. . . ). Inoltre Z 0.5·10−10 1 Var(Xi ) = E(Xi2 ) = 1010 t 2 dt = 10−20 := σ 2 . 12 −0.5·10−10
Dunque con l’approssimazione normale e scrivendo n = 106 ,
P(−0.5 · 10−7 ≤ X ≤ 0.5 · 10−7 ) = P(X ≤ 0.5 · 10−7 ) − P(X ≤ −0.5 · 10−7 ) = = P(X1 + . . . + Xn ≤ 0.5 · 10−7 ) − P(X1 + . . . + Xn ≤ −0.5 · 10−7 ) ≈ ≈8
0.5 · 10−7 0.5 · 10−7 −8 √ √ nσ nσ
Ora 0.5 · 10−7 √ √ = 8 0.5 · 10−7 · 10−3 · 1010 12 = 8( 3 ) = 8(1.732) = 0.958 . √ nσ 0.5 · 10−7 √ √ = 8 0.5 · 10−7 · 10−3 · 1010 12 = 8( 3 ) = 8(−1.732) = 0.041 . 8 − √ nσ
8
Esercizio 4.9
75
e dunque la probabilità che la settima cifra sia significativa è 0.958 − 0.041 = 0.917. Ripetendo i calcoli per 0.5 · 10−8 si ha facilmente P(−0.5 · 10−8 < X ≤ 0.5 · 10−8 ) ≈ 8(0.173) − 8(−0.173) = 0.568 − 0.431 = 0.137 . La probabilità che la settima cifra decimale sia corretta è molto elevata, mentre per l’ottava non si può dire lo stesso.
4.8
a) Poniamo Xi =
n
1 0
se lo i-esimo lancio ha dato 6 altrimenti .
Allora il numero totale di 6 in 900 lanci è X = X1 + . . . + X900 , dove le v.a. Xi sono 5 indipendenti e di Bernoulli B(1, p), p = 61 . Poiché E(Xi ) = 61 e Var(Xi ) = 16 65 = 36 , usando l’approssimazione normale P(X ≥ 180) = P(X1 + . . . + X900 > 179.5) ≈ 1 − 8
179.5 − 900 · q 5 900 · 36
1 6
=
= 1 − 8(2.63) = 0.0044 = 0.44% .
b) Se un dado è truccato allora il numero totale X di 6 ottenuti in 900 lanci si può ancora scrivere X = X1 + . . . + X900 , dove però ora le v.a. X1 , . . . , X900 sono di Bernoulli B(1, 29 ). Dunque, ancora con l’approssimazione normale P(X ≥ 180) = P(X1 + . . . + X900
179.5 − 900 · 29 > 179.5) ≈ 1 − 8 q 900 · 29 · 79
=
= 1 − 8(−1.64) = 0.95 .
Dunque un dado truccato viene individuato con una probabilità del 95%.
4.9 a) Se X è il numero di bit distorti, è chiaro che X segue una legge B(1000, 0.01) (numero di successi in 1000 prove indipendenti con probabilità di ‘‘successo’’ p = 0.01 in ogni singola prova). Dunque E(X) = 1000 · 0.01 = 10. La probabilità che vi siano bit distorti è P(X ≥ 1) = 1 − P(X = 0) = 1 − (1 − 0.01)1000 ≃ 1 (0.991000 = 4.3 · 10−5 ), mentre la probabilità che vi siano almeno 10 bit distorti è (1.14)
9 X 1000 P(X ≥ 10) = 1 − P(X ≤ 9) = 1 − 0.01i 0.991000−i . i i=0
76
Parte 1: soluzioni
Per calcolarla conviene usare l’approssimazione normale: P(X ≥ 10) = P(X > 9.5) = 1 − P(X ≤ 9.5) = 9.5 − 1000 · 0.01 ≈1−8 √ = 1 − 8(−0.159) = 0.563 . √ 0.01 · 0.99 1000 A titolo di paragone la somma in (1.14), che viene ottenuta facilmente con un software adatto, vale 0.543. In questo caso l’approssimazione normale è discreta, ma non particolarmente precisa. b) Un singolo bit risulta distorto se almeno due delle tre ritrasmissioni vengono distorte. Ognuna di queste lo è con probabilità 0.01 e dunque il numero di ritrasmissioni distorte, per un singolo bit, segue una distribuzione B(3, 0.01). La probabilità che almeno due ritrasmissioni siano distorte per un singolo bit è 3 3 2 0.013 = 0.012 (3 · 0.99 + 0.01) = 2.98 · 10−4 . 0.01 0.99 + q := 3 2 La probabilità che vi siano bit distorti ora è 1 − (1 − q)1000 = 0.258 . • La probabilità che vi siano più di 10 bit distorti, che abbiamo ottenuto in a), si potrebbe calcolare anche approssimando la legge B(1000, 0.01) con una legge di Poisson di parametro λ = 10 (ricordiamo che una densità B(n, p) per n grande e p piccolo si può approssimare con una densità di Poisson di parametro np, vedi l’Osservazione 4.9). Un calcolo numerico avrebbe dato (1.15)
P(X ≥ 10) = 1 − e−10
9 X λ10 i=0
i!
= 0.543
e 0.543 è lo stesso valore che avremmo ottenuto se avessimo effettuato la somma in (1.14). In questo caso dunque l’approssimazione con le leggi di Poisson dà risultati migliori che l’approssimazione normale. Quest’ultima rimane comunque più pratica perché il calcolo della f.r. in (1.15) richiede comunque un certo lavoro numerico (inoltre, di solito, per le leggi di Poisson non ci sono tavole, anche se i pacchetti software statistici sono in grado di fornire le f.r. anche delle leggi di Poisson). • Si potrebbe pensare di usare l’approssimazione normale per stimare, nella situazione del punto b), quale sia la probabilità che vi siano più (≥) di k bit distorti, per qualche valore di k fissato. In realtà in questo caso l’approssimazione normale non funziona bene. Ad esempio per k = 2 la probabilità di avere più (>) di un bit distorto è 1 − (1 − q)1000 − 1000 · q(1 − q)999 = 0.0365 mentre l’approssimazione normale dà 1.5 − 1000 · q 1−8 √ = 1 − 8(2.2) = 0.0138 √ q(1 − q) 1000 che è un’approssimazione abbastanza scadente dal vero valore 0.0365. In effetti una regola accettata in pratica per potere utilizzare l’approssimazione normale con leggi binomiali B(n, p) è
Esercizio 4.12
77
che i numeri np e n(1−p) siano entrambi più grandi di 5, mentre in questo caso (p = 2.98·10−4 ) np = 0.298. 4.10 a) Fissiamo l’attenzione su un singolo pixel e indichiamo con Ai , i = 1, . . . , 8, l’evento ‘‘lo i-esimo bit è non distorto’’ e con A l’evento ‘‘nessuno degli 8 bit è distorto’’. Per le ipotesi del problema, gli eventi A1 , . . . , A8 sono indipendenti e A = A1 ∩ . . . ∩ A8 . Dunque P(A) = P(A1 ) . . . P(A8 ) = (1 − p)8 = 0.9984. b) Se poniamo n 1 se lo i-esimo pixel è distorto Xi = 0 altrimenti per i = 1, . . . , 131 072, allora il numero di pixel distorti nell’immagine è X = X1 + . . . + X131 072 . Inoltre le v.a. Xi sono di Bernoulli (possono prendere solo i valori 0 oppure 1) B(1, 0.0016) (0.0016 = 1 − 0.9984 è la probabilità che un singolo pixel venga distorto nella trasmissione). Dunque E(X) = 131 072 · 0.0016 = 209.7 . Per calcolare la probabilità che vi siano più di 200 pixel distorti si può usare l’approssimazione normale. In effetti la v.a. X è la somma di n = 131 072 v.a. di Bernoulli di parametro q = 0.0016. Sappiamo che in questo caso una regola euristica per la validità dell’approssimazione normale è che i due numeri nq e n(1−q) siano entrambi ≥ 5. Abbiamo già visto che nq = 209.7, mentre n(1 − q) è certo un numero molto grande. L’approssimazione normale dà quindi P(X ≥ 200) = 1 − P(X < 200) = 1 − P(X ≤ 199.5) = 199.5 − nq =1−8 √ = 1 − 8(−0.706) = 0.773 . nq(1 − q) α e varianza (α+β)2αβ 4.11 a) Una v.a. Beta(α, β) ha media α+β (vedi il paragrafo 3.9). (α+β+1) Dunque αβ α , Var(Xn ) = · E(Xn ) = 2 α+β (α + β) (nα + nβ + 1)
α Dunque le v.a. Xn hanno tutte la stessa media α+β , mentre la loro varianza tende a 0 per n → ∞. Come abbiamo visto nell’osservazione successiva all’Esercizio 4.1, ciò implica, per la disuguaglianza di Chebyshev,
P(|Xn −
α α+β |
≥ η) ≤
e dunque Xn
P
→
n→∞
Var(Xn ) → 0 n→∞ η2
α · α+β
4.12 Ricordiamo che vi sono vari modi per studiare il limite in legge: calcolando il limite delle funzioni di ripartizione oppure delle funzioni caratteristiche, soprattutto.
78
Parte 1: soluzioni
........... ... .. ... .... .. .. .. ... .. .. .. ....... ..... ... .. ... ....... ..... .. .. ..... ..... . . .. . . ...... ..... .... . . ... .. ........ .............................................................. . . . . . . . . . .............. . ..... . ....... . . . . . . . . . . . . . . . ............. . . . ...... ............................. ....... ... .. ....... ... ..... ................. . . ...... . . . . . . . . .... . . . . . ... ....... ........................ . ..... .. . ... .... ..... .... . . . . . . . ... .. . . . . . . ...... ....... ....... ....................................... . . . . . ... ..... . . . . . . ..... .. . . . ..... . . . . .. . . . . .. .. . . . .................................... ....... ....... ............................................................. ....... ....... .... .............
5 4 3 2 1
2 5
0
1
Figura 1.12 Andamento della densità Beta(nα, nβ) per α = 2, β = 3 e n = 1 (tratto pieno), n = 3 (trattini) e n = 8 (puntini). La densità tende a concentrarsi intorno alla media.
Primo modo: funzioni di ripartizione. Se indichiamo con Fn la f.r. di Yn = n1 Xn , allora Fn (t) = 0 per t < 0, mentre per t ≥ 0, calcolando la somma geometrica come indicato a pag. 39 del libro,
Fn (t) = P(Xn ≤ nt) = P(Xn ≤ ⌊nt⌋) =
⌊nt⌋ X λ k=0
n
1−
λ k n
λ ⌊nt⌋+1 =1− 1− n
e dunque per ogni t ≥ 0
⌊nt⌋+1 λ 1 − 1 − n λ = = n 1− 1− λ n
lim Fn (t) = 1 − e−λt .
n→∞
Riconosciamo ora nel termine a destra la f.r. di una legge esponenziale di parametro λ. Dunque Yn converge in legge ad una v.a. che ha questa distribuzione. Secondo modo: funzioni caratteristiche. Ricordando l’espressione della funzione caratteristica di una v.a. geometrica (Esempi 3.77 b) a pag.155), si ha φXn (θ ) =
λ n λ iθ n )e
1 − (1 −
=
λ n(1 − eiθ ) + λeiθ
e dunque φYn (θ ) = φXn Osservando che
θ n
lim n(1 − eiθ/n ) = θ lim
n→∞
=
n→∞
λ n(1 − eiθ/n ) + λeiθ/n
1 − eiθ/n θ n
= −θ
·
d iθ e |θ=0 = −iθ dθ
Esercizio 4.14
79
si ha
λ n→∞ λ − iθ che è appunto la funzione caratteristica di una legge esponenziale di parametro λ. Come si vede, in questo caso tutti e due i metodi si possono applicare in maniera semplice. lim φYn (θ ) =
4.13 Poniamo Sn = X1 + . . . + Xn . Per la Legge dei Grandi Numeri la v.a. probabilità a E(X1 ) = λ. Possiamo scrivere P(X1 + . . . + Xn ≤ n) = P n1 Sn ≤ 1 = Fn (1) dove Fn indica la f.r. di
Sn n .
Sn n
converge in
La v.a. costante uguale a λ ha f.r. data da F (t) =
n
0 1
se t < λ se t ≥ λ .
Ora, se λ 6= 1, 1 è un punto di continuità per F e poiché la convergenza in probabilità implica quella in legge (Osservazione 4.10) n 0 se λ > 1 lim P(X1 + . . . + Xn ≤ n) = lim Fn (1) = F (1) = n→∞ n→∞ 1 se λ < 1 .
Se invece λ = 1 il valore 1 non è un punto di continuità per F e questo ragionamento non basta, perché la definizione di convergenza in legge e la Legge dei Grandi Numeri non permettono di stabilire quanto valga il limite. Si ha però per il Teorema Limite Centrale P(X1 + . . . + Xn ≤ n) = P(X1 + . . . + Xn − n ≤ 0) = X + . . . + X − n 1 n =P 1 ≤0 → 8(0) = · √ n→∞ 2 n
(ricordiamo che stiamo supponendo λ = 1, per cui le v.a. uguali a 1). In conclusione ( 0 lim P(X1 + . . . + Xn ≤ n) = 21 n→∞ 1 4.14
Xi hanno tutte media e varianza se λ > 1 se λ = 1 se λ < 1 .
a) Calcoliamo la densità f di X1 : è chiaro che la f.r. F è −λ se x ≥ 1 F (x) = 1 − P(X1 > x) = 1 − x 0 se x < 1 .
Dunque la densità di X1 è f (x) = F ′ (x) = λx −(λ+1) per x ≥ 1, mentre f (x) = 0 per x < 1. Quindi Z +∞ Z +∞ E(X1 ) = tf (t) dt = λ t −λ dt . −∞
1
80
Parte 1: soluzioni
Si vede dunque che X1 ha speranza matematica finita se e solo se λ > 1 e in questo caso E(X1 ) = Inoltre E(X12 ) = λ
Z
λ · λ−1 +∞
t −λ+1 dt
1
per cui la varianza è finita solo se λ > 2. In questo caso si ha E(X12 ) =
λ , λ−2
Var(X1 ) = E(X12 ) − E(X1 )2 =
λ 2 λ λ − = · λ−2 λ−1 (λ − 2)(λ − 1)2
b) Usiamo il metodo della funzione di ripartizione. Poiché P(Yi ≤ 0) = P(Xi ≤ 1) = 0, la densità di Yi è nulla per t ≤ 0. Per t > 0 invece la f.r. G di Yi è data da G(t) = P(Yi ≤ t) = P(log Xi ≤ t) = P(Xi ≤ et ) = 1 − e−λt . La densità di Yi si può calcolare come al solito per derivazione. Qui però basta riconoscere che G è la f.r. di una legge esponenziale di parametro λ. c) Osserviamo che n n 1X 1X log(Xi ) = Yi . log (X1 X2 . . . Xn )1/n = n n i=1
i=1
Dunque per la Legge dei Grandi Numeri log (X1 X2 . . . Xn )1/n e quindi (Osservazione 4.2)
(X1 X2 . . . Xn )1/n
P
→
n→∞
P
→
n→∞
E(Y1 ) =
1 λ
e1/λ .
4.15 La v.a. X1 X2 è il prodotto di due v.a. indipendenti, aventi entrambe speranza matematica finita. Sappiamo quindi (Proposizioni 3.38 oppure 2.41) che anch’essa ha speranza matematica finita e anzi che E(X1 X2 ) = E(X1 )E(X2 ) = 0 . Anche la v.a. X12 X22 è il prodotto delle due v.a. X12 e X22 che sono indipendenti ed hanno speranza matematica finita (perché per ipotesi X1 e X2 hanno varianza finita). Dunque Var(X1 X2 ) = E(X12 X22 ) = E(X12 )E(X22 ) < +∞ .
Esercizio 4.16
81
b) Le v.a. X1 X2 , . . . , X2n−1 X2n sono indipendenti, centrate ed hanno varianza finita. Inoltre hanno tutte la stessa legge. Dunque per la Legge dei Grandi Numeri Vn =
1 (X X + X3 X4 + . . . + X2n−1 X2n ) n 1 2
P
→
n→∞
E(X1 X2 ) = 0 .
√ c) La normalizzazione con n invece che n deve far pensare al Teorema Limite Centrale: applicandolo alle v.a. X1 X2 , . . . , X2n−1 X2n , che sono indipendenti, equidistribuite e centrate si ha X1 X2 + . . . + X2n−1 X2n + → N(0, 1) √ n→∞ σ n +
dove σ 2 = Var(X1 X2 ). Dunque Vn → N(0, σ 2 ). d) Le v.a. X14 , X24 , . . . hanno tutte varianza finita (perché E(Xi8 ) < +∞ per ipotesi) e sono indipendenti. Per la Legge dei Grandi Numeri dunque Wn =
1 4 (X + . . . + Xn4 ) n 1
P
→
n→∞
E(X14 ) .
Inoltre si può scrivere Un =
X12 + . . . + Xn2 X14 + . . . + Xn4
=
1 2 n (X1 1 4 n (X1
+ . . . + Xn2 )
+ . . . + Xn4 )
e dunque per la Legge dei Grandi Numeri applicata al numeratore e al denominatore Un
P
E(X12 )
n→∞
E(X14 )
→
,
(vedi l’Osservazione 4.2).
4.16 Le v.a. Zn che intervengono in questo esercizio sono definite come il minimo delle v.a. X1 , . . . , Xn . Siamo dunque in una situazione in cui è facile calcolare le f.r., mentre lo stesso non si può dire per le funzioni caratteristiche. Nel calcolo dei limiti in legge proposti useremo quindi piuttosto il metodo basato sulle f.r. a) Si ha, per 0 ≤ t ≤ 1, P(Zn > t) = P(X1 > t, . . . , Xn > t) = (1 − t)n e dunque la f.r. Fn di Zn vale Fn (t) = 1 − P(Zn > t) =
(0
1 − (1 − t)n 1
per t < 0 per 0 ≤ t ≤ 1 per t > 1 .
82
Parte 1: soluzioni
È chiaro quindi che lim Fn (t) =
n→∞
per t ≤ 0 per t > 0 .
0 1
Ora la f.r. di una v.a. che assume il solo valore 0 con probabilità 1 è 0 per t < 0 F (t) = 1 per t ≥ 0 . Poiché Fn (t) → F (t) per n → ∞ per ogni t, tranne che per t = 0, che non è punto di continuità per F , possiamo concludere che Zn converge in legge ad una v.a. che ha questa distribuzione. La convergenza ha luogo anche in probabilità, dato che, se η > 0, P(|Xn | ≤ η) = P(−η ≤ Xn ≤ η) = Fn (η) − Fn (−η)
→
n→∞
1
e dunque P(|Xn | > η) = 1 − P(|Xn | ≤ η)
→
n→∞
0
b) Se Gn è la f.r. di nZn , allora, se 0 ≤ t ≤ n, Gn (t) = P(nZn ≤ t) = P Zn ≤
t n
= Fn
Basta ora applicare un limite ben noto per avere 0 lim Gn (t) = G(t) = 1 − e−t n→∞
t n
=1− 1−
t n n
.
per t ≤ 0 per t > 0 .
Dunque la successione (nZn )n converge ad una legge esponenziale di parametro λ = 1. Per n grande dunque P min(X1 , . . . , Xn ) ≤ n2 ≈ 1 − e−2 = 0.86 . 4.17 a) Le v.a. X1 , X2 , . . . assumono tutte due valori, il che rende semplice lo studio della convergenza in legge sia con le funzioni di ripartizione che con le funzioni caratteristiche. Usando quest’ultimo metodo vediamo che φXn (θ ) = (1 − αn )eiθ·0 + αn eiθn = 1 − αn + αn eiθn e quindi, se αn → 0 per n → ∞, φXn (θ )
→
n→∞
1,
per ogni θ
che è la funzione caratteristica di una v.a. X che assume il valore 0 con probabilità 1. b) Le v.a. del punto a) hanno media e varianza date da E(Xn ) = (1 − αn ) · 0 + αn · n = nαn
E(Xn2 ) = (1 − αn ) · 02 + αn · n2 = n2 αn
Var(Xn ) = E(Xn2 ) − E(Xn )2 = n2 αn (1 − αn )
Esercizio 4.19
83
Dunque se, ad esempio, αn = n1 allora Var(Xn ) → +∞, mentre la varianza del limite in legge X è uguale a zero. Ed inoltre E(Xn ) ≡ 1, mentre E(X) = 0. 4.18
a) Poniamo n
1 se lo i-esimo bit vale 1 0 altrimenti . Il numero totale di bit che assumono il valore 1 nel segnale è Sn = X1 + . . . + Xn , mentre la proporzione di bit che valgono 1 è p¯ n = n1 Sn . Per il Teorema Limite Centrale la v.a. Xi =
S − 0.2 · n √n n(0.2 · 0.8) segue una legge che, per n abbastanza grande, è approssimativamente N(0, 1). Dunque, con l’approssimazione normale, √ S − 0.2 · n (0.23 − 0.2) · n > P(p¯ n > 0.23) = P(Sn > 0.23 · n) = P √n ≈ √ n(0.2 · 0.8) 0.2 · 0.8 0.03 · √n ≈1−8 √ 0.16 sostituendo il valore numerico n = 1000 si ottiene 1 − 8(2.37) = 0.009. b) Poniamo per comodità √ ripetendo il ragionamento del punto a) e usando √ p = 0.2. Allora la (4.8) si ha, poiché σ = p(1 − p) = 0.16 = 0.4,
P(|p¯ n − p| > ε) ≈ 2 1 − 8
√n 40
−√n = 28 40
Perché questa quantità sia più piccola di η = 4 · 10−3 occorre (dopo uno sguardo alle tavole) che sia √ − n ≤ −2.88 40 ovvero n > (40 · 2.88)2 = 13271. 4.19 a) log Si assume i valori log(1 + √σn ) e − log(1 + √σn ), entrambi con probabilità 21 . La funzione caratteristica di Si è dunque φ(θ ) =
σ 1 iθ log(1+ √σn ) −iθ log(1+ √σ ) n +e = cos θ log 1 + √ e 2 n
La v.a. log Xn è uguale a log(x̺t ) + log S1 + . . . + log Sn . La sua funzione caratteristica vale dunque σ n t φn (θ ) = eiθ log(x̺ ) cos θ log 1 + √ n
84
Parte 1: soluzioni
b) Nel calcolo del limite per n → ∞ di φn (θ ) siamo quindi ricondotti ad una forma 1∞ . Ricordando gli sviluppi di Taylor per x e z vicini a 0 x2 + o(x 2 ) 2 log(1 + z) = z + o(z)
cos x = 1 − si ottiene facilmente, per n → ∞,
e dunque
Dunque
σ 1 θ 2σ 2 +o cos θ log 1 + √ =1− 2 n n σ n 1 θ 2σ 2 cos θ log 1 + √ +o = 1− 2 n n φn (θ )
→
n→∞
t
eiθ log(x̺ ) e−θ
θ2 n
n
θ2 n
→
n→∞
= e−θ
2 σ 2 /2
2 σ 2 /2
Se ne deduce che log(Xn ) converge in legge ad una v.a. normale di media log(x̺t ) e varianza σ 2. + c) Sia Z una v.a. normale N(log(x̺t ), σ 2 ). Abbiamo appena visto che log Xn → Z, dunque, poiché la f.r. di Z è continua, P(log Xn ≤ x)
→
P(Z ≤ x)
→
P(Z ≤ log x) = P(eZ ≤ x)
n→∞
per ogni x ∈ R. Da ciò si ricava P(Xn ≤ x) = P(log Xn ≤ log x)
n→∞
Dunque Xn converge in legge ad una v.a. lognormale di parametri log(x̺t ) e σ 2 . 2 La media di questa legge è x̺t eσ /2 . Hanno quindi un rendimento medio maggiore gli effetti finanziari per cui σ 2 è grande. Uno sguardo all’andamento delle densità lognormali, come nella Figura 1.4, fa però pensare che il valore medio non sia forse qui il criterio giusto di valutazione.
4.20 a) Per provare una convergenza in legge abbiamo a disposizione due metodi: quello della funzione di ripartizione e quello delle funzioni caratteristiche. In questo caso, dato che le funzioni caratteristiche delle leggi normali sono ben note, è quest’ultimo probabilmente il metodo più semplice. Infatti 2 2 /2
φXn (θ ) = eibn θ e−σn θ
→
n→∞
e|ibθ e−σ {z
2 θ 2 /2
f.c. di una v.a.
}
N(b,σ 2 )
.
Esercizio 4.20
85
Anche il metodo delle funzioni di ripartizione comunque non crea problemi: basta ricordare che se 8b,σ 2 e 8 indicano le f.r. di v.a. N(b, σ 2 ) e N(0, 1) rispettivamente, allora si ha 8b,σ 2 (t) = 8 e dunque, poiché 8 è continua, 8bn ,σn2 (t) = 8
t − b n σn
t − b σ
→
n→∞
8
t − b = 8b,σ 2 (t) . σ
b1) Cominciamo con l’osservare che X1 ha legge normale (è una funzione lineare-affine della v.a. normale Z1 ) di media αx e varianza σ 2 . Anche X2 = αX1 + Z2 è normale, essendo la somma delle due v.a. αX1 e Z2 , che sono normali e indipendenti. Poiché media e varianza sono date da E(X2 ) = E(αX1 ) + E(Z2 ) = α 2 x | {z } =0
Var(X2 ) = Var(αX1 ) + Var(Z2 ) = α 2 σ 2 + σ 2 . se ne deduce che X2 ∼ N(α 2 x, σ 2 (1 + α 2 )). b2) Lo stesso ragionamento, per ricorrenza, prova che Xn ∼ N(α n x, σ 2 (1+α 2 +. . .+α 2n )): supponiamo che ciò sia vero per un valore n e dimostriamolo per n + 1. Poiché Xn+1 = αXn + Zn+1 e le due v.a. Xn e Zn+1 sono indipendenti e entrambe di legge normale, anche Xn+1 ha legge normale. Restano da controllare i valori della media e della varianza di Xn+1 : E(Xn+1 ) = E(αXn ) + E(Zn ) = α · α n x = α n+1 x | {z } =0
Var(Xn+1 ) = Var(αXn ) + Var(Zn ) = α 2 · σ 2 (1 + α 2 + . . . + α 2n ) + σ 2 = = σ 2 (1 + α 2 + . . . + α 2(n+1) ) .
Poiché |α| < 1 abbiamo (vedi il riquadro a pag. 39) αnx
→
n→∞
0
σ 2 (1 + α 2 + . . . + α 2n )
→
n→∞
σ2 · 1 − α2 2
σ e per il punto a) (Xn )n converge in legge ad una v.a. N(0, 1−α 2 ).
b3) Con i valori numerici assegnati Xn converge ad una v.a. N(0, 43 ). Dunque per n grande q Xn ha approssimativamente la stessa legge di 43 Z, dove Z ∼ N(0, 1) e quindi q q q P(|Xn | ≤ 1) = P |Z| ≤ 43 ≈ 8 43 − 8 − 43 = = 8(0.866) − 8(−0.866) = 0.807 − 0.193 = 0.614 .
86
Parte 1: soluzioni
5.1 a) Le probabilità di transizione in due passi si possono calcolare facendo il prodotto di matrici P 2 = P · P , che dà
(2) P 2 = (pij )ij =
7 16 5 16 3 8 13 36
9 16 7 16 5 8 19 36
0 1 4
0 0
0
0 . 0 1 9
(2)
Dunque si è in 2 dopo due passi con probabilità p22 = 41 partendo da 2 e con probabilità (2) p32 = 0 partendo da 3. b) Sappiamo che uno stato i è transitorio se esso comunica con uno stato j che però non comunica con i; questa è una condizione sufficiente per la transitorietà di uno stato, che è anche necessaria se per di più la catena, come in questo caso, è finita. Uno stato è ricorrente se non è transitorio. La determinazione di ricorrenza e transitorietà consiste quindi nel verificare, per ogni stato i, con quali altri stati esso comunica e se questi altri stati a loro volta comunichino con i. Ora partendo da 1 si può solo restare in 1 oppure andare in 3; invece partendo da 3 si può solo restare in 3 oppure passare in 1. Gli stati 1 e 3 costituiscono quindi una classe chiusa e sono ricorrenti, poiché non soddisfano alla condizione di transitorietà che abbiamo appena ricordato (non comunicano con un altro stato j che non comunica con loro). Invece lo stato 2 comunica sia con 1 che con 3 che, come abbiamo visto, non comunicano con 2 che quindi è transitorio. Per lo stesso motivo anche 4, che comunica con 1 e 3, è transitorio. Partendo da 2 la catena può restare in 2 oppure passare in uno degli stati 1 oppure 3. In questa eventualità la catena non tornerà mai più in 2, perché abbiamo visto che 1 e 3 costituiscono una classe chiusa. Dunque la sola possibilità di essere in 2 dopo 12 passi consiste nel restare in 2 in (12) tutte le 12 transizioni; quindi la probabilità richiesta è p22 = 2112 . c) La nuova matrice di transizione è 1
4 1 4 1 2
0
0 1 2
0 1 3
3 4 1 4 1 4 1 3
0
0 . 1 4 1 3
Ma ora si vede facilmente che tutti gli stati comunicano tra loro, e sono quindi ricorrenti.
5.2 a) Abbiamo già ricordato che uno stato i è transitorio se esso comunica con uno stato j che a sua volta non comunica con i. • 1 comunica con 2 (p12 = 21 > 0) ma 2 non comunica con 1 (in effetti la probabilità pi1 è uguale a 0 per ogni stato i) e dunque 1 è transitorio. • 4 comunica con 4 e 5 e lo stesso vale per 5; 4 e 5 sono dunque ricorrenti e costituiscono una classe irriducibile.
Esercizio 5.2
87
• 2 comunica con 4 che, come abbiamo visto, non comunica con 2: 2 è transitorio. • 3 comunica con 2 che comunica con 4. Dunque 3 comunica con 4, che però non comunica con 3: 3 è transitorio. Avremmo anche potuto osservare che 3 comunica con 2, che sappiamo già essere transitorio, e ciò basta a stabilire la transitorietà di 3 (uno stato ricorrente non può comunicare con uno transitorio). Osserviamo che in tutti questi ragionamenti non era importante conoscere i valori dei numeri pij , ma solo se essi fossero o no > 0. In particolare la classificazione degli stati che abbiamo ottenuta è valida per ogni matrice della forma
∗ ∗ ∗ ∗ ∗ ∗ 0 0 0 0
0 0 0 0 0
0 0 ∗ 0 0 0 ∗ ∗ ∗ ∗
dove gli asterischi indicano numeri qualunque, purché > 0. Per tutte le matrici di questa forma gli stati 1, 2, 3 saranno transitori, mentre 4 e 5 ricorrenti. b) Sappiamo che una distribuzione invariante è data da dei numeri v1 , . . . , v5 , tutti ≥ 0, tali che v1 + . . . + v5 = 1 e che siano soluzione del sistema di equazioni lineari v1 p1j + . . . + v5 p5j = vj
j = 1, . . . , 5
ovvero in forma matriciale (1.16)
(v1 , . . . , v5 ) p11
. . . p15 .. = (v1 , . . . , v5 ) . . . . . p55
p51
Sostituendo i valori di pij si tratta di risolvere il sistema composto dalle equazioni
(1.17)
1 2 1 2 1 2
v1 + v1 + v2 +
1 4 1 4 1 4 3 4
v2 + v2 + v4 + v4 +
1 2 1 2 1 2 1 2
0 = v1 v3 = v2 v3 = v3 v5 = v4 v5 = v5
più l’equazione v1 + v2 + v3 + v4 + v5 = 1 . Questo sistema si semplifica però considerevolmente ricordando che una distribuzione invariante è sempre nulla sugli stati transitori. Dunque v1 = v2 = v3 = 0 e il sistema diviene (1.18)
1 4 3 4
v4 + v4 +
1 2 1 2
v5 = v4 v5 = v5
v4 + v5 = 1 .
88
Parte 1: soluzioni
Esprimendo v5 = 1 − v4 dalla terza equazione e sostituendo nella prima, questa dà 1 4
1 2
v4 +
−
1 2
v4 = v4
cioè 1 2
e quindi v4 =
2 5
=
5 4
v4
e v5 = 1 − v4 = 53 . Quindi v1 = 0,
v2 = 0,
v3 = 0,
v4 = 25 ,
v5 =
3 5
è una distribuzione invariante. Essa è anche unica, perché il sistema (1.18) ammette solo questa soluzione. c) Gli stati 4 e 5 sono i soli stati ricorrenti. Sappiamo che una catena di Markov con probabilità 1 lascia prima o poi l’insieme costituito dagli stati transitori. Quindi la probabilità di giungere in {4, 5} è uguale a 1. • Un errore molto comune nel calcolo della distribuzione invariante consiste nel considerare il sistema (1.19)
pj 1 v1 + . . . + pj N vN = vj
j = 1, . . . , N
(N è il numero degli stati), cioè in forma matriciale p 11
pN1
. . . p1N v1 v1 .. .. = .. . . . vN vN . . . pNN
invece di quello corretto (1.16) (1.20)
p1j v1 + . . . + pNj vN = vj
j = 1, . . . , N
cioè nel considerare il sistema i cui coefficienti sono dati dalla matrice P invece che dalla sua trasposta. C’è però un modo facile per accorgersi di questo errore: la soluzione del sistema (1.19) è infatti sempre data da v1 = . . . = vN = N1 , cioè dalla distribuzione uniforme, come è facile accorgersi osservando che pj 1 + . . . + pj N = 1 (la somma degli elementi di ogni riga della matrice di transizione vale 1). Si può però dimostrare che la distribuzione uniforme è invariante se e solo se la matrice P è bistocastica, cioè se e solo se anche la somma degli elementi di ogni colonna vale 1. In conclusione: se trovate come distribuzione invariante la legge uniforme, verificate che P sia effettivamente bistocastica, altrimenti rivedete i vostri conti, probabilmente avete commesso l’errore di considerare il sistema (1.19) invece di quello corretto (1.20). • In pratica nel calcolo della distribuzione stazionaria occorre risolvere il sistema (1.20) con in più l’equazione (1.21)
v1 + . . . + vN = 1 .
Esercizio 5.3
89
Infatti (1.20) non ha soluzione unica (se v = (v1 , . . . , vN ) è soluzione, allora anche αv, α ∈ R è soluzione). Ciò vuole dire che tra le equazioni (1.20) ce n’è sempre almeno una che è linearmente dipendente dalle altre (nel caso di (1.18) la seconda equazione è uguale alla prima). Concretamente per trovare la distribuzione invariante occorre risolvere il sistema che si ottiene dalla (1.20) eliminando una equazione che dipende dalle altre ed aggiungendo la (1.21). Nei casi in cui c’è una sola distribuzione invariante in questo modo si ottiene un sistema che ha soluzione unica.
5.3
a) La matrice di transizione di questa catena è
P =
0 1−p p
p 0 1−p
1−p p 0
!
.
La catena è irriducibile perché, per ipotesi, sia p che 1 − p sono numeri > 0 e dunque ogni stato comunica con tutti gli altri. Per mostrare che la catena è regolare basta mostrare che esiste un n tale che la matrice P n abbia tutti gli elementi > 0. In questo caso basta n = 2: infatti P2 =
2p(1 − p) (1 − p)2 p2 2 p 2p(1 − p) (1 − p)2 2 (1 − p) p2 2p(1 − p)
!
.
Calcoliamo la distribuzione invariante. Prima però di lanciarsi nella risoluzione del sistema lineare (che in questo caso è in 3 incognite) conviene controllare che non vi siano ‘‘scorciatoie’’, come succede ad esempio con le matrici di transizione bistocastiche (per le quali anche la somma degli elementi delle colonne sono = 1). In effetti questa è la situazione e sappiamo dunque che la distribuzione stazionaria è quella uniforme v = ( 13 , 13 , 31 ). b) Si ha P(Xn = 1, Xn+1 = 2) = P(Xn+1 = 2|Xn = 1)P(Xn = 1) = = p12 P(Xn = 1) = pP(Xn = 1) . Poiché per n grande P(Xn = 1) ≈ 13 , P(Xn = 1, Xn+1 = 2) ≈
p 3.
Allo stesso modo
P(Xn = 2, Xn+1 = 1) = P(Xn+1 = 1|Xn = 2)P(Xn = 2) = p21 P(Xn = 2) ≈
1−p · 3
c) Perché la catena sia reversibile occorre che sia vi pij = vj pj i per tutti gli stati i, j . In questo caso i valori vi della distribuzione stazionaria non dipendono da i. Dunque abbiamo la reversibilità se pij = pj i per ogni i, j , cioè se e solo se la matrice di transizione è simmetrica. Uno sguardo a P e si vede subito che ciò si verifica se e solo se p = 21 (che è anche il valore per cui le due probabilità calcolate in b) sono uguali).
90
Parte 1: soluzioni
5.4 a) Il problema si può chiaramente modellizzare con una catena di Markov del tipo della rovina del giocatore, avente cioè come insieme degli stati E = {0, 1, . . . , 1001} e matrice di transizione ( p se j = i + 1 pij = q se j = i − 1 0 altrimenti 18 19 se 0 < i < 1001 dove p = 37 , q = 37 , mentre invece gli stati i = 0 e i = 1001 sono assorbenti. Si vede subito che tutti gli stati, tranne 0 e 1001, sono transitori, poiché comunicano con gli stati assorbenti 0 e 1001 che non comunicano con altri stati. Dunque per n → ∞ la catena converge (viene assorbita) in 0 oppure in 1001. Se indichiamo con λi la probabilità di passaggio in 0 della catena con stato iniziale i allora la probabilità che il giocatore vinca è 1 − λ1000 . Le formule per le probabilità di passaggio della rovina del giocatore danno λi =
γ i + . . . + γ 1000 1 + . . . + γ 1000
19 . Per calcolare λ1000 conviene effettuare qualche manipolazione algebrica dove γ = pq = 18 per evitare gli errori di arrotondamento:
λ1000 =
γ 1000 1 1 − γ −1 1 = = ≃ = 0.053 1000 −1000 −1001 1 + ... + γ γ + ... + 1 1−γ 19
(γ −1001 = 3.33 · 10−24 ). Quindi la probabilità che il giocatore vinca è 1 − 0.053 = 0.947. Invece con probabilità del 5.3% il giocatore finisce rovinato. b) La v.a. Y può assumere i soli valori 0 oppure 1001, poiché sappiamo che con probabilità 1 il gioco finisce dopo un numero finito di giocate. Più precisamente, considerando come stato iniziale i = 1000 P(Y = 0) = λ1000 = 0.053 P(Y = 1001) = 1 − λ1000 = 0.947 .
Quindi
E(Y ) = 0 · 0.053 + 1001 · 0.947 = 947.9 .
In media dunque, come ci si poteva aspettare, il giocatore perde (alla fine ha un capitale inferiore a quello iniziale).
5.5 Il problema in realtà più difficile in questo tipo di esercizi consiste nella modellizzazione del problema, cioè nello scrivere la matrice di transizione della catena di Markov da usare come modello. Ciò del resto si può fare in molti modi. In questo caso il più semplice consiste nel considerare una catena di Markov con 6 stati: 1 → ‘‘A tiene il gioco’’ 2 → ‘‘B tiene il gioco’’ 3 → ‘‘C tiene il gioco’’ 4 → ‘‘A vince’’ 5 → ‘‘B vince’’ 6 → ‘‘C vince’’ .
Esercizio 5.6
91
Gli stati 4, 5, 6 saranno assorbenti, il che equivale a dire che il gioco si ferma non appena un giocatore vince. Se supponiamo che A, B, C siano seduti in senso antiorario intorno al tavolo, dovrà essere p11 = p12 = p13 = p14 =
3 8 3 8 1 8 1 8
(probabilità che il giocatore A conservi il gioco) (probabilità che A passi il gioco a destra) (probabilità che A passi il gioco a sinistra) (probabilità che A vinca)
p15 = p16 = 0 (B e C non possono vincere in un passo se è A a tenere il gioco) . Le relazioni precedenti determinano la prima riga della matrice di transizione (in esse 83 è la probabilità di ottenere 2 teste e una croce e anche quella di ottenere una croce e due teste, mentre 1 8 è la probabilità di tre teste o tre croci). Le altre righe si determinano in maniera analoga. La matrice di transizione risulta 3 3 1 1 0 0 8 8 8 8 1 3 3 0 1 0 8 8 8 8 3 1 3 8 8 8 0 0 81 P = 0 0 0 1 0 0 0 0 0 0 1 0 0
0
0
0
0
1
La probabilità che il giocatore che inizia il gioco vinca è chiaramente la stessa qualunque sia il giocatore che inizia. Dunque questa probabilità è la stessa che la probabilità di assorbimento in 4 partendo da 1. Il calcolo di λi =probabilità di assorbimento in 4 partendo da i, si effettua risolvendo il sistema (5.9) che qui diventa λi = pi4 + pi1 λ1 + pi2 λ2 + pi3 λ3 e cioè λ1 =
1 8
+
λ2 = λ3 = La soluzione del sistema è λ1 = che inizia il gioco vinca è 11 26 .
11 26 , λ2
=
3 8 1 8 3 8
λ1 + λ1 + λ1 +
7 26 , λ3
3 8 3 8 1 8
λ2 + λ2 + λ2 +
=
8 26 .
i = 1, 2, 3 1 8 3 8 3 8
λ3 λ3 λ3 .
Dunque la probabilità che il giocatore
5.6 a) Indichiamo con Xn il numero di palline nere nell’urna dopo n estrazioni. • Se Xn = 1 nell’urna si trovano 1 pallina N e 2 R e da essa verrà dunque estratta una pallina N con probabilità 13 ed una pallina R con probabilità 23 ; dunque Xn+1 = 0 con probabilità 13 e Xn+1 = 2 con probabilità 23 . Ripetendo questo ragionamento si vede che
92
Parte 1: soluzioni
• se Xn = 2 allora Xn+1 = 1 con probabiltà 21 e Xn+1 = 3 con probabilità 21 ; • se Xn = 3 allora Xn+1 = 4 con probabilità 25 e Xn+1 = 2 con probabilità 35 . Gli stati 0 e 4 vengono scelti assorbenti in quanto corrispondono alla fine della partita. In conclusione la matrice di transizione è 0 ↓ 0 → 1 1 1 → 3 2 → 0 3 → 0 4→ 0
1 ↓ 0 0
2 ↓ 0
1 2
0
0 0
0
3 ↓ 0 0
2 3
1 2
3 5
0 0
4 ↓ 0 0 0 . 2 5 1
b) Si richiede di calcolare P2 (X3 ≥ 2) (P2 è la probabilità partendo dallo stato 2). Ricordiamo (n) che se pij indica la probabilità di fare una transizione in n passi da i a j , allora Pi (Xn = j ) = (n)
pij . Dunque
(3)
(3)
(3)
P2 (X3 ≥ 2) = P2 (X3 = 2) + P2 (X3 = 3) + P2 (X3 = 4) = p22 + p23 + p24 . (3)
Le probabilità pij si determinano calcolando il prodotto P 3 = P · P · P della matrice di transizione per se stessa 3 volte. Un calcolo paziente dà
3 P =
1 4 9 1 6 1 10
0
0 0
0 19 45
0 0
0
19 60
0
19 60
0
19 50
0
2 15 1 5 13 50
0
0
0
1
19 dunque la probabilità che vi siano almeno due palline N nell’urna dopo tre estrazioni è 60 + 15 = 31 60 (bisogna guardare la terza riga, perché gli stati sono numerati a partire da 0). Attenzione anche a non confondere P2 (probabilità partendo dallo stato 2) con P 2 (matrice di transizione in due passi). c) La probabilità richiesta non è altro che la probabilità di assorbimento in 4 partendo da 2. Se λi è la probabilità di assorbimento in 4 partendo da i, allora i numeri λ1 , λ2 , λ3 sono soluzione del sistema lineare λ1 = 23 λ2
λ2 = λ3 =
1 2 2 5
λ1 + +
3 5
1 2
λ3
λ2 .
4 6 8 , 11 , 11 ) e quindi la probabilità che A vinca è λ2 = La soluzione è ( 11 6 5 vinca sarà invece 1 − 11 = 11 . Il giocatore A è favorito.
6 11 .
La probabilità che B
Esercizio 5.7
93
d) Se indichiamo con ζi il tempo medio di assorbimento in {0, 4} partendo da i, allora i numeri ζi , i = 1, 2, 3 sono soluzione di ζ1 = 1 + ζ2 = 1 + ζ3 = 1 +
2 3 ζ2 1 2 ζ1 3 5 ζ2
+
1 2 ζ3
.
60 47 Il sistema ha per soluzione ( 51 11 , 11 , 11 ). Poiché supponiamo di partire inizialmente dallo stato 2 (due palline nere nell’urna), la partita dura in media 60 11 = 5.45 estrazioni.
5.7
a)
r q 0 0 0 p
p r q 0 0 0
0 p r q 0 0
0 0 p r q 0
0 0 0 p r q
q 0 0 . 0 p r
b) Ricordiamo che, per definizione, una catena è irriducibile se tutti gli stati comunicano tra loro. Supponiamo che sia p > 0. Allora lo stato 1 comunica ( ) con 2. Poiché 2 3 per lo stesso motivo, anche 1 3. Ripetendo lo stesso ragionamento vediamo che 1 comunica con 4, 5, . . . , N. Dunque 1 comunica con tutti gli altri stati. Lo stesso ragionamento si può ripetere per ogni altro stato, ottenendo che tutti gli stati comunicano tra loro e quindi la catena è irriducibile. Lo stesso ragionamento permette di provare l’irriducibilità nell’ipotesi che sia q > 0. c) Ricordiamo che una matrice di transizione è regolare se esiste un numero m tale che P m abbia tutti i suoi elementi > 0; una condizione semplice (ma è solo una condizione sufficiente) è che la catena sia irriducibile e vi sia almeno un elemento sulla diagonale di P che sia > 0. Se uno almeno tra i numeri p e q è > 0 abbiamo visto che la catena è irriducibile; se per di più r > 0, dato che tutti gli elementi della diagonale di P sono uguali a r (come si vede anche dal punto a)), sono soddisfatte le condizioni del criterio di regolarità: catena irriducibile ed almeno un elemento sulla diagonale > 0; la catena è quindi regolare. Se invece r = 0 il criterio non è soddisfatto ed occorre verificare direttamente la definizione, (m) cioè se esista un numero m tale che pij > 0, tale cioè che la probabilità di passare da i a j in m passi, sia > 0 per ogni coppia di stati i, j . Se N è pari la catena non è regolare. Basta osservare che ad ogni transizione da uno stato i si può passare solo in uno stato contiguo. Se il poligono ha un numero N pari di vertici, allora se i è uno stato di indice pari gli stati ad esso contigui hanno indice dispari e, viceversa, se i è di indice dispari gli stati ad esso contigui sono di indice pari (Vedi la Figura 5.8). Quindi se si parte dallo stato iniziale i dispari, dopo un numero pari di passi ci troveremo certamente in uno stato dispari, mentre dopo un numero dispari di passi la catena si troverà in uno stato pari.
94
Parte 1: soluzioni
Quindi, nell’esempio dell’esagono, la matrice di transizione in m passi P m sarà della forma
0 ∗ 0 ∗ ∗ 0 ∗ 0 0 ∗ 0 ∗ ∗ 0 ∗ 0 0 ∗ 0 ∗ ∗ 0 ∗ 0
0 ∗ ∗ 0 0 ∗ ∗ 0 0 ∗ ∗ 0
oppure
∗ 0 ∗ 0 ∗ 0 ∗ 0 ∗ 0 ∗ 0 ∗ 0 ∗ 0 ∗ 0
0 ∗ 0 ∗ 0 ∗ 0 ∗ 0 ∗ 0 ∗ 0 ∗ 0 ∗ 0 ∗
a seconda che m sia dispari o pari rispettivamente. P m non può dunque mai avere tutti i suoi elementi > 0. Se invece il numero di vertici N è dispari, allora il ragionamento appena svolto non si può ripetere perché lo stato 1 è contiguo sia a uno stato pari che a uno dispari. Del resto nell’Esercizio 5.3, dove avevamo N = 3, si aveva r = 0 ma la catena era regolare. In realtà si potrebbe dimostrare che se il numero di vertici è dispari, allora se p > 0, q > 0, la catena è sempre regolare (anche se r = 0). d) È facile rendersi conto che la matrice di transizione è bistocastica. Dunque la distribuzione uniforme πi = N1 è stazionaria. Poiché con i valori di p, r, q assegnati la catena è regolare, questa è anche l’unica distribuzione invariante. Inoltre, per n grande P(Xn = 1, Xn+1 = 2) = P(Xn+1 = 2|Xn = 1)P(Xn = 1) ≈ p12
1 p = · N N
Allo stesso modo si vede che P(Xn = 2, Xn+1 = 1) = Nq . La relazione di reversibilità πi pij = πj pj i diviene qui p = q: la catena è reversibile se e solo se sono uguali le probabilità di spostarsi in senso orario e antiorario.
5.8 a) La descrizione dell’evoluzione dello stato della stampante determina subito la matrice di transizione che è 0 1 ↓ ↓ 0→ 1−b b P = . 1→ a 1−a b) Se a = 0, b = 0 la matrice di transizione diventa 1 0 P = 0 1 e i due stati 0 e 1 sono assorbenti. La catena non è dunque irriducibile e non può essere regolare. Se invece a = 1, b = 1 la matrice di transizione è 0 1 . P = 1 0 La catena è ora irriducibile (gli stati comunicano), ma non può essere regolare: ad ogni intervallo di tempo essa cambia di stato con probabilità 1. Dunque se lo stato iniziale è 0, la catena si
Esercizio 5.9
95
troverà in 1 ai tempi dispari ed in 0 ai tempi pari. Non è quindi possibile che P n possa avere tutti i suoi elementi > 0. Se a = 1, b = 21 invece P =
1 2
1
1 2
0
.
La catena è regolare. Infatti essa è irriducibile e vi è almeno un elemento > 0 sulla diagonale. Se infine 0 < a < 1, 0 < b < 1 la catena è certo regolare perché già P ha tutti i suoi elementi > 0. In quest’ultima situazione la probabilità che la catena si trovi nello stato 1 per n grande si può valutare approssimativamente con il valore π1 , dove π = (π0 , π1 ) è la distribuzione stazionaria, la cui unicità è garantita dal Teorema di Markov 5.15. Essa si ottiene risolvendo il sistema (5.9), più la condizione π0 + π1 = 1. Cioè il sistema lineare (1 − b)π0 + aπ1 = π0 π0 + π1 = 1
a b che ha come soluzione π = ( a+b , a+b ). Dunque la probabilità che la stampante sia occupata b ad un tempo n grande è a+b . Coi valori numerici proposti si ottiene π1 = 0.7 1.1 = 0.636. c) La catena è irriducibile (abbiamo anzi visto che è regolare). Dunque, per il Teorema ergodico 5.28, N¯ n converge in probabilità al valore della distribuzione stazionaria in 1, che abbiamo calcolato in b). Con i valori numerici proposti la stampate risulterebbe dunque occupata il 63.6% del tempo.
5.9 a) La v.a. D1 può assumere i valori: 4 se le coccinelle si spostano entrambe in senso orario oppure entrambe in senso antiorario; 2 se la prima si sposta in senso orario e la seconda in senso antiorario oppure, viceversa, la prima in senso antiorario e la seconda in senso orario. Poiché ognuna delle coccinelle sceglie una delle due eventualità con probabilità 21 e in maniera indipendente dall’altra, è presto visto che P(D1 = 4) =
1 2
P(D1 = 2) = 21 ·
b) Abbiamo già calcolato in a) che se Dn = 4 allora Dn+1 può assumere i valori 4 oppure 2 con probabilità 21 . D’altra parte se a un determinato istante la distanza tra le due coccinelle vale 2, allora all’istante successivo essa potrà essere: 0 se esse si spostano l’una verso l’altra (cioè una in senso orario e l’altra in senso antiorario, ma dalla parte in cui esse sono più vicine (probabilità 41 ). 2 se esse si spostano entrambe in senso orario oppure entrambe in senso antiorario (probabilità 1 ); 2 4 se esse si spostano in sensi opposti, ma allontanandosi (probabilità 41 ). Se invece Dn = 0 (cioè le due coccinelle si trovano sullo stesso vertice) allora Dn+1 = 0 se esse si spostano insieme nella stessa direzione (probabilità 21 ) oppure Dn+1 = 2 se esse si spostano in direzioni opposte (probabilità ancora 21 ).
96
Parte 1: soluzioni
In conclusione abbiamo visto tre stati possibili, {0, 2, 4}, con la matrice di transizione: 0 ↓1
2 ↓
4 ↓ 0 1 4 .
1 2 1 2 1 2
0→ 2 P = 2 → 41 4→ 0
1 2
c) La matrice di transizione P è regolare, perché tutti gli stati comunicano tra di loro ed inoltre vi sono elementi non nulli sulla diagonale. Per il Teorema di Markov esiste dunque un’unica distribuzione invariante π = (π0 , π2 , π4 ) e la probabilità P(Dn = 0) per n grande si può approssimare con il valore π0 della distribuzione invariante nello stato 0. Calcoliamo la distribuzione invariante. Essa è soluzione del sistema π = π P , ovvero π0 = π2 = π4 =
1 2 1 2 1 4
π0 + π0 + π2 +
1 4 1 2 1 2
π2 π2 +
1 2
π4
π4
π0 + π2 + π4 = 1 . La soluzione è facile perché dalla seconda equazione si ha π2 =
1 2
π0 +
1 2
π2 +
1 2
1 2
π4 =
(π0 + π2 + π4 ) =
1 2
da cui si ricava facilmente π0 = π4 = 41 . Quindi per n grande le due coccinelle si trovano nello stesso vertice con probabilità 41 (qualunque sia lo stato iniziale). d) Per calcolare il tempo medio necessario perché le due coccinelle si trovino nello stesso vertice possiamo ragionare così: rendiamo lo stato 0 assorbente (il che equivale ad arrestare la catena nel momento in cui essa giunge in 0). Se indichiamo con ζ2 , ζ4 i tempi medi di assorbimento in 0 partendo da 2 e 4 rispettivamente, allora sappiamo che ζ2 e ζ4 sono soluzione di ζ2 = 1 + 21 ζ2 + 41 ζ4 ζ4 = 1 +
1 2 ζ2
+
1 2 ζ4
che ha soluzione ζ2 = 6, ζ4 = 8. Poiché supponiamo che le coccinelle partano da vertici opposti, il tempo medio perché esse si ritrovino sullo stesso vertice è ζ4 = 8. 5.10 a) È chiaro che, se chiamiamo ‘‘5’’ lo stato ‘‘fine del programma’’, la matrice di transizione è 0 21 21 0 0 1 0 0 1 1 2 4 4 3 4 0 0 41 0 . 0 0 1 0 1 2
0
0
0
2
0
1
Esercizio 5.11
97
b) Se indichiamo con ζi il tempo medio di assorbimento in 5 partendo da i allora i numeri ζi sono soluzione di ζ1 = 1 + 21 ζ2 + 21 ζ3 ζ2 = 1 + ζ3 = 1 + ζ4 = 1 +
1 2 ζ1 3 4 ζ1 1 2 ζ3
+ +
1 4 ζ4 1 4 ζ4
che ha per soluzione 136 104 46 28 , , , = (9.06, 6.93, 9.2, 5.6) . 15 15 5 5 Il tempo medio partendo da 1 vale 9.06 ed è minore di quello partendo da 3. c) Con i nuovi valori la matrice di transizione diviene 0
1 2
1 2
0
0
1 2 1 4 0
0 0 0
0 0
1 4 3 4
1 4
1 2
0
0
0
0
0
0 1 2
1
mentre ora il sistema lineare che dà i tempi medi di assorbimento è ζ1 = 1 + ζ2 = 1 + ζ3 = 1 + ζ4 = 1 +
1 2 1 2 1 4 1 2
ζ2 + ζ1 + ζ1 +
1 2 ζ3 1 4 ζ4 3 4 ζ4
ζ3
che ha per soluzione 128 104 110 76 , , , = (6.09, 4.95, 5.23, 3.62) . 21 21 21 21 Quindi ora l’esecuzione è più veloce, qualunque sia lo stato iniziale.
5.11
a) Se Xn = i ciò vuole dire che nelle due urne la situazione è la seguente urna A urna B
palline bianche i r −i
palline rosse r −i i 2
La probabilità che sia Xn+1 = i + 1 è dunque uguale a (r−i) : infatti si ha Xn+1 = i + 1 solo r2 se nell’urna A viene scelta una pallina rossa (probabilità r−i ) e simultaneamente nell’urna B r
98
Parte 1: soluzioni
viene scelta una pallina bianca (ancora che, per i = 1, . . . , r − 1, deve essere
pij =
r−i r ).
Ripetendo questo genere di ragionamenti si vede
(r−i)2 r2 2i(r−i) i2 r2 0
r2
se j = i + 1
se j = i
se j = i − 1 altrimenti .
Naturalmente se i = 0 oppure i = r si ha p01 = 1, pr,r−1 = 1. b) L’insieme degli stati è E = {0, 1, . . . , r}. Tutti gli stati comunicano tra loro: ogni stato infatti comunica con i suoi vicini a destra e a sinistra; quindi se i, j ∈ E e supponiamo per semplicità i < j , allora i i+1 ... j , da cui segue che i j . D’altra parte si ha anche j j −1 ... i e dunque j i. Quindi ogni stato comunica con tutti gli stati alla sua destra e con tutti quelli alla sua sinistra, ovvero tutti gli stati comunicano tra di loro e la catena è irriducibile. Poiché vi è almeno uno stato ricorrente (la catena è finita), tutti gli stati sono ricorrenti. Essa è anche regolare perché nella matrice di transizione vi sono degli elementi > 0 sulla diagonale. c) Primo modo. Intanto osserviamo che la somma delle probabilità πk , k = 0, . . . , n è uguale a 1 (è l’ultima delle (1.16)). Per mostrare che π è invariante proviamo prima di vedere se per caso è reversibile. Infatti, anche se la reversibilità è solo una condizione sufficiente per la stazionarietà, d’altra parte verificare la reversibilità è più facile. La distribuzione π è reversibile se si ha πk pkj = πj pj k per ogni j, k ∈ E. Poiché pkj è uguale a 0 a meno che j non sia uno dei tre numeri k − 1, k, k + 1, basta fare la verifica per j = k + 1. Ma, ponendo c = 1/ 2n n , 2 (r − 1)! 2 r − k 2 r =c r k!(r − k − 1)! k 2 (r − 1)! 2 2 k+1 r =c =c r k!(r − k − 1)! k+1
πk pk,k+1 = c πk+1 pk+1,k
e dunque π è reversibile. Secondo modo. Il lettore attento avrà osservato che questa è una catena di nascita e morte e per queste catene ci sono delle formule esplicite per la distribuzione stazionaria (vedi l’Esempio 5.26). La formula (5.31) afferma infatti che la distribuzione stazionarie (che per queste catene è sempre reversibile) è data da ξ vi = P∞i h=0 ξh dove
ξj =
p0 . . . pj −1 q1 . . . qj
Qui si ha pi = pi,i+1 =
i2 (r − i)2 , qi = pi,i−1 = r2 r2
Esercizio 5.13
99
Dunque ξj =
2 r 2 (r − 1)2 . . . (r − j + 1)2 r = j 12 2 2 . . . j 2
ed ora la (5.31) e l’ultima delle (1.16) permettono di concludere.
5.12 a) Se Xn = k, al tempo n + 1 nell’urna vi saranno k − 1 palline se la pallina prescelta è una delle k che si trovano nella prima urna, oppure k + 1 se la pallina prescelta e` una delle m − k che si trovano nell’altra urna. Si tratta dunque di una catena di nascita e morte su E = {0, 1, . . . , m} con m−k pk = pk,k+1 = m rk = pk,k = 0 k qk = pk,k−1 = · m per k = 0, 1, . . . , m. b) Trattandosi di una catena di nascita e morte, sappiamo (Esempio 5.26) che la distribuzione stazionaria è ξ πi = Pm i h=0 ξh dove i numeri ξi sono definiti da ξ0 = 1 e ξi = Evidentemente si ha
p0 . . . pi−1 m m(m − 1) . . . (m − i + 1) = = i q1 . . . qi 1...i m X h=0
ξh =
m X m h=0
h
= 2m
(vedi il riquadro a pag. 18) e dunque πi =
m −m 2 i
Le distribuzioni stazionarie delle catene di nascita e morte sono sempre reversibili. c) Se al tempo 0 la catena si trova in uno stato pari, al tempo successivo essa si troverà in uno stato dispari e poi in uno pari e così via. Quindi, qualunque sia n, la matrice di transizione in n passi P n non può avere tutti gli elementi positivi: la catena non è regolare.
5.13 a) Tutti gli stati comunicano tra loro, perché il grafo è connesso; dunque la catena è irriducibile e la distribuzione stazionaria è unica. Per calcolarla ci sono due possibilità: la prima consiste nel risolvere il sistema lineare π P = π più la condizione π1 +. . .+π10 = 1. Non è una via troppo complicata perché per motivi di simmetria è chiaro che deve essere π2 = π3 = π4 e π5 = π6 = π7 = π8 = π9 = π10 . Ci si riconduce quindi a un sistema lineare in tre incognite.
100
Parte 1: soluzioni
La seconda possibilità consiste nel ricordare che per una catena di Markov sui vertici di un grafo c’è una formula esplicita della distribuzione stazionaria: se ki è il numero di spigoli del grafo che arrivano nel vertice i e k è la somma dei numeri ki , allora πi =
ki k
è la distribuzione invariante. Qui ki è uguale a 3 per 4 vertici e uguale a 1 per 6. Dunque k = 18. 1 La distribuzione invariante vale 16 per gli stati 1, 2, 3, 4 e 18 per gli altri. La catena non è regolare. Basta osservare che gli stati si possono suddividere in due classi: la prima formata da 1, 5, 6, 7, 8, 9, 10 e la seconda da 2, 3, 4. Se la catena si trova in uno stato della prima classe, all’istante successivo si troverà in uno della seconda e viceversa. Non è dunque possibile che esista n tale che, partendo da i, si possa essere in ognuno degli stati con probabilità positiva. b) Con le nuove regole di transizione la catena è ora regolare: essa è infatti ancora irriducibile e per di più pii = 21 per gli stati da 5 a 10. Vi sono dunque degli elementi > 0 sulla diagonale della matrice di transizione e questo, insieme alla irriducibilità, assicura la regolarità della catena. La formula della distribuzione invariante per le catene sui vertici di un grafo dà ora k = 24 e quindi 1 se i = 1, 2, 3, 4 πi = 81 12 se i = 5, . . . , 10 . c) Il tempo medio di passaggio nella classe {5, . . . , 10} partendo da i, i = 1, 2, 3, 4, indicato ζi , si ottiene risolvendo il sistema ζi = 1 +
4 X
pij ζj ,
j =1
i = 1, 2, 3, 4 .
Questo si risolve facilmente osservando che, per motivi di simmetria, deve essere ζ2 = ζ3 = ζ4 . Giungiamo quindi al sistema ζ2 = 1 + 13 ζ1 ζ1 = 1 + ζ2
che dà facilmente ζ1 = 3, ζ2 = 2. Partendo da 1 dunque si giunge in uno degli stati 5, . . . , 10 in media in 3 passi.
5.14 Come nell’Esempio 5.36, si possono modellizzare i lanci successivi con una catena di Markov formata dagli stati 0→C 1 → CT ... n → CT n dove con CT i indichiamo che negli ultimi i + 1 lanci si sono avute una croce seguita da i teste consecutive. Ad ogni lancio si può passare da CT i a CT i+1 con probabilità 21 (se il lancio
Esercizio 5.14
101
dà ancora testa) e a C con probabilità 21 (se invece dà croce), se 0 ≤ i ≤ n − 1. Imporremo invece che lo stato n sia assorbente. Dire che con probabilità 1 si ottengono prima o poi n teste consecutive significa dire che la catena appena descritta passa prima o poi nello stato CT n . Ma questo è immediato perché tutti gli stati comunicano con lo stato CT n , che è l’unico stato assorbente. Quindi tutti gli stati tranne CT n sono transitori e la catena con probabilità 1 entra nello stato CT n . Il tempo medio di assorbimento ζi nello stato n partendo dallo stato i, i = 0, 1, . . . , n − 1 si ottiene risolvendo il sistema lineare ζi = 1 +
n−1 X
pij ζj
j =0
che in questo caso diventa ζn−1 = 1 + ζn−2 = 1 +
1 2 ζ0 1 2 ζ0
...
+
1 2 ζn−1
ζi = 1 +
1 2 ζ0
+
1 2 ζi+1
ζ0 = 1 +
1 2 ζ0
+
1 2 ζ1
...
.
Il tempo medio per ottenere n teste consecutive è ζ0 . Sostituendo il valore di ζn−1 dato dalla prima equazione nella seconda si ottiene ζn−2 = 1 +
1 1 1 1 1 1 ζ0 + 1 + ζ0 = 1 + + 1+ ζ . 2 2 2 2 2 2 0
Sostituendo questo valore nell’equazione per ζn−3 ζn−3 = 1 +
1 1 1 1 1 + + 1+ + ζ 2 4 2 2 4 0
e più in generale, per ricorrenza, ζi = 1 +
1 1 1 1 1 + . . . + n−i−1 + 1 + + . . . + n−i−1 ζ0 2 2 2 2 2
da cui per i = 0 1 1 1 1 1 + . . . + n−1 + 1 + + . . . + n−1 ζ0 = 2 2 2 2 2 1 − 21n 1 1 − 21n 1 1 + ζ = 2 1 − = + 1 − ζ . 0 2 1 − 21 2n 2n 0 1 − 21
ζ0 = 1 +
Quindi, finalmente, ζ0 = 2(2n − 1) = 2n+1 − 2 .
102
Parte 1: soluzioni
Ad esempio per n = 6 sono necessari in media 27 − 2 = 126 lanci. 5.15 a) Ricordiamo che una catena di nascita e morte è ricorrente se e solo se è divergente la serie di termine generale γi =
q1 . . . qi (1 + 3 − k)(2 + 3 − k) . . . (i + 3 − k) = · p1 . . . pi (1 + k)(2 + k . . . (i + k)
Cominciamo con il caso k = 0: nell’espressione di γi il numeratore è il prodotto di tutti i numeri interi da 4 a i + 3, mentre il denominatore è il prodotto dei numeri da 1 a i. Semplificando i fattori comuni al numeratore e al denominatore otteniamo γi =
(i + 1)(i + 2)(i + 3) 6
(k = 0)
che è il termine generale di una serie divergente (anzi γi stesso tende all’infinito per i → ∞). Ripetendo lo stesso argomento, semplificando cioè numeratore e denominatore che contengono sempre molti termini in comune, si ottengono le espressioni di γi per gli altri valori di k: i+2 2 2 γi = i+2 γi =
γi =
6 (i + 1)(i + 2)(i + 3)
(k = 1) (k = 2) (k = 3) .
La serie di termine generale γi è dunque ancora divergente per k = 1, 2, ma è convergente per k = 3. In conclusione la catena è ricorrente per k = 0, 1, 2 e transitoria per k = 3. Per stabilire quando la catena sia ricorrente positiva oppure ricorrente nulla basta vedere quando essa ammetta una distribuzione invariante. La catena ammette una distribuzione invariante se e solo se è convergente la serie di termine generale ξj =
p0 . . . pj −1
=
q1 . . . qj
1 (1 + k) . . . (j + k − 1) (2j + 3) 2 (4 − k) . . . (j + 3 − k)
(vedi l’Esempio 5.26). Per k = 0 il numeratore nella frazione a destra nell’espressione precedente è il prodotto dei numeri interi da 1 a j − 1, mentre il denominatore contiene i prodotti da 4 a j + 3. Dunque per k = 0 ξj =
3(2j + 3) j (j + 1)(j + 2)(j + 3)
che è il termine generale di una serie convergente (va a 0 all’infinito come j13 ). Ripetendo lo stesso ragionamento per k = 1, 2 e semplificando numeratore e denominatore abbiamo 2j + 3 (j + 1)(j + 2) 2j + 3 ξj = 4
ξj =
(k = 1) (k = 2) .
Esercizio 5.15
103
Dunque la serie di termine generale ξj è divergente per k = 1, 2; in conclusione la catena è ricorrente positiva per k = 0 e ricorrente nulla per k = 1, 2. b) Il limite in (5.60) è certamente = 0 per k = 3, perché la catena è transitoria e così pure per k = 1 e k = 2 (ricorrente nulla). Per k = 0 invece esiste una distribuzione invariante che indicheremo π . Sappiamo che lim Pi (Xn = 3) = π3
n→∞
qualunque sia lo stato iniziale i, a condizione che la catena sia aperiodica. Questa condizione (n) è verificata in questo caso, poiché l’ipotesi che sia r0 = 21 implica p0,0 ≥ r0n > 0. Dunque lo stato 0 è aperiodico, e, poiché la catena è irriducibile, tutti gli stati sono aperiodici. Come noto la distribuzione stazionaria è data da ξj πj = P∞
h=0 ξh
(dove si pone ξ0 = 1).
2 Risultati degli esercizi proposti
4 25 .
1.19
a) 51 . b)
1.20
5 12
1.21
a1) 0.15. a2) 0.2. b1) C = (A ∩ B c ) ∪ (B ∩ Ac ). b3) 0.12.
= 0.416.
16 10 ) = 0.36, che è una probabilità non trascurabile, ma non particolarmente 1.22 a) 1−(1− 365 alta. b) ≥ 50%: ≥ 25 giorni, ≥ 90%: ≥ 76 giorni. c) ≥ 50%: ≥ 16 partecipanti, ≥ 90%: ≥ 52 partecipanti.
1.23
a) 0.95 · 0.03 + 0.2 · 0.97 = 0.2225. b)
1.24
a)
4 1 5 8
+
1 8 5 27
0.95·0.03 0.2225
= 0.56
c) n ≥ 5. a) n ≥ 3. b) 1 − 0.8n , 1 −
Paolo Baldi Calcolo delle Probabilità McGraw-Hill 2011
(1−0.95)·0.03 0.7775
= 0.16. b1) è più probabile che sia equilibrata. b2) 1 16 4 1 5 16 + 5 81 4 1 1 8 5 8 + 5 27
1.25
= 0.128. c)
0.8n 1−0.2n .
c)
0.8 1−0.2n .
= 0.0019.
106
Parte 2: risultati degli esercizi proposti
1.26
a) 31 . b) 21 .
1.27
a) Le sequenze sono equiprobabili. b) T T T T T T T T .
1.28
a)
(130)(39 13) = 0.013. b) (52 13) 13 39 4
1.29
a) 61 . b) 61 . c)
1.30
4
13
0
52 13
−6
26 26 0 13 52 13
+4
39 13 0 13 52 13
= 0.051
2 11 .
28 (12)(28) (12)(28) (120)(10 ) − 6 0 40 20 ∼ 4 0 40 10 = 0.062. 40 (10) (20) (10)
(8)(7)+(8)(7)+(8)(7) (28)(47) = 0.196. b) 0 6 1 15 5 2 4 = 0.23 c) 0.034; è una probabilità un po’ 15 (6) (6) troppo piccola. 1.31
a)
1.32
a) 21 . b) 47 . c) 13 .
1.33
a)
(24)(26) = 73 . b) (104)
1.34
a)
(131)(131)(131)(131) (13)(13)(13)(13) (13)(13)(13)(13) = 0.1. b) 2 2 52 0 0 = 0.022. c) 6 × 2 2 52 0 0 = 0.13. d) 52 (4) (4) (4)
1 14 .
c)
1 14 .
(264)(260) = 0.055. (524)
(03)(k7) , k = 1, . . . , 7, q8 = 0. b) pk = (10k ) massima per k = 1. c) p1 + p3 + p5 + p7 = 0.583. 1.35
a) qk =
1.36
a) 21 . b) 16 .
1.37
(2n)! 2n
3 10·9·8
(10 − k)(9 − k), k = 1, . . . 8,
Esercizio 1.48
1.38
107
n!.
1.41 La probabilità di estrarre palline dello stesso colore è 49 , quella di estrarre palline di colori diversi 95 ed è più grande.
1.42
a)
(10)(110) (100)(110 10 ) = 0.404. b) 10 120 0 ≃ 8.16 · 10−15 . 120 ( 10 ) ( 10 )
1.43
a)
(51)(71)(1) . b) n = 5 oppure n = 6. (12+n 3 )
1.44
a) P(N) = 13 , P(R) = 41 , P(G) =
1.45
a)
1.46
a)
n
5 12 .
b1) 23 . b2) 76 .
30 (60 (45)(45) 10)( 0 ) = 0.013. b) 10 90 0 = 5.6 · 10−4 . 90 (10) (10)
3R → 2R e 1B → 1R e 2B → 3B →
1.47
a) 3 ×
1.48
a) 1 −
10 15 7 15 25 22 10 15 8 14 25 22 10 15 9 13 25 22 10 15 10 12 25 22
=
8 · 9 · 10 = 0.05 23 · 24 · 25
=
9 · 10 · 15 · 3 = 0.29 23 · 24 · 25
=
10 · 14 · 15 · 3 = 0.46 23 · 24 · 25
=
13 · 14 · 15 = 0.2 . 23 · 24 · 25
(10)(10)(10) (10)(10)(10) (102)(101)(101) = 0.492. b) 3 × 3 301 1 + 3 × 2 302 1 = 0.68. 30 (4) (5) (5) (4)(35) (04)(48 13) = 0.696. b) 1 − 0 3913 = 0.818. c1) 52 (13) (13) 4 48 4 48 4 48 3
c2) 1 3 1− r
0
13 52 13
−3
4 35 4 48 0 13 0 13 39 52 13 13
0
26 52 26
+
−3 1−
0
39 52 39
= 0.748 := r .
4 22 4 48 0 13 0 26 26 52 13 26
+
4 48 0 39 52 39
= 0.813
108
Parte 2: risultati degli esercizi proposti
(A è calcolata in c1). 1.49 a) Figura 1.1 a): 2p2 − p4 ; Figura 1.1 b): 2p2 + p − p4 − 2p3 + p5 . b) 2p2 + 2p3 − 5p4 + 2p5 . c) 1.1 a): 0.59, 1.1 b): 0.84, 1.2: 0.66. 1.50 a) Vero. b) Vero. c) Falso (possono essere indipendenti). d) Falso e) Falso. f) Vero. g) Vero. h) Falso. i) Vero. 13 2.25 a) 1 − 13 0 0.74 − 13 b) (1 − 0.28) = 0.014. 2 2
4 1 2 7
6 7
+
13 13 13 3 10 2 11 12 1 0.26 · 0.74 − 2 0.26 · 0.74 − 3 0.26 · 0.74
3
4 1 3 7
6 7
+
2.26
a)
2.27
a) ( 21 )n . b) 1 − ( 21 )n . c)
2.28
a) 49 . b)
2.29
a) E(T ) =
2.30
a) ( 23 )k , ( 31 )k . b) 3 ( 23 )k − 3 ( 31 )k ,
4n2 (3n−1)(3n−2) ,
1 3.07
1 2
4
4 1 4 7
= 0.46. b) 1 −
840 2401
= 0.45.
= 0.65.
n(n − 1)( 21 )n . d) 1 − (n + 1)( 21 )n . e)
2m 1 2m m (2) .
→n→∞ 49 .
· 104 = 3254.15. b) E(T ) =
k=4 0.56
k = 10 0.05
c) P(T = k) = ( 23 )k−1 − 2 ( 13 )k−1 , E(T ) =
1 2.06
· 104 = 4856. Cambia, cambia. . .
k = 20 9 · 10−4
11 2 .
λ(1−p) 1−(1−p)(1−λ) .
2.31
a) (1 − p)n . b)
2.32
X1n ∼ B(1, p), X1 . . . Xn ∼ B(1, pn ).
2.33 a) voto medio= 30 × 16 14 30 1 2 = 0.0116. 16 3 3
1 4
= 7.5,
16 14
30 1 16 4
3 4
= 0.0006. b) Voto medio= 10,
Esercizio 2.44
2.34 p 1−e(1−p)
2.35
ep (e−1+p) , 1 − 1e .
E(e−X ) = per p >
a)
109
eX non ha speranza matematica finita per p ≤ 1 − 1e , E(eX ) =
(25)(25)(25) = 0.2. b) (156)
6! 2! 2! 2!
( 31 )6 = 0.12.
2.36 a) {W1 = k, W2 = m} = {X1 = C, . . . , Xk−1 = C, Xk = T , Xk+1 = C, . . . , Xk+m−1 = C, Xk+m = T }; P(W1 = k, W2 = m) = p2 (1 − p)m+k−2 = p(1 − p)k−1 p(1 − p)m−1 1 , per 2.37 a) P(X + Y = k) = (k − 1)p2 (1 − p)k−2 , k = 2, 3, . . .. b) pX|X+Y (k|m) = m−1 1 m > k ≥ 1. c) = m−1 per ogni k = 1, . . . , m − 1. Tutti i possibili valori sono equiprobabili. 1 2.38 a) 16 per A, 18 per B. b) qi (1 − qi − q7 )n−2 , dove qi è la probabilità di ottenere i come 12−i+1 per i = 8, . . . , 12. c) somma del lancio di due dadi, qi = i−1 36 per i = 2, . . . , 7, qi = 36 2 P qi q7 + i6=2,7,12 qi +q7 = 0.465; conviene giocare come B.
2.39
a) (p2 + (1 − p)2 )n p(1 − p). b) 21 .
2.40
a)
1 50 .
a1) 83 . a2) È più probabile che si tratti di un dado equilibrato.
2.41 a) P(Y ≤ k) = ( nk )m . b) P(Y = k) = n1m (k m − (k − 1)m ), massima per k = n. c) k·...·(k−m+1) m , P(Y = k) = n·...·(n−m+1) (k − 1) · . . . · (k − m + 1), massima ancora P(Y ≤ k) = n·...·(n−m+1) per k = n. 1 2.42 a) P(X = k) = 16 per k = 1, . . . , 14, P(X = 15) = 18 ; E(X) = E(Y ) = 4, Var(Y ) = 0. c) 43 . b (mr )(k−m) ) 1 , = 15 per b = 7, r = 3, k = 2 e m = 2. b1) r+b (k ) b (r−1)(k−m ) 1 , = 36 per b = 7, r = 3, k = 2 e m = 2. 3, k = 2. b2) mr+b−1 ( k )
2.43
a)
2.44
a) p =
5 16 .
b2) p
n=3 = 0.34
11 32
n=4 = 0.36
93 256
135 16 .
r b+r ,
=
b) P(Y = 4) = 1,
3 10
per b = 7, r =
110
2.46
Parte 2: risultati degli esercizi proposti
a) E(X) = E(X 3 ) = 0. b) 1 PY |X (r|k) = 2 0
se r = k 2 + 1 oppure r = k 2 − 1 altrimenti;
¯ |X = k) = k 2 . c) a = 0. E(Y 2.47 a) P(X = k |X + Y = n) = nk 21n che è una legge binomiale B(n, 21 ); la speranza condizionale vale 21 . b) Cov(X + Y, X + Z) = Var(X) = λ; ̺X+Y,X+Z = 21 . c) P(X + Y = 4 5 3 2, X + Z = 3) = e−3λ λ2 + λ2 + λ12 . 2.48
a) Falso. b) Falso. c) Vero. d) No. e) Falso.
2.49 a) k0 ≥ 61. b) Usando un software adatto si trova che la probabilità che una v.a. binomiale B(100, 23 ) assuma valori < 61 (ovvero ≤ 60) vale 0.1. 2.50
1−p . a) H (pλ ; pλ0 ) = λ log λλ0 +λ0 −λ. b) H (µp ; µp0 ) = n p log pp0 +(1−p) log 1−p 0
2.52
a) P(X = 3) =
1 2.
5√ . 128 2
b) E(X) = 21 , Var(X) = 1. c) X + Y è geometrica di parametro
2.53
P(SN = 0) = e−λ(1−p) , P(SN = 1) = λp(1 − p)e−λ(1−p) .
2.51
a) Binomiale negativa di parametri p, α + β. b) E(X) = α
3.35
b) e− 4 = 0.001.
3.36
Y è esponenziale di parametro λ. fZ (t) = 3t 2 e−λt per t > 0.
1−p p ,
Var(X) = α
1−p . p2
27
3
3.37 a) FX (x) = x θ per 0 ≤ x ≤ 1, = 0 per x ≤ 0 e = 1 per x ≥ 1. b) P(X ≥ 3) = 0, θ P(X ≤ 31 ) = 3−θ . c) Y è esponenziale di parametro θ . d) E(X) = θ+1 , Var(X) = (θ+1)θ2 (θ+2) .
Esercizio 3.50
α
θ 3.38 a) F (t) = 1− (θ+t) α . b) Speranza matematica = per α > 2.
3.39
a) fY (t) = √1 π
1−t 2
, −1 ≤ t ≤ 1. b) fY (t) =
nel caso a), E(Y ) = − 21 nel caso b). 3.40 a) E(X) = 0, Var(X) = di parametro λ.
2 . λ2
θ α−1
1 π
per α > 1, varianza =
111
αθ 2 (α−1)2 (α−2)
(1 − t)1/2 (1 + t)−1/2 . c) E(Y ) = 0
b) αX è di Laplace di parametro
λ |α| ,
|X| è esponenziale
3.41 a) P(X∗ ≤ t) = 1 − (1 − t)n , fX∗ (t) = n(1 − t)n−1 , 0 ≤ t ≤ 1. b) fX∗ (t) = nt n−1 . 1 n , E(X∗ ) = n+1 .0≤t ≤1 d) E(X ∗ ) = n+1 3.42
FY (t) = 0 se t ≤ 0, FY (t) = 1 − e−λt se 0 ≤ t < M, FY (t) = 1 se t ≥ M. No.
3.43
a) 0.9772. b) 0.0668. c) 0.4772. d) 0.5763.
3.44
a) 8(−2.66) = 0.0038. b) 0.54. c) 0.9.
3.45
a) FX∗ (t) = 8(t)n . b) 0.226. c) n ≥ 271. d) 1 − 3.14 · 10−8 .
3.46
a) 0.0227. b)
3.47
α = 41 , λ =
1 4
3.48
a) fW (t) =
c −3/4 −t e , 2t
√ 1 −2 2 2e
= 0.03.
nel primo caso e α = 4, λ = 4 nel secondo. che è una Ŵ( 41 , 1). b)
2 . Ŵ( 41 )
c) E(X) = 0, Var(X) =
Ŵ( 43 ) . Ŵ( 41 )
3.49 a) 1 − e−1 per α = 1, 1 − 2e−1 per α = 2, 1 − 25 e−1 per α = 3. b) = 8(1.414) − 8(−1.414) = 0.843 per α = 21 ; = − 13 e−1 + 8(1.414) − 8(−1.414) = 0.423 per α = 23 ; Ŵ( 2 ) 1 1 −1 e + 8(1.414) − 8(−1.414)(1) = 0.151 per α = 25 . =− 3 5 + Ŵ( 2 )
3.50
Ŵ( 2 )
a) fY (t) =
2
2n/2 Ŵ( n2 )
t n−1 e−t
2 /2
n+1 2 √ √ Ŵ( n+1 ) Ŵ( ) . b) E( X) = 2 Ŵ( n2 ) , Var(Y ) = n − 2 Ŵ( n2 ) ; 2
2
112
Parte 2: risultati degli esercizi proposti
per n = 3 E(Y ) =
√ 2√ 2 ,Var(Y ) π
= 3 − π8 ; per n = 4 E(Y ) =
3.51
fZ (t) = e−2λt (2λ2 t + 2λ3 t 2 ), E(Z) =
3.52
a) E[ X1 ] =
b) g(t) = 3.53
λα Ŵ(α)
λ α−1 per α > t −(1+α) e−λ/t .
a1) Ŵ(α, λ). a2)
1 λ
1. Var( X1 ) =
√ 3 2 4
√
π, Var(Y ) = 4 −
9 8
π.
5 4λ .
λ2 (α−1)2 (α−2)
per α > 2.
qβ . b1) Ŵ(100, 100). b2) a = 0.81, b = 1.2.
3.54 a) g è ancora esponenziale di parametro λ. b) g(x) = 21 (λ + λ2 x)e−λx . c) g è di Pareto di parametri α − 1 e λ. 3.55
b) 3. c) 6.
3.56
a1) F (x) =
1
eλt 1 − 21 e−λt 2
se t ≤ 0 se t ≥ 0 .
a2) Se X è uniforme su [0, 1], allora F −1 (X) è di Laplace di parametri λ, dove F −1 (y) = log(2y) per y ≤ 21 e F −1 (y) = − λ1 log(2(1 − y)) per y ≥ 21 . b) Se X è uniforme su [0, 1], allora F −1 (X) è di Weibull di parametri β e λ se F −1 (y) = 1/β . − λ1 log(1 − y)
1 λ
3.57 a) µ = − 21 σ 2 . b) X1 X2 è lognormale di parametri µ1 + µ2 e σ12 + σ22 . c) Lognormale di parametri 0 e σ 2 .
3.58
a) m(t) =
λ2 , λ2 −t 2
t ≤ λ. b) mY −W (t) =
λ2 , λ2 −t 2
Y − W è di Laplace di parametro
λ. c) |Y − W | è esponenziale di parametro λ, E(|Y − W |) = 2 = m′′X (0) = Var(X). λ2 α θ+t ,
3.59
r(t) =
3.60
a) fZ (t) = 2λe−λt (1 − e−λt ). b) E(Z) =
d) mZ (t) =
2λ λ−t
−
1 λ.
d) 0 = m′X (0) = E(X),
decrescente in t; no.
2λ 2λ−t .
3 2λ ,
Var(Z) =
5 . 4λ2
c) r(t) = 1 −
1 ; 2eλt −1
sì.
Esercizio 3.71
3.61
113
a = E(X).
1 (z − a)2 + (b − z)2 . b4) 3.62 b1) 21 (b + a). b2) m = 21 (b + a). b3) E[|X − z|] = 2(b−a) z = 21 (b + a). c) E(X) = λ1 , m = λ1 log 2, E[|X − z|] = z − λ1 1 − 2e−λz , z = λ1 log 2. 3.63 a) Se X è una v.a. di densità f , E(X) = ψ ′ (0), Var(X) = ψ ′′ (0). b2) Se Y è una v.a. di densità fγ , E(Y ) = ψ ′ (γ ), Var(Y ) = ψ ′′ (γ ). b3) ψ ′′ (γ ) = Var(X) ≥ 0. b4) fγ ∼ N(σ 2 γ , σ 2 ). b5) fγ ∼ Ŵ(α, λ − γ ). b6) fγ (x) = 3.64
λ2 −γ 2 2λ
a) 1 −
r2 . R2
e−λ|x|+γ x , mγ (t) =
b1) 1 −
r2 n . R2
λ2 −γ 2 . λ2 −(t+γ )2
b2) 1 −
r2 n nR 2
2
→e
− r2 R
.
6 1 , P(Y = 100) = 100 . a2) E(Y ) = 28. b1) 3.65 a1) P(Y = 20) = 43 , P(Y = 50) = 25 1 c = 20 π , l’area più probabile resta quella relativa al punteggio 20. b2) E(Y ) = 40.
3.66
1 e.
3.67 a) P(|X−Y | > λ1 ) = 1e . b) |X−Y | è esponenziale di parametro λ. c) gX−Y (t) = (di Laplace di parametro λ).
λ −λ|t| 2 e
3.68 a) c = 1. b) fX (x) = − log x per 0 < x < 1, Y è uniforme su [0, 1]; X e Y non sono indipendenti. d) P(Y > 2X) = 21 . 3.69
a) 31 . b) 31 . c) 13 .
3.70
X, Y ∼ Ŵ(1, 1).
3.71 a) X è esponenziale di parametro λ, fY (y) = di parametro λ. d) fX|Y (x|y) = λ2 x(y + 1)2 e−λx(y+1) ,
1 , (y+1)2
y > 0 b) Sì. c) Esponenziale
E[X|Y = y] =
2 λ(y + 1)
114
Parte 2: risultati degli esercizi proposti
3.72
a) Ŵ(α + β, λ).
λα+β α−1 (y − x)β−1 e−λy per 0 < x < y. Ŵ(α)Ŵ(β) x Ŵ(α+β) 1 x α−1 (1 − xz )β−1 . gX|X+Y (x|z) = Ŵ(α)Ŵ(β) z(z) α ¯ E(X|X + Y = z) = α+β z. La retta di regressione è x =
b) g(x, y) =
c) d)
3.73
c) 1 λ
α+x α+n+β .
b) E(X) =
α α+β ,
b = 0.
nα α+β .
λα+β uα−1 v α+β−1 v Ŵ(α)Ŵ(β) (1−u)α+1 exp −λ 1−u , per x > 0, y > 0. Ŵ(α+β) α−1 fU (u) = Ŵ(α)Ŵ(β) u (1 − u)β−1 cioè U ∼Beta(α, β). λα+β α+β−1 exp − λ v . fY |U (v|t) = Ŵ(α+β)(1−t) α+β v 1−t ¯ |U = t] = 1 (α + β)(1 − t). La retta di regressione di Y rispetto E[U λ
3.74 b)
¯ |X = x) = a) E(Z
az + b dove a =
a) g(u, v) =
d) (α + β)(1 − t) (cioè coincide con la speranza condizionale. . . ).
αŴ(α+β)Ŵ(β+k) . b) E(X) = a) pX (k) = Ŵ(β)Ŵ(α+β+k+1) ¯ finita se α ≤ 1. c) E(Y |X = k) = α+1
3.75
β α−1 , se α
aU èy =
> 1; X non ha speranza matematica
α+β+k+1
3.76
a) E(X) = E(Y ) = 2. b) P(Y ≥ X) = 49 .
3.77
a) fX (x) =
3.78
fX (x) =
3.79
a) g(u, v) =
3.80
a) P(X ≥ Y ) = 2−n . b)
αλx α−1 . (λ+x α )2
Ŵ( n2 + 21 ) √ Ŵ( n2 ) π n 1 8
α
b) fY |X (y|x) = (λ + x α )2 ye−y(λ+x ) . E[Y |X = x] = 1 2 n+1 2
(1+ xn )
·
(u2 − v 2 )e−u . b) gX−Y (v) =
f (t) =
2 λ+x α .
λ
λt 4 e λ −λt (1 + 2λt) 4 e
1 −|v| (1 + |v|). 4e
se t < 0 se t ≥ 0 .
3.81 a) E(X) = 0, Var(X) = 1. b) E[(X + Y )4 ] = 4! = 24. c) Sì X + Y + Z ha una densità continua, P(X + Y + Z ≥ 0) = 21 .
Esercizio 3.89
115
a) E(X) = 0, E(X 2 ) = 2, E(X 3 ) = 0. b) E[(X +Y )2 ] = 4, E[(X +Y )4 ] = 3·4! = 72.
3.82
3.83 a) φX (θ ) = sinθ θ . b) φY (θ ) = φX (θ )2 . X1 + X2 ∼ 2Y . 2
2
a) φ(θ ) = e−(θ1 +θ2 +θ1 θ2 ) ,
3.84
2(1−cos θ) . θ2
c) φ2Y (θ ) =
(1−cos2 θ+sin2 θ) 2θ 2
=
sin2 θ θ2
=
1 1 2 2 e− 3 (x1 +x2 −x1 x2 ) . f (x) = √ 2 3π
b) X12 ∼ Ŵ( 21 , 41 ). c) U1 ∼ N(0, 6), U2 ∼ N(0, 2); U1 e U2 ∼ N(0, 2) sono indipendenti. d) C non è una matrice definita positiva. . .
a) f (x) =
3.85
4 √
1
π 15
e− 15
1 8x12 +32x22 +8x1 x2 −4x1 −2x2 + 2
che per X2 = 41 . b3) 0.394.
C= b)
3.87 no.
3.88
. b1) − 18 . b2)
15 16 ,
sia per X2 = − 21
a) (X + Y, X + 2Y ) è congiuntamente gaussiana, centrata e di matrice di covarianza
3.86
− 23
t.
a) Sì. b1) No. b2) Sì. c) g(y, z) =
a) Var(X 2 ) = 2σ 4 . ψX2 (t) =
Z1 ∼ N(0, 3), Z2 ∼ N(0, 1). b2)
b3) Y12 + Y22 = Z12 + Z22 .
2
2 3
3 5
1 √ 2π 108
1 1−2σ 2 t
√2
1 13y 2 + 9z2 − 6yz . d) No, exp − 216
per t <
s
1 . 2σ 2
b1)
√
2 2 2 √ √ O= 2 2 2 2 2 2 Var(Z1 + Z2 ) = 20,
ψZ 2 +Z 2 = 1
q
1 , (1 − 6t)(1 − 2t)
,
per t ≤
1 · 6
3.89 a) x. b) yn . c) n = 4: 0.733, n = 8: 0.709. Le probabilità non cambiano passando da X1 a Xn .
116
Parte 2: risultati degli esercizi proposti
4.21 a) ( n1 Xn )n converge in probabilità verso la v.a. costante p. b) (Xn )n converge in probabilità verso la v.a. costante αλ .
4.23
a) 0.16.
1 200 ) = 0.134. b) 0.3233213; l’approssimazione di Poisson dà 0.3233236, 4.24 a) (1 − 100 l’approssimazione normale 0.3611695.
4.25 a) Probabilità di superare il test: 3.7 10−4 , di prendere un voto inferiore a 5: 0.2. b) 0.0166. c) p = 0.493. 4.26 a) Approssimazione normale: 0.51, risultato esatto (vedi Esempio 3.45): 0.55. b) 0.527. c) Skewness di X: 2 · 5−1/2 = 0.89, skewness di Y : 2 · 25−1/2 = 0.4. 4.27
a) 1 − 8(−1.167) = 0.878 (con correzione di continuità). b) n ≥ 3 378.
4.28
a) 0.067. b) 0.081.
4.29 1 2.
a) limn→∞ P(Xn ≤ n +
4.30
a) Vero. b) Vero. c) Vero.
4.31
a) Z¯ n →Pn→∞ 0. b) 0.88.
4.32
a) Sn →+ n→∞ N(0, 15). b) 0.22.
4.33
a) Sn →+ n→∞ N(0, 2). b) 0.017.
4.34
Yn → Ŵ( 21 , 2)
√ n) = 8(1) = 0.841, limn→∞ P(Xn ≤ n) = 8(0) = 21 . b)
Esercizio 5.17
4.35
a) E(log Xn ) = 0. b) Yn → 1 in probabilità. c) Wn → W , con W di densità 1 2 2 fW (t) = √ e−(log t) /(2(log 2) ) . 2π t log 2
4.36
b1) Wn ∼ Ŵ(n,
4.37
a) 0.0013. b) ∼ 10−9 . c) Sì, affidabile.
4.38
a) 0.16. b) n ≥ 66358. c) n ≥ 38959.
4.39
a) 1 − 8(0.816) = 0.21. b) 1 − 8(0.608) = 0.271.
117
√ + n). b2) Un →+ n→∞ N(0, 1). a) Yn →n→∞ N(0, 1).
4.40 a) (Zn )n converge in legge e in probabilità ad una v.a. che prende il valore 0 con probabilità 1. b) (Yn )n converge in legge e in probabilità ad una v.a. che prende il valore λ1 con probabilità 1.
4.41 a) (Mn )n converge in legge e in probabilità ad una v.a. che prende il valore 1 con probabilità 1. b) (Zn )n converge in legge ad una v.a. esponenziale di parametro 1. 4.42 a) (nYn )n converge in legge a una legge esponenziale di parametro 1. b) (nYn )n converge in legge ad una v.a. che prende il valore 0 con probabilità 1. −x
−x
4.43 Converge in legge alla f.r. F (x) = e−e . Se le Xi hanno f.r. F (x) = e−e , allora Mn ha f.r. F per ogni n. −α
4.44
a) c = α. b) Converge in legge ad una v.a. avente f.r. G(t) = e−t
4.45
Converge ad una v.a di funzione caratteristica φ(θ ) = e−|θ| , cioè di Cauchy.
per t > 0.
5.16 P1 è irriducibile ma non regolare, P2 e P3 sono regolari. Per P1 e P3 la distribuzione stazionaria è la probabilità uniforme. Per P2 la distribuzione stazionaria è ( 21 , 41 , 41 ). 5.17 a) P1 non è irriducibile, P2 è regolare. b) Per P1 si ha P2 (Xn = 1) = 0 per ogni n, per P2 limn→∞ P2 (Xn = 1) = 27 . c) No.
118
Parte 2: risultati degli esercizi proposti
5.18 a) 2 è transitorio, gli altri sono ricorrenti. La catena non è irriducibile. b) Ci sono 3α 3(1−α) 4(1−α) infinite distribuzioni stazionarie, della forma ( 2α 5 , 0, 5 , 7 , 7 ), 0 ≤ α ≤ 1. 5.19
a) La catena è regolare. b) ( 27 , 27 , 37 ), P1 (Xn = 3) ∼ 73 .
1 9 9 , 19 , 19 ). c) 17. d) Ora la catena è irriducibile ma non è 5.20 a) La catena è regolare. b) ( 19 1 4 1 più regolare. La distribuzione stazionaria è ( 18 , 9 , 2 ).
5.21
a) La catena è regolare. b) ( 27 , 27 , 37 ).
5.22 a) 1 e 2 sono transitori, 3, 4, 5 ricorrenti. b) 31 . c) (0, 0, 1, 0, 0), (0, 0, 0, 21 , 21 ) e (0, 0, 21 , 41 , 41 ), ad esempio.
5.23 a) Irriducibile ma non regolare. La distribuzione stazionaria è uniforme ed è reversibile. b) Ora la catena è regolare. La distribuzione stazionaria è sempre quella uniforme. c) 10.
5.24
a) 0.2. b) 31 ,
5.25
a) 1 1 0 1 2 2 30 P = 4 13 5 0 60 7 0
2 1 2
0 1 3
0 0 0 0
3 0
4
1 2
0
0 1 3
0 1 3
0
1 2 1 3
0
5 0 0 0
6 0 0
1 3
0
1 2
0
0 0
0
1 3
1 3 1 2
0 1
7 0 0 0 0 0 1 3
0
3 3 1 3 1 b) La catena è irriducibile ma non regolare. π = ( 18 , 81 , 16 , 16 , 8 , 16 , 16 ). c) La catena è 1 1 1 1 1 1,1 4 regolare. π = ( 9 , 9 , 6 , 6 , 6 , 6 9 ) d) 29 . La probabilità più piccola si ha per lo stato i = 1.
Esercizio 5.31
5.26
a)
0 1 0 1 0 1 31 (1 − p) p 1 P = 2 0 2 (1 − p) 3 0 0 4 0 0 60 (non dipende da p). c) 11(1−p) .
2 0 2 (1 − p) 3 p 3 5 (1 − p) 0
b)
6 11
119
3 0 0 1 (1 − p) 2 p 0
4 0 0 0 2 5 (1 − p) 1
1 per 5.27 a) La catena è irriducibile ma non regolare. b) La distribuzione stazionaria vale 24 1 1 gli stati negli angoli, 16 per quelli sui lati che non sono negli angoli, 12 per quelli in mezzo. c) 5 3 per gli stati negli angoli, 84 per quelli La catena è regolare. La distribuzione stazionaria vale 84 8 sui lati che non sono negli angoli, 84 per quelli in mezzo. d) La catena è irriducibile ma non 2 3 regolare. La distribuzione stazionaria vale 16128 per gli stati negli angoli, 16128 per quelli sui 4 lati che non sono negli angoli, 16128 per quelli in mezzo.
5.28 a) La distribuzione invariante vale La catena non è regolare. b) 14.
1 12
per gli stati 1, 5, 6, 7, 8, 9, 10 e
5 36
per gli altri.
5.29 a) pi,i+1 = (1 − p)(1 − Ni ), per 0 ≤ i ≤ N − 1, pi,i = p, pi,i−1 = (1 − p) Ni , per 1 ≤ i ≤ N, pij = 0 altrimenti. b) Irriducibile se p < 1, regolare se 0 < p < 1. c) πi = 2−N Ni (come per il modello di Ehrenfest, Esercizio 5.12 e non dipende da p). Per n grande l’urna è vuota con probabilità 2−N . i 5.30 b1) qi = (1 − p) Ni , pi = p N−i N , ri = p + N (1 − 2p). b2) la catena è irriducibile N i e regolare. b3) πi = i p (1 − p)N−i ; per n grande la proporzione di tempo in cui la l’urna è
stata composta di sole palline bianche (risp. rosse) è πN = pN (risp. π0 = (1 − p)N ). c) 5.31
a1) 0 1
P =3 0 0
1 0
0
2 3
0 1
0
2 3
0 0 1 3
0
NN N!
.
120
Parte 2: risultati degli esercizi proposti
a2) Irriducibile ma non regolare. a3) v0 = 81 , v1 = 83 , v2 = 38 , v3 = 81 . b1) 1
2 1 6
1 2 1 2 1 3
0
0 0 1
1 3 P = 1 0 2 6 0 0 21 21 b2) Irriducibile e regolare. b3) v0 = 18 , v1 = 38 , v2 = 83 , v3 =
5.32
b) ( 31 , 13 , 13 ). c) ( 27 , 27 , 73 )
5.33
b) p2
1+q 1−qp .
c) Se p =
3 4
1 8
(la stessa che in a3)).
con le condizioni proposte in realtà B ci guadagna. d)
35 13
5.34 b) La distribuzione stazionaria è l’uniforme π = ( 31 , 13 , 13 ). La catena è reversibile. 4α 1 4α c) 2 è assorbente, 1 e 3 sono transitori. d) π = ( 1+8α , 1+8α , 1+8α ), reversibile per ogni α, 1 1 0 ≤ α ≤ 2 ; π2 è minima per α = 2 . e) Se α > 0 limn→∞ P1 (Xn = 1) = π1 = 13 . Se α = 0 limn→∞ P1 (Xn = 1) = 0. 5.35 a) pN = p; la legge di Xn è data dal vettore a per ogni n ≥ 1. c) π = a d) Gli stati transitori sono quelli tali che ai = 0. Gli altri sono ricorrenti e formano un classe chiusa irriducibile.
5.37
a) Vero, b) falso, c) vero, d) falso, e) falso.