ˇ ˇ ˇ TEHNICKO VELEUCILI STE U ZAGREBU ˇ STRUCNI STUDIJ INFORMATIKE
VJEROJATNOST I STATISTIKA
Dr. Igor Urbiha, prof. vis. ˇsk.
Sadrˇza j 1 Predgovor
3
I
4
Deskriptivna statistika
2 Tab ela frekvencija, histogram, kumulativna funkcija
4
3 Aritmetiˇ cka sredina, mo d i medijan
11
4 Kvartil. Percentil. Kvantil
14
ˇ ebiˇsevljev teorem 5 Varijanca. arijanca. Standardna Standardna devijac devijacija. ija. C
17
6 Uspo Usporrediv ediva anje nje raz razliˇ liˇ citih itih mjere jerenj nja. a. Uspor spored ediv ivan anje je raz razliˇ liˇ citi c itih h rezu rezult ltat ata a
22
7 Linearna regresija
24
II
30
Vjero jatnost
8 Dogada j. Vjero jatnost
30
9 Diskretna sluˇ ca jn jna varijabla. Distribucija sluˇ ca jn jne varijable.
55
10 Funkcija vjero jatnosti. Funkcija distribucije vjero ja jatnosti
59
11 Oˇ ceki c ekiv vanje anje,, varija arijanc nca a i stan standa dard rdna na devi devija jaci cija ja disk diskre retn tne e sluˇ sluˇ cajne c ajne varij arijab able le
61
12 Diskretna uniformna distribucija
64
13 Bernoullijev p ok okus. Bernoullijeva shema. Binomna distribucija
68
14 Poissonova distribucija
72
15 Kontinuirana sluˇ ca jna varijabla
76
16 Nor Normalna lna (Gaussov sova) dist istribucija ija. Standardna norm ormalna lna dist istribu ibucija
78
17 χ2 –distribucija
83
III
84
Statistiˇ cki testovi
18 Testiranje hip oteze o oˇ cekivanju uz p oznatu varijancu
86
19 χ2 test
92
2
Sadrˇza j 1 Predgovor
3
I
4
Deskriptivna statistika
2 Tab ela frekvencija, histogram, kumulativna funkcija
4
3 Aritmetiˇ cka sredina, mo d i medijan
11
4 Kvartil. Percentil. Kvantil
14
ˇ ebiˇsevljev teorem 5 Varijanca. arijanca. Standardna Standardna devijac devijacija. ija. C
17
6 Uspo Usporrediv ediva anje nje raz razliˇ liˇ citih itih mjere jerenj nja. a. Uspor spored ediv ivan anje je raz razliˇ liˇ citi c itih h rezu rezult ltat ata a
22
7 Linearna regresija
24
II
30
Vjero jatnost
8 Dogada j. Vjero jatnost
30
9 Diskretna sluˇ ca jn jna varijabla. Distribucija sluˇ ca jn jne varijable.
55
10 Funkcija vjero jatnosti. Funkcija distribucije vjero ja jatnosti
59
11 Oˇ ceki c ekiv vanje anje,, varija arijanc nca a i stan standa dard rdna na devi devija jaci cija ja disk diskre retn tne e sluˇ sluˇ cajne c ajne varij arijab able le
61
12 Diskretna uniformna distribucija
64
13 Bernoullijev p ok okus. Bernoullijeva shema. Binomna distribucija
68
14 Poissonova distribucija
72
15 Kontinuirana sluˇ ca jna varijabla
76
16 Nor Normalna lna (Gaussov sova) dist istribucija ija. Standardna norm ormalna lna dist istribu ibucija
78
17 χ2 –distribucija
83
III
84
Statistiˇ cki testovi
18 Testiranje hip oteze o oˇ cekivanju uz p oznatu varijancu
86
19 χ2 test
92
2
1
Pred Predgo gov vor
Sadrˇzaj za j ovog nastavnog nas tavnog materija ma terijala la odgovara o dgovara sadrˇzaju za ju kolegija koleg ija Vjero V jerojatnos jatnostt i statistika statist ika koji ko ji se s e odrˇ o drˇzava zava na drudru go gojj ggodi odini ni struˇ str uˇcnog cnog studija stud ija informa inf ormatike tike i druge dru ge godine go dine struˇcnog studija stud ija raˇcunarst cuna rstva va na Tehniˇckom ckom veleuˇ vele uˇciliˇ cil iˇstu stu u Zagrebu. Z agrebu. Podijeljen je na tri dijela koji obuhva´ obuhva´caju caju sljede´ce ce cjeline: deskriptivna statistika, uvod u vjero jatnost jatnos t i uvod u statistiˇ sta tistiˇcke cke testove. U prvoj prvo j cjelini se obraduje deskriptivna statistika gdje su dani osnovni postupci p ostupci izraˇcunavanja cunavanja sumarnih podataka (aritmetiˇ cka cka sredina, mod, medijan, varijanca, stadardadna devijacija, kvartili, percentili) za zadani skup brojˇ bro jˇcanih canih podata p odataka, ka, kao i njihov grafiˇcki cki prikaz pri kaz (histogram, (histog ram, pravac regresije). regres ije). U drugoj cjelini cjelini je dan uvod u vjerojatnost, vjerojatnost, uvedene su sluˇ cajne cajne varijable varijable i obradene obradene neke diskretne diskretne (uniformna, binomna i Poissonova distribucija) i kontinuirane distribucije (normalna i χ2 distribucija). U tre´coj coj cjelini su obradena dva statistiˇcka cka testa (testiranje hipoteze o oˇcekivanju cekivanju uz poznatu varijancu i χ2 -test). Namjena Namjena materijala, materijala, koji prati predava predavanja nja i vjeˇ zbe, zbe, je upoznava upoznavanje nje studenata studenata s osnova osnovama ma vjerojatnosti vjerojatnosti i osnovama osnovama statistike uz minimum teorije ko ja je dovoljna za definiranje potrebnih p ojmova i za rjeˇ r jeˇsavanje savanje zadataka kao i izvor zadataka zadata ka te kao takav moˇze ze biti koristan svim studentima Tehniˇ ckog ckog veleuˇciliˇ ciliˇsta sta koji koj i u programu imaju ima ju isti ili sliˇcan can kolegij. Napomenuo bih da se skoro svi statistiˇcki cki izraˇcuni cuni sp omenuti u deskriptivnoj statistici mogu provesti na ve´ cini cini kalkulatora, dok se na boljim kalkulatorima nalaze programi za provodenje statistiˇckih ckih testova testova ili se oni mogu mo gu lako isprog i sprogramira ramirati. ti. Za sloˇzenije zenije statistiˇcke postupke postu pke posto pos toje je posebni po sebni statistiˇ statist iˇcki cki programsk pro gramskii paketi namijenjeni osobnim raˇcunalima cunalima (npr. Statistica), a mogu se koristiti i tabliˇcni cni kalkulatori (npr. Open Office Calc ili il i Microsoft Office Excel), ko ji imaju implementiranu implementiranu ve´cinu cinu potrebnih funkcija. Dr. Igor Urbiha, Ur biha, prof. vis. ˇsk., 2008.
3
Dio I
Deskriptivna statistika 2
Tabela frekvencija, histogram, kumulativna funkcija
Dani su brojevi y1 , y2 , . . . , y n . Neka se medu njima pojavljuje f 1 brojeva x1 , f 2 brojeva x2 , . . ., f r brojeva xr pri ˇcemu su brojevi x1 , x2 , . . . , xr medusobno razliˇciti. Brojevi x1 , x2 , . . . , xr su razredi i obiˇ cno su sortirani uzlazno (tj. vrijedi x1 < x2 < . . . < x r ), a brojevi f 1 , f 2 , . . . , f r su frekvencije . Prvi korak u sredivanju danih brojeva je izrada tabele frekvencija : x f
x1 f 1
x2 f 2
. .. xr . . . fr
Primijetimo da je suma svih frekvencija jednaka broju danih podataka n: f 1 + f 2 +
· · · + f = n r
Primjer 1. Dani su sljede´ci brojevi: 6, 4, 4, 1, 6, 2, 6, 4, 5, 6, 4, 2, 3, 5, 5, 2, 2, 4, 4, 5. Prebrojavanjem ustanovljavamo da su razredi 1 , 2, 3, 4, 5, 6 pri ˇcemu se broj 1 pojavljuje jednom, broj 2 pojavljuje ˇcetiri puta, broj 3 pojavljuje jednom, broj 4 pojavljuje ˇsest puta, broj 5 pojavljuje ˇcetiri puta i broj 6 pojavljuje ˇcetiri puta pa pripadna tabela frekvencija izgleda ovako: x 1 2 3 4 5 6 f 1 4 1 6 4 4 Grafiˇcki prikaz gornje tabele (u kojoj je frekvencija svakog podatka predstavljena pravokutnikom ˇcija je visina upravo jednaka toj frekvenciji) se zove histogram .
4
6 6 5 4 3 2 1
1
2
3
4
5
6
Na x–osi se navode sve razliˇcite vrijednosti danih podataka (i samo one), a na y–osi njihove frekvencije. U tabeli frekvencija se obiˇcno nalazi joˇs jedan redak s relativnim frekvencijama (u tabeli oznaˇcen s rf ), a to su frekvencije podijeljene brojem danih bro jeva. Op´cenito to izgleda ovako: x f rf
x1 f 1 f 1 n
x2 f 2
. .. xr . . . fr . . . f nr
f 2 n
U naˇsem primjeru imamo: x f rf
1 1
2 4
3 1
4 6
5 4
6 4
1 20
4 20
1 20
6 20
4 20
4 20
x f rf
ili
1 2 3 4 5 6 1 4 1 6 4 4 0.05 0.20 0.05 0.30 0.20 0.20
Tabeli se najˇceˇs´ce dodaje joˇs jedan redak koji opisuje kumulativnu funkciju (u tabeli oznaˇcen s cf ), a sastoji se od parcijalnih suma relativnih frekvencija: Op´cenito to izgleda ovako: x f
x1 f 1
x2 f 2
... ...
xr fr
rf
f 1 n f 1 n
f 2 n
...
f r n
cf
f 1 n
+
f 2 n
...
f 1 n
+
f 2 n
+
·· · +
f r n
5
Primijetimo da zadnji bro j u retku kumulativne funkcije mora biti toˇcno1 1 jer je to suma svih relativnih frekvencija: f 1 f 2 f r f 1 + f 2 + + + ... + = n n n n
· · · + f
r
=
n = 1. n
Oznaˇcimo k–ti broj u retku kumulativne funkcije s ϕk , tj. ϕk = f n1 + f n2 + + f nk . Kumulativna funkcija je R koja je odredena vrijednostima u zadnjem retku tabele frekvencija ovako: funkcija cf : R
·· ·
→
cf (x) =
0, ako je x < x 1 ϕk , ako je xk x < xk+1 1, ako je x xr
≥
≤
U naˇsem primjeru imamo: x f rf cf
1 2 3 4 5 6 1 4 1 6 4 4 0.05 0.20 0.05 0.30 0.20 0.20 0.05 0.25 0.3 0.6 0.8 1
cf ( 100) = cf ( 2) = cf (0) = cf (0.9) = 0, zbog 100, 2, 0, 0.9 < x 1 = 1 cf (1) = cf (1.5) = 0.05, jer je 1 = x1 1, 1.5 < x 2 = 2 cf (4) = cf (4.99) = 0.6, jer je 4 = x4 4, 4.99 < x 5 = 5 cf (6) = cf (6.5) = cf (10) = cf (100) = 1, zbog 6, 6.5, 10, 100 x6 = 6
−
−
−
≤ ≤
−
≥
Graf kumulativne funkcije u naˇsem primjeru izgleda ovako:
6 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1
1
2
3
4
5
6
1
Prilikom raˇcunanja se zbog greˇ saka zaokruˇzivanja moˇze dogoditi da umjesto 1 dobi jemo neki njemu bli zak br oj poput 0.998 ili 1.0003, u ovisnosti o toˇcnosti kojom provodimo raˇcunanje.
6
Zadaci Zadatak 1. Dani su brojevi: 4, 6, 6, 2, 1, 3, 2, 7, 3, 6, 3, 4, 1, 1, 2, 2, 7, 6, 6, 6. Odredite razrede, sastavite tabelu frekvencija s kumulativnom funkcijom, skicirajte histogram i graf kumulativne funkcije. Izraˇcunajte cf ( 1), cf (2), cf (5) i cf (8).
−
Rjeˇsenje. zadanih brojeva ima: 20 razredi: 1, 2, 3, 4, 6, 7 broj razreda: 6 tabela frekvencija i kumulativna funkcija: x f rf cf
1 2 3 4 6 7 3 4 3 2 6 2 0.15 0.2 0.15 0.1 0.3 0.1 0.15 0.35 0.5 0.6 0.9 1
−
cf ( 1) = 0, cf (2) = 0.35, cf (5) = 0.6, cf (8) = 1 histogram:
6 6 5 4 3 2 1
1
2
3
4
6
7
7
graf kumulativne funkcije relativnih frekvencija:
6 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1
1
2
3
4
5
6
7
Zadatak 2. Dani su brojevi: 2, 2, 2, 4, 4, 5, 6, 5, 2, 6, 3, 1, 5, 5, 5, 2, 3, 4, 1, 3. Odredite razrede, sastavite tabelu frekvencija s kumulativnom funkcijom, skicirajte histogram i graf kumulativne funkcije. Izraˇcunajte cf (0), cf (1), cf (4) i cf (7). Zadatak 3. Dani su brojevi: 4, 0, 5, 4, 8, 7, 2, 2, 3, 3, 5, 2, 1, 4, 8, 3, 1, 3, 1, 4, 2, 8, 2, 3, 8, 0, 1, 0, 1, 3, 2, 8, 7, 4, 2, 0, 1, 8, 1, 8. Odredite razrede, sastavite tabelu frekvencija s kumulativnom funkcijom, skicirajte histogram i graf kumulativne funkcije. Izraˇcunajte cf ( 2), cf (0), cf (4) i cf (10).
−
−
−
−
−
Uz pomo´c tabele frekvencija moˇzemo brzo saznati ukupan postotak zadanih bro jeva koji su manji od nekog broja, kao i njihov ukupan broj. x f
x1 f 1
x2 f 2
x3 f 3
... ...
xr−1 fr −1
xr f r
rf f n1 cf ϕ1
f 2 n
f 3 n
f r−1 n
f r n
ϕ2
ϕ3
... ...
ϕr−1
ϕr
Sada moˇzemo lagano, bez prebrojavanja, dobiti odgovore na sljede´ce osnovne tipove pitanja: Koliko ukupno podatka i koliki postotak podataka ima vrijednost 1. manju od ili jednaku b, X
≤b
2. ve´cu od a, X > a pri ˇcemu se sloˇzenija pitanja dobivaju kombiniranjem ova dva. ···+f k Budu´ci je ϕk = f 1 +f 2 + , to znaˇci da je nϕk broj podataka koji imaju vrijednost najviˇse xk . Dakle n odgovor na pitanje ”Koliko ukupno podataka ima vrijednost na jviˇse xk ?” je naprosto 2 n ϕk ili n cf (xk ).
·
2
·
Zbog greˇsaka zaokruˇzivanja ˇcesto ne´ cemo dobiti cijeli bro j, no on ´ce se jako malo razli kovati od prave vrijednosti ko ju onda ne´ ce biti problem odrediti.
8
·
Ako nas zanima postotak, a ne ukupan broj, onda je to 100 cf (xk ). Primjer 2. Sljede´ca tabela prikazuje srednje dnevne temperature ( o C) tijekom 28 dana. temp. (o C) -4 -2 1 2 3 5 7 8 9 f 1 2 2 3 1 1 3 6 2 rf 0.036 0.071 0.071 0.107 0.036 0.036 0.107 0.214 0.071 cf 0.036 0.107 0.179 0.286 0.321 0.357 0.464 0.679 0.75
10 5 0.179 0.929
13 2 0.071 1.000
(a) Koliki postotak promatranih dana i koji je njihov ukupan broj koji su imali srednju dnevnu temperaturu od najviˇse 5o C?
·
·
Medu promatranim danima njih 28 cf (5) = 28 0.357 = 9.996 imalo srednju dnevnu temperaturu od najviˇse 5 o C.
≈ 10, odnosno 100 · cf (5) = 35.7% je
Op´cenito, odgovor na pitanje ”Koliko ukupno podataka ima vrijednost najviˇse b?” (X Sliˇcno, ako nas zanima postotak, onda je to 100 cf (b).
·
≤ b) je n · cf (b).
(b) Koliki postotak promatranih dana i koji je njihov ukupan broj koji su imali srednju dnevnu temperaturu od najviˇse 0o C? Medu promatranim danima njih 28 cf (0) = 28 0.107 = 2.996 imalo srednju dnevnu temperaturu od najviˇse 0 o C.
·
·
≈ 3, odnosno 100 · cf (0) = 10.7% je
Ako nas zanima koliko podataka je imalo ve´cu vrijednost od nekog broja a (X > a), onda prvo nademo koliko podataka je imalo vrijednost najviˇse a i pomo´cu tog podatka dobijemo traˇzeni (oduznemo ga od broja svih podataka). Dakle odgovor na pitanje ”Koliko ukupno podataka ima vrijednost ve´ cu od a?” je n n cf (a) = n(1 cf (a)). Ako nas zanima postotak, a ne ukupan broj, onda je to 100 (1 cf (a)).
− ·
−
· −
(c) Koliki postotak promatranih dana i koji je njihov ukupan broj koji su imali srednju dnevnu temperaturu ve´cu od 6o C?
−
· −
·
Medu promatranim danima njih 28(1 cf (6)) = 28 (1 0.357) = 28 0.643 = 18.004 100(1 cf (6)) = 64.3% je imalo srednju dnevnu temperaturu ve´ cu od 6 o C.
−
≈ 18, odnosno
Ako nas zanima odgovor na pitanje ”Koliko ukupno podataka ima ve´cu vrijednost od a i manju od ili jednaku b?” (a < X b), onda je odgovor n(cf (b) cf (a)). Pripadni postotak je 100(cf (b) cf (a)).
≤
−
−
(d) Koliki postotak promatranih dana i koji je njihov ukupan broj koji su imali srednju dnevnu temperaturu ve´cu od 1o C, ali ne ve´cu od 11o C? Takvih dana ima 21, jer je 28(cf (11) promatranih dana.
− cf (1)) = 28(0.929 − 0.179) = 28 · 0.75 = 21, ˇsto ˇcini 75% svih
(e) Koliki postotak promatranih dana i koji je njihov ukupan broj koji su imali srednju dnevnu temperaturu jednaku 7o C?
9
Ovo je specijalan sluˇcaj prethodnog, ˇsto znaˇci da nas zanima bro j dana (i njihov postotak) koji su imali temperaturu ve´cu od 5 o C (to je razred koji prethodi zadanom) i ne ve´cu od 7 o C. Takvih dana ima tri, jer je 28(cf (7) cf (5)) = 28(0.464 0.357) = 28 0.107 = 2.996, ˇsto ˇcini 10.7% svih promatranih dana.
−
−
·
Naravno, traˇzeni podatak se moˇze direktno oˇcitati iz retka s relativnim frekvencijama (ako ga imamo na raspolaganju). Malo treba pripaziti u sluˇ caju kada je rijeˇ c o najmanjem razredu (pa od njega ne postoji manji), o u naˇsem primjeru je to 4 C. Da bismo izraˇ cunali broj dana i postotak dana koji su imali srednju o dnevnu temperaturu 4 C, primijetimo da je to isto kao da traˇzimo postotak dana koji su imali srednju temperaturu od najviˇse 4o C, ˇcime smo problem sveli na sluˇcaj (b), dakle broj takvih dana je 28cf ( 4) = 28 0.036 = 1.008 1, a postotak je 100cf ( 4) = 3.6%.
−
−
−
·
− ≈
−
upit ukupan broj postotak X b n cf (b) 100 cf (b) X >a n(1 cf (a)) 100(1 cf (a)) a < X b n(cf (b) cf (a)) 100(cf (b) cf (a))
≤
−
≤
−
−
−
Zadaci Zadatak 4. Zadana je sljede´ca tabela frekvencija: x f rf cf
−3 −2 −1
0 1 2 3 5 1 3 3 3 2 3 0.25 0.05 0.15 0.15 0.15 0.1 0.15 0.25 0.3 0.45 0.6 0.75 0.85 1
Koriste´ci se vrijednostima kumulativne funkcije relativnih frekvencija izraˇcunajte koliko ukupno podatka i koliko posto podataka ima vrijednost (a) (b) (c) (d)
−
−
ve´cu od 2, X > 2 manju od ili jednaku 2, X 2 ve´cu od 3 i manju od ili jednaku 1, jednaku 1, X = 1
−
≤
−3 < X ≤ 1
Zadatak 5. Zadana je sljede´ca tabela frekvencija: x f rf cf
−2 −1
1 2 3 4 5 2 4 2 2 5 4 1 0.1 0.2 0.1 0.1 0.25 0.2 0.05 0.1 0.3 0.4 0.5 0.75 0.95 1
Koriste´ci se vrijednostima kumulativne funkcije relativnih frekvencija izraˇcunajte koliko ukupno podataka i koliko posto podataka ima vrijednost (a) (b) (c) (d)
ve´cu od 2, X > 2 manju od ili jednaku 3, X 3 ve´cu od 1 i manju od ili jednaku 5, jednaku 0, X = 0
−
−
−
≤
−1 < X ≤ 5 10
3
Aritmetiˇ cka sredina, mod i medijan
Umjesto mnogo brojeva x1 , x2 , . . . , xn (n moˇze biti jako velik) mi bismo ˇzeljeli izraˇcunati nekoliko brojeva, ˇsto manje to bolje, koji bi nam dali neke korisne informacije o njima. Neki od takvih brojeva su aritmetiˇ cka sredina, mod i medijan.
Aritmetiˇ cka sredina Neka je dano n brojeva x1 , x2 , . . . , xn . Njihova aritmetiˇcka sredina , u oznaci x, se definira formulom: x=
x1 + x2 + n
···+x
n
.
Aritmetiˇcka sredina brojeva 1, 1, 1, 1, 1, 2, 2, 3, 3, 3, 4, 4, 4, 5, 5, 5, 5, 6, 6, 6 je jednaka: x=
1+1+1+1+1+2+2+3+3+3+4+4+4+ 5+5+5+5+6+6+6 68 = = 3.4 20 20
Ako su poznate frekvencije danih brojeva, x f
x1 f 1
x2 f 2
. .. xn . . . fn
onda se aritmetiˇcka sredina moˇze raˇcunati formulom: x=
· · · + f x · ·· + f
f 1 x1 + f 2 x2 + f 1 + f 2 +
n n
.
n
Aritmetiˇ cku sredinu bro jeva danim u tabeli frekvencija x 1 2 3 4 5 6 f 5 2 3 3 4 3 raˇcunamo ovako: x=
·
·
·
·
·
·
5 1+2 2+3 3+3 4+4 5+3 6 68 = = 3.4. 5+2+3+3+4+3 20
Mod Mod je onaj podatak u danom nizu brojeva x1 , x2 , . . . , xn koji se najˇceˇs´ce po javljuje i to barem dvaput. Niz brojeva moˇze imati jedan mod, viˇse modova ili niti jedan mod. Niz 2, 3, 3, 5, 7, 7, 7, 8, 9 ima jedinstveni mod 7. Niz 2, 3, 4, 5, 7, 8, 9, 11, 13 nema moda. Niz 2, 3, 3, 3, 5, 7, 7, 7, 8 ima dva moda: 3 i 7. U histogramu je mod odreden na jviˇsim pravokutnikom jer visina pravokutnika je proporcionalna s brojem pojavljivanja pripadaju´ceg podatka.
11
Primijetimo da je mod podatak koji nam da je viˇse informacija o zadanim podacima od aritmetiˇ cke sredine. Dok aritmetiˇcka sredina intuitivno predstavlja broj ”oko kojeg se gomila najviˇse podataka” (ˇsto ˇcak ne mora biti toˇcno), za mod znamo da je to bro j koji se najviˇse puta pojavljuje medu podacima. Pogledajmo primjer s dva niza brojeva koji imaju istu aritmetiˇcku sredinu i nadimo njihove pripadne modove. Primjer 1. Zadani su brojevi x1 = 16000, x2 = 4000, x3 = 4000, x4 = 4000. Njihova aritmetiˇcka sredina je 7000, a mod je 4000. Primjer 2. Zadani su brojevi x1 = 10000, x2 = 6000, x3 = 6000, x4 = 6000. Njihova aritmetiˇcka sredina je takoder 7000, a mod je 6000.
Medijan Neka su dani podaci x1 , x2 , . . . , xn sortirani uzlazno. Medijan , u oznaci x (”iks tilda ”) se ugrubo definira kao ”srednji broj” u nizu. Ako podataka ima neparan broj, tj. n = 2k + 1, onda je x = xk+1 , a to je upravo srednji broj u nizu. Ako podataka ima paran broj, n = 2k, onda nema srednjeg broja pa se x definira kao x +x srednja vrijednost srednja dva broja u nizu, tj. x = k 2 k+1 .
x=
srednji broj , n neparan = zbroj srednja dva broja , n paran 2
xk+1
xk +xk+1
2
, n = 2k + 1 , n = 2k
11, 11, 16 , 17, 25 x = x3 = 16
1, 4, 8, 8,10 , 16, 16, 19 x =
x4 +x5
2
=
8+10 2
=9
Ako bro jeva ima puno, onda je traˇ zenje medijana traˇ zenjem srednjeg broja ili srednjih brojeva u nizu nespretno, no ako imamo tablicu frekvencija s kumulativnom funkcijom na rasp olaganju, onda ga moˇzemo na´ci jako brzo. Mogu´ca su dva sluˇcaja.
• U retku s kumulativnom funkcijom postoji vrijednost koja je toˇcno jednaka 0.5, kao u sljede´coj tablici: x f rf cf
•
1 2 5 2 0.25 0.1 0.25 0.35
3 3 0.15 0.5
4 5 6 3 4 3 0.15 0.2 0.15 0.65 0.85 1
Medijan je u ovom sluˇ caju jednak srednjoj vrijednosti razreda kojoj pripada vrijednost kumulativne 3+4 funkcije 0.5 i sljede´ceg po redu razreda, u ovom sluˇcaju x = = 3.5. 2 U retku s kumulativnom funkcijom nema vrijednosti 0.5, kao u sljede´coj tablici:
x f rf cf
1 2 6 2 0.3 0.1 0.3 0.4
3 4 0.2 0.6
4 5 6 2 3 3 0.1 0.15 0.15 0.7 0.85 1
Medijan je u ovom sluˇ caju jednak onom razredu kojem pripada najmanja vrijednost kumulativne funkcije koja je ve´ca od 0.5, u ovom sluˇcaju x = 3.
12
Zadaci Zadatak 1. Dani su brojevi: 5, 1, 5, 3, 2, 3, 6, 5, 6, 1, 2, 5, 1, 6, 3, 1, 3, 4, 1, 6. Odredite razrede, sastavite tabelu frekvencija s kumulativnom funkcijom te pronadite mod(ove) i medi jan. Rjeˇsenje. zadanih brojeva ima: 20 razredi: 1, 2, 3, 4, 5, 6 broj razreda: 6 tabela frekvencija i kumulativna funkcija: x f rf cf
1 2 3 4 5 6 5 2 4 1 4 4 0.25 0.1 0.2 0.05 0.2 0.2 0.25 0.35 0.55 0.6 0.8 1
Medu danim brojevima se bro j 1 najviˇse puta pojavljuje (pripada ju´ca vrijednost u retku s frekvenci jama je najve´ca) pa je on jedinstveni mod. Broja 0.5 nema medu vrijednostima kumulativne funkcije pa traˇzimo najmanju od 0.5 ve´cu vrijednost. To je 0.55 koja pripada razredu 3 pa je medijan: x = 3.
Zadatak 2. Dani su brojevi: 3, 4, 1, 5, 6, 2, 4, 5, 3, 5, 1, 1, 2, 1, 4, 6, 1, 5, 4, 6. Odredite razrede, sastavite tabelu frekvencija s kumulativnom funkcijom te pronadite mod(ove) i medi jan. Zadatak 3. Dani su brojevi: 56, 65, 66, 60, 61, 66, 61, 63, 66, 61, 63, 57, 57, 64, 58, 57, 57, 65, 58, 67, 66, 58, 59, 57, 67, 57, 62, 66, 56, 62, 61. Odredite razrede, sastavite tabelu frekvencija s kumulativnom funkcijom te pronadite mod(ove) i medi jan.
13
4
Kvartil. Percentil. Kvantil
Medijan se moˇze opisati kao ”srednji broj” u nizu, ˇsto znaˇci da je to broj sa svojstvom da je pola zadanih brojeva, ili 50%, od njega manje. U nekim sluˇ cajevima mogu biti zanimljivi brojevi sa svojstvom da je od njih manje 25% ili 75% posto danih brojeva. Ta dva broja, u oznakama Q1 i Q3 redom, zajedno s medijanom (kojeg u ovom kontekstu oznaˇcavamo Q2 ) se zovu kvartili , pri ˇcemu je Q1 prvi, Q2 drugi, a Q3 tre´ci kvartil. Broj koji ima svojstvo da je neki proizvoljan postotak r zadanih brojeva od njega manje oznaˇcavamo P r – takve brojeve zovemo percentilima . Vrijedi: Q1 = P 25 , (”dvadesetpeti percentil”) x = Q2 = P 50 (”pedeseti percentil”) i Q3 = P 75 (”sedamdesetpeti percentil”).
Kvantil qs se definira preko percentila izrazom: qs = P 100s , dakle imamo npr. q0.5 = P 50 , q0.23 = P 23 . 1. kvartil: Q1 = P 25 = q0.25 medijan prve polovice podataka
2. kvartil: Q2 = P 50 = q0.5 = x medijan
3. kvartil: Q3 = P 75 = q0.75 medijan druge polovice podataka
Da bismo mogli brzo raˇcunati percentile, potrebno je prvo sastaviti tabelu frekvencija. x
x1
x2
x3
...
xm−1
xm
f
f 1
f 2
f 3
...
f m −1
f m
rf
f 1 n f 1 n
f 2 n f 1 +f 2 n
f 3 n f 1 +f 2 +f 3 n
...
f m−1 n f 1 +f 2 +···+f m−1 n
cf
...
f m n f 1 +f 2 +···+f m−1 +f m n
=1
Postupak nalaˇzenja proizvoljnog percentila (ili kvantila) je u biti jednak postupku nalaˇ zenju medijana (opisanog na stranici 12), tj. pedesetog percentila. Trebamo na´ ci percentil P r (tj. broj sa svojstvom da r% svih podataka nisu od njega ve´ci). Potraˇzimo gdje se u retku kumulativne funkcije nalazi bro j r/100 i neka radi jednostavnosti redak kumulativne funkcije u tabeli frekvencija izgleda ovako: cf ϕ1 (=
f 1 ) n
ϕ2
ϕ3
...
ϕm−1
ϕm (= 1)
Dakle, broj ϕk se u tabeli nalazi u retku kumulativne funkcije ispod razreda xk iz prvog retka. Razlikujemo dva sluˇcaja.
• Broj r/100 je jedan od brojeva u retku kumulativne funkcije, tj. r/100 = ϕ . Tada je k
P r =
xk + xk+1 . 2
• Broj r/100 se nalazi izmedu dvije susjedne vrijednosti ϕk < r/100 < ϕ k+1 . Tada je P r = xk+1 .
14
ϕk i ϕk+1 u retku kumulativne funkcije, tj.
Primjer 1. Potraˇzimo 35. percentil P 35 (tj. kvantil q0.35 ) uz pomo´c sljede´ce tabele. x f rf cf
1 5 0.25 0.25
2 2 0.1 0.35
3 4 5 6 3 3 4 3 0.15 0.15 0.2 0.15 0.5 0.65 0.85 1
35 Broj 100 = 0.35 se nalazi u retku kumulativne funkcije pa je traˇ zeni percentil P 35 u ovom sluˇcaju jednak srednjoj vrijednosti razreda kojoj pripada vrijednost kumulativne funkcije 0.35 i sljede´ceg po 2+3 redu razreda, u ovom sluˇcaju P 35 = q0.35 = = 2.5. 2
Primjer 2. Potraˇzimo 75. percentil P 75 (tj. kvantil q0.75 ) uz pomo´c sljede´ce tabele. x f rf cf
1 2 3 4 6 2 4 2 0.3 0.1 0.2 0.1 0.3 0.4 0.6 0.7
5 3 0.15 0.85
6 3 0.15 1
75 Broj 100 = 0.75 se ne nalazi u retku kumulativne funkcije pa je traˇzeni percentil P 75 jednak onom razredu kojem pripada najmanja vrijednost kumulativne funkcije koja je ve´ca od 0.75 (a to je 0.85), u ovom sluˇcaju P 75 = q0.75 = 5.
Iz definicije slijedi P 0 = q0 = x1 , a to je najmanji od zadanih brojeva. Stoti percentil P 100 = q1 nije definiran, no moˇzemo posebno definirati da je on jednak na jve´ cem od zadanih bro jeva (xm ) uve´can za 1, tj. P 100 = q1 = xm + 1. Primjer 3. Sljede´ca tabela prikazuje srednje dnevne temperature ( o C) tijekom 28 dana. temp. (o C) f rf cf
-4 1 0.036 0.036
-2 2 0.071 0.107
1 2 0.071 0.179
2 3 0.107 0.286
3 1 0.036 0.321
5 1 0.036 0.357
7 3 0.107 0.464
8 6 0.214 0.679
9 2 0.071 0.75
10 5 0.179 0.929
13 2 0.071 1.000
Pronadimo sve kvartile i percentil P 10 . 25 Prvi kvartil Q1 je jednak dvadesetpetom percentilu. Broja 100 = 0.25 nema u retku kumulativne funkcije pa traˇzimo prvi od njega ve´ ci, a to je 0.286. Toj vrijednosti kumulativne funkcije odgovara razred 2 i to je traˇzena vrijednost, tj. imamo Q1 = P 25 = 2.
Sliˇcno dobivamo da je medijan, odnosno drugi kvartil jednak P 50 = 8.
15
75 Broj 100 = 0.75 se nalazi u retku kumulativne funkcije pa je traˇzena vrijednost tre´ceg kvartila jednaka aritmetiˇckoj sredini pripadaju´ceg i sljede´ceg po vrijednosti razreda: Q3 = P 75 = 9+10 = 9.5. 2 10 Broja 100 = 0.1 nema u retku kumulativne funkcije pa traˇzimo prvi od njega ve´ci, a to je 0.107. Toj vrijednosti kumulativne funkcije odgovara razred 2 i to je traˇzena vrijednost, tj. imamo P 10 = 2.
−
Zadaci Zadatak 1. Zadana je sljede´ca tabela frekvencija: x f rf cf
−3 −2
0 1 2 3 4 1 2 5 3 2 3 4 0.05 0.1 0.25 0.15 0.1 0.15 0.2 0.05 0.15 0.4 0.55 0.65 0.8 1
Odredite 1. medijan x
2. prvi kvartil Q1 3. percentil P 75 4. kvantil q0.15
Zadatak 2. Zadana je sljede´ca tabela frekvencija: x f rf cf
−1
0 1 2 3 4 6 1 3 3 4 3 2 4 0.05 0.15 0.15 0.2 0.15 0.1 0.2 0.05 0.2 0.35 0.55 0.7 0.8 1
Odredite 1. medijan x
2. tre´ci kvartil Q3 3. percentil P 35 4. kvantil q0.75
16
−
5
ˇ Varijanca. Standardna devijacija. Cebiˇ sevljev teorem
Jedan od brojeva koji nam moˇze dati neku informaciju o zadanim brojevima x1 , x2 , . . . , xn je, kako smo vidjeli, njihova aritmetiˇcka sredina x: x=
x1 + x2 + n
···+x
n
.
Ono ˇsto ne znamo je koliko zadani brojevi odstupaju od x. Kvadratno odstupanje vj podatka xj od aritmetiˇcke sredine x se definira sa vj = (xj x)2 . Sada opet dobivamo mnogo brojeva i zato raˇcunamo aritmetiˇcku sredinu svih kvadratnih odstupanja koju oznaˇcavamo sa σ2 i zovemo varijanca (ili srednje kvadratno odstupanje):
−
σ2 =
v1 + v2 + n
···+v
n
=
(x1
− x)2 + (x2 − x)2 + · · · + (x − x)2 . n
n
Taj broj predstavlja srednje kvadratno odstupanje (ili rasprˇsenost ) zadanih brojeva oko njihove aritmetiˇcke sredine. Standardna devijacija σ je jednaka drugom korijenu varijance: σ=
√
σ2 =
− (x1
x)2 + (x2
− x)2 + ·· · + (x − x)2 . n
n
Primjer 1. Zadani su brojevi x1 = 16, x2 = 4, x3 = 4, x4 = 4. Njihova aritmetiˇcka sredina je x=
16 + 4 + 4 + 4 = 7, 4
pripadna kvadratna odstupanja su redom v1 = (x1 9 = v3 = v4 i varijanca je
− x)2 = (16 − 7)2 = 81, v2 = (x2 − x)2 = (4 − 7)2 =
− 7)2 + (4 − 7)2 + (4 − 7)2 + (4 − 7)2 81 + 9 + 9 + 9 σ = = = 27. 4 4 √ Standardna devijacija je jednaka: σ = 27 ≈ 5.20. (16
2
Primjer 2. Zadani su brojevi x1 = 10, x2 = 6, x3 = 6, x4 = 6. Njihova aritmetiˇcka sredina je x=
10 + 6 + 6 + 6 = 7, 4
pripadna kvadratna odstupanja su redom v1 = (x1 1 = v3 = v4 i varijanca je
− x)2 = (10 − 7)2 = 9, v2 = (x2 − x)2 = (6 − 7)2 =
− 7)2 + (6 − 7)2 + (6 − 7)2 + (6 − 7)2 = 9 + 1 + 1 + 1 = 3. 4 4 √ Standardna devijacija je jednaka: σ = 3 ≈ 1.73. σ2 =
(10
17
U sluˇcajevima kada ima puno razliˇcitih podataka s malim frekvencijama, nerijetko se podaci grupiraju po intervalima. Ovdje ´cemo cijeli interval u kojem se nalaze podaci ([0.2, 3.2]) podijeliti na 6 jednakih podintervala. Za aproksimaciju vrijednosti koje pripadaju nekom podintervalu ´cemo uzeti poloviˇste podintervala, a za frekvencije ´cemo uzeti broj podataka koji se nalaze u pojedinom podintervalu. Tako dobivamo manju i ˇcitljiviju tabelu, a aritmetiˇcka sredina, varijanca i standardna devijacija ovako grupiranih podataka se obiˇcno ne razlikuju mnogo od pravih vrijednosti. x 0.45 0.95 1.45 1.95 2.45 2.95 f 4 4 6 8 5 3 x
≈ 1.7,
σ2
≈ 0.5625, σ ≈ 0.75
6
8 7 6 5 4 3 2 1
0.45
0.95
1.45
1.95
2.45
2.95
Ako o nekim brojˇcanim podacima ne znamo niˇsta osim njihove aritmetiˇcke sredine i standardne devijacije, ˇ sevljevog teorema . onda na osnovu ta dva podatka ipak moˇzemo joˇs neˇsto saznati pomo´cu Cebiˇ ˇ Cebiˇ sevljev teorem. Neka su x aritmetiˇcka sredina i σ > 0 standardna devijacija nekog niza brojeva x1 , x2 , . . . , xn . Neka je r n broj brojeva iz zadanog niza x1 , x2 , . . . , xn tako da je xi x > kσ za neki broj k. Tada vrijedi:
≤
| − |
r
≤ kn2 .
(2)
n Ako je k = 3 onda imamo r se jedna devetina (oko 11%) od svih n podataka se nalazi izvan 9 , tj. na jviˇ intervala [x 3σ, x + 3σ], tj. barem se 89% od svih n podataka nalazu unutar tog intervala.
−
≤
n Ako je k = 2 onda imamo r se jedna ˇcetvrtina (25%) od svih n podataka se nalazi izvan 4 , tj. najviˇ intervala [x 2σ, x + 2σ], tj. barem se 75% od svih n podataka nalazu unutar tog intervala.
−
≤
Ako je k = 1 onda imamo r n, tj. mogu´ce je sve – da svi bro jevi budu izvan intervala (l = n) ili da svi brojevi budu unutar njega (l = 0).
≤
19
89% ili viˇse 75% ili viˇse
? x
?
− 3σ
x
?
− 2σ
x
−σ
x+σ
x
x + 2σ
? x + 3σ
Dakle aritmetiˇcka sredina x i standardna devijacija σ zajedno nam mogu dati dobar uvid u rasprˇsenost podataka oko njihove aritmetiˇcke sredine (ako je σ > 1). Koliko podataka se, u standardnim jedinicama, nalazi u intervalima [ 1, 1], [ 2, 2] i [ 3, 3]?
−
z=
x
−x ⇒ σ
[ 1, 1]s.j. = [x [ 2, 2]s.j. = [x [ 3, 3]s.j. = [x
− − −
−
−
x= x+z σ
·
− σ, x + σ] − 2σ, x + 2σ] − 3σ, x + 3σ]
ne moˇ ze se niˇsta konkretno re´ci barem 75% brojeva je unutar intervala barem 89% brojeva je unutar intervala
Primjer 5. Koji je najmanji interval oko aritmetiˇcke sredine x = 10 za koji sa sigurnoˇs´cu moˇzemo tvrditi da sadrˇzi barem 50% zadanih podataka, ako je σ = 1.75? Rjeˇsenje. ˇ sevljevog teorema i prema zahtjevu zadatka mora vrijediti Prema nejednakosti (2) iz Cebiˇ r
≤ n/k2 = n/2,
dakle k 2 = 2, tj. k = [7.525, 12.475].
√2 ≈ 1.414.
Traˇzeni interval je [x
20
− kσ,x + kσ] = [x − √2σ, x + √2σ] =
Zadaci Zadatak 1. Dani su brojevi: 4, 3, 1, 5, 5, 1, 6, 4, 6, 1, 4, 6, 2, 3, 3, 6, 6, 4, 3, 3. Odredite razrede, sastavite tabelu frekvencija s kumulativnom funkcijom te izraˇcunajte aritmetiˇ cku sredinu, varijancu i standardnu devijaciju. Rjeˇsenje. zadanih brojeva ima: 20 razredi: 1, 2, 3, 4, 5, 6 broj razreda: 6 tabela frekvencija i kumulativna funkcija: x f rf cf
1 2 3 4 5 6 3 1 5 4 2 5 0.15 0.05 0.25 0.2 0.1 0.25 0.15 0.2 0.45 0.65 0.75 1
aritmetiˇcka sredina: x = 3.8 varijanca: σ2 = x2 x2 = 17.3 14.44 = 2.86 standardna devijacija: σ = 1.69
−
−
Zadatak 2. Dani su brojevi: 6, 3, 2, 3, 2, 4, 6, 5, 6, 5, 4, 1, 4, 1, 4, 5, 3, 4, 2, 4. Odredite razrede, sastavite tabelu frekvencija s kumulativnom funkcijom te izraˇcunajte aritmetiˇ cku sredinu, varijancu i standardnu devijaciju. Zadatak 3. Dani su brojevi: 94, 97, 103, 103, 96, 104, 99, 100, 97, 102, 95, 102, 103, 103, 95, 101, 99, 102, 103, 102, 100, 97, 96, 99, 98, 98, 102, 103, 96, 94, 97. Odredite razrede, sastavite tabelu frekvencija s kumulativnom funkcijom te izraˇcunajte aritmetiˇ cku sredinu, varijancu i standardnu devijaciju. Zadatak 4. Koji je najmanji interval oko aritmetiˇcke sredine x = 12 za koji sa sigurnoˇs´cu moˇzemo tvrditi da sadrˇzi barem 60% zadanih podataka, ako je σ = 1.3?
21
6
Usporedivanje razliˇ citih mjerenja. Usporedivanje razliˇ citih rezultata Usporedivanje razliˇcitih mjerenja
Mjerenja iste veliˇ cine se mogu izvoditi razliˇcitim naˇcinima ili instrumentima i pojavljuje se potreba za jednostavnim postupkom usporedivanja rezultata razliˇcitih mjerenja. U takvoj situaciji imamo dva niza brojeva x1 , x2 , . . . , xn i y1 , y2 , . . . , ym i njima pripadaju´ce aritmetiˇcke sredine i standardne devijacije x, σx i y, σy . ˇ Zeljeli bismo ocijeniti koje mjerenje je bilo toˇcnije. To op´cenito nije mogu´ce odrediti, ali je za oˇcekivati da je toˇcnije ono mjerenje s manjim odstupanjima od aritmetiˇcke sredine (s manjim rasipanjem oko aritmetiˇcke sredine), tj. s manjom standardnom devijacijom. U primjeru koji slijedi to ne moˇzemo odmah napraviti, jer su vrijednosti u razliˇcitim mjernim jedinicama. Jedan naˇcin bi bio da jarde pretvorimo u metre, a drugi je da usporedimo omjere standardne devijacije i aritmetiˇcke sredine. Mjerenje kod ko jeg je taj omjer manji je preciznije. σx σy Dakle usporedujemo brojeve i i manji omjer odreduje preciznije mjerenje. x y Primjer 1. Dva niza mjerenja iste udaljenosti su dala sljede´ce podatke: mjerenje A: 105m, 98m, 92m, 107m, 101m (u metrima) mjerenje B: 109yd, 113yd, 107yd, 115yd, 111yd (u jardima; 1yd = 0.914m) Aritmetiˇ cka sredina i standardna devijacija tih dvaju mjerenja su redom: 5.3m ≈ 5.3m, σx ≈ 100.6m ≈ 0.053 σ 2.82yd x = 111yd, σ ≈ 2.82yd, ≈ ≈ 0.025 x 111yd
mjerenje A: x = 100.6m, σ mjerenje B:
Mjerenje B ima manji omjer i smatramo ga preciznijim. Zadatak 1. Dva niza mjerenja istog volumena su dala sljede´ce podatke: mjerenje A: 101.5l, 101.3l, 98.7l, 99.4l, 101.2l (u litrama) mjerenje B: 26.1gal, 26.1gal, 25.9gal, 26.7gal, 26.6gal (u galonima; 1gal = 3.7854l) Odredite koje je od ova dva mjerenja preciznije.
22
Usporedivanje razliˇcitih rezultata Tipiˇcna situacija u kojoj treba usporedivati razliˇcite rezultate su ispiti. Naime, ve´ ci broj dobivenih bodova ne znaˇci odmah i bolji uspjeh. Pogledajmo primjer. Marko je dobio 85 bodova na testu na kojem je prosjeˇcna vrijednost bodova svih kandidata bila x = 79, a σ = 8. Alen je dobio 75 bo dova na testu, koji ne mora provjeravati isto gradivo, a na kojem je x = 70, a σ = 5. Tko je postigao bolji rezultat od njih dvojice? Ne moˇzemo direktno usporedivati njihove bodove zbog razliˇcitih x i σ, ˇsto znaˇci da njihove rezultate moramo prevesti u standardne jedinice. Ako je x jedan od danih brojeva iz uzorka sa aritmetiˇckom sredinom x i standardnom devijacijom σ, onda se x prevodi u standardnu jedinicu z formulom z=
x
− x. σ
U primjeru imamo redom: Marko z = Alen z =
85−79 8
75−70 5
= 0.75
=1
U standardnim jedinicama ve´ca vrijednost oznaˇcava bolji rezultat pa zakljuˇcujemo da je Alen bolje rijeˇsio test. Zadatak 1. Na jednom drugom testiranju je Marko dobio 95 bodova na testu na kojem je prosjeˇcna vrijednost bodova svih kandidata bila x = 90, a σ = 6. Alen je dobio 86 bodova na testu, koji ne mora provjeravati isto gradivo, a na kojem je x = 80, a σ = 8. Tko je postigao bolji rezultat od njih dvojice?
23
7
Linearna regresija
Zadani su parovi brojeva: (x1 , y1 ),(x2 , y2),. . ., (xn , yn ). Postoji mogu´cnost da su te toˇcke grupirane oko nekog pravca, ˇsto bi znaˇcilo da postoji linearna povezanost (korelacija) izmedu nizova brojeva x1 , x2 , . . . , xn i y1 , y2 , . . . , yn . Jednadˇzba tog pravca, ko jeg zovemo pravac regresije je y = ax + b gdje su a i b nepoznati brojevi koje dobivamo metodom najmanjih kvadrata . Navedenom metodom dobivamo sljede´ce formule za traˇzene bro jeve a i b: n
xj yj
j =1 n
a=
− nx · y =
x2j
j =1
b=y
1 n
n
xj yj
j =1 n
1 n
− nx2
−x·y =
x2j
j =1
− x2
− · −
− ·
xy x y xy x y = , σx2 x2 x2
− ax,
1 gdje je xy = n
n
xj yj . Primijetimo da iz formule za b slijedi da se toˇcka (x, y) nalazi na traˇzenom pravcu.
j =1
Odstupanje zadanih podataka od pravca zadanog jednadˇzbom y = cx + d raˇcunamo po formuli n
1 nk
(yk
=1
− (cx
k
+ d))2 .
Broj izraˇcunat tom formulom zovemo srednje kvadratno odstupanje zadanih podataka od tog pravca. Pravac n 1 regresije je jedinstveni pravac kojem je srednje kvadratno odstupanje, (tj., (yk (axk + b))2 ) najmanje nk =1 mogu´ce.
−
Koeficijent korelacije r je mjera linearne povezanosti nizova brojeva x1 , . . . xn i y1 , . . . yn , a raˇcunamo ga prema formuli: n
r=
n
j =1
xj yj
j =1
x2j
− nx2
− nx · y
=
n
j =1
yj2
− ny2
xy
x y
− − · − x2
x2
y2
= y2
xy x y σx σy
− ·
Uvijek vrijedi: 1 r 1 i ˇsto je r bliˇzi broju 1, to su zadani nizovi brojeva bolje linearno povezani. Ako je r blizak nuli, onda je linearna povezanost slaba ili nikakva. Zgodno je znati da je predznak broja r isti kao i predznak koeficijenta smjera pravca regresije.
− ≤ ≤
||
24
r=
xy
x y
− − · − x2
x2
y2
= y2
−0.641 641,,
r 2 = 0.411
Srednje Srednje kvadratno kvadratno odstupanje je: 0.3767 =
n
1 nk
(yk
=1
− (ax
k
+ b))2 .
5 6 +
4 +
3
3
+
2
+
+
1
-
0 0
2
4
6
8
10
Posebno oznaˇcena cena toˇcka cka na pravcu ima koordinate koordi nate ( x, y ) = (6. (6.4, 2.6). Primjer 2. Dvije standardne standardne igra´ ce ce kockice, plavu i crvenu, crvenu, bacamo 11 puta. Neka Neka je xk broj koji je ”pao” na plavoj kockici u k–tom bacanju, a yk suma brojeva koji su ”pali” na plavoj i crvenoj kockici u k–tom bacanju. Na plavoj kockici su pali redom sljede´ci ci bro jevi: 3, 3, 2, 3, 4, 4, 2, 1, 1, 4, 3, a na crvenoj: 2, 2 , 3, 1, 4, 3, 2, 4, 1, 2, 4, 4, Nadite jednadˇ Nadite jed nadˇzbu zbu pravca pravc a regre re gresij sijee za toˇcke cke ( xk , yk ), k = 1, . . . , 11 i skicirajte ga u koordinatnoj ravnini zajedno za jedno sa toˇckama. ckama. Izraˇcunajte cuna jte koeficijent koefici jent korelaci ko relacije. je.
26
Zadaci Zadatak 1. Zadane su sljede´ce toˇcke: (14, 24.8), (12, 31.6), (14, 28), (17, 20.8), (18, 20.6), (17, 22.2), (20, 17.2), (17, 25.6), (22, 15.2), (21, 18.2) Nadite jednadˇzbu pravca regresije i skicirajte ga u koordinatno j ravnini zajedno sa zadanim toˇckama. Izraˇcunajte koeficijent korelacije. Zadatak 2. Dvije standardne igra´ce kockice, plavu i crvenu, bacamo 11 puta. Neka je xk broj koji je ”pao” na plavoj kockici u k–tom bacanju, a yk suma brojeva koji su ”pali” na plavoj i crvenoj kockici u k–tom bacanju. Na plavoj kockici su pali redom sljede´ci bro jevi: 4, 5, 4, 1, 2, 4, 2, 2, 6, 3, 3, a na crvenoj: 4, 5, 1, 3, 1, 6, 1, 5, 5, 1, 2, Nadite jednadˇzbu pravca regresije za toˇcke (xk , yk ), k = 1, . . . , 11 i skicirajte ga u koordinatnoj ravnini zajedno sa toˇckama. Izraˇcunajte koeficijent korelacije.
29
Dio II
Vjerojatnost 8
Dogadaj. Vjerojatnost
Zaˇceci teorije vjerojatnosti su stvoreni sredinom 17. stolje´ca, kada je francuski plemi´c Chevalier de M´er´e postavio nekoliko pitanja o vjerojatnosti nekih dogadaja prilikom kockanja Blaisu Pascalu. Na osnovu rasprave koja je uslijedila, Pascal i Pierre de Fermat su razvili osnove teorije vjerojatnosti. De M´er´e se kladio na sljede´ce dogada je:
• U ˇcetiri bacanja simetriˇcne kockice ´ce pasti barem jedna ˇsestica. • U dvadesetˇcetiri bacanja dviju simetriˇcnih kockica ´ce barem jednom pasti ˇsestica na obje kockice. Vidjet ´cemo kasnije kako moˇzemo izraˇcunati vjero jatnosti navedenih dogada ja. Teorija vjerojatnosti se bavi modeliranjem pro cesa ko jima nije mogu´ce unaprijed predvidjeti ishod, kao ˇsto je to npr. bacanje novˇci´ca na sluˇcajan naˇcin - znamo da ´ce pasti ili pismo ili glava, ali ne znamo sa sigurnoˇs´cu ˇsto ´ce toˇcno pasti u jednom bacanju. Mogli bismo re´ci da je bacanje novˇci´ca sluˇcajni pokus s dva mogu´ca ishoda koji su elementi skupa p,g .
{ }
Drugi primjer bi bio bacanje standardne igra´ce kockice sa ˇsest strana s jednim od brojeva 1 , 2, 3, 4, 5, 6 (ili odgovaraju´cim brojem toˇckica) na svakoj strani. Nakon ˇsto bacimo kockicu i nakon ˇsto ona mirno stane na horizontalnoj podlozi, njena gornja strana ´ce uvijek o dredivati jedan od bro jeva iz skupa 1, 2, 3, 4, 5, 6 (kaˇ zemo da je npr. ”pao” broj 5), ali ne moˇ zemo unaprijed znati koji od njih. Dakle na bacanje kockice takoder moˇzemo gledati kao na sluˇcajni pokus sa ˇsest razliˇcitih ishoda. Neka je A = 2, 3, 5 i ako bacanjem kockice padne broj 2, re´ci ´cemo da je nastupio dogadaj A. Svaki od brojeva koji mogu pasti na kockici se smatra elementarnim dogadajem (intuitivno, elementarni dogadaj se ne prikazuje preko jednostavnijih dogadaja, bilo zato ˇsto se to ne moˇze ili zato ˇsto nas to ne zanima), a skup svih elementarnih dogadaja Ω zovemo prostor elementarnih dogadaja .
{
{
}
}
Dogadaj se definira kao bilo koji podskup prostora elementarnih dogadaja Ω, tj. ako je A Ω, onda je skup A dogadaj. Broj elemenata skupa A oznaˇcavamo s A . Za dogadaj A ´cemo re´ci da je nastupio ako je ishod nekog sluˇcajnog pokusa jedan od elementarnih dogadaja iz A, npr. u primjeru s bacanjem kockice moˇzemo promatrati dogadaje A = pao je prost broj = 2, 3, 5 i B = pao je neparan broj = 1, 3, 5 pa ako je bacanjem kockice pao broj 2, onda je dogadaj A nastupio, a dogadaj B nije.
| |
{
{
}
⊆
}
Kako su dogadaji skupovi, onda je s njima mogu´ce obavljati skupovne operacije kao ˇsto su komplement, presjek, unija i razlika. Tako u gornjem primjeru moˇzemo npr. promotriti dogadaje A = Ω A = nije pao prost broj = 1, 4, 6 , A B = pao je neparan i prost broj = 3, 5 , A B = pao je neparan ili prost broj = 1, 2, 3, 5 i A B = pao je prost broj koji nije neparan = 2 .
∩ ∪ \
\
{
}
{ } {
} {}
30
Ω
Ω A
A
dogadaj A
dogadaj A
Ω
Ω A
B
presjek dogadaja A i B: A
A
∩B
B
unija dogadaja A i B: A
Ω
∪B
Ω A
B
A
\
B
\ ∪ (A ∩ B)
razlika dogadaja A i B: A B
A = (A B)
Primjer 1. Promotrimo sve mogu´ce ishode bacanja dvaju novˇci´ca. Na svakom od njih moˇze pasti ili pismo ili glava pa je prostor elementarnih dogadaja jednak Ω = pp,pg,gp,gg . (Radi jednostavnosti zamislimo da su novˇci´ci razliˇcite veliˇcine i da prvo zapisujemo ishod bacanja ve´ceg od njih.)
{
}
Primjer 2. Promotrimo sve mogu´ce ishode bacanja dviju standardnih kockica, crvene i plave. Jedan ishod je predstavljen uredenim parom brojeva (c, p) gdje prva komponenta para predstavlja broj koji je pao na crvenoj kockici, a druga komponenta predstavlja broj koji je pao na plavoj kockici. Prostor elementarnih dogadaja Ω je skup svih takvih parova brojeva Ω = (1, 1), (1, 2), . . . , (6, 6) kojeg se jednostavno moˇze prikazati sljede´com tabelom:
{
31
}
c p
\
1
2
3
4
5
6
1
(1, 1)
(1, 2)
(1, 3)
(1, 4)
(1, 5)
(1, 6)
2
(2, 1)
(2, 2)
(2, 3)
(2, 4)
(2, 5)
(2, 6)
3
(3, 1)
(3, 2)
(3,3)
(3,4)
(3,5)
(3,6)
4
(4, 1)
(4, 2)
(4,3)
(4, 4)
(4, 5)
(4, 6)
5
(5, 1)
(5, 2)
(5,3)
(5, 4)
(5, 5)
(5, 6)
6
(6, 1)
(6, 2)
(6,3)
(6, 4)
(6, 5)
(6, 6)
Sljede´ci dogada ji su oznaˇceni u gornjo j tabeli: A = manji od dva broja koji su pali je 3 = (3, 3), (3, 4), (3, 5), (3, 6), (4, 3), (5, 3), (6, 3) (oznaˇceni pravokutnicima) B = razlika ve´ceg i manjeg bro ja je 2 = (3, 1), (4, 2), (5, 3), (6, 4), (1, 3), (2, 4), (3, 5), (4, 6) (oznaˇceni ovalima) A B = elementarni dogada ji oznaˇceni pravokutnicima ili ovalima A B = elementarni dogada ji oznaˇceni pravokutnicima i ovalima
{
} }
{
∪ ∩
Primjer 3. Jedan ˇsahovski klub ima tri igraˇca K 1 , K 2 , K 3 medu kojima treba sluˇcajno izabrati dvojicu koji ´ce predstavljati klub na turniru. Sluˇcajni pokus se sasto ji od biranja dva igraˇca od njih tri. Svaki ishod je predstavljen dvoˇ clanim podskupom skupa K 1, K 2 , K 3 pa je prostor elementarnih dogadaja skup Ω = K 1 , K 2 , K 1, K 3 , K 2 , K 3 koji ima tri elemenata.
{{
}{
}{
}}
{
}
Primjer 4. Neka je sluˇ cajni pokus registriranje broja zahtjeva za prikazivanje odredene web stranice tijekom nekog odredenog vremenskog perioda (jedan minut, jedan sat, 24 sata, jedan mjesec...). Budu´ci je nepoznat maksimalni broj zahtjeva, najzgodnije je za prostor elementarnih dogadaja uzeti skup N0 = 0, 1, 2, 3, . . . koji je beskonaˇ can. Iako ´ce broj zahtjeva biti konaˇcan, teˇsko je, a i nepotrebno, ograniˇciti taj broj. Naravno, uvijek moˇzemo za gornju granicu uzeti neki jako veliki bro j za kojeg moˇzemo biti sigurni da nikad ne´ce biti dosegnut, ali pokazuje se da je to nepotrebno kompliciranje, a iz nekih teoretskih razloga je pogodnije za prostor elementarnih dogadaja uzeti navedeni beskonaˇcni skup.
{
}
Zbog toga se koristi malo drugaˇcija definicija prostora elementarnih dogada ja od navedene. Definicija. Prostor elementarnih dogadaja nekog sluˇ cajnog pokusa je skup Ω sa svojstvom da svakom ishodu pokusa odgovara toˇcno jedan element iz tog skupa i da razliˇcitim ishodima odgovaraju razliˇciti elementi tog skupa. Dogadaj je podskup prostora elementarnih dogadaja. Ako nije navedeno drugaˇcije smatrat ´cemo da je skup svih elementarnih dogada ja Ω konaˇcan skup.
32
Zadaci Zadatak 1. Napiˇsite prostor elementarnih dogada ja koji sadrˇzi sve ishode bacanja triju novˇci´ca. Odredite sljede´ce dogadaje: A = pala su barem dva pisma B = pale su najviˇse dvije glave A B =? A B =?
∩ ∪
Zadatak 2. Promotrimo sve mogu´ce ishode bacanja dviju standardnih kockica, crvene i plave. Jedan ishod je predstavljen uredenim parom brojeva (c, p) gdje prva komponenta para predstavlja broj koji je pao na crvenoj kockici, a druga komponenta predstavlja broj koji je pao na plavoj kockici. Odredite sljede´ce dogadaje: P p = produkt brojeva koji su pali na kockicama je prost broj P s = suma brojeva koji su pali na kockicama je prost broj A6 = suma brojeva koji su pali na kockicama je 6 Zadatak 3. U posudi se nalazi sedam zelenih i dvije ˇzute kuglice. Sluˇcajno se, bez vra´canja, jedna po jedna izvlaˇce dvije kuglice. Odredite prostor elementarnih dogadaja za navedeni sluˇcajni pokus. Kako bi izgledao ˇ ako kuglice vra´camo prostor elementarnih dogadaja ako bi u posudi bila samo jedna ˇzuta kuglica? Sto u posudu nakon ˇsto ih izvuˇcemo?
33
Klasiˇ cna definicija vjerojatnosti ’a priori’
{
}
Neka je Ω = ω1, ω2 , . . . , ωm prostor elementarnih dogadaja vezan uz neki sluˇ cajni pokus tako da su svi elementarni dogada ji, kojih mora biti konaˇcan bro j, jednako mogu´ci. Neka je A dogadaj, tj. A Ω. Tada se klasiˇcna definicija vjero jatnosti ’a priori’ dogadaja A definira formulom
⊆
| | | |
mA A broj povoljnih elementarnih dogadaja = = m Ω broj svih elementarnih dogadaja
P (A) =
(3)
gdje je mA = A broj elementarnih dogadaja od kojih se sastoji dogadaj A, a m = Ω broj svih elementarnih dogadaja iz prostora elementarnih dogadaja Ω ( Ω je broj elemenata skupa Ω). Naravno, da bi formula imala smisla, skup Ω mora biti konaˇcan.
| |
| |
| |
Svojstva vjerojatnosti 1. Direktno iz definicije se dobiva
|Ω| = 1 |Ω|
|∅| = 0 |Ω| 2. Za svaki dogadaj A vrijedi ∅ ⊆ A ⊆ Ω iz ˇcega zbog 0 = |∅| ≤ |A| ≤ |Ω| dobivamo (dijeljenjem s |Ω|) P (Ω) =
∅
i P ( ) =
sljede´ce: 0
≤ P (A) ≤ 1.
3. Ako su A i B dogadaji takvi da vrijedi A dobivamo P (A)
⊆ B, onda vrijedi |A| ≤ |B| odakle (dijeljenjem s |Ω|)
≤ P (B).
4. Ako je A
⊆ Ω dogadaj, onda je A = Ω \ A dogadaj suprotan dogadaju A i zbog |A| = |Ω| − |A| vrijedi |A| = |Ω| − |A| = 1 − P (A). P (A) = |Ω| |Ω|
5. Ako su A i B disjunktni dogadaji (A
∩ B = ∅), A, B ⊆ Ω onda vrijedi |A ∪ B| = |A| + |B| pa imamo
∪ B) = P (A) + P (B). 6. Neka su A i B dogadaji, A, B ⊆ Ω. P (A
Sada se zbog A B = A disjunktna (pa se moˇze primijeniti prethodna jednakost) dobiva
∪
∪ (B \ A) i ˇcinjenice da je ta unija
∪ B) = P (A ∪ (B \ A)) = P (A) + P (B \ A). Zbog B = (B \ A) ∪ (A ∩ B), ˇsto je takoder disjunktna unija, dobivamo: P (B) = P ((B \ A) ∪ (A ∩ B)) = P (B \ A) + P (A ∩ B), P (A
ˇsto zajedno s prethodnom relacijom da je sljede´cu formulu za vjerojatnost unije dva proizvoljna dogadaja (aditivna formula): P (A
∪ B) = P (A) + P (B) − P (A ∩ B). 34
Primjer 1. U posudi se nalazi sedam zelenih i tri plave kuglice. Iz posude se izvlaˇ ci jedna kuglica. Kolika je vjero jatnost da ´ce izvuˇcena kuglica biti zelene boje? Rjeˇsenje. Prostor elementarnih dogadaja je skup Ω = z1 , z2 , z3 , z4, z5 , z6 , z7 , p1 , p2 , p3 , a dogadaj ˇcija vjerojatnost nas zanima je A = z1 , z2 , z3 , z4 , z5 , z6 , z7 , . Broj povoljnih elementarnih dogadaja je mA = 7, broj svih dogadaja je m = 10 pa je vjerojatnost dogadaja A prema klasiˇcnoj formuli ’a priori’ jednaka
{
P (A) =
{
}
}
7 . 10
Primjer 2. Kolika je vjerojatnost da ´ce bacanjem standardne simetriˇcne kockice pasti broj ve´ci od 2? Rjeˇsenje. Prostor elementarnih dogadaja je skup Ω = 1, 2, 3, 4, 5, 6 , a dogadaj ˇcija vjero jatnost nas zanima je A = 3, 4, 5, 6 . Broj povoljnih elementarnih dogadaja je mA = 4, broj svih dogadaja je m = 6 pa je vjerojatnost dogadaja A prema klasiˇcnoj formuli ’a priori’ jednaka
{
P (A) =
}
{
}
4 2 = . 6 3
35
Principi prebrojavanja Klasiˇcna formula vjerojatnosti ’a priori’ je jednostavna, ali ˇcesto nije lagano prona´ci bro jeve koje treba u nju uvrstiti. U tome nam pomaˇzu principi prebrojavanja u kombinatorici. Ima ih dva: princip sume i princip produkta. princip sume Ako su A i B dogadaji koji ne mogu nastupiti istovremeno (tj. A B = ) onda dogadaj A B moˇze nastupiti na A + B naˇcina. (Princip sume vrijedi i ako je rijeˇc o konaˇ cno mnogo dogadaja koji u parovima ne mogu nastupiti istovremeno.)
∩
| | | |
∅
∪
Primjer 1. U tri posude se nalazi redom 19, 23 i 21 bombon. Na koliko naˇcina se moˇze uzeti jedan bombon iz svih tih posuda? Jedan bombon iz svih posuda se moˇze uzeti na 19 + 23 + 21 = 63 naˇcina. Primjer 2. Promatramo dva dogadaja prilikom bacanja simetriˇcne kockice: A = pao je broj ve´ ci od 3 = 4, 5, 6 , B = pao je paran prost broj = 2 . Kako niti jedan prost bro j ve´ ci od 3 nije paran, dogadaji A i B ne mogu nastupiti istovremeno (A B = ) pa vrijedi A B = A + B , tj. dogadaj A B moˇze nastupiti na 4 naˇcina.
{
∩
∅
}
{} | ∪ | | | | |
∪
princip produkta Ako su dogadaji A i B nezavisni, tj. mogu nastupiti neovisno jedan o drugom, onda kombinacije dogadaja A i B mogu nastupiti na A B naˇcina. (Princip produkta vrijedi i ako je rijeˇc o konaˇcno mnogo dogadaja koji su u parovima nezavisni.)
| |·| |
Primjer 3. U tri posude se nalazi redom 19, 23 i 21 bombon. Na koliko naˇ cina se mogu uzeti tri bombona, po jedan iz svake od tih posuda? Tri bombona, po jedan iz svake od tih posuda, se moˇze uzeti na 19 23 21 = 9177 naˇcina.
· ·
Primjer 4. Promatramo dva dogada ja prilikom bacanja dviju simetriˇcnih kockica, plave i crvene: A = na plavoj kockici je pao paran broj = 2, 4, 6 B = na crvenoj kockici je pao neparan prost broj = 3, 5 Dogadaji A i B su oˇcito nezavisni (rezultat bacanja plave kockice nikako ne moˇze utjecati na rezultat bacanja crvene i obrnuto). Sve kombinacije dogadaja A i B se mogu prikazati preko skupa uredenih parova ( p,c), gdje je p elementaran dogadaj iz skupa A, a c elementaran dogadaj iz skupa B. Skup svih takvih kombiniranih dogadaja je kartezijev produkt skupova A i B, A B = (2, 3), (2, 5), (4, 3), (4, 5), (6, 3), (6, 5) i broj njegovih elemenata je A B = A B .
{
×
{
}
}
36
{ }
| × | | |·| |
Faktorijeli. Binomni koeficijenti. Permutacije. Kombinacije Uvedimo neke pojmove iz kombinatorike. Faktorijeli Umnoˇzak svih prirodnih brojeva od 1 do n se oznaˇcava n! i ˇcita se ”en faktorijela ” . Dakle imamo: n! = 1 2 3 . . . (n 1) n. Posebno se definira 0! = 1. Za n 0 vrijedi: (n + 1)! = (n + 1) n!
· · · · − ·
≥
·
Primjer 1. 1! = 1, 2! = 1 2 = 2, 3! = 1 2 3 = 6, 4! = 1 2 3 4 = 3! 4 = 24
·
· ·
· · ·
·
Binomni koeficijenti Za prirodne brojeve n i k, 0
≤ k ≤ n, binomni koeficijent n n! n · (n − 1) · . . . · (n − k + 1) = = . k k!(n − k)! 1 · 2 · . . . · (k − 1) · k Posebno se definira 0 = 1, za n ≥ 0 .
n k
(”en povrh ka ”) definiramo sa
n
Primjer 2.
5 5 4 = = 10, 2 1 2
· ·
9 4
=
9 8 7 6 = 126 1 2 3 4
· · · · · ·
Vrijedi sljede´ca relacija n n! = = k k!(n k)! (n
−
− (n −
n! k))!(n
− k)!
=
9 = 7
9
9
−7
=
· ·
9 9 8 = = 36, 2 1 2
−
koja nam ubrzava raˇcunanje binomnih koeficijanata
(n
n! k)!(n (n
16 14
=
n k
− − k))!
=
n
n
−k
kod kojih je n > n2 :
· ·
16 16 15 = = 120. 2 1 2
Permutacije Niz od n objekata se zove permutacija tih objekata. Npr. ABCDE , ACBED, DBCAE su tri permutacije od pet slova. Da bi izraˇcunali na koliko naˇcina moˇzemo n razliˇcitih ob jekata poredati u niz (tj. koliko ima permutacija od n razliˇcitih elemenata) uoˇcimo da prvi element niza moˇzemo izabrati na n naˇcina. Drugi element niza moˇzemo izabrati na n 1 naˇcin. Tre´ci element niza moˇzemo izabrati na n 2 naˇcina itd. Predzadnji element niza moˇzemo izabrati na dva naˇcina (jer su ostali elementi ve´c izabrani), a zadnji element niza je jednoznaˇcno odreden. Slijedi da n razliˇcitih elemenata moˇzemo poredati u niz na
−
−
n (n
· − 1) · (n − 2) · . . . · 2 · 1 = n!
razliˇcitih naˇcina.
37
Kombinacije Kombinacija od k elemenata n-teroˇclanog skupa je bilo koji njegov k-ˇclani podskup. Broj svih kombinacija n od k elemenata n-teroˇclanog skupa je . k
Medu deset igraˇca jednog ˇsahovskog kluba treba izabrati tim od njih ˇcetiri koji ´ce predstavljati klub na turniru. Na koliko naˇcina se moˇze izabrati ˇcetveroˇclani tim ako se na raspolaganju ima deset igraˇca? 10 10 9 8 7 Odgovor: ˇcetveroˇclani tim se moˇze izabrati na = = 210 naˇcina. 4 1 2 3 4
· · · · · ·
Primjer 3. U standardnom ˇspilu od 32 karte se nalaze karte od ”sedmice” do ”asa” u sve ˇcetiri bo je (pik, tref, herc i karo). Iz ovog ˇspila karata izvlaˇci se bez vra´canja na sluˇcajan naˇcin 5 karata. Izraˇcuna jte vjerojatnost da su od pet izvuˇcenih karata (a) sve karte iste boje, (b) dva ”deˇcka”, dvije karte vrijednosti manje od ”desetke” i pik ”as”, Rjeˇsenja. (a) Karata iste boje ima osam, a pet karata iste boje od njih osam moˇzemo dobiti na
· · · ·
8 5
=
8 3
=
8 7 6 = 56 razliˇcitih naˇcina. Boja imamo ˇcetiri pa je broj povoljnih ishoda jednak 4 56 = 224 1 2 3 32 32 31 30 29 28 Pet karata iz ˇspila od 32 karte moˇzemo izabrati na = = 201376 razliˇcitih 5 1 2 3 4 5 naˇcina. 224 Traˇ zena vjero jatnost je jednaka: 0.00111. 201376 4 4 3 (b) Dva ”deˇcka” od njih ˇcetiri moˇzemo izabrati na = = 6 razliˇcitih naˇcina. 2 1 2 Karte manje vrijednosti od ”desetke” su ”sedmice”, ”osmice” i ”devetke” kojih ukupno ima 4+4+ 12 12 11 4 = 12, dakle dvije karte vrijednosti manje od ”desetke” moˇzemo izabrati na = = 66 2 1 2 naˇcina. Pik ”as” je jedna konkretna karta pa je moˇzemo izabrati na jedan naˇcin. Pet karata iz 6 66 1 ˇspila od 32 karte moˇzemo izabrati na 201376 razliˇcitih naˇcina. Traˇzena vjerojatnost je: 201376 0.0019665.
≈
·
· · · · · · · ·
· ·
· · · · ≈
Zadaci Zadatak 1. Djeˇcak u lijevom dˇzepu ima 7, a u desnom 5 razliˇcitih staklenih kuglica. 1. Na koliko naˇcina moˇze izvu´ci jednu kuglicu iz svojih dˇzepova? Jednu kuglicu iz svojih dˇzepova moˇze izvu´ci na 7 + 5 = 12 naˇcina. 2. Na koliko naˇcina moˇze izvu´ci dvije kuglice, tako da jednu kuglicu izvuˇce iz lijevog, a drugu iz desnog dˇzepa? Iz lijevog dˇzepa jednu kuglicu moˇze izvu´ci na 7, a iz desnog na 5 naˇcina. Izvlaˇcenja su medusobno nezavisna pa dvije kuglica na opisani naˇcin moˇze izvu´ci na 7 5 = 35 naˇcina.
·
38
3. Na koliko naˇcina moˇze izvu´ci dvije kuglice iz svojih dˇzepova? 12 12 11 Dvije kuglice od njih 12 moˇze izvu´ci na = = 66 naˇcina. 2 1 2 4. Na koliko naˇcina moˇze izvu´ci po dvije kuglice iz svakog od svojih dˇzepova? 7 7 6 Dvije kuglice iz lijevog dˇzepa moˇze izvu´ci na = = 21 naˇcin. 2 1 2 5 5 4 Dvije kuglice iz desnog dˇzepa moˇze izvu´ci na = = 10 naˇcina. 2 1 2 Po dvije kuglice iz svakog od svojih dˇzepova moˇze izvu´ci na 21 10 = 210 naˇcina.
· · · ·· ·
·
Zadatak 2. U jedno j ladici se nalazi 19 koˇsulja, a u drugo j 7 kravata. Na koliko naˇcina se mogu kombinirati jedna koˇsulja i jedna kravata? Zadatak 3. Koliko nizova od ˇcetiri slova moˇzemo dobiti koriste´ci mala slova hrvatske abecede? Koristimo princip produkta jer izbor slova na jednom mjestu ne ovisi o izboru slova na drugom. Na svakom od ˇcetiri mjesta se moˇze na´ci trideset slova pa je traˇzeni broj jednak 30 30 30 30 = 304 = 810000.
· · ·
Zadatak 4. Na automobilskim registarskim tablicama se nalazi niz od ˇcetiri znamenke i dva velika slova engleske abecede (engleska abeceda ima 26 slova). Koliko je ukupno mogu´ce napraviti takvih registarskih tablica? ˇ Zadatak 5. Sifra za pristup nekoj bazi podataka mora imati barem 6 znakova, ali ne viˇse od 8 (znamenke i mala slova engleske abecede), pri ˇcemu barem jedan znak mora biti znamenka. Koliko je razliˇcitih ˇsifri na raspolaganju za pristup to j bazi podataka? Da bi izraˇcunali traˇzeni broj, primijenit ´cemo princip sume na broj ˇsifri od 6, 7 i 8 znakova. Promotrimo ˇsifre duljine 6. Primijetimo da je broj ˇsifri duljine 6 znakova koje imaju barem jednu znamenku jednak broju svih ˇsifri duljine 6 koje moˇzemo dobiti od slova i znamenaka umanjen za bro j svih ˇsifri duljine 6 koje moˇzemo dobiti samo od slova. Broj svih ˇsifri duljine 6 koje moˇzemo dobiti od slova (ima ih 26) i znamenaka (ima ih 10) dobivamo principom produkta: 36 6 . Broj svih ˇsifri duljine 6 koje moˇzemo dobiti samo od slova je 266 . Dakle, broj ˇsifri duljine 6 koje se mogu koristiti za pristup je: P 6 = 366 266 . Analogno dobivamo brojeve ˇsifri duljine 7 i 8: P 7 = 36 7 267, P 8 = 36 8 268 . Traˇzeni bro j ˇsifri je: P 6 + P 7 + P 8 .
−
− −
Zadatak 6. Izraˇcunajte 6!, 8! i 11!. Zadatak 7. Izraˇcunajte Zadatak 8. Izraˇcunajte
4 6 8 11 32 , , , , 0 3 3 4 4
i
52 . 5
4 7 8 11 30 , , , , 3 5 6 11 25
i
52 . 45
Zadatak 9. Ispiˇsite sve permutacije slova X,Y,Z . Zadatak 10. Na koliko se naˇcina mogu bez ponavljanja poredati znamenke od 1 do 6 u niz?
39
Zadatak 11. Koliko ima permutacija slova A,B,C,D,E,F,G,H,I,J ? Zadatak 12. Koliko ima nizova od osam bitova (bajtova) koji u sebi ima ju toˇcno tri jedinice? Zadatak 13. Imate po jednu kovanicu vrijednosti pet kuna, dvije kune, jedne kune, pedeset lipa, dvadeset lipa i deset lipa. Koliko razliˇcitih iznosa moˇzete dobiti pomo´cu tri kovanice? Zadatak 14. U ˇspilu od 32 karte se nalaze karte o d ”sedmice” do ”asa” (vrijednosti) u sve ˇcetiri boje (pik, tref, herc i karo). Iz ovog ˇspila karata izvlaˇcite na sluˇcajan naˇcin 5 karata. Izraˇcunajte vjero jatnost da su od pet izvuˇcenih karata (a) toˇcno dvije ”dame” i toˇcno tri ”sedmice”
4 2
Dvije dame od njih ˇcetiri moˇzemo izabrati na se, od njih ˇcetiri, mogu izabrati na
4 3
4 1
=
se, prema principu produkta, mogu izabrati na
razliˇcita naˇcina. Neovisno o tome, tri sedmice
razliˇcita naˇcina. Dakle dvije dame i tri sedmice 4 2
4 1
razliˇcitih naˇcina.
Ukupan broj naˇ cina na koje moˇ zemo odabrati pet karata od njih 32 je vjerojatnost jednaka
4 2
4 3
32 5
=
4 2
4 1
32 5
32 5
pa je traˇzena
·· 32 · 41 24 = · · ··303 ··429· 5· 28 201376 ≈ 0.000119
4 1 = 32 31 1 2
(b) toˇcno tri ”asa” i toˇcno tri herca Ako imam pet karata od kojih su tri ”asa” i tri herca, onda je to mogu´ce jedino ako je jedan od ”aseva” u hercu. Dakle u tih pet karata imamo: jedan ”as” u hercu (jedna mogu´cnost), joˇs dva 3 7 asa (od preostala tri – = 3 mogu´cnosti) i joˇs dva herca (od preostalih sedam – = 21 2 2 mogu´cnost). Dakle broj naˇcina na ko je moˇzemo dobiti takvih pet karata je 1 3 21 = 63. Traˇzena 63 vjerojatnost je 63 = 201376 0.0003. 32 5 (c) toˇcno tri iste boje i toˇcno ˇcetiri ”asa” Traˇ zena vjero jatnost je nula, jer prisustvo ˇcetiriju ”aseva” znaˇci da su prisutne sve ˇcetiri boje pa je uvjet nemogu´ce ispuniti. (d) toˇcno dva herca i toˇcno tri ”desetke” Razlikujemo dva sluˇcaja: niti jedna ”desetka” nije u hercu: Tri ”desetke” od kojih niti jedna nije u hercu moˇzemo 3 izabrati na = 1 naˇcin. Preostale dvije karte moraju biti u hercu, ali niti jedna ne smije 3 7 7 6 biti ”desetka” pa ih moˇzemo izabrati na = = 21 naˇcin. Ovakvih pet karata moˇzemo 2 1 2 dakle izvu´ci na ukupno 21 naˇcin.
· ·
≈
40
· ·
jedna ”desetka” je u hercu: Ako je jedna ”desetka” u hercu, onda preostale dvije moˇ zemo 3 3 izabrati na = = 3 naˇ cina. Od preostalih dviju karata, jedna mora, a druga ne 2 1 smije biti u hercu i niti jedna od njih ne smije biti ”desetka”. Kartu u hercu moˇzemo izabrati 7 na = 7 naˇcina, a onu drugu na 32 8 4 + 1 = 21 naˇ cin; od ukupno 32 karte njih 8 1 su u hercu ( 8), njih 4 su ”desetke” ( 4), a kako ima jedna ”desetka” u hercu, nju smo dva puta oduzeli zbog ˇcega je potreban +1 na kraju. Dakle ovakvih pet karata moˇzemo izvu´ci na 3 7 21 = 441 naˇcina.
− −
−
−
· ·
Pomo´cu principa sume dobivamo da je broj naˇcina na ko je moˇzemo dobiti pet karata iz zadatka 462 jednak 21 + 441 = 462. Traˇzena vjerojatnost je 201376 0.002294.
≈
(e) ˇcetiri karte iste vrijednosti (poker) Oznaˇcimo s N v broj naˇcina da od pet izvuˇcenih karata bude njih ˇcetiri iste vrijednosti v 7, 8, 9, 10,J,Q,K,A . Prema principu sume, broj naˇcina na koji moˇzemo dobiti poker je suma tih vrijednosti: N 7 + N 8 + N 9 + N 10 + N J + N Q + N K + N A . Izraˇcunajmo N v za proizvoljnu 4 vrijednost v. Broj naˇcina da izvuˇcemo ˇcetiri karte iste vrijednosti je , dakle 1. Peta karta 4 28 moˇze biti bilo koja od preostalih 32 4 = 28 pa nju moˇzemo izvu´ci na = 28 naˇcina. Dakle 1 imamo: N v = 1 28 = 28. Ukupan broj naˇ cina da dobijemo poker je 8 28 = 224 pa je traˇzena 224 224 vjerojatnost = 201376 0.00111. 32 5
{
∈
}
−
·
·
≈
(f) pet karata iste boje
· · · ·
8 8 8 7 6 = = = 56 naˇcina. Boja 5 3 1 2 3 ima ˇcetiri, pa se pet karata iste boje moˇze izvu´ci na 4 56 = 224 naˇcina. Traˇ zena vjero jatnost je 224 = 224 201376 0.00111. 32 5 Pet karata dane boje (od njih osam) se moˇze izvu´ci na
·
≈
Zadatak 15. U ˇspilu karata se nalaze karte o d ”sedmice” do ”asa” (vrijednosti) u sve ˇcetiri boje (pik, tref, herc i karo). Iz ovog ˇspila karata izvlaˇcite na sluˇcajan naˇcin 5 karata. Izraˇcunajte vjero jatnost da su od pet izvuˇcenih karata (a) toˇcno tri ”devetke” i toˇcno tri pika ; (b) toˇcno dvije ”devetke” i toˇcno tri ”sedmice” ; (c) toˇcno ˇcetiri iste boje i pik “as”, (d) toˇcno dvije “sedmice” i toˇcno dva pika, (e) toˇcno dvije iste boje i toˇcno ˇcetiri ”devetke”. (f) toˇcno tri “sedmice” i toˇcno tri pika. Zadatak 16. Imamo dvije kocke (na svakoj stranici po jedan broj od 1 do 6): jednu plavu i jednu crvenu. Izraˇcunajte vjerojatnost da ´ce u dva bacanja (istovremeno bacamo obje kocke) 41
(a) zbroj biti paran oba puta, (b) zbroj biti manji od 8 oba puta, (c) umnoˇzak biti neparan broj toˇcno jednom, (d) umnoˇ zak biti prost bro j barem jednom. Zadatak 17. U posudi imamo sedam plavih, tri zelene i pet crnih kuglica. Sluˇcajno izvlaˇcimo ˇcetiri kuglice. Izraˇcunajte vjero jatnost (a) da ´ce sve kuglice biti iste boje, (b) da ´ce barem dvije kuglice biti plave boje, (c) da ´ce biti izvuˇcene kuglice toˇcno dviju boja, (d) da ´ce sve kuglice biti razliˇcitih boja.
42
Aksiomi vjerojatnosti. Osnovna svojstva Neka je Ω neprazan konaˇcan skup i P funkcija koja svakom skupu A P zovemo vjerojatnost ako vrijede sljede´ca tri aksioma:
⊆ Ω pridruˇzuje realan bro j. Funkciju
⊆ Ω vrijedi P (A) ≥ 0. (P je nenegativna funkcija) Za svaka dva disjunktna skupa A, B ⊆ Ω vrijedi P (A ∪ B) = P (A) + P (B). (P je aditivna funkcija)
P 1 Za svaki A P 2
P 3 P (Ω) = 1 (P je normirana funkcija.) Pogledajmo neke posljedice ovih aksioma i dokaˇzimo neke ih.
∅
1. P ( ) = 0
⊆ B ⊆ Ω onda vrijedi P (A) ≤ P (B) i P (B \ A) = P (B) − P (A).
2. Ako je A
(monotonost vjerojatnosti) 3. Ako je A
⊆ Ω, onda vrijedi P (A) ≤ 1. 4. za proizvoljne A, B ⊆ Ω vrijedi P (A ∪ B) = P (A) + P (B) − P (A ∩ B). 5. Ako je A ⊆ Ω, onda vrijedi P (A) = 1 − P (A) Dokaz. 1. Ako uvrstimo A = Ω i B = traˇzena relacija P ( ) = 0.
∅
∅ u aksiom P 2, dobivamo P (Ω) = P (Ω) + P (∅), iz ˇcega direktno slijedi
2. Ako je A B, onda vrijedi B = A (B A). Dogadaji A i B A su disjunktni pa prema aksiomu P 2 vrijedi P (B) = P (A) + P (B A) iz ˇcega slijedi jedna od traˇzenih relacija. Prema aksiomu P 1 vrijedi P (B A) 0 pa vrijedi i druga traˇzena relacija.
⊆ \ ≥
\
3. Prema upravo dokazanom i zbog A traˇzene relacije.
∪ \
\
⊆ Ω dobivamo P (A) ≤ P (Ω). Primjena aksioma P 1 dovrˇsava dokaz
∪ B = A ∪ (B \ (A ∩ B)). Sada zbog A ∩ B ⊆ B i ve´c dokazanog dobivamo P (A ∪ B) = P (A) + P (B \ (A ∩ B)) = P (A) + P (B) − P (A ∩ B). 5. Skupovi A i A su disjunktni i vrijedi A ∪ A = Ω pa imamo P (A) + P (A) = P (Ω) = 1, tj. P (A) = 1 − P (A). 4. Vrijedi A
43
Raˇ cunanje vjerojatnosti dogadaja preko vjerojatnosti elementarnih dogadaja Problem izraˇcunavanja vjero jatnosti P (A) nekog dogadaja A (koji je podskup nekog prostora elementarnih dogadaja Ω) se sada svodi na definiranje funkcije koja zadovoljava aksiome P 1 , P 2 i P 3 (i koju onda nazivamo vjerojatnost). Jedan jednostavan naˇcin da se to uradi je da se odrede vjero jatnosti svih elementarnih dogadaja ω Ω prema prirodi zadatka. To znaˇci da svakom elementarnom dogadaju pridruˇzujemo neki broj, kojeg smatramo njegovom vjerojatnosti, paze´ci da budu ispunjeni svi aksiomi.
∈
Promotrimo primjer bacanja simetriˇcne kockice. Elementarni dogadaji su predstavljeni padanjem nekog od brojeva od jedan do ˇsest i vjerojatnosti svih tih elementarnih dogadaja su medusobne jednake.
{}
{}
{}
{}
{}
{}
P ( 1 ) = P ( 2 ) = P ( 3 ) = P ( 4 ) = P ( 5 ) = P ( 6 ) Kako suma svih tih vjerojatnosti odgovara vjerojatnosti P (Ω) dogadaja Ω koja prema aksiomu P 3 mora biti jednaka 1, onda vrijedi
{}
{}
{}
{}
{}
{}
{}
{}
{}
{}
{}
P ( 1 ) + P ( 2 ) + P ( 3 ) + P ( 4 ) + P ( 5 ) + P ( 6 ) = 1, odnosno
{}
P ( 1 ) = P ( 2 ) = P ( 3 ) = P ( 4 ) = P ( 5 ) = P ( 6 ) =
1 . 6
Primijetimo da vjerojatnosti elementarnih dogadaja moraju biti brojevi ve´ci od ili jednaki 0 i manji od ili jednaki 1, inaˇce ne bi vrijedio aksiom P 1 . Proizvoljan dogadaj A je podskup skupa koji se dobije kao unija svih elementarnih dogadaja: A
⊆ {1, 2, 3, 4, 5, 6} = Ω
Neka je dogadaj A pao je broj ve´ci od dva . Njegova vjerojatnost P (A) se lagano raˇcuna klasiˇcnom formulom a priori: broj povoljnih ishoda je ˇcetiri (pao je broj ve´ ci od dva, dakle 3 ili 4 ili 5 ili 6), a broj svih ishoda je ˇsest. Dakle P (A) =
4 2 = . 6 3
Uoˇcimo da vrijedi P (A) =
4 1 1 1 1 = + + + = P ( 3 ) + P ( 4 ) + P ( 5 ) + P ( 6 ). 6 6 6 6 6
{}
{}
{}
{}
Dakle vjerojatnost dogadaja je jednaka sumi vjerojatnosti svih elementarnih dogadaja od kojih se on sastoji, tj. preciznije: P (A) = P ( e1 ) + P ( e2 ) +
{ } { } ·· · + P ({e }), pri ˇcemu je A = {e1 , e2 , . . . , e }, tj. op´cenito vrijedi formula P (A) = P ({e}). k
k
e∈A
44
(4)
≥
Zbog nenegativnosti vjerojatnosti dogadaja vrijedi P (A) 0, ˇsto znaˇci da vrijedi aksiom P 1 . Primijetite da vrijedi i P (Ω) = 1, ˇsto znaˇci da je zadovoljen aksiom P 3 , ˇsto znaˇci da suma svih vjero jatnosti pridruˇzenih elementarnim dogada jima mora biti 1. Preostalo je joˇs da pokaˇzemo da vrijedi i aksiom P 2 , ˇsto je napravljeno u sljede´coj cjelini koja se bavi aditivnom formulom.
Aditivna formula Neka su dogadaji A i B disjunktni podskupovi prostora elementarnih dogadaja Ω. Tada se vjerojatnost dogadaja A B moˇze izraˇcunati pomo´cu vjerojatnosti dogada ja A i B, kao ˇsto se to moˇze vidjeti iz sljede´ceg primjera.
∪
Primjer 1. Neka je Ω = 1, 2, 3, 4, 5, 6 , tj. promatramo rezultate bacanja standardne kockice i A =pao je broj manji od 3= 1, 2 , B =pao je broj ve´ ci od 4= 5, 6 . Zanima nas vjerojatnost dogadaja A B = 1, 2, 5, 6 izraˇzena preko vjero jatnosti P (A) i P (B). Sada imamo:
{
P (A
}
{ } { }
∪
{
}
∪ B) = P ({1}) + P ({2}) + P ({5}) + P ({6}) = P (A) + P (B).
P (A)
P (B )
Dakle u ovom primjeru smo vidjeli da se vjerojatnost unije dvaju dogadaja moˇ ze izraˇ cunati preko vjerojatnosti tih dvaju dogadaja. ˇ Op´cenito bismo to pokazali ovako: neka su A ΩiB Ω disjunktni dogadaji (tj. A B = ). Zelimo izraziti P (A B) pomo´cu P (A) i P (B). Iz formule (4) i zbog ˇcinjenice da su dogadaji A i B disjunktni redom slijedi
⊆
∪
P (A
∪ B) =
e∈A∪B
{}
P ( e ) =
e∈A
{}
P ( e ) +
⊆
∩
∅
{}
P ( e ) = P (A) + P (B).
e∈B
Dokazali smo formulu P (A
∪ B) = P (A) + P (B), uz uvjet A ∩ B = ∅
(5)
i pokazali da vrijedi aksiom P 2 . Ovime smo ujedno pokazali da klasiˇcna formula raˇcunanja vjero jatnosti ’a priori’ predstavlja funkciju vjerojatnosti i da za nju vrijede sva svojstva koja smo dobili direktno iz aksioma. To znaˇci da u situacijama kada su vjerojatnosti svih elementarnih dogada ja medusobno jednake moˇzemo koristiti tu klasiˇcnu formulu. No, ˇzeljeli bismo formulu za P (A B) koja bi uvijek vrijedila, bez dodatnih uvjeta. Pogledajmo sljede´ ci primjer.
∪
Primjer 2. Neka je, kao i u prethodnom primjeru, Ω = 1, 2, 3, 4, 5, 6 i C =pao je broj ve´ci od 1 i manji od 5 = 2, 3, 4 ,
{
{
}
45
}
{
}
D =pao je broj ve´ ci od 2 i manji od 6= 3, 4, 5 . Zanima nas vjerojatnost dogadaja C D = 2, 3, 4, 5 . Sada imamo:
∪
{ } P (C ∪ D) = P ({2}) + P ({3}) + P ({4}) +P ({5}),
P (C )
iz ˇcega vidimo da traˇzenu vjerojatnost ne moˇzemo dobiti samo preko vjerojatnosti dogadaja C i D pa ´cemo dobiveni izraz malo preurediti:
∪
{ } { }
{}
{ }
{}
{ } −
{ } − P ({4})
P (C D) = P ( 2 ) + P ( 3 ) + P ( 4 ) + P ( 3 ) + P ( 4 ) + P ( 5 ) P ( 3 ) P (C )
P (D)
pri ˇcemu smo P (C D) izrazili preko P (C ) i P (D), ali i preko C D, slijedi:
∪
∩
∪
P (C D) = P (C ) + P (D)
−P ({3}) − P ({4}). Budu´ci je {3, 4} =
− P (C ∩ D).
Ovdje smo dobili da se P (C D) moˇze izraˇcunati pomo´cu P (C ), P (D) i P (C D), tj. vjerojatnost unije dvaju dogadaja se moˇze izraˇcunati preko vjerojatnosti tih dvaju dogada ja i vjerojatnosti njihova presjeka (ˇsto je takoder dogada j).
∪
∩
Pokaˇzimo da to uvijek vrijedi. Prikaˇzimo A B kao uniju dvaju disjunktnih dogadaja i primijenimo upravo dobivenu formulu (5). Ako dogadaji A i B nisu disjunktni, onda B sadrˇzi neke elemente koji se nalaze u A. Dogadaj B A se sastoji od svih elemenata iz B koji nisu u A. To znaˇci da su dogadaji A i B A disjunktni. Vrijedi A (B A) = A B. Sada moˇzemo primijeniti gornju formulu (5):
∪
\
\
∪ \ ∪ P (A ∪ B) = P (A ∪ (B \ A)) = P (A) + P (B \ A). S druge strane je B = (A ∩ B) ∪ (B \ A) i ta unija je disjunktna pa opet primjenom formule (5) imamo: P (B) = P (A ∩ B) + P (B \ A) ⇒ P (B \ A) = P (B) − P (A ∩ B). Sada koriˇstenjem zadnjih dviju dobivenih formula dobivamo vaˇ znu aditivnu formulu P (A
∪ B) = P (A) + P (B) − P (A ∩ B).
(6)
Aditivna formula vrijedi uvijek i to bez ikakvih uvjeta. Analogna aditivna formula za vjerojatnost unije triju dogadaja se dobije uz pomo´c aditivne formule za uniju dvaju dogadaja ovako: P (A
∪ ∪
∪ ∪ − ∩ − −
∪ − ∩ − ∩ −
− ∪ ∩ ∩ ∪ ∩ ∩ ∩ − ∩ ∩ ∩ C ))) = ∩ − ∩ ∩ ∩
B C ) = P ((A B) C ) = P (A B) + P (C ) P ((A B) C )) = = P (A) + P (B) P (A B) + P (C ) P ((A C ) (B C )) = = P (A) + P (B) + P (C ) P (A B) (P (A C ) + P (B C ) P ((A C ) (B = P (A) + P (B) + P (C ) P (A B) P (A C ) P (B C ) + P (A B C )
46
Zadaci Zadatak 1. Ante i Branko gadaju metu. Vjerojatnost da Ante pogodi metu u jednom gadanju je 12 , a da je Branko pogodi u jednom gadanju je 23 . Vjerojatnost da obojica pogode metu je 13 . Kolika je vjerojatnost da ´ce barem jedan od njih pogoditi metu u jednom gadanju? Promotrimo sljede´ce dogada je: A =Ante je pogodio metu, B =Branko je pogodio metu. Tada je: A B = i Ante i Branko su pogodili metu, A B = barem jedan od njih dvojice je pogodio metu. 1 2 Prema uvjetima zadatka imamo redom: P (A) = , P (B) = , P (A 2 3 Primjenom aditivne formule dobivamo:
∩ ∪
P (A
∩ B) = 13 . Traˇzimo P (A ∪ B).
∪ B) = P (A) + P (B) − P (A ∩ B) = 12 + 23 − 13 = 56 .
Dakle vjero jatnost da ´ce barem jedan od njih pogoditi metu u jednom gadanju je
5 6.
Zadatak 2. Baca se standardna igra´ca kockica sa ˇsest strana i promatraju se sljede´ci dogada ji: A = pao je prost broj = 2, 3, 5 i B = pao je neparan broj = 1, 3, 5 . Izraˇcunajte vjero jatnosti P (A), P (B) i P (A B) klasiˇcnom formulom (3), a nakon toga izraˇcunajte P (A B) pomo´cu aditivne formule.
{
∪
{
}
}
∪
Zadatak 3. Na drugoj godini veleuˇ ciliˇsta je provedena anketa o sportovima kojima se bave studenti. Ustanovljeno je da 50% studenata igra koˇsarku, 40% studenata igra nogomet i 30% studenata igra ˇsah. Koˇsarku i nogomet igra 17% studenata, nogomet i ˇsah igra 8% studenata, a ˇsah i koˇsarku igraju 15% studenata. Sva tri sporta igra 5% studenata. Pomo´ cu formule za vjero jatnost unije tri dogadaja odredite kolika je vjerojatnost da se sluˇcajno odabrani student druge godine veleuˇ ciliˇsta bavi barem jednim od ta tri sporta. Koliki postotak studenata se ne bavi niti jednim od ta tri sporta?
47
Uvjetna vjerojatnost Vjerojatnost da na kockici padne barem pet je, kako znamo, jedna tre´cina. Zamislimo sada da smo bacili kockicu i da nam netko kaˇze da je pao bro j ve´ci od dva. Situacija se sada mijenja jer je oˇcito da je vjerojatnost da je pao barem pet jednaka jednoj polovini: broj povoljnih ishoda je dva, a broj svih ishoda je ˇcetiri (3 ili 4 ili 5 ili 6). Op´cenito ´ce nas zanimati kako izraˇcunati vjero jatnost nekog dogada ja A uz pretpostavku da je nastupio neki drugi dogadaj B. Taj drugi dogadaj ”eliminira” neke elementarne dogadaje iz igre (u naˇsem primjeru su to 1 i 2). Govori se o uvjetnoj vjerojatnosti dogadaja u oznaci: P (A B) (vjerojatnost dogadaja A uz uvjet da je nastupio dogadaj B). Klasiˇcnom formulom za raˇcunanje vjero jatnosti lagano raˇcunamo uvjetnu vjerojatnost iz gornjeg primjera:
|
{ }|{3, 4, 5, 6}) = 24 = 12 .
P ( 5, 6
Op´cenita formula za raˇcunanje uvjetne vjero jatnosti je P (A B) =
|
∩
P (A B) , P (B)
(7)
{ }
{
}
pri ˇcemu, naravno, mora vrijediti P (B) > 0. Primjenimo li je na naˇs primjer za A = 5, 6 i B = 3, 4, 5, 6 , imamo: P (A B) =
|
∩
{ }
P (A B) P ( 5, 6 ) = = P (B) P ( 3, 4, 5, 6 )
{
}
2 6 4 6
=
1 . 2
Primjer 1. Bacamo dvije kockice – crvenu i plavu. Nadite vjerojatnost da je na jednoj kockici pao broj dva, ako je suma bro jeva koji su pali na obje kockice jednaka ˇsest. Takoder nadite vjerojatnost da je na jedno j kockici pao broj dva. Rjeˇsenje. Neka je A = na jednoj kockici je pao broj dva B = suma brojeva koji su pali na obje kockice jednaka je ˇsest Traˇzimo P (A B) i P (A). Rezultat bacanja kockica moˇzemo predstaviti uredenim parom (bro j na plavoj kockici,broj na crvenoj kockici). Vjerojatnost svakog elementarnog dogadaja je 1 /36. Sada imamo: A = (2, 1), (2, 2), (2, 3), (2, 4), (2, 5), (2, 6), (1, 2), (3, 2), (4, 2), (5, 2), (6, 2) , B = (1, 5), (2, 4), (3, 3), (4, 2), (5, 1) i A B = (2, 4), (4, 2) . Traˇ zene vjero jatnosti su:
|
{ {
}
∩
{
2
P (A ∩ B) 2 P (A|B) = = 36 = = 0.4, 5 P (B) 5
P (A) =
36
48
}
11 36
≈ 0.306.
}
Zadaci Zadatak 1. Stranice igra´ce kocke zalijepljene su neprozirnim papirom i to bro jevi 1, 2, 3 bijelim, a 4, 5, 6 crvenim. Kocka je baˇcena i kad se zaustavila na gornjoj stranici bio je crveni papir. Uz pomo´c formule za uvjetnu vjerojatnost izraˇcunajte vjero jatnost da je na gornjo j strani bio paran broj. A = pao je paran broj = 2, 4, 6 , B = na gornjoj strani je bio crveni papir = 4, 5, 6 , P (B) = P (A B) = 26
{
}
{
∩
|
P (A B) =
P (A B) = P (B)
∩
2 6 3 6
}
3 6
2 = . 3
Zadatak 2. Promotrimo sve obitelji s dvoje djece i pretpostavimo da su vjerojatnosti rodenja djevojˇcice (g) i djeˇcaka (b) medusobno jednake. Takve obitelji moˇzemo opisati parovima iz skupa
{
}
Ω = (b, b), (b, g), (g, b), (g, g) , gdje npr. par (b, g) oznaˇcava obitelj s djeˇcakom i djevojˇcicom pri ˇcemu je djeˇcak stariji od djevojˇcice (pa je oznaka djeˇcaka prvi element para). Sluˇcajno odabiranje obitelji s dvoje djece se moˇze predstaviti sluˇcajnim izborom jednog od elemenata skupa Ω pri ˇcemu su svi izbori jednako vjero jatni. Sluˇcajno izaberemo obitelj i ustanovljavamo da je u njoj djeˇcak. Kolika je vjero jatnost da je u njo j joˇs jedan djeˇcak (tj. ukupno dva djeˇcaka)?
{ {
}
A = (b, b), (b, g), (g, b) = u obitelji ima jedan djeˇcak B = (b, b) = u obitelji su dva djeˇcaka Traˇzimo P (B A).
}
|
∩
P (A B) P (B) P (B A) = = = P (A) P (A)
|
1 4 3 4
=
1 . 3
Zadatak 3. Slova rijeˇci ”lotos” napisana su na pet kartica koje su stavljene u kutiju. Sluˇcajno se izvlaˇce tri kartice jedna za drugom. Kolika je vjero jatnost da ´ce biti izvuˇcena rijeˇc ”sto”? A1 = prvo izvuˇceno slovo je ’s’ A2 = drugo izvuˇceno slovo je ’t ’ A3 = tre´ce izvuˇceno slovo je ’o’ A = A1 A2 A3
∩ ∩
|
| ∩ A2 ) = 15 · 14 · 23 = 301
P (A) = P (A1 )P (A2 A1 )P (A3 A1
Rezultat slijedi iz dvostruke primjene formule za uvjetnu vjerojatnost (7) prvi put na vjerojatnost P ((A B) C ) i drugi put na vjerojatnost P (A B):
∩ ∩ ∩ P (A ∩ B ∩ C ) = P ((A ∩ B) ∩ C ) = P (A ∩ B)P (C |A ∩ B) = P (A)P (B |A)P (C |A ∩ B). 49
Zadatak 4. U metu prvo gada Ante i potom Branko. Vjerojatnost da Ante pogodi metu je 0.6. Ako Ante promaˇsi, Branko pogada metu s vjerojatnosti 0.3, no ako Ante pogodi, Branko pogada metu s vjerojatnosti 0.2. 1. Kolika je vjerojatnost da ´ce barem jedan od njih dvojice pogoditi metu? 2. Kolika je vjerojatnost da ´ce toˇcno jedan od njih dvojice pogoditi metu?
Potpuna vjerojatnost
∪
∪ ·· · ∪
Neka je Ω = A1 A2 Ak disjunktna unija skupova Aj , j = 1, . . . , k (kaˇ zemo da je skupovima A1 , A2 , . . . , Ak dana particija skupa Ω) i neka je B Ω podskup skupa Ω (neki dogadaj). Tada je
⊆ B = B ∩ Ω = B ∩ (A1 ∪ A2 ∪ · · · ∪ A ) = (B ∩ A1 ) ∪ (B ∩ A2 ) ∪ · · · ∪ (B ∩ A ) k
k
∩ A , j = 1, . . . , k su medusobno disjunktni pa vrijedi P (B) = P (B ∩ A1 ) + P (B ∩ A2 ) + · · · + P (B ∩ A ).
Skupovi B
j
k
Upotrijebimo li formulu (7), dobivamo: P (B
∩ A ) = P (A ∩ B) = P (A )P (B|A ) j
j
j
j
iz ˇcega slijedi formula potpune (ili totalne) vjerojatnosti :
|
|
P (B) = P (A1 )P (B A1 ) + P (A2 )P (B A2 ) +
· · · + P (A )P (B|A ). k
(8)
k
Primjer 1. U tvornici se nalaze tri stroja S 1 , S 2 i S 3 koji proizvode neku robu. Znamo sljede´ce:
• stroj S 1 proizvede 50% robe, od ˇcega je 3% s greˇskom, • stroj S 2 proizvede 30% robe, od ˇcega je 4% s greˇskom i • stroj S 3 proizvede 20% robe, od ˇcega je 5% s greˇskom Nadite vjerojatnost da sluˇcajno izabrani predmet medu robom koju su proizveli ta tri stroja ima greˇsku. Rjeˇsenje. B = predmet ima greˇsku, Aj = predmet je proizveden na stroju S j , j = 1, 2, 3. Traˇzimo P (B). Uvrˇstavanjem u formulu potpune (ili totalne) vjero jatnosti (8) dobivamo:
|
|
|
·
·
·
P (B) = P (A1 )P (B A1 )+ P (A2 )P (B A2 )+ P (A3 )P (B A3 ) = 0.5 0.03+0.3 0.04+0.2 0.05 = 0.037. 50
Bayesova formula
⊆
Neka je A1 , A2 , . . . , A k particija skupa Ω (= unija svih elementarnih dogadaja) i B Ω neki dogadaj. ˇ Zelimo izraˇcunati P (Aj B), tj. vjerojatnost da je nastupio dogadaj Aj , ako je nastupio dogadaj B. (Ako zamislimo da su A1 , A2 , . . . , Ak mogu´ci uzroci dogadaja B, onda P (Aj B) moˇzemo shvatiti kao vjero jatnost da je dogadaj Aj bio uzrok dogadaja B). Formula (7) nam daje
|
|
P (Aj B) =
|
∩
P (Aj B) . P (B)
∩ B) = P (B ∩ A ) = P (A )P (B |A ) pa imamo:
Opet iz formule (7) slijedi P (Aj
∩
j
j
j
|
P (Aj B) P (Aj )P (B Aj ) = . P (B) P (B) Sada iskoristimo formulu potpune vjerojatnosti (8) da izraˇcunamo nazivnik i dobivamo Bayesovu formulu :
|
P (Aj B) =
|
P (Aj )P (B Aj ) P (A1 )P (B A1 ) + P (A2 )P (B A2 ) +
|
|
· · · + P (A )P (B|A ) . k
(9)
k
Dogadaje A1 , A2 , . . . , Ak ˇcesto zovemo hipoteze (kao mogu´ce uzroke dogada ja B). Primjer 1. Uzmimo iste podatke kao u primjeru na stranici 50. Provjerom je medu proizvedenom robom pronaden neispravan primjerak. Za svaki stroj nadite vjerojatnost da ga je on proizveo, tj. nadite vjerojatnosti P (A1 B), P (A2 B) i P (A3 B). Rjeˇsenje. U prethodnom primjeru smo formulom potpune vjerojatnosti izraˇcunali P (B) = P (A1 )P (B A1 ) + P (A2 )P (B A2 ) + P (A3 )P (B A3 ) = 0.037. Imamo redom:
|
|
|
|
| P (A2 |B) = P (A3 |B) = P (A1 B) =
|
|
P (A1 ∩B ) P (B )
0.5·0.003 0.037
15 37
≈ 0.405 = 40.5% ) 004 = 0 30 0037 = 12 ) 37 ≈ 0.325 = 32.5% ) 005 = 0 20 0037 = 10 ) 37 ≈ 0.27 = 27% =
P (A2 ∩B P (B
. · . .
P (A3 ∩B P (B
. · . .
=
Zadaci Zadatak 1. Za studente na trogodiˇsnjem studiju su jedne godine dobiveni sljede´ci podaci: 30% studenata su na 1. godini i 10% njih ima automobil 40% studenata su na 2. godini i 20% njih ima automobil 20% studenata su na 3. godini i 40% njih ima automobil 10% studenata su apsolventi i 60% njih ima automobil Sluˇcajno biramo studenta i zanima nas sljede´ce: 1. Koja je vjerojatnost da on ima automobil? 2. Ako on ima automobil, koja je vjerojatnost da je on student 3. godine? 51
Rjeˇsenje. Prvo treba odrediti dogadaje. Ω je skup svih studenata. A1 Ω sadrˇzi sve studente s prve godine (dakle P (A1 ) je vjerojatnost da je sluˇcajno izabrani student na prvoj godini). Sliˇcno se definiraju A2 , i A3 . A4 sadrˇzi sve apsolvente. B Ω sadrˇzi sve studente koji imaju automobil.
⊆
⊆
1. Trebamo na´ci P (B). Rjeˇsenje nalazimo primjenom formule potpune vjerojatnosti (8).
|
|
|
|
P (B) = P (A1 )P (B A1 ) + P (A2 )P (B A2 ) + P (A3 )P (B A3 ) + P (A4 )P (B A4 ) = = 0.3 0.1 + 0.4 0.2 + 0.2 0.4 + 0.1 0.6 = = 0.03 + 0.08 + 0.08 + 0.06 = 0.25.
·
·
·
·
Dakle vjerojatnost da sluˇcajno izabrani student ima automobil je jedna ˇcetvrtina, odnosno jedna ˇcetvrtina studenata ima automobil. 2. Trebamo na´ci P (A3 B). Rjeˇsenje nalazimo primjenom Bayesove formule (9). Nazivnik smo ve´c izraˇcunali. P (A3 )P (B A3 ) 0.2 0.4 0.08 8 P (A3 B) = = = = = 0.32. P (B) 0.25 0.25 25
|
|
|
·
Zadatak 2. Od studenata na jednom veleuˇciliˇstu 4% muˇ skaraca i 1% ˇzena imaju visinu ve´cu od 190 cm. Nadalje, 60% studenata su ˇzene. Sluˇcajno odabrani student je viˇsi od 190 cm. Kolika je vjerojatnost da je taj student ˇzena? Rjeˇsenje. Prvo moramo odrediti dogadaje: A = studenti i studentice viˇsi od 190 cm M = studenti W = studentice Traˇ zena vjero jatnost je P (W A) i dobivamo je primjenom Bayesove formule (9):
{ { {
}
P (W A) =
|
}
}
|
|
·
P (W )P (A W ) 0.01 0.6 0.006 3 = = = P (W )P (A W ) + P (M )P (A M ) 0.01 0.6 + 0.04 0.4 0.022 11
|
|
·
·
≈ 0.27.
Zadatak 3. Tvornice A i B proizvode mobilne telefone bez opcije ”foto-slikanja” i s ugradenom opcijom ”fotoslikanja”. Tvornica A proizvodi 15% mobilnih telefona bez opcije ”foto-slikanja”, dok tvornica B proizvodi 77% mobilnih telefona s opcijom ”foto-slikanja”. Tvornica B proizvodi tri puta viˇse mobilnih telefona od tvornice A. Mobiteli se u istom omjeru isporuˇcuju istom zastupniku koji iskljuˇcivo zastupa tvornice A i B. (Taj zastupnik prodaje mobilne telefone samo tih tvornica, a te tvornice ne prodaju svoje mobilne telefone nigdje drugdje.) Izraˇcunajte vjerojatnost da je sluˇcajno izabran kupac mobitela s opcijom ”foto-slikanja” kupio mobitel proizveden u tvornici A. Zadatak 4. Tvornice E i F proizvode gume za osobna i teretna vozila. Tvornica E proizvodi 45% guma za osobna vozila, dok tvornica F proizvodi 59% guma za osobna vozila. Tvornica E proizvodi tri puta viˇse guma od tvornice F . Gume se u istom omjeru isporuˇcuju istom zastupniku koji iskljuˇcivo zastupa tvornice E i F . (Taj zastupnik prodaje gume samo tih tvornica, a te tvornice ne prodaju svoje gume nigdje drugdje.) Izraˇcunajte vjerojatnost da je sluˇcajno izabran kupac guma za teretna vozila kupio gume proizvedene u tvornici F .
52
Nezavisni dogadaji Pojednostavljeno (i neprecizno) reˇceno, za dogadaje A i B kaˇzemo da su nezavisni ako dogadanje niti jednoga od njih ne utjeˇ ce na vjerojatnost dogadanja drugoga. Preciznije: dogadaj B ne ovisi o dogadaju A ako vrijedi P (B) = P (B A).
(10)
|
Iz formule (7) sada slijedi: P (A ako vrijedi P (A
∩ B) = P (A)P (B|A) = P (A)P (B). Kaˇzemo da su dogadaji A i B nezavisni
∩ B) = P (A)P (B).
(11)
Inaˇce kaˇzemo da su zavisni. Napomena. Ako vrijedi P (A B) = P (A)P (B) i ako je P (A)P (B) = 0, onda vrijedi i P (B) = P (B A) i P (A) = P (A B):
∩
∩
P (A B) = P (B
∩ A) = P (A)P (B)
⇒
|
|
P (A)P (B) = P (A P (A)P (B) = P (B
∩ B) = P (B)P (A|B) ⇒ P (A) = P (A|B) . ∩ A) = P (A)P (B |A) ⇒ P (B) = P (B|A)
Napomena.
• Dva disjunktna dogadaja ne moraju biti nezavisni. Bacamo standardnu kockicu. A = pao je paran broj, B = pao je neparan broj. P (A) = 12 = P (B), A ∩ B = ∅ ⇒ P (A ∩ B) = 0 = 14 = P (A)P (B) • Dva disjunktna dogadaja su nezavisna ako jedan od njih ima vjerojatnost nula. 0 = P (∅) = P (A ∩ B) = P (A)P (B) ⇒ P (A) = 0 ili P (B) = 0. Primjer 1. Novˇci´c bacamo tri puta za redom. A = prvi put je pala glava = GGG,GGP,GPG,GPP B = drugi put je pala glava = GGG,GGP,PGG,PGP C = toˇcno dva puta za redom je pala glava = GGP,PGG Provjerimo nezavisnost po dva dogadaja od gore navedenih. Prvo pronadimo vjerojatnosti zadanih dogada ja klasiˇcnom formulom:
{
P (A) = P (B) = P (C ) =
4 8 4 8 2 8
= = =
{
}
{
}
}
1 2 1 2 1 4
Zatim nadimo presjeke po dva dogadaja i vjerojatnosti novodobivenih dogadaja: A A B
∩ B = {GGG, GGP } ⇒ P (A ∩ B) = 28 = 14 ∩ C = {GGP } ⇒ P (A ∩ C ) = 18 ∩ C = {GGP,PGG} = C ⇒ P (B ∩ C ) = P (C ) = 14
Sada nam samo preostaje da provjerimo uvjet iz definicije nezavisnosti: P (A P (A P (B
∩ B) = 14 = 12 · 12 = P (A)P (B) ⇒ dogadaji A i B su nezavisni ∩ C ) = 18 = 12 · 14 = P (A)P (C ) ⇒ dogadaji A i C su nezavisni ∩ C ) = 14 = 18 = 12 · 14 = P (B)P (C ) ⇒ dogadaji B i C nisu nezavisni 53
Zadaci Zadatak 1. Dva strijelca, Alen i Branko, gadaju metu. Poznato je da Alen pogada metu s vjerojatnoˇsc´u 12 , a Branko s vjerojatnoˇs´cu 25 . Obojica gadaju metu. Nadite vjerojatnost da ´ce barem jedan od njih pogoditi metu, ako su njihova gadanja mete nezavisni dogadaji. Rjeˇsenje. A = Alen je pogodio metu, P (A) = 12 , B = Branko je pogodio metu, P (B) = 25 . Traˇzimo P (A B) i zbog nezavisnosti znamo da vrijedi P (A B) = P (A)P (B) = 12 52 = 15 . Koriˇstenjem aditivnog teorema dobivamo:
∪
P (A
∩
·
∪ B) = P (A) + P (B) − P (A ∩ B) = 12 + 25 − 15 = 107 .
Nezavisnost triju dogadaja se definira ovako: Tri dogadaja A, B i C su nezavisna ako vrijedi:
• P (A ∩ B) = P (A)P (B), P (A ∩ C ) = P (A)P (C ), P (B ∩ C ) = P (B)P (C ) i • P (A ∩ B ∩ C ) = P (A)P (B)P (C ) Zadatak 2. U uvjetima zadatka 8. na stranici 49 s obiteljima s dvoje djece treba ustanoviti jesu li nezavisni sljede´ci dogadaji: A = obitelj ima barem jednu djevojˇcicu = (g, g), (g, b), (b, g) B = obitelj ima djevo jˇcicu i djeˇcaka = (g, b), (b, g)
{
{
}
}
Zadatak 3. Dva strijelca nezavisno jedan od drugoga gadaju metu. Vjerojatnost pogotka za jednog je 0.9, a za drugog 0.8. Kolika je vjero jatnost da ´ce meta biti pogodena (tj. da ´ce barem jedan od njih pogoditi metu)?
54
9
Diskretna sluˇ cajna varijabla. Distribucija sluˇ cajne varijable.
Sluˇcajna varijabla je formalizacija intuitivnog pojma dogadaja sa sluˇcajnim ishodima. Diskretna sluˇcajna varijabla dakle modelira dogadaj s konaˇcno ili prebrojivo mnogo ishoda koji imaju svoje vjerojatnosti dogadanja. Npr. bacamo novˇci´c deset puta. Sluˇcajna varijabla X povezana s ovom situacijom je broj pisama koji su pali. Vrijednosti koje X moˇze poprimiti su iz skupa 0, 1, . . . , 10 pa je X diskretna sluˇcajna varijabla.
{
}
Primjeri diskretnih sluˇcajnih varijabli:
• broj djece u obitelji, • broj posjetilaca u kinima petkom naveˇcer, • broj pacijenata u ambulanti, • broj neispravnih ˇzarulja u pakiranjima od deset komada, • broj sekundi proteklo izmedu uzastopnih ulazaka kupaca u trgovinu. Ishod pokusa ne mora biti broj, npr. kada bacamo novˇci´c, ishodi koje moˇzemo dobiti su ”pismo” ili ”glava”. Mi, medutim, ˇcesto ˇzelimo ishode predstaviti brojevima da bi olakˇsali analizu pokusa. Sluˇcajna varijabla je funkcija ko ja svakom ishodu pokusa pridruˇzuje neki broj. Nas zanimaju samo oni prostori elementarnih dogada ja koji opisuju sluˇcajne pokuse s konaˇ cno ili najviˇse prebrojivo mnogo ishoda. Neka je Ω konaˇ can ili prebro jiv prostor elementarnih dogada ja. Formalno, diskretna sluˇcajna varijabla je funkcija sa prostora elementarnih dogadaja Ω u skup realnih bro jeva, tj. funkcija X oblika3 X : Ω
→ R.
Argumenti te funkcije su elementarni dogadaji prostora elementarnih dogadaja, a njene vrijednosti su realni brojevi4 . Tim vrijednostima sluˇcajne varijable su pridruˇzene vjero jatnosti u obliku distribucije (razdiobe). Primjeri sluˇcajnih varijabli i distribucija:
• Bacanje pravilnog novˇci´ca se moˇze opisati sluˇcajnom varijablom X : { pismo,g lava} → {0, 1} tako da je
X (ω) =
0 , ω = pismo 1 , ω = glava
Pripadaju´ca distribucija je: X
∼ 0
1
1 2
1 2
3
R sluˇ Ako je skup Ω prebrojiv, onda se na funkciju X zadaju dodatni uvjeti, jer nisu sve funkcije oblika X : Ω ca jne varijable. Analiza takvih sluˇ cajnih varijabli nadilazi okvire ovog materijala i ne´ ce biti provedena. Primjeri ko ji se obraduju u ovom materijalu ne zahtijevaju analizu sl uˇ cajnih varijabli tog tipa. 4 Intuitivno, sluˇcaj na vari jabla popri ma vrijednosti na sluˇcajan naˇcin. →
55
• Gadanje mete u jednom pokuˇsaju se moˇze opisati sluˇcajnom varijablom X : {uspjeh, neuspjeh} → {0, 1} tako da je X (ω) =
1 , ω = uspjeh 0 , ω = neuspjeh
Pripadaju´ca distribucija bi bila: X
∼ 0 1 q p
gdje je p vjerojatnost uspjeha (meta pogodena), a q vjero jatnost neuspjeha (meta promaˇsena).
• Sluˇcajnom varijablom X : {ω1, ω2, ω3, ω4, ω5, ω6} → R se moˇze opisati (modelirati) rezultat bacanja
simetriˇcne kockice sa ˇsest strana pri ˇcemu svaki broj ima istu vjerojatnost pojavljivanja. Moˇzemo definirati X (ωk ) = k. Pripadaju´ca distribucija je: X
∼
1 1 6
2 1 6
3
4
1 6
1 6
5 1 6
6 1 6
• Vrijeme (u sekundama ili u minutama) izmedu dolaska dva uzastopna kupca u trgovinu se moˇze opisati sluˇcajnom varijablom X : R → R tako da definiramo X (k) = k. Pripadaju´ca distribucija bi bila: X
∼
0 p0
1 p1
2 p2
3 p3
... k . . . pk
... ...
gdje je pk vjerojatnost da je izmedu dva uzastopna dolaska kupaca u trgovinu proteklo k sekundi (minuta,. . . ). Za op´ceniti (konaˇcan) prostor dogada ja Ω = ω1 , ω2 , ω3 , . . . ωn i sluˇcajnu varijablu X : Ω padaju´ca distribucija izgledala ovako:
{
X
∼
x1 p1
x2 p2
x3 p3
x4 p4
. .. xm . . . pm
}
→ R bi pri-
pri ˇcemu za svaki i 1, 2, 3, . . . , n postoji j 1, 2, 3, . . . , m takav da je X (ωi ) = xj , brojevi x1 , x2 , . . . xm su sortirani uzlazno, a brojevi p1 , p2 , . . . , pm predstavljaju sve vjerojatnosti pa mora vrijediti: 0 pj 1, j = 1, 2, . . . , m i p1 + p2 + + pm = 1.
∈{
}
∈{
}
≤ ≤
···
Broj pj je vjerojatnost da sluˇcajna varijabla X poprimi vrijednost xj , tj. P (X = xj ) = pj . Preciznije reˇceno, pj je vjerojatnost dogadaja kojeg ˇcine svi elementarni dogadaji koje sluˇcajna varijabla X preslikava u xj , tj. pj = P ( ω Ω X (ω) = xj ) (ˇsto kra´ce zapisujemo s P (X = xj )).
{ ∈ |
}
Primjer 1. Neka je zadan prostor elementarnih dogadaja Ω = ω1 , ω2 , ω3 , ω4 , ω5 i neka su p1 , p2 , p3 , p4 , p5 priR na sljede´ padaju´ce vjerojatnosti, tj. P (ωj ) = pj , j = 1, 2, . . . , 5. Definirajmo funkciju X : Ω ci naˇcin:
{
X (ω1 ) = X (ω3 ) = x1 , X (ω2 ) = x3 , X (ω4 ) = X (ω5 ) = x2 , 56
}
→
gdje su x1 , x2 i x3 medusobno razliˇciti realni bro jevi. Distribucija sluˇcajne varijable X je sada jednaka: X
∼
x1 p1 + p3
x2 p4 + p5
x3 p2
Primjer 2. Prostorom elementarnih dogadaja Ω = ω1 , ω2 , ω3 , ω4 , ω5 , ω6 opisujemo rezultate bacanja simetriˇcne kockice sa ˇsest strana pri ˇcemu svaki broj ima istu vjerojatnost pojavljivanja. Zanima nas ho´ce li na kockici pasti prost bro j, sloˇzen bro j ili broj koji nije ni sloˇzen ni prost. Sluˇcajnu varijablu koja odgovara toj situaciji moˇzemo definirati ovako:
{
}
X (ω1 ) = 0, X (ω2 ) = X (ω3 ) = X (ω5 ) = Pripadaju´ca distribucija je: X
Neka je f : R Y
∼
∼ −
1
1 2
0
1
1 6
1 3
−1,
X (ω4 ) = X (ω6) = 1.
.
→ R proizvoljna funkcija. Tada je Y = f ◦ X = f (X ) sluˇcajna varijabla s distribucijom f (x1 ) f (x2 ) f (x3 ) f (x4 ) . .. f ( xm ) p1 p2 p3 p4 ... pm
Moˇze se dogoditi da za dvije razliˇcite vrijednosti xj i xk vrijedi f (xj ) = f (xk ). Tada moramo udruˇziti tako dobivena dva ista razreda u jedan ˇcija je pripadna vjero jatnost pj + pk . Primjer 3. Zadana je sluˇcajna varijabla X ˇcija je distribucija X sluˇcajne varijable Y = f (X ), gdje je f (x) = x + 2 je Y = f (X )
∼
−1
∼ − 1
1 12
f ( 1) f (0) f (1) f (2) f (3) f (4) 1 4
12
1 6
1 12
1 6
0 1 4
=
1 4
1
2
1 6
1
1 12
3
1 12
2
1 6
3
1 4
4
1 6
1 4
4
. Distribucija
5
1 12
6
1 6
1 4
Distribucija sluˇcajne varijable Z = g(X ), gdje je g(x) = x2 je Z
∼ −
( 1)2
02
12
22
32
42
1 12
1 4
1 6
1 12
1 6
1 4
=
1
0
1
4
9
16
1 12
1 4
1 6
1 12
1 6
1 4
=
0
1
4
9
16
1 4
1 4
1 12
1 6
1 4
Primijetite male izmjene u zapisu distribucije koje su se pojavile zbog toga ˇsto su se dva razreda stopila u jedan. Zadaci Zadatak 1. Zadana je sluˇcajna varijabla X s distribucijom X
∼ −
2 1 3 4 7 p p 6 p p
5 2 17
57
Nadite pripada ju´ce vjero jatnosti. Rjeˇsenje. Suma vjerojatnosti mora biti jednaka 1, dakle mora vrijediti: 7 p + p + 6 p + p +
2 =1 17
1 ⇒ 15 p = 15 ⇒ p= 17 17
Sve vjerojatnosti su brojevi iz intervala [0, 1] pa je zadana distribucija jednaka X
∼ −
2
7 17
1
1 17
3
6 17
4
1 17
5
2 17
Zadatak 2. Zadana je sluˇcajna varijabla X s distribucijom X
∼ −
2 0 2 3 4 p 2 p 2 p 5 p
4 2 p
Nadite pripada ju´ce vjero jatnosti. Zadatak 3. Odredite distribuciju sluˇcajne varijable D koja opisuje rezultate bacanja nesimetriˇcne kockice sa ˇsest strana koja ”favorizira” brojeve 4, 5, 6 tako da je vjerojatnost da padne neki od tih brojeva dva puta ve´ ca od vjerojatnosti da padne bilo koji od bro jeva 1, 2, 3. Zadatak 4. Zadana je sluˇcajna varijabla X s distribucijom X
∼ −
2
1 8
−11 16
0
1
3
3 8
1 8
5 16
Nadite distribucije sluˇcajnih varijabli Y = f (X ), Z = g(X ) i W = h(X ) ako je f (x) = x i h(x) = (x 4)2 .
−
58
− 3, g(x) = x3
10
Funkcija vjerojatnosti. Funkcija distribucije vjerojatnosti
Neka je zadana distribucija
x1 p1
x2 p2
x3 p3
x4 p4
. . . xm . . . pm
.
→ R definiramo sa p , x = x ∈ {x1 , x2 , x3 , x4 , . . . , x }, f (x) = ∈ {x1, x2, x3 , x4 , . . . , x }. 0 ,x Pripadaju´cu funkciju distribucije vjerojatnosti F : R → R definiramo sa pripadaju´cu funkciju vjerojatnosti f : R
k
0
k
m
m
, x < x1 ,
k
F (x) =
pj , xk
j =1
1
, xm
≤ x < x +1 , k = 1, 2, . . . , m − 1, ≤ x. k
Napomena. Pomo´ cu funkcije vjerojatnosti (f ) i funkcije distribucije vjerojatnosti (F ) diskretne sluˇcajne varijable se vjerojatnost dogadaja ω X (ω) b , ili kra´ce X b , moˇze zapisati ovako:
{|
P (X
≤ b) =
≤ }
{ ≤ }
pk = F (b).
X (ωk )≤b
59
Primjer 1.
2 3 4 5 6 7 Zadana je distribucija 0.2 0.3 0.1 0.2 0.05 0.15 vjerojatnosti i funkcije distribucije vjerojatnosti .
. Skicirajte pripadaju´ce grafove funkcije
Rjeˇsenje.
0.34
1.10
0.31
0.99
0.27
0.88
0.24
0.77
0.20
0.66
0.17
0.55
0.14
0.44
0.10
0.33
0.07
0.22
0.03
0.11
0.00
0.00 0
1 2 3 4 5 6 funkcija vjerojatnosti
7
8
0 1 2 3 4 5 6 7 8 funkcija distribucije vjerojatnosti
Zadatak 1. Skicirajte pripadaju´ce grafove funkcije vjerojatnosti i funkcije distribucije vjero jatnosti za distribuciju
2 3 4 5 6 7 0.3 0.2 0.2 0.1 0.15 0.05
.
60
11
Oˇ cekivanje, varijanca i standardna devijacija diskretne sluˇ cajne varijable
Neka je X diskretna sluˇcajna varijabla s distribucijom X
∼
x1 p0
x2 p1
x3 p2
x4 p3
. .. xm . . . pm
Oˇcekivanje diskretne sluˇcajne varijable X , u oznaci E (X ), definira se sa m
E (X ) =
xk pk = x1 p1 + x2 p2 +
k=1
· ·· + x
m pm .
Primjer 1. Neka je X diskretna sluˇcajna varijabla s distribucijom X
∼
0
1
7 30
3
7 30
4
1 10
7 30
6 1 5
Oˇcekivanje sluˇcajne varijable X je jednako: 7 7 1 7 1 8 E (X ) = 0+ 1+ 3+ 4+ 6= 30 30 10 30 5 3
·
·
·
·
·
Varijanca diskretne sluˇcajne varijable X , u oznaci V ar(X ), definira se sa V ar(X ) = E ((X
− E (X ))2 ),
tj. varijanca V ar(X ) se moˇze shvatiti kao oˇcekivanje sluˇca jne varijable Y = f (X ), gdje je f (x) = (x E (X ))2 . Za raˇcunanje se koristi jednostavnija formula koja se moˇze izvesti iz definicije:
−
V ar(X ) = E (X 2 )
− E (X )2.
Primjer 1. (nastavak) U gornjem primjeru bismo imali: 2
X
∼
E (X 2 ) =
0
1
9
16
36
7 30
7 30
1 10
7 30
1 5
7 7 1 7 1 181 0+ 1+ 9+ 16 + 36 = 30 30 10 30 5 15
·
·
·
·
·
Sada imamo: 2
V ar(X ) = E (X )
−
181 E (X ) = 15 2
− 8 3
2
=
223 . 45
Standardna devijacija diskretne sluˇcajne varijable je drugi korijen njezine varijance: σ(X ) =
V ar(X ). 61
Zadatak 3. Zadana je sluˇcajna varijabla X s distribucijom X
∼ −
2 0 1 3 p 3 p 7 p
3
1 11
4 7 p
Izraˇcunajte pripadne vjerojatnosti i zatim izraˇcunajte oˇcekivanje, varijancu i standardnu devijaciju 1 2053 sluˇcajne varijable X . (Rjeˇsenje: p = 22 , E (X ) = 35 22 , V a r(X ) = 484 ) Zadatak 4. Zadana je sluˇcajna varijabla X s distribucijom X
∼ −
2 3 p
−11 4
0 3 3 p p
4 1 2 p
Izraˇcunajte pripadne vjerojatnosti i zatim izraˇcunajte oˇcekivanje, varijancu i standardnu devijaciju 1 7 sluˇcajne varijable X . (Rjeˇsenje: p = 10 , E (X ) = 20 , V ar(X ) = 1211 400 )
−
Zadatak 5. Zadana je sluˇcajna varijabla X s oˇcekivanjem E (X ) = X
∼ −
1 2 2 p 9 p
3
a
1 7
1 4
8 6 p
111 28
i distribucijom
Izraˇcunajte nepoznatu vrijednost a i pripadaju´ce vjerojatnosti te zatim izraˇcunajte varijancu i stan1 dardnu devijaciju sluˇcajne varijable X . (Rjeˇsenje: p = 28 , a = 5, V ar(X ) = 5403 784 ) Zadatak 6. Oˇcekivanje sluˇcajne varijable X s distribucijom X
∼ −
2 p
−1 p
0 2 p
1
a
1 10
1 10
3 je E (X ) = 10 . Odredite nepoznanice a i p te izraˇcunajte varijancu sluˇcajne varijable X . (Rjeˇsenje: 1 p = 5 , a = 2, V ar(X ) = 1.41)
−
63
Varijanca sluˇcajne varijable s diskretnom uniformnom distribucijom je jednaka varijanci svih njenih vrijednosti, analogna tvrdnja vrijedi i za standardnu devijaciju: V ar(X ) = E (X 2 )
− E (X )2 = x2 − x2, σ(X ) =
V ar(X ).
Primjer 1.
Odredimo distribuciju sluˇcajne varijable X koja predstavlja sumu brojeva koji se pojave nakon bacanja dviju simetriˇcnih kockica, jedne s osam strana i brojevima od 1 do 8 na njima (d8) i jedne sa ˇcetiri strane i brojevima od 1 do 4 na njima (d4) (dakle X = d8 + d4). Rjeˇsenje. Distribucije sluˇcajnih varijabli d4 i d8 su redom: d4
∼
1
2
1 4
3
1 4
4
1 4
1 4
,
d8
∼
1 1 8
2
3
1 8
1 8
4 1 8
5 1 8
6 1 8
7
8
1 8
1 8
.
1 Vjerojatnost da npr. na kockicama padnu brojevi 1 i 7 je 14 18 = 32 , a vjerojatnost da je suma brojeva koji 1 padnu na te dvije kockice jednaka 8 je 4 32 = 18 , jer se suma 8 moˇze dobiti na ˇcetiri naˇcina (8 = 1 + 7 = 2 + 6 = 3 + 5 = 4 + 4). Traˇzenu distribuciju moˇzemo lagano dobiti iz sljede´ce tabele u kojoj su popisane sve sume koje moˇzemo dobiti bacanjem ovih dviju kockica:
·
·
d4 d8 1 2 3 4
1 2 3 4 5
\
2 3 4 5 6
3 4 5 6 7
4 5 6 7 8
5 6 7 8 9
6 7 8 7 8 9 8 9 10 9 10 11 10 11 12
1 Broj pojavljivanja neke sume u gornjo j tabeli pomnoˇzen s gore dobivenom vjerojatnosti 32 daje pripadaju´cu vjerojatnost pojavljivanja te sume. Distribuciju sluˇcajne varijable X sada nije problem napisati:
X
∼
2
1 32
3
2 32
4
3 32
5
4 32
6
4 32
7
4 32
8
4 32
9
4 32
10 3 32
11 2 32
12 1 32
.
Primjer 2. U igri D&D igraˇci vode svoje likove kroz priˇcu u kojima se nerijetko moraju boriti. Tomislav vodi svog lika, hrabrog Sir Robina i u sluˇcaju borbe se mora opredijeliti za jednu od sljede´ce dvije mogu´cnosti:
• borba s dvoruˇcnim maˇcem ko jeg drˇzi objema rukama (i s kojim je iznimno spretan, ˇsto mu daje bonus 4 u napadu) ili
• s dva manja maˇca (s kojima nije toliko vjeˇst pa je bonus 0), ali s kojima moˇze napadati istovremeno, dakle moˇze odjednom napasti dva puta.
Napad poˇcinje bacanjem ”kockice” s dvadeset strana, d20 (vidi fusnotu 5 na stranici 64); broju koji padne se doda je bonus i ako je rezultat ve´ci od ili jednak 15 onda je napad uspio6 . 6
Ovo je pojednostavljena verzija preuzeta iz pravila za DnD, verzija 3.5; naime, ako na kockici d20 padne recimo 19 ili 20, napad je izuzetno dobro uspio ˇsto znaˇ ci da bi napadaˇ c mogao biti uspjeˇ sniji u tom napadu nego ˇsto je to uobiˇ cajeno. Radi jednostavnosti, taj sluˇcaj se ne´ce uzeti u obzi r.
65
Kolika je vjero jatnost da napad Sir Robina uspije ako on koristi dvoruˇcni maˇc, a kolika ako koristi dva manja maˇca?
• Ako koristi dvoruˇcni maˇc, za uspjeˇsan napad mora za jedno s bonusom (4) dobiti barem 15 na kockici
d20, tj. na toj kockici mora dobiti barem 11. Od 20 mogu´cnosti njih 10 je povoljno pa je vjerojatnost 1 uspjeha jednaka 10 20 = 2 .
• Ako uzme dva manja maˇca, za uspjeˇsan napad mora dobiti barem 15 na kockici d20. Od 20 mogu´cnosti 6 3 njih 6 je povoljno pa je vjerojatnost uspjeha jednaka
20
=
10 .
U sluˇcaju uspjeˇsnog napada, napadaˇc je ozlijedio protivnika i onda se odreduje koliko jedinica zdravlja je protivnik izgubio tim napadom.
• Ako je napad hrabrog Sir Robina dvoruˇcnim maˇcem uspio, onda napadnuti gubi d8+2 jedinice zdravlja, tj. Tomislav baca d8 kockicu i broju koji padne doda 2.
• Ako je napad hrabrog Sir Robina s dva manja maˇca uspio, onda napadnuti gubi 2 d6 + 1 jedinicu zadravlja, tj. Tomislav baca dvije d6 kockice i sumi brojeva koji padnu doda 1.
Oˇcekivani broj jedinica zdravlja koje ´ce protivnik izgubiti u sluˇcaju jednog uspjeˇsnog napada je
• za napad dvoruˇcnim maˇcem jednak E (d8 + 2) = 6.5, • za napad s dva manja maˇca jednak E (2d6 + 1) = 8, ˇsto se lagano dobije iz pripadaju´cih distribucija za d8 i 2d6 (obje su dane u ovom poglavlju). Da bismo dobili oˇcekivani broj jedinica zdravlja koje ´ce protivnik izgubiti u jednom napadu, moramo dobivena oˇcekivanja pomnoˇziti 7 s vjerojatnostima da napad uspije:
• za napad dvoruˇcnim maˇcem imamo 12 · 6.5 = 3.25, • za napad s dva manja maˇca imamo 103 · 8 = 2.4. Zakljuˇcujemo da se u duljim borbama hrabrom Sir Robinu daleko viˇse isplati boriti dvoruˇcnim maˇcem, jer ´ce u prosjeku protivnik izgubiti viˇse jedinica zdravlja, ˇsto vodi brˇzoj i sigurnijoj pobjedi u borbi. U nekim situacijama se medutim ne isplati uzeti oruˇzje koje garantira ve´ci oˇcekivani bro j jedinica zdravlja koje ´ce protivnik izgubiti u jednom napadu. Npr. mogu´ ca je situacija gdje je u borbi za pobjedu nuˇzno da u najviˇse tri napada protivnik izgubi viˇse od 30 jedinica zdravlja, inaˇce hrabri Sir Robin sigurno gubi borbu. Tada sigurno ne´ce uzeti dvoruˇcni maˇc, jer je maksimalni broj jedinica zdravlja koje protivnik moˇze izgubiti tri napada 30 ˇsto nije dovoljno i vodi u siguran poraz. S druge strane, ako uzme dva manja maˇca, maksimalni bro j jedinica zdravlja koje protivnik moˇze izgubiti u jednom napadu je 13 (dvije ˇsestice na dvije kockice d6 plus 1) pa postoji mala vjerojatnost (izraˇcunajte je!) koja je ipak ve´ ca od nule da hrabri Sir Robin pobijedi u takvoj borbi.
7
Da ta dva bro ja trebamo pomnoˇ ziti pa da dobijemo ono ˇsto nas zanima je posljedica jednog kra´ ceg vjerojatnosnog raˇ cuna koji je ovdje izostavljen.
66
Zadaci Zadatak 1. Napiˇsite distribuciju uniformne sluˇcajne varijable koja moˇze poprimiti sve cjelobro jne vrijednosti od 3 do 12. Zadatak 2. Pomo´ cu uniformne distribucije (iako je najjednostavnija) se mogu dobiti druge sloˇzenije distribucije. Odredite distribuciju sluˇcajne varijable X kojoj su vrijednosti zbro j bro jeva koji padnu na dvije baˇcene standardne kockice (u igri DnD se takva sluˇcajna varijabla oznaˇcava s 2d6). Izraˇcuna jte E (X ), V ar(X ) i standardnu devijaciju sluˇcajne varijable X . Rjeˇsenje. Vrijednosti koje poprima sluˇcajna varijabla X su redom 2, 3, . . . , 12. Vrijednost 2 se moˇze dobiti na jedan naˇcin, vrijednost 3 = 1 + 2 = 2 + 1 na dva naˇcina, 4 = 1 + 3 = 2 + 2 = 3 + 1 na tri naˇcina itd. Broj svih mogu´cnosti na koje mogu pasti dvije kockice je 36. Pripadne vjero jatnosti se lako izraˇcunaju primjenom klasiˇcne formule vjerojatnosti i sad imamo: X
∼
2
3
1 36
2 36
4
3 36
12
E (X ) =
kp i = 2
k=2
5
4 36
E (X ) =
k 2 pi = 22
k=2
V ar(X ) = E (X 2 )
5 36
7
6 36
1 2 +3 + 36 36
12
2
6
8
5 36
9
4 36
10 3 36
11 2 36
12 1 36
.
·· · + 7 366 + · · · + 12 361 = 7
1 2 + 32 + 36 36
· · · + 72 366 + ·· · + 122 361 = 329 ≈ 54.83 6
− E (X )2 ≈ 54.83 − 49 = 5.83,
σ(X )
≈ 2.42
Zadatak 3. Odredite distribuciju sluˇcajne varijable X koja modelira bacanje dviju simetriˇ cnih kockica, jedne standardne sa ˇsest strana i brojevima od 1 do 6 na njima i jedne sa ˇcetiri strane i brojevima od 1 do 4 na njima te uzimanjem sume brojeva koji na njima padnu (dakle X = d6 + d4) . Zadatak 4. Odredite distribuciju sluˇcajne varijable X koja modelira bacanje dviju simetriˇ cnih kockica, jedne standardne sa ˇsest strana i brojevima od 1 do 6 na njima i jedne sa ˇcetiri strane i brojevima od 1 do 4 na njima i uzimanjem razlike brojeva koji na njima padnu (dakle X = d6 d4) .
−
67
13
Bernou Bernoulli llijev jev pokus pokus.. Bernou Bernoulli llijev jeva a shema shema.. Binomn Binomna a distr distribu ibu-cija
Bernoullijev pokus je eksperiment ˇciji ciji ishod je sluˇcajan cajan i u kojem su mogu´ca ca samo dva rezultata od kojih jedan nazivamo nazivamo ”uspjeh” (to je obiˇ cno cno onaj koji nas zanima ili kojeg promatramo), promatramo), a drugi ”neuspjeh”. Obiˇcno cno je rijeˇc o eksperimentu eksp erimentu s dva mogu´ mo gu´ca ca rezultata rez ultata koji se uvijek uvi jek mogu mo gu izraziti iz raziti preko ”da ”d a ili il i ne” pitanja. pitanj a.
• Ako bacimo baci mo novˇci´ ci´c, c, ho´ce ce li ”pasti ”pa sti pismo” pis mo”?? • Ho´cece li se rodit ro ditii djevo dje vojˇ jˇcica? cic a? • Jesu Jes u li l i neˇ n eˇcije cij e oˇci zelene zel ene bo je? • Je lil i potencijalni kupac o dluˇcio cio kupiti proizvod? • Ho´ce ce li strijelac p ogoditi metu u jednom gadanju? Vidimo Vidimo da oznake oznake ”uspjeh” i ”neuspjeh” ”neuspjeh” sluˇ ze ze samo kao kao oznaˇ oznaˇcavanje cavanje rezultata rezultata i ne trebaju se shvatiti shvatiti doslovno. Primjeri Bernoullijevih pokusa:
• Bacanje Bacanj e novˇci´ ci´ca. ca. Ovdje padanje padanj e glave g lave moˇze ze znaˇ z naˇciti citi ”uspjeh”, ”usp jeh”, a padanje pa danje pisma ”neusp jeh”.
Naravno da se moˇzemo zemo odluˇ od luˇciti citi i za obrnuto obr nuto oznaˇ ozna ˇcavanje. cavanj e. Poˇsteni sten i novˇ n ovˇci´ ci´c po p o definici defin iciji ji ima vjero vje rojatn jatnost ost usp jeha jednaku jednaku 0.5.
• Bacanje standardne kockice, gdje padanje ˇsestice oznaˇcava cava ”uspjeh”, a sve ostalo ”neuspjeh”. • Anketiranje Anketiran je sluˇcajnog ca jnog glasaˇca ca da bi se ustanovilo ustanovi lo ho´ce ce li glasati glasa ti ”da” ” da” na predsto je´cem cem referendumu. referen dumu. Matematiˇ cki cki se takav takav pokus p okus opisuje sluˇcajnom cajnom varijablom X koja poprima samo dvije vrijednosti, 0 i 1, pri ˇcemu cemu se 1 smatra ”usp jehom”. Ako je p vjerojatnost uspjeha (obiˇcno cno se s q = 1 p oznaˇ ozn aˇcava cava vjero vjer o jatnos jat nostt neuspjeha), neusp jeha), onda je oˇcekivanje cekivanje takve sluˇcajne ca jne varijable p, a standardna standardna devijacija devijacija p(1 p(1 p): p):
−
· ·
· · −
E (X ) = p 1 + q 0 = p E (X 2 ) = p 12 + q 02 = p V ar( ar(X ) = E (X 2 ) E (X )2 = p p2 = p(1
−
−
− p) p) = pq ⇒ σ (X ) =
− p(1 p(1
√
p) p) = pq
Bernoullijeva shema se sasto ji od konaˇcnog cnog ili beskonaˇcnog cnog niza nezavisnih nezavisni h sluˇ s luˇcajnih ca jnih varijabli X 1 , X 2 , X 3 . . . za koje ko je vrijede vr ijede sljede´ce ce tvrdnje: tvr dnje:
• Za svaki k je vrijednost od X ili 1 ili 0. • Za svaki k je vjerojatnost da X poprima vrijednost 1 jednaka istom broju p, tj. za svaki k vrijedi k
k
P ( P (X k = 1) = p.
Drugim rijeˇcima, cima, Bernoullijeva shema je niz nezavisnih Bernoullijevih pokusa s istom distribucijom. Dvije mogu´ce ce vrijednosti vrijed nosti svake varijable varij able X k se ˇcesto zovu ”uspjeh” i ”neuspjeh” (u nekim sluˇcajevima cajevima se koriste izrazi ”pogodak” i ”promaˇsaj”, saj”, u ovisnosti o kontekstu). kontekstu).
68
Neke od sluˇcajnih cajnih varijabli povezanih s Bernoullijevom shemom su:
• Broj uspjeha u prvih n pokusa. • Broj pokusa potrebnih da se dobije r uspjeha. • Broj pokusa potrebnih da se dode do uspjeha. Mi ´cemo cemo obraditi obradi ti samo prvu sluˇcajnu ca jnu varijablu vari jablu ˇcija cija distribucija distrib ucija se zove binomna distribucija . Promotrimo Promotr imo sluˇcajnu ca jnu varijablu X koja ”broji uspjehe” u Bernoullijevoj shemi u prvih n pokus pokusa. a. PrePreciznije, X je sluˇ s luˇcajna ca jna varijabla varij abla koja koj a moˇze ze poprimit p oprimitii vrijedno vr ijednosti sti iz i z skupa sk upa 0, 1, 2, . . . , n i za koju vrijedi da je P ( cno k uspjeha, 0 k n. P (X = k) vjerojatnost da je u n uzastopnih Bernoullijevih pokusa nastupilo toˇcno Neka Neka je vjerojatnost vjerojatnost uspjeha jednaka jednaka p i vjerojatnost vjerojatnost neuspjeha q = 1 p. p.
{
}
≤ ≤
−
Bernou Bernoullij llijevi evi pokusi u Bernou Bernoullij llijev evoj oj shemi shemi su meduso medusobno bno nezavisn nezavisnii pa je vjerojatn vjerojatnost ost da u nizu nizu od n sluˇcajnih ca jnih pokusa pokus a njih k bude usp jeˇsno, sno , a n k neusp jeˇsno, sno, jednaka umnoˇsku sku vjero vj erojatnost jatnostii po p o jedinih jedini h pokusa. p okusa. Njih k je usp us p jeˇsno sn o s vjer vj eroo jatnoˇ ja tnoˇs´cu cu p, njih n k je neusp ne usp jeˇsno sn o s vjer vj eroo jatnoˇ ja tnoˇs´cu cu q pa je pripadna vjerojatnost jednaka
− −
p p . . . p q q . . . q = pk q n−k .
· · · · · · · k
p ut ut a
(n−k) puta
Takvih nizova od n pokusa od kojih je k uspjeˇ usp jeˇsno sno ima koliko i naˇcina cina da se od n objekata (pokusa) izabere n njih k (koji su uspjeˇsni), sni), a to je k . Dakle Dakle vjerojatno vjerojatnost st da u nizu nizu od n Bernoullijev Bernoullijevih ih pokusa njih k bude usp jeˇsno sno je jednaka jed naka
n k n−k p q . k
P k = P ( P (X = k ) =
Distribucija Distri bucija sluˇcajne ca jne varijable X se zove binomna distribucija , zadana zadana je parametrim parametrimaa n i p i oznaˇ oz naˇcava cava se sa X
∼ B (n, p) =
0 P 0
1 P 1
2 P 2
··· ···
n P n
.
Oˇcekivanje cekivanje sluˇcajne cajne varijable s binomnom distribucijom se moˇ ze ze dobiti direktno iz definicije uz primjenu binomnog teorema: n
E (X ) =
n
kP ( kP (X = k) =
k=0 n
=
k=1
k=1
−
−
= np
k
n! pk qn−k = k !(n !(n k )!
− 1 (n − 1)! p q k !(n !(n − k − 1)! =0 =1
k n−k−1
−
n−1
n−
(n 1)! np pk−1 qn−k = np (k 1)!(n 1)!(n k)! k
−
n
n k n−k k p q = k k
= np
k=0
n
1
k
pk qn−k−1
Varijanca jednog Bernoullijevog pokusa je pq. pq. Pokusi Pokusi u Bernoullijev Bernoullijevoj oj shemi su medusobno medusobno nezavisni nezavisni pa je varijanca binomne sluˇcajne cajne varijable jednaka zbro ju varijanci pokusa, tj. imamo: V ar( ar(X ) = npq i σ(X ) =
√npq. 69
≈≈ · · ≈ ·
7 7 4 3 4 3 P (X = 4) = 74 0.44 0.63 = 7− 35 0.026 0.216 0.197 4 0.4 0.6 = 3 0.4 0.6 7 7 5 2 5 2 P (X = 5) = 5 0.4 0.6 = 2 0.4 0.6 21 0.0102 0.36 0.0771 7 7 6 1 6 P (X = 6) = 6 0.4 0.6 = 1 0.4 0.6 7 0.00410 0.6 0.0172 P (X = 7) = 77 0.47 0.60 = 70 0.47 1 0.00164 = 0.00164 P (X 4) = P (X = 4)+ P (X = 5)+ P (X = 6)+ P (X = 7) 0.197+0.0771+0.0172+0.00164 = 0.293
≥
≈ · · ≈ · ≈ ≈
·
≈
Zadatak 4. Strijelac pogada metu s vjero jatnoˇs´cu 0.7 . (a) Izraˇcunajte vjerojatnost da ´ce u seriji od 5 gadanja toˇcno tri puta pogoditi metu. (b) Izraˇcunajte vjero jatnost da ´ce u seriji od 6 gadanja barem ˇcetiri puta promaˇsiti metu. (c) Koliki je oˇcekivani broj pogodaka u seriji od 7000 gadanja? Zadatak 5. Strijelac pogada metu s vjero jatnoˇs´cu 0.6 . (a) Izraˇcunajte vjero jatnost da ´ce u seriji od 5 gadanja toˇcno ˇcetiri puta promaˇsiti metu. (b) Izraˇcunajte vjero jatnost da ´ce u seriji od 6 gadanja barem ˇcetiri puta promaˇsiti metu. (c) Koliki je oˇcekivani broj pogodaka u seriji od 5000 gadanja? Zadatak 6. Bacamo simetriˇcan novˇci´c. Izraˇcuna jte vjerojatnost da ´ce u seriji od 10 bacanja novˇci´ca barem tri puta pasti pismo. Zadatak 7. Baca se standardna igra´ca kockica. Uspjehom smatramo kad padne broj ˇsest. 1. Kolika je vjerojatnost uspjeha? 1 Vjerojatnost uspjeha je p = . 6 2. Kolika je vjero jatnost da ´ce u ˇcetiri bacanja broj ˇsest pasti toˇcno jednom? Neka je X binomna sluˇcajna varijabla s distribucijom X B(4, 16 ). Traˇzena vjerojatnost je jednaka
∼
P (X = 1) =
4 1 3 1 p q = 4 1 6
·
· ≈ 5 6
3
0.3858.
3. Kolika je vjero jatnost da ´ce u ˇcetiri bacanja broj ˇsest pasti barem jednom? (Jedan od de M´er´eovih problema.) Traˇ zena vjero jatnost je jednaka P (X
≥ 1) = P (X = 1) + P (X = 2) +4P (X = 3) + P (X = 4) = 1 − P (X = 0) = 4 0 4 5 ≈ 1 − 0.482 = 0.518 = 1− p q = 1 − 0 6
Zadatak 8. Istovremeno se bacaju dvije standardne igra´ce kockice. Uspjehom smatramo situaciju u kojoj su na obje kockice pale ˇsestice. 1. Kolika je vjerojatnost uspjeha? 2. Kolika je vjerojatnost da ´ce u 24 bacanja uspjeh nastupiti toˇcno jednom? 3. Kolika je vjero jatnost da ´ce u 24 bacanja uspjeh nastupiti barem jednom? (Jedan od de M´er´eovih problema.)
71
14
Poissonova distribucija
Poissonova distribucija se primjenjuje na dogadaje za koje vrijede sljede´ci uvjeti: 1. dogadaji se mogu brojati nenegativnim cijelim brojevima, 2. dogadaji su medusobno nezavisni, tako da nastup jednog dogadaja ne utjeˇce na nastupe niti jednog od sljede´cih dogada ja, 3. prosjeˇcan broj nastupa dogadaja u danom vremenskom periodu (ili na danoj povrˇsini ili u danom volumenu) je poznat i konstantan, 4. mogu´ce je odrediti broj nastupa dogadaja (npr. broj stranaka u banci tokom nekog vremenskog perioda), ali je besmisleno pitati koliko puta dogadaj nije nastupio (za razliku od binomne distribucije) Za takve dogadaje, a oni su dosta ˇcesti, Poissonova distribucija daje, preko pripadaju´cih vjerojatnosti, oˇcekivane frekvencije dogada ja. Poissonova distribucija se moˇze koristiti i u ”suprotnom smjeru”, za testiranje sluˇcajnosti danih podataka. Ako se podaci dovoljno dobro podudaraju s teoretskim vrijednostima dobivenim iz Poissonove distribucije, onda je to jaka podrˇska tvrdnji da je sluˇcaj, a ne neˇsto drugo, uzrok dogadajima na osnovu ko jih su dobiveni ti podaci. Poissonova distribucija je diskretna distribucija kojom se izraˇzava vjerojatnost po jave dogadaja unutar fiksiranog vremenskog intervala ako je poznato prosjeˇcno vrijeme izmedu pojave dva uzastopna dogadaja i ako su dogadaji medusobno neovisni. Takoder se moˇze koristiti za druge intervale kojima se izraˇzavaju udaljenost, povrˇsina ili volumen. Tipiˇcni primjeri su vremena izmedu dolazaka uzastopnih kupaca u trgovinu i broj bombi koje (neovisno i sluˇcajno) pogode sluˇcajno izabrano podruˇcje iz grupe podruˇcja jednakih povrˇsina. Ovaj drugi primjer je koriˇsten za vrijeme Drugog svjetskog rata kada su njemaˇcke snage raketnim bombama gadali London. Postavilo se pitanje jesu li neki dijelovi Londona u ve´coj opasnosti da budu pogodeni zbog strateˇskih ciljeva (npr. tvornice) koji su se u njima nalazili. Drugim rijeˇcima, nije bilo jasno jesu li projektili padali na London sluˇcajno, ili su pogadali unaprijed zadane ciljeve. Da dode do odgovora, britanski statistiˇcar R. D. Clarke je podijelio dio grada koji je doˇsao pod udar projektila na 576(= 26 26) podruˇcja od kojih je svako imalo povrˇsinu od jedne ˇcetvrtine kvadratnog kilometra. Za svako podruˇcje je odredio broj pro jektila koji su ga pogodili i sastavio je sljede´cu tabelu u kojoj se vidjelo koliko je podruˇ cja pogodilo dani broj projektila.
·
broj pogodaka, k
0
1
2
3
4
5 ili viˇse
broj podruˇcja pogodenih k puta
229
211
93
35
7
1
teoretski broj pogodaka prema Poissonovoj distribuciji
226.74
211.39
98.54
30.62
7.14
1.57
Ovime je Clarke pokazao da su projektili na London padali sluˇcajno prema predvidivom obrascu odredenim Poissonovom distribucijom i time dokazao da strateˇski vaˇzniji dijelovi Londona nisu bili u ve´coj opasnosti od drugih, odnosno da nema potrebe za evakuacijom iz onih podruˇcja grada u kojima se nalaze strateˇ ski ciljevi.
72
Poissonova distribucija se koristi za modeliranje bro ja po javljivanja razliˇcitih dogadaja u danom prostoru ili vremenu poput:
• broja vozila koji produ nekom kontrolnom toˇckom (dovoljno dalekom od semafora) tijekom nekog danog vremena,
• broja tipfelera napravljenih prilikom tipkanja jedne stranice teksta, • broja telefonskih poziva upu´cenih nekoj telefonskoj centrali tijekom jedne minute, • broja pristupa nekom web serveru tijekom jedne minute, • broja pregaˇzenih ˇzivotinja nadenih na danoj duljini ceste, • broja zvijezda u danom volumenu prostora, • broja ˇzarulja koje pregore tijekom danog vremenskog intervala... Poissonova distribucija P oi(λ) se koristi kao aproksimacija binomne distribucije B(n, p) u sluˇcajevima kada je n velik i p malen, pri ˇcemu je λ = np. Primjer 1. Neka je X
∼ P oi(5). Izraˇcuna jte P (X = 2), P (X = 5), P (X < 3) i P (X > 4). 52 e 5 ≈ 0.084224 1. P (X = 2) = 2! −
2. P (X = 5) =
55 e−5 5!
≈ 0.175467
50 e−5 51 e−5 52 e−5 53 e−5 + + + 0! 1! 2! 3! 0.006738 + 0.033690 + 0.084224 = 0.124652
3. P (X < 3) = P (X = 0) + P (X = 1) + P (X = 2) =
≈
4. P (X > 4) = 1
≈
− P (X ≤ 4) = 1 − (P (X = 0) + P (X = 1) + P (X = 2) + P (X = 3) + P (X = 4)) = 50 e 5 51 e 5 52 e 5 53 e 5 54 e 5 = 1− + + + + ≈ 1 − 0.440493 = 0.559507 0! 1! 2! 3! 4!
−
−
−
−
−
Primjer 2. ˇ Recepcija u hotelu prima u prosjeku dva telefonska poziva na sat. Zelimo izraˇcunati vjero jatnosti da ´ce bro j poziva tokom jednog sata biti 0, 1, 2, 3, 4, 5 ili viˇse. Rjeˇsenje. Ako u prosjeku imamo dva poziva na sat, onda je je λ = 2. Dakle sluˇcajna varijabla koja modelira ovu situaciju ima distribuciju X P oi(2). U sljede´coj tabeli su dane vjerojatnosti da ´ce tokom jednog sata recepcija primiti 0, 1, 2, 3, 4, 5 ili viˇse poziva.
∼
broj poziva
0 P (X = 0) vjerojatnost 0.13534
1 2 P (X = 1) P (X = 2) 0.27067 0.27067
74
3 4 5 ili viˇse P (X = 3) P (X = 4) P (X 5) 0.18045 0.09022 0.05265
≥
Primjer 3. U jednom vatrogasnom domu su izraˇ cunali da u prosjeku dobivaju 2.1 laˇznu dojavu o poˇzarima na dan. Uz pretpostavku da moˇzemo primijeniti Poissonovu distribuciju, izraˇcunajte vjerojatnost da ´ce u jednom danu biti 1. niti jedna laˇzna do java, 2. ˇcetiri laˇzne dojave, 3. najviˇse tri laˇzne dojave, 4. barem dvije laˇzne do jave. Rjeˇsenje. Ako je rijeˇc o Poissonovoj distribuciji, onda promatramo sluˇcajnu varijablu X
∼ P oi(2.1) pa imamo:
2.10 e−2.1 1. P (X = 0) = = e−2.1 0.12246, 0! 4 −2.1 2.1 e 2. P (X = 4) = = 0.099231 4! 3. P (X 3) = P (X = 0) + P (X = 1) + P (X = 2) + P (X = 3)
≈
≈
≤ ≈ 0.83864, 4. P (X ≥ 2) = P (X = 2) + P (X = 3) + P (X = 4) + · ·· = 1 − (P (X = 0) + P (X = 1)) ≈ 1 − 0.37961 = 0.62039. Primjer 4. Poznato je da je 5% ljudi ljevoruko. Izraˇcunajte vjerojatnost da se u grupi od 100 ljudi nalazi barem dvoje ljevorukih. Rjeˇsenje. Koristit ´cemo Poissonovu distribuciju X P oi(5), jer je prosjeˇcan broj ljevorukih u grupi od 100 ljudi jednak 100 0.05. Traˇ zena vjero jatnost je pribliˇzno jednaka:
∼ · P (X ≥ 2) = 1 − (P (X = 0) + P (X = 1)) ≈ 0.96. Zadaci
Zadatak 1. Neka je X
∼ P oi(2.5). Izraˇcuna jte P (X = 2), P (X = 3), P (X ≤ 3) i P (X > 5).
Zadatak 2. Poznato je da se u izvjesnoj knjizi od 250 stranica nalazi 50 sluˇcajno rasporedenih ˇstamparskih greˇsaka. Nadite vjero jatnost da se na stotoj stranici te knjige ne nalazi niti jedna ˇstamparska greˇ ska. Kolika je vjerojatnost da se na toj stranici nalaze najviˇse dvije ˇstamparske greˇske? (Uputa: prosjeˇcan broj ˇstamparskih greˇsaka po stranici je 50/250 = 0.2.) Zadatak 3. Za jednog konobara je ustanovljeno da mu u prosjeku iz ruku ispadne i razbije se 0 .05 tanjura na sat. Kolika je vjero jatnost da mu tokom jednog sata niti jedan tanjur ne´ce ispasti iz ruku?
75
15
Kontinuirana sluˇ cajna varijabla
U mnogim sluˇcajevima nam za modeliranje sluˇcajnih procesa diskretne sluˇcajne varijable nisu dovoljne i to naroˇcito onda kada ishodi sluˇcajnih procesa nisu izolirani bro jevi, nego mogu poprimiti bilo koju vrijednost iz nekog intervala realnih brojeva. Npr. ˇzarulje se testira ju tako da ih se drˇzi ukljuˇcenima sve dok ne pregore. Sluˇcajna varijabla Y povezana s ovom situacijom mjeri vrijeme do pregaranja u recimo satima. Vrijednosti koje moˇze Y poprimiti su nenegativni realni brojevi, dakle [0, + > pa je Y kontinuirana varijabla.
∞
Primjeri kontinuiranih sluˇcajnih varijabli:
• visina ili teˇzina ljudi na nekom podruˇcju, • koliˇcina ˇse´cera u jednom kilogramu groˇzda, • vrijeme potrebno da se pretrˇci sto metara, • vrijeme ˇcekanja na autobus na autobusnoj stanici. Formalno, kontinuirana sluˇcajna varijabla je funkcija sa prostora elementarnih dogadaja u skup realnih bro jeva pri ˇcemu skup vrijednosti te funkcije moˇze biti cijeli interval (ili unija intervala) realnih brojeva ili cijeli skup R. Vjerojatnost svakog elementarnog dogada ja je kod kontinuirane sluˇcajne varijable jednaka nuli. Smisla ima traˇziti vjerojatnost da sluˇcajna varijabla poprimi vrijednost iz nekog intervala, ˇsto se definira uz pomo´c funkcije distribucije vjerojatnosti ili funkcije gusto´ce vjero jatnosti.
76
Funkcija gusto´ce vjerojatnosti kontinuirane sluˇ cajne varijable Funkcija gusto´ce vjerojatnosti kontinuiranih sluˇcajnih varijabli je funkcija f : R 1. funkcija f je nenegativna, tj. za svaki x
→ R sa sljede´cim svojstvima:
∈ R vrijedi f (x) ≥ 0
b
2.
f (t) dt = P (a
a
≤ X ≤ b)
+∞
3.
f (t) dt = 1
−∞
Kako je vjerojatnost da X poprimi neku konkretnu vrijednost jednaka nuli (ˇsto slijedi iz P (X = a) =
a
f (t) dt = 0), sve sljede´ce vjerojatnosti su medusobno jednake:
a
P (a
≤ X ≤ b) = P (a < X ≤ b) = P (a ≤ X < b) = P (a < X < b). Funkcija distribucije vjerojatnosti kontinuirane sluˇ cajne varijable
Funkciju distribucije vjerojatnosti F kontinuirane sluˇcajne varijable X definiramo formulom
x
F (x) = P (X
≤ x) =
f (t) dt,
−∞
gdje je f (x) pripadaju´ca funkcija gusto´ce vjerojatnosti. Iz navedenog i Newton–Leibnizove formule slijedi P (a < X
≤ b) = F (b) − F (a)
i F ′ (x) = f (x), tj. funkcija distribucije vjerojatnosti kontinuirane sluˇcajne varijable je primitivna funkcija pripadne funkcije gusto´ce vjero jatnosti.
77
16
Normalna (Gaussova) distribucija. Standardna normalna distribucija
Normalna distribucija , koja se ˇcesto zove Gaussova distribucija , je vrlo vaˇzan primjer kontinuirane distribucije primjenjive u raznim podruˇcjima. Parametri te distribucije su dva broja, µ (oˇcekivanje) i σ2 (varijanca). Da neprekidna sluˇcajna varijabla X ima normalnu distribuciju s parametrima µ i σ 2 , oznaˇcavamo ovako: X
∼ N (µ, σ2).
za standardnu normalnu distribuciju vrijedu µ = 0 i σ2 = 1. Carl Friedrich Gauss je otkrio normalnu distribuciju kada je analizirao neke astronomske podatke i tada je definirao jednadˇzbu njezine funkcije gusto´ce: f (x) =
1 √ e σ 2π
−1 2
( x−σ µ )2
Funkcije gusto´ce vjero jatnosti za razliˇcite σ i µ:
0.5 µ=
−2
0.4
6
6
µ =0
0.8
µ =2
σ=
1 2
0.6
0.3
0.4
0.2 σ =1 0.1
-
0 -4
-2
0
2
0.2
σ =2
-
0
4
-4
-0.1
-3
-2
-1
0 µ=0
σ =1
x
Funkcija distribucije vjerojatnosti se definira sa: F (x) =
−∞
78
f (t) dt.
1
2
3
4
Funkcije distribucije vjerojatnosti:
1
6
1
0.8
0.8
0.6
0.6
0.4
0.4
0.2
0.2
-
0 -4
-2
0
2
σ = 1, µ =
-
0
4
-4
−2
-2
0
2
4
σ = 2, µ = 0
Vjero jatnost da sluˇcajna varijabla X lijevu sliku na stranici 80):
6
∼ N (µ, σ2 ) poprimi vrijednost manju od ili jednaku b je jednaka (vidi
b
P (X
≤ b) =
f (x) dx = F (b)
−∞
gdje je F pripadaju´ca funkcija distribucije vjerojatnosti. Da bi izraˇcunali tu vjerojatnost, koristimo se tabelom vrijednosti funkcije distribucije standardne normalne razdiobe N (0, 1), koja je dana na stranici 102. Da bismo mogli koristiti tu tablicu, moramo prvo podatke vezane uz zadanu normalnu distribuciju prevesti u odgovaraju´ce podatke iz standardne normalne distribucije formulom x∗ =
x
−µ σ
pri ˇcemu vrijedi F (x) = F ∗ (x∗ ) gdje je F ∗ funkcija distribucije vjerojatnosti standardne normalne razdiobe. Sada imamo: P (X
∗
≤ b) = F (b) = F
− b
µ
σ
= F ∗ (b∗ ).
Pribliˇznu vrijednost za F ∗ (b∗ ) oˇcitavamo direktno iz tabele (ili s malo boljih kalkulatora). Primjer 1. Da bi naˇsli F ∗ (1.23), radimo sljede´ce: 1. U prvom stupcu tabele traˇzimo broj 1.2. 79
Primjer 2. Broj sunˇ canih dana u jednoj godini na otoku Hvaru normalno je distribuirana sluˇ cajna varijabla X s parametrima µ = 251 i σ2 = 49. Izraˇcunajte vjerojatnost da je broj sunˇcanih dana u godini (a) ve´ci od 256 , X > 256; (b) izmedu 249 i 259, 249 < X
≤ 259 ?
Rjeˇsenje.
− ≈ − − ≈
− P (X ≤ 256) = 1 − F (256) = 1 − F 256 7 251 ≈ 1 − F (0.71) ≈ 1 − 0.76115 = 0.23885, 259 − 251 249 251 (b) P (249 < X ≤ 259) = F (259) − F (249) = F F F (1.14) − F (−0.29) 7 7 = F (1.14) − (1 − F (0.29)) ≈ 0.87286 − (1 − 0.61409) = 0.48695. ∗
(a) P (X > 256) = 1
∗
∗
∗
∗
∗
0.06
0.06
0.05
0.05
0.04
0.04
0.03
0.03
0.02
0.02
0.01
0.01
0 220 -0.01
230
240
250
260
270
0 220 -0.01
280
∗
∗
230
P (X > 256)
240
P (249
250
260
270
280
≤ X ≤ 259)
Primjer 3. Pretpostavimo da je temperatura zraka u travnju normalna distribuirana sluˇcajna varijabla T s µ = 20◦C i standardnom devijacijom σ = 3◦ C . Nadite vjerojatnost da je temperatura zraka u travnju (a) manja od 18◦ C ; (b) izmedu 21◦ C i 23◦ C . Rjeˇsenje.
≤ 18) = F (18) = F ( 18 3 20 ) ≈ F (−0.67) ≈ 1 − 0.74857 = 0.25143, (b) P (21 < T ≤ 23) = F (23) − F (21) = F ( 23 3 20 ) − F ( 21 3 20 ) ≈ F (1.00) − F (0.33) ≈ ≈ 0.84134 − 0.62930 = 0.21204. (a) P (T
∗
−
∗
∗
−
∗
81
−
∗
∗
Zadaci Zadatak 1. Oˇcitajte iz tabele vrijednosti funkcije distribucije standardne normalne razdiob e N (0, 1) sljede´ce vrijednosti: F ∗ (2.71), F ∗ (1.789), F ∗ (0.334), F ∗ (5.23), F ∗ (0.1212), F ∗ ( 0.34), F ∗ ( 1.3476), F ∗ ( 2.96243), F ∗ ( 7.22).
−
−
−
−
Zadatak 2. Broj sunˇ canih dana u jednoj godini na otoku Hvaru normalno je distribuirana sluˇ cajna varijabla s 2 parametrima µ = 320 i σ = 81. Kolika je vjerojatnost da je broj sunˇ canih dana u godini izmedu 290 i 322 ? Zadatak 3. Broj kiˇ snih dana u jednoj godini na otoku Hvaru normalno je distribuirana sluˇ cajna varijabla s parametrima µ = 20 i σ2 = 4. Kolika je vjerojatnost da je broj kiˇsnih dana u godini izmedu 6 i 14 ? Zadatak 4. Pretpostavimo da je visina (u cm) studenata veleuˇ ciliˇsta normalno distribuirana sluˇcajna varijabla s parametrima µ = 171cm i σ2 = 26.01cm2. Izraˇcunajte vjerojatnost da je visina sluˇcajno odabranog studenta 1. ve´ca od 168
,
cm
2. izmedu 170cm i 173.cm. Zadatak 5. Pretpostavimo da je visina stanovnika Lastova, u cm, normalno distribuirana sluˇcajna varijabla s parametrima µ = 169 i σ 2 = 10.89. Izraˇcunajte vjero jatnost da je visina sluˇcajno odabranog stanovnika (a) manja ili jednaka 168cm, (b) izmedu 165cm i 170cm. Zadatak 6. Pokaˇzite da za svaku sluˇcajnu varijablu X
− σ < X ≤ µ + σ) ≈ 0.68, 2. P (µ − 2σ < X ≤ µ + 2σ) ≈ 0.95, 3. P (µ − 3σ < X ≤ µ + 3σ) ≈ 0.997. 1. P (µ
82
∼ N (µ, σ2) vrijedi
17
2
χ
–distribucija
χ2 –distribucija (hi kvadrat distribucija) ovisi o parametru k N kojeg zovemo stupanj slobode. Funkcija gusto´ce vjero jatnosti χ2 –distribucija s k stupnjeva slobode je dana s
∈
k
x
f k (x) = c x 2 −1 e− 2 , x > 0
·
∞
gdje je c > 0 konstanta koja ovisi o k takva da vrijedi
f k (t)dt = 1.
0
graf funkcija f 1 (x) i f 2 (x)
graf funkcija f 3 (x), f 5 (x), f 10 (x) i f 15 (x)
k =1
1.0 0.8
1.0 0.8
k =2
0.6
0.6
0.4
0.4
0.2
0.2
0.0
0.0 0
k=3
2 4 6 8 10 12 14 graf funkcija F 1 (x) i F 2 (x)
k = 15
0 2 4 6 8 10 12 14 graf funkcija F 3 (x), F 5 (x), F 10(x) i F 15 (x)
Oznaka za sluˇcajnu varijablu X koja ima χ2 –distribuciju s k stupnjeva slobode je X χ2k . Oˇcekivanje takve varijable je E (X ) = k, varijanca D(X ) = 2k, a standardna devijacija σ = 2k. Za k 30 vrijedi da sluˇcajna varijabla X χ2k ima pribliˇzno normalnu distribuciju N (k, 2k).
√
∼
83
∼
≥
Dio III
Statistiˇcki testovi Tipiˇcna situacija u kojoj se primjenjuju statistiˇcki testovi je kad imamo neku pretpostavku, koju nazivamo hipotezom, o nekom statistiˇckom obiljeˇzju neke velike grupe ljudi (npr. zanimaju nas visine ili teˇ zine svih gradana Republike Hrvatske), o seriji nekih proizvoda (npr. neka njihova dimenzija, teˇzina, koliˇ cina neispravnih proizvoda, ...) itd. Takvu grupu ljudi ili seriju proizvoda zovemo populacija . Gotovo uvijek je nemogu´ce mjerenje statistiˇckog obiljeˇzja provesti na cijelo j populaciji pa se mjerenje obavlja na jednoj manjoj grupi ljudi ili manjem dijelu jedne serije proizvoda. Ta manja grupa na kojo j se obavlja mjerenje se zove uzorak . Postoji teorija uzorka koja se bavi time kako odabrati dobar (nepristran) uzorak, no time se ne´cemo baviti. Statistiˇcki testovi nam pomaˇzu da donesemo neki zakljuˇcak u vezi promatranog statistiˇckog obiljeˇzja na cijeloj populaciji na osnovu mjerenja provedenog na uzorku. Obradit ´cemo dva tipa statistiˇckih testova koji se odnose na testiranje hipoteze:
• testiranje hipoteze o oˇcekivanju normalno distribuirane varijable uz poznatu varijancu, • χ2 test. Prilikom testiranja hipoteze uvijek imamo tzv. nul hipotezu (oznaˇcavamo je s H 0 ) koju neposredno prov jeravamo testom. Rezultat testa moˇze biti njeno prihva´canje ili odbacivanje. U sluˇcaju kada nul hipotezu odbacujemo, onda to znaˇci da prihva´camo alternativnu hipotezu (koju oznaˇcavamo s H 1 ) ko ja moˇze, ali i ne mora, biti negacija nul hipoteze. Kod testiranja hipoteze moˇzemo napraviti dvije vrste greˇsaka.
• Greˇska prve vrste se dogada kada nul hipotezu odbacimo iako je ona istinita.
Na primjer, u kliniˇckom testiranju novog lijeka bi nul hipoteza mogla biti da novi lijek u prosjeku nije bolji od lijeka koji se trenutno koristi. Greˇska prve vrste bi se pojavila ako bismo zakljuˇcili da ova dva lijeka daju razliˇcite rezultate dok u stvari nema razlike u njihovim primjenama.
• Greˇska druge vrste se dogada kada nul hipotezu prihvatimo, iako ona nije istinita.
U gornjem primjeru bi ovaj tip greˇske nastao ako bismo zakljuˇcili da oba lijeka u prosjeku poluˇcuju jednake rezultate u primjeni iako to nije istina.
Sljede´ca tabela prikazuje sve mogu´ce rezultate testiranja hipoteze: H 0 istinita H 0 neistinita
H 0 odbaˇcena greˇska I vrste ispravna odluka
H 0 prihva´cena ispravna odluka greˇska II vrste
Greˇska prve vrste je ozbiljnija i vaˇ znije je da obratimo paˇznju na to kako da izbjegnemo nju, nego greˇsku druge vrste. Testovi hipoteze imaju jedan parametar, razinu znaˇcajnosti (oznaˇcava se s α), koji ima znaˇcenje vjero jatnosti da ´cemo napraviti greˇsku prve vrste. Taj parametar treba biti ˇsto manji, ali ne moˇze biti nula; uobiˇcajeno je da se za njega uzmu vrijednosti α = 0.05 ili α = 0.01. Ako ne odbacimo nul hipotezu, joˇs uvijek je mogu´ce da je ona neistinita, jer uzorak moˇzda nije bio dovoljno velik da bi se mogla detektirati njena 84
neistinitost. Op´cenito, za zadanu razinu znaˇcajnosti α nije mogu´ce izraˇcunati vjerojatnost greˇske druge vrste (oznaˇcava se s β ), no zna se da ˇsto je jedna od te dvije vrijednosti manja, to je druga ve´ca. Jakost testa hipoteze je njegova sposobnost da odbaci nul hipotezu kada je ona neistinita, preciznije, vjerojatnost da se ne´ce dogoditi greˇska druge vrste, a to je 1 β .
−
Vrijednost testa je broj kojeg dobijemo na osnovu uzorka. Kritiˇcna vrijednost je teoretska granica koja ovisi o razini znaˇcajnosti (i ne ovisi o uzorku). Ona dijeli skup vrijednosti koje moˇze poprimiti vrijednost testa na dva dijela. Ako vrijednost testa pripada kritiˇcnom podruˇcju, onda nul hipotezu odbacujemo, inaˇce je prihva´camo.
85
18
Testiranje hipoteze o oˇ cekivanju uz poznatu varijancu
Neka je X sluˇcajna varijabla s nepoznatim oˇcekivanjem µ i poznatom standardnom devijacijom σ, definirana na nekoj populaciji. Testiranje hipoteze o oˇcekivanju uz poznatu varijancu se provodi tako da se koriste´ ci aritmetiˇcku sredinu uzorka izraˇcuna vrijednost testa koja se usporeduje s kritiˇcnom vrijednosti, iz ˇcega se onda izvodi zakljuˇcak o prihva´canju ili odbacivanju nul hipoteze. Test se moˇze provesti ako je X sluˇca jna varijabla s normalnom distribucijom N (µ, σ 2 ). Mogu´ce su tri vrste provodenja testa: lijevi, desni i obostrani. U svakom od njih raˇcunamo vrijednost testa x−µ n. Moraju nam biti poznati razina znaˇcajnosti α (obiˇcno malen broj, na jˇceˇs´ce 0.05 ili 0.01), varijanca σ 2 cinu uzorka n, aritmetiˇcku sredinu σ sluˇcajne varijable X , a ako uzorak nije poznat, onda moramo znati veliˇ x uzorka i jesu li svi elementi uzorka manji od µ, ve´ci od µ ili u uzorku ima i brojeva koji su ve´ci od µ i brojeva koji su od njega manji (da bismo mogli odrediti koji test trebamo provesti: lijevi, desni ili obostrani). Nulhipoteza je u sva tri sluˇcaja ista.
√
H 0 : µ = µ0 nul hipoteza H 1 : µ < µ0 alternativna hipoteza µ Ako je x− n > z α = z1−α onda nulhipotezu prihva´camo (ne odbacujemo) s razinom znaˇcajnosti α σ jer vrijednost testa nije u kritiˇcnom podruˇcju. U suprotnom nulhipotezu odbacujemo (ne prihva´camo) s razinom znaˇcajnosti α. Lijevi test provodimo samo onda kada su sve vrijednost uzorka manje od µ0 .
lijevi
√
−
6
6
-
-
zα vt
vt zα
nul hipoteza se prihva´ca (vt=vrijednost testa)
nul hipoteza se odbacuje
H 0 : µ = µ0 nul hipoteza H 1 : µ > µ0 alternativna hipoteza µ Ako je x− n < z1−α onda nulhipotezu ne odbacujemo s razinom znaˇcajnosti α jer vrijednost testa σ nije u kritiˇcnom podruˇcju. U suprotnom nulhipotezu odbacujemo s razinom znaˇcajnosti α = 0.05. Desni test provodimo samo onda kada su sve vrijednost uzorka ve´ce od µ0 .
desni
√
86
6
6
-
-
vt z1−α
z1−α vt
nul hipoteza se prihva´ca
nul hipoteza se odbacuje
H 0 : µ = µ0 nul hipoteza H 1 : µ = µ0 alternativna hipoteza x−µ µ Ako je σ n > z α2 = z1− α2 i x− n < z 1− α2 onda nulhipotezu ne odbacujemo s razinom znaˇcajnosti σ α jer vrijednost testa nije u kritiˇcnom podruˇcju. U suprotnom nulhipotezu o dbacujemo s razinom znaˇca jnosti α = 0.05. Obostrani test provodimo samo onda kada su neke vrijednosti uzorka manje, a neke ve´ce od µ0 .
obostrani
√
√
−
6
6
z α2 vt
-
z1− α2
vt z α2
nul hipoteza se prihva´ca
z1− α2 vt
nul hipoteza se odbacuje
Vrijednosti za oˇcitavamo iz tabele na strani 102.
87
Primjer 2. Izvrˇsena je provjera rada stroja za proizvodnju limenih ploˇca. U tablici su popisana izmjerena odstupanja debljine ploˇca od propisane vrijednosti (izraˇzena u milimetrima). Uz pretpostavku da je vrijednost odstupanja normalno distribuirana sluˇcajna varijabla s parametrima µ i σ2 = 0.0016, odgovara ju´cim testom testirajte hipotezu H 0 : µ = 1.15 uz razinu znaˇcajnosti α = 0.05 . x1 1.19
x2 1.17
x3 1.19
x4 1.16
x5 1.18
x6 1.17
x7 1.16
x8 1.19
Rjeˇsenje. Prvo izraˇcunamo aritmetiˇcku sredinu uzorka: x=
1.19 + 1.17 + 1.19 + 1.16 + 1.18 + 1.17 + 1.16 + 1.19 = 1.17625. 8
Vrijednost testa je:
x
− µ0 √n = 1.17625 − 1.15 √8 ≈ 1.8562. σ
0.04
Koristit ´cemo desni test, jer u uzorku su sve vrijednosti ve´ce od µ0 .
H 0 : µ = 1.15 mm nul hipoteza H 1 : µ > 1.15 mm alternativna hipoteza
Treba izraˇcunati kritiˇcnu vrijednost z1−α = z0.95 . Iz tabele dobivamo da je z0.95 = 1.64 (najbliˇza vrijednost u tabeli je 0.94950).
6
z0.95 vt nul hipoteza se ne prihva´ca Vidimo da je vrijednost testa ve´ca od kritiˇcne vrijednosti ˇsto znaˇci da je u kritiˇcnom podruˇcju pa nul hipotezu odbacujemo s razinom znaˇcajnosti α = 0.05.
89
Primjer 3. Stroj za proizvodnju matica je provjeren tako da je izmjereno odstupanje promjera matice od propisane vrijednosti (u mm). U tabeli su navedena odstupanja: x1 x2 x3 x4 x5 x6 x7 x8 0.49 0.48 0.49 0.48 0.47 0.47 0.48 0.48 Uz pretpostavku da je vrijednost odstupanja normalno distribuirana sluˇcajna varijabla s parametrima µ i σ2 = 0.0016, testirajte hipotezu H 0 : µ = 0.5. Razina znaˇcajnosti neka je α = 0.01. Rjeˇsenje. Provodimo lijevo testiranje s razinom znaˇcajnosti α = 0.05. Iz podataka slijedi x = 0.48.
H 0 : µ = 0.5 mm nul hipoteza H 1 : µ < 0.5 mm alternativna hipoteza x µ 0.48 0.5 Vrijednost testa je n= 8 σ 0.0016
− √
zα = z0.01 =
√ − √ ≈ −1.41.
−z0 99 ≈ −2.33 < −1.41. .
Nulhipotezu prihva´camo s razinom znaˇcajnosti α = 0.01 jer se vrijednost testa nalazi van kritiˇcnog podruˇcja.
6
z0.01
vt
nul hipoteza se prihva´ca
90
2
19
χ
test
Nakon ˇsto odredimo tabelu frekvencija nekih dobivenih podataka moˇzemo se zapitati odgovara li ona nekim unaprijed poznatim oˇcekivanim frekvencijama, koje se zadaju preko distribucije neke sluˇcajne varijable. Npr. ako bacimo simetriˇcnu kockicu 60 puta, zbog jednakih vjerojatnosti elementarnih dogada ja oˇcekujemo da ´ce svi brojevi od 1 do 6 pasti podjednaki broj puta, tj. pribliˇzno 10 puta. Najˇceˇs´ce to ne´ce biti tako i neki brojevi ´ce se pojaviti rjede, a neki ˇceˇs´ce. Ono ˇsto nas zanima je, da li je odstupanje od oˇcekivane frekvencije zanemarivo, tj. nebitno (sluˇcajno), ili su odstupanja takva da bismo trebali posumnjati u simetriˇcnost kockice. χ2 test je metoda usporedivanja frekvencija kojom se provjerava razlikuju li se bitno primije´cene frekvencije od oˇ cekivanih. Test se koristi za testiranje nul hipoteze koja pretpostavlja da nema bitne razlike izmedu primije´cenih i oˇcekivanih rezultata. Nul hipoteza se ili prihva´ca ili ne priva´ca nakon usporedivanja vrijednosti ˇ je vrijednost χ2 testa ve´ca, to je ve´ca vjerojatnost da se χ2 testa s odgovaraju´com kritiˇcnom vrijednosti. Sto nul hipoteza ne´ce prihvatiti pri ˇcemu se onda smatra da je i neki drugi faktor, a ne samo sluˇcaj, uzrokovao velika odstupanja izmedu oˇcekivanih i primije´cenih rezultata. Pretpostavimo da su eksperimentalni podaci o svim mogu´cim rezultatima nekog eksperimenta (ili o svim ishodima jedne sluˇcajne varijable) i njihove frekvencije zapisani u ovakvoj tabeli: X f
x1 f 1
x2 f 2
x3 f 3
·· · ·· ·
xm−1 f m−1
xm f m
(12)
Pretpostavljamo da sluˇcajna varijabla ˇcije ishode smo biljeˇzili u eksperimentu ima distribuciju
x1 p1
x2 p2
x3 p3
· ·· · ··
xm−1 pm−1
xm pm
(13)
Tada, ako je n = f 1 + f 2 + + f m dovoljno velik, tj. ako je npj 5 za svaki j, moˇzemo primijeniti χ2 test. Njime provjeravamo nultu hipotezu (H 0 ) koja glasi: distribucija mjerene veliˇcine X dane eksperimentalnim podacima u tabeli (12) je jednaka teoretskoj distribuciji danoj tabelom (13). Formalnije reˇceno, nulta hipoteza glasi:
· ··
≥
H 0 : P (x1 ) = p1 , P (x2 ) = p2 , . . . P ( xm ) = pm . Da bismo to provjerili sa razinom znaˇcajnosti α (obiˇcno je α = 0.05, α = 0.01 ili α = 0.1), izraˇcunavamo vrijednost χ2 testa χ2k , pri ˇcemu je k broj stupnjeva slobode: k = m 1. χ2k =
(f 1
−
− np1)2 + (f 2 − np2)2 + · · · + (f − np np1
np2
2
m)
m
npm
.
(14)
U tabeli na stranici 101 traˇzimo kritiˇcnu vrijednost c tako da je P χ2k c = 1 α = u presjeku retka koji poˇcinje stupnjem slobode k i stupca koji poˇcinje s 1 α. Ako je χ2k < c onda test potvrduje nulhipotezu s razinom znaˇcajnosti α, a ako je χ2k c, onda je χ2k u kritiˇcnom podruˇcju i test odbacuje hipotezu s razinom znaˇca jnosti α.
≥
−
92
{ ≤ }
−
6
6
χ2k
-
c
c
nul hipoteza se prihva´ca
χ2k
nul hipoteza se odbacuje
Primjer 1. Igra´ca kockica je baˇcena 60 puta i dobiveni su sljede´ci rezultati: X 1 2 3 4 5 6 f 5 7 5 14 13 16 ˇ Zelimo provjeriti je li kockica simetriˇcna (odnosno ”poˇstena”) ili imamo razloga posumnjati u tu tvrdnju. To znaˇci da ˇzelimo provjeriti odgovaraju li dobiveni brojevi teoretskoj distribuciji za simetriˇcnu kockicu danu tabelom
1
2
3
4
5
6
1 6
1 6
1 6
1 6
1 6
1 6
Nulta hipoteza H 0 : kockica je ”poˇstena”, tj. distribucija vrijednosti koje se mogu dobiti njenim bacanjem je jednaka teoretskoj. Da bismo to provjerili primijenit ´cemo χ2 test s razinom znaˇcajnosti α = 0.05. Imamo np1 = (ˇsto je ve´ce od 5 pa moˇzemo primijeniti χ2 test), broj stupnjeva slobode je k = 6 1 = 5 i
−
χ25 =
(5
− 10)2 + (7 − 10)2 + (5 − 10)2 + (14 − 10)2 + (13 − 10)2 + (16 − 10)2 = 12 10
10
10
10
93
10
10
· · · = np6 = 10
Primjer 3. Novˇci´c je baˇcen 100 puta i 60 puta je ispala glava. Moˇzemo li s razinom znaˇcajnosti α = 0.05 zakljuˇciti da je novˇci´c simetriˇcan ili ne? Tabela koja pripada eksperimentu je X pismo glava 40 60 f Nulta hipoteza je da se dani podaci slaˇzu s teoretskom distribucijom za bacanje simetriˇcnog novˇci´ca:
− 0
1
1 2
1 2
konstatiramo da smijemo provesti χ2 test, jer je 100 Sada raˇcunamo χ21 : χ21 =
(40
· 12 = 50 > 5. Broj stupnjeva slobode je k = 2 − 1 = 1.
50)2 (60 50)2 + =4 50 50
−
Iz tabele vidimo da je za P χ21 c = 0.95 c = 3.841 i kako je χ21 > c, zakljuˇcujemo da s razinom znaˇcajnosti α = 0.05 nultu hipotezu odbacujemo, tj. novˇci´c s razinom znaˇcajnosti α = 0.05 nije simetriˇcan.
{ ≤ }
Primjer 4. U ljevaonici Irongate su se biljeˇzile nesre´ce koje su se dogadale tijekom radnog vremena po satima smjene. Izvjeˇsta j o nesre´cama je dan sljede´com tabelom u kojoj je zabljeˇzeno n = 168 nesre´ca: sat smjene 1 2 3 4 5 6 7 8 bro j nesre´ca 19 17 15 24 20 26 22 25 Ono ˇsto zanima i upravu ljevaonice i sindikat radnika ljevaonice je moˇze li se na osnovu danih podataka ustanoviti da posto ji kritiˇcni sat smjene tijekom kojeg se nesre´ce dogada ju ˇceˇs´ce nego tijekom drugih sati. Ako takav sat ne postoji, onda bi nesre´ce trebale biti ravnomjerno rasporedene po satima smjene, tj. trebale bi imati sljede´cu distribuciju:
1
2
3
4
5
6
7
8
1 8
1 8
1 8
1 8
1 8
1 8
1 8
1 8
Kako je 168 81 = 21 > 5, moˇzemo primijeniti χ2 test kojim ´cemo uz vrijednost razine znaˇcajnosti α = 0.05 provjeriti nul hipotezu da su vjerojatnosti dogadanja nesre´ca tijekom razliˇcitih sati smjene medusobno jednake. Broj stupnjeva slobode je jednak broju sati u smjeni umanjen za jedan, tj. 7. Izraˇcunajmo vrijednost testa: χ27 =
(19
− 21)2 + (17 − 21)2 + · · · + (22 − 21)2 + (25 − 21)2 ≈ 5.143 21
21
21
21
Kritiˇcnu vrijednost c za bro j stupnjeva slob ode 7 i razinu znaˇcajnosti α = 0.05 oˇcitavamo iz tabele i dobivamo: c = 14.067. Kako je χ27 < c, onda zakljuˇcujemo da test potvrduje nul hipotezu s razinom znaˇcajnosti α = 0.05.
95
0.12
6
0.1 0.08 0.06 0.04 0.02
-
0 -0.02
0
5 χ27
10
c15
20
25
nul hipoteza se prihva´ca Primjer 5. Provjerom su na uzorku od 556 sjemenaka, koje mogu biti po boji ˇzute ili zelene, a po obliku glatke ili naborane, dobiveni podaci predstavljeni sljede´com tabelom8 : vrsta sjemenki ˇzute glatke zelene glatke ˇzute naborane zelene naborane frekvencije 315 108 101 32 χ2 testom uz razinu znaˇcajnosti α = 0.05 testirajte nul hipotezu prema kojoj bi se ove sjemenke trebale pojaviti u omjeru 9 : 3 : 3 : 1. Navedeni teoretski omjer se moˇze predstaviti distribucijom
ˇzute glatke zelene glatke ˇzute naborane zelene naborane 9 16
3 16
3 16
1 16
· 161 = 34.75 > 5, moˇzemo primijeniti χ2 test. Broj stupnjeva slobode je 3. Vrijednost testa je: (315 − 312.75)2 (108 − 104.25)2 (101 − 104.25)2 (32 − 34.75)2 ≈ 0.47 χ2 = + + +
Budu´ci je 556
3
312.75
104.25
104.25
34.75
Kritiˇcna vrijednost za broj stupnjeva slobode 3 i razinu znaˇcajnosti α = 0.05 je c = 7.815 i kako je χ23 < c, zakljuˇcujemo da test potvr duje nul hipotezu s razinom znaˇcajnosti α = 0.05.
8
Uz pomo´ c eksperimenata koji su ukljuˇ civali bro janje r azliˇ citih vrsta sjemenaka poput ovih iz zadatka je ruski biolog Mendel doˇ sao do svo jih zakona o nasljedivanju koji nose njegovo i me.
96
Zadaci Zadatak 1. Tijekom tri uzastopna tjedna jedne godine su dobiveni sljede´ci podaci o ukupno 66 ozljeda uzrokovanih ugrizima ˇzivotinja u neko j bolnici: tjedan 25. broj ugriza
− 31. kolovoza 27
1.
− 7. rujna 19
8.
− 14. rujna 20
χ2 testom uz vrijednost razine znaˇcajnosti α = 0.1 provjerite je li jedan od promatranih tjedana bio bitno opasniji ˇsto se ˇzivotinjskih ugriza tiˇce od ostala dva. Zadatak 2. Tijekom jedne dulje DnD igre je oktaedarska kockica (ili kra´ ce d8; to je oktaedar, pravilno poliedarsko tijelo s 8 strana na kojima su napisani brojevi od 1 do 8) baˇcena ukupno 168 puta. Sljede´com tabelom su prikazani bro jevi koji su dobiveni na taj naˇcin: d8 1 2 3 4 5 6 7 8 frekvencije 29 22 18 19 20 23 12 25 χ2 testom uz vrijednost razine znaˇcajnosti α = 0.01 provjerite ima li razloga sumnjati da kockica nije simetriˇcna. Zadatak 3. Sto sluˇcajno odabranih studenata je pitano koji je od brojeva 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 njima najdraˇzi. Rezultati ankete su prikazani u sljede´coj tabeli: najdraˇzi brojevi 0 1 2 3 4 5 6 7 8 9 frekvencije 5 3 11 10 19 9 11 15 13 4 χ2 testom uz vrijednost razine znaˇcajnosti α = 0.05 provjerite postoje li bro jevi koje studenti vole viˇse od ostalih. Zadatak 4. U trgovini odje´com su dobili sljede´ce rezultate o kupovini 40 kravata koje se medusobno razlikuju samo po boji: boja kravate plava crvena zelena ˇzuta frekvencije 7 9 14 10 χ2 testom uz vrijednost razine znaˇcajnosti α = 0.01 provjerite proda ju li se kravate nekih bo ja viˇse od ostalih. Zadatak 5. Iz telefonskog imenika su uzete zadnje znamenke sto uzastopnih telefonskih brojeva i dobivena je sljede´ca tabela: zadnja znamenka tel. broja 0 1 2 3 4 5 6 7 8 9 frekvencije 3 8 15 14 10 7 8 9 11 15 χ2 testom uz vrijednost razine znaˇcajnosti α = 0.01 provjerite je li uzimanje zadnjih znamenaka brojeva iz telefonskog imenika dobar naˇcin da se dobiju sluˇcajni brojevi. Zadatak 6. Proizvodaˇ c loptica za stolni tenis pakira po pet loptica u jednu kutiju . Loptice mogu biti ili ispravne ili neispravne. Radi kontrole kvalitete proizvoda i naˇcina pakiranja loptica potrebno je odrediti teoretsku distribuciju pakiranja neispravnih loptica po kutijama. Na sluˇcajan je naˇcin odabrano 70 kutija za koje su dobiveni sljede´ci podaci 97
broj neispravnih loptica xi broj kutija f i
0 33
1 6
2 6
3 5
4 9
5 11
Na ovom uzorku testirajte nulhipotezu da broj neispravnih loptica po kutiji ima teoretsku distribuciju
uz razinu znaˇcajnosti α = 0.01.
0
1
2
3
4
5
4 18
1 9
3 9
3 18
1 18
4 18
Zadatak 7. Proizvodaˇc kockica za igranje je proizveo novu kockicu koja ima sedam strana na kojoj mogu pasti brojevi od 1 do 7 i tvrdi da svaki od brojeva ima jednaku vjerojatnost pojavljivanja. Bacanjem kockice je dobivena sljede´ca tabela frekvencija: broj na kockici 1 2 3 4 5 6 7 frekvencija 8 14 17 11 13 18 19 Na ovim podacima testira jte tvrdnju proizvodaˇ ca, tj. testirajte nulhipotezu da je navedena kockica sa sedam strana simetriˇ cna, tj. ima teoretsku razdiobu
1 2 3 4 5 6 7 p p p p p p p
(prvo odredite p) uz razinu znaˇcajnosti α = 0.01. Zadatak 8. U kockarnici se moˇze igrati jednostavna igra s jednim pravilom: bacaju se tri kockice i dobitak je proporcionalan broju ˇsestica koje na njima padnu. Pra´cenjem jednog od igraˇca dobivena je sljede´ca tabela: broj ˇsestica na tri kockice frekvencije
0 48
1 35
2 15
3 3
Upravi kockarnice su se navedeni podaci uˇcinili sumnjivim i ˇzele provjeriti igra li taj igraˇc s njihovim kockicama koje su sigurno simetriˇ cne, ili ih je on neprimjetno zamijenio sa svojim, nesimetriˇcnim kockicama koje favoriziraju padanje ˇsestica. Vjerojatnost pk padanja k ˇsestica na tri kockice je jednaka pk = P (X = k), gdje je X B(3, 16 ).
∼
Na danim podacima testirajte nulhipotezu da igraˇc igra sa simetriˇ cnim kockicama, tj. da dobiveni podaci imaju teoretsku razdiobu 0 1 2 3 p0 p1 p2 p3
uz razinu znaˇcajnosti α = 0.05. Na osnovu rezultata zakljuˇcite ho´ce li uprava ljubazno zamoliti tog igraˇca da napusti kockarnicu ili ne´ce reagirati na njegove uspjehe.
98
U dosadaˇsnjim primjerima smo eksperimentalne podatke testirali prema teoretskim (oˇcekivanim) vrijednostima. To se, naravno, moˇze raditi jedino ako je teoretska distribucija poznata. Sada ´cemo vidjeti primjere u kojima se testiraju dvije grupe eksperimentalnih podataka jedna prema drugoj, tj. provjeravat ´cemo imaju li dvije grupe podataka istu (ne nuˇzno poznatu) distribuciju. Pretpostavimo da imamo dvije grupe eksperimentalnih podataka o svim mogu´cim rezultatima nekog eksperimenta i njihove frekvencije: X D1 D2
x1 m1 n1 s1 = m1 + n1
x2 m2 n2 s2
· ·· · ·· · ·· · ··
x3 m3 n3 s3
xr−1 mr−1 nr−1 sr−1
xr mr nr sr = mr + nr
··· ··· · ··
m = m1 + m2 + + mr n = n1 + n2 + + nr N = s1 + s2 + + sr = m + n
Nul hipoteza koju testiramo (s nekom razinom znaˇcajnosti α) je da dvije grupe podataka imaju istu distribuciju. Postupak je isti kao i u sluˇ caju testiranja prema teoretskoj distribuciji, jedino se χ2k drugaˇcije raˇcuna. Prvo raˇcunamo vrijednosti pj , j = 1, . . . , r:
m1 + n1 s1 s2 sr = , p2 = , . . . , pr = . N N N N Zatim raˇcunamo vrijednosti mpj i npj , j = 1, . . . , r i na kraju raˇcunamo χ2k ; broj stupnjeva slobode je k = r 1. p1 =
−
χ2k =
(m1
− mp1)2 + ·· · + (m − mp )2 + (n1 − np1)2 + · · · + (n − np )2 r
mp1
r
mpr
r
np1
r
(15)
npr
Sada gledamo u istu tabelu kao i prije i traˇzimo takav c da vrijedi P χ2k c = 1 α i ako je c χ2k onda je χ2k u kritiˇcnom podruˇcju pa hipotezu odbacujemo, a ako je c > χ2k , onda je prihva´camo s razinom znaˇcajnosti α. Primjer 6. Uˇcenici neke ˇskole su postigli sljede´ce usp jehe:
{ ≤ }
−
≤
ocjena 1 2 3 4 5 djeˇcaci 40 48 85 42 35 250 = m djevojˇcice 20 35 77 50 28 210 = n 60 83 162 92 63 460 ˇ Zeljeli bismo ustanoviti jesu li djeˇcaci i djevojˇcice bili jednako uspjeˇsni, tj. jesu li distribucije tih dvaju skupova podataka podataka jednake. Idemo redom. Broj stupnjeva slobode je k = 5 1 = 4. p1 =
−
40 + 20 60 83 162 92 63 = , p2 = , p3 = , p4 = , p5 = . 460 460 460 460 460 460
60 mp1 = 250 460 60 np1 = 210 460
≈ 32.61, ≈ 27.39,
≈ 45.11, mp3 ≈ 88.04, mp4 = 50, mp5 ≈ 34.24, ≈ 37.89, np3 ≈ 73.96, np4 = 42, np5 ≈ 28.76. 2 (40 − 32.61) (48 − 45.11)2 (85 − 88.04)2 (42 − 50)2 (35 − 34.24)2 2 χ4 ≈ + + + + + 32.61 45.11 88.04 50 34.24 (20 − 27.39)2 (35 − 37.89)2 (77 − 73.96)2 (50 − 42)2 (28 − 28.76)2 + + + + = 27.39 37.89 73.96 42 28.76 ≈ 7.14 U tabeli nalazimo c takav da vrijedi P {χ24 ≤ c} = 0.95: c = 9.488. Kako je c > χ24 , hipotezu prihva´camo s mp2 np2
razinom znaˇcajnosti α = 0.05.
99
Zadaci Zadatak 9. Sto ljudi je dobilo cjepivo protiv gripe. Njih 40 je bilo mlade od 50 godina, a 60 starije. Neki od njih nisu dobili gripu (N), neki su dobili blagi oblik (B), a neki jaki oblik (J) te gripe. oblik gripe N B J < 50 30 6 4 40 50 36 12 12 60
≥
Koriste´ci χ2 test uz razinu znaˇcajnosti α = 0.05 testirajte nul hipotezu da su reakcije na cjepivo bile jednake u obje grupe. Rjeˇsenje. χ22 2.65, P χ22
≈
{ ≤ c} = 0.95 ⇒ c ≈ 5.99 Hipoteza se ne odbacuje, jer je χ22 < c.
Zadatak 10. Ishodi dviju sluˇcajnih varijabli X i Y su A,B,C i D. Mjerenjem se doˇslo do sljede´cih podataka o frekvenciji ishoda tih dviju varijabli: A B C D X 24 46 14 17 Y 43 51 36 11 Koriste´ci χ2 test uz razinu znaˇcajnosti α = 0.05 testirajte nul hipotezu da sluˇcajne varijable X i Y imaju istu distribuciju. Provedite test uz vrijednost razine znaˇcajnosti od α = 0.01. Zadatak 11. U tabeli su popisane frekvencije isho da dviju sluˇcajnih varijabli, X i Y . 2 3 4 5 6 7 8 9 10 11 12 X 1 6 7 14 18 18 9 10 10 5 2 Y 1 2 4 4 16 11 17 11 15 8 11 Koriste´ci χ2 test uz razinu znaˇcajnosti α = 0.05 testira jte nul hipotezu da su da sluˇcajne varijable X i Y imaju istu distribuciju.
100
Literatura [1] Neven Elezovi´c, Teorija vjero jatnosti, zbirka zadataka, Element, Zagreb, 1995. ˇ [2] Nikola Sarapa, Vjerojatnost i Statistika, 1. dio, Kombinatorika, Skolska knjiga, Zagreb, 1993. ˇ [3] Nikola Sarapa, Vjerojatnost i Statistika, 2. dio, Sluˇ cajne varijable, Osnove statistike, 1996. Skolska knjiga, Zagreb, 1993. [4] Seymour Lipschutz, Jack Schiller, Schaum’s Outline of Introduction to Probability and Statistics, McGraw-Hill, New York, 1998.
104