VISOKA TEHNI^KA [KOLA STRUKOVNIH STUDIJA PO@AREVAC
MILORADOVI] MIROQUB
PREDAVAWA IZ
BIOSTATISTIKE SA RE[ENIM ZADACIMA AUTORIZOVANA SKRIPTA
PO@AREVAC
1
Umesto predgovora Predmet Biostatistika predaje se na odsecima Za{tita `ivotne sredine i poqoprivrednom od {kolske 2003/04 godine, a kao predmet uvodi se i na Poqoprivrednom odseku. Ne postoji uxbenik pisan prema planu i programu tog predmeta, pa ovaj materijal ima kao svoju namenu pomo} stdentima da lak{e savladaju predvi|enu materiju. Predavawa su pisana pomo}u raspolo`ivih uxbenika na na{em jeziku. Strogost izlagawa je bila ograni~ena matemati~kim predznawem slu{alaca. Naime, kao priprema za Biostatistiku slu`i teskoban jednosemestralni kurs Matematike. No i pored toga, brojni re{eni primeri u ovom materijalu pomo}i }e budu}im in`ewerima Vi{e tehni~ke {kole da na osnovu podataka prikupqenih posmatrawem ili merewem, sa uspehom prate, uo~avaju pravilnosti i predla`u najracionalnija re{ewa za mnogobrojne probleme u svom budu}em stru~nom radu Autorizovanu skriptu Predavawa iz Biostatistike imali su na uvid ~lanovi komisija koji su napisali pozitivne Referate za moje izbore u zvawa profesora za predmete Biostatistika, Matemati~ko modelirawe eko sistema i GIS i Matematika. Evo mi{qewa o kvalitetu ovog materijala. ,,U skriptama Predavawa iz Biostatistike autor je obradio vrlo slo`enu materiju vezanu za podru~je Verovatno}e i Statistike na pregledan na~in {to omogu}uje studentima da koriste}i ovu skriptu savladaju osnove statistike”. ,,Publikovawe ovih skripti zna~ajno doprinosi studentima da lak{e savladaju predvi|enu materiju. Skripta su pisana jasnim i preciznim jezikom i daju ve}i broj re{enih problema, koji }e zna~ajno pomo}i budu}im in`ewerima Za{tite `ivotne sredine da uo~avaju pravilnosti i predla`u najracionalnija re{ewa za mnogobrojne probleme u oblasti za{tite `ivotne sredine”. Gre{ke u ovom materijalu su samo moje, a zahvalnost dugujem pre svega studentima koji se trude da pomo}u wega spreme i polo`e ispit ~ime se pripremaju za prakti~nu primenu znawa koje }e ste}i iz stru~nih predmeta. Po`arevac Predmetni nastavnik 02.2013. godine Miloradovi} Miroqub
2
U SPOMEN MOJIM RODITEQIMA PETRU I MILANKI
3
SADR@AJ 1 KOMBINATORIKA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.1 Permutacije . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.2 Varijacije . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.3 Kombinacije . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.4 Binomni obrazac . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1`2 1.5 Zadaci . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 2 BAZNI KONCEPT TEORIJE VEROVATNO]E . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.1 Slu~ajni doga|aj. Algebra doga|aja . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.2 Poqe doga|aja. Verovatno}a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.3 Osobine verovatno}e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 2.4 Uslovna verovatno}a. Nezavisnost doga|aja . . . . . . . . . . . . . . 25 2.5 Formula potpune verovatno}e. Bajesova formula . . . . . . . . . . 27 2.6 Zadaci . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 3 JEDNODIMENZIONALNA SLU^AJNA PROMENQIVA . . . . . . . . . . . . . . 30 3.0 Uvod . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 3.1 Slu~ajne promenwive diskretnog tipa . . . . . . . . . . . . . . . . . . . . . . 31 3.2 Slu~ajne promenqive neprekidnog tipa . . . . . . . . . . . . . . . . . . . . . 34 3.3 Neki zakoni raspodela verovatno}a slu~ajnih promenqivih diskretnog tipa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 3.4 Neki zakoni raspodela verovatno}a slu~ajnih promenqivih neprekidnog tipa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 3.5 Matemati~ko o~ekivawe slu~ajnih promenqivih . . . . . . . . . . . 43 3.6 Disperzija slu~ajne promenqive . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 3.7 Transformacija slu~ajne promenqive . . . . . . . . . . . . . . . . . . . . . . . 52 3.8 Kori{}ewe tablica nekih raspodela . . . . . . . . . . . . . . . . . . . . . . . . 53 3.9 Zadaci . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 4 VI[EDIMENZIONALNE SLU^AJNE PROMENQIVE . . . . . . . . . . . . . . . 60 4.1 Dvodimenzionalne slu~ajne promenqive diskretnog tipa . . 60 4.2 Zakon raspodele verovatno}a dvodimenzionalne slu~ajne promenqive diskretnog tipa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 4.3 Funkcija raspodele verovatno}a dvodimenzionalne slu~ajne promenqive diskretnog tipa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 4.4 Nezavisnost slu~ajnih promenqivih . . . . . . . . . . . . . . . . . . . . . . . . 63 4.5 Transformacija dvodimenzionalne slu~ajne promenqive diskretnog tipa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 4.6 Brojne karakteristike dvodimenzionalne diskretne slu~ajne promenqive . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 4.7 Pojam linearne regresije . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 4.8 Pojam n -dimenzionalne slu~ajne promenqive . . . . . . . . . . . . . . .71 4.9 Zadaci . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 5 GRANI^NE TEOREME . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 5.1 Zakoni velikih brojeva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 5.2 Centralna grani~na teorema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 5.3 Aproksimacija binomne raspodele normalnom raspodelom 78 5.4 Zadaci . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
4
6 OSNOVNI POJMOVI MATEMATI^KE STATISTIKE . . . . . . . . . . . . . . . 81 6.0 Uvod . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 6.1 Populacija. Obele`je. Uzorak . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 6.2 Raspodela obele`ja. Centralna teorema matemati~ke statistike . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 6.3 Predstavqawe obele`ja populacije na osnovu podataka . . . . 85 6.4 Formirawe i grafi~ko predstavqawe distribucije grekvencija . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 6.5 Neke statistike . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 6.6 Raspodele nekih statistika . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . 99 7 STATISTI^KA OCENA NEPOZNATIH PARAMETARA OSNOVNOG SKUPA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 7.0 Pojam statisti~ke ocene. Vrste ocena . . . . . . . . . . . . . . . . . . . . . . . 105 7.1 Kriterijumi izbora ta~kaste ocene parametara . . . . . . . . . . . . . 106 7.2 Osnovne metode za dobijawe ta~kaste ocene . . . . . . . . . . . . . . . . . 111 7.3 Intervalne ocene parametara raspodele . . . . . . . . . . . . . . . . . . . . 115 7.4 Odre|ivawe obima uzorka . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 8 TESTIRAWE STATISTI^KIH HIPOTEZA . . . . . . . . . . . . . . . . . . . . . . . . . . 124 8.0 Statisti~ka hipoteza. Statisti~ki test . . . . . . . . . . . . . . . . . . . . . 124 8.1 Testirawe parametarskih hipoteza . . . . . . . . . . . . . . . . . . . . . . . . . . 126
Testirawe hipoteze o sredwoj vrednosti osnovnog skupa pri poznatoj varijansi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 Testirawe hipoteze o sredwoj vrednosti osnovnog skupa kada varijansa nije poznata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .130 Testirawe hipoteze H 0 ( m1 = m2 ) pri nepoznatim 2 disperzijama σ 1,2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
Testirawe hipoteze o disperziji . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 Testirawe hipoteze o jednakosti disperzija dva osnovna skupa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 8.2 Testovi slobodni od raspodele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 139 Pirsonov χ 2 test za proveru hipoteze o raspodeli osnovnog skupa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 χ 2 test za testirawe hipoteze o nezavisnosti dva obele`ja 145 Test Kolmogorova i Smirnova . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147 9 LINEARNA REGRESIJA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 9.0 Pojam linearne regresije . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 9.1 Jedna~ina proste linearne regresije . . . . . . . . . . . . . . . . . . . . . . . . . 152 Intervali poverewa za parametre linearne regresije . . . . . . 159 Interpolacija i ekstrapolacija . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162 9.2 Neki va`niji krivolinijski modeli . . . . . . . . . . . . . . . . . . . . . . . . . 164 Logaritamski model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164 Dvostruko-logaritamski model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166 Inverzni (hiperboli~ki) model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167 Eksponencijalni model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168 LITERATURA. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168 DODATAK Statisti~ke tablice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169 Ispitna pitawa. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
5
KOMBINATORIKA U ovom poglavqu razmatramo ukratko osobine kona~nih skupova i wihovih odre|enih podskupova u vezi sa rasporedom elemenata u wima, kao i sa brojem takvih rasporeda. Problemi takve vrste su od interesa u raznim oblastima matematike, a wima se bavi posebna grana matematike – kombinatorika. Ovde }emo se podsetiti osnovnih pojmova ( permutacije, varijacije, kombinacije) i formula, zakqu~no sa binomnim obrascem.
1.1 PERMUTACIJE Upoznajmo na po~etku neke osnovne pojmove koji }e nam biti kasnije od koristi. Definicija 1. Neka su A i B disjunktni skupovi koji imaju redom m i n elemenata. Broj na~ina da se izabere jedan elemenat iz skupa A ili iz skupa B je m + n , {to je kombinatorni princip sume. Definicija 2. Neka su A i B neprazni disjunktni skupovi koji imaju redom m i n elemenata. Kombinatorni princip proizvoda glasi: broj na~ina da se izabere ta~no po jedan elemenat iz skupa A i iz skupa B je m⋅n . Definicija 3. Neka je dat skup A = {a1 , a2 ,..., an } sa razli~itim elementima. Svaka ure|ena n -torka svih elemenata skupa A je permutacija bez ponavqawa skupa A . Pojam permutacije bez ponavqawa od n elemenata mo`emo uvesti i slede}om definicijom. Definicija 4. Svaka bijekcija skupa A = {a1 , a2 ,..., an } na samog sebe je permutacija bez ponavqawa od n elemenata skupa A . Primer 1. Odrediti sve permutacije skupa A = {a, b, c} . Re{ewe. To su ure|ene trojke abc, acb, bac, bca, cab, cba . Uo~imo da na prvo mesto svake trojke mo`e do}i svaki od tri elementa. Na drugo mesto mo`e do}i svaki od preostala dva elementa, a na tre}e mesto dolazi po jedan preostali elemenat skupa A . Broj permutacija je 3 ⋅ 2 ⋅1 = 6 . Teorema 1. Broj svih permutacija bez ponavqawa n -to~lanog skupa je P ( n ) = n ⋅ ( n − 1) ⋅ ( n − 2 ) ⋅⋅⋅ 3 ⋅ 2 ⋅1 = n ! Dokaz. U n -to ~lanom ure|enom nizu na prvo mesto mo`e do}i svaki od n elemenata, na drugo mesto svaki od preostalih n − 1 elemenata, itd. Na posledwe, n -to, mesto dolazi posledwi preostali elemenat.▲ Izraz n ! zove se ,,en faktorijel”. Va`i def
0! = 1 , n ! = n ⋅ ( n − 1) !, n ∈ N . Primer 2. Na koliko na~ina se cifre 0,1,…,9 mogu pore|ati u niz tako da se na prvih pet mesta nalaze a) neparne cifre, b) parne cifre (nulu smatramo parnom cifrom). Re{ewe. a) 5!⋅ 5! = 120 ⋅120 = 14400 .
6
b) Nula }e na prvom mestu biti 4!⋅ 5! puta. Zato je ukupan broj nizova 5!⋅ 5! − 4!⋅ 5! = 5 ⋅ 4!⋅ 5!− 4!⋅ 5!= 4 ⋅ 4!⋅ 5! = 11520 . Primer 3. Koliko ima permutacija skupa {1, 2,..., n} kod kojih izme|u jedinice i dvojke stoji ta~no jedan elemenat? Re{ewe. Ako 1 ⊗ 2 , gde je simbol ⊗ zamena za ma koji broj razli~it od 1 i 2, smatramo jednim elementom, onda tra`imo permutacije od n − 2 elementa ( jedan elemenat je 1 ⊗ 2 i jo{ preostala n − 3 ). Wihov broj je ( n − 2 )! . Kako umesto ⊗ mo`e da stoji ma koji od n − 2 elementa, to poredak
1 ⊗ 2 daje
( n − 2 ) ⋅ ( n − 2 )!
permutacija. Jo{ toliko permutacija
daje poredak 2 ⊗ 1 . Ukupan proj permutacija je 2 ⋅ ( n − 2 ) ⋅ ( n − 2 )! . ▲ Ako se u nizu neki elementi javqaju vi{e od jednog puta onda su u pitawu permutacije sa ponavqawem. Precizirajmo. Definicija 5. Neka je dat skup A = {a1 , a2 ,..., am } . Svaka ure|ena n torka elemenata skupa A u kojoj se elemenat a1 javqa k1 puta, elemenat a2 javqa k2 , itd. , elemenat am javqa km puta, gde je k1 + k2 + ... + km = n , zove se permutacija sa ponavqawem od n elemenata klase ( k1 , k2 ,..., km ) .
Primer 4. Napisati sve permutacije sa ponavqawem od pet elemenata skupa A = {a, b} u kojima se slovo a javqa 3 puta, a slovo b dva puta. Re{ewe. To su slede}e petorke aaabb, aabab, aabba, abaab, abbaa, ababa, bbaaa, babaa, baaba, baaab . ▲ Ako sa Pnk1 , k2 ,..., km obele`imo broj svih permutacija sa ponavqawem od
n elemenata klase ( k1 , k2 ,..., km ) onda va`i slede}a teorema.
Teorema 2.
Pnk1 ,k2 ,..., km =
( k1 + k2 + ... + km )! .
k1 !⋅ k2 !⋅⋅⋅ km ! Dokaz. Ukupan broj permutacija bez ponavqawa od n elemenata treba umawiti k1 !⋅ k2 !⋅⋅⋅ km ! puta, jer se elementi a1 , a2 ,…, am ne javqaju redom k1 ! , k2 ! , …, km ! puta, ve} samo po jednom. 5! Napomena 1. U prethodnom primeru je bilo P53,2 = = 10 . 3!⋅ 2! Primer 5. Na koliko na~ina se mogu postaviti osam belih figura (dva topa, dva lovca, dva skaka~a, kraq i dama) na prvom redu {ahovske table? ( 2 + 2 + 2 + 1 + 1)! = 8! = 7! = 5040 . Re{ewe. Broj na~ina je 2!2!2!1!1! 2!2!2!
7
1.2 VARIJACIJE Da bi smo lak{e razumeli pojam varijacije bez ponavqawa navedimo na po~etku jedan primer. Primer 1. Napisati sve dvoslovne re~i sa razli~itim slovima pomo}u azbuke A = {a, b, c} . Re{ewe. To su ure|ene dvojke ab, ac, bc,
ba, ca, cb . Definicija 1. Neka je dat skup A = {a1 , a2 ,..., an } sa razli~itim elementima. Varijacije bez ponavqawa od n elemenata k -te klase ( k ≤ n ) su sve ure|ene k -torke razli~itih elemenata skupa A . ▲ Ako sa Vkn obele`imo broj svih varijacije bez ponavqawa od n elemenata k -te klase onda va`i slede}a teorema. Teorema 1. Vkn = n ⋅ ( n − 1) ⋅⋅⋅ ⎡⎣ n − ( k − 1) ⎤⎦ .
Dokaz. Za prvo mesto u nizu imamo n = n − (1 − 1) mogu}nost. Za drugo
mesto ostaje n − 1 = n − ( 2 − 1) mogu}nost. Nastavqaju}i rezonovawe, za k -to mesto u ure|enom nizu preostaje n − ( k − 1) = n − k + 1 mogu}nost. ▲ Prihvata se dogovor Vkn = 0, k > n .
Primedba 1. Uo~imo da je Vnn = P ( n ) .
Primer 2. Na koliko se razli~itih na~ina mogu 3 kuglice rasporediti u 4 razli~ite kutije ako u svakoj kutiji mo`e biti najvi{e jedna kuglica? Re{ewe. Za prvu kuglicu imamo 4 mogu}nosti, za drugu kuglicu 3 mogu}nosti i za tre}u kuglicu dve mogu}nosti. Dakle, broj na~ina je V34 = 4 ⋅ 3 ⋅ 2 = 24 . Primer 3. Na koliko na~ina se od 10 qudi mo`e rasporediti 4 ~oveka na 4 razli~ita radna mesta? Re{ewe. Broj rasporeda je V410 = 10 ⋅ 9 ⋅ 8 ⋅ 7 = 5040 . Slede}i primer poma`e razumevawu pojma varijacija sa ponavqawem. Primer 4. Pomo}u azbuke A = {a, b, c} napisati sve mogu}e dvoslovne re~i. Re{ewe. To su slede}e ure|ene dvojke aa, ab, ac,
ba, bb, bc, ca, cb, cc . Primetimo da i na prvom i na drugom mestu u nizu mo`e da stoji svako od tri slova, {to je 3 ⋅ 3 = 9 mogu}nosti. Definicija 2. Varijacija k -te klase skupa od n elemenata je svaka ure|ena k -torka (ne obavezno razli~itih) elemenata tog skupa, pri ~emu mo`e biti i k > n . ▲
8
Ako za broj svih varijacija k -te klase n -to ~lanog skupa uvedemo n
oznaku V k , onda o~igledno va`i slede}a teorema. Teorema 2. Broj varijacija sa ponavqawem k -te klase skupa od n elemenata je n
V k = n ⋅ n ⋅⋅⋅ n = n k . k puta
Primer 5. Nov~i} se baca 10 puta. Zapisuje se niz slova P i G i to u onom redosledu kako su se pojavqivali pismo i grb. Koliko ima razli~itih rezultata ovog eksperimenta? Re{ewe. U svakom od deset bacawa nov~i}a mo`e pasti pismo ili glava. Otuda je broj razli~itih rezultata 210 = 1024 , odnosno toliko ima razli~itih nizova du`ine 10. Primer 6. U sobi ima n sijalica, pri ~emu svaka ima poseban prekida~. Na koliko razli~itih na~ina mo`emo osvetliti sobu (soba je osvetqena ako svetli bar jedna sijalica)? Re{ewe. Svaki od n prekida~a mo`e svaku od n sijalica ukqu~iti ili iskqu~iti. To je ukupno 2n mogu}nosti. Ura~unata je i situacija kada su sve sijalice iskqu~ene. Dakle, sobu mo`emo osvetliti na 2n − 1 razli~itih na~ina.
1. 3 KOMBINACIJE Na slede}em primeru upoznajmo o ~emu se radi. Primer 1. Dat je skup A = {a, b, c} . Navesti sve dvo~lane podskupove skupa A . Re{ewe. Kako broj pojavqivawa elementa u skupu nije bitan kao ni poredak tih elemenata, to svi tra`eni podskupovi glase: {a, b} , {a, c} , {b, c} . Definicija 1. Kombinacija bez ponavqawa k -te klase skupa od n elemenata , k ≤ n , je svaki wegov k -to ~lani podskup. ▲ Ako sa Ckn ozna~imo broj svih kombinacija bez ponavqawa k -te klase skupa od n elemenata, onda je na snazi Teorema 1. n ⋅ ( n − 1) ⋅⋅⋅ ⎡⎣ n − ( k − 1) ⎤⎦ Vkn n! n . Ck = = = P (k ) k ⋅ ( k − 1) ⋅⋅⋅ 3 ⋅ 2 ⋅1 k !⋅ ( n − k ) ! Dokaz. Svaki k -to ~lani podskup mo`e dati P ( k ) permutacija. Dakle, Vkn = Ckn ⋅ P ( k ) i ako jo{ primetimo da je
n ⋅ ( n − 1) ⋅⋅⋅ ⎡⎣ n − ( k − 1) ⎤⎦
⋅
( n − k ) ⋅ ( n − k − 1) ⋅⋅⋅ 3 ⋅ 2 ⋅1 = n! , ( n − k ) ⋅ ( n − k − 1) ⋅⋅⋅ 3 ⋅ 2 ⋅1 k !⋅ ( n − k )!
k ⋅ ( k − 1) ⋅⋅⋅ 3 ⋅ 2 ⋅1 dobijamo ta~nost teoreme. Primer 2. Ko{arka{ki trener ima na raspolagawu 12 igra~a i to pet bekova, ~etiri centra i tri krila. Na koliko na~ina mo`e sastaviti ekipu od pet igra~a u kojoj }e biti dva centra, dva beka i jedno krilo?
9
5⋅ 4 4⋅3 3 ⋅ ⋅ = 180 ekipa. 2 2 1 Primer 3. Na polici se nalazi 12 kwiga pore|anih u niz. Na koliko na~ina se mo`e izabrati pet kwiga, tako da nikoje dve izabrane kwige nisu susedne? Re{ewe. Re{imo ovakav problem. Na polici je sedam kwiga. Na koliko na~ina je mogu}e na toj polici dodati pet kwiga, a da dodate kwige nisu susedne? Za dodavawe kwiga imamo osam mesta. Prvo je pre prve kwige na polici, drug izme|u prve i druge kwige, itd., osmo mesto je posle sedme kwige na polici. Dakle na osam mesta mo`emo pet kwiga staviti na C58 = 56 na~ina. Primer 4. Na koliko na~ina mo`emo pore|ati u niz n nula i k jedinica, tako da nikoje dve nule nisu susedne? Re{ewe. Za n nula imamo k + 1 mesto, ili, {to je isto, treba formirati sve mogu}e n -to ~lane podskupove skupa koji ima k + 1 elemenat. Ovaj broj je Cnk +1 . Napomenimo da zadatak ima smisla ako je k +1 ≥ n . ▲ Da bi smo lak{e usvojili pojam kombinacija sa ponavqawem pogledajmo slede}i primer. Primer 5. Dat je skup A = {a1 , a2 ,..., an } . Formirati sve kombinacije sa Re{ewe. Trener mo`e sastaviti C25 ⋅ C24 ⋅ C13 =
ponavqawem druge klase ovog skupa. Re{ewe. Sve ove kombinacije su a1a1 , a1a2 , a1a3 ,..., a1an ,
a2 a2 , a2 a3 ,..., a2 an ,
........................ an −1an −1 , an −1an , an an . Primetimo da je wihov broj
n + ( n − 1) + ... + 1 =
( n + 1) ⋅ n .
2 Definicija 2. Neka je na skupu A = {a1 , a2 ,..., an } dat strogi linearni poredak a1 < a2 < ... < an . Kombinacija k -te klase sa ponavqawem skupa A je svaka k -torka oblika an1 an2 ...ank , pri ~emu je n1 ≤ n2 ≤ ... ≤ nk , a ni ∈ {1, 2,..., n} , i ∈ {1, 2,..., k} . ▲
Mo`emo prethodni pojam dati i slede}om definicijom koja se samo naizgled razlikuje od prethodne. Definicija 3. Kombinacije k -te klase skupa od n elemenata je svaka neure|ena k -torka (ne obavezno razli~itih) elemenata tog skupa, pri ~emu smatramo da su dve neure|ene k -torke jednake ako i samo ako imaju iste elementa sa istim brojem ponavqawa. ▲ n
Ako sa C k ozna~imo broj svih kombinacija k -te klase od n elemenata, onda se mo`e dokazati da je
10
n
Ck =
( n + k − 1) ⋅ ( n + k − 2 ) ⋅⋅⋅ n . k ⋅ ( k − 1) ⋅⋅⋅ 3 ⋅ 2 ⋅1
Primer 6. Od pet vrsta razglednica treba kupiti osam razglednica. Na koliko se na~ina mo`e izvr{iti izbor? Re{ewe. Broj izbora je broj kombinacija sa ponavqawem osme klase od pet elemenata, tj. 5 ( 5 + 8 − 1) ⋅11⋅⋅⋅ 6 ⋅ 5 = 495 . C8 = 8!
1. 4 BINOMNI OBRAZAC
Napamet znamo obrasce 0 ( a + b) = 1 ,
( a + b) = a + b , 2 ( a + b ) = a 2 + 2ab + b2 , 1
ali je malo te`e da napamet odredimo, recimo, ( a + b ) . U ovoj lekciji 11
}emo nau~iti kako izra~unati
( a + b)
n
, n ∈ N ∪ {0} . Uvedimo oznaku
⎛n⎞ ⎛n⎞ Ckn = ⎜ ⎟ . Izrazi ⎜ ⎟ se ~itaju “en nad ka” i nazivaju binomni ⎝k ⎠ ⎝k ⎠ koeficijenti. Opravdanost ovog naziva }e biti jasna iz onoga {to sledi. Navedimo prethodno neke osobine binomnih koeficijenata. ⎛n⎞ ⎛ n ⎞ 10 ⎜ ⎟ = ⎜ ⎟, ⎝k ⎠ ⎝n−k ⎠ ⎛n⎞ n! , 20 ⎜ ⎟ = ⎝ k ⎠ k !⋅ ( n − k ) ! ⎛ n ⎞ ⎛ n ⎞ ⎛ n + 1⎞ 30 ⎜ ⎟ + ⎜ ⎟=⎜ ⎟. ⎝ k ⎠ ⎝ k + 1⎠ ⎝ k + 1⎠ Ove osobine su poznate iz sredwe {kole, stoga }emo dokazati samo, na primer, drugu osobinu. ⎛ n ⎞ def n ⋅ ( n − 1) ⋅⋅⋅ ⎡⎣ n − ( k − 1) ⎤⎦ ( n − k ) ⋅ ( n − k − 1) ⋅⋅⋅ 3 ⋅ 2 ⋅1 n! . ⋅ = ⎜ ⎟ = k! k !( n − k ) ! ( n − k )! ⎝k ⎠ Jo{ je ⎛ n ⎞ def ⎛ n⎞ ⎛ n⎞ ⎜ ⎟ = 0, k > n; ⎜ ⎟ = ⎜ ⎟ = 1 . ⎝k ⎠ ⎝0⎠ ⎝ n⎠ Naredni obrazac, koga navodimo u obliku teoreme, zove se binomni ili Wutnov binomni obrazac. Teorema 1. Ako su a i b ma kakvi brojevi ili brojni izrazi, a n ∈ N , onda va`i
11
⎛ n⎞ ⎛n⎞ ⎛ n⎞ ⎛ n ⎞ n −1 ⎛ n ⎞ n n ⎛ n ⎞ n − k k = ⎜ ⎟ a n + ⎜ ⎟ a n −1b + ⎜ ⎟ a n − 2b 2 + ... + ⎜ ⎟ ab + ⎜ ⎟ b = ∑ ⎜ ⎟ a b . k =0 ⎝ k ⎠ ⎝0⎠ ⎝1 ⎠ ⎝ 2⎠ ⎝ n − 1⎠ ⎝n⎠ Primer 7. Izra~unati broj svih poskupova n -to ~lanog skupa. ⎛n⎞ ⎛n⎞ ⎛n⎞ n n Re{ewe. ⎜ ⎟ + ⎜ ⎟ + ... + ⎜ ⎟ = (1 + 1) = 2 . ⎝ 0 ⎠ ⎝1 ⎠ ⎝n⎠
( a + b)
n
20
⎛ x 5⎞ Primer 8. Na}i koeficijent uz x u razvoju binoma ⎜ − ⎟ . ⎝2 x⎠ 8
Re{ewe. Ako k + 1 -vi ~lan razvoja binoma
(a + b)
n
obele`imo sa
⎛n⎞ Bk = ⎜ ⎟ a n − k b k , onda broj k odre|ujemo iz uslova da u izrazu ⎝k ⎠ 20 − k k ⎛ 20 ⎞ ⎛ x ⎞ ⎛ 5⎞ ⎜ ⎟⎜ ⎟ ⎜− ⎟ ⎝ x⎠ ⎝ k ⎠⎝ 2 ⎠ promenqiva x ima stepen 8. Otuda jedna~ina x 20− k ⋅ x − k = x8 ⇔ k = 6 . Koeficijent u ~lanu razvoja B6 je ⎛ 20 ⎞ 56 ⎜ ⎟ ⋅ 14 . ⎝6 ⎠ 2 Primer 9. Grafi~ki predstaviti binomne koeficijente ako je a) n = 6 , b) n = 8 . Re{ewe. a) k 0 1 2 3 4 5 6 ⎛ 6 ⎞ 1 6 15 20 15 6 1 ⎜ ⎟ ⎝k ⎠ b) k 0 1 2 3 4 5 6 7 8 1 8 28 56 70 56 28 8 1 ⎛8 ⎞ ⎜ ⎟ ⎝k ⎠
25
80
20
60
15
40
10
20
5
0
0 0
2
4
6
0
8
a)
5
b)
1.5 RE[ENI ZADACI
12
10
1. [vercer mo`e pre}i granicu preko {est prelaza, ali se nikad ne vra}a istim putem. Na koliko na~ina mo`e da izvede jedno putovawe? Re{ewe. Putovawe mo`e da izvede na 6 ⋅ 5 = 30 na~ina. 2. Grupa od n strelaca ga|a u m ciqeva. Na koliko na~ina: 10 svi strelci mogu ga|ati sve ciqeve, 20 svi strelci mogu ga|ati iste ciqeve, 30 svi strelci mogu ga|ati razli~ite ciqeve? Re{ewe. 10 Prvi strelac mo`e ga|ati m ciqeva, drugi strelac mo`e ga|ati m ciqeva,…, n -ti strelac mo`e ga|ati m ciqeva. Ukupno n m na~ina. 20 Svaki od m ciqeva mo`e biti meta n strelaca. Dakle, m n na~ina. 30 Ako je n > m (vi{e strelaca nego ciqeva) onda je broj na~ina 0 . Ako je n ≤ m , onda prvi strelac mo`e ga|ati svaki od m ciqeva, drugi strelac mo`e ga|ati svaki od preostalih m − 1 ciqeva,…, n -ti strelac mo`e ga|ati m − n + 1 ciq. Ukupno m ⋅ ( m − 1) ⋅ ( m − 2 ) ⋅⋅⋅ ( m − n + 1) = Vnm na~ina. 3. U {est kutija se na slu~ajan na~in raspore|uje ~etiri kuglice. Na koliko se na~ina mogu kuglice pore|ati u kutije ako 10 u jednu kutiju mo`e biti najvi{e jedna kuglica, 20 u prve ~etiri kutije treba da bude ta~no po jedna kuglica? Re{ewe. 10 Prva kuglica mo`e biti sme{tena u svaku od {est kutija, druga u svaku od pet kutija, i tako daqe. Ukupno 6 ⋅ 5 ⋅ 4 ⋅ 3 = V46 = 360 na~ina. 20 Broj mogu}nosti je 4 ⋅ 3 ⋅ 2 ⋅1 = 4! = 24 . 4. Dokazati da je ta~na binomna ili Wutnova binomna formula n ⎛n⎞ ⎛n⎞ ⎛ n⎞ ⎛ n⎞ ⎛n⎞ n ( a + b ) = ⎜ ⎟ a nb0 + ⎜ ⎟ a n−1b + ⎜ ⎟ a n−2b2 + ... + ⎜ ⎟ a 0b n = ∑ ⎜ ⎟ a n−k bk = An , n ∈ N . k =0 ⎝ k ⎠ ⎝0⎠ ⎝1 ⎠ ⎝2⎠ ⎝ n⎠ Re{ewe. Dokaz }emo dati matemati~kom indukcijom po prirodnom broju n . n =1
⎛1 ⎞ ⎛1⎞ 1 A1 = ( a + b ) = ⎜ ⎟ a1b0 + ⎜ ⎟ a 0b1 = a + b ⇔ T . ⎝0⎠ ⎝ 1⎠ Neka tvr|ewe va`i za n = k , k ≥ 1 , odnosno neka je k ⎛ k ⎞ k 0 ⎛ k ⎞ k −1 ⎛ k ⎞ k − 2 2 ⎛k ⎞ 0 k ⎛ k ⎞ k −i i k a b a b a b a b a b ... + = + + + + = ( ) ⎜ ⎟ ∑ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ a b = Ak ⇔ T . i =0 ⎝ i ⎠ ⎝0⎠ ⎝1 ⎠ ⎝2⎠ ⎝k ⎠ Doka`imo da formula va`i i za slede}i prirodan broj n = k + 1 ,
odnosno doka`imo da iz Ak ⇔ T i
( Ak ⇒ Ak +1 ) ⇔ T
redom
Ak +1 = ( a + b )
k +1
k ⎛k ⎞ = ( a + b ) Ak = ( a + b ) ∑ ⎜ ⎟ a k −i bi = i =0 ⎝ i ⎠
13
sledi Ak +1 ⇔ T . Imamo
k k k ⎛k ⎞ ⎛k ⎞ ⎛k⎞ = ( a + b ) ∑ ⎜ ⎟ a k −i b i = a ∑ ⎜ ⎟ a k −i b i + b ∑ ⎜ ⎟ a k − i b i = i =0 ⎝ i ⎠ i =0 ⎝ i ⎠ i =0 ⎝ i ⎠ k k −1 k ⎛k ⎞ ⎛k ⎞ ⎛ ⎞ ⎛k⎞ = ⎜ ⎟ a k +1b0 + ∑ ⎜ ⎟ a k +1−i bi + ∑ ⎜ ⎟ a k +1−( i +1)bi +1 + ⎜ ⎟ a 0b k +1 = i =1 ⎝ i ⎠ i =0 ⎝ i ⎠ ⎝0⎠ ⎝k⎠ ⎛ k + 1⎞ k +1 0 k ⎛ k ⎞ k +1−i i k ⎛ k ⎞ k +1−i i ⎛ k + 1⎞ 0 k +1 =⎜ ⎟a b + ∑⎜ ⎟ a b + ∑⎜ ⎟a b + ⎜ ⎟a b = i =1 ⎝ i ⎠ i =1 ⎝ i − 1 ⎠ ⎝ 0 ⎠ ⎝ k + 1⎠
⎛ k + 1⎞ k +1 0 k ⎡⎛ k ⎞ ⎛ k ⎞ ⎤ k +1−i i ⎛ k + 1⎞ 0 k +1 =⎜ ⎟ a b + ∑ ⎢⎜ ⎟ + ⎜ ⎟⎥ a b + ⎜ ⎟a b = i =1 ⎣⎝ i − 1 ⎠ ⎝ i ⎠ ⎦ ⎝ 0 ⎠ ⎝ k + 1⎠ ⎛ k + 1⎞ k +1 0 k ⎛ k + 1⎞ k +1−i i ⎛ k + 1⎞ 0 k +1 =⎜ ⎟a b + ∑⎜ ⎟a b +⎜ ⎟a b = i =1 ⎝ i ⎠ ⎝ 0 ⎠ ⎝ k + 1⎠ k +1 k + 1 ⎛ ⎞ k +1−i i = ∑⎜ ⎟a b ⇔ T . i =0 ⎝ i ⎠ Kako iz pretpostavke da je Ak ta~no sledi da je i Ak +1 ta~no, to na osnovu principa matemati~ke indukcije sledi da An va`i za svaki prirodan broj n . ⎛n⎞ n 5. Dokazati da se najve}i broj ⎜ ⎟ , za fiksirano n , dobija za k = 2 ⎝k ⎠ ⎧ n − 1 n + 1⎫ , kada je n parno i za k ∈ ⎨ ⎬ kada je n neparno. 2 ⎭ ⎩ 2 Re{ewe. ⎛n⎞ ⎛n⎞ Neka je n fiksiran prirodan broj. Posmatrajmo niz ⎜ ⎟ , ⎜ ⎟ ,…, ⎝ 0 ⎠ ⎝1 ⎠ ⎛n⎞ ⎛n⎞ ⎛n⎞ ⎜ ⎟ ,…, ⎜ ⎟ , sa op{tim ~lanom Ak = ⎜ ⎟ , k = 0,1,..., n . Ispitajmo kada je, u ⎝k ⎠ ⎝n⎠ ⎝k ⎠ zavisnosti od k , ovaj niz rastu}i, a kada opadaju}i. Neka je ⎛n⎞ ⎜ ⎟ n ⋅ ( n − 1) ⋅⋅⋅ ( n − k + 1) ( k − 1) ! n − k + 1 k A Bk = k = ⎝ ⎠ = , 1≤ k ≤ n . ⋅ = Ak −1 ⎛ n ⎞ n ⋅ ( n − 1) ⋅⋅⋅ ( n − k + 2 ) k! k ⎜ ⎟ ⎝ k − 1⎠
Niz { Ak } je neopadaju}i, to zna~i
n − k +1 n +1 ≥ 1⇔ ≥k. k 2 je opadaju}i niz ako i samo ako je Ak −1 ≤ Ak ⇔ Bk ≥ 1 ⇔
Daqe,
{ Ak }
n − k +1 n +1 < 1⇔
14
⎛n ⎞ k = m koeficijent ⎜ ⎟ najve}i. Ovo stoga {to niz { Ak } raste za ⎝m⎠ ⎛n⎞ n +1 1 k≤ = m + . Primetimo da je, u ovom slu~aju, sredwi ~lan niza ⎜ ⎟ , 2 2 ⎝0⎠ ⎛n⎞ ⎛n⎞ ⎛n⎞ ⎛n ⎞ ⎜ ⎟ ,…, ⎜ ⎟ ,…, ⎜ ⎟ upravo ⎜ ⎟ . ⎝1 ⎠ ⎝k ⎠ ⎝n⎠ ⎝m⎠ Neka je sada n neparan broj, to jest, neka je n = 2m + 1 . Tada se najve}i ⎛n ⎞ ⎛ n ⎞ n +1 ~lan niza { Ak } dobija za k = = m + 1 , ali tada je ⎜ ⎟ = ⎜ ⎟ 2 ⎝ m ⎠ ⎝ m + 1⎠ (proverite!). Otuda postoje dve vrednosti za k koje daju maksimalnu ⎛n⎞ n −1 n +1 , a druga k2 = .▲ vrednost izraza ⎜ ⎟ . Prva vrednost je k1 = m = 2 2 ⎝k ⎠ Slede}i zadatak je veoma va`an za materiju koja ima veliku uloguu primenama 6. Neka je 0 < p < 1 i p + q = 1 . Izra~unati n n ⎛n⎞ ⎛n⎞ 10 ∑ k ⋅ ⎜ ⎟ p k q n − k , 20 ∑ k 2 ⋅ ⎜ ⎟ p k q n − k . k =0 k =0 ⎝k ⎠ ⎝k ⎠ Re{ewe. n n ⎛n⎞ ⎛n⎞ 10 ∑ k ⋅ ⎜ ⎟ p k q n − k = ∑ k ⋅ ⎜ ⎟ p k q n − k = k =0 k =1 ⎝k ⎠ ⎝k ⎠ n
= ∑k ⋅ k =1
n ( n − 1) ⋅⋅⋅ ( n − k + 1) k n − k p q = k!
( n − 1)( n − 2 ) ⋅⋅⋅ ⎡⎣( n − 1) − ( k − 1) + 1⎤⎦ k −1 n−1−( k −1) = p q ( k − 1)! k =1 n −1 ( n − 1)( n − 2 ) ⋅⋅⋅ ( n − i + 1) pi q n−1−i = = np n −1
= np ∑
∑
i!
i =0
= np ( p + q ) = = np . 0 2 Primetimo odmah da mo`emo pisati ⎛n⎞ ⎛n⎞ k 2 ⎜ ⎟ = ⎡⎣( k − 1) k + k ⎤⎦ ⎜ ⎟ = ⎝k ⎠ ⎝k ⎠ n −1
=
( n − 2 )( n − 3) ⋅⋅⋅ ⎡⎣( n − 2 ) − ( k − 2 ) + 1⎤⎦ ⎛n⎞ ⋅ n ( n − 1) + k ⎜ ⎟ . ( k − 2 )! ⎝k ⎠
Zato je n ⎛ n − 2 ⎞ k − 2 ( n − 2 )−( k − 2 ) n ⎛ n ⎞ k n − k 2 ⎛ n ⎞ k n−k 2 k p q n n 1 p ⋅ = − + ∑ k ⎜ ⎟p q = ( ) ∑⎜ ∑ ⎜ ⎟ ⎟p q k =0 k =2 ⎝ k − 2 ⎠ k =0 ⎝ k ⎠ ⎝k ⎠ n−2 n − 2 ⎛ ⎞ i n − 2−i = n ( n − 1) p 2 ∑ ⎜ + np = n ( n − 1) p 2 + np = ⎟pq i =0 ⎝ i ⎠ n
= (np ) 2 + np (1 − p ) = (np ) 2 + npq . ▲
15
2 BAZNI KONCEPT TEORIJE VEROVATNO]E ^esto se u prirodi pojave i doga}aji de{avaju po ta~no utvr|enim zakonima koji va`e kada su ispuweni odre|eni kompleksi uslova. Ovakvi zakoni su deterministi~kog tipa. Tipi~ni primeri ovakvih zakona su Wutnovi zakoni mehanike ili Wutnov zakon gravitacije. Na osnovu ovih zakona se mogu predvideti doga}aji u budu}nosti, na primer, mo`e se predvideti pomra~ewe Sunca ili pomra~ewe Meseca. Pored pojava i doga}aja koji se povinuju ovakvim zakonima u prirodi i dru{tvu ima pojava i doga|aja za koje ne va`e zakoni deterministi~kog tipa. Jednostavan eksperiment sa bacawem kocke ~ije su strane numerisane razli~itim brojevima nema sa sigurno{}u predvidiv ishod, jer mo`e na gorwoj strani da padne svaki od datih brojeva. Nau~nom analizom takvih pojava bavi se deo matematike koji se zove teorija verovatno}e. Verovatno}a je teorijska podloga matemati~ke statistike.
2.1 SLU^AJNI DOGA\AJ. ALGEBRA DOGA\AJA Primere slu~ajnih eksperimenata predstavqaju: bacawe metalnog nov~i}a, kontrola kvaliteta proizvoda, sredwa dnevna temperatura nekog dana u godini. Zakonitosti kojima se bavi teorija verovatno}e se ispoqavaju tek pri velikom broju ponavqawa uo~ene pojave, ili, {to je u su{tini isto, pri pra}ewu pojave na velikom broju objekata istovremeno. Bavi}emo se slu~ajnim eksperimentima koje mo`e da pokrene ~ovek, ali i pojavama ~ije odvijawe mo`emo samo da pratimo. U oba slu~ja }emo registrovati ishod, {to je u prvom planu u teoriji verovatno}e. Definicija 1. Slu~ajni eksperiment je eksperiment ~iji se ishod ne mo`e sa sigurno{}u predvideti i koji se, pod istim uslovima, mo`e ponoviti neograni~en broj puta. Primer 1. Matemati~ar Kerih je u zarobqeni{tvu za vreme drugog svetskog rata izveo 10 serija po 1000 bacawa nov~i}a i registovao da je grb pao redom 502, 511, 497, 529, 504, 476, 507, 528, 504, 529 puta. Primer 2. Izvr{ene su redom 4 serije od 600, 6000, 60000 i 120000 bacawa kocke za igru. Broj 5 je “pao” 106, 982, 10190 i 20213 puta. Definicija 2. Doga}aj, koji u datom slu~ajnom eksperimentu mo`e da se realizuje ili ne realizuje i pri tom nema tre}e mogu}nosti, zovemo slu~ajan doga}aj. Doga}aj koji se u uo~enom slu~ajnom eksperimentu obezno realizuje zovemo siguran doga}aj, a onaj koji u tom eksperimentu ne mo`e da se ostvari – nemogu} doga|aj. ▲ Slu~ajne doga|aje }emo zvati doga|aje jer samo takve i posmatramo. Doga|aje obele`avamo velikim slovima abecede A, , B, C ,... , koja su po potrebi snabdevena indeksima. Siguran doga|aj ozna~avamo sa Ω , a nemogu} doga|aj sa ∅ . Primer 3. Baca se kocka za igru ,,ne qutu se ~ove~e” i registruje se
16
pali broj . Skup svih ishoda ovog opita je {1, 2,3, 4,5, 6} . Ako nas zanima doga|aj: pala je jedinica, onda od {est mogu}ih ishoda samo je jedan realizacija ovog doga|aje. Ako nas, pak interesuje doga|aj: pao je paran broj, onda je tri od {est mogu}ih ishoda povoqno za ovaj doga|aj. U vezi sa ovim mogu}nostima je slede}a definicija. Definicija 3. Za doga|aj ( ≠ ∅ ) koji ne sadr`i ni jedan drugi doga|aj
(≠ ∅)
ka`emo da je elementaran doga|aj. Doga|aj koji nije elementaran
zovemo slo`en doga|aj. ▲ Pri istovremenom bacawu dve kocke elementarni doga|aji su svi ure|eni parovi brojeva od 1 do 6, dok je slo`en doga|aj da je zbir palih brojeva ve}i od 10. Pri merewu temperature svaki doga|aj tipa: temperatura iznosi x stepeni ( x ∈ R ) , predstavqa po jedan elementaran doga}aj. Primer 4. Kutija sadr`i samo bele kuglice. Izvla~i se jedna kuglica i regisruje wena boja. Ovde skup svih mogu}ih ishoda ima samo jedan elemenat {bela boja}. Primer 5. Na odre|enom mestu i u odre|eno vreme registruje se temperatura T0 i vla`nost V % . Skup mogu}ih ishoda je skup ta~ka (T 0 ,V ) u ravni takvih da je a ≤ T 0 ≤ b i 0 ≤ V ≤ 100% . Primer 6. Eksperiment se sastoji u tra`ewu deteline sa ~etiri lista. Eksperiment je zavr{en kada ugledamo detelinu sa 4 lista. Skup svih ishoda je Ω = {^, T^, TT^,…}, gde ^ zna~i da je pri prvom pogledu registrovan struk deteline sa 4 lista, T^ da je u prvom pogledu otkrivena detelina sa tri lista a u drugom pogledu sa 4 lista, itd. Definicija 4. Ako sa ω1 , ω 2 , … obele`imo sve elementarne doga|aje
nekog opita onda je Ω = {ω1 , ω 2 ,...} = {ω k k ∈ S } prostor elementarnih doga|aja. ▲ Nas }e u primenama teorije verovatno}e interesovati prostori elementarnih doga|aja sa kona~no mnogo elemenata, mada wihov broj mo`e biti prebrojivo (primer 6) ili neprebrojivo mnogo (primer 5). Ma koji podskup A prostora elementarnih doga|aja Ω nazivamo doga|aj. Podskup A ⊂ Ω se sastoji od elementarnih doga|aja. Va`i jo{ ∅ ⊂Ω i Ω⊆Ω. Relacije i operacije sa doga|ajima }emo slikovito prikazivati pomo}u Venovih dijagrama kao {to se to ~ini sa skupovima. Definicija 5. Ako su A i B takvi doga|aji da iz realizacije doga|aja A sledi realizacija doga|aja B , odnosno da doga|aj B obuhvata doga|aj A , onda pi{emo A ⊂ B po analogiji sa skupovima. ▲ O~igledno A ⊂ Ω , odnosno svaki doga|aj implicira siguran doga|aj. Definicija 6. Doga|aj A je suprotan doga|aju A ako i samo ako se on realizuje kada se A ne realizuje.
17
Definicija 7. Unija dva doga|aja A i B je doga|aj C = A ∪ B koji se realizuje ako i samo ako se ostvari bar jedan od doga|aja A ili B (a mogu i oba). Definicija 8. Proizvod (presek) doga|aja A i B jeste doga|aj A ∩ B (ili AB ) koji se realizuje ako i samo ako se istovremeno realizuju i A i B . Definicija 9. Doga|aj koji se realizuje ta~no onda kada se realizuje A a ne realizuje B jeste razlika doga|aja A i B , u oznaci A B . Definicija 10. Doga|aji A i B su disjunktni (me|usobno se isqu~uju) ako se ne mogu istovremeno realizovati, u oznaci AB = ∅ . ▲ Ako su doga}aji A i B disjunktni, onda A ∪ B zamewujemo sa A + B . Unija i presek vi{e od dva doga|aja imaju redom oznake n
n
k =1
k =1
A1 ∪ A2 ∪ ... ∪ An = ∪ Ak i A1 ∩ A2 ∩ ... ∩ An = ∩ Ak . n
Uniju n doga|aja koji su me|usobno disjunktni zapisujemo sa
∑A k =1
k
.
Primer 7. Uo~imo ~etiri slova a, b, c, d . Pretpostavimo da je jedna permutacija bez ponavqawa ~etvrtog reda ishod opita. Neka je A doga|aj : ,,da je a na prvom mestu” i B : ,,da b nije na drugom mestu”. 10 Opisati skup svih mogu}ih ishoda, 20 navesti sve ishode koji pripadaju doga|aju AB , 30 isto za doga|aj A ∪ B . Primer 8. Strelac ga|a u ciq koji je u obliku kru`ne mete polupre~nika R , pri ~emu se meri rastojawe pogotka od centra mete. Opisati skup ishoda. Re{ewe. Ω = {x | 0 ≤ x ≤ R} ∪ { proma{aj } . Primer 9. Posmatra se n gostiju u restoranu, pri ~emu se registruje da li su naru~ili kafu (1) ili ne (0), a onda se posmatra jo{ onoliko gostiju koliko je kod prvih n gostiju naru~ena kafa i kod wih se registruje da li su naru~ili kafu ili ne. Opisati prostor elementarnih doga|aja ovog opita i odrediti broj wegovih elemenata (broj gostiju ≥ 2n ). n Re{ewe. Obele`imo sa {0,1} sve n -to ~lane nizove koje ~ine cifre 0 (nije naru~io kafu) i 1 (naru~io kafu). Broj ovakvih nizova je 2n n (varijacije n -te klase od dva elementa). Neka je jo{ Aj ⊂ {0,1} ,
j = 0,1, 2,..., n , skup onih n -torki koje u sebi sadr`e ta~no j jedinica. ⎛n⎞ Nizova Aj , za svako j , ima ⎜ ⎟ , odnosno na toliko na~ina od n gostiju ⎝ j⎠ wih j mo`e da naru~i kafu. Prostor elementarnih doga|aja ovog opita je zbir (unija disjunktnih) doga|aja oblika Aj {0,1} . Dakle, j
Ω = A0 ⋅1 + A1 {0,1} + A2 {0,1} + ... + An {0,1} . 1
2
n
Ako sa K ( Ω ) obele`imo broj elemenata skupa Ω dobijamo
(
) (
)
(
)
K ( Ω ) = K ( A0 ⋅1) + K A1 {0,1} + K A2 {0,1} + ... + K An {0,1} , 1
18
2
n
jer smo uzeli u obzir disjunktnost proizvoda. Daqe je ⎛n⎞ ⎛n⎞ ⎛n⎞ ⎛ n⎞ K ( Ω ) = ⎜ ⎟ 20 + ⎜ ⎟ 21 + ⎜ ⎟ 22 + ... + ⎜ ⎟ 2n ⎝0⎠ ⎝1 ⎠ ⎝2⎠ ⎝ n⎠
= (1 + 2 ) = 3n . n
Teorema 1. Za doga|aje A , B i C prostora elementarnih doga|aja Ω va`e slede}e osobine: 90 ( A ∪ B ) ∪ C = A ∪ ( B ∪ C ) , 10 A ∪ A = A , 20 A ∩ A = A ,
100
30 A ∪ Ω = Ω ,
110
40 A ∩ Ω = A ,
120
( A ∩ B) ∩ C = A ∩ ( B ∩ C ) , A ∪ ( B ∩ C ) = ( A ∪ B) ∩ ( A ∪ C ) , A ∩ ( B ∪ C ) = ( A ∩ B) ∪ ( A ∩ C ) ,
50 A ∪ ∅ = A , 60 A ∩ ∅ = ∅ , 70 A ∪ B = B ∪ A ,
130 140 150
A= A, A∪ B = A∩ B, A∩ B = A∪ B,
80 A ∩ B = B ∩ A ,
160
A∪ B = A∩ B,
170 A ∩ B = A ∪ B . Dokaz prethodnih osobina ekvivalentan je dokazu istih osobina za skupove, jer su doga|aji A , B i C skupovi ~iji su elementi elementarni doga|aji prostora Ω .
2.2 POQE DOGA\AJA. VEROVATNO]A Familija ili skup svih doga|aja vezanih za prostor elementarnih doga|aja sa odre|enim osobinama, koje dajemo u slede}oj definiciji, omogu}uju matemati~ku formalizaciju daqeg izlagawa. Definicija 1. Familija doga}aja F prostora elementarnih doga|aja Ω , koja ima osobine 10 Ω ∈ F , 20 ( ∀A ∈ F ) A ∈ F ⇒ A ∈ F , 30
( ∀A)( ∀B ) A, B ∈ F
⇒ A∪ B∈F ,
naziva se poqe doga|aja ili σ -poqe. Osobina 30 indukcijom se mo`e pro{iriti na bilo koji kona~an ili beskona~an prebrojiv niz doga|aja A1 , A2 ,... iz familije F
Ak ∈ F , k = 1, 2,... ⇒ ∪ Ak ∈ F . ▲ k
F
Ka`emo da prostor elementarnih doga|aja Ω indukuje poqe doga|aja ( σ -poqe). Teorema 1. Za σ -poqe va`e slede}e osobine: 10 ∅ ∈ F , 20 ( ∀A )( ∀B ) A, B ∈ F ⇒ A ∩ B ∈ F . Dokaz. 10 Iz definicije 1. sledi Ω∈F ⇒ Ω = ∅∈F . 20 Na osnovu prethodne definicije i posledwe teoreme prethodnog
19
paragrafa sledi A, B ∈ F ⇒ A, B ∈ F ⇒ A ∪ B ∈ F ⇒ A∪ B∈F ⇒ A∩ B∈F ⇒ A ∩ B ∈ F .▲ Iz definicije poqa doga|aja F i posledwe teoreme proizilazi da je σ -poqe skup zatvoren u odnosu na operacije sabirawa, mno`ewa i uzimawa komplemenata doga|aja iz F . Pojam verovatno}e je jedan od osnovnih pojmova u teoriji verovatno}e. Ovom pojmu je mogu}e pri}i na vi{e na~ina. Iz primera sa bacawem nov~i}a u velikim serijama uo~ili smo da se broj pojavqivawa grba grupi{e oko broja 500, odnosno da u pribli`no u polovini ishoda ,,pada” grb. U primeru sa velikim serijama bacawa kocke za igru broj 5 se pojavio u pribli`no 1 6 ishoda. Sli~no je dugogodi{wim pra}ewem uo~eno da se na 1000 novoro|en~adi rodi 513 de~aka. Ovi i mnogi drugi primeri su podloga za slede}u, statisti~ku, definiciju verovatno}e. Neka je broj realizacija doga|aja A u N ponavqawa nekog eksperimenta N ( A ) . Broj N ( A ) je u~estanost ili frakvencija, a broj
N ( A) relativna frekvencija doga|aja A . Kada se broj ponavqawa N eksperimenta neograni~eno uve}ava onda se relativne frekvencije doga|aja A grupi{u oko jednog broja. Taj broj je verovatno}a doga|aja A , u oznaci P ( A ) . Dakle, sa N ( A) N →∞ N je data statisti~ka definicija verovatno}e doga|aja A . Primetimo da se o relativnoj u~estanosti doga}aja A mo`e govoriti tek posle izvr{enih N eksperimenata. Slede}a, klasi~na, definicija verovatno}e vezana je samo za eksperimente sa kona~nim prostorom elementarnih doga|aja u kojima svaki elementaran doga|aj ima isti izgled za realizaciju. Naime, neka je Ω = (ω1 , ω 2 ,..., ω n ) . Tada je poqe F skup svih podsupova skupa Ω . Dakle, P ( A ) = lim
F ={∅, ω1 ,..., ω n , ω1 + ω 2 ,..., ω1 + ... + ω n } . Broj ovih podskupova je 2n (za{to?).
1 . Doga|aj A je zbir n elementarnih doga|aja ω n1 , ω n2 ,..., ω nk . Na osnovu re~enog zakqu~ujemo da je Pretpostavili smo da je P (ω1 ) = P (ω 2 ) = ... = P (ω n ) =
k . n Ponovimo da je za kori{}ewe ove ,,definicije” verovatno}e uslov jednakoverovatnost svakog elementarnog ishoda nekog eksperimenta. Verovatno}a se mo`e zadati i na neprekidnom skupu realnih brojeva. Neka je Ω = [ a, b ] , gde su a i b realni brojevi i neka je y = f ( x ) , x ∈ [ a, b ] , P ( A) =
neprekidna, nenegativna funkcija definisana nad intervalom [ a, b ] . Ako je A ⊆ [ a, b ] , tada verovatno}u doga|aja A defini{emo sa
20
P ( A) =
∫ f ( x ) dx A b
∫ f ( x ) dx
.
a
Primer 1. Neka je Ω = [ 0, 2] , f ( x ) = x 2 i A = ( 0,1) . Na}i P ( A ) . 1
1
∫ x dx
⎛ x3 ⎞ ⎜ ⎟ ⎝ 3 ⎠0
1 1 Re{ewe. P ( A ) = 02 = =3= . 2 2 8 3 ∫0 x dx ⎛⎜ x ⎞⎟ 3 8 ⎝ 3 ⎠0 Nave{}emo sada kako se defini{e geometrijska verovatno}a i dva primera koji podkrepquju ovu definiciju. Neka elementarni doga|aji skupa Ω budu ta~ke prostora R n , skup Ω neka bude ograni~en u R n odre|enom geometrijskom merom. Svaki podskup A od Ω smatra}emo doga|ajem. U prostoru R1 je mera du`ina, u R 2 povr{ina, u R 3 kao meru uzimamo zapreminu. Verovatno}u daga|aja A defini{emo sa m ( A) , P ( A) = m (Ω) 2
gde je m ( ⋅) oznaka za odgovaraju}u meru. Primer 2. Na slu~ajan na~in se bira ta~ka iz kvadrata stranice a . Na}i verovatno}u da je ta~ka u krugu upisanom u kvadrat. Re{ewe. Skup Ω je u ovom slu~aju kvadrat stranice a , doga|aj A je skup ta~aka kruga pre~nika a , pa je 2
⎛a⎞ π m ( A ) ⎜⎝ 2 ⎟⎠ π = = . P ( A) = 2 4 m (Ω) a Primer 3. U gradu `ivi mladi} ~ija majka i devojka `ive u druga dva razli~ita dela grada. Sa autobuske stanice u intervalima od ta~no 10 minuta odlaze autobusi A i B redom do devojke i majke. Svake nedeqe mladi} od 1200 do 1300 slu~ajno sti`e na autobusku stanicu, ulazi u autobus koji prvi nai|e i ide na ru~ak kod devojke ili majke. Posle izvesnog vremena ustanovio je da u proseku od 10 odlazaka kod majke ru~a jednom, a kod devojke 9 puta. U po~etku je bio iznena|en tom pojavom, ali je ubrzo prona{ao re{ewe. Ispostavilo se da autobus A , koji vozi do devojke polazi ta~no u 1200, 1210, … ~asova, a autobus B kojim sti`e kod majke polazi u 1201, 1211, 1221,… ~asova.
Sa slike se vidi da su za odlazak kod majke povoqni jednominutni intervali 1200-1201, 1210-1211,…,1250-1251, a za odlazak kod devojke 9 puta du`i intervali 1201-1210, 1211-1220,…, 1251-1300. Prirodno je da se ,,verovatno}e” odlazaka kod majke i devojke odnose kao ukupne du`ine
21
odgovaraju}ih intervala, zna~i 1:9. ▲ Verovatno}a se skoro tri stotine godina razvijala bez strogo definisanih pravila. Svaki poku{aj formalizovawa ove oblasti zasnivao se na intuitivnoj predstavi verovatno}e doga|aja kao relativnoj u~estanosti broja povoqnih ishoda. Ovakvim pristupom su dobijeni zna~ajni rezultati, ali je on predstavqao ograni~ewe razvoja verovatno}e koja bi bila teorijski okvir za mnoge veoma slo`ene procese i pojave u prirodi, nauci i tehnici. Aksiomatika, koju je uveo Kolmogorov (1903-1987, Ruski matemati~ar) 1933. godine, sadr`ala je sve dotada{we rezultate i dala dobru osnovu za razvoj teorije verovatno}e. Sada }emo, bez pretenzija na strogi matemeti~ki formalizam, definisati verovatno}u doga|aja koja omogu}uje primenu slo`ene matemati~ke aparature u prou~avawu slu~ajnih ili neodre|enih ishoda. Definicija 2. Za svaki doga|aj A ⊆ Ω neka je P ( A ) realan broj takav da va`e slede}e osobine: 10 P ( Ω ) = 1 , 20 za sve A ⊆ Ω , P ( A ) ≥ 0 , 30 Ako je { A1 , A2 ,..., An } kona~an skup me|usobno disjunktnih doga|aja, tada je P ( A1 + A2 + ... + An ) = P ( A1 ) + P ( A2 ) + ... + P ( An ) . Broj P ( A ) se naziva verovatno}a doga|aja A, A ⊆ Ω . ▲ Osobina 10 se naziva aksioma normiranosti, osobina 20 aksioma nenegativnosti i osobina 30 aksioma aditivnosti. Ure|en par ( F, P ) naziva se poqe verovatni}e, a ure|ena trojka
( Ω, F, P )
prostor verovatno}e.
Pomo}u ovako definisane verovatno}e izra~unavamo nepoznate verovatno}e pomo}u polaznih verovatno}a. Izbor polaznih verovatno}a je irelevantan, mada se za wihovo odre|ivawe obi~no rukovodimo intuitivnim ose}awem u simetri~nost polaznog opita.
2.3 OSOBINE VEROVATNO]E Koriste}i algebarske osobine doga|aja i aksiome verovatno}e navodimo u obliku teoreme neke osobine verovatno}e. Teorema 1. Za verovatno}u P ( ⋅) iz poqa F va`e slede}e osobine: 10 P ( ∅ ) = 0 ,
( )
20 P A = 1 − P ( A ) , 30 A ⊆ B ⇒ P ( A ) ≤ P ( B ) , 40 Ako je A doga|aj, tada je 0 ≤ P ( A ) ≤ 1 , 50 P ( A \ B ) = P ( A ) − P ( AB ) , 60 P ( A ∪ B ) = P ( A ) + P ( B ) − P ( AB ) .
22
Dokaz. 10 Kako su doga|aji Ω i ∅ disjunktni, na osnovu aksioma aditivnosti i normiranosti je 1 = P ( Ω ) = P ( Ω + ∅ ) = P ( Ω ) + P (∅ ) = 1 + P (∅ ) . Zna~i, P ( ∅ ) = 0 . 20 Navedena osobina se dokazuje pomo}u 1 = P ( Ω ) = P A + A = P ( A) + P A .
(
30
)
( ) Ako je A ⊆ B onda je B = A + AB . Zbog P ( AB ) ≥ 0 daqe je P ( B ) = P ( A + AB ) = P ( A ) + P ( AB ) ≥ P ( A ) .
40 Kada iskoristimo 30 i ∅ ⊆ A ⊆ Ω dobijamo P ( ∅ ) ≤ P ( A) ≤ P ( Ω ) ⇔ 0 ≤ P ( A) ≤ 1 . 50 Va`i A = A \ B + AB , jer su doga|aji A \ B i AB disjunktni. Sada je P ( A ) = P ( A \ B ) + P ( AB ) {to dokazuje osobinu. 60 Kako je A ∪ B = A \ B + AB + B \ A , gde su na desnoj strani doga|aji koji se me|usobno iskqu~uju, i kada iskoristimo prethodnu osobinu, dobijamo P ( A ∪ B ) = P ( A \ B ) + P ( AB ) + P ( B \ A )
= P ( A ) − P ( AB ) + P ( AB ) + P ( B ) − P ( AB ) = P ( A ) + P ( B ) − P ( AB ) .▲ U narednim primerima ilustrujemo kako se kori{}ewem prethodnih osobina mogu odrediti verovatno}e pojedinih doga|aja. Primer 1. Kocka za igru se baca tri puta. Na}i verovatno}u doga|aja A : pa{}e bar jedna {estica. Re{ewe. Skup svih ishoda je V36 = 6 ⋅ 6 ⋅ 6 = 216 . Sve ishode smatramo jednakoverovatnim. Doga|aj suprotan doga|aju A ima V35 = 5 ⋅ 5 ⋅ 5 = 125 povoqnih ishoda, pa je 125 91 P ( A) = 1 − P A = 1 − = ≈ 0.421 . 216 216 Primer 2. Kutija sadr`i pet artikala od kojih su dva defektna. Iz kutije se nasumice uzima jedan po jedan artikal bez vra}awa i registruje wegov kvalitet. Na}i verovatno}u da je tre}i izvu~en artikal posledwi defektan koji je izvu~en. Re{ewe. Broj svih ishoda je jednak broju svih rasporeda dva defektna ⎛5⎞ artikla na pet mesta: ⎜ ⎟ = 10 . Povoqni ishodi su : defektni su na prvom ⎝ 2⎠ i tre}em mestu, odnosno na drugom i tre}em mestu, dakle dva povoqna 2 ishoda. Zato je P ( A ) = = 0.4 . 5 Primer 3. U jednom preduze}u se za za peto~lani upravni odbor vr{i slu~ajan izbor izme|u 4 radnika i 3 in`ewera. Na}i verovatno}u da }e radnici ~initi ve}inu.
( )
23
⎛7⎞ ⎛7⎞ Re{ewe. Broj svih ishoda je ⎜ ⎟ = ⎜ ⎟ = 21 , a povoqnih doga|aja ima ⎝5 ⎠ ⎝ 2⎠ ⎛ 4 ⎞ ⎛ 3⎞ ⎛ 4 ⎞ ⎛ 3 ⎞ ⎜ ⎟ ⋅ ⎜ ⎟ + ⎜ ⎟ ⋅ ⎜ ⎟ = 15 . Verovatno}a na{eg doga|aja je ⎝ 4 ⎠ ⎝1 ⎠ ⎝ 3 ⎠ ⎝ 2 ⎠ 15 P ( A) = ≈ 0.714 . 21 Primer 4. Hotel ima n soba pore|anih u pravoj liniji jedna do druge. Kolika je verovatno}a da k gostiju ( k < n ) bude u susednom sobama ako raspored gostiju po sobsma nije bitan ? ⎛n⎞ Re{ewe. Broj svih ishoda je ⎜ ⎟ . Od n soba za k susednih postoji ⎝k ⎠
n − k + 1 k !⋅ ( n − k + 1) ! . = n! ⎛n⎞ ⎜ ⎟ ⎝k ⎠ Primer 5. Brojevi 1, 2,..., n pore|ani su na slu~ajan na~in. Neka je A doga|aj da jedinica stoji na prvom, a B doga|aj da jedinica stoji na drugom mestu. Izra~unati P ( A ∪ B ) . ta~no n − k + 1 izbor. Dakle, P ( A ) =
Re{ewe. P ( A ∪ B ) = P ( A ) + P ( B ) − P ( AB ) =
2 ⋅ ( n − 1) !− ( n − 2 ) ! 2n − 3 . = n! n ⋅ ( n − 1)
2.4 USLOVNA VEROVATNO]A. NEZAVISNOST DOGA\AJA ^esto smo u situaciji da tra`imo verovatno}u nekog doga|aja B poseduju}i informaciju da se neki doga|aj A ve} realizovao ili pretpostavqaju}i da se doga|aj A realizovao. Verovatno}u realizacije doga|aja B pod uslovom da se doga|aj A realizovao obele`ava}emo sa P ( B | A) . Primer 1. Kod zubara u ~ekaonici ~eka 25 pacijenata od kojih 20 treba da vadi zub, a ostali popravqaju zube. Na slu~ajan na~in ulaze jedan za drugim dva pacijenta. Neka je doga|aj A : ,,prvi pacijent vadi zub”, B : ,,drugi pacijent vadi zub”. O~igledno da verovatno}a doga|aja B zavisi od toga da li ukqu~ujemo pretpostavku o realizaciji doga|aja A ili 19 20 5 doga|aja A . Naime P ( B | A ) = , dok je P B | A = = .▲ 24 24 6 Da bi matemati~ka definicija verovatno}e doga|aja B pod uslovom da se doga|aj A realizovao bila u skladu sa prethodnim primerom posmatrajmo verovatno}u kao broj oko koga se grupi{u relativne u~estanosti. Neka su N ( A ) , N ( B ) i N ( AB ) frekvencije doga|aja A , B i
(
N ( AB )
)
, ( N ( A ) > 0 ) relativna u~estanost doga|aja B u N ( A) opitima u kojima se realizovao doga|aj A i kako je
AB . Tada je
24
N ( AB) N ( AB) = N , prirodno je uvesti slede}u definiciju. N ( A) N ( A) N Definicija 1. Uslovna verovarno}a doga|aja B , ako se doga|aj A ve} realizovao, defini{e se kao P ( AB ) P ( B | A) = , P ( A) > 0 . ▲ P ( A) Iz prethodne definicije dobijamo da je verovatno}a proizvoda dva doga|aja P ( AB ) = P ( A ) ⋅ P ( B | A ) = P ( B ) ⋅ P ( A | B ) . Ove jednakosti nose ime formule mno`ewa verovatno}a. Mo`e se dokazati indukcijom da va`i uop{tena formula mno`ewa verovatno}a P ( A1 A2 ... An ) = P ( A1 ) P ( A2 | A1 ) P ( A3 | A1 A2 ) ⋅⋅⋅ P ( An | A1 A2 ... An −1 ) . Jedan od osnovnih pojmova Teorije verovatno}e i Matemati~ke statistike jeste (stohasti~ka ili statisti~ka) nezavisnost. Da je doga|aj A nezavistan od doga|aja B u smislu Teorije verovatno}e prirodno je definisati sa P ( A | B ) = P ( A ) . Ako je doga|aj A nezavistan od doga|aja B imamo
P ( AB ) P ( B ) P ( A | B ) P ( B ) P ( A ) = = = P ( B) , P ( A) P ( A) P ( A) {to zna~i da je i doga|aj B nezavistan od doga|aja A . Definicija 2. Re}i }emo da su doga|aji A i B nezavisni ako je P ( AB ) = P ( A ) P ( B ) . ▲ P ( B | A) =
Treba uo~iti da se nezavisnost doga|aja defini{e pomo}u verovatno}a, dok se disjunktnost defini{e nezavisno od verovatno}a. Primetimo da nezavisnost doga|aja sledi neposredno iz fizi~kih uslova samog opita, a ne proveravawem gorwe jednakosti. Primer 2. Ko{arka{ baca dva puta loptu na ko{. Neka je A : ,, ko{ je pogo|en u prvom bacawu”, a B : ,,ko{ je pogo|en u drugom bacawu”. O~igledno je da su ovi doga|aji nezavisni. Primer 3. U kutiji je 12 sijalica od kojih su 4 neispravne. Na slu~jan na~in vr{imo tri izvla~ewa bez vra}awa. Na}i verovatno}u da su sve tri izvu~ene sijalice neispravne. Re{ewe. Neka je Ai , i = 1, 2,3, doga|aj da je u i -tom izvla~ewu uzeta neispravna sijalica. Doga|aj A -sve tri sijalice su neispravne mo`e se predstaviti kao A = A1 A2 A3 , pa imamo 4 3 2 1 P ( A ) = P ( A1 ) P ( A2 | A1 ) P ( A3 | A1 A2 ) = ⋅ ⋅ = . 12 11 10 55 Primer 4. U kutiji se nalazi pet belih i pet crnih kuglica. Slu~ajno se odjednom izvla~e tri kuglice. Izra~unati verovatno}u da nisu sve izabrane kuglice bele, ako je bar jedna izabrana kuglica bela. Re{ewe. Za na{ doga|aj A povoqni su ishodi dve bele i jedna crna, odnosno dve crne i jedna bela kuglica.
25
⎛ 5 ⎞ ⎛ 5⎞ 2⋅⎜ ⎟ ⋅⎜ ⎟ 2 1 5 Dakle, P ( A ) = ⎝ ⎠ ⎝ ⎠ = . 6 ⎛10 ⎞ ⎜ ⎟ ⎝3⎠
2. 5 FORMULA POTPUNE VEROVATNO]E. BAJESOVA FORMULA U ovom odeqku uvodimo dve jednostavne ali va`ne formule. Da bi smo formulisali dve naredne teoreme potreban nam je pojam potpunog sistema doga|aja. Definicijan 1. Re}i }emo da disjunktni doga|aji H1 , H 2 ,..., H n ~ine jedno razbijawe sigurnog doga|aja Ω , ili ~ine potpun n
sistem
doga|aja,
ako
je
∑H k =1
k
P ( Hi ) > 0 ,
= Ω,
i = 1, 2,..., n , odnosno ako se uvek realizuje jedan i samo jedan od doga|aja H1 , H 2 ,..., H n . ▲ Doga|aje H1 , H 2 ,..., H n nazivamo hipotezama. Ovaj naziv }e dobiti smisao posle slede}e teoreme. Teorema 1. Formula potpune verovatno}e glasi: ako doga|aji H1 , H 2 ,..., H n ~ine jedno razbijawe (potpun sistem doga|aja) izvesnog doga|aja Ω tada je n
P ( B ) = ∑ P ( H k ) ⋅ P ( B | H k ) , za svako B ⊆ Ω . k =1
n
Dokaz. Neposredno iz jednakosti B = ∑ H k B , ili k =1
n
P ( B ) = ∑ P ( H k B ) , sledi dokaz kada iskoristimo da je k =1
P ( Hk B) = P ( Hk ) ⋅ P ( B | Hk ) . ▲
Primer 1. U laboratoriji se nastava izvodi na 8 aparatura novijeg i 6 aparatura starijeg tipa koje mogu u toku rada otkazati redom sa verovatno}om 0.03, odosno 0.06. Kolika je verovatno}a da student koji slu~ajno dobije jednu od aparatura ne}e imati otkaz u toku rada? Re{ewe. Neka je B doga|aj: ,,nije do{lo do otkaza aparature”, H1 pretpostavka da je student dobio aparaturu novijeg tipa i H 2 - dobijena je starija aparatura. Na osnovu formule potpune verovatno}e je P ( B ) = P ( H1 ) P ( B | H1 ) + P ( H 2 ) P ( B | H 2 )
8 6 ⋅ 0.97 + ⋅ 0.94 ≈ 0.957. 14 14 Primer 2. U prodavnici se na jednom rafu nalazi sedam kompjutera, a na drugom rafu pet kompjutera. Na svakom rafu je po jedan neispravan kompjuter. Prodavac slu~ajno sa prvog rafa seli jedan kompjuter na drugi =
26
raf. U prodavnicu ulazi kupac i slu~jno uzima kompjuter sa dugog rafa. Kolika je verovatno}a da je uzeti kompjuter ispravan? Re{ewe. Neka je doga|aj A : ,,izabrani kompjuter je ispravan”. Verovatno}a ovog doga|aja zavisi da li je sa prvog rafa na drugi preba~en H1 -ispravan, ili H 2 -neispravan kompjuter. Dakle, 6 5 1 4 17 P ( A ) = P ( H1 ) P ( A | H1 ) + P ( H 2 ) P ( A | H 2 ) = ⋅ + ⋅ = ≈ 0.8095. ▲ 7 6 7 6 21 Primer 3. U kupi je pet pu{aka od kojih tri imaju snajpere. Verovatno}a pogodka pu{ke sa snajperom je 0.95, a bez snajpera 0.7. Na}i verovatno}u da je ciq pogo|en ako je strelac nasumice uzeo pu{ku iz kupe i pucao. Re{ewe. Neka je hipoteza H1 -pucano je iz snajpera, a H 2 -pucano je iz 3 2 i P ( H 2 ) = . Ako sa A obele`imo obi~ne pu{ke. Tada je P ( H1 ) = 5 5 pogodak, onda je 3 2 P ( A ) = P ( H1 ) P ( A | H1 ) + P ( H 2 ) P ( A | H 2 )= ⋅ 0.95 + ⋅ 0.7 = 0.85.▲ 5 5 U prethodnom primeru je sa prakti~nog stanovi{ta ne mawe va`no pitawe: ciq je pogo|en – kolika je verovatno}a da je pucano iz obi~ne pu{ke. Ako znamo da se doga|aj B mo`e realizovati pod pretpostavkama H1 ,
H 2 ,…, H n i ako su verovatno}e P ( H i ) > 0 , i = 1, 2,..., n , poznate (u pitawu su
apriorne-unapred poznate verovatno}e), onda odgovor na pitawe: doga}aj se realizovao, kolika je verovatno}a realizacije pod nekom od hipoteza H i , odnosno kolike su P ( H i | B ) , (to su aposteriorne verovatno}e, ra~unaju se posle realizacije doga|aja B ) daje Bajesova formula do koje dolazimo narednom teoremom. Teorema 2. Ako je { H1 , H 2 ,..., H n } potpun sistem doga|aja, tada va`i Bajesova formula
P ( Hi | B ) =
P ( Hi ) ⋅ P ( B | Hi ) n
∑ P(H )⋅ P(B | H ) k
k =1
,
k
i = 1, 2,..., n i za svako B ⊆ Ω je P ( B ) > 0 . Dokaz. U dokazu koristimo formule za uslovnu i potpunu verovatno}u i formulu mno`ewa verovatno}a. Pomo}u ovih formula dobijamo P ( Hi B ) P ( Hi ) ⋅ P ( B | Hi ) .▲ P ( Hi | B ) = = n P ( B) ∑ P ( Hk ) ⋅ P ( B | Hk ) k =1
Primer 4. Neka su uslovi opita kao u primeru 3. Ako je ciq pogo|en na}i verovatno}u da je pucano iz snajpera. Re{ewe. P ( H1 ) ⋅ P ( B | H1 ) 0.6 ⋅ 0.95 P ( H1 | B ) = = ≈ 0.671 . 0.85 P ( B)
27
2.6 ZADACI 1. Kolika je verovatno}a da dva slu~ajno izabrana lica imaju ro|endan istog dana? 2. Dokazati da je P ( A ∪ B ∪ C ) = P ( A ) + P ( B ) + P ( C ) − P ( AB ) − P ( AC ) − P ( BC ) + P ( ABC ) . 3. Kolika je verovatno}a da me|u tri slu~ajno izabrana lica bar dva imaju ro|endan istog dana? 4. Dokazati formulu n n ⎛ n ⎞ n ⎛ n ⎞ n P ⎜ ∪ Ak ⎟ = ∑ P ( Ak ) − ∑ P Ak1 Ak2 + ∑ P Ak1 Ak2 Ak3 + ... + ( −1) P ⎜ ∩ Ak ⎟ k1 < k2 k1 < k2 < k3 ⎝ k =1 ⎠ k =1 ⎝ k =1 ⎠
(
(
∑
k1 < k2
)
(
)
zna~i sumirawe po svim parovima indeksa k1 , k2 za koje je
k1 , k2 = 1, 2,..., n i k1 < k2 ). 5. Napisano je n pisama ali su adrese na kovertima napisane na slu~ajan na~in. Kolika je verovatno}a da: 10 ta~no jedno pismo stigne na pravu adresu; 20 bar jedno pismo stigne na pravu adresu; 30 ni jedno pismo ne srigne na pravu adresu. Na}i asimptotsko pona{awe prethodnih verovatno}a kad n → ∞ . 6. U voz sa n vagona ulazi k putnika ( k ≥ n ) . Svaki putnik bira vagon slu~ajno i nezavisno od ostalih. Na}i verovatno}u da }e ostati prazno ta~no m vagona. 7. Poznato je da me|u daltonistima ima 8% mu{karaca i 0.5% `ena. Iz grupe qudi u kojoj je podjednak broj mu{karaca i `ena slu~ajno se bira jedna osoba. 10 Kolika je verovatno}a da je izabran daltonista? 20 Ako je izabran daltonista, kolika je verovatno}a da je `ena? 8. U jednoj cve}ari je 25% cvetova ru`e, 35% cvetova lale i 40% cvetova karanfila. Me|u wima je 5% uvelih ru`a, 4% uvelih lala i 2% uvelih karanfila. Slu~ajno je izabran cvet. 10 Kolika je verovatno}a da je uveo? 20 Ako je uveo kolika je verovatno}a da je to lala? 9. Bacaju se istovremeno tri kockice za igru. Registuju se doga}aji: A - zbir palih brojeva je 11 i B - zbir palih brojeva je 12 . Koji doga}aj ima ve}u verovatno}u (paradoks de Merea)? 10. Kolika je verovatno}a da }e slu~ajno izabrana tetiva kruga biti du`a od stranice upisanog trougla u taj krug, ako je jedan kraj tetive fiksiran?
28
3 JEDNODIMENZIONALNA SLU^AJNA PROMENQIVA 3.0 UVOD U svakodnevnom `ivotu, igri ili nau~nim istra`ivawima ~esto se sre}emo sa veli~inama koje se mewaju od slu~aja do slu~aja. Na primer, broj automobila koji pro|u u toku sata kroz raskrsnicu, broj registrovanih radioaktivnih ~estica u jedinici vremena, du`ina trajawa dela nekog tehni~kog ure|aja, vreme od klijawa do cvetawa neke biqke itd. Za boqe poznavawe veli~ine koja nas interesuje nije dovoqno znati koje vrednosti mo`e uzeti ta veli~ina, ve} je va`no znati i verovatno}e sa kojima veli~ina uzima te vrednosti. Ako svakom elementarnom doga|aju ω ∈ Ω funkcijom X dodelimo realan broj X (ω ) , onda rezultate verovatnog opita mo`emo opisati realnom funkcijom X (ω ) . Naravno, ova funkcija mora ispuwavati neke zahteve kojima na realnu pravu preslikava ne samo elementarne doga|aje ω ∈ Ω , nego i celu strukturu verovatno}e na Ω . Potkrepimo sa dva jednostavna primera prethodno izlagawe. Nov~i} se baca dva puta. Neka je X broj registrovanih glava. Ovde imamo Ω = { PP, PG, GP, GG } i X (PP)=0, X (PG)= X (GP)=1, X ( GG)=2. U ovom primeru su ishodi jednakoverovatni, pa je tako P ( X = 2 ) = 1 4 . Posmatrajmo sada jednu sortu kukuruza ~ija je du`ina `ivota vremanski interval [108,128] dana. Navedeni interval ima kontinuum mnogo ta~aka, pa nismo u mogu}nosti da defini{emo verovatno}u du`ine `ivota za svaku od tih ta~aka kao {to smo to mogli u prethodnom primeru. U ovom slu~aju mo`emo definisati verovatno}u da }e biqka `iveti u nekom intervalu [ a, b ] ⊆ [108,128] . Broj palih glava u prvom i du`ina `ivota u drugom primeru su predstavnici dve vrste funkcija koje slu~ajne ishode preslikavaju u realne brojeve. Navodimo definiciju slu~ajne promenqive ma kog tipa. Definicija 1. Neka je ( Ω, F , P ) prostor verovatno}a. Funkcija X : Ω → R zove se slu~ajna promenqiva. ▲ Pri tom, za svaki interval S ⊂ R skup svih elementarnih doga|aja na kojima X uzima vrednosti iz S je jedan doga|aj. U narednim odeqcima }emo definisati, ispitati osobine i navesti primere dve specijalne vrste slu~ajnih promenqivih: diskretnog tipa i neprekidnog tipa. Postoje slu~ajne promenqive koje ne pripadaju ni jednom od ova dva tipa. Ponekad se nazivaju slu~ajnim promenqivim me{ovitog tipa.
29
3.1 SLU^AJNE PROMENQIVE DISKRETNOG TIPA Definicija 1. Re}i }emo da je slu~ajna promenqiva X : Ω → R diskretnog tipa ako je skup X ( Ω ) kona~an ili prebrojiv. ▲ Neka je S neki skup brojeva. Oznaka { X ∈ S } }e biti kra}i zapis za
{ω | X (ω ) ∈ S } . Slu~ajne promenqive }emo obele`avati velikim slovima
sa kraja abecede X , Y , Z , W , … . Primer 1. Baca se kocka za igru. Skup ishoda je Ω = {1, 2,3, 4,5, 6} . Neka funkcija X svakom neparnom broju dodeli 1, a parnom broju 0. Posmatrajmo funkciju Y koja ishodu: pao je broj mawi od 3, dodequje 0, a ishodu: pao je broj ve}i od 2, dodequje 1. Kako su svi elementarni ishodi 1 1 i P ( X = 0 ) = , dok je jednakoverovatni, zakqu~ujemo da je P ( X = 1) = 2 2 1 2 P (Y = 0 ) = i P (Y = 1) = . ▲ 3 3 Iz ovog primera vidimo da se nad skupom Ω istog opita mo`e definisati vi{e slu~ajnih promenqivih, kao i da verovatno}e da te slu~ajne promenqive uzmu iste vrednosti ne moraju da budu iste. Kada je jedna slu~ajna promenqiva definisana, u izra~unavawu verovatno}a vezanih za wu, nije neophodno vra}awe na polazni skup Ω . Ako uvedemo oznaku X ( Ω ) = RX , onda je za slu~ajnu promenqivu diskretnog tipa RX = { x1 , x2 ,..., xn } (kona~an skup) ili RX = { x1 , x2 ,..., xn ,...} (prebrojiv skup). U prethodnom primeru je RX = {0,1} . Slu~ajna promenqiva diskretnog tipa je odre|ena ako znamo verovatno}e sa kojima uzima vrednosti, odnosno ako znamo p ( xi ) = pi = P ( X = xi ) za svako xi ∈ RX . Definicija 2. Vrednosti xi slu~ajne promenqive X i verovatno}e
p ( xi ) sa kojima X uzima te vrednosti, ~ine zajedno zakon raspodele
verovatno}a slu~ajne promenqive X . Zakon paspodele verovatno}a zadajemo u obliku {eme x2 ... xn ⎞ ⎛ x1 X :⎜ ⎟, ⎝ p ( x1 ) p ( x2 ) ... p ( xn ) ⎠ pri ~emu, o~igledno, mora biti p ( xi ) ≥ 0 i
n
∑ p ( x ) = 1. i =1
i
Primer 2. Ga|a se u ciq, jedno za drugim, sve do prvog pogotka. Verovatno}a pogodka u svakom pojedinom ga|awu je 0.5 . Na}i zakon raspodele broja proma{aja do prvog pogodka. Re{ewe. Ako sa 0 obele`imo proma{aj, a sa 1 pogodak, onda je prostor elementarnih doga|aja Ω = {1, 01, 001,...} . Neka je X broj proma{aja do prvog pogodka. Onda imamo da je P ( X = i ) = Prethodnu ~iwenicu mo`emo zapisati u obliku {eme
30
1 , i ∈ {0,1, 2,...} . 2i +1
⎛ 0 1 2 ... i ... ⎞ ⎟. X :⎜1 1 1 1 ⎜⎜ ... i +1 ... ⎟⎟ 2 ⎝ 2 2 2 23 ⎠ Ostaje da proverimo da li je ova {ema jedan zakon raspodele verovatno}a.
Treba pokazati da je p ( xi ) ≥ 0 i
∞
∑ p ( x ) = 1. i =1
i
Kako je za i ∈ {0,1, 2,...}
1 > 0 , ostaje da doka`emo drugi uslov. Va`i 2i+1 1 1− i ∞ 1 1 1 1 1 1 = + 2 + ... = lim ⋅ 2 = ⋅ = 1, ∑ i +1 i →∞ 2 1 2 1 2 2 i =0 2 1− 1− 2 2 pa je na{a {ema zakon raspodele verovatno}a proma{aja do prvog pogotka. Primer 3. Neka je X slu~ajna promenqiva iz prethodnog primera. Odrediti verovatno}e P ( X ≤ 2 ) , P ( X > 2 ) i P ( 3 ≤ X < 5 ) .
ispuweno
Re{ewe. Ako iskoristimo nezavisnost ga|awa i prethodni zakon raspodele imamo: 1 1 1 7 P ( X ≤ 2 ) = P ( X = 0 ) + P ( X = 1) + P ( X = 2 ) = + + = , 2 4 8 8 7 1 P ( X > 2) = 1 − P ( X ≤ 2) = 1 − = , 8 8 1 1 3 .▲ P ( 3 ≤ X < 5 ) = P ( X = 3) + P ( X = 4 ) = 4 + 5 = 2 2 32 Pri izu~avawu konkretne slu~ajne promenqive od velikog interesa je poznavawe verovatno}e da ona uzme vrednost u pojedinim intervalima. Funkcija koja svakoj vrednosti x ∈ R dodequje verovatno}u da je slu~ajna promenqiva X mawa od x naziva se funkcija raspodele (verovatno}a). Funkciju raspodele uvodimo narednom definicijom. Definicija 3. Funkcija raspodele verovatno}a slu~ajne promenqive X , u oznaci FX ( x ) , je FX ( x ) = P {ω ∈ Ω | X (ω ) < x} = P ( X < x ) , −∞ < x < +∞ . ▲
Veza izme|u zakona raspodele i funkcije raspodele u diskretnom slu~aju je slede}a: FX ( x ) = ∑ i: x < x p ( xi ) . i
U prethodnom primeru je
3 . 4 Iz definicije funkcije raspodele proisti~u wena svojstva: 10 Monotonost: ako je x1 < x2 tada je FX ( x1 ) < FX ( x2 ) . FX ( 2 ) = P ( X < 2 ) = P ( X = 0 ) + P ( X = 1) =
20 FX ( −∞ ) = 0, FX ( +∞ ) = 1 . 30 P ( a ≤ x < b ) = FX ( b ) − FX ( a ) . Dokaz.
31
10 Monotonost sledi iz { X < x1} ⊂ { X < x2 } ⇒ P ( X < x1 ) < P ( X < x2 ) ⇔ FX ( x1 ) < FX ( x2 ) . 20 Sledi iz { X < −∞} = ∅, { X < +∞} = Ω . 30 Dobija se iz FX ( b ) = P ( X < b ) = P ( X < a ) + P ( a ≤ X < b ) . Primer 4. Ko{arka{ poga|a ko{ loptom sa verovatno}om 0.8 po jednom poku{aju. Baca loptu na ko{ dok ne pogodi, a najvi{e tri puta. Neka je X broj proma{aja. Odrediti zakon raspodele (verovatno}a) i skicirati grafik funkcije raspodele (verovatno}a). Re{ewe. Zakon raspodele je 1 2 3 ⎞ ⎛ 0 X :⎜ ⎟. ⎝ 0.8 0.16 0.032 0.008 ⎠ Grafik funkcije raspodele je dat na slici. Kordinate nisu proporcionalne radi boqe preglednosti.
Funkcija raspodele je stepenasta kod diskretnih slu~ajnih promenqivih, neprekidna sa leve strane. Veli~ina skoka u ta~ki xi
jednaka je verovatno}i P ( X = xi ) .
Navedimo na kraju jo{ jedan na~in zadavawa zakona raspodele diskretne slu~ajne promenqive. Neka slu~ajna promenqiva X uzima n vrednosti x1 , x2 ,... xn sa verovatno}ama P ( X = xi ) = pi , i = 1, 2,..., n . Zakon raspodele ove slu~ajne promenqive mo`e biti zadat poligonom raspodele ~ija su temena ta~ke ( xi , pi ) , i = 1, 2,..., n .
32
3.2 SLU^AJNE PROMENQIVE NEPREKIDNOG TIPA U ovom odeqku }emo upoznati slu~ajne promenqive ~iji skup vrednosti ,,popuwava” neki interval ili ~itavu brojnu pravu. Definicija 1. Slu~ajna promenqiva X je neprekidnog tipa ako postoji funkcija ϕ ( x ) ≥ 0 , −∞ < x < +∞ , takva da je b
P ( a ≤ X ≤ b ) = ∫ ϕ ( x ) dx . Funkcija
ϕ ( x)
a
zove
se
gustina
raspodele
verovatno}a slu~ajne promenqive X . ▲ Sada navodimo osobine gustine raspodele verovatno}a. +∞
10
∫ ϕ ( x ) dx = P ( −∞ < X < +∞ ) = 1 .
−∞
20 P ( X = a ) = lim P ( a ≤ X < a + h ) = lim h →0
a+h
h →0
∫ ϕ ( x ) dx = 0, a ∈ R . a
b
30 P ( a < x < b ) = ∫ ϕ ( x ) dx, − ∞ < a, b < +∞ . a
4 ϕ ( x ) ≥ 0, x ∈ R . ▲ 0
Na osnovu osobina 20 i 30 vidimo da je b
P ( a ≤ X ≤ b ) = P ( a ≤ X < b ) = P ( a < X ≤ b ) = ∫ ϕ ( x ) dx . a
Treba uo~iti da gustina raspodele verovatno}a ne predstavqa nikakvu verovatno}u. Naziv poti~e otuda {to je verovatno}a da X uzme vrednost u malom intervalu [ x0 , x0 + Δx0 ] proporcionalna du`ini intervala Δx0 , a koeficijent te
proporcionalnosti je ϕ ( x0 ) . Da je to
tako vidimo, prema slici, iz
P ( x0 ≤ X ≤ x0 + Δx0 ) =
x0 +Δx0
∫
ϕ ( x ) dx ≈ ϕ ( x0 ) Δx0 , Δx0 ≈ 0 .
x0
Pojam neprekidne slu~ajne promenqive mo`e se uvesti i na drugi na~in. Definicija 2. Slu~ajna promenqiva X je neprekidnog tipa ako postoji funkcija ϕ ( x) ≥ 0 , x ∈ R , (gustina raspodele verovatno}a slu~ajne promenqive) pomo}u koje se wena funkcija raspodele FX mo`e izraziti kao FX ( x ) =
x
∫ ϕ ( t ) dt . ▲
−∞
34
Napomiwemo da je prethodni integral, tzv. nesvojstveni integral, x
dat sa
x
∫ ϕ ( t ) dt = lim ∫ ϕ ( t ) dt . y →−∞
−∞
y
Kori{}ewem posledwe definicije, iz poznate gustine nalazimo odgovaraju}u funkciju raspodele. Obrnuto, ako je poznata funkcija raspodele onda gustinu odre|ujemo relacijom ϕ ( x ) = FX' ( x ) koja va`i u svim ta~kama neprekidnosti gustine ϕ ( x ) . Ako ne postoji mogu}nost zabune, onda }emo oznaku FX ( x ) zamewivati sa F ( x ) . Funkcija raspodele sadr`i sve informacije bitne za slu~ajnu promenqivu tako da nadaqe, umesto opisa slu~ajne promenqive kao preslikavawa iz Ω u R , mo`emo navoditi samo odgovaraju}u funkciju raspodele. Slede}im primerima potkrepqujemo novouvedene pojmove i wihove osobine. Primer 1. Slu~ajna promenqiva X je neprekidnog tipa sa gustinom ⎧⎪2 x, x ∈ [ 0,1] , ϕ ( x) = ⎨ ⎪⎩0, x ∉ [ 0,1] . 1⎞ ⎛ 1 1 2⎞ ⎛ ≤ X ≤ ⎟. Izra~unati P ⎜ X ≤ ⎟ i P ⎜ X ≤ 2 3 3⎠ 2⎠ ⎝ ⎝ Re{ewe. Uzimaju}i u obzir gustinu imamo da je 1
1⎞ 2 1 ⎛ P ⎜ X ≤ ⎟ = ∫ 2 xdx = ( x 2 ) 2 = = 0.25 . 0 2⎠ 0 4 ⎝ Funcija raspodele je 0 , x < 0, ⎧ ⎪x ⎪ F ( x ) = ⎨ ∫ 2tdt = x 2 , 0 ≤ x ≤ 1, ⎪0 ⎪ 1 , x > 1. ⎩ 1
U drugom slu~aju ra~unamo uslovnu verovatno}u 1⎞ ⎛1 P⎜ ≤ X ≤ ⎟ 1 1 2⎞ ⎛ 3 2⎠ 5 P⎜ X ≤ ≤ X ≤ ⎟= ⎝ = ≈ 0.417 . 2 ⎞ 12 2 3 3⎠ ⎛1 ⎝ P⎜ ≤ X ≤ ⎟ 3⎠ ⎝3 Primer 2. Gustina slu~ajne promenqive X je ⎧ ax 2 e − kx , x ≥ 0, k > 0, ϕ ( x) = ⎨ , x < 0. ⎩ 0 Na}i koeficijent a , funkciju raspodele slu~ajne promenqive X i 1⎞ ⎛ P⎜0 < x < ⎟ . k⎠ ⎝
35
Re{ewe. Za odre|ivawe koeficijenta a koristimo jedna~inu +∞
+∞
−∞
−∞
∫ ϕ ( x ) dx = 1 ⇔
∫
ax 2 e− kx dx = 1 ⇔
+∞
∫ ax e
2 − kx
dx = 1 .
0
+∞
Izra~unajmo prvo integral I =
∫xe
2 − kx
dx .
0
⎧ u = x2 ⎪ I =⎨ ⎪du = 2 xdx ⎩
dv = e − kx dx ⎫ ⎛ x 2 − kx 2 x − kx ⎞ ⎪ ⎬ = lim ⎜ − e + ∫ xe dx ⎟ 1 k0 v = − e − kx ⎪ x →∞ ⎝ k ⎠ k ⎭ x
Iz aI = 1 dobijamo
⎛ k 2 x 2 + 2kx + 2 − kx ⎞ e ⎟ = lim ⎜ − x →∞ k3 ⎝ ⎠0 2 = 3. k k3 a= . 2
Za funkciju raspodele va`i x < 0, ⎧0, ⎪x 3 F ( x ) = ⎨ k 2 − kx ⎪ ∫ 2 x e dx, x ≥ 0 ⎩0 x < 0, ⎧0, ⎪ x = ⎨⎛ x 2 k 2 + 2kx + 2 − kx ⎞ e ⎟ , x ≥ 0, ⎪⎜ − 2 ⎠0 ⎩⎝
x < 0, ⎧0, ⎪ = ⎨ x 2 k 2 + 2 xk + 2 − kx e , x ≥ 0. ⎪1 − 2 ⎩ Na kraju je
1⎞ 5 ⎛ ⎛1⎞ P ⎜ 0 < X < ⎟ = F ⎜ ⎟ = 1 − ≈ 0.0803 . k⎠ 2e ⎝ ⎝k⎠
3.3 NEKI ZAKONI RASPODELA VEROVATNO]A SLU^AJNIH PROMENQIVIH DISKRETNOG TIPA Bernulijeva raspodela ili zakon ,,0-1” Raspodela slu~ajne promenqive vezane za takozvanu Bernulijevu (Jacob Bernoulli, 1654-1705, {vajcarski matemati~ar) {emu (model) je osnovna u Teoriji verovatno}e. Ova jednostavna {ema je izvor svih rezultata u Teoriji verovatno}ei i Matemati~koj statistici. Pomenutu {emu i wen zakon raspodele opisujemo slede}om definicijom.
36
Definicija 1. Ako nas u vezi nekog opita zanima samo da li se realizovao doga|aj A sa verovatno}om 0 < P ( A ) = p < 1 ili wemu suprotan
( )
doga|aj A sa verovatno}om P A = 1 − p = q , onda ka`emo da slu~ajna promenqiva X , ~iji je zakon raspodele ⎛0 1 ⎞ X :⎜ ⎟ , p + q = 1, 0 < p < 1 , ⎝q p⎠ ima Bernulijevu raspodelu, ili da joj je verovatno}a raspodeqena po zakonu ,,0-1”. Binomna raspodela Neka nas u opitu zanima da li se realizovao doga|aj A sa verovatno}om 0 < P ( A ) = p < 1 ili wemu suprotan doga|aj A sa
( )
verovatno}om P A = 1 − p = q . Pretpostavimo da ovaj opit ponavqamo u neizmewenim uslovima i nezavisno n puta i shvatimo ga kao novi opit du`ine n sa~iwen samo od dva slova: A i A . Broj ovakvih nizova je 2n 2
( V n = 2n ). U ovom opitu A mo`e da se realizuje nijednom, jednom,…, n puta. Neka je slu~ajna promenqiva Sn broj realizacija doga}aja A u ovom nizu du`ine n . Onda va`i: S n ∈ {0,1, 2,..., n} . Ako se u jednom nizu doga|aj A
realizovao k puta, onda se doga|aj A realizovao n − k puta. Broj nizova u kojima se A mo`e realizovati k puta je Ckn . Dajemo definiciju binomne raspodele. Definicija 2. Re}i }emo da slu~ajna promenqiva Sn podle`e binomnom zakonu raspodele (verovatno}a) ako va`i ⎛n⎞ P ( Sn = k ) = pk = ⎜ ⎟ p k q n − k , k = 0,1,..., n . ▲ ⎝k ⎠ n
Ovo jeste zakon raspodele, jer iz
∑(S k =0
n
= k ) = Ω sledi
n n ⎛ n ⎞ k n−k n n = = = p P S k ( ) ∑ ∑ ∑ k n ⎜ ⎟ p q = ( p + q) = 1 = 1. k k =0 k =0 k =0 ⎝ ⎠ Binomnu raspodelu, koja zavisi od dva parametra: n ( n = 1, 2,...) i p n
( 0 < p < 1) , ozna~ava}emo sa
B (n; p) .
Primer 1. Baca se odjednom pet istih kocki za igru. Na}i verovatno}u doga|aja A : broj tri je pao dva puta. ⎛ 1⎞ Re{ewe. U pitawu je B ⎜ 5; ⎟ raspodela. Zato je ⎝ 6⎠ 4 ⎛5⎞ 1 ⎛ 5 ⎞ p2 = P ( S5 = 2 ) = ⎜ ⎟ ⋅ 2 ⋅ ⎜ ⎟ ≈ 0.134 . ▲ ⎝ 2⎠ 6 ⎝ 6 ⎠ U slede}em primeru }emo videti te{ko}u sa primenom B ( n ; p )
raspodele i dati mogu}i izlaz iz te te{ko}e.
37
Primer 2. Verovatno}a da je jedan proizvod defektan je 0.01. Iz skladi{ta se uzima 100 proizvoda. Kolika je verovatno}a da me|u wih 100 bude ta~no 5 defektnih? Re{ewe. U pitawu je B (100;0.01) raspodela. Otuda je
⎛100 ⎞ 5 95 p5 = P ( S100 = 5 ) = ⎜ ⎟ 0.01 ⋅ 0.99 . ▲ ⎝ 5 ⎠ Izra~unati ta~nu vrdnost prethodne verovatno}e je zametan posao. Dakle, kada je n veliko, {to je u primenama redovan slu~aj, pribegava se aproksimativnim izrazima binomne raspodele. Jedna takva raspodela je Poasonova raspodela, a sa drugom, normalnom ili Gausovom raspodelom, upozna}emo se kasnije. Poasonova raspodela Prakti~no uputstvo kada }e se primeniti Poasonova umesto binomne raspodele je : n > 50 i np < 10 . Prethodni primer ispuwava ove uslove, pa se na wega mo`e primeniti Poasonov zakon raspodele koga uvodimo narednom definicijom. Definicija 3. Re}i }emo da slu~ajna promenqiva X ∈ {0,1, 2,..., n,...} ima Poasonovu raspodelu, u oznaci P ( λ ) , ako je
P ( X = k ) = pk = gde je λ > 0 parametar. ▲
λk k!
⋅ e − λ , k = 0,1, 2,... ,
P ( λ ) jeste zakon raspodele, jer je ∞
∞
λ
k
λk k! ∞
e− λ > 0 i
λk
∑ p = ∑ e λ ⋅ k ! = e λ ⋅ ∑ k ! = e λ ⋅ eλ = 1 . k =0
k
−
−
k =0
−
k =0
Pravo zna~ewe parametra λ da}emo kasnije. Slede}a teorema daje vezu izme|u binomne i Poasonove raspodele. Teorema 1. Ako se u binomnoj raspodeli B ( n ; p ) broj n uve}ava u beskona~nost ( n → ∞ ) i p → 0 , ali tako da np → λ = const , onda va`i ⎛ n ⎞ k n−k λ k −λ ⋅ e , k ∈ {0,1, 2,...} . ⎜ ⎟p q → k! ⎝k ⎠ Dokaz. U binomnoj raspodeli je n ( n − 1) ... ( n − k + 1) k n − k n k ⎛n⎞ pk = ⎜ ⎟ p k q n − k = p q ⋅ k = k! n ⎝k ⎠
1 n ( n − 1)( n − 2 ) ... ( n − k + 1) k n−k ⋅ ⋅ ( np ) ⋅ (1 − p ) = k k! n 1 ⎛ 1 ⎞ ⎛ 2 ⎞ ⎛ k −1 ⎞ k n−k = ⋅1⋅ ⎜1 − ⎟ ⋅ ⎜1 − ⎟ ... ⎜1 − ⎟ ⋅ ( np ) ⋅ (1 − p ) . k! ⎝ n ⎠ ⎝ n ⎠ ⎝ n ⎠ ⎛ i⎞ Kako je lim ⎜ 1 − ⎟ = 1, i ∈ {0,1,..., k − 1} i n →∞ n⎠ p →0 ⎝ =
np →λ
38
lim (1 − p )
n →∞ p →0 np →λ
n−k
1 −k ⎡ − ⎤ = lim (1 − p ) ⎢(1 − p ) p ⎥ n →∞ ⎣ ⎦ p →0
− np
= 1⋅ e − np = 1⋅ e− λ ,
np → λ
sledi da je
lim pk =
n →∞ p →0 np →λ
λk k!
e− λ ,
{to je i trebalo dokazati. ▲ U posledwem primeru mo`emo primeniti Poasonovu aproksimaciju, jer je np = 100 ⋅ 0.01 = 1 = λ < 10 . Otuda imamo
15 −1 P ( S100 = 5 ) ≈ P (1) = e ≈ 0.003 . 5! Zna~aj Poasonove raspodele ne iscrpquje se time {to je ona jedna aproksimacija binomne raspodele. U Teoriji slu~ajnih procesa pokazuje se da je slede}i matemati~ki model, koji je vrlo ~est u razli~itim primenema, tesno vezan sa Poasonovom raspodelom. Pretpostavimo da u vremenskom intervalu [ 0, + ∞ ) registrujemo, na primer, zvowewe telefona, nailazak automobila, kosmi~ke zrake. Tako imamo jedan ,,potok doga|aja”. Re~ ,,doga|aj” ovde nema pridev ,,slu~ajan”, ve} ozna~va jednu slu~ajnu ta~ku na vremenskoj poluosi. Neka je broj ,,doga|aja” u vremenskom intervalu [ a, b ] slu~ajna promenqiva X [ a, b ] . To je diskretna slu~ajna promenqiva, jer mo`e uzeti vrednosti iz skupa {0,1, 2,...} . Pokaza}emo da, pod odre|enim pretpostavkama, slu~ajna promenqiva
X [ a, b ] = X ( t ) ima P ( λ t ) raspodelu. Neka je X ( t ) broj
,,doga|aja” u intervalu [ 0, t ) . Podelimo ovaj interval na n intervala jednakih du`ina t n . Ako se n uve}ava, verovatno}a da se u svakom takvom intervalu ostvare dva i vi{e ,,doga|aja” je pribli`no nula. Predpostavqamo da je verovatno}a realizacije jednog ,,doga|aja” u svakom intervalu, {to je prirodno, ista i iznosi pn , i da pn → 0 kad n → ∞ . Predpostavimo da je pn pribli`no proporcionalna du`ini intervala: pn = α ⋅ ( t n ) , α > 0 , ili, {to je isto, npn → α t kad n → ∞ . Pretpostavka je
jo{ da su pojavqivawa ,,doga|aja” u razli~itim intervalima nezavisna. Neka je Ai , i = 1, 2,..., n , doga|aj da se u i -tom intervalu realizuje posmatrani ,,doga|aj”. Po uvedenim pretpostavkama svi doga|aji Ai ,
i = 1, 2,..., n , su nezavisni i sa jednakim verovatno}ama P ( Ai ) = pn . Zna~i X ( t ) ima B ( n ; pn ) raspodelu. Ako uvedemo ,,preciznost” registovawa
,,doga|aja” , odnosno ako n → ∞ , odna npn → α t , pa X ( t ) ima P (α t ) raspodelu, odnosno za k = 0,1, 2,... je P ( X ( t ) = k ) = e
−α t
(α t )
k
. k! Primer 3. Neka je X ( t ) broj ~estica koje radioaktivni izvor emituje
za t ~asova. Pretpostavimo da X ( t ) ima Poasonovu raspodelu sa
39
parametrom 20t . Kolika je verovatno}a da izvor emituje ta~no 5 ~estica u nekom 15-to minutnom intervalu? Re{ewe. Zbog t = 0.25h , λ = 20t = 5 i k = 5 (broj ~estica), u pitawu je P ( 5 ) za k = 5 , odnosno p5 sa zakonom raspodele P ( 5 ) . Iz tablica nalazimo da je
55 −5 e ≈ 0.1755 . 5! Napomena. Pored binomne i Poasonove raspodele spomenimo samo jo{ dve raspodele. Ako izvodimo niz nezavisnih opita sa ishodima A i A , ~ije su verovatno}e redom 0 < p < 1 i 1 − p = q , do prve realizacije doga|aja A , onda slu~ajna promenqiva X : broj opita do prve realizacije doga|aja A ima geometrijsku raspodelu P ( X = k ) = pk = pq k −1 , k ∈ {1, 2,...} . P ( X ( 0.25 ) = 5 ) =
Ako se u prethodnom opitu tra`i verovatno}a r realizacija doga|aja A , r je fiksiran i unapred zadat broj, i k ∈ {r , r + 1, r + 2,...} broj ponavqawa opita, onda je u pitawu negativna binomna raspodela: ⎛ k − 1⎞ r k − r P ( X = k ) = pk = ⎜ ⎟ p q , k ∈ {r , r + 1, r + 2,...} . ⎝ r −1 ⎠ Kao primer za ove raspodele mo`e da poslu`i odre|ivawe verovatno}e da }emo detelinu sa 4 lista ugledati, recimo, u 10-tom pogledu, ili 3 takve deteline u 10 pogleda, ako je verovatno}a pojavqivawa deteline sa 4 lista 0 < p < 1 . Ka`imo na kraju ovog odeqka da navedena pet zakona raspodele ne iscrpquju spisak zakona raspodele, ali smo obimom na{eg kursa ograni~eni u wihovom navo|ewu.
3.4 NEKI ZAKONI RASPODELA VEROVATNO]A SLU^AJNIH PROMENQIVIH NEPREKIDNOG TIPA Uniformna raspodela Definicija 1. Za slu~ajnu promenqivu X sa gustinom ⎧ 1 , a ≤ x ≤ b, ⎪ ϕ ( x) = ⎨b − a ⎪ 0 , x ∉ [ a, b ] , ⎩ ka`emo da ima uniformnu (ravnomernu) raspodelu na intrvalu [ a, b ] . Tu raspodelu ozna~avamo sa U ( a, b ) . ▲ Uniformna raspodela, slikovito re~eno, predstavqa analogon pojmu ,,jednakoverovatnih ishoda” kod opita sa kona~no mnogo ishoda. Do navedenog oblika gustine u uniformnoj raspodeli dolazi se iz zahteva da
40
je ϕ ( x ) konstanta C na intervalu [ a, b ] , a nula van tog intervala. Dakle, konstanta C na [ a, b ] mora da ispuni uslov b
∫ Cdx = 1 ⇔ ( Cx )
b a
=1⇔ C =
a
1 . b−a
Funkcija raspodele U ( a, b ) dobija se iz
F ( x) =
1 1 1 x−a ∫−∞ b − a dt = −∞∫ b − a dt + ∫a b − a dt = 0 + b − a , x
a
x
tako da je
0, ⎧ ⎪x−a ⎪ , F ( x) = ⎨ ⎪b − a 1, ⎪⎩
x ≤ a, a < x < b, b ≤ x.
Kod uniformne raspodele imamo neprebrojivo mnogo ishoda: to su sve ta~ke intervala [ a, b ] . Verovatno}a da je ,,slu~ajna ta~ka” X u nekom podintervalu [α , β ] ⊆ [ a, b ] zavisi samo od wegove du`ine β − α a ne i od polo`aja podintervala. To sledi iz β 1 β −α a ≤ α ≤ β ≤ b ⇒ P (α ≤ x ≤ β ) = ∫ dx = . − − b a b a α Eksponencijalna raspodela Eksponencijalna raspodela je va`an model za prou~avawe vremena ispravnog rada ure|aja, ukoliko ure|aj do trenutka ,,otkaza” radi ,,kao nov”. Dakle, naj~e{}e su joj primene u teoriji masovnog opslu`ivawa i teoriji pouzdanosti. X ima Definicija 2. Neprekidna slu~ajna veli~ina eksponencijalnu raspodelu verovatno}a, u oznaci E (α ) , ako je wena gustina ⎧0
, x < 0,
ϕ ( x ) = ⎨ −α x ⎩α e , x ≥ 0,
gde je α > 0 parametar. ▲ Za x ≥ 0 je x
−α t −α t −α x ∫ α e dt = ( −e ) = 1 − e , 0
x
0
te stoga funkcija E (α ) raspodele glasi 0, x < 0, ⎧ F ( x) = ⎨ −α x ⎩1 − e , x ≥ 0. Va`nost eksponencijalne raspodele le`i u wenoj slede}oj osobini. Uslovna verovatno}a P (a ≤ X ≤ a + x) F (a + x) − F (a) P (a ≤ X ≤ a + x | X ≥ a) = = = 1 − e −α x 1− F (a) P ( X ≥ a)
41
mo`e se protuma~iti ovako: ako znamo da do trenutka a ure|aj funkcioni{e (to je doga|aj X ≥ a ), verovatno}a da on otka`e u vremenskom intervalu du`ine x posle trenutka a , zavisi samo od x , a ne i od a . Ilustrujmo ovo primerom. Primer 1. Vreme trajawa X osigura~a za struju (primer ure|aja koji radi ,,kao nov” do trenutka ,,otkaza”) ima E (α ) raspodelu, gde je α = 0.001 (ovo zna~i ,,prose~no” 1 otkaz na 1000 sati rada). Od velikog broja osigura~a koji ve} rade 2000 sati koliki je procenat otkaza u narednih 500 sati? Re{ewe. Ovde je P ( 2000 ≤ X ≤ 2500 | X ≥ 2000 ) = 1 − e −0.001(2500− 2000) = 1 − e −0.5 = 0.3935 , {to zna~i da oko 40% osigura~a koji ve} rade 2000 sati otkazuje u narednih 500 sati rada. Normalna raspodela Normalna ili Gausova (Karl Friedrich Gauss, 1777-1855, jedan od najve}ih matemeti~ara u istoriji matemetike) raspodela zauzima centralno mesto u Teoriji verovatno}e i Matemeti~koj statistici. O tome }e biti vi{e re~i kasnije. Ovde }emo se ograni~iti na definiciju i neka osnovna svojstva. Definicija 3. Ka`emo da slu~ajna promenqiva X ima normalnu raspodelu ako je wena gustina 1 ⎛ x −m ⎞
2
− ⎜ ⎟ 1 ϕ ( x) = e 2 ⎝ σ ⎠ , − ∞ < x < +∞ , σ 2π gde su m ∈ R i σ > 0 parametri. Tu }emo raspodelu ozna~avati sa N ( m; σ 2 ) . ▲ 1 ⎛ x−m ⎞ σ ⎟⎠
− ⎜ 1 Ako ispitamo funkciju y = e 2⎝ σ 2π
y > 0 za svako
(
x,
)
(
2
, lako zakqu~ujemo da je
)
lim ϕ ( x ) = 0 , max m,1 σ 2π , prevojne ta~ke su x →∞
P1,2 m ∓ σ ; 1 σ 2π e . Na osnovu ovih podataka grafik normalne gustine pribli`no izgleda kao na slici.
Sa slike vidimo da parametar m funkcije du` Ox -ose.
42
vr{i translaciju grafika
Sa slede}e slike vidimo kako parametar σ uti~e na ϕ max ( x ) , i to obrnuto proporcionalno svojoj veli~ini.
Funkcija raspodele normalne raspodele glasi
verovatno}a
1 ⎛ x−m ⎞
x
2
− ⎜ ⎟ 1 2⎝ σ ⎠ F ( x) = e dx . ∫ σ 2π −∞ Pribli`ne grafi~ke vrednosti ove funkcije date su na slici. Raspodelu N ( 0,1) zva}emo normalna normirana raspodela. Gustina i
funkcija raspodele za X : N ( 0,1) su redom 2
x
2
x − 1 − x2 1 2 ϕ ( x) = e i F ( x) = e dx , ∫ 2π 2π −∞ uz napomenu da u slu~aju N ( 0,1) , umesto funkcije raspodele F ( x ) ,
koristimo vrednosti Laplasove funkcije Φ ( x ) pomo}u veze 0
x
1 F ( x ) = ∫ ϕ ( x ) dx + ∫ ϕ ( x ) dx = 0.5 + 2π −∞ 0
x
∫e
−
x2 2
dx = 0.5 + Φ ( x ) .
0
Vrednosti Laplasove funkcije Φ ( x ) zadaju se tabli~no, jer se integral Φ ( x ) ne mo`e integraliti pomo}u kvadratura (direktno). O N ( 0,1)
raspodeli }e biti, zbog zna~aja u primenama, re~i u materiji koja sledi. 3.5 MATEMETI^KO O^EKIVAWE SLU^AJNIH PROMENQIVIH Kod ispitivawa slu~jnih promenqivih, ~esto nije dovoqno znati samo wihove raspodele verovatno}a, ve} je potrebno, za bli`e upoznavawe slu~ajne promenqive, znati jo{ neke wene karakteristike. ^esto u praksi nije poznat zakon raspodele, pa smo prinu|eni da radimo sa mawe podataka o slu~ajnoj veli~ini. Neki put je ~ak pogodnije da koristimo neke brojeve koji daju sumarnu predstavu o slu~ajnoj veli~ini.
43
Jedna numeri~ka karakteristika slu~ajne veli~ine jeste weno matemati~ko o~ekivawe. Pre formalne definicije matemati~kog o~ekivawa slu~ajne promenqive X poka`imo kako ga treba definisati da bi ono, na neki na~in, predstavqalo ,,sredwu vrednost” slu~ajne promenqive X . Neka je X diskretnog tipa sa kona~nim skupom mogu}ih vrednosti RX = { x1 , x2 ,..., xn } . U N ponovqenih i nezavisnih eksperimenata registrujemo vrednosti za X . Neka se vrednost x1 realizuje N1 puta, vrednost x2 neka se realizuje N 2 puta, …, xn neka se realizuje N n puta, pri ~emu je N1 + N 2 + ... + N n = N . Tada je sredwa vrednost, u smislu aritmeti~ke sredine, svih registrovanih vrednosti N x + N 2 x2 + ... + N n xn N N N xN = 1 1 = x1 1 + x2 2 + ... + xn n . N N N N I sam broj x N je jedna slu~ajna veli~ina. Naime, u nekih novih N ponavqawa opita broj x1 se ne mora registrovati ba{ N1 puta, nego }e se N realizovati N1′ ≠ N1 itd. Ali ako N → ∞ , onda se brojevi i , i = 1, 2,..., n N grupi{u oko P ( X = xi ) = p ( xi ) , tako da u grani~nom slu~aju, kad N → ∞ , x N nije slu~ajna veli~ina, ve} broj x1 p ( x1 ) + x2 p ( x2 ) + ... + xn p ( xn ) .
Ovaj broj koji, na neki na~in, predstavqa neku ,,sredwu vrednost” slu~ajne promenqive X , zove se matemati~ko o~ekivawe. Preciznije: Definicija 1. Ako je slu~ajna promenqiva X diskretnog tipa sa raspodelom x2 ... ⎞ ⎛ x1 X :⎜ ⎟, ⎝ p ( x1 ) p ( x2 ) ... ⎠ onda se weno matemati~ko o~ekivawe defini{e kao broj E ( X ) = x1 p ( x1 ) + x2 p ( x2 ) + ... = ∑ xi p ( xi ) , i
ukoliko suma na desnoj strani postoji. ▲ Ukoliko je RX = { x1 , x2 ,..., xn } (ukoliko X mo`e da uzme samo kona~no mnogo vrednosti) onda E ( X ) uvek postoji. Definicija 2. Ako je slu~ajna promenqiva X neprekidnog tipa sa gustinom ϕ ( x ) , −∞ < x < +∞ , weno matemati~ko o~ekivawe defini{e se kao broj
E(X ) =
+∞
∫ xϕ ( x ) dx .
−∞
Ono postoji i kona~an je broj +∞
integral
∫
ako i samo ako nesvojstveni
x ϕ ( x ) dx konvergira. ▲
−∞
Teorema 1. Osobine matemati~kog o~ekivawa su 10 Ako je X = c , c -konstanta, onda je E ( X ) = c ,
44
20 E ( cX ) = cE ( X ) , 30 E ( X + Y ) = E ( X ) + E (Y ) , 40 Ako su X i Y nezavisne slu~ajne promenwive, onda je E ( XY ) = E ( X ) E (Y ) , 50 E ( X − E ( X ) ) = 0 ,
60 a ≤ X ≤ b ⇒ a ≤ E ( X ) ≤ b , Dokaz. Dokaza}emo ove osobine za diskretnu slu~ajnu promenqivu. 10 U ovom slu~aju je P ( X = c ) = 1 , pa je E ( X ) = c ⋅1 = c . 20 Neka je
⎛ x1 X :⎜ ⎝ p ( x1 )
x2
⎞ ⎟, ... p ( xn ) ⎠
...
p ( x2 )
xn
tada je
⎛ cx1 cX : ⎜ ⎝ p ( x1 )
cx2
p ( x2 )
... cxn ⎞ ⎟, ... p ( xn ) ⎠
odakle sledi osobina. 30 Dokaza}emo osobinu kada slu~ajne veli~ine X i Y mogu da uzmu po dve vrednosti i kada su zadate slede}im zakonima raspodele: ⎛ x1 x2 ⎞ ⎛ y1 y2 ⎞ X :⎜ ⎟ i Y :⎜ ⎟. ⎝ p1 p2 ⎠ ⎝ g1 g 2 ⎠ Mogu}e vrednosti slu~ajne veli~ine X + Y su x1 + y1 , x1 + y2 , x2 + y1 i x2 + y2 . Neka je raspodela za X + Y data sa ⎛ x1 + y1 x1 + y2 x2 + y1 x2 + y2 ⎞ X +Y : ⎜ ⎟. p12 p21 p22 ⎠ ⎝ p11
Tada je
E ( X + Y ) = ( x1 + y1 ) p11 + ( x1 + y2 ) p12 + ( x2 + y1 ) p21 + ( x2 + y2 ) p22 = x1 ( p11 + p12 ) + x2 ( p21 + p22 ) + y1 ( p11 + p21 ) + y2 ( p21 + p22 ) .
Ako slu~ajna veli~ina X uzme vrednost x1 sa verovatno}om p1 , onda iz toga sledi da slu~ajna veli~ina X + Y uzima vrednosti x1 + y1 ili x1 + y2 sa verovatno}om p11 + p12 . Zna~i, mora biti p11 + p12 = p1 . Analognim zakqu~ivawem je p21 + p22 = p2 , p11 + p21 = g1 i p12 + p22 = g 2 . Sada je E ( X + Y ) = ( x1 p1 + x2 p2 ) + ( y1 g1 + y2 g 2 ) = E ( X ) + E (Y ) . 40 Neka su raspodele slu~ajnih veli~ina X i Y kao slu~aju 30. Tada je ⎛ x1 y1 x1 y2 x2 y1 x2 y2 ⎞ XY : ⎜ ⎟. ⎝ p1 g1 p1 g 2 p2 g1 p2 g 2 ⎠ Daqe je E ( XY ) = x1 y1 p1 g1 + x1 y2 p1 g 2 + x2 y1 p2 g1 + x2 y2 p2 g 2
= ( x1 p1 + x2 p2 )( y1 g1 + y2 g 2 ) = E ( X ) E (Y ) .
45
50 Kada uo~imo da je E ( X ) broj, dakle – konstanta, onda koristimo osobine 10 i 30, pa je E ( X − E ( X ) ) = E ( X ) − E ( E ( X ) ) = E ( X ) − E ( X ) = 0. 60 Neka je ⎛ x1 x2 ... xn ⎞ X :⎜ ⎟ i a = x1 < x2 < ... < xn = b . ⎝ p1 p2 ... pn ⎠
Ta~no je n
n
n
n
n
k =1
k =1
k =1
k =1
k =1
a ⋅1 = a ⋅ ∑ pk = ∑ a ⋅ pk ≤ ∑ xk ⋅ pk = E ( X ) ≤ ∑ b ⋅ pk = b ⋅ ∑ pk = b . ▲ U slede}im primerima ore|ujemo o~ekivawe slu~ajnih promenqivih sa raspodelama koje smo upoznali u prethodnim odeqcima. Primer 1. Odrediti o~ekivawe ,,0-1” raspodele. Re{ewe. Iz ⎛0 1 ⎞ X :⎜ ⎟ ⎝q p⎠ dobijamo E ( X ) = 1⋅ p + 0 ⋅ q = p . Primer 2. Odrediti matemati~ko o~ekivawe slu~ajne promenqive S n : B ( n, p ) . Re{ewe. n n ⎛n⎞ E ( Sn ) = ∑ k ⋅ P ( Sn = k ) = ∑ k ⋅ ⎜ ⎟ p k q n−k k =0 k =1 ⎝k ⎠ n n ( n − 1)( n − 2 ) ... ( n − k + 1) k n − k = ∑k ⋅ p q k! k =1 n ( n − 1)( n − 2 ) ... ( n − k + 1) p k −1q n−1−( k −1) = np ∑ ( k − 1)! k =1
= np ( p + q ) = np . Primer 3. Neka slu~ajna promenqiva S∞ ima P ( λ ) raspodelu. n −1
Odrediti E ( S∞ ) . Re{ewe. ∞
λk
k =0
k!
E ( S∞ ) = ∑ k ⋅
∞
= λ e− λ ∑ k =1
e− λ
λ k −1
( k − 1)!
= λ e− λ eλ =λ. Vidimo da je u Poasonovoj raspodeli parametar λ , u stvari, matemati~ko o~ekivawe te slu~ajne promenqive. ▲ Primer 4. Neka je X : U ( a, b ) . Na}i E ( X ) .
46
b
1 1 ⎛ x2 ⎞ a+b Re{ewe. E ( X ) = ∫ x ⋅ ⋅⎜ ⎟ = . dx = 2 b−a b−a ⎝ 2 ⎠a a b
Primer 5. Odrediti o~ekivawe slu~ajne promenqive X sa E (α ) raspodelom. Re{ewe. E ( X ) =
+∞
∫ α xe
−α x
dx = {u = α x, dv = e
−α x
dx} =
0
+∞
∫e
−α x
dx =
0
1
α
.
Primer 6. Odrediti o~ekivawe N ( 0,1) raspodele. +∞
2
x − 1 Re{ewe. E(X ) = xe ∫ 2 = 0, 2π −∞ jer je podintegralna funkcija neparna. ▲ Primer 7. Odrediti o~ekivawe slu~ajne promenqive X : N ( m, σ 2 ) .
Re{ewe. Prema definiciji je +∞
1 ⎛ x−m ⎞
+∞
2
− ⎜ ⎟ 1 2⎝ σ ⎠ E ( X ) = ∫ xϕ ( x ) dx = xe dx . ∫ σ 2π −∞ −∞ x−m Uvo|ewem smene z = dobijamo x = σ z + m i dx = σ dz . Sada je
σ
+∞
σ
z2 2
σ dz = 2π
+∞
+∞
z2 2
2
z − m 2 σ + + E(X ) = z m e ze dz e dz . ( ) ∫ ∫ ∫ σ 2π −∞ 2π −∞ −∞ Prvi intrgral je nula zbog neparnosti podintegralne funkcije. Kako je +∞
Poasonov integral
∫e
−
−
z2 2
−
dz = 2π dobijamo da je
−∞
E(X ) = m. ▲
Sada vidimo da je parametar m iz normalne raspodele, u stvari, matemeti~ko o~ekivawe za tu raspodelu. Na kraju ovog paragrafa navodimo primer koji }e biti od koristi za razumevawe materije koja sledi. Primer 8. Neka je raspodela slu~ajne promenqive X data {emom 1 ⎞ − ⎛ 1 0 2 2 X :⎜ ⎟ . Na}i raspodelu slu~ajne promenqive X i E ( X ) . ⎝ 0.2 0.4 0.4 ⎠ Re{ewe.
Kako
je
X 2 ∈ {0,1}
i
P ( X 2 = 1) = P ( X = −1) + P ( X = 1)
⎛ ( −1)2 0 12 ⎞ zakqu~ujemo da je X : ⎜ , pa je ⎜ 0.2 0.4 0.4 ⎟⎟ ⎝ ⎠ 2
E ( X 2 ) = ( −1) ⋅ 0.2 + 02 ⋅ 0.4 + 12 ⋅ 0.4 = 0.6 . ▲ 2
n ⎛ x x ... xn ⎞ 2 2 Va`i uop{te: ako je X : ⎜ 1 2 ⎟ , onda je E ( X ) = ∑ xi ⋅ pi . i =1 ⎝ p1 p2 ... pn ⎠
Za neprekidnu slu~ajnu promenqivu je E ( X 2 ) =
+∞
∫ x ϕ ( x ) dx . 2
−∞
47
3.6 DISPERZIJA SLU^AJNE PROMENQIVE Slu~ajna promenqiva X potpuno je odre|ena svojim zakonom raspodele verovatno}a ( p ( xi ) ili ϕ ( x ) ). Matemati~ko o~ekivawe E ( X ) , kao broj koji je na neki na~in ,,sredwa vrednost” slu~ajne promenqive, je prva i osnovna informacija o slu~ajnoj promenqivoj ali je daleko od toga da mo`e da zameni kompletnu informaciju koju daje raspodela. Tako ,,rasturawe” vrednosti iz skupa realizacija za X oko broja E ( X ) mo`e da bude vrlo razli~ito kod razli~itih raspodela, iako wihova ⎛ −1 1 ⎞ matemati~ka o~ekivawa mogu da budu jednaka. Na primer, X : ⎜ ⎟ i ⎝ 0.5 0.5 ⎠
⎛ −100 100 ⎞ Y :⎜ ⎟ imaju E ( X ) = E (Y ) = 0 , ali su im ,,rasturawa” mogu}ih ⎝ 0.5 0.5 ⎠ vrednosti oko 0 razli~ita. Va`no je nekim brojem meriti to ,,rasturawe”. Slu~ajna promenqiva X − E ( X ) je jedna mera tog ,,osipawa”. Ako nas interesuje samo veli~ina tog odstupawa, bez obzira na znak, mo`emo posmatrati X − E ( X ) . No, apsolutne vrednosti su nepodesne za rad, pa
⎡⎣ X − E ( X ) ⎤⎦ kao meru ,,rasejavawa” vrednosti slu~ajne promenqive oko wenog matemati~kog o~ekivawa (koje je broj). Definicija 1. Matemati~ko o~ekivawe slu~ajne promenqive 2
uvodimo slu~ajnu promenqivu
⎡⎣ X − E ( X ) ⎤⎦ oznaci
2
zove se disperzija (varijansa) slu~ajne promenqive X , u
D ( X ) = E ⎡⎣ X − E ( X ) ⎤⎦ . 2
Broj + D ( X ) zovemo standardna devijacija slu~ajne promenqive X . ▲ Primer 1. Ako je ⎛ x1 x2 ... xn ⎞ X :⎜ ⎟ ⎝ p1 p2 ... pn ⎠
tada je ⎛ ⎡ x − E ( X ) ⎤ 2 ⎡ x − E ( X ) ⎤ 2 ... ⎡ x − E ( X ) ⎤ 2 ⎞ ⎦ ⎣ 2 ⎦ ⎣ n ⎦ ⎟, ⎡⎣ X − E ( X ) ⎤⎦ : ⎜ ⎣ 1 ⎜ ⎟ ... p1 p2 pn ⎝ ⎠ pa, po definiciji disperzije, dobijamo 2
D ( X ) = ⎡⎣ x1 − E ( X ) ⎤⎦ ⋅ p1 + ⎡⎣ x2 − E ( X ) ⎤⎦ ⋅ p2 + ... + ⎡⎣ xn − E ( X ) ⎤⎦ ⋅ pn . ▲ 2
2
2
Iz prethodnog primera vidimo da je ra~unawe disperzije zametno. Dajemo jednu podesniju formulu za weno ra~unawe. Imamo redom def
D ( X ) = E ⎡⎣ X − E ( X ) ⎤⎦ = E ⎡⎣ X 2 − 2 X ⋅ E ( X ) + E 2 ( X ) ⎤⎦ = E ( X 2 ) − 2E ( X ) ⋅ E ( X ) + E 2 ( X ) 2
= E ( X 2 ) − ⎡⎣ E ( X ) ⎤⎦ . 2
48
Dakle,
D ( X ) = E ( X 2 ) − ⎡⎣ E ( X ) ⎤⎦ . 2
Navodimo i dokazujemo osobine disperzije. Teorema 1. Osobine disperzije su: 10 D ( X ) = 0 ako i samo ako je X = const , 20 D ( X ) ≥ 0 , 30 D ( X + c ) = D ( X ) , c je konstanta, 40 D ( cX ) = c 2 D ( X ) , c je konstanta, 50 Ako su X i Y nezavisne, tada je D ( X + Y ) = D ( X ) + D (Y ) . Dokaz. 10 D ( c ) = E ⎡⎣ c − E ( c ) ⎤⎦ = E ( c − c ) = E ( 0 ) = 0 . 2
2
⎡⎣ X − E ( X ) ⎤⎦ ≥ 0 , na osnovu osobine 60 2
20 Zbog toga {to je
matemati~kog o~ekivawa, va`i E ⎡⎣ X − E ( X ) ⎤⎦ ≥ 0 . 30 Ako koristimo osobinu 30 matemati~kog o~ekivawa, imamo 2
D ( X + c ) = E ⎡⎣ X + c − E ( X + c ) ⎤⎦ = E ⎡⎣ X + c − E ( X ) − c ⎤⎦ = D ( X ) . 2
40 D ( cX ) = E ⎡⎣ cX − E ( cX ) ⎤⎦
2
2
= E ⎡⎣ c ( X − E ( X ) ) ⎤⎦ = c 2 E ⎡⎣ X − E ( X ) ⎤⎦
2
2
= c2 D ( X ). 50
D ( X + Y ) = E ⎡⎣ X + Y − E ( X + Y ) ⎤⎦
2
= E ⎡⎣( X − E ( X ) ) + (Y − E (Y ) ) ⎤⎦
2
= D ( X ) + D (Y ) + 2 E ⎡⎣( X − E ( X ) ) (Y − E (Y ) ) ⎤⎦ = D ( X ) + D (Y ) + 2 E ( XY ) − 2 E ( X ) E (Y ) = D ( X ) + D (Y ) . ▲
Podsetimo se da su i E ( X ) i D ( X ) brojevi. Uvedimo jedan va`an pojam. Definicija 2. Standardizovan (normalizovan) oblik slu~ajne promenqive X , u oznaci X ∗ , dobija se transformacijom X − E(X ) .▲ X∗ = D( X ) Va`nost normalizovanog oblika slu~ajne promenqive upoznajemo slede}om teoremom. Teorema 2. Standardizovan oblik slu~ajne promenqive ima osobine: 10 E ( X ∗ ) = 0 ; 20 D ( X ∗ ) = 1 . Dokaz .
49
⎡ X − E ( X ) ⎤ E ⎡ X − E ( X )⎤ E ( X ) − E ( X ) ⎦= ⎥= ⎣ 10 E ( X ∗ ) = E ⎢ = 0. ⎢⎣ D ( X ) ⎥⎦ D( X ) D( X ) ⎡ X − E ( X ) ⎤ D ⎡ X − E ( X )⎤ D ( X ) ⎦= ⎥= ⎣ 20 D ( X ∗ ) = D ⎢ = 1. ▲ D( X ) D( X ) ⎢⎣ D ( X ) ⎥⎦ Odredimo disperziju raspodela koje smo do sada upoznali. Primer 2. Odrediti disperziju ,,0-1” raspodele. ⎛0 1 ⎞ 2 ⎛0 1 ⎞ Re{ewe. Ovde je X : ⎜ ⎟ i X :⎜ ⎟ . Znamo da je E ( X ) = p . Daqe ⎝q p⎠ ⎝q p⎠ imamo D ( X ) = E ( X 2 ) − ⎡⎣ E ( X ) ⎤⎦ = p − p 2 = p (1 − p ) = pq . 2
Primer 3. Odrediti disperziju slu~ajne promenqive S n : B ( n, p ) . Re{ewe. Ve} smo odredili da je E ( S n ) = np ( 3.5 primer 2.). Da bi smo
⎛n⎞ odredili D ( S n ) na|imo vrednost izraza k 2 ⎜ ⎟ , k = 1, 2,..., n . ⎝k ⎠ n ( n − 1) ... ( n − k + 1) ⎛n⎞ k 2 ⎜ ⎟ = ⎡⎣( k − 1) k + k ⎤⎦ k! ⎝k ⎠ = n ( n − 1) ⋅
( n − 2 )( n − 3) ... ⎡⎣( n − 2 ) − ( k − 2 ) + 1⎤⎦ ⎛ n ⎞ +k⎜ ⎟ ( k − 2 )! ⎝k ⎠
⎛n − 2⎞ ⎛n⎞ = n ( n − 1) ⋅ ⎜ ⎟+k⎜ ⎟. ⎝ k − 2⎠ ⎝k ⎠ Sada je D ( Sn ) = E ( Sn2 ) − ⎡⎣ E ( S n ) ⎤⎦
2
n ⎛n⎞ 2 = ∑ k 2 ⎜ ⎟ p k q n − k − ( np ) k =0 ⎝k ⎠ n−2 ⎛ n − 2 ⎞ k − 2 n − 2 −( k − 2 ) n ⎛n⎞ = ∑ n ( n − 1) p 2 ⎜ + ∑ k ⋅ ⎜ ⎟ p k q n−k − n2 p 2 ⎟p q k =2 k =1 ⎝ k − 2⎠ ⎝k ⎠
= n ( n − 1) p 2 ( p + q )
n−2
+ E ( Sn ) − n 2 p 2
= n 2 p 2 − np 2 + np − n 2 p 2 = np (1 − p ) = npq . ▲ Primetimo da je standardna devijacija
D ( S n ) = npq .
Normalizoban oblik binomne slu~ajne promenqive je S n∗ =
S n − np . npq
Primer 4. Odrediti disperziju slu~ajne promenqive S∞ : P ( λ ) . ∞
λk
k =0
k!
Re{ewe. Znamo da je E ( S∞ ) = ∑ k ⋅
50
⋅ e − λ = λ . Odredimo E ( S∞2 ) .
∞
λk
k =0
k!
E ( S∞2 ) = ∑ k 2 ⋅
∞
⋅ e− λ = ∑ k ⋅ k =0
∞
= λ E ( S∞ ) + λ e− λ ∑
λk
( k − 1)!
∞
λ i +1
i =0
i!
⋅ e − λ = {k − 1 = i} = ∑ ( i + 1)
e−λ =
λi
= λ2 + λ . i ! i −0 Stoga je disperzija Poasonove raspodele
D ( S∞ ) = E ( S∞2 ) − ⎡⎣ E ( S∞ ) ⎤⎦ = λ 2 + λ − λ 2 = λ . 2
Primer 5. Neka je X :U ( a, b ) . Na}i D ( X ) .
a+b . Jo{ ra~unamo E ( X 2 ) : 2 b 1 1 b3 − a 3 1 2 2 E(X2) = x dx = ⋅ = ( a + ab + b 2 ) . 3 b−a 3 b − a ∫a Otuda dobijamo da je Re{ewe. Znamo: E ( X ) =
D( X ) =
(b − a )
2
. 12 Primer 6. Odrediti D ( X ) za slu~ajnu promenqivu X :E (α ) . Re{ewe. Znamo da je E ( X ) =
E(X2) =
+∞
1
α
. Odredimo E ( X 2 ) .
⎧
⎫
+∞
−α x −α x 2 −α x 2 2 −α x ∫0 α x e dx = ⎨⎩u = α x , v = − α e ⎬⎭ = ( x e ) 0 + 2 ∫0 xe dx =
1
+∞
+∞ +∞ ⎡⎛ x ⎤ ⎧ 1 1 ⎫ ⎞ = 0 + 2 ⎢⎜ − e −α x ⎟ + ∫ e−α x dx ⎥ = ⎨t = −α x, dx = − dt ⎬ = α ⎭ ⎠0 α 0 ⎣⎢⎝ α ⎦⎥ ⎩ −∞ ⎛ ⎞ 2 1 = 2 ⎜ 0 − 2 ∫ et dt ⎟ = 2 . ⎝ α 0 ⎠ α Sada lako dobijamo disperziju eksponencijalnom raspodelom:
D ( X ) = E ( X 2 ) − ⎡⎣ E ( X ) ⎤⎦ = 2
slu~ajne
2
α
2
−
1
α
2
=
1
α2
promenqive
sa
.
Primer 7. Odrediti disperziju slu~ajne promenqive X sa N ( m, σ 2 ) raspodelom. Re{ewe. Po definiciji je 1 ⎛ x−m ⎞
+∞
2
1 2 − 2 ⎜⎝ σ ⎟⎠ D( X ) = x − m e dx . ( ) ∫ σ 2π −∞ Uvode}i istu smenu kao kod odre|ivawa matemati~kog o~ekivawa x−m (z = ), dobijamo
σ
D( X ) =
σ2 2π
+∞
∫
−∞
z ⋅ ze
1 − z2 2
1 − z2 ⎧ ⎫ σ2 dz = ⎨u = z , dv = ze 2 dz ⎬ = 2π ⎩ ⎭
+∞
∫e
1 − z2 2
dz =
−∞
Dakle, disperzija je D ( X ) = σ , dok je standardna devijacija 2
σ2 ⋅ 2π . 2π D( X ) =σ ,
~ime smo upoznali zna~ewa parametara m i σ 2 u N ( m, σ 2 ) raspodeli. ▲
51
3.7 TRANSFORMACIJA SLU^AJNE PROMENQIVE Razmotrimo slede}i problem: Data je raspodela (ili gustina) slu~ajne promenqive X i jedna funkcija f ( i ) . Treba odrediti raspodelu (ili gustinu) slu~ajne promenqive Y = f ( X ) . Na primer Y = X + 3 , Y = X ,
Y = e− X . Da bi smo re{ili ovaj problem uo~imo da u diskretnom slu~aju svakom ishodu ω ∈ Ω odgovara broj X (ω ) ∈ RX ~iju verovatno}u realizacije znamo. Ako broj X (ω ) uvrstimo kao original u funkciju f
dobijamo broj Y = f ( X (ω ) ) . Otuda, ako je f bijekcija i y1 = f ( x1 ) , imamo
P (Y = y1 ) = P ( X = x1 ) . Bez teoretskog opravdawa poka`imo na nekoliko
primera kako se navedeni problem re{ava. Primer 1. Neka je dat zakon raspodele za slu~ajnu promenqivu X sa ⎛ −2 − 1 0 1 ⎞ X : ⎜ 1 1 1 3 ⎟ . Odrediti zakon raspodele slu~ajne promenqive Y = X . ⎜⎜ ⎟⎟ ⎝ 8 4 4 8⎠ Re{ewe. Ako uo~imo da je P (Y = 1) = P ( X = −1) + P ( X = −1) , onda
⎛0 1 2⎞ Y :⎜ 1 5 1 ⎟ . ⎜⎜ ⎟⎟ ⎝ 4 8 8⎠ n
⎛1⎞ Primer 2. Neka je X : P ( X = n ) = ⎜ ⎟ , n ∈ N . Na}i zakon raspodele ⎝2⎠ slu~ajne promenqive ⎧ 1, X = 2k , Y = f (X ) = ⎨ ⎩−1, X = 2k − 1, k ∈ N . Re{ewe. Kako je ∞
2k
∞
1 1 1 ⎛1⎞ = P (Y = 1) = ∑ P ( X = 2k ) = ∑ ⎜ ⎟ = ⋅ 1 4 1− 3 k =1 k =1 ⎝ 2 ⎠ 4
i ∞
∞
⎛1⎞ p (Y = −1) = ∑ P ( X = 2k − 1) = ∑ ⎜ ⎟ K =1 k =1 ⎝ 2 ⎠
2 k −1
=
1 1 2 ⋅ = , 1 2 1− 3 4
tra`eni zakon raspodele glasi:
⎛ −1 1 ⎞ Y :⎜ 2 1 ⎟ . ⎜⎜ ⎟⎟ ⎝ 3 3⎠ Primer 3. Neka je X :U ( 0, 1) . Na}i gustinu raspodele verovatno}a funkcije Y = e X . Re{ewe. Kako je gustina za X :
52
⎧⎪1, x ∈ [ 0, 1] , ⎪⎩0, x ∉ [ 0, 1] ,
ϕ ( x) = ⎨
zbog y = e x imamo da 0 ≤ x ≤ 1 ⇔ 1 ≤ y ≤ e , a iz x = ln y je dx =
1 dy . Daqe y
va`i
P ( a ≤ y ≤ b ) = P ( ln a ≤ x ≤ ln b ) =
ln b
b
ln a
a
∫ 1⋅ dx = ∫
1 dy . y
Prema definiciji gustine , dakle, gustina ψ ( y ) za Y = e X data je funkcijom ⎧1 ⎪ , y ∈ [1, e ] , ψ ( y) = ⎨ y ⎪0, y ∉ [1, e] . ⎩
3.7 KORI[]EWE TABLICA NEKIH RASPODELA U praksi treba odre|ivati verovatno}e konkretnih doga|aja. U tu svrhu se koriste gotove tablice vrednosti pojedinih funkcija raspodela verovatno}a. Ovde }emo se detaqnije zadr`ati na Poasonovoj i normalnoj raspodeli. Navodimo prvo neke op{te napomene. Kod slu~ajnih promenqivih diskretnog tipa sa skupom realizacija RX = { x1 , x2 ,...} , x1 < x2 < ... koriste se vrednosti pi = P ( X = xi ) , i = 1, 2,... ,
Q j = P ( x1 ≤ X ≤ x j ) = p1 + p2 + ... + p j , j = 1, 2,... koje se daju u tabelama. Tada
je, recimo, P ( xk ≤ X ≤ xl ) = Ql − Qk −1 , k ≤ l . Kod slu~ajnih promenqivih neprekidnog tipa za odre|ivawe verovatno}a koriste se osobine funkcija raspodela. Vrednosti funkcije raspodele F ( x ) zadaju se za razne vrednosti x ∈ R . Ako slu~ajna promenqiva X ima za gustinu parnu funkciju, odnosno ako je ϕ ( − x ) = ϕ ( x ) , to je o~igledno
P ( −b ≤ X ≤ − a ) = P ( a ≤ X ≤ b ) = F ( b ) − F ( a ) .
53
Ukoliko je jedna od granica intervala beskona~na, recimo b = +∞ , onda je P ( −∞ ≤ X ≤ − a ) = F ( − a ) = P ( X ≤ − a ) = P ( a ≤ X ≤ +∞ ) = 1− F (a), a ∈ R
.
Iz prethodnog zakqu~ujemo da je F ( x ) dovoqno zadati za x ≥ 0 , a za − x ra~unati F ( − x ) = 1 − F ( x ) . U ovom slu~aju vodimo ra~una da je F ( 0 ) = 0.5 .
Za sada navodimo kori{}ewe tablica za dve raspodele. Poasonova raspodela se daje tabli~nim vrednostima verovatno}a
pk ( λ ) =
λk
e − λ , obi~no za
k = 0,1, 2,... i 0 < λ ≤ 10 . Tako je, na primer, k! 45 p5 ( 4 ) = e −5 = 0.15629 . 5! Sli~no se ra~unaju verovatno}e l
P (0 ≤ X ≤ l ) = ∑
λk
e − λ = Ql ( λ ) .
k =0 k ! Daqe je P ( k ≤ X ≤ l ) = pk ( λ ) + pk +1 ( λ ) + ... + pl ( λ ) = Ql ( λ ) − Qk −1 ( λ ) , dok je P ( X ≥ j ) = p j ( λ ) + p j +1 ( λ ) + ... = 1 − ⎡⎣ p0 ( λ ) + p1 ( λ ) + ... + p j −1 ( λ ) ⎤⎦ = 1 − Q j −1 ( λ ) .
Primer 1. Neka je X : P ( 2 ) . Na}i : 10 P ( 0 ≤ X ≤ 3) , 20 P ( 2 < X < 5 ) ,
30 P ( X > 3 ) . Re{ewe. 10 P ( 0 ≤ X ≤ 3) = p0 ( 2 ) + p1 ( 2 ) + p2 ( 2 ) + p3 ( 2 ) = = 0.13534 + 0.27067 + 0.27067 + 0.18045 = 0.85713 . 0 2 P ( 2 < X < 5 ) = p3 ( 2 ) + p4 ( 2 ) = 0.27472 . 30 P ( X > 3) = 1 − P ( 0 ≤ X ≤ 3) = 0.14287 . Primer 2. (Aproksimacija binomne raspodele) U toku jednog minuta se u detektoru pojavquje kosmi~ka ~estica sa verovatno}om 0.004 . Dolasci ~estica u raznim minutima su nezavisni. Kolika je verovatno}a da }e u toku 500 minuta u bar 5 minuta biti detektovane ~estice?
54
Re{ewe. Mi tra`imo P ( S500 ≥ 5 ) = 1 − P ( S500 ≤ 4 ) . Zbog 500 × 0.004 = 2
( np = λ ≤ 10 ) binomnu
raspodelu aproksimiramo Poasonovom raspodelom
2k −2 e dobijamo k! ≥ 5 ) = 1 − P ( S500 ≤ 4 ) = 1 − Q4 ( 2 )
P ( 2 ) . Zbog P ( S500 = k ) ≈
P ( S500
= 1 − ( p0 ( 2 ) + p1 ( 2 ) + p3 ( 2 ) + p4 ( 2 ) )
= 0.05265. Normalna raspodela se zadaje tabli~no za normirani oblik N ( 0, 1)
preko Laplasove funkcije
Φ ( x) =
1 2π
x
∫e
1 − x2 2
dx , x > 0 ,
0
jer zbog parnosti gustine N ( 0, 1) raspodele va`i x
2
x − 1 2 F ( x) = e dx = 0.5 + Φ ( x ) . ∫ 2π −∞ Vrednosti funkcije Φ ( x ) se zadaju za 0 < x < 5 , a za x ≥ 5 se sa
visokom ta~no{}u uzima da je F ( x ) = 1 ( Φ ( 5 ) = 0.499997, F ( 5 ) = 0.999997 ). Ukoliko je x < 0 koristimo formulu F ( x ) = 1 − F ( − x ) . Primer 1. Neka X : N ( 0, 1) . Na}i: 10 P ( 0.5 < x ≤ 3) ; 30 P ( X < −1) ;
40 P ( −1 < X < −0.2 ) ;
20 P ( X > 1) ;
50 P ( −1 ≤ X < 2.2 ) .
Re{ewe. 10 P ( 0.5 < x ≤ 3) = Φ ( 3) − Φ ( 0.5 ) = 0.49865 − 0.1915 = 0.30715 . 20 P ( X > 1) = P (1 < X < +∞ ) = 1 − P ( −∞ < X ≤ 1) = 1 − ( 0.5 + Φ (1) ) = 1 − ( 0.5 + 0.3413)
= 0.1587 . 3 P ( X < −1) = P ( X > 1) = 1 − F (1) = 1 − ( 0.5 + Φ (1) ) = 0.1587 . 0
40 P ( −1 < X < −0.2 ) = P ( 0.2 < X < 1) = Φ (1) − Φ ( 0.2 ) = 0.262 . 50 P ( −1 ≤ X < 2.2 ) = Φ (1) + Φ ( 2.2 ) = 0.8274 . Napomena 1. Preporu~uje se skicirawe slike gustine normalne normirane raspodele u svim prethodnim i narednim primerima. ▲ Verovatno}u P ( X < a ) odre|ujemo pomo}u
P ( X < a ) = P ( −a < X < a ) = 2Φ ( a ) . Primer 2. Odrediti P ( X < 1.11) . Re{ewe. P ( X < 1.11) = 2 P ( 0 < X < 1.11) = 2Φ (1.11) = 0.733 . ▲ Ako, pak, treba odrediti verovatno}u P ( X > b ) , onda koristimo (skiciraj sliku!)
P ( X > b ) = 2 P ( X > b ) = 2 (1 − F ( b ) )
55
= 2 − 2 F ( b ) = 2 − 2 ( 0.5 + Φ ( b ) ) = 1 − 2Φ ( b ) .
Primer 3. Odrediti P ( X > 0.81) . Re{ewe. P ( X > 0.81) = 1 − 2Φ ( 0.81) = 1 − 2 × 0.291 = 0.418 . ▲ Navodimo i dokazujemo va`nu teoremu koja daje postupak kojim se slu~ajna promenqiva X : N ( m, σ 2 ) transformi{e u slu~ajnu promenqivu Y : N ( 0, 1) , ~ime se za efektivno odre|ivawe verovatno}a slu~ajnih
promenqivih X : N ( m, σ 2 ) koriste tablice Laplasove funkcije Φ ( x ) .
Teorema 1. Ako slu~ajna promenqiva X ima N ( m, σ 2 ) raspodelu
onda slu~ajna promenqiva Y =
X −m
Dokaz. Neka je Y =
σ
X −m
σ
ima N ( 0, 1) raspodelu.
, odnosno X = σ Y + m . Naka su, daqe, ϕ X i
ϕY gustine za X i Y , a FX i FY funkcije raspodela za X i Y . Ovde je ( x − m )2
− 1 2 ϕX ( x) = e 2σ . σ 2π Sada imamo
⎛ X −m ⎞ FY ( y ) = P (Y < y ) = P ⎜ < y ⎟ = P ( X < σ y + m ) = FX (σ y + m ) , ⎝ σ ⎠ ϕY ( y ) = FY′ ( y ) = ⎡⎣ FX (σ y + m ) ⎤⎦′ = σ FX′ (σ y + m ) − 1 = σϕ X (σ y + m ) = σ ⋅ e σ 2π
(σ y + m − m ) 2 2σ 2
2
1 − y2 = e . 2π 2
1 − y2 e je Y : N ( 0, 1) . ▲ Zbog ϕY ( y ) = 2π Poka`imo na nekoliko primera kako se mo`e iskoristiti prethodna teorema. Primer 4. Neka je X : N ( 2, 32 ) . Odrediti P ( X 2 < 4 ) . Re{ewe. U ovom slu~aju je o~ekivawe m = 2 , a devijacija σ = 3 , pa X −m X −2 slu~ajna promenqiva X ∗ = ima N ( 0, 1) raspodelu. = 3 σ P ( X 2 < 4 ) = P ( X < 2 ) = P ( −2 < X < 2 )
X −2 ⎛ −2 − 2 X − 2 2 − 2 ⎞ ⎛ ⎞ = P⎜ < < < 0⎟ ⎟ = P ⎜ −1.33 < 3 3 ⎠ 3 ⎝ 3 ⎝ ⎠ ∗ = P ( 0 < X < 1.33) = Φ (1.33) = 0.4082 . ▲
56
Ako je slu~ajna promenqiva X
sa N ( m, σ 2 ) raspodelom onda
verovatno}u doga|aja X ∈ ( a, b ) mo`emo pomo}u funkcije Φ ( x ) odrediti na slede}i na~in:
⎛a−m X −m b−m⎞ ⎛b−m⎞ ⎛a−m⎞ P ( a < X < b) = P ⎜ < < ⎟ = Φ⎜ ⎟−Φ⎜ ⎟. σ σ ⎠ ⎝ σ ⎝ σ ⎠ ⎝ σ ⎠ Primer 5. Neka je X : N ( 3, 22 ) . Odrediti P ( −1 < X < 4 ) . Re{ewe. Ako dovedemo slu~ajnu promenqivu X na standardizovan X −m oblik X ∗ = , onda mo`emo koristiti funkciju Φ ( x ) . Dakle,
σ
⎛ −1 − 3 X − 3 4 − 3 ⎞ P ( −1 < X < 4 ) = P ⎜ < < ⎟ 2 2 ⎠ ⎝ 2 = P ( −2 < X ∗ < 0.5 ) = Φ ( 0.5 ) + Φ ( 2 )
= 0.6687 .
Primer 6. Neka je X : N ( m, σ 2 ) . Odrediti P ( X − m < 3σ ) .
X −m ⎛ ⎞ Re{ewe. P ( X − m < 3σ ) = P ( −3σ < X − m < 3σ ) = P ⎜ −3 < < 3⎟ σ ⎝ ⎠ = 2Φ ( 3) = 2 × 0.49865 = 0.9973 . Prethodni rezultat je poznat kao pravilo ,,tri sigme” I zna~I da se sa velikom verovatno}om skoro sve vrednosti (99,73%) slu~ajne promenqive X nalaze u intervalu ( m − 3σ , m + 3σ ) .▲ Napomena 2. Sre{}emo se sa situacijom da je potrebno odrediti ta~ku c tako da za zadatu verovatno}u p va`i P ( X < c ) = p , odnosno F ( c ) = p . Kako je u neprekidnom slu~aju funkcija raspodele F ( x ) strogo monotona i neprekidna, a time i obostrano jednozna~na, onda se c uvek mo`e odrediti iz tablica, samo obrnutim redom. Kako je F ( 0 ) = 0.5 , to }e za p < 0.5 biti c < 0 . Primer 7. Neka je X : N ( 0, 1) . Odrediti broj c ako je: 10 P ( X < c ) = 0.66 , 20 P ( X < c ) = 0.05 , 30 P ( X < c ) = 0.8 , 40 P ( X > c ) = 0.05 . Re{ewe. 10 P ( X < c ) = 0.66 ⇔ F ( c ) = 0.66 ⇔ 0.5 + Φ ( c ) = 0.66 ⇔ Φ ( c ) = 0.16
⇔ c ≈ 0.41 . 2 U ovom slu~aju je c < 0 . Zato imamo P ( X < c ) = 0.05 ⇔ P ( X > −c ) = 0.05 ⇔ 0.5 − Φ ( −c ) = 0.05 0
⇔ Φ ( −c ) = 0.45 ⇔
57
⇔ − c = (1.64 + 1.65 ) 2 = 1.645
⇔ c = −1.645 . Po{to u tablicama nije data ta~na vrednost onda smo za −c uzeli aritmeti~ku sredinu dveju susednih vrednosti. 30 P ( X < c ) = 0.8 ⇔ 2Φ ( c ) = 0.8 ⇔ c = 1.28 . 40 P ( X > c ) = 0.05 ⇔ 2 ( 0.5 − Φ ( c ) ) = 0.05 ⇔ Φ ( c ) = 0.475 ⇔ c = 1.96 .
3.9 ZADACI 1. Na putu kojim se kre}e automobil, nalazi se tri semafora. Verovatno}e zaustavqawa na wima su redom: 0.4, 0.6, i 0.5. Konstruisati poligon raspodele verovatno}a broja pre|enih semafora do prvog zaustavqawa. Uputstvo. Neka je broj pre|enih semafora slu~ajna promenqiva X . Tada je X ∈ {0,1, 2,3} . Npr. P ( X = 1) = (1 − 0.4 ) ⋅ 0.6 . 2. Lansirawe metereolo{ke rakete ponavqa se do prvog uspeha ili ~etvrtog poku{aja. Poku{aji su nezavisni i uspe{ni sa verovatno}om 0.7 . Prvi poku{aj ko{ta 30 hiqada dinara, a svaki slede}i po 10 hiqada. Uspeh donosi zaradu od 100 hiqada. Na}i zakon raspodele verovatno}a i matemeti~ko o~ekivawe ~iste zarade u hiqadama dinara. Uputstvo. Neka je X ∈ {70, 60, 50, 40, − 60} ~ista zarada u hiqadama dinara. Tada je, recimo, P( X = −60) = ( 0.3) . 4
3. Kolika je verovatno}a da {est od 1440 studenata ima ro|endan 30. juna? 1 ⎞ ⎛ Uputstvo. U pitawu je B ⎜1460; ⎟ raspodela. Zbog λ = np = 4 365 ⎠ ⎝ koristiti P ( 4 ) raspodelu. 4. Pribor se sastoji od 8 delova. Verovatno}a da se jedan deo pokvari je 0.3. Delovi se kvare nezavisno jedan od drugog. Na}i verovatno}u doga|aja: A - pokvarila su se ta~no dva dela, B - pokvarila su se najvi{e tri dela.
⎧⎪ax 2 , x ∈ [ 0, 2] , 5. Odredi konstantu a tako da funkcija ϕ ( x ) = ⎨ bude ⎪⎩ 0 , x ∉ [ 0, 2] , gustina raspodele neke slu~ajne promenqive X . Na}i potom funkciju raspodele za X i verovatno}u P ( 0 < X < 1) . +∞
Uputstvo. Mora biti
∫ ϕ ( x ) dx = 1 .
−∞
58
6. Funkcija raspodele slu~ajne promenqive X glasi: 0, x < 0, ⎧ ⎪ F ( x) = ⎨ x2 − ⎪⎩1 − e 3 , x ≥ 0. Na}i: a) gustinu raspodele ϕ ; b) vrednost x0 za koju je F ( x0 ) = 0.5 ; v) vrednost x za koju gustina raspodele dosti`e maksimum. Uputstvo. Za gustinu ϕ ( x ) va`i: F ′ ( x ) = ϕ ( x ) . 7. Funkcija raspodele slu~ajne promenqive X je 1 1 F ( x ) = + ⋅ arctgx, x ∈ R . 2 π Na}i: a) x1 za koje je P ( X > x1 ) = 0.25 ; b) odrediti gustinu raspodele; v) nacrtati krivu gustine i geometrijski protuma~iti dobijeni rezultat. 8. Na}i verovatno}u da su koreni jedna~ine 4 x 2 + 4 Kx + K + 2 = 0 realni brojevi, ako je K slu~ajna promenqiva sa U ( 0, 5 ) raspodelom. Uputstvo. Odrediti P ( −1 ≤ K ≤ 2 ) 9. Prodajna cena U uqa zavisi od procenta X odre|enog sastojka koji uqe sadr`i. Procenat X je slu~ajna promenqiva sa N ( 5; 12 ) raspodelom. Cena jednog litra uqa je ⎧10, 4 ≤ X < 6, ⎪ U = ⎨ 8, 3 ≤ X < 4 ∨ 6 ≤ X < 7, . ⎪ 5, X < 3 ∨ X ≥ 7 ⎩ Na}i raspodelu verovatno}a za U .
6−5⎞ ⎛ 4−5 Uputstvo. P (U = 10) = P(4 ≤ X < 6) = P ⎜ ≤ X∗ < ⎟. 1 ⎠ ⎝ 1 10. Gre{ka u merewu je slu~ajna promenqiva X : N ( 0, 0.12 ) . Na}i:
a) P ( X < 0.25 ) ; b) P ( X > 0.05 ) .
11. Visina ~oveka je slu~ajna promenqiva
X
sa
N (170, 82 )
raspodelom. Koliki je procenat qudi: a) vi{ih od 190cm ; b) ni`ih od 160cm ; v) ~ija je visina u intervalu 165 − 180 cm ; g) ispod koje visine se nalazi 7% qudi? 12. Na raspolagawu su nam dve vrste akumulatora. Vek trajawa akumulatora prve vrste je slu~ajna promenqiva X 1 : N ( 50, 102 ) , dok je vek
trajawa akumulatora druge vrste slu~ajna promenqiva X 2 : N ( 60, 52 ) . Koji akumulator izabrati ako treba da radi: a) bar 55 sati; b) bar 70 sati?
59
4 VI[EDIMENZIONALNE SLU^AJNE PROMENQIVE Vrlo ~esto smo u situaciji da sa slu~ajnim ishodom ω na{eg opita ne vezujemo samo jednu numeri~ku karakteristiku, odnosno jednu slu~ajnu promenqivu, ve} da za svaki ishod ω vezujemo dve ili vi{e numeri~kih karakteristika. U borovoj {umi nas, na primer, mo`e interesovati visina stabla V , obim osnove stabla O i starost T slu~ajno izabranog bora. Ovde skup Ω ~ine sva stabla u {umi, ω je slu~ajno izabrano stablo, V (ω ) wegova visina, O (ω ) obim, T (ω ) starost. Ure|ena trojka (V , O, T ) je primer jedne trodimenzionalne slu~ajne promenqive. U ovoj glavi }emo se zadr`ati na dvodimenzionalnim slu~ajnim promenqivim, jer je princip razmatrawa isti i za tri i vi{e dimenzija. 4. 1 DVODIMENZIONALNE SLU^AJNE PROMENQIVE DISKRETNOG TIPA Definicija 1. Ako je Ω skup sa verovatno}om P i ako su X : Ω → R , Y : Ω → R slu~ajne promenqive, tada ure|eni par ( X , Y ) nazivamo dvodimenzionalnom slu~ajnom promenqivom. ▲ ^esto se ure|eni par ( X , Y ) naziva verovatnosni vektor. Ovaj ure}eni par svakom elemantarnom doga|aju ω ∈Ω dodequje 2 elemenat iz R × R = R , tj. ( X , Y )(ω ) = ( X (ω ) , Y (ω ) ) = ( x, y ) . Kao i u jednodimenzionalnom slu~aju naj~e{}e se sre}u dva tipa dvodimenzionalnih slu~ajnih promenqivih – diskretan i neprekidan. Mi }emo se ograni~iti na dvodimenzionalne slu~ajne promenqive diskretnog tipa. Definicija 2. Dvodimenzionalna slu~ajna promenqiva ( X , Y ) je diskretog tipa ako su i X i Y diskretnog tipa. ▲ Ako su RX = { x1 , x2 ,...} i RY = { y1 , y2 ,...} redom skupovi vrednosti za X i Y , onda je RXY = {( x1 , y1 ) , ( x1 , y2 ) ,..., ( x2 , y1 ) ,...} ⊂ R 2 skup vrednosti dvodimenzione slu~ajne promenqive diskretnog tipa. Ovim vrednostima odgovaraju verovatno}e p ( xi , y j ) = P ( X = xi , Y = y j ) , i = 1, 2,..., j = 1, 2,... ,
gde smo sa ( X = xi , Y = y j ) ozna~ili skup
{ω ∈ Ω | X (ω ) = x ∧ Y (ω ) = y } = {ω ∈ Ω | X (ω ) = x } ∩ {ω ∈ Ω | Y (ω ) = y } . i
j
i
j
Skup kroz koji prolazi indeks i (i indeks j ) mo`e da bude kona~an
60
ili prebrojiv, odnosno i ∈ {1, 2,..., n} ili i ∈ {1, 2,...} .
4.2 ZAKON RASPODELE VEROVATNO]A DVODIMENZIONALNE SLU^AJNE PROMENQIVE DISKRETNOG TIPA Definicija 3. Zakon raspodele verovatno}a dvodimenzione slu~jne promenqive diskretnog tipa ~ini skup vrednosti RXY zajedno sa odgovaraju}im verovatno}ama p ( xi , y j ) . ▲
Ovaj zakon se zadaje ili analiti~ki (navo|ewem vrednosti i wihovih verovatno}a), ili u obliku tabele. Ako su RX = { x1 , x2 ,..., xn } i RY = { y1 , y2 ,..., ym } skupovi realizacija slu~ajnih promenwivih X i Y , onda skup parova odgovaraju}im
verovatno}ama
(x , y ), i
P ( X = xi , Y = y j ) = pij ,
zajedno sa
j
i ∈ {1, 2,..., n} ,
j ∈ {1, 2,..., m} , ~ini analiti~ki zadat zakon raspodele verovatno}a
slu~ajnog vektora ( X , Y ) Sada }emo navesti zakon raspodele u obliku tabele kada je RXY
kona~an skup, odnosno kada je X ∈ { x1 , x2 ,...xn } i Y ∈ { y1 , y2 ,..., ym } . X \Y
y1
y2
x1
p11
p12
… …
yj
…
ym
Raspodela komponente X
p1 j
…
p1m
P ( X = x1 ) = ∑ p1k
m
k =1
x2
p21
p22
…
…
p2 j
m
p2 m
P ( X = x2 ) = ∑ p2 k k =1
xi
pi1
pi 2
…
pij
…
m
pim
P ( X = xi ) = ∑ pik k =1
xn
pn1
pn 2
…
pnj
…
m
pnm
P ( X = xn ) = ∑ pnk k =1
Raspodela komponente Y
n
P (Y = y1 ) = ∑ pl1
…
…
…
…
l =1
n
P (Y = ym ) = ∑ plm l =1
1 = ∑∑ plk l
k
U tabeli smo koristili oznaku pij = p ( xi , y j ) = P ( X = xi , Y = y j ) .
Zakon promenqive
raspodele verovatno}a dvodimenzionalne slu~ajne ( X , Y ) se mo`e iskoristiti i za odre|ivawe zakona
raspodela samo slu~ajne promenqive X , odnosno Y . Tako iz jednakosti ( X = xi ) = ( X = xi , Y ∈ { y1 , y2 ,..., ym }) = ( X = xi , Y = y1 ) + ... + ( X = xi , Y = ym ) , odnosno (Y = y j ) = ( X ∈ { x1 , x2 ,..., xn } , Y = y j ) = ( X = x1 , Y = y j ) + ... + ( X = xn , Y = y j ) dobijamo marginalne ili ivi~ne raspodele za X i Y : m
P ( X = xi ) = pi1 + pi 2 + ... + pim = ∑ p ( xi , yk ) , i = 1, 2,..., n , k =1
61
P (Y = y j ) = p1 j + p2 j + ... + pnj = ∑ p ( xl , y j ) , j = 1, 2,..., m . n
l =1
Za zakon raspodele mora da va`i 1 = ∑ P ( X = xi ) = ∑ P (Y = y j ) = ∑∑ p ( xi , y j ) . n
m
i =1
j =1
n
m
i =1 j =1
Napomenimo da je tabli~ni zapis raspodele pogodniji za rad od analiti~kog zapisa. U slede}em primeru dajemo tabelu jedne raspodele. Primer 1. Neka je zakon raspodele dvodimenzionalne slu~ajne promenqive ( X , Y ) dat tabelom X \Y y1 0.12 x1 0.28 x2 0.20 x3 0.60 Y Iz tabele, pomo}u marginalnih X iY: x2 x3 ⎞ ⎛ x X :⎜ 1 ⎟ ⎝ 0.26 0.38 0.36 ⎠
y2 X 0.14 0.26 0.10 0.38 0.16 0.36 0.40 1.00 raspodela, odre|ujemo raspodele za
y2 ⎞ ⎛ y i Y :⎜ 1 ⎟. ⎝ 0.60 0.40 ⎠ Vidimo da je, npr. p21 = p ( x2 , y1 ) = P ( X = x2 , Y = y1 ) = 0.28 .
4.3 FUNKCIJA RASPODELE DVODIMENZIONALNE SLU^AJNE PROMENQIVE DISKRETNOG TIPA Definicija 1. Funkcija raspodele (verovatno}a) dvodimenzionalne slu~ajne promenqive ( X , Y ) odre|ena je sa FXY ( x, y ) = P ( X < x, Y < y ) ,
gde je ( X < x, Y < y ) oznaka za skup
{ω ∈ Ω | X (ω ) < x, Y (ω ) < y} = {ω ∈ Ω | X (ω ) < x} ∩ {ω ∈ Ω | Y (ω ) < y} . ▲
Funkciju FXY nazivamo zajedni~kom funkcijom raspodele dvodimenzionalne slu~ajne promenqive ( X , Y ) . Geometrijsko zna~ewe funkcije raspodele je slede}e:
FXY ( x, y ) = P ( X < x, Y < y ) je verovatno}a da
slu~ajna ta~ka
(X, Y)
bude u osen~enom delu ravni na
slici. Navodimo osobine funkcije raspodele. Teorema 1. Neka je FXY ( x, y ) = P ( X < x, Y < y ) funkcija raspodele verovatno}a slu~ajne promenqive ( X , Y ) .Tada va`i: 10 FXY ( −∞, y ) = FXY ( x, − ∞ ) = 0 , 20 FXY ( +∞, + ∞ ) = 1 ,
62
30 FXY ( x, y ) je neprekidna sleva po obe promenqive, 40 FXY ( x, y ) je neopadaju}a funkcija po obe promenqive, 50 FXY ( x, + ∞ ) = FX ( x ) , FXY ( +∞, y ) = FY ( y ) , gde su FX i FY funkcije raspodela slu~ajnih promenqivih X i Y . 60 P ( x1 ≤ X < x2 , y1 ≤ Y < y2 ) = ⎡⎣ FXY ( x2 , y2 ) − FXY ( x1 , y2 ) ⎤⎦ − ⎡⎣ FXY ( x2 , y1 ) − FXY ( x1 , y1 ) ⎤⎦ . Dokaz. Ograni~i}emo se na nekoliko dokaza a ostale prepu{tamo ~itaocu. 10 FXY ( −∞, y ) = P ( X < −∞ ∩ Y < y ) = P ( ∅ ∩ Y < y ) = P ( ∅ ) = 0 . Drugi deo se dokazuje analogno. 20 FXY ( +∞, + ∞ ) = P ( X < +∞, Y < +∞ ) = P ( Ω ∩ Ω ) = P ( Ω ) = 1 . 40 Dokaza}emo samo x1 ≤ x2 ⇒ FXY ( x1 , y ) ≤ FXY ( x2 , y ) . Drugi deo osobine se dokazuje na isti na~in. FXY ( x2 , y ) = P ( X < x2 , Y < y ) = P ( X < x1 , Y < y ) + P ( x1 ≤ X < x2 , Y < y ) ≥ P ( X < x1 , Y < y ) = FXY ( x1 , y ) .
50 FXY ( x, + ∞ ) = P ( X < x, Y < +∞ ) = P ( X < x ∩ Ω ) = P ( X < x ) = FX ( x ) . 60 Ako uzmemo u obzir geometrijsko zna~ewe funkcije raspodele slu~ajnog vektora ( X , Y ) i uo~imo da su verovatno}e P ( x1 ≤ X < x2 , Y < y ) i P ( X < x, y1 ≤ Y < y2 ) osen~eni delovi na slikama, onda osobina sledi direktno.
4.4 NEZAVISNOST SLU^AJNIH PROMENQIVIH Ve} smo definisali nezavisnost doga|aja A i B pomo}u P ( AB ) = P ( A ) P ( B ) . U ovom odeqku }emo na prirodan na~in pro{iriti pojam nezavisnosti na dvodimenzionalne slu~ajne promenqive. Definicija 1. Neka je ( X , Y ) dvodimenzionalna slu~ajna promenqiva i neka su FXY , FX , FY redom zajedni~ka i marginalne funkcije raspodele. Ka`emo da su X i Y nezavisne slu~ajne promenqive ako za svako x, y ∈ R va`i FXY ( x, y ) = FX ( x ) FY ( y ) . ▲ Teorema 1. Neka su X i Y slu~ajne promenqive diskretnog tipa. One su nezavisne ako i samo ako je
63
p ( xi , y j ) = p ( xi ) p ( y j ) za sve i, j = 1, 2,... . Dokaz. Ako su X i Y nezavisne, onda je FXY ( x, y ) = FX ( x ) FY ( y ) odakle dobijamo p ( xi , y j ) = P ( X = xi , Y = y j ) = P ( xi ≤ X < xi +1 , y j ≤ Y < y j +1 ) =
= ⎡⎣ FXY ( xi +1 , y j +1 ) − FXY ( xi , y j +1 ) ⎤⎦ − ⎡⎣ FXY ( xi +1 , y j ) − FXY ( xi , y j ) ⎤⎦ = FX ( xi +1 ) FY ( y j +1 ) − FX ( xi ) FY ( y j +1 ) − FX ( xi +1 ) FY ( y j ) + FX ( xi ) FY ( y j ) = ⎡⎣ FX ( xi +1 ) − FX ( xi ) ⎤⎦ ⎡⎣ FY ( y j +1 ) − FY ( y j ) ⎤⎦ = P ( xi ≤ X < xi +1 ) P ( y j ≤ Y < y j +1 ) = P ( X = xi ) P (Y = y j ) = p ( xi ) p ( y j ) .
Obrnuto, ako pretpostavimo da je p ( xi , y j ) = p ( xi ) p ( y j ) , dobijamo
FXY ( x, y ) =
∑ ∑ p ( x , y ) = ∑ p ( x ) ∑ p ( y ) = F ( x) F ( y) ,
i : xi < x j : y j < y
i
j
i
i : xi < x
j
j: y j < y
X
Y
{to je i trebalo dokazati. ▲ Do pojma nezavisnosti slu~ajnih promenqivih mo`emo do}i i na slede}i na~in. Mo`emo se interesovati za raspodelu jedne slu~ane promenqive, recimo X , pod pretpostavkom da je druga slu~ajna promenqiva ,,uzela” neku vrednost Y = y . Ako iskoristimo uslovne verovatno}e, onda kod diskretne slu~ajne promenqive ( X , Y ) imamo
P
({ X = xi } | {Y = y j }) = p ( xi | y j ) =
P
({ X = x } ∩ {Y = y }) = p ( x , y ) . p( y ) P ({Y = y } ) i
j
j
i
j
j
Verovatno}e p ( xi | y j ) , i = 1, 2,... ~ine uslovnu raspodelu za X pri uslovu da je Y = y j . Ova raspodela zavisi od y j , j = 1, 2,... kao parametra. Sli~no je
p ( y j | xi ) =
p ( xi , y j ) p ( xi )
, j = 1, 2,...
uslovna raspodela za Y pri uslovu X = xi , i = 1, 2,... . Sada nezavisnost slu~ajnih promenqivih X i Y mo`emo uvesti pomo}u p ( xi , y j ) p ( xi | y j ) = = p ( xi ) , odnosno, p ( xi , y j ) = p ( xi ) p ( y j ) za svako i i j , p( yj ) {to je tvr|ewe prethodne teoreme. Nezavisnost se obi~no ne proverava prethodnom jednako{}u, ve} sledi iz fizi~kih uslova opita. U primeru 1. iz 4.3 promenqive X i Y nisu nezavisne, jer je, recimo, p ( x1 , y2 ) = 0.14 ≠ p ( x1 ) p ( y2 ) = 0.26 ⋅ 0.40 = 0.0104 .
64
Pojam zavisnosti u verovatno}i se shvata op{tije nego u matemati~koj analizi. Naime, zavisnost dve veli~ine u analizi zna~i da se iz poznavawa jedne veli~ine druga mo`e izra~unati, npr. y = 3x + 1 . Pojam zavisnosti se u teoriji verovatno}e shvata op{tije. Ako je veli~ina Y u zavisnosti od veli~ine X , tada znaju}i jednu vrednost veli~ine X , ne mo`emo da na|emo ta~nu vrednost veli~ine Y , ve} mo`emo da na|emo wen zakon raspodele koji zavisi od toga koju je vrednost uzela veli~ina X . To je verovatnosna ili stohasti~ka zavisnost koja mo`e biti razli~ite ,,ja~ine”. O toj meri zavisnosti }e biti re~i kasnije.
4.5 TRANSFORMACIJA DVODIMENZIONALNE SLU^AJNE PROMENQIVE DISKRETNOG TIPA Kao i u jednodimenzionalnom slu~aju i sada mo`emo posmatrati funkcije slu~ajnih promenqivih. Uzmimo najjednostavniji slu~aj kada ure|eni par ( X , Y ) transformi{emo funkcijom g u jednu promenqivu. Tada funkcija g preslikava R 2 u R , tj. g ( X , Y ) = Z . Na primer,
Z = X + Y , Z = max ( X , Y ) , Z = X 2 + Y 2 . Slu~ajnu promenqivu Z treba ovako shvatiti : svakom ω ∈ Ω odgovaraju dva broja X (ω ) i Y (ω ) koji uvr{teni kao argumenti u funkciju
g ( ⋅ , ⋅)
Z (ω ) = g ( X (ω ) , Y (ω ) ) . Kako odre|ujemo
daju broj
vetovatno}e p ( zi ) pomo}u p ( xk , ym ) pokaza}emo na slede}em primeru. Primer 1. Neka su X i Y nezavisne slu~ajne promenqive obe sa Poasonovom raspodelom P ( λ ) . Na}i raspodelu slu~ajne promenqive
Z = X +Y . Re{ewe.
Kako
RZ = {0,1, 2,...} . Daqe je
je
RXY = {( n, k ) | n, k ∈ N ∪ {0}} ,
p ( xi , y j ) = p ( xi ) p ( y j ) =
λi i!
e− λ
λj j!
e− λ =
k
λ i+ j i! j!
to
i =0
k
i =0
i =0
= ∑ p ( xi , yk −i ) = ∑ =
λ
i + k −i
i !( k − i ) !
e−2 λ
e−2 λ k k ⎛ k ⎞ e−2 λ k k λ ∑⎜ ⎟ = λ (1 + 1) = k! k! i =0 ⎝ i ⎠
( 2λ ) =
k
e −2 λ . k! Zna~i da Z ima P ( 2λ ) raspodelu.
65
k! = k!
o~igledno
e−2 λ , i, j = 0,1, 2,... ,
p ( zk ) = P ( Z = k ) = P ( X + Y = k ) = ∑ P ( X = i, Y = k − i ) = k
je
4.6 BROJNE KARAKTERISTIKE DVODIMENZIONALNE DISKRETNE SLU^AJNE PROMENQIVE Analogno kao u jednodimenzionom slu~aju i u dvodimenzionom slu~aju se uvodi centar slu~ajne promenqive ( X , Y ) kao ta~ka oko koje se grupi{u vrednosti te promenqive. Ta ta~ka se zove matemati~ko o~ekivawe i ima kordinate ( E ( X ) , E (Y ) ) , gde su E ( X ) i E (Y ) redom o~ekivawa za X i Y . Disperzija za
(X, Y)
je ure|en par ( D ( X ) , D (Y ) ) ,
gde su D ( X ) i D (Y ) redom disperzije za X i Y .
,,Mere” zavisnosti slu~ajnih promenqivih X i Y koje nisu postojale u jednodimenzionom slu~aju su kovarijansa i koeficijent korelacije. Definicija 1. Kovarijansa slu~ajne promenqive ( X , Y ) je broj
cov ( X , Y ) = E ⎡⎣( X − E ( X ) ) (Y − E (Y ) ) ⎤⎦ = E ( XY ) − E ( X ) E (Y ) . ▲
Definicija 2. Koeficijent korelacije ρ XY slu~ajne promenqive
(X, Y)
je jednak kovarijansi standardizovanih slu~ajnih promenqivih X ∗
i Y∗
ρ XY = cov ( X ∗ , Y ∗ ) . ▲ Teorema 1.
ρ XY =
E ( XY ) − E ( X ) E (Y ) D ( X ) D (Y )
.
Dokaz. Ako iskoristimo da je E ( X ∗ ) = E (Y ∗ ) = 0 , imamo redom
ρ XY = cov ( X ∗ , Y ∗ ) = E ( X ∗Y ∗ )
⎡ X − E ( X ) Y − E (Y ) ⎤ ⎥ =E⎢ ⋅ ⎢⎣ D ( X ) D (Y ) ⎥⎦ ⎡ XY − XE (Y ) − YE ( X ) + E ( X ) E (Y ) ⎤ ⎥ =E⎢ ⎢⎣ ⎥⎦ D ( X ) D (Y ) E ( XY ) − E ( X ) E (Y ) − E (Y ) E ( X ) + E ( X ) E (Y ) = D ( X ) D (Y )
=
E ( XY ) − E ( X ) E (Y ) D ( X ) D (Y )
.▲
Iz prve definicije se vidi da kovarijansa ima dimenziju jednaku proizvodu dimenzija slu~ajnih promenqivih X i Y , te stoga nije pogodna za upore|ivawe dve dvodimenzionalne slu~ajne promenqive date u razli~itim jedinicama mere. Ta te{ko}a je prevazi|ena uvo|ewem koeficijenta korelacije kao neimenovanog broja. Navodimo i dokazujemo
66
osobine koeficijenta korelacije, a posle dajemo wegovo geometrijsko zna~ewe. Teorema 2. Osobine koeficijenta korelacije su: 10 Ako su X i Y nezavisne, onda je ρ XY = 0 . 20 ρ XY ≤ 1 . 30 ρ XY = 1 ako i samo ako Y = aX + b, a, b ∈ R, a ≠ 0 . Dokaz. 10 Ako su X i Y nezavisne, tada je E ( XY ) = E ( X ) E (Y ) , te je ρ XY = 0 . 20 Iz dokaza osobine 50 disperzije (odeqak3.6) vidimo da je D ( X ± Y ) = D ( X ) + D (Y ) ± 2 cov ( X , Y ) . Daqe je
D ( X ∗ ± Y ∗ ) = 1 + 1 ± 2 ρ XY = 2 (1 ± ρ XY ) ≥ 0 ,
{to zna~i da je −1 ≤ ρ XY ≤ 1 ⇔ ρ XY ≤ 1 . 0
3 Deo: Y = aX + b ⇒ ρ XY = 1 .
Ako je Y = aX + b , imamo Y − E (Y ) aX + b − aE ( X ) − b a ∗ = = X = ( Sgna ) X ∗ . Y∗ = 2 a D (Y ) a D( X ) U slu~aju a > 0 , koriste}i 20, dobijamo D ( X ∗ − Y ∗ ) = D ( X ∗ − X ∗ ) = 0 = 2 (1 − ρ XY ) , odakle je ρ XY = 1 . Ako je, pak, a < 0 onda iz
D ( X ∗ + Y ∗ ) = D ( X ∗ − X ∗ ) = 0 = 2 (1 + ρ XY )
sledi ρ XY = −1 , ~ime je prvi deo dokaza zavr{en. Deo: ρ XY = 1⇒ Y = aX + b . Neka je ρ XY = 1 . Iz
D ( X ∗ − Y ∗ ) = D ( X ∗ − X ∗ ) = 0 = 2 (1 − ρ XY )
zakqu~ujemo, koriste}i osobinu disperzije D ( c ) = 0, c je konstanta, da va`i
X ∗ − Y ∗ = c, c = konst . Posledwu jednakost mo`emo zapisati u obliku X − E ( X ) Y − E (Y ) − = c, D( X ) D (Y ) odakle, posle sre|ivawa, dobijamo Y=
D (Y ) D( X )
X + E (Y ) −
E(X ) D ( X ) D (Y )
− cD (Y ) ,
{to je oblik Y = aX + b . U slu~aju ρ XY = −1 analognim postupkom dobijamo isti rezultat. ▲
67
Dajemo u najkra}im crtama geometrijko tuma~ewe koeficijenta korelacije kao broja kojim se na neki na~in meri stepen zavisnosti slu~ajnih promenqivih X i Y . Neka mnogo puta ponavqamo ogled i u svakom ponavqawu registrujemo brojne vrednosti ( x, y ) koje dobija slu~ajna promenqiva ( X , Y ) . Te ta~ke u kordinatnom sistemu ~ine jedan ,,roj” koji mo`e da ima razli~it izgled. Dajemo na slikama nekoliko mogu}ih situacija.
Zavisnost izme|u X i Y je na slici v) najmawa. Na slici b) je zavisnost mawa nego na slici a). U slu~aju g) je zavisnost linearna, odnosno ima oblik Y = α X + β ( α i β su brojevi koje }emo nau~iti da odre|ujemo) uz neka veoma mala odtupawa. Sa slike d) se vidi da je , sa minimalnim ostupawem, zavisnost izme|u slu~ajnih promenqivih X i Y oblika Y = aX 2 + bX + c , gde su a , b i c realne konstante koje se odre|uju na osnovu konkretnih vrednosti ure|enih parova ( x, y ) . Podvucimo na kraju ovog odeqka da koeficijent korelacije meri samo linearnu zavisnost. To zna~i da je, pod odre|enim uslovima, pona{awe slu~ajnih promenqivih X i Y podre|eno pribli`nom linearnom zakonu Y ≈αX + β . Stepen ove pribli`nosti se meri veli~inom ρ XY . Naime, {to je ρ XY bli`e broju jedan, to je linearna veza izra`enija. Primer 1. Dve trake u fabrici proizvode istu vrstu proizvoda. Neka je X broj proizvoda na prvoj i Y broj proizvoda na drugoj traci u toku utvr|enog vremenskog perioda. Tada je zajedni~ka (ne i ukupna) proizvodwa data dvodimenzionalnom slu~ajnom promenqivom ( X , Y ) sa, na primer, zakonom raspodele verovatno}a X \Y 0 1 2 ∑ 0 1 2 3
∑
0.05 0 0.1 0.1 0.25
0.05 0.1 0.1 0.1 0.35
0.05 0.05 0.1 0.2 0.4
0.15 0.15 0.3 0.4 1
Odrediti: 10 O~ekivawe ukupne proizvodwe Z = X + Y ; 20 koeficijent korelacije ρ XY . Re{ewe. 10 Kako mo`e biti Z ∈ {0,1, 2,3, 4,5} to je redom P ( Z = 0 ) = p ( 0, 0 ) = 0.05 ,
68
P ( Z = 1) = p (1, 0 ) + p ( 0, 1) = 0.05 , P ( Z = 2 ) = p ( 2, 0 ) + p (1, 1) + p ( 0, 2 ) = 0.25 , P ( Z = 3) = p ( 3, 0 ) + p ( 2, 1) + p (1, 2 ) = 0.25 , P ( Z = 4 ) = p ( 3, 1) + p ( 2, 2 ) = 0.2 , P ( Z = 5 ) = p ( 3, 2 ) = 0.2 .
Raspodela za Z je 1 2 3 4 5 ⎞ ⎛ 0 Z :⎜ ⎟. ⎝ 0.05 0.05 0.25 0.25 0.2 0.2 ⎠ Iz raspodele odre|ujemo o~ekivawe za Z : 5
E ( Z ) = ∑ iP ( Z = i ) = 3.1 . i =0
2 Za odre|ivawe koeficijenta korelacije moramo odrediti E ( X ) , 0
D( X ) i
E (Y ) , E ( XY ) ,
D (Y ) . Ra~unamo redom.
3
E ( X ) = ∑ iP ( X = i ) = 0 ⋅ 0.15 + 1⋅ 0.15 + 2 ⋅ 0.3 + 3 ⋅ 0.4 = 1.95 , i =0 2
E (Y ) = ∑ iP (Y = i ) = 1.15 , i =0
3
2
E ( XY ) = ∑∑ ijP ( X = i, Y = j ) = 0 ⋅ 0 ⋅ 0.05 + 0 ⋅1⋅ 0.05 + ... + 3 ⋅ 2 ⋅ 0.2 = 2.3 , i =0 j =0
D ( X ) = E ( X 2 ) − ⎡⎣ E ( X ) ⎤⎦
2
= 02 ⋅ 0.15 + 12 ⋅ 0.15 + 22 ⋅ 0.3 + 32 ⋅ 0.4 − 1.952 = 1.1475, D ( X ) = 1.07 , D (Y ) = 0.6275 , D (Y ) = 0.79 .
Sada je
ρ XY =
2.3 − 1.95 ⋅1.15 ≈ 0.04 . 1.07 ⋅ 0.79
4.7 POJAM LINEARNE REGRESIJE Neka imamo dvodimenzionalnu slu~ajnu veli~inu ( X , Y ) kod koje su slu~ajne promenqive X i Y zavisne. Problem se sastoji u slede}em: u opitu je registrovano da je X = x ; kako na}i dobru aproksimaciju vrednosti koju je tada uzela slu~ajna promenqiva Y , jer nam registrovawe te vrednosti nije dostupno. Ovaj problem je kompletno re{en zakonom raspodele dvodimenzionalne slu~ajne promenqive ( X , Y ) , jer tada znamo uslovnu raspodelu za Y pri datom X . U diskretnom slu~aju smo videli da je
69
p ( y j | xi ) =
p ( xi , y j )
, j = 1, 2,... kada je X = xi . p ( xi ) Mo`emo se, umesto za celu uslovnu raspodelu za Y , interesovati samo za matemati~ko o~ekivawe Y pri datom X ili, kako se ka`e, za uslovno matemati~ko o~ekivawe. Ono je E (Y | xi ) = ∑ y j p ( y j | xi ) . j
Na taj na~in uslovno matemati~ko o~ekivawe je jedna funkcija, ozna~imo je sa R ( xi ) = E (Y | xi ) , od vrednosti koju mo`e da uzme slu~ajna promenqiva
X . Dakle, R ( ⋅) je definisana na skupu RX . Jo{ preciznije, R ( ⋅) je definisana za one vrednosti X = xi za koje je p ( xi ) > 0 . Funkcija R ( ⋅) zove se regresija (ili regresiona kriva) Y na X . Da bi se na{la regresija R ( ⋅) treba znati raspodelu slu~ajne promenqive ( X , Y ) , a poznavawe te raspodele nam daje kompletnu informaciju o slu~ajnim promenqivim X i Y i wihovoj vezi. Od interesa je, dakle, tra`iti druge aproksimacije slu~ajne promenqive Y pomo}u slu~ajne promenqive X koje ne zahtevaju poznavawe kompletne raspodele za ( X , Y ) . Najjednostavniji je slu~aj linearne aproksimacije: Y aproksimiramo linearnom funkcijom f ( X ) = α X + β , pri ~emu koeficijente α i β odre|ujemo tako da gre{ka aproksimacije, koju defini{emo kao
E ⎡⎣Y − f ( X ) ⎤⎦ , 2
bude najmawa. Definicija 1. Ka`emo da funkcija f (X ) =αX + β ,,najboqe” aproksimira Y matemati~ko o~ekivawe
u smislu metode najmawih kvadrata ako
E ⎡⎣Y − f ( X ) ⎤⎦ ima najmawu vrednost. U tom slu~aju se funkcija f ( X ) = α X + β naziva 2
linearna sredwe kvadratna regresija Y po X . ▲ Koeficijenti α i β se odre|uju iz zahteva da
F (α , β ) = E ⎡⎣Y − (α X + β ) ⎤⎦ ima minimum. Iz sistema jedna~ina
2
∂F ∂F = 0, = 0 dobijaju se ∂α ∂β
⎧ D (Y ) ⎪α = ρ XY ⎪⎪ D( X ) ⎨ D (Y ) ⎪ E(X ) . ⎪ β = E (Y ) − ρ XY D( X ) ⎪⎩ Na osnovu prethodnog linearna sredwe kvadratna regresija Y po X ima oblik
70
f ( X ) = α X + β = ρ XY
D (Y )
X + E (Y ) − ρ XY
D( X )
D (Y ) D( X )
E(X ) ,
ili f ( X ) = ρ XY
Broj α = ρ XY
D (Y ) D( X )
D (Y ) D( X )
( X − E ( X ) ) + E (Y ) .
zove se koeficijent linearne regresije Y po X ,
a prava Y − E (Y ) = ρ XY
D (Y ) D( X )
( X − E ( X ))
pravom sredwe kvadratne linearne regresije Y po X . Zamenom dobijenih vrednosti za α i β u F (α , β ) dobijamo minimalnu vrednost
2 Fmin (α , β ) = D (Y ) (1 − ρ XY )
koja se zove rezidualna disperzija slu~ajne veli~ine Y u odnosu na slu~ajnu veli~inu X . Ona karakteri{e veli~inu gre{ke kada se Y zameni funkcijom f ( X ) = α X + β . Napomenimo da za odre|ivawe keficijenata α i β
linearne regresije nije potrebno poznavawe
raspodele za ( X , Y ) , ve} samo E ( X ) , E (Y ) , E ( X 2 ) , E (Y 2 ) I E ( XY ) . Jo{ je va`no znati da se prethodna linearna aproksimacija mo`e vr{iti ako je koeficijent korelacije visok, recimo ρ XY ≥ 0.8 , {to je va`no u primenama. Ovim primenama matemati~koj statistici.
}emo
posvetiti
vi{e
prostora
u
4.8 POJAM n-DIMENZIONALNE SLU^AJNE PROMENQIVE Neka su X 1 , X 2 ,…, X n slu~ajne promenqive definisane na istom
skupu Ω sa verovatno}om P . Tada ure|enu n -torku X = ( X 1 , X 2 ,..., X n )
nazivamo n -dimenzionalna slu~ajna promenqiva ili n -dimenzionalni slu~ajni vektor. Dakle, X : Ω → R n . Slu~ajnom vektoru X odgovara funkcija raspodele verovatno}a F : R n → [ 0, 1] data sa
⎛ n ⎞ FX1 , X 2 ,..., X n ( x1 , x2 ,..., xn ) = P ⎜ ∩ { X k < xk } ⎟ = ⎝ k =1 ⎠ = P {ω ∈ Ω | X 1 (ω ) < x1 ∧ X 2 (ω ) < x2 ∧ ... ∧ X n (ω ) < xn } ,
( x1 , x2 ,..., xn ) ∈ R n . Re}i }emo da su slu~ajne promenqive X 1 , X 2 ,…, X n nezavisne ako i samo ako je
71
FX1 , X 2 ,..., X n ( x1 , x2 ,..., xn ) = FX1 ( x1 ) FX 2 ( x2 ) ...FX n ( n ) .
Primer 1. Neka su X 1 , X 2 ,…, X n nezavisne slu~ajne promenqive sa ,,0-1” raspodelom i parametrom p , 0 < p < 1 . Odrediti zakon raspodele verovatno}a slu~ajne promenqive S n = X 1 + X 2 + ... + X n .
⎛0 1 ⎞ Re{ewe. Iz uslova zadatka je X i : ⎜ ⎟ , q = 1 − p i S n ∈ {0,1, 2,..., n} . ⎝q p⎠ Kako u n -to ~lanom nizu od k jedinica i n − k nula tih k jedinica mo`e ⎛n⎞ biti raspore|eno na ⎜ ⎟ na~ina, to je sa ⎝k ⎠ ⎛n⎞ pk = P ( S n = k ) = ⎜ ⎟ p k q n − k ⎝k ⎠ data raspodela za Sn . Napomenimo da je S n : B ( n, p ) . 4.9 ZADACI 1. Neka
slu~ajna
promenqiva
verovatno}a dat tablicom Y\X 0 1 0 0 0.01 1 0.01 0.02 2 0.01 0.03 3 0.01 0.02 Odrediti: 10 marginalne raspodele za X 20 na}i P ( A ) , ako je A: X > Y ,
2 0.03 0.04 0.05 0.04
(X, Y) 3 0.05 0.05 0.05 0.06
ima
4 0.07 0.06 0.05 0.06
zakon
raspodele
5 0.09 0.08 0.06 0.05
iY,
30 na}i raspodelu za X ako je Y = 2 , 40 na}i raspodelu slu~ajne promenqive Z = X + Y , 50 na}i ρ XY . 2. Raspodela dvodimenzionalne slu~ajne promenqive ( X , Y ) je
10 20
Y\X -1 0 1 2 1 0.21 0.28 0.14 0.07 2 0.06 0.08 0.04 0.02 3 0.03 0.04 0.02 0.01 Ispitati da li su X i Y nezavisne slu~ajne promenqive? Na}i ρWZ , gde je W = 3 X + 1 i Z = −2Y .
72
5 GRANI^NE TEOREME Grani~ne teoreme su nezamenqiv instrument za prakti~ne primene teorije verovatno}e. Kao {to smo ve} rekli, ne mo`e se sa sigurno{}u predvideti koju }e od mogu}ih vrednosti uzeti slu~ajna veli~ina u konkretnom eksperimentu; to zavisi od raznih slu~ajnih okolnosti. Ali ako eksperiment ponavqamo dovoqan broj puta onda se dejstvo slu~ajnih okolnosti gubi i dobijaju se rezultati koji skoro da ne zavise od slu~aja. Grani~ne teoreme, prema re~ima B. V. Gnedenka (1912- , ruski matemati~ar) i A. N. Kolmogorova (1903-1987, ruski matemati~ar), otkrivaju pravu saznajnu vrednost teorije verovatno}e. U ovom poglavqu }emo se baviti dvema osnovnim grupama grani~nih teorema: zakonima velikih brojeva i centralnim grani~nim teoremama. Zakoni velikih brojeva se bave raznim formama konvergencije niza slu~ajnih promenqivih ka nekoj konstanti i u wima su dati uslovi pod kojima se u velikim serijama ponavqawa opita slu~ajnost povinuje zakonitosti koja da skoro nije slu~ajna. Centralne grani~ne teoreme se bave problemima konvergencije niza funkcija raspodele slu~ajnih promenqivih ka normalnoj raspodeli, odnosno odgovara na pitawe pod kojim uslovima raspodela standardizovane sume dovoqno velikog broja slu~ajnih promenqivih te`i N ( 0, 1) raspodeli. Slede}a, ^ebi{evqeva (1821-1894, ruski matemati~ar), nejednakost ima va`nu ulogu u dokazivawu grani~nih teorema. Teorema 1. (^ebi{evqeva nejednakost) Za svako a > 0 je E(X2) . P ( X ≥ a) ≤ a2 Dokaz. Neka je ⎧⎪0, X < a, Y =⎨ ⎪⎩a, X ≥ a . Tada je X 2 ≥ Y 2 i otuda E ( X 2 ) ≥ E (Y 2 ) = 02 ⋅ P ( X < a ) + a 2 P ( X ≥ a ) , odakle sledi ta~nost nejednakosti. ▲ Posledica 1. Ako u ^ebi{evqevoj nejednakosti stavimo X − E ( X ) umesto X , dobijamo da je
D( X ) . a2 Posledwa nejednakost je, zapravo, opravdawe za uvo|ewe disperzije. Naime, verovatno}a odstupawa slu~ajne promenqive od o~ekivawa mo`e se meriti disperzijom. Prakti~ni zna~aj ^ebi{evqeve nejednakosti je veoma mali, jer ona daje dosta grubu ocenu verovatno}e.
(
)
P X − E(X ) ≥ a ≤
73
5.1 ZAKONI VELIKIH BROJEVA Formuli{imo dve vrste problema kojima se bave zakoni velikih brojeva. Neka niz slu~ajnih promenqivih X 1 , X 2 ,…, X n predstavqa n merewa koja su nezavisna i sa istom raspodelom. Neka postoji E ( X 1 ) = E ( X 2 ) = ... = E ( X n ) = m . Ozna~imo sa X n sredwu vrednost tih merewa ( n > 1) , odnosno
1 ( X 1 + X 2 + ... + X n ) . n Mo`emo li uzeti da je X n ≈ m ? Kako ne mo`emo pretpostaviti da je X n ta~na vrednost za m , postavimo jednu dozvoqenu granicu ta~nosti ε > 0 , koju zadajemo u zavisnosti od potrebe. Smatramo da je X n zadovoqavaju}a vrednost (ili procena za m ) ako Δ n = X n − m < ε , a da ne zadovoqava ako je Xn =
Δ n ≥ ε . Jedan od zakona velikih brojeva tvrdi: ako je broj merewa n dovoqno veliki mala je verovatno}a da X n nije zadovoqavaju}a vrednost za m = E ( X ) . Druga vrsta problema je slede}a. Neka je X 1 , X 2 ,…, X n ,… niz slu~ajnih promenqivih. Formirajmo nov niz slu~ajnih promenqivih Y1 , Y2 ,…, Yn ,… pomo}u Y1 = X 1 − E ( X 1 )
Y2 =
1 1 ( X 1 + X 2 ) − E ⎛⎜ ( X 1 + X 2 ) ⎞⎟ 2 ⎝2 ⎠
Yn =
1 n ⎛1 n ⎞ X E Xk ⎟ − ∑ ∑ k ⎜ n k =1 ⎝ n k =1 ⎠
Dakle,
1 n 1 n Xk − ∑ E ( Xk ) , n∈ N . ∑ n k =1 n k =1 Zakoni velikih brojeva se u ovom slu~aju bave pitawem konvergencije niza Yn ka 0 . U ovom odeqku se bavimo najjednostavnijim aspektom ovog problemaslabim zakonima velikih brojeva. Bernulijev zakon velikih brojeva. Ako su slu~ajne promenqive X k , k = 1, 2,... , nezavisne i sve imaju Bernulijevu raspodelu ⎛0 1 ⎞ X k :⎜ ⎟ , 0 < p < 1, q = 1 − p , ⎝q p⎠ tada za ovaj niz va`i slabi zakon velikih brojeva, tj za svako ε > 0 Yn =
74
⎛1 n ⎞ lim P ⎜ ∑ X k − p ≥ ε ⎟ → 0 . n →∞ ⎝ n k =1 ⎠
Dokaz. Imamo da je 1 ⎛1 n ⎞ 1 n E ⎜ ∑ X k ⎟ = ∑ E ( X k ) = np = p . n ⎝ n k =1 ⎠ n k =1 Mo`emo, dakle, primeniti nejednakost ^ebi{eva, pa je n ⎛1 n ⎞ D X ⎜ n ∑ k ⎟ ∑ D ( X k ) npq ⎛1 n ⎞ pq ⎠ = k =1 = 2 2 = 2 → 0. ▲ P ⎜ ∑ X k − p ≥ ε ⎟ ≤ ⎝ k 2=1 2 2 ε nε nε nε n →∞ ⎝ n k =1 ⎠
1 (dokazati !), imamo 4 ⎛1 n ⎞ pq ⎛1 n a 1 a ⎞ 1 . Za ε = je P⎜ ∑ Xk − p ≥ ε ⎟ ≤ 2 ≤ P ⎜ ∑ Xk − p ≥ ⎟≤ 2 . 2 4nε n ⎠ 4a n ⎝ n k =1 ⎠ nε ⎝ n k =1 ⎛1 n 2 ⎞ Ako uzmemo da je a = 2 dobijamo P ⎜ ∑ X k − p ≥ ⎟ ≤ 0.0625 , {to n⎠ ⎝ n k =1 1 n 2 prakti~no zna~i da odtupawe ∑ X k od p nije ve}e od u najmawe n k =1 n 94% serija od n ponovqenih ogleda. ^ebi{evqev zakon velikih brojeva. Ako su X 1 , X 2 ,…, X n ,… nezavisne slu~ajne promenqive sa uniformno ograni~enom disperzijom ( tj. postoji konstanta C > 0 takva da je D ( X i ) < C , i = 1, 2,..., n,... ) tada va`i Napomena 1.Ako primetimo da je pq = p (1 − p ) ≤
slabi zakon velikih brojeva, odnosno ⎛1 n ⎞ 1 n lim P ⎜ ∑ X k − ∑ E ( X k ) ≥ ε ⎟ = 0 . n →∞ n k =1 ⎝ n k =1 ⎠ Dokaz. Ako iskoristimo nejednakost ^ebi{eva dobijamo ⎛1 n ⎞ D X k ⎟ 1 nC ∑ ⎜ n n 2 ⎛1 ⎞ n 1 C P ⎜ ∑ X k − ∑ E ( X k ) ≥ ε ⎟ ≤ ⎝ k 2=1 ⎠ ≤ n 2 = 2 → 0 . ▲ ε ε n k =1 nε n →∞ ⎝ n k =1 ⎠ Napomena 2. U prethodnom zakonu nije tra`eno da slu~ajne promenqive X 1 , X 2 ,…, X n ,… imaju istu raspodelu. To zna~i da nam mo`e poslu`iti i niz razli~itih merewa (koja se ne vr{e pod istim uslovima) samo da su im disperzije ograni~ene, {to je u praksi redovan slu~aj. X + X 2 + ... + X n Napomena 3. Ako je X n = 1 i svaka od slu~ajnih n promenqivih ima isto o~ekivawe m i ograni~enu disperziju onda ^ebi{evqev zakon velikih brojeva glasi
(
)
lim P X n − m ≥ ε = 0 . n →∞
U su{tini zakoni velikih brojeva ka`u da se raspodela za X n koncentri{e oko E ( X ) . Kao potvrdu navodimo jedan primer.
75
10 ⎞ ⎛ −10 Primer 1. Neka je X i : ⎜ ⎟ . Odrediti raspodele za X 2 , X 3 , ⎝ 0.5 0.5 ⎠ X4 i X5. Re{ewe. Ovde je E ( X i ) = 0 . Imamo daqe (za{to?) 10 ⎞ ⎛ −10 0 1 ( X 1 + X 2 ) :⎜ ⎟. 2 ⎝ 0.25 0.5 0.25 ⎠ Odre|ivawe ostalih raspodela ostavqamo ~itaocu. X2 =
5.2 CENTRALNA GRANI^NA TEOREMA Posmatrajmo jedno merewe kao slu~ajnu promenqivu X sa o~ekivawem E ( X ) = m i disperzijom D ( X ) = σ 2 . Standardna devijacija
σ = D ( X ) daje preciznost merewa. [to je σ mawe, to je merewe preciznije. Kao ,,standardnu” gre{ku merewa mo`emo uzeti veli~inu X − E(X ) X −m ρ = X∗ = = . σ D( X ) Ova veli~ina je pogodna za upore|ivawe dva razli~ita merewa. Primer 1. Za jedno merewe je m1 = 5, σ 12 = 4 , a za drugo merewe je
m2 = 100, σ 22 = 16 . U prvom merewu je dobijeno X 1 = 7 , a u drugom merewu X 2 = 96 . Koje je merewe ,,ta~nije”? Re{ewe. Imamo redom X −m 7−5 X − m2 96 − 100 ρ′ = 1 1 = = 1 , ρ ′′ = 2 = = −1 . 2 4 σ1 σ2 Oba merewa su pribli`no iste ,,ta~nosti”, jer je ρ ′ = ρ ′′ = 1 . ▲ Posmatrajmo niz merewa kao niz slu~ajnih promenqivih X 1 , X 2 ,…
koje su nezavisne i sa istom raspodelom. Neka je E ( X i ) = m i D ( X i ) = σ 2 ,
i = 1, 2,... Za rezultat prvih n merewa uzimamo sredwu vrednost X n . Imamo
( )
( )
da je E X n = m i D X n = ∗
promenqiva za X n : X n =
σ2 n
(za{to?). Stoga je standardizovana slu~ajna
Xn −m
σ
n.
Centralna grani~na teorema (CGT) se bavi raspodelom verovatno}a slu~ajne promenqive X n kada je n veliki broj. CGT navodimo bez dokaza. Teorema 1. (CGT) Neka su slu~ajne promenqive X 1 , X 2 ,… nezavisne i sa istom raspodelom, sve sa istim o~ekivawem m i sa istom disperzijom σ 2 . Neka je jo{ F ( x ) funkcija raspodele verovatno}a slu~ajne promenqive sa N ( 0, 1) raspodelom. Tada za svaki par brojeva a < b va`i
(
)
⎛ ⎞ Xn −m 1 lim P a < X < b = lim P ⎜ a < n < b ⎟ = F (b) − F ( a ) = n →∞ n →∞ σ 2π ⎝ ⎠ ∗ n
76
b
∫e a
−
x2 2
dx . ▲
Zna~aj CGT veoma je veliki za primene, jer je raspodela gre{ke ∗
ρ n = X n : N ( 0, 1) , bez obzira na to kakva je stvarna raspodela za X 1 , X 2 ,…, samo ako je n dovoqno veliko. Za prakti~nu upotrebu se sa n ≥ 50 mo`e koristiti CGT. Podsetimo se (3.8 posle napomene 1.) da je a
2
x − 1 2 P ( X < a ) = P ( −a < X < a ) = 2 F ( a ) − 1 = 2Φ ( a ) , Φ ( a ) = e dx . ∫ 2π 0 Otuda imamo ⎛ Xn −m ⎞ P⎜ n < x ⎟ = 2 F ( x ) − 1 = 2Φ ( x ) , x ≥ 0 . ⎜ σ ⎟ ⎝ ⎠ Primer 2. Neka je izvr{eno n = 225 nezavisnih merewa, kod kojih je σ = 5 jedinica. Kolika je verovatno}a da gre{ka pri aproksimaciji merene veli~ine sa X n nije ve}a od 0.6 jedinica.
Re{ewe. Merena veli~ina je m = E ( X ) , a odstupawe X n − m . Kako je
σ = 5 i n = 225 , na osnovu CGT je ⎛ X 225 − m ⎞ 1 P X 225 − m ≤ 0.6 = P ⎜ 225 ≤ 225 ⋅ 0.6 ⎟ = ⎜ ⎟ 5 5 ⎝ ⎠ = P ( ρ 225 ≤ 1.8 ) = 2Φ (1.8 ) =
(
)
= 2 ⋅ 0.4641 = 0.9282. Zna~i da je X n − 0.6 ≤ m ≤ X n + 0.6 sa verovatno}om 0.93, tj. u 93% svake serije od po 225 merewa va`i data procena. ▲ CGT se mo`e dati i u druga~ijem obliku, koji je pogodniji za razne primene (slede}i odeqak). Teorema 2. Neka je X 1 , X 2 ,… niz nezavisnih, jednako raspodeqenih slu~ajnih promenqivih sa istim o~ekivawem m i istom disperzijom σ 2 . Neka je jo{ S n = X 1 + X 2 + ... + X n . Tada za svaki par brojeva a < b va`i
S − nm ⎛ ⎞ ≤ b ⎟ = F (b) − F ( a ) . ▲ lim P ⎜ a ≤ n n →∞ σ n ⎝ ⎠ Ekvivalentnost teorema 1 i 2 sledi iz 1 ( X 1 + X 2 + ... + X n ) − m S − nm Xn −m n n= n= n . σ σ σ n Teorema 2. govori da je raspodela zbira Sn , bez obzira na raspodele
sabiraka, pribli`no normalna N ( nm, nσ 2 ) .
Centralna grani~na teorema govori, {to je izuzetno va`no za primene, da ako o nizu slu~ajnih veli~ina X 1 , X 2 ,…, X n ne znamo skoro ni{ta, o wihovom zbiru znamo skoro sve.
77
5.3 APROKSIMACIJA BINOMNE RASPODELE NORMALNOM RASPODELOM Ve} smo u odeqku 3.3 binomnu raspodelu aproksimirali Poasonovom raspodelom u slu~aju da je n veliko a p malo. Za matemati~ku statistiku je posebno interesantan problem transformacije n -dimenzionalne slu~ajne promenqive. Podsetimo se da smo u primeru 1. iz odeqka 4.8 pokazali: ako me|usobno nezavisne slu~ajne promenqive X i , i = 1, 2,..., n
imaju istu ,,0-1” raspodelu sa parametrom p ( E ( X i ) = p, D ( X i ) = pq ), onda
S n = X 1 + X 2 + ... + X n ima B ( n, p ) raspodelu kod koje je, ina~e, E ( S n ) = np i D ( S n ) = npq .
Kada na prethodnu n -dimenzionalnu slu~ajnu promenqivu Sn primenimo teoremu 2. iz prethodnog odeqka (drugi oblik CGT) dobijamo narednu, za matemati~ku statistiku i primene, veoma va`nu teoremu. Integralna teorema Moavr-Laplasa. Neka je X i , i = 1, 2,..., n , niz me|usobno nezavisnih slu~ajnih promenqivih sa ,,0-1” raspodelom i parametrom p . Tada va`i
1 P (a ≤ S ≤ b) = 2π ∗ n
b
∫e
−
x2 2
dx = F ( b ) − F ( a ) ,
a
gde je n
∗ n
S =
Sn
n
n
X −∑E(X ) ∑ X − E (S ) ∑ = = n
D ( Sn )
i =1
i
i
i =1
i =1
n
− np
npq
∑ D( X ) i =1
i
.▲
i
Dakle, ako S n : B ( n, p ) , onda wen standardizovan oblik Sn∗ ima, aproksimativno, N ( 0, 1) raspodelu. Prethodna teorema se koristi za n veliko
i
np ≥ 10
(raspodelu
B ( n, p )
smo
aproksimirali
P (λ )
raspodelom za n ≥ 50 i np = λ < 10 ). Integralna Moavr-Laplasova teorema, zbog transformacija x − np S n − np x2 − np , x1 ≤ S n ≤ x2 ⇔ 1 ≤ ≤ npq npq npq
⎛ x − np ⎞ ⎛ x − np ⎞ −F⎜ 1 mo`e se dati u obliku P ( x1 ≤ S n ≤ x2 ) = F ⎜ 2 . ⎟ ⎜ npq ⎟ ⎜ npq ⎟⎟ ⎝ ⎠ ⎝ ⎠ Navedimo jo{ jednu grani~nu teoremu vezanu za B ( n, p ) raspodelu. Lokalna Moavr-Laplasova grani~na teorema. Ako slu~ajna promenqiva Sn ima binomnu B ( n, p ) raspodelu, onda za dovoqno veliko n va`i − ⎛n⎞ 1 P ( Sn = k ) = ⎜ ⎟ p k q n−k ≈ e npq 2π ⎝k ⎠
78
( k − np )2 2 npq
.▲
Re{imo nekoliko primera u kojima se koristi aproksimacija binomne normalnom raspodelom. Primer 1. Verovatno}a ubacivawa lopte u ko{ igra~a je 0.7 . Kolika je verovatno}a da }e u 100 bacawa imati: 10 bar 65 pogodaka, 20 izme|u 65 i 75 pogodaka, 30 najvi{e 77 pogodaka? Re{ewe. U ovom slu~aju imamo p = 0.7 , q = 0.3 , n = 100 , np = 70 , npq = 21 .
⎛ x − np ⎞ ⎛ x − np ⎞ −F⎜ 1 10 Sada koristimo formulu P ( x1 ≤ S n ≤ x2 ) = F ⎜ 2 , ⎟ ⎜ npq ⎟ ⎜ npq ⎟⎟ ⎝ ⎠ ⎝ ⎠ odakle je ⎛ 65 − 70 S100 − 70 100 − 70 ⎞ ∗ P ( 65 ≤ S100 ≤ 100 ) = P ⎜ ≤ ≤ ⎟ = P ( −1.09 ≤ S100 ≤ 6.55 ) = 21 21 ⎠ ⎝ 21 = F ( 6.55 ) − F ( −1.09 ) = 1 − F ( −1.09 ) = 1 − ⎡⎣1 − F (1.09 ) ⎤⎦ =
= 0.5 + Φ (1.09 ) = 0.8621 .
75 − 70 ⎞ ⎛ 65 − 70 ∗ ∗ ≤ S100 ≤ 20 P ( 65 ≤ S100 ≤ 75 ) = P ⎜ ⎟ = P S100 ≤ 1.09 = 21 ⎠ ⎝ 21 = 2Φ (1.09 ) = 0.7242 .
(
)
∗ 30 P ( 0 ≤ S100 ≤ 77 ) = P ( −15.3 ≤ S100 ≤ 1.53) = 0.5 + Φ (1.53) = 0.937 .
Primer 2. Verovatno}a da je jedan proizvod prvog kvaliteta je 0.65 . Kolika je verovatno}a da u seriji od 200 komada broj proizvoda prvog kvaliteta ne odstupa za vi{e od 10 od o~ekivanog broja? Re{ewe. Neka je S 200 broj proizvoda prvog kvaliteta. Tada je E ( S 200 ) = np = 200 ⋅ 0.65 = 130 . Tra`i se
10 ⎛ ∗ ⎞ ≤ P ( S200 − 130 ≤ 10 ) = P ⎜ S200 ⎟ = 2Φ (1.48 ) = 0.8612 . 200 ⋅ 0.65 ⋅ 0.35 ⎠ ⎝ Primer 3. Neka je nedeqna potro{wa benzina po automobilu 50 l , sa standardnim odstupawem σ = 8 l . 10 Ako u Beogradu ima 200000 automobila, da li je dovoqno obezbediti 10100000l benzina za nedequ dana pa da ne bude nesta{ice? 20 Koliko treba obezbediti benzina pa da sigurnost u snabdevawu bude 95% ? Re{ewe. 10 Neka je S ukupna potro{wa benzina za nedequ dana. S − nm ⎛ ⎞ ≤ b ⎟ = F ( b ) − F ( a ) . Sada je Koristimo drugi zapis CGT: lim P ⎜ a ≤ n n →∞ σ n ⎝ ⎠ E ( S ) = 200000 ⋅ 50 = 107 , D ( S ) = 200000 ⋅ 82 = ( 3578 ) . Otuda 2
⎛ S − E ( S ) 10100000 − 107 ⎞ 100000 ⎞ ⎟ = P ⎛⎜ S ∗ ≤ P ( S ≤ 10100000 ) = P ⎜ ≤ ⎟= ⎜ D(S ) ⎟ 3578 3578 ⎠ ⎝ ⎝ ⎠ ∗ = P ( S ≤ 27.95 ) = F ( 27.95 ) = 1 . 20 U op{tem slu~aju problem se svodi na odre|ivawe granice s0 , tako
da za dato n i β va`i P ( S n ≤ s0 ) = β . Sada imamo (napomena 2. iz 3.7)
79
⎛ S − nm s0 − nm ⎞ ⎛ s0 − nm ⎞ P⎜ n ≤ ⎟= F⎜ ⎟=β . σ n ⎠ ⎝ σ n ⎝ σ n ⎠ ⎛ s − nm ⎞ U na{em slu~aju je β = 0.95 =0.5+ Φ ⎜ 0 ⎟ . Odavde imamo ⎝ σ n ⎠ s0 − nm 1.64 + 1.65 = = 1.645 ⇔ s0 = 1.645 ⋅ 3578 + 107 ⇔ s0 ≈ 10006000 l . 2 σ n
5.4 ZADACI 1. Neka slu~ajne veli~ine X i u CGT imaju jednaka matemati~ka
o~ekivawa E ( X i ) = m i jednake disperzije D ( X i ) = σ 2 za svako i .
⎛1 n ⎞ 10 Odrediti n tako da je P ⎜ ∑ X i − m ≥ ε ⎟ ≤ α , gde su ε i α mali, ⎝ n i =1 ⎠ unapred zadati brojevi. 20 Koliko sabiraka treba uzeti da bi sa verovatno}om 0.96 i 1 n ta~no{}u ε = 0.01 za σ = 1 va`ila pribli`na formula ∑ X i ≈ m ? n i =1
2. Pretpostavimo da je verovatno}a ra|awa mu{kog deteta 0.51. Odrediti verovatno}u da od 10000 novoro|en~adi bude 10 ro|eno vi{e `enske dece nego mu{ke, 20 ro|eno vi{e od 5050 de~aka. 3. Neka je prose~na dnevna proizvodwa mleka po jednoj kravi m = 40 l sa standardnim odstupawem od σ = 5 l . Velikom gradu je potrebno dnevno x = 250000 l mleka. Koliko krava treba da planira kombinat ako se zahteva sigurnost u snabdevawu mlekom sa verovatno}om β = 0.98 ? 4. Proizvodwa meda u sezoni po jednoj ko{nici je 4 kg sa standardnim ostupawem od 0.5 kg . Koliko ko{nica treba imati pa da sa sigurno{}u od 98% ukupna proizvodwa bude bar 800 kg ? 5. Dnevna proizvodwa ugqa u rudniku je 2000 t , sa standardnim odstupawem 200 t . Pod pretpostavkom da su dnevne proizvodwe nezavisne, kolika je verovatno}a da }e godi{wa proizvodwa 10 biti bar 700000 t , 20 biti najvi{e 750000 t , 30 biti izme|u 730000 t i 760000 t ?
80
6 OSNOVNI POJMOVI MATEMATI^KE STATISTIKE 6.0 UVOD Postoje razne pretpostavke o poreklu re~i statistika. Naj~e{}e se ~uje da ovaj naziv poti~e od latinske re~i ,,status” , {to u prevodu zna~i stawe, jer je prvobitno ,,statistika” ozna~avala skup numeri~kih postupaka pomo}u kojih se opisuje stawe neke pojave. U odnosu na svoje prvobitno zna~ewe statistika se razvijala u mnogo pravaca, pa je te{ko sa malo re~i obuhvatiti wen dana{wi sadr`aj. Najop{tije, statistika bi se mogla definisati kao nauka o masovnim pojavama. Masovnost neke pojave ogleda se u wenom ispoqavawu kroz veliki broj individualnih objekata. Iako su pojedina~ni objekti me|usobno razli~iti, posmatrani u masi oni pokazuju odre|ene zajedni~ke osobine i zakonitosti vezane za posmatranu pojavu. Polaznu osnovu za utvr|ivawe zakonitosti kod masovnih pojava predstavqa posmatrawe neke pojave. Kao rezultat posmatrawa individualnih objekata javqaju se neki numeri~ki pokazateqi vezani za posmatranu pojavu ili osobinu koja se, u ovom slu~aju, zove obele`je. Numeri~ki pokazateqi se zovu vrednosti obele`ja. Skup svi vrednosti obele`ja predstavqa osnovni skup. S obzirom da osnovni skupovi, po pravilu, imaju veoma veliki broj elemenata (mo`e ih biti i beskona~no mnogo), obi~no se posmatra neki podskup osnovnog skupa koji se zove uzorak. Individualna posmatrawa imaju slu~ajan karakter, pa se ispitivawe zakonitosti masovnih pojava svodi na ispitivawe slu~ajnih veli~ina. Teorijsku osnovu za prou~avawe zakonitosti slu~ajnih pojava, stoga, ~ini matemati~ka teorija verovatno}e. Elementi ove teorije, slu~ajne promenqive, wihovi zakoni i parametri raspodele, mnogobrojni stavovi i teoreme, omogu}uju modelirawe masovnih pojava matemati~kim formulama. Polaze}i od modela, na osnovu posmatrawa ograni~enog broja individualnih objekata, mogu}e je formalno-logi~kim medodama izvesti sud o zakonitosti posmatrane masovne pojave. Iz ovih razloga se na statistiku mo`e gledati kao na primewenu oblast teorije verovatno}e. Jedan od zadataka statistike jeste da uka`e na postupke prikupqawa, sre|ivawa i prezentacije numeri~kih podataka. Prikupqawa statisti~kih podataka se ne svodi na jednostavno evidentirawe numeri~ke vrednosti neke pojave. Prikupqawe se mora bazirati na modelu kojim se opisuje posmatrana pojava. Model odre|uje tip, na~in registrovawa i potreban broj podataka. Posle prikupqawa i sre|ivawa numeri~kih podataka pristupa se statisti~koj analizi na osnovu izabranog modela. Polaze}i od poznatih zakona raspodele jednostavnih slu~ajnih veli~ina i izvedenih zakona raspodele slo`enijih slu~ajnih veli~ina i wihovih parametara, na osnovu numeri~kih podataka, ocewuju se nepoznate raspodele i parametri, testiraju hipoteze, vr{e prognoze i
81
sli~no. Ako se poka`e da su prikupqeni podaci u skladu sa izabranim modelom, na osnovu rezultata statisti~ke analize mogu se izvesti zakqu~ci koji se odnose na ispitivanu masovnu pojavu. Statisti~ki metodi se koriste u svim sferama qudske delatnosti. Ovi metodi imaju posebno mesto u prou~avawu, upravqawu i tehnologiji za{tite `ivotne sredine, je se pomo}u wih mogu donositi ispravne odluke i predlagati re{ewa.
6.1 POPULACIJA. OBELE@JE. UZORAK U matemeti~koj statistici je osnovni pojam skup nekih elemenata ~ija se zajedni~ka svojstva izu~avaju. Taj izu~avani skup zove se populacija ili generalni skup. Kod svakog elementa populacije interesujemo se za neku wegovu odre|enu numeri~ku karakteristiku. Tu numeri~ku karakteristiku zva}emo obele`je. Primer 1. Skup svih seoskih gazdinstava neke zemqe ~ini jednu populaciju. Obele`je svakog gazdinstva mo`e da bude veli~ina poseda, prinos odre|ene kulture, itd. Primer 2. Treba vr{iti odre|eno merewe, koje zbog prisustva razli~itih smetwi nije u potrebnoj meri ,,apsolutno” ta~no. Skup svih mogu}ih merewa ~ini populaciju. Obele`je svakog merewa jeste vrednost koja se dobije u tom merewu. Primer 3. Skup svih dana u godini jeste populacija. Obele`ja koja mo`emo uo~iti su, na primer, najvi{a dnevna temperatura, najni`a dnevna temperatura, broj sun~anih sati svakog dana. ▲ Broj elemenata populacije mo`e biti kona~an (primeri 1 i 3) ili beskona~an (primer 2). Kod svakog elementa populacije mo`emo posmatrati i vi{e od jednog obele`ja istovremeno. Su{tina problema je u slede}em: za datu populaciju na}i zakon raspodele verovatno}a datog obele`ja za svaki elemenat populacije. Primer 1’. Ako je u primeru 1. obele`je veli~ina poseda, raspodelu tog obele`ja imamo ako znamo koliko je poseda od 0 do 1 hektara, 1-2 hektara,… . Primer 2’. Kompletnu sliku o svim rezultatima pribli`nih merewa ima}emo ako znamo koliko procenata tih merewa daje rezultate u unapred zadanom, ali proizvoqnom, intervalu [ a, b ] . ▲ U primenama, u najve}em broju slu~ajeva, nije mogu}e dobiti kompletnu informaciju o raspodeli obele`ja na celoj populaciji. Razlog mo`e biti brojnost populacije, veliki tro{kovi registrovawa obele`ja na celoj populaciji ili u konkretnoj nemogu}nosti takvog posla. Ostaje nam da na jednom delu populacije registrujemo obele`je kod svakog elementa i da zatim izvr{imo pro{irewe dobijene raspodele na celu populaciju. Odmah se postavqa pitawe koliko dobro deo populacije reprezentuje celu populaciju. Bez strogosti mo`emo re}i da neki deo populacije dobro predstavqa celu populaciju ako je kriterijum po kome se deo uzima nezavistan od obele`ja koje se posmatra. Jedan na~in postizawa reprezentativnosti jeste da se deo bira slu~ajno. O ovom slu~ajnom birawu reprezentativnog dela }e biti re~i kasnije.
82
Formalizujmo ono {to je do sada re~eno. Populaciju mo`emo shvatiti kao skup svih mogu}ih ishoda Ω . Elementi populacije se sada posmatraju kao mogu}i ishodi ω , ω ∈ Ω . Svakom elementu populacije ω se dodequje jedan broj - wegovo obele`je. To obele`je je jedna slu~ajna promenqiva X = X (ω ) , ω ∈ Ω . Problem se, dakle, svodi na odre|ivawe raspodele verovatno}a slu~ajne promenqive X . Ako slu~ajno biramo n elemenata populacije ω1 , ω 2 ,…, ω n imamo jednu n -dimenzionalnu slu~ajnu promenqivu
kra}e zapisujemo kao
( X 1 , X 2 ,..., X n ) .
Ova
( X (ω ) , X (ω ) ,..., X (ω ) ) 1
2
n
koju
n -dimenzionalna slu~ajna
promenqiva zove se slu~ajni uzorak obima n . Ograni~avamo se, {to je va`no podvu}i, na jednu vrstu slu~ajnih uzoraka kod koje su slu~ajne promenqive X 1 , X 2 ,…, X n nezavisne i svaka ima istu raspodelu kao obele`je X koje posmatramo. Ova vrsta uzorka je prost slu~ajni uzorak, kra}e – uzorak. Definicija 1. Neka se na populaciji Ω posmatra obele`je X . Prost slu~ajni uzorak za obele`je X je niz nezavisnih i jednako raspodeqenih slu~ajnih promenqivih ( X 1 , X 2 ,..., X n ) od kojih svaka ima istu raspodelu kao obele`je X . ▲ Prika`imo na jednom primeru {ta je to prost slu~ajni uzorak. Primer 4. Ako populacija ima kona~no mnogo elemenata N , onda svakom ishodu ω mo`emo pridru`iti numerisanu karticu. Kartice izme{amo i slu~ajno izvu~emo jednu. Kod odgovaraju}eg elementa registrujemo dato obele`je. To je slu~ajna promenqiva X 1 . Izvu~enu karticu vratimo me|u ostale kartice, izme{amo ih i ponovo izvu~emo karticu radi dobijawa slu~ajne promenqive X 2 . Kada ovaj postupak ponovimo n puta dobijamo n -dimenzionalni prost slu~ajni uzorak. Po{to je u pitawu izvla~ewe sa vra}awem, to je mogu}e da }emo istu karticu izvu}i ponovo. Ukupan broj n -torki je N n , pa svaki mogu}i 1 n -dimenzionalni uzorak ima istu verovatno}u pojavqivawa n . ▲ N Ovaj mehanizam nam garantuje da su slu~ajne promenqive X 1 , X 2 ,…, X n nezavisne i svaka ima istu raspodelu kao obele`je X koje posmatramo. U realnim situacijama ovaj mehanizam dobijawa uzorka se ne primewuje, ve} nam je poslu`io da slikovito opi{emo pojam prostog uzorka. Navodimo jedan primer koji opravdava prethodni mehanizam dobijawa uzorka. Primer 5. Kutija sadr`i N kuglica od kojih je Np crnih i Nq belih, p + q = 1 . Neka obele`je X dobija vrednost 1 ako je kuglica crna, a ⎛0 1 ⎞ vrednost 0 ukoliko je kuglica bela. Raspodela verovatno}a je X : ⎜ ⎟. q p ⎝ ⎠ Ukoliko izvla~imo jednu po jednu guglicu bez vra}awa i registrujemo wenu boju, onda slu~ajne promenqive X 1 , X 2 ,…, X n ne}e biti nezavisne, jer je, recimo,
83
Nq − 1 Nq , P ( X 2 = 0 | X 1 = 1) = , N −1 N −1 odakle zakqu~ujemo da X 1 i X 2 nisu nezavisne. ▲ Za izbor uzorka nije prakti~no koristiti ,,{e{ir” sa ceduqama, ve} se upotrebqavaju gotove tablice slu~ajnih brojeva formirane na razne na~ine (ruletom, fizi~kim aparatima, ra~unarima i sli~no). Postoje i druge tehnike izbora, ali se na tome ne zadr`avamo. U svakom konkretnom slu~aju se tehnika izbora uzorka mora dobro proceniti radi wegove reprezentativnosti. P ( X 2 = 0 | X1 = 0) =
6.2 RASPODELA OBELE@JA. CENTRALNA TEOREMA MATEMATI^KE STATISTIKE Osnovni problem je odrediti raspodelu verovatno}a obele`ja X na celoj populaciji, a to zna~i raspodelu verovatno}a slu~ajne promenqive X ( p ( xi ) , i = 1, 2,... ako je X diskretnog tipa ili gustinu ϕ ( x ) ,
−∞ < x < +∞ , ako je X neprekidnog tipa). U matemati~koj statistici postoji teorema (centralna teorema matemati~ke statistike) koja potvrdno odgovara na pitawe da li prost slu~ajni uzorak obima n daje kompletnu informaciju o raspodeli obele`ja X . Pri tome ta~no odre|ivawe raspodele obele`ja X zahteva da obim uzorka n neograni~eno raste. Kako su nam u primenama dostupni samo uzorci kona~nog obima, raspodelu za X mo`emo da odredimo samo pribli`no, utoliko ta~nije {to je n ve}e. U statisti~kim ispitivawima nekog obele`ja ne mora da bude jedini ciq odre|ivawe raspodele obele`ja. Mogu se posmatrati i neke karakteristike raspodele. Recimo, za obele`je X : li~ni dohodak radnika u nekom preduze}u mo`emo tra`iti prose~an li~ni dohodak, ili raspon li~nih dohodaka. Ako upore|ujemo dva metoda merewa, mo`emo koristiti disperzije u~iwenih gre{aka. Svaka od tih veli~ina je jedna realna funkcija od elemenata uzorka. Definicija 1. Neka je ( X 1 , X 2 ,..., X n ) uzorak. Realna funkcija uzorka Z = f ( X 1 , X 2 ,..., X n ) koja ne zavisi eksplicitno od parametara naziva se
statistika. ▲ Primer 1. Ako imamo uzorak ( X 1 , X 2 ,..., X n ) statistike su, na primer, uzora~ka aritmeti~ka sredina X n =
(
X 1 + X 2 + ... + X n 1 n = ∑ X k , disperzija n n k =1
(
)
)
2 2 1 n uzorka S = ∑ X k − X n , dvodimenzionalna statistika X n , S n itd. n k =1 Primetimo da je statistika jedna slu~ajna promenqiva. ▲ Dakle, osnovni zadatak matemati~ke statistike jeste da na osnovu uzorka ( X 1 , X 2 ,..., X n ) odredi obele`je X , odnosno wegovu funkciju 2 n
raspodele verovatno}a F ( x ) . Da je to je mogu}e tvrdi centralna teorema matemati~ke statistike. Prethodno slede}om definicijom uvodimo jedan novi pojam.
84
Definicija 2. Empirijska funkcija raspodele S n ( x ) koja odgovara
k , gde je k n koji su mawi od x . Zna~i da je za svako
prostom uzorku ( X 1 , X 2 ,..., X n ) defini{e se za svako x ∈ R kao
( X 1 , X 2 ,..., X n ) fiksirano x ∈ R , S n ( x ) jedna P ( X i < x ) = F ( x ) , zakon raspodele S n ( x ) je
broj onih X i u
slu~ajna
promenqiva.
Kako
je
verovatno}a slu~ajne promenqive
k n−k k ⎞ ⎛n⎞ ⎛ P ⎜ Sn ( x ) = ⎟ = ⎜ ⎟ ⎡⎣ F ( x ) ⎤⎦ ⎡⎣1 − F ( x ) ⎤⎦ , k = 0,1, 2,..., n . ▲ n ⎠ ⎝k ⎠ ⎝ Sada bez dokaza navodimo va`nu teoremu. Centralna teorema statistike. Ako je F ( x ) funkcija raspodele
slu~ajne promenqive X i S n ( x ) empirijska funkcija raspodele koja odgovara prostom uzorku ( X 1 , X 2 ,..., X n ) , onda P ⎜⎛ sup S n ( x ) − F ( x ) → 0, n → ∞ ⎟⎞ = 1 . ▲ ⎝ −∞< x <+∞ ⎠ Ova teorema je poznata pod imenom teorema Glivenka [1933] i Cantellia [1933] . Ona ukazuje na zna~aj empirijske funkcije raspodele S n ( x ) pri ispitivawu nepoznate funkcije raspodele F ( x ) obele`ja X .
6.3 PREDSTAVQAWE OBELE@JA POPULACIJE NA OSNOVU PODATAKA
Statisti~ke serije i tabele Statisti~kim posmatrawem elemenata skupova dobijaju se podaci o posmatranom obele`ju. Ovi podaci su nesre|eni i bez sre|ivawa su prakti~no neupotrebqivi. Primer 1. Populaciju ~ini 40 qudi koji su u odre|enom vremenu kupili cipele u prodavnici mu{kih cipela. Obele`je populacije je veli~ina-broj kupqenog para cipela. Za obele`je, po redu kupovine, dobijeni su podaci navedeni u tabeli ( ωi je i -ti kupac, a X (ω i ) je veli~ina kupqenog para cipela i -tog kupca, i = 1, 2,..., 40 ) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 ωi X (ω i )
39 40 38 43 41 43 40 38 41 42 41 42 39 41 41 36 43 41 42 38
ωi
21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
X (ω i )
41 40 42 41 42 44 41 40 44 42 41 41 40 42 37 40 40 41 41 44
Obele`je u prethodnom primeru je potpuno opisano. Prodavnicu ne interesuje {to je 13-ti kupac ω13 kupio cipele broj X (ω13 ) = 39 , ve} je pre interesuje koliko je pari broj 39 prodato radi nove naruxbine cipela. ▲ Kao rezultat sre|ivawa podataka nastaje statisti~ka serija. Ona predstavqa niz numeri~kih podataka iz koga se vidi raspored osnovnog skupa ili hronologija posmatrane pojave. Broj jedinica koje odgovaraju
85
istoj vrednosti obele`ja X (ω i ) pokazuju u~estalost ili frekvenciju te vrednosti fi . Na osnovu re~enog prethodna tabela posle sre|ivawa ima slede}i izgled. X (ω i ) 36 37 38 39 40 41 42 43 44 ∑
fi
1
1
3
2
7 13 7
3
3
40
Vidi se da je najvi{e prodato pari cipela broj 41. Vrednosti neprekidnog numeri~kog obele`ja se prikazuju uvidu grupnih ili klasnih intervala. Svakoj klasi odgovara odre|ena frekvencija. Primer 2. Populaciju ~ini 200 beba Du`ina Frekvencija fi ro|enih u jednoj bolnici, u odre|enom periodu. Obele`je-du`ina bebe, data je u 40 – 43 2 43 –46 7 intervalima po 3 cm . Ako je du`ina neke 46 – 49 40 bebe na granici intervala, beba je 49 – 52 87 ra~unata u gorwi interval. Zna~i, ako je 52 – 55 58 X ∈ { x1 , x2 ,...} , onda se posmatraju 55 – 58 5 intervali oblika a ≤ xi < b , i = 1, 2,... . ▲ 58 – 61 1 Ako se du`ina bebe u prethodnom 200 ∑ primeru ta~no meri, skoro sigurno bi svaka beba imala razli~itu du`inu, tako da bi mogli dobijati brojeve (ma koje) iz intervala 40-60 sm, a takvo prikazivawe nije pregledno i ne bi slu`ilo svrsi.
Grafi~ko prikazivawe statisti~kih podataka Grafi~ko prikazivawe je drugi oblik predstavqawa statisti~kih podataka. Ovakvim na~inom predstavqawa podataka posti`e se boqa preglednost i jasno}a posmatrane pojave. Po{to se grafi~kim prikazivawem podataka ~esto zamewuju statisti~ke tabele, grafikon mora biti jednostavan i jasan, u protivnom su boqe tabele. Definicija 1. Ako uzorak ( X 1 , X 2 ,..., X n ) ima realizaciju ( x1 , x2 ,..., xn ) sa odgovaraju}im frekvencijama f1 , f 2 ,…, f n , onda je linijski dijagram poligonalna linija sa temenima ( xi , f i ) , i = 1, 2,..., n . ▲
Primer 3. Na slici je dat linijski grafikon podataka iz primera 1. ▲ Na istom grafikonu se mo`e pretstaviti i vi{e vremenskih serija sa ciqem da se sagledaju wihove uporedne varijacije i apsolutne razlike nivoa u posmatranom periodu. Jasno je da to ima smisla ako su pojave izra`ene istim jedinicama mere. Ako se predstavqa ve}i broj serija treba paziti da grafikon ne bude pretrpan i zbog toga nejasan.
86
Primer 4. Na istom grafikonu su predstavqeni podaci iz statisti~ke tabele.
date
Godine Kukuruz Broj sviwa (hiq. (milioni tona) kom.) 1981 9.8 7.9 1982 11.1 8.4 1983 10.7 8.4 1984 11.3 9.3 1985 9.9 8.7 1986 12.5 7.8 1987 8.9 8.5 Definicija 2. Dijagrami na kojima su vrednosti podataka prikazane povr{inom geometrijske slike nazivaju se povr{inski dijagrami. ▲ Povr{ine geometrijskih slika, kvadrata, pravougaonika, kruga, moraju biti srazmerne vrednostima podataka. Na ovaj na~in se mogu predstaviti podaci svih vrsta statisti~kih serija. Ako se podaci prikazuju pravougaonicima (stupcima), povr{ina P jednog pravougaonika predstavqa veli~inu podataka P = ab . Ako uzmemo da je osnova pravougaonika a = 1 , tada je povr{ina proporcionalna wegovoj visini b . Osnove pravougaonika su iste, a razlikuje se samo visina, koja je srazmerna veli~ini podataka. Kako svi pravougaonici polaze od istog nivoa lako ih je upore|ivati. Primer 5. Na datom povr{inskom dijagramu predstavqeni su intervalni podaci tabele o visini i broju beba iz primera 2. Na slici su zapisane sredine intervala du`ine beba ▲ Kada se struktura tabele predstavqa krugom delovi celine su sektori proporcionalni u~e{}u tih delova u celini. Veli~ina centralnog ugla odgovaraju}eg sektora kruga je Ugao sektora = (deo / celina) × 3600. Na datom kru`nom dijagramu su predstavqeni isti podaci kao na posledwem grafikonu.
87
6.4 FORMIRAWE I GRAFI^KO PREDSTAVQAWE DISTRIBUCIJE FREKVENCIJA U biotehni~kim istra`ivawima dolazi se do numeri~kih vrednosti posmatranog obele`ja za svaku jedinicu u uzorku. Tako dobijamo neure|enu statisti~ku seriju. Ako vrednosti obele`ja realizovanog uzorka obima n pore|amo u neopadaju}i niz dobijamo sre|enu statisti~ku seriju, tzv varijacioni niz. Ako izdvojimo sve razli~iti vrednosti x1 < x2 < ... < xk i evidentiramo da se x1 pojavquje f1 puta, x2 pojavquje f 2 k
puta,…, xk pojavquje f k puta, gde je
∑f i =1
i
= n , onda broj fi nazivamo
apsolutna u~estanost (frekvencija) vredenosti xi ( i = 1, 2,..., k ), ili samo f u~estanost (frekvencija), broj pi = i relativna u~estanost n (frekvencija), a broj pi ⋅100% procenat frekvencije vrednosti xi . Grupisawem vrednosti xi i frekvencija fi formiramo raspodelu (distribuciju) frekvencija. U istoj tabeli se frekvencije mogu dati bilo u apsolutnim, bilo u procentnim, bilo u relativnim iznosima. Potkrepimo prethodno primerom sa obele`jem diskretnog tipa. Primer 1. Na jednoj farmi je bilo 37 legla prasi}a. Obele`je je broj prasi}a u leglu. Dobijena je neure}ena statisti~ka serija broja prasi}a 10, 12, 8, 10, 9, 11, 9, 10, 13, 9, 11, 9, 11, 11, 9, 10, 12, 11, 13, 11, 14, 10, 12, 14, 10, 13, 11, 10, 12, 11, 14, 8, 11, 13, 12, 11, 12. Varijacioni niz je 8, 8, 9, 9, 9, 9, 9, 10, 10, 10, 10, 10, 10, 10, 11, 11, 11, 11, 11, 11, 11, 11, 11, 11, 12, 12, 12, 12, 12, 12, 13, 13, 13, 13, 14, 14, 14, 14. Pomo}u ovog varijacionog niza se mo`e formirati slede}a tabela: Broj prasadi u leglu ( xi ) 8 9 10 11 12 13 14 Ukupno
Broj legala frekvencija ( fi ) 2 5 7 10 6 4 3 37
Relativna frekvencija ( pi ) 0.05405 0.13514 0.18919 0.27027 0.16216 0.10811 0.08108 1.000
Frekvencija u procentima ( pi ⋅100% ) 5.405 13.514 18.919 27.027 16.216 10.811 8.108 100
Podaci distribucija apsolutnih frekvencija iz prethodne tabele se mogu predstaviti linijskim grafikonom.
88
Poligon frekvencija je poligonalna linija sa temenima ( xi , f i ) . Kao {to vidimo, jasno je izra`ena centralna tendencija rasporeda legala prema veli~ini i skoro simetri~no smawewe ja~ine grupisawa prema krajevima distribucije. ▲
U prethodnom primeru vrednosti obele`ja su utvr|ene brojawem. Broj razli~itih varijanti (8, 9, 10, 11, 12, 13, 14) je onoliki koliki je broj razli~itih vrednosti obele`ja xi . Ali ako se vrednosti nekih obele`ja utvr|uju merewem i iskazuju u jedinicama mere kao {to su grami, litri, milimetri i sli~no, onda takva obele`ja mogu imati bilo koju vrednost iz nekog intervala realnih brojeva. Takva obele`ja su neprekidna ili kontinualna. Pri dovoqno preciznom merewu mali broj jedinica ima istu vrednost obele`ja, a nije retkost da ima onoliko razli~itih vrednosti obele`ja koliko ima jedinica posmatrawa. Kod ovakve vrste statisti~kih podataka vrednosti obele`ja se grupi{u unutar grupnih (klasnih) intervala. Tako nastaju intervalne serije. Pri formirawu intervalne serije treba odrediti veli~inu i broj intervala. Uobi~ajeno je da intervali imaju istu du`inu. Obele`imo sa Δ du`inu intevala, a sa k broj intervala. Ako je xmin najmawa, a xmax najve}a vrednost podataka, onda se koristi formula x −x Δ = max min , k = 1 + 3.2 ⋅ log n , k gde je n broj podataka. Radi jednostavnosti intervali se biraju tako da su vrednosti granica ,,okrugle”. Posmatramo intervale oblika [ a1 , a2 ) ,
[ a2 , a3 ) ,…, [ ak , ak +1 ) . Odre|ujemo potom u~estanost podataka koji pripadaju i -tom intervalu za i = 1, 2,..., k i rezultate prikazujemo u obliku tabele. Evo jednog primera za demonstraciju ovog postupka formirawa distribucije frekvencija. Primer 2. Merena je masa 50 plodova jedne sorte jabuka iskazana u gramima. Dobijena je, radi jednostavnosti, slede}a ure|ena statisti~ka serija: 70.8 74.5 75.2 76.4 77.8 78.7 79.9 80.3 81.6 81.8 82.5 82.9 83.2 83.5 84.1 84.4 84.8 85.3 85.6 85.9 86.1 86.4 86.7 86.9 87.2 87.3 87.8 87.9 88.0 88.2 88.4 88.7 89.4 89.7 90.4 90.6 91.2 91.8 92.3 92.9 93.4 93.7 94.8 95.6 96.3 98.6 99.6 100.8 102.5 104.6 Iz sre|ene serije vidimo da svaki plod ima druga~iju te`inu. Zato ove podatke grupi{emo pomo}u intervala. U ovom primeru se obele`je kre}e od 70 do 105 grama, pa je interval varijacije 35 grama. Sada su du`ina
89
intervala Δ i broj intervala k iz datog obrasca: 104.6 − 70.8 35 Δ= = 5.22 ≈ 5 , k = = 7. 1 + 3.32 log 50 5 Na osnovu dobijenih podataka formiramo tabelu: Masa plodova (grama) ( xi ) 70.0 – 75.0 75.0 – 80.0 80.0 – 85.0 85.0 – 90.0 90.0 – 95.0 95.0 – 100.0 100.0 – 105.0 Ukupno
Broj plodova ( fi ) 2 5 10 17 9 4 3 50
Da bi se intervalna distribucija frekvencija mogla ra~unski obra|ivati vrednosti obele`ja svake klase moraju se predstavqati jednom vredno{}u. Kao predstavnik grupnog intervala uzima se grupna (klasna) sredina. Mi }emo za klasnu sredinu uzimati sredinu svake klase. Ona je poluzbir granica klase. Na primer, za prvu klasu je (70+75):2=72.5 klasna sredina. Vrednosti apsolutnih i relativnih frekvencija mogu se predstavqati svojim kumulativima. Kumulativne frekvecije dobijaju se dodavawem vrednosti odgovaraju}e frekvencije na zbir svih prethodnih frekvencija. Ovakav postupak se naziva kumulirawe ,,ispod” (nani`e). Ako kumulirawe zapo~iwemo od najve}e vrednosti obele`ja onda je u pitawu kumulirawe ,,iznad” (navi{e). Primer 2. U narednoj tabeli prikazane su kumulacije apsolutnih i relativnih frekvencija ,,ispod” i ,,iznad” podataka iz primera 1. Intervali xi 70.0 – 75.0 75.0 – 80.0 80.0 – 85.0 85.0 – 90.0 90.0 – 95.0 95.0 – 100.0 100.0 – 105.0 Ukupno
Aps. fr. fi 2 5 10 17 9 4 3 50
Kumulacije ispod iznad 2 7 17 34 43 47 50
50 48 43 33 16 7 3 -
Rel. fr. pi 0.04 0.10 0.20 0.34 0.18 0.08 0.06 1.00
Kumulacije ispod iznad 0.04 0.14 0.34 0.68 0.86 0.94 1.00
1.00 0.96 0.86 0.66 0.32 0.14 0.06 -
Grafi~ki prikaz intervalne distribucije apsolutnih frekvencija je povr{inski grafikon predstavqen pravougaonicima sa osnovama jednakim intervalima i visinama jednakim odgovaraju}im apsolutnim frekvencijama. Izme|u stubaca nema rastojawa, jer je obele`je neprekidno. Takav grafi~ki prikaz naziva se histogram apsolutnih frekvencija. Spajawem sredina gorwih osnova pravougaonika dobija se
90
poligon ove vrste frekvencija. Primer3. Na grafikonu su dati poligon i histogram apsolutnih frekvencija podataka iz primera 2.
Primer 4. Na grafiku su date kumulante podataka iz primera 2.
Histogram relativnih frekvencija neprekidnog obele`ja je veoma blizak pojmu gustine raspodele verovatno}a. Zato se ovakav histogram ~esto crta tako da je povr{ina izme|u histograma i apscisne ose jednaka jedinici. To zna~i da je povr{ina pravougaonika nad intervalom [ ai , ai +1 )
fi , jer je n
k
k
fi n = = 1 . Dakle, n i =1 i =1 n p ako su svi intervali jednake du`ine d , onda je hi d = pi , odnosno hi = i , d gde smo sa hi , i = 1, 2,..., k , obele`ili visinu pravougaonika sa osnovom
jednaka relativnoj u~estanosti pi =
[ ai , ai +1 ) .
91
∑ pi = ∑
Grafi~ki prikaz kumulanti relativnih frekvencija se dobija na potpuno isti na~in kao u apsolutnom slu~aju. Primer 5. Na slede}em grafikonu su prikazana dva histograma relativnih frakvencija intervalne serije iz primera 2. Svetliji histogram je dobijen ne vode}i ra~una da je ukupna povr{ina pravougaonika jednaka jedan, odnosno i -ti ( i = 1, 2,..., 7 ) pravougaonik ima povr{inu jednaku 5 pi , jer je svaki interval du`ine 5 . U ovom slu~aju je
⎛ 7 ⎞ zbir povr{ina svih pravougaonika 5 ⋅1 = 5 ⎜ ∑ pi = 1⎟ . Ako ho}emo da je ⎝ i =1 ⎠ histogram blizak gustini raspodele, a da du`ine intervala ostanu iste, p onda visina svakog pravougaonika mora biti hi = i , jer je tada ukupna 5 7
povr{ina pravougaonika 5∑ hi = 1 . Ovaj histogram je dat tamnijom bojom. i =1
Primer 6. Na slede}em grafikonu dajemo kumulantu relativnih frekvencija pi . Veli~ina skoka iz i -tog u i + 1 -vi interval (i = 1, 2,..., 6) je jednaka relativnoj frekvenciji pi +1 .
92
6.5 NEKE STATISTIKE Kao {to smo ve} reli, u primenama mo`emo da radimo samo sa uzorkom kona~nog obima. Stoga raspodelu obele`ja X mo`emo da odredimo samo pribli`no, to ta~nije ukoliko je obim uzorka ve}i. U odre|ivawu raspodele obele`ja X radimo sa razli~itim odre|enim funkcijama slu~ajnog uzorka ( X 1 , X 2 ,..., X n ) . Statistika Z jeste jedna odre|ena funkcija Z = f ( X 1 , X 2 ,... X n ) koja ne zavisi eksplicitno od nepoznatih parametara. Statistika je, dakle, slu~ajna promenqiva. Nave{}emo neke zna~ajnije statistike dobijene pomo}u uzorka i wihove osobine. Napomenimo pre toga da, ako pristupimo registrovawu vrednosti obele`ja X kod jednog odre|enog uzorka obima n , dobijamo niz odre|enih brojeva ( x1 , x2 ,..., xn ) i statistike postaju odre}eni brojevi koji slu`e kao ocene za nepoznate parametre obele`ja X .
Aritmeti~ka sredina uzorka Aritmeti~ka sredina uzorka je statistika X + X 2 + ... + X n 1 n = ∑ Xk , Xn = 1 n n k =1 gde je n obim uzorka. Ukoliko imamo realizovan uzorak ( x1 , x2 ,..., xn ) , onda prethodna
1 n ∑ xk koji }emo, tako|e, zvati n k =1 aritmeti~ka sredina, ili prosta aritmeti~ka sredina. Ako imamo x + x + ... + xn nesre|enu statisti~ku seriju, onda je x n = 1 2 , a ukoliko je n serija sre|ena i znamo apsolutne frekvencije fi realizovanih vrednosti x f + x f + ... + xk f k k . obele`ja xi , i = 1, 2,..., k , sa ∑ i =1 f i = n , onda je x n = 1 1 2 2 f1 + f 2 + ... + f k Primer 1. U naredne dve tabele su date sre|ene statisti~ke serije redom diskretnog i neprekidnog tipa i pokazano je kako se prakti~no odre|uju aritmeti~ke sredine, koje se za sre|enu seriju zovu ponderisane. statistika postaje odre|en broj x n =
Broj prasadi u leglu - xi 8 9 10 11 12 13 14 Ukupno
Broj legala fi 2 5 7 10 6 4 3 37
93
xi f i 16 45 70 110 72 52 42 407
Ukupan broj prasadi u svim leglima je 407. Prose~an broj prasadi po leglu je
∑ = ∑ k
xn
Masa plodova grama - xi 70 – 75 75 – 80 80 – 85 85 – 90 90 – 95 95 – 100 100 – 105 Ukupno
xf
i =1 i i k i =1
=
fi
407 = 11 . 37
Sredina intervala - xi 72.5 77.5 82.5 87.5 92.5 97.5 102.5 -
Broj plodova fi 2 5 10 17 9 4 3 50
xi fi 145.0 386.5 825.0 1478.5 832.5 390.0 307.5 4375.0
Ukupna masa 50 plodova je 4375 grama, a prose~na masa ploda je
∑ = ∑ k
xn
xf
i =1 i i k i =1
=
fi
4375 = 87.5 grama. ▲ 50
Ako imamo podatke za koje su ve} izra~unate aritmeti~ke sredine, pa tra`imo wihovu aritmeti~ku sredinu, onda odre|ujemo op{tu (totalnu) aritmeti~ku sredinu, ili aritmeti~ku sredinu aritmeti~kih sredina. Ako je xi aritmeti~ka sredina i -tog realizovanog uzorka xi1 ,
xi 2 ,…, xin , i = 1, 2,..., m , onda je op{ta aritmeti~ka sredina jednaka xn
∑ ∑ = ∑ n m
n
i =1
j =1 ij
x
m
i =1 i
∑ = ∑
m
i =1 m
x i ni
,
n i =1 i
{to zna~i da je op{ta aritmeti~ka sredina ponderisana aritmeti~ka sredina aritmeti~kih sredina. Primer 2. Na osnovu podataka iz slede}e tabele izra~unati prose~nu potro{wu maslaca po doma}instvu. Kategorije doma}instva
Prose~na god. potro{. maslaca po dom. (kg.) xi 8 10 14 -
Poqoprivredna Me{ovita Nepoqopr. Ukupno
Broj doma}. ni 3700 7200 9450 20350
xi ni
29600 72000 132300 233900
Iz tabele ra~unamo
∑ = ∑
m
xn
i =1 m
x i ni n
i =1 i
=
233900 = 11.494 (kg. / dom.). ▲ 20350
Ako seriju ~ine relativni brojevi, wihova aritmeti~ka sredina je
94
tako|e relativan broj. Ukoliko relativni brojevi nisu istoimeni, onda se prevode u neimenovane, pa se potom ra~una tra`ena veli~ina. Primer 3. Izra~unati procenat p neispravnih proizvoda u jednoj fabrici na osnovu podataka iz tabele: Radne U~e{}e neisp. jedinice proizvoda u % ( pi )
Broj proiz. u rad. jed. ni
3.0 2.5 1.0 4.0 -
A B C D Ukupno
Broj neispr. pr. u rad. jed. ( pi ni ) 100
80000 100000 50000 10000 240000
2400 2500 500 400 5800
U~e{}e neispravnih proizvoda u ukupnoj proizvodwi je
∑ = ∑ k
pn
i =1 k
pi ni
⋅100% =
n
i =1 i
5800 ⋅100% = 2.42% . ▲ 240000
Aritmeti~ka sredina ima veliki zna~aj u primenama, te stoga navodimo i dokazujemo wene slede}e osobine: 10 Ra~una se pomo}u svih realizovanih vrednosti obele`ja i izravnava wihove apsolutne razlike. 20 Atitmeti~ka sredina se nalazi izme|u ekstremnih vrednosti obele`ja, odnosno, xmin ≤ x n ≤ xmax . Zbog xmin ≤ xi ≤ xmax , i = 1, 2,..., n , je
∑ =
n
xmin
∑ ≤
n
x
= xn
x
=
∑ ≤
n
xmax
= xmax . n n n 30 Ukoliko su sve vrednosti obele`ja jednake, onda je i aritmeti~ka sredina jednaka toj vrednosti. Iz xi = c , je xmin
i =1
i =1 i
∑ =
n
i =1
nc =c. n n 40 Ako se svakoj vrednosti obele`ja doda ili oduzme ista veli~ina onda se i aritmeti~ka sredina pove}ava ili smawuje za tu veli~inu. Da je ovo ta~no sledi iz xn
i =1 i
∑ ( x + c ) = nc + ∑ n
n
x
= c + xn . n n 50 Ako se svaka vrednost obele`ja pomno`i ili podeli nekim brojem, onda se i aritmeti~ka sredina mno`i, odnosno deli tim brojem. Ta~nost ove osobine se dobija iz i =1
i
∑
n
cxi
i =1 i
c ∑ i =1 xi n
= = cx n . n n 60 Zbir odstupawa svih vrednosti od aritmeti~ke sredine je nula. Vidi se da je i =1
95
∑( x − x ) = ∑ n
i =1
n
i
n
x − nx n = nx n − nx n = 0 .
i =1 i
70 Zbir kvadrata odstupawa vrednosti obele`ja od atitmeti~ke sredine je mawi od zbira kvadrata odstupawa ma koje druge vrednosti. n
Odredimo broj c za koji funkcija f ( c ) = ∑ ( xi − c )
2
ima minimum.
i =1
Stoga na|imo nulu izvoda df ( c ) d = dc
(∑
n i =1
( xi − c )
2
dc
) = −2
n
∑ ( x − c) . i =1
i
Dobijamo n
∑ xi − nc = 0 ⇔ c = i =1
1 n ∑ xi = x n . n i =1
Kako je f ′′ ( c ) = 2 > 0 , to c = x n dokazuje osobinu. 80 Ako su vrednosti obele`ja u nekoj linearnoj funkcionalnoj vezi, onda su u istoj vezi i wihove aritmeti~ke sredine. Ova osobina proisti~e iz 40 i 50, jer iz yi = axi + b , i = 1, 2,..., n , sledi y n = ax n + b . ▲ Medijana Medijana, u oznaci M e , je vrednost sredweg ~lana sre|ene statisti~ke serije. Ukoliko sre|ena statisti~ka serija ima n ~lanova, n neparno, onda je M e = x n +1 . Na primer, u nizu podataka 8,11,12,14,17 je 2
M e = 12 . Ukoliko sre|ena statisti~ka serija ima paran broj ~lanova onda xn + xn +1 2 se za medijanu uzima broj M e = 2 . Ako prethoni niz dopunimo 2 x6 + x6 +1 12 + 14 2 = = 13 . brojem 19 onda je M e = 2 2 2
Modus ili mod Modus, u oznakci M o , je vrednost obele`ja sa najve}om frekvencijom. U prvoj tabeli primera 1. najve}u frekvenciju ima obele`je sa vredno{}u 11, pa je M o = 11 . Ako je u pitawu neprekidno obele`je, onda je modus sredina intervala sa najve}om frekvencijom.
Sredwe apsolutno odstupawe Sredwe apsolutno odstupawe je zbir apsolutnih odstupawa vrednosti obele`ja od sredwe vrednosti. Dakle, n x − xn ∑ i =1 i So = . n Primer 4. Izra~unati sredwe apsolutno odstupawe broja larvi na listovima iz podataka broja larvi: 1, 3, 4, 5, 8, 10, 11, 14, 20, 21, 23, 24. 144 Iz ovih podataka je aritmeti~ka sredina x12 = = 12 , a sredwe 12
96
apsolutno odstupawe So =
84 = 7. 12
Raspon uzorka Raspon uzorka je funkcija uzorka data sa R = max xk − min x j . 1≤ j ≤ n
1≤ k ≤ n
Disperzija (varijansa) uzorka i standardna devijacija Statistiku 2 2 1 n S n = ∑ Xi − X n n i =1 zovemo disperzija uzorka ( X 1 , X 2 ,... X n ) . Ova statistika je jedna slu~ajna
(
)
promenqiva. Ukoliko imamo realizovani uzorak
( x1 , x2 ,...xn ) ,
onda
varijansa postaje broj
sn =
(
)
(
)
2 1 n . x − x n ∑ i n i =1 Da bi smo lak{e ra~unali varijansu, primetimo da je 2
2
(
)
2 2 1 n 1 n xi − x n = ∑ i =1 xi2 − 2 xi x n + x n = ∑ i =1 n n 2 1 n 1 n = ∑ i =1 xi2 − 2 x n ∑ i =1 xi + x n . n n
sn =
Vidimo da je 2 1 n 2 xi − x n . ∑ n i =1 Popravqena disperzija uzorka je statistika 2 2 1 n S ′n = Xi − X n . ∑ n − 1 i =1 2
sn =
(
)
2
Popravqenu disperziju realizovanog uzorka }emo obele`avati sa s′n . Varijansa nije pogodna mera rasipawa oko sredwe vradnosti jer je izra`ena kvadratima odstupawa. Pogodnija mera varijacije (rasejavawa) je standardna devijacija uzorka, u oznaci S n , odnosno s n u slu~aju realizovanog uzorka. To je kvadratni koren iz varijanse (disperzije). Zna~i,
∑ (X n
2 n
Sn = S = =
∑
n i =1
i =1
i − Xn
)
2
n X i2
2
−Xn .
n Kako u praksi radimo sa sre|enim (grupisanim) statisti~kim serijama, to se za ra~unawe prethodnih veli~ina koriste obrasci
s
2 n
∑ =
k
(
f xi − x n i =1 i
) =∑ 2
k i =1
f i xi2
2
2
− xn , sn = sn .
n n Navodimo dva primera odre|ivawa prethodnih veli~ina za podatke diskretnog i neprekidnog obele`ja koji su dati u tabelama.
97
Primer 5. Izra~unati varijansu i standardnu devijaciju za grupisane podatke iz tabele
xi
fi
8 2 9 5 10 7 11 10 12 6 13 4 14 3 Ukupno 37
xi − x n
(
fi xi − x n
-3 -2 -1 0 1 2 3 -
)
2
Kako je x n = 11 , to je
fi xi2
18 20 7 0 6 16 27 94
k
s =
128 405 700 1210 864 676 588 4571
70 – 75 75 – 80 80 – 85 85 – 90 90 – 95 95 – 100 100 – 105 Ukupno
xi
72.5 2 77.5 5 82.5 10 87.5 17 92.5 9 97.5 4 102.5 3 50
-15 -10 -5 0 5 10 15 -
i =1
2
2
− xn =
∑ f (x − x ) i
i
2
n
94 = 2.541. 37 n Standardna devijacija je s n = 2.541 = 1.594 .
sn =
xi − x n
fi
2 i i
k
Ako su u pitawu intervalne Posmatrajmo tabelu u kojoj je x n = 87.5 Intervali
∑fx
4571 − 121 ≈ 2.541 37 n Ako koristimo drugu formulu dobijamo isti rezultat: 2 n
i =1
serije
(
fi xi − x n
postupak
)
450 500 250 0 225 400 675 2500
2
=
je
analogan.
fi xi2 10512.5 30031.25 68062.50 130156.25 77006.25 38025.0 31518.75 385312.50
Ra~unamo ponovo na dva na~ina. Imamo
s
2 n
2
∑ =
sn =
∑
k
(
f xi − x n i =1 i
)
2
n k i =1
fi xi2
2
− xn =
=
2500 = 50 , 50
385312.50 − 87.52 = 50 , 50
n s n = 50 = 7.07 . ▲ Normalizovano (standardizovano) odstupawe Ako imamo realizovan uzorak ( x1 , x2 ,..., xn ) onda je normalizovano ili xi − x n . Ovaj sn broj ,,meri” rastojawe odre|ene vrednosti obele`ja od aritmeti~ke sredine podeqene standardnom devijacijom. Odnosno, ta razlika je standardizovana. Zna~aj normalizovanog odstupawa ogleda se u mogu}nosti pore|ewa odre|enih realizovanih vrednosti kod razli~itih obele`ja.
standardizovano odstupawe n -torka
98
( z1 , z2 ,..., zn ) ,
gde je zi =
6.6 RASPODELE NEKIH STATISTIKA Pored normalne raspodele veliku primenu u statistici imaju tri teorijske raspodele izvedene iz normalne raspodele. To su χ 2 (,,hi kvadrat”), t i F raspodela. Na osnovu ove tri raspodele se formiraju kriterijumi za testirawe staristi~kih hipoteza, pa ih nazivaju kriterijumske raspodele. Zbog slo`enosti izraza kojima se zadaju wihove gustine, ne}emo se upu{tati u izvo|ewe numeri~kih pokazateqa, {to u krajwem slu~aju nema uticaja na wihovu prakti~nu primenu. χ 2 -raspodela Neka su slu~ajne promenqive X 1 , X 2 ,…, X n nezavisne i svaka sa N ( 0, 1) raspodelom. Wihova funkcija
χ n2 = X 1 + X 2 + ... + X n je jedna slu~ajna promenqiva neprekidnog tipa koja zavisi od parametra n ( n = 1, 2,...) . Raspodela za slu~ajnu promenqivu χ n2 zove se χ 2 raspodela sa n stepeni slobode; tu raspodelu ozna~avamo tako|e sa χ n2 . Broj stepeni slobode ozna~ava broj linearno nezavisnih slu~ajnih promenqivih me|u X 1 , X 2 ,…, X n u izrazu za χ n2 . Po{to su sve one linearno nezavisne broj stepeni slobode je n . Ako bi, na primer, me|u X 1 , X 2 ,…, X n postojala jedna linearna veza, recimo X 1 + X 2 + ... + X n = 0 , onda se broj stepeni slobode smawuje za jedan i u tom slu~aju imamo slu~ajnu promenqivu χ n2−1 = X 1 + X 2 + ... + X n . Mo`e se pokazati da je gustina χ 2 raspodele data funkcijom x ≤ 0, ⎧ 0, ⎪ n x ⎪ x 2 −1e − 2 ϕ ( x) = ⎨ , x>0, ⎪ n2 ⎛ n ⎞ ⎪2 Γ⎜ ⎟ ⎝2⎠ ⎩ gde je Γ ( x ) gama funkcija:
Γ ( x) =
+∞
∫t
x −1 − t
e dt .
0
Sa pove}awem broja stepeni slobode χ 2 raspodela te`i normalnoj raspodeli. Za n > 30 se χ 2 raspodela mo`e zameniti normalnom raspodelom. Numeri~ki pokazateqi ove raspodele su o~ekivawe E ( X ) = n i disperzija D ( X ) = 2n . Zna~i da za n > 30 χ 2 raspodela ima, za primene sasvim zadovoqavaju}e, pribli`no N ( n, 2n ) raspodelu. Na slici su dati grafici gustine χ 2 raspodele za 2 i 4 stepena slobode. Primetimo da je za n = 4 ta~ka ekstrema max ( 2, 0.184 ) .
99
Verovatno}e vezane za χ 2 raspodelu zadaju se tabelarno (obi~no za n = 1, 2,...,30 ). U prakti~nim primenama χ 2 raspodele ~esto je potrebno odrediti kvantile ove raspodele, odnosno vrednosti χ n2; α takve da je
P ( χ n2 ≥ χ n2; α ) = α ,
gde je 0 < α < 1 (obi~no α = 0.01, 0.05,..., 0.80 ) unapred data verovatno}a. Po{to je
P(χ ≥ χ 2 n
+∞
2 n; α
) = ∫ ϕ ( x ) dx = α , χ n2; α
treba odrediti broj χ n2; α takav da je povr{ina ispod krive gustine od χ n2; α do +∞ jednaka datoj verovatno}i α , kao na slici.
Navodimo bez dokaza: ako su slu~ajne promenqive χ n2 i χ m2 nezavisne tada je χ n2 + χ m2 = χ n2+ m .
Studentova t raspodela
Neka su slu~ajne promenqive Z ∗ : N ( 0, 1) i χ n2 nezavisne. Za slu~ajnu promenqivu Z∗
tn = +
χ n2
n ka`emo da ima Studentovu tn raspodelu sa n stepeni slobode.
100
Mo`e se pokazati da je gustina ove raspodele zadata formulom ⎛ n +1⎞ Γ⎜ ⎟ ⎝ 2 ⎠ ϕ x = , x ∈ R, n ∈ N .
( )
n +1
2 ⎛ n ⎞⎛ x ⎞ 2 nπ Γ ⎜ ⎟ ⎜1 + ⎟ n ⎠ ⎝ 2 ⎠⎝ Numeri~ke karakteristike ove raspodele su o~ekivawe E ( X ) = 0
n . n−2 Sa pove}awem broja stepeni slobode studentova tn raspodela te`i normalnoj raspodeli. Za n ≥ 120 aproksimacija ima sasvim zadovoqavaju}u ta~nost. Na slici su data dva grafika gustine tn raspodele ( n = 1, n = 3 ). Verovatno}e vezane za tn raspodelu se daju u tabeli za odre|en broj stepeni slobode n i odre|en broj α , 0 < α < 1 . Broj α se zove nivo zna~ajnosti. Kvantili tn; α se iz tablica mogu odre|ivati za jednostranu kriti~nu oblast sa nivoom zna~ajnosti α i za dvostranu kriti~nu oblast sa nivoom zna~ajnosti α . Kada je u pitawu jednostrana kriti~na oblast onda je tn; α broj za koji va`i (zbog parnosti gustine) i disperzija D ( X ) =
P ( tn ≥ tn ; α ) = α ,
a kada je re~ o dvostranoj kriti~noj oblasti onda je tn ; α broj za koji va`i
P ( t n ≥ t n ; α ) = P ( t n ≥ t n ; α ) + P ( t n ≤ −t n ; α ) =
α α 2
+
2
=α .
Na dvema slikama dajemo prethodne dve situacije.
Fi{erova (Fisher) F raspodela Neka su slu~ajne promenqive χ n21 i χ n22 nezavisne. Fi{erova F raspodela defini{e se kao raspodela slu~ajne promenqive
101
Fn1 ; n2 =
χ n2 n1 , χ n2 n2 1
2
sa n1 stepeni slobode u broiocu i n2 stepeni slobode u imeniocu. F raspodela zavisi od dva parametra n1 i n2 o ~emu treba voditi ra~una prilikom ~itawa tablice vrednosti ove raspodele. Iz definicije F raspodele se vidi da ako slu~ajna promenqiva ima Z ∗2 2 Studentovu tn raspodelu, onda wen kvadrat tn = 2 ima F raspodelu sa χn n 1 i n stepeni slobode (prvo se navodi stepen slobode broioca, pa imenioca!). Mo`e se pokazati da je gustina F raspodele data funkcijom 0 , x ≤ 0, ⎧ ⎪ n +n ⎪⎪ Γ ⎛ n1 + n2 ⎞ − 1 2 ϕ ( x ) = ⎨ ⎜⎝ 2 ⎟⎠ ⎛ n1 ⎞ n21 −1 ⎛ n1 ⎞ 2 , x < 0. ⎪ ⎛ n ⎞ ⎛ n ⎞ ⎜ n ⎟ x ⎜1 + n x ⎟ 1 2 ⎝ 2 ⎠ ⎝ ⎠ 2 ⎪Γ⎜ ⎟Γ⎜ ⎟ ⎪⎩ ⎝ 2 ⎠ ⎝ 2 ⎠ Dokaz da su o~ekivawe i disperzija ove slu~ajne promenqive redom 2n22 ( n1 + n2 − 2 ) n i D( X ) = E(X ) = 2 2 n2 − 2 n1 ( n2 − 2 ) ( n2 − 4 ) prevazilazi snagu na{eg kusa. Grafik ove gustine za n1 = 6 i n2 = 6 dat je na slede}oj slici. Na istoj slici je data geomertijska interpretacija odre|ivawa kvantila Fn1 ; n2 ;α (broja) za koji, kada je data verovatno}a α , va`i P Fn1 ; n2 ≥ Fn1 ; n2 ;α = α .
(
)
Sredina uzorka X n Neka obele`je X ima o~kivawe E ( X ) = m i disperziju D ( X ) = σ 2 . Posmatrajmo prost slu~ajni uzorak velikog obima n , recimo n ≥ 30 : ( X 1 , X 2 ,..., X n ) . Ovo zna~i da su slu~ajne promenqive X i , i = 1, 2,..., n , nezavisne i svaka ima istu raspodelu kao obele`je X . Na osnovu centralne grani~ne teoreme sredina uzorka X + X 2 + ... + X n Xn = 1 n ima pribli`no normalnu raspodelu. Odredimo parametre ove raspodele, odnosno, odredimo o~ekivawe E X n i disperziju D X n . Imamo redom
( )
102
( )
1 ⎛1 n ⎞ 1 n E X n = E ⎜ ∑ Xi ⎟ = ∑ E ( Xi ) = ⋅ n ⋅ m = m , n ⎝ n i =1 ⎠ n i =1 1 σ2 ⎛1 n ⎞ 1 n D X n = D ⎜ ∑ X i ⎟ = 2 ∑ D ( X i ) = 2 ⋅ n ⋅σ 2 = . n n ⎝ n i =1 ⎠ n i =1
( )
( )
Dakle, ako obele`je X ima N ( m, σ 2 ) raspodelu, onda statistika X n ⎛ σ2 ⎞ ima N ⎜ m, ⎟ raspodelu. n ⎝ ⎠ 2
Disperzija uzorka S n Kao {to znamo, disperzija uzorka
( X 1 , X 2 ,..., X n )
obima n iz normalne populacije, odnosno iz populacije ~ije obele`je X ima N ( m, σ 2 ) raspodelu, jeste statistika
(
)
2 1 n Xi − X n . ∑ n i =1 Bez dokaza navodimo ~iwenicu da slu~ajna promenqiva 2
Sn =
ima χ n2−1
Xi − X n
σ
wih.
2
⎛ X −Xn ⎞ 2 = ∑⎜ i ⎟ ,σ = + σ , 2 σ σ i =1 ⎝ ⎠ raspodelu. Neka ~italac za ve`bu doka`e da svaki od sabiraka 2
n
nS n
ima N ( 0, 1) raspodelu i da postoji jedna linearna veza izme|u
Mo`e se dokazati da ako X ima N ( m, σ 2 ) raspodelu, onda su 2
statistike X n i S n nezavisne slu~ajne promenqive. ⎛ σ2 ⎞ Standardizovan oblik za X n : N ⎜ m, ⎟ je n ⎠ ⎝
Xn −m : N ( 0, 1) . σ n 2
Xn −m nS n i = χ n2−1 nezavisne to na osnovu Kako su statistike σ2 σ n definicije Studentove t raspodele zakqu~ujemo da statistika Xn −m Xn −m σ n n −1 = 2 S n nS n ( n − 1) 2
σ
ima Studentovu tn −1 raspodelu.
( X , X ,..., X ) i (Y , Y ,..., Y ) dva nezavisna prosta uzorka : N ( m; σ ) . Posmatrajmo sredine i disperzije oba uzorka:
Neka su obele`ja X
1
2
n1
1
2
2
103
n2
1 n1 1 X n1 = ∑ X i , Y n2 = n1 i =1 n2 Kako va`i
n2
∑Y , S
∗
i
i =1
(
1 n1 = ∑ X i − X n1 n1 i =1
2 n1
)
2
, S
∗∗
2 n2
1 = n2
∑ (Y − Y ) n2
i =1
i
n2
2
.
⎛ ⎛ σ2 ⎞ σ2 ⎞ i X n1 : N ⎜ m ; Y : N m ; n2 ⎟ ⎜ ⎟, n n ⎝ ⎝ 1 ⎠ 2 ⎠
to je
⎛ ⎛ 1 1 ⎞⎞ X n1 − Y n2 X n1 − Y n2 : N ⎜⎜ 0; σ 2 ⋅ ⎜ + ⎟ ⎟⎟ i : N ( 0; 1) . ⎝ n1 n2 ⎠ ⎠ σ 1 n1 + 1 n2 ⎝ Za odre|ivawe parametara statistike X n1 − Y n2 koristili smo osobinu normalne raspodele koju navodimo bez dokaza: Ako su X : N ( m1 ; σ 12 ) i Y : N ( m2 ; σ 22 ) , onda slu~ajna promenqiva aX + bY ( a i b su brojevi) ima raspodelu N ( am1 + bm2 ; a 2σ 12 + b 2σ 22 ) .
X n1 − Y n2 : N ( 0; 1) nezavisna je od slu~ajne σ 1 n1 + 1 n2
Slu~ajna promenqiva 2
promenqive
n1 S ∗ n1
σ2
2
+
n2 S ∗∗ n2
σ2
. Tako|e su i statistike 2
2
n1 S ∗ n1
σ
=χ
2
2 n1 −1
n2 S ∗∗ n2
i
σ
2
= χ n22 −1
nezavisne pa je na osnovu poznate osobine χ 2 raspodele 2
2
n1 S ∗ n1
+
σ2
n2 S ∗∗ n2
σ2
= χ n21 + n2 − 2 .
Tako dobijamo tn1 + n2 − 2 =
Z
∗
=
χ n2 + n − 2 1
X n1 − Y n2 σ 1 n1 + 1 n2 1
2
n1 + n2 − 2
σ
∗
2
∗∗
n1 S n1 + n2 S n1 + n2 − 2
2
,
n2
ili, posle sre|ivawa,
tn1 + n2 − 2 =
X n1 − Y n2 2
2
n1n2 ( n1 + n2 − 2 ) . n1 + n2
n1 S ∗ n1 + n2 S ∗∗ n2 Materiju iz ovog odeqka kasnije }emo obilato koristiti.
104
7 STATISTI^KA OCENA NEPOZNATIH PARAMETARA OSNOVNOG SKUPA 7.0 POJAM STATISTI^KE OCENE. VRSTE OCENA Statisti~ka ocena nepoznatih parametara raspodele (verovatno}a, o~ekivawe, disperzija), pored statisti~ke provere hipoteza, predstavqa osnovni vid statisti~kog zakqu~ivawa. Statisti~ko ocewivawe po~iwe nekom apriornom informacijom o raspodeli osnovnog skupa (na osnovu histograma ili poligona frekvencija vizuelno se odre|uje oblik raspodele), a zatim se izvode zakqu~ci o vrednostima nepoznatih parametara raspodele na osnovu slu~ajnog uzorka iz posmatranog osnovnog skupa. Na primer, ako je u pitawu P ( λ ) ili N ( m ; σ 2 ) raspodela obele`ja X , onda poznavawe parametra λ , odnosno m i σ 2 , kompletno odre|uje raspodelu obele`ja. Sre}emo se, dakle, sa problemom ocewivawa nepoznatog parametra na osnovu uzorka. Nepoznati parametar raspodele obele`ja X ozna~i}emo sa θ . Na osnovu uzorka ( X 1 , X 2 ,..., X n ) biramo jednu statistiku θˆ = f ( X , X ,..., X ) , kojom ocewujemo parametar θ u slede}em smislu. n
1
2
n
Registrujemo realizovane vrednosti na{eg uzorka. To je niz od n brojeva ( x1 , x2 ,..., xn ) koje je u na{em opitu ,,uzela” n -dimenzionalna slu~ajna promenqiva ( X , X ,..., X ) . Tako statistika θˆ kao funkcija od 1
2
n
n
( X 1 , X 2 ,..., X n ) ,,uzima” jednu vˆn = f ( x1 , x2 ,..., xn ) . Tim brojem vˆn
odre|enu
numeri~ku
vrednost
ocewujemo nepoznati parametar θ .
Izvesno je da ta ocena u sebi sadr`i gre{ku, ali druga~iju od gre{ke u pribli`nom ra~unawu. Naime, ako bi smo celu operaciju ,,uzimawa” uzorka ponovili, dobili bi smo neku drugu realizovanu n -torku ( x1′, x2′ ,..., xn′ ) , a to zna~i i drugu ocenu vˆn′ = f ( x1′, x2′ ,..., xn′ ) nepoznatog parametra θ . Kako su vrednosti koje dobijamo u uzorku nepredvidive u obi~nom deterministi~kom smislu, to je nepredvidiva i vrednost za ocenu parametra θ . Zna~i, ocena je jedna slu~ajna promenqiva θˆn . Ali, kada se uzorak realizuje dobijamo broj vˆn koji vi{e nije slu~ajna promenqiva. Mo`emo samo imati vi{e ili mawe poverewe u broj vˆn kao ocenu nepoznatog parametra θ . Zadatak ocene nepoznatog parametra θ svodi se, dakle, na nala`ewe takvih funkcija uzorka θˆn = f ( X 1 , X 2 ,..., X n ) koje se mogu koristiti kao ,,kvalitetne” (,,dobre”) ocene nepoznatog parametra θ . Ocene nepoznatog parametra θ dele se na ta~kaste i intervalne. Ta~kasta ocena nepoznatog parametra θ je broj vˆn = f ( x1 , x2 ,..., xn ) .
104
Intervalna ocena parametra θ je odre|ena sa dva broja θ1 i θ 2 , koji ~ine granice intervala koji pokriva ocewivani parametar θ . 7.1 KRITERIJUMI IZBORA TA^KASTE OCENE PARAMETARA Osnovna svojstva koja treba da ima ,,dobra” ocena θˆn = f ( X 1 , X 2 ,..., X n ) nepoznatog parametra θ su nepristrasnost, stabilnost i efikasnost. Definicija 1. Ocena θˆn = f ( X 1 , X 2 ,..., X n ) nepoznatog parametra θ naziva se nepristrasna (centrirana) ako je weno matemati~ko o~ekivawe jednako ocewivanom parametru θ , odnosno ako je E θˆ = θ . ▲
( ) n
Nepristrasnost je minimalni zahtev koji se tra`i od ocene. Razlika izme|u matemati~kog o~ekivawa ocene i vrednosti ocewivanog parametra zove se pristrasnost ocene i ozna~ava se sa B θˆn = E θˆn − θ . Za nepristrasnu ocenu je
( ) ( ) B (θˆ ) = 0 . Treba n
razlikovati gre{ku ocene
( )
θˆn − θ , koja je jedna slu~ajna veli~ina, od pristrasnosti B θˆn , koja je za realizovan uzorak konstanta. Definicija 2. Ocena θˆn = f ( X 1 , X 2 ,..., X n ) nepoznatog parametra θ je stabilna ako je
(
)
lim P θ − θˆn < ε = 1, ε > 0 . ▲ n →∞
Ukoliko postoji vi{e nepristrasnih ocena, onda se po pravilu bira ona koja ima najmawu varijansu (disperziju). Definicija 3. Nepristrasna ocena θˆn = f ( X 1 , X 2 ,..., X n ) nepoznatog parametra θ , koja me|u svim nepristrasnim ocenama parametra θ izra~unatim na osnovu uzorka istog obima, ima najmawu varijansu, naziva se efikasna ocena. ▲ U Matemati~koj statistici postoje razra|ene metode za odre|ivawe najefikasnije ocene nepoznatog parametra θ . Ove metode se defini{u pomo}u takozvanih dovoqnih statistika, ali se time ovde ne}emo baviti. Ako za obele`je X imamo slu~ajni uzorak ( X 1 , X 2 ,..., X n ) , onda kao razumnu ocenu matemati~kog o~ekivawa E ( X ) kao sredwe vrednosti,
X 1 + X 2 + ... + X n . Tako|e, za ocene n i standardne devijacije D ( X ) prihvatqivo je uzeti
mo`emo predlo`iti statistiku X n = disperzije D ( X )
(
)
2 2 1 n X − X i S S n n = n . ∑ i = n i1 Primer 1. Neka obele`je X ima o~ekivawe m i disperziju σ 2 . U glavi 6. smo pokazali da je E X n = m , {to zna~i da je uzora~ka sredina 2
statistike S n =
( )
105
X n nepristrasna ocena za nepoznato o~ekivawe m obele`ja X . 2
Primer 2. Disperzija uzorka S n nije centrirana ocena disperzije σ 2 obele`ja X . Re{ewe. Za dokazivawe prethodnog tvr|ewa koristi}emo formulu
E (Y 2 ) = D (Y ) + ⎡⎣ E (Y ) ⎤⎦ koja va`i za svaku slu~ajnu promenqivu Y i da je 2
E ( X i2 ) = E ( X 2 ) , i = 1, 2,..., n . . Sada imamo redom
( )
2⎤ 2⎤ 2 ⎡1 n ⎡1 n E S n = E ⎢ ∑ X i − X n ⎥ = E ⎢ ∑ X i2 − X n ⎥ ⎣ n i =1 ⎦ ⎣ n i =1 ⎦ n n 2 2 1 ⎛1 ⎞ = E ⎜ ∑ X i2 ⎟ − E X n = ∑ E ( X i2 ) − ⎡⎢ D X n + ⎡ E X n ⎤ ⎤⎥ ⎣ ⎦ ⎦ n i =1 ⎣ ⎝ n i =1 ⎠
(
)
( )
(( ) )
=
( )
( )
⎡ D( X ) 2⎤ 2 1 1 ⋅n⋅E( X 2 )− ⎢ + ⎡⎣ E ( X ) ⎤⎦ ⎥ = E ( X 2 ) − ⎡⎣ E ( X ) ⎤⎦ − D ( X ) n n ⎣ n ⎦
= D( X )−
1 n −1 D( X ) = D( X ) n n
n −1 2 σ .▲ n Iz prethodnog primera vidimo kako treba ,,popraviti” disperziju =
2
uzorka S n da bi smo dobili nepristrasnu ocenu parametra σ 2 obele`ja X . Uo~imo statistiku 2 2 n 2 1 n S ′n = Sn = Xi − X n . ∑ n −1 n − 1 i =1
(
)
2
Statistika S ′n zove se popravqena uzora~ka disperzija. Ona je nepristrasna ocena disperzije σ 2 , jer va`i 2 2 n n n −1 2 ⎛ n 2⎞ E S ′n = E ⎜ Sn ⎟ = E Sn = σ =σ2. ⋅ 1 1 1 n n n n − − − ⎝ ⎠ n −1 Primetimo da za veliko n va`i ≈ 1 , tako da kod uzorka velikog n 2 2 obima nema zna~aja koju od statistika S n ili S ′n uzimamo za ocenu disperzije osnovnog skupa sa obele`jem X . Primer 3. Neka je poznato da obele`je X ima o~ekivawe E ( X ) = m0 .
( )
( )
Pokazati da je statistika disperzije D ( X ) .
Dn =
1 n 2 ( X i − m0 ) ∑ n i =1
nepristrasna ocena
Re{ewe. Ako uo~imo da je E ( X i − m0 ) = D ( X i ) = D ( X ) za svako i , tada 2
⎛1 n 2⎞ E ( Dn ) = E ⎜ ∑ ( X i − m0 ) ⎟ ⎝ n i =1 ⎠ n 1 2 = ∑ E ( X i − m0 ) n i =1 1 = ⋅ nD ( X ) = D ( X ) . ▲ n 106
U narednim primer ima dajemo ocene parametara nekih raspodela. Primer 4. Posmatrajmo broj realizacija doga|aja A u n nezavisnih ponavqawa nekog eksperimenta. U pitawu je slu~ajna promenqiva S S n : B ( n ; p ) . Tada je n relativna u~estanost doga|aja A . Pokazati da je n S statistika Pˆ = n nepristrasna ocena verovatno}e p pojavqivawa n doga|aja A u n nezavisnih ponavqawa opita. 1 ⎛S ⎞ 1 Re{ewe. E ⎜ n ⎟ = E ( S n ) = np = p . ▲ n ⎝ n ⎠ n m Napomenimo da je broj pˆ = realizovana statistika Pˆ . U pitawu je n relativna frekvencija doga|aja A u n nezavisnih ponavqawa opita. Primer 5. Kod obele`ja X sa Poasonovom raspodelom P ( λ ) za ocenu parametra λ mo`e se uzeti statistika X n . Re{ewe. 1 ⎛1 n ⎞ 1 n E X n = E ⎜ ∑ X i ⎟ = ∑ E ( X i ) = ⋅ nλ = λ , n ⎝ n i =1 ⎠ n i =1
( )
pa je X n nepristrasna ocena u ovom slu~aju. Primer 6. Mo`e se smatrati da broj kvarova u toku godine za jedan tip ma{ina ima P ( λ ) raspodelu. Oceniti parametar λ na osnovu podataka iz tabele. Broj kvarova ( X )
0 1 2 3 4 i vi{e
∑
Broj ma{ina
35 27 6 3
72
1
Re{ewe. Ocena parametra λ je 0 ⋅ 35 + 1⋅ 27 + 2 ⋅ 6 + 3 ⋅ 3 + 4 ⋅1 52 x 72 = = ≈ 0.722 . 72 72 To zna~i da za raspodelu obele`ja X uzimamo
P( X = k)
( 0.722 ) =
k
⋅ e − 0.722 , k = 0,1, 2,... . k! Primer 7. Neka je obele`je X :U ( 0; θ ) . Pokazati da je statistika 2 X n nepristrasna ocena parametra θ .
Re{ewe. Na osnovu odeqka 3.5, primer 4, zakqu~ujemo da je E ( X ) =
( )
θ
(
)
θ 2
.
, te je , stoga, E 2 X n = θ . ▲ 2 Primer 8. Vreme ~ekawa autobusa u pet dolazaka na istu autobusku stanicu je redom 2.5, 4.4, 7.5, 1.0, 9.2 minuta. Pod pretpostavkom da autobus dolazi u jednakim vremenskim intervalima du`ine θ , oceniti ovaj parametar. 24.6 = 9.84 ≈ 10 minuta Re{ewe. Kako je E 2 X n = θ , to je 2 x5 = 2 ⋅ 5 ocena za vremenski interval dolazaka autobusa . To zna~i da je i E X n =
(
)
107
Primer 9. Neka je X : N ( m ; σ 2 ) . Oceniti nepoznate parametre ove raspodele na osnovu podataka iz tabele Masa plodova grama - ( X )
Sredina intervala - xi
70 – 75 75 – 80 80 – 85 85 – 90 90 – 95 95 – 100 100 – 105 Ukupno
Broj plodova fi
xi fi
2 5 10 17 9 4 3 50
145.0 386.5 825.0 1478.5 832.5 390.0 307.5 4375.0
72.5 77.5 82.5 87.5 92.5 97.5 102.5 -
2
Re{ewe. Ve} smo pokazali da su statistike X n i S ′n =
n 2 Sn n −1
nepristrasne ocene parametara m i σ 2 . U ovom slu~aju imamo
∑ = ∑ k
xn
xf
i =1 i i k i =1
=
fi
4375 = 87.5 , 50
{to je ocena o~ekivawa m . Za ocenu disperzije σ 2 koristimo da je
s
2 n
∑ =
k i =1
(
fi xi − x n n
)
2
=
2500 = 50 , 50
tako da
50 2 s n = 51.02 49 predstavqa ocenu nepoznate disperzije te`ine ploda odre|ene vrste jabuka. Dakle, ovo obele`je ima N ( 87.5; 51.02 ) raspodelu. ▲ 2
s ′n =
Mo`e se pokazati da je nepristrasna (centrirana) ocena nepoznatog parametra θ postojana ili stabilna ako disperzija te ocene te`i nuli kada se obim uzorka n uve}ava, odnosno ako je
( )
( )
2
D θˆn = E ⎡θˆn − E θˆn ⎤ → 0 . ⎣ ⎦ n→∞ Primer 10. Neka je ( X 1 , X 2 ,..., X n ) prost slu~ajni uzorak. Ocewujemo
1 ( X 1 + X 2 ) je nepristrasna (proverite!) za E ( X ) , dok 2 ⎡1 ⎤ 2D ( X ) 1 D (Vn ) = D ⎢ ( X 1 + X 2 ) ⎥ = = D ( X ) ne opada kad n → ∞ . Zna~i da Vn 4 2 ⎣2 ⎦ nije stabilna ocena matemati~kog o~ekivawa. Ako za E ( X ) uzmemo ocenu E ( X ) . Ocena Vn =
D( X ) → 0 , {to zna~i da je X n postojana ocena n n→∞ o~ekivawa, to boqa {to je obim uzorka ve}i (tada je D X n mawe).
( )
X n , imamo da je D X n =
( )
108
Primer 11. Pokazali smo u primeru 3. da 1 n 2 Dn = ∑ ( X i − m0 ) nepristrasna ocena o~ekivawa. Iz n i =1
je
statistika
D ( X − m0 ) 1 ⎡1 n 2⎤ 2 D ( Dn ) = D ⎢ ∑ ( X i − m0 ) ⎥ = 2 ⋅ nD ( X − m0 ) = →0 n →∞ n ⎣ n i =1 ⎦ n vidimo da je Dn stabilna ocena o~ekivawa. ▲ Posvetimo pa`wu izboru efikasnije ocene nepoznatog parametra me|u wegovim nepristrasnim ocenama. Definicija 4. Nepristrasna ocena Yn nepoznatog parametra θ je 2
efikasnija od nepristrasne ocene Z n , ako je D (Yn ) ≤ D ( Z n ) . ▲ Primer
V=
12.
Koja
je
od
U=
ocena
1 2 4 X1 − X 2 + X 3 3 3 3
ili
1 ( X 1 + X 2 + X 3 ) efikasnija za E ( X ) ? 3 Re{ewe. Obe ocene su nepristrasne, odnosno E (U ) = E (V ) = E ( X ) .
Zbog 2
2
2
21 ⎛1⎞ ⎛ 2⎞ ⎛4⎞ D (U ) = ⎜ ⎟ D ( X 1 ) + ⎜ − ⎟ D ( X 2 ) + ⎜ ⎟ D ( X 3 ) = D ( X ) 9 ⎝ 3⎠ ⎝ 3⎠ ⎝3⎠ i
D( X ) ⎛1⎞ , D (V ) = ⎜ ⎟ ⋅ 3D ( X ) = 3 ⎝3⎠ V je efikasnija ocena o~ekivawa. ▲ Uop{timo prethodni primer. n U n = ∑ i =1α i X i , α i ∈ R . Zbog 3
Posmatrajmo
statistiku
E (U n ) = ∑ i =1α i E ( X i ) = E ( X ) ∑ i =1α i n
n
ocena U n }e biti nepristrasna za E ( X ) ako je
∑
n i =1
α i = 1 . Odredimo koja
}e ocena, me|u ovim nepristrasnim, biti najefikasnija. U tom ciqu odredimo disperziju za U n : D (U n ) = ∑ i =1 D (α i X i ) = ∑ i =1α i2 D ( X i ) = D ( X ) ∑ i =1α i2 . n
n
Najefikasnija ocena se dobija kada
∑
n
n i =1
α i2 , pod uslovom
∑
n i =1
α i = 1 , ima 2
1 n ⎛1 n ⎞ najmawu vrednost. Ako se podsetimo da je s = ∑ i =1 xi2 − ⎜ ∑ i =1 xi ⎟ ≥ 0 , n ⎝n ⎠ 2 n
2
1 n n ⎛1 n n n 1 ⎞ α − ⎜ ∑ i =1α i ⎟ ≥ 0 . Zbog ∑ i =1α i = 1 dobijamo ∑ i =1α i2 ≥ . onda je ∑ i =1 i n n ⎝n ⎠ n 1 1 Zna~i ∑ i =1α i2 = je minimum koji se posti`e za α i = , i = 1, 2,..., n . Tada je n n n 1 1 n U n = ∑ i =1 X i = ∑ i =1 X i = X n . n n Zakqu~ak je: me|u svim linearnim funkcijama uzorka koje su nepristrasne ocene o~ekivawa, najefikasnija je sredina uzorka. 109
7.2 OSNOVNE METODE ZA DOBIJAWE TA^KASTE OCENE Metod maksimalne verodostojnosti Do statistika koje nam slu`e za ocene nepoznatih parametara do sada smo, u primerima, dolazili intuitivno. Sada navodimo najop{tiji metod za dobijawe ta~kastih ocena. To je metod maksimalne verodostojnosti sa dobijawe ta~kastih ocena nepoznatih parametara. Ovaj metod zahteva slo`ena izra~unavawa, ali su ocene dobijene ovom metodom u slu~aju uzorka malog obima najboqe. Osnovna ideja je da se izaberu takve ocene za nepoznate parametre koje konkretan uzorak ~ine najverovatnijim. Neka je raspodela obele`ja X ( Pθ ( X = xi ) , i = 1, 2,..., n , ili ϕθ ( x ) ,
−∞ < x < +∞ ) odre|ena parametrom θ ~ija nam vrednost nije poznata. Uvedimo oznaku f ( x ;θ ) = Pθ ( X = x ) u diskretnom, odnosno f ( x ;θ ) = ϕθ ( x ) u neprekidnom slu~aju. Definicija 1. Neka je
( X 1 , X 2 ,..., X n )
prost slu~jni uzorak obele`ja
X . Funkcija verodostojnosti je L (θ ; X 1 , X 2 ,..., X n ) = f ( X 1 ; θ ) ⋅ f ( X 2 ; θ ) ⋅⋅⋅ f ( X n ; θ ) . ▲ Za realizovani uzorak ( x1 , x2 ,..., xn ) je L (θ ; x1 , x2 ,..., xn ) = f ( x1 ; θ ) ⋅ f ( x2 ; θ ) ⋅⋅⋅ f ( xn ; θ ) . Za ocenu θˆ nepoznatog parametra θ uzima se ona vrednost koja daje maksimum funkcije verodostojnosti. Ova odluka se zasniva na uverewu da se ralizuje onaj uzorak ( x1 , x2 ,..., xn ) koji ima najve}u verovatno}u. S
obzirom da se radi o nezavisnim slu~ajnim promenqivim u prostom uzorku ( X 1 , X 2 ,..., X n ) , onda f ( x1 ; θ ) ⋅ f ( x2 ; θ ) ⋅⋅⋅ f ( xn ; θ ) predstavqa tu verovatno}u. Dakle, ako je θˆ ocena dobijena metodom maksimalne verodostojnosti, a θ ma koja druga ocena nepoznatog parametra θ , tada je L θˆ ; x1 , x2 ,..., xn ≥ L θ ; x1 , x2 ,..., xn .
(
) (
)
Pri odre|ivawu maksimuma funkcije L podrazumeva se da je promenqiva nepoznati parametar θ , a da su x1 , x2 , … , xn konstante. Tra`ena ta~kasta ocena θˆ nepoznatog parametra θ je realno re{ewe dL jedna~ine = 0 , uz uslov za maksimum: L′′ θˆ < 0 . dθ Kako funkcije
()
n
n
i =1
i =1
L (θ ; x1 , x2 ,..., xn ) = ∏ f ( xi ; θ ) i ln L (θ ; x1 , x2 ,..., xn ) = ∑ ln f ( xi ; θ ) dosti`u maksimum za isto θ = θˆ , to se iz prakti~nih razloga (jednostavniji ra~un) kod ove metode tra`i maksimum funkcije ln L . Narednim primerima ilustrujemo dobijawe ta~kastih ocena
110
nepoznatog parametra metodom maksimalne verodostojnosti. Primer 1. Jedinica osnovnog skupa ima neko svojstvo A sa nepoznatom verovatno}om p . Oceniti nepoznati parametar p metodom maksimalne verodostojnosti na osnovu n nezavisnih posmatrawa. Re{ewe. Ovde je u pitawu ,,0 – 1” raspodela obele`ja X . Realizovane vrednosti x1 , x2 , … , xn uzimaju vrednosti 0 ako se A nije realizovalo, a 1 ako se realizovalo. Zakon raspodele verovatno}a je 1− x f ( x ; p ) = p x (1 − p ) , x = 0 ili x = 1 , pa je funkcija verodostojnosti n
L= p
x1
(1 − p )
1− x1
⋅p
x2
(1 − p )
1− x2
Sada je ln L =
⋅⋅⋅ p
xn
(1 − p )
1− xn
=p
∑ xi i =1
(1 − p )
n−
n
∑ xi , x ∈ {0,1} . i =1 i
( ∑ x ) ln p + ( n − ∑ x ) ln (1 − p ) . n
n
i =1 i
i =1 i
Prvi izvod po nepoznatoj p je
d ( ln L ) = dp
∑
n
x
i =1 i
p
n − ∑ i =1 xi n
−
1− p
=
m n−m − , p 1− p
gde je m = ∑ i =1 xi broj jedinica u uzorku koje imaju svojstvo A . Daqe je n
d ( ln L ) m n − m = − = 0 ⇔ m (1 − p ) = p ( n − m ) dp p 1− p m ⇔ pˆ = n
∑ ⇔ pˆ =
n
x
i =1 i
n ⇔ pˆ = x n . Primer 2. Neka obele`je X ima Poasonovu respodelu sa nepoznatim parametrom λ , odnosno P ( X = k ) =
λk
e− λ , k = 0,1, 2,... Na osnovu slu~ajnog k! uzorka obima n oceniti nepoznati parametar λ metodom maksimalne verodostojnosti. Re{ewe. Za realizovani uzorak ( x1 , x2 ,..., xn ) je L=
λ x e− λ λ x e− λ
Otuda je ln L = − nλ +
Daqe imamo
λ x e −λ
λ∑
n x i =1 i
e− nλ . ⋅ ⋅⋅⋅ = x1 ! x2 ! xn ! x1 ! x2 !⋅⋅⋅ xn ! 1
2
n
( ∑ x ) ln λ − ∑ n
n
i =1 i
i =1
d ( ln L ) 1 n = 0 ⇔ − n + ∑ i =1 xi = 0 dλ λ 1 n ⇔ λˆ = ∑ i =1 xi n ⇔ λˆ = x n .
111
ln ( xi !) .
Primer 3. Obele`je X ima eksponencijalnu raspodelu sa gustinom f ( x ; θ ) = θ e −θ x . Na osnovu n nezavisnih posmatrawa obele`ja X oceniti nepoznati parametar θ metodom maksimalne verodostojnosti. Re{ewe. Za realizovan uzorak ( x1 , x2 ,..., xn ) funkcija L je −θ x L = θ e −θ x1 ⋅θ e −θ x2 ⋅⋅⋅θ e−θ xn = θ n e ∑ i=1 i . Odredimo maksimum funkcije ln L : n ln L = n ln θ − θ ∑ i =1 xi , n
d ( ln L ) n n = − ∑ i =1 xi = 0 ⇔ dθ θ n n ⇔ = ∑ i =1 xi ˆ θ ⇔ θˆ =
n
∑
n
x
i =1 i
1 ⇔ θˆ = . xn Primer 4. Na}i metodom maksimalne verodostojnosti ocenu nepoznatog parametra p binomne raspodele, ako se u n1 nezavisnih
posmatrawa ispitivano svojstvo pojavilo m1 puta, a u n2 nezavisnih posmatrawa ispitivano svojstvo se pojavilo m2 puta. Re{ewe. Ocenu treba dati na osnovu dva nezavisna uzorka. U prvom uzorku slu~ajna veli~ina S n1 ima vrednost x1 = m1 , a u drugom uzorku Sn2 ima vrednost x2 = m2 . Zakon raspodele verovatno}a je
⎛n⎞ n− x f ( x ; p ) = ⎜ ⎟ p x (1 − p ) za x = 0,1, 2,..., n . ⎝ x⎠ Otuda je funkcija verodostojnosti L = f ( x1 ; p ) f ( x2 ; p ) = f ( m1 ; p ) f ( m2 ; p ) = ⎛n ⎞ n −m ⎛ n ⎞ n −m = ⎜ 1 ⎟ p m1 (1 − p ) 1 1 ⎜ 2 ⎟ p m2 (1 − p ) 2 2 . ⎝ m1 ⎠ ⎝ m2 ⎠ Logaritam funkcije verodostojnosti je ⎡⎛ n ⎞⎛ n ⎞ ⎤ ln L = ln ⎢⎜ 1 ⎟⎜ 2 ⎟ ⎥ + ( m1 + m2 ) ln p + ⎡⎣( n1 + n2 ) − ( m1 + m2 ) ⎤⎦ ln (1 − p ) . ⎣⎝ m1 ⎠⎝ m2 ⎠ ⎦ Daqe odre|ujemo maksimum funkcije ln L : d ( ln L ) m1 + m2 ( n1 + n2 ) − ( m1 + m2 ) = − , dp p 1− p d ( ln L ) m + m2 .▲ = 0 ⇔ pˆ = 1 dp n1 + n2 Sn + Sn2 Ocena pˆ je realizacija statistike Pˆ = 1 . Statistika Pˆ je, n1 + n2 ina~e, nepristrasna ocena nepoznatog parametra p :
112
( )
( )
⎛ S n + S n2 ⎞ E Sn1 + E Sn2 n p + n2 p E Pˆ = E ⎜ 1 = 1 = p. ⎟= n1 + n2 n1 + n2 ⎝ n1 + n2 ⎠ Navodimo jo{ jedan, ali ne i jedini, metod ocewivawa nepoznatog parametra raspodele verovatno}a.
( )
Metod najmawih kvadrata Metod maksimalne verodostojnosti ocewivawa nepoznatog parametra, bez obzira na kvalitet dobijenih ocena, zbog komplikovanih izra~unavawa, nema tako veliku prakti~nu primenu kao metod najmawih kvadrata. Metodu najmawih kvadrata daje se prednost zbog jednostavnih izra~unavawa. U ocewivawu nepoznatog parametra ideja ovog metoda je slede}a: ocena nepoznatog parametra treba da uzme onu vrednost koja daje minimum sume kvadrata odstupawa izme|u ocene i parametra za sva posmatrawa. Neka je X posmatrano diskretno ili neprekidno obele`je sa zakonom raspodele f ( x ; θ ) , gde je θ nepoznati parametar. Neka je slu~ajni uzorak ( X , X ,..., X ) , a θˆ ocena parametra θ koja zavisi od broja 1
2
n
posmatrawa n i realizovanog uzorka
( x1 , x2 ,..., xn ) ,
odnosno θˆ = θˆ ( xi ) .
Treba minimizati sumu n
⎡θ − θˆ ( xi ) ⎤ . S = min ˆ ∑⎣ ⎦ θ
2
i =1
Ova metoda se, dakle, sastoji u tra`ewu ocene koja je najbli`a stvarnoj vrednosti parametra. Uzima se u obzir kvadrat odstupawa svih vrednosti bez obzira na znak, pri ~emu se ve}i zna~aj daje ve}im odstupawima. Primer 1. Metodom najmawih kvadrata oceniti o~ekivawe m obele`ja X na osnovu uzorka ( X 1 , X 2 ,..., X n ) . Re{ewe. Treba na}i minimum sume n
S = ∑ ( xi − m ) . 2
i =1
Ra~unamo n n dS = 0 ⇔ − 2∑ ( xi − m ) = 0 ⇔ ∑ xi = nm ⇔ mˆ = x n . ▲ dm i =1 i =1 Ovaj metod, kao {to }e se kasnije videti, ima veliku primenu u regresionoj analizi.
113
7.3 INTERVALNE OCENE PARAMETARA RASPODELE Metode za dobijawe ta~kaste ocene θˆ nepoznatog parametra θ ne omogu}uju de se odredi veli~ina gre{ke kada stvarnu vrednost θ zamenimo wegovom ocenom θˆ . Zbog toga je u mnogim slu~ajevima zgodnije koristiti intervalnu ocenu nepoznatog parametra θ , jer ona omogu}uje da se odredi ta~nost i pouzdanost ocene. Intervalne ocene su boqe u slu~aju uzorka maweg obima, kada su ta~kaste ocene malo pouzdane. Ta~kasta ocena θˆ = f ( X 1 , X 2 ,..., X n ) nepoznatog parametra θ je ,,boqa” {to je razlika θ − θˆ mawa. Kao ,,mera” kvaliteta ta~kaste ocene mo`e nam poslu`iti pozitivan broj ε , koji se naziva ta~nost ocene, i za koji je θ − θˆ < ε . Ocena θˆ je ta~nija {to je ε > 0 mawe. Naravno, ta~nost ε zavisi od obima uzorka. Intervalno ocewivawe nepoznatog parametra θ svodi se na odre|ivawe dve statistike θˆ1 = f1 ( X 1 , X 2 ,..., X n ) i θˆ2 = f 2 ( X 1 , X 2 ,..., X n )
(
)
(
)
takve da je P θˆ1 < θˆ2 = 1 i P θˆ1 < θ < θˆ2 = β , gde je β zadata verovatno}a koja se naziva pouzdanost ili verovatno}a poverewa. Verovatno}a 1 − β je rizik. Obi~no se uzima da je β ∈ {0.90, 0.95, 0.99} uz wemu opre~an zahtev
(
) {to je mogu}e mawe. Izlaz iz opre~nih zahteva da je E (θˆ − θˆ ) {to mawe, tj. da je interval ⎡⎣θˆ , θˆ ⎤⎦ {to ,,u`i” i
da je E θˆ2 − θˆ1 o~ekivawe
2
1
1
2
nivo poverewa β {to bli`i jedinici, tra`i se u pove}awu obima uzorka. Kada se uzorak realizuje onda dobijamo brojeve ( x1 , x2 ,..., xn ) i statistike θˆ = f ( X , X ,..., X ) i θˆ = f ( X , X ,..., X ) postaju odre|eni 1
1
1
2
n
2
2
1
2
n
brojevi vˆ1 = f1 ( x1 , x2 ,..., xn ) i vˆ2 = f 2 ( x1 , x2 ,..., xn ) , a slu~ajni interval ⎡⎣θˆ1 , θˆ2 ⎤⎦ postaje odre|eni interval [ vˆ1 , vˆ2 ] . Ovde je va`no uo~iti da se nepoznati parametar θ ne nalazi u intervalu [ vˆ1 , vˆ2 ] sa verovatno}om β . Brojevi vˆ1 ,
vˆ2 i θ su konstante, a ne slu~ajne veli~ine, pa je verovatno}a doga|aja
θ ∈ [ vˆ1 , vˆ2 ] ili nula ili jedan. Dakle, β je verovatno}a sa kojom slu~ajni interval ⎡⎣θˆ1 , θˆ2 ⎤⎦ prekriva nepoznati parametar θ . Ako vi{e puta realizujemo uzorak ( X 1 , X 2 ,..., X n ) dobijamo realizacije slu~ajnog intervala ⎡⎣θˆ1 , θˆ2 ⎤⎦ . Mo`emo re}i da pribli`no 100 β % ovih realizacija prekrivaju nepoznati parametar θ . Navodimo sada neke primere odre|ivawa intervala koji sa pouzdano{}u β sadr`e nepoznati parametar θ .
114
Interval poverewa za nepoznatu verovatno}u r Interesuje nas realizacija doga|aja A sa verovatno}om P ( A ) = p . Statistika S n = X 1 + X 2 + ... + X n je broj
realizacija doga|aja A u n S n − np nezavisnih ponavqawa opita. Na osnovu CGT statistika Z ∗ = np (1 − p ) ima pribli`no N ( 0; 1) raspodelu. Za svaki zadati nivo poverewa β mo`emo
(
odrediti
broj
zβ
takav
)
P Z ∗ ≤ zβ = 2Φ ( zβ ) = β odre|ujemo
da
je
(
)
P Z ∗ ≤ zβ = β .
Iz
z β , a iz nejedna~ine − z β ≤ Z ∗ ≤ z β
interval u kome se nalazi nepoznata verovatno}a p . Primer 1. Zasa|eno je 79 sadnica retke vrste drve}a i konstatovano je da se 3 ,,nije primilo”. Na}i 95% ( β = 95 ) interval za nepoznatu verovatno}u p = P (,,drvo se osu{ilo”). Re{ewe. Ovde je n = 79 i S79 = 3 . Tra`imo broj z β za koji je P Z ∗ ≤ z β = 0.95 ,
(
sa Z ∗ =
S79 − 79 p
79 p (1 − p )
(
)
)
P Z ∗ ≤ z β = 2Φ ( z β ) = 0.95 je z β = 1.96 , a iz
. Iz
nejedna~ine Z ∗ ≤ z β ⇔ ( Z ∗ ) ≤ z β2 odre|ujemo interval u kome se nalazi 2
nepoznati parametar p slede}im postupkom: 2
⎛ 3 − 79 p ⎞ ⎜ ⎟ ≤ 1.962 ⇔ 32 − 2 ⋅ 3 ⋅ 79 p + 792 p 2 + 1.962 ⋅ 79 p 2 − 1.962 ⋅ 79 ⋅ p ≤ 0 ⎜ 79 p (1 − p ) ⎟ ⎝ ⎠ ⇔ 6544.486 p 2 − 777.486 p + 9 ≤ 0 ⇔ p ∈ [ 0.013; 0.106] . Koristili smo da je znak funkcije f ( x ) = ax 2 + bx + c isti kao znak −b ± b 2 − 4ac , gde je znak 2a funkcije suprotan od znaka koeficijenta a . U na{em slu~aju je bilo p1 = 0.01299 ≈ 0.013 i p2 = 0.1058 ≈ 0.106 .
koeficijenta a , osim izme|u realnih nula x1,2 =
Interval poverewa za sredwu vrednost osnovnog skupa pri poznatoj disperziji Posmatramo osnovni skup sa normalnom raspodelom N ( m ; σ 2 ) , pri ~emu je o~ekivawe m nepoznato, a varijansa σ 2 poznata. Podsetimo se da, ⎛ σ2 ⎞ ako X i : N ( m ; σ 2 ) , i = 1, 2,..., n , onda uzora~ka sredina X n ima N ⎜ m ; ⎟ n ⎠ ⎝ raspodelu. Stoga za ocenu nepoznatog parametra m izvla~imo slu~ajni uzorak. Na osnovu realizacije ovog uzorka izra~unavamo uzora~ku sredinu x n kao realizaciju nepoznatog parametra m , odnosno
115
k ⎛ fx ⎞ 1 n ∑ =1 i i ⎟ i . mˆ = x n = ∑ xi ⎜ x n = k ⎟ n i =1 ⎜ f ∑ i=1 i ⎠ ⎝ Iz prethodnog vidimo da se interval poverewa u ovom slu~aju formira pomo}u ⎛ Xn −m ⎞ P⎜ n ≤ zβ ⎟ = β . ⎜ σ ⎟ ⎝ ⎠ Sam interval poverewa se odre|uje na slede}i na~in: Xn −m σ n ≤ zβ ⇔ X n − m ≤ zβ σ n
⇔ − zβ
σ n
⇔ X n − zβ
≤ X n − m ≤ zβ
σ n
σ n
≤ m ≤ X n + zβ
σ n
.
Kako je
⎛ Xn −m ⎞ σ σ ⎞ ⎛ ≤ m ≤ X n + zβ P⎜ n ≤ zβ ⎟ = β ⇔ P ⎜ X n − zβ ⎟=β , ⎜ σ ⎟ n n⎠ ⎝ ⎝ ⎠ vidimo da
σ σ ⎤ ⎡ m ∈ ⎢ X n − zβ ; X n + zβ ⎥. n n⎦ ⎣ Primetimo da u ovom slu~aju du`ina intervala poverewa nije slu~ajna veli~ina ve} broj 2 z β
σ
. Iz ovog izraza je jasno kako pove}awe n obima uzorka n uti~e na su`ewe intervala, a pove}awe nivoa poverewa β , odnosno pove}awe broja zβ , na pro{irewe intervala poverewa. Primer 2. Da bi se ocenila prose~na masa paketi}a putera cele proizvodwe izmerena je masa 10 paketi}a putera u gramima i dobijen je realizovan uzorak: 251.5, 248.7, 250.7, 250, 250.9, 249.3, 249, 251, 251.2, 249.1. Pretpostavqa se da je raspodela mase paketi}a normalna sa standardnom devijacijom σ = 2.5 i nepoznatim o~ekivawem m . Ocenu prose~ne mase paketi}a dati sa pouzdano{}u β = 0.95. Re{ewe. Realizovana uzora~ka sredina je x n =
Daqe
je
σ n
=
2.5 = 0.79 . 10
∑x
i
10
=
2501.4 = 250.14 . 10
⎛ Xn −m ⎞ P⎜ n ≤ z β ⎟ = β = 2Φ ( z β ) ⎜ σ ⎟ ⎝ ⎠
Iz
Φ ( z β ) = 0.475 i z β = 1.96 . Kako je z β
σ
n
je
= 1.96 ⋅ 0.79 = 1.55 dobijamo da
σ σ ⎤ ⎡ ; X n + zβ ⎢ X n − zβ ⎥ u ovom slu~aju ima realizaciju [ 248.59; 251.69] , n n⎦ ⎣ {to je interval poverewa za nepoznato o~ekivawe. Zna~i da se sa sigurno{}u od 95% mo`e tvrditi: m = x n ± z β σ n = 250.14 ± 1.55 .
(
116
)
Primer 3. Na}i, sa pouzdano{}u od 99%, ta~nost kojom uzora~ka sredina ocewuje o~ekivawe osnovnog skupa – prose~nu masu pili}a, na osnovu slu~ajnog uzorka obima 100, ako se zna da je varijansa mase pili}a 0.3. Re{ewe. Interval poverewa za matemati~ko o~ekivawe (sredwu σ σ ⎤ ⎡ ; X n + zβ vrednost) je ⎢ X n − z β ⎥ . Vidimo da je granica apsolutne n n⎦ ⎣ gre{ke (ta~nost) zamene o~ekivawa m uzora~kom sredinom X n data izrazom z β
σ
n
σ
, jer je − z β
n
≤ X n − m ≤ zβ
σ
n
.
⎛ Xn −m ⎞ β 0.99 = 0.495 , pa Iz P ⎜ n ≤ z β ⎟ = β = 2Φ ( z β ) imamo Φ ( z β ) = = ⎜ σ ⎟ 2 2 ⎝ ⎠
σ2
je z β = 2.58 . Daqe imamo
n
0.3 = 0.055 , tako da je tra`ena ta~nost 100
=
σ
= 2.58 ⋅ 0.055 = 0.1419 . ▲ n Primer 4. Odrediti 99% interval poverewa za sredwu visinu velike populacije qudi za koju se ,,zna” da je standardno odstupawe σ = 16 cm , ako zβ
je prose~na visina 100 slu~ajno odabranih qudi x100 = 170 cm . Re{ewe. Kako je z0.99 = 2.58 realizacija intervala
σ ⎡ ; ⎢ X n − zβ n ⎣ 15 15 ⎡ ;175 + 2.58 postaje ⎢175 − 2.58 100 100 ⎣
X n + zβ
σ ⎤ ⎥ n⎦
⎤ ⎥ , ili pribli`no [171; 179] . ⎦
Interval poverewa za sredwu vrednost osnovnog skupa pri nepoznatoj varijansi Kada se posmatra osnovni skup onda naj~e{}e disperzija σ 2 nije poznata, tako da su rezultati ovog odeqka veoma va`ni za primenu. Statistika koja se koristi za odre|ivawe intervala poverewa nepoznatog o~ekivawa m pri nepoznatoj varijansi je Xn −m tn −1 = n −1 . Sn Podsetimo se (odeqak 6.6) da je ova statistika formirana pomo}u 2
Xn −m nS n : N ( 0; 1) i = χ n2−1 2 σ σ n kao
Xn −m
σ nS
2 n
σ2
n
( n − 1)
=
Xn −m n − 1 = tn −1 . Sn
Za dati nivo poverewa β iz tablica ~itamo broj tn −1; 1− β takav da je
117
P ( tn −1 ≤ tn −1; 1− β ) = β ili
⎛ Xn −m ⎞ P⎜ n − 1 ≤ tn −1; 1− β ⎟ = β . ⎜ Sn ⎟ ⎝ ⎠ Izraz u zagradi posledwe jednakosti se lako transformi{e (uradite to), tako da dobijamo ⎛ Sn Sn ⎞ P ⎜ X n − tn −1; 1− β ≤ m ≤ X n + tn −1; 1− β ⎟=β. n −1 n −1 ⎠ ⎝ Odavde vidimo da je 100 β % dvostrani interval poverewa za m dat sa ⎡ ⎢ X n − tn −1; 1− β ⎣
Sn ; X n + tn −1; 1− β n −1
Sn ⎤ ⎥. n −1 ⎦ Sn ,a n −1
Napomenimo da je u ovom slu~aju du`ina intervala 2 tn −1; 1− β
Sn , slu~ajna promenqiva, odnosno varira n −1 od jednog do drugog realizovanog uzorka. Voditi ra~una da se ovde tn −1; 1− β
time i ta~nost ocene tn −1; 1− β
~ita iz tablica za dvostrani interval poverewa. 2
Primetimo da za ,,popravqenu” uzora~ku disperziju S ′n va`i 2 n 2 Sn S ′n = . S ′n = S n , odnosno n −1 n −1 n Primer 5. Na osnovu devet nezavisnih merewa nekog objekta izra~unata je prose~na masa x9 = 42.319 gr i ,,korigovana” uzora~ka standardna devijacija s′n = 5 . Treba oceniti stvarnu vrednost izmerene veli~ine sa nivoom poverewa od 95%. Re{ewe. Kako je β = 0.95 , 1 − β = 0.05 i n − 1 = 8 imamo redom: s9 s′9 5 t8; 0.05 = 2.31 , = = = 1.67 . Stoga realizacija intervala poverewa 8 9 3 ⎡ Sn Sn ⎤ ; X n + tn −1; 1− β ⎢ X n − tn −1; 1− β ⎥ n −1 n −1 ⎦ ⎣ u na{em slu~aju glasi [ 42.319 − 2.31 ⋅1.67; 42.319 + 2.31⋅1.67 ] , tako da je 38.461 ≤ m ≤ 46.177 . Primer 6. Pretpostavimo da je vodeni talog jednog lokaliteta slu~ajna promenqiva X sa normalnom raspodelom. U toku osam godina registrovane su vrednosti taloga : 34.1, 33.7, 27.4, 31.1, 30.9, 35.2, 28.4, 32.1. Odrediti 90% interval poverewa za E ( X ) = m .
Re{ewe. U ovom slu~aju je n = 8 , β = 0.9 , 1 − β = 0.10 , t7; 0.10 = 1.89 , 2 1 8 2 1 x − x 34.12 + 33.7 2 + ... + 32.12 ) − 31.62 = 7.5 . 8 = ( ∑ i i =1 8 8 Dakle, 90% interval poverewa za m je ⎡31.6 − 1.89 7.5 7 ; 31.6 + 1.89 7.5 7 ⎤ , ili pribli`no [ 29.6; 33.6] . ⎣ ⎦ 2
x8 = 31.6 i s 8 =
118
Interval poverewa za nepoznatu disperziju σ 2 Disperzija obele`ja X : N ( m ; σ 2 ) meri homogenost tog obele`ja u populaciji. U nizu situacija u primeni va`na je samo gorwa disperzije. U ovom slu~aju interval poverewa tra`imo u obliku
granica ⎡⎣ 0; σˆ 2 ⎤⎦ .
2
Podsetimo se da statistika broj χ
2 n −1; β
za koji je P ( χ
2 n −1
nS n
σ
2
≥χ
ima χ n2−1 raspodelu. Iz tablica ~itamo
2 n −1; β
⎛ nS 2n ⎞ ) = β ili P ⎜⎜ σ 2 ≥ χ n2−1; β ⎟⎟ = β . Odavde ⎝ ⎠
dobijamo 2 ⎛ 2 nS n ⎞ ⎟=β . P ⎜σ ≤ 2 ⎜ ⎟ χ − β n 1; ⎝ ⎠ Zna~i da je 100 β % jednostrani interval poverewa za disperziju 2 ⎡ nS n ⎤ ⎢ 0; 2 ⎥ . ⎢⎣ χ n −1; β ⎥⎦ Ako treba odrediti dvostrani interval poverewa za disperziju [σˆ1 ; σˆ 2 ] , onda za dati nivo poverewa β iz tablica ~itamo brojeve χ 2 1+ β
n −1;
i χ
2 n −1;
1− β 2
.
Sa slike je jasno da za ove brojeve va`i ⎛ ⎞ P ⎜ χ 2 1+ β ≤ χ n2−1 ≤ χ 2 1− β ⎟ = β , n −1; 2 ⎠ ⎝ n −1; 2 odnosno 2 ⎛ 2 ⎞ nS n P ⎜ χ 1+ β ≤ 2 ≤ χ 2 1− β ⎟ = β . n −1; ⎜ n −1; 2 ⎟ σ 2 ⎠ ⎝ Dakle, dvostani interval poverewa za σ 2 sa nivoom poverewa β , je
⎡ 2 2 nS n ⎢ nS n ; 2 ⎢χ2 χ 1+ β ⎢⎣ n −1; 1−2β n −1; 2
119
⎤ ⎥ ⎥. ⎥⎦
2
Primer 7. U 12 merewa neke fizi~ke veli~ine jednim priborom 2
dobijena je realizovana uzora~ka disperzija s12 = 0.36 . Odrediti ta~nost pribora sa 95% pouzdanosti. Na}i nepristrasnu ocenu varijanse merewa. Re{ewe. Zadatak se svodi na nala`ewe intervala poverewa za σ 2 . U 1− β 1+ β ovom slu~aju je n − 1 = 11 , β = 0.95 , = 0.025 , = 0.975 . Iz tablica 2 2 2 2 nalazimo χ11; 0.025 = 21.9 , χ11; 0.975 = 3.82 . Realizacija intervala
⎡ 2 2 nS n ⎢ nS n ; 2 ⎢χ2 χ 1+ β 1− β ⎢⎣ n −1; 2 n −1; 2
⎤ ⎥ ⎥ ⎥⎦
⎡12 ⋅ 0.36 12 ⋅ 0.36 ⎤ ; je ⎢ , ili ⎡⎣ 0.197 ≤ σ 2 ≤ 1.131⎤⎦ . ⎥ 3.82 ⎦ ⎣ 21.9 2 12 2 12 Nepristrasna ocena varijanse je s′12 = s12 = 0.36 = 0.393 . 11 11 2 Primer 8. Neka obele`je X ima N ( m ; σ ) raspodelu. Uzorak obima 15 daje
∑
15 k =1
xk = 15 i
∑
15 k =1
xk2 = 27.3 . Na}i jednostrani i dvostrani
interval poverewa za σ 2 sa pouznano{}u 0.90. 2
1 15 27.3 ⎛ 1 15 ⎞ Re{ewe. Iz uslova zadatka je s = ∑ xk2 − ⎜ ∑ xk ⎟ = − 1 = 0.82 . 15 k =1 15 ⎝ 15 k =1 ⎠ 1− β 1+ β 2 2 Daqe je β = 0.90 , χ14; = 0.05 , = 0.95 , χ14; 0.90 = 7.79 , 0.05 = 23.7 i 2 2 2 χ14; 0.95 = 6.57 . 2 15
⎡ 15 ⋅ 0.82 ⎤ Realizacija jednostranog intervala poverewa je ⎢ 0; ili 7.79 ⎥⎦ ⎣ ⎡15 ⋅ 0.82 15 ⋅ 0.82 ⎤ ⎡⎣ 0 ≤ σ 2 ≤ 1.58⎤⎦ , a dvostranog intervala poverewa ⎢ ; ili 6.57 ⎥⎦ ⎣ 23.7 ⎡⎣ 0.67 ≤ σ 2 ≤ 1.87 ⎤⎦ .
7.4 ODRE\IVAWE OBIMA UZORKA Kao {to smo na po~etku ovog poglavqa rekli, opre~ni zahtevi da je interval poverewa ⎡⎣θˆ1 ; θˆ2 ⎤⎦ nepoznatog parametra θ {to u`i, a nivo
poverewa β {to ve}i, mire se pove}awem obima uzorka. Razmatramo nekoliko slu~ajeva odre|ivawa obima uzorka u kojima su unapred zadati nivo poverewa β i granica 2ε > 0 {irine intervala ⎡⎣θˆ1 ; θˆ2 ⎤⎦ . Obim uzorka za ocenu sredwe vrednosti pri poznaroj disperziji Ve} smo videli da u ovom slu~aju interval poverewa za nepoznato o~ekivawe m , pri N ( m ; σ 2 ) raspodeli obele`ja X , odre|ujemo pomo}u
120
σ σ ⎤ ⎡ ≤ m ≤ X n + zβ ⎢ X n − zβ ⎥. n n⎦ ⎣ Iz zapisa intervala vidimo da je wegova {irina 2ε jednaka 2z β σ
n.
Odavde dobijamo da je potreban obim uzorka ⎡ z β2 ⋅ σ 2 ⎤ n = ⎢ 2 ⎥ +1, ⎣⎢ ε ⎦⎥ gde je ε ta~nost ili granica apsolutne gre{ke kada nepoznati parametar m zamenimo sredinom intervala, odnosno uzora~kom sredinom X n (izraz u sredwoj zagradi je ceo deo navedene veli~ine). Primer 1. Odrediti koliko treba uzeti fla{a uqa iz dnevne proizvodwe, da bi se ocenila prose~na koli~ina uqa u fla{i sa pouzdano{}u β = 0.95 . Poznato je da je disperzija σ 2 = 0.2l 2 . Ta~nost dobijene ocene treba da bude: a) ε = 0.1l , b) ε = 0.2 l Re{ewe .a) Iz ⎛ Xn −m ⎞ P⎜ n ≤ z β ⎟ = β = 2Φ ( z β ) ⎜ σ ⎟ ⎝ ⎠ je zβ = 1.96 , tako da dobijamo
⎡ z β2 ⋅ σ 2 ⎤ ⎡1.962 ⋅ 0.2 ⎤ n = ⎢ 2 ⎥ +1 = ⎢ ⎥ + 1 = 77 . 2 ⎣ 0.1 ⎦ ⎣⎢ ε ⎦⎥ b) Iz istog obrasca kao malo~as imamo ⎡1.962 ⋅ 0.2 ⎤ n=⎢ ⎥ + 1 = 20 . 2 ⎣ 0.2 ⎦ Obim uzorka za ocenu sredwe vrednosti pri nepoznatoj disperziji U ovom slu~aju se prvo preliminarnim uzorkom obima n0 ocewuje 2
nepoznata disperzija uzora~kom disperzijom S n0 . Ako se podsetimo da smo odgovaraju}i interval poverewa dobili iz ⎛ Sn Sn ⎞ ≤ m ≤ X n + tn −1; 1− β P ⎜ X n − tn −1; 1− β ⎟=β , n −1 n −1 ⎠ ⎝ Sn onda je ta~nost ε = tn −1; 1− β , tako da je potreban obim uzorka u ovom n −1 slu~aju 2 ⎡t2 ⎤ n −1; 1− β S n0 ⎢ ⎥+2. n= ε2 ⎢ ⎥ ⎣ ⎦ Ukoliko koristimo popravqenu uzora~ku disperziju, onda zbog Sn S ′n = , obim uzorka odre|ujemo pomo}u n −1 n 2 ⎡t2 ′ ⎤ n −1; 1− β S n0 ⎥ +1. n=⎢ ε2 ⎢ ⎥ ⎣ ⎦
121
Ukoliko je izra~unati obim uzorka n mawi od obima preliminarnog uzorka n0 ocena nepoznatog parametra se dobija na osnovu ve} realizovanog uzorka. Ako to nije slu~aj, onda se moraju izvr{iti dodatna posmatrawa kako bi se uzorak pro{irio do tra`enog obima n . Za ocenu nepoznate disperzije koristi se izra~unata vrednost s′n0 iz preliminarnog uzorka. Primer 2. Na osnovu devet nezavisnih merewa dobijena je popravqena uzora~ka standardna devijacija s′9 = 5 . Odrediti minimalan broj merewa da bi se sa pouzdano{}u β = 0.95 moglo tvrditi da granica gre{e ta~kaste ocene ne{e biti ve}a od 2. Re{ewe. Imamo da je tn −1; 1− β = t8; 0.05 = 2.31 . Zna~i 2 ⎡t2 ′ ⎤ ⎡ 2.312 ⋅ 52 ⎤ n −1; 1− β S n0 ⎥ + = 1 n=⎢ ⎢ 22 ⎥ + 1 = [14.44] + 1 = 15 . ε2 ⎢ ⎥ ⎣ ⎦ ⎣ ⎦ Zakqu~ujemo da treba izvr{iti dodatnih {est merewa.
122
8 TESTIRAWE STATISTI^KIH HIPOTEZA 8.0 STATISTI^KA HIPOTEZA. STATISTI^KI TEST U matemati~koj statistici je osnovni problem da se na osnovu uzorka oceni kakvu raspodelu u celoj populaciji ima posmatrano obele`je. Svaka pretpostavka koja se odnosi na tu raspodelu sove se (statisti~ka) hipoteza, a postupak wenog verifikovawa pomo}u uzorka zove se (statisti~ki) test. Statistika kojom se koristimo u tom verifikovawu zove se test statistika. Mogu}i su slu~ajevi kada je oblik zakona raspodele poznat, ali ne znamo wegove parametre. Ako ima osnova za pretpostavku da nepoznati parametar θ ima vrednost θ 0 , tada postavqamo hipotezu: θ = θ 0 . Ovakve hipoteze sa nazivaju parametarske. Hipoteze koje se odnose na to da posmatrano obele`je ima jednu potpuno odre|enu raspodelu zovu se neparametarske hipoteze. Uporedo sa postavqenom hipotezom razmatra se i woj suprotna ili alternativna hipoteza. Osnovna (postavqena) hipoteza se naziva nulta hipoteza i obele`ava sa H 0 . U woj se tvrdi da ne postoje zna~ajne razlike izme|u veli~ina koje upore|ujemo (parametri raspodele ili funkcije raspodele) i da do tih razlika dolazi iz slu~ajnih razloga (slu~ajne oscilacije uzorka). Suprotna hipoteza nultoj hipotezi H 0 obele`ava se sa H1 . U slu~aju odbacivawa nulte hipoteze H 0 prihvata se woj alternativna hipoteza H1 . Statisti~ke parametarske hipoteze su proste ako sadr`e samo jednu pretpostavku u odnosu na posmatrani parametar kojim je raspodela potpuno odre|ena. Takva je hipoteza H 0 : posmatrano obele`je ima o~ekivawe m = 2 . Parametarska hipoteza se naziva slo`enom ako se sastoji iz kona~no ili beskona~no mnogo prostih hipoteza. Na primer, hipoteza H1 : m > 2 je slo`ena. Postavqena hipoteza H 0 mo`e da bude ispravna ili pogre{na. Ova verifikacija se vr{i statisti~kom proverom hipoteze. Kao rezultat te provere mo`e se dobiti i pogre{an odgovor i to u dva slu~aja: 10 Da bude odba~ena ispravna hipoteza, kada se ~ini gre{ka prve vrste. Dakle, H 0 odbacujemo kada za to nemamo razloga. 20 Da ne bude odba~ena neispravna hipoteza, kada se ~ini gre{ka druge vrste. Zna~i, H 0 prihvatamo kada je neta~na. Verovatno}u gre{ke prve vrste ozna~ava}emo sa α , a verovatno}u gre{ke druge vrste sa β . Kada nultu hipotezu ne odbacujemo ne zna~i da se ona prihvata bezuslovno. Nulta hipoteza se koristi kao probna, dok god se ne zameni boqom ili se ne odbaci. Hipoteza se kategori~ki odbacuje, dok se weno
123
neodbacivawe prima sa rezervom. Ka`e se: nema razloga da se nulta hipoteza odbaci. U testirawu statisti~ke hipoteze koja se odnosi na parametar θ , va`no je uvek odrediti skup wegovih mogu}ih vrednosti Θ = {θ } . Skup Θ se zove skup prihvatqivih vredosti za θ i zavisi od konkretnog zadatka. Ako je Θ = {θ 0 , θ1} , onda testiramo nultu prostu hipotezu H 0 (θ = θ 0 ) alternativne proste H1 (θ = θ1 ) . Test se opisuje jednom statistikom θˆn = f ( X 1 , X 2 ,..., X n ) (takozvana test statistika), koja je neka
protiv
ocena nepoznatog parametra θ , dok je obim uzorka n proizvoqan ali fiksiran. Test je, daqe, jednozna~no odre|en skupom brojeva C koji se zove kriti~na oblast testa za H 0 . Odlu~ujemo se po slede}em pravilu: ako pomo}u ,,uzetog” uzorka dobijemo broj vˆn = f ( x1 , x2 ,..., xn ) koji ,,pada” u
kriti~nu oblast C , odnosno ako je vˆn ∈ C , onda H 0 (θ = θ 0 ) odbacujemo a prihvatamo H1 (θ = θ1 ) . Ako je, pak,
vˆn ∉ C , onda nemamo razloga da
H 0 (θ = θ 0 ) odbacimo; ka`e se: uzorak ne protivure~i hipotezi.
Pojasnimo gre{ke prve i druge vrste. Ako sa PH 0
ozna~imo
verovatno}u koja se ra~una pod pretpostavkom da je H 0 ta~na, onda su verovatno}e gre{aka prve i druge vrste redom α = PH 0 ( ( X 1 , X 2 ,..., X n ) ∈ C ) ,
β = PH
1
(( X , X 1
2
,..., X n ) ∉ C ) .
Gre{ka prve vrste α se jo{ naziva veli~ina kriti~ne oblasti C . U teoriji statisti~ke kontrole kvaliteta gre{ka prve vrste naziva se ,,rizik proizvo|a~a” (dobar proizvod se progla{ava lo{im), a gre{ka druge vrste ,,rizik kupca” (lo{ proizvod se progla{ava dobrim). Testovi kojima se testiraju vrednosti parametera raspodele se zovu testovi zna~ajnosti, dok se tada verovatno}a α naziva prag zna~ajnosti. Oravdawe za ovakav naziv nalazimo u slede}em, neformalnom, opisivawu testa zna~ajnosti. Treba testirati hipotezu H 0 (θ = θ 0 ) protiv, recimo, slo`ene H1 (θ ≠ θ 0 ) . Na osnovu uzorka ( X 1 , X 2 ,..., X n ) biramo test statistiku θˆn = f ( X 1 , X 2 ,..., X n ) koja je neka ocena nepoznatog parametra θ . Na osnovu
realizovanog uzorka
( x1 , x2 ,..., xn )
dobijamo broj
vˆn = f ( x1 , x2 ,..., xn ) i
konstatujemo neko odstupawe vˆn − θ 0 ocene vˆn od hipoteti~ke vrednosti
θ 0 za parametar. Ovo odstupawe mo`emo smatrati slu~ajnim kada je hipoteza H 0 (θ = θ 0 ) fakti~ki ta~na, ili zna~ajnim, pa ga ne mo`emo pripisati slu~aju, kada hipotezu H 0 (θ = θ 0 ) odbacujemo. Kriterijum za odlu~ivawe je slede}i: odredi}emo broj vn; α
koji se zove kriti~na
vrednost testa za zadatu verovatno}u α i posmatrati PH 0 θˆn − θ 0 ≥ vn ; α = α .
(
)
124
Na osnovu realizovanog uzorka dobijamo razliku vˆn − θ 0 . Ako je vˆn − θ 0 ≥ vn ; α onda odbacujemo pretpostavku da je hipoteza H 0 (θ = θ 0 ) ta~na
i prihvatamo woj suprotnu H1 (θ ≠ θ 0 ) . Ukoliko je vˆn − θ 0 < vn ; α nemamo razloga da H 0 (θ = θ 0 ) odbacimo. 8.1 TESTIRAWE PARAMETARSKIH HIPOTEZA Kod testova za testirawe parametarskih hipoteza pretpostavqa se da je zakon raspodele obele`ja poznat ali nije poznat jedan ili vi{e parametara te raspodele. Procedura odvijawa ovih testova se sastoji iz slede}ih koraka: 10 Formuli{e se nulta hipoteza H 0 i woj alternativna H1 . 20 Zadaje se nivo zna~ajnosti α ; 30 Bira se test statistika θˆn = f ( X 1 , X 2 ,..., X n ) i odre|uje wen zakon raspodele; 40 Odre|uje se kriti~na vrednost testa vn ; α ; 50 Na osnovu realizovanog uzorka izra~unava se vˆn = f ( x1 , x2 ,..., xn ) ; 60 Donosi se odluka o prihvatawu ili neprihvatawu nulte hipoteze. Testirawe hipoteze o sredwoj vrednosti osnovnog skupa pri poznatoj disperziji Posmatra se osnovni skup sa normalnom raspodelom N ( m ; σ 2 ) sa poznatom dispezijom σ 2 i nepoznatim o~ekivawem m . Na osnovu uzorka ( X 1 , X 2 ,..., X n ) treba proveriti hipotezu H 0 ( m = m0 ) protiv H1 ( m ≠ m0 ) . Kako je X n nepristrasna ocena o~ekivawa to }emo wu koristiti kao ta~kastu ocenu za m . Ako je H 0 ( m = m0 ) ta~na hipoteza onda
X n : N ( m0 ; σ 2 n ) , tako da statistika
X n − m0
σ
n ima N ( 0; 1) raspodelu.
Za zadati prag zna~ajnosti α iz tablica ~itamo broj zα takav da je
Ako x n − m0
σ x n − m0
σ
iz
⎛ X n − m0 ⎞ PH 0 ⎜ n ≥ zα ⎟ = α . σ ⎜ ⎟ ⎝ ⎠ realizovanog uzorka ( x1 , x2 ,..., xn )
izra~unamo
da
je
n ≥ zα onda hipotezu H 0 ( m = m0 ) odbacujemo. U slu~aju da je n < zα ka`emo da realizovani uzorak ne protivure~i hipotezi
H 0 ( m = m0 ) .
Navedeni postupak se mo`e koristiti i kod raspodela koje nisu normalne.
125
Primer 1. U pro{losti je vr{eno ispitivawe broja dece kod jedne socijalne grupe i ustanovqeno je da obele`je X - broj dece u porodici ima pribli`no P (1.8 ) raspodelu. U dana{we vreme kod iste populacije uzet je uzorak od 100 porodica i registovan je sredwi broj dece u tom uzorku x100 = 1.6 . Da li se sa pragom zna~ajnosti α = 0.05 mo`e smatrati da je raspodela broja dece u porodici ostala ista? Re{ewe. Mo`emo uzeti da je H 0 ( λ = 1.8 ) , dok je , s obzirom na problem,
H1 ( λ < 1.8 ) . O~ekivawe slu~ajne promenqive
E ( X ) = λ , a disperzija D ( X ) = λ
X : P (λ )
je
(odeqci 3.2 i 3.6). Kako je X n
nepristrasna ocena parametra λ (odeqak 7.1), to na osnovu CGT (odeqak λ ⎞ ⎛ 5) mo`emo smatrati da X n ima N ⎜ λ ; ⎟ raspodelu (jer je ⎝ 100 ⎠
( )
D X n = D ( X ) n ). Kriti~nu vrednost testa x100; 0.05 odredi}emo iz uslova ⎛ X n − 1.8 ⎞ x100; 0.05 − 1.8 0.05 = PH 0 X n ≤ x100; 0.05 = PH 0 ⎜ 100 ≤ 100 ⎟ 1.8 ⎝ 1.8 ⎠
(
)
(
∗
)
= PH 0 X 100 ≤ z100; 0.05 . Sada je 0.05 = 0.5 − Φ ( − z100; 0.05 ) , a odavde
z100; 0.05 = −1.645 .
(
Daqe
imamo
)
7.45 x100; 0.05 − 1.8 = −1.645 . Dakle, x100; 0.05 = 1.58 . Kriti~na oblast testa je interval ( −∞, 1.58] . Za realizovani uzorak je x100 = 1.60 ∉ ( −∞, 1.58] , pa na osnovu ovog uzorka ne mo`emo smatrati da je do{lo do smawewa broja dece u porodici. Na slici je data gustina normalne raspodele koja ima parametre iz ovog zadatka. 2 Proverite da je jedna~ina te gustine ϕ ( x ) = 2.97e −27.78( x −1.8) . Primer 2. U proizvodwi odre|enog artikla verovatno}a da je jedan proizvod defektan je p = 0.1 . Uvo|ewem nove tehnologije o~ekuje se smawewe te verovatno}e. U uzorku od n = 100 artikala konstatovano je 8 defektnih. Da li se sa pragom zna~ajnosti α = 0.05 mo`e smatrari da nova tehnologija zna~ajno smawuje verovatno}u defektnih proizvoda? Re{ewe. U ovom primeru je nulta hipoteza H 0 ( p = 0.1) , dok je
⎛0 1 ⎞ suprotna H1 ( p < 0.1) . U pitawu je Bernulijeva raspodela X : ⎜ ⎟ sa ⎝q p⎠ n o~ekivawem E ( X ) = p i disperzijom D ( X ) = pq . Statistika S n = ∑ i =1 X i
na osnovu CGT (Teorema 2. iz odeqka 5.2) ima N ( nE ( X ) , nD ( X ) )
raspodelu. Kako u na{em slu~aju posmatramo statistiku S100 koja je broj defektnih na 100 slu~ajno izabranih proizvoda, onda je wena raspodela
126
S100 : N (100 p; 100 pq ) . Zbog p = 0.1 je S100 : N (10; 9 ) , tako da statistika
S100 − 10 ima N ( 0; 1) raspodelu. U realizovanom uzorku smo 3 registrovali da je s100 = 8 . Kriti~nu vrednost testa s100; 0.05 odre|ujemo iz ∗ S100 =
uslova da je
PH 0 ( S100 ≤ s100; 0.05 ) = 0.05 .
Odavde i iz prethodnog je s100; 0.05 − 10 ⎞ ⎛ ∗ ≤ PH 0 ⎜ S100 ⎟ = 0.05 . 3 ⎝ ⎠
Na isti na~in kao u prethodnom primeru dobijamo pa je
10 − s100; 0.05 3
= 1.645 ,
s100; 0.05 = 5.065 . Kriti~na oblast testa je C = ( −∞, 5.065] pa, zbog s100 = 8 ∉ C , na osnovu
ovog realizovanog uzorka ne mo`emo smatrati da nova tehnologija zna~ajno smawuje procenat defektnih proizvoda. Primetimo: {S100 ≤ 5.065} ⊂ {S100 ≤ 8} . Otuda PH 0 ( S100 ≤ 8 ) > PH 0 ( S100 ≤ 5.065 ) = 0.05 .
Narednim slikama }emo ilustrovati prethodne numeri~ke podatke.
Primer 3. Meteorolo{kim osmatrawima je zakqu~eno da se za visinu godi{weg vodenog taloga X mo`e koristiti N ( m; σ 2 ) raspodela. Za jednu oblast je u 50 uzastopnih godina pro{log veka oceweno da X ima N ( 30; 82 ) raspodelu. Iz pet slu~ajno izabranih godina u periodu 1948 do 1998 registovani su talozi 38, 33, 29, 36, 32. Sa pragom zna~ajnosti 0.05
127
testirati hipotezu da se sredwa vrednost taloga nije promenila. Re{ewe. Nulta hipoteza je H 0 ( m = 30 ) , a woj suprotna H1 ( m > 30 ) , jer je na osnovu uzorka x5 = 33.6 > 30 . Treba odrediti kriti~nu oblast x5; 0.05 za
(
)
koju je PH 0 X 5 ≥ x 5; 0.05 = 0.05 . Odavde je ⎛ ∗ x 5; 0.05 − 30 ⎞ PH 0 ⎜ X 5 ≥ 5 ⎟ = 0.05 . 8 ⎝ ⎠ ⎛ x 5; 0.05 − 30 ⎞ Dakle Φ ⎜ 5 ⎟ = 0.5 − 0.05 , pa sledi x5; 0.05 = 35.89 . Kriti~na oblast 8 ⎝ ⎠ testa je C = [35.89, + ∞ ) . Kako realizovan uzorak x5 = 33.6 ∉ C , to u ovom
slu~aju nema razloga za odbacivawe nulte hipoteze. Primer 4. Neka su pretpostavke iste kao u primeru 3. Neka je ponovo H 0 X : N ( 30; 82 ) i neka je sada jedina alternativna hipoteza
(
(
)
)
H1 X : N ( 40; 82 ) . Za prag zna~ajnosti α = 0.05 dobili smo kriti~nu C = [35.89, + ∞ ) . Verovatno}u gre{ke druge vrste
oblast testa
β
dobijamo, pod pretpostavkom da je hipoteza H1 ta~na, na slede}i na~in
(
)
⎛ 1 ⎝
∗
β = PH X 5 < 35.89 = PH ⎜ X 5 < 1
(
∗
)
35.89 − 40 ⎞ 5⎟ 8 ⎠
= PH1 X 5 < −1.15 = 0.5 − Φ (1.15 ) = 0.125 . Na slici su prikazane gustine za X 5 pod pretpostavkama da su redom ta~ne H 0 i H1 . Zna~ewe i interpretacija verovatno}a α i β su slede}e.
Ako imamo veliki broj mesta (ili veliki broj vremenskih perioda) na kojima je raspodela godi{wih taloga ili N ( 30; 82 ) ili N ( 40; 82 ) , ali ne znamo koja je od te dve. Na osnovu uzorka ( x1 , x2 , x3 , x4 , x5 ) na{ test je: ako je x5 < 35.89
prihvatamo
N ( 30; 82 ) , ukoliko je
x5 ≥ 35.89
prihvatamo
N ( 40; 82 ) . U oko 5% slu~ajeva ( 100α % ), kada je N ( 30; 82 ) pogre{no }emo
smatrati da je N ( 40; 82 ) i u oko 12.5% slu~ajeva ( 100 β % ), kada je N ( 40; 82 ) , pogre{no }emo prihvatiti da je N ( 30; 82 ) . Podvucimo jo{
jednom da se o verovatno}ame gre{aka prve i druge vrste mo`e govoriti samo kada je skup Θ prihvatqivih vrednosti nepoznatog parametra Θ = {θ 0 , θ1} , odnosno ako su H 0 i woj suprotna H1 proste hipoteze.
128
Testirane hipoteze o sredwoj vrednosti osnovnog skupa kada varijansa nije poznata Pretpostavqa se da osnovni skup ima normalnu raspodelu, odnosno X : N ( m; σ 2 ) , sa nepoznatim parametrima o~ekivawem m i varijansom σ 2 . Tako|e se pretpostavqa da je o~ekivawe osnovnog skupa jednako m0 ,
odnosno da je nulta hipoteza H 0 ( m = m0 ) , a woj alternativna mo`e biti jedna od H1 ( m < m0 ) , H1 ( m > m0 ) , ili H1 ( m ≠ m0 ) . Test statistika za testirawe je X n − m0 tn −1 = n −1 , Sn 2
gde su: X n uzora~ka sredina, S n disperzija uzorka i tn −1 Studentova t raspodela sa n − 1 stepenom slobode. Posmatra se slu~ajni uzorak ( X 1 , X 2 ,..., X n ) i realizovani uzorak
( x1 , x2 ,...xn ) .
Na osnovu realizovanog uzorka izra~unavamo realizovanu
vrednost statistike tn −1 : x n − m0 tˆn −1 = n −1 . sn Za zadati nivo poverewa α odre|ujemo kriti~nu vrednost testa tn −1; α
u zavisnosti od formulacije alternativne hipoteze H1 . Ukoliko je H1 ( m < m0 ) onda se verovatno}a
PH 0 ( tn −1 < tn −1; α ) = α
koristi za odre|ivawe kvantila tn −1; α kojim je data kriti~na oblast testa
C = ( −∞, − tn −1; α ) .
Ovakva kriti~na oblast je levostrana. Napomenimo da je prag zna~ajnosti mawi od 0.5 {to uslovqava oblik kriti~ne oblasti. Kada je alternativna hipoteza H1 ( m > m0 ) , onda je kriti~na oblast
C = ( tn −1; α , + ∞ ) ,
jer kvantil tn −1; α odre|ujemo pomo}u verovatno}e
PH 0 ( tn −1 > tn −1; α ) = α .
Kriti~na oblast se u ovom slu~aju zove desnostrana. U slu~aju da je suprotna hipoteza oblika H1 ( m ≠ m0 ) , onda imamo dvostranu kriti~nu oblast ⎛ ⎤ ⎡ ⎞ C = ⎜ −∞, − t α ⎥ ∪ ⎢t α , + ∞ ⎟ , n −1; ⎝ ⎣ n −1; 2 ⎠ 2 ⎦ zato {to je ⎛ ⎞ ⎛ ⎞ α α α = PH 0 ( tn −1 ≥ tn −1; α ) = PH 0 ⎜ tn −1 ≤ −t α ⎟ + PH 0 ⎜ tn −1 ≥ t α ⎟ = + . n −1; n −1; 2 2 ⎝ ⎝ 2 ⎠ 2 ⎠ Ukoliko za realizovanu vrednost va`i tˆn −1 ∈ C , onda odbacujemo
129
nultu hipotezu i prihvatamo sprotnu, a ako tˆn −1 ∉ C , onda na osnovu realizovanog uzorka nemamo razloga da odbacimo nultu hipotezu. Primer 5. Na grupi od 10 pacijenata ispituje se dejstvo dva sredstva za spavawe A i B . Neka su X i Y dodatni broj ~asova spavawa kada se redom uzimaju sredstva A i B . Neka obele`je Z = X − Y ima N ( m : σ 2 ) raspodelu.
Testirati
H 0 ( m = 0)
hipotezu
protiv
alternativne
a) H1 ( m ≠ 0 ) ; b) H1 ( m > 0 ) sa pragom zna~ajnosti α = 0.01 . ,,Uzeti” uzorak je slede}i Pacijent 1 2 3 4 5 6 7 8 9 10
xk 1.9 0.8 1.1 0.1 -0.1 4.4 5.5 1.6 4.6 3.4
yk 0.7 -1.6 -0.2 -1.2 -0.1 3.4 3.7 0.8 0.0 2.0
zk = xk − yk 1.2 2.4 1.3 1.3 0.0 1.0 1.8 0.8 4.6 1.4
Re{ewe. a) Testiramo hipotezu H 0 da su oba sredstva podjednako dobra. Iz realizovanog uzorka dobijamo
z10 =
2 1 10 1 10 2 1.580 z = i s = zk − z10 = 1.167 , 10 ∑ ∑ k 10 k =1 10 k =1
odakle je
1.580 − 0 tˆ9 = 9 = 4.06 . 1.167 Iz tablica odre|ujemo kvantil tn −1; 0.005 (u pitawu je dvostrana kriti~na oblast) za koji je
i dobijamo t9; 0.005
⎛ ⎞ 0.005 = PH 0 ⎜ tn −1 ≥ t α ⎟ n −1; ⎝ 2 ⎠ = 3.25 . Kriti~na oblast je C = ( −∞, − 3.25 ) ∪ ( 3.25, + ∞ ) .
Kako je tˆ9 = 4.06 ∈ C , to odbacujemo hipotezu da su sredsva A i B podjednako efikasna. b) U ovom slu~aju testiramo hipotezu da da su sredsva podjednako efikasna protiv alternativne da je sredstvo A boqe od sredstva B . Kriti~nu vrednost testa odre|ujemo iz uslova (desnostrana kriti~na oblast) ⎛ X n − m0 ⎞ n − 1 ≥ tn −1; 0.01 ⎟ . 0.01 = PH 0 ⎜ ⎝ Sn ⎠ Iz tablica nalazimo t9; 0.01 = 2.82 . Kako je tˆ9 = 4.06 > 2.82 , odbacuje se hipoteza da su oba sredstva istog kvaliteta i prihvata se hipoteza da je
130
sredstvo A boqe od sredsva B . Primer 6. Da bi se odredila norma radnika pri izradi jednog proizvoda posmatran je rad 26 radnika. Dobijene su uzora~ka sredwa 2
produktivnost x 26 = 5.2 proizvoda po ~asu i uzora~ka varijansa s 26 = 0.16 . Treba proveriti hipotezu da }e pri masovnoj proizvodwi sredwa produktivnost rada biti m0 = 5.4 proizvoda po ~asu, protiv suprotne hipoteze da je sredwa produktivnost mawa od 5.4 sa pragom zna~ajnosti α = 0.05 . Re{ewe. Ovde imamo H 0 ( m = 5.4 ) protiv H1 ( m < 5.4 ) . Kriti~na vrednost testa je t25; 0.05 = 1.71 . Kriti~na oblast C je levostrana. Zna~i C = ( −∞, − 1.71) .
Iz realizacije uzorka ra~unamo x 26 − m0 5.2 − 5.4 25 = ⋅ 5 = −2.5 ∈ C . tˆ25 = 0.4 s 26 Dakle, prihvata se alternativna hipoteza da je produktivnost rada mawa od 5.4 proizvoda po ~asu. 2 Testirawe hipoteze H 0 ( m1 = m2 ) pri nepoznatim disperzijama σ 1,2
U mnogim istra`ivawima se ~esto javqa potreba pore|ewa dva osnovna skupa, odnosno dva obele`ja. Na primer, ~esto treba porediti novu i staru tehnologiju, uspe{nost dva razli~ita na~ina ishrane, dva razli~ita na~ina obuke, dve serije eksperimenata. Ova pore|ewa se ~esto svode na pitawe provere hipoteze o jednakosti sredwih vrednosti ova dva osnovna skupa koji imaju normalnu raspodelu. Ovakvim testirawem proveravamo da li je razlika uzora~kih sredina posledica slu~ajnih kolebawa uzorka, ili uzorci poti~u iz skupova sa razli~itim sredwim vrednostima. U ovom slu~aju posmatramo dva nezavisna uzorka X 1 , X 2 ,..., X n1 i
(Y , Y ,..., Y ) 1
2
n2
(
)
~ija obele`ja imaju raspodele X : N ( m1 ; σ 12 ) i Y : N ( m2 , σ 22 ) .
Testiramo nultu hipotezu H 0 ( m1 = m2 ) protiv jedne od alternativnih H1 ( m1 < m2 ) , H1 ( m1 > m2 ) ili
H1 ( m1 ≠ m2 ) sa nivovom zna~ajnosti α . U
zavisnosti od obima uzoraka n1 i n2 razlikujemo dva modela. Model 1 Ako je n1 < 30 i n2 < 30 test statistika je
tn1 + n2 − 2 =
X n1 − Yn2 2
2
n1 S ∗ n1 + n2 S ∗∗ 2
n1n2 ( n1 + n2 − 2 ) . n1 + n2
Statistika 2
2
∗ ∗∗ n S ∗ n + n2 S ∗∗ n2 ( n1 − 1) S ′ n1 + ( n2 − 1) S ′ n2 = , S = 1 1 n1 + n2 − 2 n1 + n2 − 2 koja se obi~no zove zdru`ena ocena za varijansu, je nepristrasna ocena za iste disperzije slu~ajnih veli~ina X i Y samo kada je σ 12 = σ 22 . Ako je 2
2
2 ∗
131
( n1 + n2 − 2 ) S ∗
2
σ ≠ σ , onda 2 1
2 2
σ
ne bi imala χ 2 raspodelu, a onda test
2
2
2
statistika nema Studentovu tn1 + n2 − 2 raspodelu. Statistike S ∗ n1 i S ∗∗ n2 su odgovaraju}e uzora~ke varijanse ~ije realizacije u op{tem slu~aju nisu jednake. x1 , x2 ,..., xn1 i y1 , y2 ,..., yn2 Na osnovu realizovanih uzoraka
(
)
(
)
izra~unavamo broj
tˆn1 + n2 − 2 =
x n1 − y n2 2
2
n1 s ∗ n1 + n2 s∗∗ 2
n1n2 ( n1 + n2 − 2 ) . n1 + n2
Za odre|ivawe kriti~ne oblasti C testa koristimo kvantil tn1 + n2 − 2; α koji zavisi od oblika alternativne hipoteze H1 . Ako je H1 ( m1 < m2 ) onda pomo}u tablica, iz
(
)
PH o tn1 + n2 − 2 < tn1 + n2 − 2; α = α ,
(
)
dobijamo levostranu kriti~nu oblast testa C = −∞, − tn1 + n2 − 2; α . Ukoliko ja alternativna nipoteza H1 ( m1 > m2 ) , onda pomo|u
(
)
PH o tn1 + n2 − 2 > tn1 + n2 − 2; α = α ,
(
)
odre|ujemo desnostranu kriti~nu oblast testa C = tn1 + n2 − 2; α , + ∞ . U slu~aju da je H1 ( m1 ≠ m2 ) onda se ⎛ ⎞ PH o ⎜ tn1 + n2 − 2 ≥ t α ⎟ =α n1 + n2 − 2; ⎝ 2 ⎠ koristi za odre|ivawe dvostrane kriti~ne oblasti ⎛ ⎤ ⎡ ⎞ C = ⎜ −∞, − t α ⎥ ∪ ⎢t α , + ∞⎟. n1 + n2 − 2; ⎝ ⎣ n1 + n2 − 2; 2 ⎠ 2 ⎦ Ukoliko je za ,,uzete” uzorke tˆn1 + n2 − 2 ∈ C odbacujemo H 0 i prihvatamo
H1 , a ukoliko tˆn1 + n2 − 2 ∉ C nemamo razloga za odbacivawe nulte hipoteze. Primer 7. Na jednom poqoprivrednom dobru proverava se uticaj nove vrste |ubriva na prinos p{enice. Na 12 od 24 parcele je ba~eno |ubrivo, a na preostalih 12 nije (kontrolna grupa). Ostali uslovi su bili isti. Prose~an prinos na na|ubrenim pacelama je bio x12 = 5.1(000) kg / ha , a prose~an prinos na nena|ubrenim parcelama je bio y12 = 4.8(000) kg / ha , 2
2
sa uzora~kim varijansama s∗ 12 = 0.09 i s∗∗ 12 = 0.16 . Da li je nova vrsta |ubriva sa nivoom zna~ajnosti α = 0.05 uticala na porast prinosa p{enice? Re{ewe. Ovde je nulta hipoteza H 0 ( m1 = m2 ) protiv suprotne H1 ( m1 > m2 ) .
Kriti~na
oblast
testa
je
desnostrana.
Kako
je
n1 + n2 − 2 = 12 + 12 − 2 = 22 , granicu kriti~ne vrednosti odre|ujemo iz
tablica. Otuda je t22; 0.05 = 1.72 . Zna~i C = (1.72, + ∞ ) . Daqe je realizacija
132
tˆ22 =
x12 − y12 2
2
12 ⋅12 5.1 − 4.8 ⋅ 22 = 132 = 1.99 ∈ C . 12 + 12 3
12s ∗ 12 + 12s ∗∗ 12 Nultu hipotezu odbacujemo. Nova vrsta |ubriva zna~ajno uti~e na pove}awe prinosa.
Model 2 Ukoliko su obimi uzoraka ve}i od 30, odnosno ukoliko je n1 ≥ 30 i n2 ≥ 30 , onda se za testirawe prethodne nulte i odgovaraju}ih alternativnih hipoteza koristi statistika X n1 − Y n2 Z∗ = ,
σ 12 n1
+
σ 22 n2
⎛ σ2 ⎞ koja ima N ( 0; 1) raspodelu. Podsetimo se (odeqak 6.6) da X n1 : N ⎜ m1 ; 1 ⎟ n1 ⎠ ⎝ ⎛ σ2 ⎞ i Y n2 : N ⎜ m2 ; 2 ⎟ odakle je Z ∗ : N ( 0; 1) , jer je H 0 ( m1 = m2 ) , pa je m1 − m2 = 0 . n2 ⎠ ⎝
U ovom modelu se disperzije σ 12 i σ 22 2
ili zadaju, ili se zamewuju
2
uzora~kim disperzijama S ∗ n1 i S ∗∗ n2 (za ovako velike obime uzoraka su to asimptotski centrirane ocene disperzija). Odgovaraju}e kriti~ne oblasti odre}ujemo, u zavisnosti od oblika alternativne hipoteze, pomo}u kriti~ne vrednosti zα iz tablica za N ( 0; 1) raspodelu.
Primer 8. Za ispitivawe uticaja nove i stare tehnologije na prinos p{enice izabrano je po 50 pacela na kojima su primewene nova i stara tehnologija. Na osnovu dobijenih uzoraka utvr|eni su prose~ni prinosi X 50 = 6.2 t / ha i Y 50 = 4.8 t / ha . Ako se zna da su varijanse u osnovnim skupovima σ 12 = 0.45 i σ 22 = 0.76 , testirati sa nivoov zna~ajnosti α = 0.05 hipotezu da je nova tehnologija bez zna~aja za prinos protiv suprotne hipoteze da je nova tehnologija boqa. Re{ewe. U ovom primeru je nulta hipoteza H 0 ( m1 = m2 ) protiv alternativne H1 ( m1 > m2 ) . Na osnovu podataka ra~unamo realizaciju test statistike Z ∗ :
x50 − y 50
6.2 − 4.8 1.4 = = 8.75 . 0.45 + 0.76 0.16 σ 12 + σ 22 50 50 1.64 + 1.65 Iz PH 0 ( Z ∗ > zα ) = 0.05 sledi Φ ( zα ) = 0.45 i zα = = 1.645 . Kako 2 z ∗ = 8.75 ∈ C = (1.645, + ∞ ) nulta hipoteza se odbacuje, odnosno mo`e se z∗ =
=
smatrati da je nova tehnologija boqa.
133
Testirawe hipoteze o disperziji Testirawe hipoteze o disperziji je va`no u primenama, jer je disperzija kao mera ,,rasipawa” dobar pokazateq stabilnosti raznih procesa, ta~nosti instrumenata, ta~nosti rada ma{ine, homogenosti proizvodwe i sli~no. Treba, dakle, na osnovu slu~ajnog uzorka ( X 1 , X 2 ,..., X n ) odrediti da li je ,,proces” pre{ao neke propisane granice disperzije ili se disperzija nije promenila. Nulta hipoteza je H 0 (σ 2 = σ 02 ) , a jedna od alternativnih je H1 (σ 2 < σ 02 ) , H1 (σ 2 > σ 02 ) ili H1 (σ 2 ≠ σ 02 ) .
Pod pretpostavkom da je hipoteza H 0 (σ 2 = σ 02 ) ta~na korisimo se
test statistikom nS
σ
2 n
2 0
∑ (X = n
i =1
i
− Xn
)
2
σ 02
koja ima χ n2−1 raspodelu (vidi odeqak 6.6). Za zadati nivo poverewa α kriti~na vrednost testa χ n2−1; α se odre|uje iz tablica χ 2 raspodele u zavisnosti od alternativne hipoteze, a u skladu sa na~inom na koji su date tablice χ 2 raspodele. Ako je H1 (σ 2 < σ 02 ) , onda treba da va`i
PH 0 ( χ n2−1 < χ n2−1; 1−α ) = α ,
tako da je levostrana kriti~na oblast testa C = ( 0, χ n2−1; 1−α ) . Za suprotnu hipotezu H1 (σ 2 > σ 02 ) , iz
PH 0 ( χ n2−1 > χ n2−1; α ) = α ,
desnostrana kriti~na oblas testa je C = ( χ n2−1; α , + ∞ ) .
Ukoliko je alternativna hipoteza H1 (σ 2 ≠ σ 02 ) , dvostrana kriti~na
oblast C testa dobija se iz
α=
α 2
+
⎛ ⎞ ⎛ ⎞ = PH 0 ⎜ χ n2−1 < χ 2 α ⎟ + PH 0 ⎜ χ n2−1 > χ 2 α ⎟ , n −1; 1− n −1; 2 ⎝ ⎝ 2 ⎠ 2 ⎠
α
pa je ⎛ ⎞ ⎛ ⎞ C = ⎜ −∞, χ 2 α ⎟ ∪ ⎜ χ 2 α , + ∞ ⎟ . n −1; 1− ⎝ ⎝ n −1; 2 ⎠ 2 ⎠
134
Realizovana vrednost uzorka je
∑ (x − x ) = n
χˆ n2−1 = Ukoliko
ns n
σ 02
χˆ n2−1 ∈ C
i =1
2
n
i
σ 02
nulta
∑ =
hipoteza
2
n
x 2 − nx n i =1 i
σ 02
se
.
odbacuje
i
prihvata
alternativna, a u slu~aju da χˆ ∉ C nema razloga da se nulta hipoteza odbaci. Napomenimo na kraju da obele`je X kod testirawa nulte hipoteze H 0 (σ 2 = σ 02 ) mo`e, ali ne mora da ima normalnu raspodelu, ve} da mu je 2 n −1
o~ekivawe E ( X ) = m i disperzija D ( X ) = σ 2 . Ovo sledi na osnovu CGT. Primer 9. Homogenost proizvodwe odre|enog proizvoda meri se disperzijom jednog wegovog obele`ja X koja iznosi D ( X ) = σ 02 = 102 . Uvo|ewem nove tehnologije u proizvodwi o~ekuje se smawewe disperzije. 20 Kod 20 slu~ajno izabranih proizvoda registrovano je ∑ k =1 xk = 11260 ,
∑
20
x = 6339900 . Da li je uvo|ewem novine do{lo do pove}awa
2 k =1 k
homogenosti proizvodwe (do smawewa disperzije) sa pragom zna~ajnosti α = 0.05 ? Re{ewe. Nulta hipoteza da novina ne pove}ava homogenost proizvodwe je H 0 (σ 2 = 102 ) , dok je alternativna da novina sa pragom
zna~ajnosi 0.05 smawuje disperziju, odnosno H1 (σ 2 < 102 ) . Kriti~nu 2 2 vrednost testa χ n2−1; 1−α = χ19; raspodele. Tamo 0.95 odre|ujemo iz tablica χ 2 je χ19; 0.95 = 10.1 , pa je kriti~na oblast testa C = ( 0, 10.1) . Realizovana
vrednost test statistike je 2
⎛ 11260 ⎞ 2 6339900 − 20 ⎜ 2 ⎟ 20 − x x 20s 20 ∑ k =1 k 20 ⎠ ⎝ 2 = = = 5.2 ∈ C . χˆ19 = 102 100 100 Zakqu~ujemo da je disperzija zna~ajno smawena, odnosno homogenost proizvodwe je zna~ajno pove}ana. Primer 10. Ta~nost ma{ine za pakovawe kafe proverava se pomo}u varijanse te`ine kese kafe, koja ne treba da bude ve}a od 0.4. Uzeta je proba od 11 slu~ajno izabranih paketi}a i dobijena je te`ina u gramima: 100.6, 99.5, 100, 100.1, 100.3, 100, 99, 99.8, 99.7, 100.3. Na osnovu raspolo`ivih podataka proveriti sa pragom zna~ajnosti α = 0.05 da li ma{ina obezbe|uje zadatu ta~nost. Re{ewe. Nulta hipoteza je H 0 (σ 2 = 0.4 ) , a woj suprotna H1 (σ 2 > 0.4 ) . 20
2 20
Sa obzirom na alternativnu hipotezu, kriti~na oblast testa je desnostrana. Obim uzorka i prag zna~ajnosti, pomo}u tablica, daju 2 C = ( χ10; 0.05 , + ∞ ) = (18.3, + ∞ ) . Iz podataka dobijamo: 1 11 1100.2 x11 = ∑ i =1 xi = = 100.018 , 11 11 Tako da je
∑ (x − x ) = ∑
135
2
11
i =1
i
11
11
2
x − 11x11 = 3.1365 ,
2 i =1 i
3.1365 = 7.841∉ C , 0.4 {to zna~i da ma{ina za pakovawe dobro radi, odnosno obezbe|uje tra`enu ta~nost.
χˆ102 =
Testirawe hipoteze o jednakosti disperzija dva osnovna skupa Pri ispitivawu kvantitativnih obele`ja u razli~itim osnovnim skupovima, ~esto je potrebno uporediti stepen wihovog varirawa. U praksi se pore|ewe ta~nosti pribora, instrumenata, metoda i sli~no, vr{i pore|ewem varijansi rezultata merewa. Prednost se daje onom instrumentu ili metodi koja ima najmawu varijansu. Mo`e se, na primer uzeti uzorak X 1 , X 2 ,..., X n1 nekog proizvoda ranije i uzorak Y1 , Y2 ,..., Yn2
(
)
(
)
istog proizvoda kasnije sa proizvodne trake, pa `elimo da proverimo da li je u me|uvremenu do{lo do ,,ras{timovanosti” procesa proizvodwe, odnosno da li je disperzija ostala ista ili se pove}ala. Pretpostavqa se da za obele`ja va`i X : N ( m1 ; σ 12 ) , Y : N ( m1 ; σ 22 ) , pri ~emu su svi parametri nepoznati. Treba testirati nultu hipotazu H 0 (σ 12 = σ 22 ) protiv alternativne H1 (σ 12 < σ 22 ) (do{lo je do pove}awa disperzije). Iz realizovanih uzoraka 2
( x , x ,..., x ) 1
2
n1
i
( y , y ,..., y ) 1
2
n2
2
izra~unavamo wihove disperzije s ∗ n1 i s ∗∗ n2 . 2
2
s ∗ n1 > s ∗∗ n2 , onda nemamo razloga da opovrgavamo
Ako dobijemo
H 0 (σ 12 = σ 22 ) protiv H1 (σ 12 < σ 22 ) .
2
∗
2
∗∗
s ∗∗ n2
2
> 1 , onda }emo da primenimo test 2 s ∗ n1 zna~ajnosti radi odluke da li je ovo odstupawe rezultat uvek mogu}ih slu~ajnih odstupawa kada je H 0 (σ 12 = σ 22 ) ta~na, ili je ono zna~ajno, tj. ne
Ukoliko je s
n1
n2
, odnosno
mo`e se objasniti slu~ajnim odstupawima kada je H 0 (σ 12 = σ 22 ) ta~na, i
treba usvojiti hipotezu H1 (σ 12 < σ 22 ) kao ta~nu. Test statistika, ako je
H 0 (σ 12 = σ 22 ) ta~no, je statistika sa Fi{erovom raspodelom (odeqak 6.6) 2
n2 S ∗∗ n2
σ 12
Fn2 −1; n1 −1
n2 − 1 2
n1 S ∗ n1
σ 12
n1 − 1) n2 S ∗∗ n ( = 2 ( n2 − 1) n1 S ∗ n 2
2
,
1
n1 − 1 2
jer je
n2 S ∗∗ n2
σ
2 2
2
= χ n22 −1 i
n1 S ∗ n1
σ
2 1
= χ n21 −1 i smatramo da je σ 12 = σ 22 .
Kriti~nu vrednost Fn2 −1, n1 −1; α za prag zna~ajnosti α ~itamo iz
136
tablica na osnovu
(
)
PH 0 Fn2 −1; n1 −1 ≥ Fn2 −1, n1 −1; α = α i odre|ujemo kriti~nu oblast testa C = Fn2 −1, n1 −1; α , + ∞ .
(
)
n1 − 1) n2 S ∗∗ n ( Ako je ∈ C hipotezu H 0 (σ 12 = σ 22 ) treba odbaciti. U 2 ∗ ( n2 − 1) n1 S n 2 n1 − 1) n2 S ∗∗ n ( slu~aju da ∉ C dobijeno odstupawe ne smatramo zna~ajnim, pa 2 ∗ ( n2 − 1) n1 S n 2
2
1
2
1
nema razloga da na osnovu realizovanih uzoraka
( y , y ,..., y ) odbacimo hipotezu 1
2
n2
H 0 (σ 12 = σ 22 ) .
( x , x ,..., x ) 1
2
n1
i
Primer 11. Treba uporediti dve metode za merewe jedne fizi~ke veli~ine. Prvim metodom vr{eno je 8 merewa i dobijena je uzora~ka 2
varijansa s ∗ 8 = 0.000359 . Drugim metodom vr{eno je 10 merewa i dobijena 2
je uzora~ka varijansa s ∗∗ 10 = 0.000756 . Uporediti ta~nost posmatranih metoda. Zakqu~ak doneti sa nivoom zna~ajnosti α = 0.05 , ako su rezultati nezavisni i normalno raspore|eni. 2
Re{ewe. U ovom slu~aju je
s ∗∗ 10 ∗
2
= 2.11 > 1 , pa primewujemo test
s 8 zna~ajnosti. Treba odrediti kvantil F9, 7; 0.05 iz tablica ( n2 = 10 , n1 = 8 ). Tamo je F9, 7; 0.05 = 3.68 (tablice su date tako da se vodi ra~una o broju stepeni slobode ve}e disperzije). Realizovana vrednost test statistike je 7 ⋅10 ⋅ 0.000756 Fˆ9; 7 = = 2.047 . 9 ⋅ 8 ⋅ 0.000359 Kako Fˆ9; 7 = 2.047 < 3.68 = F9; 7; 0.05 to na osnovu ovog uzorka ne odbacujemo
H 0 (σ 12 = σ 22 ) (metodi su podjednako dobri).
Primer 12. Uzet je uzorak od n1 = 10 proizvoda i izmerena odre|ena dimenzija proizvoda kao obele`je X . Na|ena je disperzija uzorka 2
s ∗ 10 = 5.7 mm 2 . Posle izvesnog vremena uzet je novi uzorak obima n2 = 15 2
proizvoda iste ma{ine i konstatovano je s ∗∗ 15 = 9.6 mm 2 . Da li se sa pragom zna~ajnosti α = 0.05 mo`e smatrati da je do{lo do zna~ajnog porasta disperzije kod posmatrane dimenzije proizvoda (da li se ma{ina ,,ras{timovala” ?). 2
Re{ewe. Kako je
s ∗∗ 15 2
=
9.6 = 1.68 > 1 , to testiramo H 0 (σ 12 = σ 22 ) protiv 5.7
s ∗ 10 H1 (σ 12 < σ 22 ) . Kako je F14, 9 ; 0.05 ≈ 3.07 , a Fˆ14; 9 = ( 9 ⋅15 ⋅ 9.6 ) (14 ⋅10 ⋅ 5.7 ) = 1.62 ∉ C , ne mo`emo smatrati na osnovu ovog uzorka da se ma{ina ,,ras{timovala”.
137
8.2 TESTOVI SLOBODNI OD RASPODELE U primenama smo skoro redovno u situaciji da treba testirati hipotezu H 0 da obele`je X osnovnog skupa ima jednu, potpuno odre|enu raspodelu, ali ne znamo parametre koji figuri{u u toj raspodeli i kojima je ta raspodela potpuno odre}ena. Za testirawe ovakvih nultih hipoteza koristi se test statistika koja ima asimptotski potpuno odre|enu raspodelu, bez obzira na to kakvu raspodelu ima obele`je X . Pirsonov χ 2 test za proveru hipoteze o raspodeli osnovnog skupa Nulta hipoteza H 0 je da obele`je X ima odre|enu raspodelu ( p ( xi ) ,
i = 1, 2,... ili ϕ ( x ) , −∞ < x < +∞ , u zavisnosti od tipa slu~ajne promenqive X ). Suprotna hipoteza H1 je da X nema tu raspodelu. Kod predlo`enog testa je obim uzorka veliki ( uobi~ajeno je da je n ≥ 50 ) i slu`imo se asimptotski ta~nim raspodelama. Opisujemo ukratko ovaj test. Iz osnovnog skupa sa nepoznatom funkcijom raspodele izvla~i se slu~ajan uzorak obima n . Na osnovu dobijenih uzora~kih posmatrawa formira se empirijska funkcija raspodele pomo}u tabele
[c0 , c1 ) [c1 , c2 )
Vrednosti obele`ja
…
[ci −1 , ci )
…
[cr −1 , cr )
Frekvencije
… … f1 f2 fi fr Ukoliko je obele`je X diskretnog tipa, umesto intervala u prethodnoj tabeli su odgovaraju}e realizacije x1 , x2 ,…, xr obele`ja X . Ako je obele`je neprekidnog tipa, onda se za odre|ivawe ocena nepoznatih c +c parametara uzima sredina intervala prema xi = i −1 i , i = 1, 2,..., r . 2 Kori{}ewem raspolo`ive uzora~ke informacije treba proveriti postavqenu hipotezu o obliku funkcije raspodele obele`ja X . Provera se vr{i sa zadatim nivoom poverewa α . Da bi smo testirali postavqenu nultu hipotezu H 0 da obele`je X
ima rapodelu F0 ( x ) , pod pretpostakom da je
H 0 ta~na, treba odrediti
∗
teorijske frekvencije f i , i = 1, 2,..., r . Ukoliko pretpostavqena funkcija raspodele F0 ( x ) ima m nepoznatih parametara, oni se ocewuju ta~kastim
ocenama na osnovu realizovanog uzorka iz prethodne tabele. Potom se prelazi na odre|ivawe teorijskih frekvencija f i ∗ .
Na osnovu hipoteti~ke funkcije raspodele F0 ( x ) ra~unaju se
verovatno}e pi , i = 1, 2,..., r , da obele`je X uzme odre|enu vrednost prema ci ⎧ ⎪ P ( ci −1 ≤ X ≤ ci ) = ∫ ϕ 0 ( x ) dx = F0 ( ci ) − F0 ( ci −1 ) , pi = ⎨ ci −1 ⎪ ⎩ P ( X = xi ) , i = 1, 2,..., r , ako je X neprekidnog, odnosno diskretnog tipa.
138
Pomo}u
izra~unatih
verovatno}a
pi
odre|uju
se
teorijske
frekvencije f i ∗ , i = 1, 2,..., r , za uzorak obima n ( n = ∑ i =1 fi ∗ ) pomo}u r
fi ∗ = npi , i = 1, 2,..., r . Ukoliko je nulta hipoteza ta~na o~ekuje se da empirijske frekvencije budu bliske teorijskim frekvencijama. Za proveru nulte hipoteze koristi se op{ta Pirsonova χ 2 statistika. Pokazuje se da ova statistika ima asimptotski χ r2− m −1 raspodelu ako je n veliko ( n → ∞ ), pod pretpostavkom da je H 0 ta~na. U pitawu je test statistika r
χ r2− m −1 = ∑
(f
i
− fi ∗ )
2
, fi ∗ gde je, da se podsetimo, r broj intervala u neprekidnom, ili broj razli~itih realizovanih vrednosti u diskretnom slu~aju posmatranog obele`ja X , dok je m broj nepoznatih parametara hipoteti~ke raspodele. Za zadati nivo poverewa α odre|uje se kriti~na vrednost testa pomo}u PH 0 ( χ r2− m −1 ≥ χ r2− m −1; α ) = α . i =1
Ukoliko realizovana vrednost χˆ r2− m −1 ∈ C = ( χ r2− m−1; α , + ∞ ) hipotezu H 0
odbacujemo, a u slu~aju da χˆ r2− m −1 ∉ C nemamo razloga za odbacivawe H 0 na osnovu realizovanog uzorka. Navodimo primer Pirsonovog χ 2 za diskretno obele`je X ~ija je hipoteti~ka raspodela data. Primer 1. U postupku izdvajawa novih hibrida gra{ka, nastalih ukr{tawem gra{ka sa punim `utim zrnima i gra{ka sa zelenim sitnim zrnima, dobijeno je potomstvo ~etiri tipa sorti: a) puna `uta - x1 ; b) sme`urana `uta - x2 ; v) puna zelena - x3 ; g) sme`urana zelena - x4 . Poznate su verovatno}e pi za svaki od mogu}ih ishoda potomaka (odnosno, poznat je hipoteti~ki zakon raspodele verovatno}a): ⎛ x1 x2 x3 x4 ⎞ ⎜ ⎟. ⎜⎜ 9 3 3 1 ⎟⎟ ⎝ 16 16 16 16 ⎠ Koriste}i se istom metodom ukr{tawa, izvr{eno je 556 esperimenata (ukr{tawa) i Vrsta Broj Teorijske Teorijske dobijeni su rezultati u pot. potom. ver. pi frek. fi ∗ = npi tabeli. Tabelu smo xi fi iskoristili za pripremu 315 0.5625 312.75 x1 testirawa hipoteze H 0 da obele`je X ∈ { x1 , x2 , x3 , x4 } iz
ovog eksperimenta ima {emom zadatu raspodelu. Testirawe izvr{iti sa pragom zna~ajnosti α = 0.05 . Re{ewe. Ovde treba
x2
101
0.1875
104.25
x3
108
0.1875
104.25
x4
32
0.0625
34.75
Ukupno
556
1.0000
556.00
139
primetiti da je, npr. 0.1875 = 3 16 = p2 i da, kada ra~unamo sa decimalnim brojevima, posledwu hipoteti~ku verovatno}u pr uvek ra~unamo pomo}u pr = 1 − ∑ i =1 pi , kako bi smo izbegli eventualne gre{ke zbog zaoku`ivawa. r −1
Uo~imo da u ovoj raspodeli nema nepoznatih parametara, odnosno da je m = 0 . Dakle, r − m − 1 = 4 − 0 − 1 = 3 . Realizacija test statistike je
( 315 − 312.75) χˆ = 2 3
2
(101 − 104.25) +
2
(108 − 104.25) +
312.75 104.25 104.25 Odre|ujemo kriti~nu vrednost testa χ 3;2 0.05 :
2
( 32 − 34.75 ) + 34.75
2
= 0.47 .
PH 0 ( χ 32 ≥ χ 3;2 0.05 ) = 0.05 ⇔ χ 3;2 0.05 = 7.8 .
Nema razloga da odbacimo H 0 jer je χˆ 32 = 0.47 < χ 3;2 0.05 = 7.8 . Primer 2. U toku 100 dana bele`en je broj kvarova vodovodne mre`e jednog grada. Dobijeni su slede}i podaci Broj kvarova 0 1 2 3 4 5 xi Frekvencija 8 28 31 18 9 6 fi Proveriti nultu hipotezu, sa pragom zna~ajnosti α = 0.05 , da broj kvarova vodovodne mre`e ima Poasonovu raspodelu. Re{ewe. Treba da proverimo nultu hipotezu H 0 : za broj kvarova xi u mre`i va`i
pi = P ( X = xi ) =
λx
i
e − λ , i = 0,1, 2,3, 4,5 .
xi ! Nepristrasna ocena nepoznatog parametra λ Poasonove raspodele je sredina uzorka: 8 ⋅ 0 + 28 ⋅1 + 31⋅ 2 + 18 ⋅ 3 + 9 ⋅ 4 + 6 ⋅ 5 = 2.1 . λ = x100 = 100 Pomo}u tablica Poasonove raspodele, pod pretpostavkom da je H 0 ta~na, odre|ujemo teorijske verovatno}e: pi
( 2.1) ==
xi
e − 2.1 , i = 0,1, 2,3, 4 , p5 = 1 − ∑ i =1 pi . 4
xi ! Potom odre|ujemo teorijske frekvencije fi ∗ = 100 pi , i = 0,1, 2,3, 4,5. Na kraju izra~unavamo realizovanu vrednost test statistike, vode}i ra~una da je broj stepena slobode k − m − 1 = 6 − 1 − 1 = 4 ,
χˆ = ∑ i =0 2 4
5
(f
i
− fi ∗ ) fi ∗
2
.
Kriti~nu vrednost testa χ 4;2 0.05 odre|ujmo pomo}u tablica iz
PH 0 ( χ 42 ≥ χ 4;2 0.05 ) = 0.05
i dobijamo χ 4;2 0.05 = 9.5 . Kriti~na oblast testa je C = ( 9.5, + ∞ ) . Ceo ra~un je dat u tabeli
140
Broj kvarova xi
Empirijske fr. fi
Teorijske ver. pi
0 1 2 3 4 5
8 28 31 18 9 6 100
0.122 0.257 0.270 0.189 0.099 0.063 1.000
∑
Teorijske fr. ∗ fi = 100 pi 12.2 25.7 27.0 18.9 9.9 6.3 100
(f
i
− fi ∗ )
2
fi ∗ 1.45 0.21 0.59 0.04 0.08 0.01 2 χˆ 4 = 2.38
Zbog χˆ 42 = 2.38 ∉ C na osnovu ovog uzorka nema razloga za odbacivawe nulte hipoteze. ▲ Napomenimo, {to je veoma va`no, da za primenu χ 2 testa treba da je broj intervala r {to ve}i, ali da pojedina~ne frekvencije ne smeju biti mawe od 5. Ka`imo jo{ da, ako je prema H 0 obele`je X neprekidnog tipa sa gustinom ϕ 0 ( x ) , onda kao prvi interval uzimamo ( −∞, c1 ) , a kao posledwi interval uzimamo ( cr −1 , + ∞ ) . Slede}i primer je veoma va`an da bi se razumela primena χ 2 testa za testirawe hipoteze o normalnoj raspodeli obele`ja osnovnog skupa. Primer 3. Na osnovu rezultata 50 posmatrawa treba proveriti hipotezu da obele`je X ima normalnu raspodelu. Postavqenu hipotezu testirati sa pragom zna~ajnosti α = 0.05 . Rezultati posmatrawa su dati u slede}oj tabeli X [ 70, 76 ) [ 76, 82 ) [82, 88 ) [88, 94 ) [94, 100 ) [100, 106 ) [106, 112 )
f
2
5
10
17
9
4
3
Re{ewe. Treba proveriti nultu hipotezu x
1 ⎛ x−m ⎞
2
− ⎜ ⎟ 1 2⎝ σ ⎠ H 0 : F0 ( x ) = e dx . ∫ σ 2π −∞ Nepoznate parametre hipoteti~ke funkcije raspodele (o~ekivawe m i disperziju σ 2 ) zamewujemo wihivim nepristrasnim ocenama na osnovu realizovanog uzorka. Ocena za o~ekivawe m je uzora~ka sredina
2
x 50 , a za disperziju σ 2 disperzija uzorka s 50 ( obim uzorka je ve}i od 30!). U pitawu je intervalna serija, pa intervale u ovim ra~unawima zamewujemo wihovim sredinama. Imamo redom: 73 ⋅ 2 + 79 ⋅ 5 + 85 ⋅10 + 91⋅17 + 97 ⋅ 9 + 103 ⋅ 4 + 109 ⋅ 3 = 91 , x50 = 50 2 732 ⋅ 2 + 792 ⋅ 5 + 852 ⋅10 + 912 ⋅17 + 97 2 ⋅ 9 + 1032 ⋅ 4 + 1092 ⋅ 3 − 912 = 72 , s 50 = 50 s 50 = 72 = 8.485 . Kako je u pitawu testirawe hipoteze o neprekidnoj slu~ajnoj promenqivoj, to se za prvu granicu prvog intervala uzima −∞ (umesto 70),
141
a za posledwu granicu posledweg intervala +∞ (umesto 112). Ovo ~inimo da bi zbir teorijskih verovatno}a bio 1. Kao {to smo rekli, frekvencije koje odgovaraju pojedinim intervalima realizacije slu~ajne promenqive ne smeju biti mawe od 5. Stoga postoje}e intervale ,,spajamo” kako bi smo ispunili ovaj uslov. Posle ovih nepohodnih izmena polazna tablica ima slede}i izgled
X
( −∞, 82 ) [82, 88) [88, 94 ) [94, 100 ) [100, + ∞ ) 7
f
10
17
9
7
Za odre|ivawe teorijskih frekvencija potrebne su nam teorijske verovatno}e. Ove teorijske verovatno}e moramo odrediti iz tablica za N ( 0, 1) raspodelu. Iz tog razloga moramo izvr{iti odre|ena ,,normirawa”. Poka`imo kako se to radi. ⎛ −∞ − x 50 X − x 50 82 − x 50 ⎞ < < p1 = P ( −∞ < X < 82 ) = P ⎜ ⎟ s s s 50 ⎠ 50 50 ⎝ = P ( −∞ < X ∗ < −1.06 ) = 0.5 − Φ (1.06 ) = 0.5 − 0.3554
= 0.1446. Dakle za odre|ivawe verovatno}a pi koristimo pstupak opisan sa
pi = P ( ci −1 < X < ci ) = P ( zi −1 < X ∗ < zi ) , X ∗ : N ( 0, 1) .
Ostale potrebne veli~ine se dobijaju kao u prethodna dva primera. Posle ra~unawa podaci su sre|eni u narednoj tabeli
X − 91 , 8.485 [ zi −1 , zi )
X∗ =
( −∞, − 1.06 ) [ −1.06, − 0.35) [ −0.35, 0.35) [0.35, 1.06 ) [1.06, + ∞ )
∑
fi
pi
fi ∗ = 50 pi
(f
i
− fi ∗ )
2
fi ∗
7 0.1446
7.23
0.007
10 0.2186
10.93
0.079
17 0.2736
13.68
0.806
9 0.2186
10.93
0.341
7 0.1446
7.23
0.007
50 1.0000
50.00
1.240
Broj stepeni slobode test statistike je r − m − 1 = 5 − 2 − 1 = 2 , pa je kriti~na vrednost χ 2;2 0.05 = 6.0 . Iz tabele je realizacija
χˆ 22 = 1.24 < 6.0 = χ 2;2 0.05 , pa nema osnova za odbacivawe nulte hipoteze, odnosno, mo`e se smatrati da posmatrano obele`je ima N ( 91, 72 ) raspodelu. ▲ Ovaj test ne mo`e se neposredno primeniti na diskretno obele`je X koje uzima bekona~no mnogo vrednosti x1 , x2 ,... jer je obim uzorka n kona~an. U ovom slu~aju postupamo tako {to umesto svake vrednosti
142
xi posmatramo skupove vrednosti Si = { xi1 , xi 2 ,...} . Uzimamo r disjunktnih skupova S1 , S2 ,..., S r
tako da je wihova unija jednaka svim mogu}im
ishodim x1 , x2 ,... , odnosno S1 + S 2 + ... + S r = { x1 , x2 ,...} . Sada su hipoteti~ke verovatno}e pi = PH 0 ( X ∈ Si ) , i = 1, 2,..., r , a fi ∗ = npi , gde je n obim uzorka. Ovu situaciju ilustrujemo slede}im primerom. Primer 4. Hipoteza H 0 je da obele`je X -broj otkaza ma{ine u toku dana, ima P ( 4 ) raspodelu. Na realizovanom uzorku-broj otkaza u 100
slu~ajno izabranih dana, testirati sa pragom zna~ajnosti α = 0.01 hipotezu H 0 . Dobijeni podaci su dati u slede}oj tabeli Broj otkaza 0 1 2 3 4 5 6 7 8 9 Broj dana 2 7 17 23 35 13 8 2 2 1 Re{ewe. Da bi smo uspe{no primenili Pirsonov χ 2 test moramo formirat skupove vrednosti Si tako da ih je {to vi{e, ali da je fi ≥ 5 . To mo`emo, na primer, u~initi kao u slede}oj tabeli Si {0, 1} {2} {3} {4} {5} {6} {7, 8, 9} 17 23 35 13 8 2+2+1 fi 2+7 Sada ra~unamo teorijske verovatno}e koriste}i tablice Poasonove raspodele. 40 41 p1 = PH 0 ( X ∈ S1 ) = PH 0 ( X = 0 ) + PH 0 ( X = 1) = e− 4 + e− 4 = 0.09158 , 0! 1! p2 = PH 0 ( X = 2 ) = 0.14653 , p3 = 0.19537 , p4 = 0.19537 , p5 = 0.15629 ,
p6 = 0.10419 , i na kraju,
p7 = 1 − ( p1 + p2 + ... + p6 ) = 0.11067 .
Preostali ra~un je dat u narednoj tabeli 1 2 3 4 5 i fi ∗ = 100 pi
(f
i
− fi∗ ) fi∗
6
7
∑
9.158
14.653
19.537
19.537
15.629
10.419
11.067
100.000
0.00272
0.37592
0.61383
12.23854
0.44223
0.56162
3.32537
17.18139
2
Kriti~na vrednost testa je χ 72−1; 0.01 = 16.8 . Zbog
χˆ 62 = 17.18139 ∈ [16.8, + ∞ ) hipotezu H 0 odbacujemo. Primer 5. @elimo da testiramo hipotezu H 0 : ,,vek trajawa “ ( u ~asovima) X
sijalice ima E ( 0.005 ) raspodelu. Prag zna~ajnosti je
α = 0.01 . Registrovani podaci su dati u slede}oj tabeli Vek trajawa [ 0, 100 ) [100, 200 ) [ 200, 300 ) [300, + ∞ ) Broj sijalica 47 40 35 28 Re{ewe. Podsetimo se (odeqak 3.4) da je funkcija raspodele za eksponencijalnu raspodelu
143
0, x < 0, ⎧ ⎪x F ( x) = ⎨ −α t −α x ⎪ ∫ α e dt = 1 − e , x ≥ 0. ⎩0 U na{em primeru je α = 0.05 . Hipoteti~ke verovatno}e pi , i = 1, 2,3, 4 ,
ra~unamo prema pi = PH 0 ( ci −1 < X < ci ) = F ( ci ) − F ( ci −1 ) . Tako je, na primer,
p2 = PH 0 (100 ≤ X < 200 ) =
200
∫ 0.005e
− 0.005 x
dx = 1 − e −1 − (1 − e− 0.5 ) = 0.24 .
100
Ako vodimo ra~una da je p4 = 1 − ( p1 + p2 + p3 ) i fi ∗ = npi = 150 pi , i = 1, 2,3, 4 , onda sre|ene podatke navodimo u slede}oj tabeli [ci −1 , ci ) [0, 100 ) [100, 200 ) [ 200, 300 ) [300, + ∞ )
∑
fi
47
40
35
28
150
pi
0.39
0.24
0.15
0.22
1.00
fi ∗ = npi
58.5
36
22.5
33
150
Kriti~na vrednost testa je χ 3;2 0.01 = 11.3 . Realizovana vrednost test statistike je 4
χˆ = ∑ 2 3
(f
i
− fi ∗ ) fi ∗
i =1
2
( 47 − 58.5) =
2
58.5
( 40 − 36 ) + 36
2
( 35 − 22.5) + 22.5
2
( 28 − 33) +
2
= 11.56 .
33
Kako χˆ 32 = 11.56 ∈ C = [11.3, + ∞ ) , to nultu hipotezu H 0 odbacujemo.
χ 2 test za testirawe hipoteze o nezavisnosti dva obele`ja U najkra}em }emo pokazati kako se χ 2 test mo`e iskoristiti za testirawe nulte hipoteze H 0 da su dva posmatrana obele`ja X i Y X \Y
y1
y2
yj
ys
∑
x1
n11
n12
n1 j
n1s
n1i
x2
n21
n22
n2 j
n2 s
n2 i
registrovanih razli~itih
xi
ni1
ni 2
nij
nis
ni i
vrednosti. U uzorku obima n smo konstatovali nij slu~ajeva
xr
nr1
nr 2
nrj
nrs
nr i
∑
ni1
ni 2
ni j
ni s
n
nezavisna. U tu svrhu formiramo slede}u takozvanu tabelu kontigencije. Registrovane razli~ite vrednosti promenqive X su { x1 , x2 ,..., xr } , a promenqiva Y ima { y1 , y2 ,..., ys }
kod kojih je
X = xi , Y = y j ,
i = 1, 2,..., r , j = 1, 2,..., s . Uveli smo oznake ni i = ∑ j =1 nij , ni j = ∑ i =1 nij , pri s
~emu
pij = P
je
n = ∑ i =1 ∑ j =1 nij = ∑ i =1 ni i = ∑ j =1 ni j . r
o~igledno
({ X = x } ∩ {Y = y }) , i
r
j
s
r
s
Ako
stavimo
pi i = P ( X = xi ) , pi j = P (Y = y j ) , onda je nulta
hipoteza
144
H 0 : pij = pi i pi j , i = 1, 2,..., r , j = 1, 2,..., s , dok je alternativna H1 : pij ≠ pi i pi j , bar za jedno i , j , ( i = 1, 2,..., r , j = 1, 2,..., s ). Test statistika za testirawe ovakve hipoteze, sa pragom zna~ajnosti α ( α je rizik da }emo prihvatiti H 0 kada nije ta~na) i pod pretpostavkom da je H 0 ta~na, za veliko n ( n ≥ 50 ) ima pribli`no
χ (2r −1)( s −1) raspodelu i formira se pomo}u 2
χ (2r −1)( s −1) Kriti~na vrednost testa χ
ni i ni j ⎞ ⎛ n − ⎜ ⎟ ij r s n ⎠ ⎝ = ∑∑ . ni i ni j i =1 j =1
2 ( r −1)( s −1) ; α
n se ~ita iz tablica χ 2 raspodele. Ako
realizaciju test statistike va`i χˆ (2r −1)( s −1) < χ (2r −1)( s −1) ; α nema razloga za odbacivawe nulte hipoteze. U protivnom, odnosno ako je χˆ (2r −1)( s −1) ≥ χ (2r −1)( s −1); α , H 0 odbacujemo, odnosno smatramo da su obele`ja X i
Y zavisna. Primer 6. Treba da testiramo hipotezu H 0 da je marka automobila (obele`je X : marke A , B i C ) nezavisna od pola vlasnika (obele`je Y ) sa pragom zna~ajnosti α = 0.05 . U tom ciqu izabrano je na slu~ajan na~in 350 vlasnika automobila i dobijena je slede}a tabela kontigencije. Marka Pol mu{ki `enski ni i 40 80 30 150
A B C ni j
Re{ewe. Broj stepeni slobode je
30 120 50 200
70 200 80 350
( r − 1)( s − 1) = 2 ⋅1 = 2 .
Realizacija
test statistike je χˆ 22 = 1038.42 , dok je kriti~na vrednost testa χ 2; 0.05 = 6.0 . Zna~i da nultu hipotezu odbacujemo. Primer 7. Na osnou podataka iz tabele kontigencije treba, sa pragom zna~ajnosti α = 0.05 , ispitati da li nova tehnologija u proizvodwi jednog poqoprivrednog proizvoda zavisi od tipa gazdinstva.
Stara tehnologija Nova tehnologija
∑
∑
Kooperativna gazdinstva 20
Nekooperativna gazdinstva 15
35
40
75
55
55
110
35
Re{ewe. χˆ12 = 0.67 < 3.8 = χ1;2 0.05 , pa nema razloga za odbacivawe nulte hipoteze.
145
Test Kolmogorova i Smirnova Kod Pirsonovog χ 2 testa testirali smo hipoteze o saglasnosti empirijskih podataka sa nekom teorijskom raspodelom slu~ajnih veli~ina, bilo diskretnih, bilo neprekidnih. Test Kolmogorova i Smirnova (zove se jo{ i λ test Kolmogorova) primewuje se samo kada obele`je X ima neprekidnu funkciju raspodele verovatno}a F ( x ) i, {to treba podvu}i, sa poznatim parametrima. I ovaj test pripada grupi neparametarskih testova. Za primenu ovog testa nam treba pojam empirijske funkcije raspodele S n ( x ) (odeqak 6.2, definicija 2). Ponovimo da je za uzorak
( X 1 , X 2 ,..., X n )
obele`ja X empirijska funkcija raspodele definisana
kao
1 n S n ( x ) = ∑ I{ X k < x} , −∞ < x < +∞ . n k =1 Dakle, za svako x , S n ( x ) je slu~ajna promenqiva koja predstavqa broj (podeqen sa n ) slu~ajnih promenqivih X k , k = 1, 2,..., n , iz
( X 1 , X 2 ,..., X n )
koje su mawe od x . Primer 1. Neka je obele`je X stepen viskoznosti odre|enog rastvora. Neka je izvr{eno n = 10 merewa, pri ~emu su dobijeni slede}i podaci: 31.0 31.4 33.3 33.4 33.5 33.7 34.4 34.9 36.2 37.0. Odrediti empirijsku funkciju raspodele S10 ( x ) . Re{ewe. Na primer, za 31 < x ≤ 31.4 je S10 ( x ) = 1 10 , jer je samo jedna vrednost obele`ja X , 31, mawa od x . Ostali podaci su dati u tabeli. x
S10 ( x )
x ≤ 31 31 < x ≤ 31.4 31.4 < x ≤ 33.3 33.3 < x ≤ 33.4 33.4 < x ≤ 33.5 33.5 < x ≤ 33.7 33.7 < x ≤ 34.4 34.4 < x ≤ 34.9 34.9 < x ≤ 36.2 36.2 < x ≤ 37 37 < x
0 1 10 2 10 3 10 4 10 5 10 6 10 7 10 8 10 9 10 1
Na slici je skiciran grafik empirijske funkcije raspodele S10 ( x ) . Veli~ina svakog skoka iznosi 1 n =1 10 .
Ukoliko parametri funkcije raspodele F ( x ) nisu poznati oni se ocewuju na osnovu uzorka velikog obima, uporedo sa uzorkom koji istra`ujemo, ili pak na osnovu samog ispitivanog uzorka. U posledwem slu~aju λ -kriterijum je pribli`an u tom smislu da je stvarni nivo zna~ajnosti pribli`no jednak zadatom nivou α . Ovde je preporu~qivo da 146
se uzima ne{to ve}i nivo zna~ajnosti ( α = 0.10 − 0.20 ). Nave{}emo i objasniti primenu λ -kriterijuma na dva verovatnosna modela. Prvi model. Neka je F ( x ) nepoznata funkcija raspodele obele`ja
X . Neka je nulta hipoteza H 0 da obele`je X ima odre|enu funkciju
raspodele F0 ( x ) , odnosno H 0 : F ( x ) = F0 ( x ) . Iz op{teg skupa ,,uzima” se uzorak velikog obima ( n ≥ 50 ). Na osnovu uzora~ke informacije treba testirati nultu hipotezu. Kao test statistika se koristi statistika Kolmogorova Dn = max S n ( x ) − F0 ( x ) . −∞< x <+∞
Kolmogorov je 1933. godine dokazao da, ako je H 0 ta~na, slu~ajna promenqiva Dn n ima, kada n → ∞ , funkciju raspodele
(
)
P ( λ ) = P Dn n < λ = ∑ k =−∞ ( −1) e −2 k λ , λ > 0 . k =+∞
k
2 2
Za zadati nivo zna~ajnosti α kriti~nu vrednost testa λα odre|ujemo iz tablice α 0.20 0.10 0.05 0.02 0.01 0.001 λα 1.073 1.224 1.358 1.520 1.627 1.950 Testirawe nulte hipoteze H 0 pomo}u λ testa Kolmogorova mo`e se vr{iti slede}im koracima: 10 empirijske podatke srediti u rastu}i statisti~ki niz ili skup (skup intervala); 20 na}i empirijsku funkciju raspodele S n ( x ) ; vrednosti
F0 ( xi ) pretpostavqene funkcije
40 Za svaku vrednost xi na}i
Sn ( xi ) − F0 ( xi ) , a potom odrediti
30 sra~unati za
xi
raspodele F0 ( x ) ; Dn = max S n ( xi ) − F0 ( xi ) i izra~unati xi
Ako je
nDn .
nDn < λα onda nemamo razloga da odbacimo H 0 . Ukoliko je
nDn ≥ λα onda H 0 odbacujemo. Primer 2. Neka je obele`je X stepen viskoznosti odre|enog rastvora. Neka je izvr{eno n = 10 merewa, pri ~emu su dobijeni slede}i podaci: 31.0 31.4 33.3 33.4 33.5 33.7 34.4 34.9 36.2 37.0. Testirati testom Kolmogorova hipotezu H 0 da obele`je X ima N ( 32; 3.24 )
raspodelu sa pragom zna~ajnosti α = 0.05 . Re{ewe. U primeru 1 smo realizovali korake 10 i 20 prethodnog algoritma. 30 Odredi}emo pretpostavqenu funkciju raspodele F0 ( x ) . Kako
X − 32 x − 32 : N ( 0; 1) . Primetimo da je ≤ 0 za 1.8 3.24 x ≤ 32 . Zbog toga se pretpostavqena funkcija raspodele mo`e zapisati u obliku X : N ( 32; 3.24 ) , to X ∗ =
147
⎧ ⎛ x − 32 ⎞ ⎪0.5 − Φ ⎜ − 1.8 ⎟ , x ≤ 32, x − 32 ⎞ ⎪ ⎝ ⎠ ⎛ F0 ( x ) = P ( X < x ) = P ⎜ X ∗ < ⎟=⎨ 1.8 ⎠ ⎪ ⎝ ⎛ x − 32 ⎞ 0.5 + Φ ⎜ ⎟ , x > 32. ⎪⎩ ⎝ 1.8 ⎠ Poka`imo kako se odre|uju F0 ( xi ) , i = 1, 2,...,10 . Na primer, ⎛ 32 − 31 ⎞ F0 ( 31) = P ( X < 31) = 0.5 − Φ ⎜ ⎟ 0.5 − Φ ( 0.56 ) = 0.5 − 0.2123 = 0.2877 . ⎝ 1.8 ⎠ Ostale vrednosti }emo navesti u radnoj tabeli. 40 Za odre|ivawe Sn ( xi ) − F0 ( xi ) koristimo da je S n ( x ) broj svih xi koji su mawi od x podeqen sa n . Tako je S10 ( 31) = 0 , S10 ( 31.4 ) = 0.1 , i tako daqe. Ostali podaci su dati u slede}oj radnoj tabeli
xi
S10 ( xi )
F0 ( xi )
S10 ( xi ) − F0 ( xi )
31.0 31.4 33.3 33.4 33.5 33.7 34.4 34.9 36.2 37.0 38.0
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
0.2877 0.3707 0.7642 0.7823 0.7967 0.8264 0.9082 0.9463 0.9901 0.9973 0.9986
0.2877 0.2707 0.5642 0.4823 0.3967 0.3264 0.3082 0.2463 0.1901 0.0973 0.0014
Iz tabele vidimo da je realizovana vrednost statistike Dn broj d10 = 0.5642 , pa dobijamo nd n = 10 ⋅ 0.5642 = 1.7842 .
Kriti~na vrednost testa je λ0.05 = 1.358 < 1.7842 = 10d10 , pa nultu hipotezu odbacujemo. Primedba 1. Primetimo da je empirijska funkcija raspodele S n ( x ) obele`ja X u tesnoj vezi sa kumuliranim relativnim frekvencijama (primer 1. iz odeqka 6.4). Drugi model. Ovaj model se zove test Smirnova. Pretpostavka je da su data dva nezavisna prosta uzorka X 1 , X 2 ,..., X n1 i Y1 , Y2 ,..., Yn2 iz istog
(
) (
)
osnovnog skupa sa posmatranim neprekidnim obele`jem X , pri ~emu je n1 ≥ 50 i n2 ≥ 50 . Ako je F1 ( x ) funkcija raspodele komponenti X i ,
i = 1, 2,..., n1 , a F2 ( x ) funkcija raspodele komponenti Y j , j = 1, 2,..., n2 , treba testirati hipotezu H 0 : F1 ( x ) = F2 ( x ) . Ovaj test se mo`e koristiti za ispitivawe stabilnosti raznih procesa u vremenu.
148
Ukratko opisujemo testirawe hipoteze H 0 : F1 ( x ) = F2 ( x ) Smirnova. Na osnovu
realizovanih
( x , x ,..., x )
uzoraka
1
2
i
n1
testom
( y , y ,..., y ) 1
2
n2
odre|ujemo odgovaraju}e empirijske funkcije raspodela verovatno}a S n1 ( x ) i S n2 ( x ) . Daqe sra~unavamo veli~inu n1n2 n1n2 . = max S n1 ( x ) − S n2 ( x ) x n1 + n2 n1 + n2 Iz tablica se za dati prag zna~ajnosti α o~itava kriti~na vrednost testa λα . Ukoliko je λ < λα nema razloga za odbacivawe hipoteze
λ = D∗
H 0 : F1 ( x ) = F2 ( x ) , odnosno posmatani proces je stabilan u vremenu.
Ukoliko je , pak, λ ≥ λα , onda nultu hipotezu odbacujemo. Narednim primerom ilustrujemo test Smirnova. Primer 3. Treba kontrolisati stabilnost obrade jednog ma{inskog elementa na automatskom strugu. Kontroli{e se preciznost obrade, odnosno odstupawe obrade od kontrolisane veli~ine date u mikronima. U tu svrhu se uzima prvo uzorak obima n1 = 150 , po potom uzorak obima n2 = 100 i meri odstupawe. Podaci su navedeni u tabeli. U~estanosti uzorak 1 uzorak 2 f1i f 2i 10 -
Interval promenqive veli~ine
[ −15, − 10 ) [ −10, − 5) [ −5, 0 ) [0, 5 ) [5, 10 ) [10, 15) [15, 20 ) [ 20, 25)
∑
27
7
43
17
38
30
23
29
8
15
1
1
-
1
n1 =150
n2 =100
Treba testom Smirnova testirati sa pragom zna~ajnosti α = 0.05 nultu hipotezu da se raspodela gre{aka obrade opisuje istom funkcijom raspodele Re{ewe . Treba proveriti nultu hipotezu H 0 : F1 ( x ) = F2 ( x ) , odnosno da je obrada na automatskom strugu stabilna u vremenu. U tu svrhu odre|ujemo iz tablice kriti~nu vrednost testa: λ0.05 = 1.358 . Daqe ra~unamo nn 150 ⋅100 n= 1 2 = = 60 . n1 + n2 150 + 100
149
Za odre|ivawe realizacije statistike D∗ = max S n1 ( x ) − S n2 ( x ) koristimo xi
slede}u radnu tabelu. Napomenimo da za odre|ivawe empirijskih funkcija raspodela, {to je u skladu sa wihovom definicijom, koristimo desne krajeve pojedinih intervala. xi +1 U~estanosti Kumulirane n ( x) n ( x) u~estanosti Sn ( x ) − Sn ( x ) Sn ( x ) = 1 Sn ( x ) = 2 n n f1i f 2i n1 ( x ) n2 ( x ) 1 2 1
1
-10 -5 0 5 10 15 20 25
10 27 7 43 17 38 30 23 29 8 15 1 1 1 Iz posledwe statistike D∗ broj
2
2
10 0.067 0.000 0.067 37 7 0.248 0.070 0.176 80 24 0.533 0.240 0.193 118 54 0.787 0.540 0.247 141 83 0.940 0.830 0.110 149 98 0.993 0.980 0.013 150 99 1.000 0.990 0.010 150 100 1.000 1.000 0.000 kolone radne tabele vidimo da je realizacija d ∗ = 0.247 . Sada je λ = nd ∗ = 60 ⋅ 0.247 = 1.913 > 1.358 = λ0.05 , pa nultu hipotezu treba odbaciti. Dakle, gre{ke obrade ne mogu se opisivati istom funkcijom raspodele. Zna~i da proces nije stabilan u vremenu.
150
9 LINEARNA REGRESIJA 9.0 POJAM LINEARNE REGRESIJE Probleme koji }emo razmatrati u ovom poglavqu vrlo su bliski problemima iz odeqka 4.7. Oni su na izvestan na~in primena u Matemati~koj statistici teoretskih razmatrawa u 4.7. Pribli`imo problematiku slede}im primerom. Primer 1. Poznato je da temperatura nekog mesta zavisi od wegove nadmorske visine. [to je mesto na ve}oj visini wegova temperatura je ni`a (misli se na prose~nu dnevnu, mese~nu, godi{wu temperaturu). Ako izvr{imo n merewa na razli~itim visinama x1 , x2 ,…, xn dobi}emo odgovaraju}ih n vrednosti za temperaturu Y1 , Y2 ,…, Yn . Ukoliko ponovimo ova merewa na istim mestima, ne}emo dobiti iste vrednosti za temperaturu, ve} neke druge vrednosti Y1′ , Y2′ ,…, Yn′ . Dakle, Yi , i = 1, 2,..., n , mo`emo smatrati za slu~ajne promenqive, {to smo velikim slovima ve} nazna~ili. Ovde visine x1 , x2 ,…, xn ne smatramo slu~ajnim promenqivim, ve} konstantama. Kako temperatura Y zavisi od visine x kao od parametra koji nije slu~ajan to mo`emo pisati Y = Y ( x ) . ^esto se x zove kontrolisana, a Y observirana promenqiva. Za xi , i = 1,2,…, n slu~ajna promenqiva Y postaje Yi = Y ( xi ) . Prost slu~ajni uzorak obima n u ovom slu~aju ima oblik jeste da na osnovu
( x1 , Y1 ) , ( x2 , Y2 ) ,…, ( xn , Yn ) . Osnovni problem regresije uzorka ( x1 , Y1 ) , ( x2 , Y2 ) ,…, ( xn , Yn ) oceni funkcionalnu
zavisnost Y = Y ( x ) i da da statisti~ke procene ta~nosti takve ocene. 9.1 JEDNA^INA PROSTE LINEARNE REGRESIJE Najjednostavniji oblik funkcionalne zavisnosti Y = Y ( x ) nastaje kada Y aproksimiramo linearnom funkcijom Yˆ = α x + β . Dakle, Y = Yˆ + ε = α x + β + ε , gde su α i β odre|eni brojevi, dok je ε slu~ajna promenqiva sa o~ekivawem E ( ε ) = 0 i kona~nom disperzijom D ( ε ) = σ 2 . Odavde je E (Y ) = E (α x + β + ε ) = α x + β , D (Y ) = D (α x + β + ε ) = D ( ε ) = σ 2 ,
jer je α x + β broj, a ne slu~ajna promenqiva. Ako stavimo da je x = xi onda je Yi = α xi + β + ε i , i = 1, 2,..., n .
151
Za slu~ajne promenqive ε i pretpostavqamo da su nezavisne i sa istim
o~ekivawem i disperzijom kao ε . Kada uzmemo uzorak ( x1 , y1 ) , ( x2 , y2 ) ,…,
( xn , yn ) ,
onda nezavisne slu~ajne promenqive ε1 , ε 2 ,…, ε n ,,dobiju” neke
numeri~ke vrednosti ε1′ , ε 2′ ,…, ε n′ , tako da je yi = α xi + β + ε i′ , i = 1, 2,..., n .
Obele`je Y zavisi od parametra x na slede}i na~in: za svako x = xi , Yi ima jedan ,,deterministi~ki” sabirak koji je linearna funkcija od xi ( yˆ = α xi + β ) i ,,slu~ajni sabirak” ε i koji predstavqa slu~ajnu oscilaciju
(,,{um”) oko deterministi~kog sabirka, jer je E ( ε i ) = 0 . U jednom
realizovanom uzorku dobijamo ,,roj” ta~aka ( x1 , y1 ) , ( x2 , y2 ) ,…, ( xn , yn ) koji se mawe ili vi{e grupi{e oko prave yˆ = α x + β . To grupisawe zavisi od raspodele verovatno}a slu~ajnih promenqivih ε1 , ε 2 ,…, ε n . Zna~i da ako je disperzija D ( ε i ) = σ 2 , i = 1, 2,..., n , ve}a i rasturawe tog ,,roja” ta~aka oko prave yˆ = α x + β je ve}e.
Problem linearne regresije je ocewivawe parametara α , β i σ 2 pomo}u uzorka. Ovaj zadatak je va`an u problemima interpolacije i ekstrapolacije (ili predvi|awa ukoliko je parametar x vreme): za neku vrednost x∗ , razli~itu od x1 , x2 ,…, xn , treba da ocenimo slu~ajnu promenqivu Y ∗ = α x∗ + β + ε ∗ . Za tu ocenu uze}emo weno matemati~ko o~ekivawe E (Y ∗ ) = α x∗ + β , pri ~emu nam disperzija D (Y ∗ ) = D ( ε ∗ ) = σ 2
daje uvid u ,,ta~nost” te ocene. Na osnovu uzorka ( x1 , Y1 ) , ( x2 , Y2 ) ,…, ( xn , Yn ) dobijamo ocene αˆ , βˆ , σˆ 2 parametara α , β i σ 2 respektivno. Ove ocene su statistike, odnosno slu~ajne promenqive, jer zavise od slu~ajnog uzorka ( x1 , Y1 ) ,
( x2 , Y2 ) ,…, ( xn , Yn ) . Kada ,,uzmemo” uzorak ( x1 , y1 ) , ( x2 , y2 ) ,…, ( xn , yn ) , onda te ocene postaju odre|eni brojevi αˆ ′ , βˆ ′ i σˆ ′2 . Treba, dakle, odrediti raspodele za αˆ , βˆ i σˆ 2 , da bi se odredili intervali poverewa za α , β i
σ 2 , testirale hipoteze o wihovim vrednostima itd. U modelu linearne regresije Y = α x + β + ε }emo parametre α i β
152
ocewivati statistikama αˆ i βˆ na osnovu realizovanog uzorka ( x1 , y1 ) , ( x2 , y2 ) ,…, ( xn , yn ) metodom najmawih kvadrata (odeqak 7.2). Dakle, parametre α i β metodom najmawih kvadrata ocewujemo brojevima αˆ ′ i βˆ ′ koji sumu
S (α , β ) = ε1′2 + ε 2′3 + ... + ε n′2 = ∑ i =1 ( yi − yˆi ) = ∑ i =1 ⎡⎣ yi − (α xi + β ) ⎤⎦ 2
n
n
2
~ine minimalnom. Otuda su brojevi αˆ ′ i βˆ ′ re{ewe sistema jedna~ina
⎧ ∂S (α , β ) ⎧ n 2 ⎡ y − αˆ ′x + βˆ ′ =0 ⎪ i ⎪ ∂α ⎪∑ i =1 ⎣ i ⇔ ⎨ ⎨ n ⎪∑ i =1 2 ⎡ yi − αˆ ′xi + βˆ ′ ⎪ ∂S (α , β ) = 0 ⎣ ⎩ ⎪⎩ ∂β
( (
)⎤⎦ ( − x ) = 0 )⎤⎦ ( −1) = 0 i
⎧∑ n xi yi = αˆ ′∑ n xi2 + βˆ ′∑ n xi ⎪ i =1 i =1 i =1 ⇔⎨ n n ⎪⎩∑ i =1 yi = αˆ ′∑ i =1 xi + nβˆ ′ . Pod pretpostavkom da su x1 , x2 ,…, xn razli~iti brojevi i da je n ≥ 2 , gorwi sistem ima uvek jedinstveno re{ewe (poka`ite da je determinanta ovog
(
sistema n∑ i =1 xi − x n n
)
2
> 0 ). Ako primetimo da va`e veze
∑ x y − nx y = ∑ ( x − x )( y − y ) , ∑ x − nx = ∑ ( x − x ) , ∑ ( x − x ) = 0, n
n
i =1 i
n
i
n 2 i =1 i
n
n
i =1
i
i
n
i =1
n
2
n
n
i
n
i =1
i
n
onda se posledwi sistem transformi{e u wemu ekvivalentan n ⎧ xi − x n yi − y n ∑ i =1 ⎪αˆ ′ = , 2 ⎪ n − x x ⎨ n ∑ i =1 i ⎪ ⎪⎩ βˆ ′ = y n − αˆ ′ x n , koji koristimo za odre|ivawe tra`enih brojeva αˆ ′ i βˆ ′ . Ako ne koristimo prethodne veze, onda se polazni sistem mo`e zapisati u slede}em obliku n ⎧ x y − nx n y n ∑ i =1 i i 2 ⎪⎪αˆ ′ = n ⎨ ∑ i=1 xi2 − nx n ⎪ ⎪⎩ βˆ ′ = y n − αˆ ′ x n , pomo}u koga na prakti~niji na~in iz realizovanog uzorka odre|ujemo brojeve αˆ ′ i βˆ ′ . Uporedimo li jedna~inu regresije Yˆ = α x + β sa posledwom
(
(
)(
)
)
jedna~inom sistema βˆ ′ = y n − αˆ ′ x n ⇔ y n = αˆ ′ x n + βˆ ′ prime}ujemo da linija regresije prolazi kroz ta~ke sa kordinatama x n , y i 0, βˆ ′ , {to se
(
n
)
mo`e iskoristiti za crtawe linije linearne regresije.
153
(
)
Kako za dva obele`ja X i Y , ~iji slu~ajni uzorak obima n ima zapis ( x1 , Y1 ) , ( x2 , Y2 ) ,…, ( xn , Yn ) i realizaciju ( x1 , y1 ) , ( x2 , y2 ) ,…, ( xn , yn ) , proceniti da li su u linearnoj vezi ili nisu? Jedan kriterijum koji nam mo`e pomo}i u proceni stepena linearne zavisnosti obele`ja X i Y jeste grafik rasturawa koga ~ine ta~ke ( x1 , y1 ) , ( x2 , y2 ) ,…, ( xn , yn ) u pravouglom kordinatnom sistemu. Na osnovu grafika rasturawa mo`emo vizuelno zakqu~iti da li postoji linearna veza. Drugi kriterijum jeste realizacija koeficijenata linearne korelacije (odeqak 4.6) E ( XY ) − E ( X ) E (Y ) ρ XY = . D ( X ) D (Y )
( x1 , y1 ) , ( x2 , y2 ) ,…, ( xn , yn )
Uz oznaku ρˆ XY = r , za realizovani uzorak
procena koeficijenta linearne korelacije ra~una se prema obrascu n xi − x n yi − y n ∑ i =1 . r= 2 2 n n ∑ i =1 xi − x n ∑ i=1 yi − y n
(
(
)(
)
)
(
)
Va`i −1 ≤ r ≤ 1 . [to je r bli`e broju 1, to je stepen linearne zavisnosti ve}i. Za eksperimente u egzaktnim naukama obi~no se tra`i da je r ≥ 0.8 . Jedna mera odstupawa empirijskih podataka od jedna~ine regresije jeste vrednost standardne gre{ke regresije se =
∑
n
ε ′2
∑ ( y − yˆ ) n
2
. = n−2 n−2 [to je se mawe to linearni regresioni model boqe opisuje zavisnost posmatranih obele`ja. Sada }emo dati geometrijsko tuma~ewe parametara linearne regresije. Neka je na osnovu realizovanog uzorka ( x1 , y1 ) , ( x2 , y2 ) ,…, ( xn , yn ) dobijena jedna~ina linearne regresije yˆ = αˆ ′x + βˆ ′ . Ovo je jedna~ina prave i =1 i
i =1
i
i
linije. Broj αˆ ′ je koeficijent pravca te prave. U ovom slu~aju on se zove ocena prose~ne promene zavisno promenqive na jedinicu promene nezavisno promenqive. ^esto se ~uje da αˆ ′ predstavqa ,,trend” zavisnog obele`ja Y u odnosu na nezavisno obele`je X . Ako je αˆ ′ > 0 u pitawu je ,,trend” rasta (upravo proporcionalan odnos), dok za αˆ ′ < 0 imamo ,,trend” opadawa (obrnuto proporcionalan odnos: X raste - Y opada). Broj βˆ ′ je ocena prose~nog po~etnog nivoa zavisno promenqive. Brojevi ε i′ , i = 1, 2,..., n , su mere odstupawa uzora~kih vrednosti y od regresijom dobijenih vrednosti yˆ = αˆ ′x + βˆ ′ , odnosno, i
i
i
ε i′ = yi − yˆi . Realizovane gre{ke ε i′ su pozitivne kada se ta~ka
( xi , yi )
nalazi iznad grafika regresione linije, a negativne kada je ispod linije
154
regresije. U slu~aju ε i′ = 0 je yi = yˆi , pa je tada ta~ka
( xi , yi )
na liniji
regresije. Primer 1. Na osnovu podataka o broju prasadi u leglu i telesnoj masi prasadi, oceniti jedna~inu linearne regresije i izra~unati standardnu gre{ku. Veli~ina legla xi Prose~na masa prasadi ( kg .) yi
8
9
10
11
12
13
14
1.30
1.25
1.17
1.12
1.05
1.00
0.95
xi
yi
xi yi
8 9 10 11 12 13 14 77
1.30 1.25 1.17 1.12 1.05 1.00 0.95 7.84
10.40 11.25 11.70 12.32 12.60 13.00 13.30 84.57
Re{ewe. Potrebni podaci za odre|ivawa ocena koeficijenata linearne regresije dati su u tabeli. Daqe, uz x 7 = 11 i y 7 = 1.12 , imamo n ⎧ x y − nx n y n ∑ ⎧ ′ 84.57 − 7 ⋅11⋅1.12 i =1 i i ⎪⎪αˆ ′ = 2 ⎪αˆ = n 2 875 − 7 ⋅112 ⇔ − x nx ⎨ ⎨ n ∑ i =1 i ⎪ ⎪ βˆ ′ = 1.12 − αˆ ′ ⋅11 ⎩ ⎪⎩ βˆ ′ = y n − αˆ ′ x n , ⎧⎪αˆ ′ = −0.05964 ⇔⎨ ⎪⎩ βˆ ′ = 1.77604. Mo`emo uzeti da je prava yˆ = −0.06 x + 1.78 ocena linearne regresije posmatranih obele`ja. pitawu je opadawe prose~ne mase praseta za 0.06 prasetom vi{e. Za odre|ivawe standardne gre{ke regresije i = 1, 2,…, 7, pomo}u yˆi = −0.06 xi + 1.78 . Ostali podaci su sre|eni u tabeli xi yi yˆi ε ′ = yi − yˆi ε ′2 = ( y
i
xi2 64 81 100 121 144 169 196 875
Kako je αˆ ′ ≈ −0.06 u kg u svakom leglu sa moramo odrediti yˆi ,
− yˆi )
2
8 1.30 1.29892 0.00108 0.0000012 9 1.25 1.23928 0.01072 0.0001149 10 1.17 1.17964 -0.00964 0.0000929 11 1.12 1.12000 0.00000 0.0000000 12 1.05 1.06036 -0.01036 0.0001073 13 1.00 1.00072 -0.00072 0.0000005 14 0.95 0.94108 0.00892 0.0000796 77 7.84 7.84000 0.00000 0.0003964 Na osnovu izra~unatih podataka iz prethodne tabele dobija se da je standardna gre{ka regresije
∑
n
ε ′2
∑ ( y − yˆ ) n
2
0.0003964 = 0.0089 . 7−2 n−2 n−2 Prose~no odstupawe ta~aka dijagrama rasturawa od regresione linije je 0.0089 kg . Ovom merom je data ocena varijacije prose~ne mase prasadi u se =
i =1 i
=
i =1
i
i
155
=
leglu u rasporedima legala razli~ite veli~ine. Na slici je data regresiona prava. Tamni kvadrati}i odgovaraju ta~kama ( xi , yi ) , a svetli
( xi , yˆi ) .
ta~kama
posledwe ta~ke liniji regresije.
Ove su
na
Primer 2. U slede}oj tabeli su dati podaci o ispitivawu dejstva jednog parationskog preparata na mortalitet larvi repinog moqca. Na osnovu tih podataka oceniti jedna~inu linearne regresije i izra~unati standardnu gre{ku te ocene. Re{ewe. U ovom primeru Koncentracija Mortalitet ocenu koeficijenata α i β 3 u cm 100 lit. vode ( xi ) u % ( yi ) linearne regresije yˆ = α x + β , 35 84.8 koje ozna~avamo sa αˆ ′ i βˆ ′ , 40 89.9 odredi}emo pomo}u sistema 50 88.9 jedna~ina 60 92.4 n ⎧ x x y y − − n 70 96.7 ∑ i i n ⎪αˆ ′ = i =1 2 ⎪ n 80 96.6 xi − x n ⎨ ∑ i =1 90 95.9 ⎪ ˆ 100 98.3 ⎪⎩ β ′ = y n − αˆ ′ x n . ∑ = 525 ∑ = 743.5
(
(
)(
)
)
Uzorak je obima n = 8 , pa na osnovu podataka ra~unamo x8 = 65.625 , y 8 = 92.937 . Ostale podatke dajemo u slede}oj radnoj tabeli.
xi
yi
xi − x8
yi − y 8
( x − x ) ( x − x )( y − y ) 2
i
8
i
8
i
8
35 84.8 -30.625 -8.138 937.8906 249.2262 40 89.9 -25.625 -3.038 656.6406 277.8488 50 88.9 -15.625 -4.038 244.1406 63.0938 60 92.4 -5.625 -0.538 31.6406 3.0262 70 96.7 4.375 3.763 19.1406 16.4631 80 96.6 14.375 3.663 206.6406 52.6556 90 95.9 24.375 2.963 594.1406 72.2231 100 98.3 34.375 5.363 1181.6406 184.3531 525 743.5 0.000 0.000 3871.8748 718.8899 Pomo}u podataka iz radne tabele ra~unamo 718.8899 αˆ ′ = = 0.186 , βˆ ′ = 92.937 − 0.186 ⋅ 65.625 = 80.731 , 3871.8748
156
tako da je prava
yˆ = 0.186 x + 80.731 ocena linearne regresije posmatranih obele`ja. Za odre|ivawe standardne yi yˆi gre{ke regresije pomo}u 84.8 87.241 n 2 ˆ y − y ( ) ∑ i=1 i i 89.9 88.171 se = 88.9 90.031 n−2 koristimo slede}u radnu tabelu. Tako 92.4 91.891 dobijamo 96.7 93.751 96.6 95.611 23.691 se = = 1.987 . 95.9 97.471 6 Kada iskoristimo obrazac za 98.3 99.331 procenu koeficijenta korelacije
linearne
∑ ( x − x )( y − y ) ∑ (x − x ) ∑ ( y − y )
yi − yˆi
( yi − yˆi )
-2.441 1.729 -1.131 0.509 2.949 0.989 -1.571 -1.031
5.958 2.989 1.279 0.259 8.697 0.978 2.468 1.063 ∑ = 23.691
2
n
r=
i =1
n
i
2
n
i =1
i
n
i
n
n
i =1
i
2
,
n
na osnovu empirijskih podataka dobijamo 718.8899 718.8899 r= = = 0.964 . 3871.8748 ⋅143.648 745.7895 Na osnovu koeficijenta r zakqu~ujemo da je linearna veza izme|u datih obele`ja veoma jaka.
Primer 3. U slede}oj tabeli dati su podaci kako u nekom hemijskom procesu temperatura X (izra`ena u Kelvinima) uti~e na ne~isto}u sme{e Y (izra`ene u procentima) Temperatura xi 354 357 356 361 358 363 360 0.1 0.3 0.2 0.4 0.3 0.4 0.3 Ne~isto}a yi 10 Odrediti linearnu regresiju; 20 Odrediti standardnu gre{ku regresije; 30 Odrediti koeficijent linearne korelacije. Re{ewe. Na osnovu empirijskih podataka je: 10 yˆ = 0.0321x − 11.2198 ; Ostale veli~ine odredite za ve`bu.
157
Intervali poverewa za parametre linearne regresije U prethodnom odeqku smo parametre α i β linearne regresije Yˆ = α x + β ocewivali statistikama αˆ i βˆ (to su slu~ajne veli~ine). Realizacije ovih statistika αˆ ′ i βˆ ′ (to su brojevi) na osnovu ,,uzetog” uzorka ( x1 , y1 ) , ( x2 , y2 ) ,…, ( xn , yn ) odre|ivali smo pomo}u
(
)(
)
n n ⎧ ⎧ xi − x n yi − y n x y − nx n y n ∑ ∑ i =1 i =1 i i ⎪αˆ ′ = ⎪⎪αˆ ′ = , , 2 2 ⎪ n n 2 ili x nx − x x − ⎨ n ⎨ n ∑ i=1 i ∑ i =1 i ⎪ ⎪ ⎪⎩ βˆ ′ = y n − αˆ ′ x n . ⎪⎩ βˆ ′ = y n − αˆ ′ x n , Vrednost standardne gre{ke (ili rezidualne gre{ke) regresije smo
ra~unali prema se =
(
∑
n
)
ε ′2
∑ ( y − yˆ ) n
=
i =1 i
n−2
i =1
i
2
i
, a procenu koeficijenta
n−2
∑ ( x − x )( y − y ) ∑ (x − x ) ∑ ( y − y ) n
linearne regresije pomo}u r =
i =1
n
i
i
2
n
i =1
n
n
i
n
i =1
i
2
. Za neki drugi
n
,,uzeti” uzorak dobijamo, u op{tem slu~aju, druge brojeve αˆ ′ , βˆ ′ , se i r . Da bi smo odredili intervale poverewa za parametre α i β linearne regresije Yˆ = α x + β koristimo se uzora~kim varijansama slu~ajnih promenqivih αˆ i βˆ : S = 2 αˆ
Se2
∑ (x − x ) n
i =1
2
,
n
i
2 ⎡ 1 xn ⎢ + n S =S ⎢n ∑ i=1 xi − x n ⎣⎢ 2 βˆ
2 e
(
)
⎤ ⎥. 2 ⎥ ⎦⎥
Statistike Sαˆ i S βˆ zovu se standardne gre{ke koeficijenata αˆ i βˆ . Pokazuje se da statistike
T1 =
αˆ − α Sαˆ
i
T2 =
βˆ − β S βˆ
imaju Studentovu t raspodelu sa n − 2 stepena slobode. Za zadati nivo poverewa β (obi~no je to 0.95, 0.98, 0.99) iz tablica ~itamo kvantil tn − 2; 1− β takav da je
Pi ( Ti ≤ tn − 2; 1− β ) = β , i = 1, 2.
Pomo}u verovatno}a P1 i P2 i tablica za dvostrani interval poverewa Studentove raspodele dobijamo za realizovan uzorak dvostrani interval poberewa parametara α i β :
158
αˆ ′ − sαˆ ′ ⋅ tn − 2; 1− β ≤ α ≤ αˆ ′ + sαˆ ′ ⋅ tn − 2; 1− β , βˆ ′ − tn − 2; 1− β ⋅ sβˆ ′ ≤ β ≤ βˆ ′ + tn − 2; 1− β ⋅ sβˆ ′ . U prethodnim nejednakostima su brojevi sαˆ ′ i sβˆ ′ realizacije statistika Sαˆ = + Sα2ˆ i S βˆ = + S β2ˆ .
Primer 4. Odrediti 95%-ne intervale poverewa za α i β na osnovu podataka iz primera 1. Re{ewe. Broj stepeni slobode je n − 2 = 7 − 2 = 5 , pa je kvantil t5; 0.05 = 2.57 ( 1 − β = 1 − 0.95 = 0.05 i dvostrani interval poverewa). Dobijeno je αˆ ′ = −0.05964 . Na osnovu podataka iz primera 1. ra~unamo se 0.0089 = = 0.00168 . sαˆ = 2 7 2 − 875 847 x − 7 x7
∑
i =1 i
Realizacija intervala αˆ ′ − sαˆ ′ ⋅ tn − 2; 1− β ≤ α ≤ αˆ ′ + sαˆ ′ ⋅ tn − 2; 1− β je
−0.05964 − 0.00432 ≤ α ≤ −0.05964 + 0.00432 ,
odnosno ili
−0.06396 ≤ α ≤ −0.05532 ,
α = −0.05964 ∓ 0.00432 . Za 95%-ni interval poverewa parametra β ra~unamo 2
sβˆ = se
1 x7 1 121 + 7 2 = + = 0.0188 . 0.0089 7 ∑ xi − 7 x72 7 28 i =1
Interval
βˆ ′ − tn − 2; 1− β ⋅ sβˆ ′ ≤ β ≤ βˆ ′ + tn − 2; 1− β ⋅ sβˆ ′ ima realizaciju
159
1.77604 − 2.57 ⋅ 0.0188 ≤ β ≤ 1.77604 + 2.57 ⋅ 0.0188 , odnosno,
1.72808 ≤ β ≤ 1.82436 . Na slici su date prave linije koje su dobijene jedna~inom linearne regresije, kao i najmawih, odnosno najve}ih vrednosti intervala poverewa za parametre α i β . Primetimo da je prava ~ija je jedna~ina dobijena u primeru 1. u koridoru izme|u krajwih pravih dobijenih iz intervala poverewa. Primer 5. Na osnovu podataka iz primera 3. odrediti intervale poverewa parametara linearne regresije sa nivoom poverewa: 10 β = 0.95 ; 20 β = 0.98 . Re{ewe. Na osnovu podataka o uticaju temperature na ne~isto}u sme{e iz tabele Temperatura xi 354 357 356 361 358 363 360 0.1 0.3 0.2 0.4 0.3 0.4 0.3 Ne~isto}a yi dobili smo jedna~inu linearne regresije yˆ = 0.0321x − 11.2198 . Za odre|ivawe intervala poverewa potrebne su nam realizacije statistika Se , Sαˆ i S βˆ . U tu svrhu formiramo, na osnovu polaznih podataka, narednu radnu tabelu. xi yi xi yi xi2 354 356 357 358 360 361 363 2509
0.1 0.2 0.3 0.3 0.3 0.4 0.4 2.0
35.4 71.2 107.1 107.4 108.0 144.4 145.2 718.7
125316 126736 127449 128164 129600 130321 131769 899355
yˆi
yi − yˆi
( yi − yˆi )
0.1436 0.2078 0.2399 0.272 0.3362 0.3683 0.4325 -
-0.0436 -0.0078 0.0601 0.0280 -0.0362 0.0317 -0.0325 -
0.00189 0.00006 0.00361 0.00078 0.00131 0.00100 0.00106 0.00971
2
Na osnovu podataka iz radne tabele dobijamo x 7 = 358.42857 i y 7 = 0.28571 . Standardna gre{ka regresije ima realizaciju se = 0.04407 . Standardne gre{ke statistika αˆ i βˆ imaju numeri~ke vrednosti 2
0.04407 1 x7 = = 0.0058 i sβˆ = se sαˆ = + 7 = 2.07794 . 2 2 2 7 7 2 57.79 ∑ i =1 xi − 7 x7 ∑ i =1 xi − 7 x7 se
10 Za nivo poverewa β = 0.95 je kvantil t5; 0.05 = 2.57 , tako da je interval poverewa parametra α na osnovu datog uzorka 0.0321 − 0.0058 ⋅ 2.57 ≤ α ≤ 0.0321 + 0.0058 ⋅ 2.57 ⇔ 0.01719 ≤ α ≤ 0.04701 , dok parametar β ima interval poverewa −11.2198 − 2.57 ⋅ 2.07794 ≤ β ≤ −11.2198 + 2.57 ⋅ 2.07794 , ili −16.5601 ≤ β ≤ −5.87950 .
160
20 Za ve`bu odredite intervale poverewa parametara α i β za nivo poverewa β = 0.98 . Da li su ovi intervali u`i ili {iri od prethodnih? Da li pove}awe verovatno}e prekrivawa nepoznatog parametra intervalom pove}ava ili smawuju {irinu tog intervala i za{to? Interpolacija i ekstrapolacija Pomo}u ocewene jedna~ine regresije yˆ = αˆ ′x + βˆ ′ , kao {to smo videli, mo`emo dobiti prose~ne vrednosti zavisno promenqive yˆ = αˆ ′x + βˆ ′ za i
i
uzora~ke vrednosti nezavisno promenqive xi . Za prakti~ne potrebe ~esto je va`no odrediti prose~ne vrednosti zavisno promenqive za vrednosti nezavisno promenqive koje se razlikuju od uzora~kih vrednosti. Neka je ,,uzet” uzorak obima n : ( x1 , y1 ) , ( x2 , y2 ) ,…, ( xn , yn ) , pri ~emu je x1 < x2 <
< xn . Treba oceniti
Y∗ = α x∗ + β + ε = Yˆ∗ + ε , ukoliko je x∗ ≠ xi , i = 1, 2,..., n , ocenom Yˆ∗ = αˆ x∗ + βˆ . Realizaciju ove ocene obele`i}emo sa yˆ∗ . Dakle, yˆ = αˆ ′x + βˆ ′ . ∗
∗
Ako je x1 < x∗ < xn , onda se postupak odre|ivawa realizovane ocene yˆ∗ = αˆ ′x∗ + βˆ ′ naziva interpolacija, a yˆ∗ interpolirana vrednost.
Ukoliko, pak, x∗ ∉ [ x1 , xn ] , onda se odre|ivawe realizacije yˆ∗ = αˆ ′x∗ + βˆ ′ naziva ekstrapolacija, a dobijen broj yˆ∗ se naziva ekstrapolirana vrednost. Mo`e se vr{iti testirawe zna~ajnosti interpoliranih i ekstrapoliranih vrednosti, ali je za prakti~ne primene daleko va`nije odre|ivawe intervala poverewa za Y∗ . Ne}emo se upu{tati teorijska opravdawa odre|ivawa intervala poverewa realizovane ocene yˆ∗ = αˆ ′x∗ + βˆ ′ ni u slu~aju interpolacije, ni u slu~aju ekstrapolacije, ve} }emo samo navesti odgovataju}e statistike i realizacije ovih intervala. Neka je Yˆ∗ = α x∗ + β ocena za Y∗ = Y ( x∗ ) = α x∗ + β + ε ∗ . Statistika
(x − x ) ∑ (x − x ) 2
SY −Yˆ ∗
∗
1 = Se 1 + + n
n
i =1
i
∑ ( y − yˆ ) n
n
∗
2
=
i =1
i
n−2
n
i
2
(x − x ) ∑ (x − x ) 2
1 1+ + n
n
∗
n
i =1
i
2
n
zove se ocena standardne gre{ke zamene Y∗ sa Yˆ∗ . Pokazuje se da statistika Y − Yˆ T= ∗ ∗ SY −Yˆ ∗
∗
ima Studentovu raspodelu sa n − 2 stepena slobode. Neka su redom s y∗ − yˆ∗ i realizacije prethodne dve statistike. Neka je y∗ = αˆ ′x∗ + βˆ ′ + ε ∗ = yˆ∗ + ε ∗ . Interval poverewa za y∗ sa nivoom poverewa β
tn − 2
161
dobijamo iz
P ( tn − 2 ≤ tn − 2; 1− β ) = β .
Dakle,
−tn − 2; 1− β ≤ odnosno
y∗ − yˆ∗ ≤ tn − 2; 1− β , s y∗ − yˆ∗
yˆ∗ − tn − 2; 1− β s y∗ − yˆ∗ ≤ y∗ ≤ yˆ∗ + tn − 2; 1− β s y∗ − yˆ∗
jeste realizacija tra`enog intervala poverewa, uz napomenu da je tn − 2; 1− β kvantil za dvostrani interval. Iz izraza za interval poverewa i za s y∗ − yˆ∗ vidimo da }e interval poverewa biti u`i {to je x∗ bli`e sredwoj vrednosti x n , mada {irina ovog intervala ne te`i nuli kad n → ∞ ni za x∗ = x n . Primer 6. Za podatke iz primera 1. odrediti 95%-ni interval poverewa za stvarnu masu prasadi u leglu sa 15 prasadi. Re{ewe. Za x∗ = 15 je yˆ∗ = −0.060 x∗ + 1.776 = −0.060 ⋅15 + 1.776 = 0.876 , x∗ − x n = 15 − 11 = 4 ,
∑ ( y − yˆ ) n
s y∗ − yˆ∗ =
i =1
i
n−2
i
2
(x − x ) ∑ (x − x ) 2
1 1+ + n
n
∗
n
i =1
i
2
n
0.0003964 1 42 1+ + 7−2 7 875 − 7 ⋅112 = 0.0089 ⋅1.30931 = 0.01165. Interval poverewa yˆ∗ − tn − 2; 1− β s y∗ − yˆ∗ ≤ y∗ ≤ yˆ∗ + tn − 2; 1− β s y∗ − yˆ∗ =
ima konkretnu brojnu vrednost 0.876 − 2.57 ⋅ 0.01165 ≤ y∗ ≤ 0.876 + 2.57 ⋅ 0.01165 , i kona~no 0.84606 ≤ y∗ ≤ 0.90594 . Dakle, predvi|a se da je prose~na masa praseta u leglu sa 15 prasadi y∗ = 0.876 ∓ 0.02994 kilograma u 95% slu~ajeva.
162
9.2 NEKI VA@NIJI KRIVOLINIJSKI MODELI Postoji ne mali broj pojava i situacija kada linearni regresioni model nije pogodan, kao na primer kada se funkcionalna zavisnost izme|u slu~ajnih veli~ina Y i X izra`ava trascedentnim funkcijama (eksponencijalne, logaritamske, trigonometrijske). U ovakvim slu~ajevima primena metode najmawih kvadrata vodi re{avawu sistema nelinearnih jedna~ina po nepoznatim parametrima. Ovakvi sistemi su veoma komplikovani za re{avawe, a i zahteva se dobra procena po~etnih vrednosti nepoznatih parametara radi dobijawa pribli`nih re{ewa za nepoznate parametre. Te{ko je jo{ vaqano odre|ivawe intervala poverewa. Stoga navodimo neke specifi~ne slu~ajeve kada se nelinearni modeli mogu svesti na linerani model ~ime se u znatnoj meri pojednostavquje ra~unski postupak za odre|ivawe nepoznatih parametara regresije. Logaritamski model Ovaj model se koristi kada se zavisno promenqiva sporo mewa u odnosu na nezavisno promenqivu. Neka imamo regresioni model Y = α ln x + β + ε , x > 0 , odakle, za x = xi > 0 , sledi yi = α ln xi + β + ε i , i = 1, 2,..., n . Ako uvedemo smenu zi = ln xi , i = 1, 2,..., n , onda se prethodni model transformi{e u standardni linearni regresioni model yi = α zi + β + ε i , i = 1, 2,...n , obra|en u prethodnom odeqku. Iz yˆi = α zi + β , na osnovu realizovanog uzorka, dobijamo ocene nepoznatih parametara α i β iz sistema normalnih jedna~ina
(
)(
n ⎧ zi − z n yi − y n ∑ i =1 ⎪αˆ ′ = 2 ⎪ n zi − z n ⎨ ∑ i =1 ⎪ ⎪⎩ βˆ ′ = y n − αˆ ′ z n
(
)
)
Raspolo`iva sredstva ( hiq./~lanu) - xi 1.6 2.0 2.2 2.7 2.9 3.5 3.7 4.1 4.6 5.0 5.4 6.4
ili
Potro{wa (kg/~l.) yi 1.5 3.7 5.4 5.5 7.0 6.8 8.1 8.2 8.4 9.0 8.9 9.1
n ⎧ z y − nz n y n ∑ i =1 i i ⎪⎪αˆ ′ = 2 n ⎨ ∑ i=1 zi2 − nz n ⎪ ⎪⎩ βˆ ′ = y n − αˆ ′ z n . Regresiona jedna~ina glasi yˆ = αˆ ′ ln x + βˆ ′ . Primer 1. Podaci o raspolo`ivim sredstvima za li~nu potro{wu i potro{wu jednog proizvoda dati su u tabeli. Pod pretpostavkom da je u pitawu logaritamski regresioni model, oceniti nepoznate parametre modela.
163
Re{ewe. Podaci potrebni za izra~unavawe nepoznatih parametara dati su u radnoj tabeli. Na osnovu tih podataka vr{imo izra~unavawa z12 = 14.65985 12 = 1.22165 , y12 = 81.6 12 = 6.8 .
xi
yi
zi = ln xi
1.6 2.0 2.2 2.7 2.9 3.5 3.7 4.1 4.6 5.0 5.4 6.4
1.5 3.7 5.4 5.5 7.0 6.8 8.1 8.2 8.4 9.0 8.9 9.1 81.6
0.47000 0.69315 0.78846 0.99325 1.06471 1.25276 1.30833 1.41099 1.52606 1.60944 1.68640 1.85630 14.65985
∑
∑ z y − nz y αˆ ′ = ∑ z − nz
zi yi zi2 0.22090 0.70500 0.48045 2.56466 0.62166 4.25768 0.98655 5.46288 1.13361 7.45297 1.56941 8.51877 1.71173 10.59747 1.99088 11.57012 2.32885 12.81890 2.59029 14.48496 2.84394 15.00896 3.44584 16.89233 19.92414 110.33470
n
i =1 i n
n
i
2 n
2 i =1 i
n
= 5.2844 , βˆ ′ = 6.8 − 5.2844 ⋅1.22165 = 0.3443 .
Regresiona jedna~ina je yˆ = 5.2844 ln x + 0.3443 .
10
Na slici je dat dijagram rasturawa i grafik logaritamske regresione krive dobijen pomo}u kolona xi i yi iz radne tabele.
9 8 7 6 5 4 3
Posle transformacije zi = ln xi dobijena je funkcija linearne regresije (jedna~ina prave linije) yˆ = 5.2844 z + 0.3443 i grafik rasturawa pomo}u kolona xi i zi iz radne tabele. Mo`e se pokazati da je standardna gre{ka regresije
∑ ( y − yˆ ) n
se =
i =1
i
n−2
i
2
= 0.766.
164
2 1 1
3
5
7
Dvostruko-logaritamski model U biolo{ko-ekonomskim istra`ivawima ~esto se sre}e model oblika Y = β xα ε , x > 0 . Iz prethodnog zapisa za realizovani uzorak ( x1 , y1 ) , ( x2 , y2 ) ,…,
( xn ,
yn ) dobijamo
yi = β xiα ε i , i = 1, 2,..., n , gde su α i β nepoznati parametri koje treba oceniti na osnovu realizovanog uzorka. Ako logaritmujemo levu i desnu stranu polazni model postaje ln yi = α ln xi + ln β + ln ε i , i = 1, 2,..., n , koji, posle smene wi = ln yi , zi = ln xi , β1 = ln β , ηi = ln ε i , mo`emo zapisati u obliku wi = α zi + β1 + ηi . Iz posledweg zapisa vidimo da je stepeni model pomo}u dve logaritamske smene (koje opravdavaju wegov naziv) transformisan u linearni regresioni model sa poznatom procedurom ocewivawa nepoznatih parametara α i β1 . Ocene dobijene na osnovu realizovanog uzorka obele`avamo sa αˆ ′ i βˆ ′ . 1
Primer 2. Na osnovu podataka iz primera 1. o raspolo`ivim sredstvima za ukupnu potro{wu i potro{wu jednog proizvoda, oceniti dvostuko-logaritamski model i na}i standardnu gre{ku regresije. Re{ewe. Radna tabela glasi xi yi zi = ln xi wi = ln yi zi wi zi2 1.6 2.0 2.2 2.7 2.9 3.5 3.7 4.1 4.6 5.0 5.4 6.4
1.5 0.47000 3.7 0.69315 5.4 0.78846 5.5 0.99325 7.0 1.06471 6.8 1.25276 8.1 1.30833 8.2 1.41099 8.4 1.52606 9.0 1.60944 8.9 1.68640 9.1 1.85630 81.6 14.65985
∑
0.40546 0.22090 0.19057 1.30833 0.48045 0.90687 1.68640 0.62166 1.32966 1.70475 0.98655 1.69324 1.94591 1.13361 2.07183 1.91692 1.56941 2.40144 2.09186 1.71173 2.73684 2.10413 1.99088 2.96891 2.12823 2.32885 3.24 781 2.19722 2.59029 3.53629 2.18605 2.84394 3.68655 2.20827 3.44584 4.09921 21.88353 19.92414 28.86922
Iz radne tabele je z12 = 14.65985 12 = 1.22165 , w12 = 1.82363 . Daqe je
∑ z w − nz w αˆ ′ = ∑ z − nz n
i =1 i n
i
2 i =1 i
n
2 n
n
=
28.86922 − 12 ⋅1.22165 ⋅1.82363 2.13517 = = 1.05963 , 19.92416 − 12 ⋅1.221652 2.01502
βˆ1′ = w12 − αˆ ′ z12 = 1.82363 − 1.05963 ⋅1.22165 = 0.52913 . Kada smo odredili ocene nepoznatih parametara transformisane
165
regresione jedna~ine wˆ = α z + β1 na osnovu realizovanog uzorka, dobijamo funkciju linearne regresije wˆ = 1.05963 z + 0.52913 . Ocenu standardne gre{ke regresije dobijamo pomo}u
∑ ( w − wˆ ) 12
se =
i =1
i
2
i
. 12 − 2 Na osnovu dosada{wih podataka formiramo narednu radnu tabelu zi = ln xi
wi = ln yi
wˆ i = αˆ ′zi + βˆ1′
wi − wˆ i
( wi − wˆ i )
0.47000 0.69315 0.78846 0.99325 1.06471 1.25276 1.30833 1.41099 1.52606 1.60944 1.68640 1.85630
0.40546 1.30833 1.68640 1.70475 1.94591 1.91692 2.09186 2.10413 2.12823 2.19722 2.18605 2.20827 -
1.02716 1.26361 1.36461 1.58161 1.65733 1.85659 1.91548 2.02426 2.14619 2.23454 2.31609 2.49612 -
-0.62170 0.04517 0.32179 0.12314 0.28858 0.06033 0.17638 0.07987 -0.01796 -0.03732 -0.13004 -0.28785 -
0.38651 0.00204 0.10355 0.01516 0.08328 0.00364 0.03111 0.00638 0.00032 0.00139 0.01691 0.08286 0.73315
∑
2
Odmah je
∑ ( w − wˆ ) 12
2
0.73315 = 0.27078 . 12 − 2 10 Zakqu~imo da je posmatrani odnos raspolo`ivih sredstava i sredstava za kupovinu odre|enog proizvoda iskazan odnosom ˆ ln yˆi = αˆ ′ ln xi + βˆ1′ , ili yˆi = e βi′ xiαˆ ′ , pa u ovom konkretnom slu~aju imamo yˆi = 1.69745 xi1.05963 . Inverzni (hiperboli~ki) model Ovaj model ima oblik 1 yi = α + β + ε i , i = 1, 2,..., n , xi i ~esto se sre}e u biolo{kim i agroekonomskim istra`ivawima. Primetimo da ovaj model ima horizontalnu asimptotu y = β . 1 Transformacija zi = , xi ≠ 0 , i = 1, 2,..., n , prevodi ovaj model u prost xi linearni model yi = α zi + β + ε i , i = 1, 2,..., n , koji se re{ava poznatom procedurom. se =
i =1
i
i
=
166
Eksponencijalni model Regresioni model oblika yi = β ⋅ α xi ε i , yi > 0 , α > 0 , β > 0 , ε i > 0 , i = 1, 2,..., n , zove se eksponencijalni regresioni model. Ovaj model posle logaritamske transformacije postaje ln yi = xi ln α + ln β + ln ε i . Ako uvedemo oznake wi = ln yi , α1 = ln α , β1 = ln β , ηi = ln ε i , i = 1, 2,..., n , prethodni model ima oblik wi = α1 xi + β1 + ηi , i = 1, 2,..., n , {to je prost linearni regresioni model. Regresiona jedna~ina, za realizovani uzorak ( xi , yi ) , i = 1, 2,..., n , glasi
wˆ i = αˆ1′xi + βˆ1′ .
Ocene αˆ1′ i βˆ1′ nepoznatih parametara α1 i β1 dobijamo iz sistema jedna~ina n ⎧ x w − nx n wn ∑ ⎪⎪αˆ1′ = i =1 n i i , 2 ⎨ ∑ i =1 xi2 − nx n ⎪ ⎪⎩ βˆ1′ = wn − αˆ1′ x n . Primer 3. Podaci o Vrednost proizv. Ulagawa ( xi ) ulagawima i vrednosti ( yi ) u mil. din. u mil. din. proizvodwe u 10 organizacija 0.6 1.6 dati su u tabeli. Oceniti 1.3 2.1 jedna~inu eksponencijalne 1.6 2.0 regresije. 2.1 2.4 Re{ewe. Podaci u datoj 2.8 3.5 tabeli i prethodni obrasci 3.1 2.9 nam omogu}uju da izra~unamo: 3.7 4.4 x10 = 3.04 , w10 = 1.19888 , 4.3 4.9 10 5.1 6.4 ∑ i=1 xi wi = 44.50966 , 5.8 7.6 10 ∑ i =1 xi2 = 118.30 . Iz navedene transformacije wi = ln yi , α1 = ln α , β1 = ln β , i = 1, 2,..., n , model ocewujemo linearnom regresijom wˆ = αˆ ′x + βˆ ′ . Ocene i
∑ x w − nx w ∑ x − nx
1 i
1
n
koeficijenata su αˆ1′ =
i =1 i n
i
2 i =1 i
n
2 n
n
= 0.31153, βˆ1′ = wn − αˆ1′ x n = 0.25183.
Ocewena regresiona jedna~ina je wˆ = 0.31153 x + 0.25183 . Ocena regresije sa netransformisanim podacima je yˆ = 1.28638 ⋅1.36551x .
167
Literatura
[1]
Pejin, D. I., Zbirka zadataka Osnovi statistike, Univerzitet u Beogradu, Fakultet veterinarske medicine.
[2]
Stankovi}, J., Raljevi}, R. N., LJubanovi}-Raljevi}, I., Statistika sa primenom u poljoprivredi, Mladost biro, Beograd, 2002.
[3]
Surla, K., Aproksimacija funkcija i regresiona analiza, Univerzitet u Novom Sadu, Prirodno-matemati~ki fakultet, Institut za matematiku, Novi Sad, 1998.
[4]
Stojakovi}, M., Matemati~ka statistika, Univerzitet u Novom Sadu, Fakultet tehni~kih nauka, Novi Sad, 2000.
[5]
Kosti}, C. M., Metodi statisti~ke analize sa kompjuterskim prilazom, ,,Nau~na knjiga”, Beograd, 1988.
[6]
Had`i}, O., Numeri~ke i statisti~ke metode u obradi eksperimentalnih podataka I, Univerzitet u Novom Sadu, Institut za matematiku, Novi Sad, 1992.
[7]
Nikoli}, O., et all, Matematika za vi{e tehni~ke {kole, ,,Savremena administracija”, Beograd, 2000.
[8]
Mladenovi}, P.,Elemantaran uvod u verovatno}u i statistiku, Dru{tvo matemati~ara i fizi~ara SR Srbije, Beograd, 1990.
[9]
Mladenovi}, P., Ognjanovi}, S., Zbirka re{enih zadataka za IV razred srednje {kole, Dru{tvo matemati~ara SR Srbije, Beograd, 1990.
[10] Had`ivukovi}, S.,Statisti~ki metodi, Poljoprivredni fakultet, Novi Sad, 1991. [11] Stevan M. Stojanovi}, Matemati~ka statistika, ,,Nau~na knjiga”, Beograd, 1980. [12] Velimir Simonovi}, Uvod u teoriju verovatno}e imatemati~ku statistiku, Tekon-Tehnokonsalting, Beograd, 1995. [13] Lozanov-Crvenkovi}, Z., Rajter, D., Zbirka re{enih zadataka iz verovatno}e i statistike, Univerzitet u Novom Sadu, Prirodnomatemati~ki fakultet, Novi Sad, 1999. [14] Ivkovi}, A. Z., Matemati~ka statistika, ,,Nau~na knjiga”, Beograd, 1976. [15] Ivkovi}, A. Z., Uvod u teoriju verovatno}e, slu~ajne procese i matemati~ku statistiku, Izdava~ko preduze}e ,,Gra|evinska knjiga”, Beograd, 1972. [16] Gli{i}, Z., Peruni~i} P., Zbirka re{enih zadataka iz verovatno}e i matemati~ke statistike, ,,Nau~na knjiga”, Beograd, 1989. [17] Ivkovi}, Z., Banjevi}, D., Verovatno}a i matemati~ka statistika za tre}i razred obrazovanja matemati~ko-tehni~ke struke, ,,Nau~na knjiga”, Beograd, 1980.
168
169
170
171
172
173
174
175
176
PITAЊA IZ BIOSTATISTIKE 13 1. Permutacije, varijacije и kombinacije beз понављања 2. Биномни коефицијенти, биномни образац 3. Slu~ajni doga|aj. Algebra doga|aja 4. Poqe doga|aja. Verovatno}a 5. Osobine verovatno}e 6. Uslovna verovatno}a. Nezavisnost doga|aja 7. Slu~ajne promenqive diskretnog tipa 8. Slu~ajne promenqive neprekidnog tipa 9. Matemati~ko o~ekivawe slu~ajne promenqive 10. Disperzija slu~ajne promenqive 11. Bernulijeva и бinomna raspodela. Parametri 12. Poasonova raspodela. Parametri 13. Uniformna и експоненцијална raspodela. Parametri -----------------------------------------------------------------------------14. Normalna raspodela. Parametri 15. Standardizovani oblik slu~ajne promenqive 16. Centralna grani~na teorema 17. Aproksimacija binomne normalnom raspodelom 18. Популација, обележје, узорак 19. Расподела обележја. Centralna teorema matemati~ke statistike 20. Статистичке серије и табеле. Формирање и графичко приказивање дистрибуције фрквенција
177
21. Aritmeti~ka sredina uzorka. Osobine. Parametri 22. Disperzija uzorka. Popravqena disperzija. Parametri 2 23. Pojam χ (хи-kvadrat) raspodele. Grafik gustine 24. Pojam Studentove и Фишерове raspodele. Grafiци gustinа 25. Pojam i vrste ocene parametara. Kriterijumi izbora ta~kaste ocene parametara -----------------------------------------------------------------------------26. Pojam intervalne ocene parametara. Интервали поверења за непознату вероватноћу и очекивање при познатој дисперзији 27. Интервал поверења за очекивање при непознатој дисперзији и iнтервалa поверења за дисперзију 28. Pojam statisti~ke hipoteze i statisti~kog testa. Тестирање хипотезе о средњој вредности при познатој варијанси 29. Тестирање хипотезе о средњој вредности при непознатој дисперзији 30. Тестирање хипотезе о једнакости средњих вредности два основна скупа 31. Тестирање хипотезе о диспрзији и хипотезе о једнакости дисперзија два основна скупа 32. Pirsonov hi-kvadrat test za proveru hipoteze o raspodeli osnovnog skupa 33. Jedna~ina proste linearne regresije. Ocewivawe parametara просте linearne regresije na osnovu uzorka 34. Koeficijent linearne korelacije. Standardna gre{ka regresije. Интерполација и екстраполација
178
RE[ENI ZADACI Verovatno}a, slu~ajne promenqive, grani~ne teoreme 1. Dnevna proizvodwa ugqa u rudniku je 2 hiqade tona, sa standardnim odstupawem 0.2 hiqade tona. Kolika je verovatno}a da }e godi{wa proizvodwa biti izme|u 730 i 760 hiqada tona, ako su dnevne proizvodwe nezavisne? Re{ewe. Neka je X i dnevna proizvodwa i -tog dana. Onda je S365 = X 1 + X 2 + ... + X 365 godi{wa proizvodwa. O~ekivawe je E ( X i ) = 2 , a devijacija Odredimo
standardizovan
oblik
slu~ajne
promenqive
aproksimativno N ( 0, 1) raspodelu, prema S
∗ 365
=
S365 − E ( S365 ) D ( S365 )
S365 − ∑ i =1 E ( X i ) 365
=
∑
365 i =1
D ( Xi )
=
S365 − 365 ⋅ 2 0.2 365
S365 ,
D ( X i ) = 0.2 .
koji
ima
.
Tra`ena verovatno}a je 760 − 730 ⎞ ⎛ 730 − 730 ∗ ∗ P ( 730 ≤ S365 ≤ 760 ) = P ⎜ ≤ S365 ≤ ⎟ = P ( 0 ≤ S365 ≤ 7.851) 0.2 365 ⎠ ⎝ 0.2 365 = Φ ( 7.851) − Φ ( 0 ) = 1 − 0.5 = 0.5 .
2. Data je slu~ajna promenqiva X sa N ( 28,32 ) raspodelom. Odrediti interval u kome le`i 95% te slu~ajne promenqive. Re{ewe. Za X : N ( 28,32 ) tra`imo brojeve c1 i c2 , simetri~ne u odnosu na o~ekivawe m = 28 , takve da je P ( c1 < X < c2 ) = 0.95 . Dovedimo slu~ajnu promenqivu X na standardizovan oblik X ∗ : N ( 0,1) kako bi smo koristili tablice Laplasove funkcije Φ ( x ) : c − 28 ⎞ ⎛ c − 28 < X∗ < 2 P⎜ 1 ⎟ = 0.95 . 3 ⎠ ⎝ 3 Kako je 2Φ ( c ) = 0.95 , to iz tablica ~itamo c = 1.96 . Zna~i P ( −1.96 < X ∗ < 1.96 ) = 0.95 .
Odavde ra~unamo
c1 − 28 c − 28 = −1.96 ⇔ c1 = 22.12 i 2 = 1.96 ⇔ c2 = 33.88 . 3 3 Dakle, za X : N ( 28,32 ) je P ( 22,12 < X < 33.88 ) = 0.95 .
3.
Data je funkcija f ( x ) = ax 2 .
179
a) Odrediti a ∈ R tako da f ( x ) predstavqa zakon verovatno}e (gustinu) slu~ajne promenqive X na intervalu ( 0,3) ; b) na}i o~ekivawe slu~ajne promenqive X ; v) izra~unati verovatno}u P (1 < X < 2 ) . Re{ewe. a) Gustina slu~ajne promenqive X iz uslova zadatka je ⎧ 0 , x≤0 ⎪ ϕ ( x ) = ⎨ax 2 , 0 < x < 3 ⎪ 0 , x≥0. ⎩ Za konstantu a mora da va`i 1 = P ( −∞ < X < +∞ ) =
+∞
3
∫ ϕ ( x ) dx = ∫ ax dx . 2
−∞
0
Odavde dobijamo 3
⎛ x3 ⎞ 1 1= a⎜ ⎟ ⇔ a = . 9 ⎝ 3 ⎠0 b) Iz definicije matemati~kog o~ekivawa neprekidne slu~ajne promenqive dobijamo def +∞
3
1 3 1 ⎛ x4 ⎞ 9 E ( X ) = ∫ xϕ ( x ) dx = ∫ x dx = ⎜ ⎟ = = 2.25 . 9 9⎝ 4 ⎠0 4 0 −∞ 2
1 ⎛ x3 ⎞ 1 ⎛ 23 1 ⎞ x2 P (1 < X < 2 ) = ∫ dx = ⎜ ⎟ = ⎜ − ⎟ = 0.2593 . 9 9⎝ 3 ⎠1 9⎝ 3 3⎠ 1 2
v)
3
⎧ 0, x < 1, ⎪ 4. Neprekidna slu~ajna promenqiva X ima gustinu ϕ ( x ) = ⎨ a ⎪⎩ x 2 , x ≥ 1. Odrediti konstantu a , funkciju raspodele verovatno}a slu~ajne promenqive X i verovatno}u P (1 < X ≤ 2 ) .
180
Re{ewe. +∞
Konstantu a odre|ujemo iz uslova
∫ ϕ ( x ) dx = 1 koji u ovom slu~aju daje
−∞ +∞
1=
∫ 1
+∞
a −a −a −a −a ⎛ −a ⎞ − = − =a. dx = ⎜ ⎟ = lim 2 x →∞ 1 +∞ 1 x x ⎝ x ⎠1
Za funkciju raspodele F ( x ) va`i
⎧0, x < 1, ⎧0, x < 1, ⎧0, x < 1, ⎪ ⎪x ⎪ F ( x) = ⎨ 1 = ⎨⎛ −1 ⎞ x = ⎨ 1 ⎪ ∫ x 2 dx, x ≥ 1 ⎪⎜ x ⎟ ⎪⎩1 − x , x ≥ 1. ⎝ ⎠ ⎩1 1 ⎩ ⎛ 1⎞ Primetimo lim F ( x ) = lim ⎜1 − ⎟ = 1 . x →∞ x →∞ ⎝ x⎠ 2
1 −1 −1 1 ⎛ 1⎞ − = . Na kraju je P (1 < X ≤ 2 ) = ∫ 2 dx = ⎜ − ⎟ = x ⎝ x ⎠1 2 1 2 1 2
5. Prodajna cena U emulzije za farbawe zavisi od procenta X odre|enog sastojka koga sadr`i emulzija. Procenat X je slu~ajna promenqiva sa N ( 5;12 ) raspodelom. Cena jednog litra emulzije je ⎧10, 4 ≤ X < 6 ⎪ U = ⎨ 8, 3 ≤ X < 4 ∨ 6 ≤ X < 7 ⎪ 5, X < 3 ∨ X ≥ 7 . ⎩ Na}i raspodelu verovatno}a za U . X dovodimo na normalizovan Re{ewe. Slu~ajnu promenqivu ∗ (standardizovan) oblik X : N ( 0 :1) . Tako dobijamo zakon raspodele verovatno}a slu~ajne promenqive U .
6−5⎞ ⎛ 4−5 ∗ P (U = 10 ) = P ( 4 ≤ X < 6 ) = P ⎜ ≤ X∗ < ⎟ = P ( −1 ≤ X < 1) 1 1 ⎝ ⎠ = 2Φ (1) = 2 ⋅ 0.3413 = 0.6826 , P (U = 8 ) = P ( 3 ≤ X < 4 ) + P ( 6 ≤ X < 7 )
4−5⎞ 7−5⎞ ⎛ 3−5 ⎛ 6−5 = P⎜ ≤ X∗ < ≤ X∗ < ⎟ + P⎜ ⎟ 1 ⎠ 1 ⎠ ⎝ 1 ⎝ 1 = P ( −2 ≤ X ∗ < −1) + P (1 ≤ X ∗ < 2 )
181
= 2 P (1 ≤ X ∗ < 2 ) = 2 ⎡⎣Φ ( 2 ) − Φ (1) ⎤⎦ = 2 ( 0.4772 − 0.3413) = 0.2718 ,
P (U = 5 ) = 1 − P (U = 10 ) − P (U = 8 )
= 1 − 0.6826 − 0.2718 = 0.0456 . Tra`eni zakon raspodele glasi 8 10 ⎞ ⎛ 5 U :⎜ ⎟. ⎝ 0.0456 0.2718 0.6826 ⎠
6. Vek trajawa ure|aja jednog proizvo|a~a je slu~ajna promenqiva X 1 : N ( 50;102 ) , dok je vek trajawa istog ure|aja drugog proizvo|a~a slu~ajna
promenqiva X 2 : N ( 60;52 ) . Koji ure|aj treba kupiti ako treba da radi bar: a) 55 sati; b) 70 sati. Re{ewe. ⎛ X − 50 55 − 50 ⎞ ∗ ≥ a) P1 ( X 1 ≥ 55 ) = P1 ⎜ 1 ⎟ = P1 ( X 1 ≥ 0.5 ) = 0.5 − Φ ( 0.5 ) 2 2 10 ⎠ ⎝ 10 = 0.5 − 0.1915 = 0.3085 ,
⎛ X − 60 55 − 60 ⎞ ∗ P2 ( X 2 ≥ 55 ) = P2 ⎜ 2 ≥ ⎟ = P2 ( X 2 ≥ −1) = 0.5 + Φ (1) 2 2 5 5 ⎠ ⎝ = 0.5 + 0.3413 = 0.8413 . O~igledno je boqe kupiti ure|aj drugog proizvo|a~a. ⎛ X − 50 70 − 50 ⎞ ∗ b) P1 ( X 1 ≥ 70 ) = P1 ⎜ 1 ≥ ⎟ = P1 ( X 1 ≥ 2 ) = 0.5 − Φ ( 2 ) = 0.0228 , 2 10 ⎠ ⎝ 10 70 − 60 ⎞ ⎛ ∗ P2 ( X 2 ≥ 70 ) = P2 ⎜ X 2∗ ≥ ⎟ = P2 ( X 2 ≥ 2 ) = 0.0228 . 5 ⎠ ⎝ U ovom slu~aju svejedno je ko je proizvo|a~.
7. Sistem se sastoji od 100 elemenata koji rade nezavisno i svaki radi sa verovatno}om 0.95. Ceo sistem radi ako radi bar 90 elemenata. Na}i verovatno}u da ceo sistem radi. Re{ewe. Broj komponenti koje ne rade je slu~ajna promenqiva S n : B (100;0.05 ) . Kako je np = λ = 5 mo`emo smatrati da S∞ : P ( 5 ) . Sistem radi ako je S∞ ≤ 9 , pa je P ( S∞ ≤ 9 ) = p0 + p1 + ... + p9 = 0.96818 . 8. Poqoprivrednik ocewuje da }e naredne godine proizvesti 100 000 jaja. Ocewena verovatno}a zarade po jednom jajetu u dinarima je slu~ajna promenqiva ⎛ 0.6 0.4 0.2 0 − 0.2 ⎞ X :⎜ ⎟. ⎝ 0.20 0.50 0.20 0.06 0.04 ⎠ Izra~unati wegovu o~ekivanu zaradu po jednom jajetu, i za 100 000 jaja. Re{ewe. O~ekivana zarada po jednom jajetu je E ( X ) = 0.352 , a za godi{wu proizvodwu 35200 dinara. 9. Izra~unati vrednost parametra k tako da funkcija
182
⎧⎪kx, 0 ≤ x ≤ 1, f ( x) = ⎨ ⎪⎩ 0, x ∉ [ 0,1] predstavqa gustinu slu~ajne promenqive X . Odrediti: a) funkciju raspodele F ( x ) i skicirati wen grafik; b) o~ekivawe E ( x ) i disperziju D ( x ) ; v) 1⎞ ⎛1 izra~unati P ⎜ < X < ⎟ . 2⎠ ⎝4 Re{ewe. +∞
1
⎛ x2 ⎞ k Mora biti 1 = ∫ ϕ ( x ) dx = ∫ kxdx = k ⎜ ⎟ = ⇒ k = 2 Gustina je ⎝ 2 ⎠0 2 −∞ 0 ⎧ 0, x < 0, ⎪ ϕ ( x ) = ⎨2 x, 0 ≤ x ≤ 1, ⎪ 0, x > 1. ⎩ 1
a) 0, x < 0, ⎧ ⎧ 0, x < 0, ⎪x ⎪ ⎪ F ( x ) = ⎨ ∫ 2 xdx, 0 ≤ x ≤ 1, = ⎨ x 2 , 0 ≤ x ≤ 1, ⎪0 ⎪ 1, x > 1. ⎩ ⎪⎩ 1, x > 1
b) 1
1
1
2 2 E ( X ) = ∫ xϕ ( x ) dx = ∫ 2 x dx = ( x3 ) = , 3 3 0 0 0 2
1
⎛ x4 ⎞ 1 D ( X ) = E ( X ) − ⎡⎣ E ( X ) ⎤⎦ , E ( X ) = ∫ x ϕ ( x ) dx = 2 ⎜ ⎟ = , ⎝ 4 ⎠0 2 0 1
2
2
2
2
2
1 ⎛2⎞ 1 D( X ) = −⎜ ⎟ = . 2 ⎝ 3 ⎠ 18 1 1
1⎞ 2 3 ⎛1 v) P ⎜ ≤ X ≤ ⎟ = ∫ 2 xdx = ( x 2 ) 12 = . 2⎠ 1 16 ⎝4 4 4
10. Broj automobila koji pro|e kroz raskrsnicu u toku jednog minuta je slu~ajna promenqiva sa P ( 6 ) raspodelom. Izra~unati verovatno}u da }e u toku dva sata pro}i: a) bar 700 automobila; b) izme|u 600 i 700 automobila. Re{ewe. Neka je S120 = X 1 + X 2 + ... + X 120 broj automobila koji pro|e kroz
raskrsnicu u toku dva sata. Znamo da je E ( X i ) = λ = 6 i D ( X i ) = λ = 6 , jer X : P ( 6 ) . Koristimo centralnu grani~nu teoremu. Zato ∗ S120 =
S120 − 120 ⋅ 6 : N ( 0;1) . 120 ⋅ 6
700 − 720 ⎞ ⎛ ∗ ∗ a) P ⎜ S120 ≥ ⎟ = P ( S120 ≥ −0.75 ) = 0.5 + Φ ( 0.75 ) = 0.7734 . 720 ⎠ ⎝ 183
∗ b) P ( 600 ≤ S120 ≤ 700 ) = P ( −4.47 ≤ S120 ≤ −0.75 ) = Φ ( 4.75 ) − Φ ( 0.75 ) = 0.226597 .
11. Neka je prose~an broj semena po biqci 40 sa standardnim odstupawem
σ = 5 semena. Institutu je potrebno x = 250000 semena. Koliko biqaka treba treba da planira semenski institut ako se zahteva sigurnost (interval poverewa) u snabdevawu semenom od β = 0.98 ? Re{ewe. Neka je Sn broj biqaka. Koristimo Centralnu grani~nu teoremu. Tra`imo P ( Sn ≥ x ) = β . Odredimo S n∗ = E ( S n ) = nm = 40n i
Sn − E ( Sn ) D ( Sn )
. Znamo S n∗ : N ( 0;1) . Kako je
D ( Sn ) = σ 2 n = σ n = 5 n , to treba odrediti prirodan broj
⎛ S − E ( S ) x − nm ⎞ n ⎟ = β ili P ( Sn∗ ≥ c ) = β . Vodimo ra~una da je ≥ n za koji je P ⎜ n ⎜ D ( Sn ) σ n ⎟⎠ ⎝ β > 0.5 i c < 0 . Zna~i β = 0.5 + Φ ( −c ) . Otuda je Φ ( −c ) = 0.48 , dok je c = −2.06 . Iz x − nm = −2.06 dobijamo kvadratnu jedna~inu po nepoznatoj t = n > 0 koja u ovom σ n slu~aju glasi −40t 2 + 2.06 ⋅ 5t + 250000 = 0 . Weno pozitivno re{ewe je t = 79.186 . Tra`eni broj biqaka je 79.1862 ≈ 6270 = n . 12. Funkcija raspodele verovatno}a slu~ajne promenqive X glasi 0 , x<0 ⎧ ⎪ . F ( x) = ⎨ x2 − ⎪⎩1 − e 3 , x ≥ 0 Na}i: a) gustinu raspodele verovatno}a ϕ ( x ) slu~ajne promenqive X ; b) vrednost x0 za koju je F ( x0 ) = 0.5 ; v) vrednost xmax za koju gustina raspodele dosti`e maksimum.
⎧⎪ 0 , x < 0 Re{ewe. a) Imamo da je ϕ ( x ) = ⎨ ⎪⎩ F ′ ( x ) , x ≥ 0 . x ⎛ − ′ Jo{ je F ( x ) = ⎜1 − e 3 ⎜ ⎝
2
2 ⎞′ ⎛ 2x − x ⎟ = −⎜ − e 3 ⎟ ⎜ 3 ⎠ ⎝
b) Ra~unamo redom, uz x ≥ 0 , F ( x0 ) = 0.5 ⇔ 1 − e
−
x2 3
= 0.5 ⇔ e
−
x2 3
=
⎧ 0 , x<0 ⎞ ⎪ ⎟ , te je ϕ ( x ) = ⎨ 2 x − x2 ⎟ ⎪ e 3 , x≥0. ⎠ ⎩3
1 1 ⇔ x 2 = −3ln ⇔ x = ln 8 . 2 2
v) Tra`imo nulu prvog izvoda. 2 2 2 ⎛ 2 − x ⎞′ 2 − x 2 x ⎛ 2 x − x ϕ ′ ( x ) = ⎜ xe 3 ⎟ = e 3 + ⎜ − e 3 ⎜3 ⎟ 3 3 ⎜⎝ 3 ⎝ ⎠
⎞ 2 −x ⎛ 2 2 ⎞ ⎟ = e 3 ⎜1 − x ⎟ . ⎟ 3 ⎝ 3 ⎠ ⎠
184
2
2 3
3 2
ϕ ′ ( x ) = 0 ⇔1 − x2 = 0 ⇔ x2 = ⇔ x =
3 . 2
13. Baca se dinar. Neka je X broj bacawa dinara do prve pojave grba (ukqu~uju}i i bacawe kada se pojavio grb). Na}i matemati~ko o~ekivawe slu~ajne promenqive X . Re{ewe. Neka je A doga|aj – pojavio se grb, dok je A wemu suprotan doga|aj. Svi ishodi su oblika ⎧ ⎫ Ω = ⎨ A, AA, AAA,..., AA ... AA
,...⎬ . n ⎩ ⎭ Imamo ⎛ ⎞ 1 1 1 1 1 P ( X = 1) = P ( A ) = , P ( X = 2 ) = P AA = ⋅ = 2 ,..., P ( X = n ) = P ⎜ ... AA AA ⎟= n
2 2 2 2 n ⎝ ⎠ 2 tako da je zakon raspodele verovatno}a slu~ajne promenqive X dat {emom
( )
3 " n "⎞ ⎛1 2 ⎜ ⎟. X: 1 1 1 1 ⎜⎜ " n " ⎟⎟ ⎝ 2 2 2 23 2 ⎠ Ovo jeste zakon raspodele verovatno}a, jer 1 1 1 1 1 + 2 + ... + n + ... = 2 = 1 , zbog a + aq + aq 2 + ... = a ⋅ , q <1 . 1 − 2 2 2 1 q 1− 2 Matemati~ko o~ekivawe slu~ajne promenqive X je broj 1 1 1 E ( X ) = 1⋅ + 2 ⋅ 2 + ... + n ⋅ n + ... 2 2 2 1 Da bi smo odredili E ( X ) uo~imo da je 1 + x + x 2 + ... = , x < 1 . Ako 1− x diferenciramo levu i desnu stranu posledwe jednakosti dobijamo 1 1 + 2 x + 3x 2 + ... + nx n −1 + ... = . Ako ovu jednakost pomno`imo jednom 2 (1 − x )
1 , onda je 2 1 1 1 1 1 E ( X ) = 1⋅ + 2 ⋅ 2 + ... + n ⋅ n + ... = ⋅ = 2. 2 2 2 2 ⎛ 1 ⎞2 ⎜1 − ⎟ ⎝ 2⎠
polovinom i primetimo da je u na{em slu~aju x =
14. Gustina raspodele verovatno}a ϕ ( t ) slu~ajnog vremena t neprekidnog rada jednog ure|aja je ⎧ 1 − Tt ⎪ e ,t≥0 ϕ ( t ) = ⎨T . ⎪0 , t <0 ⎩
185
Odrediti: a) funkciju raspodele verovetno}a F ( t ) ; b) odrediti verovatno}u da }e ure|aj raditi neprekidno u vremenu T . Re{ewe. t
t t t − ⎛ −x ⎞ ⎛ −t ⎞ 1 −x 1 −x ⎛ x⎞ a) F ( t ) = ∫ e T dx = ∫ e T ( −T ) d ⎜ − ⎟ = − ⎜ e T ⎟ = − ⎜ e T − e0 ⎟ = 1 − e T , pa je T 0 T 0 ⎝ T⎠ ⎝ ⎠0 ⎝ ⎠ t − ⎧⎪ T 1 − e , t ≥ 0, T > 0 . F (t ) = ⎨ , t <0 ⎩⎪0 T − ⎞ ⎛ 1 b) P ( t ≥ T ) = 1 − P ( t < T ) = 1 − F (T ) = 1 − ⎜1 − e T ⎟ = e−1 = . e ⎝ ⎠
Distribucija frekvencija 15. U 20 leja broj biqaka koje se nisu ,,primile” bio je redom: 1, 3, 5, 1, 2, 5, 4, 3, 1, 2, 5, 4, 3, 2, 1, 3, 4, 2, 3, 5. a) Formirati distribucije apsolutnih i relativnih frekvencija, b) formirati kumulacije ispod apsolutnih i relativnih frekvencija, v) grafi~ki predstaviti apsolutne frekvencije i wihove kumulacije. Re{ewe. Podaci su sre|eni u tabeli xi Aps. fr. fi Kum. ispod Rel. fr. pi = fi n Kum. ispod 1 2 3 4 5
∑
4 4 5 3 4 20
4 8 13 16 20 -
0.2 0.2 0.25 0.15 0.2 1.00
0.2 0.4 0.65 0.80 1.00 -
Na slikama je dat grafi~ki prikaz apsolutnih frekvencija i kumulanta na dole tih apsolutnih frekvencija
16. Na osnovu
186
grupisanih podataka iz tabele izra~unati uzora~ku aritmeti~ku sredinu, uzora~ku disperziju i uzora~ku standardnu devijaciju. Klase Aps.fr.
50-54 2
55-59 8
60-64 18
65-69 26
70-74 15
75-79 10
80-84 8
85-89 6
90-94 5
95-100 2
Re{ewe: Podaci su dati u radnoj tabeli
Koriste}i formule X n = 2
Sn =
∑
n
2 i =1 i i
x f
( )
− Xn
2
∑
n
xf
i =1 i i
n
,
Klase
xi
fi
xi fi
xi2 f i
50-54
52
2
104
5408
55-59
57
8
456
25992
60-64
62
18
1116
69192
65-69
67
26
1742 116714
70-74
72
15
1080
77760
75-79
77
10
770
59290
80-84
82
8
656
53792
85-89
87
6
522
45414
90-94
92
5
460
42320
95-99
97
2
194
18818
-
-
2
i Sn = Sn
n ra~unamo redom tra`ene veli~ine: 2 7100 514700 x100 = = 71 , s100 = − 712 = 106 , 100 100 s100 = 106 = 10.30 .
100 7100 514700
17. Merena je masa u gramima n = 50 plodova jedne sorte jabuka i dobijena neure|ena stratisti~ka serija 69 83 82 66 67 75 70 74 72 83 61 63 65 68 83 75 76 75 78 85 65 66 80 62 88 75 79 86 82 78 70 71 73 73 72 80 84 76 74 84 70 76 81 78 71 79 69 75 72 87
187
Napisati ure|enu statisti~ku seriju ovog neprekidnog obele`ja. Grupisati date podatke pomo}u intervala (odrediti broj i du`inu intervala). Potom odrediti apsolutne i relativne frekvencije dobijenih intervalnih podataka i pribli`no skicirati poligon apsolutnih frekvencija. Granica prvog intervala iz prakti~nih razloga neka bude 60. Ako je neka vrednost na granici intervala ra~unati je u gorwi interval. Re{ewe. Ure|ena statisti~ka serija glasi 61 62 63 65 65 66 66 67 68 69 69 70 70 70 71 71 72 72 72 73 73 74 74 75 75 75 75 75 76 76 76 78 78 78 79 79 80 80 81 82 82 83 83 83 84 84 85 86 87 88 Du`inu Δ intrvala ra~unamo pomo}u 88 − 61 27 Δ= = ≈ 4.19 ≈ 4 . 1 + 3.2 log 50 6.44 Iz sre|ene serije sledi tabela Intervali Sredina f Apsol. frek. fi Rel. frekv. pi = i intervala xi n 60 – 64 62 3 0.06 64 – 68 66 5 0.10 68 – 72 70 8 0.16 72 – 76 74 12 0.24 76 – 80 78 18 0.16 80 – 84 82 8 0.16 84 - 88 86 6 0.12 ukupno 50 1.00 Poligon apsolutnih frekvencija dat je na slede}oj slici.
188
18. Za podatke iz tabele: a) skicirati histogram apsolutnih frekvencija; b) izra~unati kumulacije ispod za relativne frekvencije; v) izra~unati uzora~ku sredinu i varijansu. Zaokruzivati na tri decimale.
Intervali 0-4 4-8 8-12 12-16 16-20 frekvencija 4 8 20 16 10 Re{ewe.
a)
b) Rezultati su dati u tabeli Intervali x fi i 0-4 4-8 8-12 12-15 16-20 -
2 6 10 14 18 -
4 8 20 16 10 n = 58
pi = fi n
Kum. ispod
xi fi
0.069 0.138 0.345 0.276 0.172 ∑ pi = 1
0.069 0.207 0.552 0.828 1 -
8 48 200 224 180 ∑ = 660
19. U tabeli su dati podaci sa intervalima o broju zrna po klasu jedne vrste trave i apsolutnim frekvencijama. Odrediti; a) kumulacije ispod i iznad b) relativne frekvencije i wihovu kumulaciju ispod.
189
Broj zrna u klasu 18 – 22 23 – 27 28 – 32 33 – 37 38 – 42 43 – 47 48 – 52 53 – 57 58 – 62 63 - 67
fi xi2 16 288 2000 3136 3240 ∑ = 8680
Broj klasova fi 2 3 5 17 37 37 48 31 18 2
Re{ewe. Sva ra~unawa data su u tabeli Broj zrna u klasu 18 – 22 23 – 27 28 – 32 33 – 37 38 – 42 43 – 47 48 – 52 53 – 57 58 – 62 63 - 67 -
Broj Kum. Kum. ispod iznad klasova fi 2 2 200 3 5 198 5 10 195 17 27 190 37 64 173 37 101 136 48 149 99 31 180 51 18 198 20 2 200 2 n = ∑ fi = 200
fi n 0.010 0.015 0.025 0.085 0.185 0.185 0.240 0.155 0.090 0.010 ∑= 1
pi =
Rel. kum. ispod 0.010 0.025 0.050 0.135 0.320 0.505 0.745 0.900 0.990 1.000 -
20. Dat je statisti~ki uzorak nekog obele`ja X 6,4,5,8,6,7,6,4,5,8,7,6,8,5,7,8,6,4,5,7. Odrediti distribuciju apsolutnih frekvencija i kumulirawe ispod. Skicirati poligon frekvencija i kumulante. Potom izra~unati uzora~ku sredwu vrednost i disperziju. Re{ewe. Formirajmo odgovaraju}u radnu tabelu
xi
fi
xi fi
xi2 f i
4 5 6 7 8 -
3 4 5 4 4 n = ∑ fi = 20
12 20 30 28 32 ∑ = 122
48 100 180 196 256 ∑ = 780
. d 3 7 12 16 20 -
2 1 780 ∑ xi2 fi − x 20 = − 6.12 = 39 − 37.21 = 1.79 . 20 20 Poligon frekvencija je na prvoj slici, a grafik kumulante na drugoj. 2
Uzora~ka disperzija je s 20 =
190
21. Na osnovu grupisanih podataka iz tabele izra~unati uzora~ku aritmeti~ku sredinu, uzora~ku disperziju i uzora~ku standardnu devijaciju. Klase Aps.fr.
50-54 2
55-59 8
60-64 18
65-69 26
70-74 15
75-79 10
80-84 8
85-89 6
90-94 5
95-100 2
Re{ewe. Podaci su dati u radnoj tabeli Koriste}i formule X n 2
Sn =
∑
n
2 i =1 i i
x f
n ra~unamo veli~ine: x100 2
( )
− Xn
2
∑ =
n
xf
i =1 i i
n
,
2
i Sn = Sn
redom 7100 = = 71 , 100
tra`ene
514700 − 712 = 106 , 100 = 106 = 10.30 .
s100 = s100
Klase
xi
fi
xi fi
xi2 fi
50-54
52
2
104
5408
55-59
57
8
456
25992
60-64
62
18
1116
69192
65-69
67
26
1742 116714
70-74
72
15
1080
77760
75-79
77
10
770
59290
80-84
82
8
656
53792
85-89
87
6
522
45414
90-94
92
5
460
42320
95-99
97
2
194
18818
-
-
100 7100 514700
22. Uzeti slu~ajni uzorci jednog neprekidnog slu~ajnog obele`ja X dati su u tabeli 7.5-8.5 8.5-9.5 9.5-10.5 10.5-11.5 11.5-12.5 intervali za xi frekvencije fi
16
40
24
16
4
Odrediti standardnu devijaciju ovog obele`ja na osnovu datih podataka. 2 2 2 1 1 Re{ewe. Imamo redom s n = s n , s n = ∑ xi2 f i − x n , x n = ∑ xi fi , n = ∑ f i . n n Sada formiramo radnu tabelu
191
Intervali za xi
xi
fi
xi f i
7.5-8.5 8.5-9.5 9.5-10.5 10.5-11.5 11.5-12.5
8 9 10 11 12
16 40 24 16 4 n = 100
128 360 240 176 48 ∑ = 952
fi xi2 1024 3240 2400 1936 576 ∑ = 9176
Na osnovu podataka iz tabele ra~unamo 2 952 9176 x100 = = 9.52 , s100 = − 9.522 = 1.1296 , s100 = 1.1296 = 1.0628264 . 100 100 Pirsonov χ 2 -test. Prosta linearna regresija 23. U posledwih 6 godina se broj obolelih stabala u jednoj {umi kretao se kao u tabeli 1
Godine xi
2
3
4
5
6
Broj bol. st. yi 89 85 72 75 68 51 a) Na osnovu ovog uzorka proceniti koeficijent linearne korelacije. Kakav je zakqu~ak? b) Odrediti jedna~inu najboqe prolago|ene linije linearne regresije. v) Koliko je prose~no godi{we pove}awe ili smawewe obolelih stabala? g) Koliki se broj obolelih biqaka mo`e o~ekivati kroz dve godine? Re{ewe. Koeficijent linearne korelacije ra~unamo po obrascu n xi − x n yi − y n ∑ i =1 r= , 2 2 n ∑ i =1 xi − x n yi − y n
( (
)( )(
) )
dok koeficijente αˆ ′ i βˆ ′ jedna~ine najboqe prilago|ene linije (jedna~ine linearne regresije) yˆ = αˆ ′x + βˆ ′ odre|ujemo obrascima
∑ ( x − x )( y − y ) , βˆ ′ = y αˆ ′ = ∑ (x − x ) n
i =1
n
i
i
n
2
n
i =1
i
n
− αˆ ′ x n .
n
Za odre|ivawe potrebnih veli~ina formiramo radnu tabelu, pri ~emu koristimo da je x 6 = 3.5 i y 6 = 73.333 ,
xi
yi
xi − x n
(x − x )
1 2 3 4 5 6
89 85 72 75 68 51 -
-2.5 -1.5 -0.5 0.5 1.5 2.5 -
6.25 2.25 0.25 0.25 2.25 6.25 17.50
∑
i
n
2
yi − y n
15.667 11.667 -1.333 1.667 -5.333 -22.333 -
192
( y − y ) ( x − x )( y − y ) 2
i
n
245.455 136.119 1.777 2.779 28.441 498.763 913.334
i
n
i
-39.168 -17.500 0.667 0.834 -8.000 -55.832 -118.999
n
−118.999 = −0.941 . U pitawu je veoma jaka linearna veza sa 17.5 ⋅ 913.334 trendom opadawa. b) αˆ ′ = −6.8 , βˆ ′ = 97.133 , yˆ = −6.8 x + 97.333 . v) Godi{we smawewe broja obolelih stabala je pribli`no 7 . g) Kroz dve godine }e broj obolelih stabala pribli`no biti yˆ ( 8 ) = −6.8 ⋅ 8 + 97.133 ≈ 43 . a) r =
24. Dati ocenu linearne regresije za podatke iz tabele
xi
2
4
6
8
10
yi
6
8 14 10 16
Re{ewe. Ocena linearne regresije je prava y = αˆ ′x + βˆ ′ , dok se koeficijenti αˆ ′ i
βˆ ′ ra~unaju pomo}u αˆ ′ = ∑
xi yi − nx n y n
∑x
2 i
− nx
2 n
, βˆ ′ = y n − αˆ ′ x n .
Iz datih podataka odre|ujemo x5 = 6 i y 5 = 10.8 . Formiramo daqe radnu tabelu
xi
yi
xi2
xi yi
2
6
4
12
4
8
16
32
6
14 36
84
8
10 64
80
10
16 100 160
∑
-
Iz radne tabele ra~unamo
αˆ ′ =
368 − 5 ⋅ 6 ⋅10.8 = 1.1 , βˆ ′ = 10.8 − 1.1⋅ 6 = 4.2 , 220 − 5 ⋅ 36
tako da je tra`ena ocena
y = 1.1x + 4.2 .
220 368
193
25.
Narednom {emom zadata je raspodela verovatno}a krvnih grupa u A B AB ⎞ ⎛ O qudskoj populaciji ⎜ ⎟ . Na uzorku od 500 slu~ajno ⎝ 0.413 0.410 0.129 0.048 ⎠ odabranih qudi dobijeni su podaci o krvnim grupama Krvna grupa Broj qudi
O
A
B
AB
217
208
46
29
Pirsonovim χ 2 testom testirati nultu hipotezu H 0 sa pragom zna~ajnosti α = 0.05 da testirana grupa ima {emom zadatu raspodelu. Sva ra~unawa zaokru`ivati na tri decimalna mesta. Re{ewe. Broj vrednosti diskretne slu~ajne promenqive X je r = 4 , nema nepoznatih parametara, te je kvantil za odre|ivawe kriti~ne vrednosti testaa χ 3;2 0.05 = 7.8 , kriti~na vrednost testa C = ( 7.8; + ∞ ) . Test statistika ima realizaciju
4
χˆ = ∑ 2 3
i =1
(f
i
− fi ∗ )
fi ∗
2
( 217 − 500 ⋅ 0.413) =
2
( 208 − 500 ⋅ 0.410 ) +
( 46 − 500 ⋅ 0.129 ) +
( 29 − 500 ⋅ 0.048) +
500 ⋅ 0.413
2
500 ⋅ 0.129
2
+
500 ⋅ 0.410
2
500 ⋅ 0.048
= 6.926 .
Kako 6.926 ∉ C , to na osnovu ovog realizovanog uzorka nemamo razloga da odbacimo nultu hipotezu. 26. U slede}oj tabeli dati su podaci kako u nekom hemijskom procesu temperatura X (izra`ena u Kelvinima) uti~e na ne~isto}u sme{e Y izra`ene u procentima) Temp. xi
354 357 356 361 358 363 360
Ne~isto}a yi
0.1
0.3
0.2
0.4
0.3
0.4
0.3
Na osnovu ovih podataka oceniti jedna~inu linearne regresije i izra~unati koeficijent linearne korelacije. Sva ra~unawa zaokru`ivati na tri decimalna mesta. Re{ewe. Izbor oblika sistema linearnih jedna~ina ~ija su re{ewa koeficijenti αˆ ′ i βˆ ′ ocene linearne regresije yˆ = αˆ ′x + βˆ ′ , uslovqen je obrascem za ra~unawe koeficijenta linearne korelacije 7 xi − x 7 yi − y 7 ∑ i =1 r= . 2 2 7 7 ∑ i=1 xi − x7 ∑ i=1 yi − y 7
(
)(
(
)
)
(
)
Zato αˆ ′ i βˆ ′ ra~unamo prema
∑ ( x − x )( y − y ) , βˆ ′ = y αˆ ′ = ∑ (x − x ) 7
i =1
i
7
i
i =1
7
2
7
i
7
194
7
− αˆ ′ x 7 .
Intervali za X Apsol. frekv. fi
0 - 4 4 - 8 8 - 12 12 - 16 16 - 20
-
10
Σ = 58
1 7 ∑ xi = 358.429 , y 7 = 0.286 . 7 i =1 Sada formiramo radnu tabelu 2 2 xi yi xi − x 7 yi − y 7 xi − x 7 xi − x 7 yi − y 7
)( y − y )
4
8
20
16
Na osnovu date tebele je x 7 =
(
354 357 356 361 358 363 360 Σ
0.1 0.3 0.2 0.4 0.3 0.4 0.3 -
-4.429 -1.429 -2.429 2.571 -0.429 4.571 1.571 -
-0.186 0.014 -0.086 0.114 0.014 0.114 0.014 -
) (
) (
19.616 2.042 5.900 6.610 0.184 20.894 2.468 57.714
0.035 0.000 0.007 0.013 0.000 0.013 0.000 0.068
i
7
0.824 -0.020 0.209 0.293 -0.006 0.5291 0.-22 1.843
Iz radne tabele dobijamo 1.843 αˆ ′ = = 0.032 , βˆ ′ = 0.286 − 0.032 ⋅ 358.429 = −11.184 . 57.714 Jedna~inom yˆ = 0.032 x − 11.184 ocewena je linearna regresija. Sada ra~unamo koeficijent linearne korelacije 1.843 1.843 r= = = 0.930 . 57.714 ⋅ 0.068 1.981
27. Neka je X : N ( m; σ 2 ) . Oceniti nepoznate parametre ove raspodele
nepristrasnim ocenama na osnovu podataka iz tabele. Sva ra~unawa zaokru`ivati na tri decimalna mesta. Re{ewe. Nepoznato o~ekivawe m ocewujemo nepristrasnom ocenom 1 X n = ∑ xi fi , a nepoznatu disperziju σ 2 ocewujemo popravqenom uzora~kom n 2 2 1 disperzijom S ′n = f i xi − x n . ∑ n −1 i Radi dobijawa ovih ocena formiramo radnu tabelu.
(
Intervali 0 –4 4–8 8 – 12 12 – 16 16 – 20 -
)
xi
fi
xi fi
(x − x )
2 6 10 14 18 -
4 8 20 16 10 n = Σf i = 58
8 48 200 224 180 Σ = 660
87.966 28.934 1.902 6.870 43.838 -
195
i
n
2
(
fi xi − x n
)
2
351.864 231.472 38.040 109.920 438.380 Σ = 1169.676
Sada ra~unamo tra`ene ocene 2 660 1169.676 x58 = = 11.379 , s′58 = = 20.521 . 58 57 Dakle, X : N (11.379; 20.521) . 28. U tabeli su dati podaci o vezi radnog iskustva X datog u godinama sa u~inkom za jedan ~as rada na poslu Y .
X 2 4 6 8 10 Y 6 8 14 10 16 Na osnovu ovih podataka oceniti koeficijent linearne korelacije (linearne zavisnosti) r izme|u X i Y , a potom oceniti jedna~inu te linearne zavisnosti (linearnu regresiju). Sva ra~unawa zaokru`ivati na tri decimalna mesta. Re{ewe. Procenu koeficijenta linearne korelacije r vr{imo pomo}u
∑ ( x − x )( y − y ) n
obrasca r =
n
i
i =1
i
n
∑(x − x ) ∑( y − y ) n
i =1
2 n
i
n
i =1
i
, dok je ocena linearne regresije prava 2
n
yˆ = αˆ ′x + βˆ ′ . Koeficijente ove prave odre|ujemo sa
∑ ( x − x )( y − y ) n
αˆ ′ =
i =1
n
i
i
n
∑(x − x ) n
i =1
2
i βˆ ′ = y n − αˆ ′ x n .
n
i
Obrascima je uslovqen oblik radne tabele. 2 xi yi xi − x n yi − y n x − xn y −y
(
2 4 6 8 10 Σ = 30
6 8 14 10 16 Σ = 54
i
) (
i
) (x − x ) ( y − y ) 2
n
i
n
i
n
-4 -2 0 2 4 -
-4.8 16 23.04 19.2 -2.8 4 7.84 5.6 3.2 0 10.24 0 -0.8 4 0.64 -1.6 5.2 16 27.04 20.8 Σ = 40 Σ = 68.8 Σ = 44 30 54 44 44 Redom je x5 = = 6 , y5 = = 10.8 , r = = = 0.839 . Daqe 5 5 40 × 68.8 52.460 44 αˆ ′ = = 1.1 , βˆ ′ = 10.8 − 1.1× 6 = 4.2 i ocena linearne regresije 40 yˆ = 1.1x + 4.2 .
je
29. Populaciju ~ini 200 beba. Pirsonovim χ 2 testom na osnovu podataka iz tabele testirati hipotezu, sa pragom zna~ajnosti α = 0.05 , da obele`je X du`ina bebe u cm ima normalnu raspodelu. Intervale zaokru`ivati na dva a ostale veli~ine na ~etiri dacimalna mesta. Du`ina bebe ( xi ) [ 40 − 46 ) [ 46 − 49 ) [ 49 − 52 ) [52 − 55 ) [55 − 61) Broj beba ( f i )
9
40
87
196
58
6
Re{ewe. x
1 ⎛ x−m ⎞
2
− ⎜ ⎟ 1 2⎝ σ ⎠ Treba proveriti nultu hipotezu H 0 : F0 ( x ) = e dx . Nepoznate ∫ σ 2π −∞ parametre o~ekivawe m i disperziju σ 2 zamewujemo wihovim nepristrasnim
2
ocenama - uzora~kom sredinom X n i uzora~kom disperzijom S n . Kako je n = 200 imamo radnu tabelu Intervali xi fi xi fi xi2 fi xi2 40-46 43 9 384 1849 16641 46-49 47.5 40 1900 2256.25 90250 49-52 50.5 87 4393.5 2550.25 221871.75 52-55 53.5 58 3103 2862.25 166010.5 55-61 58 6 348 3364 20184 200 10128.5 514957.25 Σ 10128.5 Iz radne tabele ra~unamo x 200 = = 50.6425 , 200 2 514957.25 s 200 = − 50.64252 = 2574.7862 − 2564.6628 = 10.1234 , 200 s 200 = 10.1234 = 3.1817 . Formiramo tabelu pomo}u koje treba odrediti teorijske verovatno}e pod pretpostavkom da je X : N ( 50.6425; 10.1234 ) .
X
( −∞; 46 ) [ 46; 49 ) [ 49;52 ) [52;55) [55; +∞ )
f 9 40 87 58 6 Pomo}u normalizovanog oblika slu~ajne promenqive odre|ujemo intervale zi −1 ≤ X ∗ < zi . −∞ − 50.6425 46 − 50.6425 < X∗ < ⇔ − ∞ < X ∗ < −1.46 , 3.1817 3.1817 49 − 50.6425 −1.46 ≤ X ∗ < ⇔ − 1.46 ≤ X ∗ < −0.52 , 3.1817 ∗ −0.52 ≤ X < 0.43 , 0.43 ≤ X ∗ < 1.37 , 1.37 ≤ X ∗ < +∞ . Teorijske verovatno}e odre|ujemo nad dobijenim intervalima prema p1 = P ( −∞ < X ∗ < −1.46 ) = 0.5 − Φ (1.46 ) = 0.5 − 0.4279 = 0.0721 , p2 = P ( −1.46 ≤ X ∗ < −0.52 ) = Φ (1.46 ) − Φ ( 0.52 ) = 0.2294 , p3 = P ( −0.52 ≤ X ∗ < 0.43) = Φ ( 0.43) + Φ ( 0.52 ) = 0.3649 , p4 = P ( 0.43 ≤ X ∗ < 1.37 ) = Φ (1.37 ) − Φ ( 0.43) = 0.2483 ,
(f
1
p5 = 1 − p1 − p2 − p3 − p4 = 0.0853 . Ra~unamo teorijske frekvencije f1∗ = 200 p1 = 14.42 , f 2∗ = 200 p2 = 45.88 , f3∗ = 72.96 , f 4∗ = 49.66 , f5∗ = 17.06 . Daqe odre|ujemo sabirke za ra~unawe test statistike
− f1∗ )
f1∗
2
( 9 − 14.42 ) = 14.42
2
29.3764 = = 2.0372 , 14.42
(f
197
2
− f 2∗ )
f 2∗
2
( 40 − 45.88) = 45.88
2
= 0.7536 ,
(f
3
− f3∗ )
2
f 3∗
(f
( 87 − 72.98) =
2
72.98
− f5∗ )
2
( 6 − 17.06 )
4
− f 4∗ )
2
f 4∗
( 58 − 49.66 ) = 49.66
2
= 1.4006 ,
2
= 7.1702 . 17.06 f 5∗ Broj stepeni slobode je r − m − 1 = 5 − 2 − 1 , pri ~emu je r broj intervala, a m broj nepoznatih parametara. Test statistika ima realizaciju 5
χˆ 22 = ∑ i =1 5
=
(f = 2.6933 ,
(f
i
− fi ∗ )
fi ∗
2
= 14.0549 . Kriti~na vrednost testa je χ 2;2 0.05 = 6 , a kriti~na
oblast C = [ 6, +∞ ] . Kako za realizaciju va`i
χˆ 22 = 14.0549 ∈ C , to nultu hipotezu odbacujemo, odnosno obele`je X na osnovu ovog uzorka nema normalnu raspodelu N ( 50.6425; 10.1234 ) . 30. Pirsonovim χ 2 - testom testirati, sa pragom zna~ajnosti α = 0.05 , hipotezu da du`ina ploda (u cm ) jedne biqke ima normalnu raspodelu. Podaci su dati u tabeli. Sabirke za χˆ 2 statistiku zaokru`ivati na ~etiri decimalna mesta. Du`. Br. plod. Teor. ver. ploda fi pi 2.6 – 3.0 14 0.016 3.0 – 3.4 44 0.044 3.4 – 3.8 116 0.107 3.8 – 4.2 207 0.187 4.2 – 4.6 251 0.231 4.6 – 5.0 204 0.202 5.0 – 5.4 140 0.131 5.4 – 5.8 64 0.059 5.8 – 6.2 22 0.019 6.2 – 6.6 6 0.004 Re{ewe. Broj intervala je r = 10 , broj nepoznatih parametara normalne m=2, tako da je kriti~na oblast testa raspodele je 2 ∗ C = ( χ10− 2−1; 0.05 , +∞ ) = (14.1; +∞ ) . Teorijske frekvencije ra~unamo sa fi = npi , a test 10
statistiku prema χˆ = ∑ 2 7
i =1
(f
i
− fi ∗ )
fi ∗
2
. Formiramo radnu tabelu
198
Du`. Ploda
Br. Plod. fi
Teor. Ver. pi
2.6 – 3.0 3.0 – 3.4 3.4 – 3.8 3.8 – 4.2 4.2 – 4.6 4.6 – 5.0 5.0 – 5.4 5.4 – 5.8 5.8 – 6.2 6.2 – 6.6 r = 10
14 44 116 207 251 204 140 64 22 6 n = ∑ f i =1068
0.016 0.044 0.107 0.187 0.231 0.202 0.131 0.059 0.019 0.004 ∑=1
(f
Teor. Fr. fi ∗ = npi
i
− fi ∗ )
2
fi ∗ 0.5380 0.1905 0.0260 0.2657 0.0247 0.6384 0.0001 0.0155 0.1438 0.6989 2 χˆ 7 = 2.5416
17.088 46.992 114.276 199.716 246.708 215.736 139.908 63.012 20.292 4.272 ∑ fi∗ = 1068
Kako 2.5416 ∉ (14.1; + ∞ ) to na osnovu ovog uzorka mo`emo smatrati da du`ina ploda ima normalnu raspodelu. 31. Narednom {emom zadata je raspodela verovatno}a krvnih grupa u A B AB ⎞ ⎛ O qudskoj populaciji ⎜ ⎟ . Na uzorku od 500 slu~ajno ⎝ 0.413 0.410 0.129 0.048 ⎠ odabranih qudi dobijeni su podaci o krvnim grupama Krvna grupa Broj qudi
O
A
B
AB
217
208
46
29
Pirsonovim χ 2 testom testirati nultu hipotezu H 0 sa pragom zna~ajnosti α = 0.05 da testirana grupa ima {emom zadatu raspodelu. Sva ra~unawa zaokru`ivati na tri decimalna mesta. Re{ewe. Broj vrednosti diskretne slu~ajne promenqive X je r = 4 , nema nepoznatih parametara, te je kvantil za odre|ivawe kriti~ne vrednosti testaa χ 3;2 0.05 = 7.8 , kriti~na vrednost testa C = ( 7.8; + ∞ ) . Test statistika ima realizaciju 4
χˆ = ∑ 2 3
i =1
(f
i
− fi ∗ )
fi ∗
2
( 217 − 500 ⋅ 0.413) =
2
( 46 − 500 ⋅ 0.129 ) +
( 29 − 500 ⋅ 0.048) +
500 ⋅ 0.413
500 ⋅ 0.129
2
( 208 − 500 ⋅ 0.410 ) + 500 ⋅ 0.410
500 ⋅ 0.048
2
+
2
= 6.926 .
Kako 6.926 ∉ C , to na osnovu ovog realizovanog uzorka nemamo razloga da odbacimo nultu hipotezu.
199
32. U slede}oj tabeli dati su podaci kako u nekom hemijskom procesu temperatura X (izra`ena u Kelvinima) uti~e na ne~isto}u sme{e Y izra`ene u procentima) Temp. xi
354 357 356 361 358 363 360
Ne~isto}a yi
0.1
0.3
0.2
0.4
0.3
0.4
0.3
Na osnovu ovih podataka oceniti jedna~inu linearne regresije I izra~unati koeficijent linearne korelacije. Sva ra~unawa zaokru`ivati na tri decimalna mesta. Re{ewe. Izbor oblika sistema linearnih jedna~ina ~ija su re{ewa koeficijenti αˆ ′ I βˆ ′ ocene linearne regresije yˆ = αˆ ′x + βˆ ′ , uslovqen je obrascem za ra~unawe koeficijenta linearne korelacije 7 xi − x 7 yi − y 7 ∑ i =1 r= . 2 2 7 7 ∑ i=1 xi − x7 ∑ i=1 yi − y 7
(
)(
(
)
)
(
)
Zato αˆ ′ I βˆ ′ ra~unamo prema
∑ ( x − x )( y − y ) , βˆ ′ = y αˆ ′ = ∑ (x − x ) 7
i =1
7
i
i
7
2
7
i =1
7
− αˆ ′ x 7 .
7
i
1 7 ∑ xi = 358.429 , y 7 = 0.286 . 7 i =1 Sada formiramo radnu tabelu Na osnovu date tebele je x 7 =
xi
yi
xi − x 7
yi − y 7
354 357 356 361 358 363 360 Σ
0.1 0.3 0.2 0.4 0.3 0.4 0.3 -
-4.429 -1.429 -2.429 2.571 -0.429 4.571 1.571 -
-0.186 0.014 -0.086 0.114 0.014 0.114 0.014 -
( x − x ) ( y − y ) ( x − x )( y − y ) 2
i
2
7
i
19.616 2.042 5.900 6.610 0.184 20.894 2.468 57.714
7
0.035 0.000 0.007 0.013 0.000 0.013 0.000 0.068
i
7
i
7
0.824 -0.020 0.209 0.293 -0.006 0.5291 0.-22 1.843
Iz radne tabele dobijamo 1.843 αˆ ′ = = 0.032 , βˆ ′ = 0.286 − 0.032 ⋅ 358.429 = −11.184 . 57.714 Jedna~inom
200
yˆ = 0.032 x − 11.184 ocewena je linearna regresija. Sada ra~unamo koeficijent linearne korelacije 1.843 1.843 r= = = 0.930 . 57.714 ⋅ 0.068 1.981 33. Raspola`emo podacima iz tabele o kontrolisanom obele`ju x i observiranoj slu~ajnoj promenqivoj Y . Ispitati stepen wihove linearne zavisnosti r i odrediti ocenu linearne regresije yˆ = αˆ ′x + βˆ ′ . Ra~unawa zaokru`ivati na tri decimalna mesta. Tabela glasi
xi
15
20
30
40
60
yi
6
8
10
12
15
Re{ewe. Procenu stepena linearne korelacije ra~unamo prema ∑ xi − x n yi − y n , r= 2 2 ∑ xi − xn ∑ yi − y n
(
)(
(
)
) (
)
a brojeve αˆ ′ i βˆ ′ pomo}u
αˆ ′ =
∑ ( x − x )( y − y ) , βˆ ′ = y ∑( x − x ) n
i
i
n
2
n
− αˆ ′ x n .
n
i
Za formirawe naredne radne tabele koristimo x5 =
165 51 = 33 , y 5 = = 10.2 . 5 5
Radna tabela ima oblik
xi
yi
xi − x5
yi − y 5
( x − x )( y − y )
(x − x )
15 20 30 40 60
6 8 10 12 15
'-18 -13 -3 7 27
-4.2 -2.2 -0.2 1.8 4.8
75.6 28.6 0.6 12.6 129.6 ∑ = 247
324 169 9 49 729 ∑ = 1280
i
5
i
5
i
2
5
(y − y ) i
2
5
17.64 4.84 0.04 3.24 23.04 ∑ = 48.8
247 247 = 0.988 , αˆ ′ = = 0.193 , βˆ ′ = 10.2 − 0.193 × 33 = 3.831 . 1280 1280 × 48.8 Ocena linearne regresije na osnovu ovog realizovanog uzorka glasi
r=
yˆ = 0.193x + 3.831
201