STATISTIKA ECTS: 5 bodova (tjedno opterećenje: 2 sata predavanja + 2 sata vježbi)
Osposobiti studenta za primjenu statističkih metoda radi utvrđivanja, analiziranja i praktičnog primjenjivanja zakonitosti promatranih pojava u pomorskom prometu.
Cilj kolegija:
Sadržaj predavanja:
1. Osnovni pojmovi 2. Uređivanje podataka 3. Srednje vrijednosti statističkog niza 4. Mjere disperzije 5. Mjere asimetrije asimetrije i mjere zaobljenosti zaobljenosti 6. Osnovni pojmovi vjerojatnosti 7. Teorijske distribucije 8. Metoda uzoraka 9. Procjena parametara 10. Testiranje hipoteza o parametru parametru 11. Usporedba parametara osnovnih skupova skupova 12. Hi–kvadrat test 13. Regresijska analiza 14. Linearna korelacija 15. Modeli vremenskih serija Literatura:
Šošić, Šošić, I. (2006): Primijenjena statistika (2. izdanje), Školska knjiga, Zagreb, Šošić, I. (2000): Uvod u Statistiku (11. izdanje), Školska knjiga, Zagreb
Provjere znanja:
3 kolokvija kolokvi ja (svaki 25% završne ocijene) 3 seminarska rada (ukupno 25% završne ocjene)
Pravo potpisa:
Prisutnost na nastavi nastavi 73% (11/15)
Nastavnik: mr.sc. Željka Domijan
1
1.
UVOD
1.
Što je statistika?
Statistika je znanstvena disciplina koja se bavi metodama prikupljanja i analiziranja podataka, te izvođenjem zaključaka na temelju tih podataka. uključuje metode uređivanja, grupiranja, tabeliranja, grafičkog prikazivanja statističkih podataka te izračuna različitih r azličitih statističko-analitičkih statističko-analitičkih veličina. Deskriptivna statistika
bavi se metodama koje omogućavaju procjenu karakteristika populacije ili donošenje odluka o populaciji, zasnovanih na generaliziranju rezultata iz statistike uzorka. Većina metoda zasnovana je na teoriji vjerojatnosti. Inferencijalna statistika
1.2. Statistički skup predstavlja skup elemenata kojim se ispituje jedno ili više svojstava (obilježja, varijabli) čije se vrijednosti mijenjaju od elementa do elementa.
Statistički skup
Podaci o danoj varijabli za svaki element statističkog skupa tvore skup podataka koji se naziva statističkom populacijom (osnovnim skupom) . S obzirom na broj elemenata populacija može biti konačna i beskonačna. beskonačna. Podskup osnovnog skupa je uzorak. populacija uzorak
U statističkom istraživanju statistički skupovi se definiraju pojmovno, prostorno i vremenski.
2
1.
UVOD
1.
Što je statistika?
Statistika je znanstvena disciplina koja se bavi metodama prikupljanja i analiziranja podataka, te izvođenjem zaključaka na temelju tih podataka. uključuje metode uređivanja, grupiranja, tabeliranja, grafičkog prikazivanja statističkih podataka te izračuna različitih r azličitih statističko-analitičkih statističko-analitičkih veličina. Deskriptivna statistika
bavi se metodama koje omogućavaju procjenu karakteristika populacije ili donošenje odluka o populaciji, zasnovanih na generaliziranju rezultata iz statistike uzorka. Većina metoda zasnovana je na teoriji vjerojatnosti. Inferencijalna statistika
1.2. Statistički skup predstavlja skup elemenata kojim se ispituje jedno ili više svojstava (obilježja, varijabli) čije se vrijednosti mijenjaju od elementa do elementa.
Statistički skup
Podaci o danoj varijabli za svaki element statističkog skupa tvore skup podataka koji se naziva statističkom populacijom (osnovnim skupom) . S obzirom na broj elemenata populacija može biti konačna i beskonačna. beskonačna. Podskup osnovnog skupa je uzorak. populacija uzorak
U statističkom istraživanju statistički skupovi se definiraju pojmovno, prostorno i vremenski.
2
1.3. Statistička obilježja (varijable) (varijable) su opće karakteristike elemenata statističkog skupa po kojima su elementi jedni drugima slični ili se međusobno razlikuju.
Statistička obilježja
Varijable se dijele na kvalitativne i kvantitativne. varijable mogu biti kontinuirane i diskretne. Kontinuirane varijable dobivaju se mjerenjem pa mogu poprimiti bilo koju vrijednost iz nekog intervala. Diskretne varijable dobivaju se brojanjem i poprimaju konačan broj vrijednosti.
Kvantitativne
varijable mogu biti nominalne i redoslijedne. Nominalne varijable dane su opisno u obliku atributa (kategorija) ili prostornih (zemljopisnih) jedinica. Redoslijedne (ordinalne) varijable fluktuiraju prema intenzitetu ili rangu. rang u.
Kvalitativne
1.4. Računalni programski paketi u statistici Razvojem računalne tehnike obrada i analiza podataka u statistici je znatno olakšana. Brojnim korisnicima danas su na raspolaganju grupe statističkih programa dizajnirane u obliku programskih paketa. Među najpopularnije spadaju SAS, SPSS, STATISTICA i MINITAB. Računala se javljaju gotovo u svakoj fazi statističke djelatnosti: pohranjivanje i manipuliranje podataka, grafičko i tabelarno prikazivanje, provođenje izračuna, modeliranje i simuliranje. simuliranje. Veći broj statističkih procedura deskriptivne i inferencijalne statistike dostupan je u različitoj programskoj potpori, primjerice u EXCEL-u.
Vježbe 1. Pogledajte stranice na navedenim adresama imaju ći na umu potrebe za razli čitim statističkim podacima:
3
www.dsz.hr www.hnb.hr www.kgh.hr www.census.gov www.unctad.org www.worldbank.org
2. Pogledajte publikaciju Statisti čki ljetopis Državnog zavoda za statistiku. Prou čite metodološka objašnjenja koja se odnose na podatke o registru poslovnih subjekata, stanovništvu, zaposlenosti, pla ćama, investicijama, transportu i komunikacijama i drugim podru č jima.
3. Koristeći se programskom potporom EXCEL-a unesite podatke iz odabrane tablice i pohranite ih u datoteku odabranog imena. Pomo ću opcija Help prou čite način unosa i editiranja statisti čkih podataka u programskoj potpori EXCEL-a.
4. Ispituju se obilježja radne snage (u dobi od 15 i više godina) na temelju uzorka 7550 kućanstava. Među varijablama (obilježjima) u istraživanju su i sljede će: (1) Spol (1 - muški, 2 - ženski) (2) Navršene godine života (3) Bračno stanje (1 – neoženjen / neudana, 2 – oženjen / udana, 3 – rastavljen / rastavljena, 4 – udovac / udovica) (4) Broj članova ku ćanstva 2 (5) Veličina stana (u m ) (6) Položaj u zanimanju (1 – zaposlenik, osoba koja prima pla ću, 2 – vlasnik bez zaposlenika, 3 – vlasnik - suvlasnik, 4 - pomažu ći član domaćinstva, 5 – nije aktivna osoba, umirovljenik, primatelj invalidnine, stipendije i sl., 6 – bez zanimanja) (7) Broj godina školovanja (8) Radni staž (navršene godine) (9) Udaljenost od mjesta na kojemu se obavlja posao (u km) Protuma čite sadržaj niže navedenog dijela matrice prikupljenih podataka:
0001 0002 0003 0004 0005 0006 0007 0008 0009
A 2 1 2 2 1 1 1 2 1
B 30 61 21 27 50 32 45 28 23
C 2 3 1 1 2 2 2 4 1
D 1 3 1 1 2 3 4 2 1
E 45 90 0 40 72 65 80 38 32
F 1 5 1 1 2 1 3 1 6
G 11 17 12 12 14 14 12 15 16
H 6 35 1 2 28 7 20 4 1
I 12 15 0 5 6 7 3 2 0
4
2.
STATISTIČKI NIZOVI
Jedna od prvih zadaća deskriptivne statistike jest organizacija i prikaz prikupljenih podataka. Uređenjem statističkih podataka nastaju statistički nizovi. Uređeni podaci prikazuju se statističkim tabelama i grafičkim prikazima koji daju prve informacije o strukturi pojave predočene statističkim nizom. Elementarna analiza podataka u sklopu deskriptivne statistike provodi se pomoću relativnih brojeva (postoci, proporcije i sl.)
2.1. Niz kvantitativnih podataka Kvalitativni niz nastaje uređenjem podataka o modalitetima nominalne ili rang varijable. Broj podataka istog oblika varijable naziva se frekvencijom ( f i). Zbroj frekvencija jednak je opsegu statističkog skupa. Relativna frekvencija ( pi ) omjer je frekvencije i ukupnog broja podataka (zbroja frekvencija). Nizovi kvalitativnih podataka prikazuju se površinskim grafikonima: uspravnim i položenim stupcima, strukturnim krugovima i polukrugovima, razdijeljenim stupcima i sl. Primjer 2.1
Raspolažete sljede ćim podacima: Studenti sveučilišnih studija u RH školske godine 2000/2001. Studijsko područ je prirodne znanosti tehničke znanosti medicinske znanosti biotehničke znanosti društvene znanosti umjetničke akademije
Broj studenata 2367 18398 4693 3334 40048 997
Od toga studentice 1285 5252 3079 1416 26445 559
Izvor: Statistički ljetopis RH, 2001, str.435
a) Kojoj vrsti pripada niz u tabeli? Niz studenata prema studijskom podru č ju prikažite jednostavnim stupcima. Uz grafikon navedite sve potrebne oznake.
5
b) Izračunajte relativni udjel (postotak) studentica u ukupnom broju studenata po studijskim podru č jima. Strukturu studenata po spolu i studijskim podru č jima prikažite razdijeljenim stupcima. c) Usporedite obujam i strukturu studenata po spolu i studijskim podru č jima proporcionalnim strukturnim krugovima.
a) Nominalni niz.
Studenti sveučilišnih studija u RH prema studijskom području školske godine 2000/2001. 45.000 40.000 35.000 a t a n e d u t s j o r B
30.000 25.000 20.000 15.000 10.000 5.000 0 Prirodne znanosti
Tehni čke znanosti
Medicinske znanosti
Biotehni čke znanosti
Društvene znanosti
Umjetničke akademije
Studijsko podru čje
b) Struktura studenata pre ma spolu i studijskom području u RH školske godine 2000/2001 100% 80% 60% 40% 20% 0% Prirodne znanosti
Tehnič ke znanosti
Medicinske znanosti Studentic e
Biotehničke znanosti
Društvene znanosti
Umjetnič ke akademije
Studenti
c) Studenti po spolu i studijskim podru čjima u RH školske godine 2000/2001. Studenti
Studentice Prirodne Umjetničke znanosti 3% akademije 1%
Medicinske znanosti 8% Biotehni čke znanosti 4% Društvene znanosti 70%
Umjetni čke akademije 1%
Tehničke znanosti 14%
Prirodne znanosti 3%
Društvene znanosti 44%
Tehničke znanosti 41%
Biotehni čke Medicinske znanosti znanosti 6% 5%
6
Ukupan broj studentica (38.036 ili 100%) predstavljen je površinom kruga. Sektori kruga ( si) f i računaju se pomo ću izraza si = × 360 . Radijusi: r ž = 2,2 cm, r m = 2 cm N
2.2. Niz kvalitativnih podataka Uređenjem kvantitativnih podataka nastaju numerički nizovi. Način uređivanja numeričkih nizova ovisi o broju podataka, te da li je numerička varijabla diskretna ili kontinuirana.
Grupiranje i prikaz diskretnih podataka Pojedinačne vrijednosti numeričke varijable prikazuju se dijagramom stablo-list (Stemand-Leaf Diagram, ili S-L dijagram) Primjer 2.2
Intervjuirano je 75 slu čajno odabranih gra đana. Na pitanje: "Koliko puta ste proteklog mjeseca svibnja koristili prijevoz gradskim autobusom?" prikupljeni su sljede ći odgovori: 2, 47, 22, 3, 52, 0, 28, 50, 11, 31, 22, 59, 27, 24, 52, 55, 21, 24, 31, 1, 6, 17, 10, 30, 31, 42, 27, 4, 14, 29, 7, 23, 21, 44, 2, 30, 3, 43, 27, 64, 49, 25, 51, 19, 45, 38, 51, 23, 5, 29, 24, 7, 30, 6, 21, 55, 51, 20, 18, 41, 26, 30, 21, 57, 33, 60, 24, 9, 23, 5, 46, 51 12, 10, 22.
Rezultate intervjua prikažite tabelarno i grafi čki.
Prikupljeni podaci su neure đeni. Brz način uređenja podataka postiže se uporabom dijagrama stablo- list. On osigurava ispis pojedina čnih podataka ure đenih po veli čini, od najmanjeg do najvećeg. Popis prvih znamenki brojeva tvori stupac koje zovemo "stablo" (Stem). S desne strane nasuprot vode ćoj znamenci (u "stablu") ispisuje se posljednja znamenka broja što tvori "list" (leaf). "Stem" 0 1 2 3 4 5 6
"Leaf" 0,1,2,2,3,3,4,5,5,6,6,7,7,9 0,0,1,2,4,7,8,9 0,1,1,1,1,2,2,2,3,3,3,4,4,4,4,5,6,7,7,7,8,9,9 0,0,0,0,1,1,1,3,8 1,2,3,4,5,6,7,9 0,1,1,1,1,2,2,5,5,7,9 0,4
Broj putnika ( f i) 14 8 23 9 8 11 2 7
Kod manjeg broja kvantitativnih podataka S-L dijagram omogu ćuje brzi način grupiranja podataka u razrede i odre đivanja veličine razreda. Tabela distribucije frekvencija s razredima i njen grafički prikaz dobiveni su pomo ću MS Excela.
Kod velikog broja podataka, broj razreda ( k ) se aproksimira izrazom k 1 + 3 ,3 × log N , ≈
gdje je N = ukupan broj podataka. Veli čina razreda ( ∆ x) određuje se izrazom
∆ x =
x max - x min k
gdje je: xmax = najveća, a xmin = najmanja vrijednost u nizu, k = broj razreda.
Grupiranje i prikaz kontinuiranih podataka Granice razreda su prave ako je donja granica tekućeg razreda jednaka gornjoj granici prethodnog razreda. U protivnom riječ je o nominalnim granicama koje treba pretvoriti u prave. Primjer 2.3
Mjerenjem su prikupljeni sljede ći podaci o visini studenata 171.4, 168.9, 183.7, 192.0, 158.2, 167.4, 178.2, 165.3, 183.8, 162.8, 173.5, 156.3, 188.2, 175.8, 171.3, 168.7, 164.7, 177.2, 163.5, 179.2, 169.4, 173.1, 168.4, 156.8, 180.3, 176.0, 179.4, 168.3, 178.3, 173.9, 174.0, 177.6, 169.4, 172.1, 173.6, 168.0, 191.1, 180.4, 163.7, 170.6
Podatke prikažite tabelarno i grafi čki.
8
Distribucija studenata po visini
Visina (u cm) 155 - 160 160 - 165 165 - 170 170 - 175 175 - 180 180 - 185 185 - 190 190 - 195 Ukupno
Broj studenata f i 3 4 9 9 8 4 1 2 40
10 9 8 a t a n e d u t s j o r b
7 6 5 4 3 2 1 0 155-160 160-165 165-170 170-175 175-180
180-185 185-190 190-195
visina (u cm )
Za grafi čki prikaz distribucije frekvencija s razredima koristi se histogram.
Vježbe: 1. Vrijeme od dana primitka narudžbe do dana isporuke posebne vrste brodskog motora bilo je kako slijedi (u danima): 145, 177, 117, 125, 185, 154, 140, 182, 132, 131, 140, 156, 161, 141, 200, 136, 157, 164, 123, 192 Konstruirajte S-L dijagram. 2. Provedena je anketa o dnevnoj potrošnji stranih turista u Republici Hrvatskoj tijekom kolovoza 2010. godine. Prosje čni dnevni troškovi anketiranih turista bili su kako slijedi: 100 1500 220 500 100 200 800 200 300 100
600 100 510 250 500 200 1100 400 500 200
100 1300 180 1000 600 100 400 300 800 2000
500 500 800 1500 100 100 700 300 200 100
100 100 250 250 250 150 300 500 300 200
150 200 100 500 150 500 200 200 300 100
400 250 1500 700 1000 100 2400 600 800 260
170 400 380 100 500 2000 100 500 1000 500
2000 500 2600 100 1600 150 1500 800 1500 500
100 800 1000 100 2000 1500 600 100 1800 150
400 700 800 1500 350 100 200 200 200 1000
300 1400 250 200 100 200 200 300 250 1250
a) Formirajte distribuciju frekvencija i prikažite je u tabeli b) Distribuciju frekvencija prikažite površinskim grafikonom. 9
3.
SREDNJE VRIJEDNOSTI
3.1. Aritmetička sredina (prosječna vrijednost) a)
Jednostavna sredina (pojedinačni, negrupirani podaci) N
x
=
x1 + x 2
+ x3 + x 4 + K + x N
xi ∑ i =1
=
N
N
,
gdje je N = broj vrijednosti
Primjer 3.1
Izračunajte aritmetičku sredinu niza: 105, 100, 110, 112, 108, 100, 104, 115, 96, 120
N
xi ∑ x =
b)
i =1
=
105 + 100 + 110 + 112 + 108 + 100 + 104 + 115 + 96 + 120
=
1070
10
N
10
= 107
Vagana ili ponderirana sredina (grupirani podaci, distribucije frekvencija s razredima) k
∑ f i xi x =
i =1
N
k
N = ∑ f i
,
i =1
Primjer 3.2
Test iz statistike sadrži pet zadataka. Broj riješenih zadataka 43 studenta bio je ovakav: Broj riješenih zadataka Broj studenata
0 3
1 7
2 12
3 16
4 3
5 2
Izračunajte prosje čan broj riješenih zadataka.
10
Broj riješenih zadataka
Broj studenata
xi
f i
xi·f i
0
3
0
1
7
7
2 3
12 16
24 48
4 5
3 2
12 10
Ukupno
43
101
k
∑ f i xi x =
i =1 k
=
101 43
∑ f i
=
2 ,3488 riješena zadatka po studentu
i =1
Primjer 3.3
Nezaposlene osobe prijavljene u Hrvatskom zavodu za zapošljavanje krajem 1999. godine: Navršene godine života
Broj osoba
15 - 19 20 - 24
67.170 48.482
25 - 29 30 - 39 40 - 49 50 i više
119.819 82.263 10.604 13.392
Izračunajte prosje čnu starost nezaposlenih osoba
Godine života
Broj osoba
Prave granice
f i
15 - 19 20 - 25 25 - 29 30 - 39 40 - 49 50 i više
67.170 48.482 119.819 82.263 10.604 13.392
Ukupno
341.730
15 - 20 20 - 25 25 - 30 30 - 40 40 - 50 50 - (65)
Razredne sredine xi
xi·f i
17,5 22,5 27,5 35 45 57,5
1.175.475,0 1.090.845,0 3.295.022,5 2.879.205,0 477.180,0 770.040,0 9.687.767,5
k
∑ f i xi x =
i =1 k
∑ f i
=
9.687.767 ,5 341.730
=
28 ,3492 godina
i =1
11
• • •
Aritmetička sredina posjeduje sljede ća svojstva:
Vrijednost aritmetičke sredine nalazi se izme đu najmanje i najve će vrijednosti niza za koji je izračunana. Zbroj odstupanja vrijednosti numeri čke varijable od njezine aritmeti čke sredine jedak je nuli Zbroj kvadrata odstupanja vrijednosti numeri čke varijable od njezine sredine minimalan je
3.2. Mod (vrijednost koja se najčešće pojavljuje u nizu) U Primjeru 3.1 mod je 100. U Primjeru 3.2 mod je 3 jer je najve ći broj studenata ima 3 riješena zadatka.
Mod distribucije frekvencija s razredima M O = L1 +
(b - a ) (b - a )+(b - c )
×i
L1 = donja granica razreda s najve ćom frekvencijom b = najveća frekvencija a = frekvencija ispred nje c = frekvencija iza najve će frekvencije i = veličina razreda (= L2 – L1)
gdje je:
Primjer 3.4
Na osnovi podataka iz Primjera 3.3 izra čunajte vrijednost moda distribucije i objasnite njegovo zna čenje.
Prave granice razreda
Broj osoba
Veličina razreda
Korigirane frekvencije
f i
i i
f ci
15 - 20 20 - 25 25 - 30 30 - 40 40 - 50 50 - (65)
67.170 48.482 119.819 82.263 10.604 13.392
5 5 5 10 10 15
67.170 48.482 119.819 41.131,5 5.302 4.464
Ukupno
341.730
12
M o = 25 +
(119.819 - 48.482) × 5 = 27,3775 (119.819 - 48.482 ) + (119.819 - 41.131,5)
Najčešća dob nezaposlenih osoba bila je (zaokruženo) 27 godina.
3.3. Medijan (srednja vrijednost koja niz uređen po veličini dijeli na dva jednaka dijela)
U Primjeru 3.1 podaci poredani po veličini su: 96, 100, 100, 104, 105, 108, 110, 112, 115, 120. M e =
105 + 108 2
= 106 ,5
U Primjeru 3.2 broj podataka je neparan. (43). Medijan je broj riješenih zadataka studenta s rednim brojem 22 (= 43/2 = 21,5), pa je Me = 2 riješena zadatka. Broj riješenih zadataka
Broj studenata
Kumulativni niz
xi
f i
manje od
0 1 2 3 4 5
3 7 12 16 3 2
3 10 22 38 41 43
Ukupno
43
U tabeli student pod rednim brojem 22 nalazi se u kumulativnoj frekvenciji 22 pa je medijan 2 riješena zadatka.
Medijan distribucije frekvencija s razredima N M e = L1 +
gdje je:
2
- ∑ f 1
f med
×i
N = zbroj frekvencija f med = frekvencija medijalnog razreda i = veličina medijalnog razreda Σ f 1 = zbroj svih frekvencija ispred medijalnog razreda L1 = donja granica medijalnog razreda
13
Medijalni razred je onaj čija kumulativna frekvencija prvi put uklju čuje vrijednost N/2. U Primjeru 3.3 za izračun medijana formira se kumulativni niz „manje od“ Broj osoba
Kumulativni niz
Veličina razreda
f i
manje od
ii
15 - 20
67.170
67.170
5
20 - 25 25 - 30 30 - 40 40 - 50 50 - (65)
48.482 119.819 82.263 10.604 13.392
115.652 235.471 317.734 328.338 341.730
5 5 10 10 15
Ukupno
341.730
Prave granice razreda
N
=
341.730
2 2 25-30 godina.
= 170.865 , te se nalazi u kumulativnoj frekvenciji 235.471. Medijalni razred je
L1 = 25 M e = 25 +
f med = 119.819
Σ f 1 = 115.652
170.865 - 115.652 119.819
i=5
× 5 = 27 ,3040 godina
Medijan je (zaokruženo) 27 godina, prema tome prva polovica nezaposlenih osoba imala je 27 i manje godina, a druga polovica bila je starija od 27 godina. Medijan se može grafi čki odrediti pomo ću poligona kumulativnih frekvencija.
Poligon kumulativnih frekvencija 350 300 a b 250 o s o ) j a o r m 200 b a i ć n u N/2 v s i t t i 150 a u l u ( m u 100 K
50 0 15
20
25
30
35
40
45
50
55
60
65
Godine starosti
14
Medijan se ubraja me đu kvantile. Kvantili su vrijednosti varijable koje dijele niz ure đen po veličini na jednake dijelove. Decili raščlanjuju niz na deset jednakih dijelova, a percentili na sto dijelova. Kvantili koji dijele niz na četiri jednaka dijela nazivaju se kvartilima. Načini određivanja ovih kvantila analogni su onima za odre đivanje medijana.
Kvartili distribucije frekvencija s razredima N
Prvi ili donji kvartil (Q1)
Q1 = L1 +
4
- ∑ f 1
f k var
×i
Drugi kvartil (Q2) = Me 3 N
Treći ili gornji kvartil (Q3) gdje je
Q3 = L1 +
4
- ∑ f 1
f k var
×i
f kvar = frekvencija medijalnog razreda i = veličina kvartilnog razreda Σ f 1 = zbroj svih frekvencija ispred kvartilnog razreda L1 = donja granica kvartilnog razreda
Donji kvartil je 25-ti percentil, medijan je 50-ti percentil, gornji kvartil je 75-ti percentil
Vježbe 1. U servisu brodskih motora registriran je broj dana od primitka do predaje popravljenog motora. Podaci su sljede ći: 1, 2, 2, 1, 1, 3, 2, 0, 3, 2, 1, 4, 0, 3, 3, 2, 4, 1, 0, 1, 1, 2, 1, 5, 2 Izračunajte: aritmeti čku sredinu niza, mod , medijan i kvartile. 2.
Broj dana zadržavanja jedrilica na suhom doku u marini prikazan je S-L dijagramom # 11 7 1 12 3,5 2 13 1,2,2,6 4 14 0,0,1,5 4 15 4,6,7 3 16 1,4 2 17 5,7 2 18 2,5 2
15
Izračunajte: a) Prosječan broj dana zadržavanja jedrilica na suhom doku b) Mod, medijan i kvartile c) Komentirajte dobivene rezultate. 3. a)
Za svaki od navedenih numeri čkih nizova odredite aritmeti čku sredinu, mod i medijan x i
b)
17 21 34 35 40 41 42
x i
f i
500 550 600 700 750 800
36 77 22 14 11 3
50 50 53 55
c)
d)
Razredi
f i
0-5 5 - 10 10 - 15 15 - 25
123 158 26 9
Razredi
f i
0,5 - 0,9 1,0 - 1,4 1,5 - 1,9 2,0 - 2,9 3,0 - 4,9 5,0 - 7,9
79 68 30 14 11 4
4. Anketa o dnevnoj potrošnji stranih turista iz zadataka 2 (predavanje2.) dala je sljede ću distribuciju Potrošnja turista Broj anketiranih 100-400
63
400-700 700-1000 1000-1300 1300-1600 1600-1900 1900-2200 2200-2500 2500-2800
23 10 7 9 2 4 1 1
a) Na temelju podataka iz tabele izra čunajte prosje čnu potrošnju i kvartile. b) Dobivene rezultate usporedite s rezultatima dobivenim iz originalnih podataka.
16
4.
MJERE DISPERZIJE
4.1. Raspon varijacije (razlika između najveće i najmanje vrijednosti) R = x max − x min
U Primjeru 3.1
xmax = 120, xmin = 96
R = 120 −96 = 24
Raspon varijacije distribucije frekvencija s razredima R = gornja granica posljednjeg razreda - donja granica prvog razreda.
U Primjeru 3.3
xmax = 65, xmin = 15
4.2. Interkvartil
R = 65 −15 = 50
(razlika između gornjeg i donjeg kvartila) I Q = Q3 − Q1
Primjer 4.1
Provedena je anketa me đu studentima o satima provedenom na internetu tijekom mjeseca listopada. Prikupljeni su sljede ći podaci: 5, 9, 14, 15, 16, 17, 18, 21, 22, 23, 24, 27, 28, 31, 34, 37, 37, 39, 40, 40, 41, 43, 44, 45, 47, 48, 53, 57, 59, 63. Izračunajte srednje vrijednosti, raspon varijacije i interkvartile. Izra čunate vrijednosti prikažite pomoću B-W dijagrama (Box-and-Whisker diagram)
N = 30 x = 33,2333
xmax = 63
xmin = 5
M o = 40
Σ xi
M e = 36,5
= 997 Q1 = 21
Q3 = 44
R = x max − x min = 63 – 5 = 58 I Q = Q3 − Q1 = 44 – 21 = 23
17
B – W dijagram
4.3. Varijanca (sredina kvadrata odstupanja vrijednosti numeričke varijable od sredine) N
σ
2
=
( x1 − x )
2
2
+ ( x 2 − x ) + L + ( x N − x )
∑( xi − x )
2
=
2
i =1
N
N
Primjer 4.2
Izračunajte varijancu niza
19, 15, 13, 12, 11
x = 2
19 + 15 + 13 + 12 + 11
σ =
5
=
70 5
= 14
(19 − 14 )2 + (15 − 14 2 ) + (13 − 14 )2 + (12 − 14 )2 + (11 − 14) 2 5
=
40 5
=
8
Za izračun varijance može se koristiti sljede ći izraz. N
xi ∑ σ
2
=
2
− N ( x )
2
i =1
N
18
Varijanca distribucije frekvencija s razredima k
2 ∑ f i ( xi − x ) 2
σ =
k
N = ∑ f i
i =1
N
i =1
Primjer 4.3
Na temelju podataka iz Primjera 3.3 izračunajte varijancu
Navršene godine
Broj osoba
Razredne sredine
(prave granice)
f i
xi
xi·f i
f i ( x i − x )
15 - 20
67.170
17,5
1175475
7.906.234,6
20 - 25 25 - 30 30 - 40
48.482 119.819 82.263
22,5 27,5 35
1090845 3295022,5 2879205
1.658.713,8 86.403,6 3.638.765,6
40 - 50 50 - (65)
10.604 13.392
45 57,5
477180 770040
2.939.954,7 11.380.118,9
Ukupno
341.730
9687767,5
27.610.191,2
6
6
∑ f i xi x
=
i =1 6
2
=
9687767 ,5
∑ f i
341730
2 ∑ f i ( xi − x )
= 28,3492
godina
σ
2
=
i =1
=
6
341730
∑ f i
i =1
27610191 ,2
= 80,7953
i =1
Za izračun može se koristiti sljede ći izraz k
∑ f i xi σ
2
=
2
k
− x
i =1
2
∑ f i
k
N = ∑ f i
i =1
N
i =1
4.4. Standardna devijacija (prosječno odstupanje vrijednosti numeričke varijable od njezine sredine) σ = σ
2
U Primjeru 4.2
σ = 8 = 2,8284
U Primjeru 4.3
σ = 80 ,79530 = 8,9886 godina
19
4.5. Koeficijent varijacije (omjer standardne devijacije i aritmetičke sredine pomnožen sa sto)
V =
U Primjeru 4.2
σ = 2,8284
x
= 14
U Primjeru 4.3
σ = 8,9886
x
=
σ x
× 100
28,3492
V =
σ x
× 100 =
V =
2 ,8284 14
8 ,9886 28 ,3492
× 100 =
× 100 =
20,20
31,7068
Vježbe 1.
Mjereno je vrijeme (u minutama) rješavanja zadataka iz statistike. Rezultati su sljede ći:
15, 25, 22, 31, 20, 24, 19, 17, 18, 18, 29, 28, 21, 10, 20, 17, 20, 33, 16, 38, 40, 30, 24, 22, 27 a) Odredite prosje čno vrijeme rješavanja zadataka i nacrtajte dijagram odstupanja vrijednosti varijable od aritmeti čke sredine. b) Izračunajte vrijednost raspona varijacije, interkvartila i standardne devijacije. c) Nacrtajte B-W dijagram. 2. U tabeli su podaci o osu đenim punoljetnim osobama u Republici Hrvatskoj tijekom 2000. godine za kazneno djelo protiv sigurnosti platnog prometa i poslovanja . Dob 18 - 20 21 - 24 25 -29 30 - 39 40 - 49 50 - 59 60 i više
a) b) c) d)
Broj osoba 23 63 108 236 192 74 25
Izračunajte prosje čnu dob osu đenih osoba. Koliko je odstupanje od prosjeka Odredite dob koja niz dijeli na dva jednaka dijela. Koja je naj češća dob osu đenih osoba Koliki su kvartili i interkvartil Prikažite distribuciju poligonom kumulativnih frekvencija i ozna čite položaj izra čunanih srednjih vrijednosti
20
5.
MJERE ASIMETRIJE I ZAKRIVLJENOSTI
5.1. Mjere asimetrije (nagnutost distribucije na lijevu ili desnu stranu s obzirom na vrh distribucije)
a)
Koeficijent asimetrije α 3 =
µ 3 σ
3
gdje je: µ 3 = treći moment oko sredine σ = standardna devijacija
Momenti oko sredine definiraju se izrazom N
r ∑( xi − x )
µ r
=
i =1
r = 0, 1, 2, 3, 4, …
N
za grupirane podatke i distribuciju frekvencija: k
n ∑ f i ( xi − x )
µ n
=
i =1 k
∑ f i i =1
N
N
∑( xi − x )
2 ∑( xi − x )
1
µ 1
=
i =1
=
N
0,
µ 2
=
i =1
N
= σ
2
U simetričnoj distribuciji α 3 = 0 . U pozitivno ili negativno asimetri čnim distribucijama α 3 poprima vrijednosti iz intervala ± 2.
b)
Pearsonova mjera asimetrije S k =
3 × ( x − M e ) σ
odnosno
S k
=
( x − M 0 ) σ
21
U simetričnoj distribuciji kontinuirane varijable x = M e
= M 0 .
U pozitivno ili negativno
asimetri čnim distribucijama S k poprima vrijednosti iz intervala ± 3.
c)
Bowleyeva mjera asimetrije S kQ
U simetričnim distribucijama Q1 + Q3
(Q3 − M e ) > ( M e
− Q1 ) ,
=
Q1 + Q3 Q3
− 2 M e
− Q1
− 2 M e = 0 .
U pozitivno asimetri čnim distribucijama
a u negativno asimetri čnim
(Q3 − M e ) <. ( M e
− Q1 ) .
Mjera S kQ
poprima vrijednosti iz intervala ± 1.
Primjer 5.1
U Primjeru 3.3 x = 28 ,3492 ; M o = 27 ,3775 ; M e = 27 ,3040 ; Q1 = 21,8834; Q3 = 32,5317; Izračunajte vrijednost koeficijenta asimetrije
α3
σ
= 8,9886.
te Pearsonove i Bowleyeve mjere asimetrije.
Navršene godine
Broj osoba
Razredne sredine
(prave granice)
f i
xi
15 - 20 20 - 25 25 - 30 30 - 40 40 - 50 50 - (65)
67.170 48.482 119.819 82.263 10.604 13.392
17,5 22,5 27,5 35 45 57,5
Ukupno
341.730
3
f i ( xi - x )
- 85.776.213,73 - 9.702.126,49 - 73.372,77 24.200.751,60 48.952.636,72 331.739.723,11 309.341.398,43
Treći moment oko sredine je: 6
3 ∑ f i ( xi − x )
µ 3 =
i =1
6
=
309341398 ,43
∑ f i
=
341730
905,22166
i =1
Koeficijent asimetrije je:
α 3 =
µ 3 σ
3
=
905 ,22166 8 ,9886 3
= 1,2465.
Distribucija je pozitivno simetri čna (α 3 > 0). Vrijednost Pearsonove mjere asimetrije je
22
S k =
3( x − M e )
=
3 × (28 ,3492 − 27 ,3040) 8 ,9886
σ
= 1,2465
Distribucija je srednje pozitivno asimetri čna (0 < S k k < 3) Vrijednost Bowleyeve mjere asimetrije je: S kQ
=
Q1
+ Q3 − 2 M e
Q3
=
21 ,8834 + 32 ,5317 − 2 × 27 ,3040
− Q1
32 ,5317 − 21 ,8834
= -0,0181
Raspored središnjih 50% podataka je blago negativno asimetri čan (Q 3 − M e ) <. ( M e
− Q1 ) .
Koeficijent asimetrije pruža najvjerniju sliku o asimetriji. Izravna usporedba stupnja asimetrije mjerena izra čunanim pokazateljima nije mogu ća jer se oni temelje na razli čitim principima.
5.2. Mjera zaobljenosti
(zaobljenost modalnog vrha, kurtoza)
Koeficijent zaobljenosti α 4 =
µ 4 σ
4
Kod normalne distribucije α 4 = 3. Ako vrh šiljatiji nego kod normalne distribucije α 4 > 3. Kod tupog oblika distribucije α 4 poprima vrijednosti izme đu 1,8 i 3, dok je kod U-distribucije α 4 < 1,8. Primjer 5.1
U Primjeru 3.3 ( x = 28 ,3492 ; σ = 8,9886) izra čunajte vrijednost koeficijenta zaobljenosti.
Navršene godine
Broj osoba
Razredne sredine
(prave granice)
f i
xi
15 - 20
67.170
17,5
930.602.139,36
20 - 25 25 - 30 30 - 40 40 - 50 50 - (65)
48.482 119.819 82.263 10.604 13.392
22,5 27,5 35 45 57,5
56.749.547,22 62.307,17 160.954.685,62 815.101.224,75 9.670.482.801,41
Ukupno
341.730
f i ⋅ ( xi - x )
4
11.633.952.705,52
23
Četvrti moment oko sredine je: 6
4 ∑ f i ( xi − x )
µ 4 =
i =1
6
∑ f i
=
11633952705 ,52 341730
=
34.044,2826
i =1
Koeficijent zakrivljenosti je:
α 4 =
µ 4 σ
4
=
34044 ,2826 8 ,9886 4
= 5,2152
Distribucija je šiljatija od normalne ( α 4 > 3).
Vježbe 1.
Za sljede ći numerički niz: 72, 65, 89, 56, 74, 45, 23, 65, 53, 89, 78, 84, 98, 24, 31, 63, 45, 32, 31, 23
a) Odredite vrijednost koeficijenta asimetrije α 3 , Pearsonove i Bowleyeve mjere ovog niza b) Nacrtajte dijagram s to čkama i na njemu nazna čite položaj aritmeti čke sredine. c) Nacrtajte B-W dijagram.
2.
Zadana je sljede ća distribucija frekvencija Granice razreda 15 - 20 20 - 25 25 -35 35 - 45 45 - 55 55 - 65
a) b) c) d)
Frekvencije 96 272 504 483 175 38
Kolika je vrijednost koeficijenta zaobljenosti distribucije? Izra čunajte vrijednost koeficijenta asimetrije, Pearsonove i Bowleyeve mjere asimetrije Koliki je koeficijent varijacije i interkvartil? Prikažite distribuciju poligonom frekvencija i ozna čite položaj aritmeti čke sredine, medijana i moda.
24
6.
OSNOVNI POJMOVI VJEROJATNOSTI
6.1. Definicije vjerojatnosti Slučajni pokus je proces (postupak mjerenja, opažanja) čiji rezultat ovisi o slučajnosti i
ne može se unaprijed predvidjeti. Primjerice bacanje kocke može se shvatiti kao izvođenje slučajnog pokusa (uvjeti: kocka je pravilna, bacanje se može ponavljati, postoji više rezultata, rezultati su neizvjesni). Rezultat pokusa naziva se ishodom (npr. kod jednokratnog bacanja kocke kocke dobiven je broj 4). Prostor događaja S je skup od svih mogućih ishoda pokusa. Za pravilnu kocku prostor
elementarnih događaja je {1, 2, 3, 4, 5, 6 }. Slučajni događaj ili slučajni uzorak je podskup prostora događaja. Primjerice prostor
slučajnog događaja da se pri bacanju b acanju kocke dobije neparni broj je podskup {1,3,5}. Određivanje vjerojatnosti nastupa slučajnih događaja temelji se na klasičnoj i statističkoj definiciji. Klasična definicija polazi od pretpostavke da slučajni pokus ima konačan broj jednako
mogućih ishoda. Vjerojatnost nastupa događaja A jednaka je omjeru broja za njega povoljnih ishoda m i ukupnog broja ishoda n, tj, P ( A) =
m n
Tako računana vjerojatnost naziva se i vjerojatnost a priori jer je unaprijed poznat broj svih povoljnih ishoda i ukupno mogućih. Statistička vjerojatnost (vjerojatnost a posteriori) je granična vrijednost relativne
frekvencije povoljnog ishoda događaja A ako se broj ponavljanja pokusa izvedenih izvedenih u istim uvjetima povećava u beskonačnost, tj. P( A) =
lim
x →∞
m n
gdje je: m = broj povoljnih ishoda u pokušajima n = ukupan broj pokušaja
25
a)
Vennovi dijagrami
Siguran događaj obuhvaća sve događaje. Vjerojatnost sigurnog događaja je: S
P(S) = 1
Događaj A je nemoguć ako je A=∅ (prazan skup). Vjerojatnost nemogućeg događaja je: S
P(∅) = 0
Slučajni događaj A predstavljen je krugom. Vjerojatnost događaja A je: S
0 ≤ P( A) ≤ 1
A
Komplement slučajnog događaja A jest događaj A' koji sadrži sve elemente prostora
uzoraka S koji ne čine događaj A. Vjerojatnost da neće nastupiti događaj A je : S A
A'
P( A') = 1 − P( A)
Ako su slučajni događaji A i B definirani na skupu S , tada je njihova unija ( A događaj koji nastane ako nastane događaj A, ili događaj B, ili oba. Istodobni nastanak događaja A i B jest je događaj A presjeka.
∩ B,
∪ B)
a tvore ga elementi njihova
26
Međusobno isključivi događaji u jednom izvođenju pokusa ne mogu nastati istovremeno. Vjerojatnost da će nastupiti događaj A ili događaj B je: S
A
B
P( A ∪ B) = P( A) + P( B)
Za događaje koji se međusobno ne isključuju vjerojatnost nastupa barem jednog od njih je:
P( A ∪ B) = P( A) + P( B) − P( A ∩ B)
Događaji su neovisni ako u jednom pokusu mogu nastati istodobno. Vjerojatnost da će nastupiti događaj A i događaj B je:
P( A ∩ B) = P( A) × P( B)
Primjer 6.1
Prostor događaja S su brojevi od 1 do 20. Slučajni pokus: iz skupa S bira se jedan broj. Kolika je vjerojatnost da je to: a) paran broj, b) broj djeljiv sa 3. Vjerojatnosti prikažite pomoću Vennovog dijagrama A = {parni brojevi} B = {brojevi djeljivi sa 3}. A∩ B = {parni brojevi i brojevi djeljivi sa 3} A∪ B = {parni brojevi ili brojevi djeljivi sa 3}
27
10 = 0 ,5 20 6 P ( B ) = = 0 ,3 20 P ( A) =
3 = 0 ,15 20 P ( A ∪ B ) = P ( A) + P ( B ) − P( A ∩ B ) = 0 ,5 + 0 ,3 − 0 ,15 = 0 ,65 P ( A ∩ B) = P ( A) × P ( B ) =
Vjerojatnost dobivanja broja koji nije paran i nije djeljiv sa 3 je: 1 − P ( A ∪ B ) = 1 − 0 ,65 = 0 ,35
b)
Stabla vjerojatnosti
Stabla vjerojatnosti su dijagrami koji po granama pokazuju različite razine vjerojatnosti. Događaji se zapisuju s lijeva na desno po redoslijedu pojavljivanja. Vjerojatnosti ishoda na kraju (tj. vjerojatnost da su se dogodila sva tri događaja, A i B i C) računa se na način da se pomnože vjerojatnosti ovih događaja po granama. Na bilo kojoj razini, zbroj vjerojatnosti po vertikali mora iznositi 1. AiBiC
se pojavljuju C B Nije C C
A Nije B
Nije C C B Nije C C
Nije A Nije B
Nije C
Primjer 6.2
Košarkaški tim igra 2/5 utakmica kod kuće. Ako igraju na domaćem terenu vjerojatnost da pobijede je 0,7 a ako igraju u gostima vjerojatnost da pobijede je samo 0,5. Izračunajte vjerojatnost da će dobiti sljedeću utakmicu bez obzira gdje igraju. Stablo vjerojatnosti izgleda ovako 28
0,7
Pobijediti
Kod kuće
0,4
0,3 0,5
Izgubiti Pobijediti
U gostima
0,6
0,5
Izgubiti
Događaj "pobijediti" je zadan: {pobijediti} = {kod kuće i pobijediti} ili {u gostima i pobijediti} P(pobijediti) = 0,4 × 0,7 + 0,6 × 0,5 = 0,58
Ako su događaji povezani s " i" vjerojatnosti se pomnože. Ako su događaji povezani s " ili" vjerojatnosti se zbrajaju.
6.2. Uvjetna vjerojatnost Vjerojatnosti često ovise o pojavljivanju ili nepojavljivanju prethodnog događaja. Takve vjerojatnosti nazivamo uvjetnim. Pojavljivanje događaja A može utjecati da pojavljivanje događaja B bude nemoguće, manje vjerojatno, više vjerojatno ili sigurno. Primjerice, bacanjem dvije pravilne kocke zbroj dobivenih brojeva ne može biti 11 ukoliko na prvoj kocki nisu dobiveni brojevi 5 ili 6. Vjerojatnost događaja B uz uvjet da se dogodio događaj A označava se sa P( B / A), pa vjerojatnosti na desnim granama stabla vjerojatnosti mogu biti uvjetne vjerojatnosti. P(B/A)
B
A i B P(A ∩ B)
A P(A)
Nije B B Nije A Nije B
Množenjem vjerojatnosti po gornjim granama dobiva se:
P ( A) × P( B / A) = P ( A ∩ B)
29
P ( B / A) =
Odatle slijedi:
P ( A ∩ B ) P( A)
Primjer 6.3
U Primjeru 6.2 košarkaški tim igra 2/5 utakmica kod kuće (K ). Vjerojatnost da pobijedi na domaćem terenu je 0,7 a kad igra u gostima (G) je 0,5. Ako je prošlu utakmicu pobijedio, izračunajte vjerojatnost da je tim igrao kod kuće. 0,4
0,6
0,7
P (= pobijedio)
0,3
I (= izgubio)
0,5
P (= pobijedio)
0,5
I (= izgubio)
K∩P
K G∩P
G
Vjerojatnost da tim pobijedi P(P) je: P(P) = P(K ∩P) + P(G∩P) = 0.4 × 0,7 + 0,6 × 0,5 = 0,28 + 0,30 = 0,58
Uvjetna vjerojatnost da je igrao kod kuće (K ) uz uvjet da je pobijedio (P) je P( K / P ) =
P( K ∩P ) P( P )
=
0 ,28 = 0 ,4828 0 ,58
Ako su događaji A i B nezavisni, tada događaj B neće biti uvjetovan događajem A, stoga P( B/A) mora biti jednaka P( B)
P ( B / A) =
P ( B ∩ A) P( A )
=
P( B ) × P( A ) P( A )
= P( B )
Vježbe
Pokus se sastoji u jednom bacanju triju pravilnih novčića. Odredite sve članove prostora uzorka. 1.
30
Zaposlenik osiguravajućeg društva namjerava tijekom dana posjetiti dva potencijalna kupca životnog osiguranja. Posjet završava ili ne završava sklapanjem ugovora o osiguranju. Može li se posjet zaposlenika smatrati slučajnim događajem? Ako je odgovor potvrdan, navedite sve članove prostora uzorka. 2.
Zadan je prostor uzorka S = {3, 8, 11, 17, 25, 29}. Na tom prostoru definirani su događaji: A = {3, 17, 29} i B = {11, 17, 25}. a) Prikažite događaj A i B Vennovim dijagramom b) Odredite vjerojatnost nastanka događaja A∪ B, A∩ B 3.
Zadane su ove vjerojatnosti za događaje A i B: P( A) = 0,30; P( B) = 0,45; P( A∩ B) =0,25. a) Da li su događaji međusobno isključivi? b) Da li su neovisni? c) Odredite vjerojatnost događaja A∪ B. 4.
Žara sadrži 5 zelenih kuglica, 4 plave i 3 crvene kuglice. Kolika je vjerojatnost da se slučajno izabere: a) jedna kuglice crvene boje b) da se ne izabere zelena kuglica c) da se izabere zelena i plava kuglica 5.
Događaji A i B su međusobno isključivi, s ovim vjerojatnostima nastanka: P( A) 6. P( B) = 0,2. Odredite ove vjerojatnosti: P( A'), P( B') , P( A∪ B), P( A/B), P( B/A).
= 0,3
Zadane su vjerojatnosti nastanka događaja: P( A) = 0,30; P( B) = 0,75; P( A∩ B) =0,25. Izračunajte vjerojatnosti nastanka ovih događaja: P( A'), P( B'), P( A∪ B), P( A'∪ B'), P( A/B), P( B/A). 7.
Strojevi A1, A2 i A 3,izrađuju isti proizvod. U ukupnoj proizvodnji prvi stroj sudjeluje sa 40%, drugi sa 35% i treći sa 25%. Stroj A1 radi približno konstantnim škartom od 2%, stroj A2 sa 3% i stroj A3 sa 4% škarta. Ako se slučajno izabere jedan proizvod, kolika je vjerojatnost da će biti neispravan? Ako je izabran neispravan proizvod, kolika je vjerojatnost da je proizveden na stroju A3? 8.
Ispituje se učestalost kupnje proizvoda A tijekom jednog mjeseca. Anketirano je 1000 osoba. Grupirani podaci dani su u tabeli. 9.
Broj nabavljenih proizvoda Broj anketiranih osoba
0 40
1 100
2 170
3 310
4 180
5 150
6 50
Kolika je vjerojatnost da slučajno izabrani anketirani potrošač: a) ne kupuje proizvod, b) da kupuje 2 ili 3 proizvoda, c) da u tijeku mjeseca nabavi 5 i manje proizvoda?
31
7.
TEORIJSKE DISTRIBUCIJE
7.1 Slučajna varijabla i distribucije vjerojatnosti Slučajna varijabla X numerička je funkcija koja svakim ishodu slučajnog pokusa pridružuje realan broj. Slučajna varijabla je diskretna ako poprima konačan broj vrijednosti ili prebrojivo mnogo njih. Kontinuirana slučajna varijabla poprima bilo koju
vrijednost iz nekog intervala. Distribucija vjerojatnosti diskretne slučajne varijable je skup uređenih parova
različitih vrijednosti te varijable i pripadajućih vjerojatnosti. { xi, p( xi)}, i = 1, 2, …, k
Funkcija distribucije definira se izrazom: F ( xi ) =
∑ p( x ) i
x ≤ xi
Distribucija vjerojatnosti kontinuirane slučajne varijable opisuje razdiobu vjerojatnosti
na intervalu vrijednosti varijable. Funkcija distribucije slučajne varijable je oblika:
F ( X ≤ x)
ili
F ( x)
kontinuirane
x
F ( x ) =
∫ f ( x)dx
−∞
Očekivana vrijednost slučajne varijable definira se na sljedeći način: k
E ( X ) = ∑ xi p( xi ) ,
ako je varijabla X diskretna
i =1
∞
∫
E ( X ) = xf ( x )dx ,
ako je varijabla X kontinuirana
−∞
Varijanca slučajne varijable X , čija je očekivana vrijednost E ( X ) = µ , dana je izrazom: 2
k
2
V ( X ) = E ( X − µ ) = σ = ∑( xi − µ ) p( xi ) , 2
ako je varijabla X diskretna
i =1
2
∞
2
V ( X ) = E ( X − µ ) = σ =
∫ ( x
2
i
− µ) f ( x)dx ,
ako je varijabla X kontinuirana
−∞
32
7.2. Teorijske distribucije diskretne slučajne varijable a)
Binomna distribucija
Definira se u svezi s Bernoullijevim pokusima. Bernoullijev pokus ima sljedeća obilježja: (1) pokus ima dva ishoda ( uspjeh, neuspjeh ), (2) u svakom ponavljanju pokusa vjerojatnost ishoda uspjeh jednaka je p i ne mijenja se od pokusa do pokusa. Vjerojatnost ishoda ne uspjeh jednaka je q = 1 − p , (3) pokusi su neovisni. Ako je n broj ponavljanja Bernoullijeva pokusa, p vjerojatnost ishoda uspjeh , a X (slučajni) broj ishoda uspjeh, varijabla X je binomna slučajna varijabla. Slučajna varijabla X ravna se prema binomnoj distribuciji ako je njezina distribucija vjerojatnosti dana izrazom: n p( x ) = p x q n- x , x
x = 0, 1, 2, …, n
odnosno p( x ) =
n! x!(n − x )!
p x q n-x ,
x = 0, 1, 2, …, n
skraćeno B(n; p). Očekivana vrijednost distribucije je µ = E ( X ) = np , a varijanca je σ 2 = npq . Distribucija je simetrična (za p ≠ 0,5). S porastom n-a, binomna distribucija se približava normalnoj distribuciji. Primjer 7.1
Varijabla X ravna se po binomnoj distribuciji B(5; 0,4). a) Kako glasi funkcija vjerojatnosti i funkcija distribucije? b) Kolika je vjerojatnost da slučajna varijabla distribuirana prema funkciji pod (a) poprimi vrijednosti: x = 0; x ≤ 2; ; x ≤ 5, x > 3; 3 ≤ x ≤ 5; 3< x ≤ 5? 5 a) Binomna distribucija, n = 5, p =0,4. Ona glasi: p( x ) = 0,4 x 0,6 5- x , x = 0, 1, 2, …, 5. x
xi p( xi) F ( xi)
0 0,0778 0,0778
1 0,2592 0,3370
2 0,3456 0,6826
3 0,2304 0,9130
4 0,0768 0,9898
5 0,0102 1,0000
b) p(0) = 0,0778
p( x ≤ 2) = p(0) + p(1) + p(2) = 0,6826
p( x ≤ 5) = 1
p( x > 3) = 1 – p( x ≤ 3) = 1 – 0,913 = 0,087
33
p(3 ≤ x ≤ 5) = p(3) + p(4) + p(5) = 0,3174
b)
p(3< x ≤ 5) = p(4) + p(5) = 0,087
Poissonova distribucija
Ako je p vrlo maleno, tj ako je p < 0,1 a izračunati aproksimativno pomoću funkcije p( x ) =
e - λ λ x x!
,
50 tada se binomne vjerojatnosti mogu
n≥
λ > 0,
x = 0, 1, 2, …
gdje je λ ≈ np: Σ p( x) = 1, e = baza prirodnih logaritama 2,71828…
Ta teorijska distribucija zove se Poissonova distribucija. Poissonova distribucija je granični slučaj binomne distribucije. Očekivana vrijednost Poissonove distribucije je Standardna devijacija je σ = λ = µ .
E ( x ) = λ = µ ,
a varijanca je
σ 2 = λ .
7.3. Teorijske distribucije kontinuirane slučajne varijable a)
Normalna (Gaussova) distribucija
Normalna distribucija najvažnija je statistička distribucija. Ima oblik zvona, unimodalna je, proteže se od - ∞ < x < + ∞, simetrična je pa je α 3 = 0 , očekivana vrijednost (aritmetička sredina) jednaka je medijanu i modu, mjera je zaobljenosti α 4 = 3 . Funkcija vjerojatnosti normalne distribucije je f ( x ) =
gdje je:
1 e σ 2π
1 x − µ 2 σ
2
−
σ = standardna devijacija
π = konstanta 3,14159 e = baza prirodnih logaritama 2,71828 µ = očekivana vrijednost
S obzirom da očekivana vrijednost i standardna devijacija ovise o mjernim jedinicama varijable X , uvodi se standardizirana (jedinična) normalna distribucija. Ako je slučajna 34
varijabla normalno distribuirana sa sredinom varijabla
Z =
X − µ
σ
µ
i standardnom devijacijom
σ ,
tada je
distribuirana po standardiziranoj normalnoj distribuciji: 1 − 12 z 2 f ( z ) = e , 2π
- ∞ < Z < + ∞,
Normalna distribucija označava se s N ( µ ,σ 2), a standardizirana (jedinična) normalna distribucija s N (0, 1). Jedinična normalna distribucija je tabelirana. U tablici distribucije vjerojatnosti navedene su površine koje predočuju vjerojatnost da slučajna varijabla poprimi vrijednost iz intervala 0 ≤ Z ≤ z . Normalna distribucija je simetrična, pa su tablične vrijednosti dane samo za pozitivne vrijednosti varijable Z . Primjer 7.2
Slučajna varijabla X distribuirana je po normalnoj distribuciji N (0; 1). Odredite vjerojatnost da varijabla poprimi vrijednost iz intervala a) –1,774 < Z < 0 b) –2,118 < Z < 1,88 c) Z > –1,668 d) Z > 1,683 e) Z < 2,445 f) Z < –2,039 g) 1,121 < Z < 2,975
a) P(–1,774< Z <0) = P(0< Z <1,774) = 0,4619
b) P(–2,118< Z <1,88) = P (–2,188
c) P( Z > –1,668) = P(–1,668< Z <0) + P( Z >0) = 0,4523 + 0,5 = 0,9523
35
d) P( Z >1,683) = P( Z >0) – P(0< Z <1,683) = 0,5 – 0,4538 = 0,0462
e) P( Z < 2.445) = P( Z <0) + P(0< Z <2,445) = 0,5 + 0,4928 = 0,9928
f) P( Z <–2,039) = P( Z <0) − P(–2,039
g) P(1,121
= 0,4985 – 0,3688 = 0,1297
Primjer 7.3
Varijabla X ravna se po normalnoj distribuciji N (33; 82). Kolika je vjerojatnost da slučajna varijabla poprimi vrijednost manju od 20. z =
X − µ
σ
=
20 − 33 = −1 ,625 8
P ( X < 20) = P( Z < −1 ,625)
= P( Z <0) – P(–1,625
P( X < 20) = 5,21%
U programskoj potpori EXCEL-a binomna distribucija i pripadajuća funkcija distribucije određuju se na temelju opcija Insert ⇒ f x function ⇒ Statistical ⇒ BINOMDIST, i to za danu vrijednost varijable x i za parametre n i p. Ako se ne utvr đuje vrijednost kumulativne frekvencije , u odgovarajuće polje upiše se false.
36
Vježbe
Neka je X varijabla čije vrijednosti predočuju broj ishoda glava pri jednom bacanju triju pravilnih novčića 1.
a) Prikažite tabelarno distribuciju vrijednosti slučajne varijable X te pripadajuću funkciju distribucije b) Kolika je očekivana vrijednost slučajne varijable te varijanca, standardna devijacija i koeficijent varijacije? Zadana je binomna distribucija B(7; 0,5). Prikažite tabelarno njezine vrijednosti i pripadajuće vrijednosti funkcije distribucije. Odredite očekivanu vrijednost, varijancu, standardnu devijaciju, koeficijent asimetrije i koeficijent zaobljenosti distribucije. 2.
Slučajna varijabla pripada normalnoj distribuciji sa sredinom 100 i standardnom devijacijom 20. 3.
a) Izračunajte standardizirane vrijednosti z za ove vrijednosti varijable X : 90, 80, 40, 120, 140, 160, 125, 170. b) Odredite vjerojatnosti: P(80< X <120), P(60< X <140), P(40< X <160), P(40< X <125), P( X <170). Na burzi sadašnja cijena dionice tvrtke “Marina” iznosi 720 kuna. Prema predviđanjima brokera tijekom godine cijena dionice biti će normalno distribuirana varijabla sa sredinom µ = 700 kuna i standardnom devijacijom σ = 20 kuna. Pod pretpostavkom da je predviđanje točno, izračunajte vjerojatnost da za godinu dana cijena te dionice neće biti niža od sadašnje. 4.
Distribucija proizvoda prema težini normalna je oblika.15,87% proizvoda ima težinu manju od 27 grama, a 2,28 % proizvoda ima težinu veću od 36 grama. 5.
a) Kolika je aritmetička sredina distribucije, standardna devijacija i koeficijent varijacije? b) Kolika je vjerojatnost da je slučajno izabrani proizvod težak između 25,5 i 31,5 grama?
37
8.
METODA UZORAKA
Statističko istraživanje konačnih skupova s vrlo velikim brojem jedinica i beskonačnih skupova provodi se pomoću metode uzoraka. Pojava koja se želi ispitati tom metodom zove se populacija ili osnovni skup, a njezin dio koji se u tu svrhu ispituje zove se uzorak. Da bi zaključci na osnovi uzorka bili što točniji, uzorak mora biti reprezentativan. Osnovne zadaće metode uzoraka su: • procjenjivanje nepoznatih parametara • ispitivanje pretpostavki o parametrima, osobitostima jedne ili više populacija Parametar je brojčana karakteristika populacije. On je funkcija svih njezinih
vrijednosti. Procjenjuje li se parametar na temelju uzorka, funkcija vrijednosti uzorka naziva se procjeniteljem. Pomoću procjenitelja i vrijednosti iz uzorka parametar se procjenjuje brojem ili intervalom. Dobivene vrijednosti nazivaju se procjenama. S obzirom na način izbora jedinica u uzorak, razlikuje se namjerni uzorak od slučajnog uzorka. U namjerni uzorak izabiru se jedinice prema odluci istraživača (anketara). Među namjerne uzorke spadaju prigodni uzorak i kvotni uzorak. Slučajni uzorak izabire se tako da svaki član populacije ima vjerojatnost izbora u uzorak veću od nule. Slučajni uzorci iz konačnih skupova mogu biti: jednostavni slučajni uzorak, stratificirani uzorak i uzorak skupina. Kad se iz populacije od N elemenata izabire uzorak od n elemenata (n < N ) tako da svaki element ima jednaku vjerojatnost izbora, takav uzorak zove se jednostavni slučajni uzorak. Izbor jedinica u uzorak iz konačnog stvarnog skupa provodi se pomoću tablica slučajnih brojeva ili pomoću odgovarajućeg računalnog programa koji generira slučajne brojeve. Ponekad se primjenjuje sistemski izbor jedinica u uzorak. U tom slučaju izračunava se korak izbora: N / n, a zatim određuje slučajni početak. Kada u statističkim skupovima postoji znatan stupanj varijabilnosti obilježja jedinica tada se umjesto jednostavnog slučajnog uzorka primjenjuje stratificirani uzorak. Postupku izbora uzorka prethodi razvrstavanje elemenata osnovnog skupa u podskupove (stratume) koji se međusobno ne preklapaju. Dobiveni stratumi imaju manji stupanj varijabilnosti nego osnovni skup. Stratificirani uzorak nastaje slučajnim izborom elemenata osnovnog skupa iz stratuma. Kod istraživanja beskonačnih skupova za primjenu metode uzoraka u njihovu ispitivanju potrebno je poznavati oblik i svojstva distribucije populacije. 38
Sampling-distribucija je teorijska distribucija vjerojatnosti procjenitelja parametra.
Svaka sampling-distribucija izvire iz koncepta ponovljenih izbora slučajnih uzoraka iz danog osnovnog skupa. Kako je procjenitelj parametra funkcija uzorka, različiti uzorci dovode do različitih vrijednosti procjena. Prema tome, procjenitelj je varijabla koja se naziva sampling-varijablom zato što se mijenja od uzorka do uzorka. Sampling-varijabla je slučajna varijabla jer se uzorci izabiru tako da svaka jedinica, odnosno uzorak ima određenu vjerojatnost izbora. Za sampling-distribuciju je važno kakva je oblika i koja su joj statistička svojstva (očekivana vrijednost, standardna devijacija i sl.)
a)
Sampling-distribucija aritmetičkih sredina
Ako je slučajni uzorak veličine n izabran iz normalno distribuiranog osnovnog skupa sa sredinom µ i standardnom devijacijom σ , aritmetička sredina uzorka X slučajna je varijabla koja se ravna po normalnoj distribuciji s očekivanom vrijednosti µ i standardnom devijacijom σ X . Standardna devijacija sampling-distribucije sredina σ X još se naziva standardnom greškom sredine. •
Ako je slučajan uzorak veličine n > 30 izabran iz normalno distribuiranog osnovnog skupa sa sredinom µ i standardnom devijacijom σ , aritmetička sredina uzorka X slučajna je varijabla koja se približno ravna po normalnoj distribuciji N X ,σ x •
Standardizirana varijabla
Z =
X − µ
σ X
je slučajna varijabla raspoređena po jediničnoj
normalnoj distribuciji. •
Ako je slučajni uzorak veličine n
≤ 30
izabran iz normalno distribuiranog osnovnog
skupa a sredinom µ i standardnom devijacijom σ , varijabla
t =
X − µ
σ X
slučajna je
varijabla koja pripada Studentovoj (t) distribuciji s (n − 1) stupnjem slobode U tablici t -distribucije u predstupcu je naveden broj stupnjeva slobode od 1 do 29. Broj
stupnjeva slobode ( ν, df , ss) jednog pokazatelja definira se kao broj neovisnih opažanja n umanjen za broj k parametara potrebnih da bi se odredio dani pokazatelj, tj. ν = df = n - k . U zaglavlju tablice označene su vjerojatnosti 0,1; 0,05; 0,025; 0,01 i 0,005. U brojčanom dijelu tablice nalaze se kritične vrijednosti koje će t premašiti za broj stupnjeva slobode koji se očitava u istom retku s vjerojatnošću označenom u zaglavlju za isti stupac. Primjerice, za 10 stupnjeva slobode postoji vjerojatnost 0,1 da će t premašiti 1,372. Budući da je Studentova distribucija simetrična to je ista vjerojatnost, tj. 0,1 da će t biti manje od –1,372, ili vjerojatnost je 0,8 da će se t nalaziti između –1,372 i +1,372. Isto tako za 20 stupnjeva slobode vjerojatnost je 0,95 da će se t nalaziti između ± 2,086.
39
b)
Sampling-distribucija proporcija
Sampling-distribucija proporcija pˆ za dovoljno velik uzorak približno je normalna oblika, s očekivanom vrijednosti p i standardnom devijacijom (standardnom greškom procjene) ˆ = m / n . Uzorak je velik ako ispunjava σ pˆ . Procjenitelj proporcije osnovnog skupa je p ove uvjete: np ≥5 ili nq ≥5 .
c)
Sampling-distribucija varijanci
Ako slučajni uzorak potječe iz normalno distribuiranog osnovnog skupa, samplingdistribucija varijanci σ ˆ 2 ima oblik χ 2- distribucije s (n − 1) stupnjem slobode. Procjenitelj varijance osnovnog skupa je
ˆ 2 = σ
1 n −1
n
2 ∑( X i − x ) i =1
Očekivana vrijednost navedenog procjenitelja jednaka je varijanci osnovnog skupa. U tablici χ 2 – distribucije (hi-kvadrat) u predstupcu je naveden broj stupnjeva slobode od
1 do 30. U zaglavlju su označene vjerojatnosti od 0,995 do 0,005. U brojčanom dijelu tablice nalaze se kritične vrijednosti koje će hi-kvadrat premašiti za broj stupnjeva slobode koji se očitava u istom retku s vjerojatnošću označenom u zaglavlju za isti stupac. Primjerice, za 10 stupnjeva slobode postoji vjerojatnost 0,1 da će hi-kvadrat premašiti 15,9871. Primjer 8.1
Numerička varijabla X broj je jednakih proizvoda koje je nabavilo četvero potrošača. Njezine su vrijednosti 2, 4, 5, 9 i one čine osnovni skup. Svaki element skupa, odnosno svaki uzorak veličine n = 2, ima jednaku vjerojatnost izbora. a) Izračunajte aritmetičku sredinu i standardnu devijaciju osnovnog skupa. b) Navedite sve moguće uzorke veličine 2 iz navedenog skupa. Pretpostavite da se izbor provodi s ponavljanjem. Za svaki uzorak izračunajte aritmetičku sredinu. Uredite vrijednosti aritmetičkih sredina uzoraka, tj. formirajte sampling-distribuciju uzoraka. c) Za dobivenu sampling-distribuciju odredite očekivanu vrijednost i standardnu devijaciju d) Čemu je jednaka očekivana vrijednost sampling-distribucije sredina?
Provodi li se izbor uzoraka sredina dana je izrazom σ x =
s ponavljanjem ,
σ n
standardna devijacija sampling-distribucije
. Koristeći se ovim izrazom provjerite točnost izračunane
standardne devijacije sampling distribucije sredina.
40
1 xi = (2 + 4 + 5 + 9) = 5 ∑ 4 N i =1 1 N 26 2 2 σ = ∑( xi − µ ) = = 6 ,5 N i =1 4
a) µ =
1
N
σ =
6 ,5 = 2,54951
b) mogući uzorci veličine n = 2 s ponavljanjem i njihove pripadajuće sredine: Vrijednosti varijable elemenata u uzorku 2,2 2,4 4,2 2,5 5,2 2,9 9,2 4,4 4,5 5,4 4,9 9,4 5,5 5,9 9,5 9,9
Aritmetičke sredine uzoraka x i 2 3 3 3,5 3,5 5,5 5,5 4 4,5 4,5 6,5 6,5 5 7 7 9
Broj mogućih uzoraka s ponavljanjem je 16. Budući da je vjerojatnost izbora svakoga slučajnog uzorka veličine n = 2 jednaka, iznosi 1/16 (= 0,0625) Sampling distribucija uzoraka je: Aritmeti čke sredine uzoraka x i
p ( x i )
2 3 3,5 4 4,5 5 5,5 6,5 7 9
0,0625 0,1250 0,1250 0,0625 0,1250 0,0625 0,1250 0,1250 0,1250 0,0625
41
c) 2
x i
p ( x i )
x i × p ( x i )
p ( x i )× ( x i - µ )
2 3 3,5 4 4,5 5 5,5 6,5 7 9 Ukupno
0,0625 0,1250 0,1250 0,0625 0,1250 0,0625 0,1250 0,1250 0,1250 0,0625 1,0000
0,1250 0,3750 0,4375 0,2500 0,5625 0,3125 0,6875 0,8125 0,8750 0,5625 5,0000
0,5625 0,5000 0,2813 0,0625 0,0313 0,0000 0,0313 0,2813 0,5000 1,0000 3,2500
Očekivana vrijednost sampling distribucije je: 10
( ) ∑ x 1
E X =
i
× p( xi ) = 5 = µ
i=
Varijanca i standardna devijacija sampling-distribucije sredina jesu:
[
2
]
10
σ x = E ( X − µ ) = ∑ p( xi ) × ( xi − µ ) = 3,25 2
2
σ x = 3 ,25 = 1,80278
i =1
d)
Standardna devijacija osnovnog skupa je σ = 2,54951
Standardna devijacija sampling distribucije sredina je:
σ x =
σ
2 ,54951 = 1,80278 2
=
n
što je u skladu s rezultatom dobivenim pomoću sampling-distribucije.
Standardna devijacija sampling distribucije predočuje mjeru disperzije aritmetičkih
sredina uzoraka u odnosu prema aritmetičkoj sredini populacije i naziva se standardnom greškom aritmetičke sredine. Standardna devijacija sampling-distribucije sredina uzoraka izabranih bez ponavljanja , dana je izrazom σ x =
Faktor
N − n N − 1
σ n
×
N − n N − 1
u izrazu za standardnu grešku procjene naziva se faktorom korekcije za
konačne osnovne skupove. Jednak je jedan za beskonačne skupove, aproksimativno je
jedan kad je f < 0,05 . Veličina f naziva se frakcijom izbora
f =
n N
.
42
Primjer 8.2
Populacija ima aritmetičku sredinu 200 i standardnu devijaciju 25. Kolika je vjerojatnost da se aritmetička sredina slučajnog uzorka od 100 elemenata nađe između: a) 195 i 205 b) 197,5 i 202,5?
a) n = 100,
Sampling-distribucija aritmetičkih sredina uzoraka je približno normalna sa σ 25 sredinom µ = 200 i standardnom greškom σ x = = = 2 ,5 n 100 195 − µ X − µ 205 − µ = P(− 2 < Z < 2) = 0,9544 P (195 < X < 205 ) = P < < σ x
σ x
σ x
197,5 − µ X − µ 202,5 − µ = P(− 1 < Z < 1) = 0,6826 b) P(197,5 < X < 202,5) = P < < σ σ x σ x x
Vježbe
Osnovni skup sastoji se od podataka o radnom stažu devetoro zaposlenih. Njihov je rani staž izražen u godinama: 1.
Zaposleni: Radni staž:
A 10
B 8
C 7
D 6
E 5
F 4
G 4
H 2
I 2
a) Izračunajte aritmetičku sredinu i standardnu devijaciju osnovnog skupa. b) Izaberite iz osnovnog skupa bez ponavljanja sve uzorke veličine n = 2. Formirajte sampling-distribuciju aritmetičkih sredina. Odredite očekivanu vrijednost i standardnu devijaciju (standardnu grešku) distribucije. Standardnu grešku izračunajte izravno, primjenom odgovarajuće formule. c) Ponovite postupak (b) za n = 3 i n = 4. d) Dobivene sampling-distribucije (b) i (c) usporedite linijskim grafikonom. 2.
a) b) c) d) e)
Osnovni skup sastoji se od ovih šest vrijednosti xi: 3, 4, 5, 6, 9, 12 Izračunajte varijancu osnovnog skupa Formirajte moguće uzorke bez ponavljanja n = 3. Za svaku uzorak odredite vrijednost varijance Kako glasi sampling-distribucija varijanci (svaki uzorak ima jednaku vjerojatnost izbora) Odredite očekivanu vrijednost sampling distribucije varijanci. Usporedite tu veličinu s varijancom osnovnog skupa utvrđenom pod (a) n N − 1 Korigirajte varijance uzoraka faktorom , a zatim izračunajte očekivanu ⋅ n − 1 N vrijednost sampling-distribucije varijanci. 43
9.
PROCJENA PARAMATARA
Procjenjivanje nepoznatih parametara temelji se na podacima koji tvore slučajni uzorak i na uporabi odgovarajućeg procjenitelja (estimator). Parametar se procjenjuje brojem i intervalom. Primjena procjenitelja na podacima iz uzorka dovodi do procjene (statistic, estimate). Procjenjivanje intervalom sastoji se u određivanju granica raspona varijacije u kojemu se prema nekom kriteriju očekuje da će se naći nepoznati parametar.
9.1. Procjena aritmetičke sredine Podloga za procjenjivanje aritmetičke sredine osnovnog skupa ( µ ) je slučajni uzorak veličine n članova te odgovarajuća funkcija vrijednosti iz uzorka (procjenitelj). Ako je ( x1, x2, …, xn) slučajni uzorak, procjenitelj aritmetičke sredine osnovnog skupa µ brojem je aritmetička sredina uzorka, tj. ˆ = x , µ
x =
1 n
n
∑1 x
i
i=
Kad je uzorak izabran iz normalno distribuiranog osnovnog skupa s nepoznatom sredinom i nepoznatom standardnom devijacijom, sampling-distribucija sredina uzoraka ravna se po normalnoj distribuciji, tj. x ~ N µ ,σ x 2 ). Ako je uzorak dovoljno velik ( n > 30) samplingdistribucija sredina približno je normalna oblika. Iz svojstva normalne distribucije slijedi: P x − z α / 2σ x < µ < x + z α / 2σ x ) = (1 − α )
gdje je P oznaka za vjerojatnost, x je aritmetička sredina uzorka, zα / 2 je koeficijent pouzdanosti i ovisi o razini pouzdanosti. σ x je standardna greška procjene sredine (standardna devijacija sampling distribucije). L1 = x − z α / 2σ x je donja granica intervala pouzdanosti (povjerenja), a L2 = x + z α / 2σ x gornja granica intervala pouzdanosti procjene aritmetičke sredine. Interval se tumači: s vjerojatnošću 100 (1–α ) % očekuje se da će se između navedenih granica naći nepoznata aritmetička sredina osnovnog skupa. ·
44
Procjenjuje li se aritmetička sredina samo brojem, nije moguće donijeti sud o preciznosti procjene niti zaključivati o razini pouzdanosti s kojom se ona može upotrijebiti. Preciznost procjene uočava se samo ako se primjenjuje intervalni procjenitelj. Ona se očituje, za danu razinu pouzdanosti, na udaljenosti granica (tj. na širini intervala). Što je interval procjene uži to je preciznost procjene veća. Ako je x aritmetička sredina malog slučajnog uzorka ( n ≤ 30) uzorka izabranog iz normalno distribuiranog osnovnog skupa N ( µ ,σ 2 ) s nepoznatom standardnom devijacijom i nepoznatom aritmetičkom sredinom, interval pouzdanosti za aritmetičku sredinu osnovnog skupa na odabranoj razini pouzdanosti je: P x − t α / 2σ x < µ < x + t α / 2σ x = (1 − α )
Interval izvire iz oblika sampling-distribucije sredina malih uzoraka koja ima oblik Studentove distribucije. Koeficijent pouzdanosti t određuje se pomoću Studentove distribucije prema broju stupnjeva slobode ( n – 1) i za vjerojatnost α / 2 . Primjer 9.1
Intervalni je procjenitelj aritmetičke sredine osnovnog skupa velikim slučajnim uzorkom P x − z α / 2σ x < µ < x + z α / 2σ x = (1 − α ) . a) Koliki je koeficijent pouzdanosti zα / 2 ako (1 − α ) iznosi 0,95. Skicirajte postupak određivanja koeficijenta. b) Uz koju se razinu pouzdanosti provodi postupak intervalne procjene aritmetičke sredine osnovnog skupa pomoću velikog uzorka, ako je koeficijent pouzdanosti 2,17.
a) Procjena je na razini 95%. Koeficijent pouzdanosti je (1 − α ) = 0,95 ; α = 0,05; α /2 = 0,025
= z 0 ,025 . Površina između 0 i z jest: 0,5 – 0,025 = 0,4750 U tablici toj površini pripada vrijednost varijable z = 1,96 pa je z 0 ,025 = 1 ,96 . zα / 2
/2 α
= 0,025
0,475
Z0,025=-1,96
0,475
0
/2 α
= 0,025
Z0,025=1,96
b) zα / 2 = 2 ,17 . Pripadajuća je površina 0,4850. Razina pouzdanosti je: α /2 = 0,5 – 0,4850 = 0,0150; α = 0,03; (1 − α ) = 0,97 ili 97%. Primjer 9.2
Odredite vrijednosti standardne greške procjene aritmetičke sredine osnovnog skupa:
45
a) procjenjuje se sredina konačnog skupa od 125.768 članova pomoću slučajnog izbora veličine 1.250 članova. Standardna devijacija skupa iznosi 64. b) Procjenjuje se sredina konačnog skupa pomoću slučajnog uzorka veličine 600 formiranog izborom svakog 10. člana skupa. Varijanca skupa iznosi 100.
a) N = 125768; σ = 64;
n = 1250;
f =
=
f < 0,05
σ
σ x =
b)
1250 = 0 ,0099 N 125768 n
N
n = 600;
σ 2 = 100 ;
n
N
=
600
64 = 1 ,81019 1250
=
n
= 10 ;
N = 6000;
f =
n N
= 0 ,1 ;
f > 0,05
σ = 10 .
σ x =
σ n
×
N − n N − 1
10 6000 − 600 = 0 ,38733 6000 1 − 600
=
Primjer 9.3
Ispituje se prosje čno trajanje pozivnih telefonskih razgovora preko telefonske centrale jednog poduzeća. Trajanje (u minutama) 10 slu čajno odabranih razgovora iz evidencije od 8967 razgovora bilo je sljede će: xi:
2
1
1
2
3
4
2
1
1
3
Pretpostavlja se da je trajanje pozivnih razgovora na centrali normalno distribuirano s nepoznatom aritmeti čkom sredinom i nepoznatom standardnom devijacijom. Odredite granice u kojima se može očekivati da obuhva ćaju prosječno trajanje razgovora za osnovni skup. Pouzdanost je procjene: 95% i 90%. N = 8967;
n =10;
Aritmeti čka sredina uzorka:
f = x =
1
10 = 0,0011 N 8967 n
n
∑ x n11
i
=
=
=
f < 0,05
20 = 2 minute 10
Procjenitelj varijance i standardne devijacije osnovnog skupa: n
ˆ 2 = σ
2 ∑( xi − x ) i =1
n −1
=
10 , 9
ˆ = σ
10 10 = 9 3
46
10 ˆ 1 σ Standardna greška procjene aritmetičke sredine osnovnog skupa: σ x = = 3 = n 10 3 Za uzorak n ≤ 30 izabran iz normalno distribuiranog osnovnog skupa interval procjene s pouzdanosti 100(1-α ) u općem obliku je: ·
P x − t α / 2σ x < µ < x + t α / 2σ x = (1 − α )
Koeficijent pouzdanosti t određuje se pomoću tablica t distribucije. Za pouzdanost procjene 95%: (1-α ) = 0,95;
α = 0,05;
α /2 = 0,025;
n =10;
df = 9;
t 0 ,025 (9) = 2 ,262
95%-tni interval pouzdanosti procjene prosječnog trajanja razgovora osnovnog skupa iznosi:
P 2 − 2,262 ⋅
1 1 < µ < 2 + 2,262 ⋅ = 0,95 3 3
P(1 ,246 < µ < 2 ,754) = 0 ,95
Za pouzdanost procjene 90% koeficijent pouzdanosti je t 0 ,05 (9) = 1 ,833 pa je interval procjene:
1 1 < µ < 2 + 1,833 ⋅ = 0,90 3 3 P (1 ,389 < µ < 2 ,611) = 0 ,90
P 2 − 1,833 ⋅
U programskoj potpori EXCEL-a (Tools ⇒ Data Analysis ⇒ Descriptive Statistics) dio ispisa je: Trajanje pozivnih razgovora Mean Standard Error Standard Deviation Sample Variance Confidence Level (95,0%)
2 0,333333333 1,054092553 1,111111111 0,754052386
[Napomena: U navedenom ispisu Standard Error jest standardna greška, Standard Deviation je procjena standardne devijacije, Sample Variance je procjena varijance populacije, Confidence Level (95%) je greška procjene na razini 95% pouzdanosti (umnožak koeficijenta pouzdanosti i standardne greške procjene)]
Određivanje veličine uzorka Kod sampling-distribucije sredina x ~ N µ ,σ x 2 ), planirana veličina greške koja se tolerira d =[ µ + zα / 2σ x ] − µ , pri procjeni je: d = zα / 2σ x 47
Ako se uzorak izabire iz beskonačnog osnovnog skupa na razini pouzdanosti 100(1-α ) % i utvrđena je greška procjene d , tada je izraz za određivanje veličine uzorka: ·
d = zα / 2
σ n
,
z σ n = α / 2 d
2
Ako se slučajni uzorak izabire iz konačnog osnovnog skupa i frakciji izbora je manja od 5% za izračun veličine uzorka koristi se gornji izraz. Ako je frakcija zbora veća od 5% koristi se faktor korekcije, pa je veličina uzorka izračunana gornjim izrazom tek prethodni rezultat koji se označava sa:
z σ n0 = α / 2 d
Konačna veličina uzorka dobiva se izrazom:
n=
2
n0 , n0 1+ N
9.2. Procjena totala osnovnog skupa Total T je zbroj vrijednosti numeričke varijable konačnog osnovnog skupa. Taj parametar povezan je s aritmetičkom sredinom osnovnog skupa, µ . Ako konačni skup ima N članova, tada je T = N µ . Procjenitelj totala osnovnog skupa pomoću slučajnog uzorka brojem je: Standardna greška procjene totala osnovnog skupa je:
ˆ = N x . T
σ T ˆ = N σ x
Intervalna procjena totala konačnog osnovnog skupa na odabranoj razini pouzdanosti je:
(
)
ˆ − z σ < T < T ˆ + z σ = (1 − α ) , P T ˆ ˆ α / 2 T α / 2 T
σ T ˆ = N σ x
9.3. Procjena proporcije osnovnog skupa Proporcija konačnog osnovnog skupa je parametar koji predočuje omjer članova skupa s određenim oblikom obilježja M i opsega skupa N , odnosno p = M / N . Procjenitelj proporcije osnovnog skupa brojem je:
ˆ = m / n p
48
gdje je m broj članova uzorka s određenim oblikom obilježja, a n veličina uzorka. Ako slučajni uzorak veličine n potječe iz beskonačnog skupa, sampling-distribucija je oblika binomne distribucije s ovim svojstvima: ˆ ] = p, E [ p
σ pˆ =
pq n
σ pˆ =
ˆ q ˆ p n −1
Sampling-distribucija proporcija svih uzoraka veličine n približno ima oblik normalne distribucije ako je n > 30. Očekivana vrijednost te sampling-distribucije je proporcija osnovnog skupa p, a standardna greška procjene σ pˆ . Intervalna procjena proporcije osnovnog skupa na odabranoj razini pouzdanosti je: ˆ − z α / 2σ pˆ < p < p ˆ + z α / 2σ pˆ = (1 − α ) P p
gdje je pˆ procjena proporcije brojem (odnosno proporcija uzorka), pouzdanosti procjene, σ pˆ je standardna greška procjene proporcije.
zα / 2
je koeficijent
Interval se tumači: s vjerojatnošću 100 (1-α ) % očekuje se da će se proporcija osnovnog skupa naći između izračunanih granica. ·
Granice intervala procjene proporcije osnovnog skupa pomoću dovoljno velikog uzorka izabranog iz konačnog skupa bez ponavljanja izračunavaju se na isti način kao kod procjene pomoću uzorka iz beskonačnog osnovnog skupa. Razlika se pojavljuje pri računanju standardne greške procjene proporcije. Za veliki uzorak izabran iz konačnog osnovnog skupa uz f >0,05 standardna greška procjene proporcije je: σ pˆ =
ˆ qˆ N − n p
n − 1 N − 1
Primjer 9.4
Ispituje se raspoloženje birača prema kandidatu stranke. U biračkom popisu navedeno je 6000 građana. Iz popisa je slučajnim izborom izabrano 196 birača, od kojih je njih 138 izjavilo da će glasovati za kandidata stranke na predstojećim izborima. a) Procijenite proporciju osnovnog skupa brojem b) Izračunajte granice u kojima se može očekivati proporcija svih birača kandidata stranke na predstojećim izborima.razina pouzdanosti je 90%.
138 = 0 ,70408 n 196 Procjena proporcije birača u osnovnom skupu za kandidata stranke iznosi 0,70408, tj. 70,4%.
a) n =196,
m =138
ˆ = p
m
=
49
b) Interval pouzdanosti procjene proporcije osnovnog skupa: ˆ − z α / 2σ pˆ < p < p ˆ + z α / 2σ pˆ = (1 − α ) P p
196 = 0 ,03267 < 0,05 N 6000 = 1 ,64 i standardna greška procjene
Osnovni skup je konačan ( N = 6000), frakcija odabira je f = Razina pouzdanosti je 90%, koeficijent pouzdanosti z 0 ,05 proporcije je σ pˆ =
ˆ qˆ p n −1
=
n
=
0 ,70408 × 0 ,29592 = 0 ,03269 196 − 1
P(0,70408 − 1,64 × 0 ,03269 < p < 0 ,70408 + 1 ,64 × 0 ,03269) = 0 ,90
Interval procjene je:
P (0 ,65047 < p < 0 ,75769) = 0 ,90
Zaključak: na razini pouzdanosti od 90% može se očekivati da će za navedenog kandidata glasovati između 65,05% i 75,77% biračkog tijela.
Određivanje veličine uzorka Kod sampling-distribucije proporcija pˆ ~ N µ ,σ pˆ 2 , planirana veličina greške koja se d = [ p + z α / 2σ pˆ ] − p , tolerira pri procjeni je: d = zα / 2σ pˆ Ako se uzorak izabire iz beskonačnog osnovnog skupa na razini pouzdanosti 100(1-α ) % i utvrđena je greška procjene d , tada je izraz za određivanje veličine uzorka: ·
d = zα / 2
pq n
,
zα / 2 pq n= d
2
Ako se slučajni uzorak izabire iz konačnog osnovnog skupa i frakciji izbora je manja od 5% za izračun veličine uzorka koristi se gornji izraz. Ako je frakcija zbora veća od 5% koristi se faktor korekcije, pa je veličina uzorka izračunana gornjim izrazom tek prethodni rezultat
n0 . Konačna veličina uzorka dobiva se izrazom:
n=
n0 n 1+ 0 N
9.4. Procjena varijance (standardne devijacije) osnovnog skupa Varijanca, odnosno standardna devijacija najvažnija je mjera disperzije. Ona upućuje na stupanj varijabilnosti numeričke varijable. Ako su na raspolaganju vrijednosti numeričke varijable iz uzorka, varijanca osnovnog skupa procjenjuje se brojem ili intervalom. 50
Nepristrani procjenitelj varijance osnovnog skupa brojem pomoću vrijednosti iz slučajnog uzorka dan je izrazom: n
ˆ 2 = σ
∑1 ( x
2
i
− x )
i=
n −1
Ako su podaci iz uzorka grupirani, vrijednosti xi ponderiraju se frekvencijama f i. ˆ = σ ˆ 2 σ Procjenitelj standardne devijacije brojem je: Sampling-distribucija varijanci ima oblik χ 2 -distribucije. Intervalna procjena varijance osnovnog skupa na odabranoj razini pouzdanosti : (n − 1)σ ˆ 2 (n − 1)σ ˆ 2 2 < σ < 2 = (1 − α ) P χ α 2 / 2;n 1 χ (1−α / 2 );n −1 −
a intervalna procjena standardne devijacije: (n − 1) ⋅ σ ˆ (n − 1) ⋅ σ ˆ P < σ < = (1 − α ) 2 2 χ (1−α / 2 );n −1 χ α / 2;n −1
Kod velikih uzoraka gdje je n ≥ 100, sampling distribucija varijanci približno je normalna oblika, pa se granice intervala mogu definirati pomoću te distribucije.
Vježbe
Odredite vrijednost koeficijenta pouzdanosti za intervalnu procjenu aritmetičke sredine osnovnog skupa pomoću velikog uzorka i ove razine pouzdanosti: 1.
(1-α )
0,80
0,90
0,94
0,96
0,98
0,99
Izračunajte vrijednost standardne greške procjene aritmetičke sredine osnovnog skupa ako su zadani ovi uvjeti: a) Uzorak 64 člana bira se iz konačnog osnovnog skupa od 1000 članova sa standardnom devijacijom 9. b) Standardna devijacija osnovnog skupa iznosi 10, izabire se uzorak 20 članova uz interval izbora 250. c) Uzorak veličine n = 100 izabire se iz normalno distribuiranog beskonačnog osnovnog skupa N (µ ,10 2 ) . 2.
51
Brodarska tvrtka ispituje učestalost otkaza rezervacija na cruiser-ima. Na slučajan način izabrano je 36 dana jednog razdoblja: Na temelju informacija u računalnom sustavu tvrtke utvrđen je broj otkaza rezervacija u danima izabranim u uzorak. Podaci iz uzorka su sljedeći: 3.
Broj otkaza, xi Broj dana, f i
0 6
1 11
2 7
3 5
4 3
5 2
6 2
a) Procijenite brojem prosječan broj otkaza rezervacija na cruiser-ima b) Odredite granice 95%-tnog intervala procjene aritmetičke sredine. Ispituje se prosječna vrijednost mjesečnih računa korisnika kartice lanca supermarketa. Pomoću odgovarajućeg programa za računalo izabran je slučajni uzorak računa ispostavljenih za listopad 2011. Na temelju podataka iz uzorka formirana je ova distribucija frekvencija: 4.
Vrijednost (u kn) Broj računa
100-150 69
150-200 37
200-250 40
250-500 32
500-1000 18
a) Izračunajte aritmetičku sredinu uzorka. b) Odredite granice 95%-tnog intervala procjene aritmetičke sredine skupa. Kolika je procjena proporcije osnovnog skupa brojem i koje su granice intervala procjene proporcije osnovnog skupa ako su zadane ove veličine: a) n = 2500; pˆ = 0,4; (1−α ) = 0,94; osnovni skup beskonačan b) n = 1341; pˆ = 0,65; (1−α ) = 0,94; N = 16431 c) n = 864; pˆ = 0,4; (1−α ) = 0,95; f < 0,05 5.
U slučajnom uzorku 300 vozača na cesti prvog reda između dva grada ustanovljeno je da njih 175 neispravno upotrebljava svjetla u tijeku noćne vožnje. a) Kolika je procjena proporcije vozača koji se neispravno koriste svjetlima u tijeku noćne vožnje između dva grada? b) Odredite granice pripadajućeg intervala procjene proporcije osnovnog skupa. Razina je pouzdanosti 90%. 6.
Kolika je vrijednost procjene standardne devijacije i koje su granice intervala procjene standardne devijacije osnovnog skupa za ove slučajeve: ˆ = 35,75 a) n = 29; (1−α ) = 0,95; σ ˆ = 260,6 b) n = 20; (1−α ) = 0,99; σ 7.
U slučajni uzorak izabrana su 64 studenta. Izmjerena je njihova visina. Prosječno odstupanje od prosječne visine studenata u uzorku iznosi 2,5 cm. Odredite granice 95%-tnog intervala procjene standardne devijacije osnovnog skupa. Koje bi granice bile kad bi uzorak bio veličine 25? 8.
52
10. TESTIRANJE HIPOTEZA O PARAMATARU Statistička hipoteza je tvrdnja o veličini parametra čija se vjerodostojnost ispituje pomoću slučajnog uzorka. Postupak kojim se donosi odluka o prihvaćanju ili neprihvaćanju tvrdnje naziva se testiranjem statističkih hipoteza . Svaki postupak testiranja polazi od nulte hipoteze i alternativne hipoteze. Sadržaj alternativne hipoteze uvijek proturječi sadržaju nulte hipoteze. Odluka o prihvaćanju ili neprihvaćanju nulte hipoteze donosi se na temelju vrijednosti iz slučajnog uzorka pa sud koji proizlazi iz nje nije kategoričan. U postupku odlučivanja mogu se pojaviti: greška tipa I (kada se odbaci istinita nulta hipoteza) i greška tipa II (kada se prihvati lažna nulta hipoteza).
Odluka Prihvatiti nultu hipotezu Odbaciti nultu hipotezu
Nulta hipoteza je istinita odluka ispravna greška tipa I
lažna greška tipa II odluka ispravna
Vjerojatnost odbacivanja istinite nulte hipoteze (greška tipa I) označava se s α α i naziva se razinom signifikantnosti (značajnosti). Vjerojatnost prihvaćanja lažna nulte hipoteze (greška tipa II) označava se s β β β. Vjerojatnost odbacivanja lažne nulte hipoteze ( 1 − β ) naziva se snagom statističkog testa .
10.1. Testiranje hipoteze o aritmetičkoj sredini osnovnog skupa Testiranje hipoteze o pretpostavljenoj vrijednosti aritmetičke sredine osnovnog skupa provodi se pomoću slučajnog uzorka veličine n članova. Ako je uzorak velik (n > 30) test je pomoću velikog uzorka (z–test). Kad je uzorak malen ( n ≤ 30) test je pomoću malog uzorka (t-test). Postupak testiranja je : • određivanje sadržaja nulte i alternativne hipoteze • identificiranje izraza za testnu veličinu i izračunavanje njezine vrijednosti • odabir razine signifikantnosti i određivanje kritičnih granica (granice) koje dijele područje prihvaćanja nulte hipoteze od područja njezina odbacivanja • donošenje zaključka o ishodu testa. 53
Test o aritmetičkoj sredini osnovnog skupa može biti dvosmjeran ( na dvije granice) ili jednosmjeran (na gornju ili na donju granicu). Temelj testa je sampling-distribucija sredina. Ako je nulta hipoteza istinita i ako uzorak ima više od 30 članova, samplingdistribucija sredina uzoraka približno je oblika normalne distribucije, tj. x ~ N ( µ ,σ x 2 ), bez obzira kako je raspoređen osnovni skup. Nepoznata je aritmetička sredina osnovnog skupa µ , a njezina je pretpostavljena veličina µ 0 . Vrsta testa dvosmjeran jednosmjeran, na gornju granicu jednosmjeran, na donju granicu
Nulta hipoteza H 0 H 0 H 0
Alternativna hipoteza
µ = µ 0
H 1
µ ≤ µ 0
H 1
µ ≥ µ 0
H 1
K
K
K
µ ≠ µ 0
Područje prihvaćanja nulte hipoteze | z| < zα / 2
Područje odbacivanja nulte hipoteze | z| > zα / 2
µ > µ 0
z < zα
z > zα
µ < µ 0
z > − zα
z < − zα
K
K
K
Test-veličina je empirijski z-omjer: z =
x − µ 0
σ x
gdje je x aritmetička sredina uzorka, µ 0 je pretpostavljena vrijednost aritmetičke sredine osnovnog skupa, σ x je standardna greška (tj. standardna devijacija samplingdistribucije sredina). Odluka o prihvaćanju ili odbacivanju nulte hipoteze donosi se usporedbom test-veličine z s teorijskom vrijednošću koeficijenta signifikantnosti, koji ovisi o vjerojatnosti α a određuje se pomoću površina ispod normalne krivulje. Odluka se donosi alternativno pomoću kritičnih granica izraženih u mjernim jedinicama varijable. Za dvosmjeran test kritične granice prihvaćanja nulte hipoteze su: c1 = µ 0 − z α / 2σ x ,
c2
= µ 0 + zα / 2σ x
Nađe li se aritmetička sredina uzorka između navedenih granica, prihvatit će se nulta hipoteza. Ako je aritmetička sredina uzorka manja od donje ili veća od gornje kritične granice, odbacuje se nulta hipoteza na razini signifikantnosti α .. Kod jednosmjernog testa na gornju granicu (test na desnoj strani) kritična granica je c 2 = µ 0 + zα σ x . Nulta hipoteza se prihvaća kao istinita ako je aritmetička sredina uzorka manja od kritične vrijednosti, a odbacuje se ako je veća od te granice. Odluka o jednosmjernom testu na donju granicu (test na lijevoj strani) donosi se pomoću granice c1 = µ 0 − z α σ x . Aritmetička sredina uzorka veća od donje granice upućuje na prihvaćanje 54
nulte hipoteze, a vrijednost sredine manja od donje kritične granice na njezino odbacivanje. Kad se testiranje hipoteze o pretpostavljenoj aritmetičkoj sredini osnovnog skupa temelji na Studentovoj distribuciji kao sampling-distribuciji sredina, test veličina je empirijski t-omjer: t =
x − µ 0
σ x
Ako je nulta hipoteza istinita, test-veličina pripada Studentovoj (t) distribuciji s ( n − 1) stupnjem slobode. Oblici hipoteza i način odlučivanja prikazani su u tabeli. Nulta hipoteza
Vrsta testa dvosmjeran jednosmjeran, na gornju granicu jednosmjeran, na donju granicu
H 0
µ = µ 0
H 1
µ ≤ µ 0
H 1
µ ≥ µ 0
H 1
K
H 0
K
H 0
Alternativna hipoteza
K
µ ≠ µ 0
Područje prihvaćanja nulte hipoteze | t | < t α / 2
Područje odbacivanja nulte hipoteze |t | > t α / 2
µ > µ 0
t < t α
t > t α
µ < µ 0
t > t α
t < t α
K
K
K
Primjer 10.1
Odredite koeficijent signifikantnosti za test o pretpostavljenoj vrijednosti aritmetičke sredine osnovnog skupa pomoću slučajnog uzorka ako je: a) test dvosmjeran, n = 231, α = 0,01; 0,05 i 0,10 b) test jednosmjeran, n = 852, α = 0,05 c) test je dvosmjeran, uzorak 24 člana izabran je iz normalno distribuiranog osnovnog skupa s nepoznatom standardnom devijacijom, razina signifikantnosti 5%. Kolika bi bila vrijednost koeficijenta ako bi test bio jednosmjeran? a) n > 30
b) α = 0,05
α = 0,01
zα / 2 = z 0,005 = 2,58
α = 0,05
zα / 2 = z 0,025 = 1,96
α = 0,10
zα / 2 = z 0,05 = 1,65
na desnom kraku: zα = z 0 ,05 = 1 ,65
c) α = 0,05; n < 30 (t-distribucija) Za jednosmjeran test: t α = t 0,05
ili na lijevom kraku: − z 0 ,05 = −1 ,65
df = n − 1 = 24 − 1 = 23 df = 23
t 0 ,05 = 1,714
t α / 2
= t 0 ,025 = 2 ,069 − t 0, 05 = −1,714
Primjer 10.2
Zadani su ovi uvjeti za provo đenje testova o pretpostavljenoj sredini osnovnog skupa: 55
a) H 0 µ = µ 0 ; H 1 µ ≠ µ 0 ; µ 0 = 500 ; σ = 49 ; n = 441 ; osnovni skup beskonačan; α = 0 ,05 ˆ = 196 ; n = 784 ; f < 0 ,05 ; α = 0 ,05 b) H 0 µ ≤ µ 0 ; H 1 µ > µ 0 ; µ 0 = 2000 ; σ c) H 0 µ ≥ µ 0 ; H 1 µ < µ 0 ; µ 0 = 1500 ; σ = 164 ; n = 820 ; f = 0 ,10 ; α = 0 ,01 ˆ 2 = 25 ; n = 26 ; f < 0 ,05 ; α = 0 ,05 d) H 0 µ ≤ µ 0 ; H 1 µ > µ 0 ; µ 0 = 50 ; σ Za svaki od navedenih slu čajeva odredite (standardiziranu) kriti čnu vrijednost i vrijednosti granica koje dijele podru č je prihvaćanja od područ ja odbacivanja nulte hipoteze K
K
K
K
K
K
K
K
a) dvosmjeran, n > 30 ; ± zα / 2 = ± z 0 ,025 = ±1 ,96 ; 49 = 495 ,42667 441 n 49 σ = 500 + 1 ,96 × = 504 ,57333 n 441
c1 = µ 0 − z α / 2σ x = µ 0 − z α / 2 ×
c 2 = µ 0 + z α / 2σ x = µ 0 + z α / 2
b) jednosmjeran, n > 30; c2
zα
= 500 − 1 ,96 ×
= z 0 ,05 = 1 ,65 ˆ σ
= µ 0 + zα σ x = µ 0 + zα ×
c) jednosmjeran, n > 30;
σ
n
= 2000 + 1 ,65 ×
196 = 2011 ,55 784
− z α = − z 0 ,01 = −2 ,33 ;
c1 = µ 0 − z ασ x = µ 0 − z α ×
σ
d) jednosmjeran, n < 30;
n
×
N − n N − 1
f =
= 1500 − 2 ,33 ×
n N
= 0 ,10
N =
820 = 8200 0 ,1
164 8200 − 820 × = 1487 ,33980 8200 − 1 820
ˆ = σ ˆ 2 = 25 = 5 σ = t 0 ,05 = 1 ,708 ; df =25 5 σ ˆ = 50 + 1 ,708 × = 51,67483 n 26
t α
c 2 = µ 0 + t α σ x = µ 0 + t α ×
Primjer 10.3
Prema standardu, prosje čna trajnost žarulja od 75 W iznosi 2000 sati s prosje čnim odstupanjem 250 sati. Iz serije žarulja izabran je ( f < 0,05) slučajni uzorak 64 žarulje. Ispitivanjem je ustanovljeno da je prosje čna trajnost žarulja u uzorku 1935 sati. Može li se prihvatiti pretpostavka da je uzorak izabran iz osnovnog skupa kojemu je aritmeti čka sredina prema standardu? Testirajte na razini signifikantnosti 5%. Hipoteze glase:
H 0
K
µ = 2000 ;
Test veličina (empirijski z-omjer):
H 1
K
z =
µ ≠2000
x − µ 0
σ x
=
x − µ 0
σ n
=
1935 − 2000 = −2 ,08 250 64
56
Razina signifikantnosti: α = 0,05. Test je dvosmjeran, kritične su vrijednosti za prihvaćanje nulte hipoteze: zα / 2
= z 0 ,025 = 1 ,96
- zα / 2
< z < zα / 2 ,
− 1 ,96 < z < 1 ,96
Odluka:
empirijski z omjer manji je od teorijske (kriti čne) vrijednosti, tj. − 2 ,08 < −1 ,96 pa se na danoj razini signifikantnosti odbacuje H 0 . Prema tome, ne prihva ća se pretpostavka da je uzorak izabran iz skupa žarulja s prosje čnom trajnošću 2000 sati. Oduka se alternativno donosi pomo ću kritičnih granica: 250 σ = 2000 − 1 ,96 × = 1938 ,75 sati c1 = µ 0 − z α / 2σ x = µ 0 − z α / 2 × n 64 250 σ = 2000 + 1 ,96 × = 2061 ,25 sati c 2 = µ 0 + z α / 2σ x = µ 0 + z α / 2 64 n Kako je aritmeti čka sredina uzorka manja prihvaća se H 0 .
x = 1935
sati manja od donje kriti čne granice, ne
Primjer 10.4
Radi povećanja proizvodnosti rada jedne vrste automatskih strojeva predložena je njihova preinaka. Prema prora čunima, preinaka je poslovno opravdana ako se postigne pove ćan broj operacija po satu i ako u prosjeku iznosi više od 120. Na jednom stroju provedena je preinaka i evidentiran je broj operacija po satu 144 mjerenja. Prosje čan broj operacija po satu u provedenom ispitivanju iznosio je 125. Zbroj kvadrata vrijednosti mjerenja iznosi 2307600. Do kojeg se zaklju čka dolazi na temelju provedenog ispitivanja. Vjerojatnost odbacivanja istinite nulte hipoteze iznosi 5%. n = 144
x = 125 ,
57
n
n
2
2 xi − n x 2 ∑
∑( xi − x ) ˆ = σ
σ x =
i =1
n −1 ˆ σ n
=
=
i =1
n −1
2307600 − 144 × 125 2 = = 20 ,06981 143
20 ,06981 = 1 ,67248 144
Hipoteze glase:
H 0
K
Test veličina (empirijski z-omjer): Razina signifikantnosti:
µ ≤120 , z =
x − µ 0
σ x
H 1 =
K
µ > 120
125 − 120 = 2 ,99 1 ,67248
α = 0 ,05
Test je jednosmjeran, kriti čne su vrijednosti za prihva ćanje nulte hipoteze: z < 1 ,65 z 0 ,05 = 1 ,65 Odluka: empirijski z-omjer veći je od se H 0 na danoj razini signifikantnosti.
z
< zα
teorijske (kriti čne) vrijednosti, tj. 2,99>1,65. Odbacuje
Alternativno do zaklju čka se dolazi pomo ću kritične granice: c 2 = µ 0 + z α σ x = 120 + 1 ,65 × 1 ,67248 = 122 ,76 Aritmeti čka sredina uzorka je 125 i ve ća je od gornje granice, pa se ne prihva ća H 0. Odstupanje aritmeti čke sredine uzorka naviše je zna čajno pa se prihvaća pretpostavka da je preinaka strojeva gospodarski opravdana.
Teorijska razina signifikantnosti predočuje odabranu vjerojatnost odbacivanja istinite nulte hipoteze. Empirijska razina signifikantnosti ( p–vrijednost) jest vjerojatnost odbacivanja istinite nulte hipoteze izračunana pomoću podataka iz uzorka. U postupku donošenja odluke u testu p-vrijednost rabi se ovako: • ako je p-vrijednost veća od α , prihvaća se nulta hipoteza • ako je p-vrijednost manja od α , prihvaća se alternativna hipoteza. 58
10.2. Testiranje hipoteze o proporciji osnovnog skupa Postupak testiranja hipoteze o pretpostavljenoj vrijednosti proporcije osnovnog skupa pomoću velikog uzorka provodi se u koracima koji su svojstveni svakom statističkom testu. Test o proporciji osnovnog skupa je dvosmjeran (na dvije granice) ili jednosmjeran (na gornju, odnosno gornju granicu). Temelj testa je sampling-distribucija proporcija. Ako je nulta hipoteza istinita i ako je uzorak dovoljno velik, sampling distribucija približno je oblika normalne distribucije, tj. pˆ ~ N p0 ,σ p2 . Nepoznata je proporcija osnovnog skupa p, a njena pretpostavljena veličina p 0 . s
Vrsta testa dvosmjeran jednosmjeran, na gornju granicu jednosmjeran, na donju granicu
Nulta hipoteza H 0 H 0 H 0
Alternativna hipoteza
p = p 0
H 1
p ≤ p 0
H 1
p ≥ p 0
H 1
K
K
K
p
≠ p 0
Područje prihvaćanja nulte hipoteze | z| < zα / 2
p
> p0
z < zα
z > zα
p
< p0
z > − zα
z < − zα
K
K
K
Područje odbacivanja nulte hipoteze | z| > zα / 2
Test-veličina je empirijski z-omjer: z =
ˆ − p0 p
σ pˆ
gdje je pˆ proporcija uzorka, p0 je pretpostavljena vrijednost proporcije osnovnog skupa, σ pˆ je standardna greška (standardna devijacija sampling-distribucije proporcija). Standardna greška proporcije računa se polazeći od nulte hipoteze kao istinite. Odluka o prihvaćanju ili odbacivanju nulte hipoteze donosi se usporedbom test-veličine z s teorijskom vrijednosti koeficijenta signifikantnosti, koji ovisi o vjerojatnosti α a određuje se pomoću površina ispod normalne krivulje. Odluka o testu donosi se alternativno pomoću kritičnih granica. Za dvosmjeran test kritične granice prihvaćanja nulte hipoteze su: c1 = p 0 − zα / 2σ p , s
c2
= p 0 + z α / 2σ pˆ
Test veličina je proporcija uzorka pˆ . Nađe li se proporcija uzorka između navedenih granica, prihvatit će se nulta hipoteza. Ako je proporcija uzorka manja od donje ili veća od gornje kritične granice, odbacuje se nulta hipoteza na razini signifikantnosti α . 59
Kod jednosmjernog testa na gornju granicu (test na desnoj strani) kritična granica je c 2 = p 0 + zα σ pˆ . Nulta hipoteza se prihvaća kao istinita ako je proporcija uzorka manja od kritične vrijednosti, a odbacuje se ako je veća od te granice. Odluka o jednosmjernom testu na donju granicu (test na lijevoj strani) donosi se pomoću granice c1 = p 0 − zα σ pˆ . Proporcija uzorka veća od donje granice upućuje na prihvaćanje nulte hipoteze, a vrijednost proporcije manja od donje kritične granice na njezino odbacivanje. Primjer 10.5
a) Proporcija slučajnog uzorka 400 članova izabranoga iz beskonačnog osnovnog skupa iznosi 0,49215. Može li se prihvatiti pretpostavka da uzorak potječe iz osnovnog skupa s proporcijom 0,51? Testira se na razini signifikantnosti 5%. b) Testira se nulta hipoteza da je proporcija osnovnog skupa jednaka 0,7 a pripadajuća alternativna hipoteza sadrži tvrdnju da je proporcija veća od 0,7. Proporcija slučajnog uzorka veličine 676 članova jest 0,72. Uzorak je izabran iz osnovnog skupa opsega 11265 članova. Do koje se odluka dolazi provedbom testa? Razina signifikantnosti je 5%.
a)
n = 400,
p 0
= 0 ,51
Hipoteze glase:
H 0
ˆ = 0 ,49215 p
Test veličina (empirijski z-omjer): q0 = 1 − p0 ,
σ p = s
p
K
= 0 ,51
z =
H 1
p
K
≠0 ,51
ˆ − p 0 p
σ pˆ
0 ,51 × (1 − 0 ,51) = 0 ,02499 n 400 0 ,49215 − 0 ,51 z = = −0 ,71 0 ,02499
p 0 q 0
=
Razina signifikantnosti: α = 0 ,05 . Test je dvosmjeran, kritične vrijednosti zα / 2
= z 0 ,025 = 1 ,96
za prihvaćanje nulte hipoteze su: − zα / 2 < z < zα / 2 , − 1 ,96 < z < 1 ,96
Odluka:
empirijski z-omjer veći je od donje, a manji od gornje teorijske (kriti čne) vrijednosti, tj. –1,96 < –0,71< 1,96. Prihvaća se H 0 na danoj razini signifikantnosti. Prema tome prihva ća se pretpostavka da je uzorak izabran iz skupa s proporcijom 0,51. Odluka se alternativno donosi pomo ću ovih kritičnih granica: c1 = p 0 − z α / 2σ pˆ = 0 ,51 − 1 ,96 × 0 ,02499 = 0 ,46101 c 2 = p 0 + zα / 2σ pˆ = 0 ,51 + 1 ,96 × 0 ,02499 = 0 ,55899 60
Proporcija uzorka pˆ = 0 ,49215 nalazi se između gornje i donje granice prihvaćanja H 0 , pa se prihvaća nulta hipoteza. b)
n = 676, p0 = 0 ,70
N = 11265 ˆ = 0 ,72 p
Hipoteze glase:
H 0
f = n / N = 676/11265 = 0,06
p
K
Test veličina (empirijski z-omjer): q0 = 1 − p0 ,
σ p =
p0 q0
s
n
≤
0 ,70 ,
z = ×
σ pˆ
N − 1
=
= z 0 ,05 = 1 ,65
z
0 ,70 × 0 ,30 11265 − 676 × = 0 ,01709 676 11265 − 1
0 ,72 − 0 ,70 = 1 ,17 0 ,01709
Razina signifikantnosti: α = 0 ,05 . Test je jednosmjeran, kriti čno područ je zα
p > 0 ,70
K
ˆ − p 0 p
N − n
z =
H 1
f > 0,05
za prihvaćanje nulte hipoteze su: z < zα ,
< 1 ,65
Odluka:
empirijski z-omjer manji je od gornje teorijske (kriti čne) vrijednosti, tj. 1,17<1,65 pa se prihvaća H 0 na danoj razini signifikantnosti. Prema tome prihva ća se pretpostavka da je uzorak izabran iz skupa s proporcijom 0,70. Odluka se alternativno donosi pomo ću ovih kritičnih granica: c 2 = p0 + zα / 2σ pˆ = 0,70 + 1,65 × 0,01709 = 0,72820 Proporcija uzorka pˆ = 0 ,72 manja je od gornje granice prihvaćanja nulte hipoteze, pa se prihvaća nulta hipoteza.
Vježbe
Slučajan uzorak ima 27 jedinica i izabran je iz normalno distribuiranog osnovnog skupa s pretpostavljenom sredinom 50 i nepoznatom standardnom devijacijom. Na temelju 1.
27
27
i =1
i =1
vrijednosti iz uzorka dobivene su ove veličine: ∑ xi = 1296 , ∑ xi2 = 64808 . a) Kako glase hipoteze za dvosmjerni test o pretpostavljenoj sredini osnovnog skupa? Provedite test na razini signifikantnosti 4%. Skicirajte postupak. b) Kako glase hipoteze za jednosmjerni test o pretpostavljenoj sredini na donju granicu (na lijevu stranu). Provedite test. Razina signifikantnosti je 4%. Skicirajte postupak. 61
Odluku donesite najprije na temelju standardizirane test veličine, a zatim korištenjem kritičnih granica. U tijeku pokusne proizvodnje stroj proizvodi prosječno 625 proizvoda po smjeni, s prosječnim odstupanjem 30 proizvoda. Mjerenje rada stroja provedeno je za 45 smjena. Potvrđuje li pokusna proizvodnja navod dobavljača da stroj izrađuje više od 620 proizvoda po smjeni? Testira se na razini signifikantnosti 5%. 2.
Fast-food restorani oglašavaju dostavu gotove hrane. U oglasu se navodi da će se naručena roba isporučiti za najviše 60 minuta od primitka narudžbe. Na temelju slučajnog uzorka 100 narudžbenica izračunano je prosječno vrijeme potrebno za dostavu koje iznosi 58 minuta, s prosječnim odstupanjem 5 minuta. Može li se na temelju rezultata iz uzorka zaključiti da je vrijeme isporuke dulje od onoga oglašavanoga. Razina signifikantnosti je 5%. 3.
Provedite dvosmjeran test o pretpostavljenoj proporciji osnovnog skupa 0,55 na temelju slučajnog uzorka veličine 625 izabranoga iz beskonačnog osnovnog skupa. Proporcija uzorka je 0,53. razina signifikantnosti je 5%. Napišite kako glase hipoteze. Odluku donesite pomoću standardizirane test veličine i kritičnih granica (proporcija). Skicirajte postupak testiranja. 4.
Nulta hipoteza sadrži tvrdnju da je proporcija osnovnog skupa jednaka 0,25 (ili veća), a alternativna hipoteza suprotnu tvrdnju. Proporcija slučajnog uzorka (n = 1000) izabranog iz konačnog skupa s frakcijom izbora manjom od 5% iznosi 0,22. Do koje odluke se dolazi u postupku testiranja ako je razina signifikantnosti 3%. Napišite kako glase hipoteze. Odluku donesite pomoću standardizirane test veličine i kritične granice (proporcije). Skicirajte postupak testiranja. 5.
U proizvodnji jedne vrste proizvoda tolerira se škart u omjeru 1:12. Kontrolom 300 slučajno odabranih proizvoda pronađeno ih je 39 neispravnih. Nalazi li se proporcija neispravnih proizvoda utvrđenih kontrolom u granicama tolerancije. α = 0 ,05 . 6.
Financijska služba poduzeća analizira uzroke slabog toka gotovine. Pretpostavlja se da je jedan od uzroka neredovitost plaćanja po ispostavljenim fakturama. Služba pretpostavlja da više od 75% komitenata plaća u roku duljem od 60 dana. Iz skupa od 64289 neplaćenih faktura izabran je uzorak veličine 238, među kojima je s rokom prekoračenja duljim od 60 dana pronađeno njih 195. Do kojih se rezultata dolazi na temelju rezultata iz uzorka? Razina signifikantnosti je 4%. 7.
62
11. USPOREDBA PARAMETARA OSNOVNIH SKUPOVA U sklopu inferencijalne statistike ispituju se parametri dvaju ili više osnovnih skupova. Postupci se temelje na slučajnim uzorcima izabranim iz tih skupova. ako se opažanja ili mjerenja odabranog obilježja provode na različitim jedinicama izabranim u uzorak iz dvaju nepovezanih skupova ili iz dvaju stratuma jednog skupa. Uzorci su zavisni ako se vrijednosti iz uzorka dobivaju ponovljenim opažanjem ili mjerenjem odabrane varijable na istim jedinicama statističkog skupa izabranim u uzorak u različitim vremenskim trenucima. Uzorci su nezavisni
11.1. Procjena razlike aritmetičkih sredina dvaju osnovnih skupova Neka vrijednosti x11 , x21 , , xn ,1 čine uzorak iz osnovnog skupa S 1 , s aritmetičkom sredinom µ 1 i standardnom devijacijom σ 1 , a vrijednosti x12 , x22 , , xn , 2 uzorak iz osnovnog skupa S 2 , s aritmetičkom sredinom µ 2 i standardnom devijacijom σ 2 . Postupak procjene nepoznate razlike aritmetičkih sredina dvaju skupova D = µ 1 − µ 2 pomoću velikih nezavisnih uzoraka temelji se na sampling-distribuciji procjenitelja razlike sredina uzoraka Dˆ = X 1 − X 2 . Ako nezavisni veliki uzorci potječu iz osnovnih skupova s nepoznatim sredinama i poznatim varijancama σ 12 i σ 22 , sampling-distribucija procjenitelja razlike oblika je normalne distribucije ili približno takva oblika. Ta sampling-distribucija ima očekivanu vrijednost jednaku D i standardnu devijaciju σ x - x , koja se naziva standardnom greškom razlike sredina, to jest: K
1
K
2
1
E X 1 − X 2 = µ 1 − µ 2 = D ;
σ x
1 - x 2
=
σ 12 n1
+
2
σ 22 n2
Procjena razlike aritmetičkih sredina intervalom na razini pouzdanosti 100 (1-α ) % : ˆ − zα / 2σ P D x
1 − x 2
ˆ + zα / 2σ < ( µ 1 − µ 2 ) < D x
1 − x 2
= (1 − α )
gdje je Dˆ razlika sredina nezavisnih uzoraka, zα / 2 je koeficijent pouzdanosti procjene, koji ovisi o razini pouzdanosti i određuje se pomoću površina normalne distribucije, σ x - x je standardna greška razlike sredina. 1
2
63
Kod velikih uzoraka ako varijance skupova nisu poznate, standardna greška razlike utvrđuje se pomoću procjena varijanci: σ x1- x 2 = n1
∑1 ( x 1 − x1 )
=
i=
n1 − 1
n1
+
ˆ 22 σ n2
n1
2
i
ˆ 12 σ
ˆ 12 σ
∑1 x 1
n2
i
,
x1 =
i=
n1
∑1 ( x 2 − x2 )
n2
2
i
ˆ 22 σ
;
=
i=
n2 − 1
∑1 x 2 i
,
x 2 =
i=
n2
Procjenjuje li se razlika sredina pomoću malih uzoraka izabranih iz normalno distribuiranih osnovnih skupova s različitim sredinama i jednakim varijancama, procjenitelj razlike sredina brojem je Dˆ = X 1 − X 2 . Distribucija procjenitelja razlike sredina oblika je t - distribucije s (n1 + n2 − 2) stupnja slobode, pa je interval procjene na temelju uzorka: P Dˆ − t α / 2σ x
1 − x 2
ˆ + t α / 2σ < ( µ 1 − µ 2 ) < D x
1 − x 2
= (1 − α )
Ako su varijance osnovnih skupova međusobno jednake (σ 12 = σ 22 = σ 2 ), standardna greška razlike aritmetičkih sredina je: σ x1 - x2 = σ
1 n1
+
1 n2
= σ ⋅
n1 + n 2 n1 n2
Ako su uzorci izabrani iz normalno distribuiranih skupova s jednakim nepoznatim varijancama, zajednička se varijanca procjenjuje kombiniranjem podataka iz oba uzorka:
ˆ 2 = σ
n1
n2
i =1
i =1
∑ ( xi1 − x1 ) 2 + ∑ ( xi 2 − x2 )2 n1 + n 2 − 2
a standardna greška razlike sredina je: σ x
1 - x 2
=
ˆ 12 + (n2 − 1)σ ˆ 22 (n1 − 1)σ n1 + n2 − 2
n1 + n2 n n 1 2
×
Koeficijent pouzdanosti t vrijednost je Studentove distribucije za (n1 + n2 − 2) stupnja slobode i vjerojatnost α / 2 .
64
Primjer 11.1
Aritmetička sredina uzorka veličine 100 elemenata iz osnovnog skupa A je 120, a aritmetička sredina uzoraka veličine 64 iz skupa B iznosi 115. Uzorci su nezavisni i potječu iz beskonačnih skupova. Varijanca skupa A iznosi 40, a varijanca skupa B 36. a) Procijenite brojem razliku aritmetičkih sredina skupova A i B b) U kojim granicama se očekuje da će se nalaziti razlika aritmetičkih sredina skupova. Pouzdanost procjene je 95%. a) n1 = 100 ,
2
x1 = 120 ,
Procjena razlike sredina brojem: b) (1 − α ) = 0,95 ˆ − z P D 0 ,025σ x
1 - x 2
n2 = 64 ,
σ 1 = 40 ;
2
x2 = 115 ,
σ 2 = 36
ˆ = x − x = 120 − 115 = 5 D 1 2
α = 0,05
α /2 = 0,025
ˆ + z < ( µ 1 − µ 2 ) < D 0 ,025σ x
= z 0 ,025 =1,96
= 0 ,95
1 - x 2
Standardna greška razlike sredina:
z α / 2
σ x
1 - x 2
σ 12
=
n1
+
σ 22 n2
=
40 36 + 100 64
= 0 ,98107
Granice intervala procjene razlike aritmetičkih sredina: P(5 − 1 ,96 × 0 ,98107 < ( µ1 − µ 2 ) < 5 + 1 ,96 × 0 ,98107) = 0 ,95 P(3 ,07710 < ( µ 1 − µ 2 ) < 6 ,92290) = 0 ,95
S vjerojatnosti 0,95 očekuje se da će razlika sredina skupova A i B biti između 3,07710 i 6,92290.
11.2. Test hipoteza o razlici sredina dvaju osnovnih skupova Testiranje hipoteza o razlici sredina dvaju osnovnih skupova pomoću velikih i malih nezavisnih uzoraka temelji se na sadržaju nulte i alternativne hipoteze. Postupci testiranja jednaki su onima pri testiranju hipoteze o jednom parametru osnovnog skupa. Vrsta testa dvosmjeran jednosmjeran, na gornju granicu jednosmjeran, na donju granicu
Nulta hipoteza
Područje prihvaćanja nulte hipoteze | z| < zα / 2
Područje odbacivanja nulte hipoteze | z| > zα / 2
µ 1 − µ 2 > D0
z < zα
z > zα
µ 1 − µ 2 < D0
z > − zα
z < − z α
Alternativna hipoteza µ 1 − µ 2
µ 1 − µ 0 = D0
H 1
K
µ 1 − µ 2 ≤ D0
H 1
K
µ 1 − µ 2 ≥ D0
H 1
K
H 0
K
H 0
K
H 0
K
≠ D0
65
Test-veličina je empirijski z-omjer: z =
( x1 − x2 ) − D0 σ x
1 - x 2
gdje je σ x − x standardna greška razlike (tj. standardna devijacija sampling-distribucije razlika aritmetičkih sredina uzoraka) a izračunava se na isti način kao i za procjenu. 1
2
Odluka se donosi usporedbom empirijske testne veličine s teorijskom vrijednosti standardizirane normalne distribucije. Alternativno odluka za dvosmjeran test donosi se pomoću kritičnih granica: c1 = D0 − zα / 2σ x
c2 = D0 + zα / 2σ x
1 - x 2
1 - x 2
Testna veličina je razlika aritmetičkih sredina uzoraka Dˆ = x1 − x 2 Ako razlika aritmetičkih sredina uzoraka pada između kritičnih granica, kao istinita prihvatit će se nulta hipoteza na razini signifikantnosti α . U protivnome, nulta hipoteza se neće prihvatiti. Za jednosmjerne testove određuje se kritična granica koja razdvaja područje prihvaćanja od područja odbacivanja nulte hipoteze. Kritična granica za test na donju granicu je c1 = D0 − zα σ x − x , a za test na donju granicu je c 2 = D0 + zα σ x - x . 1
2
1
2
Hipoteze o razlici sredina dvaju osnovnih skupova testiraju se i pomoću malih nezavisnih uzoraka. Oblici hipoteza za test razlike sredina imaju isti, već navedeni oblik. Ako je nulta hipoteza istinita i ako su nepoznate varijance normalno distribuiranih osnovnih skupova međusobno jednake, tada je test veličina empirijski t -omjer: t =
( x1 − x 2 ) − D0 σ x1 − x2
,
σ x
1 - x 2
=
(n1 − 1)σ ˆ 12 + (n2 − 1)σ ˆ 2 n1 + n2 − 2
n1 + n2 n n 1 2
×
t -omjer
pripada Studentovoj (t) distribuciji s (n1 + n2 − 2) stupnjeva slobode. Odluka se donosi usporedbom empirijskog t -omjera s teorijskom vrijednosti Studentove distribucije. Alternativno, odluka se donosi pomoću kritičnih granica. Za dvosmjeran test kritične granice prihvaćanja nulte hipoteze su: c1 = D0 − t α / 2σ x
1 - x 2
c2 = D0 + t α / 2σ x
1 - x 2
66
Kritična je granica za test na donju granicu granicu c 2 = D0 + t α σ x - x . 1
c1 = D0 − t α σ x1 − x 2
, a za test na gornju
2
Ako je D0 = 0 , riječ je o testu hipoteze da je razlika aritmetičkih sredina dvaju skupova jednaka nuli, odnosno da su aritmetičke sredine skupova međusobno jednake . Testna veličina u tom slučaju je: z =
x1 − x2
σ x
1
- x 2
Kad je riječ o testu hipoteze o jednakosti sredina dvaju osnovnih skupova, kritične granice za dvosmjeran test su: c1 = − zα / 2σ x
c2 = + zα / 2σ x
1 - x 2
1 - x 2
,
a za jednosmjeran c1 = − zα σ x
odnosno
1 - x 2
c2 = + zα σ x
1
- x 2
.
Odluka se donosi usporedbom testne veličine i vrijednosti kritične granice. Primjer 11.2
Iz dvaju osnovnih skupova izabran je po jedan uzorak. Uzorci su nezavisni, prvi veličine 100, a drugi 36 članova. Aritmetička sredina uzorka izabranog iz prvog osnovnog skupa iznosi 40, a aritmetička sredina uzorka iz drugog skupa 32. Prvi je osnovni skup raspoređen po distribuciji s aritmetičkom sredinom i varijancom oblika N µ 1 ,25 , a drugi N µ 1 ,16 . Može li se prihvatiti pretpostavka da je razlika aritmetičkih sredina osnovnih skupova jednaka 10? Testira se na razini signifikantnosti 5%. n1 = 100 ,
x1 = 40 ,
Hipoteze glase:
2
σ 1 = 25 ; H 0
µ1 − µ 0 = 10 ,
σ x1 - x 2 =
n1
+
σ 22 n2
=
25 16 + 100 36
z =
x 2 = 32 , H 1
K
Test veličina (empirijski z-omjer):
σ 12
n2 = 36 ,
2
σ 2 = 16 ;
µ 1 − µ 2
K
D0
= 10
≠10
( x1 − x2 ) − D0
= 0 ,83333
σ x1- x 2 z =
(40 − 32) − 10 = −2 ,40 0 ,83333
Razina signifikantnosti: α = 0,05.
67
Test je dvosmjeran, kritične su vrijednosti za prihvaćanje nulte hipoteze: − 1 ,96 < z < 1 ,96 z α / 2 = z 0 ,025 = 1 ,96
− zα / 2 < z < zα / 2 ,
Odluka:
empirijski z omjer manji je od teorijske (kriti čne) vrijednosti, tj. − 2 ,40 < −1 ,96 pa se na danoj razini signifikantnosti odbacuje H 0 . Prema tome, ne prihva ća se pretpostavka da su uzorci izabrani iz skupova kojima je razlika aritmeti čkih sredina jednaka 10. Oduka se alternativno donosi pomo ću kritičnih granica: c1 = D0 − z α / 2σ x c2
1 - x 2
= 10 − 1,96 × 0,83333 = 8,36667
= D0 + zα / 2σ x1 - x 2 = 10 + 1 ,96 × 0 ,83333 = 11 ,63333
Kako je razlika aritmeti čkih sredina uzoraka manja Dˆ 0 = x1 − x2 kritične granice, ne prihva ća se H 0 .
=
40 − 32 = 8 manja od donje
Primjer 11.3
U sklopu studija rada ispituje se razlika proizvodnosti rada radnika koja se postiže dvjema obrazovnim metodama. 70 radnika podijeljeno je u dvije skupine. U prvoj skupini je 35 slučajno izabranih radnika od njih 70, a u drugoj preostalih 35. Poslije završenog obrazovanja mjerena je proizvodnost radnika i to utroškom vremena za obavljanje iste radnje. Rezultati mjerenja (u minutama) proizvodnosti radnika obrazovanih prvom i drugom metodom prikazani su dvostrukim S-L dijagramom. # 1 3 7 12 10 2
Metoda 1 9 1,1,0 3,3,2,2,2,2,2 5,5,5,5,5,5,4,4,4,4,4,4 7,7,7,7,7,6,6,6,6,6 9,8
Metoda 2 1 2 2 2 2 2
9 0,1,1,1,1,1,1,1,1,1 2,2,2,2,2,2,2,3,3,3,3,3,3,3,3,3,3,3,3 4,4,4,4,5
# 1 10 19 5
Može li se prihvatiti pretpostavka da nema razlike u prosje čnoj proizvodnosti radnika obrazovanih navedenim metodama. Testira se na razini signifikantnosti 5%. n1
∑1 x 1 i
n1 = 35
x1 =
i=
n1
n1
385 =24,371429 = 35
ˆ 12 σ
i
=
n2
∑1 x 2 i
n2 = 35
x 2 =
i=
n2
∑1 ( x 1 − x1 )2 i=
n1 − 1
=
188 ,17143 = 5,53445 35 − 1
n2
779 = = 22,25714 35
∑1 ( x 2 − x2 )2 i
ˆ 22 σ
=
i=
n2 − 1
=
56 ,68571 = 1,66723 35 − 1 68
σ x1- x 2 =
ˆ 12 σ n1
+
ˆ 22 σ n2
Hipoteze glase:
=
5 ,53445 1 ,66723 + = 0,4536103 35 35 H 0
µ1 − µ 0 =
K
Test veličina (empirijski z-omjer): Razina signifikantnosti: α
0
z =
H 1 x1 − x 2
σ x1- x 2
=
µ 1 − µ 2
K
≠0
24 ,371429 − 22 ,25714 = 4,661018 0 ,4536103
= 0,05.
Test je dvosmjeran, kritične su vrijednosti za prihvaćanje nulte hipoteze: − 1 ,96 < z < 1 ,96 z α / 2 = z 0 ,025 = 1 ,96
− zα / 2 < z < zα / 2 ,
empirijski z omjer veći je od teorijske (kriti čne) vrijednosti, tj. 4,66102 > 1,96 pa se na danoj razini signifikantnosti odbacuje H 0 . Prema tome, ne prihvaća se pretpostavka da nema razlike u prosječnoj proizvodnosti radnika obrazovanih navedenim metodama Odluka:
Oduka se alternativno donosi pomoću kritičnih granica: c1 = − zα / 2σ x1 - x 2 = − 0,889076
c 2 = + zα / 2σ x
1 - x 2
=
0,889076
ˆ = x − x Kako je razlika aritmetičkih sredina uzoraka manja D 0 1 2 kritične granice, ne prihvaća se H 0 .
U programskoj potpori EXCEL-a (Tools ⇒
= 2,11429
veća od gornje
Data Analysis ⇒ z-Test: Two Sample for
Means) dio ispisa je: z-Test: Two Sample for Means
Mean Variance Observations Hypothesized Mean Difference z P(Z<=z) one-tail z Critical one-tail P(Z<=z) two-tail z Critical two-tail
Metoda 1 24,3714286 5,53445 35 0 4,66101808 1,5732E-06 1,64485363 3,1465E-06 1,95996398
Metoda 2 22,25714286 1,66723 35
69
11.3. Procjena razlike proporcija i test hipoteze o razlici proporcija Neka su n 1 i n2 dovoljno veliki nezavisni uzorci izabrani iz osnovnih skupova s proporcijama p1 i p2 i neka su pˆ 1 i pˆ 2 proporcije uzoraka. Sampling-distribucija razlika proporcija približno je normalna oblika s očekivanom vrijednosti koja je jednaka razlici proporcija osnovnih skupova. Standardna devijacija te distribucije jednaka je standardnoj greški razlike σ pˆ - pˆ . Nepristrana procjena razlike proporcija osnovnih skupova brojem jest razlika proporcija uzoraka, tj. ( pˆ 1 − pˆ 2 ) . Kad je sampling distribucija razlika približno normalna oblika, intervalna procjena, uz pouzdanost 100(1 − α ) % je: 1
2
ˆ 1 − p ˆ 2 ) − zα / 2σ pˆ − pˆ < ( p1 − p2 ) < ( p ˆ 1 − p ˆ 2 ) + zα / 2σ pˆ − pˆ = (1 − α ) P ( p 1 2 1 2
Standardna greška razlike proporcija je: 1
1
σ pˆ1 - pˆ 2 = pˆ qˆ + n1 n2 pˆ =
m1 + m2 n1 + n2
=
n1 pˆ 1 + n2 pˆ 2 n1 + n2
,
pˆ 1 =
ˆ = 1 − p ˆ ; q
m1 n1
,
pˆ 2 =
m2 n2
U praksi se najčešće testira hipoteza o jednakosti proporcija dvaju osnovnih skupova, odnosno hipoteza da je razlika proporcija osnovnih skupova jednaka nuli. Hipoteze na test i način donošenja odluka navedeni su u tablici Vrsta testa dvosmjeran jednosmjeran, na gornju granicu jednosmjeran, na donju granicu
H 0
z > zα
p1 − p 2 < 0
z > − zα
z < − z α
0
H 1
K
0
H 1
K
p1 − p 2
≥
K
z < zα
K
≤
H 0
p1 − p 2 > 0
H 1
p1 − p 2
K
Područje odbacivanja nulte hipoteze | z| > zα / 2
p1 − p 2 = 0
K
H 0
Područje prihvaćanja nulte hipoteze | z| < zα / 2
Alternativna hipoteza
Nulta hipoteza
p1 − p 2
≠0
Test-veličina je empirijski z-omjer: z =
( pˆ 1 − pˆ 2 ) − 0 σ pˆ 1 - pˆ 2
Odluka se donosi usporedbom empirijske testne veličine s teorijskom vrijednosti standardizirane normalne distribucije na uobičajen način. 70
Primjer 11.3
Iz dvaju osnovnih skupova izabrani su nezavisni uzorci veličine n1 = 100 i n2 = 200 . Broj članova s određenim modalitetom obilježje u prvom uzorku je m1 = 50 , a u drugom m2 = 75 . a) Izračunajte vrijednost proporcija uzoraka pˆ 1 i pˆ 2 . b) Procijenite brojem i 95%-tnim intervalom razliku proporcija osnovnih skupova c) Testirajte hipotezu da je razlika proporcija osnovnih skupova jednaka 0,02. Razina signifikantnosti 5%. m m 75 50 pˆ 2 = 2 = = 0,375 a) Proporcije uzoraka: = 0,5 pˆ 1 = 1 = n2 200 n1 100 ˆ 1 − p ˆ 2 = 0 ,5 − 0 ,375 = 0 ,125 b) Procjena razlike proporcija brojem: p
Procjena intervalom:
ˆ 1 − p ˆ 2 ) − zα / 2σ pˆ − pˆ < ( p1 − p 2 ) < ( p ˆ 1 − p ˆ 2 ) + zα / 2σ pˆ − pˆ = P ( p 1 2 1 2
Uz pouzdanost 95%, koeficijent pouzdanosti Standardna greška razlike proporcija: σ pˆ1 - pˆ 2 pˆ =
m1 + m2 n1 + n 2
=
50 + 75 100 + 200
=
zα / 2
1
ˆ qˆ = p
0,41667
n1
+
(1 − α )
= z 0 ,025 =1,96
1
n2
ˆ = 1 − 0 ,41667 = 0 ,58333 qˆ = 1 − p
1 1 + = 0,06038 100 200
σ pˆ1 - pˆ 2 = 0,41667 × 0,58333
Interval procjene razlike proporcija: P(0 ,125 − 1 ,96 × 0 ,06038 < ( p1 − p 2 ) < 0 ,125 + 1 ,96 × 0 ,06038) = 0 ,95
P(0,00666 < ( p1 − p2 ) < 0,24334) = 0,95
c) Hipoteze glase:
H 0
p1 − p 2 = 0 ,02 ,
H 1
K
Test veličina (empirijski z-omjer):
z =
( pˆ 1 − pˆ 2 ) − D0 σ pˆ 1 - pˆ 2
p1 − p 2
K
=
≠0,02
(0 ,5 − 0 ,375) − 0 ,02 = 1 ,74 0 ,06038
Razina signifikantnosti: α = 0,05.
Test je dvosmjeran, kriti čne su vrijednosti za prihva ćanje nulte hipoteze: − 1 ,96 < z < 1 ,96 zα / 2 = z 0 ,025 = 1 ,96
− zα / 2 < z < zα / 2 ,
Odluka:
empirijski z omjer pada u područ je prihvaćanja nulte hipoteze, tj − 1 ,96 < 1 ,74 < 1 ,96 pa se na danoj razini signifikantnosti prihva ća pretpostavka da su uzorci izabrani iz osnovnih skupova kojima je razlika proporcija jednaka 0,02. 71
Vježbe
Služba za prihvat prtljage zračne kompanije pomoću uzorka procjenjuje razliku u težini prtljage muških i ženskih putnika. U slučajnom uzorku 144 putnice izmjerena je prosječna težina prtljage 21,5 kg, s prosječnim odstupanjem 2,5 kg. Prosječna težina prtljage putnika izabranih u slučajni uzorak veličine 121 iznosila je 18 kg, s prosječnim odstupanjem 1,8 kg. Procijenite brojem i 95%-tnim intervalom pouzdanosti razliku prosječnih težina prtljage muških i ženskih putnika. 1.
U tvorničkom pogonu dva automatska stroja proizvode isti proizvod. Ispituje se njihova proizvodnost mjerena brojem izrađenih proizvoda pa radnom satu. Mjerenja u slučajno izabranim razdobljima rada strojeva (broj proizvoda po satu) bila su sljedeća: 2.
Stroj I Stroj II
55 43
47 47
50 51
44 49
52 48
55 53
57 46
49 47
60 55
52 47
58 50
a) Prikažite podatke o radu strojeva dvostrukim S-L dijagramom b) Procijenite brojem i intervalom razliku u prosječnoj proizvodnosti rada strojeva. Razina pouzdanosti intervalne procjene je 95%. Proizvođač baterija tipa 3R12 tvrdi da se njihova kakvoća bitno ne mijenja ni nakon šestomjesečnog skladištenja računajući od dana proizvodnje. Da bi se testirala tvrdnja proizvođača, izabran je uzorak od 40 baterija neposredno nakon što su proizvedene. Prosječan vijek trajanja tih baterija bio je 584 sata, s prosječnim odstupanjem 49 sati. Nakon šest mjeseci izabran je uzorak 35 uskladištenih baterija. njihova je prosječna trajnost bila 558 sati, s prosječnim odstupanjem 57 sati. Može li se prihvatiti tvrdnja proizvođača? Razina signifikantnosti je 3%. 3.
U uzorku 1.000 gledatelja TV postaje Ch1 zabavni program redovito prati njih 410. U uzorku 500 gledateljica 52% njih redovito prati taj zabavni program. a) Može li se prihvatiti pretpostavka da zabavni program prate u jednakoj proporciji gledatelji i gledateljice? Vjerojatnost greške tipa I iznosi 0,05 b) Može li se prihvatiti pretpostavka da je proporcija gledateljica veća od proporcije gledatelja za više od 15%? Testira se na razini signifikantnosti 5%: c) U kojim se granicama može očekivati da će se naći proporcija gledatelja (žena i muškaraca) zabavnog programa? Pouzdanost procjene 96%. 4.
Ispituje se proporcija tekućih računa s negativnim saldom većim od dopuštenog u dvije poslovnice Pomorske banke. Analitička služba pretpostavlja da je proporcija takvih računa u drugoj poslovnici manja od proporcije u prvoj poslovnici. U uzorku 562 računa prve poslovnice 75 ih je s nedopuštenim prekoračenjem, a u uzorku veličine 462 računa druge poslovnice 44 računa su s nedopuštenim prekoračenjem. Što se može zaključiti o pretpostavci analitičke službe? Testira se na razini 10% signifikantnosti. 5.
72
12. HI-KVADRAT TEST Testiranje hipoteza o parametrima osnovnih skupova pomoću uzorka temelji se na određenim teorijskim pretpostavkama. Često se, primjerice, pretpostavlja da slučajni uzorak potječe iz normalne ili neke druge distribucije poznatih općih karakteristika. Da bi se ispitala pretpostavka o obliku distribucije populacije iz koje potječe uzorak rabi se χ 2 -test (hi-kvadrat test). Testira se hipoteza o distribuciji osnovnog skupa s pretpostavljenim parametrima. Test veličina temelji se na empirijskom χ 2 koji ovisi o razlikama među očekivanim frekvencijama prema modelu navedenom u nultoj hipotezi i empirijskim frekvencijama distribucije. Provedba χ 2 -testa o obliku distribucije populacije počiva na slučajnom uzorku n članova koji predočuju oblike kvantitativne ili kvalitativne varijable. Postupku testiranja prethodi razvrstavanje n podataka iz uzorka prema načelu iscrpnosti i isključivosti u k grupa., čime se dolazi do empirijske distribucije, odnosno statističkog niza. Slijedi izbor modela – teorijske distribucije s kojom se uspoređuje empirijska distribucija.. Ako parametri teorijske distribucije nisu poznati, procjenjuju se uporabom podataka iz uzorka. Na temelju pretpostavljene distribucije osnovnog skupa računaju se očekivane frekvencije koje se uspoređuju s empirijskim frekvencijama. Test polazi od ovih hipoteza: H 0
K
distribucija osnovnog skupa je specificiranog oblika
H 1
K
distribucija osnovnog skupa nije specificiranog oblika
Test- veličina je empirijski χ 2 , koji je 2
χ =
( f 1 − e1 )2 e1
+
predočen izrazom:.
( f 2 − e2 )2 ee
+ k
χ = ∑ 2
i =1
L
+
( f i
( f i − ei )2
− ei )
ei
+
L
+
( f k −e k )2 ek
2
ei
gdje je: f i = apsolutne frekvencije, ei = očekivane frekvencije prema distribuciji navedenoj u nultoj hipotezi. Ako je nulta hipoteza istinita, test veličina izračunana pomoću podataka iz dovoljno velikog uzorka približno distribuirana prema χ 2 - distribuciji s (k − g − 1) stupnjeva slobode, gdje je k broj grupa (članova statističkog niza), g je broj procijenjenih 73
parametara distribucije osnovnog skupa. Kada su parametri predstavljene distribucije poznati, g = 0 . se donosi usporedbom test-veličine χ 2 s teorijskom vrijednosti χ α 2 (k − g − 1) , gdje je α odabrana razina signifikantnosti, a (k − g − 1) broj stupnjeva slobode. Nulta se hipoteza prihvaća ako je empirijski χ 2 jednak teorijskoj vrijednosti χ 2 -distribucije ili manji od nje, a ne prihvaća kad je empirijski χ 2 veći od teorijske vrijednosti χ 2 distribucije. Odluka
Da bi primjena testa bila valjana, potrebno je da broj podataka bude dovoljno velik i da očekivane frekvencije nisu suviše male. Kriterij je: uzorak je dovoljno velik ako je n ≥ 30 • sve očekivane frekvencije ( ei) jednake 2 i veće, te ako ih je najmanje 50% jednako 5 i veće. •
Nekad se primjenjuje sljedeći kriterij: sve očekivane frekvencije (ei) moraju biti veće od 5, ako je broj stupnjeva slobode jednak 1. •
Ako se u distribuciji očekivanih frekvencija nađu manje od onih koje propisuje primijenjeno pravilo, pristupa se spajanju susjednih grupa, čime se mijenja i broj stupnjeva slobode. Primjer 12.1
Ispituje se učestalost zastoja strojeva na jednoj proizvodnoj liniji po radnoj smjeni. Analizom 400 radnih smjena dobiveni su rezultati: Broj zastoja Broj smjena
0 35
1 115
2 130
3 75
4 30
5 10
6 5
Može li se prihvatiti pretpostavka da se učestalost zastoja po smjeni ravna po binomnoj distribuciji? Testira se na razini signifikantnosti 5%. 6
Binomna distribucija:
p( x ) = p x q n − x , x
Procjena parametra p:
ˆ , x = n p
ˆ = p
x =
0, 1, 2, …, 6
x n
74
k
∑1 f x i
x =
i=
k
∑1 f
i
=
35 × 0 + 115 × 1 + 130 × 2 + 75 × 3 + 30 × 4 + 10 × 5 + 5 × 6 400
=2
i
i=
ˆ = p
x n
=
2 6
qˆ = 1 − pˆ = 1 − 0,33333 = 0,66667
= 0 ,33333
Pretpostavljena binomna distribucija s procijenjenim parametrima: 6 x = 0, 1, 2, …, 6 p( x ) = × 0,33333 x × 0,66667 6− x , x
Očekivane frekvencije: ei
= 400 p ( xi ) .
Broj zastoja Broj smjena xi
f i
p(xi)
ei = n·p(xi)
0 1 2 3 4 5 6 Ukupno
35 115 130 75 30 10 5 400
0,0878 0,2634 0,3292 0,2195 0,0823 0,0165 0,0014 1,0000
35,118 105,351 131,687 87,790 32,921 6,584+0,549 * 392,8673
(f i - ei) − 0,118
9,649 − 1,687 − 12,790 − 2,921 7,867 * 0,000
(f i - ei)
2
0,0138 93,0960 2,8468 163,5887 8,5312 61,8939 *
2
(f i - ei) / ei
0,00039 0,88367 0,02162 1,86341 0,25914 8,67745 * 11,70569
* Očekivana frekvencija posljednje grupe (0,5487) manja je od 2, stoga je treba pribrojiti prethodnoj očekivanoj frekvenciji (6,5841). Razlika 7,8673 dobivena je ovako: (10+5) – (6,584+0,549)=7,867. Test-veličina (empirijski hi-kvadrat) je:
χ 2 = 11,70569
Hipoteze glase: H 0
H 1
K
K
distribucija osnovnog skupa ravna se prema binomnoj distribuciji distribucija osnovnog skupa ne ravna se prema binomnoj distribuciji
Razina signifikantnosti: α
= 0,05. Broj stupnjeva slobode df = (k − g − 1) = 6 – 1 – 1= 4 jer je procijenjen jedan parametar, a dvije su posljednje numeričke grupe spojene u jednu. χ α 2 (df ) = χ 02, 05 (4 ) = 9,48773 Odluka:
empirijski hi-kvadrat (11,70569) veći je od teorijske vrijednosti (9,48773) i pada u područ je odbacivanja nulte hipoteze. Na danoj razini signifikantnosti ne prihvaća se pretpostavka da uzorak potječe iz osnovnog skupa koji se ravna prema binomnoj distribuciji.
75
Primjer 12.2
Promatra se broj prometnih nezgoda pa danima u jednom gradu: rezultati promatranja navedeni su u tabeli: Broj nezgoda Broj dana
0 44
1 37
2 15
3 3
4 1
Može li se prihvatiti pretpostavka da je distribucija nezgoda po danima raspoređena po Poissonovoj distribuciji s parametrom λ =0,9? Testira se na razini 1% signifikantnosti.
Poissonova distribucija:
p ( x ) =
e
−0 , 9
0,9 x , x!
x =
0, 1, 2, …
Očekivane frekvencije: ei = 100 p( xi ) Broj nezgoda
Broj smjena
xi
f i
p(xi)
ei = n·p(xi)
(f i - ei)
(f i - ei)2
(f i - ei)2 /ei
0 1 2 3 ≥4 Ukupno
44 37 15 3 1 100
0,40657 0,36591 0,16466 0,04940 0,01346 1,00000
40,657 36,591 16,466 4,940+1,346 * 100
3,343 0,409 − 1,466 − 2,286 * 0,000
11,1759 0,1671 2,1494 5,2244 *
0,27488 0,00457 0,13053 0,83116 * 1,24114
* Očekivana frekvencija posljednje grupe (1,346) manja je od 2, stoga je treba pribrojiti prethodnoj očekivanoj frekvenciji (4,940). Razlika − 2,2857 dobivena je ovako: (3+1) – (4,94+1,346)= − 2,286 Test-veličina (empirijski hi-kvadrat) je:
χ 2 = 1,24114
Hipoteze glase: H 0
H 1
K
K
distribucija osnovnog skupa ravna se prema Poissonovoj distribuciji distribucija osnovnog skupa ne ravna se prema Poissonovoj distribuciji
= 0,01. Broj stupnjeva slobode df = (k − g − 1) = 4 – 0 – 1= 3 jer je parametar pretpostavljene distribucije poznat, a dvije su posljednje numeričke grupe spojene u jednu. Razina signifikantnosti: α
χ α 2 (df ) = χ 02, 01 (3) = 11,34487 Odluka:
empirijski hi-kvadrat (1,24114) manji je od teorijske vrijednosti (11,34487) i pada u područ je prihva ćanja nulte hipoteze. Na danoj razini signifikantnosti prihvaća se pretpostavka da uzorak potječe iz osnovnog skupa koji se ravna prema Poissonovoj distribuciji.
76
Kod testiranja hipoteze o distribuciji kontinuirane varijable osnovnog skupa, preporučuje se provesti postupak formiranja razreda distribucije frekvencija na temelju podataka iz uzorka tako da svakom razredu pripadne približno jednaka očekivana frekvencija. Primjer 12.3
Mjerenjem brzine vozila na jednoj dionici prometnice dobiveni su sljedeći podaci (u km/h): Brzina vozila 50-60 Broj vozila 3
60-70 6
70-80 15
80-90 21
90-100 12
100-110 4
110-120 2
120-130 1
Može li se prihvatiti pretpostavka da je distribucija brzine vozila oblika normalne distribucije? Testira se na razini signifikantnosti 5%. Normalna distribucija N ( µ , σ 2 ) je distribucija kontinuirane slučajne varijable. 8
∑ f i xi
Aritmetička sredina uzorka: x =
i =1
=
8
∑ f i
5380 = 84,0625 64
i =1
8
2 ∑ f i ( xi - x )
12743 ,75 = 202 ,2817 63 n −1 Neprostrana procjena standardne devijacije: σ ˆ = 202,2817 = 14,2226 ˆ 2 Varijanca uzorka: σ
Brzina vozila (prave granice) do 70 70-80 80-90 90-100 100 i više Ukupno
=
i =1
=
2
f i
p(xi)
ei = n·p(xi)
(f i - ei)
(f i - ei)
9 15 21 12 7 64
0,1612 0,2263 0,2741 0,2255 0,1129 1,0000
10,3168 14,4832 17,5424 14,432 7,2256 64
-1,3168 0,5168 3,4576 -2,432 -0,2256
1,7340 0,2671 11,9550 5,9146 0,0509
2
(f i - ei) /ei
0,1681 0,0184 0,6815 0,4098 0,0070 1,2849
Vjerojatnost da normalno distribuirana slu čajna varijabla poprimi vrijednost u granicama 70 − 84,0625 prvog razreda: P( X < 70 ) = P Z < = 0,5 − 0,3388 = 0,1612 14,2226
drugog razreda:
P(70 < X < 80) = P(− 0,989 < Z < −0,286 ) = 0,3388 − 0,1125 = 0,2263
trećeg razreda: četvrtog razreda: petog razreda:
P(80 < Z < 90) = P(−0,286 < Z < 0,417) = 0,1125 + 0,1616 = 0,2741 P(90 < Z < 100) = P (0,417 < Z < 1,121) = 0,3871 − 0,1616 = 0,2255 P(100 < Z ) = P(1,121 < Z ) = 0,5 − 0,3871 = 0,1129
77
χ 2 = 1,2849
Test-veličina (empirijski hi-kvadrat) je: Hipoteze glase: H 0
H 1
K
K
distribucija osnovnog skupa ravna se prema normalnoj distribuciji distribucija osnovnog skupa ne ravna se prema normalnoj distribuciji
= 0,05. Broj stupnjeva slobode df = (k − g − 1) = 5 – 2 – 1= 2 jer distribucija ima 5 razreda, a 2 parametra pretpostavljene distribucije su procijenjena, Razina signifikantnosti: α
χ α 2 (df ) = χ 02, 05 (2 ) = 5,99146 Odluka:
empirijski hi-kvadrat (1,2849) manji je od teorijske vrijednosti (5,99146) i pada u područ je prihvaćanja nulte hipoteze. Na danoj razini signifikantnosti prihva ća se pretpostavka da uzorak potje če iz osnovnog skupa koji se ravna prema normalnoj distribuciji.
Vježbe
Kontrolor prilazi automatu u jednakim vremenskim razmacima i redovito pregledava uzorak od 10 proizvoda, utvr đujući broj loših proizvoda u uzorku. Nakon 60 obilazaka kontrolor je dobio sljede će podatke: 1.
Broj loših proizvoda Broj obilazaka
0 5
1 15
2 18
3 16
4 4
5 2
Može li se prihvatiti pretpostavka da je osnovni skup iz kojeg potje ču podaci oblika binomne distribucije? Testira se na razini signifikantnosti 5% U jednoj telefonskoj centrali bilježe se pogrešni spojevi po minutama. Motrenjem tijekom 50 minuta dobiveni su sljede ći podaci
2.
Broj pogrešnih spojeva Broj minuta
0 7
1 15
2 12
3 9
4 4
5 2
6 1
Može li se prihvatiti pretpostavka da navedeni podaci potje ču iz osnovnog skupa koji se raspoređuje prema Poissonovoj distribuciji s parametrom 2 pogrešna spoja u minuti. Testira se na razini signifikantnosti 5% 3.
Uzorak od 60 doma ćinstava dao je ovu dnevnu potrošnju mesa u kg: Dnevna potrošnja mesa Broj domaćinstava
0-0,3 7
0,3-0,6 15
0,6-0,9 12
0,9-1,2 9
1,2-1,5 4
1,5-1,8 1
Može li se prihvatiti pretpostavka da mjerenja dnevne potrošnje mesa u doma ćinstvima potječu iz normalno distribuiranog osnovnog skupa Testira se na razini signifikantnosti 1%. 78
13. REGRESIJSKA ANALIZA Regresijska analiza sastoji se u primjeni različitih metoda ispitivanja ovisnosti jedne varijable o drugoj varijabli ili više njih. Osnova analize je regresijski model. Regresijski model je algebarski model kojim kojim se analitički izražava izražava statistički odnos odnos među pojavama.
13.1. Model jednostavne linearne regresije Model jednostavne regresije sadrži zavisnu (regresand ili output) i jednu nezavisnu (regresorsku ili input) varijablu. Prvi korak u analizi odnosa među dvjema pojavama sastoji se u crtanju dijagrama rasipanja. Prema rasporedu točaka donosi se prvi sud o obliku, smjeru i jakosti veze među varijablama.
79
Opći oblik modela jednostavne linearne regresije je Y = f ( X ) + e . Funkcionalni dio modela je f ( X ) = α + β X . Varijabla e izražava nesistemske utjecaje na zavisnu varijablu i model čini statističkim. Regresijska analiza provodi se na temelju n parova vrijednosti varijabli X i Y , pa se model predočuje sustavom sustavom n jednadžbi y i = α + β x i + ei ,
i = 1 , 2 ,
, n
K
Jednadžba pravca (funkcionalni dio modela) određen je ako su poznati parametri α i β . Neka su a i b procjene parametara i procjene nepoznatih vrijednosti varijable e jednake ui (rezidualna odstupanja). Model linearne regresije s procijenjenim parametrima je: yi = yˆ i + u i ,
i = 1 , 2 ,
y i = a + bx i + u i
i = 1 , 2 ,
, n
K
odnosno , n
K
Do procjena a i b dolazi se primjenom metode najmanjih kvadrata. Ona se sastoji u traženju onih procjena parametara za koje rezidualni zbroj kvadrata postiže minimum. Primjenom postupka minimalizacije dolazi se do sustava normalnih jednadžbi čije je rješenje : n
∑1 x y − n ⋅ x ⋅ y i
b=
i
i=
n
∑1 x
i
2
− n ⋅ x
,
a = y − b ⋅ x
2
i=
n
gdje je
y =
∑1 y
n
i
i=
n
i
x =
∑1 x
i
i=
n
Model yˆ = a + bx naziva se linearnom regresijskom jednadžbom s procijenjenim parametrima. Parametar a je konstantni član (vrijednost regresijske funkcije ako je vrijednost nezavisne varijable jednaka nuli). Parametar b je regresijski koeficijent (predočuje iznos linearne promjene regresijske vrijednosti za jedinično povećanje vrijednosti varijable X ).). Regresijske vrijednosti yˆ i = a + bxi ,
i = 1 , 2 ,
, n
K
predočuju procjene vrijednosti zavisne varijable za dane stvarne vrijednosti nezavisne varijable. Razlike vrijednosti zavisne varijable Y i regresijskih vrijednosti ( yˆ ˆ ) čine rezidualna odstupanja ( ui = y i − yˆ i ). 80
Primjer 13.1
Uprava lanca prodavaonica želi da razvije model za predviđanje tjedne prodaje. Razmotreno je više regresorskih varijabli i odlučeno da se koristi samo jedna (broj kupaca) za predviđanje zavisne varijable (tjedna prodaja). U 20 prodavaonica prikupljeni su sljedeći podaci: Tjedna prodaja (u tisućama kuna) 112 110,5 68,4 92,1 94,2 100,8 94,5 67,3 72,4 61,2
Prodavaonica Broj kupaca 1 2 3 4 5 6 7 8 9 10
907 926 506 741 789 889 874 510 529 420
Prodavaonica Broj kupaca 11 12 13 14 15 16 17 18 19 20
679 872 924 607 452 729 794 844 1010 621
Tjedna prodaja (u tisućama kuna) 76,3 94,3 94,6 76,4 69,2 89,5 93,3 102,3 117,7 74,1
a) Konstruirajte dijagram rasipanja b) Procijenite vrijednosti parametara regresijskog modela pretpostavivši da među varijablama postoji linearna statistička veza. Regresijsku funkciju prikažite u dijagramu rasipanja. c) Izračunajte regresijske vrijednosti i vrijednosti rezidualnih odstupanja. a) Kupaci i tjedna prodaja 130 120
) n k 0 0 0 ( a j a d o r p a n d e j T
110 100 90 80 70 60 50 40 400
500
600
700
800
900
1000
1100
Broj kupaca (xi)
n
b)
n =20,
x =
∑1 x i=
n
14623 = = 731,15 n 20 i
y =
∑1 y i=
n
i
=
1761,1 = 88,055 20
81
Prodavaonica
Broj kupaca
Tjedna prodaja (000 kn)
xi
yi
xi
907 926 506 741 789 889 874 510 529 420 679 872 924 607 452 729 794 844 1010 621 14623
112,0 110,5 68,4 92,1 94,2 100,8 94,5 67,3 72,4 61,2 76,3 94,3 94,6 76,4 69,2 89,5 93,3 102,3 117,7 74,1 1761,1
822649 857476 256036 549081 622521 790321 763876 260100 279841 176400 461041 760384 853776 368449 204304 531441 630436 712336 1020100 385641 11306209
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Ukupno
2
xi· yi
101584 102323 34610,4 68246,1 74323,8 89611,2 82593 34323 38299,6 25704 51807,7 82229,6 87410,4 46374,8 31278,4 65245,5 74080,2 86341,2 118877 46016,1 1341279
n
∑1 x y i
b=
i= n
i
− n x y
∑1 x 2 − n x 2
=
1341279 − 20 × 731,15 × 88,055 = 0,0873 11306209 − 20 × 731,15 2
i
i=
a = y − b x = 88 ,055 − 0,0873 × 731,15 =
Linearna regresijska jednadžba:
24,2256 ≈ 24,23
ˆ i = 24 ,23 + 0 ,0873 xi , y
i = 1, 2, 3, …, 20
Kupaci i tjedna prodaj a s regre sijskim pravcem 130 120 ) n k 0 0 0 ( a j a d o r p a n d e j T
110 100 90 80 70 60 50 40 400
500
600
700
800
900
1000
1100
Broj kupaca (xi)
82
c) Broj kupaca
Tjedna prodaja (000 kn)
Regresijske vrijednost
Rezidualna odstupanja
Relativna rezidualna odstupanja (u%)
x i
y i
ˆ i y
ui
u i ,rel
907 926 506 741 789 889 874 510 529 420 679 872 924 607 452 729 794 844 1010 621 14623
112,0 110,5 68,4 92,1 94,2 100,8 94,5 67,3 72,4 61,2 76,3 94,3 94,6 76,4 69,2 89,5 93,3 102,3 117,7 74,1 1761,1
103,4111 105,0698 68,4038 88,9193 93,1097 101,8397 100,5302 68,7530 70,4117 60,8960 83,5067 100,3556 104,8952 77,2211 63,6896 87,8717 93,5462 97,9112 112,4030 78,4433 1761,1879
8,5889 5,4302 -0,0038 3,1807 1,0903 -1,0397 -6,0302 -1,4530 1,9883 0,3040 -7,2067 -6,0556 -10,2952 -0,8211 5,5104 1,6283 -0,2462 4,3888 5,2970 -4,3433 -0,0879
7,67 4,91 -0,01 3,45 1,16 -1,03 -6,38 -2,16 2,75 0,50 -9,45 -6,42 -10,88 -1,07 7,96 1,82 -0,26 4,29 4,50 -5,86 -
Relativna rezidualna odstupanja:
u i ,rel =
ˆ i y i − y y i
× 100 ,
i = 1 , 2 ,
, n
K
Statističko-analitičke veličine za prosudbu reprezentativnosti regresije temelje se na raščlanjivanju zbroja kvadrata odstupanja vrijednosti zavisne varijable od njezina prosjeka. Odstupanje zavisne varijable Y od njezine aritmetičke sredine Y za pojedinu točku ( xi , yi ) može se raščlaniti: ( yi − y ) = ( yˆ i − y ) + ( yi − yˆ i ) .
83
Navedenih raščlambi ima koliko i parova vrijednosti, odnosno n. Kvadriranjem izraza i zbrajanjem članova dolazi se do jednadžbe: n
∑1 ( y
2
i
− y ) =
i=
n
n
∑1 ( yˆ − y ) + ∑1 ( y 2
i
i=
i
ˆ i ) − y
2
i=
Zbroj kvadrata empirijskih vrijednosti zavisne varijable od njezine aritmetičke sredine (ukupni zbroj kvadrata, ST ) rastavlja se na dvije komponente. Prva komponenta je zbroj kvadrata odstupanja regresijskih vrijednosti od aritmetičke sredine zavisne varijable (zbroj kvadrata protumačen modelom, SP). Druga komponenta je neprotumačeni dio zbroja kvadrata ili zbroj kvadrata rezidualnih odstupanja (SR). Varijanca regresije je aritmetička sredina kvadrata rezidualnih n
2
σ yˆ =
Standardna devijacija je: σ yˆ = σ yˆ 2
∑1 ( y
i
ˆ i ) − y
odstupanja:
2
i=
n
. Koeficijent varijacije je:
V yˆ =
σ yˆ y
× 100 .
Specifičan pokazatelj reprezentativnosti regresije je koeficijent determinacije regresije: n
∑1 ( yˆ − y )2 i
2
r =
i= n
∑1 ( y
i
− y )
2
i=
Koeficijent determinacije je proporcija modelom protumačenoga dijela zbroja kvadrata u ukupnom zbroju kvadrata. On se kreće u granicama između nule i jedan. Model je reprezentativniji što je koeficijent determinacije bliži jedinici. Analiza modela jednostavne regresije u sklopu deskriptivne statistike svodi se na određivanje analitičkog izraza i prosudbi njegove kakvoće, pri čemu se odstupanja od funkcionalnog dijela ne specificiraju. Primjena načela inferencijalne statistike u svezi je s regresijskim modelom u kojemu je varijabla e slučajna varijabla određenih svojstava. Varijabla e je u kombinaciji s funkcionalnim dijelom modela, pa je i zavisna varijabla također slučajna varijabla. Za fiksne vrijednosti nezavisnih varijabli u (teorijski) ponovljenim realizacijama zbog prisutnosti slučajne varijable e generiraju se različite vrijednosti zavisne varijable. Stoga se empirijske vrijednosti zavisne varijable smatraju uzorkom iz (zamišljenog, beskonačnog) osnovnog skupa, a sam polazni model modelom osnovnog skupa. 84
Polazni model osnovnog skupa (populacije) je: y i = α + β xi + ei ,
i = 1 , 2 ,
, n
K
Teorijske pretpostavke za analizu modela su: Svojstva zavisne varijable Y (1) (2)
E [ y i xi ] = α + β xi
Svojstva slučajne varijable e E [ei ] = 0 , ∀i
var ( y i xi ) = σ
var (ei ) = σ 2
(3) (4)
cov ( y i , y j ) = 0 , i ≠ j
2
y i ∼ N (α + β xi ,σ
2
cov(ei , e j ) = 0
)
ei ∼ N (0 ,σ
2
)
Slučajna varijabla e zove se greška relacije, jer bi model bio deterministički kad bi svaka njezina vrijednost bila jednaka nuli. Njezina prisutnost izražava efekte nepredvidivih utjecaja na zavisnu varijablu i efekte izostavljenih varijabli iz modela. Neka n vrijednosti zavisne varijable Y čine uzorak iz beskonačno velikog osnovnog skupa, ˆ procjene nepoznatih parametara, a eˆ procjene nepoznatih vrijednosti ˆ i β i neka su α i varijable e . Model uzorka je: ˆ x + eˆ , ˆ + β yi = α i i
odnosno,
eˆ i
, n
K
ˆ x , ˆ + β ˆ i = α y i
ˆ i + eˆ i , yi = y
Procjene grešaka relacije
i = 1 , 2 ,
i = 1 , 2 ,
, n
K
zovu se rezidualna odstupanja.
Izrazi za procjenu nepoznatih parametara brojem su: n
ˆ = β
∑1 x y i
i
− n x y
i=
n
∑1 x 2 − n x 2
ˆ x . ˆ = y − β α
,
i
i=
Procjena β ˆ zove se regresijski koeficijent, a procjena
ˆ α
konstantni član.
Izrazi za procjenu varijance osnovnog skupa, standardne devijacije i koeficijenta varijacije su: n
ˆ 2 = σ
∑1 ( y
i
ˆ i ) − y
i=
n−2
2
,
ˆ = σ ˆ 2 , σ
ˆ ˆ = σ 100 V y
85
Ako su ispunjene polazne pretpostavke u analizi modela, sampling-distribucija procjenitelja parametara poznatog je oblika. Dani oblik sampling-distribucije omogućuje da se formiraju intervalne procjene parametara i donese sud o preciznosti procjena i njihovoj pouzdanosti. Kad je varijanca normalno distribuiranog osnovnog skupa poznata, intervalna procjena parametra β je: ˆ − zσ < β < β ˆ + zσ β ˆ ˆ β β
Kad varijanca normalno distribuiranog osnovnog skupa nije poznata, sampling-distribucija procjenitelja parametra β oblika je Studentove distribucije s (n − 2) stupnja slobode, pa je intervalna procjena parametra β : ˆ − t σ < β < β ˆ + t σ β ˆ ˆ β β
Standardna greška procjene (standardna devijacija sampling-distribucije regresijskih koeficijenata) je n
σ β ˆ =
ˆ σ
2
n
∑1 x 2 − n x 2
∑1 ( y
ˆ 2 = σ
,
i
ˆ i ) − y
2
i=
n−2
i
i=
Intervalna procjena parametra α (varijanca normalno distribuiranog skupa je poznata): ˆ − zσ α ˆ < α < α ˆ + zσ α ˆ α
odnosno (varijanca normalno distribuiranog skupa nije poznata): ˆ − t σ α ˆ < α < α ˆ + t σ α ˆ α n
ˆ 2 ∑ x i2 σ
Standardna greška procjene je:
σ α ˆ =
i =1
n
n
∑
i =1
2
2
xi − n x
Regresijski model s procijenjenim parametrima rabi se za predviđanje (prognozu) razine zavisne varijable. Predviđanje se provodi brojem i intervalom. Prognostička vrijednost izračunava se uvrštenjem pretpostavljene vrijednosti nezavisne varijable u regresijsku jednadžbu ˆ x ˆ + β ˆ f = α y f
Sampling-distribucija procjenitelja zavisne varijable oblika je Studentove distribucije s 86
(n − 2) stupnja slobode, pa je prognostički interval zavisne varijable za pretpostavljenu
vrijednost nezavisne varijable x f oblika: ˆ f − t σ yˆ < Y f < y ˆ f + t σ yˆ y f f
Standardna greška procjene je:
ˆ 1 + σ yˆ = σ f
1 n
( x
+
− x )
2
f
n
∑1 x 2 − n x 2 i
i=
za model jednostavne regresije oslanja se na raščlambu zbroja kvadrata odstupanja empirijskih vrijednosti zavisne varijable od njezine aritmetičke sredine. S formalnog stajališta jednaka je dekompoziciji predočenoj za model jednostavne regresije u sklopu deskriptivne statistike. Analiza varijance
n
∑ ( yi
2
− y ) =
i =1
n
∑ ( yˆ i
2
− y ) +
i =1
n
∑1 ( y
i
ˆ i ) − y
2
i=
U razvijenom obliku zbrojevi kvadrata dani su jednadžbama: n
ST =
∑ ( y
2
i
− y ) =
i =i
n
SP =
∑1
i
n
n
∑1
∑1
ˆ x y − n y 2 ˆ yi + β ˆ i − y ) = α ( y i i 2
i =i
SR =
∑1 y 2 − n y 2 i=
∑ n
n
i=
2
( yi − yˆ i ) =
i=
n
∑1
i=
n
∑1
2
i=
n
∑1 x y
ˆ y i − β
ˆ yi − α
i=
i
i
i=
Procjene varijance i komponenti (sredine kvadrata, mean squares) određuju se tako da se pojedini zbrojevi kvadrata podijele pripadajućim stupnjevima slobode. Veličine za analizu varijance predočeni su u tabeli analize varijance ( ANOVA, Analysis of Variance). Izvor varijacija
Stupnjevi slobode
Sredina kvadrata
n
Protumačen modelom
1
Rezidualna odstupanja
n−2
Ukupno
Zbroj kvadrata SP =
∑( yˆ − y )2 i
SP / 1
i =i
n
SR =
∑1 ( y
2
SR / (n−2)
2
--
i
ˆ i ) − y
∑ ( y
− y )
i=
n
n−1
ST =
i
i =i
87
Veličine u tabeli analize varijance primjenjuju se u različitim postupcima. Primjerice, rezidualna sredina kvadrata procjena je varijance osnovnog skupa, omjer protumačenog i ukupnog zbroja kvadrata je koeficijent determinacije, F-omjer je test veličina u postupku testiranja hipoteza o značajnosti regresije, itd. U praksi se testira hipoteza o značajnosti parametra uz nezavisnu varijablu. Nulta hipoteza sadrži tvrdnju da je parametar osnovnog skupa β = 0 , a alternativna hipoteza da je parametar osnovnog skupa β ≠ 0 . Ako je nulta hipoteza istinita i ako su ispunjene pretpostavke o modelu, test veličina n
F =
SP / 1
∑1 ( yˆ − y )2 / 1 i
SR / (n − 2)
=
i=
ˆ 2 σ
pripada F-distribuciji sa [1 , n − 2] stupnjeva slobode. Odluka se donosi usporedbom empirijskog F-omjera s teorijskom vrijednosti F-distribucije za razinu signifikantnosti α i broj stupnjeva slobode [1 , n − 2] . Nulta hipoteza se prihvaća ako je empirijski Fomjer manji od teorijske vrijednosti F-distribucije, u protivnom se ona ne prihvaća. Odluka se ekvivalentno donosi na temelju p-vrijednosti (nulta hipoteza se prihvaća ako je p-vrijednost veća od α )
13.2. Jednostavna krivolinijska regresija Odnosi među dvjema pojavama mogu biti nelinearni. Model kojim se izražavaju ti odnosi naziva se modelom jednostavne krivolinijske regresije. Neki od njih lineariziraju se prikladnom transformacijom varijabli, te se analiziraju na isti način kao i model jednostavne linearne regresije. Najčešće se provodi logaritamska transformacija nezavisne i zavisne varijable ili obiju varijabli, zatim recipročna transformacija nezavisne ili zavisne varijable, i tome slično. Pregled odabranih transformacija koje se odnose na funkcionalni dio modela prikazan je u tabeli. Oblik modela
Transformacije varijabli
Linearizirani oblik modela
β x
ln y
β
log y ,log x
log y = log α + β log x
y = αβ
x
log y
log y = log α + x log β
y = α + β log x
log x
y = α + β log x
1
1
1
α + β x
y
y
y = α e y = α x
y =
ln y = ln α + β x
= α + β x
88
Primjer 13.2
Proizvodnja proizvoda u tisućama komada (varijabla X ) i prosječni troškovi proizvodnje (varijabla Y ) iznose: 550 60
y i x i
580 54
620 50
700 45
750 36
815 32
895 25
997 23
1195 18
1541 10
a) Konstruirajte dijagram rasipanja s aritmetičkim mjerilima na osima, te s logaritamskim transformiranim vrijednostima varijabli. b) Procijenite parametre regresijskog modela: yi = α xiβ ε i , i = 1 , 2 , , n . Kako glasi jednadžba s procijenjenim parametrima? Izra čunajte regresijske vrijednosti. c) Odredite sve elemente u tabeli ANOVA ˆ , r 2 , r 2 ,σ β ˆ d) Izračunajte ove veličine: . σ e) Odredite granice 95%-tnog intervala procjene parametra β . K
a)
Proizvodnja i prosje čni troškovi (logaritamske vrijednosti)
Proizvodnja i prosječni troškovi
3,2 3,15
1800 1600 i v o k š o r t i n č
e j s o r p
3,1
1400
800
) i v o k š o r t (
600
o l
1200
3,05
3 2,95 2,9 g
1000
400
2,85 2,8
200
2,75
0
2,7
0
10
20
30
40
50
60
70
1
1,1
xi
yi
60 54 50 45 36 32 25 23 18 10 353
550 580 620 700 750 815 895 997 1195 1541 8643
log xi 1,77815 1,73239 1,69897 1,65321 1,55630 1,50515 1,39794 1,36173 1,25527 1,00000 14,93912
log xi· log yi log yi 2,74036 4,87278 2,76343 4,78735 2,79239 4,74419 2,84510 4,70355 2,87506 4,47447 2,91116 4,38173 2,95182 4,12647 2,99870 4,08341 3,07737 3,86294 3,18780 3,18780 29,14319 43,22468
1,3
1,4
1,5
1,6
1,7
1,8
log (proizvodnja)
proizvodnja (u tisuć ama komada)
b) Logaritamski oblik modela osnovnog skupa: ˆ log x + log εˆ ˆ + β Model uzorka: log yˆ i = log α i i
1,2
log y i = log α + β log xi + log ε i
log2 xi 3,16182 3,00119 2,88650 2,73311 2,42208 2,26548 1,95424 1,85430 1,57571 1,00000 22,85442
log yˆ i
ˆ i y
2,74872 2,77538 2,79485 2,82151 2,87797 2,90777 2,97023 2,99133 3,05335 3,20208 29,14319
560,68289 596,17838 623,51849 662,99195 755,03885 808,67018 933,75591 980,23691 1130,71545 1592,49632 8644,28533
89
1 n
n 14 ,93912 × 29 ,14319 − log x log y log x log y ∑ ∑ ∑ i i i i 43 ,22468 − n i =1 i =1 = 10 ˆ = i =1 = − 0,58261 β 2 2 n n 14 93912 , 1 2 22 ,85442 − log xi − ∑ log xi ∑ 10 n i =1 i =1 n
n
ˆ = log α
∑1 log y i=
n
i
1 ˆ − β n
29 ,14319
n
∑1 log x = i
10
i=
− (− 0 ,58261)
14 ,93912 =3,78469 10
Jednadžba s procijenjenim parametrima:
ˆ = 3 ,78469 − 0 ,58261 log x log y
Jednadžba u nelogaritamskom obliku:
ˆ = 6091 ,01964 x −0 ,58261 y
c)
d)
Izvor varijacije Protumačen regresijom Rezidualna odstupanja Ukupno
Stupnjevi slobode 1 8 9
Procjena varijance regresije Procjena standardne devijacije regresije Koeficijent determinacija Korigirani koeficijent determinacije
Suma kvadrata 0,1822 0,001969 0,1841
Sredina kvadrata 0,1822 0,00024651 -
0,0002461 0,01569 0,9893 0,9880
Korigirani koeficijent determinacije, r 2
računa se pomoću koeficijenta determinacije, a u njegovom računanju uzima se u obzir i broj stupnjeva slobode odnosno veličina uzorka: 2
r = 1 −
e)
n −1 n−2
(1 − r 2 )
ˆ − t σ < β < β ˆ + t σ ) = 0 ,95 Granice intervala procjene parametra: P( β ˆ ˆ β β P (− 0 ,58261 − 2 ,306 × 0 ,02141 < β < −0 ,58261 + 2 ,306 × 0 ,02141 ) = 0 ,95 P (− 0 ,63198 < β < −0 ,53323 ) = 0 ,95
U sklopu potpore EXCEL-a nalazi se program za regresijsku analizu (Tools ⇒ Data Analysis ⇒ regression … izbor zavisne i nezavisne varijable …lokacija podataka … izbor mjesta ispisa ...) Ako je riječ o regresijskim modelima koji se lineariziraju, potrebno je provesti transformaciju varijabli. U tu svrhu se rabe odgovarajuće funkcije (Insert ⇒ f x Function ⇒ Math&Trig ⇒ ..ln…log10) Primjenom EXCEL-a dobivaju se ovi rezultati:
90
SUMMARY OUTPUT
Regression Statistics Multiple R 0,994640116 R Square 0,98930896 Adjusted R Square 0,98797258 Standard Error 0,015687055 Observations 10 ANOVA
df 1 8 9
Regression Residual Total
SS 0,182173334 0,001968669 0,184142003
MS 0,182173334 0,000246084
Coefficients Standard Error 3,784691563 0,032371617 -0, 58261313 0,021413086
Intercept log x
t Stat 116,9138856 -27,20827412
F 740,29018
P-value 3,202E-14 3,588E-09
Significance F 3,5876E-09
Lower 95% 3,71004248 -0,631991792
Upper 95% 3,859340647 -0,53323446
RESIDUAL OUTPUT Observation 1 2 3 4 5 6 7 8 9 10
Predicted log y 2,748717305 2,775376219 2,794849338 2,821508253 2,877969298 2,907771429 2,970233365 2,991331052 3,053353325 3,202078437
Residuals Standard Residuals -0,008354615 -0,56488665 -0,011948226 -0,807864039 -0,002457649 -0,166170773 0,023589787 1,594993353 -0,002908035 -0,196623072 0,003386179 0,228952196 -0,01841033 -1,244790934 0,007364106 0,497914644 0,02401458 1,623715177 -0,014275799 -0,965239902
Vježbe
Procjenjuju se parametri modela yi = α + β xi + ei , i = 1, 2,…, n. Postupak se provodi na temelju 12 parova vrijednosti varijable X (prodajna cijena u eurima po kg) i potrošnja proizvoda po stanovniku (zavisna varijabla, u kg). Potrošnja i cijene za 12 područ ja jednog tržišta dane su u tabeli: 1.
Potrošnja Cijena
a) b) c) d) e)
63,9 67,2
63,4 73,3
56,1 79,5
62,1 76,3
77,6 60,4
80,1 59,7
82,0 59,0
85,4 56,8
84,6 58,7
80,5 65,6
81,4 66,4
85,2 63,8
Napravite dijagram rasipanja. Što se zaključuje na temelju tog prikaza? Kako glasi linearna regresijska jednadžba s procijenjenim parametrima? Izračunajte regresijske vrijednosti, rezidualna odstupanja i relativna rezidualna odstupanja. Odredite sve elemente u tabeli ANOVA Kolika je procjena varijance, standardne devijacije, koeficijenta varijacije, koeficijenta determinacije i korigiranog koeficijenta determinacije?
91
f) Odredite granice intervala procjene (pouzdanost 95%) parametra β , parametra α, očekivane vrijednosti varijable Y za vrijednost nezavisne varijable x0 = 59,0. Zaduženja poslovnih banaka kod Centralne banke (zavisna varijabla, u mlrd. eura) i prosječna eskontna stopa (nezavisna varijabla, u %) bili su: 2.
Godina Zaduženje Eskontna stopa
1994. 353 3,11
1995. 380 3,29
1996. 448 3,90
1997. 521 4,37
1998. 601 4,52
1999. 624 4,34
2000. 705 5,00
2001 790 5,25
2002. 840 6,01
a) Konstruirajte dijagram rasipanja. b) Odnos zaduženja i eskontne stope predočuje se modelom jednostavne linearne jednadžbe, kako glasi model osnovnog skupa? ˆ ,σ ,σ ˆ , r 2 , r 2 . ˆ ,σ α ˆ , β c) Izračunajte ove vrijednosti: α ˆ ˆ ,V β d) Odredite granice 95%-tnog intervala procjene parametara uz regresorsku varijablu. e) Procijenite brojem i 95%-tnim intervalom opseg zaduženja poslovnih banaka kod Centralne banke ako je eskontna stopa 7%. f) Napravite tabelu ANOVA i interpretirajte rezultate regresijske analize. Ulaganja u reklamu u tisućama eura (varijabla X ) i ostvarena prodaja u tisućama komada (varijabla Y ) iznose: 3.
xi yi
370 71,0
200 30,0
350 87,7
150 25,0
230 38,0
100 23,8
400 89,0
266 50,0
340 65,0
280 61,0
a) Konstruirajte dijagram rasipanja s originalnim vrijednostima varijabli, a zatim s logaritamskim vrijednostima varijable Y i originalnim vrijednostima varijable X . b) Procijenite parametre regresijskog modela: yi = α e β ⋅ x ε i , i = 1, 2,…, n. i
ˆ ,σ ,σ ˆ , r 2 , r 2 . ˆ ,σ α ˆ , β c) Izračunajte ove vrijednosti: α ˆ ˆ ,V β d) Napravite tabelu ANOVA i interpretirajte rezultate regresijske analize. e) Procijenite brojem i 95%-tnim intervalom prodaju ako ulaganja u reklamu iznose 90 tisuća komada.
Na temelju 18 parova vrijednosti varijabli „osobna potrošnja“ (zavisna varijabla) i „raspoloživi dohodak“ (nezavisna varijabla) procijenjeni su parametri linearnog regresijskog modela. Regresijski koeficijent je 0,80348, a njegova standardna greška 0,07253. Vrijednost je konstantnog člana 439,213. 4.
a) Kako glasi model osnovnog skupa, a kako linearna regresijska jednadžba s procijenjenim parametrima? b) Može li se prihvatiti pretpostavka da varijabla „raspoloživi dohodak“ u modelu nije signifikantna? Testirajte na razini 5% signifikantnosti. Primijenite t -test. Pokažite da se do istog zaključka dolazi uporabom F -testa.
92
14. LINEARNA KORELACIJA Korelacijska analiza sastoji se u primjeni postupaka kojima se utvrđuju pokazatelji jakosti statističke veze među pojavama. Ako je povezanost po obliku linearna, govori se o linearnoj korelaciji. Polazna veličina za mjerenje jakosti i smjera povezanosti dviju pojava je kovarijanca. Po definiciji, kovarijanca je prvi mješoviti moment numeričkih varijabli X i Y . Ako se raspolaže parovima njihovih vrijednosti ( xi, yi), i = 1, 2, …, n, kovarijanca je: cov( X ,Y ) = µ 1 ,1 =
1 n
n
∑1 ( x
− x )( y i − y )
i
i=
ili u razvijenom obliku: µ 1 ,1 =
1 n
n
∑1 x y i
i
− x ⋅ y ,
1
x =
n
i=
n
∑1 x , i
i=
y =
1 n
n
∑1 y
i
i=
Ako parovi vrijednosti ( xi, yi), i = 1, 2,…, n čine uzorak, procjenitelj kovarijance osnovnog skupa je: ˆ 1 ,1 = µ
odnosno,
1
n
n −1
ˆ 1 ,1 = µ
∑1 ( x
i
− x )( y i − y )
i=
1 n −1
n
∑1 ( x y i
i
− n ⋅ x ⋅ y )
i=
Kovarijanca je jednaka nuli ako su sve vrijednosti barem jedne varijable međusobno jednake, pa je i varijanca (standardna devijacija) te varijable jednaka je nuli. Kovarijanca je veća od nule (pozitivna) ako postoji tendencija da iznadprosječne vrijednosti jedne varijable dolaze s iznadprosječnim vrijednostima druge varijable, i obrnuto. Postoji li tendencija da iznadprosječne vrijednosti jedne varijable prate ispodprosječne vrijednosti druge varijable, kovarijanca je manja od nule (negativna). Budući da je kovarijanca simetrična s obzirom na oznake varijabli, svejedno je koja će se varijabla označiti s X a koja s Y . Kovarijanca ovisi o mjernim jedinicama varijabli X i Y pa se njome prosuđuje postojanje kovarijacija među pojavama. Za mjerenje stupnja povezanosti pojava koristi se
93
kovarijanca standardiziranih vrijednosti varijabli X i Y , to jest Pearsonov koeficijent korelacije ili produkt moment formula: r =
µ 11 σ xσ y
,
− 1 ≤ r ≤ 1
Ovaj izraz može se razviti na više načina, a jedan od njih je: n
∑1 x y i
r =
i
− n ⋅ x ⋅ y
i=
n n 2 2 2 ∑ xi − n ⋅ x ∑ y i − n ⋅ y 2 i =1 i =1
Koeficijent poprima vrijednosti iz zatvorenog intervala od minus do plus jedan. Prve ocjene o stupnju i smjeru povezanosti varijabli mogu se donijeti na temelju dijagrama rasipanja.
94
Vrijednost koeficijenta jednaka nuli govori da ne postoji linearna korelacija među pojavama, vrijednost plus jedan da je potpuna i pozitivna smjera, a vrijednost minus jedan da je potpuna i negativnog smjera. Što je koeficijent po apsolutnoj vrijednosti bliži jedinici, veza je uža. Vrlo mala vrijednost koeficijenta ne mora nužno značiti da je slaba veza među pojavama, povezanost može biti uska ali krivolinijska. Primjer 14.1
Prikupljeni su sljedeći mjesečni podaci: xi yi
352 166
373 153
411 177
441 201
462 216
490 208
529 227
577 238
641 268
692 268
743 274
801 302
Varijabla X predočuje ukupno vrijeme za reklame na nacionalnoj televiziji u minutama, a varijabla Y prodaju proizvoda u tisućama komada. a) Konstruirajte dijagram rasipanja b) Izračunajte vrijednost kovarijance kao deskriptivno-statističke veličine. Odredite vrijednost procijenjene kovarijance osnovnog skupa. c) Izračunajte vrijednost Pearsonova koeficijenta korelacije. Što zaključujete ne temelju dobivenog rezultata. a)
Vrijeme za re klame i prodaja 350
300
) a d a m o k 250 a ć u s i t ( a 200 j a d o r P
150
100 300
400
500
600
700
800
900
Vrijeme za reklame (minuta)
n
b)
x =
∑1 x i=
n
n
i
=
6512 = 542,66667 12
y =
∑1 y i=
n
i
=
2698 = 224,83333 12 95
( xi
x i
y i
xi − x
y i − y
352 373 411 441 462 490 529 577 641 692 743 801 6512
166 153 177 201 216 208 227 238 268 268 274 302 2698
-190,66667 -169,66667 -131,66667 -101,66667 -80,66667 -52,66667 -13,66667 34,33333 98,33333 149,33333 200,33333 258,33333 0,00000
-58,83333 -71,83333 -47,83333 -23,83333 -8,83333 -16,83333 2,16667 13,16667 43,16667 43,16667 49,16667 77,16667 0,00000
Kovarijanca: µ 1 ,1
=
1
n
∑ ( x n 1
− x )( yi − y ) =
i
i=
( xi
− x )( y i − y )
11217,55556 12187,72222 6298,05556 2423,05556 712,55556 886,55556 -29,61111 452,05556 4244,72222 6446,22222 9849,72222 19934,72222 74623,33333
− x )
2
( y i
− y )
2
36353,77778 3461,36111 28786,77778 5160,02778 17336,11111 2288,02778 10336,11111 568,02778 6507,11111 78,02778 2773,77778 283,36111 186,77778 4,69444 1178,77778 173,36111 9669,44444 1863,36111 22300,44444 1863,36111 40133,44444 2417,36111 66736,11111 5954,69444 242298,66667 24115,66667
1 × 74623 ,33333 = 6218,61111 12
Procjena kovarijance osnovnog skupa: 1 n 7462 ,33333 ˆ 1 ,1 = µ ( xi − x )( yi − y ) = = 6783,93939 ∑ 11 n − 1 i =1 c) Pearsonov koeficijent korelacije: σ x = σ y =
( xi
− x )
2
n
( y i
− y )
n
=
242298,66667 12
=
24115,66667 12
2
r =
µ 11 σ xσ y
= 142,09699 = 44,829;
r =
6218,61111 = 0,97622 142,09699 × 44,829
Između opsega prodaje i reklamnog vremena postoji pozitivna uska korelacija
Koeficijent linearne korelacije također je jednak drugom korijenu koeficijenta determinacije, a predznak koeficijenta korelacije uvijek je jednak predznaku regresijskog koeficijenta, tj. n
∑1 ( yˆ − y )2 i
r =
i= n
∑1 ( y
i
− y )
ˆ sign y = sign β
,
2
i=
ˆ y σ
Vrijede jednakosti: β ˆ = r
ˆ x σ
,
ˆ x ˆ σ r = β ˆ y σ
.
96
Primjer 14.2
Na osnovi podataka iz Primjera 14.1 odredite linearnu regresijsku jednadžbu s procijenjenim parametrima i standardne pokazatelje.
Regresijska jednadžba s procijenjenim parametrima: yˆ = 57 ,70243 + 0 ,30798 x Regression Statistics Multiple R 0,97622 R Square 0,95301 Adjusted R Square 0,94831 Standard Error 10,64478 Observations 12
Intercept X Variable 1
Coefficients Standard Error 57,70243 12,13095 0,30798 0,02163
ˆ = 10 ,64478 σ 2
r = 0 ,95301 2
r = 0 ,94831 r = 0 ,97622 σ α ˆ = 12 ,13095
σ β ˆ = 0 ,02163
Koeficijent korelacije osnovnog skupa označava se s ρ . Koeficijent linearne korelacije r procjenitelj je koeficijenta korelacije osnovnog skupa brojem. Za procjenu koeficijenta korelacije osnovnog skupa pomoću uzoraka koristi se isti izraz kao za izračun koeficijenta linearne korelacije r u sklopu deskriptivne statistike. Sampling-distribucija procjenitelja ovisi o veličini uzorka n i parametru ρ . Za izračun granica 100(1 - α ) % -tnog intervala pouzdanosti rabi se transformacijski izraz (Fisherov): 1
1 + r zα / 2 1 1 + r zα / 2 = (1 − α ) − < Z < ln + r r 2 1 2 1 − − n−3 n − 3
P ln
gdje je: r = koeficijent korelacije uzorka, zα / 2 = koeficijent pouzdanosti, a određuje se na uobičajen način pomoću površina ispod jedinične normalne distribucije. Vrijednosti su navedenih granica tabelirane, a do granica procjene koeficijenta korelacije osnovnog skupa dolazi se inverznom interpolacijom, čemu služe posebne tablice. U programskoj potpori E XCEL-a Fisherove transformacije odre đuju se na temelju opcija Insert ⇒ f x function ⇒ Statistical ⇒ FISHER, i to za danu vrijednost r . Do granica procjene
koeficijenta korelacije osnovnog skupa ρ dolazi se opcijom FISHERINV.
o koeficijentu korelacije osnovnog skupa temelji se na odgovarajućoj sampling-distribuciji. Ako uzorak potječe iz osnovnog skupa koji se ravna prema normalnoj distribuciji s koeficijentom korelacije ρ = 0 , test veličina je: Testiranje hipoteze
97
t =
r n − 2
1 − r 2
i pripada Studentovoj distribuciji s (n − 2) stupnja slobode. Odluka se donosi kao u svakom t-testu, usporedbom izračunane i kritične (teorijske) vrijednosti Studentove distribucije. Test može biti dvosmjeran i jednosmjeran. Ako je parametar ρ bilo koji broj iz intervala njegove varijacije, test hipoteze o pretpostavljenoj vrijednosti provodi se pomoću jedinične normalne distribucije. Sampling-distribucija Z veličine (Fisherove transformacije) Z = je oblika normalne distribucije sa sredinom µ Z = σ Z =
1 n −3
1 1 + r aproksimativno ln 2 1 − r
1 1 + ρ ln i standardnom devijacijom 2 1 − ρ
. Test veličina, pisana u razvijenom obliku, za slučaj kada je pretpostavljena
vrijednost koeficijenta korelacije osnovnog skupa ρ 0 jest z =
1 1 + r 1 1 + ρ 0 ln − ln r 2 1 2 1 ρ − − 0
(n − 3)
Odluka se donosi usporedbom test-veličine s odgovarajućom vrijednosti jedinične normalne distribucije. Primjer 14.3
Analizom opsega prodaje jednog proizvoda (varijabla Y , u tisućama komada) 2011. godine i prosječnog broja stanovnika te godine (varijabla X , u tisućama) na 17 segmenata tržišta dobivena je regresijska jednadžba yˆ = 250 + 0 ,625 x . Koeficijent determinacije je 0,8464. Zbroj kvadrata odstupanja zavisne varijable od njezine aritmetičke sredine iznosi 9765,625. Zbroj kvadrata odstupanja vrijednosti nezavisne varijable od njezine aritmetičke sredine iznosi 21160. a) Koliki je koeficijent linearne korelacije? b) Odredite granice 95%-tnog intervala procjene koeficijenta linearne korelacije osnovnog skupa. c) Testirajte hipotezu da je koeficijent linearne korelacije osnovnog skupa jednak nuli. Alternativnom hipotezom pretpostavite da je koeficijent korelacije osnovnog skupa veći od nule. Razina signifikantnosti je 5% d) Odredite sve elemente u tabeli ANOVA e) Odredite granice 95%-tnog intervala procjene parametra β . f) Ako se pretpostavi da će na jednom segmentu tržišta broj stanovnika biti 500 tisu ća, kolika je prognostička vrijednost prodaje?
98
a) r 2 = 0,8464 Koeficijent linearne korelacije:
r =
2
0 ,8464 = 0,92
r =
b) Granice 95%-tnog intervala procjene koeficijenta korelacije osnovnog skupa: 1 1 + r zα / 2 1 1 + r zα / 2 = (1 − α ) P ln − < Z < ln + 2 1 2 1 r r − − 3 3 n n − −
(1 − α ) = 0 ,95
n = 17,
α = 0 ,05
z 0 ,025 = 1 ,96
r = 0,92
1
1 + 0 ,92 z 0 ,025 1 1 + 0.92 z 0 ,025 = 0 ,95 − < Z < ln + 2 1 0 92 2 1 0 92 , , − − 17 3 17 3 − − P(1 ,0652 < Z < 2 ,1128) = 0 ,95 P(0 ,7877 < ρ < 0 ,9712 ) P ln
c) Hipoteze glase:
H 0
ρ ≤ 0 , H 1
K
Test veličina (empirijski t -omjer):
t =
ρ > 0
K
r n − 2 2
1 − r
0 ,92 17 − 2 1 − 0 ,92 2
=
= 9 ,09155
Razina signifikantnosti: α = 0 ,05 Test je jednosmjeran, kriti čne su vrijednosti za prihva ćanje nulte hipoteze: t < t α , df = 15, t > 1 ,753 t 0 ,05 = 1 ,753 Odluka: empirijski t -omjer veći je od teorijske (kriti čne) vrijednosti, tj. 9,09155 >1,753. Ne prihvaća se H 0 na danoj razini signifikantnosti.
d) Izvor varijacije protumačen modelom rezidualna odstupanja ukupno n
ST =
∑1 ( y − y )2 = 9765 ,625
Stupnjevi slobode 1 15 16 2
r =
i=
n
2
ˆ = e) σ
∑1 ( y
i
ˆ i ) − y
i=
n−2
SP ST
= 0 ,8464
Zbroj kvadrata 8265,625 1500,000 9765,625
Sredina kvadrata 8265,625 100,000 -
SP= 8265,625
SR = ST − SP = 1500
2
=
SR n−2
= 100
σ β ˆ =
ˆ 2 σ n
∑1 x
2 i
− n x
= 2
100 21160
= 0 ,06875
i=
ˆ = 250 + 0 ,625 x y
ˆ − t σ < β < β ˆ + t σ = 0 ,95 P β ˆ ˆ β β
t 0 ,025 (15)
=2,131
P(0 ,625 − 2 ,131 × 0 ,06875 < β < 0 ,625 + 2 ,131 × 0 ,06875) = 0 ,95
P(0 ,47849 < β < 0 ,77151) = 0 ,95
f) x = 500
ˆ = 250 + 0 ,625 × 500 = 562 ,5 y
tisuća komada.
99
Vježbe
Dane su ove vrijednosti varijabli:
1.
xi yi
a) b) c) d) e)
14 6
6 4
8 5
2 1
12 5
2 3
9 4
11 6
Konstruirajte dijagram rasipanja. Izračunajte vrijednost kovarijance kao deskriptivno-statističke veličine. Izračunajte vrijednost Pearsonova koeficijenta korelacije. Kako glasi linearne regresijska jednadžba s procijenjenim parametrima? Pokažite da je koeficijent linearne korelacije jednak umnošku regresijskog koeficijenta i omjera odgovarajućih standardnih devijacija varijabli.
Analizira se odnos dviju pojava modelom jednostavne regresije. Točke u dijagramu rasipanja protežu se od donjeg lijevog kuta prvog kvadranta koordinatnog sustava prema gornjem desnom kutu sustava. Zbroj opaženih vrijednosti varijable X (nezavisne varijable) iznosi 520, a njezina aritmetička sredina 52. Zbroj opažanja vrijednosti Y (zavisne varijable) iznosi 430. Omjer standardnih devijacija varijabli X i Y jednak je jedan. Zbroj kvadrata odstupanja opaženih vrijednosti zavisne varijable od regresorskih vrijednosti te varijable jednak je 408, a zbroj kvadrata odstupanja regresijskih vrijednosti od aritmetičke sredine zavisne varijable jednak je 392. a) Koliki je koeficijent linearne korelacije? b) Odredite granice 95%-tnog intervala procjene koeficijenta korelacije osnovnog skupa c) Odredite sve elemente u tabeli ANOVA d) Testirajte hipotezu da je koeficijent korelacije osnovnog skupa jednak nuli. e) Kako glasi model regresije s procijenjenim parametrima? f) Kolika je procjena standardne devijacije regresije? 2.
Trgovačko poduzeće ima 136 prodavaonica na malo. Ukupan promet svih prodavaonica tijekom godine bio je 527,2 milijuna eura. Za ostvarenje tog prometa utrošeno je 24819 tisuća 4.
sati.
136
∑1 i=
xi y i =105474,8;
136
∑1
xi
i=
2
=2335,97;
136
∑1 y 2 =4836570. i
i=
a) Procijenite vrijednost koeficijenta linearne korelacije brojem i 95%-tnim intervalom. b) Kako glasi jednadžba linearne regresije s procijenjenim parametrima? Zavisna varijabla – promet, nezavisna – radni sati. c) Izračunajte vrijednost standardne greške konstantnog člana i regresijskog koeficijenta. d) Koliki je koeficijent determinacije i korigirani koeficijent determinacije, te procjena standardne devijacije osnovnog skupa i koeficijenta varijacije? e) Napišite regresijsku jednadžbu s procijenjenim parametrima i standardne pokazatelje. f) Procijenite brojem i 90%-tnim intervalom pouzdanosti vrijednost zavisne varijable osnovnog skupa ako je empirijska vrijednost nezavisne varijable 143 tisuće radnih sati.
100
15. MODELI VREMENSKIH SERIJA Vremenska serija predstavlja niz kvantitativnih podataka koji su prikupljani u pravilnim vremenskim intervalima. Razlikuju se intervalni niz od trenutačnog vremenskog niza. Intervalni niz nastaje zbrajanjem vrijednosti pojave po intervalima vremena i ima svojstvo kumulativnosti. Trenutačni niz sastoji se od kronološki uređenih vrijednosti koje su u svezi s odabranim vremenskim točkama. Modelima se opisuje razvoj pojava u vremenu. U modeliranju polazi se od raščlambe serije na komponente koje očituju tipične oblike kovarijacije pojave s vremenom. Te komponente su: trend, ciklična, sezonska i slučajna (rezidualna) komponenta. Komponenta trenda pokazuje dugoročnu (sekularnu) tendenciju kretanja pojave u vremenu. Izražava se nekom funkcijom vremena. Prema obliku te funkcije trend je linearni, parabolični, eksponencijalni, itd. komponenta predstavlja periodične varijacije pojave u trajanju od 2 ili više godina (ciklusi). Na relativno kratkom vremenskom intervalu ona se teško identificira pa se kod kratkih vremenskih serija ne razdvaja od komponente trenda. Ciklična
komponenta može se uočiti u serijama mjesečnih ili kvartalnih podataka. Predstavlja periodične oscilacije pojave u razdoblju od jedne godine. Za mnoge pojave sezonska kretanja su u pravilu lako uočljiva. Sezonska
Trend, ciklična i sezonska komponenta determinističke su komponente i daju se izraziti nekom funkcijom vremena. Međutim, na razvoj vremenske pojave utječu i nesistemski faktori. Javljaju se slučajne varijacije ("noise") ili povremeno neki poseban događaj uzrokuje ekstremne vrijednosti pojave ("outlier"). Takve iregularne promjene, koje ne očituju neku pravilnost, predstavljaju slučajnu (stohastičku) komponentu. Svaka vremenska serija ne mora sadržavati sve navedena komponente. Uostalom, stacionarne vremenske serije ne sadrže trend, njihova razina pojave ne mijenja se s vremenom, nemaju prisutne striktno periodične varijacije i njihove varijance ne ovise o vremenu. Model temeljen na standardnoj dekompoziciji može biti aditivan, multiplikativan ili mješovit. Opći oblik aditivnog modela je: Y = T + C + S + e
101
gdje Y predočuje empirijsku seriju, T vrijednost trenda, C vrijednost ciklične komponente, a S i e vrijednosti sezonske i slučajne komponente. U ovom modelu sve komponente se zbrajaju i izražene su u istim mjernim jedinicama kao i vrijednosti serije. Kako se trend i ciklična komponenta često ne razdvajaju model se može predočiti izrazom: Y = T + S + e . Opći oblik multiplikativnog modela je: Y = T ⋅ I S ⋅ I ε
U ovom modelu trend-ciklus komponenta izražena je u mjernim jedinicama pojave, a sve ostale komponente dane su u relativnom iznosu (indeksi nepomnoženi sa sto). Multiplikativni model se logaritamskom transformacijom svodi se na aditivni, tj. log Y = log T + log I S + log I ε
Ako serija sadrži negativne vrijednosti ili nulu, ovaj model se ne može primijeniti pa se rabi mješoviti (pseudoaditivni) model Y = T + T ( I S + I ε − 1)
gdje su vrijednosti varijable Y vrijednosti serije, T je trend-ciklus komponenta izražena u mjernim jedinicama vrijednosti serije, a sezonska i iregularna komponenta ( I S , I ε ) u relativnom iznosu.
13.1. Modeli trenda Modelima trenda statistički se opisuje dugoročna kovarijacija pojave s vremenom. Ako se pretpostavi da serija ne sadrži periodične komponente model trenda u općem obliku je Y = T + e
ili
Y = T ⋅ I ε
ili
Y = T ε
gdje je T komponenta trenda predočena nepoznatom funkcijom vremena f(X), a e i nepoznata odstupanja od trenda s obilježjima slučajnih varijabli.
ε
su
Statistička analiza modela trenda provodi se metodama regresijske analize. Pri tome je pristup sa stajališta deskriptivne ili inferencijalne statistike. Oblici modela koji se relativno često pojavljuju dani su u tabeli. U navedenim izrazima yt su vrijednosti vremenske serije, xt je varijabla vrijeme koja dogovorno poprima
102
vrijednosti prvih n prirodnih brojeva ( xt = t = 1, 2, …, n), ε t su vrijednosti slučajne varijable, α , β , β 1 , β 2 , … su parametri. Naziv modela
Oblik modela
Linearni trend (trend polinom prvog stupnja)
yt = α + β xt + ε t
Parabolični trend drugog stupnja
y t = α + β 1 xt + β 2 xt + ε t
2
y t = αβ t ε t , x
Eksponencijalni trend (jednostavni) Eksponencijalni trend (složeni), logaritamska parabola
y t = e
ln y t = ln α + xt ln β + ln ε t
α + β x t + ε t
,
x 2
yt = αβ 1 t β 2 t ε t , x
y t = e
α + β 1 x t + β 2 x t 2 + ε t
ln y t = α + β xi + ε t 2
ln yt = ln α + xt ln β 1 + xt ln β 2 + ln ε t ln yt = α + β 1 xt + β 2 xt 2 + ε t
,
Numerička analiza modela trenda obuhvaća procjenu nepoznatih parametara, određivanje pokazatelja reprezentativnosti i ispitivanje kakvoće modela. Uz pretpostavku da će trend biti postojan i u prognostičkom horizontu, model s procijenjenim parametrima može se koristiti i u prognostičke svrhe. Model linearnog trenda identičan je modelu jednostavne linearne regresije u kojemu je vrijeme nezavisna varijabla. Oblika je yt = a + bxt + u t , xt = t = 1, 2, …, n, gdje su yt vrijednosti članova vremenske serije, a i b procjene nepoznatih parametara, u t rezidualna odstupanja, a n broj članova niza. Jednadžba se uobičajeno predočuje u obliku ˆ = a + b x , y
i = 1 , 2 ,
, n
K
gdje je yˆ vrijednost trenda. Uz jednadžbu se navode i oznake (razdoblje za koje je x =1; jedinica mjere vremena, jedinica mjere vrijednosti članova niza za koje se računa trend). Primijeni li se metoda najmanjih kvadrata, procjene parametara dobivaju se izrazima: n
∑1 x y t
b=
t = n
∑1 x
2 t
n
t
− n x y
, − n x
2
a = y − b ⋅ x ,
gdje je
y =
∑1 y t =
n
n
t
,
x =
∑1 x
t
t =
n
t =
103
Rezidualna odstupanja (razlike vrijednosti vremenskog niza i trenda) upućuju na disperziju oko trenda kao srednje vrijednosti i podloga su za određivanje varijance, standardne devijacije i koeficijenta varijacije n
2
σ yˆ =
∑1 ( y
ˆ i ) − y
i
2
,
i=
n
σ yˆ = σ yˆ
2
,
V yˆ =
σ yˆ y
× 100 .
Primjer 15.1
Podaci o prodaji (u milijardama $) koju je ostvarila kompanija Eastman Kodak u razdoblju 1970-1989. dani su u tabeli. Godina 1970. 1971. 1972. 1973. 1974. 1975. 1976. 1977. 1978. 1979.
Prodaja 2,8 3,0 3,5 4,0 4,6 5,0 5,4 6,0 7,0 8,0
Godina 1980. 1981. 1982. 1983. 1984. 1985. 1986. 1987. 1988. 1989.
Prodaja 9,7 10,3 10,8 10,2 10,6 10,6 11,5 13,3 17,0 18,4
a) Navedeni niz prikažite grafički. b) Analizirajte model linearnog trenda sa stajališta deskriptivne statistike. Odredite trend vrijednosti i rezidualna odstupanja. Kolika je standardna devijacija i koeficijent varijacije trenda? Liniju trenda ucrtajte u grafikon. a) Prodaja kompanije Eastman Kodak 20,0 18,0 16,0 a r a l o d a m a d r a j i l i m u
14,0 12,0 10,0 8,0 6,0 4,0 2,0 0,0 1969 1971 1973 1975 1977 1979 1981 1983 1985 1987 1989 1991
104
b) Godina
Prodaja
1970. 1971. 1972. 1973. 1974. 1975. 1976. 1977. 1978. 1979. 1980. 1981. 1982. 1983. 1984. 1985. 1986. 1987. 1988. 1989. Ukupno
Vrijeme 2
Rezidualna odstupanja
y t
xt
x t y t
x t
yt
ˆ t y
ˆ t y t − y
2,8 3,0 3,5 4,0 4,6 5,0 5,4 6,0 7,0 8,0 9,7 10,3 10,8 10,2 10,6 10,6 11,5 13,3 17,0 18,4 171,7
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 210
2,8 6,0 10,5 16,0 23,0 30,0 37,8 48,0 63,0 80,0 106,7 123,6 140,4 142,8 159,0 169,6 195,5 239,4 323,0 368,0 2285,1
1 4 9 16 25 36 49 64 81 100 121 144 169 196 225 256 289 324 361 400 2870
7,8 9,0 12,3 16,0 21,2 25,0 29,2 36,0 49,0 64,0 94,1 106,1 116,6 104,0 112,4 112,4 132,3 176,9 289,0 338,6 1851,7
1,7 2,4 3,1 3,9 4,6 5,3 6,0 6,8 7,5 8,2 8,9 9,7 10,4 11,1 11,8 12,6 13,3 14,0 14,7 15,5 171,7
1,1 0,6 0,4 0,1 0,0 -0,3 -0,6 -0,8 -0,5 -0,2 0,8 0,6 0,4 -0,9 -1,2 -2,0 -1,8 -0,7 2,3 2,9 0,0
n
n = 20,
Trend 2
x =
∑1 x t =
n
n
t
=
210 = 10 ,5 20
y =
∑1 y t =
n
t
=
171 ,7 20 =
= 8 ,585
n
∑1 x y t
b=
t = n
t
− n x y
∑1 x 2 − n x 2
==
2285 ,1 − 20 × 10 ,5 × 8 ,585 = 0,725188 2870 − 20 × 10 ,5 2
t
t =
a = y − b x = 8 ,588 − 0 ,725188 × 10 ,5 = 0 ,970526
Model linearnog trenda s procijenjenim parametrima: ˆ t = 0 ,970526 + 0 ,725188 xt y 1970. godine x = 1, Jedinica za x je jedna godina Jedinica za y je milijarda dolara Koeficijent b pokazuje da se vrijednost prodaje kompanije linearno povećavala u prosjeku 0,725 milijardi $ godišnje. Konstantni član a (≈ 0,97) predstavlja vrijednost trenda za godinu koja prethodi prvoj godini u nizu, tj. za 1969. godinu ( x = 0).
105
n
∑1 ( y
i
ˆ i ) − y
2
27 ,92360 =1,39618 n 20 σ yˆ 1 ,18160 × 100 = 11,25334 V yˆ = × 100 = 10 ,5 y 2
σ yˆ =
i=
=
2
σ yˆ = σ yˆ =1,18160
Prodaja kompanije Eastman Kodak 20,0 18,0 16,0 a r a l o d a m a d r a j i l i m u
y = 0,7252x + 0,9705 R2 = 0,9261
14,0 12,0 10,0 8,0 6,0 4,0 2,0
0,0 1969 1971 1973 1975 1977 1979 1981 1983 1985 1987 1989 1991
Model linearnog trenda u sklopu inferencijalne statistike jednak je modelu linearne regresije. Model osnovnog skupa oblika je y t = α + β xt + et .
U modelu su yt vrijednosti serije, α i β nepoznati parametri, et nepoznate vrijednosti slučajne varijable e za koju se pretpostavlja da su joj vrijednosti međusobno nekorelirane slučajne veličine s konstantnom varijancom te da su identično raspoređene po normalnoj distribuciji, s očekivanjem 0 i varijancom σ 2 . Članovi vremenskog niza tvore uzorak. Primjenom procjenitelja pomoću uzorka se procjenjuju parametri i druge statističko-analitičke veličine. Izrazi za procjene ˆ = b . Model uzorka s ˆ = a , β parametara jednaki su onima iz deskriptivne statistike, tj. α procijenjenim parametrima je: ˆ x + eˆ , ˆ + β yt = α t t
ˆ x ˆ + β ˆ t = α y t
Osim parametara procjenjuju se standardna devijacija, koeficijent varijacije, standardne greška procjene i druge veličine. Dio ovih veličina temelji se na analizi varijance, koja je za linearni trend jednaka analizi varijance modela jednostavne linearne regresije. 106
Primjer 15.2
Na temelju podataka iz Primjera 15.1 analizirajte model linearnog trenda sa stajališta inferencijalne statistike. Model s procijenjenim parametrima: yˆ t = 0 ,970526 + 0 ,725188 xt SUMMARY OUTPUT Regression Statistics Multiple R 0,96231943 R Square 0,92605869 Adjusted R Square 0,92195084 Standard Error 1,24551644 Observations 20 ANOVA Regression Residual Total
Intercept X Variable 1
df 1 18 19
SS 349,7218985 27,9236015 377,6455
MS 349,7219 1,5513112
F 225,4363
Coefficients Standard Error 0,97052632 0,578581564 0,72518797 0,048299056
t Stat 1,6774235 15,014537
P-value Lower 95% Upper 95% 0,110739 -0,24502844 2,1860811 1,27E-11 0,62371542 0,8266605
Standardna greška procjene trenda pokazuje da je prosječno odstupanje stvarnih vrijednosti prodaje od trend-vrijednosti iznosi 1,246 milijardi $. Modelom linearnog trenda protumačeno je 92,6% odstupanja.
Model jednostavnog eksponencijalnog trenda je yt = αβ x ε t , a u logaritamskom obliku ln y t = ln α + xt ln β + ln ε t . Logaritamskom transformacijom model eksponencijalnog trenda svodi se na model linearnog trenda. U lineariziranom modelu umjesto originalnih vrijednosti rabe se njihovi logaritmi. Parametri su procijenjeni metodom najmanjih kvadrata, a druge statističko-analitičke veličine dobiju se na način kao kod linearnog trenda. Pri tome se uvijek polazi od rezultata dobivenih na temelju logaritamskog oblika modela. t
Primjer 15.3
Podatke iz Primjera 15.1 prikažite grafički tako da na osi apscisa naznačite aritmetičko mjerilo za varijablu vrijeme, a na osi ordinata aritmeti čko mjerilo za logaritme vrijednosti članova niza. a) Predočene varijacije prodaje modelom jednostavnog eksponencijalnog trenda i izračunajte uobičajene statističko analitičke veličine b) Kolika se prodaja (prema trendu) može očekivati u 1991. godini? 107
a)
Prodaja kompanije Eastman Kodak 3,50 3,00 2,50
t
y n l
2,00 1,50 1,00 0,50 0,00 1970
1972
1974
1976
1978
1980
1982
1984
1986
Godina Prihod Vrijeme 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 Ukupno
yt
xt
2,8 3 3,5 4 4,6 5 5,4 6 7 8 9,7 10,3 10,8 10,2 10,6 10,6 11,5 13,3 17 18,4 171,7
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 210
n
∑1 x ln y t
b=
∑1 x
xt ln yt
2
xt
1,02962 1,02962 1 1,09861 2,19722 4 1,25276 3,75829 9 1,38629 5,54518 16 1,52606 7,63028 25 1,60944 9,65663 36 1,68640 11,80479 49 1,79176 14,33408 64 1,94591 17,51319 81 2,07944 20,79442 100 2,27213 24,99338 121 2,33214 27,98573 144 2,37955 30,93410 169 2,32239 32,51343 196 2,36085 35,41281 225 2,36085 37,77366 256 2,44235 41,51990 289 2,58776 46,57975 324 2,83321 53,83105 361 2,91235 58,24701 400 40,20988 484,05453 2870
1990
Trend vrijednosti
Prodaja prema trendu
ln ŷt
ŷt
1,13 1,22 1,31 1,41 1,50 1,59 1,68 1,78 1,87 1,96 2,06 2,15 2,24 2,34 2,43 2,52 2,62 2,71 2,80 2,89
3,09 3,39 3,72 4,08 4,48 4,91 5,39 5,92 6,49 7,13 7,82 8,58 9,42 10,34 11,35 12,45 13,67 15,00 16,46 18,07
(ln yt )2 1,06012 1,20695 1,56942 1,92181 2,32885 2,59029 2,84394 3,21040 3,78657 4,32408 5,16256 5,43890 5,66224 5,39348 5,57363 5,57363 5,96506 6,69652 8,02710 8,48179 86,81732
n
t
t =
n
ln yt
1988
− x
∑1 ln y t =
2 t
− n x
2
t
=
484 ,05453 − 10 ,5 × 40 ,20988 = 0,0930087 2870 − 20 × 10 ,5 2
x = 10 ,5
t =
108
ln a =
1
n
∑ ln y n 1
t
− b x =
t =
1 × 40 ,20988 − 0 ,0930087 × 10 ,5 = 1,0339026 20
Model eksponencijalnog trenda s procijenjenim parametrima: ln yˆ t = 1 ,0339026 + 0 ,0930087 xt ˆ t = 2 ,8120186 ⋅ e 0 ,0930087 x a u nelogaritamskom obliku: y t
Elementi u tabeli ANOVA izra čunavaju se izrazima predočenim u analizi modela jednostavne linearne regresije, s tim što se umjesto originalnih vrijednosti varijable rabe njihovi logaritmi. Primjenom programa za regresijsku analizu u EXCEL-u dobiveni su ovi rezultati: SUMMARY OUTPUT Regression Statistics Multiple R 0,9811686 R Square 0,9626919 Adjusted R Square 0,9606192 Standard Error 0,11129 Observations 20
ANOVA Regression Residual Total
Intercept X Variable 1
df 1 18 19
SS 5,7526613 0,2229382 5,9755994
MS 5,75266126 0,01238545
F Significance F 464,4691 2,64192E-14
Coefficients Standard Error 1,0339026 0,0516977 0,0930087 0,0043156
t Stat 19,9990124 21,5515461
P-value 9,64E-14 2,64E-14
Lower 95% Upper 95% 0,9252898 1,14251545 0,0839419 0,10207552
b) U 1991. godini ( x =22) očekuje se prodaja u vrijednosti od 21,76 milijardi dolara.
15.2. Pomični prosjeci Pomični prosjeci su aritmetičke sredine M uzastopnih vrijednosti članova vremenskog niza. Niz pomičnih prosjeka čini izvedeni niz koji ima manji stupanj varijabilnosti u usporedbi s izvornim nizom. Njima se izglađuje vremenska serija pa se mogu shvatiti kao lokalni model trenda. Ako je broj članova pomičnog prosjeka neparan ( M = 2m + 1), računaju se pomoću izraza: * t
y =
1
m
∑
yt + s , M s = − m
t = m + 1 , m + 2 , , n − m K
109
gdje su y *t vrijednosti pomičnih prosjeka, a yt vrijednosti članova niza. Vrijednost prosjeka pridružuje se razdoblju središnjeg člana pomičnog prosjeka. Kada je broj članova pomičnog prosjeka M paran broj, tj. M = 2 m , provodi se postupak centriranja. Centrirani pomični prosjeci računaju se u obliku dvostrukih pomičnih prosjeka, tj. određivanjem jednostavnih pomičnih prosjeka od prethodnih pomičnih prosjeka od po dva člana. Primjer 15.4
Prodaja korporacije General Motors u razdoblju 1970-1989. (u milijunima jedinica) Godina 1970 1971 1972 1973 1974
Prodaja 5,3 7,8 7,8 8,7 6,7
Godina 1975 1976 1977 1978 1979
Prodaja 6,6 8,6 9,1 9,5 9
Godina 1980 1981 1982 1983 1984
Prodaja 7,1 6,8 6,2 7,8 8,3
Godina 1985 1986 1987 1988 1989
Prodaja 9,3 8,6 7,8 8,1 7,9
a) Izračunajte petogodišnje i sedmogodišnje pomične prosjeke b) Usporedite originalni niz i nizove izračunanih pomičnih prosjeka na jednom grafikonu. a) Godina Prodaja M =5 y t y *t (5 ) 1970. 5,3 1971. 7,8 1972. 7,8 7,3 1973. 8,7 7,5 1974. 6,7 7,7 1975. 6,6 7,9 1976. 8,6 8,1 1977. 9,1 8,6 1978. 9,5 8,7 1979. 9 8,3 1980. 7,1 7,7 1981. 6,8 7,4 1982. 6,2 7,2 1983. 7,8 7,7 1984. 8,3 8,0 1985. 9,3 8,4 1986. 8,6 8,4 1987. 7,8 8,3 1988. 8,1 1989. 7,9
M =7
y *t (7 )
b 7,4 7,9 8,1 8,3 8,1 8,1 8,0 7,9 7,8 7,8 7,7 7,8 8,0 8,3
Prodaja korporacije General Motors 10 9 ) a c i n i d e j i n u j i l i m ( a j a d o r P
8 7 6 5 4 1970
1972
1974
Prodaja yt
1976
1978
1980
Pomični prosjeci M=5
1982
1984
1986
1988
1990
Pomič ni prosjeci M=7
110
Primjer 15.5
Mjesečni podaci o prodaji jeans-a u Velikoj Britaniji (u tisu ćama) Siječanj Veljača Ožujak Travanj Svibanj Lipanj Srpanj Kolovoz Rujan Listopad Studeni Prosinac
1980. 1998 1968 1937 1827 2027 2286 2484 2266 2107 1690 1808 1927
1981. 1924 1959 1889 1819 1824 1979 1919 1845 1801 1799 1952 1956
1982. 1969 2044 2100 2103 2110 2375 2030 1744 1699 1591 1770 1950
1983. 2149 2200 2294 2146 2241 2369 2251 2126 2000 1759 1947 2135
1984. 2319 2352 2476 2296 2400 3126 2304 2190 2121 2032 2161 2289
1985. 2137 2130 2154 1831 1899 2117 2266 2176 2089 1817 2162 2267
a) Izračunajte dvanaestomjesečne pomične prosjeke. Niz prikažite linijskim grafikonom b) Prikažite na istom grafikonu prikažite originalni seriju i izračunane prosjeke. a)
=AVERAGE(B4:B15
=AVERAGE(C9:C10)
U sklopu potpore EXCEL-a koristi se program (Tools ⇒ Data Analysis ⇒ Moving Average) i Trendline rutina. 111
Prodaja jeans-a u Velikoj Britaniji 3300 3100 2900 2700 a m 2500 a ć u s i t 2300 u
2100 1900 1700 1500
9 7 o r p
0 8 u ž o
0 8 p i l
0 8 s i l
1 8 j i s
1 8 a r t
1 8 l o k
1 8 u t s
2 8 j l v
2 8 i v s
2 8 j u r
2 8 o r p
3 8 u ž o
3 8 p r s
3 8 s i l
4 8 j i s
4 8 a r t
4 8 l o k
4 8 u t s
5 8 j l v
5 8 p i l
5 8 j u r
5 8 o r p
Pomič ni prosjeci, M=12
Prodaja
Vježbe 1.
Prijevoz robe u pomorskom prometu Republike Hrvatske (u milijunima tona) Godina Promet
1993. 13,2
1994. 14,6
1995. 14,9
1996. 14
1997. 15,5
1998. 15,7
1999. 16,3
2000. 16,9
a) Navedeni niz prikažite linijskim grafikonom. b) Procijenite parametre odgovarajućeg modela trend polinoma. c) Odredite sve elemente u tabeli ANOVA. Kolika je procjena standardne devijacije i koeficijenta varijacije. 2.
Svjetski izvoz (u milijunima US $)
Godina 1982. Izvoz 1739
1983. 1984. 1985. 1986. 1987. 1988. 1989. 1990. 1991. 1992. 1993 1994. 1696 1799 1833 2010 2366 2399 2922 3334 3436 3691 3702 4201
a) Prikažite niz linijskim grafikonom. b) Odredite procjene parametara i druge statističko-analitičke veličine modela trend polinoma trećeg stupnja. c) Trend polinom prikažite na grafikonu pod (a) d) Komentirajte dobivene rezultate.
112
Proizvodnja artikla (u tisućama komada) po godinama razdoblja 1988-2002. bila je
3. 10
16
20
23
25
26
30
36
48
62
78
94
107
118
127
Analizirajte sljedeće modele: model linearnog trenda, model paraboličnog trenda drugog stupnja, model trend polinoma trećeg stupnja. Koji je od navedenih modela najprikladniji, sa stajališta statističke analize? 4.
Dobit tvrtke nakon oporezivanja (u tisućama eura) je:
Godina Dobit
1993. 201
1994. 250
1995. 313
1996. 403
1997. 525
1998. 706
1999. 900
2000. 1153
2001. 1490
2002. 1859
a) Niz prikažite linijskim grafikonom, a zatim polulogaritamskim grafikonom. b) Procijenite parametre eksponencijalnog trenda. c) Izračunajte elemente analize varijance i druge statističko-analitičke veličine. d) Jednadžbu trenda napišite u nelogaritamskom obliku i uz nju navedite sve potrebne elemente. Jedinični troškovi izrade proizvoda uvedenoga u proizvodnju u razdoblju 2000-2002. godine opisuju se jednadžbom trenda: 5.
2
ˆ = 120 ,53 × 1 ,01 x × 0 ,98 x y x = 1, prosinac 2000. Jedinica za x je jedan mjesec Jedinica za y je jedna kuna
Izračunajte vrijednosti trenda i prikažite ih polulogaritamskim mjerilom 6.
Prodaja sezonskog proizvoda dana je u tabeli (u tisućama komada): Godina, mjesec 2001, I II III IV V VI VII VIII IX X XI XII
a) b) c) d)
Prodaja 25 21 24 29 45 91 208 210 80 36 22 21
Godina, mjesec 2002, I II III IV V VI VII VIII IX X XI XII
Prodaja 24 22 22 27 48 94 239 229 90 37 21 22
Navedeni niz prikažite linijskim grafikonom Izračunajte tromjesečne pomične prosjeke Izračunajte dvanaestomjesečne centrirane pomične prosjeke Nizove pomičnih prosjeka prikažite na grafikonu pod (a). Komentirajte prikaz i rezultate. 113