Doc. dr Mirjana Landika Prof. dr Đuro Mikić
METODI STATISTIČKE ANALIZE - primjena u oblasti zdravstvenih, sportskih i inženjerskih nauka -
Banjaluka, 2015.
METODI STATISTIČKE ANALIZE - primjena u oblasti zdravstvenih, sportskih i inženjerskih nauka Autori: Doc. dr MIRJANA Landika, Prof. dr ĐURO Mikić Recenzenti: Prof. dr NEBOJŠA Ralević, prof. dr IVANA Ljubanović - Ralević Lektor: BILJANA Kojić, profesor srpskog jezika i književnosti Izdavač: Panevropski univerzitet "APEIRON", Banja Luka, 1. izdanje, godina 2015. Odgovorno lice izdavača: DARKO Uremović Glavni i odgovorni urednik: Dr ALEKSANDRA Vidović DTP: SRETKO Bojić Štampa: MARKOS design&print studio, Banja Luka Odgovorno lice štamparije: IGOR Jakovljević EDICIJA: Ekonomska biblioteka – Οἶκος νόμος knj. 107 ISBN 978-99955-91-64-9 Na osnovu članova 241, 286. 287.Statuta i izvještaja o publikaciji Centra za izdavačku djelatnost Panevropskog univerziteta „Apeiron“, Senat na sjednici održanoj 21. jula 2015. godine donosi odluku broj: 2045-5-2/15, kojom se odobrava izdavanje ovog udžbenika.
SADRŽAJ 1.
UVOD ...................................................................................................................................... 9 1.1. Prikupljanje statističkih podataka, formiranje statističke serije, tabelarno i grafičiko prikazivanje statističkih serija ....................................................... 11
2.
DESKRIPTIVNA ANALIZA ............................................................................................. 34 2.1. Mjere centrlane tendencije .............................................................................................. 34 2.1.1. Aritmetička sredina – prosjek ......................................................................................... 34 2.1.2. Geometrijska sredina ...................................................................................................... 42
2.2. Momenti statističke serije ............................................................................................... 52 2.3. Pozicione srednje vrijednosti .......................................................................................... 64 2.3.1. Modus ............................................................................................................................. 64 2.3.2. Medijana; Kvartili; Decili; Percentili ............................................................................. 68
2.4. Mjere varijabiliteta.......................................................................................................... 79 2.4.1. Apsolutne mjere varijabiliteta......................................................................................... 79 2.4.2. Apsolutne mjere varijabiliteta......................................................................................... 90 2.4.3. Mjere asimetrije, zaobljenosti i koncentracije ................................................................ 95
3.
OSNOVI TEORIJE VJEROVATNOĆE I TEORIJSKI RASPOREDI ....................... 122 3.1. Osnovni pojmovi teorije vjerovatnoće.......................................................................... 122 3.1.1. Modeli distribucije vjerovatnoće kontinuirane slučajne promjenljive .......................... 145
4.
STATISTIČKO ZAKLJUČIVANJE ............................................................................... 158 4.1. Statističko ocjenjivanje nepoznatih parametara osnovnog skupa ................................. 158 4.1.1. Statističko ocjenjivanje aritmetičke sredine i totala osnovnog skupa ........................... 159 4.1.2. Statističko ocjenjivanje procenta učešća osnovnog skupa ............................................ 169 4.1.3. Statističko ocjenjivanje varijanse (standardne devijacije) osnovnog skupa ................. 176
4.2. Testiranje statističkih hipoteza ..................................................................................... 181 4.2.1. 4.2.2. 4.2.3. 4.2.4. 4.2.5. 4.2.6.
Statističko testiranje hipoteza o aritmetičkoj sredini osnovnog skupa ......................... 183 Testiranje hipoteza o procentu učešća osnovnog skupa ............................................... 193 Statističko testiranje hipoteza o vrijednosti varijanse osnovnog skupa ........................ 200 Statističko testiranje hipoteza o razlici aritmetičih sredina dvaju osnovnih skupova ... 206 Statističko testiranje hipoteza o razlici procenta dvaju osnovnih skupova ................... 213 Statističko testiranje hipoteza o varijansi dvaju osnovnih skupova – analiza varijanse; F – test ........................................................................................... 221
4.3. Neparametraski testovi ................................................................................................. 227 4.3.1. Test predznaka (sign test) – test hipoteze o vrijednosti medijane osnovnog skupa ...... 228 4.3.2. Wilcoxonov test (Wilcoxon one sample signed rank test) – test pretpostavljene vrijednosti medijane u odnosu na predznak razlike vrijednosti statističkog obilježja i medijane ....................................................................................................... 232 4.3.3. Wilcoxonov test (Wilcoxon mached – pairs signed rank test) – test pretpostavljene vrijednosti na bazi ekvivalentnih parova statističkih obilježja ..................................... 236 4.3.4. Mann – Whitney – Wilcoxonov test za nezavisne uzorke ............................................ 241 4.3.5. Test homogenosti statističke serije – (runs test) ........................................................... 245 4.3.6. Test Kolmogorov – Smirnova ...................................................................................... 265 4.3.7. Kuskal – Wallisov i Friedmanov test – analiza varijanse na bazi rang promjenljivih .. 268
5.
REGRESIONA I KORELACINA ANALIZA ................................................................ 289 5.1. Osnovni pojmovi regresionog modela .......................................................................... 289 5.2. Modeli proste linearne regresije ................................................................................... 292 3
5.2.1. Statističko testiranje hipoteza u modelu proste linearne regresije ................................ 297 5.2.2. Prosta linearna korelacija – koeficijent korelacije ........................................................ 299 5.2.3. Ocjenjivanje i predviđanje vrijednosti zavisne promjenljive........................................ 304
5.3. Jednostavna krivolinijska regresija ............................................................................... 319 5.4. Odabrani modeli nelinearne regresije ........................................................................... 325 6.
OSNOVNA ANALIZA VREMENSKIH SERIJA .......................................................... 338 6.1. Grafičko prikazivanje i komparacija vremenskih serija ............................................... 339 6.2. Pokazatelji dinamike ..................................................................................................... 346 6.3. Indeksi........................................................................................................................... 349 6.4. Odabrani modeli vremenskih serija .............................................................................. 356 6.4.1. Modeli trenda ................................................................................................................ 357 6.4.2. Metode izravnavanja vremenske serije ......................................................................... 367
LITERATURA:......................................................................................................................... 383
4
RECENZIJA
Udžbenik „Metodi statističke analize - primjena u oblasti zdravstvenih, sportskih i inženjerskih nauka“ autora Mirjane Landika i Đure Mikića, prema kritičkom mišljenju i opreznoj ocjeni recenzenata, predstavlja konsolidovani tekst statističke teorije i prakse udžbeničkog profila, prevashodno namjenjen studentima zdravstvenih, sportskih i inženjerskih disciplina. Potrebno je naglasiti da pojedini segmenti udžbenika tretiraju odgovarajuća teorijska pitanja statističke metodologije, ali istovremeno i konkretnu primjenu ove teorije u medicinskoj, sportskoj i inženjerskoj praksi. Ako je ortodoksna statistička nauka na pogrešnom putu, zablude ne leže u nadgradnji,sačinjenoj na brizi logičke dosljednosti, već u premisama kojima nedostaje jasnoća i opštost. Stoga teorijske preferencije i apstraktni dokazi, kao i empirijske provjere, uz povremmene kontraverze, mogu ostvariti svoj cilj, tj.motivisati čitaoceda, u rješavanju određenih problema, kritički preispituju potvđuju ili oponiraju vlastite hipoteze, slijedeć upravo brojne pokazane primjere u udžbeniku. Dakle, cilj autora je da pokaže i objasni, ne samo sopstvena stanovišta i njihova odstupanja u odnosu na konvencionalni pristup već i univerzalnu primjenu statističkih alata u pogledu sticanja futurističkih znanja u prevazilaženju oprečnih uvjerenja i savladavanju stohastičke neoređenosti. Sa druge strane, knjiga ispoljava vidljive znakove i rezultate upotrebe i djelovanja statističke snage u obuhvatanju promjena u navedenim oblastima tako da se može smatrati svjedokom nastojanja autora da se rješe brojni problemi i potvrde očekivanja u nastajanju materijalne istine vezane za otkrivanje zakonomjernosti ponašanja pojedinih pojava. Pisanje udžbenika je očigledno bio ozbiljan napor autora da izbjegne puku sistematizaciju i organizaciju podataka već promoviše metod statističke analize u sadašnjosti determinisan pod uticajem promjenljivh verzija budućnosti. Udžbenik je struktuiran u šest standardnih poglavlja (Uvod, Deskriptivna analiza, Vjerovatnoća i kombinatorika, Statističko zaključivanje, Regresiona i korelaciona analiza i Analiza vremenskih serija) čiji su dijelovi harmonično komponovani u metodološku i stručnu cjelinu, a za usvajanje i primjenu izložene materije neophodna su elementarna matematička i informatička zananja. Simboličke pseudomatematičke metode, koje matematičkom sintaksom formalizuju modele sistema, često neopravdano pretpostavljaju da su odnosni činioci i njihovi uticaji potpuno 5
nezavisni. Time se umanjuje uvjerljivost i autoritet statističkih postupaka a početne hipoteze (uvjerenja) ispostave nepotvrđena. U uobičajenom rezonovanju možemo da imamo na umu potrebne rezerve i ograničenja, kao i eventualne korekcije, jer pretjerano zahtjevno učešće matematičke ekonomije može da vodi u špekulaciju, toliko spornu, koliko sporne i polazne pretpostavke. Udžbenik je u potpunosti oslobođen navedenih rezervi i nepotrebnih sumnji tako da svoga autora dovodi u korektan i odgovoran odnos u pogledu sagledavanja složenosti i međuzavisnosti u realnom svijetu rasterećenog pretencioznim matematičkim simbolima. Autor preuzima odgovornost za eventualne nedostatke ali sa zahvalonošću prim a sve primjedbe i sugestije stručne javnosti koje bi doprinijele unapređenju kvaliteta sledećeg izdanja. Banja Luka, 12.7.2015.
6
PREDGOVOR U pogledu kontinuiranog razvoja teorije statističkih metoda i njene doslijedne primjene i provjere u medicinskoj, sportskoj i Inženjerskoj praksi, sačinjen je udžbenik: “Metodi statističe analize – primjena u oblasti zdravstvenih, sportskih i inženjerskih nauka“ sa kojim bi dalje iskustvo u nastavi pokazalo gdje i kada bi se moglo izvrsiti olakšanje izlaganja i usvajanja odredjenih poglavlja od posebne vaznosti. Pažnja autora je posebno usmjerena na zadovoljavavanje metodoloških kriterija, ali i znatno proširena na aspekte validnosti empiriskog mjerenja i eksperimentalnog rada, generisanja statističkih podataka u okviru postupka statističkog istraživanja, razmatranja osnovnih pojmova matematičke distribucije u okviru teorije vjerovatnoće, provjeravanja statističkih hipoteza, utvrđivanja ocjena i grešaka ocjena karakteristika pojedinih parametara, ispitivanja statističke povezanosti varijacija i stepena kvantitativnog slaganja kao i analize vremenskih serija. U skladu sa izloženim intencijama dodani su brojni primjeri iz prakse za navedene oblasti kako bi se olakšalo razumjevanje doprinosa statističkih metoda i odgovorilo na neka praktična pitanja za potrebe rješavanja raznih izazova koji čekaju svoju konkretnu verifikaciju. Izvršena je odredjena konsolidacija gradiva koje se odnosi na deskriptivnu statistiku kao i potrebna koncentracija preferencija ključnih pitanja ispitnog programa iz predmeta: Statisticke metode, sastavljenog i prvenstveno namjenjenog studetima univerziteta APEIRON za sticanje znanja neophodnih za uspješna istraživanja u zvanjima za koje se spremaju. Svrha ovog udžbenika je dakle osposobiti medicinsku, sportsku kao i inženjersku profesiju mogućnostima istraživanja i analize na bazi dragocjene statističke indikacije kao i pravilnoj ocjeni, selekciji,
upotrebljivosti i vjerodostojnosti podataka od cijeg nivoa
kritičnosti direktno zavisi i nivo naučnosti izvedenog rezultata. Daljim provođenjem statističkog postupka i obradom statističkog materijala dobijene pokazatelje i koeficijente potrebno je razumjeti u kontekstu analize strukture i dinamike povezanosti pojava iz navedenih područja pa je iz takvog postavljenog zahtjeva temeljno obrađeno i primjerima iz prakse obogaćeno područje teorije vjerovatnoće, teorije uzorka, korelacione i regresione analize kao i odjeljak analize vremenskih serija. Gotovo cjelokupna sportska, medicinska i inženjerska obilježja imaju kvantitativni i stohastički karakter što ukazuje na nezaobilaznu udžbeničku pomoć i solidno poznavanje moderne statističke analize u smislu i sa ciljem 7
otkrivanja zakonitosti ponašanja određenih pojava sportskog, medicinskog ili inženjerskog predznaka, a što je i poslužilo kao polazni motiv i dodatna inspiracija u pisanju ovog udžbenika. Takođe, udžbenik je velikim djelom rezultat višegodišnjeg rada autora na statističkom obrazovanju profila navedenih profesija prvog ciklusa ali može da služi i svima drugima koji koriste statističke metode, jer njegova primarna primjena ne ograničava upotrebljivost i u drugim oblastima naučno – istraživačkog rada. Udžbenik sadrži šest sledećih poglavlja koja u svom prirodnom poretku čine sklad i cjelinu udžbeničke građe edukativnog tipa: - Plan i program statističkog istraživanja, gdje su obuhvaćeni i primjerima ilustrovani opšti elementi i faze statističkog istraživanja. - Deskriptivna analiza, gdje su izložene i primjerima ilustrovane mjere centralne tendencije, mjere varijabiliteta, kao i mjere oblika rasporeda. - Teorijski modeli i funkcije raspodjel,a gdje su obuhvaćeni jednodimenzionalni i dvodimenzionalni disketni i indiskretni teorijski rasporedi u okviru zakona vjerovatnoće. - Analiza uzorka, gdje su dati osnovni pojmovi iz područja reprezentativne i anlize sa osvrtom na obim, izbor i reprezantativnost,
kako bi se čitaocima olakšalo
savladavanje i koristenje metoda ocjenivanja i testiranja u cilju statističkog zaključivanja i donošenja statističkih sudova. - Korelaciona i regesiona analiza, sa posebnom pažnjom na određivanje, sa jedne strane uzrocno-posljedicne povezanosti a sa druge stepena, smjera i intenziteta kvantitativnog slaganja u paralelizmu varijacija i sličnosti njihovih uticaja. - Analiza vremenskih serija, gdje se posebno naglašava trend kao razvojna vremenska komponenta odnosno kao prilagodjena i ekstrapolisana funkcija koja najbolje ispoljava razvojnu tendenciju pojave i može se koristiti kao vrlo efikasan metod prognoziranja. Objavljivanjem ovog udžbenika autor je imao u vidu korisnost brojnih priloga i mišljenja studenata, kolega i druge dobronamjerne stručne javnosti tako da i dalje, sa posebnim zadovoljstvom i zahvalnošću ostaje otvoren i raspoložen za konstruktivne kritike, sugestije i primjedbe koje bi nesporno doprinjele kvalitetu sljedećeg izdanja.
8
1. UVOD Statistička analiza primjenjuje se u oblastima stručne, naučne i praktične djelatnosti, kao što su analiza opštih osobina masovne pojave kao oblika kretanja varijacija, predviđanje budućih ishoda, donošenje sudova i zaključaka. U okviru statističkog istraživanja razlikujemo sljedeće faze: -
Prikupljanje statističkih podataka;
-
Formiranje i prikazivanje statističke serije;
-
Statistička analiza;
-
Publikacija i interpretacija rezultata statističkog istraživanja.
Osnovni pojamovi u statističkoj analizi su statistički skup, populacija (osnovni skup) i uzorak. Statistički skup obuhvata elemente kojima se određuju kvalitaitivne i kvantitativne osobine, takav skup može biti realan ili hipotetički, kao i konačan ili beskonačan. Skup podataka u odnosu na svaki pojedini element naziva se populacija, a dio populacije je uzorak. Statistički podaci su obilježja određenih elemenata statističkih skupova, a predstavljaju osnov za razlikovanje jedinica statističkog skupa. Obilježja jedinica statističkog skupa predstavljaju promjenljive u statističkim analizama. Pojavni oblici određenih osobina nazivaju se modaliteti. Statistička građa prikuplja se planski, pri čemu se koriste metode posmatranja ili statističkog eksperimenta, uz uslov da su posmatrane osobine masovne i varijabilne. Masovnost osobina odnosi se na pretpostavku da statistički skup sadrži veliki broj jedinica, dok varijabilnost podrazumijeva da se jedinice statističkog skupa međusobno razlikuju u pogledu određenih osobina ili da određene osobine kod posmatrane jedinice statističkog skupa iskazuju promjenljivost vremenu ili prostoru. Izvori iz kojih se prikuplja statistička građa mogu biti primarni i sekundarni. Primarni izvori podtaka odnose se na dio statističke građe koji se prikuplja posmatranjem ili statističkim eksperimentom (najčešće je to anketa), pri čemu se njihov kvalitet i kvantitet prilagođava zahtjevima konkretnog statističkog istraživanja. Sekundarni izvori podataka predstavljaju javne podatke određenih institucija ili informacionih sistema uključujući podatke dostupne u okviru globalne svjetske mreže (www). Statistička serija predstavlja niz uređenih statističkih podataka, koji se formira na bazi prikupljene statističke građe. Najprije se jedinice statističkog skupa raščlane prema osobinama i
9
njihovim modalitetima, zatim se prikupljena građa grupiše u odgovarajuće podskupove koji moraju zadovoljiti zahtjev nepreklapanja. Broj jedinica statističkog skupa koje imaju istu ili sličnu vrijednost posmatrane ili mjerene osobine naziva se apsolutna frekvencija ili učestalost. Relativna frekvencija ili procent učešća izražava se kao odnos apsolutne frekvencije i obima pojave. Nakon grupisanja vrši se redanje grupa prema intezitetu mjerenog obilježja kako bi se formirala statistička serija. Statistička građa može biti numerička, prostorna, vremenska i atributivna. Numerička obilježja u statističkoj seriji redaju se u nominalnu ili rednu skalu prema intenzitetu mjerenog obilježja. Prostorna obilježja se redaju prema udaljenosti od referentne tačke. Vremenska obilježja se redaju hronološki. Atribuivna obilježja se redaju prema intenzitetu mjerenog obilježja ili prema konvencionalnom poretku prilagođeno prirodi podataka. Prikazivanje statističke serije vrši se tabelarno i grafički. Jednostavni tabelarni prikaz podrazumijeva prikaz statističke serije raščlanjene po jednom obilježju, a složene tabele – tabele kontigencije koriste se za prikazivanje statističkih serija koje nastaju raščlanjivanjem jedinice statističkog skupa prema većem broju obilježja. Grafičko prikazivanje statističkih serija obuhavta dijagrame tačaka, linijske i površinske dijagrame. Najpoznatiji linijski dijagrami su polarni i pravougaoni kordinatni sistem. Važniji površinski dijagrami su: histogrami, poligon frekvencija i strukturni krug. Statistička analiza obuhvata dva analitička pristupa, a to su deskriptivna i inferencijala statistička analiza. Deskriptivna analiza obuhvata postupke kojima se uređuju, grupišu, tabelarno i/ili grafički prikazuju odgovarajući podaci i izračunavaju raznovrsni analitički pokazatelji. Suština deskriptivne statističke analize jeste u tome da se njome dobijeni sudovi i zaključci projektuju na odgovarajuće empirijske vrijednosti bez uopštavanja. Inferencijalna statistička analiza polazi od uzorka, a njen osnovni zadatak odnosi se na izučavanje pojava i procesa pomoću dijelimične informacije, pri čemu se zaključci i rezultati uopštavaju, a najčešće se odnose na testiranje statističkih hipoteza i procjenu nepoznatih parametara. Inferencijalna statistička analiza obuhvata stohastičke procese koji se pokoravaju zakonima vjerovatnoće i nije ih moguće matematički predviđati. Prethodno pomenuti metodi zasnivaju se na teoriji vjerovatnoće i upotrebi dijelimične (nepotpune) informacije o populaciji koja se analizira.
10
1.1. Prikupljanje statističkih podataka, formiranje statističke serije, tabelarno i grafičiko prikazivanje statističkih serija Primjer 1.1. Ispitivanje stanovnika o simptomima i prevenciji gripe u zimskom periodu vrši se pomoću anketnog upitnika, čiji je izgled: Molimo Vas da odvojite par minuta i iskreno odgovorite na sljedeća pitanja
6. Da li ste preduzimali preventivne mjere kako biste spriječili grip:
1. Vaša starosna dob je:
a. Vakcinacija
2. Mjesto Vašeg stanovanja:
b. Pomoćna
a. Centar grada b. Šire gradsko područje c. Prigradsko naselje d. Ruralna sredina (selo) 3. Vaša školska sprema: a. Osnovna škola b. Srednja škola c. Viša škola d. Visoka škola e. Magistar ili doktor nauka 4. Radni status: a. Zaposlen(a) b. Nezaposlen(a) c. Penzioner(ka) 5. Da li ste bolovali od gripa:
ljekovita
sredstva
(farmakološka) c. Pomoćna
ljekovita
sredstva
(prirodna ili domaća) d. Ništa od navedenog 7. Kako liječite grip: a. Odlazak
ljekaru
i
pridžavanje
i
dijelimično
dobijenih uputstava b. Odlazak
ljekaru
pridržavanje uputstava c. Samostalno uzimanje ljekova d. Samostalno
uzimanje
pomoćnih
ljekovitih sredstava (farmakoloških) e. Samostalno
uzimanje
pomoćnih
ljekovitih sredstava (prirodnih ili domaćih)
a. Veoma često (više puta godišnje) b. Često (svake godine)
Hvala na iskrenosti i izdvojenom
c. Povremeno (ne svake godine)
vremenu!
d. Rijetko ili nikada (ne sjećam se kada) Slika 1. Izgled anketnog upitnika za ispitivanje informisanosti ispitanika u pogledu prevencije i liječenja gripa
11
Anketa je provedena na 40 ispitanika, pri čemu su rezultati ankete bili sljedeći: V1 25 53 18 58 46 19 59 63 54 58 54 21 49 28 46 61 49 20 40 50 61 45 18 26 21 54 27 40 26 26 35 63 34 67 20 22 56 12
V2 c b a b c c a a c b b b d b a b d b a a d d c c b a d d c a c b d b b b c
V3 b a b a c c b b d c d d a c a d c b e e c d b a b e a b d c a c b b d a a
V4 b a a b a a b a a a b c a a a a b c b b b c c c b a b b a b c c a b b a b
V5 b c d c a d c b d d b d c d a d c a b c d a a c a b c b c a a d d d d c b
V6 d d c c c a b b a b a c c b c d c a d a a a b d a a d b d a a c c a a b d
V7 b d b b b d d a b d a b e d c b e b c d e c a b a d c b b c c b c b a b a
44 60 58
b d c
b b d
b a a
c b b
d d d
c a b
Slika 2. Rezultati ankete – odgovori ispitanika
Za potrebe prikazivanja rezultata statističkog eksperimenta, obilježja posmatranog statističkog skupa (statističke promjenljive) predstavljene se oznakama V1, V2,..., V7 u odnosu na redni broj pitanja u anketnom upitniku, pri čemu V1 predstavlja prvo obilježje (prvu promjenljivu) – starosna dob ispitanika, V2 predstavlja drugo obilježje (drugu promjenljivu) – mjesto stanovanja ispitanika, V3 predstavlja treće obilježje (treću promjenljivu) – školska sprema ispitanika, V4 predstavlja četvrto obilježje (četvrtu promjenljivu) – radni status ispitanika, V5 predstavlja peto obilježje (petu promjenljivu) – učestalost obolijevanja od gripa, V6 predstavlja šesto obilježje (šestu promjenljivu) – metod prevencije od gripa i V7 predstavlja sedmo obilježje (sedmu promjenljivu) – metod liječenja gripa. Modaliteti obilježja označeni su u u kolonama ispod naziva promjenljive. Potrebno je: a. Formirti statističke serije prema dobijenim odgovorima na postavljena pitanja i tako dobijene serije prikazati tabelarno uz prikazivanje kako apsolutnih tako i relativnih frekvencija; b. Urediti podatke koji se odnose na pitanja „Školska sprema“ i „Metod prevencije od gripa“ sa jedne strane, te „Metod liječenja gripa“ sa druge strane. Rješenje: a. Kako bismo izvršili formiranje statističke serije potrebno je urediti prikupljenu statističku građu, stoga je potrebno rezultate pojedinih statističkih promjeljivih urediti na odgovarajući način. Kako je promjenljiva V1 numerička promjeljiva, dok su ostale promjenljive V2 – V7 atributivne, nizove modaliteta vrijednosti pojedinih obilježja uređujemo prema intenzitetu mjerenog svojstva, čime dobijamo: v1 18 18 19 20 20 21 21
v2 a a a a a a a
v3 a a a a a a a
v4 a a a a a a a
v5 a a a a a a a
v6 a a a a a a a
v7 a a a a a a a 13
22 25 26 26 26 27 28 34 35 40 40 44 45 46 46 49 49 50 53 54 54 54 56 58 58 58 59 60 61 61 63 63 67
a b b b b b b b b b b b b b b c c c c c c c c c c d d d d d d d d
a a b b b b b b b b b b b b c c c c c c c c d d d d d d d d e e e
a a a a a a a a a a b b b b b b b b b b b b b b b b c c c c c c c
a b b b b b b b b b c c c c c c c c c c c d d d d d d d d d d d d
a a a a a a b b b b b b b c c c c c c c c c d d d d d d d d d d d
b b b b b b b b b b b b b b b c c c c c c c c d d d d d d d e e e
Slika 3. Odgovori ispitanika uređeni prema intenzitetu mjerenog dejstva
a. Promjenljiva V1 je kontinuirana numerička promjenljiva, uređenja je u rastući brojni niz koji ćemo grupisati u intervalnu statističku seriju distribucija frekvencija. Za potrebe formiranja statističke serije starosti ispitanika, modalitete promjenljive „Starost ispitanika“ grupisati ćemo u intervale, pri čemu je potrebno odrediti: -
Broj intervala unutar kojih će biti uvrštene vrijednosti modaliteta u konkretnoj statističkoj seriji (K). Zatim,
14
-
Veličine formiranih intervala (i).
Pomenute veličine izračunavaju se korištenjem sljedećih obrazaca: K =1+3,32log N gdje je N – obim pojave (broj anketiranih lica) Uvažavajući prirodu promjenljive K – broj intervala mora biti prirodan broj. ൌ
࢞ࢇ࢞ ି࢞ ࡷ
gdje su: Xmax – modalitet obilježja koji u posmatranoj statističkoj seriji ima najveću vrijednost; Xmin – modalitet obilježja koji u posmatranoj statsističkoj seriji ima najmanju vrijednost; K – prethodno određen broj intervala u statističkoj seriji. U posmatranom primjeru je: K = 1 + 3,32*log 40 = 1 + 3,32*log 40 =1 + 3,32*1,60206 = 1 + 5,32 = 6,32 | 6 ݅ൌ
െ ͳͺ Ͷͻ ൌ ൌ ͺǡͳ͵ሶ
Veličina intervala može biti iskazana u obliku cjelobrojne ili racionalne vrijednost, ovdje ćemo uzeti veličinu intervala 9, pri čemu ćemo poslednji interval ostaviti otvoren. Intervalna serija se formira tako da prvi interval za donju granicu ima vrijednost najmanjeg modaliteta u statističkoj seriji, a gornja granica dobije se kao zbir donje granice intervala i veličine intervala, dok je frekvencija intervala broj jedinica koje imaju vrijednost modaliteta posmatranog obilježja iz posmatranog intervala. U konkretnom primjeru prvi interval obuhvata ispitanike čija je starosn dob između 18 i 27 godina, broj ispitanika čija je starost između 18 i 27 godina je 12. Analogno navedenom postupak ponavljamo za sve ispitanike i dobijamo statističku seriju kao što je prikazano u narednoj tabeli. Relativne frekvencije dobijamo tako što frekvencije svakog pojedinog intervala podijelimo sa 40, jer je ukupan broj jedinica u posmatranom statističkom skupu 40, odnosno:
ൌ σ ή ͳͲͲΨ
15
Starost ispitanika xi
Broj ispitanika
Udio ispitanika %
fi
pi
18 – 27
12
30,0
27 – 36
4
10,0
36 – 45
3
7,5
45 – 54
7
17,5
54 – 63
11
27,5
63 i više Ukupno:
3 40
7,5 100%
Tabela 1. Tabelarni prikaz promjenljive V1 – Starost ispitanika; tip promjenljive – numerički; tip statističke serije – intervalna serija distribucija frekvencija
Ostale promjenljive u posmatranom statističkom modelu su atributivnog tipa pri čemu promjenljivu V2 – uređujemo prema konvencionalnom poretku, a ostale promjenljive V3 – V7 prema intenzitetu mjerenog svojstva, čime dobijamo statističke serije prikazane u sljedećim tabelama. Mjesto stanovanja ispitanika xi
Broj ispitanika
Udio ispitanika %
fi
pi
Centar grada
8
20
Gradsko područje
14
25
Prigradsko područje
10
35
Rurarlo područje (selo)
8
20
Ukupno:
40
100%
Tabela 2. Tabelarni prikaz promjenljive V2 – Mjesto stanovanja ispitanika; tip promjenljive – atributivni; tip statističke serije –serija distribucija frekvencija
Školska sprema ispitanika xi
Broj ispitanika
Udio ispitanika %
fi
pi
Osnovna škola
9
22,5
Srednja škola
12
30,0
Viša škola
8
20,0
Visoka škola
8
20,0
Magistar ili doktor nauka
3
7,5
Ukupno:
40
100%
Tabela 3. Tabelarni prikaz promjenljive V3 – Školska sprema ispitanika; tip promjenljive – atributivni; tip statističke serije – serija distribucija frekvencija
16
Radni status ispitanika xi Nezaposlen(a) Zaposlen(a) Penzioner(ka) Ukupno:
Broj ispitanika fi
Udio ispitanika % pi 17 16 7
42,5 40,0 17,5
40
100%
Tabela 4. Tabelarni prikaz promjenljive V4 – Radni status ispitanika; tip promjenljive – atributivni; tip statističke serije – serija distribucija frekvencija
Učestalost obolijevanja od gripa xi Veoma često Često Povremeno Rijetko ili nikad Ukupno:
Broj ispitanika fi
Udio ispitanika % pi 8 9 11 12
20,0 22,5 27,5 30,0
40
100%
Tabela 5. Tabelarni prikaz promjenljive V5 – Učestalost obolijevanja od gripa; tip promjenljive – atributivni; tip statističke serije – serija distribucija frekvencija
Metod prevencije gripa xi
Broj ispitanika
Udio ispitanika %
fi
pi
Vakcina
13
32,5
Pomoćna ljekovita sredstva (farmakološka)
7
17,5
Pomoćna ljekovita sredstva (prirodna ili domaća)
9
22,5
Ništa od navedenog
11
27,5
Ukupno:
40
100%
Tabela 6. Tabelarni prikaz promjenljive V6 – Metod prevencije gripa; tip promjenljive – atributivni; tip statističke serije – serija distribucija frekvencija
Metod liječenja gripa xi
Broj ispitanika
Udio ispitanika %
fi
pi
Odlazak ljekaru i pridržavanje dobijenih uputstava
7
17,5
Odlazak ljekaru i dijelimično pridržavanje dobijenih uputstava
15
37,5
Samostalno uzimanje ljekova
8
20,0
Samostalno uzimanje pomoćnih ljekovitih sredstava (farmakoloških)
7
17,5
Samostalno uzimanje pomoćnih ljekovitih sredstava (prirodnih ili domaćih)
3
7,5
Ukupno:
40
100%
Tabela 7. Tabelarni prikaz promjenljive V7 – Metod liječenja gripa; tip promjenljive – atributivnii; tip statističke serije – serija distribucija frekvencija
17
b. Prethodni tabelarni prikazi predstavljaju jednodimenzionalni prikaz statističke serije prema modalitetima jednog obilježja. U narednom radu prikazaćemo statističku seriju uređenu prema modalitetima dva obilježja. U prvom slučaju navedeno se odnosi na obilježja „Školska sprema ispitanika“ i „Metod prevencije gripa“, u drugom slučaju to su „Školska sprema ispitanika“ i „Metod liječenja gripa“. Navedeni prikaz zahtijeva upotrebu tabele kontigencije, kako slijedi: Školska sprema ispitanika
Osnvna
Srednja
Viša
Visoka
Magistar
škola
škola
škola
škola
ili doktor
Metod prevencije Vakcina Pomoćna
ljekovita
sredstava
Ukupno:
nauka 1
3
3
4
2
13
(2,5%)
(7,5%)
(7,5%)
(10,0%)
(5,0%)
(32,5%)
1
4
2
0
-
7
(2,5%)
(10,0%)
(5,0%)
(0,0%)
-
(17,5%)
(farmakoloških) Pomoćna
ljekovita
3
2
3
1
-
9
sredstava
(prirodnih
(7,5%)
(5,0%)
(7,5%)
(2,5%)
-
(22,5%)
4
3
-
3
1
11
(10,0%)
(7,5%)
-
(7,5%)
(2,5%)
(27,5%)
9
12
8
8
3
40
(22,5%)
(30,0%)
(20,0%)
(20,0%)
(7,5%)
(100%)
ili domaćih) Ništa od navedenog Ukupno:
Tabela 8. Anketirani prema „Školskoj spremi“ i „Metodu prevencije gripa“
U prethodnoj tabeli frekvencije pokazuju broj (procenat – udio) ispitanika koji istovremeno posjeduju modalitet dva obilježja. Tako npr.jedan ispitanik sa završenom osnovnom školom prevenciju gripe vrši putem vakcinacije, što u procentima predstavlja 2,5 % od ukupnog broja ispitanika. Kolona Ukupno sadrži frekvencije modaliteta u zaglavlju i naziva se još i marginalna kolona,
jednako vrijedi i za redove tabele. Zbirni red (Ukupno) sadrži zbir frekvencija
modaliteta u zaglavlju i naziva se marginalni red.
18
Školska sprema ispitanika
Osnvna
Srednja
Viša
Visoka
Magistar
škola
škola
škola
škola
ili doktor
Metod liječenja
Ukupno:
nauka
Odlazak ljekaru i
1
4
0
2
0
7
pridržavanje dobijenih
(2,5%)
(10,0%)
(0,0%)
(5,0%)
(0,0%)
(17,5%)
Odlazak ljekaru i
3
5
2
5
0
15
dijelimično
(7,5%)
(12,5%)
(5,0%)
(12,5%)
(0,0%)
(37,5%)
Samostalno uzimanje
3
2
1
1
1
8
ljekova
(7,5%)
(5,0%)
(2,5%)
(2,5%)
(2,5%)
(20,0%)
Samostalno uzimanje
1
1
3
0
2
7
pomoćnih ljekovitih
(2,5%)
(2,5%)
(7,5%)
(0,0%)
(5,0%)
(17,5%)
Samostalno uzimanje
1
0
2
0
0
3
pomoćnih ljekovitih
(2,5%)
(0,0%)
(5,0%)
(0,0%)
(0,0%)
(7,5%)
9
12
8
8
3
40
(22,5%)
(30,0%)
(20,0%)
(20,0%)
(7,5%)
(100%)
uputstava
pridržavanje dobijenih uputstava
sredstava (farmakoloških)
sredstava (prirodnih ili domaćih) Ukupno:
Tabela 9. Anketirani prema “Školskoj spremi” I “Metodu liječenja gripa”
Primjer 1.2. Na jednom prodajnom mjestu zabilježeni su podaci o broju prodanih jedinica proizvoda „X“ u toku 10 radnih dana, kako slijedi: 9, 7, 5, 2, 6, 4, 8, 1, 0 i 3.Formirati statističku seriju broja prodanih proizvoda „X“ u toku radnog dana, te tako formiranu seriju prikazati tabelarno. Rješenje: Prikupljeni podaci u posmatranom primjeru su numerički podaci, gdje je osobina koja je predmet posmatranja i analize broj prodanih jedinica proizvoda „X“ u toku jednog radnog dana. Modaliteti – pojavni oblici mjerene osobine (xi), u posmatranom primjeru su cijeli 19
nenegativni brojevi, pri čemu se svaki modalitet pojavljuje samo jednom. Poznato je da se broj podataka sa istim oblikom obilježja naziva frekvencija (fi). Ordiniranim poretkom, prema intenzitetu mjerene osobine, uređenih parova modalitet frekvencija dobijamo statističku seriju. Kako su sve frekvencije, u posmatranom primjeru jednake jedinici, sređivanjem podataka dobijamo statističku seriju koja se naziva prosta serija. Dakle, ovdje imamo: Broj prodanih proizvoda u toku radnog dana (xi) 0 1 2 3 4 5 6 7 8 9 Tabela 10. Tabelarni prikaz statističke serije broja prodanih proizvoda “X”
Primjer 1.3. Na ispitnom roku iz statistike rezultati su verifikovani sljedećim ocijenama: 5,
7, 6, 6, 5, 5, 8, 7, 6, 6, 7, 5, 5, 9, 7, 8, 7, 6, 6,10, 6, 6, 8, 5, 5, 6, 7, 6, 6, 5, 6, 7, 8, 6, i 5. Potrebno je: a. Formirati statističku seriju ostvarenih rezultata na ispitu iz statistike. Seriju prikazati tabelarno; b. Prikazati statističku seriju pod a) prikazom u dekartovom i polarnom koordinatnom sistemu; c. Prikazati statističku seriju pod a) histogramom kvadrata i krugova, te strukturnim krugom; Rješenje: a. Prikupljeni podaci u posmatranom primjeru su numerički podaci, gdje je osobina koja je predmet posmatranja i analize visina ocjene na ispitu iz statistike. Modaliteti – pojavni oblici 20
mjerene osobine (xi), u posmatranom primjeru su cijeli brojevi iz intervala 5 - 10, pri čemu se modaliteti pojavljuju odgovarajući broj puta. Dakle, ovdje ćemo izvršiti poredak modaliteta prema intenzitetu ispoljavanja, što je: 5,5,5,5,5,5,5,5,5,6,6,6,6,6,6,6,6,6,6,6,6,6,7,7,7,7,7,7,7,8,8,8,8,9 i 10. Sada je potrebno izvršiti grupisanje modaliteta sa istom vrijednošću. Ovdje se modalitet 5 javlja 9 puta, modalitet 6 se javlja 13 puta, modalitet 7 se javlja 7 puta, modalitet 8 se javlja 4 puta, a modaliteti 9 i 10 se javljaju po 1 put. Dakle, sada znamo da su frekvencije modaliteta 9, 13, 7, 4, 1 i 1, respektivno te dobijene rezultate možemo unijeti u sljedeću tabelu. Visina ocjene na ispitu iz statistike
Broj studenata
(xi)
(fi)
5
9
6
13
7
7
8
4
9
1
10
1
Ukupno (Σ):
35
Tabela 11. Tabelarni prikaz statističke serije ostvarenih rezultata na ispitu iz statistike
Poslednji red u prethodnoj tabeli naziva se zbirni red. Zbir frekvencija Σfi (u posmatranoj statističkoj seriji iznosi 35), naziva se obim pojave i označava broj jedinica statističkog skupa koji je obuhvaćen analizom. b. Dekartov koordinatni sistem čine dvije prave koje se sijeku pod pravim uglom (uglom O
90 ), gdje se horizontalna prava naziva osa apscisa i na nju se nanose vrijednosti modaliteta posmatranog obilježja, dok se vertikalna osa naziva osom ordinata i na nju se nanose vrijednosti frekvencija posmatranog obilježja. Svakom uređenom paru (xi, fi) odgovara jedna tačka u dekartovom koordinatnom sistemu. Kada se nacrtaju sve tačke i spoje izlomljenom linijom dobijamo linijski dijagram koji predstavlja grafički prikaz statističke serije u dekartovom koordinatnom sistemu, koji u posmatranom primjeru možemo prikazati sljedećom ilustracijom.
21
14 12 10 8 6 4 2 0 5
6
7
8
9
10
Slika 4. Grafički prikaz statističke serije u dekartovom koordinatnom sistemu
Polarni koordinatni sistem sastoji se od određenog broja polupravih koje polaze iz istog ishodišta i zrakasto se šire od centra ka periferiji. Broj pravih odgovara broju različitih modaliteta u statističkoj seriji, dok poluprečnik (udaljenost od centra) određuje frekvenciju posmatranog modaliteta. Svakom uređenom paru (xi, fi) – poluprava; poluprečnik odgovara tačno jedna tačka u polarnom koordinatnom sistemu. Kada se zatvorenom izlomljenom linijom spoje sve tačke dobijene na opisan način dobijamo linijski dijagram koji predstavlja grafički prikaz statističke serije u polarnom koordinatnom sistemu, koji u posmatranom primjeru možemo ilustrovati sljedećim prikazom. 15 10
10
5 9 6
5 1 0 1 9
13
4
7 7
8 Slika 5. Grafički prikaz statističke serije u polarnom koordinatnom sistemu
Dekartov i polarni koordinatni sistem su najčešće korišteni linijski dijagrami za prikazivanje statističke serije.
22
c. Histogram kvadrata jeste površinski dijagram kojim svaki modalitet prikazujemo kvadratom čija površina odgovara njegovoj frekvenciji. Poznato je da se površina kvadrata izračunava po sljedećoj formuli: ࡼ ൌ ࢇ gdje je a – stranica kvadrata; Iz navedenog proizilazi da je: P = fi fi = ࢇ ࢇ ൌ ඥࢌ Dakle u narednoj tabeli za svaki modalitet odredićemo stranicu kvadrata čija površina će predstavljati svaki modalitet u skladu sa njegovom frekvencijom. xi 5 6 7 8 9 10 Σ
fi 9 13 7 4 1 1 35
ai = ඥ݂ a1 = ξͻ = 3,000 a2 = ξͳ͵ = 3,606 a3 = ξ = 2,646 a4 = ξͶ = 2,000 a5 = ξͳ = 1,000 a6 = ξͳ = 1,000 -
Tabela 12. Radna tabela – izračunavanje stranice kvadrata za potrebe prikazivanja statističke serije histogramom kvadrata
Kada se izračunaju dužine stranica za kvadrate kojima se predstavljaju pojedini modaliteti, tada se pristupa crtanju koncentričnih kvadrata poredanih prema dužini stranice, površine tako nacrtanih kvadrata formiraju površinski dijagram koji se naziva histogram kvadrata, što se za posmatrani primjer može prikazati sljedećom ilustracijom.
Slika 6. Grafički prikaz statističke serije pomoću histograma kvadrata
a5a3 = a6 =1,000 a1 3,000 a4 = 2,646 2,000 a2 3,606
23
Histogram krugova jeste površinski dijagram kojim svaki modalitet prikazujemo krugom čija površina odgovara njegovoj frekvenciji. Poznato je da se površina kruga izračunava po sljedećoj formuli: ܲ ൌ ߨ ݎଶ , gdje je r – poluprečnik kruga; π – ludvigov broj čija vrijednost iznosi 3,141592653; Iz navedenog proizilazi da je: ࢌ
P = fi fi = ࣊࢘ ࢘ ൌ ට
࣊
Dakle u narednoj tabeli za svaki modalitet odredićemo stranicu kvadrata čija površina će predstavljati svaki modalitet u skladu sa njegovom frekvencijom. xi 5
fi 9
ri = ට
గ
ଽ
r1 = ට = 1,693 గ
6 7
13 7
r2 = ට
ଵଷ గ
= 2,034
r3 = ට = 1,493 గ
8
4
ସ
r4 = ට = 1,128 గ
9
1
ଵ
r5 = ට = 0,564 గ
10
1
ଵ
r6 = ට = 0,564 గ
Σ
35
-
Tabela 13. Radna tabela – izračunavanje poluprečnika kruga za potrebe prikazivanja statističke serije histogramom krugova
Kada se izračunaju dužine poluprečnika krugova kojima se predstavljaju pojedini modaliteti, tada se crtanje koncentričnih krugova poredanih prema dužini poluprečnika, površine tako nacrtanih krugova formiraju površinski dijagram koji se naziva histogram krugova, što se za posmatrani primjer može prikazati sljedećom ilustracijom.
24
Slika 7. Grafički prikaz statističke serije pomoću histograma krugova
r6 = r5 r1===1,693 r3 1,493 r4 1,128 r2 2,034 =0,564
Strukturni krug je površinski dijagram statističke serije koji se dobije kada se površina kruga podijeli na površinske dijelove (uglove - ߙ ) proporcionalno udjelu modaliteta u statističkoj seriji, odnosno: ࢌ
ࢻ ൌ σ ή ࢌ
Dakle u narednoj tabeli za svaki modalitet odredićemo ugao čija površina će predstavljati svaki modalitet u skladu sa njegovom frekvencijom.
xi
fi
5
9
6
13
ߙଶ =
7
7
ߙଷ =
8
4
ߙସ =
9
1
ߙହ =
10
1
ߙ =
Σ
35
ߙ = σ ή ͵Ͳ
ߙଵ =
ଽ
ଷହ ଵଷ ଷହ
ή ͵Ͳ = 92,57o
ή ͵Ͳ = 133,71o
ଷହ ସ ଷହ ଵ ଷହ ଵ ଷହ
ή ͵Ͳ = 72,00o ή ͵Ͳ = 41,14o ή ͵Ͳ = 10,29o ή ͵Ͳ = 10,29o 360,00o
Tabela 14. Radna tabela – izračunavanje dijela kruga za potrebe prikazivanja statističke serije strukturnim krugom
25
Kada se izračunaju veličine uglova kojima se predstavljaju pojedini modaliteti, nacrta se krug čija površina se podijeli na uglove prema dobijenim vrijednostima, površine tako nacrtanih kružnih lukova formiraju površinski dijagram koji se naziva strukturni krug, što se za posmatrani primjer može prikazati sljedećom ilustracijom.
5 6 7 8 9 10
Slika 8. Grafički prikaz statističke serije pomoću strukturnog kruga
Primjer 1.4. Na području jedne regije zabilježeni su podaci o visini ostvarene dobiti za mala i srednja preduzeća, čije se poslovanje i sjedište teritorijalno vezuju za posmatranu regiju. Analiza se odnosila na period od jedne poslovne (kalendarske) godine, a podaci o visini ostvarene dobiti su sljedeći: 8219; 4825; 1218; 1039; -454; 9773; 917;1203; 1200; -823; 7700; 3247; 6502; 7914; 5661; 7317; 1412; 2101; 3954; 1618; 3845; 3775; 4190; -7; 8865; 3759; 7766; 9997; 6925; 7870; 8972; 5935; 308; 6365; 7809; 4486; 970; 2767; 5341; 8543; -645; 2549; 927; 4260; 7085; 3337; -983; 1398; -764 i 975. Podaci o visini ostvarene dobiti za 50 posmatranih I istraživanjem obuhvaćenih preduzeća izraženi su u konvertibilnim markama. Potrebno je:
a. Formirati statističku seriju ostvarene dobiti za mala i srednja preduzeća u posmatranoj regiji. Dobijenu statističku seriju prikazati tabelarno; b. Prikazati statističku seriju pod a) histogramom frekvencija i poligonom frekvencija. Rješenje: a.
Prikupljeni podaci u posmatranom primjeru su numerički podaci, gdje je osobina koja je predmet posmatranja i analize visina ostvarene dobiti preduzeća, koja posluju u
26
odgovarajućoj redaju, realizovan u periodu jedne kalendarske godine. Modaliteti – pojavni oblici mjerene osobine (xi), u posmatranom primjeru su realni brojevi, pri čemu ampituda kolebanja njihovih pojavnih vrijednosti visoka u odnosu na broj opservacija (zabilježene vrijednosti kolebaju se u intervalu od – 983 do 9997; pri čemu je istraživanjem obuhvaćeno 50 preduzeća). Poznato je da broj podataka sa istim oblikom obilježja se naziva frekvencija (fi). Za potrebe formiranja statističke serije vrijednosti ostvarene dobiti grupisaćemo u intervale, pri čemu je potrebno odrediti: -
Broj intervala unutar kojih će biti uvrštene vrijednosti modaliteta u konkretnoj statističkoj seriji (K). Zatim,
-
Veličine formiranih intervala (i).
Pomenute veličine izračunavaju se korištenjem sljedećih obrazaca: K =1+3,32log N gdje je N – obim pojave (broj opservacija) Uvažavajući prirodu promjenljive K – broj intervala mora biti prirodan broj. ൌ
࢞ࢇ࢞ ି࢞ ࡷ
gdje su: Xmax – modalitet koji u posmatranoj statističkoj seriji ima najveću vrijednost; Xmin – modalitet koji u posmatranoj statističkoj seriji ima najmanju vrijednost; K – broj intervala u statističkoj seriji. U posmatranom primjeru je: Xmax =9997 Xmin = –983 N = 50, pa dobijamo K = 1 + 3,32log 50 = 1 + 3,321,69897=1 + 5,64058 =6,64058|7 ݅ൌ
ଽଽଽିሺିଽ଼ଷሻ
ൌ
ଵଽ଼
ൌ ͳͷͺǡͷ ൎ ͳͷͲ,
Dakle, statistička serija će imati sedam intervala, pri čemu će svaki od njih biti veličine 1570 jedinica. Prilikom formiranja statistčke serije prvi interval počinje sa modalitetom koji u statističkoj seriji ima najmanju vrijednost (Xmin), a završava sa vrijednošću koju dobijemo kada donju granicu intervala uvećamo za veličinu intervala (Xmin+i).
27
Poznato je više modela formiranja granica intervala, gdje intervali mogu biti otvoreni, što je uobičajeno za prvi i/ili poslednji interval u statističkoj seriji, pri čemu je prvi otvoren sa donju, a zadnji sa gornju stranu. Navedeni postupak opravdan je činjenicom da je, u većini konkretnih pojava, koncentracija vrijednosti na rubovima domena niska, kao i da su ekstremne vrijednosti „široko“ raspoređene. Svaki sljedeći interval nastavlja se vrijednošću kojom je prethodni interval završio, pri čemu granice intervala mogu biti prave i vještačke. Kada imamo kontinuirane numeričke pokazatelje konvecionano se formiraju prave granice intervala vrijednosti modaliteta (sljedeći interval počinje vrijednošću kojom je prethodni završio), dok se vještačke granice intervala vezuju za diskontinuirane numeričke pokazatelje ( pravi se razlika među vrijednostima koje obilježavaju donju i gornju granicu pojedinih intervala kako bi se izbjegle greške kod formiranja statističkih serija zbog nejasnoća oko uvrštavanja graničnih vrijednosti u pojedine intervale). Polazeći od konkretnih podataka, u konkretnom primjeru, formiramo statističku seriju uvažavajući sljedeću proceduru: -
Formiramo rastući brojni niz zabilježenih vrijednosti modaliteta kojima iskazujemo visinu ostvarene dobiti srednjih i malih preduzeća teritorijalno vezanih za posmatranu regiju realizovan u periodu kalenadrske godine, što u konkretnom primjeru odgovara sljedećem brojnom nizu podataka: -983; -970; -823; -764; -645; - 454; -7; 308; 917; 927; 975; 1039; 1200; 1203; 1218; 1398; 1412; 1618; 2101; 2549; 2767; 3247; 3337; 3759; 3775; 3845; 3954; 4190; 4260; 4486; 4825; 5341; 5661; 5935; 6365; 6502; 6925; 7085; 7317; 7700; 7766; 7809; 7870; 7914; 8219; 8543; 8872;8972; 9773; 9997.
-
Ordiniranim poretkom, prema intenzitetu mjerene osobine, uređenih parova modalitet frekvencija dobijamo statističku seriju. Kako se vrijednosti modalteta grupišu unutar odgovarajućih intervala, sređivanjem podataka dobijamo statističku seriju koja se naziva intervalna serija distribucija frekvencija. Dakle, ovdje imamo: Visina ostvarene dobiti preduzeća u toku posmatrane kalendarske godine Xi Do 587 587 – 2157 2157 – 3727 3727 – 5297 5297 – 6867
28
Broj preduzeća Fi 8 11 4 8 5
6867 – 8437 8437 i više 6 (UKUPNO):
9 5 50
Tabela 15. Tabelarni prikaz statističke serije visine ostvarene dobiti malih i srednjih preduzeća u posmatranoj regiji realizovanoga u toku kalendarske godine
b. Poligon frekvencija, kao i histogram frekvencija predstavljaju površinski dijagram, koji predstavlja modifikovan grafički prikaz intervalne serije distribucija frekvencija u dekartovom koordinatnom sistemu. Poligon frekvencija je grafički prikaz, kod koga se u dekartovom koordinatnom sistemu nacrtaju uređeni parovi sredina intervala, frekvencija intervala. Tom prilikom vještački se dodaju dva intervala i to interval koji prethodi prvom, te interval koji slijedi nakon poslednjeg. Jasno je da su frekvencije oba vještačka intervala jednake nuli. Kada se spoje sve tačke dobijene u dekartovom koordinatnom sistemu, nacrtane na prethodno opisan način, dobije se zatvorena kriva linija. Površina koju zatvara tako dobijena izlomljena linija sa osom apscija (konvencijalno nazvana osa „x“) naziva se poligon frekvencija. Polazeći od konkretnih podataka u analiziranom primjeru dobijamo poligon frekvencija kao na sljedećoj slici: 12 10 8 6 4 2 0 do 587
587 2157
2157 3727
3727 5297
5297 6867
6867 8437
8437 i više
Slika 9. Grafički prikaz statističke serije pomoću poligona frekvencija
Histogram frekvencija je površinski dijagram, kod koga se intervali grafički prikazuju pomoću pravougaonika čija širina odgovara veličini intervala i određuje se na osi opscisa, a njegova visina odgovara frekvenciji toga intervala i označava se na osi ordinata. Polazeći od konkretnih podataka u analiziranom primjeru dobijamo histogram frekvencija kao na narednoj slici.
29
12 10 8 6 Fi 4 2 0 do 587
587 2157
2157 3727
3727 5297
5297 6867
6867 8437
8437 i više
Slika 10. Grafički prikaz statističke serije pomoću histograma frekvencija
Zadaci: 1.5. Broj pregledanih pacijenata u toku 25 radnih dana u ambulanti hitne pomoći bio je: 1
0
4
3
4
4
4
1
0
1
2
3
3
1
3
2
4
5
4
0
1
1
0
1
5
a. Formirati seriju distribucija frekvencija broja pregledanih pacijenata; definisati statističku promjenljivu; b. Formiranu statističku seriju prikazati pomoću histograma krugova i kvadrata; c. Formiranu statističku seriju prikazati pomoću prikaza u dekartovom i polarnom koordidatnom sistemu. 1.6. Na jednom području posmatrana je starosna struktura oboljelih od vodenih ospica gdje su kod stanovnika posmatranog područja zabilježene sljedeće vrijednosti: 20 1 5 2 0
0 6 7 16 45
2 34 0 6 2
4 3 8 6 3
22 2 46 5 5
3 7 15 12 4
23 5 9 3 15
4 11 3 7 6
Potrebno je: a. Formirati intervalnu seriju starosne strukture oboljelih od vodenih ospica na posmatranom području; 30
b. Statističku seriju grafički prikazati pomoću histograma frekvencija, polarnog dijagrama i strukturnog kruga. 1.7. Za potrebe analize spremnosti i sposobnosti kandidata za igrača, menadžment košarkaškog kluba posmatra karakteristike igrača u pogledu njihove visine, izdržljivosti i brzine. Pri tome su dobijeni sljedeći podaci: Visina igrača – cm: 217
194
199
207
191
193
189
211
203
201
196
209
207
199
211
189
186
189
186
214
202
187
194
195
185
209
190
188
190
199
190
190
197
212
185
204
194
198
190
188
202
200
187
192
200
205
194
220
Izdržljivost igrača – vrijeme koliko odrazna ruka igrača može da održi određeno opterećenje –držanja utega težine 24 kg u sekundama: 30
77
35
20
73
81
89
41
13
70
38
32
82
10
81
81
85
29
23
26
99
99
56
30
32
19
24
53
26
29
83
11
12
10
82
58
78
14
19
51
61
39
57
39
96
15
12
100
Brzina igrača – iskazuje se vremenom potrebnim da igrač pretrči stazu dužine 100 metara: 13
15
17
18
11
13
17
17
20
11
11
19
15
15
16
17
11
15
17
18
17
19
15
10
14
17
20
13
13
19
14
13
20
16
20
15
17
11
15
15
14
20
19
18
10
11
19
19
Potrebno je: a. Formirati statističke serije distribucija igrača prema visini, izdržljivosti i brzini; b. Dobijene statističke serije prikazati pomoću poligona frekvencija, histograma kvadrata, histograma krugova i strukturnog kruga.
31
1.8. U jednom preduzeću zaposleno je 100 radnika, podaci o dužini njihovog radnog staža su: 25
1
15
20
11
30
10
17
1
34
1
4
11
5
37
18
19
18
7
37
38
37
15
7
28
9
19
16
11
4
34
33
5
3
6
9
2
13
13
29
14
19
23
8
19
11
22
22
18
10
7
6
36
36
35
5
21
21
21
36
22
10
22
1
22
10
15
13
4
8
16
26
19
24
6
6
5
17
21
20
39
11
1
20
5
39
0
35
10
25
15
36
37
9
14
4
22
1
37
32
Potrebno je: a. Formirati statističku seriju distribucije radnika prema visini radnog staža; b. Dobijenu statističku seriju prikazati pomoću histograma krugova, kvadrata i frekvencije; c. Dobijenu statističku seriju prikazati pomoću strukturnog kruga. 1.9. Na području jedne regije posluje 100 malih i srednjih preduzeća. Podaci o posmatranim preduzećima u pogledu visine angažovanih sredstava i ostvrenoj dobiti u određenoj godini su: Angažovana sredstva (000 KM): 68
28
26
74
56
62
45
87
21
39
92
63
40
96
68
58
87
31
35
37
72
12
48
62
95
61
26
99
33
82
53
60
32
86
59
94
30
85
41
62
70
42
52
59
52
87
35
53
51
60
59
28
65
24
56
36
79
68
28
78
82
10
100
25
42
44
18
27
23
99
31
23
62
30
35
5
77
98
83
58
77
20
84
14
67
89
37
100
27
83
82
64
63
53
76
34
25
29
22
9
Ostvarena dobit (KM):
32
12532
22561
21108
4111
711
-119
8819
17963
20815
1480
21700
-2640
5329
-3368
7031
8149
11206
1501
18981
22685
2991
4902
1313
8003
21350
19786
23868
11962
8604
2179
-868
19181
22823
864
18165
23114
22025
15111
2122
15318
9981
22599
7619
5045
13073
6915
2689
10174
16964
944
19469
24604
17527
17775
1217
9557
2627
17795
5353
-2957
4668
-1957
4655
14237
11595
15904
3824
16445
13762
5010
23733
15547
21780
7295
1814
13610
2158
18987
15997
-610
15403
2584
13853
16718
21888
-4747
16166
23715
4065
19879
-2166
11513
-3177
-4227
12013
20152
15604
21832
15467
14422
Potrebno je: a. Formirati seriju distribucija preduzeća prema visini angažovanih sredstava i prema visini ostvarene dobiti; b. Dobijene serije podataka prikazati pomoću strukturnog kruga, histograma frekvencija i poligona frekvencija.
33
2. DESKRIPTIVNA ANALIZA
2.1. Mjere centrlane tendencije Mjere centralne tendencije obuhvataju vrijednosti kojima se predstavljaju brojni nizovi varijabilnih podataka, među njima razlikujemo izračunate srednje vrijednosti (sredine) i pozicione vrijednosti. Postoje i specifične srednje vrijednosti numeričkog niza označene kao momenti. Srednje vrijednosti obuhvataju aritmetičku, harmonijsku i geometrijsku sredinu, a pozicione modus, medijanu, kvartile, decile, percentile... 2.1.1.
Aritmetička sredina – prosjek
Aritmetička sredina ili prosjek (ݔҧ Ǣ ߤሻdefiniše se kao količnik između zbira vrijednosti modaliteta i njihog broja. Aritmetička sredina određuje se kao prosta ili ponderisana zavisno od tipa statističke serije, i to: -
Za serije negrupisanih podataka koristi se prosta aritmetička sredina, odnosno naredni obrazac: ݔҧ ൌ ߤ ൌ
-
σ ௫
Za serije distibucija frekvencija koristi se ponderisana aritmetička sredina, odnosno naredni obrazac: ݔҧ ൌ ߤ ൌ
-
σ ௫ σ
Alternativno aritmetička sredina može se izračunati kroz vjerovatnoću slučajnih događaja, kada se naziva očekivana vrijednost (matematička nada; matematičko očekivanje), kao zbir proizvoda odgovarajućih vrijednosti modaliteta i vjerovatnoće njihovog
dešavanja,
odnosno1:
ܧሺݔ ሻ ൌ ݔҧ ൌ ߤ ൌ σ ሺݔ ሻ ή ݔ ,
pri
čemu
p(xi)
predstavljaju relativne frekvencije pojedinih modaliteta;
1
Obrasci za izračunavanje aritmetičke sredine I matematičkog očekivanja su ekvivalentni izrazi, odnosno polazeći σ௫ ଵ ଵ ଵ od obrasca za izračunavanje proste aritmetičke sredine ݔҧ ൌ ൌ ݔଵ ݔଶ ڮ ݔ ൌ ሺݔଵ ሻ ή ݔଵ ሺݔଶ ሻ ή ݔଶ ڮ ሺݔ ሻ ή ݔ ൌ σ ሺݔ ሻ ή ݔ ൌ ܧሺݔ ሻ, dobili smo matematičko očekivanje slučajne promjenljive. σ ௫ Analogno prethodnom polazeći od obrasca za ponderisanu aritmetičku sredinu ݔҧ ൌ σ ൌ σ భ ݔଵ σ మ ݔଶ
ڮ σ మ ݔ ൌ ሺݔଵ ሻ ή ݔଵ ሺݔଶ ሻ ή ݔଶ ڮ ሺݔ ሻ ή ݔ ൌ σ ሺݔ ሻ ή ݔ ൌ ܧሺݔ ሻ,
matematičko očekivanje slučajne promjenljive
34
ponovno
smo
dobili
-
Aritmetička sredina se može izračunati i postupkom kodiranjem vrijednosti brojnog niza, odnosno metodom linearne transformacije promjenljive, odnosno: ݔҧ ൌ ܽ ܾ ή ݀ҧ , gdje su a i b konstante, dok se vrijednost promjenljive izračunava na sljedeći način: ݀ҧ ൌ čemu je ݀ ൌ
௫ ି
σ ௗ
, pri
.
Osobine aritmetičke sredine su: -
Veća je od najmanjeg, a manja od najvećeg modaliteta u statističkoj seriji, odnosno:ݔ ߤ ݔ௫ ;
-
U homogenoj statističkoj seriji vrijednost aritmetičke sredine jednaka je vrijednostima modaliteta, odnosno ako je ݔଵ ൌ ݔଶ ൌ ڮൌ ݔ ൌ ݔ ൌ ߤ;
-
Zbir odstupanja orginalnih podataka od aritmetičke srdine ima vrijednost nula, odnosno: σሺݔ െ ߤሻ ൌ Ͳ;
-
Zbir kvadrata odstupanja orginalnih podataka od aritmetičk sredine je minimalan, odnosno: σሺݔ െ ߤሻଶ ՜ ݉݅݊.
Primjer 2.1. Na proizvodnoj liniji proizvoda „P“ zabilježene su sljedeće vrijednosti težine proizvoda: 109; 119; 97; 94; 114; 98; 97; 101; 110 i 102 g. Potrebno je: a) Odrediti prosječnu težinu proizvoda „P“ kao prostu aritmetičku sredinu i kodiranjem; pri kodiranju koristiti konstante a = 100, b = 8; b) Dokazati da su zadovoljene osobine aritmetičke sredine. Rješenje: a) Ovdje je riječ o seriji negrupisanih podataka, tako da se aritmetička sredina računa kao posta aritmetička sredina, odnosno, imamo da je: ߤൌ
ͳͲͶͳ ͳͲͻ ͳͳͻ ͻ ͻͶ ͳͳͶ ͻͺ ͻ ͳͲͳ ͳͳͲ ͳͲʹ ൌ ൌ ͳͲͶǡͳ ͳͲ ͳͲ
Xi ݔ െ ͳͲͲ ݀ ൌ ͺ
109
119
97
94
114
98
97
101
110
102
1,125
2,375
-0,375
-0,75
1,75
-0,25
-0,375
0,125
1,25
0,25
6 5,125
Tabela 16. Radna tabela – elementi za određivanje aritmetičke sredine metodom kodiranja
Sada imamo da je aritmetička sredina ߤ ൌ ͳͲͲ ͺ ή
ହǡଵଶହ ଵ
ൌ ͳͲͶǡͳ.
35
Prosječna težina proizvoda „P“ je 104,1g. Korištenjem različitih metoda određivanja dobili smo jednaku vrijednost aritmetičke sredine, jer metoda određivanja je samo analitički postupak koji ne smije uticati na izračunatu vrijednost. b) Kada je riječ o osobinama aritmetičke sredine dokaze izvodimo na sljedeći način: -
ݔ ൌ ͻͶǢݔ௫ ൌ ͳͳͻǡ ݆݆݁ܽ݀݅݀݁݅ݎݒǣ ͻͶ ͳͲͶǡͳ ͳͳͻǢ
-
Modaliteti u statističkoj seriji su različiti, dakle, statistička serija nije homogena;
-
σሺݔ െ ͳͲͶǡͳሻ ൌ Ͳ
-
σሺݔ െ ͳͲͶǡͳሻଶ ൌ ͵ʹǡͻ ൏ σሺݔ െ ͳͲͲሻଶ ൌ ͺͲͳ
Xi ݔ െ ͳͲͶǡͳ ଶ
ሺݔ െ ͳͲͲሻ
ሺݔ െ ͳͲͶǡͳሻ
ଶ
109
119
97
94
114
98
97
101
110
102
4,9
14,9
-7,1
-10,1
9,9
-6,1
-7,1
-3,1
5,9
-2,1
81
361
9
36
196
4
9
1
100
4
50,41 102,01
98,01
37,21
50,41
9,61
34,81
4,41
24,01 222,01
Tabela 17. Radna tabela – izračunavanje elemenata za potrebe dokazivanja osobina aritmetičke sredine
Primjer 2.2. Zdravstvena ustanova „Z“ analizira učestalost posjeta pacijenata ljekaru porodične medicine. Analiza se odnosi na 250 pacijenata registrovanih u posmatranoj zdravstvenoj ustanovi pri čemu su zabilježeni podaci o broju posjeta svakog pacijenta u toku jednog mjeseca. Podaci su sređeni u odgovarajuću statističku seriju i mogu se prikazati sljedećim tabelarnim prikazom: Broj posjeta u toku jedog mjeseca
0
1
2
3
4
5
6
7
8
9
Broj pacijenata
15
37
34
32
21
47
19
25
14
6
Tabela 18. Distribucija broja posjete pacijenata ljekaru porodične medicine u toku godine
Potrebno je: a. Odrediti prosječan broj pregledanih pacijenata u toku jednog mjeseca. Dokazati da vrijede osobine aritmetičke sredine; b. Odrediti relativne frekvencije te izračunati vrijednost matematičkog očekivanja; c. Grafički prikazati statističku seriju pomoću strukturnog kruga. Rješenje: a. U posmatranom primjeru radi se o numeričkoj seriji distribucija frekvenvcija, pomjenljiva u statističkom modelu je broj posjeta porodičnom ljekaru u toku jednog mjeseca, dakle riječ je o prekidnoj (diskontinuiranoj) numeričkoj promjenljivoj, učestalost se izražava kao broj pacijenata koji u toku mjeseca ostvare isti broj posjeta ljekaru porodične medicine. Broj pacijenata predstavlja vrijednost apsolutnih frekvencija posmatrane statističke promjenljive. Kako je prikazana statistička serija serija 36
6 0 801 632,9
distribucija frekvencija, prosječan broj pacijenata koji u toku mjeseca posjete porodičnog ljekara izračunavamo kao ponderisanu aritmetičku sredinu: ݔҧ ൌ
σ సభ ௫ σ సభ
U narednoj tabeli prikazani su elementi potrebni za izračunavanje ponderisane aritmetičke sredine: Broj posjeta u toku
Broj
jedog mjeseca
pacijenata
xi
fi
0 1 2 3 4 5 6 7 8 9 Ukupno (6)
fi x i
fi(x - ݔҧ )
fi(x - ݔҧ )2
fi(x -4)2
15
0
0,060
-58,5
228,15
240
37
37
0,148
-107,3
311,17
333
34
68
0,136
-64,6
122,74
136
32
96
0,128
-28,8
25,92
32
21
84
0,084
2,1
0,21
0
47
235
0,188
51,7
56,87
47
19
114
0,076
39,9
83,79
76
25
175
0,100
77,5
240,25
225
14
112
0,056
57,4
235,34
224
6 250
pi
54 975
0,024 1,000
30,6 0
156,06 150 1460,5 1463
Tabela 19. Radna tabela – elementi potrebni za izračunavanje aritmetičke sredine, relativnie frekvencije i elementi za dokazivanje osobina aritmetičke sredine
Koristeći prethodni obrazac za izračunavanje ponderisane aritmetičke sredine i rezultate u radnoj tabeli, dobijamo: ݔҧ ൌ
ͻͷ ൌ ͵ǡͻͲ ʹͷͲ
Klijenti, odnosno pacijenti registrovani u posmatranoj zdravstvenoj ustanovi, u prosjeku 4 (3,9|4) puta mjesčno posjete porodičnog ljekara. Osobine aritmetičke sredine provjeravamo na sljedeći način: -
Izračunata vrijednost aritmetičke sredine veća je od najmanjeg, a manja od najvećeg modaliteta osobine u posmatranoj statističkoj seriji: 0 d 3,9 d 9, gdje su: xmin = 0 i xmax = 9;
-
Modaliteti u statističkoj seriji su različiti, dakle, statistička serija nije homogena;
-
σ ݂ ሺݔ െ ͵ǡͻሻ ൌ Ͳ
-
σ ݂ ሺݔ െ ͵ǡͻሻଶ ൌ ͳͶͲǡͷ ൏ σ ݂ ሺݔ െ Ͷሻଶ ൌ ͳͶ͵ 37
b. Relativne frekvencije izračunavamo kao količnik između apsolutnih frekvencija i njihovog zbira,
odnosno: ൌ σ
సభ
, pri čemu su izračunate vrijednosti prikazane u prethodnoj radnoj tabeli.
Matematičko očekivanje (očekivanu vrijednost) izračunavamo na sljedeći način: ܧሺݔ ሻ ൌ σୀ ݔ ൌ ͲǡͲͲ ή Ͳ ͲǡͳͶͺ ή ͳ Ͳǡͳ͵ ή ʹ Ͳǡͳʹͺ ή ͵ ͲǡͲͺͶ ή Ͷ Ͳǡͳͺͺ ή ͷ ͲǡͲ ή ͲǡͳͲͲ ή ͲǡͲͷ ή ͺ ͲǡͲʹͶ ή ͻ ൌ Ͳ ͲǡͳͶͺ Ͳǡʹʹ Ͳǡ͵ͺͶ Ͳǡ͵͵ ͲǡͻͶ ͲǡͶͷ Ͳǡ ͲǡͶͶͺ Ͳǡʹͳ ൌ ͵ǡͻ c. Izgled strukturnog kruga za posmatranu statističku seriju možemo prikazati sljedećom ilustracijom:
1 2 3 4 5 6 7 8 9 10
Slika 11. Distribucija broja mjesečnih posjeta ljekaru porodične medicine prikazana strukturnim krugom
Primjer 2.3. U narednim tabelama predstavljene su distribucija stanovnika prema visini krvnog pritiska (sistolnog i dijastolnog) na području jednog regiona zabilježeni nakon jednodnevnog mjerenja na javnom prostoru velikog grada.
38
Visina sistolnog pritiska (mmHg) Do 80 80 – 90 90 – 100 100 – 110 110 – 120 120 – 130 130 – 140 140 – 150 150 i više
Broj ispitanika 9 22 36 62 67 43 24 22 15
Tabela 20. Distribucija ispitanika prema visini sistolnog pritiska
Visina dijastolnog pritiska (mmHg) Do 60 60 – 65 65 – 70 70 – 75 75 – 80 80 – 85 85 – 90 90 – 95 95 i više
Broj ispitanika 4 18 55 52 68 40 38 19 6
Tabela 21. Distribucija ispitanika prema visini dijastolnog pritiska
Potrebno je: a. Odrediti prosječnu visinu sistolnog i dijastolnog pritiska ispitanika, kao ponderisanu aritmetičku sredinu i kao očekivanu vrijednost; b. Pokazati da su zadovoljene osobine aritmetičke sredine; c. Prvu statističku seriju prikazati histogramom frekvencija, a drugu poligonom frekvencija. Rješenje: a. Jedinica posmatranja je slučajni prolaznik zatečen na javnoj površni velikog grada, ispitivanjem je obuhvaćen uzorak od 300 ispitanika. Podaci o visini sistolnog i dijastolnog pritiska su numerički, a statistička promjenljiva je kontinuirana. Podaci su grupisani u odgovarajuću statističku seriju, ovdje je riječ o seriji grupisanih podataka u oba slučaja riječ je o intervalnoj seriji distribucija frekvencija. Prosječnu vrijednost sistolnog i dijastolnog pritiska izračunavamo kao ponderisanu aritmetičku sredinu. Elementi proterbni za izračunavanje aritmetičke sredine prikazani su u sljedećoj tabeli. Visina sistolnog pritiska (mmHg) xi Do 80 80 – 90 90 – 100 100 – 110 110 – 120 120 – 130 130 – 140 140 – 150 150 i više Ukupno(6)
Broj ispitanika fi 9 22 36 62 67 43 24 22 15 300
ri 75 85 95 105 115 125 135 145 155 -
fi ri 675 1870 3420 6510 7705 5375 3240 3190 2325 34310
fi(ri -114) pi pixi fi(ri - ݔҧ ) fi(ri - ݔҧ ) -354,30 13947,61 13689 0,030 2,250 -646,07 18972,82 18502 0,073 6,233 -697,20 13502,44 12996 0,120 11,400 -580,73 5439,536 5022 0,207 21,700 42,43 26,87444 67 0,223 25,683 457,23 4861,914 5203 0,143 17,917 495,20 10217,63 10584 0,080 10,800 673,93 20644,82 21142 0,073 10,633 609,50 24766,02 25215 0,050 7,750 0,00 112379,7 112420 1,000 114,367
Tabela 22. Radna tabela – elementi za izračunavanje aritmetičke sredine, dokazivanje osobina aritmetičke sredine, relativnih frekvencija I očekivane vrijednosti
39
Koristeći prethodno navedeni obrazac za izračunavanje ponderisane aritmetičke sredine i rezultate u radnoj tabeli, dobijamo: ͵Ͷ͵ͳͲ ൌ ͳͳͶǡ͵ ͵ͲͲ
ݔҧ ൌ
Prosječna vrijednost sistolnog pritiska kod ispitanika obuhvaćenih statističkim ispitivanjem iznosi 114,367 mmHg. Relativne frekvencije izračunavamo kao količnik između apsolutnih frekvencija i njihovog zbira,
odnosno: ൌ σ
సభ
, pri čemu su izračunate vrijednosti prikazane u prethodnoj radnoj tabeli. Matematičko
očekivanje (očekivanu vrijednost) izračunavamo na sljedeći način: ܧሺݔ ሻ ൌ σୀ ݔ ൌ ͳͳͶǡ͵ Vrijednosti proizvoda vjerovatnoća pojedinih vrijednosti statističke promjenljive i vrijednosti njezinih modaliteta prikazani su u prethodnoj radnoj tabeli koja sadrži elemente vezane za izračunavanje vrijednosti vezane za sistolni pritisak. Visina
Broj
dijastolnog
ispitanika
pritiska (mmHg) xi
ri
fi
Do 60 60 – 65 65 – 70 70 – 75 75 – 80 80 – 85 85 – 90 90 – 95 95 i više Ukupno(6)
fi(ri - ݔҧ )
fi ri
fi(ri - ݔҧ )
fi(ri -77)
pi
pixi
4
57,5
230
-77,67
1508,028
1521
0,013
0,767
18
62,5
1125
-259,50
3741,125
3784,5
0,060
3,750
55
67,5
3712,5
-517,92
4877,049
4963,75
0,183
12,375
52
72,5
3770
-229,67
1014,361
1053
0,173
12,567
68
77,5
5270
39,67
23,13889
17
0,227
17,567
40
82,5
3300
223,33
1246,944
1210
0,133
11,000
38
87,5
3325
402,17
4256,264
4189,5
0,127
11,083
19
92,5
1757,5
296,08
4613,965
4564,75
0,063
5,858
6
97,5
585
123,50
2542,042
2521,5
0,020
1,950
23075
0,00
23822,92
23825
1,000
76,917
300
Tabela 23. Radna tabela – elementi za izračunavanje aritmetičke sredine, dokazivanje osobina aritmetičke sredine, relativnih frekvencija I očekivane vrijednosti
Koristeći prethodno navedeni obrazac za izračunavanje ponderisane aritmetičke sredine i rezultate u radnoj tabeli, dobijamo: ݔҧ ൌ 40
ʹ͵Ͳͷ ൌ ǡͻͳ ͵ͲͲ
Prosječna vrijednost dijastolnog pritiska kod ispitanika obuhvaćenih statističkim ispitivanjem iznosi 76,917 mmHg. Relativne frekvencije izračunavamo kao količnik između apsolutnih frekvencija i njihovog zbira,
odnosno: ൌ σ
సభ
, pri čemu su izračunate vrijednosti prikazane u prethodnoj radnoj tabeli. Matematičko
očekivanje (očekivanu vrijednost) izračunavamo na sljedeći način: ܧሺݔ ሻ ൌ σୀ ݔ ൌ ǡͻͳ Vrijednosti proizvoda pojedinih vjerovatnoća statističke promjenljive i vrijednosti njezinih modaliteta prikazani su u radnoj tabeli sa elementima izračunavanja vrijednosti za dijastolni pritisak. b. Osobine aritmetičke sredine provjeravamo na sljedeći način: -
Izračunata vrijednost aritmetičke sredine veća je od najmanjeg, a manja od najvećeg modaliteta osobine u posmatranoj statističkoj seriji: o
Kod statističke serije, kod koje je statistička promjenljiva visina sistolnog pritiska, vrijedi: 70 d 114,367 d 160, gdje su: xmin = 70; ݔҧ ൌ ͳͳͶǡ͵ i xmax = 160;
o
Kod statističke serije, kod koje je statistička promjenljiva visina dijastolnog pritiska, vrijedi: 65 d 76,917 d 100, gdje su: xmin = 65; ݔҧ ൌ ǡͻͳ i xmax = 100;
-
Modaliteti u obe statističke seriji su različiti, dakle, statističke serije nisu homogene;
-
Ukupna ostupanja od aritmetičke sredine imaju vrijednost 0: o
Kod statističke serije, kod koje je statistička promjenljiva visina sistolnog pritiska vrijedi: σ ݂ ሺݔ െ ͳͳͶǡ͵ሻ ൌ Ͳ;
o
Kod statističke serije, kod koje je statistička promjenljiva visina dijastolnog pritiska vrijedi: σ ݂ ሺݔ െ ǡͻͳሻ ൌ Ͳ
-
Zbir kvadrata odstupanja vrijednosti statističke promjenljive od prosječne vrijednosti je minimalan, odnosno za posmatrane statističke serije vrijedi: o
Kod statističke serije, kod koje je statistička promjenljiva visina sistolnog pritiska vrijedi: σ ݂ ሺݔ െ ͳͳͶǡ͵ሻଶ ൌ ͳͳʹǤ͵ͻǡͲ ൏ σ ݂ ሺݔ െ ͳͳͶሻଶ ൌ ͳͳʹǤͶʹͲ
o
Kod statističke sreije, kod koje je statistička promjenljiva visina dijastolnog pritiska vrijedi:σ ݂ ሺݔ െ ǡͻͳሻଶ ൌ ʹ͵Ǥͺʹʹǡͻʹ ൏ σ ݂ ሺݔ െ ሻଶ ൌ ʹ͵Ǥͺʹͷ
c. Potrebni grafički prikazi (površinski dijagrami) prikazani su na narednim dijagramima:
41
80 70 60 50 40 30 20 10 0 do 80
80-90
90-100
100-110
110-120
120-130
130-140
140-150 150 i više
Slika 12. Histogram frekvencija distribucije ispitanika prema visini sistolnog pritiska
80 70 60 50 40 30 20 10 0 do 60
60-65
65-70
70-75
75-80
80-85
85-90
90-95
95 i više
Slika 13. Poligon frekvencija distribucije ispitanika prema visini dijastolnog pritiska
2.1.2.
Geometrijska sredina
Geometrijska sredina ili geometrijski prosjek (Gሻdefiniše se kao n – ti korijen izračunat iz proizvoda vrijednosti modaliteta nekog obilježja, pri čemu je n – broj modalitata u statističkoj seriji. Geometrijska sredina, koristi se kao mjera centralne tendencije, u slučajevima izračunavanja
42
omjera, indeksa i procenata promjene odgovarajuće veličine u vremenu. Geometrijska sredina određuje se kao prosta ili ponderisana zavisno od tipa statističke serije, i to: -
Za serije negrupisanih podataka koristi se prosta geometrijska sredina, odnosno naredni obrazac: ܩൌ ඥςୀଵ ݔ ;
-
Za serije distibucija frekvencija koristi se ponderisana geometrijska sredina, odnosno naredni obrazac: ܩൌ
-
σ
ටςୀଵ ݔ
Geometrijska sredina se može izračunati i prevođenjem navedenih obrazaca u njihov matematički ekvivalentan oblik2, koji dobijamo polazeći od prethodno navedenih obrazaca na sljedeći način: o U slučaju proste serije polazimo od obrasca: ܩൌ ඥςୀଵ ݔ , najprije ćemo izvršiti logaritmovanje izraza istovremeno sa lijeve i desne strane, te dobijamo: ଵ
݈ ܩ݃ൌ ሺݔଵ ή ݔଶ ή ǥ ή ݔ ሻ Sada primjenimo pravilo o logaritmu stepena3, čime dobijamo: ܩൌ
ͳ ݈݃ሺݔଵ ή ݔଶ ή ǥ ή ݔ ሻ ݊
Nadalje primjenimo pravilo o proizvodu logaritama4, čime dobijamo: ݈ ܩ݃ൌ
ͳ ሺ݈ݔ݃ଵ ݈ݔ݃ଶ ڮ ݈ݔ݃ ሻ ݊
Kako bismo dobili vrijednost geometrijske sredine potrebno je izvršiti matematičku operaciju antilogaritmovanja, čime dobijamo: ܩൌ ͳͲ
σ ௫
o U slučaju ponderisane geometrijske sredine polazimo od obrasca: ܩൌ
σ
ටςୀଵ ݔ ,
najprije izvršimo logaritmovanje navedenog izraza (i lijeve i desne strane izraza), čime dobijamo:
ଵ
݈ ܩ݃ൌ ݈݃൫ݔଵభ ή ݔଶమ ή ǥ ή ݔ ൯σ 2
Matematički ekvivalentni izrazi predstavljaju izraze koji imaju različite matetmatičke forme (oblike), ali pomoću kojih dobijamo istu vrijednost. Matematički ekvivalentni izrazi mogu se odgovarajućim matematičkim transformacijama svesti na isti oblik 3 Logaritam stepena jednak je proizvodu stepena i logaritma vrijednosti, tj. log ab = b log a 4 Logaritam proizvoda jednak je zbiru logaritama, tj. log ab = log a + log b
43
Nakon toga, primjenimo pravilo o stepenu logaritma, čime dobijamo: ݈ ܩ݃ൌ
ͳ ሺݔଵభ ή ݔଶమ ή ǥ ή ݔ ሻ σ ݂
Nadalje, primjenjujemo pravilo o zbiru logaritama, čime dobijamo: ଵ
݈ ܩ݃ൌ σ ሺ݈ݔ݃ଵభ ݈ݔ݃ଶమ ڮ ݈ݔ݃ ሻ
Na kraju, antilogaritmovanjem prethodnog obrasca, dobijamo konačan oblik obrasca kojim izračunavamo ponderisanu geometrijsku sredinu: ܩൌ ͳͲ
σ సభ ௫ σ సభ
Osobine geometrijske sredine su: -
Veća je od najmanjeg, a manja od najvećeg modaliteta u statističkoj seriji, odnosno:ݔ ܩ ݔ௫ ;
-
U homogenoj statističkoj seriji vrijednost geometrijske sredine jednaka je vrijednostima modaliteta, odnosno ako je ݔଵ ൌ ݔଶ ൌ ڮൌ ݔ ൌ ݔ ൌ ;ܩ
-
Ukoliko za određenu statističku seriju izračunamo aritmetičku i geometrijsku sredinu njihove vrijednosti mogu biti jednake, ukoliko nisu veća je aritmetička, dakle u svakoj statističkoj seriji vrijedi: ݔҧ ܩ.
Primjer 2.4. Broj osoba koji su zatražili pregled kod ljekara porodične medicine u toku neradnih dana u mjesecu januaru (neradni dani u januaru mjesecu posmatrane godine su: 1.1; 1.2; 6.1; 7.1; 9.1; 14.1 i četiri nedelje 5.1; 12.1; 19.1 i 26.1) u jednoj zdravstvenoj ustanovi iznosio je: Broj pacijenata:
89
17
43
33
52
12
54
22
45
7
Potrebno je: a. Odrediti vrijednost geometrijske sredine posmatrane numeričke promjenljive; b. Uporediti dobijenu vrijednost geometrijske sredine sa vrijednošću aritmetičke sredine iste promjenljive. Rješenje: Ovdje je statistička promjenljiva broj pacijenata koji zatraže usluge ljekara porodične medicine u toku neradnih dana januara. Dati podaci o vrijednosti numeričke promjenljive tvore prostu statističku seriju (seriju negrupisanih podataka), kod koje se srednje vrijednosti računaju u jednostavnom obliku, odnosno kao prosta geometrijska, odnosno aritmetička sredina. Ovdje imamo:
44
a. Vrijednost geometrijske sredine u posmatranoj statističkoj seriji određuje se na sljedeći način: భబ
భబ
ܩൌ ඥςୀଵ ݔ ൌ ξͺͻ ή ͳ ή Ͷ͵ ή ͵͵ ή ͷʹ ή ͳʹ ή ͷͶ ή ʹʹ ή Ͷͷ ή ൌ ඥͷǡͲͳ͵Ͷͳ ή ͳͲଵସ ൌ ʹͻǡͷͳ͵ Ili ܩൌ ͳͲ
σ సభ ௫
ൌ ͳͲ
ൌ ͳͲ
଼ଽାଵାସଷାଷଷାହଶାଵଶାହସାଶଶାସହା ଵ
ଵǡଽସଽଷଽାଵǡଶଷସହାଵǡଷଷସାଵǡହଵ଼ହଵାଵǡଵାଵǡଽଵ଼ାଵǡଷଶଷଽାଵǡଷସଶସଶାଵǡହଷଶଵାǡ଼ସହଵ ଵ
ଵସǡଵଷ ଵ
ൌ ͳͲ
ൌ ͳͲଵǡସଵଷ ൌ ʹͻǡͷͳ͵
Lako je uočiti da je jednaka vrijednost geometrijske sredine dobijena pomoću dva različita analitička postupka, odnosno da korišteni analitički postupak ne utiče na izračunatu vrijednost. Prosječan broj pacijenata koji u toku neradnih dana januara zatraže pregled kod ljekara porodične medicine iznosi 29, određeno kao geometrijski prosjek. Drugim riječima, prosječno 29 pacijenata zatraži pregled kod ljekara porodične medicine u toku neradnih dana mjeseca januara. Uočavamo da je dobijena vrijednost geometrijske sredine veća od najmanjeg, a manja od najvećeg modaliteta u statističkoj seriji, odnosno vrijedi: xmin d 29,513 d xmax b. Vrijednost aritmetičke sredine u posmatranoj statističkoj seriji izračunava se: ݔҧ ൌ
σୀଵ ݔ ͺͻ ͳ Ͷ͵ ͵͵ ͷʹ ͳʹ ͷͶ ʹʹ Ͷͷ ͵Ͷ ൌ ൌ ൌ ͵ǡͶ ͳͲ ͳͲ ݊
Prosječan broj pacijenata koji zatraže pregled kod ljekara porodične medicine u toku neradnih dana mjeseca januara iznosi 37. Vrijednost aritmetičke sredine je veća od vrijednosti geometrijske sredine, što je jedna od teorijskih pretpostavki, odnosno potvrda tačnosti određene vrijednosti. Primjer 2.5. Polazeći od podataka o učestalosti posjeta pacijenata ljekaru porodične medicine (primjer 2.2) odrediti geometrijsku sredinu formirane distribucije. Uporediti dobijenu vrijednost sa vrijednošću aritmetičke sredine. Rješenje: U analiziranom primjeru imamo seriju distribucija frekvencija kod koje vrijednost geometrijske sredine izračunavamo kao ponderisanu sredinu pomoću obrasca: ܩൌ
σ సభ ௫ ͳͲ σసభ
Elemente potrebne za izračunavanje geometrijske sredine posmatrane statističke serije pri čemu uvidom u empirijsku građu uočavamo da je: x1 = 0 (tabela statističke serije primjer 2.2). Navedena činjenica upućuje
45
na zaključak da geomerijsku sredinu kod posmatrne statističke serije nije moguće izračunati jer vrijednost matematičkog izraza log0 nije definisan! Zaključujemo da kod posmatrane statističke serija nije moguće izračunati geometrijsku sredinu. Primjer 2.6. Polazeći od serije distribucije studenata prema uspjehu postignutom na ispitu iz statistike (primjer 1.3) odrediti geometrijsku sredinu date serije. Dobijenu vrijednost geometrijske sredine uporediti sa aritmetičkom sredinom! Rješenje: Geometrijsku sredinu statističke serije predstavljene u tabeli 11, izračunavamo kao ponderisanu sredinu pomoću obrasca: ܩൌ యఱ
σ
ඩෑ ݔ ୀଵ
݈݅݅ ܩൌ
σ సభ ௫ ͳͲ σసభ
యఱ
ܩൌ ඥͷଽ ή ଵଷ ή ή ͺସ ή ͻଵ ή ͳͲଵ ൌ ξͳǤͻͷ͵Ǥͳʹͷ ή ͳ͵ǤͲͲǤͻͶǤͲͳ ή ͺʹ͵ǤͷͶ͵ ή ͶǤͲͻ ή ͻ ή ͳͲ యఱ
ൌ ඥǡͶ ή ͳͲଶ ൌ ǡʹ Nepraktičnost primjene prethodnog obrasca proizilazi iz činjenice da je potrebne matematičke operacije zahtjevno odrediti i pomoću standardnih računskih pomagala (kalkulatora). Za izračunavanje ponderisane geometrijske sredine praktičnije je koristiti drugi obrazac uz napomenu da su matematički obrasci ekvivalentni. Ekvivalentni matematički obrasci imaju različit analitički oblik, mogu se odgovarajućim matematičkim transformacijama mogu prevesti iz jednog oblika u drugi, a omogućavaju da se različitim računskim postupcima odredi ista vrijednost. Elemente potrebne za određivanje aritmetičke i geometrijske sredine prikazujemo u narednoj radnoj tabeli:
xi 5 6 7 8 9 10 Ukupno (6):
fi 9 13 7 4 1 1 35
log xi 0,69897 0,77815 0,84510 0,90309 0,95424 1,00000 -
fi log xi 6,29073 10,11597 5,915686 3,61236 0,954243 1 27,88899
fi x i 45 78 49 32 9 10 223
Tabela 24. Radna tabela – elementi za izračunavanje ponderisane geometrijske I aritmetičke sredine
46
Polazeći od obrazaca za izračunavanje geometrijske kao i aritmetičke sredine, te od elemenata izračunatih u prethodnoj radnoj tabeli, za vrijednost ponderisane geometrijske sredine dobijamo: ܩൌ ͳͲ
ଶǡ଼଼଼ଽଽ ଷହ
ൌ ͳͲǡଽ଼ଷ ൌ ǡʹ͵
Analogno prethodnom navodu, za vrijednost ponderisane aritmetičke sredine dobijamo: ݔҧ ൌ
ʹʹ͵ ൌ ǡ͵ ͵ͷ
Prosječno ostvaren uspjeh na ispitu iz statistike dobijen kao geometrijski prosjek iznosi 6,26, dok je prosječno ostvaren uspjeh dobijen kao aritmetički prosjek 6,37. Učavamo da se obje prosječne vrijednosti nalaze unutar amplitude kolebanja, odnosno da im je vrijednost iznad najlošijeg (x min=5), a ispod najboljeg uspjeha (xmax=10), pored toga, vrijednost aritmetičke sredine je veća od vrijednosti geometrijske sredine (6,37 > 6,26366). Primjer 2.7. Odrediti geometrijsku sredinu distribucije stanovnika prema visini sistolnog pritiska iz primjera 2.3. Uporediti vrijednost geometrijske sredine sa vrijednošću aritmetičke sredine. Rješenje: U analiziranom primjeru imamao intervalnu seriju disribucija frekvencija kod koje se geometrijska sredina određuje kao ponderisana srednja vrijednost. Porebne elemente za određivanje goeometrijske sredine posmatrane distribucije prikazujemo u narednoj tabeli. Visina sistolnog pritiska (mmHg)
Broj ispitanika
xi
fi
ri
Do 80
9
75
1,875061 16,87555
80 – 90
22
85
1,929419 42,44722
90 – 100
36
95
1,977724 71,19805
100 – 110
62
105
2,021189 125,3137
110 – 120
67
115
2,060698 138,0668
120 – 130
43
125
2,09691
130 – 140
24
135
2,130334 51,12801
140 – 150
22
145
2,161368
150 i više
15
155
2,190332 32,85498
Ukupno (6):
300
-
Log xi
-
fi log xi
90,16713 47,5501
615,6015
Tabela 25. Radna tabela – elementi za određivanje geometrijske sredine distribucije stanovnika prema visini sistolnog pritiska
47
Polazeći od obrasca za određivanje ponderisane geometrijske sredine te vrijednosti sadržanih u radnoj tabeli dobijamo: ܩൌ
σ సభ ή୪୭ ͳͲ σసభ
ൌ ͳͲ
ଵହǡଵହ ଷ
ൌ ͳͲଶǡହଶହ ൌ ͳͳʹǡʹ
Dobijena vrijednost geometrijske sredine veća je od najmanjeg (xmin = 80), a manja od najvećeg (xmax = 150) modaliteta u posmatranoj statističkoj seriji, odnosno vrijedi: 80 d 112,72 d 150 Prethodno određena vrijednost aritmetičke sredine iznosi 114,37 prosječna vrijednost dobijena kao geometrijski prosjek manja je od aritmetičkog prosjeka. 2.1.1.
Harmonijska sredina
Harmonijska sredina ili harmonijski prosjek (Hሻdefiniše se kao količnik između broja modaliteta i zbira njihovih recipročnih vrijednosti. Harmonijska sredina, koristi se kao mjera centralne tendencije, u slučajevima kada se veličine dva ili više skupova elemenata nalaze u obrnuto proporcionalnom odnosu ili ukoliko se modaliteti neke osobine izražavaju kao razlomci kojima je brojnik iste vrijednosti. Harmonijska sredina određuje se kao prosta ili ponderisana zavisno od tipa statističke serije, i to: -
Za serije negrupisanih podataka koristi se prosta harmonijska sredina, odnosno naredni
obrazac: ܪൌ σ
సభ ௫
-
;
Za serije distibucija frekvencija koristi se ponderisana harmonijska sredina, odnosno naredni obrazac: ܪൌ
σ సభ σ సభ
;
ೣ
Osobine harmonijske sredine su: -
Veća je od najmanjeg, a manja od najvećeg modaliteta u statističkoj seriji, odnosno:ݔ ܪ ݔ௫ ;
-
U homogenoj statističkoj seriji vrijednost harmonijske sredine jednaka je vrijednostima modaliteta, odnosno ako je ݔଵ ൌ ݔଶ ൌ ڮൌ ݔ ൌ ݔ ൌ ;ܪ
-
Ukoliko za određenu statističku seriju izračunamo aritmetičku, geometrijsku i harmonijsku sredinu njihove vrijednosti mogu biti jednake, ukoliko nisu najveća je aritmetička, a najmanja harmonijska. Dakle, u svakoj statističkoj seriji vrijedi: ݔҧ ܩ ܪ.
48
Primjer 2.8. Jedno proizvodno preduzeće za potrebe proizvodnje proizvoda “P” koristi 7 mašina različite starosti I porijekla ali iste namjene. Efektivan rad mašina na proizvodnim zadacima iznosi 15 sati direktnog rada dnevno (pretpostavlja se rad u dvije smjene u trajanju od po 8 sati plus još po pola sata pripremno – završnih radova u svakoj smjeni 2*8 – 2*0,5 =16 – 1 =15). Prosječno vrijeme potrebno za izradu jedne jedinice proizvoda “P” u satima na svakoj korištenoj mašini može se prikazati sljedećim tabelarnim prikazom: Mašina
I
II
III
IV
V
VI
VII
Prosječno utrošeno vrijeme po jedinici proizvoda
0,168 0,696 0,271 0,502 0,363 0,574 0,464
(h/kom) Tabela 26. Prosječan dnevni utrošak vremena po jedinici proizvoda kod svake proizvodne mašine
Potrebno je: a. Oderditi prosječnu produktivnost korištenih proizvodnih mašina po proizvodu; b. Kolika je prosječna dnevna proizvodnja u posmatranom preduzeću; c. Uporediti vrijednost harmonijske sredine sa geometrijskom i aritmetičkom sredinom posmatrane statističke serije. Rješenje: a. Ovdje imamo osobinu čija vrijednost predstavlja količnik dvije veličine i to: utrošeno vrijeme u efektivan rad mašina u toku radnog dana (iznosi 15 sati) i ostvarenog obima proizvodnje u toku radnog dana na posmatranoj mašini. Harmonijska sredina kod posmatrane serije izračunava se kao prosta srednja vrijednost, odnosno kao količnik između broja modaliteta i zbira njihovih recipročnih vrijednosti. U narednoj tabeli izračunati su pojedini elementi neophodni za izračunavanje harmonijske, geometrijske i aritmetičke sredine. Mašina
Prosječno utrošeno vrijeme po jedinici proizvoda (h/kom) xi
ͳ ݔ
Log xi
I
0,168
5,952381
-0,77469
II
0,696
1,436782
-0,15739
III
0,271
3,690037
-0,56703
IV
0,502
1,992032
-0,2993
V
0,363
2,754821
-0,44009
VI
0,574
1,74216
-0,24109
VII
0,464
2,155172
-0,33348
Ukupno (6):
3,038
19,72338
-2,81307
Tabela 27. Radna tabela – elementi za izračunavanje harmonijske, geometrijske i aritmetičke sredine
49
Obrazac kojim izračunavamo prostu harmonijsku sredinu je: ܪൌ
ܰ ͳ σୀଵ ݔ
Uvrštavanjem konkretnih vrijednosti u ovaj obrazac dobijamo: ܪൌ
ൌ Ͳǡ͵ͷͷ ͳͻǡʹ͵͵ͺ
Obrazac kojim izračunavamo prostu geometrijsku sredinu je: ܩൌ ͳͲ
σ సభ ௫
Uvrštavajući konkretne vrijednosti u prethodni obrazac, dobijamo: ܩൌ ͳͲ
ିଶǡ଼ଵଷ
ൌ ͳͲିǡସଵ଼ ൌ Ͳǡ͵ͻ͵ͻͻ
Obrazac kojim izračunavamo prostu aritmetičku sredinu je: ݔҧ ൌ
σୀଵ ݔ ݊
Uvrštavajući konkretne vrijednosti u prethodni obrazac, dobijamo: ݔҧ ൌ
͵ǡͲ͵ͺ ൌ ͲǡͶ͵Ͷ
Prosječno utrošeno vrijeme po jedinici proizvoda je 0,355 sati, odnosno 21 minuta i 18 sekundi. Harmonijska sredina je prosječna vrijednost kojom je relevantno izraziti prosjek u posmatranoj statističkoj seriji. Uočavamo da je harmonijska (kao i geometrijska i aritmetička) sredina veća od najmanjeg (x min = 0,168), a manja od najvećeg (xmax = 0,696) modaliteta u statističkoj seriji. Odnosno vrijedi: ܪൌ Ͳǡ͵ͷͷ Ͳǡͳͺ ܩൌ Ͳǡ͵ͻ Ͳǡͻ ݔҧ ൌ ͲǡͶ͵Ͷ b. Prosječno utrošeno vrijeme je količnik između ukupno utrošenog vremena i ostvarenog obima proizvodnje, pri čemu je ukupno utrošeno vrijeme jednako proizvodu između broja mašina i efektivnog dnevnog proizvodnog rada mašina, odnosno 7 * 15 = 105 sati. Prosječnu vrijednost dnevne proizvodnje (QD) izračunavamo kao količnik između ukupnog dnevno utrošenog vremena u proizvodnju i proječnog utroška vremena po jedinici proizvoda: ܳ ൌ
ͳͲͷ ൌ ʹͻͷǡͺͷͲͺ ൎ ʹͻ Ͳǡ͵ͷͷ
Posmatrano preduzeće u toku radnog dana u prosjeku proizvede 296 proizvoda „P“. c. Uvidom u izračunate srednje vrijednosti uočavamo da harmonijska sredina ima najmanju vrijednost među njima, aritmetička ima najveću vrijednost, dok je geometrijska između njih, dakle veća od harmonijske, a manja od aritmetičke sredine, odnosno vrijedi: 50
H = 0,355 < G = 0,39639 < ܺത=0,434 Primjer 2.8. Polazeći od podataka o učestalosti posjeta pacijenata ljekaru porodične medicine (primjer 2.2) odrediti harmonijsku sredinu formirane distribucije! Uporediti dobijenu vrijednost sa vrijednošću aritmetičke sredine! Rješenje: U analiziranom primjeru imamo seriju distribucija frekvencija kod koje vrijednost harmonijske sredine izračunavamo kao ponderisanu sredinu pomoću obrasca: ܪൌ
σୀଵ ݂ ݂ σୀଵ ݔ
Elemente potrebne za izračunavanje harmonijske sredine posmatrane statističke serije pri čemu uvidom u empirijsku građu uočavamo da je: x1 = 0 (tabela statističke serije primjer 2.2). Navedena činjenica upućuje na zaključak da harmonijsku sredinu kod posmatrne statističke serije nije moguće izračunati jer vrijednost matematičkog izraza
ଵହ
nije definisan! (Napomena kod posmatrane statističke serije f1 = 15)
Zaključujemo da kod posmatrane statističke serija nije moguće izračunati harmonijsku sredinu. Primjer 2.10. Odrediti harmonijsku sredinu distribucije stanovnika prema visini dijastolnog pritiska iz primjera 2.3. Uporediti vrijednost harmonijske sredine sa vrijednosšću aritmetičke i geometrijske sredine. Rješenje: U analiziranom primjeru imamao intervalnu seriju disribucija frekvencija kod koje se harmonijska sredina određuje kao ponderisana srednja vrijednost. Porebne elemente za određivanje harmonijske sredini posmatrane distribucije prikazujemo u narednoj tabeli. Visina dijastolnog pritiska (mmHg) xi Do 60 60 – 65 65 – 70 70 – 75 75 – 80 80 – 85 85 – 90 90 – 95 95 i više Ukupno (6):
Broj ispitanika fi 4 18 55 52 68 40 38 19 6 300
ri 57,5 62,5 67,5 72,5 77,5 82,5 87,5 92,5 97,5 -
݂ ݔ 0,069565 0,288 0,814815 0,717241 0,877419 0,484848 0,434286 0,205405 0,061538 3,953119
Log xi 1,759668 1,79588 1,829304 1,860338 1,889302 1,916454 1,942008 1,966142 1,989005 -
fi log xi 7,038671 32,32584 100,6117 96,73758 128,4725 76,65816 73,79631 37,35669 11,93403 564,9315
Tabela 28. Radna tabela – elementi za određivanje harmonijske sredine distribucije stanovnika prema visini dijastolnog pritiska
51
Polazeći od obrasca za određivanje ponderisane harmonijske sredine, te vrijednosti sadržanih u radnoj tabeli, dobijamo: ܪൌ
σୀଵ ݂ ͵ͲͲ ൌ ൌ ͷǡͺͺͻͶͷ ݂ ͵ǡͻͷ͵ͳͳͻ σୀଵ ݔ
Polazeći od obrasca za određivanje ponderisane geometrijske sredine, te vrijednosti sadržanih u radnoj tabeli, dobijamo: ܩൌ ͳͲ
σ సభ ή୪୭ σ సభ
ൌ ͳͲ
ହସǡଽଷଵହ ଷ
ൌ ͳͲଵǡ଼଼ଷଵହ ൌ ǡͶͲʹͲͷ
Dobijena vrijednost harmonijske sredine veća je od najmanjeg (xmin = 60), a manja od najvećeg (xmax = 95) modaliteta u posmatranoj statističkoj seriji, odnosno vrijedi: 60 d 75,88945 d 95 Prethodno određena vrijednost aritmetičke sredine iznosi 76,917 prosječna vrijednost dobijena kao geometrijski prosjek manja je od aritmetičkog prosjeka, dok je harmonijski prosjek manje vrijednosti I od aritmetičkog I od geometrijskog prosjeka, odnosno vrijedi: ݔҧ ൌ ǡͻͳ ܩൌ ǡͶͲʹͲͷ ܪൌ ͷǡͺͺͻͶͷ
2.2. Momenti statističke serije Pojam moment statističke serije obuhvata prosječnu vrijednost odstupanje vrijednosti pojedinih modaliteta statističke promjenljive od njezine prosječne (ili neke druge vrijednosti) stepenovanu odgovarajućom vrijednošću. Shodno prethodno navedenom, razlikujemo centralne ili glavne momente koji podrazumijevaju stepenovana odstupanja pojednih modaliteta od njihove prosječne vrijednosti I pomoćne moment koji se računaju u odnosu na neku drugu vrijednost osim prosječne vrijednosti kod kojih razlikujemo moment oko nule I moment oko “a” (az0). Svaki pojedini momenat statističe serije računa se kao prosti ili ponderisani u zavisnosti od vrste statističke serije. Odgovarajući momenti statističkih serija izračunavaju se korištenjem sljedećih obarzaca: -
centrali ili glavni momenti statističke serije r – tog reda (moment oko srednje vrijednosti): o
prosti centralni moment r – tog reda, koristi se kod statističkih serija negrupisanih podataka, pri čemu se njihove vrijednosti izračunavaju pomoću obrasca: ܯ ൌ
o
ೝ σ సభሺ௫ ି௫ҧ ሻ
, gdje je r = 0, 1, 2, … L;
ponderisani centralni moment r – tog reda, koristi se kod statističkih serija distribucija frekvencija (serija grupisanih podataka), pri čemu se njihove vrijednosti izračunavaju pomoću obrasca:
52
ܯ ൌ -
ೝ σ సభ ήሺ௫ ି௫ҧ ሻ
σ సభ
, gdje je r = 0, 1, 2, … L;
pomoćni momenti statističke serije r – tog reda oko nule: prosti pomoćni moment oko nule r – tog reda, koristi se kod statističkih serija negrupisanih
o
podataka, pri čemu se njihove vrijednosti izračunavaju pomoću obrasca: ݉ ൌ
ೝ σ సభ ௫
, gdje je r = 0, 1, 2, … L;
ponderisani pomoćni moment oko nule r – tog reda, koristi se kod statističkih serija
o
distribucija frekvencija (serija grupisanih podataka), pri čemu se njihove vrijednosti izračunavaju pomoću obrasca: ݉ ൌ -
ೝ σ సభ ή௫
σ సభ
, gdje je r = 0, 1, 2, … L;
pomoćni momenti statističke serije r – tog reda oko “a”: prosti pomoćni moment r – tog reda oko “a”, koristi se kod statističkih serija negrupisanih
o
podataka, pri čemu se njihove vrijednosti izračunavaju pomoću obrasca: ܯ ǡ ൌ
ೝ σ సభ ௗ
, gdje su ݀ ൌ
௫ ି
i r = 0, 1, 2, … L;
ponderisani prosti moment r – tog reda oko „a“, koristi se kod statističkih serija distribucija
o
frekvencija (serija grupisanih podataka), pri čemu se njihove vrijednosti izračunavaju pomoću obrasca: ܯ ൌ
ೝ σ సభ ήௗ
σ సభ
, gdje su: ݀ ൌ
௫ ି
i r = 0, 1, 2, … L.
Nulti momenat uvijek ima vrijednost jedan5 bilo da je centralni ili pomoćni. Prvi centralni (glavni) moment ima vrijednost 06, dok prvi pomoćni moment oko nule ima vrijednost aritmetičke sredine. Drugi centralni moment je varijansa.7 Postoji matematička veza među pojedinim momentima, kako slijedi: ܯଶ ൌ ݉ଶ െ ݉ଵଶ ൌ ܾ ଶ ή ൫ܯଶ ǡ െ ܯଵǡ ଶ ൯ ܯଷ ൌ ݉ଷ െ ͵݉ଵ ݉ଶ ʹ݉ଵଷ ൌ ܾ ଷ ή ൫ܯଷ ǡ െ ͵ܯଵǡ ܯଶǡ ʹܯଵǡ ଷ ൯ ܯସ ൌ ݉ସ െ Ͷ݉ଵ ݉ଷ ݉ଵଶ ݉ଶ െ ͵݉ଵସ ൌ ܾ ସ ή ൫ܯସ ǡ െ Ͷܯଵǡ ܯଷǡ ܯଵǡ ଶ ܯଶǡ െ ͵ܯଵǡ ସ ൯ Ukoliko se vrijednost momenta, bilo centralnog ili pomoćnog, izračunava za uzorak uzet iz odgovarajućeg stvarnog ili hipotetičkog osnovnog skupa nazivnik izraza se mijenja. Tako da, kod izračunavanja prostog momenata u nazivniku umjesto n treba da stoji n – 1, odnosno kod izračunavanja 5
Navedeno proizilazi iz činjenice da svaki broj stepenovan nulom daje jedan, čime obrazac postaje obrazac oblika ᇣᇧᇧᇤᇧᇧᇥ ଵାଵାڮାଵ
6 7
ൌ
ൌ ͳ݈݅݅
భ ାమ ାڮା σ సభ
σ
ൌ σసభ
సభ
ൌ ͳ.
Vrijednost prvog centralnog momenta proizilazi iz treće osobine aritmetičke sredine. Varijansa predstavlja apsolutnu mjeru varijabiliteta o čemu će biti riječi u nastavku ovog rada.
53
ponderisanog momenta u nazivniku izraza umjesto σୀଵ ݂ treba da stoji σୀଵ ݂ – 1. Brojnik izraza ostaje isti bilo da se vrijednost prostog ili ponderisanog momenta izračunava na populaciju (osnovni skup) ili uzorak. Primjer 2.11. Polazeći od podataka o prosječno utošenom vremenu na pojedinim mašinama na proizvodnji proizvoda „P“ iz primjera 2.8. Potrebno je: a. Izračunati vrijednosti prvog, drugog, trećeg i četvrtog centralnog momenta; b. Izračunati vrijednost prvog drugog, trećeg i četvrtog centralnog momenta oko nule; c. Izračunati vrijednost prvog drugog, trećeg i četvrtog centralnog momenta oko „a“. Rješenje: Centralne momente posmatrane statističke serije dobijamo na sljedeći način: -
Prvi centralni moment za posmatranu statističku seriju izračunavamo na sljedeći način: σୀଵሺݔ െ ͲǡͶ͵Ͷሻ ൌ ሺͲǡͳͺ െ ͲǡͶ͵Ͷሻ ሺͲǡͻ െ ͲǡͶ͵Ͷሻ ሺͲǡʹͳ െ ͲǡͶ͵Ͷሻ ሺͲǡͷͲʹ െ ͲǡͶ͵Ͷሻ ൌ ሺͲǡ͵͵ െ ͲǡͶ͵Ͷሻ ሺͲǡͷͶ െ ͲǡͶ͵Ͷሻ ሺͲǡͶͶ െ ͲǡͶ͵Ͷሻ ൌ െͲǡʹ Ͳǡʹʹ െ Ͳǡͳ͵ ͲǡͲͺ െ ͲǡͲͳ ͲǡͳͶ ͲǡͲ͵ Ͳ ൌ ൌͲ ൌ ܯଵ ൌ
-
Drugi centralni moment za posmatranu statističku seriju izračunavamo na sljedeći način: ଶ
ܯଶ ൌ ൌ
σୀଵሺݔ െ ͲǡͶ͵Ͷሻ ൌ
ሺͲǡͳͺ െ ͲǡͶ͵Ͷሻଶ ሺͲǡͻ െ ͲǡͶ͵Ͷሻଶ ሺͲǡʹͳ െ ͲǡͶ͵Ͷሻଶ ሺͲǡͷͲʹ െ ͲǡͶ͵Ͷሻଶ ሺͲǡ͵͵ െ ͲǡͶ͵Ͷሻଶ ሺͲǡͷͶ െ ͲǡͶ͵Ͷሻଶ ሺͲǡͶͶ െ ͲǡͶ͵Ͷሻଶ ൌ
ሺെͲǡʹሻଶ Ͳǡʹʹଶ ሺെͲǡͳ͵ሻଶ ͲǡͲͺଶ ሺെͲǡͲͳሻଶ ͲǡͳͶଶ ͲǡͲ͵ଶ ൌ ͲǡͲͲͷ ͲǡͲͺͶͶ ͲǡͲʹͷͻ ͲǡͲͲͶʹͶ ͲǡͲͲͷͲͶͳ ͲǡͲͳͻ ͲǡͲͲͲͻ Ͳǡͳͻͳ͵Ͷ ൌ ൌ ൌ
ൌ ͲǡͲʹͺͲͳͻͳ -
Treći centralni moment za posmatranu statističku seriju izračunavamo na sljedeći način: ଷ
ܯଷ ൌ
54
σୀଵሺݔ െ ͲǡͶ͵Ͷሻ ൌ
ൌ
ሺͲǡͳͺ െ ͲǡͶ͵Ͷሻଷ ሺͲǡͻ െ ͲǡͶ͵Ͷሻଷ ሺͲǡʹͳ െ ͲǡͶ͵Ͷሻଷ ሺͲǡͷͲʹ െ ͲǡͶ͵Ͷሻଷ ሺͲǡ͵͵ െ ͲǡͶ͵Ͷሻଷ ሺͲǡͷͶ െ ͲǡͶ͵Ͷሻଷ ሺͲǡͶͶ െ ͲǡͶ͵Ͷሻଷ ൌ
ሺെͲǡʹሻଷ Ͳǡʹʹଷ ሺെͲǡͳ͵ሻଷ ͲǡͲͺଷ ሺെͲǡͲͳሻଷ ͲǡͳͶଷ ͲǡͲ͵ଷ ൌ െͲǡͲͳͺͺʹ ͲǡͲͳͻͺ െ ͲǡͲͲͶ͵͵ ͲǡͲͲͲ͵ͳ െ ͲǡͲͲͲ͵ ͲǡͲͲʹͶ ͲǡͲͲͲͲ͵ െͲǡͲͲʹͶͶ ൌ ൌ ൌ
ൌ െͲǡͲͲͲ͵ͷ -
Četvrti centralni moment za posmatranu statističku seriju izračunavamo na sljedeći način: ସ
ܯସ ൌ ൌ
σୀଵሺݔ െ ͲǡͶ͵Ͷሻ ൌ
ሺͲǡͳͺ െ ͲǡͶ͵Ͷሻସ ሺͲǡͻ െ ͲǡͶ͵Ͷሻସ ሺͲǡʹͳ െ ͲǡͶ͵Ͷሻସ ሺͲǡͷͲʹ െ ͲǡͶ͵Ͷሻସ ሺͲǡ͵͵ െ ͲǡͶ͵Ͷሻସ ሺͲǡͷͶ െ ͲǡͶ͵Ͷሻସ ሺͲǡͶͶ െ ͲǡͶ͵Ͷሻସ ൌ
ሺെͲǡʹሻସ Ͳǡʹʹସ ሺെͲǡͳ͵ሻସ ͲǡͲͺସ ሺെͲǡͲͳሻସ ͲǡͳͶସ ͲǡͲ͵ସ ൌ ͲǡͲͲͷͲͲ ͲǡͲͲͶͳʹ ͲǡͲͲͲͲ ͲǡͲͲͲͲʹͳ ͲǡͲͲͲͲʹͷ ͲǡͲͲͲ͵ͺͶ ͲǡͲͲͲͲͲͳ ൌ ൌ ͲǡͲͳͲͺͷ ൌ ൌ ͲǡͲͲͳͷͷͳ ൌ
Centralne momente posmatrane statističke serije dobijamo na sljedeći način: -
Prvi centralni moment za posmatranu statističku seriju izračunavamo na sljedeći način: σୀଵሺݔ െ ͲǡͶ͵Ͷሻ ൌ ሺͲǡͳͺ െ ͲǡͶ͵Ͷሻ ሺͲǡͻ െ ͲǡͶ͵Ͷሻ ሺͲǡʹͳ െ ͲǡͶ͵Ͷሻ ሺͲǡͷͲʹ െ ͲǡͶ͵Ͷሻ ൌ ሺͲǡ͵͵ െ ͲǡͶ͵Ͷሻ ሺͲǡͷͶ െ ͲǡͶ͵Ͷሻ ሺͲǡͶͶ െ ͲǡͶ͵Ͷሻ ൌ െͲǡʹ Ͳǡʹʹ െ Ͳǡͳ͵ ͲǡͲͺ െ ͲǡͲͳ ͲǡͳͶ ͲǡͲ͵ Ͳ ൌ ൌ ൌͲ ܯଵ ൌ
-
Drugi centralni moment za posmatranu statističku seriju izračunavamo na sljedeći način: ଶ
ܯଶ ൌ ൌ
σୀଵሺݔ െ ͲǡͶ͵Ͷሻ ൌ
ሺͲǡͳͺ െ ͲǡͶ͵Ͷሻଶ ሺͲǡͻ െ ͲǡͶ͵Ͷሻଶ ሺͲǡʹͳ െ ͲǡͶ͵Ͷሻଶ ሺͲǡͷͲʹ െ ͲǡͶ͵Ͷሻଶ 55
ሺͲǡ͵͵ െ ͲǡͶ͵Ͷሻଶ ሺͲǡͷͶ െ ͲǡͶ͵Ͷሻଶ ሺͲǡͶͶ െ ͲǡͶ͵Ͷሻଶ ൌ ሺെͲǡʹሻଶ Ͳǡʹʹଶ ሺെͲǡͳ͵ሻଶ ͲǡͲͺଶ ሺെͲǡͲͳሻଶ ͲǡͳͶଶ ͲǡͲ͵ଶ ൌ ͲǡͲͲͷ ͲǡͲͺͶͶ ͲǡͲʹͷͻ ͲǡͲͲͶʹͶ ͲǡͲͲͷͲͶͳ ͲǡͲͳͻ ͲǡͲͲͲͻ Ͳǡͳͻͳ͵Ͷ ൌ ൌ ൌ
ൌ ͲǡͲʹͺͲͳͻͳ -
Treći centralni moment za posmatranu statističku seriju izračunavamo na sljedeći način: ଷ
ܯଷ ൌ ൌ
σୀଵሺݔ െ ͲǡͶ͵Ͷሻ ൌ
ሺͲǡͳͺ െ ͲǡͶ͵Ͷሻଷ ሺͲǡͻ െ ͲǡͶ͵Ͷሻଷ ሺͲǡʹͳ െ ͲǡͶ͵Ͷሻଷ ሺͲǡͷͲʹ െ ͲǡͶ͵Ͷሻଷ ሺͲǡ͵͵ െ ͲǡͶ͵Ͷሻଷ ሺͲǡͷͶ െ ͲǡͶ͵Ͷሻଷ ሺͲǡͶͶ െ ͲǡͶ͵Ͷሻଷ ൌ
ሺെͲǡʹሻଷ Ͳǡʹʹଷ ሺെͲǡͳ͵ሻଷ ͲǡͲͺଷ ሺെͲǡͲͳሻଷ ͲǡͳͶଷ ͲǡͲ͵ଷ ൌ െͲǡͲͳͺͺʹ ͲǡͲͳͻͺ െ ͲǡͲͲͶ͵͵ ͲǡͲͲͲ͵ͳ െ ͲǡͲͲͲ͵ ͲǡͲͲʹͶ ͲǡͲͲͲͲ͵ ൌ ൌ െͲǡͲͲʹͶͶ ൌ െͲǡͲͲͲ͵ͷ ൌ ൌ
-
Četvrti centralni moment za posmatranu statističku seriju izračunavamo na sljedeći način: ସ
σୀଵሺݔ െ ͲǡͶ͵Ͷሻ ܯସ ൌ ൌ ൌ
ሺͲǡͳͺ െ ͲǡͶ͵Ͷሻସ ሺͲǡͻ െ ͲǡͶ͵Ͷሻସ ሺͲǡʹͳ െ ͲǡͶ͵Ͷሻସ ሺͲǡͷͲʹ െ ͲǡͶ͵Ͷሻସ ሺͲǡ͵͵ െ ͲǡͶ͵Ͷሻସ ሺͲǡͷͶ െ ͲǡͶ͵Ͷሻସ ሺͲǡͶͶ െ ͲǡͶ͵Ͷሻସ ൌ
ሺെͲǡʹሻସ Ͳǡʹʹସ ሺെͲǡͳ͵ሻସ ͲǡͲͺସ ሺെͲǡͲͳሻସ ͲǡͳͶସ ͲǡͲ͵ସ ൌ ͲǡͲͲͷͲͲ ͲǡͲͲͶͳʹ ͲǡͲͲͲͲ ͲǡͲͲͲͲʹͳ ͲǡͲͲͲͲʹͷ ͲǡͲͲͲ͵ͺͶ ͲǡͲͲͲͲͲͳ ൌ ͲǡͲͳͲͺͷ ൌ ൌ ͲǡͲͲͳͷͷͳ ൌ
Pomoćne momente posmatrane statističke serije oko nule dobijamo na sljedeći način: -
Prvi pomoćni moment oko nule za posmatranu statističku seriju izračunavamo na sljedeći način: ݉ଵ ൌ
56
σୀଵ ݔ ൌ
ൌ -
Ͳǡͳͺ Ͳǡͻ Ͳǡʹͳ ͲǡͷͲʹ Ͳǡ͵͵ ͲǡͷͶ ͲǡͶͶ ͵ǡͲ͵ͺ ൌ ൌ ͲǡͶ͵Ͷ
Drugi pomoćni moment oko nule za posmatranu statističku seriju izračunavamo na sljedeći način: ݉ଶ ൌ
σୀଵ ݔ ଶ ൌ
Ͳǡͳͺଶ Ͳǡ ͻଶ Ͳǡʹͳଶ ͲǡͷͲʹଶ Ͳǡ ͵͵ଶ ͲǡͷͶଶ ͲǡͶͶଶ ൌ ͲǡͲʹͺʹʹͶ ͲǡͶͺͶͶͳ ͲǡͲ͵ͶͶͳ ͲǡʹͷʹͲͲͶ Ͳǡͳ͵ͳͻ Ͳǡ͵ʹͻͶ Ͳǡʹͳͷʹͻ ൌ ൌ ͳǡͷͳͶʹ ൌ ൌ Ͳǡʹͳ͵ͷ ൌ
-
Treći pomoćni moment oko nule za posmatranu statističku seriju izračunavamo na sljedeći način: ݉ଷ ൌ
σୀଵ ݔ ଷ ൌ
Ͳǡͳͺଷ Ͳǡ ͻଷ Ͳǡʹͳଷ ͲǡͷͲʹଷ Ͳǡ ͵͵ଷ ͲǡͷͶଷ ͲǡͶͶଷ ൌ ͲǡͲͲͶͶʹ Ͳǡ͵͵ͳͷͶ ͲǡͲͳͻͻͲ͵ ͲǡͳʹͷͲ ͲǡͲͶͺ͵ʹ Ͳǡͳͺͻͳͳͻ ͲǡͲͻͻͺͻ ൌ ൌ Ͳǡͺʹͷͳͷʹ ൌ ൌ Ͳǡͳͳͺͻ ൌ
-
Četvrti pomoćni moment oko nule za posmatranu statističku seriju izračunavamo na sljedeći način: ݉ସ ൌ
σୀଵ ݔ ସ ൌ
Ͳǡͳͺସ Ͳǡ ͻସ Ͳǡʹͳସ ͲǡͷͲʹସ Ͳǡ ͵͵ସ ͲǡͷͶସ ͲǡͶͶସ ൌ ͲǡͲͲͲͻ Ͳǡʹ͵Ͷͷͻ ͲǡͲͲͷ͵ͻͶ ͲǡͲ͵ͷͲ ͲǡͲͳ͵͵ ͲǡͳͲͺͷͷͶ ͲǡͲͶ͵ͷʹ ൌ ൌ ͲǡͶʹͷ ൌ ͲǡͲͺͲͺͻ ൌ ൌ
Pomoćne momente posmatrane statističke serije oko “a”, uzimajući da je a = 0,01 I b = 10, dobijamo na sljedeći način: Prvi korak predstavlja određivanje veličine di, pri čemu je: ݔ െ ܽ ݀ ൌ ܾ Uvrštavanjem konkretnih vrijednosti za posmatranu statističku seriju dobijamo: Ͳǡͳͺ െ ͲǡͲͳ Ͳǡͻ െ ͲǡͲͳ Ͳǡʹͳ െ ͲǡͲͳ ൌ ͲǡͲͳͷͺǢ݀ଶ ൌ ൌ ͲǡͲͺǢ ݀ଷ ൌ ൌ ͲǡͲʹͳǢ ͳͲ ͳͲ ͳͲ ͲǡͷͲʹ െ ͲǡͲͳ Ͳǡ͵͵ െ ͲǡͲͳ ͲǡͷͶ െ ͲǡͲͳ ݀ସ ൌ ൌ ͲǡͲͶͻʹǢ ݀ହ ൌ ൌ ͲǡͲ͵ͷ͵Ǣ ݀ ൌ ൌ ͲǡͲͷͶǢ ͳͲ ͳͲ ͳͲ
݀ଵ ൌ
57
݀ ൌ -
ͲǡͶͶ െ ͲǡͲͳ ൌ ͲǡͲͶͷͶ ͳͲ
Prvi pomoćni moment oko “a” za posmatranu statističku seriju izračunavamo na sljedeći način: σୀଵ ݀ ൌ ͲǡͲͳͷͺ ͲǡͲͺ ͲǡͲʹͳ ͲǡͲͶͻʹ ͲǡͲ͵ͷ͵ ͲǡͲͷͶ ͲǡͲͶͷͶ Ͳǡʹͻͺ ൌ ൌ ൌ ͲǡͲͶʹͶ ܯଵ ǡ ൌ
-
Drugi pomoćni moment oko nule za posmatranu statističku seriju izračunavamo na sljedeći način: ܯଶ ǡ ൌ ൌ
-
σୀଵ ݀ ଶ ൌ
ͲǡͲͳͷͺଶ Ͳǡ Ͳͺଶ ͲǡͲʹͳଶ ͲǡͲͶͻʹଶ Ͳǡ Ͳ͵ͷ͵ଶ ͲǡͲͷͶଶ ͲǡͲͶͷͶଶ ͲǡͲͲͲʹͷ ͲǡͲͲͶͳ ͲǡͲͲͲͺ ͲǡͲͲʹͶʹ ͲǡͲͲͳʹͷ ͲǡͲͲ͵ͳͺ ͲǡͲͲʹͲ ൌ ൌ ͲǡͲͳͶͷͷ ൌ ͲǡͲͲʹͲͺ ൌ
Treći pomoćni moment oko “a” za posmatranu statističku seriju izračunavamo na sljedeći način: ܯଷ ǡ ൌ
σୀଵ ݀ ଷ ൌ
ͲǡͲͳͷͺଷ Ͳǡ Ͳͺଷ ͲǡͲʹͳଷ ͲǡͲͶͻʹଷ Ͳǡ Ͳ͵ͷ͵ଷ ͲǡͲͷͶଷ ͲǡͲͶͷͶଷ ൌ ͲǡͲͲͲͲͲ ͲǡͲͲͲ͵ʹ ͲǡͲͲͲͲʹ ͲǡͲͲͲͳʹ ͲǡͲͲͲͲͶ ͲǡͲͲͲͳͺ ͲǡͲͲͲͲͻ ൌ ൌ ͲǡͲͲͲͺ ൌ ൌ ͲǡͲͲͲͳͳ ൌ
-
Četvrti pomoćni moment oko “a” za posmatranu statističku seriju izračunavamo na sljedeći način: ܯସ ǡ ൌ
σୀଵ ݀ ସ ൌ
ͲǡͲͳͷͺସ Ͳǡ Ͳͺସ ͲǡͲʹͳସ ͲǡͲͶͻʹସ Ͳǡ Ͳ͵ͷ͵ସ ͲǡͲͷͶସ ͲǡͲͶͷͶସ ൌ ͲǡͲͲͲͲͲͲͳ ͲǡͲͲͲͲʹʹͳ ͲǡͲͲͲͲͲͲͷ ͲǡͲͲͲͲͳͷͻ ͲǡͲͲͲͲͲͳ ͲǡͲͲͲͲͳͲͳ ͲǡͲͲͲͲͲͶʹ ൌ ൌ ͲǡͲͲͲͲͶͶͷ ൌ ͲǡͲͲͲͲͲͶ ൌ ൌ
Vrijednost nultog momenta, kako centralnog, tako I pomoćnih, kod posmatrane statističke serije, kao I kod svake statističke serije ima vrijednost jedan.
58
Primjer 2.12. Potrebno je: a.
Izračunati prvi, drugi, treći I četvrti centralni moment za distribuciju pacijenata prema učestalosti posjete ljekaru porodične medicine u toku jednoga mjeseca (primjer 2.2);
b. Izračunati vrijednosti prvog, drugog, trećeg I četvrtog centarlanog momenta korištenjem vrijednosti pomoćnih momenata oko nule I oko “a”. Rješenje: Ovdje imamo seriju distribucija frekvencija kod koje izračunavamo kao ponderisane moment I u slučaju glavnih I u slučaju pomoćnih momenata. a. Glavni (centralni) momenti izračunavaju se kao ponderisane sredine odstupanja vrijednosti modaliteta od prosječne vrijednosti stepenovanih odgovarajućim eksponentom. Elemente poterbne za izračunavanje glavnih (centralnih) momenata prikazujemo u sljedećoj tabeli: Xi
Xi – 3,98
Fi
Ukupno (6):
Fi ( Xi – 3,9)
Fi (Xi – 3,9)2
Fi ( Xi – 3,9)3
Fi (Xi – 3,9)4
0
15
-3,90
-58,50 228,15
-889,785
3470,162
1
37
-2,90
-107,30 311,17
-902,393
2616,94
2
34
-1,90
-64,60 122,74
-233,206
443,0914
3
32
-0,90
-28,80 25,92
-23,328
20,9952
4
21
0,10
2,10 0,21
0,021
0,0021
5
47
1,10
51,70 56,87
62,557
68,8127
6
19
2,10
39,90 83,79
175,959
369,5139
7
25
3,10
77,50 240,25
744,775
2308,803
8
14
4,10
57,40 235,34
964,894
3956,065
9
6
5,10
30,60 156,06
795,906
4059,121
695,4
17313,51
250
-
0,00 1460,5
Tabela 29. Radna tabela – elementi za izračunavanje prvog, drugog, trećeg I četvrtog glavnog (centralnog) momenta distribucije učestalosti mjesečnih posjeta ljekaru porodične medicine
-
Prvi centralni moment serije distribucija frekvencija izračunavamo korištenjem obrasca za ponderisane moment statističke serije pomoću obrasca: ܯଵ ൌ
σୀଵ ݂ ή ሺݔ െ ݔҧ ሻ σୀଵ ݂
Uvrštavanjem konkretnih podataka u prethodni obrazac dobijamo:
8
Vrijednost aritmetičke sredine posmatrane statističke serije iznosi 3,9, a njezina vrijednost sadržana je u rješenju primjera 2.2
59
ܯଵ ൌ
Ͳ ൌͲ ʹͷͲ
Vrijednost prvog glavnog (centralnog) momenta proizilazi iz treće osobine aritmetičke sredine I njegova vrijednost mora biti jednaka nula. -
Drugi centralni moment serije distribucija frekvencija izračunavamo korištenjem obrasca za ponderisane moment statističke serije pomoću obrasca: ܯଶ ൌ
σୀଵ ݂ ή ሺݔ െ ݔҧ ሻଶ σୀଵ ݂
Uvrštavanjem konkretnih podataka u prethodni obrazac dobijamo: ͳͶͲǡͷͲ ൌ ͷǡͺͶʹ ʹͷͲ
ܯଶ ൌ
Vrijednost drugog glavnog (centralnog) momenta predstavlja varijansu statističke serije. -
Treći centralni moment serije distribucija frekvencija izračunavamo korištenjem obrasca za ponderisane moment statističke serije pomoću obrasca: ܯଷ ൌ
σୀଵ ݂ ή ሺݔ െ ݔҧ ሻଶ σୀଵ ݂
Uvrštavanjem konkretnih podataka u prethodni obrazac dobijamo: ܯଷ ൌ -
ͻͷǡͶ ൌ ʹǡͺͳ ʹͷͲ
Četvrti centralni moment serije distribucija frekvencija izračunavamo korištenjem obrasca za ponderisane moment statističke serije pomoću obrasca: ܯସ ൌ
σୀଵ ݂ ή ሺݔ െ ݔҧ ሻସ σୀଵ ݂
Uvrštavanjem konkretnih podataka u prethodni obrazac dobijamo: ܯସ ൌ
ͳ͵ͳ͵ǡͷͳ ൌ ͻǡʹͷͶͲʹ ʹͷͲ
b. Pomoćni moment oko nule izračunavaju se kao ponderisane sredine odstupanja vrijednosti modaliteta od nule stepenovanih odgovarajućim eksponentom. Elemente poterbne za izračunavanje pomoćnih momenata oko nule prikazujemo u sljedećoj tabeli: Xi
60
Fi
Fi ܺଷ
Fi ܺଶ
Fi Xi
Fi ܺସ
0
15
0
0
0
0
1
37
37
37
37
37
2
34
68
136
272
544
3
32
96
288
864
2592
4
21
84
336
1344
5376
Ukupno (6):
5
47
235
1175
5875
29375
6
19
114
684
4104
24624
7
25
175
1225
8575
60025
8
14
112
896
7168
57344
9
6
54
486
4374
39366
250
975
5263
32613
219283
Tabela 30. Radna tabela – elementi za izračunavanje prvog, drugog, trećeg I četvrtog pomoćnog momenta oko nule distribucije učestalosti mjesečnih posjeta ljekaru porodične medicine
-
Prvi pomoćni moment oko nule serije distribucija frekvencija izračunavamo korištenjem obrasca za ponderisane moment statističke serije pomoću obrasca: ݉ଵ ൌ
σୀଵ ݂ ή ݔ σୀଵ ݂
Uvrštavanjem konkretnih podataka u prethodni obrazac dobijamo: ݉ଵ ൌ
ͻͷ ൌ ͵ǡͻͲ ʹͷͲ
Vrijednost prvog momenta proizilazi iz treće osobine aritmetičke sredine I njegova vrijednost mora biti jednaka nula. -
Drugi pomoćni moment oko nule serije distribucija frekvencija izračunavamo korištenjem obrasca za ponderisane moment statističke serije pomoću obrasca: ݉ଶ ൌ
σୀଵ ݂ ή ݔଶ σୀଵ ݂
Uvrštavanjem konkretnih podataka u prethodni obrazac dobijamo: ݉ଶ ൌ -
ͷʹ͵ ൌ ʹͳǡͲͷʹ ʹͷͲ
Treći pomoćni moment oko nule serije distribucija frekvencija izračunavamo korištenjem obrasca za ponderisane moment statističke serije pomoću obrasca: ݉ଷ ൌ
σୀଵ ݂ ή ݔଷ σୀଵ ݂
Uvrštavanjem konkretnih podataka u prethodni obrazac dobijamo: ݉ଷ ൌ -
͵ʹͳ͵ ൌ ͳ͵ͲǡͶͷʹ ʹͷͲ
Četvrti pomoćni moment oko nule serije distribucija frekvencija izračunavamo korištenjem obrasca za ponderisane moment statističke serije pomoću obrasca: ݉ସ ൌ
σୀଵ ݂ ή ݔସ σୀଵ ݂
61
Uvrštavanjem konkretnih podataka u prethodni obrazac dobijamo: ݉ସ ൌ
ʹͳͻʹͺ͵ ൌ ͺǡͳ͵ʹ ʹͷͲ
Pomoćni moment oko “a” izračunavaju se kao ponderisane sredine odstupanja vrijednosti modaliteta od odgovarajuće vrijednosti parametra “a”, podjeljenih parametrom “b” i stepenovanih odgovarajućim eksponentom. Prije izračunavanja poterbno jeodabrati vrijednosti parametara “a” I “b”, izabraćemo da to budu a = 9 I b =10. Elemente poterbne za izračunavanje pomoćnih momenata oko “a” prikazujemo u sljedećoj tabeli: Xi
Fi
di
Fi ݀ଷ
Fi ݀ଶ
Fi di
Fi ݀ସ
0
15
-0,9
-13,5
12,15
-10,935
9,8415
1
37
-0,8
-29,6
23,68
-18,944
15,1552
2
34
-0,7
-23,8
16,66
-11,662
8,1634
3
32
-0,6
-19,2
11,52
-6,912
4,1472
4
21
-0,5
-10,5
5,25
-2,625
1,3125
5
47
-0,4
-18,8
7,52
-3,008
1,2032
6
19
-0,3
-5,7
1,71
-0,513
0,1539
7
25
-0,2
-5
1
-0,2
0,04
8
14
-0,1
-1,4
0,14
-0,014
0,0014
9
6
0
0
0
0
0
250
-4,5
-127,5
79,63
-54,813
40,0183
Tabela 31. Radna tabela – elementi za izračunavanje prvog, drugog, trećeg I četvrtog pomoćnog momenta oko “a” distribucije učestalosti mjesečnih posjeta ljekaru porodične medicine
-
Prvi pomoćni moment oko “a” serije distribucija frekvencija izračunavamo korištenjem obrasca za ponderisane moment statističke serije pomoću obrasca: ܯଵ ǡ ൌ
σୀଵ ݂ ή ݀ σୀଵ ݂
Uvrštavanjem konkretnih podataka u prethodni obrazac dobijamo: ܯଵ ǡ ൌ -
െͳʹǡͷ ൌ െͲǡͷͳ ʹͷͲ
Drugi pomoćni moment oko “a” serije distribucija frekvencija izračunavamo korištenjem obrasca za ponderisane moment statističke serije pomoću obrasca: ܯଶ ǡ ൌ
σୀଵ ݂ ή ݀ଶ σୀଵ ݂
Uvrštavanjem konkretnih podataka u prethodni obrazac dobijamo:
62
ܯଶ ǡ ൌ -
ͻǡ͵ ൌ Ͳǡ͵ͳͺͷʹ ʹͷͲ
Treći pomoćni moment oko “a” serije distribucija frekvencija izračunavamo korištenjem obrasca za ponderisane moment statističke serije pomoću obrasca: ܯଷ ǡ ൌ
σୀଵ ݂ ή ݀ଷ σୀଵ ݂
Uvrštavanjem konkretnih podataka u prethodni obrazac dobijamo: ܯଷ ǡ ൌ -
െͷͶǡͺͳ͵ ൌ െͲǡʹͳͻʹͷ ʹͷͲ
Četvrti pomoćni moment oko “a” serije distribucija frekvencija izračunavamo korištenjem obrasca za ponderisane moment statističke serije pomoću obrasca: ܯସ ǡ ൌ
σୀଵ ݂ ή ݀ସ σୀଵ ݂
Uvrštavanjem konkretnih podataka u prethodni obrazac dobijamo: ܯସ ǡ ൌ
ͶͲǡͲͳͺ͵ ൌ ͲǡͳͲͲ͵ ʹͷͲ
Polazeći od prethodno određenih vrijednosti pomoćnih momenata izračunavamo vrijednosti centralnih momenata, kao što slijedi: -
Vrijednost drugog centralnog momenta možemo izračuanati na sljedeće načine: o
M2 = m2 – m12 = 21,052 – 3,92 = 21,052 – 15,21 = 5,842 ili
o
M2 = b2 (M2, - M1,2) = 102 (0,31852 – (– 0,51)2) = 100 (0,31852 – 0,2601) = 1000,05842 = 5,842
-
Vrijednost trećeg centralnog momenta možemo izračunati na sljedeće načine: o
M3 = m3 – 3m1m2 + 2m13 = 130,452 – 33,921,052 + 23,93 = 130,452 – 246,3084 + 118,638 = 2,7861 ili
o
M3 = b3 (M3, – 3M1,M2, + 2M1,3) = 103 (– 0,21925 – 3(– 0,51)0,31852 + 2(– 0,51)3) = 1000(– 0,21925 + 0,4873356 – 0,265302) = 10000,0027836 =2,7836
-
Vrijednost četvrtog centralnog momenta možemo izračunati na sljedeće načine: o
M4 = m4 – 4m1m3 + 6m12m2 – 3m14 = 877,132 – 43,9130,452 + 63,9221,052 – 33,94 = 877,132 – 2035,0512 + 1921,20552 – 3231,3441 = 763,28632 – 694,0323 = 69,25402
o
M4 = b4 (M4, – 4M1, M3, + 6M1,2M2, – 3M1,4) = 104 (0,160073 – 4(– 0,51)(– 0,21925) + 6(– 0,51)20,31852 – 3(– 0,51)4 = 104(0,160073 – 0,44727 + 0,497082312 – 0,20295603) = 100000,006925402 = 69,25402
Može se uočiti da su vrijednosti dobijene različitim postupcima jednake vrijednosti jer korišteni računski postupak ne utiče na izračunatu vrijednost. 63
2.3. Pozicione srednje vrijednosti Pozicione srednje vrijednosti obuhvataju mjere cetralne tendencije čije vrijednosti su određene položajem statističke promjenljive u statističkoj seriji. Pozicione srednje vrijednosti obuhvataju: modus, medijanu, kvartile, decile, percentile...
2.3.1.
Modus
Modus predstavlja obilježje koje dominira statističkom serijom. Statistička serija ima modus ako u njoj postoje barem dva obilježja sa istom vrijednosti modaliteta. Modus kao srednja vrijednost se može prepoznavati ili izračunavati. Ukoliko u statističkoj seriji postoji tačno jedno obilježje koje dominira statističkom serijom (obilježje koje jedino ima najveću frekvenciju) statistička serija je unimodalna, ukoliko više obilježja istovremeno dominira statističkom serijom (dva ili više obilježja imaju istu i najveću frekvenciju) statistička serija je multimodalna. Ukoliko je potrebno odrediti modus kod serije distribucija ferkvencija, postupak utvrđivanja je prepoznavanje. Modus u tome slučaju prepoznajemo kao obilježje kojemu odgovara najveća frekvencija u statističkoj seriji (fr = fmaxxr = MO). Ukoliko je potrebno odrediti modus kod serije distribucija frekvencija, postupak utvrđivanja modusa podrazumijeva da se prvo prepozna modalni interval. Modalni interval je interval u kome se nalazi modus a prepoznaje se kao interval sa najvećom frekvencijom odnosno, fr = fmax MO (xr1 – xr2 ). Nakon prepoznavanja modalnog intervala modus izračunavamo pomoću sljedećeg obrasca: ܯை ൌ ݔଵ
݂ െ ݂ିଵ ή݅ ݂ െ ݂ିଵ ݂ െ ݂ାଵ
Gdje su: xr1 – donja granica modalnog interval; fr-1 – frekvencija premodalnog interval (interval koji se u statističkoj seriji nalazi neposredno ispred modalnog interval); fr – frekvencija modalnog interval (interval u kome se nalazi modus); fr+1 – frekvencija postmodalnog interval (interval koji se u statističkoj seriji nalazi neposredno iza modalnog interval); i – veličina modalnog interval. Primjer 2.13. Prema evidenciji zdravstvene ustanove “Z” medicinske mjere primijenjene prilikom posjete pacijenta ljekaru porodične medicine u toku jedne godine mogu se prikazati sljedećom distribucijom:
64
Zdravstvena usluga
Broj prijavljenih pacijenata
Primarni pregled uz uključivanje odgovarajuće terapije
202
Uputnica na labaratorijske pretrage I uključivanje odgovarajuće terapije
46
Uputnica na liječenje I nastavak liječenja kod pedijatra
51
Uputnica na liječenje I nastavak liječenja kod ofalmologa
32
Uputnica na liječenje I nastavak liječenja kod otorinolaringologa
52
Uputnica na liječenje I nastavak liječenja kod interniste
21
Uputnica na liječenje I nastavak liječenja kod ginekologa
65
Uputnica na liječenje I nastavak liječenja kod onkologa
7
Uputnica na liječenje I nastavak liječenja kod psihologa
56
Uputnica na liječenje I nastavak liječenja kod psihijatra
18
Ostalo
50
Ukupno (6):
600 Tabela 32. Distribucija pacijenata prema vrsti dobijene medicinske usluge
Potrebno je: a. Odrediti modus posmatrane statističke serije. Protumačiti dobijeni rezultat. b. Predstaviti navedenu statističku seriju pomoću grafičkog prikaza pomoću vertikalnih stubića u kome su modaliteti prikazani opadajućim nizom u odnosu na frekvencije modaliteta. Rješenje: a. Posmatrana statistička serija je serija distribucija frekvencija kod koje modus predstavlja obilježje sa najvećom frekvencijom. Najveća frekvencija u posmatranoj statističkoj seriji je f1 = fmax =202, obilježje kojem odgovara ova frekvencija je x1 čija vrijednost je “Primarni pregled uz uključivanje odgovarajuće terapije”, dakle MO = “Primarni pregled uz uključivanje odgovarajuće terapije”. Kod najvećeg broja pacijenata, od ukupnih posjeta ljekaru porodične medicine je primijenjena mjera “Primarni pregled uz uključivanje odgovarajuće terapije”. b. Za potrebe konstrukcije odgovarajućeg grafikona potrebno je formirati novu statističku seriju prema broju primijenjenih mjera, ali da pri tome modaliteti obilježja budu složeni u opadajući niz, koji se može prikazati sljedećim tabelarnim prikazom:
65
Zdravstvena usluga
Broj prijavljenih pacijenata
Primarni pregled uz uključivanje odgovarajuće terapije
202
Uputnica na liječenje I nastavak liječenja kod ginekologa
65
Uputnica na liječenje I nastavak liječenja kod psihologa
56
Uputnica na liječenje I nastavak liječenja kod otorinolaringologa
52
Uputnica na liječenje I nastavak liječenja kod pedijatra
51
Ostalo
50
Uputnica na labaratorijske pretrage I uključivanje odgovarajuće terapije
46
Uputnica na liječenje I nastavak liječenja kod ofalmologa
32
Uputnica na liječenje I nastavak liječenja kod interniste
21
Uputnica na liječenje I nastavak liječenja kod psihijatra
18
Uputnica na liječenje I nastavak liječenja kod onkologa
7
Ukupno (6):
600
Tabela 33. Statistička serija distribucija pacijenata prema broju primijenjenih zdravstvenih mjera – opadajući niz
Grafički prikaz statističke seriju pomoću vertikalnih stubića u kome su modaliteti prikazani opadajućim nizom u odnosu na frekvencije modaliteta ilustrujemo prikazom na sljedećem grafikonu.
202
Primarni pregled uz uključivanje odgovarajuće terapije 65
Uputnica na liječenje I nastavak liječenja kod…
56
Uputnica na liječenje I nastavak liječenja kod…
52
Uputnica na liječenje I nastavak liječenja kod…
51
Uputnica na liječenje I nastavak liječenja kod pedijatra
50
Ostalo
46
Uputnica na labaratorijske pretrage I uključivanje… 32
Uputnica na liječenje I nastavak liječenja kod… Uputnica na liječenje I nastavak liječenja kod interniste
21
Uputnica na liječenje I nastavak liječenja kod psihijatra
18
Uputnica na liječenje I nastavak liječenja kod onkologa
7
Slika 14. Grafički prikaz statističke seriju pomoću vertikalnih stubića – prikaz podataka složenih u opadajući niz
Primjer 2.14. Polazeći od statističke serije distribucije pacijenata prema visini sistolnog pritiska iz primjera 2.3, potrebno je: a. Odrediti modus posmatranog statističkog skupa i protumačiti značenje dobijene vrijednosti; 66
b. Prikazati statističku seriju histogramom frekvencija i grafički odrediti modus statističke serije. Rješenje: a. Posmatramo sljedeću distribuciju frekvencija i uočavamo elemente potrebne za određivanje modusa: Visina sistolnog pritiska (mmHg)
Broj ispitanika
Do 80
9
80 – 90
22
90 – 100
36
100 – 110
62 (fr-1 = 62)
110 – 120 (MO>110 - 120@; xr1 = 110; xr2 = 120; i = xr2 – xr1 = 120 – 110 = 10 )
67 (fmax = fr = 67)
120 – 130
43 (fr+1 = 43)
130 – 140
24
140 – 150
22
150 i više
15
Tabela 34. Radna tabela elementi za odreživanje modusa distribucije ispitanika prema visini sistolnog pritiska
Modus se nalazi u intervalu koji u posmatranoj statističkoj seriji ima najveću frekvenciju, a to je: fmax = fr = 67 MO >110 – 120@ Nadalje elementi potrebni za izračunavanje modusa su: fr-1 = 62; fr+1 = 43; xr1 = 110; xr2 = 120; i = xr2 – xr1 = 120 – 110 = 10. Elementi potrebni za izračunavanje modusa su osjenčeni u prethodnoj radnoj tabeli. Nakon što su određeni elementi potrebni za određivanje modusa uvrštavanjem u obrazac za njegovo izračunavanje dobijamo: ܯை ൌ ݔଵ
݂ െ ݂ିଵ െ ʹ ͷ ή ͳͲ ή ݅ ൌ ͳͳͲ ή ͳͲ ൌ ͳͳͲ െ ʹ െ Ͷ͵ ʹͻ ݂ െ ݂ିଵ ݂ െ ݂ାଵ ൌ ͳͳͲ ͳǡʹͶ ൌ ͳͳͳǡʹͶ
Dobijena vrijednost modusa statističke serije predstavlja najčešću visinu sistolnog pritiska stanovnika posmatrane regije. Drugim riječima, najveći broj stanovnika posmatrane regije ima sistolni pritisak u visini 111,724 mmHg. b. Histogram frekvencija posmatrane statističke serije ima sljedeći izgled:
67
80
Broj ispitanika
70 60 50 40 30 20 10 0 Do 80
80 – 90 90 – 100 100 – 110 110 – 120 120 – 130 130 – 140 140 – 150 150 i više Visina sistolnog pritiska
MO|112 Slika 15. Histogram frekvencija distribucije stanovnika posmatrane regije prema visini sistolnog pritiska sa grafički određenim modusom
2.3.2.
Medijana; Kvartili; Decili; Percentili
Medijana predstavlja pozicionu srednju vrijednost koja, prethodno uređen, statistički skup dijeli na dva jednaka dijela. Dakle, medijana je srednja vrijednost koja statističku seriju, uređenu prema redosljedu ili intenzitetu mjerenog obilježja dijeli na dva jednaka dijela, pri čemu, polovina jedinica statističkog skupa ima vrijednost mjerenog obilježja niže (manje) vrijednosti u odnosu na medijanu, dok druga polovina ima istu vrijednost višu (veću) u odnosu na medijanu. Utvrđivanje vrijednosti medijane započinjemo određivanjem njezine pozicije u statističkoj seriji. Navedeni postupak podrazumijeva da se izračuna vrijednost središnjeg člana, navedeno podrazumijeva da se ே
broj modaliteta u statističkoj seriji (N) podijeli sa dva ( ሻ, ukoliko je izračunata vrijednost: ଶ
-
Cijeli broj, zaključujemo da se medijana nalazi između r – tog I r+1 – vog modaliteta u statističkoj ே
௫ೝ ା௫ೝశభ
ଶ
ଶ
seriji, pri čemu je r = , dok se medijana izračunava kao njihov poluzbir, odnosno Me = -
;
ே
Decimalni broj, tada je medijana r – ti modalitet u statističkoj seriji, pri čemu je r = f( ሻ+1, odnosno ଶ
ே
ே
Me = xr. U prethodnom izrazu f( ሻ – predstavlja cjelobrojni dio vrijednosti izraza ; ukoliko je ଶ
vrijednost izraza cijeli broj tada je njegova vrijednost jednaka
ଶ
ே ଶ
; ukoliko je njegova vrijednost ே
decimalni broj tada je njegova vrijednost najveći cijeli broj koji je manji od vrijednosti . ଶ
Vrijednost medijane se očitava se direktno iz statističke serije negrupisanih podataka, dok se kod serija grupisanih podataka očitava iz kumulante frekvencija (rastuće). Kod intervalne serije distirbucija frekvencija 68
nije moguće očitati vrijednost medijane već se očitava medijalni interval. Medijalni interval predstavlja interval u kojem se nalazi medijana, Me >xr1 – xr2 @, dok se njegova vrijednost izračunava pomoću sljedećeg obrasca: Me = xr1 +
ಿ ିσ భ మ
ή ݅ , gdje su:
6f1 – kumulativna frekvencija premedijalnog interval (interval koji prethodi medijalnom); fmed – frekvencija medijalnog interval; i – veličina medijalnog intervala. Postoji veći broj pozicionih mjera koji statističku seriju djele na određen broj jednakih dijelova. Postoji veza između broja dijelova I broja pozicionih vrijednosti gdje je broj pozicionih vrijednosti jednak broju jednakih dijelova umanjenom za jedan. Važnije pozicione vrijednosti su kvartili, decili I percentile. Kvartili su pozicione vrijednosti koje koje statističu seriju dijele na četiri jednalka dijela, I ima ih tri. Decili dijele statističku seriju na deset jednakih dijelova, broj decila je devet. Percentile dijele seriju na stotinu jednakih dijelova I njihov broj je devedesetdevet. Prvi kartil određuje se kao medijana za prvih 50% modaliteta u statističkoj seriji, mjesto prvog katrila je ே
ଷே
ସ
ସ
r = , drugi kvartil je medijana, a mjesto trećeg kvatrila je r =
. Ostatak postupka je identičan postupku
određivanja medijane. Ukoliko je mjesto kvartila cijeli broj kvartil se nalazi između r – tog i r+1 – vog modaliteta u statističkoj seriji (kumulanti frekvencija) i jednak je njihovom poluzbiru. Sa druge strane ukoliko je mjesto kvartila decimalan broj mjesto kvartila dobijamo kao f(r)+1. Kod intervalne serije distribucija frekvencija, mjesto kvartila određuje kartilni interval, dok se kvartili izračunavaju pomoću sljedećih obrazaca: Prvi kvartil:
Q1 = xr1 +
Treći kvartil:
Q3 = xr1 +
ಿ ିσ భ ర
ೂ భ
ή ݅
యಿ ିσ భ ర
ೂ య
ή ݅
Gdje su: Xr1 – donja granica kvartilnog interval; 6f1 – frekvencija prekvartilnog interval (interval koji prethodi kvartilnom intervalu); fQ1; fQ3 – frekvencija kvartilnog interval (za prvi I treći kvartil respektivno). Mjesta decila određuju se kao
ே ଵ
, gdje je k – redni broj decila, decili se određuju analogno medijani I
kvartilima, dok se kod intervalne statističke serije decili izračunavaju korištenjem sljedećeg obrasca: ೖಿ
Dk = xr1+ భబ
ିσ భ
ವೖ
ή ݅,
69
Gdje su: K – redni broj decila, k = 1,2,3,4,5,6,7,8,9; 6f1 – kumulativna frekvencija predecilnog interval (intreval koji prethodi decilnom intervalu); FDk – frekvencija decilnog interval. Lako je zaključiti da je peti kvartil medijana! Mjesta percentila određuju se kao
ே
, gdje je k – redni broj percentila, percentile se određuju analogno
ଵ
ostalim pozicionim veličinama, dok se kod intervalne statističke serije izračunavaju korištenjem sljedećeg obrasca: ೖಿ
Pk = xr1+భబబ
ିσ భ
ುೖ
ή ݅,
Gdje su: K – redni broj percentila, k = 1,2,3,…99; 6f1 – kumulativna frekvencija prepercentilnog interval (intreval koji prethodi percentilnom intervalu); FDk – frekvencija percentilnog interval. Lako je zaključiti da je peti kvartil medijana, dvadesetpeti percentile je prvi kvartil, sedamdesetpeti percentile je treći kvartil. Vrijednosti percentila sadrže I sve decile! Primjer 2.15. Proizvod “P” proizvodi se korištenjem tri tehnološka postuka, pri čemu su zabilježeni podaci o utrošenom vremenu po osnovu pojedinih tehnoloških postupaka u toku jedne smjene u odnosu na radnike koji su bili direktno angažovani na njihovoj izradi. Zabilježeni rezultati prikazani su u sljedećoj tabeli: Radnik R1
R2
R3
R4
R5
R6
R7
R8
Tehnološki postupak I II III
39
21
85
43
56
34
11
34
48
10
35
58
39
53
58
80
91
63
24
67
74
Tabela 35. Utrošeno vrijeme u proizvodnju proizvoda „P“ po proizvodnom radniku i korištenom tehnološkom postupku
Potrebno je: a. Za svaki tehnološko postupak potrebno je odrediti središnji član iskazan kao medijanu; b. Izračunati harmonjisku sredinu za posmatrane vrijednosti i uporediti sa vrijednošću srednišnjeg člana (medijanom). Rješenje:
70
a. Statistički podaci dati su u obliku negrupisanih podataka. Za potrebe utvrđivanja medijane potrebno ih je urediti prema intenzitetu mjerenog svjstva (veličini). Uređivanjem statističkih podataka prema veličini dobijamo: I II III
21
24
34
39
43
56
10
11
34
35
48
58
39
53
58
63
74
80
67
85
91
Tabela 36. Statističke serije uređene prema intenzitetu mjerenog obilježja
-
Za prvi tehnološki postupak mjesto medijane ima vrijednost r =
ே ଶ
଼
ൌ ൌ Ͷ, kako je broj podataka ଶ
paran, mjesto medijane je cijeli broj čija je vrijednost 4, što znači da se medijana nalazi između četvrtog (x4 = 39) i petog (x5 = 43) modaliteta u statističkoj seriji. Dakle, vrijednost medijane se dobija kao poluzbir čevrtog i petog modaliteta u statističkoj seriji a to su 39 i 43. Medijana prve statitičke serije ima vrijednost Me1 = (39+43):2 = 82:2 = 41. U pogledu vrenena potrebnog za fazu proizvodnje prvog tehnološkog postupka kod 50 % radnika utrošak vremena za izradu proizvoda “P” je ispod 41 vremenskih jedinica, dok je kod 50% radnika utrošak vremena je iznad 41 vremenskih jedinica; -
Za drugi tehnološki postupak mjesto medijane ima vrijednost r =
ே ଶ
ൌ ൌ ͵, kako je broj podataka ଶ
paran, mjesto medijane je cijeli broj čija je vrijednost 3, što znači da se medijana nalazi između trećeg (x3 = 34) i četvrtog (x4 = 35) modaliteta u statističkoj seriji. Dakle, vrijednost medijane se dobija kao poluzbir trećeg I čevrtog modaliteta u statističkoj seriji, a to su 34 i 35. Medijana druge statitičke serije ima vrijednost Me2 = (34+35):2 = 69:2 = 34,5. U pogledu vrenena potrebnog za fazu proizvodnje drugog tehnološkog postupka kod 50 % radnika utrošak vremena za izradu proizvoda “P” je ispod 34,5 vremenskih jedinica, dok je kod 50% radnika utrošak vremena je iznad 34,5 vremenskih jedinica; -
ே
ଶ
ଶ
Za treći tehnološki postupak mjesto medijane ima vrijednost r = ݂ ቀ ቁ ͳ ൌ ݂ ቀ ቁ ͳ ൌ ݂ሺ͵ǡͷሻ ͳ ൌ ͵ ͳ ൌ Ͷ, kako je broj podataka neparan, mjesto medijane je decimalni broj (3,5) čija jecjelobrojni dio 3, što znači da se medijana nalazi na mjestu četvrtog (x4 = 63) modaliteta u statističkoj seriji. Medijana treće statitičke serije ima vrijednost Me3 = x4 = 63. U pogledu vremena potrebnog za fazu proizvodnje trećeg tehnološkog postupka kod 50 % radnika utrošak vremena u izradu je ispod 63 vremenske jedinice, dok je kod 50% proizvoda utrošak vremena je iznad 63 vremenske jedinice.
b. Za potrebe utvrđivanja prosječno utrošenog vremena izraženog kao harmonijska sredina, koristimo obrazac za prostu harmonijsku sredinu:
71
ܪൌ
ܰ ͳ σ ݔ
Polazeći od konkretnih podataka u posmatranom primjeru dobijamo: ଼
-
Za prvu statističku seriju: ܪଵ ൌ
-
Za drugu statističku seriju: ܪଶ ൌ
-
Za treću statističku seriju: ܪଷ ൌ
భ భ భ భ భ భ భ భ ା ା ା ା ା ା ା మభ మర యర యవ రయ ఱల లళ ఴఱ
భ భ భ భ భ భ ା ା ା ା ା భబ భభ యర యఱ రఴ ఱఴ
ൌ
భ భ భ భ భ భ భ ା ା ା ା ା ା యవ ఱయ ఱఴ లయ ళర ఴబ వభ
ൌ
଼ ǡଶଵଶଵସ
ǡଶ଼ଽ
ൌ
ൌ ͵ǡͳ
ൌ ʹͲǡͻͲͺ͵͵
ǡଵଵସଶ
ൌ ͳǡͲͺʹͶ
Prosječno utrošeno vrijeme u prvom tehnološkom postupku iznosi 37,71 vremensku jednicu, dok utrošak vremena za prvih 50% radnika iznosi 41 vremenskih jedinica, što znači da prosječan učinak unutar učinka prve polovine radnika. Prosječno utrošeno vrijeme u drugom tehnološkom postupku je 20,90833 vremenskih jedinica, dok je utrošak vremena za prvih 50% radnika do 34,5 vremenskih jedinica, što upućuje da je prosječni učinak unutar učinka prve polovine radnika. Prosječno utrošeno vrijeme u trećem tehnološkom postupku je 61,06824 vremenskih jedinica, dok je utrošak vremena za prvih 50% radnika do 63 vremenske jedinice, što upućuje da je prosječan učinak unutar učinka prve polovine radnika. Kod prvog i trećeg tehnološkog postupka razlike između prosječnog i središnjeg učinka su zanačajno manje u odnosu na drugi tehnološki postupak. Primjer 2.16. U jednoj zdravstvenoj ustanovi u toku jednog radnog dana zabilježeni su podaci o visini sistolnog pritiska kod 15 pacijenata koji su tog dana zatražili uslugu ljekara porodične medicine (ljekarski pregled zbog različitih zdravstvenih tegoba). Rezultati mjerenja, izraženi u mmHg, iznosili su: 100
150
150
150
170
180
100
170
170
150
150
90
70
180 90
Potrebno je: a. Utvrditi najvjerovatniju visinu sistolnog pritiska kod posmatrane grupe pacijenata; b. Utvrditi visinu sistolnog pritiska za prvih 50% pacijenata; c. Grafički prikazati statističku seriju u dekartovom koordinatnom sistemu i na grafikonu naznačiti medijanu statističke serije; d. Utvrditi vrijednost prvog I trećeg kvartila posmatrane statističke serije. Rješenje: U posmatranom primjeru jedinica statističkog skupa označena je kao pacijent koji je u toku određenog radnog dana zatražio usluge ljekara porodične medicine, a obiježje koje je predmet proučavanja je visina 72
sistolnog pritiska pacijenta. Visina sistolnog pritiska posmatranog statističkog skupa imaju vrijednosti navedene u posmatranom primjeru. Za potrebe analize formiramo statističku seriju, koja u navedenom primjeru ima sljedeći izgled: Xi
70
90
100
150
170
180
6
fi
1
2
2
5
3
2
15
Tabela 37. Statistička serija – distribucija pacijenata prema visini sistolnog pritiska
a. Najvjerovatnija visina sistolnog pritiska je modus statističke serije, a to je obilježje sa najvećom frekvencijom: fmax = 5 MO = 150 Najveći broj pacijenata ima sistolni pritisak visine 150 mmHg. ே
b. Mjesto medijane posmatrane statističke serije je ݎൌ ݂ ቀ ቁ ͳ ൌ ݂ሺǡͷሻ ͳ ൌ ͳ ൌ ͺ, ଶ
zaključujemo da je medijana osmi modalitet u statističkoj seriji. Mjesto medijane očitavamo iz kumulante frekvencija (rastuće). Kumulanta frekvencija formira se postepenim dodavanjem frekvencija, kao što se može prikazati u sljedećoj radnoj tabeli: Xi
fi
Kumulanta
70
1
1
90
2
1+2=3
100
2
1+2+2=5
150
5
1+2+2+5=10
170
3
1+2+2+5+3=13
180
2
1+2+2+5+3+2=15
6
15
-
Tabela 38. Radna tabela – formiranje kumulante frekvencija (rastuće) kod posmatrane statističke serije
Iz kumulante frekvencija zaključujemo da osmi modalitet u statističkoj seriji predstavlja modalitet čija je vrijednost 150, odnosno x8 = 150 Me = 150. Treća kumulativne frekvencija je 5, a četvrta deset iz čega zaključujemo da su 6,7,8,9 i 10 modaliteti u statističkoj seriji modaliteti vrijednosti 150. 50% pacijenata ima sistolni pritisak visine ispod 150mmHg, a 50% pacijenata ima sistolni pritisak visine iznad 150mmHg. Dakle, najvjerovatnija vrijednost sistolnog pritiska ujedno je I vrijednost sistolnog pritiska za prvih 50% pacijenata. c. Prikaz statističke serije u dekartovom koordinatnom sistemu ima sljedeći izgled:
73
6
Me=150 5 4 3 2 1 0 0
50
100
150
200
Slika 16. Prikaz statističe serije u dekartovom koordinatnom sistemu ଵହ
d. Mjesto prvog kvartila je ݎൌ ݂ ቀ ቁ ͳ ൌ ݂ሺ͵ǡͷሻ ͳ ൌ Ͷ, zaključujemo da je prvi kvartil četvrti ସ
modalitet u statističkoj seriji. Mjesto prvog kvartila očitavamo iz kumulante frekvencija (rastuće). Iz kumulante frekvencija zaključujemo da čevrti modalitet u statističkoj seriji predstavlja modalitet čija je vrijednost 100, odnosno x4 = 100 Q1 = 100. Druga kumulativna frekvencija je 3, a treća pet iz čega zaključujemo da su 4 i 5 modaliteti u statističkoj seriji modaliteti vrijednosti 100. Mjesto trećeg kvartila je ݎൌ ݂ ቀ
ଷήଵହ ସ
ቁ ͳ ൌ ݂ሺͳͳǡʹͷሻ ͳ ൌ ͳʹ, zaključujemo da je treći kvartil
dvanaesti modalitet u statističkoj seriji. Mjesto trećeg kvartila očitavamo iz kumulante frekvencija (rastuće). Iz kumulante frekvencija zaključujemo da dvanaesti modalitet u statističkoj seriji predstavlja modalitet čija je vrijednost 170, odnosno x12 = 170 Q3 = 170, četvrta kumulativna frekvencija je 10, a peta 13 iz čega zaključujemo da su 11,12 i 13. modaliteti u statističkoj seriji modaliteti vrijednosti 170. Drugi kvartil je medijana! Visina sistolnog pritiska za prvih 25% pacijenata je 100 – 25% pacijenata ima sistolni pritisak ispod 100, a 75% pacijenata iznad 100. Pored toga, 75% pacijenata ima sistolni pritisak ispod 170, a za 25% pacijenata sistolni pritisak je iznad 170mmHg. Primjer 2.17. Prema podacima jednog preduzeća koje se bavi izgradnjom i prometom nekretnina, analizirana je godišnja prodaja stanova prema svojstvu lokacija. U toku godine prometovano je 370 stanova na različitim lokacijama, pri čemu je distribuciju prodaje stanova prema lokaciji moguće prikazati sljedećom distribucijom: 74
Lokacija
Broj stanova
Uži centar grada
31
Uže gradsko područje
48
Šire gradsko područje
179
Prigradsko naselje
94
Rurarlno područje
18 370
Ukupno (6):
Tabela 39. Distribucija godišnje prodaje stanova prema lokaciji
Potrebno je: a. Odrediti medijalnu lokaciju. Koja je modalna lokacija prodaje stanova u toku posmatrane godine? b. Odrediti vrijednost 18 i 72 percentila posmatrane statističke serije! c. Grafički prikazati statističku seriju i označiti položaj medijane! Rješenje: a. Statistička promjenljiva je atributivna promjenljiva – rang promjenljiva, intenzitet mjerenog svojstva je udaljenost od centra grada, tako da su modaliteti obilježja redani prema udaljenosti od centra grada – konvencionalno navedeni podaci predstavljaju zone. Mjesto medijane posmatranog statističkog skupa je r = 370:2= 185, dakle medijana se nalazi između 185 i 186 modaliteta u statističkoj seriji. Medijana se određuje kao poluzbir 185 i 186 modaliteta u statističkoj seriji. Za potrebe prepoznavanja navedenih modaliteta potrebno je formnirati kumulantu frekvencija, što se može prikazati u sljedećoj tabeli: Lokacija (Xi)
Broj stanova (fi)
Kumulanta frekvencija – rastuća
Uži centar grada
31
31
Uže gradsko područje
48
79
Šire gradsko područje
179
258
Prigradsko naselje
94
352
Rurarlno područje
18
370
370
-
Ukupno (6):
Tabela 40. Kumulativna frekvencija distribucije prodaje stanova prema lokaciji
Iz kumulante frekvencija očitavamo sljedeće vrijednosti x185 = x186 = “Šire gradsko područje”, time je I medijana posmatrane statističke serije “Šire gradsko područje”. Priroda statističke promjenljive je rang promjenljiva I iskazana je kao atributivna promjenljiva, pored toga, medijanu je moguće odrediti jer su vrijednosti modaliteta kojima se određuje vrijednost medijane su iste. Ukoliko su navedeni modaliteti 75
obilježja različite vrijednosti potrebno je modalitete iskazati brojnim rangom, čime određivanje medijane postaje moguće. Polovina prodanih stanova u toku posmatrane godine je u zonama “Uži centar grada” I “Uže gradsko područje” koje predstavljaju zone bliže centru grada od medijalne zone. Druga polovina prodanih stanova u toku posmatrane godine nalazi se u zonama “Prigradsko naselje” I “Rurarlno područje”, navedene zone su dalje od centra grada od medijalne zone. Modus je obilježje koje dominira statističkom serijom, odnosno to je obilježje sa najvećom frekvencijom. U posmatranoj statističkoj seriji je: fmax = 179 MO = “Šire gradsko područje”. Najveći broj prodanih stanova nalazi se u stambenoj zoni “Šire gradsko područje” b. Mjesto osamnaestog percentila je: r = ݂ሺ
ଵ଼ήଷ ଵ
)+1= f(66,6)+1= 67 P18 = “ Uže gradsko
područje”. Mjesto sedamdesetdrugog percentila je r = ݂ሺ
ଶήଷ ଵ
)+1= f(266,4)+1= 267 P72 = “ Prigradsko
naselje”. c. Statističku seriju prikazujemo sljedećim grafičkim prikazom:
Broj stanova 200 180 160 140 120 100 80 60 40 20 0
Mo=Me
Uži centar grada
Uže gradsko područje
Šire gradsko područje
Prigradsko naselje
Rurarlno područje
Slika 17. Distribucija prodaje stanova prema lokacija prodanih stanova
Primjer 2.18.Uzimajući podatke vezane za distribuciju malih I srednjih preduzeća posmatrane regije prema visini ostvarene dobiti u toku posmatrane kalendarske godine formirane u primjeru 1.4. Potrebno je: a. Odrediti vrijednost kvartila statističke serije; b. Kolika je najvjerovatnija dobit malih i srednjih preduzeća u posmatranoj regiji; c. Odrediti vrijednost za 1, 5 I 7 decil posmatrane statističke serije;
76
d. Odrediti vrijednost 5,15 I 48 percentila posmatrane statističke serije. Rješenje: Za potrebe određivanja pozicionih vrijednosti potrebno je formirati kumulantu frekvencija (rasutuću) koju možemo prikazati u sljedećoj tabeli:
Visina ostvarene dobiti preduzeća u toku posmatrane
Broj preduzeća
Kumulanta frekvencija
kalendarske godine
Fi
(rastuća)
Do 587
8
8
587 – 2157
11
19
2157 – 3727
4
23
3727 – 5297
8
31
5297 – 6867
5
36
6867 – 8437
9
45
8437 i više
5
50
6 (UKUPNO):
50
-
Xi
Tabela 41. Radna tabela – kumulanta frekvencija serije distribucija malih I srednjih preduzeća posmatrane regije prema visini ostvarene dobiti u posmaranoj kalendarskoj godini
a. Kvartili dijele statističku seriju na četiri jednaka dijela i ima ih tri: -
ହ
Mjesto prvog kvartila je: r = f( ) + 1 = f(12,5)+1 = 13; zaključujemo da je prvi kvartil trinaesti ସ
modalitet iz statističke serije, odnosno iz drugog intervala posmatrane statističke serije, tj. Q1 >587 – 2157@, a njegova vrijednost je: Q1 ൌ ͷͺ
ఱబ ି଼ ర
ଵଵ
ή ͳͷͲ ൌ ͳʹʹͻǡʹ͵. Zaključujemo da 25%
preduzeća ostvari dobit ispod 1229,273 novčane jedinice, dok 75% ostvari dobit iznad navedenog iznosa; -
Mjesto medijane (drugog kvartila) je: r = 50:2 = 25; medijana se nalazi između 25 i 26 modaliteta u statističkoj seriji, odnosno u četvrtom intervalu statističke serije, tj. Me>3727 – 5297@, a njezina ఱబ
vrijednost je: Me = 3727+ మ
ିଶଷ ଼
ή ͳͷͲ = 4128,5. Dakle, 50% preduzeća ostvari dobit ispod 4198,5
novčanih jedinica, dok 50% ostvari dobit iznad navedenog iznosa; -
Mjesto trećeg kvartila je: r = f(
ଷήହ ସ
ሻ + 1 = f(37,5) + 1 = 38; treći kvartil je 38 modalitet u statističkoj
seriji, odnosno treći kvartil je iz šestog intervala statističke serije, tj. Q3 >6867 – 8437@, a njegova 77
vrijednost je: Q3 = 6867 +
భఱబ ିଷ ర
ଽ
ή ͳͷͲ = 7128,67. Zaključujemo da 75% preduzeća ostvari dobit
ispod 7128,67 novčanih jedinica, dok 25% ostvari dobit iznad navedenog iznosa. b. Modus predstavlja modalitet koji dominira statističkom serijom, odnosno modalitet kojem odgovara najveća frekvencija. Zaključujemo da je fmax = 11MO>587 - 2157@. Modus je obilježje iz navedenog intervala a njegova vrijednost je: MO = 587 +
ଵଵି଼ ଵଵି଼ାଵଵିସ
ή ͳͷͲ =1058.
Najveći broj srednjih i malih preduzeća u posmatranoj regiji je 1058 novčanih jedinica. c. Decili dijele statističku seriju na deset jednakih dijelova i ima ih devet: -
Mjesto prvog decila je r = 50:10 = 5, prvi decil je između petog i šestog modaliteta u statističkoj seriji, odnosno u prvom intervalu statističke serije D1 >do – 587@. Vrijednost prvog decila je D1 = 983 +
ఱబ ି భబ
଼
ή ͳͷͲ = - 1,75. Zaključujemo da, 10% preduzeća ostvari dobitak u iznosu manjem od –
1,75, dok 90% ostvari dobitak iznad – 1,75 novčanih jedinica. -
Mjesto petog decila je r =250:10 = 25, peti decil je medijana čija vrijednost izosi D5 = Me = 4128,5.
-
Mjesto sedmog decila je r = 350:10 = 35, sedmi decil je između tridesetpetog i trideset šestog modaliteta, odnosno D7 >ͷʹͻ െ ͺ@. Vrijednost sedmog decila je D7 = 5297 +
ళήఱబ ିଷଵ భబ
ହ
ή ͳͷͲ =
6553. Dakle, 70 % preduzeća ostvaruje dobit ispod 6553, a 30% iznad navedenog iznosa. d. Percentili dijele statističku seriju na sto jednakih dijelova I ima ih devedesetdevet: -
Mjesto petog percentila je r = f(250:100)+1 = f(2,5) + 1 = 3, prvi percentil je treći modalitet u statističkoj seriji, odnosno u prvom intervalu statističke serije P5 >do – 587@. Vrijednost petog మఱబ
percentila je P5 = - 983 + భబబ
ି
଼
ή ͳͷͲ = - 492,375. Zaključujemo da, 5% preduzeća ostvari dobitak u
iznosu manjem od – 492,375 dok 95% ostvari dobitak iznad – 492,375 novčanih jedinica. -
Mjesto petnaestog percentila je r =f(750:100)+1=f(7,5)+1=8, petnaesti percentil je osmi modalitet u statističkoj seriji, odnosno u prvom intervalu statističke serije petnaestog percentila je P15 = - 983 +
ళఱబ ି భబబ
଼
P15 >do – 587@. Vrijednost
ή ͳͷͲ = 488,875. Zaključujemo da, 15% preduzeća
ostvari dobitak u iznosu manjem od 488,875 dok 85% ostvari dobitak iznad 488,875 novčanih jedinica. -
Mjesto četrdesetosmog percentila je r = 2400:100 = 24, četrdesetosmi percentile je između 24 I 25 modaliteta, odnosno P48 >͵ʹ െ ͷʹͻ@. Vrijednost četrdesetosmog percentila je P48 = 3727 + రఴήఱబ ିଶଷ భబబ
ହ
ή ͳͷͲ = 3923,25. Dakle, 48 % preduzeća ostvaruje dobit ispod 3923,25, a 52 % iznad
navedenog iznosa.
78
2.4. Mjere varijabiliteta Uloga mjera varijabiliteta jeste da numeriči izraze mjeru varijabiliteta podataka dijele se u dvije osnovne grupe apsolutne mjere varijabiliteta I relativne mjere varijabiliteta. Apsolutne mjere varijabiliteta iskazuju varijabilitet u apsolutnim vrijednostima (u mjernim jedinicama statističke promjenljive – obilježja), dok se relativnim mjerama varijabiliteta varijabilitet izražava u određenim relativnim mjerama (procentima, jedinicama standardne devijacije). Apsolutne mjere varijabiliteta obuhvataju: -
Interval varijacije (Iv);
-
Interkvartil (IQ); Interdecil (IDj – Di); Interpercentil (IPj – Pi);
-
Srednje odstupanje (SO);
-
Varijansu (σ2);
-
Standardnu devijaciju (σ);
-
Srednje apsolutno odstupanje (SAO).
Relativne mjere varijabiliteta uključuju: -
Koeficijent varijacije (KV);
-
Koeficijent kvartilne varijacije (KQ);
-
Normalizovano standardizovano odstupanje (z).
Ukoliko se vrši analiza kvantitativnih podataka moguće je koristiti sve mjere varijabiliteta, dok se kod serija kvaliativnih poodataka (redosljednih serija statističkih promjenljivih) koriste specifične mjere varijabiliteta, a odnose se na interval varijacije, interkvartil, koeficijent varijavicije I keficijent interkvartilne varijacije. Ukoliko se vrši analiza kvantitativnih podataka moguće je koristiti sve mjere varijabiliteta, dok se kod serija kvaliativnih poodataka (redosljednih serija statističkih promjenljivih) koriste specifične mjere varijabiliteta, a odnose se na interval varijacije, interkvartil, koeficijent varijavicije I keficijent interkvartilne varijacije. Pored numeričke analize varijabilitet se može može se analizirati I grafički pomoću Tukey – jevijevih dijagrama a to su B – W, B – P I drugi.
2.4.1.
Apsolutne mjere varijabiliteta
Interval varijacije predstavlja razliku između najmanjeg I najvećeg modaliteta u statističkoj seriji, interkvartil predstavlja razliku između prvog I trećeg kvatrila, odnosno raspon variranja središnjih 50% modaliteta u statističkoj seriji. Izračunavaju se pomoću sljedećih obrazaca: Iv = xmax – xmin IQ = Q3 – Q1 79
Interdecil (ID) I interpercentil (IP) predstavljaju raspon variranja između prvog I poslednjeg decila, odnosno percentile, a izračunavaju se korištenjem sljedećih obrazaca: ID = D9 – D1 IP = P99 – P1 Srednje odstupanje predstavlja prosječno odstupanje vrijednosti statističke promjenljive od aritmetičke sredine. Kako je zbir odstupanja vrijednosti statističke promjenljive uvijek jednak nula, tako je I vrijednost srednjeg odstupanja uvijek nula.9 Vrijednost srednjeg odstupanja izračunavamo korištenjem sljedećih obrazaca: σ సభሺ௫ ିఓሻ
-
Kao prosta vrijednost: SO =
-
Kao ponderisana vrijednost: SO =
, za statističku seriju negrupisanih podataka;
σ సభ ሺ௫ ିఓሻ σ సభ
, za statističku seriju grupisanih podataka (seriju
distribucija frekvencija). Lako je uočiti da je srednje odstupanje prvi glavni (centralni) moment, odnosno da vrijedi: M1 = SO. Varijansa predstavlja prosječno kvadratno odstupanje vrijednosti statističke promjenljive od njezine prosječne vrijednosti, izračunava se korištenjem sljedećih obrazaca: -
Kao prosta vrijednost: ߪ ଶ ൌ
σ సభሺ௫ ିఓሻ
మ
Kao ponderisana vrijednost: ߪ ଶ ൌ
, za statističku seriju negrupisanih podataka;
మ σ సభ ሺ௫ ିఓሻ σసభ
, za statističku seriju grupisanih podataka (seriju
distribucija frekvencija). Lako je uočiti da je varijansa drugi glavni (centralni) moment, odnosno da vrijedi: M 2 = σ2. Pored prethodno navedenih obrazaca za izračunavanje varijanse u praksi se često koriste tzv.radni obrasci koji su ekvivalentni navedenim obrascima. Ukoliko ocijenjujemo vrijednost varijanse osnovnog skupa pomoću uzorka, prethodno navedene izraze za izračunavanje varijanse, umjesto sa brojem podataka (n – za prostu varijansu, odnosno σୀଵ ݂ – za ponderisanu varijansu), dijelimo sa brojem podataka umanjenim za jedan(n – 1, kod proste varijanse, odnosno σୀଵ ݂ െ ͳkod ponderisane varijanse), pri čemu je jedan broj stepeni slobode. Pri čemu je nepristrasna procjena varijanse osnovnog skupa na osnovu uzorka: -
Kao prosta vrijednost: ܵఓଶ ൌ
మ
σ సభሺ௫ ିఓሻ ିଵ
Kao ponderisana vrijednost: ܵఓଶ ൌ
, za statističku seriju negrupisanih podataka;
మ σ సభ ሺ௫ ିఓሻ σసభ ିଵ
, za statističku seriju grupisanih podataka (seriju
distribucija frekvencija).
9
Navedena činjenica direktno proizilazi iz treće osobine aritmetičke sredine. Detaljno objašnjeno u poglavlju 2.1.
80
Radni obrazac za izračunavanje proste varijanse dobijamo, polazeći od obrasca: మ σ సభ ௫ ିଶఓήσసభ ௫ ାήఓ
kvadriranjem izraza u brojniku obrasca dobijamo: ߪ ଶ ൌ na zbir prostih razlomaka I dobijamo: ߪ ଶ ൌ aritmetičke sredine: ߤ ൌ ߤଶ ൌ
మ σ సభ ௫
σ సభ ௫
మ σ సభ ௫
െ ʹߤ ή
σ సభ ௫
ߪଶ ൌ
మ
σ సభሺ௫ ିఓሻ
,
మ
, navedeni izraz rastavljamo
ή ߤଶ , uvažavajući da je vrijednost proste
I zamjenom u prethodnom obrascu dobijamo: ߪ ଶ ൌ
మ σ సభ ௫
െʹήߤήߤͳή
െ ߤଶ .
Dakle imamo da je prosta varijansa jednaka: ߪ ଶ ൌ
మ σ సభ ௫
െ ߤଶ
Analognim postupkom izvodimo radni obrazac za izračunavanje vrijednosti ponderisane varijanse, polazeći od obrasca: ߪ ଶ ൌ
మ
σ సభ ήሺ௫ ିఓሻ σ సభ
sa σୀଵ ݂ ሻ obrasca dobijamo:
ߪଶ ൌ
prostih razlomaka I dobijamo: ߪ ଶ ൌ proste aritmetičke sredine: ߤ ൌ ߤ ͳ ή ߤଶ ൌ
మ σ సభ ௫
σ సభ
σ సభ ௫ σ సభ
, kvadriranjem izraza u brojniku I riješavanjem zagrade (množenjem మ
మ σ సభ ή௫ ିଶఓήσసభ ή௫ ାఓ ήσసభ , σ సభ మ σ సభ ή௫
σ సభ
െ ʹߤ ή
σ సభ ௫ σ సభ
navedeni izraz rastavljamo na zbir
σ
ߤଶ ή σసభ , uvažavajući da je vrijednost సభ
I zamjenom u prethodnom obrascu dobijamo: ߪ ଶ ൌ
మ σ సభ ௫
σ సభ
െʹήߤή
െ ߤଶ .
Dakle imamo da je ponderisana varijansa jednaka: ߪ ଶ ൌ
మ σ సభ ௫
σ సభ
െ ߤଶ
Standardna devijacija predstavlja linearni oblik varijanse izračunava se kao kvadratni korijen iz varijanse I tumači se kao prosječno odstupanje. Standardna devijacija izračunava se pomoću sljedećih obrazaca: -
Kao prosta vrijednost: ߪ ൌ ξߪ ଶ ൌ ට
మ
σ సభሺ௫ ିఓሻ
మ σ సభ ௫
ൌට
െ ߤଶ , za statističku seriju negrupisanih
podataka; -
Kao ponderisana vrijednost: ξߪ ଶ ൌ ඨ
మ σ సభ ሺ௫ ିఓሻ
σ సభ
ൌට
మ σ సభ ௫
σ సభ
െ ߤଶ , za statističku seriju grupisanih
podataka (seriju distribucija frekvencija). Srednje apsolutno odstupanje predstavlja prosječno apsolutno odstupanje vrijednosti obilježja od njegove prosječne vrijednosti. Dobije se tako što zbir vrijednosti apsolutnih odstupanja vrijednosti podijelimo njihovim brojem. Vrijednost srednjeg apsolutnog odstupanja izračunava se pomoću sljedećih obrazaca: -
Kao prosta vrijednost: ܵை ൌ
σ సభȁ௫ ିఓȁ
, za statističku seriju negrupisanih podataka; 81
-
Kao ponderisana vrijednost:ܵை ൌ
σ సభ ȁ௫ ିఓȁ σ సభ
, za statističku seriju grupisanih podataka (seriju
distribucija frekvencija). Primjer 2.19. Evidenciji zdravstvene ustanove “Z” sadrži podatke o broju pacijenata koji su u toku mjeseca zatražili usluge dvaju timova porodične medicine, broj pregledanih pacijenata u toku posmatranih mjeseci za pojedine timove porodične medicine možemo prikazati u sljedećoj tabeli: Tim A
195
161
165
172
108
114
139
130
103
162
131
157
117
120
Tim B
103
179
114
195
169
109
178
156
131
124
164
139
104
109
Tabela 42. Broj pacijenata koji su zatražili uslugu timova porodične medicine u toku mjeseca
Potrebno je: a. Izračunati I uporediti vrijednosti aritmetičke sredine, modusa I medijane za posmatrane statističke serije; b. Izračunati I uporediti vrijednosti interval varijacije I interkvartila posmatranih statističkih serija; c. Izračunati I uporediti vrijednosti varijanse, standardne devijacije I srednjeg apsolutnog odstupanja posmatranih statističkih serija. Rješenje: Za potrebe izračunavanja navedenih deskriptivnih mjera potrebno je urediti podatke prema intenzitetu mjerenog svojstva u rastući brojni niz, odvojeno za obje statističke serije. Nakon sređivanja statističkih podataka (formiranje statisičke serije), pristupa se određivanju potrebnih elemenata za izračunavanje traženih deskriptivnih mjera, što u posmatranom slučaju ima sljedeći izgled: Tim A Xi
82
Xi
Xi – ܺത
2
│Xi – ܺത│
(Xi – ܺത)2
103
10609
-11
11
121
108
11664
-6
6
36
114
12996
0
0
0
117
13689
3
3
9
120
14400
6
6
36
130
16900
16
16
256
131
17161
17
17
289
139
19321
25
25
625
157
24649
43
43
1849
161
25921
47
47
2209
162
26244
48
48
2304
165
27225
51
51
2601
172
29584
58
58
3364
195
38025
81
81
6561
Ukupno (Σ):1974
288388
378
412
20260
Tabela 43. Radna tabela – elementi za izračunavanje deskriptivnih mjera za prvu statističku seriju (Tim A)
Tim B Xi
Xi
Xi – ܺത
2
│Xi – ܺത│
(Xi – ܺത)2
103
10609
-11
11
121
104
10816
-10
10
100
109
11881
-5
5
25
109
11881
-5
5
25
114
12996
0
0
0
124
15376
10
10
100
131
17161
17
17
289
139
19321
25
25
625
156
24336
42
42
1764
164
26896
50
50
2500
169
28561
55
55
3025
178
31684
64
64
4096
179
32041
65
65
4225
195
38025
81
81
6561
Ukupno (Σ):1974
291584
378
440
23456
Tabela 44. Radna tabela – elementi za izračunavanje deskriptivnih mjera za drugu statističku seriju (Tim B)
a. Za prvu statističku seriju (Tim A), mjere centralne tendencije imaju sljedeće vrijednosti: ଵଽସ
-
Aritmetička sredina ima vrijednost: ܺത ൌ
-
Modus – svi modaliteti obilježja u statističkoj seriji pojavljuju se po jedan put tako da ova statistička
ଵସ
ൌ ͳͶͳ;
serija nema modus; -
Medijna se nalazi između sedmog I osmog modaliteta u statističkoj seriji (r = 14:2 = 7) I jednaka je njihovom poluzbiru: Me =
ଵଷଵାଵଷଽ ଶ
ൌ
ଶ ଶ
ൌ ͳ͵ͷǤ
Za drugu statističku seriju (Tim B), mjere centralne tendencije imaju sljedeće vrijednosti:
83
ଵଽସ
-
Aritmetička sredina ima vrijednost: ܺത ൌ
-
Modus – svi modaliteti obilježja u statističkoj seriji pojavljuju se po jedan put tako da ova statistička
ଵସ
ൌ ͳͶͳ;
serija nema modus; -
Medijna se nalazi između sedmog I osmog modaliteta u statističkoj seriji (r = 14:2 = 7) I jednaka je njihovom poluzbiru: Me =
ଵଷଵାଵଷଽ ଶ
ൌ
ଶ ଶ
ൌ ͳ͵ͷǤ
Poređenjem vrijednosti mjera centralne tendencije mogao bi se steći utisak da među posmatranim statističkim serijama. Analiza posmatranih statističkih serija zahtijeva da se odrede dodatni pokazatelji za posmatrane statistčke serije. b. Interval varijacije izračunavamo kao razliku između najvećeg I najmanjeg modaliteta u statističkoj seriji, što u konkretnim statističkim serijama iznosi: -
Za Tim A, vrijednost navedenog pokazatelja je: Iv = Xmax – Xmin = 195 – 103 = 92;
-
Za Tim B, vrijednost navedenog pokazatelja je: Iv = Xmax – Xmin = 195 – 103 = 92. Dobijene vrijednosti su iste, uz napomenu tako da ne možemo zaključivati o statističimj serijama niti na osnovu intervala varijacije. Kod oba tima porodične medicine broj pacijenata koji toku mjeseca zatraže uslugu ljekara porodične medicine varira od 195 do 103, odnosno 92 pacijenta mjesečno. Kvartili posmatranih serija imaju vrijednost:
-
prvi kvartli su četvrti modalitet u statističkim serijama (rQ1A = rQ1B = f (15/4) + 1 = f(3,75) + 1 = 3+1 = 4), tako imamo da je Q1A = 117 I Q1B = 109;
-
treći kvartili su dvanaesti modaliteti u statističkim serijama (rQ3A = rQ3B = f (3*15/4) + 1 = f(11,25) + 1 = 11+1 = 12), tako da imamo da je Q3A = 165 I Q3B = 178; Dobijeni rezultati kvartila ukazuju da se njihove pozicije ne razlikuju kod statističkih serija ali se vrijednosti razlikuju, očekivano I vrijednosti interkvartila će imati različite vrijednosti kod posmatranih statističkih serija:
-
interkvartil za prvu statističku seriju iznosi: IQA = Q3A – Q1A = 165 – 117 = 48;
-
interkvartil za drugu statističku seriju iznosi: IQB = Q3B – Q1B = 178 – 109 = 69; Raspon variranja središnjih 50% usluženih pacijenata kod Tima A iznosi 48, a kod Tima B 69, a kreće se od 117 do 165 pacijenata dnevno za Tim A, odnosno od 109 do 178 pacijenata dnevno za Tim B. Zaključujemo da je disperzija središnjih 50% usluženih pacijenata veća kod Tima B (druga statistička serija).
c. Preostale tražene mjere varijabiliteta kod posmatranih statističkih serija imaju vrijednosti, kako slijedi:
84
-
Varijasa ቐ
ߪଶ ൌ ߪଶ ൌ
ଶ଼଼ଷ଼଼ ଵସ ଶଽଵହ଼ସ ଵସ
െ ͳͶͳଶ ൌ െ ͳͶͳଶ ൌ
ଶଶ ଵସ ଶଷସହ ଵସ
ൌ ͳͶͶǡͳͶ ൌ ͳͷǡͶ͵
; dobijene vrijednosti ukazuje da je prosječno
kvadratno odstupanje od prosječne vrijednosti veće kod Tima B nego kod Tima A; -
Standarna devijacija ቊ
ߪ ൌ ξͳͶͶǡͳͶ ൌ ͵ͺǡͲͶ ; dobijene vrijednosti ukazuju da je prosječno ߪ ൌ ඥͳͷǡͶ͵ ൌ ͶͲǡͻ͵
odstupanje od prosječne vrijednosti veće kod Tima B nego kod Tima A; -
Srednje apsolutno odstupanje ቐ
ൌ ܵை ܵை
ൌ
ସଵଶ ଵସ ସସ ଵସ
ൌ ʹͻǡͶ͵ ൌ ͵ͳǡͶ͵
; dobijene vrijednosti ukazuju da je prosječno
apsolutno odstupanje od prosječne vrijednosti veće kod Tima B nego kod Tima A. Mjere centralne tendencije, kao I interval variranja ne pokazuju nikakvu razliku između posmatranih statističkih serija – svi pokazatelji imaju istu vrijednost. Dok interkvartil, varijansa, standardna devijacija I srednje apsolutno odstupanje imaju veću vrijednost kod druge statističke serije u odnosu na prvu. Zaključujemo da središnjie vrijednosti obe statističke serije teže istim vrijednostima, kao I da vrijednosti variraju unutar istog intervala. Sa druge strane središnjih 50 % vrijednosti varira unutar različitih intervaa, kao I da prosječno kvadratno, prosječno I prosječno apslutno odstupanje imaju veće vrijednosti kod druge u odnosu na prvu statističku seriju. Primjer 2.20. Preduzeće “P” zapošljava 340 radnika u periodu od 280 radnih dana prikupljeni su podaci o broju radnika odsutnih sa radnog mjesta, distribucija radnika prema broju odsutnih s posla može se prikazati u sljedećoj tabeli: Broj
odsutnih
radnika (xi)
0
1
2
3
4
5
6
7
8
9
Broj dana (fi)
8
25
52
65
45
38
21
14
7
5
Tabela 45. Distribucija radnika prema broju odsutnih sa radnog mjesta u toku radnog dana
Polazeći od navedene distribucije, potrebno je: a. Odrediti prosječan broj odsutnih sa radnog mjesta u toku radnog dana, najvjerovatniji broj odsutnih sa radnog mjesta I broj odsutnih za prvih 50% radnika; b. Odrediti interval varijacije, interkvartil I interdecil; c. Odrediti varijansu, standardnu devijaciju I srednje apsolutno odstupanje.
85
Rješenje: Radna tabela sa elementima potrebnim za određivanje vrijednosti traženih veličina je: xi
fi
fi xi
fi xi2
fi│xi - ݔҧ │
Kumulanta
0
8
0
8
29,11429
0
1
25
25
33
65,98214
25
2
52
104
85
85,24286
208
3
65
195
150
41,55357
585
4
45
180
195
16,23214
720
5
38
190
233
51,70714
950
6
21
126
254
49,575
756
7
14
98
268
47,05
686
8
7
56
275
30,525
448
9
5
45
280
26,80357
405
280
1019
443,7857
4783
Ukupno (Σ):
-
Tabela 46. Radna tabela – elementi za izračunavanje odgovarajućih deskriptivnih mjera distribucije radnika prema broju dosutnih sa radnog mjesta u toku radnog dana
a.
Za posmatranu statističku seriju mjere centralne tendencije imaju sljedeće vrijednosti: -
ଵଵଽ ൌ ͵ǡͶ, u prosjeku 4 (3,64 ≈ 4) radnika dnevno Aritmetička sredina ima vrijednost: ܺത ൌ ଶ଼
odustvuju sa posla u posmatranom preduzeću; -
Modus – u posmatranoj statističkoj seriji najveća frekvencija je 65 (fmax = 65), obilježje kojemu odgovara navedena frekvencija odgovara modalitetu 3, tako da je modus posmatrane statističke serije 3 (Mo = 3). U najvećem broju radnih dana sa posla odsustvuju tri radnika;
-
Medijna se nalazi između stotinučetrdesetog I stotinučetrdesetprvog modaliteta u statističkoj seriji (r = 280:2 = 140) I jednaka je njihovom poluzbiru: Me =
ଷାଷ ଶ
ൌ ൌ ͵ǤU 50% radnih dana sa radnog ଶ
mjesta odsustvuje manje od 3 radnika, dok u 50% radnih dana sa radnog mjesta odsustvuje više od 3 radnika. b.
Interval varijacije izračunavamo kao razliku između najvećeg I najmanjeg modaliteta u statističkoj seriji, što u konkretnim statističkoj seriji iznosi: Iv = Xmax – Xmin = 9 – 0 = 9, dakle broj odsutnih radnika sa radnog mjesta u posmatranom preduzeću iznosi 9, kreće se od 0 do 9. Broj odsutnih radnika koleba se unutar interval od devet radnika; Prvi i treći kvartili posmatranih serija imaju vrijednost: -
prvi kvartil nalazi se između 70 I 71 modaliteta u statističkoj seriji (rQ1 = 280 : 4 = 70), x70 = x71 = 2 Q1 = 2;
86
-
treći kvartil nalazi se između dvjestadesetog I dvjestajedeanaestog modaliteta u statističkoj seriji (rQ3 = 3*280/4 =210), x210 = x211 = 5 Q3 = 5; Sada je moguće izračunati interkvartil za posmatranu statističku seriju, što iznosi: IQ = Q3 – Q1 = 5 – 2 = 3. Raspon varijacije za broj odsutnih radnika sa radnog mjesta za središnjih 50% radnika iznosi 3, akreće se od 2 do 5; Prvi i deveti decili posmatrane serije imaju vrijednost:
-
prvi decil nalazi se između 28 I 29 modaliteta u statističkoj seriji (rD1 = 280:10 = 28), x28 = x29 = 2 D1 = 2;
-
deveti decil nalazi se između 252 I 253 modaliteta u statističkoj seriji (rD9 = 9*280:10 = 252), x252 = x253 = 6 D9 = 6; Sada je moguće izračunati intedecil za pomstranu statističku seriju, što iznosi: ID = D9 – D1 = 6 – 2 = 4. Raspon varijacije za broj odsutnih radnika sa radnog mjesta za središnjih 80 % radnika iznosi 4, a kreće se od 2 do 6. c. Preostale tražene mjere varijabiliteta kod posmatranih statističkih serija imaju vrijednosti, kako slijedi:
-
Varijasa ߪ ଶ ൌ
ସ଼ଷ ଶସ
െ ͵ǡͶଶ ൌ ͳǡͲͺ െ ͳ͵ǡʹͶ ൌ ͵ǡͺͶ – prosječno kvadratno odstupanje od
prosječnog broja odsutnih radnika iznosi 3,84 radnika; -
Standarna devijacija ߪ ൌ ξ͵ǡͺͶ ൌ ͳǡͻ – prosječno odstupanje od prosječnog broja odsutnih radnika iznosi 1,96 radnika;
-
Srednje apsolutno odstupanje SAO =
ସସଷǡ଼ ଶ଼
= 1,58 – prosječno apsolutno odstupanje od prosječnog
broja odsutnih radnika iznosi 1,58. Primjer 2.21. U jednoj komercijalnoj banci podaci o iznosu sredstava na tekućim računima građana, 140 klijenata posmatrane komercijalne banke, čine sljedeću distribuciju: Iznos BAM
0 – 500
500 – 1000
1000 – 1500
1500 – 2500
2500 – 5000
5000 – 10000
Broj klijenata
21
38
42
16
14
9
Tabela 47. Distribucija klijenata komercijalne banke prema iznosu sredstava na tekućem računu u posmatranom trenutku
Potrebno je izračunati I protumačiti: a. Aritmetičku sredinu, modus I medijanu za posmatranu statističku seriju; b. Interval varijacije, interkvartil I interpercentil posmatranu statističku seriju; c. Varijansu i standardnu devijaciju posmatranu statističku seriju, kao I srednje kvadratno odstupanje u odnosu na medijanu I srednje apsolutno odstupanje u odnosu na modus; 87
d. Prkazati podatke B – W dijagramom. Rješenje: xi
fi
ri
Kumulanta fi xi2
fi xi
fi │xi – Mo │
fi (xi – Me)2
0 – 500
21
250
5250
21
1312500
17150,0
16297619,0
500 – 1000
38
750
28500
59
21375000
12033,3
5514739,2
1000 – 1500
42
1250
52500
101
65625000
7700,0
595238,1
1500 – 2500
16
2000
32000
117
64000000
14933,3
12083900,2
2500 – 5000
14
3750
52500
131 196875000
37566,7
96031746,0
5000 - 10000
9
7500
67500
140 506250000
57900,0 365082908,2
Ukupno (Σ):
140
855437500
147283,3 495606150,8
-
238250
-
Tabela 48. Radna tabela – elementi protrebni za izračunavanje pojedinih deskriptivnih mjera
a. Aritmetiču sredinu izračunavamo kao ponderisanu aritmetičku sredinu intervalne serije distribucija ଶଷ଼ଶହ frekvencija, u konkretnom slučaju njezina vreijednost dobija se kao: ܺത ൌ ൌ ͳͲͳǡͺ. ଵସ
Klijenti posmatrane komercijalne banke na tekućem računu prosječno imaju 1701,78 BAM; Modus je obilježje koje dominira statističkom serijom, u konkretnom primjeru određujemo ga na sljedeći način: fmax = 42 Mo(1000 – 1500), Mo = 1000 +
ସଶିଷ଼ ସଶିଷ଼ାସଶିଵ
ή ͷͲͲ = 1000 + 66,67 =
1066,67. Najveći broj klijenata posmatrane komercijalne banke na tekućem računu ima iznos od 1066,67 BAM. Medijana je obilježje koje obim pojave dijeli na dva jednaka dijela, u konkretnom primjeru medijana se nalazi između 70 I 71 modaliteta u statističkoj seriji (rMe = 140:2 = 70), odnosno medijelni interval je treći interval u posmatranoj statističkoj seriji, tj. Me (1000 – 1500), Me = 1000 +
ିହଽ ସଶ
ή ͷͲͲ = 1000 + 130,95 = 1130,95. 50 % klijenata posmatrane komercijalne banke na
tekućem računu ima manje od 1130,95 BAM, a 50% njih manje od 1130,95 BAM. b. Interval varijacije u konktretnom primjeru iznosi Iv = 10000 – 0 = 10000. Stanje na tekućem računu klijenata posmatrane komercijalne banke varira unutar 10000BAM. Prvi kvartil posmatrane statističke serije nalazi se između 35 I 36 modaliteta u statističkoj seriji (r Q1 = 140 : 4 = 35), Q1(500 – 1000), Q1 = 500 +
ଷହିଶଵ ଷ଼
ή ͷͲͲ = 500 + 184,21 = 684,21. Uočavamo da
25% klijenata na računu ima ispod 684,21 BAM, a 75% klijenata na računu ima iznad 684,21 BAM. Treći kvartil posmatrane statističke serije nalazi se između 105 I 106 modaliteta u statističkoj seriji (rQ3 = 3*140:4 = 105), Q3(1500 – 2500), Q3 = 1500 +
88
ଵହିଵଵ ଵ
ή ͳͲͲͲ = 1500 + 25 = 1525.
Uočavamo da 75% klijenata komercijalne banke ima na računu ispod 1525 BAM, a 25 % iznad 1525 BAM. Interkvartil u konkretnom primjeru ima vrijednost IQ = 1525 – 684,21 = 840,79. Stanje tekućeg računa za srednih 50 % klijenata varira unutar 840,79 BAM, a kreće se od 684,21 do 1525 BAM. Prvi percentil posmatrane statističke serije je drugi modaliteta u statističkoj seriji (r P1 = f(140 : 100) + 1 = f(1,4) + 1 = 1 + 1 = 2), P1(0 – 500), P1 = 0 +
ଵǡସି ଶଵ
ή ͷͲͲ = 0 + 33,33 = 33,33. Uočavamo da
1% klijenata na računu ima ispod 33,33 BAM, a 99% klijenata na računu ima iznad 33,33 BAM. Poslednji (devedesetdevet) percentil posmatrane statističke serije je 139 modalitet u statističkoj seriji (rD99 = f(99*140:100) + 1= f(138,6) + 1 = 138 + 1 = 139), D99(5000 – 10000), D99 = 5000 + ଵଷ଼ǡିଵଷଵ ଽ
ή ͷͲͲͲ = 5000 + 4222,22 = 9222,22. Uočavamo da 99% klijenata komercijalne banke
ima na računu ispod 9222,22 BAM, a 1 % iznad 9222,22 BAM. Interpercentill u konkretnom primjeru ima vrijednost IP =9222,22 – 33,33 = 9188,89. Stanje tekućeg računa za srednih 98 % klijenata komercijalne banke varira unutar 9188,89 BAM, a kreće se od 33,33 do 9222,22 BAM.
c. Varijansa
statsističke
serije
iznosi:
ߪଶ ൌ
଼ହହସଷହ ଵସ
െ ͳͲͳǡͺଶ ൌ ͵ʹͳͶͳͻ͵ǡʹͶ;
prosječno
kvadratno odstupanje od prosječnog iznosa na tekućem računu iznosi 3.214.193,24 BAM; Standardna devijacija posmatrane statističke serije ima vrijednost: ߪ ൌ ξ͵ʹͳͶͳͻ͵ǡʹͶ ൌ ͳͻʹǡͺʹ; prosječno odstupanje od prosječnog iznosa na tekućem računu iznosi 1.792,82 BAM; ଶ ൌ Srednje kvadratno odstupanje u odnosu na medijanu iznosi: ܵெ
మ σ సభ ήሺ௫ ିெಶ ሻ
σ సభ
ൌ
ସଽହଵହǡ଼ ଵସ
ൌ
͵ͷͶͲͲͶ͵ǡͻ͵; prosječno kvadratno odstupanje od medijane iznosi 3.540.043,93 BAM. Lako je uočiti kako je vrijednost srednjeg kvadratnog odstupanja od prosječne vrijednosti (aritmetičke sredine) manja od prosječnog kvadratnog odstupanja od medijane – navedeno proizilazi iz četvrte osobine aritmetičke sredini čime se potvrđuje ispravnost dobijenih rezultata; Srednje apsolutno odstupanje u odnosu na modus iznosi: SAOMo =
σ సభ ήȁ௫ ିெȁ σ సభ
ൌ
ଵସଶ଼ଷǡଷ ଵସ
ൌ
ͳͲͷʹǡͲʹ; prosječno apsolutno odstupanje od najčešće vrijednosti stanja tekućeg računa građana iznosi 1052,02 BAM. d.
Q1 = 684,21 Mo = 1130,95 Q3 = 1525
Xmin = 0
Xmax = 10.000
Slika 18. B – W dijagram stanja tekućeg računa građana klijenata posmatrane komercijalne banke
89
2.4.2.
Apsolutne mjere varijabiliteta
Koeficijent varijacije (KV) predstavlja odnos standardne devijacije I aritmetičke sredine pomnožen sa sto, njime se iskazuje procenat variranja u odnosu na aritmetičku sredinu, a izračnava se pomoću sljedećeg obrasca: ఙ
KV = ή ͳͲͲ ௫ҧ
Koeficijent kvartilne variijacije (KQ) predstavlja raspon variranja središnjih 50% vrijednosti iskazan u relativnom iznosu izračunava se korištenjem sljedećeg obrasca: KQ =
ொయ ିொభ ொయ ାொభ
Normalizovano standardizovano odstupanje (z) pokazuje odstojanje određene statističke promjenljive od aritmetičke sredine izražene u jedinicama standardne devijacije. Standardizacija normalizovanog odstupanja predstavlja linearnu transformaciju statističke promjenljive Xi. Linearna transformacija provodi se tako što se za vrijednost aritmetičke sredine promjenljive z svake statističke serije uzima vrijednost nula, a za vrijednost standardne devijacije uzima se vrijednost nula. Normalizovano standardizovano odstupanje služi za poređenje položaja statističkih promjenljivih unutar statističke serije, ali i u kvalitativno različitim statističkim serijama. Vrijednost normalizovanog standardizovanog odstupanja izračunava se korištenjem sljedećeg obrasca: Z=
௫ ିത ఙ
Pravilo Čebiševa ukazuje na najmanju proporciju članova osnovnog skupa unutar intervala ܺത േ ݇ߪ, gdje je k koeficijent čija vrijednost mora biti veća od jedan (k > 1). Najmanja proporcija članova statističkog skupa iznosi ሺͳ െ
ଵ మ
ሻ.
Primjer 2.22. Polazeći od podataka o distribuciji pacijenata prema broju mjesečnih posjeta ljekaru porodične medicine (Primjer 2.19), potrebno je izračunati i protumačiti: a. Koeficijent varijacije; b. Koeficijent kvartilne varijacije; c. Normalizovano standardizovano odstupanje mjeseca u toku koga se pregleda 215 pacijenata. Kod koga se tima porodične medicine takav obim pregledanih pacijenata bolje uklapa u uobičajenu dinamiku poslovanja. Rješenje: a. Koeficijent varjacije za analizirane statističke serije iznosi: ߪ ͵ͺǡͲͶ ή ͳͲͲΨ ൌ ʹǡͻͺΨ ܭۓ ൌ തതത ή ͳͲͲΨ ൌ ͳͶͳ ܺ ܭ۔ ൌ ߪ ή ͳͲͲΨ ൌ ͶͲǡͻ͵ ή ͳͲͲΨ ൌ ʹͻǡͲ͵Ψ തതതത ͳͶͳ ە ܺ 90
Prosječan broj pregledanih pacijenata iznosi 141 pacijent mjesečno kod oba tima porodične medicine sa prosječnim odstupanjem kod Tima A približno 38 (38,04|38) pacijenata ili 26,98%. Kod tima B prosječno odstupanje iznosi približno 41 (40,93|41) pacijenta ili 29,03%. U obe statističke serije varijabilitet je relativno nizak. b. Koeficijent kvartilne varijacije za analizirane statističke serije iznosi: ܭۓொ ൌ ܳଷ െ ܳଵ ൌ ͳͷ െ ͳͳ ൌ Ͷͺ ൌ ͲǡͳͲʹ ۖ ܳଷ ܳଵ ͳͷ ͳͳ ʹͺʹ ͳͺ െ ͳͲͻ ͻ ۔ ܳଷ െ ܳଵ ۖܭொ ൌ ൌ ͳͺ ͳͲͻ ൌ ʹͺ ൌ ͲǡʹͶͲͶ ܳଷ ܳଵ ە
Raspon varairanja središnjih 50% mjeseci u pogledu broja pregledanih pacijenata Tima A varira između 117 i 165 pacijenata, odnosno 48 pacijenata ili relativno za 0,1702 tj. 17,02%. Raspon variranja središnjih 50% mjeseci u pogledu broja pregledanih pacijenata Tima B varira između 109 i 178 pacijenata, odnosno 69 pacijenata ili relativno za 0,2404 tj. 24,04%. c. Posmatramo mjesec u toku koga je pregledano 215 pacijenata, za upoređivanje timova potrebno je izračunati normalizovano standardizovano odstupanje kod obje statističke serije: ݔെݔ ʹͳͷ െ ͳͶͳ തതത ൌ ൌ ͳǡͻͶ ͵ͺǡͲͶ ߪ ʹͳͷ െ ͳͶͳ തതത ݖ۔ൌ ݔെ ݔ ൌ ൌ ͳǡͺͳ ە ͶͲǡͻ͵ ߪ ݖۓ ൌ
U pogledu odstojanja od prosječnog broja mjesečno pregledanih pacijenata mjesec u kome je pregledano 215 pacijenata kod Tima A nalazi se na odstojanju 1,94 standardne devijacije desno (iznad prosjeka), dok se kod Tima B nalazi na odstojanju 1,81 standardnu devijaciju desno (iznad prosjeka). U oba slučaja 215 pregledanih pacijenata nalazi se iznad prosjeka, pri čemu od prosjeka manje odstupa kod Tima B nego kod Tima A. Dakle, mjesec u kome se pregleda 215 pacijenta bolje se uklapa u dinamiku poslovanja Tima B. Primjer 2.23. Polazeći od distribucije broja radnika odsutnih sa posla iz primjera 2.20. Potrebno je izračunati i protumačiti: a.
Koeficijent varijacije;
b.
Koeficijent kvartilne varijacije;
c.
Normalizovano standardizovano odstupanje u odnosu na dane u kojima je sa posla odsutvovao nijedan i u kome je odsustvovalo šest radnika. Obrazložiti dobijeni rezultat.
91
Rješenje: ఙ
ଵǡଽ
ଷǡସ
a. Koeficijent varijacije ima vrijednost: KV = ത ή ͳͲͲΨ ൌ
ή ͳͲͲΨ ൌ ͷ͵ǡͺͷΨ. Prosječan broj
odsutnih radnika u posmatranom preduzeću je 4 (3,64|4), sa prosječnim odstupanjem približno dva radnika (1,96|2), odnosno 53,84%. Kod posmatrane statističke serije varijabilitet je visok. b. Koeficijent kvartilne varijacije ima vrijednost: KQ =
ொయ ିொభ ொయ ାொభ
ൌ
ହିଶ ହାଶ
ଷ
ൌ ൌ ͲǡͶʹͺ. Raspon varijacije
za središnjih 50% radnika je od dva do pet odsutnih sa posla iznosi tri ili relativno 42,86%. c. Normalizovano standardizovano odstupanje za dane u kojima je sa posla odsustvovalo 0, odnsono 6 radnika iznosi: ቐ
ݖଵ ൌ
ିଷǡସ
ݖଶ ൌ
ൌ െʹǡͲͳ . Dan u kome je sa posla nije odsustvoao niti jedan radnik od ൌ ͳǡʹͲ
ଵǡଽ ିଷǡସ ଵǡଽ
prosječnog broja odsutnih nalazi se na odstojanju 2,01 standardnu devijaciju lijevo (nalazi se ispod prosjeka), dok se dan u kome je odsustvovalo šest radnika nalazi na odstojanju 1,2 standardne devijacije desno (nalazi se iznad prosjeka). Dakle, dan u kome je sa posla odsustvovalo šest radnika je bliži prosjeku u odnosu na onaj u kome nije odsustvovao niti jedan radnik. Na istom odstojanju sa danom u kome nije odsustvovao niti jedan radnik, ali suprotnog smjera nalazio bi se dan u kome je sa posla odsustvovalo x radnika, što izračunavamo na sljedeći način: 2,01=
௫ିଷǡସ ଵǡଽ
x – 3,64 =
2,01x1,96 x = 3,9396 + 3,64 = 7,5796|8 dana. Na istom odstojanju od prosječne vrijednosti nalaze se dani u kojima je sa posla odsustvovalo nijedan i osam radnika. Primjer 2.24. Polazeći od distribucije pacijenata prema visini sistolnog i dijastonog pritiska (iz Primjera 2.3) potrebno je izračunati i protumačiti: a. Koeficijent varijacije; b. Koeficijent kvartilne varijacije; c. Normalizovano standardizovano odstupanje od prosječne vrijednosti sistolnog i dijastolnog pritiska kod pacijenta kod koga je izmjerena vrijednost pritiska 140/90 (pri čemu je sistolni pritisak 140 mmHg, a dijastolni pritisak 90 mmHg). Koliki su sistolni i dijastolni pritisak za 90% stanovnika. Rješenje: Potrebno je izračunati standardnu devijaciju i kvartile za posmatrane statističke serije10, pri čemu su radne tabele sa potrebnim elementima za njihovo izračunavanje sljedeće:
10
Ukoliko su potrebni elementi za izračunavanje pojedinih veličina ranije izračunati samo se koriste ranjie izračunate vrijednosti, ako ne, izračunavaju se.
92
Visina dijastolnog pritiska
Broj ispitanika
(mmHg)
Kumulanta
xi
fi
fixi2
ri
(rastuća)
Do 60
4
57,5
13225
4
60 – 65
18
62,5
70312,5
22
65 – 70
55
67,5
250593,75
77
70 – 75
52
72,5
273325
129
75 – 80
68
77,5
408425
197
80 – 85
40
82,5
272250
237
85 – 90
38
87,5
290937,5
275
90 – 95
19
92,5
162568,75
294
95 i više
6
97,5
57037,5
300
300
-
1798675
-
Ukupno (6):
Tabela 49. Radna tabela – elementi za izračunavanje standardne devijacije I kvartila posmatrane statističke serije
Visina sistolnog
Broj ispitanika
pritiska (mmHg) xi
Kumulanta fi
fixi2
ri
(rastuća)
Do 80
9
75
50625
9
80 – 90
22
85
158950
31
90 – 100
36
95
324900
67
100 – 110
62
105
683550
129
110 – 120
67
115
886075
196
120 – 130
43
125
671875
239
130 – 140
24
135
437400
263
140 – 150
22
145
462550
285
150 i više
15
155
360375
300
Ukupno (6):
300
-
4036300
-
Tabela 50. Radna tabela – elementi za izračunavanje standardne devijacije I kvartila posmatrane statističke serije
a. Koeficijent varijacije predstavlja količnik standarne devijacije I aritmetičke sredine izražen u procentima, tako da za obje statističke serije prvo moramo izračunati vrijednost standardne
93
ଵଽ଼ହ
devijacije, što je:
ߪ ۓ ൌ ට
ଷ
െ ǡͻͳଶ ൌ ඥͷͻͻͷǡͷͺ͵ሶ െ ͷͻͳǡʹʹͷ ൌ ඥͻǡ͵ͷͺ ൌ ͺǡͻͳ
ସଷଷ ۔ ߪ ൌට െ ͳͳͶǡ͵ଶ ൌ ඥͳ͵ͶͷͶǡ ͵ሶ െ ͳ͵Ͳͻǡͺͳ ൌ ඥ͵Ͷǡͷʹ ൌ ͳͻǡ͵ͷ ଷ ە௦
.
Sada je moguće izračunati koeficijent varijacije za posmatrane statističke serije, što iznosi: ͺǡͻͳ ή ͳͲͲΨ ൌ ͳͳǡͷͺΨ ǡͻͳ ܭ۔ௌ ൌ ͳͻǡ͵ͷ ή ͳͲͲΨ ൌ ͳǡͻʹΨ ە ͳͳͶǡ͵ ܭ ۓ ൌ
Prosječna visina dijastolnog pritiska ispitanika je 76,917 mmHg sa prosječnim odstupanjem 8,91 mmHg ili 11,58 %. Prosječna visina sistolnog pritiska ispitanika je 114,367 mmHg sa prosječnim odstupanjem 19,35 ili 16,92%. Uočavamo da je izraženije variranje sistolnog pritiska ispitanika nego kod dijastolnog pritiska. Drugim riječima, ispitanici se više razilikuju u pogledu visine sistolnog nego dijastolnog pritiska. b. Vrijednost kvartila posmatranih statističkih serija određujemo: -
Prvi kvartil u obje statističke serije nalazi se između 75 I 76 modalitta u statističkoj seriji (rQ1 = 300 : 4 = 75), ቐ
-
ǡ ୗଵ אሺͷ െ Ͳሻǡ ୗଵ ൌ ͷ
ହିଶଶ
ή ͷ ൌ ͻǡ ͺሶͳሶ
ହହ ହି
ୈ
ୈ ଵ אሺͻͲ െ ͳͲͲሻǡ ଵ ൌ ͻͲ
ଷ
ή ͳͲ ൌ ͻʹǡ ʹሶ
Treći kvartil u obje statističke serije nalazi se između 225 I 226 modalitta u statističkoj seriji (r Q3 = 3*300 : 4 = 225),
-
-
ቐ
ǡ ୗଷ אሺͺͲ െ ͺͷሻǡ ୗଷ ൌ ͺͲ
ଶଶହିଵଽ
ୈ
ୈ ଷ אሺͳͲͲ െ ͳͳͲሻǡ ଷ ൌ ͳͲͲ
Koeficijent kvartilne varijacije ima vrijednost ቐ
ܫொௌ ൌ ܫொ ൌ
଼ଷǡହିଽǡ଼ଵ ଼ଷǡହାଽǡ଼ଵ ଵସǡିଽଶǡଶ ଵସǡାଽଶǡଶ
ൌ ൌ
ଵଷǡଽ ଵହଷǡଷଵ ଵଶǡସ ଵଽǡ଼
ή ͷ ൌ ͺ͵ǡͷ
ସ ଶଶହିଵଽ ଶ
ή ͳͲ ൌ ͳͲͶǡ
ൌ ͲǡͲͺͻ͵ ൌ ͲǡͲ͵͵
Raspon varijacije visine sistolnog pritiska središnjih 50% ispitanika je između 69,81 I 83,5 mmHg, odnosno 13,69 mmHg ili relativno 8,93%. Raspon varijacije visine dijastolnog pritiska središnjih 50% ispitanika je između 92,2 I 104,67 mmHg, odnosno 12,47 mmHg ili relativno 6,33 %. Uočavamo da je disperzija stanovnika veća u pogledu sistolnog u odnosu na dijastolni pritisak. c. U pogledu odstojanja od prosječne visine sistolnog, odnosno dijastolnog pritiska potrebno je odrediti vrijednost normalizovanog standardizovanog odstupanja ispitanika u pogledu sistolnog I dijastolnog pritiska ቐ
94
ݖௌ ൌ ݖ ൌ
ଽିǡଽଵ
ൌ ͳǡͶ
଼ǡଽଵ ଵସିଵଵସǡଷ ଵଽǡଷହ
. Uočavamo, da ispitanik više odstupa u pogledu ൌ ͳǡ͵ʹ
visine sistolnog pritiska u odnosu na visinu dijastolnog pritiska. Dakle, posmatranom ispitaniku sistolni pritisak se nalazi iznad prosjeka za 1,47 standardnih devijacija, dok mu jse dijastolni pritisak nalazi iznad prosjeka za 1,32 stndardne devijacije. Polazeći od teoreme Čebiševa imamo da je (ͳ െ
ଵ మ
ሻ ൌ Ͳǡͻ 1 – 0,9 =
ଵ మ
0,1 =
ଵ మ
0,1k2 = 1
k2 =10 k = ξͳͲ = 3,16 Kada odredimo vrijednost koeficijenta k, možemo odrediti interval za 90% vrijednosti sistolnog I dijastolnog pritiska ispitanika, što je ݔҧ േ ݇ߪ, što je: -
Za sistolni pritisak od 114,367 – 3,1619,35 = 53,221 do 114,367 + 3,1619,35 = 175,513;
-
Za dijastolni pritisak od 76,917 – 3,168,91 = 48,76 do 76,917 + 3,168,91 = 105,07.
90% ispitanika ima sistolni pritisak između 53,221 i 175,513 mmHg, a dijastolni između 48,76 I 105,07 mmHg.
2.4.3.
Mjere asimetrije, zaobljenosti i koncentracije
Mjere asimetrije predstavljaju brojčane karakteristike oblika rasporeda jedinica statističkog skupa u odnosu na odgovarajuće mjere centralne tendencije statističkog skupa, a uključuju: -
Keficijent asimetrije (D3);
-
Pearsonova mjera asimetrije (SK) i
-
Bowleyeva mjera asimetrije (SkQ).
Koeficijent asimetrije predstavlja potpunu mjeru asimetrije, a izračunava se kao količnik između trećeg centralnog momenta (treći moment oko aritmetičke sredine) i standardne devijacije na treći stepen, a izračunava se pomoću sljedećeg obrasca: ߙଷ ൌ
ܯଷ ߪଷ
Vrijednost navedenog pokazatelja, uobičajeno ima vrijednost između r2, ali može biti i izvan navedenih granica. Ukoliko je vrijednost navedenog pokazatelja jednaka nuli raspored je simetričan u odnosu na aritmetičku sredinu, dok vrijednost veća od nule ukazuje na određen stepen asimetrije, pri čemu predznak navedenog pokazatelja ukazuje na smjer asimetrije (predznak – ukazuje na lijevu, dok predznak + ukazuje na desnu asimetriju u odnosu na aritmetičku sredinu), a njegova apsolutna vrijednost na jačinu (stepen) asimetrije. Pearsonova mjera asimetrije predstavlja standardizovano odstupanje vrijednosti modusa ili medijane od aritmetičke sredine, izračunava se korištenjem sljedećih obrazaca: ܵ ൌ
ଷήሺതିெಶ ሻ
തିெೀ
ఙ
ఙ
, odnosno ܵொ ൌ
95
Vrijednost navedenog pokazatelja najčešće se kreće u intevalu r3. Apsolutna vrijednost navedenog pokazatelja određuje stepen asimetrije u odnosu na aritmetičku sredinu, dok njegov predznak ukazuje na smjer asimetrije (predznak – ukazuje na lijevu, dok predznak + ukazuje na desnu asimetriju u odnosu na aritmetičku sredinu). Bowleyeva mjera asimetrije temelji se na odnosima medijane i kvartila, a vrijednost ovog pokazatelja izračunava se korištenjem sljedećeg obrasca: ܵொ ൌ
ܳଵ ܳଷ െ ʹ ή ܯா ܳଷ െ ܳଵ
Vrijednost navedenog pokazatelja najčešće se kreće u intervalu r1. Apsolutna vrijednost navedenog pokazatelja određuje stepen asimetrije u odnosu na središnjih 50% podataka statističke serije, dok njegov predznak ukazuje na smjer asimetrije (predznak – ukazuje na lijevu, dok predznak + ukazuje na desnu asimetriju u odnosu na središnjih 50% podataka statističke serije). Mjere zaobljenosti brojno izražavaju zaobljenost modalnog vrha distibucije statističke promjenljive i izražava se koeficijentom zaobljenosti (D4). Koeficijent zaobljenosti izračunava se kao količnik između četvrtog centralnog momenta (momenta oko aritmetičke sredine) i standardne devijacije na četvrti stepen (varijanse na drugi stepen), odnosno korištenjem sljedećeg obrasca: ߙସ ൌ
ܯସ ܯସ ͳͳ ൌ ߪ ସ ܯଶଶ
Vrijednost koeficijenta zaobljenosti kod normalnog rasporeda je 3, tako da se izračunata vrijednost najčešće poredi sa tom vrijednošću, moguće je zaobljenost izražavati kao raziku vrijednosti četvrtog momenta i broja 3. Ukoliko je vrijednost koeficijanta zaobljenosti manja od tri (razlika manja od nula) tada je raspored „ravniji“ u odnosu na normalni raspored, dok, sa druge strane ukoliko je njegova vrijednost veća od tri (razlika veća od nula) tada je raspored „šiljatiji“ u onosu na normalni raspored. Mjere koncetracije služe za mjerenje načina rasporeda vrijednosti cjelokupne statitičke distribucije u odnosu na određene članove statističke distribucije. Koncentracija statističkih podataka određuje se na dva načina: grafički i računski. Grafičko izražavanje koncenracije statističkog skupa vršimo korištenjem Lorenzove kriva, a računsko pomoću:
11
-
Ginijevog koeficijenta koncentracije (G);
-
Koncentracijskog udjela (Ci);
-
Herfindahlova mjera koncentracije (H).
Drugi centralni moment je varijansa statističke serije, tj.vrijedi da je ߪ ଶ ൌ ܯଶ
96
Lorenzova kriva koristi se za ispitivanje koncentarcije vrijednosti promjenljivih u statističkoj seriji. Dobija se spajanjem tačaka u dekartovom koordinatnom sistemu čije su koordinate: (0,0),
ଵ
௫
( ǡ σ భ ሻ,
సభ ௫
σೕసభ ௫
,( ǡ σ
...
ೕ
సభ ௫
ሻ,
...
, (1,1);
i = 1,2, ... , N, pri čemu se
polazi od pretpostavke da je stgatistička serija uređena tako što su statističke promjenljive uređene prema vrijednostima u rastući brojni niz, odnosno da vrijedi: x1 d x2 d ... d xi d ... d xn, da su vrijednosti modaliteta obilježja statističke promjenljive nenegativne, odnosno da vrijedi xi t 0; i, čime je i njihov zbir pozitivan, odnosno zadovoljena je nejednakost σୀଵ ݔ Ͳ. Ginijev koeficijent koncentracije pokazuje stepen koncentracije jedinica statističkog skupa prema vrijednostima određenog obilježja. Izračunava se korištenjem sljedećeg obrasca: ܩൌ
ଶ σ సభ ௫ ିሺାଵሻ σసభ ௫ , σ సభ ௫
odnosno ܩൌ ͳ െ σୀଵ ή ሾ்݂ ሺܶ ሻ ்݂ ሺܶିଵ ሻሿ, pri čemu vrijedi da je FT(T0) = 0.
Vrijednost navedenog pokazatelja kreće se između 0 i 1, vrijednost navedenog pokazatelja pokazuje jačinu koncentracije vrijednosti obilježja statističke promjenljive. Ukoliko je vrijednost statističke promjenljive ravnomjerno raspoređena vrijednost ovog pokazatelja je jednaka nuli. Ukoliko se normira koeficijent koncentracije Ginija njegova vrijednost iznosi: כ ܩൌ ܩή
, a
ିଵ
vrijednost ovog pokazatelja ima isto značenje kao i vrijednost prethodnog pokazatelja. Koncentracijski udio izračunava se tako što se zbir k vrijednosti podtotala podijeli sa totalom, pri čemu su podtotali uređeni po veličini od najvećeg do najmanjeg, odnosno: x1 t x2 t ... t xi t ... t xn, pri čemu je vrijednost koncentracijskog udjela jednaka: ܥ ൌ
σೖ ೕసభ ௫ೕ σ సభ ௫
Vrijednost navedenog pokazatelja kreće se između 0 i 1 ili 100% ukoliko vrijednost navedenog pokazatelja izrazimo u procentima. Herfindahova mjera koncentracije definiše se kao omjer podtotala i totala, a izračunava se korištenjem sljedećeg obrasca: ௫
ܪൌ σୀଵ ଶ , pri čemu je ൌ σ
సభ ௫
Vrijednost navedenog pokazatelja kreće se u intervalu od 1/n do 1, odnosno vrijedi:
ଵ
ܪ ͳ.
Primjer 2.25. U administraciji jednog preduzeća zaposleno je jedanaest radnika različitog radnog iskustva, starosti i pola, koji u osnovi imaju zadatak da unose odgovarajuće podatke u dnevnik rada (vrše knjiženja određenih promjena). U svrhu ispitivanja njihove radne efikasnosti zabilježeni su podaci o prosječnom vremenu potrebnom da se izvrši unos podataka (knjiženje) za svakog pojedinog radnika. Rezultati mjerenja i analize mogu se prikazati sljedećim tabelarnim prikazom:
97
Student
I
II
III
IV
V
VI
VII
VIII
IX
X
XI
Vrijeme (s)
13,7
12,5
16,5
15,2
16,8
10,7
17,7
18,0
19,8
18,9
10,6
Tabela 51. Distribucija administrativnh radnika prema prosječnom utrošku vremena za unos određenih promjena u dnevnik rada
Polazeći od navedenih podataka, potrebno je: a. Izračunati i protumačiti vrijednost koeficijenta asimetrije, Pearsonove i Bowleyeve mjere asimetrije; b. Izračunati i protumačiti vrijednost koeficijenta zaobljenosti; c. Nacrtati Lorenzovu krivu; d. Izračunati i protumačiti vrijednost Ginijevog koeficijenta koncentracije, Herfindahlovog i trećeg koncetracijskog omjera (C3). Rješenje: Za potrebe statističke analize potrebno je statističke podatke preurediti u rastući brojni niz što se može prikazati u sljedećoj tabeli: Xi െܺത
Xi2
Xi
(Xi െܺത)3
(Xi െܺത)4
Broj radnika (fi)
Kumulanta
10,6
112,36
– 4,89
– 116,93
571,79
1
1
10,7
114,49
– 4,79
– 109,90
526,43
1
2
12,5
156,25
– 2,99
– 26,73
79,92
1
3
13,7
189,69
– 1,79
– 5,73
10,27
1
4
15,2
231,04
– 0,29
– 0,02
0,01
1
5
16,5
272,25
1,01
1,03
1,04
1
6
16,8
282,24
1,31
2,25
2,95
1
7
17,7
313,29
2,21
10,79
23,85
1
8
18,0
324,00
2,51
15,81
39,69
1
9
18,9
357,21
3,41
39,65
135,21
1
10
19,8
392,04
4,31
80,06
345,07
1
11
2742,86
0,00
– 109,72
1736,23
11
-
Ukupno(6): 170,4
Tabela 52. Radna tabela – elementi potrebni za izračunavanje mjera asimetrije i zaobljenosti
a. Za potrebe izračunavanja vrijednosti koeficijenta asimetrije trebamo odrediti treći centralni moment i standardnu devijaciju, za potrebe izračunavanja Pearsonove mjere asimetrije potrebno je odrediti vrijednost medijane (prosta serija, kao što je posmatrana, nema modus), a za potrebe izračunavanja Boweyeve mjere asimetrije potrebno je odrediti vrijednost prvog i trećeg kvartila. Aritmetička sredina posmatrane statističke serije izračunava se kao prosta aritmetička sredina, čija vrijednost iznosi: ݔҧ ൌ 98
σ సభ ௫
ൌ
ଵǡସ ଵଵ
ൌ ͳͷǡͶͻሶͲሶ, zaključujemo da radnici posmatranog preduzeća u prosjeku
utoše 15,49 sekundi za evidentiranje poslovne promjene u dnevniku rada. Medijana posmatrane statističke serije je šesti modalitet u statističkoj seriji (rMe = f(11:2) + 1 = f(5,5) + 1 = 5 + 1 = 6) ME = 16,5. Zaključujemo da 50% radnika evidentira poslovnu promjenu za manje od 16,5 sekundi, a 50% radnika istu operaciju obavi za više od 16,5 sekundi. Prvi kvatrtil statističe serije je treći modalitet u statističkoj seriji (rQ1 = f(11:4) + 1 = f(2,75) + 1 = 2 + 1 = 3) Q1 = 12,5. Zaključujemo da 25% radnika evidentiraju poslovnu promjenu za manje od 12,5 sekundi, a 75% radnika istu operaciju obavi za više od 12,5 sekundi. Treći kvatrtil statističe serije je deveti modalitet u statističkoj seriji (rQ3 = f(3*11:4) + 1 = f(8,25) + 1 = 8 + 1 = 9) Q3 = 18. Zaključujemo da 75% radnika evidentiraju poslovnu promjenu za manje od 18 sekundi, a 25% radnika istu operaciju obavi za više od 18 sekundi. Standardna devijacija posmatrane statističke serije ima vrijednost: ߪ ൌ ට ට
ଶସଶǡ଼ ଵଵ
మ σ సభ ௫
തതതଶ ൌ െݔ
െ ͳͷǡͶͻͲଶ ൌ ඥʹͶͻǡ͵ͷ െ ʹ͵ͻǡͻ ൌ ξͻǡ͵ͺ ൌ ͵ǡͲ. Prosječno odstupanje od prosječno
utrošenog vremena u navedenu radnu operaciju iznosi 3,06 sekundi. Treći centralni moment ima vrijednost: ܯଷ ൌ
ത య σ సభሺ௫ ିሻ
ൌ
ିଵଽǡଶ ଵଵ
ൌ െͻǡͻǤ
Vrijednost koeficijenta asimetrije posmatrane staističke serije iznosi: ߙଷ ൌ
ெయ
ൌ
ఙయ
ିଽǡଽ ଷǡయ
ൌ െͲǡ͵ͷ.
Prema vremenu potrebnom za unošenje određene poslovne promjene u dnevnik rada (knjiženje) distribucija radnika posmatranog preduzeća je blago negativno (lijevo) asimetrična. Pearsonova mjera asimetrije ima vrijednost: SK =
ଷሺതିெಶ ሻ ఙ
ൌ
ଷሺଵହǡସଽିଵǡହሻ ଷǡ
ൌ െͲǡͻͻ
Dobijeni pokazatelj, takođe, upućuje na blagu negativnu asimetriju raspodjele vrijednosti utrošenog vremena u evidentiranje poslovne promjene. Bowleyeva mjera asimetrije ima vrijednost: SkQ =
ொభ ାொయ ିଶெಶ ொయ ିொభ
ൌ
ଵଶǡହାଵ଼ିଶήଵǡହ ଵ଼ିଵଶǡହ
ൌ
ିଶǡହ ହǡହ
ൌ െͲǡ Ͷሶͷሶ
Dobijeni pokazatelj upućuje da je distribucija središnjih 50% radnika, prema utrošenom vremenu u knjiženje poslovnih promjena, blago negativno asimetrična. b. Vrijednost četvrtog centralnog momenta u posmatranoj statističkoj seriji je:ܯସ ൌ ଵଷǡଶଷ ଵଵ
ത ర σ సభሺ௫ ି ሻ
ൌ
ൌ ͳͷǡͺ͵ͻሶͲሶ.
Vrijednost koeficijenta zaobljenosti dobijamo na sljedeći način: ߙସ ൌ
ெర ఙర
ൌ
ଵହǡ଼ଷଽ ଷǡర
ൌ ͳǡͺͲ.
Koeficijent zaobljenosti ima vrijednost ispod 3, što znači da je distribucija radnika prema vremenu potrebnom za evidentiranje poslovne promjene je značajno “ravnija” u odnosu na normalnu raspodjelu.
99
Ukoliko zaobljenost izrazimo kao razliku između četvrtog momenta I vrijednosti koeficijenta zaobljenosti normalnog rasporeda (3), dobijamo: K = D4 – 3 = 1,80 – 3 = – 1,20. Vrijednost dobijenog pokazatelja ukazuje, takođe, na činjenicu kako je posmatrani raspored “ravniji” u odnosu na normalni raspored. c. Elementi potrebni za izračunavanja koeficijenata koncentracije mogu se prikazati u sljedećoj tabeli: FX(xi)
ή௫ ത
௫
Pi = fi/6fi
10,6
0,090909
0,090909
0,062207
0,062207
0,00387
0,005655176
10,7
0,090909
0,181818
0,062793
0,125
0,003943
0,017018801
12,5
0,090909
0,272727
0,073357
0,198357
0,005381
0,029396062
13,7
0,090909
0,363636
0,080399
0,278756
0,006464
0,043373866
15,2
0,090909
0,454545
0,089202
0,367958
0,007957
0,058792123
16,5
0,090909
0,545455
0,096831
0,464789
0,009376
0,075704197
16,8
0,090909
0,636364
0,098592
0,56338
0,00972
0,093469816
17,7
0,090909
0,727273
0,103873
0,667254
0,01079
0,111875706
18,0
0,090909
0,818182
0,105634
0,772887
0,011159
0,130921778
18,9
0,090909
0,909091
0,110915
0,883803
0,012302
0,150608031
19,8
0,090909
1
0,116197
1
0,013502
0,171254647
0,094464
0,882415027
PTi =
FT (Ti)
pi>FT(Ti)+FT(Ti-1)@
Xi
Pi2 = (σ ሻଶ ௫
Ukupno (6): 1,000000
170,4
-
1,000000
-
Tabela 53. Radna tabela – elementi za crtanje Lorenzove krive, te izračunavanje Ginijevog I Herfindahovog kooeficijenta koncentracije
Za potrebe konstrukcije Lorenzove krive izračunavaju se tačke koje leže na njoj, kordinate tačaka za kostrukciju Lorenzovoj krivoj mogu se prikazati u sljedećoj tabeli: Tačka
A1
A2
A3
A4
A5
A6
A7
A8
A9
A10
A11
A12
Osa X
0
0,09
0,18
0,27
0,36
0,45
0,54
0,63
0,72
0,81
0,90
1
Osa Y
0
0,06
0,125 0,198 0,279 0,368 0,464 0,563 0,667 0,772 0,883 1
Tabela 54. Koordinate tačaka za crtanje Lorenzove krive: koordinate na osi X se uzimaju iz kolone FX(xi), koordinate na osi Y se uzimaju iz kolone FT(Ti) prethodne tabele
100
1,2 1 0,8 0,6 0,4 0,2 0 0
0,2
0,4
0,6
0,8
1
1,2
-0,2 Slika 19. Krivulja koncentracije radnika prema vremenu utrošenom za evidentiranje poslovne promjene
Ginijev koeficijent koncentracije za posmatranu statističku seriju ima vrijednost: G = 1 – σୀଵ ሾ ்ܨሺܶ ሻ ்ܨሺܶିଵ ሻሿ = 1 – 0,882415027 = 0,117584973 Ginijev koeficijent koncentracije ima vrijednost između 0 i 1, tako da ovdje imamo nizak stepen koncentracije raspodjele radnika prema vrijednost vremena utrošenog u radnu operaciju evidentiranja poslovne promjene. Herfidahlov koeficijent kocentracije u posmatranom primjeru ima vrijednost: ܪൌ σୀଵ ଶ = 0,094464. Vrijednost Herfidahlov koeficijent koncentracije ukazuje na nizak stepen koncentracije raspodjele radnika prema vrijednosti vremena utrošenog u radnu operaciju evidentiranja poslovne promjene. Koncentracijski udio u posmatranom primjeru ima vrijednost: ܥଷ ൌ
σయೕసభ ௫ೕ σ సభ ௫
ଵଽǡ଼ାଵ଼ǡଽାଵ଼ǡ
=
ଵǡସ
ൌ
ହǡ ଵǡସ
ൌ
Ͳǡ͵͵ʹͶʹͺ, od 11 radnika, tri radnika (njih 27,27% = 3/11) sa najvećim utroškom vremena obuhvata 33,27% vremena, što govori o većoj koncentraciji ukupno utrošenog vremena u odnosu na broj obuhvaćenih radnika (27,27% < 33,27%). Primjer 2.26. Distribucija nogomentnih utakmica prema broju postignutih golova u jednoj sezoni Područne lige (četvrta liga Republike Srpske) može se prikazati u sljedećoj tabeli: Broj postignutih golova (Xi)
0
1
2
3
4
5
6 i više
Ukupno (6):
Broj utakmica (fi)
26
37
42
48
16
8
5
182
Tabela 55. Distribucija nogometnih utakmica prema broju postignutih golova
Polazeći od navedene distribucije, potrebno je: a.
Izračunati i protumačiti vrijednost koeficijenta asimetrije, Pearsonove i Bowleyeve mjere asimetrije; 101
b.
Izračunati i protumačiti vrijednost koeficijenta zaobljenosti;
c.
Nacrtati Lorenzovu krivu;
d.
Izračunati i protumačiti vrijednost Ginijevog koeficijenta koncentracije, Herfindahlovog i trećeg koncetracijskog omjera (C3).
Rješenje: Za potrebe statističke analize potrebno je izračunati odgovarajuće statističke mjere, za čije izračunavanje koristimo sljedeću radnu tabelu: Xi
fi
fi (Xi െܺത)3
fi xi2
fi xi
fi (Xi െܺത)4
Kumulanta
0
26
0
0
-273,954
600,5918
26
1
37
37
37
-62,7143
74,77477
63
2
42
84
168
-0,2987
0,057443
105
3
48
144
432
25,29176
20,42796
153
4
16
64
256
94,51343
170,8512
169
5
8
40
200
177,0674
497,1507
177
6
5
30
180
276,0295
1051,036
182
182
399
1273
235,9349
2414,889
-
Ukupno(6):
Tabela 56. Radna tabela – elementi potrebni za izračunavanje mjera asimetrije i zaobljenosti
a. Za potrebe izračunavanja vrijednosti koeficijenta asimetrije trebamo odrediti treći centralni moment, a time i aritmetičku sredinu i standardnu devijaciju, za porebe izračunavanja Pearsonove mjere asimetrije potrebno je odrediti vrijednost modusa i medijane, a za potrebe izračunavanja Boweyeve mjere asimetrije potrebno je odrediti vrijednost prvog i trećeg kvartila. Aritmetička sredina posmatrane statističke serije izračunava se kao ponderisana aritmetička sredina, čija vrijednost iznosi: ݔҧ ൌ
σ సభ ௫ σ సభ
ൌ
ଷଽଽ ଵ଼ଶ
ൌ ʹǡͳͻʹ͵, zaključujemo da se u posmatranom rangu sportskog
takmičenja po jednoj odigranoj utakmici postigne 2 gola (2,1923|2). Najveća frekvencija u posmatranoj statističkoj seriji je 48, a obilježje kojemu odgovara navedena frekvencija je 3, dakle imamo: fmax = 48 MO = 3. Na najvećem broju nogometnih utakmica posmatranog ranga takmičenja postignu se tri gola. Medijana posmatrane statističke serije se nalazi između 91 i 92 modaliteta u statističkoj seriji (rMe = 182:2 = 91) x91= x92 = 2 ME = 2. Zaključujemo da se na 50% utakmica postigne manje od dva gola, a na 50% utakmica više od dva gola. Prvi kvatrtil statističe serije je četrdesetšesti modalitet u statističkoj seriji (rQ1 = f(182:4) + 1 = f(45,5) + 1 = 45 + 1 = 46) Q1 = 1. Zaključujemo da se na 25% utakmica posmatranog ranga
102
takmičenja postigne manje od 1gola (završi bez golova), a na 75% utakmica posmatranog ranga takmičenja postigne se više od 1 gola. Treći kvatrtil statističe serije je stotridesetsedmi modalitet u statističkoj seriji (rQ3 = f(3*182:4) + 1 = f(136,5) + 1 = 136 + 1 = 137) Q3 = 3. Zaključujemo da se na 75% utakmica posmatranog ranga takmičenja postigne manje od 3 gola, a na 25% utakmica posmatranog ranga takmičenja postigne se više od tri gola. మ σ సభ ௫
Standardna devijacija posmatrane statističke serije ima vrijednost: ߪ ൌ ට ට
ଵଶଷ ଵ଼ଶ
തതതଶ ൌ െݔ
σ సభ
െ ʹǡͳͻʹ͵ͳଶ ൌ ξǡͻͻ െ Ͷǡͺͳ ൌ ξʹǡͳͺ ൌ ͳǡͶͺ. Prosječno odstupanje od prosječnog broja
postignutih golova iznosi 1,48 golova. Treći centralni moment ima vrijednost: ܯଷ ൌ
ത య σ సభ ሺ௫ ି ሻ σ సభ
ൌ
ଶଷହǡଽଷସଽ ଵ଼ଶ
ൌ ͳǡʹͻ͵Ǥ
Vrijednost koeficijenta asimetrije posmatrane staističke serije iznosi: ߙଷ ൌ
ெయ ఙయ
ൌ
ଵǡଶଷ ଵǡସ଼య
ൌ ͲǡͶ.
Prema broju postignutih golova na utakmicama posmatranog ranga takmičenja distribucija utakmica je blago pozitivno (desno) asimetrična. Pearsonova mjera asimetrije, u odnosu na modus, ima vrijednost: SK =
തିெೀ ఙ
ൌ
ଷିଶǡଵଽ ଵǡସ଼
ൌ Ͳǡͷͷ.
Dobijeni pokazatelj, takođe, upućuje na blagu pozitivnu asimetriju raspodjele utakmica posmatranog ranga takmičenja prema broju postignutih golova u odnosu najvjerovatniji broj postignutih golova po utakmici. Pearsonova mjera asimetrije, u odnosu na medijanu, ima vrijednost: SK =
ଷሺതିெಶ ሻ ఙ
ൌ
ଷሺଶିଶǡଵଽሻ ଵǡସ଼
ൌ
െͲǡ͵ͺ. Dobijeni pokazatelj, takođe, upućuje na blagu negativnu asimetriju raspodjele utakmica posmatranog ranga takmičenja prema broju postignutih golova u odnosu na broj postignutih golova prvih 50% utakmica. Bowleyeva mjera asimetrije ima vrijednost: SkQ =
ொభ ାொయ ିଶெಶ ொయ ିொభ
ൌ
ଵାଷିଶήଶ ଷିଵ
ൌ ൌͲ ଶ
Dobijeni pokazatelj upućuje da je distribucija središnjih 50% utakmica simetrična u pogledu broja postignutih golova. b. Vrijednost četvrtog centralnog momenta u posmatranoj statističkoj seriji je:ܯସ ൌ ଶସଵସǡ଼ଽ ଵ଼ଶ
ത ర σ సభ ሺ௫ ି ሻ σ సభ
ൌ
ൌ ͳ͵ǡʹ.
Vrijednost koeficijenta zaobljenosti dobijamo na sljedeći način: ߙସ ൌ
ெర ఙర
ൌ
ଵଷǡଶ ଵǡସ଼ర
ൌ ʹǡ.
Koeficijent zaobljenosti ima vrijednost malo ispod 3, što znači da je distribucija utakmica
103
posmatranog ranga takmičenja prema broju postignutih golova malo “ravnija” u odnosu na normalnu raspodjelu. Ukoliko zaobljenost izrazimo kao razliku između četvrtog momenta I vrijednosti koeficijenta zaobljenosti normalnog rasporeda (3), dobijamo: K = D4 – 3 = 2,76 – 3 = – 0,24. Vrijednost dobijenog pokazatelja ukazuje, takođe, na činjenicu kako je posmatrani raspored “ravniji” u odnosu na normalni raspored. Dobijena razlika između dobijenog koeficijenta zaobljenosti I koeficijenta zaobljenosti normalne raspodjele je izuzetno mala, tako da je ovaj empirijski raspored približan normalnom rasporedu. c. Elementi potrebni za izračunavanja koeficijenata koncentracije mogu se prikazati u sljedećoj tabeli: Xi
6
fi
FX(xi)
Pi = fi/6fi
PTi =
ή௫ ത
௫
FT (Ti)
pi>FT(Ti)+FT(Ti-1)@
Pi2 = (σ ሻଶ ௫
0
26 0,142857143
0,142857
0
0
0
0
1
37 0,203296703
0,346154
0,092732
0,092732
0,008599
0,018852
2
42 0,230769231
0,576923
0,210526
0,303258
0,044321
0,091382
3
48 0,263736264
0,840659
0,360902
0,66416
0,13025
0,255143
4
16 0,087912088
0,928571
0,160401
0,824561
0,025728
0,130877
5
8 0,043956044
0,972527
0,100251
0,924812
0,01005
0,076896
6
5 0,027472527
1
0,075188
1
0,005653
0,052879
0,224603
0,626029
182
1
1
Tabela 57. Radna tabela – elementi za izračunavanje Ginijevog I Herfindahovog kooeficijenta koncentracije
Za potrebe konstrukcije Lorenzove krive izračunavaju se tačke koje leže na njoj, kordinate tačaka za kostrukciju Lorenzovoj krivoj mogu se prikazati u sljedećoj tabeli: Tačka
A1 A2
A3
A4
A5
A6
A7
A8
Koordinata na osi X
0
0,1428 0,3462 0,5769 0,8406 0,9286 0,9725
1,0000
Koordinata na osi Y
0
0,0000 0,0972 0,3033 0,6642 0,8246 0,9248
1,0000
Tabela 58. Koordinate tačaka za crtanje Lorenzove krive: koordinate na osi X se uzimaju iz kolone FX(xi), koordinate na osi Y se uzimaju iz kolone FT(Ti) prethodne tabele
104
1,2 1 0,8 0,6 0,4 0,2 0 -0,2
0
0,2
0,4
0,6
0,8
1
1,2
Slika 20. Krivulja koncentracije utakmica posmatranog ranga takmičenja prema broju postignutih golova
Ginijev koeficijent koncentracije za posmatranu statističku seriju ima vrijednost: G = 1 – σୀଵ ሾ ்ܨሺܶ ሻ ்ܨሺܶିଵ ሻሿ = 1 – 0,224603 = 0,775397 Ginijev koeficijent koncentracije ima vrijednost između 0 i 1, tako da ovdje imamo visok stepen koncentracije raspodjele utakmica prema broju postignutih golova u posmatranom rangu takmičenja. Herfidahlov koeficijent kocentracije u posmatranom primjeru ima vrijednost: ܪൌ σୀଵ ଶ = 0,626029. Vrijednost Herfidahlov koeficijent koncentracije ukazuje na visok stepen koncentracije raspodjele utakmica prema broju postignutih golova. Koncentracijski udio u posmatranom primjeru ima vrijednost: ܥଷ ൌ
σయೕసభ ௫ೕ σ సభ ௫
ଷାସଶାସ଼
=
ଵ଼ଶ
ൌ
ଵଶ ଵ଼ଶ
ൌ Ͳǡͻͺ,
od 182 odigrane utakmice, 127 utakmica obuhvata utakmice na kojima je postignuto 127 utakmica na kojima je postignuto od 1 do 3 golova, odnosno u slučaju 69,78% utakmica postigne se od 1 do 3 golova. Primjer 2.27. Dati su podaci o dužini radnog staža za 120 radnika jednog preduzeća: 39
4
25
31
22
9
22
6
19
7
11
34
0
29
33
11
25
15
2
35
11
30
32
37
17
20
24
17
0
5
14
27
18
38
32
38
16
31
19
14
28
27
7
26
35
39
0
28
17
14
40
7
39
35
40
19
31
25
2
23
9
38
0
3
32
13
19
8
24
23
105
40
1
35
26
4
6
34
24
3
19
13
23
0
18
7
14
1
37
25
38
7
26
16
4
15
29
6
13
13
3
25
29
37
21
17
19
18
39
2
2
34
5
20
33
3
19
24
25
12
6
Potrebno je: a. Formirati odgovarajuću statističku seriju i prikazati je pomoću histograma frekvencija i poligona frekvencija; b. Za tako formiranu statističku seriju izračunati i protumačiti srednje vrijednosti (sredine); c. Za tako formiranu statističku seriju odrediti i protumačiti pozicione vrijednosti (modus, medijanu, kvartile, prvi i sedmi decil, te dvadesetprvi i šezdesetčetvrti percentil); d. Za tako formiranu statističku seriju izračunati i protumačiti mjere varijabiliteta (Iv; IQ; So; SAO; σ; σ²; Kv; KQ); e. Sve do sada navedene deskriptivne mjere odrediti i za empirijsku seriju statističkih podataka; uporediti dobijene rezultate; f.
Za tako formiranu statističku seriju izračunati i protumačiti mjere oblika rasporeda (D3; SkMo; SkMe; SkQ i D4);
g. Za tako formiranu statističku seriju izračunati i protumačiti vrijednost mjera koncentracije (G;H; Lorenzove krive). Rješenje: a. U posmatranom primjeru, lako je uočiti da imamo prikupljenu, nesređenu statističku građu, koju je potrebno metodološki sistematizovati, kako bi se pristupilo statističkom istraživanju, odnosno uočavanju osnovnih karakteristika obuhvaćenog statističkog skupa. Sređivanje statističkih podataka (prikupljenog statističkog materijala) zahtijeva da se, prije svega, izvrši redanje prikupljenih podatak prema odgovarajućem kriteriju. U navedenom primjeru prikupljene podatke redamo prema veličini (formiramo rastući brojni niz), što ima sljedeći izgled:
106
0
0
0
0
0
1
1
2
2
2
2
3
3
3
3
4
4
4
5
5
6
6
6
6
7
7
7
7
7
8
9
9
11
11
11
12
13
13
13
13
14
14
14
14
15
15
16
16
17
17
17
17
18
18
18
19
19
19
19
19
19
19
20
20
21
22
22
23
23
23
24
24
24
24
25
25
25
25
25
25
26
26
26
27
27
28
28
29
29
29
30
31
31
31
32
32
32
33
33
34
34
34
35
35
35
35
37
37
37
38
38
38
38
39
39
39
39
40
40
40
Slika 21. Vrijednosti statističke serije poredani prema intenzitetu mjerenog svojstva
Drugi korak, u postupku formiranja adekvatne statističke serije, predstavlja formiranje serije distribucija frekvencija, što se može prikazati sljedećim tabelarnim prikazom. xi
fi
fi x i
(xi - ܺത)
fixi²
fi(xi - ܺത)
fi_xi - ܺത_
fi(xi - ܺത)2
Kumulanta
0
5
0
0
-19,67
-98,33
98,33
1933,89
5
1
2
2
2
-18,67
-37,33
37,33
696,89
7
2
4
8
16
-17,67
-70,67
70,67
1248,44
11
3
4
12
36
-16,67
-66,67
66,67
1111,11
15
4
3
12
48
-15,67
-47,00
47,00
736,33
18
5
2
10
50
-14,67
-29,33
29,33
430,22
20
6
4
24
144
-13,67
-54,67
54,67
747,11
24
7
5
35
245
-12,67
-63,33
63,33
802,22
29
8
1
8
64
-11,67
-11,67
11,67
136,11
30
9
2
18
162
-10,67
-21,33
21,33
227,56
32
11
3
33
363
-8,67
-26,00
26,00
225,33
35
12
1
12
144
-7,67
-7,67
7,67
58,78
36
13
4
52
676
-6,67
-26,67
26,67
177,78
40
14
4
56
784
-5,67
-22,67
22,67
128,44
44
15
2
30
450
-4,67
-9,33
9,33
43,56
46
16
2
32
512
-3,67
-7,33
7,33
26,89
48
17
4
68
1156
-2,67
-10,67
10,67
28,44
52
18
3
54
972
-1,67
-5,00
5,00
8,33
55
19
7
133
2527
-0,67
-4,67
4,67
3,11
62
20
2
40
800
0,33
0,67
0,67
0,22
64
21
1
21
441
1,33
1,33
1,33
1,78
65
22
2
44
968
2,33
4,67
4,67
10,89
67
23
3
69
1587
3,33
10,00
10,00
33,33
70 107
24
4
96
2304
4,33
17,33
17,33
75,11
74
25
6
150
3750
5,33
32,00
32,00
170,67
80
26
3
78
2028
6,33
19,00
19,00
120,33
83
27
2
54
1458
7,33
14,67
14,67
107,56
85
28
2
56
1568
8,33
16,67
16,67
138,89
87
29
3
87
2523
9,33
28,00
28,00
261,33
90
30
1
30
900
10,33
10,33
10,33
106,78
91
31
3
93
2883
11,33
34,00
34,00
385,33
94
32
3
96
3072
12,33
37,00
37,00
456,33
97
33
2
66
2178
13,33
26,67
26,67
355,56
99
34
3
102
3468
14,33
43,00
43,00
616,33
102
35
4
140
4900
15,33
61,33
61,33
940,44
106
37
3
111
4107
17,33
52,00
52,00
901,33
109
38
4
152
5776
18,33
73,33
73,33
1344,44
113
39
4
156
6084
19,33
77,33
77,33
1495,11
117
40
3
120
4800
20,33
61,00
61,00
1240,33
120
120
2360
63946
0,00
1240,67
17532,67
6
-
-
Tabela 59. Radna tabela - tabelarni prikaz serije distribucija frekvencija, kao I elementi za izračunavanje odgovarajućih deskriptivnih mjera empirijske statističke serije
Iz prethodne tabele očigledno je da se radi o nezgrapnoj statističkoj seriji, što je više izraženo brojnošću obuhvaćenih jedinica statističkog skupa (veličinom statističkog skupa) i različitošću modaliteta. Navedeno upućuje na potrebu formiranja intervalne serije distribucija frekvencija, što se provodi na način da se odredi broj interval, kao I veličina intervala, što se adekvatno realizuje pomoću Strugers – ovog pravila. Prvo se određuje broj intervala u statističkoj seriji, kako slijedi: K = 1 + 3,32log N gdje je N broj prikupljenih podataka, tako da je u analiziranom primjeru: K = 1 + 3,32log 120 = 1 + 3,32 2,079181 = 1 + 6,902882 =7,902882|8 Tako da ćemo imati statističku seriju sa 8 intervala, odnosno grupa frekvencija. Nakon toga, određujemo veličinu intervala, koristeći sljedeći obrazac: ܪൌ
௫ೌೣ ି௫
ൌ
ସି ଼
ൌͷ
Veličina intervala će biti 5, odnosno širina interval iznosi 5 godina radnog staža. Važno je napomenuti da obilježje jedinice statističkog skupa (radni staž) predstavlja kontinuiranu slučajnu promjenljivu, pri čemu je uobičajeno da se radni staž iskazuje cjelobrojnim vrijednostima pri čemu je dužina radnog staža iskazana 108
punim godnima radnog staža (za radni staž 5 godina podrazumijeva se radni staž između 5 I 6 godina). Kada se za posmatranu statističku građu formira adekvatna intrevalna serija može se prikazati u sljedećoj tabeli: xi
fi
ri
fi ri
fi r i ²
Kumulanta filogxi
fi/xi
0,00 – 5
20
2,5
50
125
20
7,9588
8
5,01 – 10
12
7,5
90
675
32
10,50074
1,6
10,01 – 15
12
12,5
150
1875
44
13,16292
0,96
15,01 – 20
20
17,5
350
6125
64
24,86076
1,142857
20,01 – 25
4
22,5
90
2025
68
5,40873
0,177778
25,01 – 30
21
27,5
577,5
15881,25
89
30,22599
0,763636
30,01 – 35
17
32,5
552,5
17956,25
106
25,70202
0,523077
35,01 – 40
14
37,5
525
19687,5
120
22,03644
0,373333
2385
64350
139,8564
13,54068
6
120
-
-
Tabela 60. Radna tabela - tabelarni prikaz intervalne serije distribucija frekvencija, kao I elementi za izračunavanje odgovarajućih deskriptivnih mjera formirane statističke serije
Dužina radnog staža se izražava godinama radnog angažovanja I predstavlja obilježje neprekidnog tipa, veličina intervala je 5 godina, pa se pogodnim izborom vještačkih granica intervala (5,01; 10,01; 15,01; 20,01; 25,01; 30,01 I 35,01) jednoznačno I nedvosmisleno određuju frekvencije pojedinih interval. Dobijena statistička serija služi kao osnova izračunavanja odgovarajućih statističkih mjera (deskriptivnih mjera). Grafički prikaz statsitičke serije pomoću histograma I poligona frekvencija može se grafički prikazati ilustracijama, kako slijedi: 25
broj radnika
20 15 10 5 0 0-5
5 -- 10
10 -- 15
15 - 20
20 - 25
25 - 30
30 - 35
35 - 40
dužina radnog staža
Slika 22. Grafički prikaz distribucije radnika prema dužini radnog staža pomoću histograma frekvencija
109
25
20
15
10
5
0 0-5
5 -- 10
10 -- 15
15 - 20
20 - 25
25 - 30
30 - 35
35 - 40
Slika 23. Grafički prikaz distribucije radnika prema dužini radnog staža pomoću poligona frekvencija
Ri – u prethodnoj tabeli označava razrednu sredinu, koja kod izračunavanja dodređenih deskriptivnih mjera zamjenjuje interval, a njezina vrijednost određuje se kao poluzbir granica intervala – ܴͳ ൌ
ାହ ଶ
ൌ ʹǡͷ.
b. Za intervalnu seriju distribucija frekvencija u posmatranom primjeru, izračunate srednje vrijednosti imaju vrijednosti, kako slijedi: ಿ
σ ଶଷ଼ହ ൌ ൌ ͳͻǡͺͷ Aritmetička sredina ܺത ൌ ߤ ൌ σసభ ಿ ଵଶ
సభ
Geometrijaska sredina ܩൌ ͳͲ Harmonijska sredina ܪൌ
σಿ సభ ήೝ σಿ సభ
σಿ సభ σಿ సభ ೝ
ൌ
ൌ ͳͲ
ଵଶ ଵଷǡହସ
భయవǡఴఱల భమబ
ൌ ͳͲଵǡଵସ ൌ ͳͶǡ͵
ൌ ͺǡͺʹͳͺ
Prosječna dužina radnog staža u posmatranom preduzeću: -
Dobijena kao aritmetički prosjek iznosi 19,875 godina;
-
Dobijena kao geometrijski prosjek iznosi 14,6376 godina;
-
Dobijena kao harmonijski prosjek iznosi 8,86218 godina.
Imajući u vidu osobine pojedinih srednjih vrijednosti opravdano je usvojite aritmetički prosjek kao veličinu pogodnu za izražavanje prosječne dužine radnog staža. Zaključak: prosječna dužina radnog staža radnika posmatranog preduzeća je 20 godina (19,875|20). Za seriju distribucija frekvencija u primjeru, tražene izračunate srednje vrijednosti određuju se kako slijedi: Aritmetička sredina ܺത ൌ ߤ ൌ 110
σಿ సభ ௫ σಿ సభ
ൌ
ଶଷ ଵଶ
ൌ ͳͻǡ ሶ
Geometrijaska sredina ܩൌ ͳͲ Harmonijska sredina ܪൌ
σಿ సభ ήೣ σಿ సభ
σಿ సభ σಿ సభೣ
Ǣݔ ൌ Ͳ ฺ ܩnije definisana
Ǣݔ ൌ Ͳ ฺ ܪnije definisana
Prosječna dužina radnog staža u posmatranom preduzeću je 20 godina (19,6|20). c. Za intervalnu seriju distribucija frekvencija u posmatranom primjeru, tražene pozicione serdnje vrijednosti određujemo kako slijedi: Modus prepoznajemo kao obilježje koje dominira statističkom serijom, odnosno kao obilježje sa najvećom frekvencijom. U posmatranoj seriji fmax = 21, ovu frekvenciju ima interval od 25 do 30 godina radnog staža tj. ߳ܯሾʹͷǡ͵Ͳሿ . Vrijendosti modusa dobijamo kako slijedi: ܯൌ ʹͷ
ʹͳ െ Ͷ ή ͷ ൌ ʹͻǡͲͷ ʹͳ െ Ͷ ʹͳ െ ͳ
Zaključujemo da je dužina radnog staža najvećeg broja radnika 29,05 godina. Medijana je središnji član prethodno uređenog niza, u posmatranoj statističkoj seriji medijana se nalazi između šezdesetog I šezdeset prvog modaliteta u statističkoj seriji (rMe = 120:2 = 60), dakle ME >15, 20@, vrijednost medijane izračunavamo, kako slijedi: ܯா ൌ ͳͷ
Ͳ െ ͶͶ ή ͷ ൌ ͳͻ ʹͲ
U posmatranom preduzeću 50% radnika ima radni staž kraći od 19 godina, a 50% radnika ima radni staž duži od 19 godina. Prvi kvartil se nalazi između tridesetog I trideset prvog modaliteta u statističkoj seriji (rQ1 = 120:4 = 30), dakle Q1>5, 10@, vrijednost prvog kvartila izračunavamo: ܳଵ ൌ ͷ
͵Ͳ െ ͳʹ ή ͷ ൌ ͻǡͷ ʹͲ
U posmatranom preduzeću 25% radnika ima radni staž kraći od 9,5 godina, a 75% radnika ima radni staž duži od 9,5 godina. Treći kvartil se nalazi između devedesetog I devedeset prvog modaliteta u statističkoj seriji (rQ3 = 3*120:4 = 90), dakle Q3>30, 35@, vrijednost prvog kvartila izračunavamo: ܳଷ ൌ ͵Ͳ
ͻͲ െ ͺͻ ή ͷ ൌ ͵Ͳǡʹͻ ͳ
U posmatranom preduzeću 75% radnika ima radni staž kraći od 30,29 godina, a 25% radnika ima radni staž duži od 30,29 godina. Prvi decil se nalazi između dvanaestog I trinaestog modaliteta u statističkoj seriji (rD1= 120:10 = 12), dakle D1>0, 5@, vrijednost prvog decila izračunavamo kako slijedi: 111
ܦଵ ൌ Ͳ
ͳʹ െ Ͳ ήͷൌ͵ ʹͲ
U posmatranom preduzeću 10% radnika ima radni staž kraći od 3 godina, a 90% radnika ima radni staž duži od 3 godina. Sedmi decil se nalazi između osamdeset četvrtog I osamdesetpetog modaliteta u statističkoj seriji (rD7= 7*120:10 = 84), dakle D7>25, 30@, vrijednost prvog decila izračunavamo kako slijedi: ܦൌ ʹͷ
଼ସି଼ ଶଵ
ή ͷ ൌ ʹͺǡͺͳ|29
U posmatranom preduzeću 70% radnika ima radni staž kraći od 29 godina, a 30% radnika ima radni staž duži od 29 godina. Dvadeset prvi percentil je dvadeset šesti modalitet u statističkoj seriji (rP21= f(21*120:100) + 1 = f(25,2) + 1 = 25 +1 = 26), dakle P21>5, 10@, vrijednost dvadeset prvog percentila izračunavamo kako slijedi: ܲଶଵ ൌ ͷ
ଶହǡଶିଶ ଵଶ
ή ͷ ൌ ǡͳሶ|7
U posmatranom preduzeću 21% radnika ima radni staž kraći od 7 godina, a 79 % radnika ima radni staž duži od 7 godina. Šezdeset četvrti percentil je sedamdeset sedmi modalitet u statističkoj seriji (rP64= f(64*120:100) + 1 = f(76,8) + 1 = 76 + 1 = 77), dakle P64>25, 30@, vrijednost šezdeset četvrtog percentila izračunavamo kako slijedi: ܲସ ൌ ʹͷ
ǡ଼ି଼ ଶଵ
ή ͷ ൌ ʹǡͲͻͷ|27
U posmatranom preduzeću 64% radnika ima radni staž kraći od 27 godina, a 36% radnika ima radni staž duži od 27 godina. Za seriju distribucija frekvencija u posmatranom primjeru, tražene pozicione srednje vrijednosti određujemo kako slijedi: Modus predstavlja obilježje koje dominira statističkom serijom, a to je obilježje kojemu odgovara najveća frekvencija, tako da je: fmax = 7 MO = 19. Zaključujemo da najveći broj radnika ima radni staž dužine 19 godina. Medijana je središnji član prethodno uređenog niza, u posmatranoj statističkoj seriji medijana se nalazi između šezdesetog I šezdeset prvog modaliteta u statističkoj seriji (rMe = 120:2 = 60), dakle ME = 19. Vrijednost medijane ukazuje da 50% radnika ima radni staž kraći od 19 godina, a 50% radnika ima radni staž duži od 19 godina. Prvi kvartil se nalazi između tridesetog I trideset prvog modaliteta u statističkoj seriji (rQ1 = 120:4 = 30), dakle Q1 =
112
଼ାଽ ଶ
ൌ ͺǡͷ
U posmatranom preduzeću 25% radnika ima radni staž kraći od 8,5 godina, a 75% radnika ima radni staž duži od 8,5 godina. Treći kvartil se nalazi između devedesetog I devedeset prvog modaliteta u statističkoj seriji (rQ3 = ଶଽାଷ
3*120:4 = 90), dakle Q3=
ଶ
=29,5
U posmatranom preduzeću 75% radnika ima radni staž kraći od 29,5 godina, a 25% radnika ima radni staž duži od 29,5 godina. Prvi decil se nalazi između dvanaestog I trinaestog modaliteta u statističkoj seriji (rD1= 120:10 = 12), dakle D1 = 3. U posmatranom preduzeću 10% radnika ima radni staž kraći od 3 godina, a 90% radnika ima radni staž duži od 3 godina. Sedmi decil se nalazi između osamdeset četvrtog I osamdeset petog modaliteta u statističkoj seriji (rD7= 7*120:10 = 84), dakle D7 = 27. Dvadesetprvi percentil je dvadeset šesti modalitet u statističkoj seriji (rP21= f(21*120:100) + 1 = f(25,2) + 1 = 25 +1 = 26), dakle P21 = 6. U posmatranom preduzeću 21% radnika ima radni staž kraći od 6 godina, a 79 % radnika ima radni staž duži od 6 godina. Šezdeset četvrti percentil je sedamdeset sedmi modalitet u statističkoj seriji (rP64= f(64*120:100) + 1 = f(76,8) + 1 = 76 + 1 = 77), dakle P64 = 25. U posmatranom preduzeću 64% radnika ima radni staž kraći od 25 godina, a 36% radnika ima radni staž duži od 25 godina. U posmatranom preduzeću 70% radnika ima radni staž kraći od 27 godina, a 30% radnika ima radni staž duži od 27 godina. d. Za intervalnu seriju distribucija frekvencija u posmatranom primjeru, tražene pozicione srednje vrijednosti određujemo kako slijedi: Interval varijacije, u slučaju intervalne serije distribucija frekvencija, ima vrijednost: IV = xmax – xmin = 40 – 0 = 40. U posmatranom preduzeću, radnici prema dužini radnog staža variraju 40 godina od početnika (0 godina radnog staža) do 40 godina radnog staža. Interkvartil, u slučaju intervalne serije distribucija frekvencija, ima vrijednost: IQ = Q3 – Q1 = 30,29 – 9,5 = 20,79. Središnjih 50% radnika prema dužini radnog staža kreće se u interval od 20,79 godina, a kreće se od 9,5 do 30,29 godina. Interval varijacije, u slučaju serije distribucija frekvencija, ima vrijednost: IV = xmax – xmin = 40 – 0 = 40. U posmatranom preduzeću, radnici prema dužini radnog staža variraju 40 godina od početnika (0 godina radnog staža) do 40 godina radnog staža. 113
Interkvartil, u slučaju serije distribucija frekvencija, ima vrijednost: IQ = Q3 – Q1 = 29,5 – 8,5 = 21. Središnjih 50% radnika prema dužini radnog staža kreće se u interval od 21 godina, a kreće se od 8,5 do 29,5 godina. Elemente potrebne za izračunavanje mjera varijabiliteta kod intervalne serije distribucija frekvencija možemo prikazati u sljedećoj tabeli:
xi
fi
(ri - ݔҧ )
fi_ri - ݔҧ _
fi(ri - ݔҧ )
fi(ri - ݔҧ )3
fi(ri - ݔҧ )4
0,00 – 5
20
-17,375
-347,5
347,5
-104907
1822759
5,01 – 10
12
-12,375
-148,5
148,5
-22741,4
281424,6
10,01 – 15
12
-7,375
-88,5
88,5
-4813,57
35500,08
15,01 – 20
20
-2,375
-47,5
47,5
-267,93
636,333
20,01 – 25
4
2,625
10,5
10,5
72,35156
189,9229
25,01 – 30
21
7,625
160,125
160,125
9309,768
70986,98
30,01 – 35
17
12,625
214,625
214,625
34209,21
431891,3
35,01 – 40
14
17,625
246,75
246,75
76650,57
1350966
0
1264
-12488
3994355
6
120
-
Tabela 61. Elementi za izračunavanje mjera varijabiliteta I mjera oblika rasporeda serije distribucija frekvencija σ సభ ሺ௫ ି௫ҧ ሻ
Srednje odstupanje, kod intervalne serije distribucija frekvencija, ima vrijednost: SO = ଵଶ
σ సభ
ൌ
ൌ ͲǤ Navedena deskriptivna mjera uvijek ima vrijednost nula i koristi se samo za kontrolu tačnosti
izračunate vrijednosti aritmetičke sredine. Srednje apsolutno odstupanje, kod intervalne serije distribucija frekvencija, ima vrijednost: S AO = σ సభ ȁ ି௫ҧ ȁ σ సభ
ൌ
ଵଶସ ଵଶ
ൌ ͳͲǡͷ͵. Prosječno apsolutno odstupanje od prosječne vrijednosti iznosi 10,53.
Varijansa, kod intervalne serije distribucija frekvencija, ima vrijednost: ߪ ଶ ൌ
మ σ సభ ௫
σ సభ
െ ݔҧ ଶ ൌ
ସଷହ ଵଶ
െ
ͳͻǡͺͷଶ ൌ ͳͶͳǡʹ͵. Prosječno kvadratno odstupanje od srednje vrijednosti iznosi 141,23. Standardna devijacija, kod intervalne serije distribucija frekvencija, ima vrijednost: ߪ ൌ ξߪ ଶ ൌ ξͳͶͳǡʹ͵ ൌ ͳͳǡͺͺ. Prosječno odstupanje od prosječne dužine radnog staža iznosi 11,88 godina. Koeficjent varijacije, u slučaju intervalne serije distribucija frekvencija, ima vrijednost: KV = ଵଵǡ଼଼ ଵଽǡ଼ହ
௫ҧ
ൌ
ή ͳͲͲΨ ൌ Ͳǡͷͻ100% = 59,77 %. Prosječan varijabilitet radnika u pogledu prosječne dužine
radnog staža izosi 59,77% (varijabilitet je visok).
114
ఙ
Koeficijent kvartilne varijacije, kod intervalne serije distribucija frekvencija, ima vrijednost: KQV ொయ ିொభ
=
ொయ ାொభ
ൌ
ଷǡଶଽିଽǡହ ଷǡଶଽାଽǡହ
ൌ
ଶǡଽ ଷଽǡଽ
ൌ Ͳǡͷʹ. Relativan varijabilitet za središnjih 50 % radnika u pogledu dužine
ranog staža iznosi 52%. Navedeni pokazatelj ukazuje na visok varijabilitet.
Srednje odstupanje, kod serije distribucija frekvencija, ima vrijednost: SO =
σ సభ ሺ ି௫ҧ ሻ σ సభ
ൌ
ଵଶ
ൌ Ͳ.
Navedena deskriptivna mjera uvijek ima vrijednost nula i koristi se samo za kontrolu tačnosti izračunate vrijednosti aritmetičke sredine. Srednje apsolutno odstupanje, kod serije distribucija frekvencija, ima vrijednost: SAO = ଵଶସǡ
ଵଶ
σ సభ ȁ௫ ି௫ҧ ȁ σ సభ
ൌ
ൌ ͳͲǡ͵Ͷ. Prosječno apsolutno odstupanje od prosječne vrijednosti iznosi 10,34.
Varijansa, kod serije distribucija frekvencija, ima vrijednost: ߪ ଶ ൌ
మ σ సభ ௫
σ సభ
െ ݔҧ ଶ ൌ
ଷଽସ ଵଶ
െ ͳͻǡଶ ൌ
ͳͶͷǡͻ. Prosječno kvadratno odstupanje od srenje vrijednosti iznosi 145,97. Standardna devijacija, kod intervalne serije distribucija frekvencija, ima vrijednost: ߪ ൌ ξߪ ଶ ൌ ඥͳͶͷǡͻ ൌ ͳʹǡͲͺ. Prosječno odstupanje od prosječne dužine radnog staža iznosi 12,08 godina. Koeficjent varijacije, u slučaju serije distribucija frekvencija, ima vrijednost: KV =
ఙ ௫ҧ
ൌ
ଵଶǡ଼ ଵଽǡ
ή ͳͲͲΨ ൌ
ͲǡͳͶʹ100% = 61,42 %. Prosječan varijabilitet radnika u pogledu prosječne dužine radnog staža izosi 61,42% (varijabilitet je visok). ொయ ିொభ
Koeficijent kvartilne varijacije, kod serije distribucija frekvencija, ima vrijednost: KQV =
ொయ ାொభ
ଶଽǡହି଼ǡହ ଶଽǡହା଼ǡହ
ൌ
ଶଵ ଷ଼
ൌ
ൌ Ͳǡͷͷ. Relativan varijabilitet za središnjih 50 % radnika u pogledu dužine ranog staža
iznosi 55%. Navedeni pokazatelj ukazuje na visok varijabilitet. e. Kada uporedimo prethodno dobijene rezultate, odnosno vrijednosti deskriptivnih mjera uočavamo sljedeće: U pogledu izračunatih srednjih vrijednosti, odnosno aritmetičke sredine razlike su relativno male 19,875 – 19,67 = 0,205, tako da zaključci proizašli iz vrijednosti prosječne dužine radnog staža su podudarni kod obje statsitičke serije. Kod serije distribućija frekvencija, nije moguće izračunati niti geometrijsku niti harmonijsku sredinu jer nisu definisane, međutim, one u posmatranom slučaju I nisu adekvatne deskriptivne mjere za izražavanje prosječne vrijednosti. U pogledu pozicionih srednjih vrijednosti moguće je primijetiti postojanje značajne razlike, a to je da u slučaju intervalne serije modus ima vrijednost 29,05; dok je kod serije distribucija frekvencija 19. 115
Navedeni rezultati ukazuju da u posmatranom preduzeću pojedinačno gledano najveći broj radnika (njih 7) ima radni staž dužine 19 godina, dok 21 radnika ima radni staž iz intervala od 25 do 30 godina, odnosno najčešće 29,05 godina. Medijana ima istu vrijednost kod obje statističke serije i iznosi 19. Prvi kvartil, kod intervalne serije distribucija frekvencija iznosi 9,50, dok kod serije distribucija frekvencija njegova vrijednost je 8,50. Razlika je jedna godina, tj. 9,50 – 8,50 =1. Treći kvartil, kod intervalne serije distribucija frekvencija ima vrijednost 30,29, dok kod serije distribucija frekvencija njegova vrijednost je 29,5. Razlika je približno jednu godinu, tj. 30,29 – 29,5 = 0,79. Prvi decil, kod intervalne serije distribucija frekvencija iznosi, isto kao i kod serije distribucija frekvencija, 3. Sedmi decil, kod intervalne serije distribucija frekvencija iznosi 28,81, dok kod serije distribucija frekvencija njegova vrijednost je 27. Razlika je približno dvije godine, tj. 28,81 – 27 = 1,81. Dvadeset prvi percentile, kod intervalne statističke serije iznosi 7,16, dok je kod serije distribucija frekvencija njegova vrijednost 6. Razlika je približno jednu godinu, tj. 7,16 – 6 = 1,16. Šezdeset četvrti percentile, kod intervalne statističke serije iznosi 27,095, dok je kod serije distribucija frekvencija njegova vrijednost 25. Razlika je približno dvije godine, tj. 27,095 – 25 =2,095. Interval varijacije kod obje statističke serije ima istu vrijednost, 40. Interkvartil, kod intervalne serije distribucija frekvencija iznosi 20,79, dok je kod serije distribucija frekvencija njegova vrijednost 21. Razlika je 0,21, tj. 21 – 20,79 = 0,21. Sednje odstupanje je veličina čija vrijednost je uvijek nula, tako I ovdje u oba slučja vrijednost srednjeg odstupanja iznosi nula. Srednje apsolutno odstupanje, kod intervalne serije distribucija frekvencija iznosi 10,53, dok je njegova vrijednsot kod serije distribucija frekvencija 10,34. Razlika je 0,19, tj. 10,53 – 10,34 = 0,19. Varijansa, kod intervalne serije distribucija frekvencija iznosi 141,23, dok je njegova vrijednost kod serije distribucija frekvencija 145,97. Razlika je 4,74, tj. 145,97 – 141,23 = 4,74. Standardna devijacija, kod intervalne serije distribucija frekvencija iznosi 11,88, dok je njegova vrijednost kod serije distribucija frekvencija 12,08. Razlika je 0,20, tj. 12,08 – 11,88 = 0,20. Koeficijent varijacije, kod intervalne serije distribucija frekvencija iznosi 59,77%, dok je njegova vrijednost kod serije distribucija frekvencija 61,42%. Razlika je 1,65% tj. 61,42% – 59,77% = 1,65%. Koeficijent kvartilne varijacije, kod intervalne serije distribucija frekvencija iznosi 52%, dok je njegova vrijednost kod serije distribucija frekvencija 55%. Razlika je 3%, tj. 55% – 52% = 3%.
116
f. Treći moment izračunavamo: ܯଷ ൌ koeficijent asimetrije: ߙଷ ൌ
ெయ ఙయ
ൌ
ିଵସǡሶ ଵଵǡ଼଼య
య σ సభ ሺ௫ ି௫ҧ ሻ
σ సభ
ൌ
ିଵଶସ଼଼ ଵଶ
ൌ െͳͲͶǡͲሶ, zatim izračunavamo
ൌ െͲǡͲͺ. Prisutna je blaga negativna asimetrija u odnosu na
aritmetičku sredinu statističke serije. Pearsonove mjere asimetrije, kod posmatrane statističke serije, imaju vrijednost: SkMeൌ
ଷሺ௫ҧ ିெಶ ሻ ఙ
ൌ
ଷሺଵଽǡ଼ହିଵଽሻ ଵଵǡ଼଼
ൌ Ͳǡʹʹ
௫ҧ ିெ
I
SkMo=
ఙ
ൌ
ଵଽǡ଼ହିଶଽǡହ ଵଵǡ଼଼
ൌ െͲǡ
Prisutna je blaga pozitivna asimetrija u odnosu na medijanu statističke serije, I blaga pozitivna asimetrija u odnosu na modus statističke serije. ொభ ାொయ ିଶெಶ
Bowleyeva mjera asimetrije, kod posmatrane statističke serije, ima vrijednost: SkQ= ଽǡହାଷǡଶଽିଶήଵଽ ଷǡଶଽିଽǡହ
ൌ
ଵǡଽ ଶǡଽ
ொయ ିொభ
ൌ
ൌ ͲǡͲͺ. Navedena vrijednost ukazuje na prisustvo blage pozitivne asimetrije
središnjih 50 % podataka. Četvrti moment izračunavamo: ܯସ ൌ koeficijent zaobljenosti: ߙସ ൌ
ெర ఙర
ൌ
ర σ సభ ሺ௫ ି௫ҧ ሻ
ଷଷଶ଼ǡଶଽ ଵଵǡ଼଼ర
σ సభ
ൌ
ଷଽଽସଷହହ ଵଶ
ൌ ͵͵ʹͺǡʹͻ, zatim izračunavamo
ൌ ͳǡ. Posmatrana statistička serija je ravnija u odnosu na
normalno raspoređenu statističku seriju. g. Elementi potrebni za izračunavanje mjera koncentracije mogu se prikazati u sljedećoj tabeli: fi
xi
ri
Pi = fi/6fi
FX(xi)
PTi =
ή௫ ത
pi>FT(Ti)+FT(Ti-1)@
FT (Ti)
0,00 – 5
20
2,5
0,1667
0,1667
0,0210
0,0210
0,0035
5,01 – 10
12
7,5
0,1000
0,3333
0,0377
0,0587
0,0080
10,01 – 15
12
12,5
0,1000
0,4333
0,0629
0,1216
0,0180
15,01 – 20
20
17,5
0,1667
0,5333
0,1468
0,2683
0,0650
20,01 – 25
4
22,5
0,0333
0,7000
0,0377
0,3061
0,0191
25,01 – 30
21
27,5
0,1750
0,7333
0,2421
0,5482
0,1495
30,01 – 35
17
32,5
0,1417
0,9083
0,2317
0,7799
0,1881
35,01 – 40
14
37,5
0,1167
1,0000
0,2201
1,0000
0,2077
6
120
-
1,0000 -
1,0000
-
0,6589
Tabela 62. Radna tabela elementi za izračunavanje mjera koncentracije
Koeficijent Ginija ima vrijednost: ܩൌ ͳ െ σୀଵ ή ሾ்݂ ሺܶ ሻ ்݂ ሺܶିଵ ሻሿ ൌ ͳ െ Ͳǡͷͺͻ = 0,3411 Uočavamo da je vrijednost koeficijenta bliže nuli nego jedinici tako da je riječ o relativno slaboj koncentraciji raspodjele radnika prema dužini radnog staža.
117
Herfindahova mjera koncentracije ima vrijednost: H = σୀଵ ଶ ൌ 0,16672 + 0,12 + 0,12 + 0,16672 + 0,03332 + 0,1752 + 0,14172 + 0,11672 = 0,1409. Vrijednost ovog pokazatelja ukazuje na nizak stepen koncentracije radnika prema dužini radnog staža. Za potrebe crtanja Lorenzove krive određujemo koordinate tačaka koje leže na njoj koordinate tačaka možemo prikazati u narednoj tabeli: Tačka
A1
A2
A3
A4
A5
A6
A7
A8
A9
Koordinata na osi X
0
0,1667 0,3333 0,4333 0,5333 0,7000
0,7333 0,9083 1
Koordinata na osi Y
0
0,0210 0,0587 0,1216 0,2683 0,3061
0,5482 0,7799 1
Tabela 63. Koordinate tačaka za crtanje Lorenzove krive: koordinate na osi X se uzimaju iz kolone FX(xi), koordinate na osi Y se uzimaju iz kolone FT(Ti) prethodne tabele 1 0,8 0,6 0,4 0,2 0 0
0,2
0,4
0,6
0,8
1
-0,2 Slika 24. Lorenzova krivulja koncentracije vrijednosti radnika prema dužini radnog staža
Zadaci: 2.28. U pogonu jednog tekstilnog preduzeća instalirano je 7 šivaćih mašina za svakom mašinom radi po jedan radnik koji sa određenu radnu operaciju utroše različit broj vremenskih jedinica, pri čemu je prosječno utrošeno vrijeme u radnu operaciju za svakog radnika u toku radne sedmice iznsilo kao u sljedećoj tabeli: Radnik
I
II
III
IV
V
VI
VII
Prosječno utrošeno vrijeme (s) u toku radne sedmice
63
82
72
82
69
77
121
Tabela 64. Prosječno utrošeno vrijeme u posmatranu radnu operaciju radnika tekstilnog preduzeća
118
Potrebno je: a. Odrediti vrijednost i protumačiti izračunate srednje vrijednosti; provjeriti osobine izračunatih srednjih vrijednosti; koja izračunata srednja vrijednost je adekvatna za izražavanje prosječno utrošenog vremena u posmatranu radnu operaciju; b.
Odrediti vrijednost i protumačiti modus, medijanu, prvi I treći kvartil;
c. Odrediti vrijendnost I protumačiti interval varijacije, interkvartil, srednje apsolutno odstupanje, varijansu I standardnu devijaciju; d. Odrediti vrijednost I protumačiti koeficijent varijacije I koeficijent kvartilne varijacije; e. Odrediti vrijednost I protumačti vrijednost centralnih momenata, direktno te preko pomoćinh momenata oko nule I oko a (a = 40); f.
Odrediti vrijednost I protumačiti mjere oblika rasporeda;
g. Odrediti vrijednost I protumačiti mjere koncentracije. 2.29.
Broj pregledanih pacijenata u toku 25 radnih dana u ambulanti hitne pomoći bio je:
1
0
4
3
4
4
4
1
0
1
2
3
3
1
3
2
4
5
4
0
1
1
0
1
5
Potrebno je: a. Formirati statističku seriju broja pregledanih pacijenata u toku radnog dana u stanici hitne pomoći; b. Odrediti vrijednost i protumačiti izračunate srednje vrijednosti; provjeriti osobine izračunatih srednjih vrijednosti; koja izračunata srednja vrijednost je adekvatna za izražavanje prosječno utrošenog vremena u posmatranu radnu operaciju; c.
Odrediti vrijednost i protumačiti modus, medijanu, prvi I treći kvartil;
d. Odrediti vrijendnost I protumačiti interval varijacije, interkvartil, srednje apsolutno odstupanje, varijansu I standardnu devijaciju; e. Odrediti vrijednost I protumačiti koeficijent varijacije I koeficijent kvartilne varijacije; f.
Odrediti vrijednost I protumačti vrijednost centralnih momenata, direktno te preko pomoćinh momenata oko nule I oko a (a = 3);
g. Odrediti vrijednost I protumačiti mjere oblika rasporeda; h. Odrediti vrijednost I protumačiti mjere koncentracije. 2.30. Na jednom području posmatrana je starosna struktura oboljelih od vodenih ospica gdje su stanovnici posmatranog područja raspoređeni u odgovarajuću statističku seriju koja se može prikazati u sljedećoj tabeli:
119
Starost Broj stanovnika
2,5 – 7,5
7,5 – 12,5
12,5– 17,5
17,5– 22,5
22,5 i više
∑
10
20
50
15
5
100
Tabela 65. Distribucija stanovnika prema starosnoj dobi obolijevanja od vodenih ospica
Potrebno je: a. Odrediti vrijednost i protumačiti izračunate srednje vrijednosti; provjeriti osobine izračunatih srednjih vrijednosti; koja izračunata srednja vrijednost je adekvatna za izražavanje prosječno utrošenog vremena u posmatranu radnu operaciju; b. Odrediti vrijednost i protumačiti modus, medijanu, prvi I treći kvartil; c. Odrediti vrijendnost I protumačiti interval varijacije, interkvartil, srednje apsolutno odstupanje, varijansu I standardnu devijaciju; d. Odrediti vrijednost I protumačiti koeficijent varijacije I koeficijent kvartilne varijacije; e. Odrediti vrijednost I protumačti vrijednost centralnih momenata, direktno te preko pomoćinh momenata oko nule I oko a (a = 15); f.
Odrediti vrijednost I protumačiti mjere oblika rasporeda;
g. Odrediti vrijednost I protumačiti mjere koncentracije. h. Statističku seriju grafički prikazati pomoću histograma frekvencija, polarnog dijagrama i strukturnog kruga. 2.31. Za potrebe analize spremnosti i sposobnosti igrača određenog tima, menadžment košarkaškog kluba posmatra statističke podatke u pogledu njihove visine igrača, te njihove brzine (brzina je iskazana vremenom potrebnim da igrač istrči 100 metara). Pri tome su dobijeni podaci prikazani u narednim tabelama: Visina (cm)
180 - 185
185 – 190
190 - 195
195 -200
200 – 205
205 i više
Broj igrača
1
2
3
3
2
1
Tabela 66. Distribucija igrača prema visini
Vrijeme (s)
10 – 11
11 – 12
12 – 13
13 – 14
14 -15
15 i više
Broj igrača
1
4
3
2
1
1
Tabela 67. Distribucija igrača prema brzini
Potrebno je: a. Utvrditi da li igrači protivničkih klubova više variraju u pogledu visine ili brzine; b. Uporediti pozicione mjere datih serija;
120
c. Date statističke serije prikazati pomoću poligona frekvencija, histograma kvadrata i histograma krugova. 2.32. U jednom preduzeću zaposleno je 100 radnika, koji su prema dužini radnog staža raspoređeni kao što je prikazano u tabeli: Dužina radnog staža (godina) Broj radnika
5 – 15
15 – 25
25 – 35
35 – 45
45 i više
∑
5
25
50
15
5
100
Tabela 68. Distribucija radnika prema dužini radnog staža
Potrebno je utvrditi: a. Varijabilitet radnika u pogledu dužine radnog staža (koeficijent varijacije); b. Najvjerovatniju dužinu radnog staža (modus); c. Dužinu radnog staža koju prvih 50% radnika (medijanu); d. Kvartile, interkvartil i koeficijent kvartilne varijacije; sedmi i deveti decil; dvadeset treći i osamdeset sedmi percentil; e. Mjere oblika rasporeda; f.
Mjere koncentracije.
2.32. Raspored 100 radnika jednog preduzeća prema broju dana korištenog bolovanja i visini krvnog pritiska je: Broj dana kor.bolovanja
10
12
14
16
17
19
20
Visina krvnog pritiska
120
130
160
180
190
200
220
Broj radnika
10
15
25
18
12
11
9
Tabela 69. Distribucija radnika prema broju dana korištenog bolovanja I prema visini krvnog pritiska
Potrebno je: a. Ispitati da li radnici više variraju prema korištenom bolovanju ili visini krvnog pritiska; b. Utvrditi da li raspored radnika prema visini krvnog pritiska ima osobine normalnog rasporeda; c. Odrediti pozicione vrijednosti datih serija (Mo; Me; Q1; Q3; D6; P75); d. Prikazati serije podataka pomoću strukturnog kruga.
121
3. OSNOVI TEORIJE VJEROVATNOĆE I TEORIJSKI RASPOREDI
3.1. Osnovni pojmovi teorije vjerovatnoće Procenat sa kojim očekujemo ishod određenog slučajnog događaja naziva se vjerovatnoća. Događaji se dijele na sigurne, nemoguće i slučajne. Siguran događaj je događaj čija je vjerovatnoća jednaka 1, odnosno koji uz određene uslove uvijek nastupi. Slučajni događaj predstavlja ishod određenog slučajnog eksperimenta, to je događaj koji može, ali ne mora nastupiti vjerovatnoća njegovog dešavanja je veća ili jednaka od nula, a manja ili jednaka jedan. Drugim riječima, slučajni događaj je podskup svih mogućih ishoda slučajnog eksperimenta. Nemoguć događaj je događaj koji ne može nastupiti pod definisanim uslovima, odnosno događaj kod koga je vjerovatnoća nastanka jednaka nula. Slučajni eksperiment je događaj koji ima barem dva moguća ishoda, koji se pod određenim uslovima može ponavljati, kao i da su ishodi eksperimenta u svakom pokušaju neizvjesni. Mogući ishodi slučajnog eksperimenta naziva se elementarni događaj, a skup svih mogućih ishoda slučajnog eksperimenta naziva se prostorom elementarnih događaja (S), dok se skup svih podskupova prostora uzorka označava kao >F(S)@. Vjerovatnoća mogućeg ishoda elementarnog događaja kreće se u intervalu od nula do jedan, odnosno od 0% do 100%, pri čemu, određivanje vjerovatnoće može biti teorijsko (klasično, a priori), empirijsko (statističko, a posteriori) i subjektivno. Prosta vjerovatnoća slučajnog događaja „X“ >P(x)@ definiše se kao količnik između broja povoljnih (m) i broja mogućih ishoda (n), pri čemu su svi elementarni događaji jednako vjerovatni, a njezina vrijednost određuje se po obrascu: ܲሺݔሻ ൌ
݉ ݊
Prethodni obrazac predstavlja teorijsku definiciju vjerovatnoće slučajnog događaja. Empirijska vjerovatnoća slučajnog događaja aproksimira se relativnom frekvencijom slučajne promjenljive, gdje u skupu od 6fi članova, odgovarajuću osobinu „X“ posjeduje fx članova, odnosno vrijedi: ܲሺݔሻ ൌ
122
݂௫ σ ݂
Teorijska i empirijska vjerovatnoća se izjednačavaju ukoliko se eksperiment ponavlja veliki broj puta pod istim okolnostima, odnosno: P(x) = ՜ஶ
Činjenica da se teorijska i empirijska vjerovatnoća kod velikog broja ponavljanja izjednačavaju naziva se zakon velikih brojeva. Subjektivna vjerovatnoća određuje se na bazi procjene događaja relevantnih sa aspekta realizacije posmatranog slučajnog događaja bez specifikacije prostora elementarnih događaja ili relativnih frekvencija. Ukoliko su događaji X i ܺത, takvi da je njihov presjek prazan skup, a njihova unija prostor elementarnih događaja tada su ti događaji suprotni, odnosno simbolički zapisano: Xܺത = i Xܺത = S P(X) + P(ܺത) = 1 Ukoliko su događaji X1, X2, ... , Xn međusobno isključivi događaji u skupu elementarnih događaja S, tada za svaki par događaja vrijedi da nemaju zajedničkih elemenata, odnosno simbolički zapisano: Xi Xj = , i z j, pri čemu je i, j = 1,2, ... ,n Za međusobno isključive događaje vrijedi aditivna teorema, koja glasi: vjerovatnoća da će nastupiti događaj X1 ili događaj X2 ili ... ili događaj Xn jednaka je zbiru njihovih vjerovatnoća, odnosno: P(X1X2...Xn) = P(X1) + P(X2) + ... + P(Xn) ili kraće: ܲሺڂୀଵ ܺ ሻ ൌ σୀଵ ܲሺܺ ሻ Ukoliko posmatrani događaji nisu nezavisni tj.presjek dvaju događaja (npr. X1 i X2) nije prazan skup na istom skupu elementranih događaja, tada je vjerovatnoća da nastupi događaj X1 ili X2 jednaka je zbiru njihovih vjerovatnoća umanjenom za vjerovatnoću njihovog istovremenog dešavanja, odnosno simbolički zapisano: P(X1X2) = P(X1) + P(X2) – P(X1X2). Za međusobno nezavisne događaje vrijedi multiplikativna teorema koja glasi: vjerovatnoća da će nastupiti događaj X1 i X2 i ... i Xn jednaka je proizvodu vjerovatnoća pojedinih događaja, odnosno simbolički zapisano: P(X1X2...Xn) = P(X1)P(X2) ... P(Xn) ili kraće P(ځୀଵ ܺ ሻ = ςୀଵ ܲሺܺ ሻ
123
Slučajna promjenljiva je funkcija kojom se definišu ishodi određenog slučajnog događaja, pri čemu oblik povezanosti vrijednosti slučajne promjenljive i vjerovatnoće njezinog nastanka predstavlja raspored (distribuciju) vjerovatnoće posmatrane slučajne promjenljive. Slučajna promjenljiva može biti prekidna (diskontinuirana) i neprekidna (kontinuirana). Diskontinuirana slučajna promjenljiva je ona koja može da poprimi konačno mnogo vrijednosti, dok kontinuirana slučajna promjenljiva može da poprimi beskonačno mnogo vrijednosti. Distribucija vjerovatnoće diskontinuirane slučajne promjenljive predstavljena je skupom uređenih parova vrijednosti slučajne promjenljive i njezine vjerovatnoće, dok kod kontinuirane promjenljive distribucija vjerovatnoće povezuje interval vrijednosti slučajne promjenljive sa vjerovatnoćom. Kod kontinuirane slučajne promjenljive distribucija vjerovatnoće je kumulativna funkcija. Distribucija vjerovatnoće može biti zadana analitički, grafički ili tabelarno, tako da razlikujemo teorijsku i empirijsku distribuciju vjerovatnoće slučajne promjenljive. Distribucija vjerovatnoće slučajne promjenljive analizira se kao statistička serija kod koje je očekivana vrijednost slučajne promjenljive ekvivalentna je aritmetičkoj sredini statističke serije, kao i druge deskriptivne veličine, a najčešće varijansa (standardna devijacija). Distribucija vjerovatnoće može biti funkcija jedne ili više slučajnih promjenljivih, tako da se definišu zajedničke, marginalne i uslovne distribucije vjerovatnoće i njihove karakteristike. Primjer 3.1. Slučajni eksperiment se sastoji od: -
Bacanja novčića;
-
Bacanja idealne kocke;
-
Izvlačenje karte iz špila od 52 karte.
Potrebno je: a. Odrediti prostor slučajnog eksperimenta (S); b. Odrediti sve elemente skupa F(S). Rješenje: a. Bacanje novčića predstavlja slučajni eksperiment, jer su moguća dva ishoda (pismo i grb), eksperiment se može ponavljati veći broj puta i ishodi eksperimenta su neizvjesni. Elementarni događaji obuhvataju dva moguća ishoda: S = ^E1, E2`;
124
Bacanje idealne kocke predstavlja slučajan eksperiment, jer je moguće šest ishoda (broj – vrijednost od jedan do šest), eksperiment se može ponavljati veći broj puta i ishodi eksperimenta su neizvjesni. Elementarni događaj obuhvata šest mogućih ishoda: S = ^E1, E2, E3, E4, E5, E6`; Izvlačenje karte iz špila od 52 karte predstavlja slučajan eksperiment, jer je moguće pedeset dva ishoda (brojevi od 1 – 10 u četiri boje i tri slike, takođe, u četiri boje), eksperiment se može ponavljati veći broj puta i ishodi eksperimenta su neizvjesni. Elementrani događaji su: S = ^E1, E2, E3, ... , E52`; b. Elementi skupa F(S), u slučaju bacanja novčića, su: F(S) = ^E1E2, E1, E2, E1E2` = ^, E1, E2, S`. Elementi skupa F(S), u slučaju bacanja idealne kocke, su: F(S) = ^, E1, E2, ... , E6, E1E2, E1E3, E1E6, E2E3, E2E4, ... , E2E6 , ... , E5E6, E1E2E3, ... , E4E5E6, ... , S`. Elementi skupa F(S), u slučaju izvlačenja karte iz špila 52 karte, su: F(S) = ^, E1, E2, ... , E52, E1E2, E1E3, ..., E1E52, E2E3, E2E4, ... , E2E52 , ... , E51E52, E1E2E3, ... , E50E51E52, ... , S`. Primjer 3.2. Zavod za zaštitu zdravlja preporučuje preventivne mjere za sprečavanje epidemije gripe u zimskom periodu. Odabrane su dvije grupe dobrovoljaca istih skonosti ka infekciji virusom gripa i jedna grupa je kao preventivnu mjeru koristila vakcinu protiv gripa, a druga preventivne mjere u obliku korištenja pomoćnih ljekovitih sredstava sa ciljem jačanja imuniteta. Ishod preventivnih mjera je neizvjesan: preventivna mjera može, ali ne mora spriječiti infekciju virusom gripe. Potrebno je: a. Odrediti prostor elementarnih događaja; b. Za ishod X „barem jedna mjera sprečava infekciju virusom gripa“ odrediti pripadajuće članove. Rješenje: a. Ukoliko ishod primjene pomenutih preventivnih mjera označimo kao: -
preventivna mjera vakcinacije sprečava infekciju virusom gripa – E1;
125
preventivna mjera korištenje pomoćnih ljekovitih sredstava sa ciljem jačanja imuniteta
-
sprečava infekciju virusom gripa – E2; -
preventivna mjera vakcinacije ne sprečava infekciju virusom gripa – E3;
-
preventivna mjera korištenje pomoćnih ljekovitih sredstava sa ciljem jačanja imuniteta ne sprečava infekciju virusom gripa – E4. Prostor elementarnih događaja imaće članove: S = ^(E1, E2), (E1, E4), (E2, E3), (E3, E4)`;
b. Ishod „barem jedna mjera prevencije sprečava infekciju virusom gripe, je podskup skupa S sa sljedećim članovima: X = ^(E1, E2), (E1, E4), (E2, E3)`. Primjer 3.3. Idelana kocka se baca jednom. Potrebno je odrediti vjerovatnoću sljedećih slučajnih događaja: a. Dobijen je broj dva; b. Nije dobijen broj dva; c. Dobijen je paran broj; d. Dobijen je broj 2 ili broj 4; e. Dobijen je broj 2 i broj 4. Rješenje: Skup elementarnih događaja je: S = ^1,2,3,4,5,6` a. Slučajni događaj je „Dobijen je broj dva“, tj. X1 = ^2`. U skupu od šest mogućih ishoda (elementarnih događaja) jedan je povoljan. Ovdje imamo: n = 6 i m = 1 P(X1) =
ଵ ൌ ൌ Ͳǡͳሶ ൌ ͳǡΨ. Vjerovatnoća da se bacanjem idealne kocke dobije broj dva
iznosi 16,67%. b. Slučajni događaj je „Nije dobijen broj dva“, tj. തതത ܺଵ = ^1,3,4,5,6`, lako je uočiti da je ovaj slučajni događaj suprotan događaju „Dobijen je broj dva“, tako da sadrži elemente koji തതതଵ = S / X1. U skupu od šest mogućih ishoda nisu sadržani u skupu X1, odnosno vrijedi ܺ തതതଵ ) = (elementarnih događaja) pet je povoljnih. Ovdje imamo: n = 6 i m = 5 P(ܺ
ହ തതതଵ ) = 1 – P(X1) = 1 – ൌ ൌ Ͳǡͺ͵ሶ ൌ ͺ͵ǡ͵͵Ψ, isti rezultat mogli smo dobiti i kao P(ܺ
0,1667 = 0,8333. Vjerovatnoća da se bacanjem idealne kocke ne dobije broj dva iznosi 83,33 %. 126
c. Slučajni događaj je „Dobijen paran broj“, tj. X2 = ^2,4,6`. U skupu od šest mogućih ishoda (elementarnih događaja) tri su povoljna. Ovdje imamo: n = 6 i m = 3 P(X2) =
ଷ
ൌ ൌ Ͳǡͷ ൌ ͷͲΨ. Vjerovatnoća da se bacanjem idealne kocke ne dobije paran broj
iznosi 50 %. d. Ovdje imamo dva slučajna događaja i to „Dobijen broj dva“ I „Dobijen je broj 4“ tj. X2 = ^2` i X3 = ^4`, događaji X2 i X3 su isključivi, tako da ovdje imamo: n = 6, m2 = 1 i m3 = 1 P(X2) =
భ
ଵ
య
ൌ ൌ ͲǡͳǢP(X3) =
P(X2X3) = P(X2) + P(X3) =
ଵ
ଵ
ൌ ൌ Ͳǡͳ. Primjenom aditivne teoreme dobijamo:
ଵ
ଶ
ൌ ൌ Ͳǡ ͵ሶ ൌ 33,33%. Vjerovatnoća da se bacanjem
idealne kocke dobije broj dva ili broj četiri iznosi 33,33 %. e. Ovdje imamo dva slučajna događaja i to „Dobijen broj dva“ I „Dobijen je broj 4“ tj. X2 = ^2` i X3 = ^4`, događaji kojim označavamo istovremeno dešavanje događaja X2 i X3 koji su međusobno isključivi predstavlja nemoguć događaj, tako da je vjerovatnoća da se istovremeno dese pomenuti slučajni događaji jednaka je nuli. Vjerovatnoća da bacanjem idealne kocke dobije broj dva i broj četiri iznosi 0 %, jer je navedeni događaj nemoguć. Primjer 3.4. Prema podacima o zdravstvenom stanju radnika jednog preduzeća od njih 200, 24 radnika imaju sistolni i dijastolni pritisak ispod donje granice, a njih 89 iznad gornje granice. Iz iste grupe radnika, njih 71 ima neujednačen ritam rada srca, a među njima 42 pacijenta istovremeno i sistolni i dijstolni pritisak izvan granica normale (ispod donje granice ili iznad gornje granice). Radnici koji imaju sistolni i dijastolni pritisak unutar granica tolerancije te ujednačen ritam rada srca ispunjavaju uslove za određen oblik radnog angažovanja. Potrebno je izračunati procenat radnika koji ispunjavaju uslove za navedeni oblik radnog angažovanja! Rješenje: Ovdje imamo elementarne događaje: X1 – sistolni i dijastolni pritisak ispod donje granice; X2 – sistolni i dijastolni pritisak iznad gornje granice; X3 – sistolni i dijastolni pritisak unutar granica tolerancije; X4 – neujednačen ritam rada srca; X5 – ujednačen ritam rada srca. 127
Potrebno je odrediti vjerovatnoću suprotnog događaja, događaju da radnik bilo koji od navedenih zdravstvenih problema. Nevedeno podrazumijeva da radnik ima sistolni i dijstolni pritisak ispod donje granice ili sistolni i dijastolni pritisak iznad gornjr granice ili neujednačen ritam rada srca, odnosno: P(X1X2X4) = P(X1) + P(X2) + P(X4) – P>(X1X2)X4@ =
ଶସ ଶ
଼ଽ ଶ
ଵ ଶ
െ
ସଶ ଶ
ൌ
ଵସଶ ଶ
ൌ
Ͳǡͳ Suprotan događaj događaju da radnik ima bar jedan od navedenih zdravstvenih problema jeste da radnik nema zdravstvenih problema, odnosno: തതതതതതതതതതതതതതതത P(ܺ ଵ ܺ ଶ ܺ ସ ሻ = 1 – P(X1X2X4) = 1 – 0,71 = 0,29 = 29%. Vjerovatnoća da radnik zaposlen u posmatranom preduzeću ima sistolni i dijastolni pritisak u granicama tolerancije, kao i ujednačen ritam rada srca je 29% 3.1. Modeli distribucije vjerovatnoće slučajne promjenljive Slučajna promjenljiva predstavlja promjenljivu koja svakom ishodu slučajnog eksperimenta pridružuje vrijednost iz skupa realnih brojeva. Ako su vrijednosti slučajne promjenljive x1, x2, ... , xi, ... , xn, pri čemu su vjerovatnoće njihovog dešavanja p(x1), p(x2), ... , p(xi), ... , p(xn), funkcija koja skup vrijednosti slučajne promjenljive preslikava u njihove vjerovatnoće predstavlja funkciju vjerovatnoće slučajne promjenljive. f(x) = ^(x1,p(x1)), (x2,p(x2)), ... ,(xi, p(xi)), ... , (xn,p(xn))` Za određivanje vjerovatnoće nastupa događaja X d xi, odnosno vjerovatnoća da promjenljiva X poprimi vrijednost manju ili jednaku vrijednosti xi, definiše se pomoću kumulativne vjerovatnoće P(X d xi) ili F(xi), koja se naziva funkcijom distribucije, a može se zapisati na sljedeći način: P(X d xi) = F(xi) = σ௫ஸ௫ ሺݔ ሻ Osobine funkcije distribucije vjerovatnoće su: ǡ ݔ ൏ ݔ Ͳ ܨሺݔ ሻ ൌ ൝Ͳ ܨሺݔ ሻ ͳ ǡ ݔ ݔ ݔ௫ ǡ ݔ ݔ௫ ͳ Funkcija distribucije vjerovatnoće slučanje promjenljive je monotono neopadajuća funkcija, jer se formira postepenim sabiranjem vrijednosti većih od nule ili jednakih nuli.
128
Očekivana vrijednost slučajne promjenljive E(xi), definiše se kao zbir proizvoda vrijednosti slučajne promjenljive i vjerovatnoće njezinog nastanka, a izračunava se korištenjem sljedećeg obrasca:
ܧሺݔ ሻ ൌ ߤ ൌ
ۓ ݔ ή ሺݔ ሻ ǡ ݔܽݒ݆݈݆݅݊݁݉ݎ݆݈݁݇݅݇ݑ ܽ݊݀݅݇݁ݎሺ݀݅ܽ݊ܽݎ݅ݑ݊݅ݐ݊݇ݏሻ ۖ ାஶ ۔න ݔ ݂ሺݔ ሻ݀ݔǡ ݔܽݒ݆݈݆݅݊݁݉ݎ݆݈݁݇݅݇ݑ ݊݁ܽ݊݀݅݇݁ݎሺ݇ܽ݊ܽݎ݅ݑ݊݅ݐ݊ሻ ۖ ିەஶ
Očekivana vrijednost slučajne promjenljive xi ekvivalentna je aritmetičkoj sredini slučajne promjenljive (μ). Varijansa slučajne promjenljive predstavlja mjeru varijabiliteta, a njezina vrijednost se određuje korištenjem sljedećeg obrasca:
ܧሾሺݔ െ ߤሻଶ ሿ ൌ ߪ ଶ ൌ
ଶ ۓሺݔ െ ߤሻ ή ሺݔ ሻ ǡ ݔܽݒ݆݈݆݅݊݁݉ݎ݆݈݁݇݅݇ݑ ܽ݊݀݅݇݁ݎ ۖ ାஶ
۔න ሺݔ െ ߤሻଶ ݂ሺݔ ሻ݀ݔǡ ݔܽݒ݆݈݆݅݊݁݉ݎ݆݈݁݇݅݇ݑ ݊݁ܽ݊݀݅݇݁ݎ ۖ ିەஶ
Varijansa je apsolutna mjera varijabiliteta kojom se izražava srednje kvadratno odstupanje od očekivane vrijednosti (aritmetičke sredine). Standardna devijacija (σ) predstavlja linearni oblik varijanse, čija vrijednost se određuje kao మ
pozitivni kvadratni korijen iz varijanse, odnosno: ߪ ൌ ξߪ ଶ . Standardana devijacija označava proječno odstupanje od očekivane vrijednosti, a kao i varijansa predstavlja apsolutnu mjeru varijabiliteta. Koeficijent varijacije predstavlja relativnu mjeru varijabiliteta, kojom se izražava procenat varijabiliteta u odnosu na očekivanu vrijednost slučajne promjenljive, a izračunava se kao količnik ఙ
između standardne devijacije i aritmetičke sredine pomnožen sa 100%, odnosno: ܭ௩ ൌ ή ͳͲͲΨ. ఓ
3.1.1. Modeli distribucije vjerovatnoće diskontinuirane slučajne promjenljive Funkcija vjerovatnoće diskontinuirane slučajne promjenljive treba da zadovolji sljedeće uslove: -
Vrijednosti vjerovatnoće slučanje promjenljive kreću se u intervalu od nula do jedan, odnosno vrijedi: 0 d p(xi) d 1, i, i = 1,2,3, ... , i , ... , n;
129
-
Zbir vrijednosti vjerovatnoća slučajne promjenljive na polju elementarnih događaja predstavlja siguran događaj, odnosno vrijedi: σୀଵ ሺݔ ሻ ൌ ͳ;
-
Funkcija vjerovatnoće slučajne promjenljive na intervalu između dvije vrijednosti (x1 i x2, pri čemu je x1 < x2) dobije se kao zbir vrijednosti funkcije vjerovatnoće donje granice intervala (x1) do neke vrijednosti između donje i gornje granice (k, pri čemu je x1 < k < x2) sa jedne strane, i sa druge strane vrijednosti funkcije distribucije vjerovatnoće na intervalu od te od iste vrijednosti (k) do gornje granice posmatranog intervala (x2). Naprijed navedeno simbolički se može zapiastai na sljedeći način: P(x1 ≤ X ≤ x2) = σ௫భஸ௫ ஸ௫మ ሺݔ ሻ ൌ σ௫భஸ௫ ஸ ሺݔ ሻ σழ௫ ஸ௫మ ሺݔ ሻ; x1 < k < x2; P(x1 ≤ X ≤ x2) = P(x1 ≤ X ≤ k) + P(k < X ≤ x2).
Teorijski modeli distribucije vjerovatnoće prekidne (diskontinuirane) slučajne promjenljive predstavljaju funkcije vjerovatnoće slučajne promjenljive čiji su analitički oblik i osnonove osobine poznati. Među brojnim teorijskim modelima, najčešće korišteni su: binomni, Poasonov, hipergeometrijski i uniformni. Binomna (Bernulijeva - Bernoulli) distribucija vjerovatnoće slučajne promjenljive je funkcija kojom se oderđuje vjerovatnoća da se unutar n pokušaja postigne xi uspjeha uz uslove da: -
U jednom pokušaju moguća su samo dva ishoda označeni kao „uspjeh“ i „neuspjeh“;
-
Poznata je vjerovatnoća „uspjeha“ u svakom pokušaju (p), pri čemu je vjerovatnoća „uspjeha“ nezavisna od pokušaja, odnosno u svakom pokušaju vjerovatnoća uspjeha je ista. Vjerovatnoća „neuspjeha“ u jednom pokušaju iznosi q = 1 – p i u svakom pokušaju ima istu vrijednost;
-
Pokušaji su nezavisni.
Funkcija vjerovatnoće kod binomnog rasporeda ima sljedeći oblik: ݊ P(xi) = ቀ ݔቁ ή ௫ ݍି௫ ; xi = 0,1,2, ... , n; 0 ≤ p ≤ 1; q = 1 – p Najvažnije statističke karakteristike binomnog rasporeda određuju se na sljedeći način:
130
-
Očekivana vrijednost: E(xi) = μ = n·p;
-
Varijansa: σ2 = E[(xi – μ)2] = n·p·q;
-
Koeficijent asimetrije: α3 =
-
Koeficijent zaobljenosti: ߙସ ൌ ͵
ଵିଶ ξ
; ଵି
.
Poasonova (Poisson) distribucija je funkcija kojom se izračunava vjerovatnoća rijetkih događaja, odnosno događaja koji se javljaju sa malom vjerovatnoćom, kod koje se izračunava da se određuje vjerovatnoća da se ostvari xi određenih ishoda u određenoj jedinici vremena, površine, zapremine, udaljenosti... uz uslova da: -
Vjerovatnoća ishoda (p) u svakom pokušaju je ista;
-
Ishodi pokušaja u mjernim jedinicama su nezavisni;
-
Očekivana vrijednost broja ishoda u posmatranoj mjernoj jedinici iznosi λ, tj.μ = λ.
Poasonov raspored se može aproksimirati binomnim rasporedom sa malom očekivanom vrijednošću i velikim brojem pokušaja. Funkcija vjerovatnoće kod Poasonovog rasporeda ima sljedeći oblik: P(xi) =
షഊ ఒೣ ௫Ǩ
; xi = 0,1,2, ... , n; λ > 0
Najvažnije statističke karakteristike Poasonovog rasporeda određuju se na sljedeći način: -
Očekivana vrijednost: E(xi) = μ = λ;
-
Varijansa: σ2 = E[(xi – μ)2] = λ;
-
Koeficijent asimetrije: α3 =
-
Koeficijent zaobljenosti: ߙସ ൌ ͵ .
ଵ ξఒ
; ଵ
ఒ
Hipergeometrijski raspored je funkcija kojom se izračunava vjerovatnoća da se u uzorku sa n elemenata iz osnovnog skupa (populacije) od N elemenata nađe xi elemenata sa određenom osobinom ukoliko u osnovnom skupu M elemenata ima posmatranu osobinu. Pri tome, n – xi elemenata u uzorku nema posmatranu osobinu, dok je njihov broj u osnovnom skupu N – M. Lako je zaključiti da N – M elemenata u osnovnom skupu nema posmatranu osobinu, dok je njihov broj u uzorku n – xi. Izbor elemenata u uzorak može se vršiti „sa ponavljanjem“ ili „bez ponavljanja“. Ukoliko se izbor elemenata vrši „bez ponavljanja“, jednom izabrani element ne može ponovo biti izabran, kada pokušaji nisi nezavisni. Kod izbora elemenata „sa ponavljanjem“, izabranom elementu se ustanovi vrijednost posmatranog obilježja, pri čemu izabrani element i dalje ostaje u okviru izbora i može biti ponovo izabran. Izbora elemenata „sa ponavljanjem“ je postupak u kome su pokušaji međusobno nezavisni (imaju osobine Bernulijevog eksperimenta). Ukoliko je obim uzorka manji od 5% osnovnog skupa, hipergeometrijski raspored se može aproksimirati binomnim rasporedom. Funkcija vjerovatnoće kod hipergeometrijskog rasporeda ima sljedeći oblik: 131
ெ ேିெ ൬ ൰൬ ൰ ௫ ି௫ ; ே ቀ ቁ
P(xi) =
xi = 0,1,2, ... , n; xi ≤ M; n – xi ≤ N – M; 1 ≤ M ≤ N; N = 0,1,2, ... ; n, M, N N Najvažnije statističke karakteristike hipergeometrijskog rasporeda određuju se na sljedeći način: -
ெ
ெ
ே
ே
Očekivana vrijednost: E(xi) = μ = n· ൌ ݊ ή ;p = 2
ேି
2
Varijansa: σ = E[(xi – μ) ] = npqቀ
ேିଵ
ቁ.
Prekidna uniformna distribucija je distribucija slučajne promjenljive uz uslova da: -
Slučajna promjenljiva poprima vrijednost iz konačnog skupa mogućih vrijednosti (prostor slučajnog eksperimenta je konačan skup);
-
Svi mogući ishodi su jednako vjerovatni.
Funkcija vjerovatnoće kod uniformnog rasporeda ima sljedeći oblik: P(xi) =
ଵ
; xi = 0,1,2, ... , n; n Z
Najvažnije statističke karakteristike uniformnog rasporeda određuju se na sljedeći način: ାଵ
-
Očekivana vrijednost: E(xi) = ߤ ൌ
-
Varijansa: σ2 = E[(xi – μ)2] =
-
Koeficijent asimetrije: α3 =0;
-
Koeficijent zaobljenosti: ߙସ ൌ ቀ͵ െ
ଶ
;
మ ିଵ ଵଶ
;
ଷ
ସ
ସ
మ ିଵ
ቁ.
Primjer 3.5. Analitičar poslovanja procjenjuje efikasnost rada proizvodnih radnika u osmosatnom radnom vremenu, pri čemu je radni učinak radnika iskazan vjerovatnoćom ostvarivanja odgovarajućeg radnog učinka. Radni učinak izražava se kao obim proizvodnje u jednoj smjeni izražen brojem proizvedenih jedinica proizvoda. Distribucija vjerovatnoće radnog učinka radnika prikazana je u sljedećoj tabeli: Radni učinak (kom)
30
40
50
60
70
80
90
Vjerovatnoća ostvarenja radnog učinka
0,08 0,16 0,19 0,17 0,16 0,14 0,07 0,03
Tabela 70. Distribucija vjerovatnoće radnog učinka radnika u posmatranom preduzeću
132
100
Potrebno je: a. Odrediti očekivanu vrijednost, varijansu i koeficijent varijacije, uz interpretaciju dobijenih rezultata; b. Ukoliko je radni učinak normiran na 70 proizvoda u toku smjene, kolika je vjerovatnoća da radnik ne ostvari „normu“; c. Prikazati distribuciju vjerovatnoće poligonom frekvencije. Rješenje: Elemente potrebne za izračunavanje traženih veličina možemo prikazati u sljedećoj radnoj tabeli: Xi
P(Xi)
Ukupno: (Σ)
Xi2· P(Xi)
Xi· P(Xi)
Kumulanta P(X ≤ xi)
30
0,08
2,4
72
0,08
40
0,16
6,4
256
0,24
50
0,19
9,5
475
0,33
60
0,17
10,2
612
0,50
70
0,16
11,2
784
0,66
80
0,14
11,2
896
0,80
90
0,07
6,3
567
0,87
100
0,03
3
300
1,00
1,00
60,2
3962
-
Tabela 71. Radna tabela – elementi za izračunavanje očekivane vrijednosti i varijanse distribucije vjerovatnoće
a. Očekivana vrijednost distribucije ima vrijednost: E(xi) = Σxi·p(xi) = 60,2 ≈ 60 – očekivani radni učinak radnika posmatranog preduzeća iznosi 0 proizvoda u toku jedne smjene, uzimajući u obzir da je radni učinak normiran na 70 proizvoda u toku jedne smjene, zaklučujemo da se ne može očekivati ispunjenje norme radnika u preduzeću. Preduzeće može izvršiti mjere poboljšanja radne efikasnosti jer nije zadovoljavajuća; Varijansa ima vrijednost: σ² = E(x²) - μ² = Σxi2·p(xi) - μ² = 3962 – 60,2² = 337,69 – prosječno kvadratno odstupanje od prosječnog učinka, ima visoku vrijednost što znači da su razlike u radnom učinku visoke; మ
Standardna devijacija ima vrijednost: ߪ ൌ ξߪ ଶ ൌ మξ͵͵ǡͻ = 18,38 – prosječno odstupanje od prosječnog učinka iznosi 18 proizvoda u toku jedne smjene.
133
Koeficijent varijacije ima vrijednost: KV =
ఙ ఓ
ή ͳͲͲΨ ൌ
ଵ଼ǡଷ଼ ǡଶ
ή ͳͲͲΨ = 30,54% - posječno
odstupanje od prosječnog učinka iznosi 18,38 odnosno 30,54% - varijabilitet u pogledu radnog učinka može se smatrati relativno umjerenim. b. Vjerovatnoća da radnik ne ostvari normu iznosi: P(xi < 70) = 0,08 + 0,16 + 0,19 + 0,17 = 0,60 = 60% - vjerovatnoća da radnik neće ispuniti normu iznosi 60%, što znači da je neophodno popraviti radni učinak, dodatnim osposobljavanjem radnika i/ili stimulacijom radnika koji imaju radni učinak preko norme. c. Poligon frekvencija može se prikazati sljedećom ilustracijom: 0,2 0,18 0,16 0,14 0,12 0,1 0,08 0,06 0,04 0,02 0 20
30
40
50
60
70
80
90
100
110
Slika 25. Grafički prikaz poligona frekvencija distribucije vjerovatnoće radnog učinka
Primjer 3.6. Za navedene funkcije utvrditi ispunjavaju li uslove da budu funkcije vjerovatnoće: a. Primjer funkcije: xi
25
30
35
40
45
50
55
P1(xi)
0,07
0,08
0,37
0,56
0,12
0,02
0,14
Tabela 72. Primjer funkcije slučajne promjenljive P1(xi)
b. Primjer funkcije: xi P2(xi)
-3 0,02
-2 0,05
-1 0,13
0 0,15
1 0,12
2 0,21
3 0,25
Tabela 73. Primjer funkcije slučajne promjenljive P2(xi)
134
4 0,07
c. Primjer funkcije: P3(xi) =
ଵ ସయ
͵ ൬ ൰, xi = 0,1,2,3; ݔ
ଵ d. Primjer funkcije: P4(xi) = ల ൬ ൰, xi = 0,1,2,3,4,5,6; ଶ ݔ
e. Primjer funkcije: xi
-30
P5(xi)
0,12
-20 0,15
-10 0,20
0 0,18
10 0,11
20 0,21
30 0,25
40 -0,21
Tabela 74. Primjer funkcije slučajne promjenljive P5(xi)
Rješenje: a. Zbir vrijednosti vjerovatnoća je veći od 1, tj. ΣP1(xi) = 1,36 > 1, tako da navedena funkcija ne može biti funkcija vjerovatnoće. b. Navedena funkcija može biti funkcija vjerovatnoće, jer vrijedi: -
P2(xi) ≥ 0, i, i = 1, 2, 3, ... , 8
-
ΣP2(xi) = 1,
-
Npr. ܲଶ ሺെͳ ݔ ʹሻ ൌ 0,13 + 0,15 + 0,12 + 0,21 = 0,61 ili P2(െͳ ݔ ʹሻ ൌ ܲଶ ሺെͳ ݔ Ͳሻ ܲଶ ሺͲ ൏ ݔ ʹሻ = 0,28 + 0,33 =0,61;
c. Navedena funkcija ne može biti funkcija vjerovatnoće jer je: ΣP2(xi) = 0,015625·(1 + 3 + 3 + 1) = 0,125 ≠ 1. d. Navedena funkcija može biti funkcija vjerovatnoće, jer vrijedi: -
P4(xi) ≥ 0, i, i = 0, 1, 2, 3, 4, 5, 6
-
ΣP4(xi) = 0,015625 + 0,09375 + 0,234375 + 0,3125 + 0,234375 + 0,09375 + 0,015625 = 1,
-
Npr. ܲସ ሺͳ ݔ Ͷሻ ൌ 0,09375 + 0,234375 + 0,3125 +0,234375 = 0,875 ili P2(ͳ ݔ Ͷሻ ൌ ܲଶ ሺͳ ݔ ͵ሻ ܲଶ ሺ͵ ൏ ݔ Ͷሻ = 0,640625 + 0,234375 = 0,875;
e. Navedena funkcija ne može biti funkcija vjerovatnoće, jer je P5(40) = - 0,21 < 0. Primjer 3.7. Poznato je da na posmatranoj regiji u toku zimskog perioda 75% stanovnika oboli od gripe. Ukoliko posmatramo službu jednog preduzeća u kojoj je zaposleno 12 radnika. Potrebno je odrediti: a. Distribuciju vjerovatnoće slučajne promjenljive broja oboljelih od gripe iz posmatranog odjeljenja preduzeća; 135
b. Očekivanu vrijednost, standardnu devijaciju i koeficijent varijacije slučajne promjenljive! Rješenje: a. Slučajna promjenljiva „broj radnika posmatranog odjeljenja oboljelih od gripa u zimskom periodu“ ima osobine binomne raspodjele, kod koje je: -
broj pokušaja 12 (n=12);
-
vjerovatnoća uspjeha u jednom pokušaju iznosi 75% (p = 0,75);
-
vjerovatnoća neuspjeha u jednom pokušaju iznosi 25% (q = 1 – p = 1 – 0,75 = 0,25);
-
u jednom pokušaju moguća su samo dva ishoda „uspjeh“ i „neuspjeh“;
-
funkcija distribucije vjerovatnoće kojom se određuje vjerovatnoća da se unutar 12 pokušaja ostvari xi „uspjeha“ ima sljedeći oblik:
P(xi) = ൬
ͳʹ ൰ ή Ͳǡͷ௫ ή Ͳǡʹͷଵଶି௫ ; xi = 0, 1, 2, 3, ... ,12 ݔ
b. Izračunavanje očekivane vrijednosti, standardne devijacije i koeficijenta varijacije zahtijevaju pomoćni račun prikazan u narednoj radnoj tabeli: xi
12
൬
ͳʹǨ ͳʹ ͳʹ ൰ൌ ݔ ݔ Ǩ ή ሺͳʹ െ ݔ ሻǨ
P(xi)
xi·P(xi)
xi2·P(xi)
0
1
0,000000060
0,00000000
0,0000000
1
12
0,000002146
0,00000215
0,0000021
2
66
0,000035405
0,00007081
0,0001416
3
220
0,000354052
0,00106215
0,0031865
4
495
0,002389848
0,00955939
0,0382376
5
792
0,011471272
0,05735636
0,2867818
6
924
0,040149450
0,24089670
1,4453802
7
792
0,103241444
0,72269011
5,0588307
8
495
0,193577707
1,54862165
12,3889732
9
220
0,258103609
2,32293248
20,9063923
݊ Obrazac ቀ ݔቁ označava broj kombinacija bez ponavljanja od xi elemeata uzetog iz skupa od n elemenata. Dakle,
navedeno predstavlja broj načina na koliko se iz skupa od n elemenata može izabrati podskup od xi elemenata, pri čemu redoslijed elemenata ne utiče na kombinaciju. Naznačena računska operacija naziva se „n nad x“ ili „n poviše x“, a ݊ Ǩ izračunava se po obrascu: ቀ ݔቁ ൌ , pri čemu operacija „!“ označava faktorijel, odnosno proizvod svih cijelih ௫ Ǩήሺି௫ ሻǨ brojeva od broja za koji se računa do broja 1, npr.n! = n·(n – 1)·(n – 2)· ... ·3·2·1. Prilikom izračunavanja konkretnih ݂݀݁ vrijednosti često je potrebno izračunati 0! čija vrijednost po definiciji iznosi 1, tj. 0! 1 ൌ
136
10
66
0,232293248
2,32293248
23,2293248
11
12
0,126705408
1,39375949
15,3313544
12
1
0,031676352
0,38011622
4,5613947
1,000000000
9,00000000
83,2500000
Ukupno: (Σ)
Tabela 75. Radna tabela – elementi za određivanje očekivane vrijednosti, varijanse (standardne devijacije) I koeficijenta varijacije
Očekivana vrijednost slučajne promjenljive ima vrijednost: E(xi) = μ = Σxi·p(xi) = n·μ = 12·0,75 = 9, što znači da se očekuje da će u toku zimskog perioda u odjeljenju u kome je zaposleno 12 radnika njih 9 oboljeti od gripe ukoliko je vjerovatnoća da se oboli od gripe u zimskom periodu 75%. Varijansa slučajne promjenljive iznosi: σ² = E[(xi – μ)²] = n·p·q = 12·0,75·0,25 = 2,25, a మ
మ
standardna devijacija: σ = ξߪ ଶ ൌ ඥʹǡʹͷ = 1,5, prosječno odstupanje od prosječne vrijednosti iznosi ఙ
ଵǡହ
ఓ
ଽ
1,5 oboljelih, odnosno 16,67%, jer je Kv = ή ͳͲͲΨ ൌ
ή ͳͲͲΨ ൌ ͳǡΨ.
Nejvjerovatniji broj oboljelih od gripe u posmatranom odjeljenju preduzeća iznosi 9, p(xi)max = 0,258103609 Mo = 9. Pokazatelj predstavlja modus serije distribucije, odnosno modalitet obilježja sa najvećom vjerovatnoćom. Ukoliko nisu izračunate ili poznate sve vjerovatnoće slučajne promjenljive modus se može odrediti polazeći od izraza: n·p – q ≤ Mo ≤ n·p + p, polazeći od konkretnih podataka u analiziranom primjeru dobijamo: 12·0,75 – 0,25 ≤ Mo ≤ 12·0,75 +0,75 8,75 ≤ Mo ≤ 9,75 Imajući u vidu da je slučajna promjenljiva diskontinuirana (prekidna), modus je cijeli broj između 8,75 i 9,75 a to je 9, odnosno zaključujemo da je Mo = 9. Primjer 3.8. Kod profesionalnih košarkaša efikasnost šuta kod izvođenja slobodnih bacanja iznosi 82%. Kolika je vjerovatnoća da na jednoj utakmici od 20 slobodnih bacanja ekipa realizuje 17 pogodaka? Koliko će pogodaka najvjerovatnije realizovati ekipa? Rješenje: Ovdje imamo slučajnu promjenljivu „broj realizovanih slobodnih bacanja unutar 20 pokušaja“, kod koje distribucija vjerovatnoće ima osobine binomne raspodjele, kod koje je: -
broj pokušaja 20 (n=20); 137
-
vjerovatnoća uspjeha u jednom pokušaju iznosi 82% (p = 0,82);
-
vjerovatnoća neuspjeha u jednom pokušaju iznosi 18% (q = 1 – p = 1 – 0,82 = 0,18);
-
u jednom pokušaju moguća su samo dva ishoda „uspjeh“ i „neuspjeh“;
-
funkcija distribucije vjerovatnoće kojom se određuje vjerovatnoća da se unutar 20 pokušaja ostvari xi „uspjeha“ ima sljedeći oblik:
P(xi) = ൬
ʹͲ ൰ ή Ͳǡͺʹ௫ ή Ͳǡͳͺଶି௫ ; xi = 0, 1, 2, 3, ... ,20 ݔ
Vjerovatnoća da slučajna promjenljiva ima vrijednost 17 jednaka je: ଶǨ ଶήଵଽήଵ଼ήଵǨ ଼ସ ʹͲ ቁ ή Ͳǡͺʹଵ ή Ͳǡͳͺଷ ൌ ή ͲǡͲ͵ͶʹͶ ή ͲǡͲͲͷͺ͵ʹ ൌ ή ͲǡͲͲͲʹ ൌ ή ଵǨήଷǨ ଵǨή ͳ
P(17) = ቀ
ͲǡͲͲͲʹ ൌ ͳͳͶͲ ή ͲǡͲͲͲʹ ൌ ͲǡʹʹͺͲʹ ൌ ʹʹǡͺΨ Vjerovatnoća da košarkaška ekipa uspješno realizuje 17 slobodnih bacanja iznosi 22,78%. Očekivana vrijednost slučajne promjenljive ima vrijednost: E(xi) = μ = Σxi·p(xi) = n·μ = 20·0,82 = 16,4, što znači da se očekuje da će košarkaška ekipa u toku utakmice realizovati 16 (16,4≈16) slobodnih bacanja ukoliko je efikasnost šuta 82% Varijansa slučajne promjenljive iznosi: σ² = E[(xi – μ)²] = n·p·q = 20·0,82·0,18 = 2,952, a మ
మ
standardna devijacija: σ = ξߪ ଶ ൌ ඥʹǡͻͷʹ = 1,72, prosječno odstupanje od prosječne vrijednosti iznosi 2 realizovana slobodna bacanja (1,72≈2), odnosno 10,48%, jer je Kv =
ఙ ఓ
ή ͳͲͲΨ ൌ
ଵǡଶ ଵǡସ
ή
ͳͲͲΨ ൌ ͳͲǡͶͺΨ. Nejvjerovatniji broj realizovanih slobodnih bacanja po utakmici određujemo pomoću od izraza: n·p – q ≤ Mo ≤ n·p + p, polazeći od konkretnih podataka u analiziranom primjeru dobijamo: 20·0,82 – 0,18 ≤ Mo ≤ 20·0,82 +0,82 16,22 ≤ Mo ≤ 17,22 Imajući u vidu da je slučajna promjenljiva diskontinuirana (prekidna), modus je cijeli broj između 16,22 i 17,22 a to je 17, odnosno zaključujemo da je Mo = 17, zaključujemo da će na košarkaškoj utakmici košarkaška ekipa najvjerovatnije realizovati 17 slobidnih bacanja. Primjer 3.9. Prema raspoloživim podacima jedne zdravstvene ustanove, broj pacijenata koji u toku radnog dana zahtijevaju intervenciju vađenja krvi radi određenih labaratorijskih analiza, u toku 330 dana navedeni su u sljedećoj tabeli: 138
Broj pacijenata
0
1
2
3
4
Broj dana
18 31 74 78 56
5
6
7
8
9 i više
16
15
6
3
3
Tabela 76. Distribucija radnih dana prema broju pacijenata koji zahtijevaju vađenje krvi radi labaratorijske analize
Potrebno je odrediti: a. Distribuciju vjerovatnoće slučajne promjenljive „broj pacijenata koji u toku radnog dana zahtijevaju intervenciju vađenja krvi radi određenih labaratorijskih analiza“; b. Očekivanu vrijednost, standardnu devijaciju i koeficijent varijacije slučajne promjenljive! Rješenje: a. Slučajna promjenljiva „broj pacijenata koji u toku radnog dana zatraže intervenciju vađenja krvi radi određenih labaratorijskih analiza“ ima osobine Poasonove raspodjele, kod koje je: -
broj pokušaja 9 (n=9);
-
analizira se vjerovatnoća nastajanja određenog događaja u jedinici vremena;
-
funkcija distribucije vjerovatnoće kojom se određuje vjerovatnoća da se unutar radnog dana xi pacijenata zatraži određenu intervenciju ima sljedeći oblik:
P(xi) =
ఒೣ ή షഊ ௫ Ǩ
ൌ
ଷೣ ήǡସଽ଼
σ ௫
௫ Ǩ
σ
; xi = 0,1,2... parametrar λ = E(xi) = μ =
ൌ
ଽ ଷ
ൌ ͵ǡͲͲ,
određuje se kao ponderisina aritmetička sredina serije distribucija frekvencija. b. Izračunavanje očekivane vrijednosti, standardne devijacije i koeficijenta varijacije zahtijevaju pomoćni račun prikazan u narednoj radnoj tabeli: xi
fi
0 1 2 3 4 5 6 7 8 9 Ukupno: (Σ) 300
fi xi 18 31 74 78 56 16 15 6 3 3
P(xi) 0 31 148 234 224 80 90 42 24 27 900
fi xi2
xi·P(xi) 0,050 0,149 0,224 0,224 0,168 0,101 0,050 0,022 0,008 0,004 1,000
0,000 0,149 0,448 0,672 0,672 0,504 0,302 0,151 0,065 0,036 3,000
0 31 296 702 896 400 540 294 192 243 3594
Tabela 77. Radna tabela – elementi za određivanje očekivane vrijednosti, varijanse (standardne devijacije) I koeficijenta varijacije
139
Očekivana vrijednost slučajne promjenljive ima vrijednost: E(xi) = μ = Σxi·p(xi) = μ = λ = 3, što znači da se očekuje da će u toku dana tri pacijenta zahtijevati intervenciju vađenja krvi radi određene analize. Najvjerovatniji broj pacijenata koji će zahtijevati intervenciju vađenja krvi radi određene analize iznosi 2 ili 3, jer je p(xi)max = 0,224, što odgovara modalitetima 2 i 3, odnosno Mo1 = 2; Mo2 = 3. Do istog rezultata možemo doći korištenjem sljedećeg obrasca: λ – 1 ≤ Mo ≤ λ, polazeći od konkretnih podataka u analiziranom primjeru dobijamo: 3 – 1 ≤ Mo ≤ 3 2 ≤ Mo ≤ 3 Mo1 = 2 i Mo2 = 3. Modus je cjelobrojna vrijednost od 2 do 3, a to su dva i tri. Posmatrana distribucija je bimodalna, sa modusima 2 i 3, u toku jedne smjene najčešće će dva ili tri pacijenta zahtijevati intervenciju vađenja krvi radi određene analize. Varijansa slučajne promjenljive iznosi: σ² = E[(xi – μ)²] = λ = 3 = మ
ଷହଽସ ଷ
െ ͵ଶ ൌ ʹǡͻͺ ൎ ͵, a
మ
standardna devijacija: σ = ξߪ ଶ ൌ ξ͵ = 1,73, prosječno odstupanje od prosječne vrijednosti iznosi 2 ఙ
ଵǡଷ
ఓ
ଷ
pacijenta (1,73≈2), odnosno 57,67%, jer je Kv = ή ͳͲͲΨ ൌ
ή ͳͲͲΨ ൌ ͷǡΨ.
Primjer 3.10. U proizvodnom pogonu jednog preduzeća imstalirana je mašina „M“ kod koje su u toku sedmice zabilježena prosječno dva zastoja u radu, zastoji u radu dešavaju se nezavisno i sa istom vjerovatnoćom. Potrebno je odrediti vjerovatnoću da se u toku sedmice dese: a. Manje od dva zastoja; b. Više od pet zastoja; c. Najvjerovatniji broj zastoja u radu mašine sedmično. Rješenje: Broj zastoja u radu mašine „M“ u toku radne sedmice je prekidna (diskontinuirana) slučajna promjenljiva, koja pripada Poasonovoj raspodjeli sa parametrom λ = 2. Distribucija vjerovatnoće slučajne promjenljive ima oblik: P(xi) =
ଶೣ షమ ௫ Ǩ
; xi = 0,1,2, ...
a. P(xi < 2) = P(0) + P(1) =
140
ଶబ షమ Ǩ
ଶభ షమ ଵǨ
ൌ Ͳǡͳ͵ͷ͵ ͲǡʹͲ ൌ ͲǡͶͲͲ
Zaključujemo da se manje od dva zastoja u radu mašine mogu očekivati sa vjerovatnoćom 40,6%. b. P(xi > 5) = 1 – [P(0) + P(1) + P(2) + P(3) + P(4) + P(5)] = 1 - [ ଶయ షమ ଷǨ
ଶర షమ ସǨ
ଶఱ షమ ହǨ
ଶబ షమ Ǩ
ଶభ షమ ଵǨ
ଶమ షమ ଶǨ
] = 1 – (0,1353 + 0,2707 + 0,2707 + 0,1804 + 0,0902 + 0,361) = 1 –
0,9834 = 0,0166 Zaključujemo da se više od pet zastoja u radu mašine može očekivati sa vjerovatnoćom 1,66%. Najvjerovatniji broj zastoja određujemo kao modalitet obilježja sa najvećom vjerovatnoćom ili korištenjem obrasca: λ – 1 ≤ Mo ≤ λ, polazeći od konkretnih podataka u analiziranom primjeru dobijamo: 2 – 1 ≤ Mo ≤ 2 1 ≤ Mo ≤ 2 Najvjerovatniji broj zastoja u radu mašine „M“ je 1 ili 2 zastoja sedmično. Primjer 3.11. Prema evidenciji doma zdravlja u regiji od 150 registrovanih pacijenata te regije, njih 30 ima 0 krvnu grupu. Na sistematskom pregledu učenika srednje škole jedno odjeljenje čini 25 učenika. Potrebno je odrediti: a. Oblik funkcije vjerovatnoće slučajne promjenljive; b. Odrediti vjerovatnoću da 15 učenika ima nultu krvnu grupu; c. Odrediti vjerovatnoću da od 5 do 10 učenika ima nultu krvnu grupu; d. Najvjerovatniji broj učenika sa nultom krvnom grupom. Rješenje: a. Funkcija vjerovatnoće slučajne promjenljive ima oblik: p(xi) =
ଷ ଵଶ ൬ ௫ ൰൬ଶହି௫ ൰ ; ଵହ ቀ ቁ ଶହ
xi = 0, 1, 2, ... ,
25; b. P(15) = =
ଷ ଵଶ ቀ ቁቀ ቁ ଵହ ଵ ଵହ ቀ ቁ ଶହ
ൌ
ଵହହଵଵହଶήସଷହଶଷଵହଷଶ ଵଽହସସହଽହଷଶ
ൌ ͲǡͲ͵ͷ, vjerovatnoća da 15, od 25
učenika ima nultu krvnu grupu je 3,75%;
141
c. P(5 ≤ xi ≤ 10) = P(5) + P(6) + P(7) + P(8) + P(9) + P(10) = 0,0000000000000014 + 0,0000000000001109
+
0,00000000000619
+
0,0000000002513713
+
0,0000000076466541 + 0,0000001782435 = 0,000000181478355 = 0,00001861478355%, vjerovatnoća da će od 5 do 10 učenika imati nultu krvnu grupu je gotovo nemoguć događaj, čija vjerovatnoća iznosi 0,00001861478355% ≈0%. d. Najvjerovatniji broj učenika sa nultom krvnom grupom može se odrediti tako da se izračunaju vjerovatnoće svih vrijednosti slučajne promjenljive, te da se komparacijom izabere modalitet obilježja sa najvećom frekvencijom, ili korištenjem sljedećeg obrasca: ሺ݊ ͳሻሺ ܯ ͳሻ ݊ሺ ܯ ͳሻ െ ሾሺܰ െ ܯሻ െ ͳሿ ܯ ܰʹ ܰʹ ሺʹͷ ͳሻሺ͵Ͳ ͳሻ ʹͷሺ͵Ͳ ͳሻ െ ሺͳʹͲ െ ͳሻ ܯ ͳͷͲ ʹ ͳͷͲ ʹ ʹ ή ͵ͳ ʹͷ ή ͵ͳ െ ͳͳͻ ܯ ͳͷʹ ͳͷʹ Ͷǡ͵ͳ ܯ ͷǡ͵Ͳ Najvjerovatniji broj učenika sa nultom krvnom grupom je 4. Primjer 3.11. Na relaciji Gradiška – Banja Luka od 12 dnevnih linija prigradskog prevoza 8 stiže u granicama predviđenog vremena. Putnik koristi 4 linije prigradskog prevoza. Potrebno je odrediti: a. Funkciju distribucije vjerovatnoće slučajne promjenljive; b. Vrijednosti funkcije vjerovatnoće i funkcije distribucije vjerovatnoće, te dobijene rezultate prikazati tabelarno; c. Očekivanu vrijednost, standardnu devijaciju i koeficijent varijacije slučajne promjenljive! Rješenje: a. Funkcija vjerovatnoće slučajne promjenljive ima oblik: p(xi) =
ସ ଼ ൬௫ ൰൬ସି௫ ൰ ; ଵଶ ቀ ቁ ସ
xi = 0, 1, 2,
3, 4; b. Vrijednosti funkcije vjerovatnoće i funkcije distribucije vjerovatnoće mogu se prikazati u sljedećoj tabeli:
142
xi
0
1
2
3
4
P(xi)
0,00202
0,064646
0,339394
0,452525
0,141414
F(xi)
0,00202
0,066667
0,406061
0,858586
1
Tabela 78. Vrijednosti funkcije vjerovatnoće slučajne promjenljive I distribucije vjerovatnoće slučajne promjenljive
c. Očekivana vrijednost slučajne promjenljive ima vrijednost: E(xi) = μ = n
ெ ே
= 4·
଼ ଵଶ
ൌ
ʹǡ, što znači da se očekuje da će u toku dana tri linije prigradskog prevoza na relaciji Gradiška – Banja Luka stići u okviru predviđenog vremena. Najvjerovatniji broj linija prigradskog prevoza koji će vožnju na relaciji Gradiška – Banja Luka realizovati u okviru predviđenog vremena je tri, jer je p(xi)max = 0,452525 što odgovara modalitetu obilježja 3, odnosno Mo = 3. Do istog rezultata možemo doći korištenjem sljedećeg obrasca: ሺ݊ ͳሻሺ ܯ ͳሻ ݊ሺ ܯ ͳሻ െ ሾሺܰ െ ܯሻ െ ͳሿ ܯ ܰʹ ܰʹ ሺͶ ͳሻሺͺ ͳሻ Ͷሺͺ ͳሻ െ ሺͳʹ െ ͳሻ ܯ ͳʹ ʹ ͳʹ ʹ ͷήͻ Ͷ ͻ െ ͳͳ ܯ ͳͶ ͳͶ ʹǡͷ ܯ ͵ǡʹͳ Modus je cjelobrojna vrijednost između 2,57 i 3,21, njegova vrijednost je 3, odnosno Mo = 3. Varijansa slučajne promjenljive iznosi: σ² = E[(xi – μ)²] = n·p·qቀ
ேି ேିଵ
ቁ = 4·
଼
ή
ସ
ଵଶ ଵଶ
=
మ
ൌ Ͳǡͺͺ a standardna devijacija: σ = ξߪ ଶ ൌ మξͲǡͺͺ = 0,94, prosječno odstupanje od prosječne vrijednosti iznosi 1 linija prigradskog prevoza (0,94≈1), odnosno 35,35%, ఙ
ǡଽସ
ఓ
ଶǡ
jer je Kv = ή ͳͲͲΨ ൌ
ή ͳͲͲΨ ൌ ͵ͷǡ͵ͷΨ.
Primjer 3.12. Smatra se da se kod ljudske populacije kombunacija krvne grupe i rezus faktora jednako vjerovatna. Polazeći od toga, potrebno je: a. Funkciju distribucije vjerovatnoće slučajne promjenljive; b. Vrijednosti funkcije vjerovatnoće i funkcije distribucije vjerovatnoće, te dobijene rezultate prikazati tabelarno.
143
Rješenje: ଵ
a. Funkcija vjerovatnoće slučajne promjenljive ima oblik: p(xi) = ൌ Ͳǡͳʹͷ; xi, i = 1, 2, ଼
... , 8; slučajna promjenljiva ima osam vrijednosti, a to su četiri krvne grupe: 0, A, B i AB i dva rezus faktora (Rh – faktora) + i -. b. Vrijednosti funkcije vjerovatnoće i funkcije distribucije vjerovatnoće mogu se prikazati u sljedećoj tabeli: xi
0+
0-
A+
A-
B+
B-
AB+
AB-
P(xi)
0,125 0,125 0,125 0,125 0,125 0,125 0,125
F(xi)
0,125 0,250 0,375 0,500 0,625 0,750
0,125
0,875
1,000
Tabela 79. Vrijednosti funkcije vjerovatnoće slučajne promjenljive I distribucije vjerovatnoće slučajne promjenljive
Primjer 3.13. Kako glasi funkcija generisanja jednoznamenkastih slučajnih brojeva sa jednakom vjerovatnoćom? Kolika je očekivana vrijednost, standardna devijacija i koeficijent varijacije slučajne promjenljive? Rješenje: ଵ
; (xi); xi = 0, 1, 2, ... , 10;
a.
Funkcija vjerovatnoće slučajne promjenljive ima oblik: p(xi) =
b.
Vrijednosti funkcije vjerovatnoće i funkcije distribucije vjerovatnoće mogu se prikazati u
ଵ
sljedećoj tabeli: xi
0
1
P(xi)
0,1 0,1
F(xi)
0,1
2
3
4
5
6
7
8
9
0,1
0,1
0,1
0,1
0,1
0,1
0,1
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
0,1
Tabela 80. Vrijednosti funkcije vjerovatnoće slučajne promjenljive I distribucije vjerovatnoće slučajne promjenljive
c.
Očekivana vrijednost slučajne promjenljive ima vrijednost: E(xi) = μ =
ାଵ ଶ
=
ଵାଵ ଶ
ൌ ͷǡͷ, što
znači da je očekivana vrijednost slučajno generisanog jednocifrenog broja 5,5. Varijansa slučajne promjenljive iznosi: σ² = E[(xi – μ)²] = ቀ మ
మ ିଵ
ଵమ ିଵ
ଵଶ
ଵଶ
ቁ =
= 8,25; a
మ
standardna devijacija: σ = ξߪ ଶ ൌ ඥͺǡʹͷ = 2,87, prosječno odstupanje od prosječne vrijednosti slučajno generisanog jednocifrenog broja iznosi 2,87, odnosno 52,23%, jer je Kv ఙ
ଶǡ଼
ఓ
ହǡହ
= ή ͳͲͲΨ ൌ 144
ή ͳͲͲΨ ൌ ͷʹǡʹ͵Ψ.
3.1.1.
Modeli distribucije vjerovatnoće kontinuirane slučajne promjenljive
Funkcija vjerovatnoće kontinuirane slučajne promjenljive posjeduje sljedeće osobine: -
Vrijednosti funkcije vjerovatnoće slučanje promjenljive kreću se u intervalu od nula do 1, odnosno vrijedi: f(xi) ≥ 0, i, i = 1,2,3, ... , i , ... , n;
-
Zbir vrijednosti funkcije vjerovatnoća slučajne promjenljive na polju elementarnih ାஶ
događaja predstavlja siguran događaj, odnosno vrijedi: ିஶ ݂ሺݔ ሻ ݀ሺݔሻ ൌ ͳ; -
Funkcija vjerovatnoće slučajne promjenljive na intervalu između dvije vrijednosti (x1 i x2, pri čemu je x1 < x2) dobije se kao određeni integral vrijednosti funkcije vjerovatnoće na inervalu od donje granice intervala (x1) do gornje granice posmatranog intervala (x2). Naprijed navedeno simbolički se može zapiastai na sljedeći način: ௫
f(x1 ≤ X ≤ x2) = ௫ మ ݂ሺݔ ሻ݀ݔ. భ
Opšti oblik funkcije distribucije vjerovatnoće neprekidne (kontinuirane) slučajne promjenljive može se zapisati pomoću sljedećeg obrasca: ௫
݂ሺݖሻ݀ݖ F(X = xi) = ିஶ
Teorijski modeli distribucije vjerovatnoće ne prekidne (kontinuirane) slučajne promjenljive predstavljaju funkcije vjerovatnoće slučajne promjenljive čiji su analitički oblik i osnonove osobine poznati. Među brojnim teorijskim modelima, najčešće korišteni su: normalni (Gaus Laplasov), Studentov, χ²(hi – kvadrat), F – distribucije, eksponencijalni i uniformni. Normalna (Gaus – Laplasova; Gauss - Laplace) distribucija vjerovatnoće slučajne promjenljive je funkcija kojom se oderđuje vjerovatnoća da se vrijednost slučajne promjenljive xi nađe u intervalu od - f do xi. Normalna distribucija je model distribucija mnogih empirijskih pojava i predstavlja temelj postupcima ocjenjivanja nepoznatih parametara osnovnog skupa i testiranja statističkih hipoteza, istovremeno sa njom su u vezi i druge teorijske distribucije vjerovatnoće slučajne promjenljive (npr. F – distribucija, χ² i druge teorijske distribucije), takođe, uz određene uslove, njoj teže i distribucije prekidne slučajne promjenljive. Normalna distribucija je određena sa dva parametra: aritmetičkom sredinom i standardnom devijacijom [μ i σ N(μ,σ)], njene osbine su: -
Modus, medijana i aritmetička sredina imaju jednaku vrijednost (Mo = ME = μ), dakle aritmetička sredina polovi seriju distribucija na dva jednaka dijela (50% vrijednosti
145
slučajne promjenljive je manje, a 50% veće od aritmetičke sredine) i aritmetička sredina je najčešće obilježje u seriji distribucije vjerovatnoće. Maksimum funkcije distribucije je u aritmetičkoj sredini (F(x)́ = 0 x = μ) -
Simetrična je u odnosu na aritmetičku sredinu (α3 = 0), kao i ostale mjere asimetrije (Personova i Bovlijeva mjera asimetrije);
-
Ima oblik zvona, koeficijent zaobljenosti ima vrijednost 3 (α4 = 3);
-
Tačke infleksije (prelonme tačke) funkcije distribucije vjerovatnoće su tačke kojima su vrijednosti apscisa μ – σ i μ + σ;
Funkcija vjerovatnoće kod normalnog rasporeda ima sljedeći oblik: ݂ሺݔሻ ൌ
ଵ ఙξଶగ
భ ೣషഋ మ ሻ
ή ݁ ି మሺ
; – f ≤ xi ≤ + f ; – f < μ < + f; σ > 0
Najvažnije statističke karakteristike normalnog rasporeda su: -
Očekivana vrijednost: E(xi) = μ ;
-
Varijansa: σ2 = E[(xi – μ)2] = σ²;
-
Koeficijent asimetrije: α3 =0;
-
Koeficijent zaobljenosti: ߙସ ൌ ͵.
Imajući u vidu da vrijednosti aritmetičke sredine i standardne devijacije zavise od vrijednosti slučajne promjenljive xi, uvodi se standardizovana (jedininična) normalna distribucija kod koje je aritmetička sredina jednaka nuli (μ = 0), a standardna devijacija jedan (σ = 1). Drugim riječima, distribucija oblika N(μ,σ) transformiše se u distribuciju promjenljive z (z – normalizovano standardizovano odstupanje; z =
௫ ିఓ ఙ
), odnosno distribuciju oblika N(0,1).
Standardizovani oblik funkcije vjerovatnoće normalnog rasporeda ima oblik: ݂ሺݖሻ ൌ
ଵ ξଶగ
భ మ
݁ ିమ௭ Ǣ ݖൌ
௫ ିఓ ఙ
Najvažnije statističke karakteristike normalnog rasporeda su: -
Očekivana vrijednost: E(xi) = μ = 0 ;
-
Varijansa: σ2 = E[(xi – μ)2] = σ² = 1;
-
Koeficijent asimetrije: α3 =0;
-
Koeficijent zaobljenosti: ߙସ ൌ ͵.
Standardizovani oblik funkcije distribucije omogućio je da se svakoj vrijednosti normalizovanog standardizovanog odstupanja z pridruži vrijednost površine ispod krive normalnog rasporeda, odnosno u tablici su navedene vjerovatnoće da slučajna promjenljiva xi, kojoj odgovara 146
vrijednost normalizovanog standardizovanog odstupanja zi poprimi vrijednost iz intervala – f ≤ xi.13 Poznato je da je u intervalu: -
μ ± σ, obuhvaćeno 68,26 % vrijednosti slučajne promjenljive;
-
μ ± 2σ, obuhvaćeno 95,44 % vrijednosti slučajne promjenljive;
-
μ ± σ, obuhvaćeno 99,74 % vrijednosti slučajne promjenljive.
Studentova t – distribucija je funkcija kojom se izračunava vjerovatnoća da slučajna promjenljiva (xi), koja se ravna prema Studentovom rasporedu sa ν stepeni slobode, ima vrijednost veću od tXi. Studentova distribucija je simetrična, vrijednosti promjenljive t su u funkcija dvaju parametara aritmetičke sredine (μ) i standardne greške ocjene nepoznate standardne devijacije osnovnog skupa (σݔҧ ), odnosno t =
௫ ିఓ ఙ௫ҧ
.
Funkcije vjerovatnoće kod Studentovog rasporeda ima sljedeći oblik: f(t) =
ഔశభ
ଵ ξగఔ
ή
ቀ మ ቁ ሺͳ ഔ ቀమቁ
௧మ
ሺഔశభሻ మ
ሻି జ
; pri čemu Γ[] predstavlja gama funkciju; ଵ
ାଵ
ଵήଷήହήǥήሺିଵሻ
ଶ
ଶ
ଶమ
– f < t < +f, υ ϵ N; Ȟሾͳሿ ൌ ͳ, Ȟሾ߭ ͳሿ ൌ ߭Ǩǡ Ȟ ቂ ቃ ൌ ξʹߨǡ Ȟ ቂ
ቃൌ
ಝ
ή ξʹɎ
Najvažnije statističke karakteristike Studentovog – t rasporeda određuju se na sljedeći način: -
Očekivana vrijednost: E(xi) = μ = 0, υ ≥ 2;
-
Varijansa: σ2 = E[(xi – μ)2] =
-
Koeficijent asimetrije: α3 =0, υ ≥ 4;
-
Koeficijent zaobljenosti: ߙସ ൌ ͵
జ జିଶ
, υ ≥ 2;
జିସ
, υ ≥ 5.
Hi – kvadrat (χ²) raspored je funkcija kojom se izračunava vjerovatnoća
da slučajna
promjenljiva, koja se ravna prema χ² rasporedu sa ν stepeni slobode, ima vrijednost manju od xi. Distribucija nije simetrična. Funkcije vjerovatnoće kod χ² rasporeda ima sljedeći oblik: f(xi) =
ଵ
ഔ ഔ ቂమቃଶమ
ഔ
ೣ
ݔሺమିଵሻ ݁ ିమ , x > 0, ν ϵ N;
Najvažnije statističke karakteristike χ² rasporeda određuju se na sljedeći način:
13
-
Očekivana vrijednost: E(xi) = μ = ν;
-
Varijansa: σ2 = E[(xi – μ)2] = 2ν;
Funkcija distribucije vjerovatnoće neprekidne slučajne promjenljive dobija se integriranjem funkcije vjerovatnoće promjenljive na interval od –f do vrijednosti slučajne promjenljive xi. U grafičkom smislu vrijednost određenog interval predstavlja površinu ispod krive normalnog frasporeda.
147
଼
-
Koeficijent asimetrije: α3 =ට ;
-
Koeficijent zaobljenosti: ߙସ ൌ ͵
జ
ଵଶ జ
.
F – raspored je funkcija kojom se izračunava vjerovatnoća da slučajna promjenljiva, koja se ravna prema F rasporedu sa ν1 i ν2 stepeni slobode, ima vrijednost manju od xi. Distribucija nije simetrična. Funkcije vjerovatnoće kod χ² rasporeda ima sljedeći oblik: ഔభ ഔమ
f(xi) =
ഔ షమ
ഔ శഔ ሺ భ ሻ ቂ భ మ మ ቃజభమ జమమ ௫ మ ഔ
ഔ
ቂ మభ ቃቂ మమ ቃሺజభ ାజమ ሻ௫
ഔభ శഔమ మ
,
x > 0,
υ1, υ2 ϵ N;
Najvažnije statističke karakteristike F rasporeda određuju se na sljedeći način: -
Očekivana vrijednost: E(xi) = μ =
-
Varijansa: σ2 = E[(xi – μ)2] =
జమ జమ ିଶ
ǡ ߭ଶ ͵;
ଶజమ ሺజభ ାజమ ିଶሻ జభ ሺజమ ିଶሻమ ሺజమ ିସሻ
ǡ ߭ଶ ͷ.
Neprekidna uniformna distribucija je distribucija slučajne promjenljive uz uslova da: -
Slučajna promjenljiva poprima vrijednost iz konačnog skupa mogućih vrijednosti (prostor slučajnog eksperimenta je konačan skup);
-
Svi mogući ishodi su jednako vjerovatni.
Funkcija vjerovatnoće kod uniformnog rasporeda ima sljedeći oblik: f(xi) =
ଵ ି
,
a ≤ xi ≤ b,
–f < a < b < +f;
Najvažnije statističke karakteristike uniformnog rasporeda određuju se na sljedeći način: ା
-
Očekivana vrijednost: E(xi) = ߤ ൌ
-
Varijansa: σ2 = E[(xi – μ)2] =
-
Koeficijent asimetrije: α3 =0;
-
Koeficijent zaobljenosti: ߙସ ൌ ͳǡͺǤ
ଶ
ሺିሻమ ଵଶ
;
;
Neprekidna eksponencijalna distribucija je distribucija slučajne promjenljive, kod koje funkcija vjerovatnoće ima sljedeći oblik: f(xi) =Oe-Oxi,
xi t0, O > 0;
Najvažnije statističke karakteristike uniformnog rasporeda određuju se na sljedeći način: -
148
ଵ
Očekivana vrijednost: E(xi) = ߤ ൌ ; O
ଵ
-
Varijansa: σ2 = E[(xi – μ)2] =
-
Koeficijent asimetrije: α3 =2;
-
Koeficijent zaobljenosti: ߙସ ൌ ͻǤ
Oమ
;
Primjer 3.14. Pakovanje čokolade proizvodne marke „X“ ima deklarisanu težinu 200g. Distribucija proizvoda prema težini ima osobine normalnog rasporeda sa aritmetičkom sredinom koja je jednaka deklarisanoj težini pakovanja i standardnom devijacijom 3% deklarisane težine. Potrebno je odrediti vjerovatnoću da slučajno izabrani proizvodbude težak: a. Manje od 190g; b. Veće od 202g; c. Između 188 i 195g; d. Između 192 i 208g; e. Između 206 i 211g. Rješenje: Potrebno je odrediti vrijednost standardne devijacije, prema iskazanom uslovu σ = 3% od 200 =
ଷ ଵ
ή ʹͲͲ ൌ ݃. Kada se izračunava vjerovatnoća po normalnom rasporedu, potrebno je provesti
sljedeću proceduru: -
Za granice intervala izračunati vrijednost normalizovanog standardizovanog odstupanja z, koristeći obrazac: ݖൌ
-
௫ ିఓ ఙ
;
Za dobijene vrijednosti normalizovanog standardizovanog odstupanja očitati tabličnu vrijednost P(z);
-
Imajući u vidu da tablična vrijednost pokazuje vjerovatnoću da slučajna promjenljiva ima vrijednost manju od vrijednosti granice intervala za koju smo računali vrijednost normalizovanog standardizovanog odstupanja možemo odrediti odstojanje modaliteta od prosječne vrijednosti, tako da: o Od tablične vrijednosti oduzmemo 0,5 – ukoliko je tablična vrijednost veća od 0,5 ili o Od 0,5 oduzmemo tabličnu vrijednost – ukoliko je tablična vrijednost manja od 0,5; 149
-
Vjerovatnoću da slučajna promjenljiva ima vrijednost iz određenog intervala određuje se tako da: o Očitamo tabličnu vrijednost, ukoliko je kod intervala otvorena donja granica; o Od veće tablične vrijednosti oduzmemo manju, ukoliko je interval ograničen sa obje strane ili o Od 1 oduzmemo tabličnu vrijednost, ukoliko je kod intervala otvorena gornja granica.
a. P(x ≤ 190) = P(z) = P (
ଵଽିଶ
ିଵ
ሻ ൌ ܲቀ
ቁ ൌ ܲሺെͳǡሻ ൌ ͲǡͲͶͷ ൌ ͶǡͷΨ –
vjerovatnoća da slučajno odaberemo pakovanje proizvoda težine ispod 190g je 4,75%, drugim riječima, 4,75% proizvoda ima težinu ispod 190g; b. P(x > 202) = 1 – P(z) = 1 – P(
ଶଶିଶ
ଶ
ሻ ൌ ͳ െ ܲ ቀ ቁ ൌ ͳ െ ܲሺͲǡ͵͵ሻ = 1 – 0,6293 = 0,3707
= 37,07% – vjerovatnoća da slučajno odaberemo pakovanje proizvoda težine iznad 202g je 37,07%, drugim riječima, 37,07% proizvoda ima težinu iznad 202g; c. P(188 ≤ x ≤ 195) = P(
ଵ଼଼ିଶ
≤ z ≤
ଵଽହିଶ
) = P( - 1 ≤ z ≤ - 0,83) = P(z = - 0,83) – P(z = -
1) = 0,2033 – 0,1583 = 0,0450 = 4,5% - vjerovatnoća da slučajno odaberemo pakovanje proizvoda težine između 188g i 195g iznosi 4,5%, drugim riječima 4,5% proizvoda ima težinu između 188 i 195 g; d. P(192 ≤ x ≤ 208) = P(
ଵଽଶିଶ
ଶ଼ିଶ
≤ z ≤
) = P( - 1,33 ≤ z ≤ 1,33) = P(z = 1,33) – P(z = -
1,33) = 0,9082 – 0,0918 = 2∙0,4082 = 0,8164 = 81,64% - vjerovatnoća da slučajno odaberemo pakovanje proizvoda težine između 192g i 208g iznosi 81,64%, drugim riječima 81,64% proizvoda ima težinu između 192g i 208g; e. P(206 ≤ x ≤ 211) = P(
ଶିଶ
ଶଵଵିଶ
≤ z ≤
) = P( 1 ≤ z ≤ 1,83) = P(z = 1,83) – P(z = 1) =
0,9664 – 0,8413 = 0,1251 = 12,51% - vjerovatnoća da slučajno odaberemo pakovanje proizvoda težine između 206g i 211g iznosi 12,51%, drugim riječima 12,51% proizvoda ima težinu između 206g i 211g. Primjer 3.15. Prosječno vrijeme potrebno da student FSN (fakulteta sportskih nauka) pretči stazu dužine 100 m iznosi 11,8s sa prosječnim odstupanjem 2,6s. Ukoliko su studenti prema brzini (vremenu potrebnom da pretrče stazu dužine 100m) normalno raspoređeni i ukolko je za učešće na
150
studentskom takmičenju potrebno minimalno 60% studenata u kome intervalu će se naći vremenske norme za učešće na takmičenju, ako je najbrži student stazu pretčao za 11s? Rješenje: Ovdje imamo: P(11 ≤ x ≤ k) = P (
ଵଵିଵଵǡ଼ ଶǡ
ݖ
ିଵଵǡ଼ ଶǡ
ሻ ൌ ܲሺݖ ሻ – P( – 0,43) = P(zk) – 0,3336
= 0,6 – zahtjev se svodi da odredimo za koju vrijednost normalizovanog standardizovanog odstupanja zk je tablična vrijednost jednaka 0,6 + 0,3336 = 0,4664 P(zk) t 0,9664 zk = 1,83, u tabeli kritčnih vrijednosti normalizovanog standardizovanog odstupanja vjerovatnoća 0,9664 odgovara vrijednost zk = 1,83, sada polazeći od obrasca za računanje zk, gdje je ݖ ൌ
ିଵଵǡ଼ ଶǡ
= 1,83,
odakle dobijamo: k – 11,8 = 1,83∙2,6 k – 11,8 = 4,758 k = 11,8 + 4,758 = 16,558. Zaključujemo da na studentskom takmičenju mogu učestvovati studenti koji stazu dužine 100m pretrče za vrijeme između 11s i 16,558s. Primjer 3.16. Slučajna promjenljiva t pripada Studentovom t rasporedu sa 16 stepeni slobode. Potrebno je odrediti vjerovatnoće: a. P(t ≤ 1,337); b. P(t ≤ – 1,7459); c. P(2,1199 ≤ t ≤ 2,9208). Rješenje: Polazeći od činjenice da je distribucija simetrična i da su date vrijednosti tablične dobijamo: a.
P(t ≤ 1,337) = 1 – P(t > 1,337) i [t16;0,100 = 1,337; broj stepeni slobode υ = 16; γ =
0,100] P(t ≤ 1,337) = 1 – 0,100 = 0,90 = 90 % b.
P(t ≤ – 1,7459) = P(t > 1,7459) i [t16;0,050 = 1,7459 broj stepeni slobode υ = 16; γ = 0,050] P (t > 1,7459) = 0,050 = 5%
c. P(2,1199 ≤ t ≤ 2,9208) = P(t > 2,1199) – P(t > 2,9208) [t16;0,025 = 2,1199 – broj stepeni slobode υ = 16; γ1 = 0,025; t16;0,005 = 2,9208 – broj stepeni slobode υ = 16; γ2 = 0,005] P(t > 2,1199) – P(t > 2,9208) = 0,025 – 0,005 = 0,02 = 2%
151
Primjer 3.17. Odrediti vrijednost slučajne promjenljive t0 koja pripada Studentovoj distribuciji, a za koju je: a. P(t ≤ t0) = 0,050; υ = 12; b. P(t > t0) = 0,100; υ = 9; c. P( - t0 ≤ t ≤ t0) = 0,900; υ = 28. Rješenje: a. P(t ≤ t0) = 0,050; υ = 12 t0,050;12 = 1,7823 P(t > t0) = 1,7823 P(t ≤ t0) = - P(t > t0) = – 1,7823; b. P(t > t0) = 0,100; υ = 9 t0,100;9 = 1,383 P(t > t0) = 1,383; c. P( - t0 ≤ t ≤ t0) = 0,900; υ = 28 t0,100;28 = 1,313 P(t0 ≤ t ≤ t0) = 1,313. Primjer 3.18. Slučajna promjenljiva x pripada χ² distribuciji sa 25 stepeni slobode. Odrediti sljedeće vjerovatnoće: a. P(x ≤ 10,520); b. P(x > 46,928); c. P(x ≤ 40,646); d. P(x > 14,611). Rješenje: a. P(x ≤ 10,520) = 1 – P(x > 10,520) = 1 – 0,995 = 0,005; b. P(x > 46,928) = 0,005; c. P(x ≤ 40,646) = 1 – 0,025 = 0,975; d. P(x > 14,611) = 0,95. Primjer 3.19. Odredite kritične (tablične) vrijednosti χ² promjenljive za slučaj da je: a. χ²0,01;15; b. χ²0,05;40; c. χ²0,01;υ = 32,000;
152
Rješenje: a.
χ²0,01;15 = 30,578;
b. χ²0,05;40 = 55,758; c. χ²0,01;υ = 32,000 υ = 16. Primjer 3.20. Slučajna promjenljiva x pripada F distribuciji sa [15,40]. Potrebno je odrediti vjerovatnoću: a. P(x ≤ 2,52); b. P(x > 1,92). Rješenje: Ovde imamo da je broj stepeni slobode za brojnik υ1 = 15 ; a broj stepeni slobode za nazivnik υ2 = 40, tako da imamo: a. P(x ≤ 2,52) = 1 – P(x > 2,52) = 1 – 0,01 = 0,99; b. P(x > 1,92) = 0,05. Primjer 3.21. Odrediti vrijednost slučajne promjenljive F[∙] koja pripada F rasporedu, ako je: a. P(F > F[∙]) = 0,01; υ1 = 12; υ2 = 15; b. P(F > F[∙]) = 0,05; υ1 = 7; υ2 = 60; Rješenje: a. P(F > F[∙]) = 0,01; υ1 = 12; υ2 = 15 F0,01 = 3,67; b. P(F > F[∙]) = 0,05; υ1 = 7; υ2 = 60 F0,05 = 2,17. Primjer 3.22. Neprekidna (kontinuirana) slučajna promjenljiva x pripada uniformnoj distribuciji sa domenom iz skupa dvocifrenih realnih brojeva, tj.na intervalu vrijednosti od >10; 100). Potrebno je: a. Odrediti oblik funkcije vjerovatnoće promjenljive x; b. Odrediti očekivanu vrijednost, varijansu i koeficijent varijacije posmatrane distribucije.
153
Rješenje: ଵ
Ǣ ͳͲ ݔ ൏ ͳͲͲ a. Funkcija vjerovatnoće ima oblik: ݂ሺݔሻ ൌ ቊ ଵ ͲǢݔ ൏ ͳͲ ݔ ש ͳͲͲ b. Očekivana vrijednost iznosi:
E>xi@ = ߤ ൌ
ଵାଵ ଶ
Varijansa ima vrijednost:
E>(xi - P)2@ = V2 =
Standardna devijacija ima vrijednost:
V = ξͷ = 25,89
Koeficijent varijacije ima vrijednost:
KV
=
ଶହǡ଼ଽ ହହ
ൌ ͷͷ
ሺଵିଵሻమ ଵଶ
ൌ ͷ
ή ͳͲͲΨ ൌ ͲǡͶʹͶ ή ͳͲͲΨ ൌ
ͶǡʹͶΨ. Primjer 3.23. Trajnost jedne marke sijalice je slučajna promjenljiva (xi) koja ima osobine eksponencijalne distribucije sa očekivanom dužinom trajanja 800 sati rada. Potrebno je: a. Odrediti oblik funkcije vjerovatnoće koja opisuje vjerovatnoću slučajne promjenljive xi); b. Vjerovatnoću da će sijalica trajati minimalno 700 sati rada; c. Vjerovatnoću da će sijalica trajati najviše od 1000 sati rada. Rješenje: a. Očekivana vrijednost distribucije je: E>xi@ = P = 800 O = 1/800 = 0,0125 (O je parametar eksponencijalne distribucije vjerovatnoće), a distribucija vjerovatnoće ima oblik: f(x) = ͲǡͲͲͳʹͷ݁ ିǡଵଶହ௫ Ǣ ݔ Ͳ ; ൜ ͲǢ ݔ Ͳ ஶ
b. P(Xi > 700) = ͲǡͲͲͳʹͷ݁ ିǡଵଶହ௫ ݀ݔ ൌe-0,00125700 = 0,4169 = 41,69 % - vjerovatnoća da sijalica posmatrane marke traje minimalno 800 sati je 41,69 %; ஶ
c. P(Xi d 1000) = 1 - ଵ ͲǡͲͲͳʹͷ݁ ିǡଵଶହ௫ ݀ݔ ൌ 1 – e-0,001251000 = 1 – 0,0562 = 94,38 % vjerovatnoća da sijalica najviše od 1000 sati rada iznosi 94,38 %. Zadaci: 3.24. Slučajni eksperiment sastoji se od izvlačenja karte iz špila od 32 karte. Potrebno je: a. Definisati prostor elementranih događaja; 154
b. Izračunati vjerovatnoću da izvučena katra bude pik; c. Izračunati vjerovatnoću da izvučena karta bude slika; d. Izračunati vjerovatnoću da izvučena karta bude slika, desetka ili as. 3.25.Koja je vjerovatnoća da će neki strijelac u seriji od 10 hitaca dva puta promašiti cilj, ako mu se to dešavalu u 10% slučajeva? 3.26.Statistički je dokazano da je od 1000 novorođene djece 515 muških i 485 ženskih. Odrediti vjerovatnoću da je u porodici od petoro djece troje ženskih. 3.27.U proizvodnji konzerviranog povrća, konzerve koje odstupaju od propisane težine pojavljuju se sa vjerovatnoćom p = 0,2. Konzerve se pakuju po 5 komada. Kolika je vjerovatnoća da će se u u jednoj kutiji pojaviti dvije konzerve koje odstupaju od propisane težine? 3.28.Kolika je vjerovatnoća da u porodici od 3 djece budu sva tri dječaka, ako je vjerovatnoća da se rodi dječak 0,6? 3.29.U proizvodnji konzerviranog povrća, konzerve koje odstupaju od propisane težine pojavljuju se sa vjerovatnoćom p = 0,1. Konzerve se pakuju po 15 komada. Kolika je vjerovatnoća da će se u u jednoj kutiji pojaviti četiri konzerve koje odstupaju od propisane težine? 3.30.Na jednom području praćen je poremećaj u razvoju predškolske populacije, koji se pojavljuju sa vjerovatnoćom p = 0,2. Kolika je vjerovatnoća da će se u jednoj porodici od petero djece poremećaj pojaviti kod dvoje? 3.31.U proizvodnji sportske opreme, lopte koje odstupaju od propisane težine pojavljuju se sa vjerovatnoćom p = 0,1. Lopte se pakuju po 5 komada. Kolika je vjerovatnoća da će se u u jednoj kutiji pojaviti četiri lopte koje odstupaju od propisane težine? 3.32.Iz skupa ležaja čiji prečnik predstavlja normalno raspoređenu slučajnu promjenljivu sa aritmetičkom sredinom 10 mm i standardnom devijacijom 0,1mm. Ispravnim se smatraju proizvodi kod kojih je prečnik između 9,9 i 10,1 mm, koliko se ispravnih proizvoda može očekivati u isporuci 500 ležajeva? 155
3.33.Iz skupa stanovnoika čija visina glukoze u krvi predstavlja normalno raspoređenu slučajnu promjenljivu sa aritmetičkom sredinom 10 i standardnom devijacijom 0,1, slučajno je odabran jedan. Izračunati vjerovatnoću da u njegovoj krvi visina glukoze bude između 9,9 i 10,15. 3.34.Prosječna dnevna mliječnost koza jedne pasmine iznosi 3 litre, sa prosječnim odstupanjem od 0,25 litara. Ukoliko je raspored koza prema količini mlijeka kojiu dnevno daju normalan, kolika je vjerovatnoća da koza u toku dana da od 2,25 do 3,25 litara mlijeka? 3.35.Prosječna mjesečna potrošnja mlijeka u jednom mjestu po domaćinstvu je 25 litara, a standardna devijacija je 3 litra. Odrediti vjerovatnoću da će domaćinstvo mjesečno potrošiti između 19 i 31 litra mlijeka! 3.36.U jednom preduzeću zabilježena je visina plata svih 175 radnika i dobijeno je: μ = 765 i σ = 245 KM. Kolika je vjerovatnoća da slučajno odabran radnik ima platu između 545 i 795 KM? 3.37.Slučajna promjenljiva t pripada Studentovom t rasporedu sa 11 stepeni slobode. Potrebno je odrediti vjerovatnoće: a. P(t ≤ 3,1058); b. P(t ≤ – 2,718); c. P(10363 ≤ t ≤ 2,2010). 3.38.Slučajna promjenljiva x pripada χ² distribuciji sa 15 stepeni slobode. Odrediti sljedeće vjerovatnoće: a. P(x ≤ 32,801); b. P(x > 4,601); c. P(x ≤ 6,262); d. P(x > 44,996). 3.39.Odredite kritične (tablične) vrijednosti χ² promjenljive za slučaj da je: a. χ²0,025;45; b. χ²0,500;20; c. χ²0,005;υ = 50,993.
156
3.40.Slučajna promjenljiva x pripada F distribuciji sa [30,8]. Potrebno je odrediti vjerovatnoću: a. P(x ≤ 2,27); b. P(x > 3,17). 3.41.Odrediti vrijednost slučajne promjenljive F[∙] koja pripada F rasporedu, ako je: a. P(F > F[∙]) = 0,05; υ1 = 10; υ2 = 25; b. P(F ≤ F[∙]) = 0,01; υ1 = 60; υ2 = 7. 3.42.Neprekidna (kontinuirana) slučajna promjenljiva x pripada uniformnoj distribuciji sa domenom iz skupa trocifrenih realnih brojeva, tj.na intervalu vrijednosti od >100; 1000). Potrebno je: a. Odrediti oblik funkcije vjerovatnoće promjenljive x; b. Odrediti očekivanu vrijednost, varijansu i koeficijent varijacije posmatrane distribucije. 3.43.Trajnost jedne vitalne komponente mašine za proizvodnju je slučajna promjenljiva (xi) koja ima osobine eksponencijalne distribucije sa očekivanom dužinom trajanja 12.000 sati rada. Potrebno je: a. Odrediti oblik funkcije vjerovatnoće koja opisuje vjerovatnoću slučajne promjenljive xi); b. Vjerovatnoću da će sijalica trajati minimalno 8.310 sati rada; c. Vjerovatnoću da će sijalica trajati najviše od 13.320 sati rada.
157
4. STATISTIČKO ZAKLJUČIVANJE Oblast inferencijalne statističke analize obuhvata modele i metode kojima se sudovi i zaključci o osnovnom skupu donose korištenjem uzoračke analize pojava i procesa, koji se ravnaju po zakonima vjerovatnoće i nisu predvidivi u determinističkom smislu. Metodologija statističkog zaključivanja obuhvata ocjenu nepoznatih parametara osnovnog skupa, testiranje hipoteza o parametrima osnovnog skupa, te izvođenje brojnih probabilističkih sudova o osnovnom skupu temeljenih na uprotebi nepotpune informacije o osnovnom skupu.
4.1. Statističko ocjenjivanje nepoznatih parametara osnovnog skupa Statističko ocjenjivanje predstavlja metodu statističkog zaključivanja koja se koristi za procjenu vrijednosti nepoznatog parametra osnovnog skupa na bazi uzorka, u situacijama kada nisu dostupne informacije o vrijednostima parametara u osnovnom skupu. Statističko ocjenjivanje nepoznatih parametara osnovnog skupa zasniva se na podacima slučajnog uzorka i izabranoj metodi ocjene. Osnovni zahtjevi u kontekstu statističkog ocjenjivanja su: preciznost i pouzdanost, pri čemu statističke ocjene mogu biti: tačkaste i intervalne. Intervalne statističke ocjene podrazumijevaju određivanje granica varijacije analiziranog parametra prema unaprijed oređenom kriteriju. Najčešće ocjene parametara osnovnog skupa obuhvataju ocjenu: -
Aritmetičke sredine i totala osnovnog skupa;
-
Proporcije (procenta učešća) osnovnog skupa i
-
Varijanse (standardne devijacije) osnovnog skupa.
Ukoliko se u statističkoj analizi koristi neprobalistički (namjerni) uzorak, analizirani parametri se određuju korištenjem mtodologije deskriptivne statistike. Kod statističkog ocjenjivanja parametra osnovnog skupa ključno pitanje je veličina uzorka koja se koristi za njegovu ocjenu, koja se, uglavnom, odnosi na: vrstu osnovnog skupa, nivo pouzdanosti ocjene, željenoj preciznosti ocjene,i varijabilitetu statističke serije. Kod statističkog istraživanja potrebno je voditi računa o vremenu i troškovima provođenja statističkog istraživanja, pribavljanja statističke građe i provođenja analitičkog postupka.
158
4.1.1.
Statističko ocjenjivanje aritmetičke sredine i totala osnovnog skupa
Aritmetička sredina osnovnog skupa (μ) je parametar čiju vrijednost ocjenjujemo jednim brojem (tačkasta ocjena) ili intervalom (intervalna ocjena). Statističko ocjenjivanje temelji se na slučajnom uzorku, pri čemu aritmetička sredina uzorka (ܺത) označava tačkastu ocjenu nepoznate aritmetičke sredine osnovnog skupa (μ), a intervalna ocjena temelji se na obliku i svojstvima normalne ili Studentove t – raspodjele sredina uzoraka. Uzorak korišten za ocjenu nepoznatog parametra osnovnog skupa može biti: -
Veliki, takav uzorak broji više od trideset jedinica (n > 30) ili
-
Mali, takav uzorak broji trideset jedinica ili manje (n ≤ 30).
a. Ukoliko se za ocjenu nepoznate vrijednosti aritmetičke sredine osnovnog skupa koristi veliki slučajni uzorak, čiji su elementi (x1, x2, ... , xn), pri čemu je n > 30: -
Tačkasta ocjena aritmetičke sredine predstavlja izračunatu vrijednost aritmetičke ଵ sredine uzorka (ܺത) čiju vrijednost izračunavamo: ߤ ൌ ܺത ൌ σୀଵ ݔ
-
Intervalna ocjena aritmetičke sredine zahtijeva da se odrede granice intervala povjerenja (Θ1 – donja granica intervala povjerenja; Θ2 – gornja granica intervala povjerenja) između kojih se sa pouzdanošću (1 – α) nalazi vrijednost nepoznate aritmetičke sredine osnovnog skupa, pri čemu vrijedi: P(ȣଵ ൏ ߤ ൏ ȣଶ ) = (1 – α). Izraz za granice intervala povjerenja dobijamo na bazi osobine sampling – distribucije aritmetičkih sredina ܺതi sa nepoznatom aritmetičkom sredinom μ i poznatom standardnom devijacijom VX. Ako je uzorak izabran iz normalno raspoređenog skupa N(μ,VX) i kada je uzorak dovoljno velik (n > 30) vrijedi: P(ȣଵ ൏ ߤ ൏ ȣଶ ) = (1 – α) P(– zα/2 ≤
തିఓ ఙ
≤ zα/2) = (1 – α)
P(ܺത െ ݖఈȀଶ ή ߪ ߤ ܺത ݖఈȀଶ ή ߪ ) = (1 – α) Gdje su: P – vjerovatnoća; ܺത – aritmetička sredina uzorka;
159
zα/2 – koeficijent pouzdanosti, pri čemu je α – rizik greške. Vrijednost pokazatelja predstavlja površinu ispod krive normalnog rasporeda, odnosno iz tablice kritičnih vrijednosti standardizovanog normalnog rasporeda – funkcije rasporeda; VX – je standardna greška ocjene nepoznate aritmetičke sredine osnovnog skupa (standardna greška sampling – distribucije), čiju vrijednost određujemo kao: VX =
ఙ ξ
ǡ
ukoliko je poznata aritmetička sredina osnovnog skupa ili je osnovni skup beskonačan, odnosno: VX =
ఙ ξ
ήට
ேିଵ
ேି
ǡukoliko je uzorak izabran iz osnovnog skupa konačne veličine
i ukoliko je stopa izbora veća od 5% (f =
ே
> 0,05). Ukoliko je standardna devijacija
osnovnog skupa nepoznata vrši se njezina nepristrasna ocjena (ߪොሻ korištenjem obrasca:
మ మ ሺσసభ ೣ ሻ
σసభ ௫ ି ߪො ൌ ඨ
ିଵ
(standardna greška ima vrijednost: VX =
ෝ ఙ ξ
.
Imajući u vidu naprijed navedeno dobijamo da su granice intervala povjerenja: Donja granica – Θ1 = ܺത െ ݖఈȀଶ ή ߪ i gornja granica – Θ2 = ܺത ݖఈȀଶ ή ߪ . Ukoliko se ocijenjena vrijednost nepoznate aritmetičke sredine osnovnog skupa kao tačkasta vrijednost, nije moguće zaključiti sa kojim nivoom povjerenja se može upotrijebiti. Interval povjerenja nepoznate aritmetičke sredine osnovnog skupa označava da se sa pouzdanošću 100·(1 – α)% aritmetička sredina nalazi između Θ1 i Θ2. Preciznost ocjene propocionalna je širini intervala povjerenja. b. Ukoliko se se za ocjenu nepoznate vrijednosti aritmetičke sredine osnovnog skupa koristi mali slučajni uzorak, čiji su elementi (x1, x2, ... , xn), pri čemu je n ≤ 30: -
Tačkasta ocjena aritmetičke sredine predstavlja izračunatu vrijednost aritmetičke ଵ
sredine uzorka (ܺത) čiju vrijednost izračunavamo: ߤ ൌ ܺത ൌ σୀଵ ݔ
-
Intervalna ocjena aritmetičke sredine na odabranom nivou pouzdanosti (1 – α) iz normalo raspoređenog skupa sa: o Nepoznatom aritmetičkom sredinom i poznatom standardnom devijacijom nalazi se u intervalu: P(ܺത െ ݖఈȀଶ ή ߪ ߤ ܺത ݖఈȀଶ ή ߪ ) = (1 – α); o Nepoznatom aritmetičkom sredinom i nepoznatom standardnom devijacijom nalazi se u intervalu: P(ܺത െ ݐሺഀǢିଵሻ ή ߪ ߤ ܺത ݐሺഀǢିଵሻ ή ߪ ) = (1 – α) మ
160
మ
Gdje su: ݐሺഀǢିଵሻ – koeficijent pouzdanosti, pri čemu je α – rizik greške, n – 1 broj stepeni మ
slobode. Vrijednost pokazatelja određuje se kao tablična vrijednost Studentove distribucije. Total predstavlja zbir vrijednosti numeričke staističke promjenljive konačnog osnovnog skupa, a izračunava se kao proizvod aritmetičke sredine i obima osnovnog skupa, tako da je njegova ocjena uslovljena ocjenom aritmetičke sredine osnovnog skupa, a izračunava se kao proizvod između: -
Vrijednosti tačkaste ocjene aritmetičke sredine osnovnog skupa (aritmetičke sredine uzorka) i obima osnovnog skupa, tj. T = ܶ = N·μ;
-
Granica intervala povjerenja i obima osnovnog skupa, tj. P[N·(ܺത െ ݖఈȀଶ ή ߪ ሻ ܰ ߤ ܰ ሺܺത ݖఈȀଶ ή ߪ )] = (1 – α) P(ܶ െ ݖఈȀଶ ή ߪ் ܶ ܶ ݖఈȀଶ ή ߪ் ) = (1 – α), gdje su: T – total osnovnog skupa; ܶ – ocijenjena vrijednost totala osnovnog skupa, izračunava se kao proizvod aritmetičke sredine uzorka i veličine osnovnog skupa;
VT – standardna greška ocjene totala osnovnog skupa, izračunava se kao proizvod standardne greške ocjene nepoznate aritmetičke sredine osnovnog skupa i veličine osnovnog skupa, tj. ߪ் ൌ ܰ ή ߪ . Veličina slučajnog uzorka za ocjenu aritmetičke sredine osnovnog skupa zavisi od: -
vrsti osnovnog skupa (konačan ili beskonačan);
-
nivou pouzdanosti (1 – α);
-
željenoj preciznosti ocjene koja se izražava kao razlika gornje i donje granice intervala ocjene, tj. ε = Θ2 – Θ1 ili u obliku polu intervala koji predstavlja razliku gornje granice intervala ocjene i aritmetičke sredine osnovnog skupa, tj.ε/2 = d = zα/2·VX;
-
stepenu varijabiliteta statističkog obilježja čija aritmetička sredina se ocjenjuje (V, V² ili KV);
-
troškovi i vrijeme potrebni za provođenja statističkog istraživanja, pribavljanja statističke građe i provođenja analitičkog postupka.
Koristeći izraz za interval povjerenja aritmetičke sredine osnovnog skupa, u slučaju da se uzorak bira iz beskonačnog osnovnog skupa, dobijamo: 161
ɂ ൌ ȣʹȂ ȣͳ ൌ ൬ܺത ݖఈ ή ߪ ൰ െ ൬ܺത െ ݖఈ ή ߪ ൰ ൌ ʹȀଶ ή ଶ
ଶ
ɐ ξ
Polazeći od prethodnog obrasca moguće je odrediti veličinu uzorka za ocjenu aritmetmetičke sredine (n0), uz željenu preciznost (ε ili d) i pouzdanost (zα/2), te procijenjenu vrijednost standardne devijacije osnovnog skupa (V). Standardana devijacija osnovnog skupa je planska veličina čija vrijednost se ocjenjuje na bazi poznavanja pojave ili pribavljanja odgovarajućih informacija o njezinoj vrijednosti.
Veličina uzorka izabranog iz beskonačnog osnovnog skupa za ocjenu
aritmetičke sredine iznosi: ε =ʹȀଶ ή
ξ୬
n = n0 =
మ ௭ഀȀమ ήఙ మ ഄ మ ቀమቁ
ൌ
మ ௭ഀȀమ ήఙ మ
ௗమ
Veličina uzorka direktno je proporcionalna pouzdanosti i stepenu varijabiliteta ocjene, a obrnuto proporcionalana preciznosti ocjene. Ukoliko se uzorak bira iz konačnog osnovnog skupa, kod koga je stopa izbora veća od 5% osnovnog skupa, veličina uzorka za ocjenu aritmetičke sredine iznosi (n0*) : ɂ ൌ ȣʹȂ ȣͳ ൌ ቀܺത ݖഀ ή ߪ ቁ െ ቀܺത െ ݖഀ ή ߪ ቁ ൌ ʹȀଶ ή మ
మ
ξ୬
ήට
ି୬ ିଵ
, odakle dobijamo:
ଶ ή ߪଶ ݖఈȀଶ ݊ ݀ଶ ݊ ൌ ݊ כൌ ൌ ଶ ݊ ଶ ݖఈȀଶ ή ߪ ͳ ܰ ݀ଶ ͳ ܰ
Ukoliko je stopa izbora u uzorak manja od 5% (f =
ே
ൌ ͲǡͲͷ) tada se za veličinu uzorka uzima
isti obrazac kao da se uzorak bira iz beskonačnog osnovnog skupa. Primjer 4.1. U zdravstvenoj ustanovi „Z“ zabilježeni su podaci o vremenu utrošenom u ultrazvučni pregled pacijenata (vrijeme je izraženo u sekundama po pregledu), na uzorku od 72 pacijenata, što je iznosilo:
162
99
83
84
96
47
78
88
38
58
52
66
90
126
61
76
84
106
87
89
81
75
63
65
82
109
77
96
101
103
104
99
72
108
103
84
82
78
105
106
86
114
124
99
94
75
79
91
87
75
78
85
91
84
94
114
116
89
87
103
74
106
71
74
98
108
105
101
96
106
73
95
79
Uzorak je izabran iz konačnog osnovnog skupa pri čemu je stopa izbora manja od 5%. Potrebno je: a.
Ocijeniti prosječnu dužinu ultrazvučnog pregleda tačkastom i intervalnom ocjenom uz pouzdanost od 85% i 99%!
b.
Ukoliko se u toku godine pregleda 7.300 pacijenata (u prosjeku 20 pacijenata dnevno) koliko je potrebno angažovanje radiologa u posmatranoj zdravstvenoj ustanovi sa pouzdanošću 95%?
Rješenje: a. Aritmetička
sredina
+73+95+79) =
ଵ ଼ଵ
uzorka
ima
vrijednost:
ଵ ܺത ൌ ή σୀଵ ݔ ൌ
ଵ ଼ଵ
ή(99+83+84+
...
ή6352 = 78,42;
Interval povjerenja aritmetičke sredine osnovnog skupa je: P(ܺത െ ݖఈȀଶ ߪ ߤ ܺത ݖఈȀଶ ߪ ) = 1 – α Koeficijent pouzdanosti predstavlja tabličnu vrijednost normalizovanog standardizovanog odstupanja za polovinu rizika greške, pri čemu se za donju granicu intervala očitava tablična vrijednost za polovinu rizika zα/2, a za gornju granicu z(1 – α)+α/2. Pri čemu vrijedi da je: zα/2 = – z(1 – α)+α/2 tako da je dovoljno očitati samo jednu od ove dvije tablične vrijednosti. Pouzdanost ocjena u konkretnom slučaju iznose: (1 – α1) = 0,85 α1 = 1 – 0,85 = 0,15 α1 = 0,15 : 2 = 0,075 i (1 – α1) + α1/2 = 0,85 + 0,075 = 0,925 z0,075 = – 1,44 i z0,925 = 1,44 (među kritičnim vrijednostima u tabeli se ne nalazi vrijednost 0,075 već je njoj najbliža 0,0749 čija je tablična vrijednost – 1,44; takođe, u tabeli se ne nalazi niti vrijednost 0,925 već je njoj nabliža 0,9251 čija je tablična vrijednost 1,44); (1 – α2) = 0,99 α2 = 1 – 0,99 = 0,01 α2 = 0,01 : 2 = 0,005 i (1 – α2) + α2/2 = 0,99 + 0,005 = 0,995 z0,005 = – 2,57 i z0,995 = 2,57 (među kritičnim vrijednostima u tabeli se ne nalazi vrijednost 0,005 već su njoj najbliže 0,0049 i 0,0051 tako da se može izabrati bilo koja od njih, slučajno izabranoj među njima 0,0049 tablična vrijednost je – 2,57; takođe, u 163
tabeli se ne nalazi niti vrijednost 0,995 već su njoj nabliže 0,9949 i 0,9951 takođe se među njima može izabrati bilo koja, slučajno izabranoj vrijednosti 0,9949 čija je tablična vrijednost 2,57); Ocijenjena vrijednost standardne devijacije osnovnog skupa pomoću uzorka iznosi: ሺσୀଵ ݔ ሻଶ ͵ͷʹଶ ଶ ଶ ଶ ଶ ଶ ଶ ଶ σ െ ݔ ඨ ୀଵ ඨሺͻͻ ͺ͵ ͺͶ ڮ ͵ ͻͷ ͻ ሻ െ ʹ ݊ ൌ ߪො ൌ ݊െͳ ʹ െ ͳ ߪො ൌ ට
ହ଼ଵ଼ଵିହଷ଼ǡହହ ଵ
ൌ ͳͲǡͶ005152
Standardna greška ocjene aritmetičke sredine, pri stopi izbora nižoj od 5% i nepoznatoj standardnoj devijaciji osnovnog skupa izračunava se: ߪ ൌ
ෝ ఙ ξ
ൌ
ଵǡସ ξଶ
ൌ ͳǡʹ͵͵ͻ074
Vrijednost granica intervala povjerenja uz pouzdanost 85% iznosi: ǡͶ ܺത േ ݖǡହ ߪ ൌ 78,42 ± 1,44·1,2339 = 78,42 ± 1,78 = ቄ ͺͲǡʹͲ Vrijednost granica intervala povjerenja uz pouzdanost 99% iznosi: ͷǡʹͶͻ ܺത േ ݖǡହ ߪ ൌ 78,42 ± 2,57·1,2339 = 78,42 ± 3,171= ൜ ͺͳǡͷͻͳ Tačkasta ocjena aritmetičke sredine osnovnog skupa izjednačava se sa aritmetičkom sredimom uzorka, tako da je prosječno vrijeme trajanja ultrazvučnog pregleda 78,42 sekunde. Sa pouzdanošću 85% (rizikom greške 15%) ultrazvučni pregled u prosjeku traje od 76,64 do 80,20 sekundi. Sa pouzdanošću 99% (rizikom greške 1%) ultrazvučni pregled u prosjeku traje od 75,249 do 81,591 sekundi. b. Osnovni skup sastoji se iz 7300 jedinica, tj. N = 7300, dok uzorak čini 72 jedinice n = 72. Ukupan obim godišnjeg angažovanja radiologa u zdravstvenoj ustanovi „Z“ predstavlja ukupno utrošeno vrijeme u ultrazvučne preglede u toku godine. Rješenje posmatranog problema predstavlja ocjenu totala osnovnog skupa sa pouzdanošću 95%. Za izračunavanje granica intervala povjerenja totala koristimo sljedeći obrazac: P(ܶ െ ݖఈȀଶ ή ߪ ܶ ܶ ݖఈȀଶ ή ߪ ሻ ൌ ͳ െ ߙ, pri čemu je: 164
ܶ ൌ ܰ ή ܺത ൌ ͵ͲͲ ή ͺǡͶʹ ൌ ͷʹͶ Pouzdanost ocjene u konkretnom slučaju iznosi: (1 – α3) = 0,95 α3 = 1 – 0,95 = 0,05 α1 = 0,05 : 2 = 0,025 i (1 – α3) + α3/2 = 0,95 + 0,025 = 0,975 z0,025 = – 1,96 i z0,975 = 1,96 (među kritičnim vrijednostima u tabeli se nalazi vrijednost 0,025 čija je tablična vrijednost – 1,96; takođe, u tabeli se nalazi i vrijednost 0,975 čija je tablična vrijednost 1,96); Standardna greška ocjene totala osnovnog skupa, pri stopi izbora nižoj od 5% i nepoznatoj standardnoj devijaciji osnovnog skupa izračunava se: ෞ் ൌ ܰ ߪ
ߪො ξ݊
ൌ ͵ͲͲ ή
ͳͲǡͶ ξʹ
ൌ ͻͲͲǡͶͻ͵ʹ
Vrijednost granica intervala povjerenja uz pouzdanost 95% iznosi: ͷͷͶͺͳͳǡ͵ͷͺͺ ෞ் ൌ 572466 ± 1,96·9007,47 = 572466 ± 17654,6412 = ൜ ܶ േ ݖǡଶହ ߪ ͷͻͲͳʹͲǡͶͳʹ Sa vjerovatnoćom 95% očekuje se da je godišnji obim angažovanja radiologa u trajanju od 554.811,3588 i 590.120,6412 sekundi ili između 154,11 i 163,92 sati u toku godine. Primjer 4.2. Preduzeće „P“ je u toku poslovne godine ispostavilo 860 računa, od kojih je u slučajan uzorak izabrano njih 26, sa ukupnom fakturnom vrijednošću realizacije u iznosu od 157.755 KM. Standardna devijacija osnovnog skupa nije poznata, a varijansa uzorka iznosi 170000 KM. Sa rizikom greške 2 % ocijeniti: a. Interval povjerenja prosječne vrijednosti fakturisane realizacije u posmatranoj godini; b. Interval povjerenja ukupne vrijednosti fakturisane realizacije u posmatranoj godini. Rješenje:
் ଵହହହ ൌ ǤͲǡͷ a. Aritmetička sredina uzorka ima vrijednost: ܺത ൌ ൌ
ଶ
Interval povjerenja aritmetičke sredine osnovnog skupa je: P(ܺത െ ݐሺഀǢିଵሻ ߪ ߤ ܺത ݐሺഀǢିଵሻ ߪ ) = 1 – α మ
మ
Koeficijent pouzdanosti predstavlja tabličnu vrijednost normalizovanog standardizovanog odstupanja za polovinu rizika greške i n – 1 stepeni slobode. Rizik greške u konkretnom slučaju iznosi 2 % α = 0,02 α/2 = 0,02 : 2 = 0,01, dok je broj stepeni slobode n – 1 = 26 – 1 = 25, pri čemu se koeficijent pouzdanosti očitava iz 165
tablice kritičnih vrijednosti Studentovog t – rasporeda za rizik 0,01 i 25 stepeni slobode što iznosi: ݐሺǡଵǢଶହሻ ൌ ʹǡͶͺͷ. Standardna greška ocjene aritmetičke sredine, pri stopi izbora nižoj od 5% (f = 26 : 860 =0,03 = 3%) i poznatoj standardnoj devijaciji osnovnog skupa (ߪ ൌ ξߪ ଶ ൌ ξͳͲͲͲͲ ൌ Ͷͳʹǡ͵ͳizračunava se: ߪ ൌ
ߪ ξ݊
ൌ
Ͷͳʹǡ͵ͳ ξʹ
ൌ ͺͲǡͺ
Vrijednost granica intervala povjerenja uz rizik greške 2 % iznosi: ͷͺǡ ܺത േ ݐሺǡଵǢଶହሻ ߪ ൌ 6067,5 ± 2,485·80,86 = 6067,5 ± 200,84 = ൜ ʹͺǡ͵Ͷ Sa rizikom greške 2% (pouzdanošću 98%) fakturna vrijednost realizacije preduzeća „P“ po ispostavljenom računu u prosjeku iznosi između 5866,66 KM i 6268,34. b. Osnovni skup sastoji se iz 860 jedinica, tj. N = 860, dok uzorak čini 26 jedinice n = 26. Ukupan obim fakturisane realizacije u toku posmatrane godine dobija se kao proizvod između prosječne vrijednosti fakturisane realizacije po ispostavljenom računu i ukupnog broja računa. Rješenje posmatranog problema predstavlja ocjenu totala osnovnog skupa sa rizikom greške 2 %. Za izračunavanje granica intervala povjerenja totala koristimo sljedeći obrazac: P(ܶ െ ݐሺഀǢିଵሻ ή ߪ ܶ ܶ ݐሺഀǢିଵሻ ή ߪ ሻ ൌ ͳ െ ߙ, pri čemu je: మ
మ
ܶ ൌ ܰ ή ܺത ൌ ͺͲ ή Ͳǡͷ ൌ ͷʹͳͺͲͷͲ Pouzdanost ocjena u konkretnom slučaju iznosi: t(0,01;25) = 2,485 Standardna greška ocjene totala osnovnog skupa, pri stopi izbora nižoj od 5% i nepoznatoj standardnoj devijaciji osnovnog skupa izračunava se: ෞ் ൌ ܰ ߪ
ߪො ξ݊
ൌ ͺͲ ή
Ͷͳʹǡ͵ͳ ξʹ
ൌ ͻͷͶͲǡʹͷ
Vrijednost granica intervala povjerenja uz rizik greške 2 % iznosi: ͷͲͶͷʹͶʹǡͶͺ ෞ் ൌ 5218050 ± 2,485·69540,25 = 5218050 ± 172807,52 = ൜ ܶ േ ݐሺǡଵǢଶହሻ ߪ ͷ͵ͻͲͺͷǡͷʹ Sa rizikom greške 2% očekuje se da je godišnja vrijednost fakturisane realizacije preduzeća „P“ između 5045242,48 i 5390857,52 KM.
166
Primjer 4.3. Za potrebe regrutacije novih članova, sportsko – atletsko udruženje jednog grada testira populaciju osnovnoškolskog uzrasta. Populacija uzrasta koji odgovara zahtjevima kluba obuhvata 836 učenika osnovnih škola starosti od 7 – 11godina starosti sa područja na kojemu sportski klub obavlja svoju djelatnost. Standardi koje trebaju da ispune potencijalni atletičari odnose se na brzinu (eksplozivnost), izdržljivost i snagu. Brzinu (eksplozivnost) izražavamo vremenom za koje sportista pretrči staza dužine 100 metara, izdržljivost izražavamo brzinom pulsa nakon što sportista pretrči stazu dužine 800 metara, dok snagu izražavamo daljinom na koju sportista baci kuglu težine 1 kilogram. Potrebno je odrediti koliko učenika je potrebno testirati ukoliko se istraživanje smatra validnim uz uslov da je pouzdanost izvedenih zaključaka 92%, te ako su standardi koje spotrista treba da zadovolji: a.
U pogledu brzine – da stazu dužine 100 m pretrči za vrijeme od 12 – 13 sekundi, pri čemu je ocijenjena vrijednost standardne devijacije osnovnog skupa 2,75 sekundi;
b.
U pogledu izdržljivosti – da puls sportiste nakon pretrčane staze dužine 800 metara 85 – 90 otkucaja u minuti, pri čemu je ocijenjena vrijednost standardne devijacije osnovnog skupa 15,5 otkucaja u minuti;
c.
U pogledu snage – da sportista kuglu težine 1 kg baci na udaljenost 8 – 10 metara, pri čemu je ocijenjena vrijednost standardne devijacije osnovnog skupa 3,45 sekundi;
d.
Ocijeniti troškove istraživanja ukoliko su normativi za brzinu 1,8 KM po testiranom kandidatu, za snagu 2,2 KM po kandidatu, te za izdržljivost 1,95 KM po kandidatu.
Rješenje: Veličina uzorka za ocjenu aritmetičke sredine konačnog osnovnog skupa određuje se korištenjem izraza: ݊ כൌ
బ
ଵା ಿబ
,
gdje je: ݊ ൌ
మ ௭ഀȀమ ήఙ మ
ௗమ
Sve ocjene izvode se sa pouzdanošću 92%, odnosno vrijedi da je: 1 – α = 0,92 α = 1 – 0,92 = 0,08 Koeficijent pouzdanosti ocjene očitavamo iz tablice kritičnih vrijednosti normalizovanog standardizovanog odstupanja za polovinu rizika α/2 = 0,08/2 = 0,04 z0,04 = – 1,75 (među kritičnim vrijednostima u tabeli se ne nalazi vrijednost 0,04 već je njoj najbliža 0,0401 čija je tablična vrijednost – 1,75); 167
a. U pogledu brzine učenika, potrebna veličina uzorka određuje se na bazi elemenata: N = 836; z0,04 = – 1,75; d = (13 – 12)/2 = 1 /2 = 0,5; V = 2,75, sada imamo: ݊ ൌ ݊ כൌ
మ ௭ഀȀమ ήఙమ
ௗమ బ
ଵା ಿబ
ൌ
ൌ
ሺିଵǡହሻమ ήଶǡହమ ǡହమ
ଽଶǡସଶହ వమǡలరబలమఱ ఴయల
ଵା
= 92,640625
= 83,3988 | 83
Za testiranje brzine učenika, potencijalnih sportista, potrebno je slučajno izabrati 83 učenika. b. U pogledu izdržljivosti učenika, potrebna veličina uzorka određuje se na bazi elemenata: N = 836; z0,04 = – 1,75; d = (90 – 85)/2 = 5/2 = 2,5; V = 15,5, sada imamo: ݊ ൌ ݊ כൌ
మ ௭ഀȀమ ήఙమ
ௗమ బ
ଵା ಿబ
ൌ
ൌ
ሺିଵǡହሻమ ήଵହǡହమ ଶǡହమ
ଵଵǡଶଶହ భభళǡళమమఱ ఴయల
ଵା
= 117,7225
= 103,1914524 | 103
Za testiranje izdržljivosti učenika, potencijalnih sportista, potrebno je slučajno izabrati 103 učenika. c. U pogledu snage učenika, potrebna veličina uzorka određuje se na bazi elemenata: N = 836; z0,04 = – 1,75; d = (10 – 8)/2 = 2 /2 = 1; V = 3,45, sada imamo: ݊ ൌ ݊ כൌ
మ ௭ഀȀమ ήఙమ
ௗమ బ ଵା బ ಿ
ൌ
ൌ
ሺିଵǡହሻమ ήଷǡସହమ ଵమ
ଷǡସହଵସଶହ యలǡరఱభరబలమఱ ఴయల
ଵା
= 36,45140625
= 34,92845 | 35
Za testiranje snage učenika, potencijalnih sportista, potrebno je slučajno izabrati 35 učenika. d. Troškovi testiranja (6TT) izračunavamo kao zbir proizvoda između troškova testiranja po kandidatu i broja testiranih kandidata, što će u konkretnom slučaju iznositi: 6TT = 1,8·83 + 2,2 ·103 + 1,95 · 35 =444,25 KM. Primjer 4.4. Preduzeće za proizvodnju automobila ocjenjuje dužinu puta kočenja kod novog modela, koliko automobila je potrebno testirati kako bi se sa pouzdanošću 97%, ocijenila dužina puta kočenja sa greškom od najviše ± 0,7 metara? Pretpostavlja se da je varijansa osnovnog skupa 9 metara, kao i da je stopa izbora automobila u uzorak manja od 5% ukupne proizvodnje.
168
Rješenje: Veličina uzorka za ocjenu aritmetičke sredine konačnog osnovnog skupa određuje se korištenjem izraza: ݊ ൌ
ଶ ݖఈȀଶ ή ߪଶ
݀ଶ
Ocjene izvode se sa pouzdanošću 97%, odnosno vrijedi da je: – α = 0,97 α = 1 – 0,97 = 0,03
1
Koeficijent pouzdanosti ocjene očitavamo iz tablice kritičnih vrijednosti normalizovanog standardizovanog odstupanja za polovinu rizika α/2 = 0,03/2 = 0,015 z0,015 = – 2,17 (među kritičnim vrijednostima u tabeli se nalazi vrijednost 0,015 čija je tablična vrijednost – 2,17); Potrebna veličina uzorka određuje se na bazi elemenata: f =
ே
൏ 0,05; N = nije poznato; z0,015 =
– 2,17; d = 0,7; V = ξͻ = 3, sada imamo: ݊ ൌ
మ ௭ഀȀమ ήఙమ
ௗమ
ൌ
ሺିଶǡଵሻమ ήଷమ ǡమ
= 86,49 | 86
Za potrebe testiranje dužine puta kočenja posmatranog modela automobila, potrebno je slučajno izabrati 86 automobila. 4.1.2.
Statističko ocjenjivanje procenta učešća osnovnog skupa
Procent učešća konačnog osnovnog skupa (π) predstavlja omjer članova tog skupa sa određenim oblikom statističkog obilježja (M) i obimom posmatranog skupa (N), odnosno vrijedi: ߨൌ
ெ ே
Broj članova osnovnog skupa sa određenim oblikom statističkog obilježja (M) može se shvatiti kao zbir vrijednosti binomne promjenljive koja poprima vrijednost: -
Nula, ukoliko jedinica statističkog skupa nema posmatrani oblik statističkog obilježja ili
-
Jedan, ukoliko jedinica statističkog skupa ima posmatrani oblik statističkog obilježja.
Nepoznata vrijednost procenta učešća osnovnog skupa ocjenjuje se pomoću slučajnog uzorka u koji se bira n članova, pri čemu njih m ima posmatrani oblik statističkog obilježja, tako da je procent učešća u uzorku (p) moguće izračunati pomoću sljedećeg obrasca: ൌ
169
Zavisno od izabranog uzorka ocjena nepoznate vrijednosti procenta učešća u osnovnom skupu izvodi se pomoću malog ili velikog slučajnog uzorka veličine n članova izabranog iz konačnog skupa bez ponavljanja ili beskonačnog skupa uz korištenje odgovarajućih parametara i njihovih sampling distribucija. Ukoliko se ocjena nepoznatog procenta učešća osnovnog skupa izvodi na bazi slučajnog uzorka veličine n izabranog iz beskonačnog osnovnog skupa, sampling distribucija ima oblik binomne distribucije kod koje je: -
Očekivana vrijednost procenta učešća osnovnog skupa jednaka je procentu učešća u uzorku, odnosno tačkastoj ocjeni procenta učešća osnovnog skupa, odnosno vrijedi da je: E[π] = p;
-
Standardna greška ocjene procenta učešća izračunava se pomoću obrasca: ήሺଵିሻ
Vp = ට
-
;
Greška ocjene proporcije učešća osnovnog skupa izračunava se pomoću obrasca: గήሺଵିగሻ
Vπ= ට
ିଵ
.
Binomna distribucija je asimetrična ukoliko je π ≠ 0,50 (50%), za takvu distribuciju je određivanje intervala povjerenja ocjene procenta učešća uz odgovarajući nivo povjerenja (1 – α)·100% je računski zahtjevno. -
U slučaju da se interval povjerenja ocijenjene vrijednosti procenta učešća osnovnog skupa izvodi na bazi malog uzorka koriste se posebne tablice, garfikoni (nomogrami) ili računarski programi;
-
U slučaju da se interval povjerenja ocjene vrijednosti procenta učešća osnovnog skupa izvodi na bazi velikog uzorka, izabranog iz beskonačnog osnovnog skupa, sampling distribucija procenta učešća ima približno normalan raspored sa sredinom koja ima vrijednost procenta učešća uzorka i standardnom devijacijom čija vrijednost je jednaka standardnoj grešci ocjene procenta učešća, tj. π~N(p, Vp). Binomna distribucija se može aproksimirati normalnom, ukoliko za posmatranu distribuciju vrijedi da je: np ≥ 0,05 (5%) i npq ≥ 0,05 (5%), gdje je: q = 1 – p Uvažavajući osobine normalne distribucije, dobijamo da je interval povjerenja nepoznatog procenta učešća osnovnog skupa:
170
P(p – zα/2·Vp ≤ π ≤ p + zα/2·Vp) = (1 – α) Gdje su: p – proporcija uzorka; zα/2 – koeficijent povjerenja ocjene nepoznatog procenta učešća osnovnog skupa, a odeređuje se očitavanjem iz tablice kritičnih vrijednosti normalizovanog standardnog odstupanja, kao kod ocjenjivanja aritmetičke sredine osnovnog skupa; Vp – standardna greška ocjene proporcije osnovnog skupa. -
U slučaju da se interval povjerenja ocjene vrijednosti procenta učešća osnovnog skupa izvodi na bazi velikog uzorka, izabranog iz konačnog osnovnog skupa, sampling distribucija procenta učešća ima približno hipergeometrijski raspored, koji se sa povećavanjem uzorka može aproksimirati normalnim rasporedom, sa sredinom koja ima vrijednost procenta učešća uzorka i standardnom devijacijom čija vrijednost je jednaka grešci ocjene procenta učešća, tj. π~N(p, Vπ). Uvažavajući osobine normalne distribucije, dobijamo da je interval povjerenja nepoznatog procenta učešća osnovnog skupa: P(p – zα/2·Vπ ≤ π ≤ p + zα/2·Vπ) = (1 – α) Gdje su: p – procent učešća u uzorku; zα/2 – koeficijent povjerenja ocjene nepoznatog procenta učešća osnovnog skupa, a odeređuje se očitavanjem iz tablice kritičnih vrijednosti normalizovanog standardnog odstupanja, kao kod ocjenjivanja aritmetičke sredine osnovnog skupa; Vπ – greška ocjene proporcije osnovnog skupa.
Imajući u vidu da se intervali povjerenja izvode se aproksimacijom binomnog ili hipergeometrijskog rasporeda normalnim, potrebno je provjeriti valjanost aproksimacije u smislu da donja granica intervala povjerenja ne smije biti negativna, kao niti da gornja granica intervala povjerenja ne smije biti veća ili jednaka jedan. Veličina slučajnog uzorka za ocjenu procenta učešća osnovnog skupa zavisi od: -
vrsti osnovnog skupa (konačan ili beskonačan);
-
nivou pouzdanosti (1 – α);
171
-
željenoj preciznosti ocjene koja se izražava kao razlika gornje i donje granice intervala ocjene, tj. εp = Θp2 – Θp1 ili u obliku polu intervala koji predstavlja razliku gornje granice intervala ocjene i aritmetičke sredine osnovnog skupa, tj.εp/2 = dp = zα/2·Vp;
-
stepenu varijabiliteta statističkog obilježja čija aritmetička sredina se ocjenjuje (Vp, Vp² ili KVp);
-
troškovi i vrijeme potrebni za provođenja statističkog istraživanja, pribavljanja statističke građe i provođenja analitičkog postupka.
Koristeći izraz za interval povjerenja procenta učešća osnovnog skupa, u slučaju da se uzorak bira iz beskonačnog osnovnog skupa, dobijamo: ɂ ൌ ȣʹȂ ȣͳ ൌ ൬ ݖఈ ή ߪ ൰ െ ൬ െ ݖఈ ή ߪ ൰ ൌ ʹȀଶ ή ɐ୮ ൌ ʹȀଶ ή ඨ ଶ
ଶ
ή ሺͳ െ ሻ
Polazeći od prethodnog obrasca moguće je odrediti veličinu uzorka za ocjenu procenta učešća osnovnog skupa (np0), uz željenu preciznost (εp ili dp) i pouzdanost (zα/2), te procijenjenu vrijednost standardne greške ocjene procenta učešća osnovnog skupa (Vp). Standardana greška osnovnog skupa je planska veličina čija vrijednost se ocjenjuje na bazi poznavanja pojave ili pribavljanja odgovarajućih informacija o njezinoj vrijednosti, ukoliko se ne može pouzdano ocijeniti varijansa osnovnog skupa uzima se najnepovoljnija vrijednost koja ne smije imati vrijednost veću od 0,25. Veličina uzorka izabranog iz beskonačnog osnovnog skupa za ocjenu procenta učešća osnovnog skupa iznosi: ε =ʹȀଶ ή ට
୮ήሺଵି୮ሻ ୬
n = np0 =
మ ௭ഀȀమ ήήሺଵିሻ ഄ మ ቀమቁ
ൌ
మ ௭ഀȀమ ήήሺଵିሻ
ௗమ
Veličina uzorka direktno je proporcionalna pouzdanosti i stepenu varijabiliteta ocjene, a obrnuto proporcionalana preciznosti ocjene. Ukoliko se uzorak bira iz konačnog osnovnog skupa, kod koga je stopa izbora veća od 5% osnovnog skupa, veličina uzorka za ocjenu aritmetičke sredine iznosi (n0*) : ୮ήሺଵି୮ሻ
ɂ ൌ ȣ୮ଶ Ȃȣ୮ଵ ൌ ቀ ݖഀ ή ߪ ቁ െ ቀ െ ݖഀ ή ߪ ቁ ൌ ʹȀଶ ή ට మ
మ
כ ݊ ൌ ݊
172
୬
ଶ ή ߪଶ ݖఈȀଶ ݊ ݀ଶ ൌ ൌ ଶ ݊ ݖఈȀଶ ή ߪଶ ͳ ܰ ଶ ݀ ͳ ܰ
ήට
ି୬ ିଵ
, odakle dobijamo:
Ukoliko je stopa izbora u uzorak manja od 5% (f =
ே
ൌ ͲǡͲͷ) tada se za veličinu uzorka uzima
isti obrazac kao da se uzorak bira iz beskonačnog osnovnog skupa. Primjer 4.5. Polazeći od podataka iz primjera 4.1. ocijeniti udio (procent učešća) utrazvučnih pregleda za koje se utroši ispod 80 sekundi vremena. Ocjenu izvesti uz pouzdanost 94 %. Rješenje: Procent učešća u uzorku iznosi: p =
ൌ
ଶଷ ଶ
ൌ Ͳǡ͵ͳͻͶሶ, modaliteti statitstičke promjenljive u
odnosu na vrijednost koja ima oblik obilježja xi ≤ 80. Radi boljeg uvida u obim jedinica koje imaju navedenu osobinu statistički skup uređujemo prema vrijednosti obilježja u rastući niz, što u konkretnom slučaju izgleda: 38 47 52 58 61 63 65 66 71
72 73 74 74 75 75 75 76 77
78 78 78 79 79 81 82 82 83
84 84 84 84 85 86 87 87 87
88 89 89 90 91 91 94 94 95
96 96 96 98 99 99 99 101 101
103 103 103 104 105 105 106 106 106
106 108 108 109 114 114 116 124 126
Lako je uočiti da osjenčena polja obuhvataju vrijednosti obilježja, vrijeme utrošeno u ultrazvučni pregled, koji zadovoljava kriterij da im je vrijednost manja ili jednaka 80. U slučajno odabranom uzorku od 72 pregleda (n = 72), 23 jedinice imaju vrijednost obilježja manju ili jednaku od 80. Koeficijent pouzdanosti predstavlja tabličnu vrijednost normalizovanog standardizovanog odstupanja za polovinu rizika greške. Rizik greške u konkretnom slučaju iznosi 6 % 1 – α = 0,94 α = 1 – 0,94 = 0,06 α/2 = 0,06 : 2 = 0,03, pri čemu se koeficijent pouzdanosti očitava iz tablice kritičnih vrijednosti normalizovanog standardizovanog odstupanja za rizik 0,03 što iznosi: ݖǡଷ ൌ െͳǡͺͺ. Standardna greška ocjene procenta učešća osnovnog skupa, pri stopi izbora nižoj od 5% ima vrijednost: 173
Ͳǡ͵ͳͻͶሶ ή ሺͳ െ Ͳǡ͵ͳͻͶሻሶ ൌ ͲǡͲͷͶͻͶͻͶ͵ʹ ʹ
ߪ ൌ ඨ
Vrijednost granica intervala povjerenja uz pouzdanost 94 % iznosi: Ͳǡʹͳͳ͵ͻͷͳ േ ݖǡଷ ߪ ൌ 0,3194 ± 1,88·0,054949432 = 0,3194 ± 0,103304933 = ൜ ͲǡͶʹʹͶͻ͵ Sa rizikom greške 6% (pouzdanošću 94%) udio ultrazvučnih pregleda čije trajanje je manje ili jednako 80 sekundi u ukupno obavljenim ultrazvučnim pregledima kreće se od 21,61 do 42,27 %. Primjer 4.6. Proizvodno preduzeće „P“ u periodu od godinu dana realizovalo je prodaju od 741 proizvoda, u uzorak je izabrano 200 proizvoda pri čemu na njih 157 kupci nisu imali reklamacije u garantnom periodu. Potrebno je ocijeniti interval povjerenja procenta učešća proizvoda na koje su kupci imali reklamaciju u periodu trajanja garantnog perioda sa rizikom greške 10%. Rješenje: Procent učešća u uzorku iznosi: p =
ൌ
ଶିଵହ ଶ
ൌ
ସଷ ଶ
ൌ Ͳǡʹͳͷ, modaliteti statitstičke
promjenljive u odnosu na vrijednost koja ima oblik obilježja prijavljena je reklamacija proizvoda u periodu trajanja garantnog roka, pri čemu je broj proizvoda na koje kupci nisu imali reklamaciju u toku trajanja garantnog perioda 157, pri čemu se broj proizvoda na koje su kupci prijavili u garantnom roku dobijamo kao razliku između broja jedinica izabranih u uzorak i broja proizvoda koji nemaju posmatranu osobinu, tj.m = 200 – 157 = 43. Ukoliko je u uzorku od 200 prodanih proizvoda njih 157 takvih da njihovi kupci nisu imali reklamaciju u periodu trajanja garantnog roka, onda je broj onih kod kojih su kupci imali reklamaciju jednak njihovoj razlici. Koeficijent pouzdanosti predstavlja tabličnu vrijednost normalizovanog standardizovanog odstupanja za polovinu rizika greške. Rizik greške u konkretnom slučaju iznosi 10 % α = 0,10 α/2 = 0,10 : 2 = 0,05, pri čemu se koeficijent pouzdanosti očitava iz tablice kritičnih vrijednosti normalizovanog standardizovanog odstupanja za rizik 0,05 što iznosi: ݖǡହ ൌ െͳǡͶ. Standardna greška ocjene procenta učešća osnovnog skupa, pri stopi izbora višoj od 5% (f = n/N = 200/741 = 0,2699 = 26,99%) ima vrijednost:
174
Ͳǡʹͳͷ ή ሺͳ െ Ͳǡʹͳͷሻ Ͷͳ െ ʹͲͲ ήඨ ൌ ͲǡͲʹͶͻͲͲʹ ʹͲͲ െ ͳ Ͷͳ െ ͳ
ߪగ ൌ ඨ
Vrijednost granica intervala povjerenja uz rizik greške 10 % iznosi: േ ݖǡହ ߪగ ൌ 0,215 ± 1,64·0,024900627 = 0,215 ± 0,0,040837029 = ቄ
ͲǡͳͶͳʹͻ Ͳǡʹͷͷͺ͵Ͳʹ
Sa rizikom greške 10 % (pouzdanošću 90 %) udio prodanih proizvoda na koje su kupci prijavili reklamaciju u toku trajanja garantnog perioda kreće se od17,42 do 25,58 %. Primjer 4.7. Određena politička partija analizira procent učešća glasačkog tijela na čiju naklonost može računati na narednim izborima. Ukupno glasačko tijelo čini 231.636 birača, planirana varijansa osnovnog skupa iznosi 20% (0,2). Potrebno je odrediti veličinu uzorka kako bi sa pouzdanočću 91 % ocijenili udio biračkog tijela naklonjenog posmatranoj političkoj partiji pri čemu se toleriše odstupanje ± 0,05 (± 5%). Rješenje: Veličina uzorka za ocjenu procenta učešća konačnog osnovnog skupa određuje se korištenjem izraza: כ ൌ ݊
బ
బ
ଵା ಿ
, gdje je: ݊ ൌ
మ ௭ഀȀమ ήήሺଵିሻ
ௗమ
Ocjena se izvodi sa pouzdanošću 91 %, odnosno vrijedi da je: 1 – α = 0,91 α = 1 – 0,91 = 0,09 Koeficijent pouzdanosti ocjene očitavamo iz tablice kritičnih vrijednosti normalizovanog standardizovanog odstupanja za polovinu rizika α/2 = 0,09/2 = 0,045 z0,045 = – 1,7 (među kritičnim vrijednostima u tabeli se ne nalazi vrijednost 0,045 već je njoj najbliža 0,0446 čija je tablična vrijednost – 1,70) Potrebna veličina uzorka određuje se na bazi elemenata: N = 231.636; z0,045 = – 1,70; d = 0,05; V = p·(1 – p) = 0,20 sada imamo: 2
݊ ൌ כ ݊ ൌ
మ ௭ഀȀమ ήήሺଵିሻ
ௗమ బ
బ
ଵା
ಿ
ൌ
ൌ
ሺିଵǡሻమ ήǡଶ
ଶଷଵǡଶ మయభǡమ
ଵାమయభǤలయల
ǡହమ
= 231,2
= 230,9694653 | 231
175
Za ocjenu procenta učešća glasača nakolnjenih posmatranoj političkoj partiji potrebno je slučajno izabrati 231 glasača. Primjer 4.8. Poljuprivredno gazdinstvo uzgaja papriku sorte „X“ pri čemu je iz osnovnog skupa nepoznate veličine slučajnim izborom potrebno izabrati određen broj sadnica kako bi, sa rizikom greške 11 %, ocijenili procent učešća sadnica kod kojih je prinos veći od 1 kg. Planirana varijansa iznosi 0,36 kg, dok je prihvatljiva ocjena sa relativnim odstupanjem ± 3%. Pretpostavlja se da izabrani uzorak možemo svrstati u kategoriju velikih uzoraka. Rješenje: Veličina uzorka za ocjenu procenta učešća konačnog osnovnog skupa određuje se korištenjem izraza: ݊ ൌ
ଶ ݖఈȀଶ ή ή ሺͳ െ ሻ
݀ଶ
Ocjena se izvodi uz rizik greške 11 %, odnosno vrijedi da je: α = 0,11 Koeficijent pouzdanosti ocjene očitavamo iz tablice kritičnih vrijednosti normalizovanog standardizovanog odstupanja za polovinu rizika α/2 = 0,11/2 = 0,055 z0,055 = – 1,6 (među kritičnim vrijednostima u tabeli se ne nalazi vrijednost 0,055 već je njoj najbliža 0,0548 čija je tablična vrijednost – 1,60). Potrebna veličina uzorka određuje se na bazi elemenata: N nije poznato, ali vrijedi da je f = N/n > 0,05; z0,055 = – 1,60; d = 0,03; V2 = p·(1 – p) = 0,36 sada imamo: ݊ ൌ
మ ௭ഀȀమ ήήሺଵିሻ
ௗమ
ൌ
ሺିଵǡሻమ ήǡଷ ǡଷమ
= 1024
Za ocjenu procenta učešća stabljika paprike sorte „X“ kod kojih je urod iznad 1 kg po stabljici potrebno je slučajno izabrati 1024 stabljike. 4.1.3.
Statističko ocjenjivanje varijanse (standardne devijacije) osnovnog skupa
Varijansa odnosno standardna devijacija kao njen linearni oblik predstavlja najvažniju apsolutnu mjeru varijabiliteta, koja ukazuje na stepen varijabiliteta statističke promjenljive. Nepoznata vrijednost varijanse osnovnog skupa ocjenjuje se pomoću slučajnog uzorka u koji se bira n članova. 176
Ukoliko je slučajni uzorak izabran iz normalno raspoređenog osnovnog skupa, sampling – distribucija varijansi ima oblik ima oblik χ2 distribucije, pri čemu vrijedi da odnos ocijenjene ଶ ሻ pomnožen sa (n – 1) i varijanse osnovnog skupa (V2) vrijednosti varijanse osnovnog skupa (ߪ pripada χ2 distribuciji, odnosno vrijedi da je: ଶ ή ሺ݊ െ ͳሻ ߪ ଶ ߳߯ሺିଵሻ ߪଶ Interval povjerenja nepoznate varijanse osnovnog skupa određuje se pomoću sljedećeg obrasca: P(
మ ሺିଵሻఙ మ ఞഀ మ
൏ ߪଶ ൏
Ǣషభ
మ ሺିଵሻఙ ఞమ ഀ భష Ǣషభ
) = (1 – α)
మ
Gdje su: ଶ – ocijenjena vrijednost varijanse osnovnog skupa, određuje se korištenjem obrasca: ߪ -
ukoliko nije poznata varijansa uzorka:
మ
ଶ ൌ σసభሺ௫ ି௫ҧ ሻ , koji se može transformisati u ekvivalentan oblik: ߪ ିଵ
మ భ
మ
ଶ ൌ σసభ ௫ ିሺ௫ҧ ሻ pri čemu je ݔҧ ൌ ଵ σ ݔ ߪ ୀଵ
ିଵ
-
ukoliko je poznata varijnsa uzorka (s2): ଶ ൌ ݏଶ ή ߪ
ିଵ
ଶ – vrijednost vjerovatnoće χ2, predstavlja površinu ispod krive rasporeda, ߯ഀଶǢିଵ ߯ଵି ഀ Ǣିଵ మ
మ
očitava se iz tablice ili se izračunava pomoću računarskih programa. Ukoliko je broj stepeni slobode (υ) veći od 30, χ2 rasporeda se aproksimira normalnim rasporedom korištenjem izraza: ߯ଶ ൌ
ͳ ሺ ݖ ξʹ߭ െ ͳሻଶ ʹ
Gdje je: zp – predstavlja p – ti percentil normalizovane standardizovane distribucije. Imajući u vidu da je standardana devijacija linearni oblik varijanse i jednaka je pozitvnoj vrijedost drugog (kvadratnog) korijena varijanse, interval za ocjenu standardne devijacije osnovnog skupa određujemo korištenjem obrasca: P(ඨ
మ ሺିଵሻఙ మ ఞഀ మ
Ǣషభ
మ ሺିଵሻఙ
൏ߪ൏ඨ మ ఞ
ഀ భష Ǣషభ మ
) = (1 – α)
177
Primjer 4.9. Dva različita proizvođača automobilski guma „A“ i „B“ provjeravaju njihovu trajnost, pri čemu je iz ukupne proizvodnje u uzorak izabrano 100 guma proizvođača „A“ i 25 guma proizvođača „B“, pri čemu je zabiležena njihova trajnost u pređenim hiljadama kilometara. Kod proizvođača „A“ uzoračke realizacije su, u pogledu trajnosti automobilski guma, imale su vrijednost, kako slijedi: 20
27
18
27
20
25
29
15
25
28
24
28
20
24
22
25
18
16
21
20
26
20
24
16
20
17
17
25
24
23
23
19
17
19
19
29
24
26
24
26
20
26
21
28
19
26
19
25
29
21
30
15
30
30
15
21
26
15
18
22
15
19
22
30
28
27
25
17
27
29
24
22
28
21
15
19
28
24
18
24
19
29
24
22
18
22
25
22
24
28
15
29
25
23
17
18
16
20
18
27
Kod proizvođača „B“ uzoračke realizacije su, u pogledu trajnosti automobilski guma, imale su vrijednost, kako slijedi: 28
23
27
30
26
20
30
22
30
27
17
25
22
18
17
20
20
23
19
20
18
27
30
30
21
Potrebno je odrediti prosječno odstupanje trajanja automobilskih guma od prosječne trajnosti sa pouzdanošću 95%, kod oba proizvođača! Rješenje: Interval povjerenja standardne devijacije osnovnog skupa određujemo pomoću sljedećeg obrasca: మ ሺିଵሻఙ
P(ඨ
మ ఞഀ Ǣషభ మ
మ ሺିଵሻఙ
൏ߪ൏ඨ మ ఞ
ഀ భష Ǣషభ మ
) = (1 – α)
Prvo određujemo interval povjerenja standardne devijacije, za proizvođača „A“. Elementi potrebni za izračunavanje granica intervala su:
178
Procjena standardne devijacije proizvođača „A“:
ଶ ൌ ߪ
మ భ మ σ సభ ௫ ିሺ௫ҧ ሻ
ିଵ
ൌ
ൌ
భ ሺଶାଶାଵ଼ାڮାଶାଵ଼ାଶሻమ భబబ
൫ଶమ ାଶమ ାଵ଼మ ାڮାଶమ ାଵ଼మ ାଶమ ൯ି
ଵିଵ
=
ͷʹͶͻͷ െ ͲǡͲͳ ή ʹʹͶͻଶ ͷʹͶͻͷ െ ͷͲͷͺͲǡͲͳ ͳͻͳͶǡͻͻ ൌ ൌ ൌ ͳͻǡ͵Ͷ͵ሶ ͻͻ ͻͻ ͻͻ
Koeficijent pouzdanosti na nivou značajnosti 95% za proizvođača „A“ određujemo na
-
sljedeći način: Veličina uzorka je n = 100 > 30, α = 1 – 0,95 = 0,05 α/2 = 0,05/2 = 0,025 i 1 – α/2 = 0,975, tako da raspored možemo aproksimirati normalnim rasporedom pri čemu vrijednost χp2 izračunavamo: ଵ
χ p2 = ሺݖ ξʹߥ െ ͳሻଶ ଶ
polazeći od konkretnih podataka u analiziranom primjeru dobijamo: χ
0,025
2
ଵ
=
ଶ
ሺͳǡͻ ξʹ ή ͻͻ െ ͳሻଶ = 0,5(1,96 + ξͳͻሻଶ ൌ Ͳǡͷሺͳǡͻ ͳͶǡͲ͵ͷͺͺͷሻଶ ൌ
ͳʹǡͻ͵ͲͳͲͻ ଵ
χ 0,9752 = ሺെͳǡͻ ξʹ ή ͻͻ െ ͳሻଶ ൌ 0,5(– 1,96 + ξͳͻሻଶ ൌ Ͳǡͷሺെͳǡͻ ͳͶǡͲ͵ͷͺͺͷሻଶ ൌ ଶ ʹǡͻͳͲͺͺͻͲ Granice intervala povjerenja imaju vrijednost: P(ට
ଽଽήଵଽǡଷସଷଷଷଷ ଵଶǡଽଷଵଽ
൏ߪ൏ට
ଽଽήଵଽǡଷସଷଷଷଷ ଶǡଽଵ଼଼ଽ
) = 0,95
P(ξͳͶǡͻͺͻʹ͵ͻ ൏ ߪ ൏ ξʹǡʹͶͺͲͳͳͳ) = 0,95 P(͵ǡͺͺͻͶ͵͵͵ ൏ ߪ ൏ ͷǡͳʹͶͻͳͻʹ) = 0,95 Sa pouzdanošću 95%, očekuje se da prosječno odstupanje trajnosti posmatrane marke automobilskih guma od prosječne trajnosti, kod proizvođača „A“, iznosi između 3.869 i 5.125 kilometara. Nakon toga, određujemo interval povjerenja standardne devijacije, kod proizvođača „B“. Elementi potrebni za izračunavanje granica intervala su: -
Procjena standardne devijacije proizvođača „B“:
మ భ
మ
మ ାଶଷమ ାଶమ ାڮାଷమ ାଷమ ାଶଵమ ൯ି భ ሺଶ଼ାଶଷାଶାڮାଷାଷାଶଵሻమ మఱ
ଶ ൌ σసభ ௫ ିሺ௫ҧ ሻ ൌ ൫ଶ଼ ߪ ିଵ
ൌ
ଶହିଵ
=
ͳͶͶʹ െ ͲǡͲͶ ή ͷͻͲଶ ͳͶͶʹ െ ͳ͵ͻʹͶ ͷͲʹ ൌ ൌ ൌ ʹͲǡͻͳሶ ʹͶ ʹͶ ʹͶ
179
Koeficijent pouzdanosti na nivou značajnosti 95% za proizvođača „A“ određujemo na
-
sljedeći način: Veličina uzorka je n = 25 < 30, tako da koeficijen pouzdanosti očitavamo kao kritične vrijednosti χ2 rasporeda uz 24 stepena slobode (υ =25 – 1), i uz vjervatnoću: 0,025 i 0,975 (α = 1 – 0,95 = 0,05 α/2 = 0,05/2 = 0,025 i 1 – α/2 = 0,975), polazeći od konkretnih podataka u analiziranom primjeru dobijamo: χ 0,025;242 = 39,364 i χ 0,975;242 = 12,401 Granice intervala povjerenja imaju vrijednost: ଶସήଶǡଽଵሶ
P(ට
ଷଽǡଷସ
ଶସήଶǡଽଵሶ
൏ߪ൏ට
ଵଶǡସଵ
) = 0,95
P(ඥͳʹǡͷʹͻͲʹ ൏ ߪ ൏ ξͶͲǡͶͺͲͲ͵ͻ) = 0,95 P(͵ǡͷͳͳͲͳͻ͵Ͷ ൏ ߪ ൏ ǡ͵ʹͶ͵ͳͶʹ) = 0,95 Sa pouzdanošću 95%, očekuje se da prosječno odstupanje trajnosti posmatrane marke automobilskih guma od prosječne trajnosti, kod proizvođača „B“, iznosi između 3.571 i 6.362 kilometara. మ భ
మ
మ ାଶమ ାଵ଼మ ାڮାଶమ ାଵ଼మ ାଶమ ൯ି భ ሺଶାଶାଵ଼ାڮାଶାଵ଼ାଶሻమ ఱబ
ଶ ൌ σసభ ௫ ିሺ௫ҧ ሻ ൌ ൫ଶ ߪ ିଵ
ൌ
ଵିଵ
=
ͷʹͶͻͷ െ ͲǡͲͳ ή ʹʹͶͻଶ ͷʹͶͻͷ െ ͷͲͷͺͲǡͲͳ ͳͻͳͶǡͻͻ ൌ ൌ ൌ ͳͻǡ͵Ͷ͵ሶ ͻͻ ͻͻ ͻͻ
Veličina uzorka je n = 100 > 30, α = 1 – 0,95 = 0,05 α/2 = 0,05/2 = 0,025 i 1 – α/2 = 0,975, tako da raspored možemo aproksimirati normalnim rasporedom pri čemu vrijednost χp2 izračunavamo: ଵ
χ p2 = ሺݖ ξʹߥ െ ͳሻଶ ଶ
polazeći od konkretnih podataka u analiziranom primjeru dobijamo: χ
0,025
2
=
ଵ ଶ
ሺͳǡͻ ξʹ ή ͻͻ െ ͳሻଶ = 0,5(1,96 + ξͳͻሻଶ ൌ Ͳǡͷሺͳǡͻ ͳͶǡͲ͵ͷͺͺͷሻଶ ൌ
ͳʹǡͻ͵ͲͳͲͻ ଵ
χ 0,9752 = ሺെͳǡͻ ξʹ ή ͻͻ െ ͳሻଶ ൌ 0,5(– 1,96 + ξͳͻሻଶ ൌ Ͳǡͷሺെͳǡͻ ͳͶǡͲ͵ͷͺͺͷሻଶ ൌ ଶ ʹǡͻͳͲͺͺͻͲ Granice intervala povjerenja imaju vrijednost: 180
ଽଽήଵଽǡଷସଷଷଷଷ
P(ට
ଵଶǡଽଷଵଽ
൏ߪ൏ට
ଽଽήଵଽǡଷସଷଷଷଷ ଶǡଽଵ଼଼ଽ
) = 0,95
P(ξͳͶǡͻͺͻʹ͵ͻ ൏ ߪ ൏ ξʹǡʹͶͺͲͳͳͳ) = 0,95 P(͵ǡͺͺͻͶ͵͵͵ ൏ ߪ ൏ ͷǡͳʹͶͻͳͻʹ) = 0,95 Sa pouzdanošću 95%, očekuje se da prosječno odstupanje trajnosti posmatrane marke automobilskih guma od prosječne trajnosti, kod proizvođača „A“, iznosi između 3.869 i 5125 kilometara.
4.2. Testiranje statističkih hipoteza Statističko testiranje hipoteza predstavlja metodu statističkog zaključivanja koja se koristi za dokazivanje pretpostavki o veličini određenog parametra ili o obliku rasporeda osnovnog skupa u situacijama kada su dostupne informacije ili pretpostavke o vrijednostima parametara ili obliku rasporeda u osnovnom skupu. Hipoteza predstavlja tvrdnju čija se istinitost mora dokazati određenim metodama. Postupak koji se temelji na prihvatanju ili odbacivanju statističkih hipoteza o vrijednostima iz osnovnog skupa ili osobinama osnovnog skupa na osnovu podataka iz uzorka naziva se testiranje statističkih hipoteza. Statistički testovi mogu biti: -
Parametarski i
-
Neparametarski.
Parametarski testovi, u postupku provjere i ispitivanja istinitosti statističkih hipoteza polaze od poznatog oblika i karakteristika distribucije numeričke promjenljive, za razliku od neparametarskih testova koji to ne zahtijevaju, a moguće ih je primjeniti i kada modaliteti statističke promjenljive nisu numeričke, već druge prirode. Postupak statističkog testiranja obuhvata: -
Formulisanje statističkih hipoteza;
-
Određivanje kritične vrijednosti koja određuje granice prihvatanja (ili neprihvatanja) statističkih hipoteza na bazi izabranog nivoaa značajnosti;
-
Izračunavanje testovne vrijednosti;
-
Donošenje zaključaka o ishodu testa.
Statističke hipoteze se formulišu u paru a nazivaju se nulta (H0) i alternivna (HA) hipoteza, pri čemu njihov sadržaj određuje istraživač, a prilagođava ih zahtjevima statističkog istraživanja. Nulta 181
hipoteza14 sadrži i pretostavku o jednakosti parametara osnovnog skupa i uzorka ili oblika i karakteristika distribucija u osnovnom skupu i uzorku. Altrnativna hipoteza sadržinski protivriječi nultoj hiporezi. U tome smislu, opravdano je reći da je unija skupa statističkih ishoda nulte i alternativne hipoteze predstavlja prostor elementarnih događaja, dok je njihov presjek prazan skup. Odluka o prihvatanju ili neprihvatanju statističkih hipoteza nije kategorična, jer se odluka o tome donosi na bazi dijelimične informacije, tako se u postupku odlučivanja mogu desiti dvije vrste grešaka: -
Greška tipa I – odbacivanje istinite pretpostavke i
-
Greška tipa II – prihvatanje neistinite pretpostavke.
Vjerovatnoća da se odbaci istinita nulta hipoteza iznosi α, a vjerovatnoća da se prihvati netačna nulta hipoteza iznosi β, odnosno vjerovatnoća da se učini Greška tipa I iznosi α, a da se učini Greška tipa II – snaga statističkog testa iznosi 1 – β. α i E su planske veličine, a njihov odnos uslovljen je posljedicana navedenih pogrešaka u konkretnom slučaju. Određivanje kritične vrijednosti za izabran nivo značajnosti, izračunavanje testovne vrijednosti kao i njihovo poređenje, odnosno izvođenje zaključaka o ishodu testa prilagođava se konkretnoj vrsti testa. Osnovne vrste parametarskih testova su: -
Testiranje hipoteza o aritmetičkoj sredini osnovnog skupa;
-
Testiranje hipoteza o procentu učešća osnovnog skupa;
-
Testiranje hipoteza o vrijednosti varijanse osnovnog skupa;
-
Testiranje hipoteza o razlici aritmetičih sredina dvaju osnovnih skupova na bazi nezavisnih uzoraka;
-
Testiranje hipoteza o razlici procenta učešća dvaju osnovnih skupova na bazi zavisnih uzoraka;
-
Testiranje hipoteza o razlici procenta učešća dvaju osnovnih skupova na bazi velikih nezavisnih uzoraka;
-
Testiranje hipoteza o varijansi dvaju osnovnih skupova – analiza varijanse; test hipoteze o jednakosti aritmetičkog sredina k osnovnih skupova; jednofaktorska analiza varijanse; dvofaktorska analiza varijanse.
14
Naziv nulta prizilazi iz pretpostavke da su parametri osnovnog skupa i uzorka iste, odnosno da je razlika među njima jednaka nula, npr. ݔҧ – μ = 0 ݔҧ = μ (aritmetička sredina uzorka jednaka je hipotetičkoj vrijednosti aritmetičke sredine osnovnog skupa, što je ekvivalentno pretpostavci da je razlika među njima jednaka nula)
182
Osnovne vreste neparametraskih testova su: -
Test predznaka (sign test) – test hipoteze o vrijednosti medijane osnovnog skupa;
-
Wilcoxonov test (Wilcoxon one sample signed rank test) – test pretpostavljene vrijednosti medijane u odnosu na predznak razlike vrijednosti statističkog obilježja i medijane;
-
Wilcoxonov test (Wilcoxon mached – pairs signed rank test) – test pretpostavljene vrijednosti na bazi ekvivalentnih parova statističkih obilježja;
-
Mann – Whitney – Wilcoxonov test za nezavisne uzorke;
-
Test homogenosti niza – (runs test) – test homogenosti;
-
χ² - test;
-
Test Kolmogorov – Smirnova;
-
Kuskal – Wallisov i Friedmanov test – analiza varijanse na bazi rang promjenljivih.
4.2.1.
Statističko testiranje hipoteza o aritmetičkoj sredini osnovnog skupa
Statističko testiranje hipoteza o pretpostavljenoj vrijednosti aritmetičke sredine osnovnog skupa izvodi se na bazi uzorka veličine n članova, koji može biti: -
Mali uzorak (n ≤ 30) ili
-
Veliki uzorak (n > 30).
Statističko testiranje hipoteza o pretpostavljenoj vrijednosti aritmetičke sredine osnovnog skupa obuhvata sljedeće korake: 1. Postupak formulisanja hipoteza obuhvata definisanje sadržaja nulte hipoteze (H0), time i altrenativne hipoteze (HA), a njime se iskazuje odnos između aritmetičke sredine uzorka (ݔҧ ) i hipotetičke vrijednosti aritmetičke sredine osnovnog skupa osnovnog skupa (μ). Oblici furmulacije hipoteza, u odnosu na testiranje vrijednosti aritmetičke sredine osnovnog skupa, mogu se iskazati u obliku: -
Dvosmjernog testa, pri čemu su – H0 : ݔҧ ൌ ߤi HA : ݔҧ ് ߤ ili
-
Jednosmjernog testa, koji može biti: o Na donju granicu, pri čemu su – H0 : ݔҧ ߤi HA : ݔҧ ߤ ili o Na gornju granicu, pri čemu su – H0 : ݔҧ ߤi HA : ݔҧ ൏ ߤ.
183
2. Postupak određivanja kritične vrijednosti, čime se određuju granice prihvatanja (ili neprihvatanja) statističkih hipoteza na bazi izabranog nivoa značajnosti (1 – α), uslovljen je: veličinom uzorka na bazi kojih se izvode zaključci, sa jedne strane i oblika formulisanih hipoteza, sa druge strane. Navedeno možemo ilustrovati sljedećim tabelarnim prikazom: Vrsta uzorka
Vrsta testa
Mali uzorak n ≤ 30 Oblik
Područje
Područje
Oblik
Područje
Područje
formulacije
prihvatanja
odbacivanja
formulacije
prihvatanja
odbacivanja
hipoteza
H0
H0
hipoteza
H0
H0
tα/2;n-1 > _t_
tα/2;n-1 < _t_
zα/2 > _z_
zα/2 < _z_
– zα < z
– zα > z
zα > z
zα < z
H0: ݔҧ =μ;
Dvosmjerni
Veliki uzorak n > 30
HA: ݔҧ ്μ Jednosmjerni,
na H0: ݔҧ ≤μ;
donju granicu
HA: ݔҧ >μ
Jednosmjerni,
na H0: ݔҧ tμ;
gornju granicu
HA: ݔҧ <μ
H0: ݔҧ =μ; HA: ݔҧ ്μ
– tα;n-1 < t
– tα;n-1 > t
H0: ݔҧ ≤μ; H0: ݔҧ >μ
tα;n-1 > t
tα;n-1 < t
H0: ݔҧ tμ; H0: ݔҧ <μ
Tabela 81. Postupak određivanja kritične vrijednosti I granica prihvatanja (ili neprihvatanja) statističkih hipoteza na bazi izabranog nivoa značajnosti (1 – α)
3. Postupak izračunavanja testovne vrijednosti podrazumijeva izračunavanje empirijskog z ili t odnosa, korištenjem sljedećeg obrasca: ݖൌ
௫ҧ ିఓ ఙೣഥ
ili ݐൌ
௫ҧ ିఓ ఙೣഥ
Gdje su: ݔҧ – aritmetička sredina uzorka; μ – hipotetička vrijednost aritmetičke sredine osnovnog skupa; ߪ௫ҧ – standardna greška ocjene nepoznate standardne devijacije osnovnog skupa. Izračunavanje njezine vrijednosti određeno je sljedećim elementima: -
Da li je uzrak izabran iz konačnog ili beskonačnog skupa;
-
Ako je uzorak izabran iz konačnog osnovnog skupa, kolika je frakcija izbora (veća ili manja od 5%);
-
Da li je poznata standardna devijacija osnovnog skupa;
-
Da li je riječ o malom ili velikom uzorku;
-
Ako je uzorak mali, da li je izabran iz normalne populacije sa poznatom ili nepoznatom standardnom devijacijom.
Pri čemu je:
184
ߪത ൌ
ఙ ξ
, ukoliko je poznata standardna devijcija osnovnog skupa (σ) i ukoliko je frakcija
izbora manja od 5% (f < 0,05); ߪത ൌ
ఙ ξ
ήට
ேି ேିଵ
, ukoliko je poznata standardna devijcija osnovnog skupa i ukoliko je frakcija
izbora veća od 5%; ߪ௫ҧ ൌ
ෝ ఙ ξ
ǡukoliko nije poznata standardna devijacija osnovnog skupa, ukoliko je uzorak velik i
ukoliko je frakcija izbora manja od 5%, pri čemu je ߪො ൌ ට
మ మ σ సభ ௫ ି௫ҧ
ିଵ
– nepristrasna ocjena
standardne devijacije osnovnog skupa na bazi uzorka; ߪ௫ҧ ൌ
ෝ ఙ ξ
ήට
ேି ேିଵ
Ǣukoliko nije poznata standardna devijacija osnovnog skupa, ukoliko je uzorak
velik i ukoliko je frakcija izbora veća od 5%; షభ
ߪ௫ҧ ൌ
௦ට ξ
ேି
ήට
ேିଵ
ukoliko nije poznata standardna devijacija osnovnog skupa, ukoliko je
uzorak velik i ukoliko je frakcija izbora veća od 5%, pri čemu je s – standardna devijacija uzorka 4. Postupak donošenja zaključka o ishodu testa izvodi se poređenjem očitane kritične (tablične) vrijednosti i testovne vrijednosti kao što je navedeno u prethodnoj tabeli ili poređenjem empirijskog i teorijskog nivoa povjerenja. Teorijski nivo povjerenja je planski element statističkog testiranja, dok je empirijski nivo povjerenja (p – vrijednost) vjerovatnoća odbacivanja tačne (istinite) nulte hipoteze. P – vrijednost se izračunava se pomoću podataka iz uzorka, odnosno pomoću testovne vrijednosti (empirijskog z ili t odnosa). Postupak određivanja empirijskog p – odnosa podrazumijeva da se, nakon izračunavanja testovne vrijednosti odredi vjerovatnoća koja odgovara izračunatoj testovnoj vrijednosti. Ukoliko je p – odnos veći od planskog nivoa povjerenja prihvata se nulta hipoteza, ako ne, odbacuje se nulta hipoteza. Snaga statističkog testa određena je veličinom vjerovatnoće Greške tipa II – P(β) = 1 – β, čiji grafički prikaz se naziva OC – kriva (Operating Characteristic Curve). Odnos vjerovatnoće odbacivanja tačne nulte hipoteze (α) i vjerovatnoće prihvatanja prihvatanja netačne nulte hipoteze (β) su osnova za određivanje veličine uzorka za testiranje statističke hipoteze o vrijednosti aritmetičke sredine osnovnog skupa. Postupak izračunavanja Greške tipa II oslanja se na oblik sampling distribucije određene nultom hipotezom [N(μ,ߪ௫ҧ )] i njen položaj u odnosu na sampling 185
distribucije sa drugim mogućim vrijednostima sredine i istom standardnom greškom [N(μA,ߪ௫ҧ )]. Granice prihvatanja nulte hipoteze sampling – distribucije određene nultom hipotezom su: ܿଵ ൌ ߤ െ ݖఈȀଶ ή ߪ௫ҧ Ǣܿଶ ൌ ߤ ݖఈȀଶ ή ߪ௫ҧ Izrazi za izračunanje vrijednosti β, mogu se prikazati u sljedećoj tabeli: Odnos granica prihvatanja statističkih Izraz za izračunavanje vjerovatnoće Greške tipa II hipoteza i alternativne sredine uzorka ܿଵ െ ߤ ܿଶ െ ߤ ߤ ܿଶ ߚ ൌ ܲ൬ ൏ ݖ൏ Ͳ൰ െ ܲ ൬ ൏ ݖ൏ Ͳ൰ ߪ௫ҧ ߪ௫ҧ ܿଶ െ ߤ ܿଵ െ ߤ ߤ ൏ ܿଵ ߚ ൌ ܲ ൬Ͳ ൏ ݖ൏ ൰ െ ܲ ൬Ͳ ൏ ݖ൏ ൰ ߪ௫ҧ ߪ௫ҧ ܿଵ െ ߤ ܿଶ െ ߤ ܿଵ ൏ ߤ ൏ ܿଶ ߚ ൌ ܲ൬ ൏ ݖ൏ Ͳ൰ ܲ ൬Ͳ ൏ ݖ൏ ൰ ߪ௫ҧ ߪ௫ҧ Tabela 82. Izrazi za izračunavanje vrijednosti vjerovatnoće Greške tipa II (β)
Određivanje veličine uzorka za testiranje hipoteza o vrijednosti aritmetičke sredine osnovnog skupa (n0) zasniva se na vrijednosti standardne devijacije, širini intervala prihvatanja nulte hipoteze i koeficijentu povjerenja, koji obuhvata vjerovatnoću Greške tipa I (α), a u nekim slučajevima i vjerovatnoće Grešku tipa II (β). Ukoliko se određivanje veličine uzorka zasniva na uključivanja: -
Samo vjerovatnoće Greške tipa I, veličina uzorka se određuje kao kod postupka statističkog ocjenjivanja nepoznate aritmetičke sredine osnovnog skupa;
-
Pored vjerovatnoće Greške tipa I i vjerovatnoće Greške tipa II, veličina uzorka uključuje oblik formulacije statističkih hipoteza i odgovarajuće vrijednosti aritmetičkih sredina μ i μA, a izraze za njegovo određivanje možemo ilustrovati sljedećim tabelarnim prikazom:
Oblik formulisanih
Izrazi za izračunavanje
Način određivanja
hipoteza
veličine uzoraka
koeficijenta povjerenja
H0: ݔҧ = μ; HA: ݔҧ ്μ H0: ݔҧ ≤ μ; HA: ݔҧ > μ H0: ݔҧ t μ; HA: ݔҧ < μ
݊ൌ
ߪ ଶ ሺȁݖ ȁ ȁݖ ȁሻଶ ȁߤ െ ߤ ȁଶ
݊ൌ ݊ൌ
ଶ
ȁሻଶ
ଶ
ȁሻଶ
ߪ ሺȁݖ ȁ ȁݖ ȁߤ െ ߤ ȁଶ ߪ ሺȁݖ ȁ ȁݖ ȁߤ െ ߤ ȁଶ
P(Z ≤ z0) = 1 – α/2; P(Z ≤ zA) = β P(Z ≤ z0) = 1 – α; P(Z ≤ zA) = β P(Z ≤ z0) = α; P(Z ≤ zA) = β
Tabela 83. Izrazi za određivanje veličine uzorka za testiranje pretpostavki o vrijednosti aritmetičke sredine osnovnog skupa
186
Primjer 4.10. Proizvodno preduzeće obavlja analizu produktivnosti proizvodnih radnika u dva proizvodna pogona, pri čemu je iz svakog pogona bilježeno prosječno utrošeno vrijeme u proizvodnju određenog proizvoda u toku jedne smjene svih proizvodnih radnika u dva pogona. U jednom pogonu je zaposleno 73, a u drugom pogonu 24 radnika. Podaci o prosječno utrošenom vremenu u proizvodnju proizvoda, izraženi u minutama, iznosili su: -
U Pogonu I:
142
139
137
137
148
141
136
143
145
137
151
131
127
137
133
123
146
155
140
128
141
137
145
143
129
127
138
127
132
152
145
129
138
150
140
139
127
140
133
146
141
138
150
121
128
121
145
122
148
148
154
141
147
128
143
144
155
139
143
123
147
141
127
-
U Pogonu II:
132
145
143
133
144
133
136
136
145
154
132
124
138
151
143
142
125
143
127
152
138
133
148
132
Prema standardu, prosječno utrošeno vrijeme u proizvodnju je 140 minuta po jednosm proizvodu sa prosječnim odstupanjem 7 minuta. Može se uzeti da je distribucija proizvodnih radnika prema utrošenom vremenu u proizvodnju normalno raspoređena sa parametrima koji odgovaraju staandardu. Potrebno je: a. Testirati pretpostavku da radnici posmatranog preduzeća ostvaruju produktivnost prema standardu! Testiranje vršiti uz rizik greške 10%. b. Prethodnu odluku donijeti i poređenjem empirijskog i teorijskog nivoa povjerenja. c. Testirati pretpostavku da je utrošak vremena u Pogonu I iznad prosjeka, a u Pogonu II ispod prosjeka! Testiranje vršiti, takođe uz rizik greške 10%. d. Kolika je vjerovatnoća da se prihvati nulta hipoteza da prosječno utrošeno vrijeme u Pogonu I odgovara standardu ukoliko je izabran uzorak u kome je aritmetička sredina 140,5? Testirati pretpostavku uz rizik greške 5%. e. Ukoliko je planom usvojen rizik odbacivanja istinite hipoteze 3%, koja je veličina uzorka za testiranje prosječno utrošenog vremena u slučaju dvosmjernog testa? 187
Rješenje: a. Statističko testiranje pretpostavke o prosječno utrošenom vremenu za proizvodnju proizvoda u Pogonu I provodi se pomoću velikog uzorka (n = 73 > 30) izabranog iz konačnog osnovnog skupa nepoznate veličine (n << N). Postupak testiranja je sljedeći: 1) Hipoteze za ovaj test glase:
H0 : μ = 140
HA: μ ≠ 140
2) Tablična vrijednost za rizik greške 10 %, kod dvosmjernog testa, iznosi: α/2 = 0,10/2 = 0,05 z0,05 = – 1,64 - kritične vrijednosti za prihvatanje nulte hipoteze su: – 1,64 ≤ z ≤ 1,64 3) Testovna vrijednost (empirijski z – odnos) je: ͳͶʹ ͳ͵ͻ ͳ͵ ڮ ͳͶ ͳͶͳ ͳʹ െ ͳͶͲ ͵ ξ͵ ͳ͵ͺǡ͵ʹͺͺ െ ͳͶͲ െͳǡͳʹ ൌ ൌ ൌ െʹǡͲͶ Ͳǡͺͳͻʹͺͺ ͺǡͷͶͶ
ܺതଵ െ ߤ ൌ ݖൌ ߪത
4) Odluka – testovna vrijednost je manja od tablične tj. – 2,04 < – 1,64 zaključujemo da sa pouzdanošću 90% (rizikom greške 10%) ne možemo prihvatiti pretpostavku da je prosječno utrošeno vrijeme u proizvodnju posmatranog proizvoda u Pogonu I 140 minuta. Alternativno se odluka donosi pomoću kritičnih granica izraženih u mjernim jedinicama statističke promjenljive, što iznosi: C1P1 = μ - zα/2ή ߪ௫ҧ ൌ ͳͶͲ െ ͳǡͶ ή
ξଷ
ൌ ͳͶͲ െ ͳǡͶ ή Ͳǡͺͳͻʹͺͺ ൌ140 – 1,34363237 =
138,66 C2P1 = μ + zα/2ή ߪ௫ҧ ൌ ͳͶͲ ͳǡͶ ή
ξଷ
ൌ ͳͶͲ ͳǡͶ ή Ͳǡͺͳͻʹͺͺ ൌ140 + 1,34363237 =
141,34 Na nivou značajnosti 10% uslov za prihvaćanje aritmetičake sredine jeste da se njezina uzoračka realizacija nađe između 138,66 i 141,34. U posmatranom primjeru aritmetička sredina uzorka ima vrijednost 138,3288, što je manje od donje granice i dovodi do istog zaključka, odnosno odbacivanja nulte hipoteze.
188
Statističko testiranje pretpostavke o prosječno utrošenom vremenu za proizvodnju proizvoda u Pogonu II provodi se pomoću malog uzorka (n = 24 < 30) izabranog iz konačnog osnovnog skupa nepoznate veličine (n << N). Postupak testiranja je sljedeći: 1) Hipoteze za ovaj test glase: H0 : μ = 140
HA: μ ≠ 140
2) Tablična vrijednost za rizik greške 10 % i 23 stepena slobode (υ = 24 – 1), kod dvosmjernog testa, iznosi: α/2 = 0,10/2 = 0,05 t0,05;23 = 1,7139 -
kritične
vrijednosti za prihvatanje nulte hipoteze su: – 1,7139 ≤ t ≤ 1,7139 3) Testovna vrijednost (empirijski t – odnos) je: ͳ͵ʹ ͳͶͷ ͳͶ͵ ڮ ͳ͵͵ ͳͶͺ ͳ͵ʹ െ ͳͶͲ ʹͶ ξʹͶ ͳ͵ͺǡͲͺ͵ െ ͳͶͲ െͳǡʹͻͳ ൌ ൌ ൌ െͲǡͻͲͶ ͳǡͶʹͺͺͻͲͳ ͶǡͺͻͺͻͻͶͺ
ܺതଶ െ ߤ ൌ ݐൌ ߪത
4) Odluka – testovna vrijednost je veća od tablične tj. – 0,904 > – 1,7139 zaključujemo da sa pouzdanošću 90% (rizikom greške 10%) možemo prihvatiti pretpostavku da je prosječno utrošeno vrijeme u proizvodnju posmatranog proizvoda u Pogonu II 140 minuta. Alternativno se odluka donosi pomoću kritičnih granica izraženih u mjernim jedinicama statističke promjenljive, što iznosi: C1P2 = μ - tα/2ή ߪ௫ҧ ൌ ͳͶͲ െ ͳǡͳ͵ͻ ή
ξଶସ
ൌ ͳͶͲ െ ͳǡͳ͵ͻ ή ͳǡͶʹͺͺͻͲͳ ൌ140 –
2,448928606 = 137,55 C2P2 = μ + zα/2ή ߪ௫ҧ ൌ ͳͶͲ ͳǡͳ͵ͻ ή
ξଶସ
ൌ ͳͶͲ ͳǡͳ͵ͻ ή ͳǡͶʹͺͺͻͲͳ ൌ140 +
2,448928606 = 142,45 Na nivou značajnosti 10% uslov za prihvaćanje aritmetičake sredine jeste da se njezina uzoračka realizacija nađe između 137,55 i 142,45. U posmatranom primjeru aritmetička sredina uzorka ima vrijednost 138,7083, što je veće od donje, a manje od gornje granice i dovodi do istog zaključka, odnosno prihvatanja nulte hipoteze. b. Empirijski nivo povjerenja u Pogonu I ima vrijednost z = – 2,04, P(Z > z) = P(Z > – 2,04) = 0,0207 kako je test dvosmjeran empirijski p – odnos ima vrijednost 2∙0,0207=0,0414 = 189
4,14%. Kako je planirani rizik greške (teorijski p – odnos) veći od 4,14, odbacujemo nultu hipotezu (4,15% < 10%). Empirijski nivo povjerenja u Pogonu II ima vrijednost t = – 0,904, pošto u tabeli kritičnih vrijednosti Studentovog t rasporeda nema navedenih podataka za sve vjerovatnoće (rizike), koristeći empirijski p – omjer nije uvijek moguće precizno odrediti teorijsku vrijednost iz tablice kritičnih vrijednosti već se moraju koristiti odgovarajuće aproksimacije. U konkretnom primjeru imamo: P(T > t) = P(T > – 0 ,904) > 0,10 kako je test dvosmjeran empirijski p – odnos ima vrijednost 2∙P(T > - 0,904) > 2∙0,1 > 0,2 > 20%. Kako je planirani rizik greške (teorijski p – odnos) manji od 20% prihvatamo nultu hipotezu (20% > 10%). c. Statističko testiranje pretpostavke o prosječno utrošenom vremenu za proizvodnju proizvoda u Pogonu I provodi se pomoću velikog uzorka (n = 73 > 30) izabranog iz konačnog osnovnog skupa nepoznate veličine (n << N). Postupak testiranja je sljedeći: 1) Hipoteze za ovaj test glase:
H0 : μ 140
HA: μ > 140
Postavka mora da poštuje pravilo o formulisanju hipoteza, tako da ispitivana pretpostavka ide u alternativnu hipotezu jer ne sadrži zahtjev o jednakosti sredina. 2) Tablična vrijednost za rizik greške 10 %, kod jednosmjernog testa na gornju granicu, iznosi: α = 0,10 z0,10 = 1,28 - kritične vrijednosti za prihvatanje nulte hipoteze su: z ≤ 1,28 3) Testovna vrijednost (empirijski z – odnos) je: ݖൌ
ͳ͵ͺǡ͵ʹͺ െ ͳͶͲ െͳǡʹ െͳǡʹ ܺതଵ െ ߤ ൌ ൌ ൌ ൌ െʹǡͲͶ Ͳǡͺͳͻʹͺͺ ߪത ͺǡͷͶͶ ξ͵
4) Odluka – testovna vrijednost je manja od tablične tj. – 2,04 < 1,28 zaključujemo da sa pouzdanošću 90% (rizikom greške 10%) možemo prihvatiti pretpostavku da je prosječno utrošeno vrijeme u proizvodnju posmatranog proizvoda u Pogonu I manje ili jednako140 minuta. Drugim riječima, prosječno utrošeno vrijeme u izradu proizvoda u Pogonu I nije iznad prosjeka. Alternativno se odluka donosi pomoću kritičnih granica izraženih u mjernim jedinicama statističke promjenljive, što iznosi:
190
C2P1 = μ + zαή ߪ௫ҧ ൌ ͳͶͲ ͳǡʹͺ ή
ξଷ
ൌ ͳͶͲ ͳǡʹͺ ή Ͳǡͺͳͻʹͺͺ ൌ140 + 1,04868864 =
141,05 Na nivou značajnosti 10% uslov za prihvaćanje da je arimetička sredina manja ili jednaka od standarda je da njezina uzoračka realizacija bude manja od 141,05. U posmatranom primjeru aritmetička sredina uzorka ima vrijednost 138,3288, što je manje od donje granice i dovodi do istog zaključka, odnosno prihvatanja nulte hipoteze. Statističko testiranje pretpostavke o prosječno utrošenom vremenu za proizvodnju proizvoda u Pogonu II provodi se pomoću malog uzorka (n = 24 < 30) izabranog iz konačnog osnovnog skupa nepoznate veličine (n << N). Postupak testiranja je sljedeći: 1) Hipoteze za ovaj test glase:
H0 : μ t 140
HA: μ < 140
Postavka mora da poštuje pravilo o formulisanju hipoteza, tako da ispitivana pretpostavka ide u alternativnu hipotezu jer ne sadrži zahtjev o jednakosti sredina. 2) Tablična vrijednost za rizik greške 10 % i 23 stepena slobode (υ = 24 – 1), kod dvosmjernog testa, iznosi: α = 0,10 t0,10;23 = 1,319 -
kritične vrijednosti za
prihvatanje nulte hipoteze su: – 1,319 ≤ t 3) Testovna vrijednost (empirijski t – odnos) je: ݐൌ
ͳ͵ͺǡͲͺ͵ െ ͳͶͲ ͳ͵ͺǡͲͺ͵ െ ͳͶͲ െͳǡʹͻͳ ܺതଶ െ ߤ ൌ ൌ ൌ ൌ െͲǡͻͲͶ ͳǡͶʹͺͺͻͲͳ ߪത ͶǡͺͻͺͻͻͶͺ ξʹͶ
4) Odluka – testovna vrijednost je veća od tablične tj. – 0,904 > – 1,319 zaključujemo da sa pouzdanošću 90% (rizikom greške 10%) možemo prihvatiti pretpostavku da je prosječno utrošeno vrijeme u proizvodnju posmatranog proizvoda u Pogonu II veće ili jednako 140 minuta. Drugim riječima, prosječno utrošeno vrijeme u izradu proizvoda u Pogonu II nije ispod prosjeka. Alternativno se odluka donosi pomoću kritičnih granica izraženih u mjernim jedinicama statističke promjenljive, što iznosi: C1P2 = μ - tα/2ή ߪ௫ҧ ൌ ͳͶͲ െ ͳǡ͵ͳͻ ή
ξଶସ
ൌ ͳͶͲ െ ͳǡ͵ͳͻ ή ͳǡͶʹͺͺͻͲͳ ൌ140 –
1,884678233 = 138,11 Na nivou značajnosti 10% uslov za prihvaćanje aritmetičake sredine jeste da se njezina uzoračka realizacija nađe iznad 138,11. U posmatranom primjeru 191
aritmetička sredina uzorka ima vrijednost 138,7083, što je veće od donje granice i dovodi do istog zaključka, odnosno prihvatanje nulte hipoteze. d. Ovdje imamo: 1) Hipoteze testa su:
H0 : μ = 140
HA: μ ≠ 140
2) Granice prihvatanja nulte hipoteze su: C1P1
=
μ
-
zα/2ή ߪ௫ҧ ൌ ͳͶͲ െ ͳǡͻ ή
ξଷ
ൌ ͳͶͲ െ ͳǡͻ ή ͲǡͺͳͻʹͺͺͲ͵ ൌ140
–
ൌ ͳͶͲ െ ͳǡͻ ή ͲǡͺͳͻʹͺͺͲ͵ ൌ140
–
1,60580454 = 138,39 C1P2
=
μ
+
zα/2ή ߪ௫ҧ ൌ ͳͶͲ െ ͳǡͻ ή
ξଷ
1,60580454 = 141,61 3) Tražena vjerovatnoća je β. Ovdje je alternativna sredina uzorka 140,5 veća od donje, a manja od gornje granice prihvatanja nulte hipoteze, tj. 138,39 < 140,5 < 141,61 tako da se vjerovatnoća određuje pomoću obrasca: ܿଶ െ ߤ ܿଵ െ ߤ ൏ ݖ൏ Ͳ൰ ܲ ൬Ͳ ൏ ݖ൏ ߚ ൌ ܲ൬ ൰ ߪ௫ҧ ߪ௫ҧ ൌ ܲ൬
ͳͶͳǡͳ െ ͳͶͲǡͷ ͳ͵ͺǡ͵ͻ െ ͳͶͲǡͷ ൏ ݖ൏ Ͳ൰ ܲ ൬Ͳ ൏ ݖ൏ ൰ ͲǡͺͳͻʹͺͺͲ͵ ͲǡͺͳͻʹͺͺͲ͵
ൌ ܲሺെʹǡͷͺ ൏ ݖ൏ Ͳሻ ܲሺͲ ൏ ݖ൏ ͳǡ͵ͷሻ ൌ ሺͲǡͷ െ ͲǡͲͲͶͻሻ ሺͲǡͻͳͳͷ െ Ͳǡͷሻ ൌ ͲǡͶͻͷͳ ͲǡͶͳͳͷ ൌ ͲǡͻͲ Vjerovatnoća da se prihvati pretpostavka da je uzorak izabran iz osnovnog skupa sa sredinom 140 iako potiče iz skupa sa sredinom 140,5 je 90,66%. e. Test je dvosmjeran, potrebna veličina uzorka za testiranje aritmetičke sredine osnovnog skupa određuje se pomoću sljedećeg obrasca: ݊ൌ
ఙ మ ሺȁ௭ಲ ȁାȁ௭బ ȁሻమ ȁఓିఓಲ ȁమ
ൌ
మ ሺଵǡଷଶమ ାଶǡଵమ ሻ ȁଵସିଵସǡହȁమ
ൌ
ଷଵǡଵଵଷ ǡଶହ
=1264,45|1264
Gdje su: Z0 – tablična vrijednost planom usvojen stepen vjerovatnoće Greške tipa I P(z ≤ 2,17) = 1 – 0,03/2 = 0,985; ZA – tablična vrijednost za izračunatu vrijednost vjerovatnoće Greške tipa II P(z ≤ 1,32) = 0,9066; μ – hipotetička vrijednost aritmetičke sredine osnovnog skupa; μA – alternativna vrijednost aritmetičke sredine osnovnog skupa.
192
Za testiranje pretpostavke o jednakosti aritmetičke sredine osnovnog skupa, u uzorak je potrebno izabrati 1264 radnika. 4.2.2.
Testiranje hipoteza o procentu učešća osnovnog skupa
Statističko testiranje hipoteze o pretpostavljenoj vrijednosti procenta učešća osnovnog skupa izvodi se na bazi uzorka veličine n članova, a obuhvata sljedeće korake: 1. Postupak formulisanja hipoteza obuhvata definisanje sadržaja nulte hipoteze (H0), time i altrenativne hipoteze (HA), a njime se iskazuje odnos između procenta učešća uzorka (p) i hipotetičke vrijednosti procenta učešća osnovnog skupa (π). Oblici furmulacije hipoteza, u odnosu na testiranje vrijednosti procenta učešća osnovnog skupa, mogu se iskazati u obliku: -
Dvosmjernog testa, pri čemu su – H0 : p = π i HA : p ≠ π ili
-
Jednosmjernog testa, koji može biti: o Na donju granicu, pri čemu su – H0 : p ≤ π i HA : p > π ili o Na gornju granicu, pri čemu su – H0 : p t π i HA : p < π.
2. Postupak određivanja kritične vrijednosti, čime se određuju granice prihvatanja (ili neprihvatanja) statističkih hipoteza na bazi izabranog nivoa značajnosti (1 – α), uslovljen je: veličinom uzorka na bazi kojih se izvode zaključci, sa jedne strane i oblika formulisanih hipoteza, sa druge strane. Navedeno možemo ilustrovati sljedećim tabelarnim prikazom: Vrsta testa
Oblik formulacije hipoteza
Dvosmjerni Jednosmjerni,
Područje prihvatanja H0
Područje odbacivanja H0
H0: p = π; HA : p ≠ π
zα/2 > _z_
zα/2 < _z_
na H0 : p ≤ π; HA : p > π
– zα < z
– zα > z
na H0: p t π; HA : p < π
zα > z
zα < z
gornju granicu Jednosmjerni, donju granicu Tabela 84. Postupak određivanja kritične vrijednosti I granica prihvatanja (ili neprihvatanja) statističkih hipoteza na bazi izabranog nivoa značajnosti (1 – α)
3. Postupak izračunavanja testovne vrijednosti podrazumijeva izračunavanje empirijskog z – odnosa, korištenjem sljedećeg obrasca: ݖൌ
ିగ ఙഏ
Gdje su: P – procent učešća u uzorku; 193
π – hipotetička vrijednost procenta učešća u osnovnom skupu; ߪగ – standardna greška odnosno standardna devijacija sampling distribucije koja se računa polazeći od nulte hipoteze kao tačne, izračunavanje njezine vrijednosti određeno je sljedećim elementima: -
Da li je uzrak izabran iz konačnog ili beskonačnog skupa;
-
Ako je uzorak izabran iz konačnog osnovnog skupa, kolika je frakcija izbora (veća ili manja od 5%);
-
Da li je riječ o malom ili velikom uzorku.
Pri čemu je: ߪగ ൌ ට
గήሺଵିగሻ
ߪగ ൌ ට
గήሺଵିగሻ
, ukoliko je frakcija izbora manja od 5% (f < 0,05); ேି
ήට
ேିଵ
, ukoliko je frakcija izbora veća od 5%;
4. Postupak donošenja zaključka o ishodu testa izvodi se poređenjem očitane kritične (tablične) vrijednosti i testovne vrijednosti kao što je navedeno u prethodnoj tabeli ili poređenjem empirijskog i teorijskog nivoa povjerenja. Teorijski nivo povjerenja je planski element statističkog testiranja, dok je empirijski nivo povjerenja (p – vrijednost) vjerovatnoća odbacivanja tačne (istinite) nulte hipoteze. P – vrijednost se izračunava se pomoću podataka iz uzorka, odnosno pomoću testovne vrijednosti (empirijskog z ili t odnosa). Postupak određivanja empirijskog p – odnosa podrazumijeva da se, nakon izračunavanja testovne vrijednosti odredi vjerovatnoća koja odgovara izračunatoj testovnoj vrijednosti. Ukoliko je p – odnos veći od planskog nivoa povjerenja prihvata se nulta hipoteza, ako ne odbacuje se nulta hipoteza. Snaga statističkog testa određena je veličinom vjerovatnoće Greške tipa II – P(β) = 1 – β, čiji grafički prikaz se naziva OC – kriva (Operating Characteristic Curve). Odnos vjerovatnoće odbacivanja tačne nulte hipoteze (α) i vjerovatnoće prihvatanja prihvatanja netačne nulte hipoteze (β) su osnova za određivanje veličine uzorka za testiranje statističke hipoteze o vrijednosti procenta učešća osnovnog skupa. Postupak izračunavanja Greške tipa II oslanja se na oblik sampling distribucije određene nultom hipotezom [N(π,ߪగ )] i njen položaj u odnosu na sampling distribucije sa drugim mogućim vrijednostima sredine i istom standardnom greškom [N(πA,ߪగ )]. Granice prihvatanja nulte hipoteze sampling – distribucije određene nultom hipotezom su:
194
ܿଵ ൌ ߨ െ ݖఈȀଶ ή ߪగ Ǣܿଶ ൌ ߨ ݖఈȀଶ ή ߪగ Izrazi za izračunanje vrijednosti β, analogni su izrazima koji se koriste kod aritmetičke sredine osnovnog skupa, pri čemu je standardna greška alternativne distribucije: ߪ ൌ ට
గಲ ήሺଵିగಲ ሻ
.
Određivanje veličine uzorka za testiranje hipoteza o vrijednosti prcenta učešća osnovnog skupa (n0) zasniva se na vrijednosti standardne devijacije, širini intervala prihvatanja nulte hipoteze i koeficijentu povjerenja, koji obuhvata vjerovatnoću Greške tipa I (α), a u nekim slučajevima i vjerovatnoće Grešku tipa II (β). Ukoliko se određivanje veličine uzorka zasniva na uključivanja: -
Samo vjerovatnoće Greške tipa I, veličina uzorka se određuje kao kod postupka statističkog ocjenjivanja nepoznatog procenta učešća osnovnog skupa;
-
Pored vjerovatnoće Greške tipa I i vjerovatnoće Greške tipa II, veličina uzorka uključuje oblik formulacije statističkih hipoteza i odgovarajuće vrijednosti procenta učešća π i πA, a izraze za njegovo određivanje možemo ilustrovati sljedećim tabelarnim prikazom:
Oblik formulisanih
Izrazi za izračunavanje veličine uzoraka
Način određivanja
hipoteza
koeficijenta povjerenja ଶ
H0: p = π;
HA : p ≠ π H0 : p ≤ π;
HA : p > π H0: p t π;
HA : p < π
݊ൌ
P(Z ≤ _z0_) = 1 – α/2;
ൣȁݖ ȁඥߨ ሺͳ െ ߨ ሻ ȁݖ ȁඥߨሺͳ െ ߨሻ൧ ȁߨ െ ߨ ȁଶ
P(Z ≤ _zA_) = β ଶ
݊ൌ
ൣȁݖ ȁඥߨ ሺͳ െ ߨ ሻ ȁݖ ȁඥߨሺͳ െ ߨሻ൧ ȁߨ െ ߨ ȁଶ
ଶ
ൣȁݖ ȁඥߨ ሺͳ െ ߨ ሻ ȁݖ ȁඥߨሺͳ െ ߨሻ൧ ݊ൌ ȁߨ െ ߨ ȁଶ
P(Z ≤ z0) = 1 – α; P(Z ≤ z1) = β P(Z ≤ z0) = α; P(Z ≤ z1) = β
Tabela 85. Izrazi za određivanje veličine uzorka za testiranje pretpostavki o vrijednosti procenta učešća osnovnog skupa
Primjer 4.11. U jednoj osnovnoj školi urađena je analiza zdravstvenog stanja učenika u pogledu utvrđivanja indeksa tjelesne težine BMI (engl. Body Mass Index). Iz ukupne populacije posmatranog područja 7.954 stanovnika je uzrasta od 6 – 15 godina u slučajni uzorak je izabrano 230 učenika i za njih je izračunat BMI prema metodologiji Centra za prevenciju i kontrolu bolesti CDC (engl. Centers for Disease Control and Prevention). Navedena metodologija u određivanje
195
BMI – ja koristi podatke o polu, starosti, visini i težini ispitanika, a prema rezultatima utvrđenog BMI – ja razlikuje sljedeće kategorije: Kategorija
Vrijednost BMI
Neuhranjenost
Manji od 5 (< 5)
Normalna težina
5 – 85
Prekomjerna težina
85 – 95
Pretilost (Gojaznost)
Veći ili jednak 95 ( t 95)
Tabela 86. Kategorizacija ispitanika prema vrijednosti BMI, korištena je preporuka CDC - a
Rezultati utvrđenog BMI u posmatranom uzorku bili su: 64 29 86 55 52 61 103 6 20 116 45 46 19 43 102 43 53 9 70 49 9 86 109 104 32 52 92 98 83 92 69 61 108 15 15 32 47 17 5 3 10 94 96 116 8 78 Potrebno je:
16 51 31 30 76 52 63 75 64 43 36 101 102 50 71 26 16 26 87 53 74 116 60
40 70 30 73 78 23 45 99 13 25 57 18 31 28 13 103 93 96 77 9 35 101 60
75 5 8 86 49 60 51 34 51 71 107 104 48 91 95 93 88 3 47 30 1 8 28
80 56 117 88 29 7 59 14 19 67 84 103 62 2 32 5 48 30 13 46 52 61 49
58 67 50 53 27 6 11 109 36 98 32 106 85 88 13 45 15 53 3 62 34 33 68
14 116 8 19 108 111 76 23 101 72 103 32 49 71 50 26 13 55 6 33 12 48 90
116 119 115 105 10 68 101 4 26 74 19 102 76 39 80 86 29 1 91 70 20 60 40
3 82 71 13 7 32 72 75 16 25 10 36 46 85 30 57 92 42 87 3 101 45 5
a. Sa rizikom 12% testirati pretpostavku da 70% učenika ima idealnu težinu! b. Sa pouzdanošću 91% testirati pretpostavku da udio pretilih učenika nije veći od 10%! c. Istu odluku donijeti korištenjem empirijskog nivoa povjerenja!
196
d. Kolika je vjerovatnoća Greške tipa II ukoliko je prilikom testiranja pretpostavke o udjelu pretilih učenika alternativni procent učešća 13%? e. Odrediti veličinu uzorka za testiranje pretpostavke pod b. Rješenje: Za poterbe analize učenika prema visini BMI – ja potrebno je formirati distribuciju učenika prema njegovoj visini, što se može ilustrovati sljedećim tabelarnim prikazom: Kategorija
Vrijednost BMI (xi)
Broj učenika (fi)
Neuhranjenost
Manji od 5 (< 5)
Normalna težina
5 – 85
165
Prekomjerna težina
85 – 95
20
Pretilost (Gojaznost)
Veći ili jednak 95 ( t 95)
36
9
230
Ukupno(6): Tabela 87. Distribucija učenika prema visini BMI – ja
a. Statističko testiranje pretpostavke o procentu učešća učenika sa normalnom tjelesnom težinom provodi se pomoću velikog uzorka (n = 230 > 30) izabranog iz konačnog osnovnog skupa, pri čemu je frakcija izbora elemenata u uzorak manja od 5 % (f = 230/7954 = 0,0289 0 2,89%). Postupak testiranja je sljedeći: 1) Hipoteze za ovaj test glase: H0 : π = 0,7
HA: π ≠ 0,7
2) Tablična vrijednost za rizik greške 12 %, kod dvosmjernog testa, iznosi: α/2 = 0,12/2 = 0,06 z0,06 = – 1,55 - kritične vrijednosti za prihvatanje nulte hipoteze su: – 1,55 ≤ z ≤ 1,55 3) Testovna vrijednost (empirijski z – odnos) je: σୀଵǢହழ௫ழ଼ହ ݂ͳͷ ͳͷ െ Ͳǡ ʹ͵Ͳ െ Ͳǡ Ͳǡͳ͵ͻͳ͵ െ Ͳǡ ହழெூழ଼ହ െ ߨ ʹ͵Ͳ ൌ ൌ ൌ ݖൌ ͲǡͲ͵ͲʹͳͲͻ ߪగ Ͳǡ ή Ͳǡ͵ ߨሺͳ െ ߨሻ ට ට ʹ͵Ͳ ݊ ൌ
െͲǡͲͳ͵ͻͳ͵ ൌ െͲǡͷͷͷͷͶ͵ͳͻ ൎ െͲǡͷ ͲǡͲ͵ͲʹͳͲͻ
4) Odluka – testovna vrijednost je u intervalu između kritičnih vrijednosti za prihvatanje nulte hipoteze tj. – 1,55 < – 0,57 < 1,55 zaključujemo da sa 15
Broj učenika kod koji je vrijednost BMI između 5 i 85
197
pouzdanošću 88% (rizikom greške 12%) možemo prihvatiti pretpostavku da je procenat učenika sa „Normalnom tjelesnom težinom“ mjerenom vrijednošću BMI – ja 70% ukupnog broja. Drugim riječima, uz rizik greške 12% „Normalnu tjelesnu težinu“ ima 70% učenika posmatrane opštine. Alternativno se odluka donosi pomoću kritičnih granica izraženih u mjernim jedinicama statističke promjenljive, što iznosi: C1 = π – zα/2ή ߪగ ൌ Ͳǡ െ ͳǡͷͷ ή ͲǡͲ͵ͲʹͳͲͻ ൌ Ͳǡ െ ͲǡͲͶͺ͵ͷͶ͵ ൌ 0,653164256 C2 = π + zα/2ή ߪగ ൌ Ͳǡ ͳǡͷͷ ή ͲǡͲ͵ͲʹͳͲͻ ൌ Ͳǡ ͲǡͲͶͺ͵ͷͶ͵ ൌ ͲǡͶͺ͵ͷͶ Na nivou značajnosti 12% uslov za prihvaćanje procenta učešća jeste da se njegova uzoračka realizacija nađe između 65,31% (0,653164256) i 74,68% (0,74683574). U posmatranom primjeru procent učešća u uzorku ima vrijednost 0,717391304, što je manje od gornje, a veće od donje granice i dovodi do istog zaključka, odnosno prihvatanja nulte hipoteze. b. Statističko testiranje pretpostavke o procentu učešća pretilih učenika provodi se pomoću velikog uzorka (n = 230 > 30) izabranog iz konačnog osnovnog skupa, pri čemu je frakcija izbora elemenata u uzorak manja od 5 % (f = 230/7954 = 0,0289 0 2,89%). Postupak testiranja je sljedeći: 1) Hipoteze za ovaj test glase:
H0 : π ≤ 0,1
HA: π > 0,1
2) Tablična vrijednost za rizik greške 9 % (1 - α = 0,91 α = 1 – 0,91 = 0,09) , kod jednosmjernog testa na gornju granicu, iznosi: z0,91 = – z0,09 = 1,34 -
kritične
vrijednosti za prihvatanje nulte hipoteze su: z ≤ 1,34 3) Testovna vrijednost (empirijski z – odnos) je: ெூஹଽହ െ ߨ ൌ ݖൌ ߪగ ൌ
σୀଵǢ௫ஹଽହ ݂ͳ ͵ െ Ͳǡͳ െ Ͳǡͳ Ͳǡͳͷͷʹͳ͵ͻ െ Ͳǡͳ ʹ͵Ͳ ʹ͵Ͳ ൌ ൌ ͲǡͲͳͻͺͳͶͳͶ ටߨሺͳ െ ߨሻ ටͲǡͳ ή Ͳǡͻ ʹ͵Ͳ ݊
ͲǡͲͷͷʹͳ͵ͻ ൌ ʹǡͺͷ͵ͳͷ͵ͺ ൎ ʹǡͺ ͲǡͲͳͻͺͳͶͳͶ
4) Odluka – testovna vrijednost je u veća od kritične vrijednosti za prihvatanje nulte hipoteze tj. 2,8 > 1,34 zaključujemo da sa pouzdanošću 91% (rizikom greške 9%) ne možemo prihvatiti pretpostavku da procenat „Pretilih“ učenika mjeren vrijednošću 16
Broj učenika kod koji je vrijednost BMI veći ili jednak 95
198
BMI – ja nije iznad 10% ukupnog broja. Drugim riječima, uz rizik greške 9 % „Pretilo“ je više od 10% učenika posmatrane opštine. Alternativno se odluka donosi pomoću kritičnih granica izraženih u mjernim jedinicama statističke promjenljive, što iznosi: C2 = π + zα/2ή ߪగ ൌ Ͳǡͳ ͳǡ͵Ͷ ή ͲǡͲͳͻͺͳͶͳͶ ൌ ͲǡͳͳͻͺͳͶͳͶ Na nivou značajnosti 9% uslov za prihvaćanje procenta učešća jeste da se njegova uzoračka realizacija bude manja od 11,98 % (0,119781414). U posmatranom primjeru procent učešća u uzorku ima vrijednost 0,156521739, što je manje od gornje granice prihvatanja nulte hipoteze (0,119781414), tako da dolazimo do istog zaključka odnosno da se sa rizikom 9% ne može prihvatiti nulta hipoteza. c. Empirijski nivo povjerenja za učešće učenika kod kojih je vrijednost BMI takva da se smatraju licima sa „Normalnom tjelesnom težinom“ ima vrijednost z = – 0,57; P(Z > z) = P(Z > –0,57) = 0,2843 kako je test dvosmjeran empirijski p – odnos ima vrijednost 2∙0,2843 = 0,5686 = 56,86%. Kako je planirani rizik greške (teorijski p – odnos) manji od 56,86%, prihvatamo nultu hipotezu (9 % < 56,86%). Empirijski nivo povjerenja za učešće „Pretilih“ učenika u ukupnoj populaciji starosti od 6 do 15 godina ima vrijednost z = 2,86; P(Z > z) = P(Z > 2,86) = 0,9979 kako je test jednosmjeran na gornju granicu empirijski p – omjer ima vrijednost z = 99,79%. Kako je planirani rizik greške (teorijski p – odnos) 9 %, odnosno vjerovatnoća 1 – α = 1 – 0,09 = 0,91odbacujemo nultu hipotezu (99,79 % > 91%). d. Ovdje imamo: 1) Hipoteze testa su:
H0 : π ≤ 0,1
HA: π > 0,1
2) Granica prihvatanja nulte hipoteze je: C2 = π + zα/2ή ߪగ ൌ Ͳǡͳ ͳǡ͵Ͷ ή ͲǡͲͳͻͺͳͶͳͶ ൌ ͲǡͳͳͻͺͳͶͳͶ 3) Tražena vjerovatnoća je β. Ovdje je alternativna vrijednost procenta učešća 0,13 i veća je od gornje granice prihvatanja nulte hipoteze, tj. 0,1198 < 0,13 tako da se vjerovatnoća određuje pomoću obrasca: ߚ ൌ Ͳǡͷ െ ܲ ൬ܼ
ͲǡͳͳͻͺͳͶͳͶ െ Ͳǡͳ͵ ܿଶ െ ߨ ൰ ൌ Ͳǡͷ െ ܲ ൬ܼ ൰ ߪగ ͲǡͲͳͻͺͳͶͳͶ
ൌ Ͳǡͷ െ ܲሺܼ െͲǡͷʹሻ ൌ Ͳǡͷ െ Ͳǡ͵Ͳͳͷ ൌ Ͳǡͳͻͺͷ
199
Vjerovatnoća da se prihvati pretpostavka da je uzorak izabran iz osnovnog skupa sa procentom učešća „Pretilih“ učenika 0,1 iako potiče iz skupa sa procentom učešća 0,13 je 19,85%. e. Test je jednosmjeran, na gornju granicu, potrebna veličina uzorka za testiranje procenta učešća u osnovnom skupa određuje se pomoću sljedećeg obrasca: ଶ
ଶ
ൣȁെͲǡͺͷȁξͲǡͳ͵ ή Ͳǡͺ ȁͳǡ͵ͶȁξͲǡͳ ή Ͳǡͻ൧ ൣȁݖ ȁඥߨ ሺͳ െ ߨ ሻ ȁݖ ȁඥߨሺͳ െ ߨሻ൧ ൌ ݊ൌ ȁߨ െ ߨ ȁଶ ȁͲǡͳ െ Ͳǡͳ͵ȁଶ ൌ
ሾͲǡͳͻͺͷ ή Ͳǡ͵͵͵ ͳǡ͵Ͷ ή Ͳǡ͵ሿଶ ͲǡͶͺͷͷͷͷଶ ൌ ൌ ʹͶͶǡͳͶͶͲ͵ ൎ ʹͶͶ ͲǡͲͲͲͻ ͲǡͲͲͲͻ
Gdje su: Z0 – tablična vrijednost planom usvojen stepen vjerovatnoće Greške tipa I P(z ≤ 1,34) = 1 – 0,09 = 0,91; ZA – tablična vrijednost za izračunatu vrijednost vjerovatnoće Greške tipa II P(z ≤ – 0,85) = 0,1985; π – hipotetička vrijednost procenta učešća „Pretilih“ učenika u osnovnom skupu; πA – alternativna vrijednost procenta učešća „Pretilih“ učenika u osnovnom skupu. Za testiranje pretpostavke o procentu učešća osnovnog skupa, u uzorak je potrebno izabrati 244 učenika. 4.2.3.
Statističko testiranje hipoteza o vrijednosti varijanse osnovnog skupa
Statističko testiranje hipoteze o pretpostavljenoj vrijednosti varijanse osnovnog skupa provodi se pomoću uzorka velčine n elemenata, a obuhvata sljedeće korake: 1. Postupak formulisanja hipoteza obuhvata definisanje sadržaja nulte hipoteze (H0), time i altrenativne hipoteze (HA), a njime se iskazuje odnos između varijanse uzorka (ߪො) i hipotetičke vrijednosti varijanse osnovnog skupa (σ). Oblici furmulacije hipoteza, u odnosu na testiranje vrijednosti varijanse osnovnog skupa, mogu se iskazati u obliku:
200
-
Dvosmjernog testa, pri čemu su – H0:
-
Jednosmjernog testa, koji može biti:
ߪ ଶ ൌ ߪො ଶ
i
HA :ߪ ଶ ് ߪො ଶ π ili
o Na donju granicu, pri čemu su – H0 : ߪ ଶ ߪො ଶ
i
HA : ߪ ଶ ൏ ߪො ଶ ili
o Na gornju granicu, pri čemu su – H0 :ߪ ଶ ߪො ଶ
i
HA : ߪ ଶ ߪො ଶ .
2. Postupak određivanja kritične vrijednosti, čime se određuju granice prihvatanja (ili neprihvatanja) statističkih hipoteza na bazi izabranog nivoa značajnosti (1 – α), uslovljen je: veličinom uzorka na bazi kojih se izvode zaključci, sa jedne strane i oblika formulisanih hipoteza, sa druge strane. Navedeno možemo ilustrovati sljedećim tabelarnim prikazom: Vrsta testa
Oblik
Područje prihvatanja H0
Područje odbacivanja H0
formulacije hipoteza Dvosmjerni
ߪ ൌ ߪො;
H0:
HA : ߪ ് ߪො
Jednosmjerni,
na H0
:ߪ ߪො;
donju granicu
HA : ߪ ൏ ߪො
Jednosmjerni,
na H0: ߪ ߪො; HA
gornju granicu
: ߪ ߪො
ଶ ߯ଵି ൏ ഀ Ǣሺିଵሻ
ෝమ ሺିଵሻఙ ఙ
మ
<߯ഀଶǢሺିଵሻ మ
ෝమ ሺିଵሻఙ ఙ
ଶ ൏ ߯ଵି ili ഀ Ǣሺିଵሻ మ
ଶ
ሺ݊ െ ͳሻߪො ߯ఈଶǢሺିଵሻ ߪ ଶ ሺ݊ െ ͳሻߪො ଶ ଶ ߯ଵିఈǢሺିଵሻ ߪ
ሺ݊ െ ͳሻߪො ଶ ଶ ൏ ߯ଵିఈǢሺିଵሻ ߪ
ሺ݊ െ ͳሻߪො ଶ ଶ ൏ ߯ఈǢሺିଵሻ ߪ
ሺ݊ െ ͳሻߪො ଶ ଶ ߯ఈǢሺିଵሻ ߪ
Tabela 88. Postupak određivanja kritične vrijednosti I granica prihvatanja (ili neprihvatanja) statističkih hipoteza na bazi izabranog nivoa značajnosti (1 – α)
3. Postupak izračunavanja testovne vrijednosti podrazumijeva izračunavanje empirijskog χ² odnosa, korištenjem sljedećeg obrasca: ߯ ଶ ൌ
ʹ
ሺ݊െͳሻߪ ො ߪ
4. Postupak donošenja zaključka o ishodu testa izvodi se poređenjem očitane kritične (tablične) vrijednosti i testovne vrijednosti kao što je navedeno u prethodnoj tabeli. Ukoliko uzorak potiče iz normalne distribucije i ukoliko je uzorak dovoljno velik hi – kvadrat distribucija se približava normalnoj distribuciji. U slučaju aproksimacije hi – kvadrat distribucije normalnom, empirijski z – odnos (testovna veličina) izračunava se sljedećim obrascem: ݖൌ
ߪො ଶ െ ߪ ଶ ටߤƸ ସ െ ߪො ݊
ଶ
ଵ
Gdje je: ߤƸ ସ ൌ σୀଵሺݔ െ ݔҧ ሻସ
Primjer 4.12. Kontrolom postotka određene supstance „S“ u proizvodu „P“ pomoću slučajnog uzorka, dobijeni su sljedeći rezultati: 151
152
151
155
149
148
149
148
155
144 201
Pretpostavlja se da je distribucija proizvoda „P“ prema sadržaju supstance „S“ ima oblik normalne distribucije. Potrebno je testirati pretpostavku: a. Da varijansa osnovnog skupa iz kojeg je izabran uzorak veća od 10? b. Da je varijansa osnovnog skupa iz kojeg je izabran uzorak 12? Testiranje izvršiti uz rizik greške 5%. Rješenje: Za potrebe statičkog testiranja potrebno je utvditi vrijednost nepristrasne procjene varijanse osnovnog skupa pomoću uzorka, što u analiziranom primjeru iznosi: ͳ σୀଵ ݔଶ െ ሺσୀଵ ݔ ሻଶ ݊ ߪො ൌ ݊െͳ ͳ ͳͷͳଶ ͳͷʹଶ ͳͷͳଶ ڮ ͳͶͶଶ െ ͳͲ ሺͳͷͳ ͳͷʹ ͳͷͳ ڮ ͳͶͶሻଶ ൌ ͳͲ െ ͳ ͳ ʹʹͷͲʹ െ ͳͲ ͳͷͲʹଶ ʹʹͷͲʹ െ ʹʹͷͲ ͳͲͳǡ ൌ ൌ ൌ ൌ ͳͳǡʹͺሶ ͻ ͻ ͻ ଶ
a. Statističko testiranje pretpostavke o varijansi osnovnog skupa zahtijeva primjenu postupka testiranja koji je, u konkretnom slučaju, sljedeći: H0 : σ² ≤ 10
1. Hipoteze za ovaj test glase:
HA: σ² > 10
2. Tablična vrijednost za rizik greške 5%, kod jednosmjernog testa na gornju granicu, iznosi: (α = 0,05 i υ = 10 – 1 = 9) χ²0,05;9 = 16,919 - kritične vrijednosti za prihvatanje nulte hipoteze su: χ² < 16,919 3. Testovna vrijednost (empirijski χ² – odnos) je: χ² =
ሺିଵሻఙ ෝమ ఙమ
ൌ
ሺଵିଵሻଵଵǡଶ଼଼ଽ ଵ
ൌ ͳͲǡͳ
4. Odluka – testovna vrijednost je manja od kritične vrijednosti za prihvatanje nulte hipoteze tj. 16,919 > 10,16 zaključujemo da sa pouzdanošću 95% (rizikom greške 5%) možemo prihvatiti pretpostavku da je varijansa osnovnog skupa manja ili jednaka 10. b. Statističko testiranje pretpostavke o varijansi osnovnog skupa zahtijeva primjenu postupka testiranja koji je, u konkretnom slučaju, sljedeći: 1. Hipoteze za ovaj test glase:
202
H0 : σ² = 12
HA: σ² ≠ 12
2. Tablična vrijednost za rizik greške 5%, kod dvosmjernog testa, iznosi: (1 – α/2 = 1 – 0,05/2 = 0,975 i υ = 10 – 1 = 9) χ²0,975;9 = 2,700 i (α/2 = 0,05/2 = 0,025 i υ = 10 – 1 = 9) χ²0,025;9 = 19,023 (α/2 = 0,05/2 = 0,025 i υ = 10 – 1 = 9) χ²0,975;9 = 2,700 χ²0,025;9 = 19,023 – kritične vrijednosti za prihvatanje nulte hipoteze su: 2,700 < χ² < 16,919 3. Testovna vrijednost (empirijski χ² – odnos) je: χ² =
ሺିଵሻఙ ෝమ ఙమ
ൌ
ሺଵିଵሻଵଵǡଶ଼଼ଽ ଵଶ
ൌ ͺǡͶ
4. Odluka – testovna vrijednost je između granica kritičnih vrijednosti za prihvatanje nulte hipoteze tj. 2,700 < 8,47 < 16,919 zaključujemo da sa pouzdanošću 95% (rizikom greške 5%) možemo prihvatiti pretpostavku da je varijansa osnovnog skupa 12. Primjer 4.13. Distribucija uzorka teretnih vozila određene kategorije prema visini mjesečnih troškova održavanja i servisiranja u jednom ovlaštenom servisu motornih vozila može se prikazati sljedećim tabelarnim prikazom: Mjesečni troškovi
Do 100
Broj vozila
100 – 200
200 – 300
300 – 400
400 – 500
18
42
23
8
5
Više od 500 4
Tabela 89. Distribucija teretnih vozila prema visini mjesečnih troškova održavanja I servisiranja izraženi u KM
Uzorak je izabran iz osnovnog skupa veličine 231.933 registrovanih teretnih vozila posmatrane kategorije na posmatranom području. Potrebno je provjeriti može li se prihvatiti pretpostavka: a. Da varijansa osnovnog skupa iznosi 10.000, sa pouzdanošću 90%? b. Da varijansa osnovnog skupa nije manja od 14.000KM, sa rizikom greške 10%? Rješenje: Testiranje se vriši pomoću velikog uzorka tako χ² raspored aproksimiramo normalnim rasporedom. Jedan od elemenata potrebnih za testiranje pretpostavke o vrijednosti varijanse osnovnog skupa je nepristrasna ocjena varijanse osnovnog skupa, čiju vrijednost izračunavamo koristeći obrazac: ͳ σୀଵ ݔଶ െ ሺσୀଵ ݔ ሻଶ ݊ ߪො ൌ ݊െͳ ଶ
Elementi za izračunavanje vrijednosti nepristrasne ocjene varijanse osnovnog skupa mogu se prikazati u narednoj tabeli: 203
xi
ri
fi
Do 100
firi2
firi
fi (xi - ݔҧ ሻସ
50
5
250
12500
12364867205
100 – 200
150
18
2700
405000
4119959538
200 – 300
250
42
10500
2625000
11753322
300 – 400
350
23
8050
2817500
808519943
400 – 500
450
8
3600
1620000
7852049928
Više od 500
550
4
2200
1210000
23549357764
100
27300
8690000
Ukupno (6):
8690000
Tabela 90. Radna tabela – izračunavanje elemenata za statističko testiranje varijanse osnovnog skupa
Polazeći od konkretnih podataka dobijamo: ͳ ͳ σୀଵ ݂ ݔଶ െ ሺσୀଵ ݂ ݔ ሻଶ ͺǤͻͲǤͲͲͲ െ ή ʹǤ͵ͲͲଶ ͳǤʹ͵ǤͳͲͲ ݊ ͳͲͲ ൌ ൌ ൌ ͳʹǤͶͻͷǡͻͷͻ ߪො ൌ ͻͻ ݊െͳ ͳͲͲ െ ͳ ଶ
a. Statističko testiranje pretpostavke o vrijednosti varijanse osnovnog skupa podrazumijeva sljedeći postupak: H0 : σ² t 10.000
HA: σ² < 10.000
1.
Hipoteze za ovaj test glase:
2.
Tablična vrijednost za rizik greške 10 %, kod jednosmjernog testa na donju granicu, iznosi:1 – α = 0,90 α = 1 – 0,90 = 0,10 z0,10 = – 1,28 – kritične vrijednosti za prihvatanje nulte hipoteze su: z > – 1,28
3.
Testovna vrijednost (empirijski z – odnos) je: ݖൌ
ߪො ଶ െ ߪ ଶ ටߤƸ ସ െ ݊
ߪො ଶ
ͳʹͶͻͷǡͻͷͻ െ ͳͶͲͲͲ
ൌ
ͶͺͲͷͲͲͲ െ ͳʹͶͻͷǡͻͷͻ ͳͲͲ ͳͲͲ
ඨ
ൌ
െͳͷͲͶǡͲͶͲͶ ඥͶͺͲͷʹͷǡͺͳ
ൌ
െͳͷͲͶǡͲͶͲͶ ʹʹͲǡͻʹͺ
ൌ െͲǡͺͳͷͲͺͻͳ ൎ െͲǡͺ 4. Odluka – testovna vrijednost je u intervalu između kritičnih vrijednosti za prihvatanje nulte hipoteze tj. – 1,28 < – 0,68 zaključujemo da sa pouzdanošću 90 % (rizikom greške 10%) možemo prihvatiti pretpostavku da je varijansa osnovnog skupa veća ili jednaka 14000. b. Statističko testiranje pretpostavke o vrijednosti varijanse osnovnog skupa podrazumijeva sljedeći postupak: 204
1.
Hipoteze za ovaj test glase:
H0 : σ² = 10.000
HA: σ² ≠ 10.000
2.
Tablična vrijednost za rizik greške 10 %, kod dvosmjernog testa, iznosi: α/2 = 0,10/2 = 0,05 z0,05 = 1,64 – kritične vrijednosti za prihvatanje nulte hipoteze su: – 1,64 ≤ z ≤ 1,64
3.
Testovna vrijednost (empirijski z – odnos) je: ݖൌ
ߪො ଶ െ ߪ ଶ ଶ ටߤƸ ସ െ ߪො ݊
ͳʹͶͻͷǡͻͷͻ െ ͳͲͲͲͲ
ൌ
ͶͺͲͷͲͲͲ െ ͳʹͶͻͷǡͻͷͻ ͳͲͲ ͳͲͲ
ඨ
ൌ
ʹͶͻͷǡͻͷͻ ඥͶͺͲͷʹͷǡͺͳ
ൌ
ʹͶͻͷǡͻͷͻ ʹʹͲǡͻʹͺ
ൌ ͳǡͳ͵ͲͻʹͲ͵ ൎ ͳǡͳ͵ 4.
Odluka – testovna vrijednost je u intervalu između kritičnih vrijednosti za prihvatanje nulte hipoteze tj. – 1,64 < 1,13 < 1,64 zaključujemo da sa pouzdanošću 90 % (rizikom greške 10%) možemo prihvatiti pretpostavku da je varijansa osnovnog skupa 10.000.
4.3.Statističko testiranje hipoteza o poređenju vrijednosti parametara osnovnih skupova Vrijednosti parametara osnovnog skupa upoređuju se i u sklopu inferencijalne statistike, u smislu da li su njihove vrijednosti jednake ili različite, ocjenjuje se veličina razlike ili se testiraju hipoteze o pretpostavljenoj vrijednosti razlika među njima. Postupak statističkog testiranja zasniva se na izboru uzoraka iz dvaju ili više osnovnih skupova ili realizacijom određenih statističkih procesa. Izabrani uzorci mogu biti nezavisni ili zavisni, što je uslovljeno činjenicon da li izbor elemenata iz jednog osnovnog skupa ima uticaj na izbor elemenata iz drugog osnovnog skupa u uzorak (zavisni) ili izbor elemenata iz jednog osnovnog skupa nema uticaj na izbor elemenata iz drugog osnovnog skupa u uzorak (nezavisni). Nezavisne uzorke moguće je izabrati i iz dva ili više disjunktivnih17 podskupova istog skupa. Uvažavajući činjenicu da podaci koji čine zavisne skupove imaju određenu uslovljenost, upoređivanje parametara moguće je vršiti i pomoću zavisnih uzoraka. Neka su S1 i S2 dva uzorka, pri čemu su njihovi elementi: S1 = {x11, x12, ... , x1n1} i S2 = {x21, x22, ... , x2n2}, pri čemu su parametri navedenih skupova:
17
Disjunktivni skupovi, u matematici, predstavljaju skupove koji nemaju zajedničke elemente, odnosno čiji je presjek prazan skup
205
-
skup S1, je uzorak veličine n1, uzet iz osnovnog skupa čije aritmetička sredina i varijansa imaju vrijednost μ1 i σ²1;
-
skup S2, je uzorak veličine n2, uzet iz osnovnog skupa čije aritmetička sredina i varijansa imaju vrijednost μ2 i σ²2.
Uzorci se smatraju nezavisnim ukoliko su rezultati opažanja ili mjerenja odabranog obilježja u jednosm uzorku ne zavise od rezultata mjerenja u drugom uzorku. Drugim riječima, opažanja ili mjerenja provode se na različitim jedinicama izabranim u uzorak iz dvaju ili više disjunktivnih skupova ili dvaju ili više disjunktivnih podskupova jednog skupa. Uzorci su zavisni ukoliko se vrijednosti iz uzorka dobijaju ponovljenim mjerenjem ili opažanjem. Navedeno podrazumijeva da se vrijednost obilježja dobija na istim jedinicama statističkog skupa izabranim u uzorak u različitim vremenskim ternucima, odnosno nakon statističkog eksperimenta. Imajući u vidu da se rezultati mjerenja ili opažanja odnose na iste jedinice skupa, rezultati su uzajamno povezani, tako da takve uzorke smatramo zavisnim. Statističko testiranje razlike između parametara dvaju ili više osnovnih skupova, najčešće se odnosi na: -
Aritmetiču sredinu,
-
Procent učešća i
-
Varijansu.
4.2.4.
Statističko testiranje hipoteza o razlici aritmetičih sredina dvaju osnovnih skupova
Postupak testiranja pretpostavke o razlici aritmetičkih sredina dvaju ili više osnovnih skupova može se provoditi na bazi zavisnih ili nezavisnih uzoraka, koji pored toga mogu biti mali ili veliki. Statističko testiranje hipoteze o pretpostavljenoj vrijednosti razlike aritmetičkih sredina dva osnovna skupa izvodi se na bazi uzorka veličine n1 i n2 članova, a obuhvata sljedeće korake: 1. Postupak formulisanja hipoteza obuhvata definisanje sadržaja nulte hipoteze (H0), time i altrenativne hipoteze (HA), a njime se iskazuje odnos razlika aritmetičkih sredina uzorka ൌ ݔҧଵ െ ݔҧଶ ) i hipotetičke vrijednosti razlike sredina osnovnih skupova (D = μ1 – μ2). (ܦ Oblici furmulacije hipoteza, u odnosu na testiranje vrijednosti procenta učešća osnovnog skupa, mogu se iskazati u obliku: 206
=D Dvosmjernog testa, pri čemu su – H0 : ܦ
i
≠ D ili HA : ܦ
-
Jednosmjernog testa, koji može biti: ≤D o Na donju granicu, pri čemu su – H0 : ܦ
i
> D ili HA : ܦ
tD o Na gornju granicu, pri čemu su – H0 : ܦ
i
2. Postupak određivanja kritične vrijednosti, čime se određuju granice prihvatanja (ili neprihvatanja) statističkih hipoteza na bazi izabranog nivoa značajnosti (1 – α), uslovljen je: veličinom uzorka na bazi kojih se izvode zaključci, sa jedne strane i oblika formulisanih hipoteza, sa druge strane. Navedeno možemo ilustrovati sljedećim tabelarnim prikazom: Vrsta testa
Oblik formu-
Dvosmjerni
Područje prihvatanja H0
Područje odbacivanja H0
lacije hipoteza
Veliki uzorak
Mali uzorak
Veliki uzorak
Mali uzorak
= D; H0 : ܦ
zα/2 > _z_
tα/2;n1+n2-2 > _t_
zα/2 < _z_
tα/2;n1+n2-2 < _t_
– zα < z
– tα;n1+n2-2 < t
– zα > z
– tα;n1+n2-2 > t
zα > z
tα;n1+n2-2 > t
zα < z
tα;n1+n2-2 < t
≠D HA : ܦ Jednosmjerni,
≤ D; na H0 : ܦ
gornju granicu
>D HA : ܦ
Jednosmjerni,
t D; na H0: ܦ
donju granicu
Tabela 91. Postupak određivanja kritične vrijednosti I granica prihvatanja (ili neprihvatanja) statističkih hipoteza na bazi izabranog nivoa značajnosti (1 – α)
3. Postupak izračunavanja testovne vrijednosti podrazumijeva izračunavanje empirijskog z ili t odnosa, korištenjem sljedećeg obrasca: ݖൌݐൌ
ି ఙೣഥభ షೣഥమ
Gdje su: – razlika aritmetičkih sredina uzoraka; ܦ D – hipotetička vrijednost razlika aritmetičkih sredina osnovnih skupova; ߪ௫ҧభ ି௫ҧమ – standardna greška razlike aritmetičke sredine osnvnih skupova, odnosno nepristransna ocjena varijanse osnovnih skupova, izračunavanje njezine vrijednosti određeno je sljedećim elementima: -
Da li je poznata varijansa osnovnog skupa ili nije;
-
Da li je riječ o malom ili velikom uzorku.
Pri čemu je: 207
ߪ௫ҧభ ି௫ҧమ ൌ ට ߪ௫ҧభ ି௫ҧమ ൌ ට
ఙభమ భ
ෝభమ ఙ భ
ఙమమ మ ෝమమ ఙ మ
, gdje su σ²1 i σ²2 varijanse osnovnih skupova; భ ௦భమ ሺ షభ ሻ
ൌඨ
భ
భ
భ ௦భమ ሺ షభ ሻ భ
మ
, gdje su ߪොଵଶ ݅ߪොଶଶ - nepristrane ocjene varijansi
osnovnih skupova, pomoću standardnih devijacija velikih uzoraka (s1 i s2); ߪ௫ҧభ ି௫ҧమ ൌ ට
ෝభమ ାሺ୬మ ିଵሻఙ ෝమమ ሺ୬భ ିଵሻఙ భ ା୬మ ିଶ
ቀ
୬భ ା୬మ ୬భ మ
ቁ, ukoliko se varijansa osnovnog skupa procjenjuje
pomoću malih uzoraka. 4. Postupak donošenja zaključka o ishodu testa izvodi se poređenjem očitane kritične (tablične) vrijednosti i testovne vrijednosti kao što je navedeno u prethodnoj tabeli ili poređenjem empirijskog i teorijskog nivoa povjerenja. Teorijski nivo povjerenja je planski element statističkog testiranja, dok je empirijski nivo povjerenja (p – vrijednost) vjerovatnoća odbacivanja tačne (istinite) nulte hipoteze. P – vrijednost se izračunava se pomoću podataka iz uzorka, odnosno pomoću testovne vrijednosti (empirijskog z ili t odnosa). Postupak određivanja empirijskog p – odnosa podrazumijeva da se, nakon izračunavanja testovne vrijednosti odredi vjerovatnoća koja odgovara izračunatoj testovnoj vrijednosti. Ukoliko je p – odnos veći od planskog nivoa povjerenja prihvata se nulta hipoteza, ako ne, odbacuje se nulta hipoteza. Postupak testiranja statističkih hipoteza u kontekstu razlika sredina zavisnih uzoraka provodi se na bazi razlika parova vrijednosti uzoračke realizacije statističke promjenljive. Kako se kod zavisnih uzoraka ispituju vrijednosti istih jedinica u različitim vremenskim trenucima uzorci imaju istu veličinu, neka su vrijednosti realizacije slučajne promjenljive u prvom uzorku S1 = {x11, x12, ... , x1n}, a u drugom uzorku S2 = {x21, x22, ... , x2n}, baza za ocjenu razlika sredina izračunava se kao prosječno odstupanje parova vrijednosti slučajne promjenljive iz prvog i drugog uzorka, odnosno: ൌ ଵ σୀଵሺݔଵ െ ݔଶ ሻ ൌ ଵ σୀଵ ݀ , ܦ
Gdje je di = x1i – x2i. Kada je broj uređenih parova dovoljno velik, sampling distribucija ima oblik normalne distribucije kod koje se testiranje statističkih hipoteza o vrijednosti razlike aritmetičkih sredina dvaju zavisnih uzoraka provodi na sljedeći način: 1. Postupak formulisanja hipoteza obuhvata definisanje sadržaja nulte hipoteze (H0), time i ) altrenativne hipoteze (HA), a njime se iskazuje odnos razlika aritmetičkih sredina uzorka (ܦ 208
i hipotetičke vrijednosti razlike sredina osnovnih skupova (D = μ1 – μ2). Oblici furmulacije hipoteza, u odnosu na testiranje vrijednosti procenta učešća osnovnog skupa, mogu se iskazati u obliku: -
=D Dvosmjernog testa, pri čemu su – H0 : ܦ
-
Jednosmjernog testa, koji može biti:
i
≠ D ili HA : ܦ
≤D o Na donju granicu, pri čemu su – H0 : ܦ
i
> D ili HA : ܦ
tD o Na gornju granicu, pri čemu su – H0 : ܦ
i
2. Postupak određivanja kritične vrijednosti, čime se određuju granice prihvatanja (ili neprihvatanja) statističkih hipoteza na bazi izabranog nivoa značajnosti (1 – α), uslovljen je: veličinom uzorka na bazi kojih se izvode zaključci, sa jedne strane i oblika formulisanih hipoteza, sa druge strane. Navedeno možemo ilustrovati sljedećim tabelarnim prikazom: Vrsta testa
Oblik formu-
Dvosmjerni
Područje prihvatanja H0
Područje odbacivanja H0
lacije hipoteza
Veliki uzorak
Mali uzorak
Veliki uzorak
Mali uzorak
= D; H0 : ܦ
zα/2 > _z_
tα/2;n1+n2-2 > _t_
zα/2 < _z_
tα/2;n1+n2-2 < _t_
– zα < z
– tα;n1+n2-2 < t
– zα > z
– tα;n1+n2-2 > t
zα > z
tα;n1+n2-2 > t
zα < z
tα;n1+n2-2 < t
≠D HA : ܦ Jednosmjerni,
≤ D; na H0 : ܦ
gornju granicu
>D HA : ܦ
Jednosmjerni,
t D; na H0: ܦ
donju granicu
Tabela 92. Postupak određivanja kritične vrijednosti I granica prihvatanja (ili neprihvatanja) statističkih hipoteza na bazi izabranog nivoa značajnosti (1 – α)
3. Postupak izračunavanja testovne vrijednosti podrazumijeva izračunavanje empirijskog z ili t odnosa, korištenjem sljedećeg obrasca: ݖൌݐൌ
ି ఙವ
Gdje su: – ocjena razlika aritmetičkih sredina uzoraka; ܦ D – hipotetička vrijednost razlika aritmetičkih sredina osnovnih skupova;
209
ߪ – standardna greška razlike aritmetičke sredine osnvnih skupova, odnosno nepristransna ocjena varijanse osnovnih skupova, izračunavanje njezine vrijednosti vršimo pomoću sljedećeg obrasca: ߪୈ ൌ
ୱీ
భ
మ మ σ సభ ௗ ିሺσసభ ௗ ሻ
, gdje je ݏ ൌ ට
ିଵ
ξ୬
.
4. Postupak donošenja zaključka o ishodu testa izvodi se poređenjem očitane kritične (tablične) vrijednosti i testovne vrijednosti kao što je navedeno u prethodnoj tabeli ili poređenjem empirijskog i teorijskog nivoa povjerenja. Primjer 4.14. Pomoću slučajnog uzorka ispituje se razlika u dužini trajanja baterija snage 1,5 V dva proizvođača „P1“ i „P2“. Iz proizvodne serije proizvođača „P1“ izabrano je 60 baterija, a iz proizvodne serije proizvođača „P2“ 40 baterija i ustanovljeno je da je prosječno trajanje baterija kod proizvođača „P1“ iznosi 505 sati sa prosječnim odstupanjem 42 sata, dok je kod proizvođača „P2“ prosječno trajanje baterija iznosilo 546 sati sa prosječnim odstupanjem 41 sat. Potrebno je ispitati pretpostavku da baterije proizvođača „P1“ i „P2“ nemaju različito trajanje. Testiranje izvršiti uz rizik greške 5%! Rješenje: Statističko testiranje pretpostavke o vrijednosti razlika između aritmetičkih sredina dvaju nezavisnih osnovnih skupova podrazumijeva sljedeći postupak: 1. Hipoteze za ovaj test glase:
H0 : μ1 – μ2 = 0
HA: μ1 – μ2 ≠ 0
2. Tablična vrijednost za rizik greške 5 %, kod dvosmjernog testa u slučaju velikog uzorka (n1 = 60 > 30 i n2 = 40 > 30), iznosi: α/2 = 0,025 z0,025 = – 1,96 – kritične vrijednosti za prihvatanje nulte hipoteze su: – 1,96 < z < 1,96 3. Testovna vrijednost (empirijski z – odnos) je: ݖൌ
െܦ ܦ ߪොଵଶ ߪොଶଶ ݊ଵ ݊ଶ
ඨ
ൌ
ͷͲͷ െ ͷͶ െ Ͳ ଶ ଶ ටͶʹ Ͷͳ Ͳ ͶͲ
ൌ
െͶͳ ඥʹͻǡͶ ͶʹǡͲʹͷ
ൌ
െͶͳ ඥͳǡͶʹͷ
ൌ
െͶͳ ͺǡͶͷͳ͵͵ͳʹͷ
ൌ െͶǡͺͷͳ͵ͲͲ ൎ െͶǡͺͷ 4. Odluka – testovna vrijednost nije u intervalu između kritičnih vrijednosti za prihvatanje nulte hipoteze tj. – 4,85 < – 1,96 zaključujemo da sa pouzdanošću 95 % (rizikom greške 210
5%) ne možemo prihvatiti pretpostavku da se baterije proizvođača „P1“ i „P2“ ne razlikuju u pogledu dužine trajanja. Sa rizikom greške 5% trajanje baterija ova dva proizvođača su različite prosječne dužine. Alternativno se odluka donosi pomoću kritičnih granica izraženih u mjernim jedinicama statističke promjenljive, što iznosi: C1 = D – zα/2ή ߪ௫ҧభ ି௫ҧమ ൌ Ͳ െ ͳǡͻ ή ͺǡͶͷͳ͵͵ͳʹͷ ൌ െͳǡͷͶͲͻʹ C2 = D + zα/2ή ߪ௫ҧభ ି௫ҧమ ൌ Ͳ ͳǡͻ ή ͺǡͶͷͳ͵͵ͳʹͷ ൌ ͳǡͷͶͲͻʹ Na nivou značajnosti 5% uslov za prihvaćanje razlike jeste da se njihova uzoračka realizacija nađe između – 16,564092 i 16,56460926. U posmatranom primjeru razlika između aritmetičkih sredina ima vrijednost – 41, što je manje od donje granice, tj. – 41 < – 16,56460926, što, takođe, dovodi do zaključka o odbacivanju nulte hipoteze sa rizikom greške 5%. Primjer 4.15. Na uzorku od 12 pacijenta ispitivane su razlike u nivou Fe u krvi prije i poslije korištenja pomoćnih ljekovitih sredstava sa pretpostavljenim učinkom poboljšanja nivoa Fe u krvi, rezultati su bili sljedeći: Ispitanik
1
Nivo Fe Prije u krvi
Poslije
2
3
4
5
6
7
8
9
10
11
12
2,8
11,4
8,9
7,6
1,1
9
5,3
3,7
14,9
14,1
3,2
6,7
5,2
14,4
8,5
12,5
3,0
7,8
7,1
2,1
11,4
13,7
8,5
7,2
Tabela 93. Distribucija pacijenata prema nivou Fe u krvi prije I poslije terapije pomoćnim ljekovitim sredstvom
Potrebno je ispitati pretpostavku da se prosječan nivo Fe u krvi veći za barem 1,2 jedinice u odnosu na prosječni nivo prije uzimanja pomoćnog ljekovitog sredstva. Testiranje izvršiti uz rizik greške 5%. Rješenje: Prosječan nivo razlike nivoa Fe u krvi, kao ocjena vrijednosti razlike aritmetičkih sredina osnovnih skupova, prije i poslije uzimanja pomoćnog ljekovitog sredstva iznosi:
211
ͳ ͳ ൌ ݀ ൌ ൫ሺͷǡʹ െ ʹǡͺሻ ሺͳͶǡͶ െ ͳͳǡͶሻ ሺͺǡͷ െ ͺǡͻሻ ሺͳʹǡͷ െ ǡሻ ሺ͵ െ ͳǡͳሻ ܦ ݊ ͳʹ ୀଵ
ሺǡͺ െ ͻሻ ሺǡͳ െ ͷǡ͵ሻ ሺʹǡͳ െ ͵ǡሻ ሺͳͳǡͶ െ ͳͶǡͻሻ ሺͳ͵ǡ െ ͳͶǡͳሻ ሺͺǡͷ െ ͵ǡʹሻ ሺǡʹ െ ǡሻ൯ ൌ
ͳ ͳǡ ሺʹǡͶ ͵ െ ͲǡͶ Ͷǡͻ ͳǡͻ െ ͳǡʹ ͳǡͺ ͳǡ ͵ǡͷ ͷǡ͵ Ͳǡͷሻ ൌ ͳʹ ͳʹ
ൌ ͳǡͶͷ
మ భ
ඨσసభ షሺσసభ ሻ
Standardna ξǡହ଼ଵ଼ଵ଼ ଷǡସସଵଵଵହ
greška
razlike
iznosi:
ߪ ൌ
షభ
ξ
భ
మ
ඨభభభǡఱయషభమሺభళǡళሻ
ൌ
భమషభ
ξଵଶ
మ
ൌ
ට
ఴఱǡరమమఱ భభ
ξଵଶ
ൌ
ൌ ͲǡͺͲͶͶͷͲʹͳ
Statističko testiranje pretpostavke o vrijednosti razlika između aritmetičkih sredina dvaju zavisnih osnovnih skupova podrazumijeva sljedeći postupak: 1. Hipoteze za ovaj test glase:
H0 : μ1 – μ2 t 1,2
HA: μ1 – μ2 < 1,2
2. Tablična vrijednost za rizik greške 5 %, kod jednosmjernog testa na donju granicu u slučaju malog uzorka (n1 = n2 = 12 < 12), iznosi: α/2 = 0,025 i υ = 12 + 12 – 2 = 22 t0,025;22 = – 2,0739 – kritične vrijednosti za prihvatanje nulte hipoteze su: – 2,0739 < z 3. Testovna vrijednost (empirijski t – odnos) je: ݖൌ
െܦ ܦ ͳǡͶͷ െ ͳǡʹ Ͳǡʹͷ ൌ ൌ ൌ Ͳǡ͵ͶͳͺͶͺ͵ͷ ൎ Ͳǡ͵Ͷ ɐୈ ͲǡͺͲͶͶͷͲʹͳ ͲǡͺͲͶͶͷͲʹͳ
4. Odluka – testovna vrijednost je u intervalu između kritičnih vrijednosti za prihvatanje nulte hipoteze tj. – 2,0739 < 0,34 zaključujemo da sa pouzdanošću 95 % (rizikom greške 5%) možemo prihvatiti pretpostavku da se nivo Fe u krvi povećao za 1,2 jedinice ili više. Alternativno se odluka donosi pomoću kritičnih granica izraženih u mjernim jedinicama statističke promjenljive, što iznosi: C1 = D – tα/2;n1+n2-2ή ߪ ൌ ͳǡʹ െ ʹǡͲ͵ͻ ή ͲǡͺͲͶͶͷͲʹͳ ൌ = ͳǡʹ െ ͳǡͺ͵Ͷͻ͵Ͳ͵ ൌ െͲǡͶͺ͵Ͷͻ͵Ͳ͵ ൎ െͲǡͶ Na nivou značajnosti 5% uslov za prihvaćanje razlike jeste da se njihova uzoračka realizacija bude veća od – 0,47. U posmatranom primjeru razlika između aritmetičkih sredina ima vrijednost 1,475, što je veće od donje granice, tj. – 0,47 < 1,475; što, takođe, dovodi do zaključka o prihvatanju nulte hipoteze sa rizikom greške 5%. 212
4.2.5.
Statističko testiranje hipoteza o razlici procenta dvaju osnovnih skupova
Postupak testiranja pretpostavke o razlici procenta učešća dvaju osnovnih skupova, provodi se slično kao i postupak testiranja pretpostavki o razlici aritmetičkih sredina dvaju ili više osnovnih skupova. Statističko testiranje može se provoditi na bazi zavisnih ili nezavisnih uzoraka, koji pored toga mogu biti mali ili veliki. Statističko testiranje hipoteze o pretpostavljenoj vrijednosti razlike procenta učešća dva osnovna skupa izvodi se na bazi uzorka veličine n1 i n2 članova, a obuhvata sljedeće korake: 1. Postupak formulisanja hipoteza obuhvata definisanje sadržaja nulte hipoteze (H0), time i = altrenativne hipoteze (HA), a njime se iskazuje odnos razlika procenta učešća uzoraka (ܦ p1 – p2) i hipotetičke vrijednosti razlike procenta učešća osnovnih skupova (Dp = π1 – π2). Oblici furmulacije hipoteza, u odnosu na testiranje vrijednosti procenta učešća osnovnog skupa, mogu se iskazati u obliku: -
= Dp i Dvosmjernog testa, pri čemu su – H0 : ܦ
-
Jednosmjernog testa, koji može biti: ≤ Dp o Na donju granicu, pri čemu su – H0 : ܦ
≠ Dp ili HA : ܦ i
t Dp i o Na gornju granicu, pri čemu su – H0 : ܦ
> Dp ili HA : ܦ < Dp HA : ܦ
2. Postupak određivanja kritične vrijednosti, čime se određuju granice prihvatanja (ili neprihvatanja) statističkih hipoteza na bazi izabranog nivoa značajnosti (1 – α), uslovljen je: veličinom uzorka na bazi kojih se izvode zaključci, sa jedne strane i oblika formulisanih hipoteza, sa druge strane. Navedeno možemo ilustrovati sljedećim tabelarnim prikazom: Vrsta testa Dvosmjerni
Oblik formu-
Područje prihvatanja H0
Područje odbacivanja H0
lacije hipoteza
Veliki uzorak
Mali uzorak
Veliki uzorak
Mali uzorak
= Dp; H0 : ܦ
zα/2 > _z_
tα/2;n1+n2-2 > _t_
zα/2 < _z_
tα/2;n1+n2-2 < _t_
– zα < z
– tα;n1+n2-2 < t
– zα > z
– tα;n1+n2-2 > t
zα > z
tα;n1+n2-2 > t
zα < z
tα;n1+n2-2 < t
≠ Dp HA : ܦ Jednosmjerni, gornju granicu Jednosmjerni, donju granicu
≤ Dp; na H0 : ܦ > Dp HA : ܦ t Dp; na H0: ܦ < Dp HA : ܦ
Tabela 94. Postupak određivanja kritične vrijednosti I granica prihvatanja (ili neprihvatanja) statističkih hipoteza na bazi izabranog nivoa značajnosti (1 – α)
213
3. Postupak izračunavanja testovne vrijednosti podrazumijeva izračunavanje empirijskog z ili t odnosa, korištenjem sljedećeg obrasca: ݖൌݐൌ
ି ఙభషమ
Gdje su: – razlika procenta učešća uzoraka; ܦ Dp – hipotetička vrijednost razlika procenata učešća osnovnih skupova; σp1-p2– standardna greška razlike procenata učešća osnvnih skupova, odnosno nepristransna ocjena varijanse osnovnih skupova, izračunavanje njezine vrijednosti određeno je sljedećim obrascem: ሺ ଵ ߪଵିଶ ൌ ටƸ ሺͳ െ ሻ భ
ଵ మ
ሻ,
Gdje je Ƹ nepristarasna ocjene razlike procenta učešća osnovnih skupova, čija vrijednost se izračunava pomoću obrasca: Ƹ ൌ
భ ାమ భ ାమ
ൌ
ොభ భ ାොమ మ భ ାమ
; Ƹଵ ൌ
భ భ
ǢƸ ଶ ൌ
మ మ
;
Gdje su: Ƹଵ ݅Ƹ ଶ - nepristrasne ocjene procenta učešća u osnovnim skupovima; m1 i m2 – broj jedinica u uzorku (prvom i drugom) koje imaju određenu vrijednost posmatranog obilježja. 4. Postupak donošenja zaključka o ishodu testa izvodi se poređenjem očitane kritične (tablične) vrijednosti i testovne vrijednosti kao što je navedeno u prethodnoj tabeli ili poređenjem empirijskog i teorijskog nivoa povjerenja. Teorijski nivo povjerenja je planski element statističkog testiranja, dok je empirijski nivo povjerenja (p – vrijednost) vjerovatnoća odbacivanja tačne (istinite) nulte hipoteze. P – vrijednost se izračunava se pomoću podataka iz uzorka, odnosno pomoću testovne vrijednosti (empirijskog z ili t odnosa). Postupak određivanja empirijskog p – odnosa podrazumijeva da se, nakon izračunavanja testovne vrijednosti odredi vjerovatnoća koja odgovara izračunatoj testovnoj vrijednosti. Ukoliko je p – odnos veći od planskog nivoa povjerenja prihvata se nulta hipoteza, ako ne, odbacuje se nulta hipoteza. Primjer 4.16. U dvije osnovne škole „A“ i „B“ izabrano je po 200 i 250 učenika u slučajni uzorak kako bi se ispitale vrijednosti BMI – a (Body Mass Index) u smislu da li učenici imaju 214
„Idealnu tjelesnu težinu“18. U školi „A“ učenici uzimaju uobičajenu užinu, dok u školi „B“ učenici uzimaju „Zdravu užinu“ namjenjenu sticanju zdravih prehrambenih navika i propisanu od strane tima nutricionista. Projekt „Zdrava užina“ primjenjivan je dvije školske godine, podaci o BMI – ju prije primjene nisu poznati, a rezultati primjene pretpostavljaju da je rezultat projekta najmanje 20% više učenika sa „Idealnom tjelesnom težinom“, nego u školi u kojoj se učenici hrane uobičajenom užinom. Testiranje izvršiti uz rizik greške 10%. Utvrđivanjem vrijednosti BMI – ja kod izabranih učenika, od izabranih u školi „A“ 141 učenika ima „Idealnu tjelesnu težinu“, a u školi „B“ njih 215. Rješenje: Postupak testiranja statističkih hipoteza u kontekstu procenta učešća uzoraka provodi se na sljedeći način: 1. Postupak formulisanja hipoteza obuhvata definisanje sadržaja nulte hipoteze (H0), time i altrenativne hipoteze (HA), u odnosu na testiranje vrijednosti procenta učešća osnovnog skupa, u konkretnom slučaju može se iskazati u obliku: o Jednosmjernog testa, na donju granicu, pri čemu su: H0 : p1 – p2 t 0,2 i
HA : p1 – p2 < 0,2
2. Postupak određivanja kritične vrijednosti, čime se određuju granice prihvatanja (ili neprihvatanja) statističkih hipoteza na bazi izabranog nivoa značajnosti kod jednosmjernog testa određuje se na bazi izabranog nivoa značajnosti (1 – α), odnosno iznosi: α = 0,10 z0,10 = – 1,38. Kritična oblast za prihvatanje nulte hipoteze je z > – 1,38 3. Postupak izračunavanja testovne vrijednosti podrazumijeva izračunavanje empirijskog z ili t odnosa, korištenjem sljedećeg obrasca: ݖൌ
ି ఙభషమ
Gdje su: ൌ ෞଵ െ ෞଶ ൌ ܦ Ƹ ൌ 18
భ ାమ భ ାమ
ൌ
ଶଵହାଵସଵ ଶହାଶ
ൌ
ଷହ ସହ
݉ଵ ݉ଶ ʹͳͷ ͳͶͳ െ ൌ െ ൌ Ͳǡͺ െ ͲǡͲͷ ൌ Ͳǡͳͷͷ ݊ଵ ݊ଶ ʹͷͲ ʹͲͲ ൌ Ͳǡͻͳ ili
Centar za prevenciju I kontrolu bolesti (Centers for Disease Control and Prevention CDC) razlikuje četiri kategorije ispitanika prema vrijednosti BMI – ja a to su: Pothranjenost (BMI < 5), Idealna tjelesna težina (BMI (5,85)), Prekomjerna tjelesna masa (BMI(85,95)) I Pretilost (BMI > 95)
215
Ƹ ൌ
ොభ భ ାොమ మ భ ାమ
ൌ
ǡ଼ήଶହାǡହήଶ ଶହାଶ
ሺ ߪଵିଶ ൌ ඨƸ ሺͳ െ ሻ
= 0,791
ͳ ͳ ͳ ͳ ሻ ൌ ඨͲǡͻͳ ή ሺͳ െ Ͳǡͻͳሻ ή ሺ ሻ ൌ ඥͲǡͲͲͳͶͺʹͺͺ ݊ଵ ݊ଶ ʹͷͲ ʹͲͲ
ൌ ͲǡͲ͵ͺͷͷ͵ͺͶ Sada izračunavamo testovnu vrijednost, koja iznosi: ݖൌ
ି ఙభషమ
ൌ
ǡଵହହିǡଶ ǡଷ଼ହହଷ଼ସ
ൌ
ିǡହ ǡଷ଼ହହଷ଼ସ
ൌ
െͳǡͳ. 4. Postupak donošenja zaključka o ishodu testa izvodi se poređenjem očitane kritične (tablične) vrijednosti i testovne vrijednosti, pri čemu je testovna vrijednost veća od tablične, tj. – 1,17 > – 1,38, tako da prihvatamo nultu hipotezu, odnosno opravdano je zaključiti da je razlika procenta učešća učenika sa „Idealnom tjelesnom težinom“ u školama „A“ i „B“ veći ili jednak 20% sa rizikom greške 10%. Alternativno odluku možemo donijeti i poređenjem teorijskog i empirijskog nivoa pouzdanosti. Imajući u vidu da je empirijski nivo povjerenja 10%, određujemo empirijski nivo povjerenja čija vrijednost iznosi: P(z > – 1,17) = 0,1210 = 12,10%. Kako je empirijski nivo povjerenja veći od teorijskog prihvatamo nultu hipotezu, odnosno zaključujemo da najmanje 20% procenata učešća učenika škole „B“ ima „Idealnu tjelesnu težinu“, nego učenika škole „A“ od ukupnog broja učenika tih škola na nivou povjerenja 90% (s rizikom greške 10%). Pored navedenih, metoda donošenja odluke o prihvatanju ili neprihvatanju nulte hipoteze, predmetna odluka se, takođe; donosi pomoću kritičnih granica izraženih u mjernim jedinicama statističke promjenljive, što iznosi: C1 = D – zαή ߪଵିଶ ൌ ͲǡʹͲ െ ͳǡͶ ή ͲǡͲ͵ͺͷͷ͵ͺͶ ൌ = ͲǡʹͲ െ ͲǡͲ͵ʹͶʹʹͻ ൌ Ͳǡͳ͵ͷʹ ൎ ͳ͵ǡͺΨ Na nivou značajnosti 10% uslov za prihvaćanje razlike jeste da se njihova uzoračka realizacija bude veća od 13,68%. U posmatranom primjeru razlika između uzoračkih realizacija procenta učešća ima vrijednost 15,50%, što je veće od donje granice, tj. 13,68% < 15,5%; što, takođe, dovodi do zaključka o prihvatanju nulte hipoteze sa rizikom greške 10%. 4.3.1.
216
Statistička komparacija varijansi dvaju osnovnih skupova
Komaracijom varijansi dvaju osnovnih skupova vrši se poređenje stepena disperzije tih skupova. Komparacija varijansi vrši se upoređivanjem omjera varijansi tih skupova, pri čemu se testiranje provodi poštovanjem sljedeće procedure: 1. Postupak formulisanja hipoteza obuhvata definisanje sadržaja nulte hipoteze (H0), time i altrenativne hipoteze (HA), a njime se iskazuje omjer (količnik) varijansi osnovnih skupova ఙమ
( భమ) sa jediničnom vrijednošću19. Oblici furmulacije hipoteza, u odnosu na testiranje ఙమ
komparacije varijansi osnovnih skupova, mogu se iskazati u obliku: -
Dvosmjernog testa, pri čemu su – H0 :
-
Jednosmjernog testa, koji može biti:
ఙభమ ఙమమ
ൌͳ
o Na donju granicu, pri čemu su – H0 :
i
ఙభమ ఙమమ
o Na gornju granicu, pri čemu su – H0 :
HA :
ͳ
ఙభమ ఙమమ
ͳ
ఙభమ ఙమమ
്ͳ
i
HA :
i
HA :
ili
ఙభమ ఙమమ ఙభమ ఙమమ
ͳ
ili
൏ͳ
2. Postupak određivanja kritične vrijednosti, čime se određuju granice prihvatanja (ili neprihvatanja) statističkih hipoteza na bazi izabranog nivoa značajnosti (1 – α), uslovljen je oblikom formulisanih hipoteza. Navedeno možemo ilustrovati sljedećim tabelarnim prikazom: Vrsta testa
Oblik formulacije hipoteza
Dvosmjerni
H0:
ఙభమ ఙమమ
ఙభమ ఙమమ
ൌ ͳ; HA:
na
ఙమమ
gornju granicu Jednosmjerni, donju granicu
ఙభమ
H0:
na
ఙభమ
H0:
ఙమమ
ఙభమ
ͳ; HA:
ఙమమ ఙభమ
ͳ; HA:
ఙమమ
Područje
prihvatanja H0
odbacivanja H0
ෝభమ ఙ ෝమమ ఙ
്ͳ
Jednosmjerni,
Područje
ෝభమ ఙ ෝమమ ఙ
ෝమమ ఙ
ෝమ ఙ
൏ͳ
ఙమ
൏ ܨఈ
ܨఈȀଶ ili
ෝభమ ఙ
ଵ
ෝభమ ൏ ܨఈ ෝభమ ఙ
ෝమమ ఙ
ிഀȀమ
ͳ
ෝమమ ఙ
ෝభమ ఙ
൏ ܨఈȀଶ ili
൏
ଵ ிഀȀమ
ෝమ ఙ
ෝభమ ܨఈ ఙమ
ෝమమ ఙ
ෝభమ ఙ
ܨఈ
Tabela 95. Postupak određivanja kritične vrijednosti I granica prihvatanja (ili neprihvatanja) statističkih hipoteza na bazi izabranog nivoa značajnosti (1 – α)
Teorijska (tablična) vrijednost F distribucije određuje se na temelju vrijednosti izabranog (planiranog) rizika greške α i broju stepeni slobode što iznosi [n1 – 1; n2 – 1]. 19
Ukoliko su varijanse dvaju skupova jednake, njihov količnik ima vrijednost jedan tj.vrijedi
ఙభమ ఙమమ
ൌ ͳ ߪଵଶ ൌ ߪଶଶ
217
3. Postupak izračunavanja testovne vrijednosti podrazumijeva izračunavanje empirijskog F, korištenjem sljedećeg obrasca: ෝమ ఙ
ܨൌ ෝభమ ఙమ
Gdje su: ߪොଵଶ i ߪොଶଶ – nepristrasna ocjena varijanse osnovnih skupova, izračunavanje njezine vrijednosti određeno je sljedećim obrascem: ߪොଶ ൌ
మ σ തതതሻ ണ సభሺ௫ೕ ି௫
ೕ ିଵ
Ǣ݆Ǣ ݆ ൌ ͳǡʹ
nj – broj jedinica izabranih u uzorke (prvi i drugi). 4.
Postupak donošenja zaključka o ishodu testa izvodi se poređenjem očitane kritične (tablične) vrijednosti i testovne vrijednosti kao što je navedeno u prethodnoj tabeli ili poređenjem empirijskog i teorijskog nivoa povjerenja. Teorijski nivo povjerenja je planski element statističkog testiranja, dok je empirijski nivo
povjerenja (p – vrijednost) vjerovatnoća odbacivanja tačne (istinite) nulte hipoteze. P – vrijednost se izračunava se pomoću podataka iz uzorka, odnosno pomoću testovne vrijednosti (empirijskog F odnosa). Postupak određivanja empirijskog p – odnosa podrazumijeva da se, nakon izračunavanja testovne vrijednosti odredi vjerovatnoća koja odgovara izračunatoj testovnoj vrijednosti. Ukoliko je p – odnos veći od planskog nivoa povjerenja prihvata se nulta hipoteza, ako ne, odbacuje se nulta hipoteza. Primjer 4.17. Profesor fizičkog vaspitanja vrši testiranje rezultata učenika u dvije smjene I i II. Iz skupa učenika koji su pohađali nastavu u I i II smjeni izabrani su nezavisni uzorci i dobijeni sljedeći rezultati o rezultatima učenika u bacanju kugle izraženim u metrima: I smjena
16,2 15,8 18,1 19,3 18,6 16,5 17,1 15,6 16,7 16,2 18,2 15,2
II smjena
17,2 18,7 16,4 18,2 17,4 16,3 16,7 18,6 17,6 16,1 15,4
Pretpostavlja se da se učenici prema rezultatima bacanja kugle ravnaju po normalnoj distribuciji. Potrebno je ispitati može li se: a. Sa pouzdanošću 95%, prihvatiti pretpostavka da je stepen variranja rezultata u prvoj smjeni veći od variranja rezultata u drugoj smjeni?
218
b. Sa rizikom greške 5%, prihvatiti pretpostavka da je se prosječan rezultat bacanja kugle u prvoj smjeni ne razlikuje od prosječnog rezultata u drugoj smjeni? Rješenje: Za potrebe statističkog testiranja, potrebno je odrediti vrijednost nepristrasne ocjene varijansi osnovnih skupova, elementi potrebni za njihovo izračunavanje sadržani su u sljedećoj tabeli: X1i
(X1i - ݔҧଵ )2
X1i - ݔҧଵ
X2i
(X2i - ݔҧଶ )2
X2i - ݔҧଶ
16,2
17,2
-0,6
0,42
0,1
0,01
15,8
18,7
-1
1,09
1,6
2,56
18,1
16,4
1,25
1,57
-0,7
0,49
19,3
18,2
2,45
6,02
1,1
1,21
18,6
17,4
1,75
3,08
0,3
0,09
16,5
16,3
-0,3
0,12
-0,8
0,64
17,1
16,7
0,25
0,06
-0,4
0,16
15,6
18,6
-1,2
1,55
1,5
2,25
16,7
17,6
-0,1
0,02
0,5
0,25
16,2
16,1
-0,6
0,42
-1
1
15,2
15,4
-1,6
2,71
-1,7
2,89
-
16,5 -
-
-0,6
0,36
-
17,2
-
0,1
0,01
0
11,9
185
222,3
0
17,1
Tabela 96. Radna tabela – elementi za provođenje testa o odnosu varijansi dva nezavisna osnovna skupa
U konkretnom slučaju dobijamo vrijednosti: σ సభ ௫భ
ଵ଼ହ
-
Aritmetička sredina prvog uzorka: ݔҧଵ ൌ
-
Aritmetička sredina drugog uzorka:ݔҧଶ ൌ
-
Nepristrasna ocjena varijanse prvog osnovnog skupa: ߪොଵଶ ൌ
-
Nepristrasna ocjena varijanse drugog osnovnog skupa: ߪොଶଶ ൌ
భ
ൌ
σ సభ ௫మ మ
ଵଵ
ൌ
ൌ ͳǡͺͶͷͷ;
ଶଶଶǡଷ ଵଷ
ൌ ͳǡͳͲǢ మ σ തതതതሻ భ సభሺ௫భ ି௫
భ ିଵ
ൌ
ଵǡଵ ଵଵିଵ
మ σ തതതതሻ మ సభሺ௫మ ି௫
మ ିଵ
ൌ ͳǡͳ
ൌ
ଵଵǡଽ ଵଷିଵ
ൌ
Ͳǡͻͻͳሶ
219
a.
Komparacija varijansi vrši se upoređivanjem omjera varijansi tih skupova, pri čemu se testiranje provodi poštovanjem sljedeće procedure: 1. Postupak formulisanja hipoteza obuhvata definisanje sadržaja nulte hipoteze (H0), time i altrenativne hipoteze (HA), a mogu se iskazati u obliku: -
Jednosmjernog testa, koji je na donju granicu: H0 :
ఙభమ ఙమమ
ͳ
i
HA :
ఙభమ ఙమమ
ͳ
2. Postupak određivanja kritične vrijednosti, čime se određuju granice prihvatanja (ili neprihvatanja) statističkih hipoteza na bazi izabranog nivoa značajnosti (1 – α) = 0,95 [α = 1 – 0,95 = 0,05 i υ1 = n1 – 1= 12 – 1=11 i υ2 = n2 – 1=13 – 1 = 12] = F0,05;10;12 = 2,91 > F. 3. Postupak izračunavanja testovne vrijednosti podrazumijeva izračunavanje empirijskog F, korištenjem sljedećeg obrasca: ෝమ ఙ
ܨൌ ෝభమ ൌ ఙమ
ଵǡଵ ǡଽଽଵሶ
ൌ ͳǡʹ
4. Postupak donošenja zaključka o ishodu testa izvodi se poređenjem očitane kritične (tablične) vrijednosti i testovne vrijednosti, pri čemu je testovna vrijednost veća od tablične, tj. 2,91 > 1,72 tako da prihvatamo nultu hipotezu, odnosno opravdano je zaključiti da je stepen varijabiliteta manji ili jednak u prvoj smjeni nego u drugoj smjeni. Sa pouzdanošću 95%, zaključujemo da je varijabilitet veći kod učenika u prvoj smjeni nego kod učenika u drugoj smjeni. b.
Komparacija varijansi vrši se upoređivanjem omjera varijansi tih skupova, pri čemu se testiranje provodi poštovanjem sljedeće procedure: 1. Postupak formulisanja hipoteza obuhvata definisanje sadržaja nulte hipoteze (H0), time i altrenativne hipoteze (HA), a mogu se iskazati u obliku: -
Dvosmjernog testa: H0 :
ఙభమ ఙమమ
ൌͳ i
HA :
ఙభమ ఙమమ
്ͳ
2. Postupak određivanja kritične vrijednosti, čime se određuju granice prihvatanja (ili neprihvatanja) statističkih hipoteza na bazi izabranog nivoa značajnosti α = 0,05 [α/2 = 0,05/2 = 0,025 i υ1 = n1 – 1= 12 – 1=11 i υ2 = n2 – 1=13 – 1 = 12] = F0,025;10;12 = 3,62; ଵ ǡଶହǢଵǢଵଶ
ൌ
ଵ ଷǡଶ
ൌ ͲǡʹʹͶ͵; kritične vrijednosti za prihvatanje nulte hipoteze su F < 3,62
ili F > 0,276243. 3. Postupak izračunavanja testovne vrijednosti podrazumijeva izračunavanje empirijskog F, korištenjem sljedećeg obrasca: 220
ܨൌ
ෝభమ ఙ ෝమమ ఙ
ൌ
ଵǡଵ ǡଽଽଵሶ
ൌ ͳǡʹ
4. Postupak donošenja zaključka o ishodu testa izvodi se poređenjem očitane kritične (tablične) vrijednosti i testovne vrijednosti, pri čemu je testovna vrijednost veća od tablične, tj. 0,276243 < 1,72 < 3,62; tako da prihvatamo nultu hipotezu, odnosno opravdano je zaključiti da je stepen varijabiliteta jednak u prvoj i drugoj smjeni. Sa pouzdanošću 95%, zaključujemo da je varijabilitet kod učenika u prvoj smjeni isti kod učenika u obje smjene. 4.2.6. Statističko testiranje hipoteza o varijansi dvaju osnovnih skupova – analiza varijanse; F – test Analiza varijanse obuhvata postupke kojima se varijansa slučajne promjenljive raščlanjuje na komponente prema porijeklu varijabiliteta nezinih vrijednosti. Komponente varijanse koriste se za ispitivanje usaglašenosti statističkog modela primijenjenog za ispitivanje i objašnjavanje statističkog značaja razlika između aritmetičkih sredina određenog broja (K) nezavisnih osnovnih skupova, pomoću slučajnih uzoraka. Ovaj metod posebno je zastupljen kod ispitivanja parametara regresionih modela. Pretpostavke provođenja statisističkog F – testa su slučajni uzorci uzeti iz K osnovnih skupova, pri čemu svaki uzorak sadrži nj elemenata, pri čemu je ukupno u sve uzorke izabrano n elemenata za koje vrijedi da je: n = n1 + n2 + ... + nj + ... + nk = σୀଵ ݊ ; j = 1, 2, ... , k Slučajna promjenljiva ima vrijednost xij, pri čemu navedena promjenljiva označava vrijednost i – te promjenljive u j – tom uzorku. U svakom uzorku moguće je izračunati prosječnu vrijednost slučajne promjenljive ݔҧ , koristeći obrazac:
ͳ ݔҧ ൌ ݔ ݊ ୀଵ
Takođe, moguće je izračunati i zajedničku aritmetičku sredinu, kao prosječnu vrijednost aritmetičkih sredina svih uzoraka, koristeći obrazac: ଵ
ଵ
σୀଵ ݔ ൌ σ ݔҧ ൌ σୀଵ ୀଵ ݔҧ ; j = 1, 2, ... , K; n = n1 + n2 + ... + nk
Odstupanje vrijednosti slučajne promjenljive xij od zajednisčke aritmetičke sredine ima vrijednost:
221
ݔ െ ݔҧ ൌ ൫ݔҧ െ ݔҧ ൯ ሺݔ െ ݔҧ ሻ Gdje je: ൫ݔҧ െ ݔҧ ൯ – odstupanje aritmetičke sredine j – tog uzorka od zajedničke aritmetičke sredine, a ሺݔ െ ݔҧ ሻ – odstupanje vrijednosti promjenljivih u j – tom uzorku od aritmetičke sredine j – tog uzorka. Ukupan varijabilitet slučajne promjenljive odnosi se na prosječno kvadratno odstupanje pojedinih vrijednosti modaliteta od zajedničke aritmetičke sredine, što se izračunava polazeći od prethodnog obrasca, tako da ga prvo kvadriramo a zatim sumiramo, čime dobijamo:
ೕ
ೕ
ሺݔ െ ݔҧ ሻଶ ൌ ݊ ሺݔҧ െ ݔҧ ሻଶ ሺݔ െ ݔҧ ሻଶ ୀଵ ୀଵ
ୀଵ
ୀଵ ୀଵ
U prethodnom izrazu lijeva strana predstavlja ukupan varijabilitet, odnosno zbir kvadrata odstupanja vrijednosti svih slučajnih promjenljivih u svim uzorcima od zajedničke aritmetičke sredine, predstavlja zbirnu varijansu i označava se sa ST (total sum of squares, sum of sqares corrected for mean – SST). Ukupan varijabilitet vezuje se sa (n – 1) stepenom slobode. Prvi član zbira sa desne strane jednakosti prethodnog izraza je zbir kvadrata odstupanja aritmetičkih sredina uzoraka od zajedničke aritmetičke sredine, njegova rijednost se vezuje za ( K – 1) stepen slobode, porijeklo njegove vrijednosti su varijacije sredina uzoraka, naziva se faktorski varijabilitet i označava sa SF (Beatween groups, Groups Treatments, Sum of Squares due to Model – SSB). Drugi član zbira sa desne strane jednakosti prethodnog izraza je zbir kvadrata odstupanja vrijednosti slučajne promjenljive od njegove aritmetičke sredine, njegova vrijednost se vezuje uz (n – K) stepeni slobode, porijeklo njegove vrijednosti je varijabilitet unutar uzorka, naziva se rezidualni varijabilitet i označava sa SR (Error Within Groups – SSW). U razvijenom obliku prethodni obrazac možemo razložiti na:
ଵ
ೕ ೕ ೕ ଶ ଶ ଶ ்ܵ ൌ σ ୀଵ σୀଵሺݔ െ ݔҧ ሻ ൌ σୀଵ σୀଵ ݔ െ ሺσୀଵ σୀଵ ݔ ሻ ;
ଶ
ܵி ൌ σ ୀଵ ݊ ൫ݔҧ െ ݔҧ ൯ ൌ σୀଵ
ቀσ಼ ೕసభ ௫ೕ ቁ ೕ
మ
ଵ
ೕ ೕ ଶ ଶ ܵோ ൌ σ ୀଵ σୀଵሺݔ െ ݔҧ ሻ ൌ σୀଵ σୀଵ ݔ െ σୀଵ
222
ೕ ଶ െ ሺσ ୀଵ σୀଵ ݔ ሻ ;
ቀσ಼ ೕసభ ௫ೕ ቁ ೕ
మ
.
Polazeći od prethodnih izraza moguće je odrediti vrijednost ukupne, faktorske i rezidualne varijanse, što iznosi: ்ܸ ൌ ܸி ܸோ , Gdje su: ܸி ൌ
ௌಷ ିଵ
i
ܸோ ൌ
ௌೃ ି
Pretpostake za provođenje F – testa su: -
Promjenljiva xij, za koju se analizira vrijednost aritmetičke sredine, u svakom osnovnom skupu ima osobine normalne distribucije;
-
Distribucije osnovnih skupova imaju jednake vrijednosti varijansi, tj.vrijedi: ߪଵଶ ൌ ߪଶଶ ൌ ڮൌ ߪଶ ൌ ڮൌ ߪଶ ൌ ߪ ଶ ;
-
Osnovni skupovi iz kojih su izabrani uzorci su nezavisni.
Provođenje F – testa obuhvata sljedeće korake: 1. Postupak formulisanja hipoteza obuhvata definisanje sadržaja nulte hipoteze (H0), time i altrenativne hipoteze (HA), a njime se iskazuje odnos aritmetičkih sredina K – osnovnih skupova (μ1, μ2, ... , μj, ... μK). Opšti oblik furmulacije hipoteza, u odnosu na testiranje komparacije aritmetičkih sredina osnovnih skupova, može se iskazati u sljedećem obliku: H0 : μ1 = μ2 = ... = μj = ... = μK = μ
HA: μj ≠ μ, j = 1,2, ... , k
Nulta hipoteza sadrži tvrdnju da su aritmetičke sredine osnovnih skupova međusobno jednake i imaju vrijednost određene konstante – μ, dok alternativna hipoteza podrazumijeva da postoji barem jedna aritmetička sredina osnovnih skupova čija vrijednost se razlikuje od μ. 2. Postupak određivanja kritične vrijednosti, čime se određuju granice prihvatanja (ili neprihvatanja) statističkih hipoteza na bazi izabranog nivoa značajnosti (1 – α), uslovljen je brojem stepeni slobode za dva faktora varijabiliteta K – 1 i n – K. Kritična vrijednost za prihvatanje nulte hipoteze na bazi izabranog (planiranog) rizika greške α i broju stepeni slobode što iznosi [K – 1; n – K] je Fα, [K – 1; n – K] , pri čemu se nulta hipoteza prihvata ukoliko je testovna vrijednost manja ili jednaka tabličnoj, odnosno ako vrijedi F ≤ Fα, [K – 1; n – K]. 3. Postupak izračunavanja testovne vrijednosti podrazumijeva izračunavanje empirijskog F, korištenjem sljedećeg obrasca: ܨൌ
ಷ ೃ
223
Gdje su: VF – faktorska varijansa; VR – rezidualna varijansa. 4.
Postupak donošenja zaključka o ishodu testa izvodi se poređenjem očitane kritične (tablične) vrijednosti i testovne vrijednosti kao što je navedeno pod tačkom 2. ili poređenjem empirijskog i teorijskog nivoa povjerenja. Teorijski nivo povjerenja je planski element statističkog testiranja, dok je empirijski nivo
povjerenja (p – vrijednost) vjerovatnoća odbacivanja tačne (istinite) nulte hipoteze. P – vrijednost izračunava se pomoću podataka iz uzorka, odnosno pomoću testovne vrijednosti (empirijskog F odnosa). Postupak određivanja empirijskog p – odnosa podrazumijeva da se, nakon izračunavanja testovne vrijednosti odredi vjerovatnoća koja odgovara izračunatoj testovnoj vrijednosti. Ukoliko je p – odnos veći od planskog nivoa povjerenja prihvata se nulta hipoteza, ako ne, odbacuje se nulta hipoteza. Primjer 4.18. Sportski trener ispituje efikasnost primijenjenog oblika kondicionih priprema atletičara, na grupe nezavisno izabranih atletičara primijenjene su tri vrste kondicionih priprema Trening I, II i III, pri čemu su nakon određenog peroda njihove primjene atletičari su pokazali sljedeće rezultate (atletičarskoa disciplina je trčanje na 800 m): Oblik kondicionih priprema Atletičar
Trening I
Trening II
Trening III
1
102
117
117
2
106
110
117
3
120
101
108
4
102
112
111
5
101
116
102
6
105
104
102
7
118
104
107
8
114
111
109
9
104 Tabela 97. Rezlutati atletičara – disciplina trčanje na 800m – vrijeme izraženo u sekundama
224
104
Potrebno je ispitati istinitost pretpostavke da oblik kondicionih priprema nema uticaj na postignuti rezultat atletičara, testiranje je potrebno izvršiti uz rizik greške 5%! Rješenje: Ispitivanje hipoteze o rezultatima atletičara u kontekstu primijenjenih oblika kondicionih priprema podrazumijeva analizu varijanse, tako da se provede testiranje hipoteze o jednakosti aritmetičkih sredina triju osnovnih skupova na temelju tri slučajna uzorka. Provođenje F – testa, u kontekstu ispitivanja prosječne brzine atletičara zavisno od oblika kondicionih priprema, obuhvata sljedeće korake: 1. Postupak formulisanja hipoteza obuhvata definisanje sadržaja nulte hipoteze (H0), time i altrenativne hipoteze (HA), a njime se iskazuje odnos aritmetičkih sredina 3 – ju osnovnih skupova (μ1, μ2, μ3), a može se iskazati u sljedećem obliku: H0 : μ1 = μ2 = μ3= μ
HA: μj ≠ μ, j = 1,2, 3
Nulta hipoteza sadrži tvrdnju da su aritmetičke sredine osnovnih skupova međusobno jednake i imaju vrijednost određene konstante – μ, dok alternativna hipoteza podrazumijeva da postoji barem jedna aritmetička sredina triju osnovnih skupova čija vrijednost se razlikuje od μ. 2. Postupak određivanja kritične vrijednosti, čime se određuju granice prihvatanja (ili neprihvatanja) statističkih hipoteza na bazi izabranog nivoa značajnosti (1 – α), uslovljen je brojem stepeni slobode za dva faktora varijabiliteta K – 1 i n – K. Ovdje je: K = 3 – ispitivanje obuhvata tri nezavisna slučajna uzorka, pri čemu je veličina svakog od njih: n1 = 9; n2 = 8; n3 = 9 i α = 0,05; tako da je: n = n1 + n2 + n3 = 9 + 8 + 9 = 26; K – 1 = 3 – 1; n – K = 26 – 3 = 23. Sada možemo da odredimo (očitamo) kritična vrijednost za prihvatanje nulte hipoteze na bazi izabranog (planiranog) rizika greške α = 0,05 i broju stepeni slobode što iznosi [2; 23] F0,05, [2;23] = 3,42 , pri čemu se nulta hipoteza prihvata ukoliko je testovna vrijednost manja ili jednaka tabličnoj, odnosno ako vrijedi F ≤ F0,05, [2;23]. 3. Postupak izračunavanja testovne vrijednosti podrazumijeva izračunavanje empirijskog F, korištenjem sljedećeg obrasca: ܨൌ
ಷ ೃ
Elementi za izračunavanje testovne vrijednosti su VF – faktorska varijansa i 225
VR – rezidualna varijansa. Atletičar
Uzorak I
II
III
1
102
117
117
2
106
110
117
3
120
101
108
4
102
112
111
5
101
116
102
6
105
104
102
7
118
104
107
8
114
111
109
9
104
ୀଵ
ݔ
ݔҧ
ୀଵ
ݔ ଶ
104
972
875
977
σ ୀଵ σୀଵ ݔ = 2824
108
109,375
108,556
ݔҧҧ = 108,644
105406
95943
106317
ଶ σ ୀଵ σୀଵ ݔ = 307666
9
8
9
n = 26
nj
Tabela 98. Radna tabela – elementi za izračunavanje testovne vrijednosti F – testa
ଵ
ೕ ೕ ଶ ଶ ்ܵ ൌ σ ୀଵ σୀଵ ݔ െ ሺσୀଵ σୀଵ ݔ ሻ = 307666 –
ܵி ൌ ܵி ൌ ଽమ ଽ
ቁെ
ଵ
σ ୀଵ ݊ ൫ݔҧ
ଶ
െ ݔҧ ൯ ൌ
σ ୀଵ
ቀσ಼ ೕసభ ௫ೕ ቁ ೕ
ೕ
ଵ
ଶ െ ሺσ ୀଵ σୀଵ ݔ ሻ ൌ ቀ
ଽଶమ ଽ
଼ହమ ଼
·28242 = (104976 + 95703,125 + 106058,7778) – 306729,8462 = 8,056646
ଶ
ೕ
ೕ
ଽ
·28242 = 936,153846
మ
ଶ ଶ ܵோ ൌ σ ୀଵ σୀଵሺݔ െ ݔҧ ሻ ൌ σୀଵ σୀଵ ݔ െ σୀଵ ଽమ
ଵ
ଶ
ቀσ಼ ೕసభ ௫ೕ ቁ ೕ
మ
ଽଶమ
ൌ ͵Ͳ െ ቀ
ଽ
଼ହమ ଼
ቁ ൌ ͵Ͳ െ ሺ104976 + 95703,125 + 106058,7778) = 928,0972 Polazeći od prethodnih izraza moguće je odrediti vrijednost ukupne, faktorske i rezidualne
varijanse, što iznosi: ܸி ൌ
226
ܵி ͺǡͲͷͶ ͺǡͲͷͶ ൌ ൌ ൌ ͶǡͲʹͺ͵ʹ͵ ͵െͳ ʹ ܭെͳ
ܸோ ൌ
ܵோ ͻʹͺǡͲͻʹ ͻʹͺǡͲͻʹ ൌ ൌ ൌ ͶͲǡ͵ͷʹͲͷʹ ʹ െ ͵ ʹ͵ ݊െܭ
்ܸ ൌ ܸி ܸோ = 4,028323 + 40,352052 = 44,378843 Tako da dobijamo: ܨൌ
4.
ܸி ͶǡͲʹͺ͵ʹ͵ ൌ ൌ ͲǡͲͻͻͺʹͻͶͶ ܸோ ͶͲǡ͵ͷʹͲͷʹ
Postupak donošenja zaključka o ishodu testa izvodi se poređenjem očitane kritične (tablične) vrijednosti i testovne vrijednosti, pri čemu je tablična vrijednost veća od testovne, odnosno vrijedi: F0,05, [2;23] = 3,42 > 0,099829446 = F, čime se izvodi zaključak da sa rizikom greške 5%, prihvata nulta hipoteza. Rezultati testa ukazuju na zaključak da sa rizikom greške 5 % oblik kondicionih priprema nema uticaj na ostvareni rezultat atletičara prilikom brzine trčanja na 800 metara.20
4.3. Neparametraski testovi Parametarski statistički testovi zasnivaju se na određenim teorijskim pretpostavkama kao što je oblik distribucije osnovnog skupa, međutim,ukoliko pretpostavke o obliku distribucije nisu tačne, zaključci proizašli iz provedenih statističkih testova nisu validni. Parametarski testovi se ne mogu primjenjivati ukoliko: -
distribucija slučajne promjenlive nije poznatog oblika ili svojstva;
-
distribucija slučajne promjenljive nije u obliku normalne distriucije;
-
broj podataka toliko mali da nije moguće primjeniti opisani oblik testiranja;
-
su podaci kvalitativni.
Neparametarski testovi prikladni su za testiranje statističkih hipoteza koje nisu zasnovane na potpunoj specifikaciji distribucije osnovnog skupa, a prikladni su i za testiranje hipoteza na bazi uzoraka uzetih iz osnovnog skupa pri čemu statistička promjenljiva nije numerička. Neparametarskih testova ima više vrsta, mogu se odnositi na jedan, dva ili više osnovnih skupova, a temelje se na jednom, dva ili više uzoraka.
20
Brzina trčanja kod atletičaara se izražava vremenom potrebnim da se pretrči staza zadane dužine
227
4.3.1.
Test predznaka (sign test) – test hipoteze o vrijednosti medijane osnovnog skupa
Medijana je poziciona vrijednost koja uređen niz podataka dijeli na dva jednaka dijela. Pretpostavke o vrijednosti medijane osnovnog skupa može se testirati pomoću uzorka. Odluka se donosi pomoću binomne distribucije vjerovatnoće ili ukoliko je uzorak dovoljne veličine umjesto binomne koristi se normalna distribucija. Provođenje testa o pretpostavljenoj vrijednosti medijane osnovnog skupa potrebno je odrediti predznak razlike između uzoračkih realizacija slučajne promjenljive i pretpostavljene vrijednosti medijane osnovnog skupa, pri čemu se svakoj izračunatoj razlici uočava predznak, broj razlika sa negativnim predznakom je c-, a broj razlika sa pozitivnim predznakom je c+, dok se veličina uzorka umanjuje za broj elemenata kod kojih navedena razlika ima vrijednost nula. Postupak testiranja podrazumijeva sljedeće: 1. Postupak formulisanja hipoteza obuhvata definisanje sadržaja nulte hipoteze (H0), time i altrenativne hipoteze (HA), a njime se iskazuje odnos između medijane uzorka (Me) i hipotetičke vrijednosti medijane osnovnog skupa osnovnog skupa (ηe). Oblici furmulacije hipoteza, u odnosu na testiranje vrijednosti medijane osnovnog skupa, mogu se iskazati u obliku: -
Dvosmjernog testa, pri čemu su – H0 : ݁ܯൌ ߟ݁
i
HA : Me ് ߟ݁ ili
-
Jednosmjernog testa, koji može biti: o Na donju granicu, pri čemu su – H0 : Me ηe i
HA : Me ηe ili
o Na gornju granicu, pri čemu su – H0 : Me ηe i
HA : Me ൏ ηe.
Statističko testiranje se provodi na slučajnom uzorku od n članova, koji potiče iz osnovnog skupa sa pretpostavljenom vrijednošću medijane ηe. Vrijednosti slučajne promjenljive u uzorku su numerički kontinuirani podaci, pri čemu svaka vrijednost u uzorku ima jednaku vjerovatnoću da joj vrijednost bude veća od medijane, kao i da joj vrijednost bude manja od medijane.21 Imajući to u vidu hipoteze možemo formulisati i u obliku: -
Dvosmjernog testa, pri čemu su – H0 : ൌ Ͳǡͷ
-
Jednosmjernog testa, koji može biti: o Na donju granicu, pri čemu su – H0 : p 0,5
i
HA : p ് Ͳǡͷ ili
i
HA : p 0,5 ili
o Na gornju granicu, pri čemu su – H0 : p 0,5 i 21
HA : p ൏ 0,5.
Navedeno proizilazi iz definicije medijane, 50% modaliteta u staističkoj seriji ima vrijednost veću od medijane, dok njih 50% ima vrijednost manju od medijane
228
2. Postupak određivanja kritične vrijednosti, čime se određuju granice prihvatanja (ili neprihvatanja) statističkih hipoteza na bazi izabranog nivoa značajnosti (1 – α), uslovljen je oblikom formulisanih hipoteza. Navedeno možemo ilustrovati sljedećim tabelarnim prikazom: Vrsta testa
Oblik formulacije hipoteza
Dvosmjerni
H0: Me = ηe;
Područje prihvatanja H0
Područje odbacivanja H0
zα/2 > _z_
zα/2 < _z_
– zα < z
– zα > z
zα > z
zα < z
HA:Me ് ηe Jednosmjerni,
na H0: Me ≤ ηe;
donju granicu
H0: Me > ηe
Jednosmjerni,
na H0: Me t ηe;
gornju granicu
H0: Me < ηe
Tabela 99. Postupak određivanja kritične vrijednosti I granica prihvatanja (ili neprihvatanja) statističkih hipoteza na bazi izabranog nivoa značajnosti (1 – α)
3. Postupak izračunavanja testovne vrijednosti podrazumijeva izračunavanje empirijskog z odnosa, korištenjem sljedećeg obrasca: ݖൌ
ොିǡହ ට
బǡఱήబǡఱ
Gdje su: Ƹ – procent učešća pozitivnih razlika u uzorku dobija se kao količink između broja pozitivnih ili negativnih razlika i veličine uzorka tj, Ƹ ൌ
ሼష శ ሽ
;
n – veličina uzorka (broj jedinica izabranih u uzorak uz isključenje onih jedinica kod kojih je razlika između njene vrijednosti i pretpostavljene vrijednosti medijane osnovnog skupa jednaka nula). 4. Postupak donošenja zaključka o ishodu testa izvodi se poređenjem očitane kritične (tablične) vrijednosti i testovne vrijednosti kao što je navedeno u prethodnoj tabeli ili poređenjem empirijskog i teorijskog nivoa povjerenja. Teorijski nivo povjerenja je planski element statističkog testiranja, dok je empirijski nivo povjerenja (p – vrijednost) vjerovatnoća odbacivanja tačne (istinite) nulte hipoteze. P – vrijednost se izračunava se pomoću podataka iz uzorka, odnosno pomoću testovne vrijednosti (empirijskog F odnosa). Postupak određivanja empirijskog p – odnosa podrazumijeva da se, nakon izračunavanja 229
testovne vrijednosti odredi vjerovatnoća koja odgovara izračunatoj testovnoj vrijednosti. Ukoliko je p – odnos veći od planskog nivoa povjerenja prihvata se nulta hipoteza, ako ne, odbacuje se nulta hipoteza. Primjer 4.19. Medijalno vrijeme obrade naloga u jednoj komercijalnoj banci iznosilo je 41 sekundu, analizom je ustanovljeno da je dužina obrade naloga determinisana radom službenika, tako da su radnici poslani na dodatnu obuku i stručno osposobljavanje. Nakon obavljene obuke i stručnog osposobljavanja zabilježeni su rezultati o utrošenom vremenu u obradu naloga u sekundama: 43 39 42 35 41 36 45 39 36 41 40 38 Potrebno je ispitati pretpostavku da li se medijalno vrijeme obrade naloga nakon obuke i stručnog osposobljavanja smanjilo? Zaključak izvesti uz pouzdanost 98%. Rješenje: Elementi potrebni za provođenje statističkog testa mogu se prikazati u sljedećoj tabeli: Vrijeme obrade 43
naloga, xi
39
42
35
41
36
Razlike xi – 41
+2
-2
1
-6
0
Predznaci
+
-
+
-
Izosta- -
razlika (xi – ηe)
-5
45
39
36
41
40
4
-2
-5
0
+
-
-
Izosta- -
vlja se
-1
38 -3 -
vlja se
Tabela 100. Radna tabela – elementi za provođenje testa predznaka
1. Postupak formulisanja hipoteza obuhvata definisanje sadržaja nulte hipoteze (H0), time i altrenativne hipoteze (HA), a njime se iskazuje odnos između medijane uzorka (Me) i hipotetičke vrijednosti medijane osnovnog skupa osnovnog skupa (ηe). Oblici furmulacije hipoteza, u odnosu na testiranje vrijednosti medijane osnovnog skupa, mogu se iskazati u obliku: -
Jednosmjernog testa, na donju granicu, pri čemu su H0 : Me ηe
i
HA : Me ηe
ili
H0 : p 0,5
i HA : p 0,5.
2. Postupak određivanja kritične vrijednosti, čime se određuju granice prihvatanja (ili neprihvatanja) statističkih hipoteza na bazi izabranog nivoa značajnosti (1 – α), i oblikom
230
formulisanja hipoteza. U analiziranom primjeru 1 – α = 0,98 α = 1 – 0,98 = 0,02 z0,02 = – 2,05 3. Postupak izračunavanja testovne vrijednosti podrazumijeva izračunavanje empirijskog z odnosa, korištenjem sljedećeg obrasca: ݖൌ Ƹ ൌ
ොିǡହ ට
బǡఱήబǡఱ
ሼǡଷሽ
ൌ
ଷ ଵ
= 0,3
Dakle, ovdje je: ݖൌ
4.
Ͳǡ͵ െ Ͳǡͷ ටͲǡͷ ή Ͳǡͷ ͳͲ
ൌ
െͲǡʹ ඥͲǡͲʹͷ
ൌ
െͲǡʹ ൌ െͳǡʹͶͻͳͳͲͶ ൎ െͳǡʹ Ͳǡͳͷͺͳͳ͵ͺͺ͵
Poređenjem tablične i testovne vrijednosti uočavamo da je testovna vrijednost veća od tablične tj.vrijedi – 2,05 < – 1,26; čime uz rizik greške 2% zaključujemo da je medijalno vrijeme manje od 41 sekunde po radnom nalogu, odnosno da su preduzete mjere omogućile ostvarenje postavljenog cilja. Isti zaključak moguće je izvući poređenjem empirijskog i teorijskog nivoa povjerenja (rizika).
Empirijski nivo rizika iznosi P(Z > – 1,26) = 0,1038. Kako je empirijski nivo povjerenja veći od teorijskog 0,1038 > 0,02 donosimo isti zaključak, odnosno uz pouzdanost 98% medijalno vrijeme obrade radnih naloga u posmatranoj komercijalnoj banci, nakon obuke i stručnog usavršavanja radnika, je smanjeno u odnosu na prethodnih 41 sekundu po radnom nalogu. Vjerovatnoća da će se u uzorku pojaviti tri ili manje pozitivnih predznaka P(k ≤ 3), može se izračunati i korištenjem vjerovatnoće binomnog rasporeda kod koga je: ൯Ͳǡͷ Ͳǡͷଵି ; k = 1,2, ... , 10 P(k) = ൫ଵ Pri čemu je: ൯Ͳǡͷ Ͳǡͷଵ + ൫ଵ ൯Ͳǡͷଵ Ͳǡͷଽ P(k ≤ 3) = P(k = 0) + P(k = 1) + P(k = 2) + P(k = 3) = ൫ଵ ଵ ൯Ͳǡͷଶ Ͳǡͷ଼ ൫ଵ ൯Ͳǡͷଷ Ͳǡͷ = 0,000976562 + 0,009765625 + 0,043945312 + 0,1171875 = ൫ଵ ଶ ଷ 0,171874999 = 17,19% Dobijena vjerovatnoća poredi se sa rizikom greške koji iznosi 2%, pri čemu je 17,19% > 2% čime potvrđujemo prethodne zaključke, odnosno da je nakon obuke i stručnog usavršavanja radnika 231
vrijednost medijane osnovnog skupa manja od pretpostavljene vrijednosti, tj.da se u više od 50% slučajeva utroši manje od 41 sekunde po radnom nalogu. 4.3.2. Wilcoxonov test (Wilcoxon one sample signed rank test) – test pretpostavljene vrijednosti medijane u odnosu na predznak razlike vrijednosti statističkog obilježja i medijane Prethodni test analizira samo predznak razlike između uzoračke realizacije slučajne promjenljive i pretpostavljene vrijednosti medijane osnovnog skupa, a ne vrijednost njihove razlike. Wilcoxonov test pored predznaka razlika uključuje i rangiranje njihovih apsolutnih vrijednosti. Postupak rangiranja obuhvata pridruživanje prvih n prirodnih brojeva apsolutnim vrijednostima razlika između vrijednosti uzoračke realizacije slučajne promjenljive i pretpostavljene vrijednosti medijane osnovnog skupa. Postupak podrazumijeva sljedeće: -
Izračunavanje razlika (xi – ηe);
-
Nakon izračunavanja isključuju se sve razlike kojima je vrijednost nula, a time i smanjiti veličinu uzorka za njihov broj;
-
Izvršiti rangiranje apsolutnih vrijednosti razlika | xi – ηe |, tako što se najmanjoj vrijednosti dodijeli rang 1, sljedećoj po veličini broj 2, a anjvećoj broj n. Ukoliko dvije ili više razlika imaju istu vrijednost svakoj razlici se dodjeljuje prosječna vrijednost ranga koju izračunavamo kao aritmetičku sredinu pripadajućih rangova;
-
Svakom rangu se pridružuje predznak i to „+“ ako je razlika (xi – ηe) > 0, odnosno „–“ ako je razlika (xi – ηe) < 0. Vrijednost rangova označava se sa T+, ukoliko potiče od pozitivne razlike, odnosno T–, ukoliko potiče od negative razlike.
Statističko testiranje upotrebom Wilcoxonova testa predznaka o pretpostavljenoj vrijednosti medijane obuhvata sljedeće korake: 1. Postupak formulisanja hipoteza obuhvata definisanje sadržaja nulte hipoteze (H0), time i altrenativne hipoteze (HA), a njime se iskazuje odnos između medijane uzorka (Me) i hipotetičke vrijednosti medijane osnovnog skupa (ηe). Oblici furmulacije hipoteza, u odnosu na testiranje vrijednosti medijane osnovnog skupa, mogu se iskazati u obliku:
232
-
Dvosmjernog testa, pri čemu su – H0 : ݁ܯൌ ߟ݁
i
HA : Me ് ߟ݁ ili
-
Jednosmjernog testa, koji može biti: o Na donju granicu, pri čemu su – H0 : Me ηe i
HA : Me ηe ili
o Na gornju granicu, pri čemu su – H0 : Me ηe i
HA : Me ൏ ηe.
2. Postupak određivanja kritične vrijednosti, čime se određuju granice prihvatanja (ili neprihvatanja) statističkih hipoteza na bazi izabranog nivoa značajnosti (1 – α), uslovljen je oblikom formulisanih hipoteza. Navedeno možemo ilustrovati sljedećim tabelarnim prikazom: Vrsta testa
Oblik formulacije hipoteza
Dvosmjerni
H0: Me = ηe;
Područje prihvatanja H0
Područje odbacivanja H0
25 < n
25 ≥ n
25 < n
25 ≥ n
zα/2 > _z_
Tα/2;n > |T|
zα/2 < _z_
Tα/2;n > |T|
– zα < z
Tα;n < T
– zα > z
Tα/2 > T
zα > z
Tα;n > T
zα < z
Tα/2 < T
HA:Me ് ηe Jednosmjerni,
na H0: Me ≤ ηe;
donju granicu
H0: Me > ηe
Jednosmjerni,
na H0: Me t ηe;
gornju granicu
H0: Me < ηe
Tabela 101. Postupak određivanja kritične vrijednosti I granica prihvatanja (ili neprihvatanja) statističkih hipoteza na bazi izabranog nivoa značajnosti (1 – α)
3. Postupak izračunavanja testovne vrijednosti podrazumijeva izračunavanje empirijskog z odnosa, korištenjem sljedećeg obrasca: ݖൌ
்ିఓ ఙ
Gdje su: T – predstavlja zbir rangova sa pozitivnim (T+) ili negativnim (T–) predzanakom i uzima se min{T+, T–}; ଵ
μT – prosječan rang, čija vrijednost se izračunava korištenjem obrasca: ߤ ் ൌ ݊ሺ݊ ͳሻ; ସ
σT – standardna greška ocjene ranga osnovnog skupa, čija vrijednsot se izračunava korištenjem ଵ
obrasca: ߪ் ൌ ට ݊ሺ݊ ͳሻሺʹ݊ ͳሻ ଶସ
n – veličina uzorka (broj jedinica izabranih u uzorak uz isključenje onih jedinica kod kojih je razlika između njene vrijednosti i pretpostavljene vrijednosti medijane osnovnog skupa jednaka nula). 4. Postupak donošenja zaključka o ishodu testa izvodi se poređenjem očitane kritične (tablične) vrijednosti i testovne vrijednosti kao što je navedeno u prethodnoj tabeli ili poređenjem empirijskog i teorijskog nivoa povjerenja.
233
Teorijski nivo povjerenja je planski element statističkog testiranja, dok je empirijski nivo povjerenja (p – vrijednost) vjerovatnoća odbacivanja tačne (istinite) nulte hipoteze. P – vrijednost se izračunava se pomoću podataka iz uzorka, odnosno pomoću testovne vrijednosti (empirijskog F odnosa). Postupak određivanja empirijskog p – odnosa podrazumijeva da se, nakon izračunavanja testovne vrijednosti odredi vjerovatnoća koja odgovara izračunatoj testovnoj vrijednosti. Ukoliko je p – odnos veći od planskog nivoa povjerenja prihvata se nulta hipoteza, ako ne odbacuje se nulta hipoteza. Primjer 4.20. Utrošeno vrijeme u trčanje na 100 metara, kod slučajnog uzorka sačinjenog od učenika jedne osnovne škole, iznosilo je: 18,3 17,0 20,5 18,1 13,7 20,5 17,5 19,4 14,3 15,7 16,8 16,3 18,7 Potrebno je ispitati pretpostavku da uzorak potiče iz osnovnog skupa kod koga je medijana 17. Pretpostavku ispitati uz rizik greške 5% koristeći: a. Wilcoxonov test ranga; b. Test predznaka. Rješenje: Elementi za provođenje statističkih testova mogu se prikazati u sljedećoj tabeli: Vrijeme u
Razlika (xi –
Apsolutne
Rang
Rangovi sa
Predznaci
uzorku (s)
ηe)
razlike
apsolutne
predznakom
razlika
razlike xi
234
(xi – 17)
|xi – 17|
|xi – 17|
13,7
-3,3
3,3
10
-10 -
14,3
-2,7
2,7
9
-9 -
15,7
-1,3
1,3
5,5
-5,5 -
16,3
-0,7
0,7
3
-3 -
16,8
-0,2
0,2
1
-1 -
17
0
17,5
0,5
0,5
2
2 +
18,1
1,1
1,1
4
4 +
18,3
1,3
1,3
5,5
5,5 +
0 Izostavlja se
Izostavlja se
Izostavlja se
18,7
1,7
1,7
7
7 +
19,4
2,4
2,4
8
8 +
20,5
3,5
3,5
11,5
11,5 +
20,5
3,5
3,5
11,5
11,5 +
Tabela 102. Radna tabela – elementi za provođenje statističkih testova
a. Statitičko testiranja, primjenom Wilcoxovog testa ranga, obuhvata: 1. Postupak formulisanja hipoteza obuhvata definisanje sadržaja nulte hipoteze (H0), time i altrenativne hipoteze (HA), a njime se iskazuje odnos između medijane uzorka (Me) i hipotetičke vrijednosti medijane osnovnog skupa (ηe). Oblici furmulacije hipoteza, u odnosu na testiranje vrijednosti medijane osnovnog skupa, mogu se iskazati u obliku: -
Dvosmjernog testa, pri čemu su H0 : Me =ηe
i
HA : Me ≠ηe
2. Postupak određivanja kritične vrijednosti, čime se određuju granice prihvatanja (ili neprihvatanja) statističkih hipoteza na bazi izabranog nivoa značajnosti (1 – α) ili rizika α, i oblikom formulisanja hipoteza. U analiziranom primjeru α = 0,05 α/2 = 0,05/2 = 0,025 i n = 12 T0,025;12 = 13 3. Postupak izračunavanja testovne vrijednosti podrazumijeva izračunavanje empirijskog z odnosa, korištenjem sljedećeg obrasca: T+ = 2 + 4 + 5,5 + 7 + 8 + 11,5 + 11,5 = 49,5 T– = 10 + 9 + 5,5 + 3 + 1 = 28,5 T = min {49,5; 28,5} = 28,5 4.
Poređenjem tablične i testovne vrijednosti uočavamo da je testovna vrijednost manja od tablične tj.vrijedi 13 < 28,5; čime uz rizik greške 5% zaključujemo da je medijalno vrijeme 17 sekundi, odnosno da 50% učenika uspijeva pretrčati stazu dužine 100 metara za manje od 17 sekundi, dok 50% učenika za isto treba više od 17 sekundi. b. Statitičko testiranja, primjenom testa predznaka, obuhvata: 1. Postupak formulisanja hipoteza obuhvata definisanje sadržaja nulte hipoteze (H0), time i altrenativne hipoteze (HA), a njime se iskazuje odnos između medijane uzorka (Me) i
235
hipotetičke vrijednosti medijane osnovnog skupa (ηe). Oblici furmulacije hipoteza, u odnosu na testiranje vrijednosti medijane osnovnog skupa, mogu se iskazati u obliku: Dvosmjernog testa, pri čemu su
-
H0 : Me =ηe
i
HA : Me ≠ηe
ili
H0 : p = 0,5
i HA : p ≠ 0,5.
2. Postupak određivanja kritične vrijednosti, čime se određuju granice prihvatanja (ili neprihvatanja) statističkih hipoteza na bazi izabranog nivoa značajnosti (1 – α) ili rizika α, i oblikom formulisanja hipoteza. U analiziranom primjeru α = 0,05 α/2 = 0,05/2 = 0,025 z0,025 = – 1,96 3. Postupak izračunavanja testovne vrijednosti podrazumijeva izračunavanje empirijskog z odnosa, korištenjem sljedećeg obrasca: ݖൌ Ƹ ൌ
ොିǡହ ට
బǡఱήబǡఱ
ሼǡହሽ
ൌ
ହ ଵଶ
= 0,416666
Dakle, ovdje je: ݖൌ
4.
ͲǡͶͳ െ Ͳǡͷ ටͲǡͷ ή Ͳǡͷ ͳʹ
ൌ
െͲǡͲͺ͵͵͵ ξͲǡͲʹͲͺ͵͵
ൌ
െͲǡͲͺ͵͵͵ ൌ െͲǡͷ͵ͷͲʹ ൎ െͲǡͷͺ ͲǡͳͶͶ͵͵ͷ
Poređenjem tablične i testovne vrijednosti uočavamo da je testovna vrijednost veća od tablične tj.vrijedi – 1,96 < – 0,58; čime uz rizik greške 5% zaključujemo da je medijalno vrijeme 17 sekundi. Isti zaključak moguće je izvući poređenjem empirijskog i teorijskog nivoa povjerenja (rizika).
Empirijski nivo rizika iznosi 2·P(Z > – 0,58) = 2·0,2810 = 0,5620. Kako je empirijski nivo povjerenja veći od teorijskog 0,562 > 0,05 donosimo isti zaključak, odnosno uz rizik greške 5% medijalno vrijeme potrebno da učenik osnovne škole pretči stazu dužine 100 m iznosi 17 sekundi. 4.3.3. Wilcoxonov test (Wilcoxon mached – pairs signed rank test) – test pretpostavljene vrijednosti na bazi ekvivalentnih parova statističkih obilježja Navedeni statistički test se primjenjuje za testiranje pretpostavke o odnosu medijana dvaju simetričnih osnovnih skupova, na bazi slučajnog uzorka od n parova vrijednosti slučajne promjenljive. Baza testa su zavisni uzorci, a parovi se formiraju tako da se mjerenja provode na 236
istoj jedinici statističkog skupa ili se različite jedinice svrstaju u par prema jednom ili više kriterija definisanih planom istraživanja. Neka su ηe1 i ηe2 medijane dvaju osnovnih skupova, a razlika među njima je ηe D = ηe1 – ηe2, kako bismo proveli statističko testiranje o odnosu medijana dvaju osnovnih skupova, odnosu vrijednosti njihove razlike. Parovi vrijednosti slučajne promjenljive, odnosno njihovih uzoračkih realizacija su (xi, yi), a postupak rangiranja njihovih vrijednosti podrazumijeva sljedeće: -
Izračunavanje razlika (xi – yi);
-
Nakon izračunavanja isključuju se sve razlike kojima je vrijednost nula, a time i smanjiti veličinu uzorka za njihov broj;
-
Izvršiti rangiranje apsolutnih vrijednosti razlika | xi – yi |, tako što se najmanjoj vrijednosti dodijeli rang 1, sljedećoj po veličini broj 2, a anjvećoj broj n. Ukoliko dvije ili više razlika imaju istu vrijednost svakoj razlici se dodjeljuje prosječna vrijednost ranga koju izračunavamo kao aritmetičku sredinu pripadajućih rangova;
-
Svakom rangu se pridružuje predznak i to „+“ ako je razlika (xi – yi) > 0, odnosno „–“ ako je razlika (xi – yi) < 0. Vrijednost rangova označava se sa T+, ukoliko potiče od pozitivne razlike, odnosno T–, ukoliko potiče od negative razlike.
Statističko testiranje upotrebom Wilcoxonova testa na osnovi ekvivalentnih parova o pretpostavljenoj vrijednosti medijane dvaju osnovnih skupova obuhvata sljedeće korake: 1. Postupak formulisanja hipoteza obuhvata definisanje sadržaja nulte hipoteze (H0), time i altrenativne hipoteze (HA), a njime se iskazuje odnos između hipotetičkih vrijednosti medijana dvaju osnovnih skupova (ηe1, ηe2). Oblici furmulacije hipoteza, u odnosu na testiranje vrijednosti medijana osnovnih skupova, mogu se iskazati u obliku: -
Dvosmjernog testa, pri čemu su: H0 : ߟ݁ͳ െ ߟ݁ʹ ൌ ߟ݁
-
i
HA : ߟ݁ͳ െ ߟ݁ʹ ് ߟ݁ ili
Jednosmjernog testa, koji može biti: o Na donju granicu, pri čemu su: H0 : ߟ݁ͳ െ ߟ݁ʹ ߟ݁ i
HA : ߟ݁ͳ െ ߟ݁ʹ ߟ݁ ili
o Na gornju granicu, pri čemu su: H0 : ߟ݁ͳ െ ߟ݁ʹ ߟ݁ i
HA : ߟ݁ͳ െ ߟ݁ʹ ൏ ߟ݁ .
2. Postupak određivanja kritične vrijednosti, čime se određuju granice prihvatanja (ili neprihvatanja) statističkih hipoteza na bazi izabranog nivoa značajnosti (1 – α), uslovljen je 237
oblikom formulisanih hipoteza. Navedeno možemo ilustrovati sljedećim tabelarnim prikazom: Vrsta testa
Oblik formulacije hipoteza H0: ߟ݁ͳ െ ߟ݁ʹ ൌ ߟ݁ ;
Dvosmjerni
Područje prihvatanja H0
Područje odbacivanja H0
25 < n
25 ≥ n
25 < n
25 ≥ n
zα/2 > _z_
Tα/2;n > |T|
zα/2 < _z_
Tα/2;n > |T|
– zα < z
Tα;n < T
– zα > z
Tα/2 > T
zα > z
Tα;n > T
zα < z
Tα/2 < T
HA:ߟ݁ͳ െ ߟ݁ʹ ് ߟ݁ Jednosmjerni,
na H0: ߟ݁ͳ െ ߟ݁ʹ ߟ݁ ;
donju granicu
H0: ߟ݁ͳ െ ߟ݁ʹ ߟ݁
Jednosmjerni,
na H0: ߟ݁ͳ െ ߟ݁ʹ ߟ݁ ;
gornju granicu
H0: ߟ݁ͳ െ ߟ݁ʹ ൏ ߟ݁
Tabela 103. Postupak određivanja kritične vrijednosti I granica prihvatanja (ili neprihvatanja) statističkih hipoteza na bazi izabranog nivoa značajnosti (1 – α)
3. Postupak izračunavanja testovne vrijednosti podrazumijeva izračunavanje empirijskog z odnosa, korištenjem sljedećeg obrasca: ݖൌ
ሺ்ሺ ሻ ାǡହሻିఓ ఙ
Gdje su: T – predstavlja zbir rangova sa pozitivnim (T+) ili negativnim (T–) predzanakom i uzima se min{T+, T–}; ଵ
μT – prosječan rang, čija vrijednost se izračunava korištenjem obrasca: ߤ ் ൌ ݊ሺ݊ ͳሻ; ସ
σT – standardna greška ocjene ranga osnovnog skupa, čija vrijednsot se izračunava korištenjem ଵ
obrasca: ߪ் ൌ ට ݊ሺ݊ ͳሻሺʹ݊ ͳሻ ଶସ
n – veličina uzorka (broj jedinica izabranih u uzorak uz isključenje onih jedinica kod kojih je razlika između njene vrijednosti i pretpostavljene vrijednosti medijane osnovnog skupa jednaka nula). 4. Postupak donošenja zaključka o ishodu testa izvodi se poređenjem očitane kritične (tablične) vrijednosti i testovne vrijednosti kao što je navedeno u prethodnoj tabeli ili poređenjem empirijskog i teorijskog nivoa povjerenja. Primjer 4.21. U slučajni uzorak izabrano je 30 učenika koji su imali zadatak da ocjene okus mliječne čokolade dva prizvođača A i B, pri čemu su ocjene od 1 – 5 (1 – nejestivo; 2 – loš ukus; 3 238
– prihvatljiv ukus; 4 – dobar okus; 5 – izvrstan ukus). Pretpostavlja se da naziv čokolade nema percepciju na okus čokolade. Rezultati istraživanja su sljedeći: Redni ispitanika
broj Ocjena ukusa Ocjena ukusa Redni kod
kod
proizvođača „A“
broj Ocjena ukusa Ocjena ukusa
ispitanika
kod
kod
proizvođača
proizvođača
proizvođača
„B“
„A“
„B“
1
4
5 16
2
4
2
3
5 17
5
1
3
2
2 18
2
3
4
1
3 19
5
2
5
3
2 20
5
2
6
1
2 21
3
2
7
4
1 22
2
5
8
5
4 23
1
5
9
1
1 24
1
2
10
4
3 25
4
3
11
2
2 26
2
2
12
5
1 27
3
1
13
2
4 28
4
1
14
2
2 29
1
3
15
2
1 30
3
2
Tabela 104. Percepcija okusa čokolade kod ispitanika u slučajnom uzorku
Potrebno je ispitati istinitost pretpostavke da li naziv proizvoda ima uticaj na percepciju njegovog kvaliteta? Primjeniti Wilcoxonov test uz rizik greške 5%.
239
Rješenje: Elementi za provođenje statističkog testa mogu se prikazati u sljedećoj tabeli: Ocjena za Ocjena za Razlika ukus čokolade ukus čokolade „A“ „B“ xi yi (xi – yi) 4 5 3 5 2 2 1 3 3 2 1 2 4 1 5 4 1 1 4 3 2 2 5 1 2 4 2 2 2 1 2 4 5 1 2 3 5 2 5 2 3 2 2 5 1 5 1 2 4 3 2 2 3 1 4 1 1 3 3 2
Apsolutne razlike |xi – yi| -1 -2 0 -2 1 -1 3 1 0 1 0 4 -2 0 1 -2 4 -1 3 3 1 -3 -4 -1 1 0 2 3 -2 1
1 2 Izostavlja se 2 1 1 3 1 Izostavlja se 1 Izostavlja se 4 2 Izostavlja se 1 2 4 1 3 3 1 3 4 1 1 Izostavlja se 2 3 2 1
Rang apsolutne razlike Rang |xi – yi| 0,44 0,24 Izostavlja se 0,24 0,44 0,44 0,2 0,44 Izostavlja se 0,44 Izostavlja se 0,12 0,24 Izostavlja se 0,44 0,24 0,12 0,44 0,2 0,2 0,44 0,2 0,12 0,44 0,44 Izostavlja se 0,24 0,2 0,24 0,44
Tabela 105. Radna tabela – elementi za provođenje statističkih testova
240
Rangovi sa predznakom
-0,44 -0,24 Izostavlja se -0,24 0,44 -0,44
0,2 0,44 Izostavlja se 0,44 Izostavlja se 0,12 -0,24 Izostavlja se 0,44 -0,24 0,12 -0,44 0,2 0,2 0,44 -0,2 -0,12 -0,44 0,44 Izostavlja se 0,24 0,2 -0,24 0,44
Statitičko testiranja, primjenom Wilcoxovog testa ranga, obuhvata: 1. Postupak formulisanja hipoteza obuhvata definisanje sadržaja nulte hipoteze (H0), time i altrenativne hipoteze (HA), a njime se iskazuje odnos između razlika parova obilježja parova vrijednosti obilježja zavisnih uzoraka (xi – yi) i hipotetičke vrijednosti razlika medijana osnovnih skupova (ηeD = ηe1 – ηe2). Oblici furmulacije hipoteza, u odnosu na testiranje vrijednosti medijane osnovnog skupa, mogu se iskazati u obliku: -
Dvosmjernog testa, pri čemu su H0 : 0 =ηeD
i
HA : 0 ≠ηeD
2. Postupak određivanja kritične vrijednosti, čime se određuju granice prihvatanja (ili neprihvatanja) statističkih hipoteza na bazi izabranog nivoa značajnosti (1 – α) ili rizika α, i oblikom formulisanja hipoteza. U analiziranom primjeru α = 0,05 α/2 = 0,05/2 = 0,025 i n = 25 T0,025;25 = 89 3. Postupak izračunavanja testovne vrijednosti podrazumijeva izračunavanje empirijskog odnosa, korištenjem sljedećeg obrasca: T+ = 4,36 T– = 3,28 T = min {4,36;3,28} = 3,28 4.
Poređenjem tablične i testovne vrijednosti uočavamo da je testovna vrijednost manja od tablične tj.vrijedi 3,28 < 89; čime uz rizik greške 5% zaključujemo da naziv proizvoda nema uticaj na percepciju kvaliteta proizvoda – predmet posmatranja je ukus mliječne čokolade dva različita proizvođača. 4.3.4.
Mann – Whitney – Wilcoxonov test za nezavisne uzorke
Zadatak Mann – Whitney – Wilcoxonovog (MWW) statističkog testa odnosi se na ispitivanje jednakosti distribucija pomoću nezavisnih uzoraka, pri čemu nije neophodno specificirati oblik distribucije. Baza za provođenje statističkog testa su vrijednosti redoslijedne ili numeričke statističke promjenljive u nezavisnim uzorcima koji potiču iz dva osnovna skupa. Veličine uzoraka su n1 i n2, pri čemu se prvim osnovnim skupom smatra onaj iz koga je uzet uzorak manje veličine (n1 ≤ n2). Provođenje statističkog testa zahtijeva da se oba uzorka spoje u jedan, pomoću koga se formira nova statistička serija sa n1 + n2 članova, kojima se pridružuju rangovi i to promjenljivoj
241
koja ima najmanju vrijednost dodjeljuje se rang 1, sljedećoj po veličini rang 2, ... , promjenljivoj koja ima najveću vrijednost dodjeljuje se rang n1 + n2. Ukoliko dvije ili više statističkih promjenljivih ima istu vrijednost dodjeljuje im se prosječna vrijednost ranga. Statističko testiranje obuhvata sljedeće korake: 1. Postupak formulisanja hipoteza obuhvata definisanje sadržaja nulte hipoteze (H0), time i altrenativne hipoteze (HA), a odnose se na pretpostavku o obliku specifikacija funkcije distribucije osnovnih skupova na bazi izabranih slučajnih uzoraka. Oblici furmulacije hipoteza mogu biti: a.
Da su funkcije distribucija dvaju osnovnih skupova jednake (H0), odnosno nisu (HA);
b. Da su aritmetičke sredine osnovnih skupova jednake (H0), odnosno nisu (HA) kada se testiranje provodi na bazi simetričnih osnovnih skupova iz kojih se biraju mali uzorci, pri čemu nisu ispunjene teorijske pretpostavke za primjenu t – testa; c. Da su medijane osnovnih skupova jednake (H0), odnosno nisu (HA), ili da je razlika među njima jednaka nuli (H0) ili različita od nule (HA). Primjer načina iskazivanja statističkih hipoteza, mogu se iskazati u obliku: -
Dvosmjernog testa, pri čemu su – H0 : Ͳ ൌ ߟ݁ͳ െηe2 i
-
Jednosmjernog testa, koji može biti:
HA : 0 ് ߟ݁ – ηe2 ili
o Na donju granicu, pri čemu su – H0 : 0 ηe1 – ηe1 i
HA : 0 ηe1 – ηe2 ili
o Na gornju granicu, pri čemu su – H0 :0 ηe1 – ηe2 i
HA : 0 ൏ ηe1 – ηe2.
2. Postupak određivanja kritične vrijednosti, čime se određuju granice prihvatanja (ili neprihvatanja) statističkih hipoteza na bazi izabranog nivoa značajnosti (1 – α), uslovljen je oblikom formulisanih hipoteza. Navedeno možemo ilustrovati sljedećim tabelarnim prikazom: Vrsta testa Dvosmjerni
Oblik formulacije hipoteza
H0:0 = ηe1 – ηe2; HA:0 ് ηe1 – ηe2 Jednosmjerni, na H0: 0 ≤ ηe1 – ηe2; donju granicu H0: 0 > ηe1 – ηe2 Jednosmjerni, na H0: 0 t ηe1 – ηe2; gornju granicu H0: Me < ηe
Područje prihvatanja H0 n1 ≤ 10 i n2 n1 > 10 i ≤ 10 n2 > 10 TL ≤ T1 ≤ zα/2 > _z_ TU T L > T1 – zα < z
Područje odbacivanja H0 n1 ≤ 10 i n2 n1 > 10 i n2 ≤ 10 > 10 TL ≥ T1 ili zα/2 < _z_ TU ≤ T1 T1 ≤ TL – zα > z
T 1 < TU
TU ≤ T1
zα > z
zα < z
Tabela 106.Postupak određivanja kritične vrijednosti I granica prihvatanja (ili neprihvatanja) statističkih hipoteza na bazi izabranog nivoa značajnosti (1 – α)
242
3. Postupak izračunavanja testovne vrijednosti podrazumijeva određivanje veličine T1, čija vrijednost se dobija kao zbir rangova izabranih u uzorak iz prvog osnovnog skupa u zajedničkoj statističkoj seriji (zbir rangova uzima se iz uzorka u koji je izabrano manje članova). Ukoliko je veličina oba uzorka veća od 10 (n1 > 10 i n2 > 10), tada se sampling distribucija razlika oblika distribucija dvaju osnovnih skupova aproksimira normalnom distribucijom, pa se testovna vrijednst utvrđuje pomoću obrasca: ݖൌ
்భ ିఓభ ఙభ
Gdje su: T1 – predstavlja zbir rangova pridruženih članovima uzorka iz prvog osnovnog skupa; ଵ
μT1 – prosječan rang, čija vrijednost se izračunava korištenjem obrasca: ߤ ்ଵ ൌ ݊ଵ ሺ݊ଵ ݊ଶ ସ
ͳሻ; σT – standardna greška ocjene ranga osnovnog skupa, čija vrijednsot se izračunava korištenjem ଵ
obrasca: ߪ் ൌ ට ݊ଵ ݊ଶ ሺ݊ଵ ݊ଶ ͳሻ ଶସ
n1 – broj jedinica sadržanih u uzorku manjeg obima; n2 – broj jedinica sadržanih u uzorku većeg obima. 4. Postupak donošenja zaključka o ishodu testa izvodi se poređenjem očitane kritične (tablične) vrijednosti i testovne vrijednosti kao što je navedeno u prethodnoj tabeli ili poređenjem empirijskog i teorijskog nivoa povjerenja. Teorijski nivo povjerenja je planski element statističkog testiranja, dok je empirijski nivo povjerenja (p – vrijednost) vjerovatnoća odbacivanja tačne (istinite) nulte hipoteze. P – vrijednost se izračunava se pomoću podataka iz uzorka, odnosno pomoću testovne vrijednosti (empirijskog F odnosa). Postupak određivanja empirijskog p – odnosa podrazumijeva da se, nakon izračunavanja testovne vrijednosti odredi vjerovatnoća koja odgovara izračunatoj testovnoj vrijednosti. Ukoliko je p – odnos veći od planskog nivoa povjerenja prihvata se nulta hipoteza, ako ne odbacuje se nulta hipoteza. Primjer 4.22. Trener fitnesa testiranjem ispituje se pretpostavka da konzumiranje složenih ugljikohidrata prije treninga povećava efikasnost treninga. U svrhu toga uzeta su dva nezavisna uzorka studenata FSN (Fakulteta sportskih nauka) kojima je izmjeren procent masnog tkiva (MT) 243
prije i poslije treninga. Studenti su podijeljeni u dvije grupe od kojih je jedna grupa prije treninga pojela čokoladicu (visok nivo sadržaja prostih ugljikohidrata), a druga grupa ispitanika je prije treninga pojela bananu (visok nivo sadržaja složenih ugljikohidrata). Energetska vrijednost obe vrste „užine“ uzete prije treninga je približno ista. Nakon „užine“ studenti su pristupili istom treningu, pri čemu su rezultati gubitka masnog tkiva kod ispitanika imali sljedeće vrijednosti: Gubitak MT (%) ispitanika koji
Bananu
0,125 0,479 0,208 0,404 0,503 0,186 0,091
su prije treninga konzumirali
Čokoladu
0,059 0,396 0,296 0,201 0,275 0,926
Tabela 107. Rezultati statističkog mjerenja – gubitak masnog tkiva ispitanika u toku treninga
Potrebno je ispitati pretpostavku da je medijalna vrijednost gubitka masnog tkiva ista kod obje grupe ispitanika. Testiranje izvršiti uz rizik greške 1 % korištenjem MWW – statističkog testa! Rješenje: Elementi potrebni za provođenje Mann – Whitney – Wilcoxonovog testa mogu se prikazati u sljedećoj tabeli: Gubitak MT (%) Bananu
0,125 0,479 0,208 0,404 0,503 0,186 0,091 Zbir rangova
ispitanika koji
3
su prije treninga Čokoladu
0,059 0,396 0,296 0,201 0,275 0,926
Zbir rangova
konzumirali
1
43
11 9
6 8
10 5
12 7
4 13
2
48
Tabela 108. Radna tabela – izračunavanje elemenata potrebnih za provođenje MWW – statističkog testa
Statitičko testiranja, primjenom Mann – Whitney – Wilcoxovog testa ranga, obuhvata: 1. Postupak formulisanja hipoteza obuhvata definisanje sadržaja nulte hipoteze (H0), time i altrenativne hipoteze (HA), a njime se iskazuje odnos između medijana nezavisnih uzoraka (ηe1 i ηe2) i hipotetičke vrijednosti razlika medijana osnovnih skupova (ηeD = 0). Oblik furmulacije hipoteza, u odnosu na testiranje vrijednosti medijane osnovnog skupa, mogu se iskazati u obliku: -
Dvosmjernog testa, pri čemu su H0 : 0 =ηe2 – ηe1
i
HA : 0 ≠ηe2 – ηe1
2. Postupak određivanja kritične vrijednosti, čime se određuju granice prihvatanja (ili neprihvatanja) statističkih hipoteza na bazi izabranog nivoa značajnosti (1 – α) ili rizika α, i
244
oblikom formulisanja hipoteza. U analiziranom primjeru α = 0,010 α/2 = 0,010/2 = ܶ ൌ ʹͶ 0,005, n1 = 7 i n2 = 6 T0,005;6;7 =൜ ܶ ൌ Ͳ 3. Postupak izračunavanja testovne vrijednosti podrazumijeva izračunavanje empirijskog odnosa, koji ima vrijednost: T1 = 43 – vrijednost zbira rangova manjeg uzorka, odnosno uzorka studenata koji su prije treninga konzumirali čokoladu. 4.
Poređenjem tablične i testovne vrijednosti uočavamo da je testovna vrijednost između granica određenih tabličnim vrijednostima tj.vrijedi 24 < 43 < 60; čime uz rizik greške 1% može zaključiti da naziv oblik „užine“ prije treninga nema uticaj na procent gubitka masnog tkiva u toku treninga. 4.3.5.
Test homogenosti statističke serije – (runs test)
Statistički test homogenosti statističke serije analizira strukturu statističke serije u pogledu (ne)homogenosti podserija unutar nje. Teorijska pretpostavka mnogih statističkih metoda je da su statističke serije potpuno slučajne, nezavisne i da se mogu pojaviti u bilo kojem poretku. Sagledavanje statističkih podataka unutar statističke serije nije moguće utvrditi da li se članovi statističke serije raspoređuju slučajno ili se članovi statističke serije sistemski raspoređuju u homogene nizove – podserije. Ukoliko se statistička serija sastoji od dva modaliteta statističke promjenljive ili je neko obilježje sa više modaliteta prevedeno u dvije grupe ili je riječ o dva smjera (znaka) obilježja, homogenim nizom (podserijom) se smatra grupa jednog oblika ili znaka obilježja kojoj prethodi različit obilk obilježja i kojoj slijedi različit oblik obilježja. Podserija može biti sastavljena od jednog ili više članova. Neparametarski statistički test koji se bazira na distribucijibroja homogenih podnizova u statističkoj seriji, polazi od pretpostavke da se statistička serija od n članova sastoji od dva oblika obilježja pri čemu prvi oblik obilježja ima n1 – članova statističke serije, a drugi oblik obilježja ima n2 – članova statističke serije. Broj podserija unutar statističke serije može se kretati od 2 do
Ǩ
,
భ Ǩమ Ǩ
pri čemu njihov broj predstavlja mjeru homogenosti statističke serije, odnosno veličinu na bazi koje se ralučuje da li su modaliteti u statističkoj seriji slučajni ili je u njoj prisutno sistemsko grupisanje.
245
Statističko testiranje provodi se pomoću sljedećih koraka: 1. Formulisanje statističkih hipoteza: H0 : statistička serija je slučajna
HA : statističku
seriju nije slučajna – statističku seriju čine homogene podserije 2. Postupak određivanja kritične vrijednosti, čime se određuju granice prihvatanja (ili neprihvatanja) statističkih hipoteza na bazi izabranog nivoa značajnosti (1 – α), odnosno rizika (α). Kritične vrijednosti za prihvatanje nulte hipoteze su: a. Ukoliko je slučajni uzorak mali (n1 ≤ 20 i n2 ≤ 20), to su: RL > R i RU < R; b. Ukoliko je slučajni uzorak veliki (n1 > 20 i n2 > 20) distribucija se aproksimira normalnom distribucijom, a kritične vrijednosti za prihvatanje nulte hipoteze su |zα/2| > z. 3. Postupak izračunavanja testovne vrijednosti podrazumijeva određivanje veličine R, čija vrijednost se dobija kao broj homogenih podnizova u statističkoj seriji. Ukoliko je veličina oba uzorka veća od 40 (n1 > 20 i n2 > 20), tada se sampling distribucija razlika oblika distribucija dvaju osnovnih skupova aproksimira normalnom distribucijom, pa se testovna vrijednst utvrđuje pomoću obrasca: ݖൌ
ோିఓೃ ఙೃ
Gdje su: R – predstavlja broj podnizova u stratističkoj seriji; μR – prosječan broj podnizova, čija vrijednost se izračunava korištenjem obrasca: ߤோ ൌ ͳ ଶభ మ
;
σR – standardna greška ocjene broja podnizova osnovnog skupa, čija vrijednsot se izračunava ଶభ మ ሺଶభ మ ିሻ
korištenjem obrasca: ߪோ ൌ ට
మ ሺିଵሻ
n1 – broj jedinica sa prvim oblikom obilježja; n2 – broj jedinica sa drugim oblikom obilježja. 4. Postupak donošenja zaključka o ishodu testa izvodi se poređenjem očitane kritične (tablične) vrijednosti i testovne vrijednosti kao što je navedeno u tački 2. ili poređenjem empirijskog i teorijskog nivoa povjerenja.
246
Teorijski nivo povjerenja je planski element statističkog testiranja, dok je empirijski nivo povjerenja (p – vrijednost) vjerovatnoća odbacivanja tačne (istinite) nulte hipoteze. P – vrijednost se izračunava se pomoću podataka iz uzorka, odnosno pomoću testovne vrijednosti (empirijskog F odnosa). Postupak određivanja empirijskog p – odnosa podrazumijeva da se, nakon izračunavanja testovne vrijednosti odredi vjerovatnoća koja odgovara izračunatoj testovnoj vrijednosti. Ukoliko je p – odnos veći od planskog nivoa povjerenja prihvata se nulta hipoteza, ako ne odbacuje se nulta hipoteza. Primjer 4.23. Proizvodni proces jedne kompomponente „K“ proizvoda „P“ prati se pomoću kontrolne karte. Na kontrolnoj karti za prosječan poluprečnik naznačena je pretpostavljena vrijednost poluprečnika komponente „K“, što iznosi: μ = 400 mm, pri čemu su granice tolerancije േ 20 mm. Kontrolna karta se provodi pomoću uzorka veličine 7 komponenti, koji se biraju u slučajno odabranim vremenskim intervalima. Podaci o vrijednostima poluprečnika komponente „K“ u pojedinim uzorcima mogu se prikazati u sljedećoj tabeli: Redni broj uzorka 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23.
Promjer komponente „K“ u uzorku (izražen u mm) 308 339 344 322 391 393 411 420 395 419 398 412 406 387 404 364 368 323 352 376 399 399 395 392 399 384 389 385 396 382 383 382 384 380 395 415 462 424 450 466 415 390 419 393 391 459 420 492 465 405 413 414 414 402 403 408 414 411 420 393 497 492 454 455 446 391 404 397 393 400 339 384 356 320 399 398 397 417 390 411 395 398 396 393 409 395 376 350 367 340 395 412 381 399 409 396 400 384 397 397 470 479 431 465 400
304 409 412 319 398 383 384 485 402 463 410 410 426 394 354 386 390 304 403 390 450
371 392 410 306 389 399 393 491 401 437 418 393 457 384 364 380 420 345 419 415 430 247
24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35. 36. 37. 38. 39. 40. 41. 42. 43. 44. 45. 46. 47. 48. 49. 50.
420 466 408 401 415 304 402 429 391 419 319 396 471 454 404 358 402 405 304 412 402 302 405 439 404 403 403 404 305
380 415 394 416 388 337 398 488 383 380 360 410 476 471 417 315 390 386 348 408 417 357 380 433 419 488 381 395 354
413 468 416 380 396 386 391 495 401 386 309 413 480 424 399 376 401 385 325 402 389 318 403 441 414 478 384 393 382
395 470 387 418 383 302 399 490 401 408 326 401 403 437 402 309 394 393 331 402 411 313 408 436 413 421 397 402 329
419 401 386 381 397 317 396 448 396 417 339 393 495 455 390 325 389 418 331 392 417 356 404 460 385 489 400 398 316
409 471 393 403 413 359 407 499 394 384 372 389 454 472 417 377 396 415 324 417 389 364 400 497 389 428 383 412 327
394 421 417 400 417 329 400 404 399 414 332 405 409 490 413 300 405 380 302 415 410 381 385 461 396 435 390 403 398
Tabela 109. Podaci o poluprečniku komponente “K”
Potrebno je: a.
Izračunati aritmetičke sredine pojedinih uzoraka;
b.
Nacrtati kontrolnu kartu za aritmetičku sredinu poluprečnika komponente „K“;
c.
Ispitati pretpostavku da odstupanja od aritmetičke sredine uzorka od pretpostavljene sredine imaju slučajan karakter, odnosno da je proizvodni proces pravilan. Ispitivanje obaviti pomoću testa homogenosti uz rizik greške 5%.
248
Rješenje: Elementi potrebni za izračunavanje traženih veličina mogu se prikazati u sljedećoj tabeli: Redni broj uzorka 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35. 36.
Promjer komponente „K“ u uzorku (izražen u mm)
308 393 398 364 399 384 383 415 415 459 413 408 497 391 339 398 395 395 395 396 470 420 466 408 401 415 304 402 429 391 419 319 396 471
339 411 412 368 399 389 382 462 390 420 414 414 492 404 384 397 398 376 412 400 479 380 415 394 416 388 337 398 488 383 380 360 410 476
344 420 406 323 395 385 384 424 419 492 414 411 454 397 356 417 396 350 381 384 431 413 468 416 380 396 386 391 495 401 386 309 413 480
322 395 387 352 392 396 380 450 393 465 402 420 455 393 320 390 393 367 399 397 465 395 470 387 418 383 302 399 490 401 408 326 401 403
391 419 404 376 399 382 395 466 391 405 403 393 446 400 399 411 409 340 409 397 400 419 401 386 381 397 317 396 448 396 417 339 393 495
304 409 412 319 398 383 384 485 402 463 410 410 426 394 354 386 390 304 403 390 450 409 471 393 403 413 359 407 499 394 384 372 389 454
371 392 410 306 389 399 393 491 401 437 418 393 457 384 364 380 420 345 419 415 430 394 421 417 400 417 329 400 404 399 414 332 405 409
Aritmetička sredina uzorka σୀଵ ݔ ݔҧ ൌ 339,86 405,57 404,14 344,00 395,86 388,29 385,86 456,14 401,57 448,71 410,57 407,00 461,00 394,71 359,43 397,00 400,14 353,86 402,57 397,00 446,43 404,29 444,57 400,14 399,86 401,29 333,43 399,00 464,71 395,00 401,14 336,71 401,00 455,43
Odstupanje od granica tolerancije (– ili +) -
-
+ +
+ -
-
+ +
+
+ +
249
37. 38. 39. 40. 41. 42. 43. 44. 45. 46. 47. 48. 49. 50.
454 404 358 402 405 304 412 402 302 405 439 404 403 403 404 305
471 417 315 390 386 348 408 417 357 380 433 419 488 381 395 354
424 399 376 401 385 325 402 389 318 403 441 414 478 384 393 382
437 402 309 394 393 331 402 411 313 408 436 413 421 397 402 329
455 390 325 389 418 331 392 417 356 404 460 385 489 400 398 316
472 417 377 396 415 324 417 389 364 400 497 389 428 383 412 327
490 413 300 405 380 302 415 410 381 385 461 396 435 390 403 398
457,57 406,00 337,14 396,71 397,43 323,57 406,86 405,00 341,57 397,86 452,43 402,86 448,86 391,14 401,00 370,29
-
-
+ +
-
Tabela 110. Radna tabela – vrijednost aritmetičkih sredina pojedinih uzoraka i elementi za provođenje tesa homogenosti niza
a. Vrijednosti aritmetičke sredine pojedinih uzoraka izračunavaju se kao proste aritmetičke sredine statističke serije, korištenjem obrasca: ݔҧ ൌ
σୀଵ ݔ
Pri čemu su vrijednosti aritmetičkih sredina pojedinih uzoraka sadržani u prethodnoj tabeli. b. Kontrolna karta kvaliteta za aritmetičku sredinu poluprečnika komponente „K“ može se prikazati na sljedećoj slici:
250
Kontrolna karta kvaliteta 500,00 450,00 400,00 350,00 300,00 250,00 200,00 150,00 100,00 50,00 0,00 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 Slika 26. Kontrolna katra kvaliteta za prosječnu vrijednost poluprečnika komponente „K“
c. Postupak statističkog testiranja obuhvata sljedeće korake: -
Statističkih hipoteza glase: H0 : statistička serija je slučajna
HA : statističku seriju
nije slučajna -
Kritične vrijednosti za prihvatanje nulte hipoteze, uz rizik greške 5% su: RL = 6 i RU 16. Uzorak je mali n1 = 10 i n2 = 10, jer je n1 < 20 i n2 < 20;
-
Postupak izračunavanja testovne vrijednosti podrazumijeva određivanje veličine R, čija vrijednost se dobija kao broj homogenih podnizova u statističkoj seriji, a to su pozitivna odnosno negativna odstupanja poluprečnika komponente „K“ od granica tolerancije. Ukoliko je prosječna vrijednost poluprečnika manja od donje granice tolerancije (ݔҧ ൏ ͵ͺͲ݉݉ሻodstupanje ima znak „-“, dok ukoliko je prosječna vrijednost poluprečnika veća od gornje granice tolerancije (ݔҧ ͶʹͲ݉݉ሻ odstupanje ima znak „+“. Ukoliko je prosječna vrijednost poluprečnika komponente „K“ unutar granica tolerancije (380 ݔҧ 420) vrijednost se izostavlja iz analize. Broj homogenih nizova određujemo tako što predznak odstupanja grupišemo u podnizove koji imaju jedan ili više članova. U konkretnom primjeru podnizove formiramo na sljedeći način (podniz je odijeljen uspravnom crtom): |– –|+ + +|– –|+ +| – | + | – |+ +|– – –|+ +| – | Pri čemu je broj homogenih podnizova R =11.
251
-
Postupak donošenja zaključka o ishodu testa izvodi se poređenjem očitane kritične (tablične) vrijednosti i testovne vrijednosti pri čemu je testovna vrijednost između kritičnih granica prihvatanja nulte hipoteze RL = 6 ≤ 11 ≤ RU 0 16. Zaključak je da je, sa rizikom greške 5%, proces proizvodnje pravilan, odnosno da su odstupanja komponente „K“ podskup slučajne, a ne homogene statističke serije.
4.4.3. χ² - test χ² test se primjenjuje da bi se ispitale pretpostavke o: -
obliku distribucije osnovnog skupa iz kojeg potiče uzorak, pri tome se polazi od distribucije osnovnog skupa sa poznatim pretpostavljenim parametrima;
-
jednakosti proporcije triju ili više osnovnih skupova ili više stratuma jednog osnovnog skupa;
-
nezavisnosti obilježja u tabeli kontingencije.
Provođenje χ² - testa o obliku distribucije temelji se na slučajnom uzorku od n članova koji predstavljaju kvalitativne ili kvantitativne statističke promjenljive. Postupku testiranja prethodi razvrstavanje podataka iz uzorka u odgovarajuće grupe čime se formira empirijska statistička serija, nakon čega se vrši izbor teorijske distribucije za uporedbu sa empirijskom serijom. Postupak testiranja obuhvata sljedeće korake: 1. Formulisanje statističkih hipoteza: H0 : Distribucija osnovnog skupa je specifiranog oblika HA : Distribucija osnovnog skupa nije specifiranog oblika 2. Postupak određivanja kritične vrijednosti, čime se određuju granice prihvatanja (ili neprihvatanja) statističkih hipoteza na bazi izabranog nivoa značajnosti (1 – α), odnosno rizika (α) i k – g – 1 stepeni slobode, pri čemu je k broj grupa članova statističke serije, g – broj parametara kojima se procjenjuje oblik statističke serije (g = 0 kada su parametri statističke serije poznati). Kritične vrijednosti za prihvatanje nulte hipoteze su: χ²α;(k – g – 1) ≥ χ² 3. Postupak izračunavanja testovne vrijednosti podrazumijeva primjenu sljedećeg obrasca: χ² = σୀଵ Gdje su: 252
ሺ ି כሻమ כ
fi – apsolutne frekvencije statističke serije – uzorka; fi* – očekivane apsolutne frekvencije prema distribuciji unavedenoj u nultoj hipotezi. Testiranje je valjano ukoliko je uzorak dovoljno velik ukoliko ima više od 30 članova i ako su sve očekivane frekvencije veće ili jednake od 2, kao i ukoliko ih je barem 50% veće ili jednako 5. Ukoliko se desi da očekivana frekvencija ima vrijednost manju od zahtijevane pristupa se spajanju susjednih grupa kako bi se dobila zahtijevana vrijednost. Spajanje se vrši sa grupom koja ima manju frekvenciju ukoliko postoje dvije mogućnosti. Spajanjem grupa mijenja se broj stepeni slobode. 4. Postupak donošenja zaključka o ishodu testa izvodi se poređenjem očitane kritične (tablične) vrijednosti i testovne vrijednosti kao što je navedeno u tački 2. ili poređenjem empirijskog i teorijskog nivoa povjerenja. Teorijski nivo povjerenja je planski element statističkog testiranja, dok je empirijski nivo povjerenja (p – vrijednost) vjerovatnoća odbacivanja tačne (istinite) nulte hipoteze. P – vrijednost se izračunava se pomoću podataka iz uzorka, odnosno pomoću testovne vrijednosti (empirijskog χ² odnosa). Postupak određivanja empirijskog p – odnosa podrazumijeva da se, nakon izračunavanja testovne vrijednosti odredi vjerovatnoća koja odgovara izračunatoj testovnoj vrijednosti. Ukoliko je p – odnos veći od planskog nivoa povjerenja prihvata se nulta hipoteza, ako ne odbacuje se nulta hipoteza. Pored prethodno navedenih oblika provođenja, χ² - test moguće je provoditi i u funkciji testiranja pretpostavke o nezavisnosti obilježja u tabeli kontingencije. U opštem slučaju, posmatramo dva obilježja, pri čemu: -
obilježje „OA“ koje ima r pojavnih oblika OA1, OA2, ... , OAr, i
-
obilježje „OB“ koje ima k pojavnih oblika OB1, OB2, ... , OBk.
Ukoliko se članovi određenog osnovnog skupa grupišu istovremeno prema modalitetima obilježja „OA“ i „OB“, dobijamo dvodimenzionalni raspored koji se može predstaviti u dvodimenzionalnoj tabeli konigencije reda rxk, čiji se opšti oblik može ilustrovati sljedećim prikazom:
253
Modaliteti
Modaliteti obilježja OA
Ukupno (6)
obilježja OA
OB1
OB2
...
OBj
...
OBk
OA1
f11
f12
...
f1j
...
f1k
6fA1
OA2
f21
f22
...
f2j
...
f2k
6fA2
⁞
⁞
⁞
⁞
⁞
OAi
fi1
fi2
fik
6fAi
⁞
⁞
⁞
⁞
⁞
OAr
fr1
fr2
…
fij
…
frk
6fAr
Ukupno (6)
6fB1
6fB2
…
6fBj
…
6fBk
N = 66fAi = 66fBj
⁞ …
fij
…
⁞
Tabela 111. Opšti oblik dvodimenzionalne tabele kontigencije
Oznake u tabeli imaju sljedeće značenje: fij – predstavlja apsolutnu frekvenciju jedinica statističkog skupa, čija je vrijednost obilježja OA – OAi, a vrijednost obilježja OB – OBj; 6fAi – predstavlja zbirnu (marginalnu) frekvenciju jedinica statističkog skupa, kod kojih je vrijednost obilježja OA jednaka OAi; 6fBi – predstavlja zbirnu (marginalnu) frekvenciju jedinica statističkog skupa, kod kojih je vrijednost obilježja OB jednaka OBi; 66fAi i 66fBj – veličinu statističkog skupa, odnosno zbir frekvencija svih vrijednosti obilježja jedinica statističkog skupa. Oznakom pij označavamo vjerovatnoću da se iz osnovnog skupa izabere jedinica kod koje je vrijednost obilježja OAi i OBj, njezina vrijednost dobija se kao količnik frekvencije fij i veličine osnovnog skupa (N). Takođe, sa pAi možemo označiti vjerovatnoću da se iz osnovnog skupa izabere jedinica kod koje je vrijednost obilježja OAi i sa pBi možemo označiti vjerovatnoću da se iz osnovnog skupa izabere jedinica kod koje je vrijednost obilježja OBj, čije vrijednosti dobijamo kao količnik zbirne frekvencije posmatranog obilježja (6fAi ili 6fBj) i veličine osnovnog skupa (N). Ukoliko su klasifikacije elemenata osnovnog skupa prema obilježjima OA i OB nezavisni, vjerovatnoća izbora elemenata sa modalitetima obilježja OAi i OBj jednaka proizvodu njihovih vjerovatnoća, odnosno vrijedi: P(OAi OBj) = P(OAi ) P(OBj), odnosno pij = pi pj. Postupak testiranja obuhvata sljedeće korake: 254
1. Formulisanje statističkih hipoteza: H0 : pij = pi pj, i,j, (i,j); i = 1, 2, ... ,r; j = 1, 2, ... , k HA : pij ≠ pi pj, i = 1, 2, ... ,r; j = 1, 2, ... , k 2. Postupak određivanja kritične vrijednosti, čime se određuju granice prihvatanja (ili neprihvatanja) statističkih hipoteza na bazi izabranog nivoa značajnosti (1 – α), odnosno rizika (α) i (r – 1)(k – 1) stepeni slobode. Kritične vrijednosti za prihvatanje nulte hipoteze su: χ²α;(r – 1)(k – 1) t χ² χ² se provodi ukoliko je veličina uzorka između 20 i 40 elemanata, odnosno 20 < n ≤ 40. Ukoliko je n < 20 provodi se Fišerov egzaktni test o neizvjesnosti, a ukoliko je n t 40 provodi se Fisherov test. 3. Postupak izračunavanja testovne vrijednosti podrazumijeva primjenu sljedećeg obrasca: χ² = σୀଵ σୀଵ
כమ ሺೕ ିೕ ሻ כ ೕ
Gdje su: fij – apsolutne frekvencije statističke serije – uzorka; fij* – očekivane apsolutne frekvencije, čije vrijednosti se određuju pomoću sljedećeg obrasca:݂ כൌ
σ ಲ σ ಳೕ మ
prethodno navedeni obrazac izvodi se na sljedeći način: ݂ כൌ ݊ ή ෞ పఫ ൌ ݊ ή Ƹ ή Ƹ ൌ ݊ ή
σ ಲ σ ಳೕ
ൌ
σ ಲ σ ಳೕ మ
Gdje su: Ƹ ǡ Ƹ ǡ Ƹ – predstavljaju uzoračke realizacije vjevovatnoće da se slučajno izabere element vrijednosti obilježja (OAi i OBj), OAi, odnosno OBj. Ukoliko se testiranje provodi na uzorku većem od 40 jedinica (n > 40) koristi se Jatesova korekcija, koja se sastoji u tome da se od svake apsolutne razlike empirijskih i očekivanih frekvencija (brojnik testovne veličine) oduzme 0,5 i onda se ta vrijednost kvadrira, odnosno tada je testovna veličina: χ² = σୀଵ σୀଵ
כ ሺቚೕ ିೕ ቚିǡହሻమ כ ೕ
255
4. Postupak donošenja zaključka o ishodu testa izvodi se poređenjem očitane kritične (tablične) vrijednosti i testovne vrijednosti kao što je navedeno u tački 2. ili poređenjem empirijskog i teorijskog nivoa povjerenja. Teorijski nivo povjerenja je planski element statističkog testiranja, dok je empirijski nivo povjerenja (p – vrijednost) vjerovatnoća odbacivanja tačne (istinite) nulte hipoteze. P – vrijednost izračunava se pomoću podataka iz uzorka, odnosno pomoću testovne vrijednosti (empirijskog χ² odnosa). Postupak određivanja empirijskog p – odnosa podrazumijeva da se, nakon izračunavanja testovne vrijednosti odredi vjerovatnoća koja odgovara izračunatoj testovnoj vrijednosti. Ukoliko je p – odnos veći od planskog nivoa povjerenja prihvata se nulta hipoteza, ako ne, odbacuje se nulta hipoteza. Primjer 4.24. Preduzeće „P“ ispituje ispravnost proizvoda na jednoj proizvodnoj liniji, prikupljeni rezultati o broju neispravnih proizvoda u toku jedne smjene mogu se ilustrovati sljedećim tabelarnim prikazom: Broj neispravnih proizvoda
0
1
2
3
4
5
6
7
Broj smjena
865
987
484
141
18
3
1
1
Tabela 112. Distribucija radnih smjena preduzeća prema broju neispravnih proizvoda
Potrebno je ispitati istinitost pretpostavke da se broj neispravnih proizvoda prilagođava binomnoj distribuciji! Testiranje izvršiti uz rizik greške 5%. Rješenje: Opšti oblik binomne distribucije može se zapisati pomoću sljedećeg obrasca: P(x) = ൫௫൯ ௫ ݍି௫ Polazeći od analiziranog empirijskog rasporeda, ukoliko bismo ga aproksimirali binomnim rasporedom, imali bismo da je n = 7; x = 0, 1, 2, ... , 7; dok parametar p nije poznat. Kod binomnog rasporeda očekivana vrijednost je E(x) = np, očekivana vrijednost se može zamijeniti aritmetičkom sredinom uzorka, što omogućava da se izvrši nepristrasna ocjena nepoznatog parametra p, kako slijedi: ݔҧ ൌ ݊ ൌ
256
௫ҧ
ݔҧ ൌ
σୀଵ ݂ ݔ Ͳ ή ͺͷ ͳ ή ͻͺ ڮ ή ͳ ʹͶͺ ൌ ൌ ൌ Ͳǡͻͻͳʹ σୀଵ ݂ ʹͷͲͲ ʹͷͲͲ ൌ
Ͳǡͻͻͳʹ ൌ ͲǡͳͶͳ
Ukoliko se broj neispravnih proizvoda u toku jedne smjene ravna po binomnoj distribuciji, opravdano je pretpostaviti da je binomna distribucija iskazana sljedećim obrascem: P(x) = ൫௫൯ͲǡͳͶͳ ή ͲǡͺͷͺͶି௫ , gdje je x = 0, 1, 2, ... , 7 Elementi potrebni za provođenje χ² - testa mogu se prikazati u sljedećoj tabeli: xi
fi
P(xi)
fi*
(fi – fi*)
(fi – fi*)2
(fi – fi*)2/fi*
fixi
0
865
0,343422
858,555
-6,45
41,54186
0,048386
0
1
987
0,396551
991,379
4,38
19,17245
0,019339
987
2
484
0,196243
490,608
6,61
43,66162
0,088995
968
3
141
0,053953
134,883
-6,12
37,41985
0,277425
423
4
18
0,0089
22,250
4,25
18,06258
0,811801
72
5
3
0,000881
2,202
-2,674
7,149558
3,246566
15
6
1
4,84E-05
0,121 *
*
*
6
7
1
1,14E-06
0,003 *
*
*
7
0
-
4,492511
Σ
2500
1,0000
2500
2478
Tabela 113. Radna tabela – elementi za provođenje χ² - testa
Ukoliko se broj neispravnih proizvoda ravna po binomnoj distribuciji, očekivane frekvencije imaju vrijednost fi* = 2500P(xi). Očekivane frekvencije poslednje dvije grupe su 0,121 i 0,003 i obje su manje od dva, i njihov zbir je, takođe, manji od dva, tj. 0,121 + 0,003 = 0,124 < 2, tako da se te dvije frekvencije pridružuju prethodnoj očekivanoj frekvenciji, tako da se poslednje dvije izostavljaju (polja u tabeli u kojima stoji *), a poslednja frekvecija u tabeli f6* = 2,202 + 0,121 + 0,003 = 2,326, dok se odgovarajuća razlika dobija kao: f6 – f6* = 5 – 2,326 = 2,674. Postupak testiranja obuhvata sljedeće korake: 1. Formulisanje statističkih hipoteza: H0 : Distribucija broja neispravnih proizvoda u toku jedne smjene ima oblik binomne distribucije
257
HA : Distribucija broja neispravnih proizvoda u toku jedne smjene nema oblik binomne distribucije 2. Postupak određivanja kritične vrijednosti, čime se određuju granice prihvatanja (ili neprihvatanja) statističkih hipoteza bazira se na izabranom nivou rizika (α = 0,05) i broju stepeni slobode, koji iznosi: k – g – 1 = 5 – 1 – 1 = 3. Kritična vrijednost za prihvatanje nulte hipoteze je: χ²0,05;3 = 7,815 3. Postupak izračunavanja testovne vrijednosti podrazumijeva primjenu sljedećeg obrasca: χ² = σୀଵ
ሺ ି כሻమ כ
= 4,492511
4. Postupak donošenja zaključka o ishodu testa izvodi se poređenjem očitane kritične (tablične) vrijednosti i testovne vrijednosti, pri čemu je testovna vrijednost (4,492511) manja od tablične (7,815) i pada u područje prihvatanja nulte hipoteze. Na nivou značajnosti 95% (uz rizik greške 5%) možemo prihvatiti pretpostavku da uzorak potiče iz osnovnog skupa koji se raspoređuje prema binomnoj distribuciji. Primjer 4.25. Zdravstvena ustanova „Z“ ispituje učestalost poziva pacijenata sa zahtjevom za dolazak vozila hitne pomoći u toku smjene, prikupljeni podaci mogu se ilustrovati sljedećim tabelarnim prikazom: Broj poziva
0
1
2
3
4
5
6
≥7
Broj smjena
227
248
152
51
15
5
1
1
Tabela 114.Distribucija broja noćnih smjena prema broju poziva sa zahtjevom za dolazak vozila hitne pomoći
Potrebno je ispitati istinitost pretpostavke da se broj upućenih poziva prilagođava Poasonovoj distribuciji! Testiranje izvršiti uz rizik greške 1%. Rješenje: Opšti oblik Poasonove distribucije može se zapisati pomoću sljedećeg obrasca: P(x) =
షഊ ఒೣ ௫Ǩ
Polazeći od analiziranog empirijskog rasporeda, ukoliko bismo ga aproksimirali Poasonovim rasporedom, imali bismo da je x = 0, 1, 2, ... , 7; dok parametar λ nije poznat. Kod Poasonovog rasporeda očekivana vrijednost je E(x) = λ, očekivana vrijednost se može zamijeniti aritmetičkom
258
sredinom uzorka, što omogućava da se izvrši nepristrasna ocjena nepoznatog parametra λ, kako slijedi: ݔҧ ൌ ߣ ݔҧ ൌ
σୀଵ ݂ ݔ Ͳ ή ʹʹ ͳ ή ʹͶͺ ڮ ή ͳ ͺͲ͵ ൌ ൌ ൌ ͳǡͳͶͳͶʹͺͷ σୀଵ ݂ ͲͲ ͲͲ
Ukoliko se broj poziva pacijenata sa zahtjevom za dolazak vozila hitne pomoći u toku jedne smjene ravna po Poasonovoj distribuciji, opravdano je pretpostaviti da je Poasonova distribucija iskazana sljedećim obrascem: షభǡభరళభరమఴఱళ ଵǡଵସଵସଶ଼ହೣ
P(x) =
௫Ǩ
, gdje je x = 0, 1, 2, ... , 7
Elementi potrebni za provođenje χ² - testa mogu se prikazati u sljedećoj tabeli: xi
fi
P(xi)
fi*
(fi – fi*)
(fi – fi*)2
(fi – fi*)2/fi*
fixi
0
227
0,317543
222,28
-4,72
22,27918
0,10023
0
1
248
0,364267
254,99
6,99
48,81565
0,191444
248
2
152
0,208933
146,25
-5,75
33,02623
0,225816
304
3
51
0,079892
55,92
4,92
24,24992
0,433619
153
4
15
0,022912
16,04
1,04
1,078119
0,067221
60
5
5
0,005257
3,68
-2,50
6,257732
1,700632
25
6
1
0,001005
0,70 *
*
*
6
7
1
0,000165
0,12 *
*
*
7
0
-
2,718963
Σ
700 1,0000
700
803
Tabela 115. Radna tabela – elementi za provođenje χ² - testa
Očekivane frekvencije poslednje dvije grupe su 0,70 i 0,12 i obje su manje od dva, i njihov zbir je, takođe, manji od dva, tj. 0,70 + 0,12 = 0,82 < 2, tako da se te dvije frekvencije pridružuju prethodnoj očekivanoj frekvenciji,pri tome se poslednje dvije izostavljaju (polja u tabeli u kojima stoji *), a poslednja frekvecija u tabeli f6* = 3,68 + 0,70 + 0,12 = 4,5, dok se odgovarajuća razlika dobija kao: f6 – f6* = 7 – 4,5 = 2,5. Postupak testiranja obuhvata sljedeće korake: 1. Formulisanje statističkih hipoteza: H0 : Distribucija broja poziva pacijenata u toku jedne smjene sa zahtjevom za dolazak vozila hitne pomoći ima oblik Poasonove distribucije 259
HA : Distribucija broja poziva pacijenata u toku jedne smjene sa zahtjevom za dolazak vozila hitne pomoći nema oblik Poasonove distribucije 2. Postupak određivanja kritične vrijednosti, čime se određuju granice prihvatanja (ili neprihvatanja) statističkih hipoteza bazira se na izabranom nivou rizika (α = 0,10) i broju stepeni slobode, koji iznosi: k – g – 1 = 5 – 0 – 1 = 4. Kritična vrijednost za prihvatanje nulte hipoteze je: χ²0,01;4 = 13,277 3. Postupak izračunavanja testovne vrijednosti podrazumijeva primjenu sljedećeg obrasca: χ² = σୀଵ
ሺ ି כሻమ כ
= 2,718963
4. Postupak donošenja zaključka o ishodu testa izvodi se poređenjem očitane kritične (tablične) vrijednosti i testovne vrijednosti, pri čemu je testovna vrijednost (2,718963) manja od tablične (13,277) i pada u područje prihvatanja nulte hipoteze. Na nivou značajnosti 99% (uz rizik greške 1%) možemo prihvatiti pretpostavku da uzorak potiče iz osnovnog skupa koji se raspoređuje prema Poasonovoj distribuciji. Primjer 4.26. Provjerava se produktivnost radnika u proizvodnom preduzeću, u uzorku od 300 radnika, prema vremenu utrošenom u izradu proizvoda „P“ radnici čine sljedeću distribuciju: Utrošeno vrijeme (s)
Do – 80
80 – 84
84 – 88
88 – 92
92 – 96
96 i više
Broj radnika
16
48
89
81
52
14
Tabela 116. Distribucija proizvodnih radnika prema vremenu utošenom u izradu proizvoda „P“
Potrebno je ispitati istinitost pretpostavke da se vrijeme utrošeno u izradu proizvoda „P“ ravna po normalnoj distribuciji! Testiranje izvršiti uz rizik greške 10%. Rješenje: Normalna distribucija N(μ,σ) je dvoparametarska funkcija neprekidne slučajne promjnljive, u posmatranom primjeru, vrijednosti aritmetičke sredine i standardne devijacije nisu poznate, te je neophodno ocijeniti njihovu vrijednost pomoću slučajnog uzorka, kako slijedi: ݔҧ ൌ
260
σ సభ ௫ σ సభ
ൌ
଼ήଵା଼ଶήସ଼ାڮା଼ήଵସ ଷ
ൌ
ଶଷ଼଼ ଷ
ൌ ͺǡͻ
σୀଵ ݂ ݔଶ െ ݊ ή ݔҧ ଶ ʹ͵ʹͺ͵ͺ െ ͵ͲͲ ή ͺ͵ǡ͵͵ଶ ൌඨ ൌ ඥʹͶǡ͵ͶʹʹͲͶ ൌ Ͷǡͻ͵ͶͳͺͺͻͶ ݊െͳ ͵ͲͲ െ ͳ
ߪො ൌ ඨ
ൎ Ͷǡͻ͵ Ukoliko se vrijeme utrošeno u izradu proizvoda ravna po normalnoj distribuciji sa aritmetičkom sredinom 87,96 i standardnom devijacijom 4,93, opravdano je pretpostaviti da je uzorak uzet iz normalno raspoređenog osnovnog skupa. Elementi potrebni za provođenje χ² - testa mogu se prikazati u sljedećoj tabeli: xi
fi
ݖ ൌ
ܮଶ െ ͺǡͻ P(xi) Ͷǡͻ͵
fi*
(fi fi*)
– (fi – fi*)2/fi*
fixi
fixi2
Do – 80
16
– ∞ do – 1,61
0,0537
16,11
-0,11
0,001
1248
97344
80 – 84
48
– 0,80
0,1582
47,46
0,54
0,006
3936
322752
84 – 88
89
0,01
0,2921
87,63
1,37
0,021
7654
658244
88 – 92
81
0,82
0,2899
86,97
-5,97
0,410
7290
656100
92 – 96
52
1,63
0,1545
46,35
5,65
0,689
4888
459472
96 i više
14
1,63 do +∞
0,0516
15,48
-1,48
0,141
1372
134456
Σ
300
-
1,000
700
0
1,268346
26388 2328368
Tabela 117.Radna tabela – elementi za provođenje χ² - testa
Vrijednosti normalizovanog standardizovang odstupanja računaju se za vrijednost gornje granice intervala vrijednosti slučajne promjenljive u statističkoj seriji, osim za poslednji interval koji je otvoren sa gornju stranu. Nakon očiavanja tablične vrijednosti određuju se vjerovatnoće da će slučajna promjenljiva imati vrijednost iz posmatranog intervala: -
Za prvi interval vjerovatnoća je jednaka tabličnoj vrijednosti;
-
Za sve intervale od 2 do 5, vjerovatnoća se dobija kao razlika između tablične vrijednosti u odnosu na gornju i donju granicu intervala;
-
Za poslednji, odnosno 6 interval vjerovatnoću određujemo tako što tabličnu vrijednost u odnosu na donju granicu oduzmemo od jedan.
Vjerovatnoća da se slučajna promjenljiva nađe u provm intervalu posmatrane statističke serije iznosi: P(– ∞ ≤ x ≤ 80) = (– ∞ ≤ Z ≤ – 1,61) = 0,0537
261
Vjerovarnoća da se slučajna promjenljiva nađe u drugom intervalu posmatrane statističke serije iznosi: P (80 ≤ x ≤ 84) = P (– 1,61 ≤ Z ≤ – 0,80) = 0,2119 – 0,0537 = 0,1582 Vjerovarnoća da se slučajna promjenljiva nađe u trećem intervalu posmatrane statističke serije iznosi: P (84 ≤ x ≤ 88) = P (– 0,80 ≤ Z ≤ 0,01) = 0,504 – 0,2119 = 0,2921 Vjerovarnoća da se slučajna promjenljiva nađe u četvrtom intervalu posmatrane statističke serije iznosi: P (88 ≤ x ≤ 92) = P (0,82 ≤ Z ≤ 1,63) = 0,9484 – 0,7939 = 0,1545 Vjerovarnoća da se slučajna promjenljiva nađe u šestom intervalu posmatrane statističke serije iznosi: P ( 92 ≤ x ≤ +∞) = P (Z > 1,63) = 1 – P(Z ≤ 1,63) = 1 – 0,9484 = 0,516 Očekivane frekvencije dobijaju se množenjem veličine uzorka i odgovarajućih vjerovatnoća pojedinih intervala. Postupak testiranja obuhvata sljedeće korake: 1. Formulisanje statističkih hipoteza: H0 : Distribucija utrošenog vremena u izradu proizvoda ima oblik normalne distribucije HA : Distribucija utrošenog vremena u izradu proizvoda nema oblik normalne distribucije 2. Postupak određivanja kritične vrijednosti, čime se određuju granice prihvatanja (ili neprihvatanja) statističkih hipoteza bazira se na izabranom nivou rizika (α = 0,1) i broju stepeni slobode, koji iznosi: k – g – 1 = 6 – 2 – 1 = 3. Kritična vrijednost za prihvatanje nulte hipoteze je: χ²0,10;3 = 6,251 3. Postupak izračunavanja testovne vrijednosti podrazumijeva primjenu sljedećeg obrasca: χ² = σୀଵ
ሺ ି כሻమ כ
= 1,268346
4. Postupak donošenja zaključka o ishodu testa izvodi se poređenjem očitane kritične (tablične) vrijednosti i testovne vrijednosti, pri čemu je testovna vrijednost (1,268346) manja od tablične (6,251) i pada u područje prihvatanja nulte hipoteze. Na nivou značajnosti 90% (uz rizik greške 10%) možemo prihvatiti pretpostavku da uzorak potiče iz osnovnog skupa koji se raspoređuje prema normalnoj distribuciji.
262
Primjer 4.27. Na jednom ispituje se zavisnost obrazovnog profila stanovnika i metode prevencije gripa. Na bazi slučajnog uzorka dobijeni su sljedeći rezultati: Školska sprema Metod prevencije gripa ispitanika Vakcina Pomoćna Osnovna škola Srednja škola Viša škola Visoka škola Magistar ili doktor nauka Ukupno (6)
Ukupno (6) Ništa od navedenog
5 2 9 16 4
Pomoćna ljekovita sredstva ljekovita sredstva (farmakološka) (prirodna) 3 3 3 18 8 5 13 27 1 2
25 7 20 6 3
36 30 42 62 10
36
28
61
180
55
Tabela 118. Distribucija ispitanika prema obrazovnom profile I metodu prevencije gripa
Potrebno je na nivou značajnosti 90% testirati pretpostavku da je metod prevencije gripa nezavisan od obrazovnog profila. Rješenje: Za provođenje χ² - testa neophodno je izračunati očekivanu vrijednost frekvencija osnovnog skupa, što je moguće prikazati u sljedećoj tabeli: Školska ispitanika
sprema Metod prevencije gripa Vakcina Pomoćna ljekovita sredstva (farmakološka) Osnovna f1j 5 3 škola f1j* 7,2 5,6 Srednja f2j 2 3 škola f2j* 6 4,67 Viša škola f3j 9 8 f3j* 8,4 6,53 Visoka f4j 16 13 škola f4j* 12,4 9,64 Magistar f5j 4 1 * ili doktor f5j 2 1,56 nauka 36 28 Ukupno (6)
Ukupno (6) Pomoćna ljekovita sredstva (prirodna) 3 11 18 9,17 5 12,83 27 18,94 2 3,06
Ništa od navedenog 25 12,2 7 10,17 20 14,23 6 21,01 3 3,39
36
55
61
180
3022 42 62 10
Tabela 119. Radna tabela – očekivane vrijednosti frekvencija osnovnog skupa 22
Očekivane vrijednosti frekvencija navedene u tabeli su zaokružene izračunate vrijednosti, tako npr. 6 + 4,67 + 9,17 + 10,17 = 30,01; ali su poslednje tri vrijednosti periodični brojevi čija vrijednost je adekvatno zaokružena.
263
Postupak testiranja obuhvata sljedeće korake: 1. Formulisanje statističkih hipoteza: H0 : pij = pi pj, i,j, (i,j); i = 1, 2, 3, 4, 5; j = 1, 2, 3, 4 HA : pij ≠ pi pj, i = 1, 2, 3, 4, 5; j = 1, 2, 3, 4 2. Postupak određivanja kritične vrijednosti, čime se određuju granice prihvatanja (ili neprihvatanja) statističkih hipoteza bazira se na izabranom nivou pouzdanosti (1 – α = 0,95 α = 0,05) i broju stepeni slobode, koji iznosi: (5 – 1)(4 – 1) = 4*3 =12. Kritična vrijednost za prihvatanje nulte hipoteze je: χ²0,05;12 = 21,026. 3. Postupak izračunavanja testovne vrijednosti podrazumijeva primjenu sljedećeg obrasca: χ² = σୀଵ σୀଵ
כమ ሺೕ ିೕ ሻ כ ೕ
= 60,35
Elenenti potrebni za izačunavanje testovne vrijednosti mogu se prikazati u sljedećoj tabeli: Naziv elementa
Vrijednost elementa
(f1j – f1j*)
Ukupno:6
-2,20
-2,60
-8,00
12,80
0,00
*
-4,00
-1,67
8,83
-3,17
0,00
*
0,60
1,47
-7,83
5,77
0,00
*
3,60
3,36
8,06
-15,01
0,00
2,00
-0,56
-1,06
-0,39
0,00
(f2j – f2j ) (f3j – f3j ) (f4j – f4j ) *
(f5j – f5j ) *
Ukupno: 6 (fij – fij )
0,00
0,00
0,00
0,00
0,00
* 2
*
0,67
1,21
5,82
13,43
21,13
* 2
*
2,67
0,60
8,51
0,99
12,76
* 2
*
0,04
0,33
4,78
2,34
7,49
* 2
*
1,05
1,17
3,43
10,72
16,36
* 2
*
2,00
0,20
0,36
0,04
2,61
6,43
3,50
22,90
27,52
60,35
(f1j – f1j ) /f1j (f2j – f2j ) /f2j (f3j – f3j ) /f3j (f4j – f4j ) /f4j (f5j – f5j ) /f5j
* 2
Ukupno: 6 (fij – fij )
/fij2
Tabela 120. Radna tabela – elementi za izračunavanje testovne vrijednosti χ² - testa
4. Postupak donošenja zaključka o ishodu testa izvodi se poređenjem očitane kritične (tablične) vrijednosti i testovne vrijednosti, pri čemu je testovna vrijednost (60,35) veća od tablične (21,026) i pada u područje prihvatanja nulte hipoteze. Na nivou značajnosti 95% (uz rizik
264
greške 5%) ne možemo prihvatiti pretpostavku da je metod prevencije gripa nezavisan od obrazovnog profila ispitanika. 4.3.6.
Test Kolmogorov – Smirnova
Pored χ² - testa za poređenje empirijskih distribucija sa teorijskim distribucijama poznatih svojstava. Test Kolomogogorov – Smirnova koristi se u svrhu aproksimacije empirijske distribucije distribucijom poznatih svojstava. Riječ je o neparametarskom testu o obliku funkcije distribucije neprekidne slučajne promjenljive, pri čemu je distribucija osnovnog skupa nepoznata. Pretpostavka sadržana u nultoj hipotezi pretpostavlja da funkcija distribucija vjerovatnoće ima oblik F0(x), dok je sadržaj alternativne hipoteze suprotan nulte (da funkcija distribucije vjerovatnoće nema oblik F0(x)). Iz osnovnog skupa bira se slučajan uzorak od n članova, za koje se utvrđuje funkcija distribucije vjerovatnoće ܨ ሺݔሻ. Ukoliko su empirijska funkcija distribucije i pretpostavljena funkcija distribucije jednake, razlike među njima ne bi terbale biti značajne, već bi njihove vrijednosti bile posljedice faktorske varijanse. Postupak testiranja obuhvata sljedeće korake: 1. Formulisanje statističkih hipoteza: H0 : F0(x) = ܨ ሺݔሻ, x HA : F0(x) = ܨ ሺݔሻ, x 2. Postupak određivanja kritične vrijednosti, čime se određuju granice prihvatanja (ili neprihvatanja) statističkih hipoteza na bazi izabranog nivoa značajnosti (1 – α), odnosno rizika (α), pri čemu je oblast prihvatanja nulte hipoteze Dα < D Test Kolmogorov – Smirnova bazira se na definisanom obliku distribucije sa poznatim parametrima. Ukoliko parametri distribucije nisu poznati, test se primjenjuje u modifikovanom obliku koji je poznat pod nazivom test Lilliienforsa. 3. Postupak izračunavanja testovne vrijednosti podrazumijeva primjenu sljedećeg obrasca: D = max {D1, D2} Gdje su:
265
D1 – prva (prethodna) testovna veličina dobija se kao najveća apsolutna razlika između vrijednosti empirijske i teorijske funkcije distribucije. Vrijednost izračunavamo pomoću obrasca: D1 = max | ܨ ሺݔ ሻ – F0(xi) |; D2 – druga (pomoćna) testovna veličina dobija se kao najveća apsolutna razlika između vrijednosti prethodne empirijske i teorijske funkcije distribucije. Vrijednost izračunavamo pomoću obrasca: D2 = max | ܨ ሺݔିଵ ሻ - F0(xi)|, pri čemu se uzima ܨ ሺݔ ሻ = 0, i = 1, 2, ... , r Pri čemu je r – broj različitih vrijednosti slučajne promjenljive. 4. Postupak donošenja zaključka o ishodu testa izvodi se poređenjem očitane kritične (tablične) vrijednosti i testovne vrijednosti kao što je navedeno u tački 2. ili poređenjem empirijskog i teorijskog nivoa povjerenja. Primjer 4.28. U slučajan uzorak izabrano je 20 sportista za koje je testirano vrijeme potrebno da se istrči staza dužine 100m, zabilježene vrijednosti mogu se prikazati u sljedećoj tabeli: Potrebno
10,3
15
17,7
16,3
18,7
vrijeme da se
12,2
17,4
13
16,1
10,8
pretrči 100m
17,4
12
15,2
14,3
15,2
(s)
14,4
10,3
17,2
17,1
18,9
Tabela 121. Vrijednosti postignutog vremena ispitanika prilikom trčanja na 100m u sekundama
Potrebno je ispitati može li se prihvatiti pretpostavka da je distribucija postignutog vremena prilikom trčanja na 100 m normalnog oblika sa aritmetičkom sredinom 14 I standardnom devijacijom 3? Testiranje izvršiti na nivou rizika 5% I prilikom testiranja koristiti test Kolmogorov – Smirnova.
266
Rješenje: Izračunavanje elemenata poterbnih za provođenje Kolmogorov – Smirnovog testa mogu se prikazati u sljedećoj tabeli: Vrijednost
Frek-
Empirijska
Standardizovane
Teorijska
Apsolutne
promjenljive
ven-
funkcija
vrijednosti x – a
funkcija
distribucije (empirijske I teorijske)
x u uzorku
cija
distribucije
xi
fi
ܨ ሺݔ ሻ
razlike
funkcije
distribucije ݖൌ
ݔ െ ͳͶ ͵
|ܨ ሺݔ ሻ –F0(xi)|
F0(xi)
|ܨ ሺݔିଵ ሻ
–
F0(xi)|
10,3
2
0,10
-1,23
0,1093
0,0093
0,1093
10,8
1
0,15
-1,07
0,1423
0,0077
0,0423
12
1
0,20
-0,67
0,2514
0,0514
0,1014
12,2
1
0,25
-0,60
0,2743
0,0243
0,0743
13
1
0,30
-0,33
0,3707
0,0707
0,1207
14,3
1
0,35
0,10
0,5398
0,1898
0,2398
14,4
1
0,40
0,13
0,5517
0,1517
0,2017
15
1
0,45
0,33
0,6293
0,1793
0,2293
15,2
2
0,55
0,40
0,6554
0,1054
0,2054
16,1
1
0,60
0,70
0,758
0,158
0,208
16,3
1
0,65
0,77
0,7794
0,1294
0,1794
17,1
1
0,70
1,03
0,8485
0,1485
0,1985
17,2
1
0,75
1,07
0,8377
0,0877
0,1377
17,4
2
0,85
1,13
0,8708
0,0208
0,1208
17,7
1
0,90
1,23
0,8907
0,0093
0,0407
18,7
1
0,95
1,57
0,9418
0,0082
0,0418
18,9
1
1,00
1,63
0,9484
0,0516
0,0016
0,1898
0,2398
Ukupno:
20 Vrijednost najveće razlike:
Tabela 122. Radna tabela – elementi za provođenje Kolomogorov – Smirnova
Postupak testiranja provodi se pomoću sljedećih koraka: 1. Formulisanje statističkih hipoteza: H0 : F0(x) = ܨ ሺݔሻ, x HA : F0(x) = ܨ ሺݔሻ, x Gdje je F0(xi) kumulativna funkcija normalne distribucije sa parametrima μ = 14, σ = 3. 267
2. Postupak određivanja kritične (testovne) vrijednosti uz rizik greške α = 0,05 ima vrijednost: D0,05 = 0,294 3. Postupak izračunavanja testovne vrijednosti podrazumijeva primjenu sljedećeg obrasca: D = max {D1, D2} = max {0,1898; 0,2398} Gdje su: D1 = max | ܨ ሺݔ ሻ – F0(xi) | = 0,1898 D2 = max | ܨ ሺݔିଵ ሻ - F0(xi)| = 0,2398 4. Postupak donošenja zaključka o ishodu testa izvodi se poređenjem očitane kritične (tablične) vrijednosti i testovne vrijednosti kao što je navedeno u tački 2, pri čemu je tablična vrijednost veća od testovne (0,294 > 0,2398) tako da prihvatamo nultu hipotezu. Dakle, opravdano je izvesti zaključak da kako je moguće da uzorak sportista potiče iz osnovnog skupa postignutog vremena postignutog pri trčanju na 100 metara koji je normalno raspoređen sa prosječnim postignutim vremenom 14 s i prosječnim odstupanjem 3 s. 4.3.7.
Kuskal – Wallisov i Friedmanov test – analiza varijanse na bazi rang promjenljivih
Jednofaktorska i dvofaktorska analiza varijanse bazirana na vrijednostima kvantitativnih statističkih promjenljivih za koje se pretpostavlja da su normalno raspoređene provodi se pomoću F – testa. Postoje slučajevi kada je potrebno izvršiti analizu varijanse na bazi rang promjenljivih, pri čemu su promjenljive ili izvorno rang promjenljive ili se radi o kvantitativim promjenljivim pretvorenim u rang promjenljive. Analiza varijanse provodi se neparametarskim metodama, što je od posebnog značaja kada kantitativne promjenljive nisu noramalno raspoređene. U zavisnosti od broja faktora uključenih u analizu varijanse, primjenjuju se: -
Kruskal – Wallisov – kod jednofaktorske analize varijanse i
-
Friedmanov test – kod dvofaktorske analize varijanse.
Osnovne karakteristike neparametarskog Kruskal - Wallisovog testa su: -
Izabrani su slučajni i nezavisni uzorci iz K osnovnih skupova, ili je riječ o potpuno slučano dizajniranom slučajnom eksperimentu;
268
Osnovni skupovi su jednako raspoređeni;
-
Vrijednosti slučajne promjenljive mjerene su: rang, intervalnoj ili numeričkoj skali, pri čemu se izmjerene numeričke veličine prevode u određeni rang oblik;
-
Testira se pretpostavka da su uzorci izabrani iz jednako raspoređenih osnovnih skupova.
Pretpostavimo da imamo K uzoraka veličine n1, n2, ... , nj, ... , nk, uzetih iz osnovnog skupa ili K vrijednosti tretiranih faktora, pri čemu je ukupan broj vrijednosti (broj podataka) n = n1 + n2 + ... + nj +... + nk. Potrebno je sve podatke uzeti kao cjelinu (uzima se svih n podataka) i izvršiti njihovo rangiranje, pri čemu je najmanji rang 1, a najveći n. Ukoliko se desi da dva ili više vrijednosti slučajne promjenljive budu isti svakoj se pridružuje prosječni rang. Vezani rangovi odnose se na promjenljive koje imaju istu vrijednost ranga. U postupku rangiranja podaci u uzorcima ostaju u istim uzorcima, ne mijenjaju položaj. Postupak testiranja obuhvata sljedeće korake: 1. Formulisanje statističkih hipoteza: H0 : η1 = η2 = ... = ηj = ... = ηK = η HA : ηj ≠ η, j =1, 2, ... , K 2. Postupak određivanja kritične vrijednosti, čime se određuju granice prihvatanja (ili neprihvatanja) statističkih hipoteza na bazi izabranog nivoa značajnosti (1 – α), odnosno rizika (α), ima vrijednost Hα. Oblast prihvatanja nulte hipoteze je Hα > H. Ukoliko se analiza provodi na bazi 4 ili više uzoraka koji broje više od 5 vrijednosti (nj > 5, j), testovna veličina je približno χ² - oblika sa K – 1 – nim stepenom slobode, tako da se nulta hipoteza prihvata ukoliko je χ²α;K-1 > H 3. Postupak izračunavanja testovne vrijednosti podrazumijeva primjenu sljedećeg obrasca: ܪൌ
ଵ
ோೕమ
జ
ೕ
మ ൬σୀଵ
െ ሺ݊ ͳሻଶ ൰ , ସ
Gdje su: Rj – zbir vrijednosti rangova u j – tom uzorku; υ – broj stepeni slobode čija vrijednost iznosi: υ =
ଵ ିଵ
ೖ ቀσୀଵ σୀଵ ݎሺݔ ሻଶ െ ሺ݊ ͳሻଶ ቁ,
ସ
pri čemu je r(xij) – vrijednost ranga i – te promjenljive iz j – tog uzorka. Ukoliko ne postoje vezani rangovi ili je njihov broj zanemariv, ima vrijednost υ = n(n+1)/12, a time testovna veličina postaje:
ܴଶ ͳʹ െ ͵ሺ݊ ͳሻ ܪൌ ݊ ݊ሺ݊ ͳሻ ୀଵ
269
4. Postupak donošenja zaključka o ishodu testa izvodi se poređenjem očitane kritične (tablične) vrijednosti i testovne vrijednosti kao što je navedeno u tački 2. ili poređenjem empirijskog i teorijskog nivoa povjerenja. Neparametarski Friedmanov test srodan je F testu kojim se vrši dvofaktorska analiza varijanse. Podaci, na kojima se provodi Friedmanov test, odnose se na efekte K tretmana (K modaliteta faktora) i predstavljaju se u dvodimenzionalnoj tabeli s I redova i K kolona. Pretpostavke za provođenje Friedmanovog testa su: -
Da se izabere slučajni uzorak, kod koga se jedinice razvrstavaju prema odabranom kriteriju tako da njihove homogene grupe čine blokove. Broj grupa prvog faktora je K – broj kolona u tabeli, a broj grupa I – broj redova u tabeli, tako da je ukupan broj podataka n = KI;
-
Vrijednosti slučajne promjenljive mjerene su: rang, intervalnoj ili numeričkoj skali, pri čemu se izmjerene numeričke veličine prevode u određeni rang oblik;
-
Testira se pretpostavka da su uzorci izabrani iz jednako raspoređenih osnovnih skupova, odnosno da su medijane osnovnih skupova jednake.
Potrebno je izvršiti rangiranje podataka po redovima tabele kontigencije, pri čemu je najmanji rang 1 a najveći K. Ukoliko se desi da dva ili više vrijednosti slučajne promjenljive budu isti svakoj se pridružuje prosječni rang. Vezani rangovi odnose se na promjenljive koje imaju istu vrijednost ranga. U postupku rangiranja podaci u uzorcima ostaju u istim uzorcima, ne mijenjaju položaj. Postupak testiranja obuhvata sljedeće korake: 1. Formulisanje statističkih hipoteza: H0 : Osnovni skupovi su jednako raspoređeni ili posmatrani tretmani imaju iste efekte HA : Osnovni skupovi nisu jednako raspoređeni ili posmatrani tretmani nemaju iste efekte 2. Postupak određivanja kritične vrijednosti, čime se određuju granice prihvatanja (ili neprihvatanja) statističkih hipoteza na bazi izabranog nivoa značajnosti (1 – α), odnosno rizika (α), ima vrijednost Fα. Oblast prihvatanja nulte hipoteze je Fα > F. Ukoliko se analiza provodi na bazi dovoljno velikog broja faktora i blokova, testovna veličina je približno χ² - oblika sa K – 1 – nim stepenom slobode, tako da se nulta hipoteza prihvata ukoliko je χ²α;K-1 > F 3. Postupak izračunavanja testovne vrijednosti podrazumijeva primjenu sljedećeg obrasca: 270
ܴଶ ͳʹ ܨൌ െ ͵ ή ܫሺ ܭ ͳሻ ܫή ܭሺ ܭ ͳሻ ݊ ୀଵ
Gdje je: Rj – zbir vrijednosti rangova j – tog tretmana, odnosno zbir vrijednosti rangova po kolonama. 4. Postupak donošenja zaključka o ishodu testa izvodi se poređenjem očitane kritične (tablične) vrijednosti i testovne vrijednosti kao što je navedeno u tački 2. ili poređenjem empirijskog i teorijskog nivoa povjerenja. Primjer 4.29. Ispituje se učinkovitost antibiotika na određenu bakterijsku infekciju, pri čemu su izabrane tri grupe pacijenata koji su uzimali tri vrste antibiotika. Svakodnevno su analizirani efekti liječenja u smislu svakodnevnog praćenja prisustva bakterije u organizmu pacijenta. Broj dana potrebnih za eliminaciju bakterijske infekcije kod pacijenata predstavlja efikasnost aplikacije odgovarajuće vrste antibiotika. Slučajni uzorci daju sljedeće rezultate: Broj dana potrebnih za eliminaciju bakterijske infekcije pacijenata Eritromicin
Baktrim
Hemomicin
21
16
15
19
18
9
13
10
17
23
24
13 Tabela 123. Rezultati aplikacije antibiotika na određenu bakterijsku infekciju
Potrebno je ispitati pretpostavku da ne postoji značajna razlika u efikasnosti liječenja posmatrane bakterijske infekcije navedenim vrstama antibiotika. Ispitivanje vršiti uz nivo pouzdanosti 95% i korištenjem Kuskal – Wallisovog testa. Rješenje: Utvrđivanje elementa za provođenje Kuskal – Wallisovog testa može se prikazati u sljedećoj tabeli: Broj dana potrebnih za eliminaciju bakterijske infekcije pacijenata Eritromicin
Baktrim
Hemomicin 271
21(10)
16 (6)
15 (5)
19 (9)
18 (8)
9 (1)
13 (3,5)
10 (2)
17 (7)
23 (11)
24 (12)
13 (3,5) Zbir rangova Tj
(22,5)
(30,5)
(25)
nj
3
5
4
Tabela 124. Radna tabela – elementi za provođenje Kuskal – Wallisovog testa
Postupak rangiranja statističkih promjenljivih podrazumijeva: -
Određivanje broja podataka obuhvaćenih analizom, a to je zbir broja članova svih uzoraka, odnosno n = n1 + n2 + n3 = 3+ 5 + 4 = 12;
-
Uređenje svih podataka prema vrijednosti statističkog obilježja, što je u posmatranom slučaju: 9, 10, 13, 13, 15, 16, 17, 18, 19, 21, 23, 24;
-
Dodjeljivanje ranga promjenljivim, pri čemu se promjenljivoj sa najmanjom vrijednošću dodjeljuje se rang jedan, i tako redom do promjenljive sa najvećom vrijednosšću kojoj dodjeljujemo rang 12 tj.r(9) = 1, r(10) = 2, ... , r(24) = 12. Vezani rang odnosi se na promjenljivu 13, koja se javlja dva puta na trećem i četvrtom mjestu u statističkoj seriji i njen rang je jednak poluzbiru tih rangova, tj.r(13) = (3+4)/2 = 3,5;
-
Vrijednosti ranga pojedinih statističkih promjenljivih unose se u tabelu kontigencije uz vrijednost promjenljive, u prethodnoj tabeli navedeni su u zagradi () uz vrijednost statističke promjenljive.
Postupak testiranja obuhvata sljedeće korake: 1. Formulisanje statističkih hipoteza: H0 : η1 = η2 = η3 = η HA : ηj ≠ η, j =1, 2, 3 2. Postupak određivanja kritične vrijednosti, čime se određuju granice prihvatanja (ili neprihvatanja) statističkih hipoteza na bazi izabranog nivoa značajnosti (1 – α) = 0,95 α = 1 – 0,95 = 0,05 H0,05 = 5,63. Oblast prihvatanja nulte hipoteze je Hα = 5,63 > H. 3. Postupak izračunavanja testovne vrijednosti podrazumijeva primjenu dole navedenog obrasca, kojim se uvrštavanjem konkretnih vrijednosti dobija:
272
ܪൌ
ܴଶ ͳʹ ͳʹ ʹʹǡͷଶ ͵Ͳǡͷଶ ʹͲଶ െ ͵ሺ݊ ͳሻ ൌ ቈ െ ͵ ή ͳ͵ ൌ Ͳǡ͵ͳʹ ݊ሺ݊ ͳሻ ͳʹ ή ͳ͵ ͵ ݊ ͷ Ͷ ୀଵ
4. Postupak donošenja zaključka o ishodu testa izvodi se poređenjem očitane kritične (tablične) vrijednosti i testovne vrijednosti pri čemu je lako uočiti da je tablična vrijednost Hα = 5,63, veća od testovne H = 0,312, tj. 5,63 > 0,312, što spada u oblast prihvatanja nulte hipoteze. Odluka je sljedeća: sa pouzdanošću 95% zaključujemo da ne postoji značajna razlika u efikasnosti liječenja posmatrane bakterijske infekcije navedenim antibioticima. Primjer 4.30. Analizirana je izdržljivost dijela „D“ kod putničkih automobila, pri čemu su prikupljeni podaci o broju pređenih kilometara nakon ugradnje dijela kod putničkih vozila marke „Golf“, „Opel“, „Seat“, „Ford“ i „Mazda“, od četiri različita proizvođača A, B, C i D. Rezultati ispitivanja su sljedeći: Marke automobila
Proizvođači dijela „D“ A
B
C
D
Golf
109056
144215
142911
201257
Opel
315452
355343
179012
221355
Seat
152919
172269
203633
186353
Ford
203002
226242
153844
137276
Mazda
104030
134852
96873
107101
Tabela 125. Podaci o pređenoj kilometraži automobile sa ugrađenim dijelom “D” od različitih proizvođača
Potrebno je ispitati pretpostavku da ne postoji razlika u izdržljivosti dijela „D“ kod različitih proizvođača. Testirati uz rizik greške 5% i primjenom Friedmanovog testa. Rješenje: Prikupljeni podaci su numerički pa ih je potrebno rangirati kako bi se odredila testovna vrijednost neophodna za provođenje Friedmanovog testa, što se može prikazati u sljedećoj tabeli:
273
Marke automobila
Proizvođači dijela „D“ A
B
C
D
Golf
109056 (1)
144215 (3)
142911 (2)
201257 (4)
Opel
315452 (3)
355343 (4)
179012 (1)
221355 (2)
Seat
152919 (1)
172269 (2)
203633 (4)
186353 (3)
Ford
203002 (3)
226242 (4)
153844 (2)
137276 (1)
Mazda
104030 (2)
134852 (4)
96873 (1)
107101 (3)
10
17
10
13
Zbir rangova Rj
Tabela 126. Radna tabela – određivanje zbirnog ranga za potrebe provođenja Friedmanovog testa
Rang pojedinih statističkih promjenljivih određuju se po redovima tabele kontigencije, pri čemu je kod putničkog vozila marke „Golf“ rezevni dio „D“ trajao 109056 km – proizveden kod proizvođača „A“; 144215 km – proizveden kod proizvođača „B“; 142911 km proizveden kod proizvođača „C“ i 201257 km – proizveden kod proizvođača „D“. Najmanja vrijednost je 109056 tako da je njen rang 1, tj.r(x11) = 1, sljedeća po veličini je vrijednost 142911 stoga je njen rang 2, tj.r(x13) = 2, nakon toga dolazi vrijednost 144215 stoga je njen rang 3, tj.r(x12) = 3, najveća vrijednost iznosi 201257 stoga je njen rang 4, tj.r(x14) = 4. Analogno navedenom određuje se rang ostalih promjenljivih, na kraju u zbirnoj koloni se vrijednosti pojedinih rangova sabiraju po kolonama, tako imamo da je R1 = r(x11) + r(x21) + r(x31) + r(x41) + r(x51) = 1 + 3 + 1 + 3 + 2 = 10. Postupak statističkog testiranja podrazumijeva sljedeće korake: 1. Formulisanje statističkih hipoteza: H0 : Osnovni skupovi su jednako raspoređeni HA : Osnovni skupovi nisu jednako raspoređeni 2. Postupak određivanja kritične vrijednosti, čime se određuju granice prihvatanja (ili neprihvatanja) statističkih hipoteza na bazi izabranog rizika greške α = 0,05 i za I = 5 i K = 4, ima vrijednost Fα =7,80. Oblast prihvatanja nulte hipoteze je Fα 7,80 > F. 3. Postupak izračunavanja testovne vrijednosti podrazumijeva primjenu sljedećeg obrasca:
ܴଶ ͳʹ െ ͵ ή ܫሺ ܭ ͳሻ ܨൌ ݊ ܫή ܭሺ ܭ ͳሻ ୀଵ
Pri čemu se u konkretnom slučaju dobija: 274
ܨൌቂ
ଵଶ ହήସήହ
ሺͳͲଶ ͳଶ ͳͲଶ ͳ͵ଶ ሻቃ െ ͵ ή ͷ ή ͷ = 3,96
4. Postupak donošenja zaključka o ishodu testa izvodi se poređenjem očitane kritične (tablične) vrijednosti i testovne vrijednosti. Rezultati provedenog postupka testiranja pokazuju da je tablična vrijednost veća od testovne, odnosno vrijedi da je 7,80 > 3,96, tako da se prihvata nulta hipoteza. Sa rizikom greške 5 % možemo zaključiti da ne postoji značajna razlika u trajanju rezervnog dijela „D“ kod različitih proizvođača. Testiranje navedenih hipoteza moguće je i upotrebom χ² - testa, njegova primjena razlikuje se jedino u očitavanju tablične vrijednosti. -
Tablična vrijednost χ² - testa određena je izabranim rizikom i brojem stepeni slobode, tako da imamo da je α = 0,05 i υ = K – 1 = 4 – 1 = 3 χ²0,05;3 = 7,71 – kritična vrijednost za prihvatanje nulte hipoteze jeste da testovna vrijednost bude manja od tablične, tj.ukoliko je F > 7,71 opravdano je prihvatiti nultu hipotezu;
-
Testovna vrijednost se izračunava na isti način bilo da se odluka o ishodu testa bazira na Friedmanovom ili Hi kvadrat testu, njezina vrijednost iznosi 3,96, tj. F = 3,96;
-
Primjena Hi – kvadrat testa podrazumijeva, takođe, poređenje tablične i testovne vrijednosti kao osnovu za donošenje zaključaka o ishodu testa. Primjenom Hi – kvadrat testa prethodni zaključak o ishodu se potvrđuje jer je 7,71 > 3,96. Sa rizikom greške 5%;
- Odluku o ishodu testa moguće je donijeti i poređenjem teorijske i empirijske vrijednosti nivoa povjerenja imajući u vidu da je teorijska p – vrijednost 5%; dok je njegova empirijska vrijednost 0,348 dobili smo dodatnu potvrdu prethodnih zaključaka. Zaključak o ishodu provedenog testa jeste da ishod testa nije uslovljen primijenjenom metodom izođenja zaključaka. Dakle, provedenim postupkom testiranja možemo izvesti zaključak da se izdržljivost rezervnog dijela „D“ značajno ne razlikuje kod posmatranih proizvođača, zaključak je izveden uz 5% rizika.
275
Zadaci: 4.31. U proizvodnji proizvoda „P“ zabilježeni su podaci o vremenu utrošenom u izradu proizvoda (vrijeme je izraženo u minutama po jednom proizvodu), na uzorku od 72 proizvoda, što je iznosilo: 34
23
20
23
31
30
35
37
39
27
17
32
29
18
37
29
20
31
38
41
41
17
29
37
24
29
39
18
40
36
27
32
20
36
26
39
40
29
22
34
27
38
21
40
37
37
34
37
29
23
27
25
18
25
39
34
33
26
36
37
27
20
34
21
21
41
33
40
26
17
Uzorak je izabran iz konačnog osnovnog skupa pri čemu je stopa izbora manja od 5%. Potrebno je: a.
Ocijeniti prosječnu dužinu izrade proizvoda „P“ tačkastom i intervalnom ocjenom uz pouzdanost od 89% i 95%!
b.
Ukoliko se u toku mjeseca proizvede 5.800 proizvoda, koliko je potrebno mjesečno angažovanje proizvodnih radnika sa pouzdanošću 94%? (pretpostavlja se da jedan radnik radi 150 sati mjesečno)
4.32.
Zdravstvena ustanova „Z“ je u toku poslovne godine injekcijama penicilinom liječila 5550, od kojih je u slučajan uzorak izabrano njih 46, sa ukupnim utroškom od 125,4 M i.j. Standardna devijacija osnovnog skupa nije poznata, a varijansa uzorka iznosi 42 M i.j. Sa rizikom greške 7 % ocijeniti: a. Interval povjerenja prosječne vrijednosti utroška injekcija penicilina po pacijentu u posmatranoj godini; b. Interval povjerenja ukupne količine utroška injekcija penicilina u posmatranoj godini.
276
4.33.
Preduzeće za proizvodnju električnih uređaja ocjenjuje duzina trajanje rezervnog dijela „D“, koliko uređaja je potrebno testirati kako bi se sa pouzdanošću 93%, ocijenila dužina trajanja rezervnog dijela sa greškom od najviše ± 70,8 sati rada? Pretpostavlja se da je varijansa osnovnog skupa 1270 metara, kao i da je stopa izbora uređaja u uzorak manja od 5% ukupne proizvodnje.
4.34.
Polazeći od podataka iz primjera 4.30. ocijeniti udio (procent učešća) proizvoda za čiju izradu se utroši ispod 27 minuta vremena. Ocjenu izvesti uz pouzdanost 84 %.
4.35.
U periodu od godinu dana, zdravstvena ustanova „Z“ liječila je 835 pacijenata od određene bakterijske infekcije, u uzorak je izabrano 243 pacijenta pri čemu kod njih 98 antibiotici nisu imali efikasan rezultat. Potrebno je ocijeniti interval povjerenja procenta učešća pacijenata kod kojih aplicirani antibiotici nisu imali efikasan rezultat, ocjenu vršiti sa rizikom greške 11%.
4.36.
Određena politička partija analizira procent učešća glasačkog tijela na čiju naklonost može računati na narednim izborima. Ukupno glasačko tijelo čini 500488 birača, planirana varijansa osnovnog skupa iznosi 17% (0,17). Potrebno je odrediti veličinu uzorka kako bi sa pouzdanočću 89 % ocijenili udio biračkog tijela naklonjenog posmatranoj političkoj partiji pri čemu se toleriše odstupanje ± 0,04 (± 4%).
4.37.
Poljoprivredno gazdinstvo uzgaja jabuku sorte „X“ pri čemu je iz osnovnog skupa nepoznate veličine slučajnim izborom potrebno izabrati određen broj sadnica kako bi, sa rizikom greške 9 %, ocijenili procent učešća sadnica kod kojih je prinos veći od 98 kg. Planirana varijansa iznosi 19,6 kg, dok je prihvatljiva ocjena sa relativnim odstupanjem ± 4 %. Pretpostavlja se da izabrani uzorak možemo svrstati u kategoriju velikih uzoraka.
4.38.
Dva različita sportska kluba „A“ i „B“ provjeravaju učinkovitost različitih oblika fizičke aktivnosti na gubitak masnog tkiva u periodu od mjesec dana, pri čemu je iz ukupnog broja članova kluba u uzorak izabrano 44 člana sportskog kluba „A“ i 18 članova sportskog kluba „B“, pri čemu je zabiležen njihov gubitak masnog tkiva u kg. Kod sportskog kluba „A“
277
uzoračke realizacije su, u pogledu gubitka masnog tkiva članova, imale vrijednost, kako slijedi: 0,4
4,3
0,6
4,7
2,5
2,9
3,7
1,7
3,7
0,6
0,2
1,5
4,9
4
4,6
4
4,1
5
5
3,1
0,3
0
2,4
3,5
1
2,9
1,5
4
2,2
4,4
0,2
2,9
0
4,5
1
1,4
0,8
2,6
0,7
0
2,1
4,5
4,5
4,3
Kod sportskog kluba „B“ uzoračke realizacije su, u pogledu gubitka masnog tkiva članova, imale vrijednost, kako slijedi: 0,5
2,3
3,3
0,1
1,2
2,3
2,3
2,6
3,2
1,8
3,9
1,5
0,1
3,7
4,3
2,5
1,3
2,9
Potrebno je odrediti prosječno odstupanje od prosječnog gubitka masnog tkiva od prosječnog gubitka masnog tkiva sa pouzdanošću 95%, kod članova oba sportska kluba! 4.39.
Uzet je uzorak od 100 stanovnika da bi se ocijenio prosječan dnevni unos vitamina D. Ako se zna da je raspodjela stanovnika normalna sa standardnom devijacijom 7 nanograma, ocjeniti prosječan unos vitamina D sa pouzdanošću 95 %. Na osnovu dobijenih rezultata mjerenja prosječan dnevni unos vitamina D iznosi 998,96 ng.
4.40.
Prema prosječnoj mjesečnoj potrošnji kafe, slučajno je anketirano 50 domaćinstava jednog grada. Dobijeni rezultati su prikazani u tabeli: Mjesečna potrošnja kafe (kg)
0–2
2–4
4–6
6–8
8 i više
Broj domaćinstava
5
10
20
10
5
Tabela 127. Distribucija domaćinstava prema mjesečnoj potrošnji kave
Potrebno je: a) Ocijeniti prosječnu portošnju kafe po domaćinstvu uz pretpostavku da je raspored potrošnje kafe po domaćinstvu normalan i sa pouzdanošću od 93%.
278
b) Može li se sa pouzdanošću od 97% prihvatiti pretpostavka da domaćinstva u prosjeku troše 4,7 kg kafe mjesečno. 4.41.
Na osnovu uzorka od 50 osoba sa povišenim krvnim pritiskom ustanovljeno je da osobe koje su reovno uzimale supstancu X mjesec dana krvni pritisak snižen za prosječno 7,8 %. Ocijenjena je standardna devijacija osnovnog skupa i iznosi 1 %. Može li se prihvatiti hipoteza da uzimanje supstance X u periodu od mjesec dana kod osoba sa povišenim krvnim pritiskom smanjuje njegovu visinu za 8 %, uz vjerovatnoću 98 %.
4.42.
Uzet je uzorak od 49 boca soka da bi se ocijenila prosječna neto masa jedne boce cijele proizvodnje. Ako se zna da je raspodjela boca normalna sa standardnom devijacijom 6,6 grama, ocijeniti prosječnu neto masu boca soka sa pouzdanošću 92 %. Na osnovu dobijenih rezultata mjerenja prosječna neto masa boca soka iznosi 771 gram.
4.43.
Poljoprivredno gazdinstvo obavlja analizu prinosa malina zasijane na dvije parcele, pri čemu je sa svake parcele izabran slučajan uzorak kako bi se odredio prosječan prinos. Sa jedne parcele izabrano je 76 sadnica, a sa druge 21 sadnica. Podaci o prinosu pojedinih sadnica iznosili su: -
Na Parceli I:
11,4
10,1
13
10,7
13,5
13,7
12,9
12,9
16,4
13,1
17,9
13,6
13,2
16,8
16,5
13,3
11,8
10,8
15
13,1
11,9
12,9
10,7
12,7
12,8
16,7
15,4
12,8
13,8
10,7
13,8
12,9
12,9
15,5
16,5
15,6
15,3
13,8
11,8
15
11,2
10,9
11
15,5
12,3
14,7
12,4
10,2
10
13,4
11,7
10,7
11,9
11,3
11,3
16,8
16,9
15,5
11,9
15,4
11,7
12,3
11,9
15
14,8
15,3
13,2
11
15,6
11,3
14,4
10,4
14,5
12,9
10,4
12,6
-
Na Parceli II:
12,4 10,8 12,9 12,7 12,6 16,3 16,8 11,3 11,4 16,1 13,2
14 17,1 15,4
15 16,4 16,6 10,2 11,4 11,5 12,9
279
Prema standardu, prosječnan prinos po sadnici maline je 14,3 kg po sadnici sa prosječnim odstupanjem 3,7 kg. Može se uzeti da je distribucija sadnica malina prema prinosu normalno raspoređena sa parametrima koji odgovaraju staandardu. Potrebno je: a.
Testirati pretpostavku da sadnice malina ostvaruju prinos prema standardu! Testiranje vršiti uz rizik greške 10%.
b.
Prethodnu odluku donijeti i poređenjem empirijskog i teorijskog nivoa povjerenja.
c.
Testirati pretpostavku da je prinos na Parceli I iznad prosjeka, a na Parceli II ispod prosjeka! Testiranje vršiti, takođe uz rizik greške 10%.
d.
Kolika je vjerovatnoća da se prihvati nulta hipoteza da je prosječan prinos na Parceli I odgovara standardu ukoliko je izabran uzorak u kome je aritmetička sredina 10,5 kg? Testirati pretpostavku uz rizik greške 5%.
e.
Ukoliko je planom usvojen rizik odbacivanja istinite hipoteze 3%, koja je veličina uzorka za testiranje prosječnog prinosa u slučaju dvosmjernog testa?
4.44.
Polazeći od podataka u prethodnom primjeru potrebno je:
a. Sa rizikom 12% testirati pretpostavku da 70% sadnica ima prinos iznad standardizovanog! b. Sa pouzdanošću 91% testirati pretpostavku da udio sadnica sa prinosom između 13 i 15 kg nije veći od 10%! c. Istu odluku donijeti korištenjem empirijskog nivoa povjerenja! d. Kolika je vjerovatnoća Greške tipa II ukoliko je prilikom testiranja pretpostavke o udjelu sadnica sa prinosom iznad standardizovanog alternativni procent učešća 13%! e. Odrediti veličinu uzorka za testiranje pretpostavke pod b 4.45.
Kontrolom efikasnosti igre košarkaša pomoću slučajnog uzorka, dobijeni su sljedeći rezultati koji se odnose na broj postignutih poena po utakmici:
9 11 12 11 15 14 13
8 12 14
Pretpostavlja se da je distribucija proizvoda košarkaša prema broju postignutih poena po utakmici ima osobine normalne distribucije. Potrebno je testirati pretpostavku: a. Da varijansa osnovnog skupa iz kojeg je izabran uzorak veća od 10? b. Da je varijansa osnovnog skupa iz kojeg je izabran uzorak 12? Testiranje izvršiti uz rizik greške 10 %. 280
4.46.
Distribucija uzorka stanovnika jedne opštine prema visini mjesečnih primanja može se prikazati sljedećim tabelarnim prikazom:
Mjesečni troškovi
Do 500
Broj vozila
500 – 750 4
750 – 1000
48
1000 – 1250
32
Više od 1250
13
3
Tabela 128. Distribucija stanovnika prema visini mjesečnih primanja izraženih u KM
Uzorak je izabran iz osnovnog skupa veličine 304.014 zaposlenih stanovnika na posmatranom području. Potrebno je provjeriti može li se prihvatiti pretpostavka: a. Da varijansa osnovnog skupa iznosi 50.000, sa pouzdanošću 95%? b. Da varijansa osnovnog skupa nije manja od 44.000KM, sa rizikom greške 5%? 4.47.
Pomoću slučajnog uzorka ispituje se razlika u dužini trajanja biciklističkih guma dva proizvođača „P1“ i „P2“. Iz proizvodne serije proizvođača „P1“ izabrano je 80 biciklističkih guma, a iz proizvodne serije proizvođača „P2“ 30 biciklističkih guma i ustanovljeno je da je prosječno trajanje biciklističkih guma kod proizvođača „P1“ iznosi 5750 pređenih kilometara sa prosječnim odstupanjem 420 pređenih kilometara, dok je kod proizvođača „P2“ prosječno trajanje baterija iznosilo 5460 sati sa prosječnim odstupanjem 418 pređenih kilometara. Potrebno je ispitati pretpostavku da biciklističke gume proizvođača „P1“ i „P2“ nemaju
različito trajanje. Testiranje izvršiti uz rizik greške 10%! 4.48.
Na uzorku od 10 članova sportskog kluba ispitivane su razlike u izdržljivosti prije i poslije sistemske primjene kondicionih priprema i adekvatne ishrane, a sa pretpostavljenim učinkom poboljšanja sportske kondicije, rezultati su bili sljedeći: Ispitanik Vrijeme
1
2
3
4
5
6
7
8
9
10
Prije
125
114
124
128
114
132
115
114
127
112
Poslije
124
113
124
125
125
123
111
116
114
114
Tabela 129. Distribucija članova sportskog kluba prema vremenu postignutom prilikom trčanja na 800m prije I poslije kondicionih priprema
281
Potrebno je ispitati pretpostavku da se prosječan rezultat u trčanju na 800m nakon kondicionih priprema manji za barem 1,8 s u odnosu na prosječni nivo prije kondicionih priprema. Testiranje izvršiti uz rizik greške 10%. 4.49.
U dvije osnovne škole „A“ i „B“ izabrano je po 90 i 65 učenika u slučajni uzorak kako bi se ispitalo njihovo zdravstveno stanje – analizirana je stavka nivo Fe (željeza) u krvi. U školi „A“ učenici uzimaju uobičajenu užinu, dok u školi „B“ učenici uzimaju „Zdravu užinu“ namijenjenu sticanju zdravih prehrambenih navika i propisanu od strane tima nutricionista. Projekt „Zdrava užina“ primjenjivan je dvije školske godine, podaci o nivou Fe kod učenika prije primjene nisu poznati, a rezultati primjene pretpostavljaju da je rezultat projekta najmanje 17 % više učenika sa nivoom Fe u krvi nego u školi u kojoj se učenici hrane uobičajenom užinom. Testiranje izvršiti uz rizik greške 10%. Utvrđivanjem vrijednosti nivoa Fe u krvi kod izabranih učenika, od izabranih u školi „A“ 47 učenika ima „normalan nivo“ Fe u krvi, a u školi „B“ njih 28.
4.50.
U zdravstvenoj ustanovi „Z“ vrši testiranje rezultata učinka određenog antibiotika u funkciji eliminacije bakterijske infekcije u odnosu na vrijeme njegovog uzimanja, napravljene su dvije grupe ispitanika I i II, pri čemu su pacijenti I grupe uzimali lijek prije jela, a pacijenti II grupe uzimali su lijek poslije jela. Iz skupa pacijenata iz I i II grupe izabrani su nezavisni uzorci i dobijeni sljedeći rezultati o rezultatima labaratorijskih pretraga, labaratorijske pretrage podrazumijevaju prisustvo bakterije u 1 ml urina, nakon provedene terapije:
I grupa
246
661
861
523
511
669
237
510
940
235
359
II grupa
497
797
914
3
844
18
73
171
637
949
683
91
Pretpostavlja se da se pacijenti prema rezultatima liječenja ravnaju po normalnoj distribuciji. Potrebno je ispitati može li se: a. Sa pouzdanošću 95%, prihvatiti pretpostavka da je stepen variranja rezultata u prvoj grupi veći od variranja rezultata u drugoj smjeni? b. Sa rizikom greške 5%, prihvatiti pretpostavka da je se prosječan rezultat liječenja u prvoj grupi ne razlikuje od prosječnog rezultata u drugoj grupi? 4.51.
Tim eksperata poboljšanje efikasnosti rezultata učenja ispituju uticaj primijenjenog oblika priprema studenata za polaganje ispita, na grupe nezavisno izabranih studenata primijenjene su tri metode priprema za polaganje ispita Metode A, B i C, pri čemu su
282
nakon određenog peroda njihove primjene studenti prilikom polaganja ispita ostvarili sljedeći rezultat: Oblik priprema Student
Metoda A
Metoda B
Metoda C
1
82
77
67
2
86
80
67
3
60
91
78
4
82
82
71
5
91
76
82
6
85
84
62
7
78
84
87
8
76
79
89
9
84
84
Tabela 130. Rezlutati studenata – postignuti rezultat prilikom polaganja ispita – broj postignutih bodova od 100 mogućih
Potrebno je ispitati istinitost pretpostavke da metoda priprema za polaganje ispita nema uticaj na postignuti rezultat studenata prilikom polaganja ispita, testiranje je potrebno izvršiti uz rizik greške 10%! 4.52. Medijalno vrijeme izrade proizvoda u preduzeću „P“ iznosilo je 909 sekundi, analizom je ustanovljeno da je dužina obrade izrade determinisana produktivnošću proizvodnih radnika, tako da su radnici poslani na dodatnu obuku i stručno osposobljavanje. Nakon obavljene obuke i stručnog osposobljavanja zabilježeni su rezultati o utrošenom vremenu u izradu proizvoda u sekundama: 812 643 612 435 841 836 745 839 436 841 840 738 Potrebno je ispitati pretpostavku da li se medijalno vrijeme izrade proizvoda nakon obuke i stručnog osposobljavanja smanjilo? Zaključak izvesti uz pouzdanost 95%. 4.53.
Vrijednosti nivoa Fe u krvi, kod slučajnog uzorka sačinjenog od učenika jedne osnovne škole, iznosilo je:
8,6 6,5 20,5 8,7 13,7 8,5 7,2 9,4 4,3 17,5 6,8 6,3 8,7 283
Potrebno je ispitati pretpostavku da uzorak potiče iz osnovnog skupa kod koga je medijana 7. Pretpostavku ispitati uz rizik greške 5% koristeći: a. Wilcoxonov test ranga; b. Test predznaka. 4.54.
U slučajni uzorak izabrano je 30 ispitanika koji su imali zadatak da ocjene kvalitet šampona za kosu prizvođača A i B, pri čemu su ocjene od 1 – 5 (1 – ne zadovoljava; 2 – zadovoljava; 3 – dobar; 4 – vrlo dobar; 5 – odličan). Pretpostavlja se da naziv (marka) šampona uticaj nema percepciju kvaliteta šampona. Rezultati istraživanja su sljedeći:
Redni
broj Ocjena
ispitanika
Ocjena
Redni
kvaliteta
kvaliteta
proiz. „A“
proiz. „B“
broj Ocjena
ispitanika
Ocjena
kvaliteta
kvaliteta
proiz. „A“
proiz. „B“
1
4
5 16
4
1
2
5
1 17
1
4
3
4
4 18
5
4
4
3
1 19
4
4
5
3
5 20
1
5
6
4
4 21
3
1
7
5
1 22
3
3
8
4
3 23
5
1
9
3
1 24
3
5
10
4
4 25
4
4
11
5
3 26
4
4
12
5
2 27
1
2
13
4
1 28
1
2
14
2
2 29
3
3
15
4
4 30
4
2
Tabela 131. Percepcija kvaliteta šampona kod ispitanika u slučajnom uzorku
Potrebno je ispitati istinitost pretpostavke da li naziv proizvoda ima uticaj na percepciju njegovog kvaliteta? Primjeniti Wilcoxonov test uz rizik greške 5%.
284
4.55. Tim eksperata za prevenciju bolesti i poboljšanje zdravlja testiranjem ispituje pretpostavku da konzumiranje vitamina C iz prirodnih izvora uz odgovarajuću ishranu ima veću efikasnost na apsorpciju Fe iz hrane nego uzimanje farmakoloških oblika vitamina C. U svrhu toga uzeta su dva nezavisna uzorka pri čemu su ispitanci jedne grupe uzimali vitamin C iz prirodnih izvora, dok su ispitanici uzimali vitamin C u obliku farmakoloških proizvoda. Ispitanici su prije „tretmana“ imali približno isti nivo Fe u krvi i koristili su istu količinu vitamina C, kao i isti režim ishrane, nakon mjesec dana tretmana vrijednosti Fe u krvi kod ispitanika su imali sljedeće vrijednosti: Nivo Fe u krvi
Prirodni vit. C
12,5
4,9
10,8
8,4
5,3
8,6
Farmakološki vit. C
5,9
9,6
2,6
6,1
7,5
9,6
9,1
Tabela 132. Rezultati statističkog mjerenja – nivo Fe u krvi nakon terapije
Potrebno je ispitati pretpostavku da je medijalna vrijednost nivoa Fe u krvi ista kod obje grupe ispitanika. Testiranje izvršiti uz rizik greške 5 % korištenjem MWW – statističkog testa! 4.56.
Proizvodni proces proizvoda „P“ prati se pomoću kontrolne karte. Na kontrolnoj karti za prosječnu težinu proizvoda naznačena je vrijednost deklarisane težine proizvoda „P“, što iznosi: μ = 350 g, pri čemu su granice tolerancije േ 10g. Kontrolna karta se provodi pomoću uzorka veličine 5 proizvoda, koji se biraju u slučajno odabranim vremenskim intervalima. Podaci o vrijednostima težine proizvoda „P“ u pojedinim uzorcima mogu se prikazati u sljedećoj tabeli: Redni broj uzorka 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11.
Težina proizvoda „P“ u uzorku (izražena u g) 385 332 355 310 396 311 321 398 303 300 331
391 344 400 376 309 390 352 394 370 390 394
354 334 379 346 384 353 385 383 312 320 349
311 335 377 354 310 357 377 311 352 366 397
315 310 342 400 379 324 396 388 330 320 360 285
12. 13 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35.
382 362 329 328 362 318 387 399 308 323 366 339 320 344 385 396 335 340 373 331 382 362 329 328
344 348 340 384 302 332 378 318 343 367 368 389 397 309 353 346 311 395 365 394 344 348 340 384
302 312 311 302 397 376 380 357 375 306 342 375 374 374 383 307 334 354 372 349 302 312 311 302
373 329 356 395 375 355 332 396 324 382 302 336 307 346 347 400 356 390 387 397 373 329 356 395
385 306 333 392 346 373 376 347 370 306 387 393 380 328 306 392 397 361 357 360 385 306 333 392
Tabela 133. Podaci o težini proizvoda „P“
Potrebno je: a. Izračunati aritmetičke sredine pojedinih uzoraka; b. Nacrtati kontrolnu kartu za aritmetičku sredinu težine proizvoda „P“; c. Ispitati pretpostavku da odstupanja od aritmetičke sredine uzorka od pretpostavljene sredine imaju slučajan karakter, odnosno da je proizvodni proces pravilan. Ispitivanje obaviti pomoću testa homogenosti uz rizik greške 5%.
286
4.57.
Na jednom ispituje se zavisnost mjesta stanovanja ispitanika i metode prevencije gripa. Na bazi slučajnog uzorka dobijeni su sljedeći rezultati:
Školska sprema Metod prevencije gripa ispitanika Ruralno
Ukupno (6)
Vakcina
Pomoćna Pomoćna Ništa od ljekovita sredstva ljekovita sredstva navedenog (farmakološka) (prirodna)
2
2
7
19
30
2
27
2
5
36
12
6
16
8
42
8
26
24
4
62
1
1
6
2
10
25
62
55
38
180
područje Prigradsko područje Šire gradsko područje Uže gradsko područje Centar grada Ukupno (6)
Tabela 134. Distribucija ispitanika prema mjestu stanovanja I metodu prevencije gripa
Potrebno je na nivou značajnosti 90% testirati pretpostavku da je metod prevencije gripa nezavisan od mjesta stanovanja ispitanika. 4.58.
U slučajan uzorak izabrano je 20 sportista za koje je testirano vrijeme potrebno da se istrči staza dužine 800m, zabilježene vrijednosti mogu se prikazati u sljedećoj tabeli:
Potrebno
131
115
127
123
117
vrijeme da se
122
134
132
121
118
pretrči 100m
114
122
122
143
122
124
113
112
111
139
(s)
Tabela 135. Vrijednosti postignutog vremena ispitanika prilikom trčanja na 800m u sekundama
Potrebno je ispitati može li se prihvatiti pretpostavka da je distribucija postignutog vremena prilikom trčanja na 800 m normalnog oblika sa aritmetičkom sredinom 114 I standardnom devijacijom 4,5? Testiranje izvršiti na nivou rizika 5% I prilikom testiranja koristiti test Kolmogorov – Smirnova.
287
4.59.
Ispituje se učinkovitost metode pripreme prijemnog ispita prilikom upisa na fakultet, pri čemu su izabrane tri grupe ispitanika koji su prijemni ispit pripremali različitim metodama. Efikasnost metoda izražavamo brojem bodova ostvarenim na prijemnom ispitu od 100 mogućih. Slučajni uzorci daju sljedeće rezultate: Broj bodova ostvarenih na prijemnom ispitu
Metoda A
Metoda B
Metoda C
62
59
51
67
85
97
79
82
92
91
57
45 Tabela 136. Rezultati prijemnog ispita ispitanika u zavisnosti od primijenjene metode njegove pripreme
Potrebno je ispitati pretpostavku da ne postoji značajna razlika u rezultatima postignutim na prijemnom ispitu s obzirom na metodu njegove pripreme. Ispitivanje vršiti uz nivo pouzdanosti 95% i korištenjem Kuskal – Wallisovog testa. 4.60.
Analizirana je postojanost boje za kosu, pri čemu su prikupljeni podaci o broju „pranja“ za koje je boja ostala postojana kod tamnih – crnih, smeđih, crvenih i plavih tonova, od pet različita proizvođača A, B, C, D i E. Rezultati ispitivanja su sljedeći: Boje – tonovi
Proizvođači boja za kosu A
B
C
D
E
Tamni – crni
24
24
33
16
37
Smeđi
32
16
9
9
25
Crveni
23
15
19
17
26
Plavi
29
12
23
22
17
Tabela 137. Podaci o postojanosti boje za kosu u odnosu na tonove boja I marke proizvoda
Potrebno je ispitati pretpostavku da ne postoji razlika u postojanosti boja za kosu kod različitih proizvođača. Testirati uz rizik greške 5% i primjenom Friedmanovog testa.
288
5. REGRESIONA I KORELACINA ANALIZA Suština regresione analize jeste ispitivanje međuzavisnosti dviju ili više promjenljivih, pri čemu se promjenljivim iskazuju pojave koje su u određenom odnosu. Promjenljive u regresionom modelu mogu biti: -
Zavisne i
-
Nezavisne.
Zavisne promjenljive predstavljaju promjenljive čiji se varijacije objašnjavaju varijacijama drugih promjenljivih, dok su promjenljive kojima se objašnjavaju varijacije zavisne promjenljive nezavisne promjenljive. Zavisne promjenljive u regresionom modelu kvantitativno izražavaju pojavu čije se varijacije objašnjavaju modelom, a nezavisne promjenljive u regresionom modelu imaju zadatak da iskažu varijacije zavisne promjenljive.23 Regresioni model predstavlja bazu regresione analize, a njime se iskazuje prosječan zakonomjeran odnos među promjenljivim veličinama u modelu. Pojam prosječan zakonomjeran odnos među promjenljivim veličinama vezuje se za regresioni model, njime se analitički izražava stohastička zavisnost među pojavama. Stohastička (statistička) međuzavisnost pojava dešava se pod uticajem slučajne komponente, po čijem prisustvu se razlikuje od determinističkih (funkcionalnih) modela. Prisustvo slučajne promjenljive u regresionom modelu posljedica je nesistematskih varijacija. Regresioni modeli su slika realnih pojava i procesa, sa širokom spektrom primjene na brojnim stručnim i naučnim područjima, a koristi se u analitičke i prediktivne svrhe.
5.1. Osnovni pojmovi regresionog modela Regresioni model predstavlja jednačinu ili sistem jednačina sa konačnim brojem parametara i promjenljivih. Oblici regresionog modela su brojni i prilagođavaju se problemu koji se rješava. Postupak građenja regresionog modela obuhavata sljedeće korake:
23
Najčešće korišteni izrazi za promjenljivu kojom se opisuju varijacije zavisne promjenljive su: nezavisna, input, prediktorska, kontrolna, kauzalna, stimulans, eksplanatorna … promjenljiva, pored toga, za promjenljivu čije se varijacije opisuju koriste se izrazi: zavisna, endogena, output, predikant, promjenljiva cilja, promjenljiva efekta, promjenljiva efekta, objašnjena promjenljiva…
289
1. Definisanje predmeta i cilja istraživanja, što podrazumijeva teorijsku analizu područja istraživanja i oblikovanja pretpostavki istraživanja; 2. Izbor oblika regresionog modela i definisanje promjenljivih; 3. Prikupljanje statističke građe za potrebe izgradnje modela; 4. Teorijska specifikacija izabranog modela; 5. Analiza odabranog modela koja obuhvata izračuvanje ocijenjenih vrijednosti parameta modela; 6. Testiranje hipoteza o odabranom modelu i teorijskim pretpostavkama modela. Navedeno podrazumijeva zaključak o ispunjenosti teorijskih pretpostavki postavke modela, čime se odlučiuje o nastavku istraživanja, odnosno: -
Ukoliko nisu ispunjene stohastičko – teorijske pretpostavke primjene modela, vrši se modifikacija metode statističke analize, čime se tok istraživanja vraća na drugi korak:
-
Ukoliko su ispunjene stohastičko – teorijske pretpostavke primjene modela istraživanje se nastavlja
7.
Sinteza rezultata istraživanja sa aspekta statističke analize modela i kvalitativne analize, čime se donose zaključci o problemu istraživanja.
Opšti oblik regresionog modela može se zapisati na sljedeći način: Y = f(X1, X2, ... , Xj , ... , XK) + ε ili Y = f(X1, X2, ... , Xj , ... , XK) ε Gdje su: Y – predstavlja zavisnu promjenljivu, odnosno promjenljiva čije varijacije ispitujemo i objašnjavamo regresionim modelom; X1, X2, ... , Xj , ... , XK – predstavljaju nezavisne promjenljive u regresionom modelu; f(X1, X2, ... , Xj , ... , XK) – predstavlja funkcionalni dio modela koji može da ima različite matematičke oblike kao što su: linearni, parabolični (kvadratni), hiperbolički (eksponencijalni) i drugi; ε – predstavlja stohastički član regresionog modela kojom se iskazuje nesistematski uticaj na zavisnu promjenljivu. Stohastički član sa funkcionalnim članom može biti u aditivnom ili multiplikativnom odnosu.24 Tipologija regresionih modela obuhvata: 24
Adicija (latinski additio) – dodavanje, sabiranje; multiplikacija (latinski multiplicatio) – matematički množenje, umnožavanje
290
-
U pogledu matematičkog oblika odnosa promjenljivih u funkcionalnom dijelu regresionog modela, razlikujemo: o Linerani regresioni model, čiji opšti oblik se može iskazati kao: yi = α + βxi + εi; o Parabolični (kvadratni) regresioni model, čiji opšti oblik se može iskazati kao: yi = α + βxi + γxi2 + εi; o Hiperbolični (eksponencijalni) regresioni model, čiji opšti oblik se može iskazati kao: yi = αxiβ + εi.
U navedenim modelima xi i yi predstavljaju promjenljive, α, β, i γ predstavljaju parametre, a ε je stohastički član regresionog modela. Pored navedenih mogući su i brojni drugi regresioni modeli raznih matematičkih oblika funkcionalnog dijela. -
U pogledu broja jednačina sadržanih u regresionom modelu, razlikujemo: o Nesimultani regresioni model, koji se sastoji od jedne regresione jednačine i o Simultani regresioni model, koji se sastoji od dvije ili više povezanih jednačina (sistema jednačina).
-
U pogledu broja promjenljivih sadržanih u regresionom modelu, razlikujemo: o Prosti regresioni modeli, koji sadrže dvije promjenljive od kojih je jedna zavisna, a druga nezavisna25; o Modeli višestruke regresije, obuhvataju modele koji se sastoje iz jedne zavisne promjenljive i dvije ili više nezavisnih promjenljivih. Model višestruke npr.linearne regresije se može iskazati u opštem obliku kao: yi = α + β1x1i + β2x2i + ... + βnxni + εi, i = 1, 2, ..., n.
Regresioni model analizira se se primjenom različitih metoda deskriptivne i inferencijalne statistike. Zadatak deskriptivne statistike predstavlja ocjena nepoznatih parametara regresionog modela i drugih statističko – analitičkih veličina, kao što je npr.standardna greška modela. Dobijeni rezultati služe za statistički opis polaznih podataka i ne mogu se uopštavati, služe samo kao analitički izraz kojim se izražava odnos među promjenljivim u modelu, pri čemu se rezidualni član smatra odstupanjem od funkcionalnog dijela modela i, u pravilu, ne podliježe nikakvoj posebnoj specifikaciji.
25
Svi modeli čiji je opšti oblik naveden u sklopu podjele regresionih modela prema matematičkom obliku funkcionalnom obliku odnosa promjenljivih u modelu su modeli proste regresije
291
Analiza inferencijalnim statističkim metodama obuhavata ocjenu nepoznatih parametara modela, ali i testiranje statističkih hipoteza o parametrima i promjenljivim u modelu, kao i drugi analitički postupci među kojima je važno istaći skup metoda iz oblasti dijagnostike regresionog modela. Zadatak metoda regresione dijagnostike jeste ispitivanje kvaliteta rezultata proizašlih iz regresione analize sa aspekta poštovanja teorijskih pretpostavki na kojima se baziraju metode analize. Kod inferencijalnog modela regresije predstavlja opšti oblik određene pojave, jer sadrži slučajnu promjenljivu određenih osobina, pri čemu je i zavisna promjenljiva, takođe, slučajna. Navedeno se odnosi na činjenicu da za iste vrijednosti nezavisne promjenljive zavisna promjenljiva dobija različite vrijednosti, čime se empirijske vrijednosti zavisne promjenljive smatraju uzorkom iz zamišljenog beskonačnog osnovnog skupa, a regresioni model modelom osnovnog skupa. Ocjenjivanje vrijednosti parametara regresionog modela mora poštovati osobine osnovnog skupa iz koga potiče uzorak, pri čemu se testiranje hipoteza o vrijednosti parametara oslanja na sadržaj hipoteza i distribucije testovnih veličina. Jedan od zadataka regresione analize jeste predviđanje nivoa zavisne promjenljive za pretpostavljene vrijednosti nezavisnih promjenljivih.
5.2. Modeli proste linearne regresije Regresiona analiza zasniva se na empirijskim vrijednostima parova promjenljivih, X i Y, odnosno uređenih parova vrijednosti: (x1, y1), (x2, y2), ... , (xi, yi), ... , (xn, yn), tako da se model izražava sistemom od n jednačina: yi = f(xi) + εi, odnosno yi = α + βxi + εi, gdje je i = 1, 2, ... , n. U modelu proste linearne regresije, vrijednost zavisne promjenljive Y predstavlja linearnu zavisnost nezavisne promjenljive X i nepoznatih parametara α i β, te stohastičkog člana ε. Ukoliko bi vrijednosti svakog stohastičkog člana bile jednake nula model bi bio deterministički, pri čemu bi sve tačke sa koordinatama (xi, yi), geometrijiski, ležale na istoj pravoj. U regresionom modelu, među promjenljivim veličinama odnosi su stohastički, tako da između funkcionalnog i emprijskog skupa vrijednosti zavisne promjenljive postoje odstupanja, tako da se parovi vrijednosti grupišu oko prave linije u koordinatnom sistemu. Grafički prikaz kojim se u dekartovom koordinatnom sistemu ucrtavaju tačke sa koordinatama Ti(xi, yi), i = 1, 2, ... , n naziva se dijagram rasipanja, pri čemu se vrijednosti nezavisne promjenljive nanose na osu apscisa a 292
vrijednosti zavisne promjenljive na osu ordinata26. Raspored tačaka u dijagramu rasipanja služi kao baza prepoznavanja oblika funkcionalnog dijela regresionog modela. Ocijenjene vrijednosti nepoznatih parametara regresionog modela (α i β) su a i b, ocijenjena vrijednost stohastičkog člana je ei, tako da model linearne regresije sa ocijenjenim parametrima ima oblik: ݕො = a + bxi + ei, i = 1, 2, ... , n Ocijenjene vrijednosti parametara proste linearne regresije baziraju se na metodi najmanjih kvadrata, čija je pretpostavka da se vrijednost parametara odredi tako da ukupna rezidualna odstupanja budu jednaka nula, a da zbir kvadrata njihovih vrijednosti bude minimalan, odnosno da vrijedi: σୀଵ ݁ ൌ Ͳ i σୀଵ ݁ଶ ՜ ݉݅݊ Minimiziranje vrijednosti funkcije zahtijeva izjednačavanje vrijednosti prvog izvoda funkcije sa nulom. Tako da imamo: ei = (yi - ݕො ) = [yi – (a + bxi)], odnosno σୀଵ ݁ଶ = σୀଵሾyi – (a + bxi)]², ukoliko razvijemo vrijednost navedenog izraza i odredimo vrijednost njegovog prvog izvoda po a i po b, koji izjednačimo sa nulom, dobijamo sistem normalnih jednačina: σୀଵ ݕ = na + bσୀଵ ݔ 6xiyi = a6xi + b6xiyi Rješavanjem navedenog sistema dobijamo izraze kojim ocjenjujemo nepoznate vrijednosti parametara posmatranog regresionog modela, pri čemu je: ܾൌ
σ సభ ௫ ௬ ିσసభ ௫ σసభ ௬
ܽ ൌ
మ σ ௫మ ିሺσ సభ ௫ ሻ
σ సభ ௬
െܾ
σ సభ ௫
ൌ
σ ത సభ ௫ ௬ ି௫ҧ ௬ మ మ σ సభ ௫ ି௫ҧ
, gdje su ݔҧ ൌ
σ సభ ௫
i ݕത ൌ
σ సభ ௬
ൌ ݕത െ ܾݔҧ
Regresioni model – model proste linearne regresije – nakon ocjene vrijednosti nepoznatih parametara regresije, izražava se njegovim funkcionalnim dijelom, odnosno: ݕො = a + bxi , pri čemu su vrijednosti rezidualnog člana ei = yi – ݕො Značenje parametara u regresionom modelu je: 26
Konvencionalno osa apscisa naziva se “osa x”, a osa ordinate “osa y”
293
Parametar a predstavlja odsječak regresione funkcije na osi ordinata, a njegova vrijednost pokazuje kolika se prosječna vrijednost zavisno promjenljive veličine može očekivati ukoliko vrijednost nezavisno promjenljive veličine bude imala vrijednost nula. Parametar b predstavlja koeficijent pravca regresione funkcije, njegova vrijednost jednaka je tangensu ugla kojeg grafik regresione funkcije zaklapa sa pozitivnim pravcem ose apscisa, a njegova vrijednost pokazuje prosječnu promjenu zavisne promjenljive uslovljenu jediničnim povećanjem nezavisne promjenljive. Regresiona funkcija kojom se analitički izražava prsječan zakonomjeran odnos između više pojava, čija se reprezentativnost izražava odgovarajućim mjerama varijabiliteta između empitijskih i teorijskih vrijednosti, a koja se izražavaju kao rezidualna odstupanja. Veličina odstupanja obrnuto je proporcionalna reprezentativnošću regresionog modela. Mjere varijabiliteta regresionog modela su: -
Varijansa regresije;
-
Standardna devijacija regresije;
-
Koeficijent varijacije regresije i dr.
Varijansa regresije predstavlja prosječnu vrijednost kvadrata rezidualnih odstupanja, pozitivan kvadratni korijen iz varijanse predstavlja standardnu devijeciju regresije, dok je količnik standardne devijacije i prosječne vrijednosti zavisne promjenljive pomnožen sa sto koeficijent varijacije regresije. Obrazac pomoću kojeg određujemo varijansu regresionog modela polazi od izraza za ukupan varijabilitet regresionog modela (yi - ݕത) raščlani na dvije nezavisne komponente, pri čemu prvi dio varijabiliteta predstavlja varijabilitet objašnjen regresionim modelom (ݕො െ ݕത), a drugi dio varijabiliteta je nerazjašnnjeni varijabilitet (yi - ݕො ), pri čemu vrijedi da je: σୀଵሺyi - ݕത) = σୀଵሺ ݕො െ ݕത) + σୀଵሺyi - ݕො ), Za određivanje varijanse regresionog modela polazimo od kvadrata prethodnog izraza, tj: σୀଵሺyi - ݕത)² = σୀଵሺ ݕො െ ݕത)² + σୀଵሺyi - ݕො )² Pri čemu je njegov ekvivalentni (razvijeni) oblik glasi:
ݕଶ ୀଵ
ଶ
ଶ
െ ݊ݕത ൌ ܽ ݕ ܾ ݔ ݕ െ ݊ݕത ൩ ୀଵ
ୀଵ
ݕଶ ୀଵ
െ ܽ ݕ െ ܾ ݔ ݕ ൩ ୀଵ
ୀଵ
Izraz u drugoj srednjoj zagradi sa desne strane prethodne jednakosti predstavlja zbir kvadrata rezidualnih odstupanja u regresionom modelu, tako da je varijansa regresionog modela:
294
σୀଵሺݕ െ ݕො ሻଶ σୀଵ ݕଶ െ ܽ σୀଵ ݕ െ ܾ σୀଵ ݔ ݕ ൌ ݊ ݊
ߪ௬ොଶ ൌ
Standardna devijacija regresionog modela izračunava se kao kvadratni korijen iz varijanse, odnosno: σୀଵሺݕ െ ݕො ሻଶ σ ݕଶ െ ܽ σୀଵ ݕ െ ܾ σୀଵ ݔ ݕ ൌ ඨ ୀଵ ݊ ݊
ߪ௬ො ൌ ඨ
Koeficijent varijacije regresionog modela izračunavamo kao količnik između standardne devijacije i prosječne vrijednosti pomnožen sa 100, odnosno: ܭఙෝ ൌ
ఙ ෝ ௬ത
100
Specifičan pokazatelj reprezentativnosti regresionog modela je koeficijent determinacije, koji predstavlja odnos objašnjenog i ukupnog varijabiliteta, odnosno: ݎଶ ൌ
തమ σ సభ ௬ ା σసభ ௫ ௬ ି௬ మ σ തమ సభ ௬ ି௬
, 0 ≤ r2 ≤ 1
Koeficijent determinacije predstavlja procenat ukupnog varijabiliteta objašnjenog regresionim modelom, i njegova vrijednost kreće se u intervalu od nula do jedan. Što je vrijednost koeficijenta determinacije bliža jedan to je regresioni model reprezentativniji. Kod inferencijalne statističko – regresione analize polazi se od modela osnovnog skupa, empirijski podaci kojima se iskazuju vrijednosti zavisne i nezavisne promjenljive čije među zavisnosti ispitujemo smatraju se uzorkom iz osnovnog skupa koji je raspoređen prema postavljenom modelu. Postupak inferencijalne analize obuhvata ocjenu vrijednosti parametara modela, vrijednosti zavisne promjenljive, odgovarajuće prognoze, testiranje statističkih hipoteza i druge postupke. Deskriptivna regresiono – statistička analiza podrazumijeva određivanje analitičkog izraza koji se adekvatno prilagođava empirijskoj građi i procjeni njegovog kvaliteta, pri čemu se odstupanja od funkcionalnog dijela ne specificiraju. Načela inferencijalne statističko – regresione analize podrazumijevaju shvatanje regresionog modela u kome stohastički član ima karakter slučajne promjenljive, čime i zavisna promjenljiva postaje slučajna promjenljiva. Analiza modela obuhvata ocjenu parametara regresionog modela brojem i intervalom, testiranju hipoteza o parametrima regresionog modela i provode drugi postupci.
295
Teorijske pretpostavke za analizu regresionog modela metodama inferencijalne statistike mogu se predstaviti sljedećim tabelarnim prikazom: Osobine
Zavisne promjenljive Y
Slučajna promjenljiva ε
Očekivana vrijednost
E[yi/xi] = α + βxi
E[εi] = 0, i
Varijansa
Var(yi/xi) = σ²
Var(εi) = σ²
Kovarijansa
Cov(yi, yj) = 0, i ≠ j
Cov(εi, εj) = 0, i ≠ j
Distribucija vjerovatnoće
yi ~ N(α + βxi, σ²)
εi ~ N(0, σ²)
Tabela 138. Osobine zavisne I slučajne promjenljive kao pretpostavke za primjenu inferencijalnog oblika statističko – regresione analize
Ukratko, prethodno navedene pretpostavke odnose se na: -
Očekivanu vrijednost, koja će kod zavisne promjenljive biti određena je vrijednošću parametara regresionog modela i nezavisne promjenljive, dok je očekivana vrijednost slučajne promjenljive jednaka nuli za svako i;
-
Varijansa zavisne promjenljive je konstantna i jednaka σ², ekvivalentno navedenom i varijansa slučajne promjenljive je konstantna i jednaka σ²;
-
Vrijednosti nezavisne promjenljive su međusobno nezavisne, tako da im je kovarijansa jednaka nula ili ekvivalentno vrijednosti slučajne promjenljive su međusobno nezavisne, odnosno njihova kovarijansa ima vrijednost nula;
-
Zavisna promjenljiva je normalno raspoređena sa prosječnom vrijednosšću određenom vrijednošću parametara regresionog modela osnovnog skupa i nezavisno promjenljive veličine i varijansom σ². Slučajna promjenljiva je, takođe, normalno raspoređena sa aritmetičkomsredinom nula i varijansom σ².
Slučajna promjenljiva u inferencijalnoj statističko – regresione analize naziva se greškom regresione jednačine, a njeno prisustvo u modelu kvantificira: -
nesistematske uticaje na zavisnu promjenljivu u regresionom modelu;
-
efekte izostavljenih promjenljivih iz regresionog modela27;
-
greške prilokom mjerenja zavisne promjenljive.
Neka je iz beskonačnog osnovnog skupa u slučajan uzorak izabrano n uređenih parova vrijednosti zavisne i nezavisne promjenljive, pri čemu su a i b ocijenjene vrijednosti nepoznatih
27
Svaki regresioni model je oblik iskazivanja (slika) realnih pojava I procesa
296
parametara osnovnog skupa α i β, a ei ocjena nepoznatih vrijednosti slučajne promjenljive εi. Regresioni model uzorka je: Yi = a + bxi + ei, i = 1, 2, ... , n ili Yi = ݕො + ei, gdje je ݕො = a + bxi, gdje je ݕො - regresiona vrijednost zavisne promjenljive u uzorku. Metoda ocjene nepoznatih parametara osnovnog skupa pomoću uzorka zasniva se na primjeni metode najmanjih kvadrata, pri čemu se ocijenjena vrijednost parametrara ocjenjuje istovjetno kao u kontekstu deskriptivne statističke analize28, odnosno njihove vrijednosti dobijamo pomoću relacija: ܾൌ
σ సభ ௫ ௬ ିσసభ ௫ σసభ ௬
ܽ ൌ
మ σ ௫మ ିሺσ సభ ௫ ሻ
σ సభ ௬
െܾ
σ సభ ௫
ൌ
σ ത సభ ௫ ௬ ି௫ҧ ௬ మ మ σ సభ ௫ ି௫ҧ
, gdje su ݔҧ ൌ
σ సభ ௫
i ݕത ൌ
σ సభ ௬
ൌ ݕത െ ܾݔҧ
Ocjena vrijednosti nepoznate varijanse osnovnog skupa (σ²) podrazumijeva primjenu sljedećeg obrasca: σୀଵሺݕ െ ݕො ሻଶ ݊െʹ
ߪො௬ොଶ ൌ
Dok je ocijenjena vrijednost nepoznate standardne devijacije osnovnog skupa: σୀଵሺݕ െ ݕො ሻଶ ʹͻ ݊െʹ
ߪො௬ො ൌ ඨ
Ocijenjena vrijednost koeficijenta varijacije osnovnog skupa je: ܭఙෝෝ ൌ 5.2.1.
ෝ ఙ ෝ ௬ത
100
Statističko testiranje hipoteza u modelu proste linearne regresije
Imajući u vidu da se vrijednost parametara regresionog modela vrši pomoću uzorka, ukoliko više puta iz istog osnovnog skupa izaberemo uzorak iste veličine, za iste vrijednosti nezavisne promjenljive neće imati iste vrijednosti zavisne promjenljive. Navedeno znači da će se i ocjene parametara regresionog modela međusobno razlikovati. Polazeći od pretpostavljenog (normalnog) oblika rasporeda sampling distribucije moguće je formirati intervale povjerenja parametara
28 29
Vrijednosti su brojno I formalno jednake, ali su im zančenja različita U izrazima za ocjenu vrijednosti varijanse kao I standardne devijacije osnovnog skupa brojnik je označava zbir kvadrata reziduala, dok je izraz u nazivniku broj stepeni slobode. Upravo je po tome navedeni obrazac različit od obrasca za izračunavanje regresione varijanse (standardne devijacije) u sklopu deskriptivne statistike.
297
regresionog modela i donijeti sud o preciznosti ocjene i njihovoj pouzdanosti. Interval povjerenja parametara modela proste linearne regresije određuje se na sljedeći način: Parametar regresionog modela
Veličina uzorka
Interval povjerenja sa pouzdanošću γ
Parametar α; a ~ N(α, ߪොఈ )
Veliki uzorak
P(a - zγ/2ߪොఈ ≤ α ≤ a + zγ/2ߪොఈ ) = (1 – γ)
ߪො ଶ σୀଵ ݔଶ ߪොఈ ൌ ඨ ݊ሺσୀଵ ݔଶ െ ݊ݔҧ ଶ ሻ Parametar β; b ~ N(β, ߪොఉ ) ߪො ଶ ߪොఉ ൌ ඨ ଶ σୀଵ ݔ െ ݊ݔҧ ଶ
30
Mali uzorak
P(a - tγ/2;n-2ߪොఈ ≤ α ≤ a + tγ/2;n-2ߪොఈ ) = (1 – γ)
Veliki uzorak
P(b - zγ/2ߪොఉ ≤ β ≤ b + zγ/2ߪොఉ ) = (1 – γ)
Mali uzorak31
P(b - tγ/2;n-2ߪොఉ ≤ β ≤ b + tγ/2;n-2ߪොఉ ) = (1 – γ)
Tabela 139. Određivanje intervala povjerenja nepoznatih vrijednosti parametrara regresionog modela osnovnog skupa
Testiranje hipoteza o modelu proste linearne regresije može se vršiti na više ekvivalentnih načina a to su: -
F – test kojim se testira značajnost prisustva promjenljive x u modelu ili
-
Test statističke značajnosti parametra β u regresionom modelu.
Postupak testiranja moguće je prikazati u sljedećoj tabeli: Vrsta testa
F – test
T – test
Hipoteze
H0: yi = α + εi
H0: β = 0
HA: yi = α + βxi + εi, i = 1,2,...n
HA: β ≠ 0
Fα;[1,n-2]
tα/2;n-2
Tablična vrijednost
σ ො ି௬തሻమ సభሺ௬ ෝమ ఙ
Testovna vrijednost
F=
Oblast prihvatanja nulte hipoteze
F ≤ Fα;[1,n-2]
ݐൌ
ܾ ߪොఉ
|t| < tα/2;n-2
Tabela 140. Postupak testiranja hipoteza o statističkoj značajnosti regresionog modela pomoću F – testa I t - testa32
Pored navedenog, statističke hipoteze t – testa mogu biti date i u obliku jednosmjernog testa na donju ili gornju granicu, takođe se može testirati pretpostavka o odnosu pretpostavljene vrijednosti parametra osnovnog skupa (β) i neke vrijednosti njegove uzoračke realizacije različite od nule (b ≠
30
Ukoliko varijansa normalno raspoređenog osnovnog skupa nije poznata za ocjenu vrijednosti nepoznatog parametra osnovnog skupa koristi se Studentova distribucija Ukoliko varijansa normalno raspoređenog osnovnog skupa nije poznata za ocjenu vrijednosti nepoznatog parametra osnovnog skupa koristi se Studentova distribucija 32 Navedeni testovi su ekvivalentni 31
298
0). Modifikacije u primjeni analogne su primjeni postupka testiranja drugih parametara osnovnog skupa pomoću t – testa, čime se mijenja tablična vrijednost, kao i oblast prihvatanja (odbacivanja) nulte hipoteze. U slučaju da se testira pretpostavka da je hipotetička vrijednost parametra β u određenom odnosu sa vrijednosšću njegove uzoračke realizacije b, kada se mijenja i testovna vrijednost koja se u tom slučaju izračunava pomoću obrasca: ݐൌ
ܾെߚ ߪොఉ
Ostatak postupka provodi se kao postupak testiranja hipoteza o pretpostavljenim vrijednostima ostalih parametara osnovnog skupa pomoću t – testa. Odluka o (ne)prihvatanju nulte hipoteze može se donijeti i pomoću empirijske vrijednosti nivoa povjerenja ili formiranjem kritičnih granica prihvatanja nulte hipoteze analogno kao kod testiranja ostalih parametara korištenjem navedenih testova. Uz odgovarajuću adaptaciju moguće je izvršiti i testiranje statističkih hipoteza o pretpostavljenoj vrijednosti parametra α, uz napomenu da njegova vrijednost ne utiče na reprezentativnost odabranog regresionog modela. Prilikom testiranja tablična vrijednost očitava se uz dati nivo rizika γ i n – 2 stepena slobode, a testovna vrijednost se izračunava pomoću obrasca: ܽെߙ ݐൌ ߪොఈ 5.2.2.
Prosta linearna korelacija – koeficijent korelacije
Korelaciona analiza ima zadatak da utvrdi smjer i jačinu veze između dvije ili više pojava uz pretpostavku da suštinski postoji veza među njima. Ukoliko je veza među pojavama, odnosno promjenljivim veličinama koje opisuju posmatrane pojave linearna, riječ je o linearnoj korelaciji. Pored toga ukoliko se ispituje i analizira pojava predočena dvjema promjenljivim riječ je o prostoj korelaciji. Standardizovana mjera jačine statističke veze između pojava predočenih dvjema: -
Numeričkim promjenljivim jeste koeficijent korelacije;
-
Rang promjenljivm jeste koeficijent korelacije ranga.
Kovarijansa se definiše kao prvi mješoviti moment numeričkih promjenljivih X i Y, pri čemu se određuje kao proizvod odstupanja vrijednosti promjenljive x od njezine prosječne vrijednosti i promjenljive y od njezine prosječne vrijednosti.
299
Pretpostavlja se da se kod određivanja kovarijanse, polazi od dvaju pojava koje se izražavaju numeričkim vrijednostima, gdje se raspolaže sa uređenim parovima njihovih vrijednosti (xi, yi), i = 1, 2, ... , n. Za numeričke promjenljive X i Y kovarijansa, kao deskriptivno – statistička veličina, data je izrazom: ଵ
Cov(X,Y) = Cxy = σୀଵሺݔ െ ݔҧ ሻሺݕ െ ݕതሻ koji se odgovarajućim transformacijama prevodi u
njemu ekvivalentan oblik: ଵ
Cxy = σୀଵ ݔ ݕ െ ݔҧ ݕത
Ukoliko se uređenim parovima (xi, yi), i = 1, 2, ... , n predstavljaju uzoračke realizacije promjenljivih, tada je ocijenjena vrijednost kovarijanse osnovnog skupa:
ܥ௫ො௬ො
ͳ ൌ ሺݔ െ ݔҧ ሻሺݕ െ ݕതሻ ݊െͳ ୀଵ
Odnosno:
ܥ௫ො௬ො ൌ
ͳ ൭ ݔ ݕ െ ݊ݔҧ ݕത൱ ݊െͳ ୀଵ
Kovarijansa izražava međusobnu korelaciju unutar vrijednosti jedne promjenljive, a predstavlja bazičnu statsitičku veličinu za mjerenje kovarijacije pojava. Vrijednost kovarijacije teorijski može imati bilo koju vrijednost iz skupa realnih brojeva, pri čemu je važno istaći da ukoliko: -
Su sve vrijednosti jedne promjenljive međusobno jednake, tada je varijansa (i standardna devijacija) te promjenljive jednaka nuli. U tome slučaju je i kovarijansa jednaka nuli;
-
Postoji tendencija da se iznadprosječne vrijednosti jedne promjenljive pojavljuju istovremeno sa iznadprosječnim vrijednostima druge promjenljive ili obrnuto kovarijansa će biti pozitivna;
-
Postoji tendencija da se ispodprosječne vrijednosti jedne promjenljive pojavljuju istovremeno sa iznadprosječnim vrijednostima druge promjenljive ili obrnuto kovarijansa će biti negativna.
Kovarijansa služi za detekciju veze među promjenljivim veličinama, njome se isključivo utvrđuje postojanje veze među promjenljivim veličinama, ali ne i jačina te veze. Jačina veze među promjenljivim veličinama dobija se tako što odredi kovarijansa standardizovanih vrijednosti 300
promjenljivih X i Y. Kovarijansa standardizovanih vrijednosti promjenljivih X i Y naziva se i Pearsonov koeficijent linearne korelecije, koji je definisan izrazom: ݎൌ
ܥ௫௬ ߪ௫ ߪ௬
Navedeni izraz se može razviti na više načina, pri čemu su neki od njih: ݎൌ
݊ σୀଵ ݔ ݕ െ σୀଵ ݔ σୀଵ ݕ ට݊ σ ݔଶ െ ሺσୀଵ ݔ ሻଶ ή ට݊ σ ݕଶ െ ሺσୀଵ ݕ ሻଶ
σୀଵ ݔ ݕ െ ݊ݔҧ ݕത
ൌ
ටσୀଵ ݔଶ െ ݊ݔҧ ଶ ή ටσୀଵ ݕଶ െ ݊ݕത ଶ
Koeficijent korelacije poprima vrijednost iz intervala od minus do plus jedan, pri čemu predznak koeficijenta korelacije označava smjer veze među promjenljivim veličinama, dok apsolutna vrijednost koeficijenta koerelacije određuje jačinu veze. Kao što je prethodno navedeno, predznak koeficijenta korelacije određuje smjer veze među promjenljivih u regresionom modelu i može biti: -
Negativan i
-
Pozitivan.
Ukoliko je koeficijent korelacije negativan, tj.r < 0, korelacija među promjenljivim u regresionom modelu je negativna (inverzna), čime označavamo da se varijacije pojava kreću u suprotnom smjeru, odnosno ukoliko se povećava vrijednost nezavisne promjenljive vrijednost zavisne promjenljive će opadati i obrnuto. Sa druge strane, ukoliko je koeficijent korelacije pozitivan, tj.r > 0, korelacija među promjenljivim u regresionom modelu je pozitivna (direktna), čime označavamo da se varijacije pojava kreću u istom smjeru, odnosno ukoliko se povećava vrijednost nezavisne promjenljive vrijednost zavisne promjenljive će se, takođe, povećavati i obrnuto. Vrijednost koeficijenta korelacije jednaka nuli označava situaciju kada ne postoji linearna korelacija među promjenljivim u regresionom modelu. Pored smjera, koeficijent korelacije određuje i jačinu veze među promjenljivim veličinama u regresionom modelu. Jačina veze određena je apsolutnom vrijednošću koeficijenta korelacije i proporcionalna je njegovoj veličini. Kao što je već navedeno, ukoliko je vrijednost koeficijenta korelacije jednaka nuli ne postoji linearna korelacija među promjenljivim veličinama u regresionom modelu, dok ukoliko je vrijednost koeficijenta jednaka jedan (r = ± 1) tada je linearna korelacija među promjenljivim veličinama savršena (deterministička). Navedeni ekstremni slučajevi su praktično veoma rijetki, gotovo uvijek u praktičnoj primjeni vrijednost koeficijenta korelacije kreće
301
se u intervalu od 0 – 1, pri čemu se jačina korelacije povezuje sa vrijednošću koeficijenta korelacije na sljedeći način: Ukoliko je vrijednost koeficijenta korelacije između – 0,7 i 0,7 ( |r| < 0,7) smatra se da
-
linearna veza među posmatranim promjenljivim veličinama nije izražena; Ukoliko je vrijednost koeficijenta korelacije između ±0,7 do ±0,8 (0,7 ≤ |r| < 0,8),
-
smatra se da je linearna veza među posmatranim promjenljivim veličinama izražena; Ukoliko je vrijednost koeficijenta korelacije između ±0,8 do ±0,9 (0,8 ≤ |r| < 0,9),
-
smatra se da je linearna veza među posmatranim promjenljivim veličinama jaka; Ukoliko je vrijednost koeficijenta korelacije između ±0,9 do ±1 (0,9 ≤ |r| < 1), smatra se
-
da je linearna veza među posmatranim promjenljivim veličinama veoma jaka. Koeficijent proste linearne korelacije osnovnog skupa ocjenjuje se korištenjem istog obrasca kao što je obrazac za izračunavanje koeficijenta u sklopu deskriptivno – statističke analize. Koeficijent proste linearne korelacije može se izračunati i kao drugi korijen iz koeficijenta proste linearne dereminacije, pri čemu predznak koeficijenta korelacije mora biti jednak predznaku regresionog koeficijenta. Sampling distribucija ocjene granica intervala povjerenja nepoznatog koeficijenta proste linearne korelacije osnovnog skupa ρ, određena je veličinom uzorka na osnovu koga ocjenjujemo vrijednost nepoznatog parametra n, uzoračke realizacije koeficijenta proste linearne korelacije r i odabranog rizika ocjene γ, a dat je izrazom: ଵ
ଵା
ଶ
ଵି
P( ݈݊
െ
௭ംȀమ ξିଵ
ଵ
ଵା
ଶ
ଵି
൏ ݖ൏ ݈݊
௭ംȀమ
ሻ ൌ ሺͳ െ ߛሻ
ξିଵ
Ocijenjena vrijednost koeficijenta proste linearne korelacije, u pravilu, ima poželjna statističko – teorijska svojstva samo za veliki uzorak. Testiranje hipoteze o pretpostavljenoj vrijednosti keficijenta korelacije osnovnog skupa polazi od pretpostavke da je njegova distribucija normalno raspoređena sa aritmetičkom sredinom ଵ
ଵାఘ
ଶ
ଵିఘ
ߤ௭ ൌ ݈݊
i standardnom devijacijom ߪ௭ ൌ ට
ଵ ିଷ
Postupak određivanja kritične vrijednosti, čime se određuju granice prihvatanja (ili neprihvatanja) statističkih hipoteza može se ilustrovati sljedećim tabelarnim prikazom:
302
Vrsta testa
Oblik formulacije hipoteza
Dvosmjerni Jednosmjerni,
Područje prihvatanja H0
Područje odbacivanja H0
H0: ρ = 0; HA : ρ ≠ 0
zγ/2 > _z_
zγ/2 < _z_
na H0 : ρ ≤ 0; HA : ρ > 0
– zγ < z
– zγ > z
na H0: ρ t 0; HA : ρ < 0
zγ > z
zγ < z
gornju granicu Jednosmjerni, donju granicu Tabela 141. Postupak određivanja kritične vrijednosti I granica prihvatanja (ili neprihvatanja) statističkih hipoteza na bazi izabranog nivoa značajnosti (1 – γ)
Postupak izračunavanja testovne vrijednosti podrazumijeva izračunavanje empirijskog z – ଵ
ଵା
ଶ
ଵି
odnosa, korištenjem sljedećeg obrasca: ݖൌ ξ݊ െ ͵ ቂ ݈݊
ଵ
ଵାఘ
ଶ
ଵିఘ
െ ݈݊
ቃ
Postupak donošenja zaključka o ishodu testa izvodi se poređenjem očitane kritične (tablične) vrijednosti i testovne vrijednosti kao što je navedeno u prethodnoj tabeli ili poređenjem empirijskog i teorijskog nivoa povjerenja. Ukoliko se testiranje provodi na bazi uzoraka sa više od 30 elemenata, tada se testiranje aproksimira Studentovim t – testom, pri čemu se tablična vrijednost očitava za dati nivo rizika γ i n – 2 stepena slobode, dok se testovna vrijednosti izračunava pomoću obrasca: t = ݎή ට
ିଶ ଵି మ
.
Spearmanov koeficijent korelacije ranga koristi se za mjerenje stepena i smjera udruživanja dvaju pojava predočenih parovima rang promjenljivih. Ukoliko su statističke promjenljive numeričkog karaktera, neophodno ih je transformisati u rang promjenljive. Baza Spearmanovog koeficijenta korelacije ranga su parovi modaliteta rang promjenljivih [r(xi); r(yi)]; i = 1, 2, ... , n. Modaliteti svake rang promjenljive su iz skupa prvih n prirodnih brojeva. Koeficijent linearne korelacije računa se upotrebom parova modaliteta rang promjenljive, naziva se Spermanovim koeficijentom korelacije ranga uz korištenje izraza: ݎௌ ൌ ͳ െ
మ σ సభ ௗ
య ି
, gdje je di = r(xi) – r(yi); – 1 ≤ rS ≤ 1.
Ako su u svakom paru rangovi jednaki, njihove su razlike jednake nuli, a koeficijent poprima vrijednost 1. Tada postoji savršena (potpuna, perfektna) pozitivna rang korelacija. Kada je je redoslijed modaliteta jedne rang promjenljive obrnut od redoslijeda druge promjenljive u paru, koeficijent korelacije ranga uzima vrijednost – 1, pa je rang korelacija savršena i negativnog smjera. Najveće neslaganje rangova imamo kada je koeficijent korelacije ranga jednak nuli. Ostale vrijednosti koeficijenta korelacije ranga, tumače se analogno kao i vrijednosti koeficijenta proste 303
linearne korelacije (Pearsonovog koeficijenta) korelacije. Prilikom izračunavanje Spearmanovog koeficijenta korelacije ranga polazi se od pretpostavke da nema vezanih rangova ili da je njihov broj zanemarljiv u odnosu na broj parova vrijednosti za koje se računa koeficijent. Hipoteza o statističkoj značajnosti koeficijenta korelacije ranga Spearmana, spada u neparametarske testove, pri čemu se testiranje hipoteze o pretpostavljenoj vrijednosti keficijenta korelacije ranga odnosi na postupak određivanja kritične vrijednosti, čime se određuju granice prihvatanja (ili neprihvatanja) statističkih hipoteza, a što se može ilustrovati sljedećim tabelarnim prikazom: Vrsta testa
Oblik formulacije hipoteza
Dvosmjerni
H0: ρS = 0; HA : ρS ≠ 0
Jednosmjerni
Područje prihvatanja H0
Područje odbacivanja H0
rS;γ/2 > _rS_
rS;γ/2 > _rS_
rS < rS,γ
rS > rS,γ
rS > – rS,γ
rS < – rS,γ
(o H0 : ρS = 0; HA : ρS > 0
pozitivnoj korelaciji ranga) Jednosmjerni
(o H0: ρS = 0; HA : ρ < 0
negativnoj korelaciji ranga) Tabela 142. Postupak određivanja kritične vrijednosti I granica prihvatanja (ili neprihvatanja) statističkih hipoteza na bazi izabranog nivoa značajnosti (1 – γ)
Testovna vrijednost predstavlja uzoračku realizaciju koeficijenta korelacije ranga rs, a tablična vrijednost se očitava za vrijednosti sampling distribucije koeficijenta korelacije ranga za dati rizik greške γ i veličinu uzorka n. Postupak donošenja zaključka o ishodu testa izvodi se poređenjem očitane kritične (tablične) vrijednosti i testovne vrijednosti kao što je navedeno u prethodnoj tabeli ili poređenjem empirijskog i teorijskog nivoa povjerenja. Ukoliko uzorak ima više od 30 elemenata, testiranje hipoteza se može aproksimirati Studentovim t – testom, pri čemu se tablična vrijednost očitava uz rizik greške γ i n – 2 stepena slobode, dok je testovna vrijednost t = ݎௌ ή ට
ିଶ
ଵିೄమ
5.2.3.
.
Ocjenjivanje i predviđanje vrijednosti zavisne promjenljive
Nakon što se odredi regresioni model i adekvatno ocijeni njegova reprezentativnost, on se može koristiti za predviđanje vrijednosti zavisne promjenljive, što i predstavlja jedan od osnovnih ciljeva regresione analize. Regresioni model predstavlja prosječan zakonomjeran odnos između 304
promjenljivih u njemu, dakle, za bilo koju izabranu vrijednost nezavisne promjenljive xk možemo odrediti prosječan nivo zavisne promjenljive ݕො imajući u vidu da je ݕො = a + bxk, pri čemu k može biti unutar vrijednosti nezavisne promjenljive obuhvaćene uzorkom, ali ne mora. Postupak ocjenjivanja vrijednosti zavisne promjenljive pomoću regresionog modela obuhvata: -
Interpolaciju regresione linije – kada se vrijednost zavisne promjenljive ocjenjuje pomoću vrijednosti nezavisne promjenljive sadržane u uzorku;
-
Ekstrapolaciju regresione linije – kada se vrijednost zavisne promjenljive ocjenjuje pomoću vrijednosti zavisne promjenljive koja nije sadržana u uzorku. Dakle, ekstrapolacija predstavlja korištenje regresionog modela u svrhu predviđanja vrijednosti zavisne promjenljive.
Predviđanje pomoću regresionog modela zahtijeva da je u regresionom modelu prisutan visok nivo determinacije (r2 > 0,5), da je potvrđeno postojanje linearne veze među posmatranim pojavama, tj.da je β ≠ 0 i da se ekstrapolacija ne koristi izvan opsega važenja linearne veze, što znači da je dobro ekstrapolaciju primjenjivati samo u blizini uzorka tj.blizu najmanje i najveće vrijednosti nezavisne promjenljive u uzorku. Imajući u vidu da veza između promjenljivih u regresionom modelu je stohastičke prirode, očekivana vrijednost zavisne promjenljive E(yk), u slučaju da nezavisna promjenljiva ima vrijednost xk, ocjenjujemo pomoću sljedećeg obrasca: E(yk) = ݕො = a + bxk, nakon čega možemo odrediti i granice intervala povjerenja očekivane vrijednosti zavisne promjenljive uz rizik greške γ, pomoću sljedećeg obrasca: P(ݕො - tγ/2; n – 2ߪ௬ෞೖ E(yk) ≤ݕො - tγ/2; n – 2ߪ௬ෞೖ ) = (1 – γ), ଵ
ሺ௫ ି௫ҧ ሻమ
gdje je ߪො௬ෞೖ ൌ ߪො௬ො ට σ
2 మ సభ ௫ ି௫ҧ
Granice intervala povjerenja očekivane vrijednosti zavisne promjenljive za posmatranu vrijednost nezavisne promjenljive xk pokazuju unutar kojih vrijednosti možemo očekivati vrijednost zavisne promjenljive uz rizik greške γ, ukoliko nezavisno promjenljiva bude imala vrijednost xk. Primjer 5.1. Analizira se uticaj ishrane na krvnu sliku pacijenata jedne zdravstvene ustanove, pri čemu se pretpostavlja da količina željeza unesenog u organizam putem ishrane u određenom periodu utiče na vrijednost navedenog minerala u krvi ispitanika. Analizirano je 15 pacijenata koji su u inicijalnom periodu imali iste zdravstveno – medicinske vrijednosti navedenih parametara. U 305
toku eksperimentalnog perioda pacijenti su svakodnevno putem propisane ishrane imali odgovarajući unos posmatranog minerala, nakon provedenog „tretmana“ zabilježene su vrijednosti Fe (željeza) u krvi pacijenata, pri čemu su rezultati analize prikazani u sljedećoj tabeli: Pacijent
Dnevni unos Fe putem ishrane (mg)
Nivo Fe u krvi nakon provedenog „tretmana“
1.
20
4,50
2.
21
5,80
3.
23
6,00
4.
24
9,60
5.
26
6,50
6.
27
7,60
7.
29
6,80
8.
30
9,30
9.
32
10,90
10.
33
9,80
11.
35
10,90
12.
37
11,20
13.
38
12,00
14.
40
12,50
15.
43
12,10
Tabela 143. Podaci o dnevnom unosu Fe (mg) putem ishrane u toku “tretmana” pacijenata I vrijednosti Fe u krvi nakon “tretmana”
Potrebno je: a. Odrediti status promjenljivih u modelu regresije; b. Nacrtati dijagram rasipanja podataka, obrazložiti izgled dijagrama rasipanja; c. Formirati regresioni model koji se adekvatno prilagođava empirijskum podacima; Ocijeniti mjere varijabiliteta regresionog modela i obrazložiti zaključke koji proizilaze iz njihovih vrijednosti; d. Izračunati standardne greške ocjene nepoznatih parametara osnovnog skupa; testirati statistički značaj regresionog modela sa pouzdanošću 95% i sa istom pouzdanošću ocijeniti granice intervala povjerenja parametra β;
306
e. Ocijeniti procenat varijabiliteta u nivou Fe u krvi koji je objašnjen varijacijama u dnevnom unosu Fe putem ishrane; f. Odrediti stepen i smjer kvantitativnog slaganja varijacija dnevnog unosa Fe putem ishrane i nivoa Fe u krvi; g. Sa pouzdanošću 95% ocijeniti interval povjerenja koeficijenta korelacije osnovnog skupa, te sa istom pouzdanošću testirati hipotezu o vrijednosti koeficijenta korelacije osnovnog skupa; h. Na dijagramu rasipanja ucrtati regresionu pravu; i. Sa pouzdanošću 95% ocijeniti nivo Fe u krvi kod pacijenata koji dnevno unose 44 mg Fe putem ishrane. Rješenje: a. Medicinska nauka i praksa upućuje na zaključak da pokazatelji zdravstvenog stanja zavise od načina života, prevashodno od kvaliteta ishrane. Unos određenog minerala putem ishrane (u konkretnom slučaju to je Fe) je kontrolisana, ulazna odnosno nezavisna promjenljiva. Sa druge strane, nivo minerala u krvi uslovljen je kvalitetom ishrane pacijenta, tako da će nivo Fe u krvi biti izlazna, odnosno zavisna promjenljiva u posmatranom regresionom modelu. b. Dijagram rasipanja ima sljedeći izgled: 14,00
Nivo Fe u krvi
12,00 10,00 8,00 6,00 4,00 2,00 0,00 0
10
20 30 Dnevni unos Fe (mg)
40
50
Slika 27. Dijagram rasipanja dnevnog unosa Fe I nivoa Fe u krvi
307
Tačke u dijagramu rasipanja raspoređuju se od donjeg lijevog ugla, prema gornjem desnom uglu koordinatnog sistema, dok se prema rasporedu tačaka u dijagramu rasipanja uočava da se one koncentrišu oko prave linije. Izgled dijagrama rasipanja upućuje na postojanje linearne zavisnosti između dnevog unosa Fe i nivoa Fe u krvi. c. Model linearne regresije osnovnog skupa je: yi = α + βxi + εi, i = 1, 2, ... , n Model proste linearne regresije sa ocijenjenim vrijednostima parametra regresije glasi: ݕ = a + b xi + ei, i = 1, 2, ... , 15 yi = ݕො + ei, i = 1, 2, ... , 15 Odnosno: ݕො = a + b xi , i = 1, 2, ... , 15 Ocijenjene vrijednosti parametara regresije a i b određujemo primjenom metode najmanjih kvadrata, pri čemu se elementi potrebni za njihovo određivanje mogu prikazati u sljedećoj tabeli: xi 2
1.
20
4,50
400
90
20,25
5,50
2.
21
5,80
441
122
33,64
5,83
3.
23
6,00
529
138
36,00
6,50
4.
24
9,60
576
230
92,16
6,84
5.
26
6,50
676
169
42,25
7,51
6.
27
7,60
729
205
57,76
7,85
7.
29
6,80
841
197
46,24
8,52
8.
30
9,30
900
279
86,49
8,85
9.
32
10,90
1024
349
118,81
9,53
10.
33
9,80
1089
323
96,04
9,86
11.
35
10,90
1225
382
118,81
10,53
12.
37
11,20
1369
414
125,44
11,21
13.
38
12,00
1444
456
144,00
11,54
14.
40
12,50
1600
500
156,25
12,21
15.
43
12,10
1849
520
146,41
13,22
458
135,5
x i yi
ݕො
xi
6
yi
yi 2
Red.br
14692
4375
1320,6
Tabela 144. Radna tabela – elementi za izračunavanje parametrara regresionog modela
308
135,50
Vrijednost parametra regresionog modela dobijamo kako slijedi:
ܾൌ
σభఱ ത సభ ௫ ௬ ିଵହ௫ҧ ௬ మ మ σభఱ సభ ௫ ିଵହ௫ҧ
ൌ
ݔҧ ൌ
σଵହ Ͷͷͺ ୀଵ ݔ ൌ ൌ ͵Ͳǡͷ͵ሶ ݊ ͳͷ
ݕത ൌ
σଵହ ͳ͵ͷǡͷ ୀଵ ݕ ൌ ൌ ͻǡͲ͵ሶ ͳͷ ݊
ସଷହିଵହήଷǡହଷήଽǡଷ ଵସଽଶିଵହήଷǡହଷమ
ൌ Ͳǡ͵͵
ܽ ൌ ݕത െ ܾݔҧ ൌ ͻǡͲ͵ െ Ͳǡ͵͵ ή ͵Ͳǡͷ͵ ൌ െͳǡʹʹ͵ Regresioni model sa procijenjenim parametrima glasi: ݕො = – 1,223 + 0,336xi , i = 1, 2, ... , 15 Ocijenjene vrijednosti parametra regresionog modela znače: -
Parametar a ima vrijednost – 1,223, njime se označava prosječna vrijednost Fe u krvi prilikom situacije kada se putem hrane nebi uopšte unosio ovaj mineral, navedeni nivo Fe u krvi bio bi negativan, što nije realno moguće. Opravdano je odrediti prosječnu vrijednost dnevnog unosa Fe pri kojoj se očekuje nivo Fe u krvi 0, a to je: 0 = – 1,223 + 0,336xi 0,336xi = 1,223 ݔ ൌ
ଵǡଶଶଷ ǡଷଷ
ൌ ͵ǡͶ. Minimalni unos Fe putem ishrane
iznosi u prosjeku 3,64 mg, kada se očekuje da u krvi neće biti prisutan navedeni mineral. Zaključujemo da je neophodno unositi više od 3,64 mg Fe putem ishrane kako bi se navedeni mineral „zadržao“ u krvi; -
Parametra b ima vrijednost 0,336 – njime se označava prosječan prirast nivoa Fe u krvi pri jedničnom prirastu dnevnog sadržaja Fe u ishrani. Drugim riječima, ukoliko se sadržaj Fe u dnevnoj ishrani poveća za 1 mg, nivo Fe u krvi će se prosječno povećati za 0,336. Ocjena varijanse ima vrijednost: ߪ௬ොଶ ൌ
33
σୀଵሺݕ െ ݕො ሻଶ σୀଵ ݕଶ െ ܽ σୀଵ ݕ െ ܾ σୀଵ ݔ ݕ ൌ ݊െʹ ݊െʹ ͳ͵ʹͲǡͷͷ െ ሺെͳǡʹʹ͵ሻ ή ͳ͵ͷǡͷ െ Ͳǡ͵͵ ή Ͷ͵ͷ ൌ ͳͷ െ ʹ ͳ͵ʹͲǡͷͷ ͳͷǡʹͶ െ ͳͶͻǡͷͻͺ ͳǡͺ ൌ ൌ ൌ ͳǡʹͺʹͺ͵͵ ͳ͵ ͳ͵
U postupku izračunavanja ocijenjenih vrijednosti korišteni su nezaokružene vrijednosti međurezultata kojima nisu navedene sve decimalne cifre (to su ocijenjene vrijednosti parametara regresionog modela)
309
Odakle dobijamo ocjenu standardne devijacije, što iznosi: ߪ௬ො ൌ ටߪ௬ଶො ൌ ඥͳǡʹͺʹͺ ൌ ͳǡͳ͵ʹ I nadalje ocjenjujemo vrijednost koeficijenta varijacije, što iznosi: ܭఙෝෝ ൌ
ෝ ఙ ෝ ௬ത
ή ͳͲͲ ൌ
ଵǡଵଷଶ 100 ଽǡଷሶ
= 12,54%
Ocijenjene vrijednosti mjera varijabiliteta ukazuju na nizak stepen varijabiliteta, odnosno visok stepen reprezentativnosti odabranog regresionog modela. d. Standardna greška ocjene koeficijenta regresionog modela (parametra β) iznosi: ߪො ଶ ͳǡʹͺʹͺ ͳǡʹͺʹͺ ൌඨ ൌඨ ൌ ඥͲǡͲͲͳͺͳ͵ ߪොఉ ൌ ඨ ଵହ ଶ σୀଵ ݔ െ ͳͷ ή ݔҧ ଶ ͳͶͻʹ െ ͳͷ ή ͵Ͳǡͷ͵ሶଶ Ͳǡ͵ሶ ൌ ͲǡͲͶʹ͵Ͷ Standardna greška ocjene konstantnog člana regresionog modela (parametra α) iznosi: ଶ ߪො ଶ σଵହ ͳǡʹͺʹͺ ή ͳͶͻʹ ͳͺͺͶǡ͵͵ͺͳ ୀଵ ݔ ൌඨ ൌඨ ߪොఈ ൌ ඨ ଵହ ଶ ଶ ሶ ͳͲͳ ͳͷሺͳͶͻʹ െ ͳͷ ή ͵Ͳǡͷ͵ሻ ͳͷ൫σୀଵ ݔ െ ͳͷݔҧ ൯
ൌ ඥͳǡͷ͵ͳ ൌ ͳǡ͵͵ʹͶ Postupak testiranja statističkog značaja regresionog modela možemo vršiti na dva načina i to pomoću: -
testa o značajnosti prisustva promjenljive x u regresionom modelu i
-
testa o statističkoj začajnosti koeficijenta regresionog modela. Reprezentativnost regresionog modela testirana pomoću testa o značaju prisustva promjenljive x u regresionom modelu, provodimo pomoću F – testa, čiji postupak obuhvata: 1. Formulaciju statističkih hipoteza, koje u posmatrano slučaju glase: Nulta hipoteza:
H0: yi = α + εi
Alternativna hipoteza: HA: yi = α + βxi + εi, i = 1,2,...n 2. Očitavanje tablične vrijednosti za usvojeni nivo rizika, koji u posmatranom slučaju ima vrijednost: 1 – γ = 0,95 γ = 1 – 0,95 = 0,05, sa jedne strane i, sa druge strane,
34
Nepoznatu vrijednost varijanse osnovnog skupa mijenjamo njezinom ocijenjenom vrijednošću
310
broja stepeni slobode, koji u posmatranom slučaju iznose: υ1 = 1 i υ2 = n – 2 = 15 – 2 = 13. Sada je moguće odrediti testovnu vrijednost koja iznosi: F0,05;[1,13] = 4,75, čime su određene i kritične vrijednosti za prihvatanje i neprihvatanje (odbacivanje) nulte hipoteze, a koje su: F ≤ 4,75 3. Izračunavanje testovne vrijednosti, pri čemu se koristi obrazac: F =
σభఱ ො ି௬തሻమ సభሺ௬ ෝమ ఙ
, pri
čemu se elementi potrebni za izračunavanje testovne vrijednosti mogu prikazati u sljedećoj tabeli: (ݕො - 9,03)2
ݕො - 9,03
ݕො
Red.br 1.
5,50
-3,54
12,52
2.
5,83
-3,20
10,25
3.
6,50
-2,53
6,40
4.
6,84
-2,19
4,82
5.
7,51
-1,52
2,32
6.
7,85
-1,19
1,41
7.
8,52
-0,52
0,27
8.
8,85
-0,18
0,03
9.
9,53
0,49
0,24
10.
9,86
0,83
0,69
11.
10,53
1,50
2,25
12.
11,21
2,17
4,72
13.
11,54
2,51
6,29
14.
12,21
3,18
10,11
15.
13,22
4,19
17,54
6
135,50 0,00
79,86
Tabela 145. Elementi za izračunavanje testovne vrijednosti F – testa za testiranje hipoteze o statističkom značaju prisustva promjenljive x u regresionom modelu
Testovna vrijednost u posmatranom slučaju ima vrijednost: F=
σభఱ ො ି௬തሻమ సభሺ௬ ෝమ ఙ
ൌ
ଽǡ଼ ଵǡଶ଼ଶ଼
ൌ ͳ͵ǡ
4. Donošenje odluke o (ne)prihvatanju nulte hipoteze zahtijeva poređenje testovne i tablične vrijednosti, pri čemu je tablična vrijednost manja od testovne, odnosno vrijedi
311
da je: 4,75 < 13,67, što upućuje na odluku o odbacivanju nulte hipoteze. Uz rizik greške 5%, opravdano je zaključiti da sadržaj Fe u ishrani značajno utiče na nivo navedenog minerala u krvi ispitanika. Reprezentativnost regresionog modela testirana pomoću testa o statističkoj značajnosti koeficijenta regresionog modela, provodimo pomoću t – testa, čiji postupak obuhvata: 1. Formulaciju statističkih hipoteza, koje u posmatrano slučaju glase: Nulta hipoteza:
H0: β = 0
Alternativna hipoteza: HA: β ≠ 0 2. Očitavanje tablične vrijednosti za usvojeni nivo rizika, koji u posmatranom slučaju ima vrijednost: 1 – γ = 0,95 γ = 1 – 0,95 = 0,05, sa jedne strane i, sa druge strane, broja stepeni slobode, koji u posmatranom slučaju iznose: υ = n – 2 = 15 – 2 = 13. Sada je moguće odrediti testovnu vrijednost koja iznosi: t0,025;[1,13] = 2,1604, čime su određene i kritične vrijednosti za prihvatanje i neprihvatanje (odbacivanje) nulte hipoteze, a koje su: |t| ≤ 2,1604.
ǡଷଷ
ఙഁ
ǡସଶ
3. Izračunavanje testovne vrijednosti, pri čemu se koristi obrazac: t = ෝ ൌ
= 7,89.
4. Donošenje odluke o (ne)prihvatanju nulte hipoteze zahtijeva poređenje testovne i tablične vrijednosti, pri čemu je tablična vrijednost manja od testovne, odnosno vrijedi da je: 2,1604 < 7,89; što upućuje na odluku o odbacivanju nulte hipoteze. Uz rizik greške 5%, opravdano je zaključiti da sadržaj Fe u ishrani značajno utiče na nivo navedenog minerala u krvi ispitanika. Interval povjerenja nepoznate vrijednosti koeficijenta pravca regresionog modela (β) ocjenjujemo pomoću sljedećeg obrasca: P(b - tγ/2;n-2ߪොఉ ≤ β ≤ b + tγ/2;n-2ߪොఉ ) = (1 – γ) Pri čemu je: 0,95 = (1 – γ) γ = 1 – 0,95 = 0,05 γ/2 = 0,05/2 = 0,025 i n – 2 = 15 – 2 = 13 tγ/2;n-2 = t0,025;13 = 2,16004 Granice intervala povjerenja su: P(0,336 – 2,1604ͲǡͲͶʹ≤ β ≤ 0,336 + 2,16040,0426) = P(0,336 – 0,091961 d β d 0,336 + 0,091961) = P(0,2439 d β d 0,4279) = 0,95 Sa pouzdanošću 95% vrijednost koeficijenta regresije iznosi između 0,2439 i 0,4279. 312
Interval povjerenja nepoznate vrijednosti konstantnog člana regresionog modela (α) ocjenjujemo pomoću sljedećeg obrasca: P(a - tγ/2;n-2ߪොఈ ≤ α ≤ a + tγ/2;n-2ߪොఈ ) = (1 – γ) Pri čemu je: 0,95 = (1 – γ) γ = 1 – 0,95 = 0,05 γ/2 = 0,05/2 = 0,025 i n – 2 = 15 – 2 = 13 tγ/2;n-2 = t0,025;13 = 2,1604 Granice intervala povjerenja su: P(– 1,223 – 2,16ͲͶͳǡ͵͵ʹͶ≤ β ≤ – 1,223 + 2,16041,3324) = P(– 1,223 – 2,87805 d β d – 1,223 + 2,87805) = P(– 4,10111 d β d 1,65499) = 0,95 Sa pouzdanošću 95% vrijednost koeficijenta regresije iznosi između – 4,10111 i 1,65499. e. Stepen i smjer kvantiativnog slaganja varijacija dnevnog unosa Fe putem ishrane i nivoa navedenog minerala u krvi izražava se koeficijentom korelacije čija ocijenjena vrijednost iznosi: ݊ ή σ ܻܺ݅݅ െ σ ܺ݅ ή σ ܻ݅
ݎൌ
ൌ
ට݊ ή σ ܺ݅ ଶ െ ሺσ ܺ݅ሻଶ ή ඥ݊ ή σ ܻ݅ ଶ െ ሺσ ܻ݅ሻଶ ൌ
ͳͷ ή Ͷ͵ͷ െ Ͷͷͺ ή ͳ͵ͷǡͷ ξͳͷ ή ͳͶͻʹ െ
ൌ
Ͷͷͺଶ
ή ඥͳͷ ή ͳ͵ʹͲǡͷͷ െ
ͳ͵ͷǡͷଶ
ൌ
͵ͷ ξͳͲͳ ή ξͳͶͶͺ
ൌ
͵ͷ ൌ ͲǡͻͲͻͷ͵ ͵ͻʹͲǡͳͲͳͶ
Koeficijent proste linearne korelacije ima pozitivnu vrijednost, što znači da se varijacije dnevo unesene količine Fe putem ishrane i nivoa Fe u krvi kreću u istom smjeru, odnosno da sa povećanjem dnevnog unosa Fe putem ishrane nivo Fe u krvi raste i obrnuto, ukoliko se smanji dnevni unos Fe kroz ishranu, nivo Fe u krvi će opadati. Vrijednost koeficijenta korelacije iznosi 0,90953, što upućuje na izrazito jaku korlaciju među navedenim pojavama. Koeficjent determinacije ima vrijednost: r2 = 0,909532100 = 0,8272100 = 82,72% Dobijena vrijednost koeficijenta determinacije upućuje na zaključak da je 82,72% varijacija u nivou Fe u krvi objašnjeno varijacijama, dok je procenat neobjašnjenog varijabiliteta (100 – 82,72) % = 17,28 %.
313
f. Granice intervala povjerenja koeficijenta osnovnog skupa određujemo pomoću izraza: ଵ
ଵା
ଶ
ଵି
P( ݈݊
െ
௭ംȀమ ξିଵ
ଵ
ଵା
ଶ
ଵି
൏ ݖ൏ ݈݊
௭ംȀమ
ሻ ൌ ሺͳ െ ߛሻ
ξିଵ
Gdje je: 1 – γ = 0,95 γ = 1 – 0,95 = 0,05 γ/2 =0,05/2 = 0,025 z0,025 = - 1,96 i r = 0,90953; tako da imamo da je: ଵ
ଵାǡଽଽହଷ
ଶ
ଵିǡଽଽହଷ
P( ݈݊
െ
ଵǡଽ ξଵହିଵ
ଵ
ଵାǡଽଽହଷ
ଶ
ଵିǡଽଽହଷ
൏ ݖ൏ ݈݊
ଵ
ଵ
ଶ
ଶ
ଵǡଽ
ሻ ൌ Ͳǡͻͷ
ξଵହିଵ
P( ݈݊ʹͳǡͳͲ െ Ͳǡͷʹ͵ͺ ൏ ݖ൏ ݈݊ʹͳǡͳͲ Ͳǡͷʹ͵ͺሻ ൌ Ͳǡͻͷ P(ͳǡͷʹͶͺ െ Ͳǡͷʹ͵ͺ ൏ ݖ൏ ͳǡͷʹͶͺ Ͳǡͷʹ͵ͺሻ ൌ Ͳǡͻͷ P(ͳǡͲͲͲͻͷ ൏ ݖ൏ ʹǡͲͶͺʹͻሻ ൌ Ͳǡͻͷ P(0,8413 < ρ < 0,9798) = 0,95 Sa pouzdanošću od 95% zaključujemo da će koeficijent proste linearne korelacije imati vrijednost između 0,8413 i 0,9798; pri čemu se sa pouzdanošću 95% može zaključiti da je stepen kvantitativnog slaganja varijacija dnevnog unosa Fe putem ishrane i nivoa navedenog minerala u krvi visokog ili čak veoma jaka i pozitivnog smjera. g. Izgled grafičkog prikaza regresione prave u dijagramu rasipanja možemo prikazati na sljedećoj ilustraciji:
Linija regresije 14,00
y = 0,3359x - 1,2231 R² = 0,8272
Nivo Fe u krvi
12,00 10,00 8,00 6,00 4,00 2,00 0,00 0
10
20 30 Dnevni unos Fe (mg)
40
50
Slika 28. Grafički prikaz modela linearne zavisnosti nivoa Fe u krvi od dnevnog unosa Fe putem ishrane (mg) u dijagramu rasipanja podataka
h. Granice intervala povjerenja očekivane vrijednosti nivoa Fe u krvi pri dnevnom unosu 44 mg Fe uz pouzdanost 95 % možemo odrediti pomoću sljedećeg obrasca: 314
P(ݕො - tγ/2; n – 2ߪ௬ෞೖ E(yk) ≤ݕො - tγ/2; n – 2ߪ௬ෞೖ ) = (1 – γ), gdje su: ݕො = ݕො (44) = – 1,223 + 0,336 ή44 = 13,56895252 | 13,57 Planirani nivo povjerenja iznosi (1 – γ) = 0,95 γ = 1 – 0,95 = 0,05 γ/2 = 0,05/2 =0,025 i broj stepeni slobode: υ = n – 2 = 15 – 2 = 13, tako da je t0,025;13 = 2,1604 ି௫ҧ ሻమ
ଵ
ሺ௫
సభ ௫ ି௫ҧ
ߪො௬ෞరర ൌ ߪො௬ො ට σ రర మ
2ൌ
ͳǡʹͺʹͺට
ଵ
ଵହ
ሺସସିଷǡହଷሶሻమ ଵସଽଶିଵହήଷǡହଷሶమ
ଵ଼ଵǡଷହଵଵଵଵ ൌ ͳǡʹͺʹͺටͲǡͲሶ ൌ ǡଷଷଷଷ
ͲǡʹͺͻͷͳͻͶͻ | 0,73 P(13,57 – 2,16040,73 d E(y44) d 13,57 + 2,16040,73) = 0,95 P(11,982 d E(y44) d 15,144) = 0,95 Sa pouzdanošću od 95% kod ispitanika koji ishranom dnevno unose 44 mg Fe nivo Fe u krvi kretaće se od 11,98 do 15,14. Primjer 5.2. Pretpostavlja se da postoji veza između cijene proizvoda „P“ i njegove tražnje, analitičari poslovanja prikupili su empirijske podatke kako bi ispitali navedenu pretpostavku. Prikupljeni podaci se mogu prikazati sljedećom tabelom: Cijena proizvoda (BAM)
1,90
1,95
2,00
2,05
2,15
2,20
2,25
2,30
2,40
Tražnja (000 kom)
55
50
42
45
38
37
32
27
25
Tabela 146. Podaci o cijeni proizvoda “P” I njegovoj tražnji
Potrebno je: a) Nacrtati dijagram rasipanja empirijskih podataka i u njemu ucrtati liniju regresije; b) Utvrditi stepen i smjer kvantitativnog slaganja varijacija tražnje proizvoda i njegove cijene; c) Utvrditi procenat varijacija tražnje proizvoda objašnjen varijacijama u cijeni proizvoda; d) Ocijeniti model regresione zavisnosti posmatranih pojava; e) Ocijeniti očekivanu vrijednost tražnje proizvoda pri cijeni od 2,50 BAM sa pouzdanošću 90%. Rješenje: a. Dijagram rasipanja podataka može se prikazati ilustracijom na sljedećoj slici:
315
Regresiona prava u dijagramu rasipanja Tražnja za proizvodaom"P"
60 50 40 30 20 10 0 1,9
1,95
2
2,05 2,15 2,2 Cijena proizvoda "P"
2,25
2,3
2,5
Slika 29. Grafički prikaz regresione linije u dijagramu rasipanja podataka
b. Prema izgledu dijagrama rasipanja moguće je primijetiti da se tačke u dijagramu rasipanja grupišu od gornjeg lijevog ugla prema donjem desnom uglu i da se, pri tome, koncentrišu oko prave linije. Tako da se može uočiti da sa porastom cijene tražnja za proizvodom „P“ opada i da je međuzavisnost tražnje proizvoda i njegove cijene linearnog oblika i to u obliku inverzne zavisnosti, jer se varijacije posmatranih pojava kreću u suprotnom pravcu. Stepen i smjer kvantitativnog slaganja varijacija posmatranih pojava izražava se i mjeri koeficijentom proste linearne korelacije čija vrijednost se ocjenjuje korištenjem sljedećeg izraza: ݊ ή σ ܻܺ݅݅ െ σ ܺ݅ ή σ ܻ݅
ݎൌ
ට݊ ή σ ܺ݅ ଶ െ ሺσ ܺ݅ሻଶ ή ඥ݊ ή σ ܻ݅ ଶ െ ሺσ ܻ݅ሻଶ
Elementi za određivanje potrebnih parametra regresionog modela mogu se prikazati u sljedećoj tabeli: Rb
316
Xi
Yi
XiYi
Yi2
Xi2
1
1,9
55
104,5
3,61
2
1,95
50
97,5
3
2
42
4
2,05
45
3025
ܻଓ
ሺܻ െ ͵ͻሻଶ
51,3384
256
3,8025
2500 48,81464
121
84
4
1764 46,29087
9
92,25
4,2025
2025 43,76711
36
5
2,15
38
81,7
4,6225
1444 38,71958
1
6
2,2
37
81,4
4,84
1369 36,19582
9
7
2,25
32
72
5,0625
1024 33,67205
49
8
2,3
27
62,1
5,29
729 31,14829
144
9
2,5
25
62,5
6,25
625 21,05323
196
6
19,3
351
737,95
41,68
14505
351
821
Tabela 147. Radna tabela – elementi potrebni za izračunavanja parametara regresije
Ocijenjena vrijednost koeficijenta proste linearne korelacije ima vrijednost: ݊ ή σ ܻܺ݅݅ െ σ ܺ݅ ή σ ܻ݅
ݎൌ
ൌ
ට݊ ή σ ܺ݅ ଶ െ ሺσ ܺ݅ሻଶ ή ඥ݊ ή σ ܻ݅ ଶ െ ሺσ ܻ݅ሻଶ ൌ
ͻ ή ͵ǡͻͷ െ ͳͻǡ͵ ή ͵ͷͳ ඥͻ ή Ͷͳǡͺ െ ͳͻǡ͵ଶ ή ξͻ ή ͳͶͷͲͷ െ ͵ͷͳଶ
ൌ െͲǡͻͷͷ
Smjer koeficijenta korelacije potvrđuje pretpostavku o inverznoj korelaciji između cijene proizvoda i njegove tražnje jer je r < 0, pri čemu se očekuje da će sa porastom cijene proizvoda „P“ njegova tražnja opadati, vrijedi i obrnuto, tj.sa opadanjem cijene tražnja za proizvodom će rasti. Korelacija se može označiti kao izrazito jaka jer je apsolutna vrijednost koeficijenta korelacije između 0,9 i 1, tj.vrijedi: 0,9 < | – 0,955| < 1. c. Stepen objašnjenog varijabiliteta određena je koeficijentom determinacije čija je vrijednost: ݎଶ ൌ ͲǡͻͳʹͶ ൌ ͻͳǡʹͶΨ Vrijednost koeficijenta detreminacije upućuje na zaključak da je 91,24% varijacija u tražnji proizvoda objašnjeno njegovom cijenom, dok je 8,76% neobjašnjenog varijabiliteta. d. Jednačina linearne regresije, sa ocijenjenim vrijednostima parametara regresije, ima oblik: ൌ ܽ ܾ ή ܺ݅ ܻଓ Gdje su: ܾൌ
ήσ ିσ σ ήσ మ ିሺσ ሻ
మ
ൌ
ܽൌ
ଽήଷǡଽହିଵଽǡଷήଷହଵ ଽήସଵǡ଼ିଵଽǡଷమ
= – 50,47
σ ܻ݅ σ ܺ݅ ͵ͷͳ ͳͻǡ͵ െܾή ൌ െ ൬െͷͲǡͶ ή ൰ ൌ ͳͶǡʹͶ ͻ ͻ ݊ ݊ 317
U regresionom modelu koji iskazujemo prosječan zakonomjeran odnos između tražnje proizvoda I njegove cijene, značenje ocijenjenih vrijednosti parametara regresije možemo iskazati na sljedeći način: -
Konstantni član regresionog modela označava prosječnu vrijednost maksimalne tražnje koja iznosi 147.240 komada proizvoda, ukoliko bi proizvod “P” bio besplatan (x = 0 y = 147,24) tržište bi u prosjeku moglo da apsorbuje 147.240 komada (a=147,24);
-
Koeficijent regresije u posmatranom modelu označava prosječnu promjenu tražnje pri jediničnom povećanju cijene proizvoda. Dakle, ukoliko se cijena proizvoda “P” poveća za jednu BAM tražnja za njime će se u prosjeku samnjiti za 50.470 komada (b=50,47)
ൌ ͳͶǡʹͶ െ ͷͲǡͶ ή ܺ݅ Ocijenjeni oblik jednačine linearne regresije glasi: ܻଓ Pošto je regresiona jednačina opadajuća, opravdano je odrediti pri kojoj vrijednosti nezavisno promjenljive se može očekivati da zavisna promjenljive dostigne vrijednost nula, navedena analiza podrazumijeva da se regresiona jednačina izjednači sa nulom: 0 = 147,24 – 50,47x, odakle dobijamo pri kojoj vrijednosti nezavisne promjenljive je zadovoljena prethodna pretpostavka, a to je rješenje prethodne jednačine po x, pri čemu dobijamo da je: 147,24 = 50,47x ݔൌ
ͳͶǡʹͶ ൌ ʹǡͻʹ ͷͲǡͶ
Pri nivou cijene 2,92 BAM očekivana vrijednost tražnje proizvoda “P” iznositi će nula, dakle regresionim modelom se može izražavati tražnja samo za cijene koje su manje od 2,92 BAM. Ispravljene vrijednosti predstavljaju jedan od pokazatelja da li su parametri regresije pravilno određeni, ukoliko jesu tada je zbir između empirjskih I teorijskih regresionih vrijednosti jednak tj.vrijedi: σୀଵ ܻ ൌ σୀଵ ܻ . e. Granice intervala povjerenja očekivane vrijednosti tražnje za proizvodom „P“ pri cijeni od 2,5 BAM uz nivo pouzdanosti od 90 % možemo odrediti pomoću sljedećeg obrasca: P(ݕො - tγ/2; n – 2ߪ௬ෞೖ E(yk) ≤ݕො - tγ/2; n – 2ߪ௬ෞೖ ) = (1 – γ), gdje su: ݕො = ݕො (2,5) = 147,24 – 50,47ή ʹǡͷ = 21,065
318
Planirani nivo povjerenja iznosi (1 – γ) = 0,90 γ = 1 – 0,90 = 0,10 γ/2 = 0,10/2 =0,05 i broj stepeni slobode: υ = n – 2 = 9 – 2 = 7, tako da je t0,05;7 = 1,8946 ି௫ҧ ሻమ
ଵ
ሺ௫
సభ ௫ ି௫ҧ
ൌ ߪො௬ො ට σ మǡఱ మ ߪො௬ෞ మǡఱ
2,
Pri čemu je ߪ௬ොଶ ൌ
σୀଵ ݕଶ െ ܽ σୀଵ ݕ െ ܾ σୀଵ ݔ ݕ ͳͶͷͲͷ െ ͳͶǡʹͶ͵ͷͳ ͷͲǡͶ͵ǡͻͷ ൌ ൌ ͻǡ͵ ͻെʹ ݊െʹ ߪ௬ො ൌ ඥͻǡ͵ ൌ ͵ǡͳʹ ݔҧ ൌ ଵ
ൌ ͵ǡͳʹට ߪො௬ෞ మǡఱ ଽ
ሺଶǡହିଶǡଵସሶሻమ ସଵǡ଼ିଽήଶǡଵସሶ
ͳͻǡ͵ ൌ ʹǡͳͶሶ ͻ
ൌ ͵ǡͳʹඥͲǡ ͳሶ ͳǡʹͳʹͻͻ ൌ ͵ǡͷͻͷʹ͵ͻͺ | 3,59
P(21,065 – 1,89463,59 d E(y2,5) d 21,065 + 1,89463,59) = 0,90 P(14,253 d E(y2,5) d 27,876) = 0,90 Sa pouzdanošću od 90% pri cijeni od 2,5 BAM očekuje se tražnja za proizvodom „P“ između 14.253 i 27.876 komada.
5.3. Jednostavna krivolinijska regresija Osnovna osobina proste regresije jeste da sadrži dvije promjenljive od kojih je jedna zavisna, a druga nezavisna. Pri čemu funkcionalni dio regresionog modela može imati različite matematičke oblike kao što je linearni, parabolični, eksponencijalni i dr. Ukoliko je funkcionalni dio modela izražen linearnom funkcijom, odnosno ako su parametri modela i potencije promjenljivih jednake, kao i da je stohastički član u aditivnom odnosu sa funkcionalnim dijelom radi se o modelu proste linearne regresije. Odnosi među pojama, čiju međuzavisnost analiziramo, mogu biti i nelinearni, pri čemu se takvi odnosi izražavaju modelima proste krivolinijske regresije. Veliki broj modela jednostavne krivolinijske regresije mogu se prevesti u linearni oblik odgovarajućim metodama transformacije promjenljivih u modelu, jedan od oblika linearizacije odnosi se na logaritamsku trasformaciju nezavisne, zavisne ili obiju promjenljivih, sljedeći oblik predstavlja recipročnu transformaciju nezavisne ili zavisne promjenljive, ili drugi načini transformacije.
319
Oblik funkcionalnog dijela proizilazi iz teorijskih postavki područja u kome se model primjenjuje, a relativno jednostavno se može uočiti korištenjem dijagrama rasipanja podataka. Analogno, zaključak se može izvesti pomoću prikaza rezidualnih odstupanja dobijenih na temelju modela proste linearne regresije. Uspješna transformacija zahtijeva i da se pravilno uoči oblik odnosa slučajne promjenljive i funkcionalnog dijela modela. Modeli proste krivolinijske regresije mogu se pojaviti u obliku: Funkcije oblika: yi = α + βlnxi + εi, koja se u linearni oblik prevodi zamjenom člana lnxi novom promjenljivom: x1i = lnxi; pri čemu linearni oblik navedene funkcije glasi: yi = α + βx1i + εi - Funkcije oblika: yi = αxiβεi, koja se u linearni oblik prevodi logaritmovanjem izraza, pri čemu dobijamo log yi = logα + β logxi + logεi, gdje članove prethodnog izraza možemo zamijeniti novim članovima: log yi = y1i; logα = α1; logxi = x1i i logεi = ε1i; pri čemu linearni oblik navedene funkcije glasi: y1i = α1 + βx1i + ε1i; - Funkcije oblika: yi = e α + βxi + εi, koja se u linearni oblik transformiše pomoću prirodnog logaritmovanja, pri čemu dobijamo: ln yi = α + βxi + εi; koja se u linearni oblik prevodi zamjenom člana ln yi novom promjenljivom: lnyi = y1i; pri čemu linearni oblik navedene funkcije glasi: y1i = α + βxi + εi; ଵ - Funkcije oblika: yi = α + β + εi, koja se u linearni oblik transformiše pomoću zamjene ௫ ଵ ଵ člana novom promjenljivom: = x1i; pri čemu linearni oblik navedene funkcije glasi: ௫ ௫ yi = α + β x1i + εi. Nakon provedenih transformacija modeli se smatraju linearnim modelima i kao takvi -
analiziraju se identično kao i moedeli proste linearne regresije, pri čemu izbor konkretnog modela prilagođava analiziranom problemu. Primjer 5.3. Prikupljeni su podaci o vrijednostima dužine zaustavnog puta i dubine šare na automobilskim gumama. Ispitivanje podrazumijeva da se kočenje realizuje u istim uslovima, a odnosi se na: vrstu i kvalitet kočionog sistemama, brzinu kretanja vozila, podlogu na kojoj se koči, stanje puta po kome se vozilo kreće, vremenske prilike... podaci se mogu prikazati u sljedećoj tabeli: Dubina šare mm Put kočenja m
0,2 35
0,3 34
0,4 33
0,6 32
0,9 31
1,5 30
2,1 28
3,3 25
4,1 23
Tabela 148. Podaci o dubini šare na automobilskim gumama I dužini puta kočenja automobila
Potrebno je: a. Nacrtati dijagram rasipanja empirijskih podataka i u njemu ucrtati liniju regresije; b. Izvršiti adekvatnu linearizaciju modela; 320
c. Utvrditi stepen i smjer kvantitativnog slaganja varijacija dužine puta kočenja i dubine šare na automobilskoj gumi; d. Utvrditi procenat varijacija puta kočenja objašnjen varijacijama u dubini šare automobilske gume; e. Ocijeniti model regresione zavisnosti posmatranih pojava; f. Ocijenniti očekivanu vrijednost puta kočenja pri dubini šare automobilske gume od 2,10 mm sa pouzdanošću 99 %. Rješenje: a. Dijagram rasipanja podataka može se prikazati ilustracijom na sljedećoj slici: Regresiona linija u dijagramu rasipanja podataka 40
Put kočenja (m)
35 30 25 20 15 10 5 0 0,00
1,00
2,00
3,00
4,00
5,00
Dubina šare (mm) Slika 30. Grafički prikaz regresione linije u dijagramu rasipanja podataka
b.
Prema izgledu dijagrama rasipanja moguće je primijetiti da se tačke u dijagramu rasipanja grupišu hiperbole čiji izgled ukazuje na regresioni model kod koga se međuzavisnost dubine šare na automobilskoj gumi i dužine puta kočenja može iskazati u obliku sljedeće relacije: yi = αxiβεi, Linearni oblik prethodnog modela glasi: y1i = α1 + βx1i + ε1i; Gdje su: log yi = y1i; 321
logα = α1; logxi = x1i i logεi = ε1i Polazni podaci za ocijenu pareametara regresionog modela se mijenjaju I prelaze u novi oblik, prilagođen smjeni promjenljivih u modelu. Dijagram rasipanja podataka, nakon linearizacije modela može se prikazati sljedećom ilustracijom: Dijagram rasipanja 1,600 1,550 log Yi
1,500 1,450 1,400
-0,800
-0,600
-0,400
1,350 -0,200 0,000 log Xi
0,200
0,400
0,600
0,800
Slika 31. Grafički prikaz regresione prave u dijagramu rasipanja podataka
U skladu sa smjenama promjenljivih u regresionom modelu, transformisani oblik promjenljivih, kao I elementi za ocjenu parametara regresionog modela mogu prikazati u sljedećoj tabeli: Rb 1 2 3 4 5 6 7 8 9 6
Xi Yi XiYi Xi2 Yi2 -0,699 1,544 0,489 -1,079 2,384 -0,523 1,531 0,273 -0,801 2,345 -0,398 1,519 0,158 -0,604 2,306 -0,222 1,505 0,049 -0,334 2,265 -0,046 1,491 0,002 -0,068 2,224 0,176 1,477 0,031 0,260 2,182 0,322 1,447 0,104 0,466 2,094 0,519 1,398 0,269 0,725 1,954 0,613 1,362 0,376 0,834 1,854 -0,258 13,275 1,751 -0,601 19,610
ܻଓ 1,560 1,537 1,522 1,499 1,477 1,449 1,431 1,406 1,394 13,275
ሺܻ െ ͳǡͶͷሻଶ 0,007 0,004 0,002 0,001 0,000 0,001 0,002 0,005 0,007 0,028
Tabela 149. Radna tabela – elementi potrebni za izračunavanja parametara regresije
322
c.
Varijacije posmatranih pojava kreću u suprotnom pravcu. Stepen i smjer kvantitativnog slaganja varijacija posmatranih pojava izražava se i mjeri koeficijentom proste linearne korelacije čija vrijednost se ocjenjuje korištenjem sljedećeg izraza: ݎൌ
݊ ή σ ܻܺ݅݅ െ σ ܺ݅ ή σ ܻ݅ ට݊ ή σ ܺ݅ ଶ െ ሺσ ܺ݅ሻଶ ή ඥ݊ ή σ ܻ݅ ଶ െ ሺσ ܻ݅ሻଶ
Ocijenjena vrijednost koeficijenta proste linearne korelacije ima vrijednost: ݎൌ
ͻ ή ሺെͲǡͲͳሻ െ ሺെͲǡʹͷͺሻ ή ͳ͵ǡʹͷ ඥͻ ή ͳǡͷͳ െ ሺെͲǡʹͷͺሻଶ ή ඥͻ ή ͳͻǡͳͲ െ ͳ͵ǡʹͷଶ
ൌ െͲǡͻͷͷ
Koeficijent korelacije linearnog oblika regresionog modela je negativnog predzanka što znači da će put kočenja kod automobilskih guma sa dubljom šarom kraći, dok će se sa smanjivanjem dubine šara na automobilskim gumama će se put kočenja povećavati. Vrijedni i obrnuto. Koeficijent korelacije ima vrijednost 0,955 što upućuje na zaključak da se korelacija može označiti kao izrazito jaka jer je apsolutna vrijednost koeficijenta korelacije između 0,9 i 1, tj.vrijedi: 0,9 < | – 0,955| < 1. d. Stepen objašnjenog varijabiliteta određena je koeficijentom determinacije čija je vrijednost: ݎଶ ൌ Ͳǡͻͳʹ͵ ൌ ͻͳǡʹ͵Ψ Vrijednost koeficijenta detreminacije upućuje na zaključak da je 91,23% varijacija u tražnji proizvoda objašnjeno njegovom cijenom, dok je 8,77% neobjašnjenog varijabiliteta. e. Jednačina linearne regresije, sa ocijenjenim vrijednostima parametara regresije, ima ൌ ܽ ܾ ή ܺ݅ oblik: ܻଓ Gdje su: ܾൌ
ήσ ିσ σ ήσ మ ିሺσ ሻ
ܽൌ
మ
ൌ
ଽήሺିǡଵሻିሺିǡଶହ଼ሻήଵଷǡଶହ ଽήଵǡହଵିଵଷǡଶହమ
= – 0,1265
σ ܺ݅ ͳ͵ǡʹͷ ሺെͲǡͲͳሻ σ ܻ݅ െܾή ൌ Ȅ ሺെͲǡʹͷͺሻ ή ൌ ͳǡͶͳ͵ʹ ͻ ͻ ݊ ݊
323
U regresionom modelu koji iskazujemo prosječan zakonomjeran odnos između dubine šare automobilskig guma i dužine puta kočenja, značenje ocijenjenih vrijednosti parametara regresije možemo iskazati na sljedeći način: -
Konstantni
član
regresionog modela
označava
prosječnu
vrijednost
zavisne
promjenljive ukoliko nezavisna promjenljiva ima vrijednost nula, kada je x1i = 0 tada je dubina šare xi = 100 = 1mm, a toj dubini šare odgovara put kočenja yi (1,47132) = 101,47132 = 29,60 m; -
Koeficijent regresije u posmatranom modelu označava prosječnu promjenu dužine puta kočenja pri jediničnom povećanju dubine šare na automobilskim gumama. Dakle, ukoliko se dubina šare na automobilskoj gumi poveća za 1mm put kočenja automobila se skrati za 10-0,1265 = 0,75 m.
Ocijenjeni oblik jednačine linearne regresije glasi: ܻଵ ൌ ͳǡͶͳʹ͵ െ Ͳǡͳʹͷ ή ܺଵ Pošto je regresiona jednačina opadajuća, opravdano je odrediti pri kojoj vrijednosti nezavisno promjenljive se može očekivati da zavisna promjenljive dostigne vrijednost nula, navedena analiza podrazumijeva da se regresiona jednačina izjednači sa nulom: 0 = 1,47123 – 0,1265x, odakle dobijamo pri kojoj vrijednosti nezavisne promjenljive je zadovoljena prethodna pretpostavka, a to je rješenje prethodne jednačine po x, pri čemu dobijamo da je: 1,47123 = 0,1265x ݔൌ
ͳǡͶͳʹ͵ ൌ ͳͳǡ͵ Ͳǡͳʹͷ
Pri nivou dubine šare automobilskih guma od 1011,63 =4,28x 1011 mm očekivana vrijednost puta kočenja automobila iznosila bi 1 metar (100 = 1), jasno je da je očekivanje zaustavnog puta automobila navedene dužine samo teorijska pretpostavka.. Ispravljene vrijednosti predstavljaju jedan od pokazatelja da li su parametric regresije pravilno određeni, ukoliko jesu tada je zbir između empirjskih I teorijskih regresionih vrijednosti jednak tj.vrijedi: σୀଵ ܻଵ ൌ σୀଵ ܻଵ . f. Granice intervala povjerenja očekivane vrijednosti dužine puta kočenja automobila pri dubini šare automobilske gume od 2,1 mm uz nivo pouzdanosti od 99 % možemo odrediti pomoću sljedećeg obrasca: 324
P(ݕො - tγ/2; n – 2ߪ௬ෞೖ E(yk) ≤ݕො - tγ/2; n – 2ߪ௬ෞೖ ) = (1 – γ), gdje su: x1i = log 2,1 = 0,322 ݕො = ݕො (0,322) = 1,47132 – 0,1265ή Ͳǡ͵ʹʹ = 1,4306 Planirani nivo povjerenja iznosi (1 – γ) = 0,99 γ = 1 – 0,99 = 0,01 γ/2 = 0,01/2 =0,005 i broj stepeni slobode: υ = n – 2 = 9 – 2 = 7, tako da je t0,005;7 = 3,4995 ି௫ҧ ሻమ
ଵ
ሺ௫
సభ ௫భ ି௫ҧ
ߪො௬ෞ ൌ ߪො௬ො ට σ మǡభ మ మǡభ
2,
Pri čemu je ߪ௬ොଶ ൌ
ଶ σୀଵ ݕଵ െ ܽ σୀଵ ݕଵ െ ܾ σୀଵ ݔଵ ݕଵ ͳͻǡͳ െ ͳǡͶͳ͵ʹͳ͵ǡʹͷ Ͳǡͳʹͷͳǡͷͳ ൌ ൌ ͲǡͲͶ͵ ͻെʹ ݊െʹ
ߪ௬ො ൌ ඥͲǡͲͶ͵ ൌ ͲǡʹͲͻ ݔҧ ൌ
െͲǡʹͷͺ ൌ െͲǡͲʹͺͶ ͻ
ଵ
ሺǡଷଶଶାǡଶ଼ସሻమ
ଽ
ଵǡହଵିଽήሺିǡଶ଼ସሻమ
ߪො௬ෞ ൌ ͲǡʹͲͻට మǡఱ
ൌ ͲǡʹͲͻඥͲǡ ͳሶ ͲǡͲͲͺ ൌ ͲǡͲͳ͵ | 0,071
P(1,4306 – 3,49950,071 d E(y2,1) d 1,4306 + 3,49950,071) = 0,99 P(1,181 d E(y2,1) d 1,680) = 0,99 Sa pouzdanošću od 99% pri dubini šare automobilskih guma od 2,1 mm očekuje se da će dužina puta kočenja iznositi između 101,181 = 15,17 i 101,68 = 47,86 metara.
5.4. Odabrani modeli nelinearne regresije Modeli ne linearne regresije obuhvataju veliki broj modela, među kojima se mogu istaknuti: -
Parabolični regresioni model drugog stepena, čiji je opšti oblik: yi = α + βxi + γxi2 + εi;
-
Eksponencijalni regresioni model, čiji je opšti oblik: yi = αβxi εi, koji se transformiše u ekvivalentni logaritamski regresioni model, ekvivalentan prethodnom izrazu, čiji je opšti oblik: log yi = log α + xi log β + log εi.
325
Ocijenjene vrijednosti nepoznatih parametara prethodno zapisanog paraboličnog regresionog modela drugog stepena (α, β i γ) su a, b i c, ocijenjena vrijednost stohastičkog člana je ei, tako da model parabolične regresije drugog stepena sa ocijenjenim parametrima ima oblik: ݕො = a + bxi + cxi2 + ei, i = 1, 2, ... , n Ocijenjene vrijednosti parametara regresionog modela baziraju se na metodi najmanjih kvadrata, čija je pretpostavka da se vrijednost parametara odrede tako da ukupna rezidualna odstupanja budu jednaka nula, a da zbir kvadrata njihovih vrijednosti bude minimalan, odnosno da vrijedi: σୀଵ ݁ ൌ Ͳ i σୀଵ ݁ଶ ՜ ݉݅݊ Minimiziranje vrijednosti funkcije zahtijeva izjednačavanje vrijednosti prvog izvoda funkcije sa nulom. Tako da imamo: ei = (yi - ݕො ) = [yi – (log a + bxi + cxi2)], odnosno σୀଵ ݁ଶ = σୀଵሾyi – (a + bxi + cxi2)]², ukoliko razvijemo vrijednost navedenog izraza i odredimo vrijednost njegovog prvog izvoda po a, po b i po c, koji izjednačimo sa nulom, dobijamo sistem normalnih jednačina: σୀଵ ݕ = na + bσୀଵ ݔ + cσୀଵ ݔଶ σୀଵ ݔ ݕ = aσୀଵ ݔ + bσୀଵ ݔଶ + cσୀଵ ݔଷ σୀଵ ݔଶ ݕ = aσୀଵ ݔଶ + bσୀଵ ݔଷ + cσୀଵ ݔସ Rješavanjem navedenog sistema dobijamo ocijenjene vrijednosti nepoznatih parametara posmatranog regresionog modela. Ocijenjene vrijednosti nepoznatih parametara prethodno zapisanog eksponencijalnog regresionog modela (α i β) su a i b, ocijenjena vrijednost stohastičkog člana je ei, tako da model eksponencijalne regresije sa ocijenjenim parametrima ima oblik: ݕො = abxi + ei, i = 1, 2, ... , n Ocijenjene vrijednosti parametara posmatranog regresionog modela baziraju se na metodi najmanjih kvadrata, čija je pretpostavka da se vrijednost parametara odredi tako da ukupna rezidualna odstupanja budu jednaka nula, a da zbir kvadrata njihovih vrijednosti bude minimalan, odnosno da vrijedi: σୀଵ ݁ ൌ Ͳ i σୀଵ ݁ଶ ՜ ݉݅݊
326
Minimiziranje vrijednosti funkcije zahtijeva izjednačavanje vrijednosti prvog izvoda funkcije sa nulom. Tako da imamo: ei = (yi - ݕො ) = [yi – (a bxi)], odnosno σୀଵ ݁ଶ = σୀଵሾyi – (a bxi)]², ukoliko razvijemo vrijednost navedenog izraza i odredimo vrijednost njegovog prvog izvoda po a i po b, koji izjednačimo sa nulom, dobijamo sistem jednačina čije rješavanje predstavlja složen matematički postupak, stoga je jednostavnije do sistema normalnih jednačina doći polazeći od trasformisanog oblika modela, koji ima oblik: log ݕො = log a + xi log b + log ei, i = 1, 2, ... , n Ocijenjene vrijednosti parametara posmatranog regresionog modela baziraju se na metodi najmanjih kvadrata, čija je pretpostavka da se vrijednost parametara odredi tako da ukupna rezidualna odstupanja budu jednaka nula, a da zbir kvadrata njihovih vrijednosti bude minimalan, odnosno da vrijedi: σୀଵ ݁ ൌ Ͳ i σୀଵ ݁ଶ ՜ ݉݅݊ Minimiziranje vrijednosti funkcije zahtijeva izjednačavanje vrijednosti prvog izvoda funkcije sa nulom. Tako da imamo: ei = (yi - ݕො ) = [log yi – (log a + xi log b)], odnosno σୀଵ ݁ଶ = σୀଵሾ݈݃yi – (log a + xi log b)]², ukoliko razvijemo vrijednost navedenog izraza i odredimo vrijednost njegovog prvog izvoda po a i po b, koji izjednačimo sa nulom, dobijamo sistem normalnih jednačina: σୀଵ ݈ݕ݃ = n log a + log bσୀଵ ݔ σୀଵ ݔ ݈ݕ݃ = log a σୀଵ ݈ݔ݃ + log bσୀଵ ݔ ଶ Rješavanjem navedenog sistema dobijamo izraze kojim ocjenjujemo nepoznate vrijednosti parametara posmatranog regresionog modela, pri čemu su rješenja sistema normalnih jednačina: ݈ ܾ݃ൌ
σୀଵ ݔ ݈ݕ݃ െ ݔҧ σୀଵ ݈ݕ݃ σୀଵ ݔଶ െ ݊ݔҧ ଶ
ܽ ൌ
σୀଵ ݈ݕ݃ െ ݈ ܾ݃ή ݔҧ ݊
Izbor konkretnog modela prilagođava se analiziranom problemu, a nakon određivanja analitičkog oblika konkretnog modela regresiona analiza obuhvata postupke analogne postupcima regresione prezentovane u kontekstu analize linearnog regresionog modela.
327
Koeficijent determinacije predstavlja specifični pokazatelj reprezentativnosti regresionog modela, izračunava se tako što se zbir kvadrata odstupanja regresionih vrijednosti podijeli sa zbirom kvadrata odstupanja vrijednosti zavisne promjenljive od njezine aritmetičke sredine, odnosno korštenjem izraza: ܴଶ ൌ
σୀଵሺݕෝప െ ݕതሻଶ Ǣ Ͳ ܴଶ ͳ σୀଵሺݕ െ ݕതሻଶ
U brojniku je dio varijabiliteta protumačen regresionim modelom, a u nazivniku izraza je ukupan varijabilitet. Koeficijent determinacije poprima vrijednosti iz zatvorenog intervala [0,1], pri čemu vrijednosti bliže gornjoj granici (1) ukazuju na veći udio protumačenog varijabiliteta, dok vrijednosti bliže donjoj granici ukazuju na manji udio varijabiliteta protumačenog odabranim modelom. Pored koeficijenta determinacije, kao pokazatelj reprezentativnosti regresionog modela, koristi se korigovani koeficijent determinacije, koji uzima u obzir i broj promjenljivih u regresionom modelu (K). Važno je naglasiti da model većih dimenzija (model sa većim brojem promjenljivih) ne mora biti i reprezentativniji. Vrijednost korigovanog koeficijenta determinacije izračunava se pomoću obrasca: ܴതଶ ൌ ͳ െ
ିଵ ିሺାଵሻ
ሺͳ െ ܴଶ ሻ, gdje su: n – veličina uzorka; K – broj promjenljivih u
regresionom modelu. Ograničenje u primjeni navedenog pokazatelja sdržana je u činjenici da njegova vrijednost može biti nula kada se ne može koristiti kao pokazatelj reprezentativnosti modela. Testiranje značajnosti odabranog regresionog modela podrazumijeva ispitivanje pretpostavke o distribućiji stohastičkog člana. Ukoliko su vrijednosti stohastičkog člana nekolerirane promjenljive veličine, odnosno normalno raspoređene veličine sa arotmetičkom sredinom nula i konstantnom varijansom σei2. Praktično provođenje statističkog testa obuhvata sljedeće postupke: 1. Formulisanje statističkih hipoteza: H0: α = β = γ = ... = 0;
HA: (α, β, γ, ... ) ≠ 0 ᇣᇧ ߙǡ ᇧᇤᇧ ߚǡ ߛǡᇧᇥ ǤǤǤ
U nultoj hipotezi sadržana je tvrdnja da niti jedna od promjenljivih u regresionom modelu nema statistički značaj, dok alternativna hipoteza sadrži pretpostavku da barem jedna od K
regresionih
promjenljivih
omogućava
objašnjavanje
varijabiliteta
regresione
promjenlive, tj.da je barem jedan od parametara regresionog modela različit od nule. 328
2. Teorijska (tablična) vrijednost očitava kao teorijska vrijednost F - distribucije za pretpostavljeni rizik greške αt, i stepene slobode K i n – (K+1) stepeni slobode, odnosno Fαt;[K;n-(K+1)]; 3. Testovna veličina, odnosno empirijski F – omjer izračunava se korištenjem obrasca: ܨൌ σ
σ ො ି௬തሻమ Ȁ సభሺ௬
തሻమ Ȁሾିሺାଵሻሿ సభሺ௬ ି௬
ൌ
ோమ Ȁ ሺଵିோమ ሻȀሾିሺାଵሻሿ
4. Odluka o ishodu testa, odnosno o prihvaćanju ili ne prihvaćanju nulte hipoteze donosi se poređenjem tablične i testovne vrijednosti, ukoliko je tablična vrijednost veća od testovne prihvatamo nultu hipotezu, tj. ako je Fαt;[K;n-(K+1) > F. Suprotno, ukoliko testovna vrijednost veća od tablične odbacujemo nultu hipotezu. Odluka se može donijeti poređenjem empirijskog i teorijskog p – omjera. Primjer 5.4. Podaci o djelovanju prirodnih antihistaminika na koncentraciju Imunoglobina E (IgE) kao uzročnika alergije, ispitivani na pacijentima sa istom početnom koncentracijom pomenutih alergena prikazani su sljedećoj tabeli: Xi (AHM mg)
1,0
1,1
1,2
1,3
1,4
1,5
1,6
1,7
1,8
Yi (IgE IU/ml)
70
50
40
42
35
35
30
28
25
Xi (AHM mg)
1,9
2,0
2,1
2,2
2,3
2,4
2,5
2,6
2,7
Yi (IgE IU/ml)
20
15
17
15
10
15
20
25
20
Tabela 150. Distribucija pacijenata prema efektima doziranja antihistaminika na nivo koncentracije Imunoglukana E kao uzročnika alergije
Potrebno je: a. Nacrtati dijagram rasipanja empirijskih podataka i u njemu ucrtati liniju regresije; b. Ocijeniti model regresione zavisnosti posmatranih pojava; c. Ocjeniti vrijednost standardne devijacije i koeficijenta varijacije regresionog modela; d. Ocijeniti očekivanu vrijednost koncentracije Imunoglukana E pri dozi od 2,13 mg AHM (antihistaminika). Rješenje: a. Dijagram rasipanja empirijskih podataka možemo ilustrovati sljedećim prikazom:
329
Nivo Imunoglukana E IU/ml 80,0 70,0 60,0 50,0 40,0 30,0 20,0 10,0 0,0 0,0
0,5
1,0
1,5
2,0
2,5
3,0
Slika 32. Dijagram rasipanja empirijskih podataka efekti doziranja određene količine antihistaminika (AHM) u mg na nivo Imunoglukana E u krvi ispitanika liječenih posmatranim antihistaminikom, sa ucrtanaom linijom regresije
Prema izgledu dijagrama rasipanja moguće je uočiti da se empirijski podaci okupljaju oko parabole, tako da je prosječan zakonomjeran odnos kojim je moguće izraziti zavisnost posmatranih pojava ima oblik polinomne funkcije drugog reda, drugim riječima adekvatan izbor funkcije odnosi se na parabolični regresioni model obilka: yi = α + βxi + γxi2 + εi, čiji je ocijenjeni oblik: ݕෝప = a + bxi + cxi2 + ei b. Radna tabela sa elementima za izračunavanje parametara regresionog modela ima izgled: xi
330
xi 2
yi
xi 3
x i4
xi yi
xi2yi
ݕෝప
e i2
1,0
70,0
1,0
1,000
1,0000
70,00
70,00
62,52
55,90
1,1
50,0
1,2
1,331
1,4641
55,00
60,50
55,08
25,76
1,2
40,0
1,4
1,728
2,0736
48,00
57,60
48,28
68,54
1,3
42,0
1,7
2,197
2,8561
54,60
70,98
42,13
0,02
1,4
35,0
2,0
2,744
3,8416
49,00
68,60
36,64
2,68
1,5
35,0
2,3
3,375
5,0625
52,50
78,75
31,79
10,28
1,6
30,0
2,6
4,096
6,5536
48,00
76,80
27,60
5,76
1,7
28,0
2,9
4,913
8,3521
47,60
80,92
24,06
15,55
1,8
25,0
3,2
5,832
10,4976
45,00
81,00
21,17
14,70
1,9
20,0
3,6
6,859
13,0321
38,00
72,20
18,92
1,16
2,0
15,0
4,0
8,000
16,0000
30,00
60,00
17,33
5,45
2,1
17,0
4,4
9,261
19,4481
35,70
74,97
16,39
0,37
2,2
15,0
4,8
10,648
23,4256
33,00
72,60
16,11
1,22
2,3
10,0
5,3
12,167
27,9841
23,00
52,90
16,47
41,83
2,4
15,0
5,8
13,824
33,1776
36,00
86,40
17,48
6,15
2,5
20,0
6,3
15,625
39,0625
50,00
125,00
19,14
0,73
2,6
25,0
6,8
17,576
45,6976
65,00
169,00
21,46
12,54
2,7
25,0
7,3
19,683
53,1441
67,50
182,25
24,42
0,33
33,3
517,0
66,5
140,859 312,6729
847,90
1540,47
517,00
268,98
Tabela 151. Radna tabela – elementi za određivanje parametra regresionog modela
Prema izgledu dijagrama rasipanja orginalnih podataka adekvatan izbor regresionog modela podrazumijeva izbor, paraboličnog regresionog modela, pri čemu u postupku određivanja ocijenjenih vrijednosti parametara regresionog modela polazimo od sistema normalnih jednačina: σୀଵ ݕ = na + bσୀଵ ݔ + cσୀଵ ݔଶ σୀଵ ݔ ݕ = aσୀଵ ݔ + bσୀଵ ݔଶ + cσୀଵ ݔଷ σୀଵ ݔଶ ݕ = aσୀଵ ݔଶ + bσୀଵ ݔଷ + cσୀଵ ݔସ Uvrštavajući konkretne vrijednosti u prethodni sistem jednačina, dobijamo: 517,00 = 18,00a + 33,30b + 66,45c 847,90 = 33,30a + 66,45b + 140,859c 1540,47 = 66,45a + 140,859b +312,6729c Rješavanje posmatranog sistema jednačina moguće je odrediti korištenjem adekvatnih matematičkih metoda, kao što su supstitucija, Gausova metoda (suprotnih koeficjenata), matrična metoda i dr. Posmatrani sistem jednačina rješiti ćemo metodom determinanti35. Ocijenjene vrijednosti parametara regresionog modela dobijamo sljedećim postupkom: ͳͺ ͵͵ǡ͵ ǡͶͷ ǡͶͷ ͳͶͲǡͺͷͻ อ ൌ ͺͻǡͺͳͺͺ ് Ͳ ܦൌ อ ͵͵ǡ͵ ǡͶͷ ͳͶͲǡͺͷͻ ͵ͳʹǡʹͻ 35
Primjena matrične metode podrazumijeva formiranje n+1 determinante (n – označava broj promjenljivih u sistemu jednačina). Determinanta sistema sadrži koeficjente koji u sistemu jednačina stoje uz promjenljive (nepoznate) veličine pri čemu ukoliko je njezina vrijednost različita od nule pokazuje da sistem jednačina ima rješenje. Pored determinante sistema, svakoj promjenljivoj u sistemu jednačina pridružujumo po jednu determinant, koju dobijamo tako što u determinanti sistema kolonu koeficjenata uz posmatranu promjenljivu zamjenimo slobodnim koeficijentima iz sistema jednačina. Vrijednost promjenljive dobijamo kako količnik determinante posmatrane promjenljive I determinante sistema.
331
Kako je determinanta sistema različita od nule, zaključujemo da sistem ima rješenje. ͷͳǡͲͲ ͵͵ǡ͵ ǡͶͷ ǡͶͷ ͳͶͲǡͺͷͻ อ ൌ ͳͷǤͷͳͻǡͻͳ ܦ ൌ อ ͺͶǡͻͲ ͳͷͶͲǡͶ ͳͶͲǡͺͷͻ ͵ͳʹǡʹͻ ͳͺ ͷͳǡͲͲ ǡͶͷ ͺͶǡͻͲ ͳͶͲǡͺͷͻ อ ൌ െͳʹǤͺʹǡͻͲ ܦ ൌ อ ͵͵ǡ͵ ǡͶͷ ͳͷͶͲǡͶ ͵ͳʹǡʹͻ ͳͺ ͵͵ǡ͵ ͷͳǡͲͲ ǡͶͷ ͺͶǡͻͲ อ ൌ ʹǤͻʹʹǡͻͺ ܦ ൌ อ ͵͵ǡ͵ ǡͶͷ ͳͶͲǡͺͷͻ ͳͷͶͲǡͶ Nadalje dobijamo: ܽൌ ܾൌ
ܦ ͳͷǤͷͳͻǡͻͳ ൌ ൌ ͳʹǡͻ͵ ͺͻǡͺͳͺͺ ܦ
ܦ െͳʹǤͺʹǡͻͲ ൌ ൌ െͳͶʹǡͺͳͳ ͺͻǡͺͳͺͺ ܦ
ܿൌ
ʹǤͻʹʹǡͻͺ ܦ ൌ ൌ ͵ʹǡͷͶͲ͵ͺ ͺͻǡͺͳͺͺ ܦ
Regresioni model sa ocijenjenom vrijednosti parametara ima oblik; ݕෝప ൌ ͳʹǡͻ͵ െ ͳͶʹǡͺͳͳݔ ͵ʹǡͷͶͲ͵ͺݔଶ c. Ocijenjena vrijednost standardne devijacije regresionog modela izračunava se korištenjem σ ො ሻమ సభሺ௬ ି௬
obrasca: ߪො ൌ ට
ିሺାଵሻ
ݕത ൌ
ൌට
ଶ଼ǡଽ଼ ଵ଼ିሺଷାଵሻ
ൌ ξͳͻǡʹͳʹͺͶ ൌ Ͷǡ͵ͺǢ
Ͷǡ͵ͺͲ ͷͳ ൌ ʹͺǡʹ ֜ ܭ௬ො ൌ ή ͳͲͲΨ ൌ ͳͷǡʹΨ ʹͺǡʹ ͳͺ
Vrijednost prethodnih pokazatelja ukazuje na nizak nivo varijabiliteta u okviru izabranog regresionog modela, čime je, sa posmatranog aspekta, opravdano smatrati ga reprezentativnim za pojave čiji varijabilitet se nime izražava. d. Ocijenjena vrijednost nivoa Imunoglukana E u krvi pacijenta koji je tretiran dozom od 2,13 mg prirodnog antihistaminika dobija se kao: ݕොሺʹǡͳ͵ሻ ൌ ͳʹǡͻ͵ െ ͳͶʹǡͺͳͳ ή ʹǡͳ͵ ͵ʹǡͷͶͲ͵ͺ ή ʹǡͳ͵ଶ ൌ ͳǡʹ͵ͻͶͷǤ Zaključujemo da kod pacijenta koji konzumira dozu od 2,13 mg posmatranog antihistaminika prosječan nivo alergena Imunoglukana E iznosi 16,23945 IU/ml. Primjer 5.6. Na jednom području zabilježeni su podaci o odnosu visini mjesečnih primanja i izdataka za luksuznu potrošnju u periodu od mjesec dana, podaci se mogu prikazati u tabeli: 332
Mjesečna primanja 000 1
1,2
1,4
1,6
1,8
2
2,2
2,4
2,6
2,8
3
20
22
25
30
50
60
80
100
150
200
BAM Izdaci
za
luksuznu 20
potrošnju BAM Tabela 152. Distribucija domaćinstava prema vrijednosti mjesečnih izdataka za luksuznu potrošnju u zavisnosti od visine mjesečnih primanja
Potrebno je: a. Nacrtati dijagram rasipanja empirijskih podataka i u njemu ucrtati liniju regresije; b. Ocijeniti model regresione zavisnosti posmatranih pojava; c. Ocijeniti standardnu grešku i koeficijent varijacije regresionog modela; d. Ocijeniti očekivanu vrijednost luksuzne potrošnje pri nivou mjesečnih primanja od 3200 BAM. Rješenje: a. Dijagram rasipanja empirijskih podataka možemo prikazati sljedećom ilustracijom: Mjesečni izdaci za luksuznu potrošnju 250 200 150 100 50 0 0
0,5
1
1,5
2
2,5
3
3,5
Slika 33. Dijagram rasipanja empirijskih podataka – distribucija domaćinstava prema visini mjesečnih izdataka za luksuznu potrošnju u zavisnosti od visine mjesečnih primanja, sa ucrtanom regresionom linijom
Prema obliku grupisanja empirijskih podataka opravdano je zaljučiti da između visine mjesečnih izdataka za luksuznu potrošnju i visine mjesečnih primanja opravdano je pretpostaviti da postoji eksponencijalna zavisnost među posmatranim pojavama. Oblik regresionog modela možemo
333
zapisati sljedećim izrazom: yi = αβxiεi, čiji ocijenjeni oblik glasi: ݕො ൌ ܽ ή ܾ ௫ ή ݁ ֞ ݈ݕ݃ ൌ ݈ ܽ݃ ݔ ݈ ܾ݃+ ei b. Radna tabela koja sadrži elemente potrebne za određivanja parametara regresionog modela ima sljedeći izgled: xi
xi 2
yi
log xi 1
log yi
1
20
1,2
20
1,44 0,079181
1,4
1,30103
logݕෝప
ݕෝప
e i2
1,30103 1,162248
14,5294 29,92752
1,30103 1,561236 1,269378
18,5942 1,976261
22
1,96 0,146128 1,342423 1,879392 1,376508
23,7962 3,226346
1,6
25
2,56
1,8
30
3,24 0,255273 1,477121 2,658818 1,590768 38,97336
2
50
2,2
60
4,84 0,342423 1,778151 3,911933 1,805028 63,83045 14,67236
2,4
80
5,76 0,380211
2,6
100
6,76 0,414973
2,8
150
7,84 0,447158 2,176091 6,093056 2,126418 133,7883 262,8195
3
200
22
757
4
0
xi log yi
0,20412
1,39794 2,236704 1,483638 30,45354 29,74106
0,30103
1,69897
80,5211
3,39794 1,697898 49,87672 0,015199
1,90309 4,567416 1,912158 81,68795 2,849167 2
9 0,477121
2,30103
5,2 2,019288 104,5413 20,62374 6,90309 2,233548 171,2175 828,4318
48,4 3,047618 18,67688 39,71061 18,67688
1274,804
Slika 34. Radna tabela – elementi za određivanje parametara regresionog modela
Ocijenjene vrijednosti parametara regresionog modela izračunavaju se: ݈ ܾ݃ൌ ܽ ൌ
σୀଵ ݔ ݈ݕ݃ െ ݔҧ σୀଵ ݈ݕ݃ ͵ͻǡͳͲͳ െ ʹ ή ͳͺǡͺͺ ൌ ൌ Ͳǡͷ͵ͷͷ σୀଵ ݔଶ െ ݊ݔҧ ଶ ͶͺǡͶ െ ͳͳ ή ʹଶ
σ సభ ௬
െ ݈ ܾ݃ή ݔҧ ൌ
ଵ଼ǡ଼଼ ଵଵ
െ Ͳǡͷ͵ͷͷ ή ʹ ൌ Ͳǡʹͷͻ, pri čemu je ݔҧ ൌ
ଶଶ ଵଵ
ൌ
ʹǤ Regresioni model glasi: log ݕො ൌ Ͳǡʹͷͻ Ͳǡͷ͵ͷͷ݈ݔ݃ , odnosno: ݕො ൌ Ͷǡʹ͵ʹͷ ή ͵ǡͶ͵ʹͺͳͶ௫ c. Ocijenjena vrijednost standardne devijacije regresionog modela izračunava se korištenjem obrasca: ߪො ൌ ට
σ ො ሻమ సభሺ௬ ି௬ ିሺାଵሻ
ݕത ൌ
334
ൌට
ଵଶସǡ଼ସ ଵଵିሺଶାଵሻ
ൌ ඥͳͷͻǡ͵ͷͲͷ ൌ ͳʹǡʹ͵ͶͳǢ
ͳʹǡʹ͵Ͷͳ ͷ ൌ ͺǡͺͳ ֜ ܭ௬ො ൌ ή ͳͲͲΨ ൌ ͳͺǡ͵ͶΨ ͺǡͺͳ ͳͳ
Vrijednost prethodnih pokazatelja ukazuje na nizak nivo varijabiliteta u okviru izabranog regresionog modela, čime je, sa posmatranog aspekta, opravdano smatrati ga reprezentativnim za pojave čiji varijabilitet se nime izražava. Ocijenjena vrijednost nivo izdataka za luksuznu potrošnju kod domaćinstava koji imaju mjesečna primanja u visini od 3200 BAM iznosi: ݕො ൌ Ͷǡʹ͵ʹͷ ή ͵ǡͶ͵ʹͺͳͶଷǡଶ ൌ ʹͳͻǡͳʹ݈݅݅ͳͲǡଶହଽାǡହଷହହכଷǡଶ ൌ ͳͲଶǡଷସ଼ ൌ ʹͳͻǡͳʹ.
Kod
domaćinstava
koja
ostvaruju mjesečna primanja u visini od 3200BAM u prosjeku se očekuje prosječan nivo mjesečnih izdataka za luksuznu potrošnju 219,12 BAM. Zadaci: 5.7. Na jednom području provedeno je istraživanje o visini mjesečnih primanja i izdvajanjima za „zdravu hranu“. U tu svrhu provedeno je istraživanje na 10 slučajno odabranih domaćinstava, a dobijeni rezultati su prikazani u tabeli: Mjesečna primanja
500 600 700 800 900 1000 1100 1200 1300
Izdaci za „zdravu hranu“
80
90
100 120 120 130
140
160
170
Tabela 153. Distribucija domaćinstava prema vrijednosti mjesečnih primanja I izdataka za “zdravu ishranu” izraženi u BAM
Potrebno je: a) Nacrtati dijagram rasipanja empirijskih podataka i u njemu ucrtati liniju regresije; b) Utvrditi stepen i smjer kvantitativnog slaganja varijacija posmatranih pojava; c) Utvrditi procenat varijacija mjesečnih izdataka za “zdravu Ishranu” objašnjen varijacijama u visini mjesečnih primanja; d) Ocijeniti model regresione zavisnosti posmatranih pojava; e) Ocijenniti očekivanu vrijednost mjesečnih izdataka za „zdravu ishranu“ pri mjesečnim primanjima od 1350 BAM sa pouzdanošću 90%. 5.8. Podaci o visini mjesečnog unosa beta karotena i broju osoba u odnosu na 7 osoba redovno izlaganim suncu koji su zadobili opekotine su dati u tabeli: Unos beta karotena (mg)
17
19
Broj sati bezbjednog izlaganja Suncu
54
51 48
21
25 45
32
33
36
41
36
42
Tabela 154. Distribucija stanovnika prema uticaju unosa beta karotena I podnošljivošću izlaganja sunčevom zračenju
335
Potrebno je: a) Nacrtati dijagram rasipanja empirijskih podataka i u njemu ucrtati liniju regresije; b) Utvrditi stepen i smjer kvantitativnog slaganja varijacija posmatranih pojava; c) Utvrditi procenat varijacija dužina bezbjednog izlaganja Suncu objašnjen varijacijama u visini mjesečnog unosa beta karotena; d) Ocijeniti model regresione zavisnosti posmatranih pojava; e) Ocijeniti očekivanu vrijednost dužine bezbjednog izlaganja Suncu pri mjesečnom unosu od 38 mg beta karotena sa pouzdanošću 95%. 5.9.Podaci o dnevnom unosu crvenog mesa i količini Fe u krvi ispitanika koji su anemiju tretirali prilagođenom ishranom, dati su u tabeli: Dnevni unos crv.mesa kg Količina Fe u krvi
0,15
0,16
0,18
0,19
0,21
0,22
0,25
3,5
3,6
4,2
4,7
4,5
5,4
4,8
Tabela 155. Distribucija pacijenta prema unosu crvenog mesa I nivou Fe u krvi
Potrebno je: a) Nacrtati dijagram rasipanja empirijskih podataka i u njemu ucrtati liniju regresije; b) Utvrditi stepen i smjer kvantitativnog slaganja varijacija posmatranih pojava; c) Utvrditi procenat varijacija visine Fe u krvi objašnjen varijacijama u dnevnom unosu crvenog mesa; d) Ocijeniti model regresione zavisnosti posmatranih pojava; e) Ocijenniti očekivanu vrijednost nivoa Fe u krvi pri dnevnom unosu od 0,30 kg crvenog mesa sa pouzdanošću 99%. 5.10.
Na jednom području provedeno je istraživanje o prihodima od prodaje i veličini prodajnog
asortimana trgovačkih preduzeća. U tu svrhu provedeno je istraživanje na 10 slučajno odabranih trgovačkih preduzeća, a dobijeni rezultati su prikazani u tabeli: Prihod od prodaje (10.000 KM)
1
2
3
Veličina asortimana
20 23 24
4
5
6
7
8
9
10
26
26
27
28
28
29
29
Tabela 156. Distribucija trgovačkih preduzeća prema visini prihoda od prodaje I veličini prodajnog asortimana
336
Potrebno je: a. Nacrtati dijagram rasipanja empirijskih podataka i u njemu ucrtati liniju regresije; b. Izvršiti adekvatnu linearizaciju modela; c. Utvrditi stepen i smjer kvantitativnog slaganja varijacija posmatranih pojava; d. Utvrditi procenat varijacija veličine pihoda od prodaje objašnjenog varijacijama u veličini prodajnog asortimana; e. Ocijeniti model regresione zavisnosti posmatranih pojava; f. Ocijenniti očekivanu vrijednost prihoda od prodaje pri veličini prodajnog asortimana od 30 grupa proizvoda sa pouzdanošću 99 %.
337
6. OSNOVNA ANALIZA VREMENSKIH SERIJA Vremenska serija predstavlja statističku seriju kojom se predstavljaju odeđene pojave ili procesi u vremenu, hronološki uređeni prema vrijednosti statističke promjenljive kojom se posmatrana pojava iskazuje. Vrijednosti statističke promjenljive suštinski predstavljaju statističku seriju nazivaju se članovima, a uobičajeno predstavljaju vremenske intervale jednake dužine ili udaljene vremenske tačke, pri čemu je dužina niza oderđena brojem njegovih članova. Vremenske serije mogu biti momentne i intervalne. Momentne serije čine vrijednosti određene pojave u odabranim vremenskim tačkama i nemaju osobinu kumulativnosti, dok intervale serije se dobijaju sabiranjem (kumulacijom) pojave u određeneim vremenskim intervalima i imaju osobinu kumulativnosti. Mjernena vrijednost statističke promjenljive može biti prekidna ili neprekidna zavisno od toga uzima li vrijednost iz određenog intervala ili konačan broj vrijednosti. Vremenski parametar može biti izvorni ili izvedeni, pri čemu se kod izvornih parametara vrijednosti statističke promjenljive dobijaju direktnim mjerenjem, dok se kod izvedenih izračunavaju odgovarajućim računskim postupcima polazeći od izmjerenih vrijednosti. Vremenska serija može biti deterministička i stohastička, zavisno od toga mogu li se njezina buduća stanja (vrijednosti) egzaktno predvidjeti ili ne. Kod determinističke serije, polazeći od vrijednosti statističke promjenljive, moguće je egzaktno predvidjeti nivo pojave, a kod stohastičke serije buduće vrijednosti se mogu samo ocjenjivati. Osnovni zadaci analize vremenskih serija obuhvataju: -
Opisivanje (deskripcija) proteklog razvoja pojave u vremenu;
-
Objašnjavanje varijacija posmatrane pojave pomoću drugih pojava;
-
Predviđanje i kontrola dinamičkih procesa.
Statistička anlaiza vremenskih serija obuhvata deskriptivne i inferencijalne postupke, među kojima deskriptivna analiza vremenskih serija obuhvata: -
Tabelarne i grafičke prikaze;
-
Indekse (relativne brojeve);
-
Pokazatelje dinamike (stopa promjene, prosječna stopa promjene, godišnja stopa promjene) i dr.
Inferencijalna analiza vremenskih serija vrši se pomoću adekvatnih modela vremenskih serija.
338
6.1. Grafičko prikazivanje i komparacija vremenskih serija Momentne vremenske serije prikazuju se linijskim dijagramima, a intervalne vremenske serije se prikazuju na liniskim i površinskim dijagramima. Navedeno podrazumijeva grafički prikaz statističke serije u dekartovom (pravouglom) koordinatnom sistemu, pri čemu se za osu apscisa (osu „x“) vezuju vrijednosti vremenske promjenljive, a za osu ordinata (osu „y“) frekvencije vremenske promjenljive. Dvije ili više pojava mogu se upoređivati na istom grafikonu ukoliko su im frekvencije izražene u istim mjernim jedinicama i ukoliko te frekvencije nisu izrazito različite. Sezonske pojave se uobičajeno prikazuju polarnim dijagramom (u polarnom koordinatnom sistemu). Svi grafikoni koji se koriste za prikaz vremenskih serija konstruišu se uobičajenim postupkom opisanim u poglavlju 1. Primjer 6.1. Polazeći od datih vremenskih serija: I.
Broj registrovanih birača na početku kalendarske godine, izražen u hiljadama, u posmatranoj izbornoj jedinici u periodu od 2004 – 2014.godine, iznosio je:
Godina 04 Birača
05 16
06 14
07 20
08 29
09 14
10 13
11 24
12 23
13 25
14 13
17
Tabela 157. Distribucija izborne jedninice prema broju birča u period od 2004 – 2014.godine
II.
Obim proizvodnje preduzeća „P“, izražen u hiljadama komada, u periodu od 2005 – 2014.godine, iznosio je:
Godina
05
Obim proizvodnje
06 20
07 15
08 24
09 40
10 25
11 19
12 25
13 18
14 26
37
Tabela 158. Distribucija preduzeća prema ostvarenom obimu proizvodnje u period od 2005 – 2014.godine
III.
Težina novorođenčeta, izražena u gramima, mjerena sedmično tokom prva tri mjeseca života:
Sedmica 0 Težina
1
2
3
4
5
6
7
8
9
10
11
12
2964 2928 3097 3664 3836 4017 4258 4389 4487 4803 4995 5177 2964
Tabela 159. Distribucija težine novorođenčeta u period od rođenja do trećeg mjeseca, mjerena sedmično
339
IV. Mjesečne otplate potrošačkog zajma tokom 2014.godine, izražene u hiljadama BAM, u jednoj komercijalnoj banci: Mjesec 1 Otplata
2 936
3
1350
4
1457
5 345
6 680
7 68
8
1007
9 783
10 968
11
1228
12
475
607
Tabela 160. Distribucija vrijednosti mjesečne otplate zajma u komercijalnoj banci u toku 2014.godine
V.
Vrijednost indeksa tjelesne težine (BMI) jednog sportiste u periodu od 2006 – 2014.godine, mjern 31.12.posmatrane godine, imao je vrijednost:
Godina BMI
06
07 21,8
08 18,4
09 18,8
10 20,8
11 17,7
12 20,4
13 18,3
14 19,5
18,8
Tabela 161. Distribucija vrijednosti BMI – ja sportiste u period od 2006 – 2014.godine
Potrebno je: a. Izvršiti klasifikaciju prethodnih vremenskih serija prema obliku obilježja; b. Prikazati statističku seriju pod II, površinskim i linijskim dijagramom; c. Formirati kumulativnu seriju prethodne serije i prikazati je površinskim i linijskim dijagramom; d. Prikazati statističku seriju pod IV, polarnim dijagramom. Rješenje: a. Momentne serije su: I, III i V, dok su II i IV intervalne. Stohastičke serije su sve sem IV, odnosno I, II, III i V, dok je IV deterministička. Izvorni podaci su sadržani u statističkim serijama I, II, III i IV, dok je kod statističke serije V riječ o izvedenim podacima. BMI (indeks tjelesne težine – Body Mass Index), a izračunava se pomoću visine i težine ispitanika, po obrascu: ܫܯܤൌ
்ā ௦మ
.
b. Površinski dijagram kojim prikazujemo posmatranu vremensku seriju može se prikazati sljedećom ilustracijom:
340
Ostvarena proizvodnja u 000 komada
Ostvareni obim proizvodnje u preduzeću "P" tokom perioda 2005 - 2014 45 40 35 30 25 20 15 10 5 0 2005
2006
2007
2008
2009
2010
2011
2012
2014
2013
Slika 35. Prikaz intervalne statističke serije pomoću površinskog dijagrama
Linijski dijagram kojim prikazujemo posmatranu statističku seriju, možemo prikazati sljedećom ilustracijom:
Ostvareni obim proizvodnje u 000 komada
Ostvareni obim proizvodnje preduzeća "P" tokom perioda 2005-2014. 45 40 35 30 25 20 15 10 5 0 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 Slika 36. Prikaz intervalne statističke serije pomoću linijskog dijagrama
c. Kumulanta prethodne statističke serije se može prikazati u sljedećoj tabeli: Godina
05
06
07
08
09
10
11
12
13
14
Obim proizvodnje
20
15
24
40
25
19
25
18
26
37
Kumulanta
20
35
59
99
124
143
168
186
212
249
Tabela 162. Radna tabela – oderđivanje kumulativnog obima proizvodnje u period od 2005 – 2014
341
Površinski dijagram kojim prikazujemo kumulativnu vremensku seriju, može se prikazati sljedećom ilustracijom:
Ostvareni obim proizvodnje u 000 komada
Ostvareni obim proizvodnje preduzeća "P" tokom perioda 2005-2014. 300 250 200 150 100 50 0 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 Slika 37. Prikaz kumulativne intervalne statističke serije pomoću površinskog dijagrama
Linijski dijagram kojim prikazujemo kumulativnu vremensku seriju, može se prikazati sljedećom ilustracijom:
Ostvareni obim proizvodnje u 000 komada
Ostvareni obim proizvodnje preduzeća "P" tokom perioda 2005 - 2014. 300 250 200 150 100 50 0 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 Slika 38. Prikaz kumulativne intervalne statističke serije pomoću linijskog dijagrama
d. Vremenska serija vrijednosti mjesečne otplate zajma u posmatranoj komercijalnoj banci prikazana pomoću polarnog dijagrama ima izgled kao na sljedećoj slici:
342
Mjesečna otplata zajma u komercijalnoj banci 12
1500
1 2
1000
11
3
500 10
4
0
9
5 8
6 7
Slika 39. Polarni dijagram - prikaz kumulativne intervalne statističke serije pomoću linijskog dijagrama
Primjer 6.2. Podaci o strukturi liječenih pacijenata u periodu od 2007 – 2014.godine u jednoj opštoj bolnici mogu se prikazati sljedećim tabelarnim prikazom: Godina
Ukupno
Odjel na kojem je pacijent liječen Hirurgija
Pedijatrija
Ginekologija
Interna medicina
2007
968
441
459
62
6
2008
477
91
28
271
87
2009
575
41
180
260
94
2010
604
194
299
45
66
2011
575
43
147
255
130
2012
1056
328
412
211
105
2013
480
213
77
116
74
401
412
122
107
2014
1042
Tabela 163. Struktura liječenih pacijenata jedne opšte bolnice prema odjelenju na kojem je pacijent liječen u period od 2007 – 2014.godine
Potrebno je: a. Grafičkim prikazom uporediti broj liječenih pacijenata u posmatranoj opštoj bolnici; b. Grafičkim prikazom uporediti strukturu liječenih pacijenata u posmatranoj opštoj bolnici.
343
Rješenje: a. Broj liječenih pacijenata na pojedinim odijelima posmatrane opšte bolnice može se prikazati sljedećom ilustracijom: 1200
Broj pacijenata
1000 800 Interna medicina Ginekologija
600
Pedijatrija Hirurgija
400 200 0 2007 2008 2009 2010 2011 2012 2013 2014
Slika 40. Uporedni prikaz broja liječenih pacijenata na pojedinim odijelima opšte bolnice tokom perioda 2007 – 2014.godine
Sa prethodne slike može se uočiti da se u pojedinim periodima ukupan broj pacijenata raste (2009 u odnosu na 2008; 2010 u odnosu na 2009; 2013 u odnosu na 2012, te 2014 u odnosu na 2013.godinu) u ostalim periodima opada. Po pojedinim odijelima situacija je sljedeća, na odjelenju Hirurgija broj pacijenata je rastao u 2010 u odnosu na 2009; 2013 u odnosu na 2012 I 2014 u odnosu na 2013.godinu, u ostalim godinama je padao. Na odjelenju Pedijatrija broj pacijenata je rastao 2009 u odnosu na 2008; 2010 u odnosu na 2009; 2013 u odnosu na 2012 I 2014 u odnosu na 2013.godinu, u ostalim godinama broj pacijenata je padao. Na odjelu Ginekologija broj pacijenata je rastao 2008 u odnosu na 2007; 2011 u odnosu na 2010 I 2014 u odnosu na 2013.godinu, dok je ostalim godinama opadao. Na odjelu Interna medicina broj pacijenata je rastao 2008 u odnosu na 2007; 2009 u odnosu na 2008; 2011 u odnosu na 2010 I 2014 u odnosu na 2013.godinu, dok je broj pacijenata u ostalim godinama opadao. Moguće je uočiti da je najveći broj pacijenata u 2007; 2010; 2012 I 2014.godini liječen na odjelu Pedijatrije, u toku 2008; 2009 I 2011.godine najveći broj pacijenata liječen je na odjelu Ginekologija, dok je najveći broj pacijenata u toku 2013.godine liječen na odjelu Hirurgija. 344
Takođe se može uočiti, da je najmanji broj pacijenata u toku 2007; 2012; 2013 I 2014.godine liječen na odjelenju Interna medicina, u toku 2008.godine najmanji broj pacijenata liječen je na odjelu Pedijatrija, u toku 2009 I 2011.godine najmanji broj pacijenata liječen je na odjelenju Hirurgija, dok je 2010.najmanji broj paijenata liječen na odjelenju Ginekologija. b.
Procet učešća liječenih pacijenata na pojedinim odijelima posmatrane opšte bolnice može se prikazati sljedećom ilustracijom: 100% 90%
Udio pacijenata %
80% 70% 60%
Interna medicina
50%
Ginekologija
40%
Pedijatrija
30%
Hirurgija
20% 10% 0% 2007 2008 2009 2010 2011 2012 2013 2014 Slika 41. Uporedni prikaz procenta učešća liječenih pacijenata na pojedinim odijelima opšte bolnice tokom perioda 2007 – 2014.godine
Procent učešća pacijenata liječenih na pojedinim odjelenjima opšte bolnice na prethodnoj slici označen je odgovarajućom površinom pri čemu veća površina označava veći udio u ukupnom broju liječenih pacijenata. Zaključci proizašli iz izgleda posmatranog grafikona su istovijetni zaključcima proizašlim iz prethodnog grafikona. Njihova uloga, zadatak i smisao su analogni, međutim, dijagram vrijednosti dvaju obilježja koje nije realno porediti uobičajeno se komparira procentom učešća, npr.vrijednost proizvodnje u različitim valutama, ili u različitim privrednim uslovima stopa inflacije, ili drugi uslovi privređivanja čime vrijednosti iz različitih perioda postaju neuporedivi.
345
6.2. Pokazatelji dinamike Pokazatelji dinamike odnose se na promjenu pojave u uzastopnim vremenskim intervalima ili pojave u odnosu na referentni (odabrani) vremenski interval, pri čemu se promjene izražavaju u mjernim jedinicama pojave ili procentu i mogu biti apsolutne i relativne. U vezi sa time, postoje individualne (st ili st(B) – B predstavlja referentni vremenski interval) i prosječne stope promjena (ݏҧ ) posmatrane pojave. Relativna promjena uzastopnih nivoa pojave izračunava se korištenjem obrasca: ݏ௧ ൌ
ȟݕ௧ ݕ௧ െ ݕ௧ିଵ ݕ௧ ή ͳͲͲ ൌ ή ͳͲͲ ൌ ൬ െ ͳ൰ ή ͳͲͲ ൌ ሺ݇௧ െ ͳሻ ή ͳͲͲ ݕ௧ିଵ ݕ௧ିଵ ݕ௧ିଵ
Gdje su: yt-1 i yt – vrijednosti dva uzastopna člana vremenske statističke serije; kt – koeficijent dinamike (individualni lančani indeks prije množenja sa 100). Relativna promjena pjave u odnosu na referentni vremenski interval izračunava se korištenjem obrasca: ݏ௧ ൌ
ȟ ݕ௧ ݕ௧ െ ݕ ݕ௧ ή ͳͲͲ ൌ ή ͳͲͲ ൌ ൬ െ ͳ൰ ή ͳͲͲ ൌ ሺ݅௧ െ ͳሻ ή ͳͲͲ ݕ ݕ ݕ
Gdje su: yB – vrijednost pojave u referentnom vremenskom intervalu; it – individualni bazni indeks prije množenja sa 100. Prosječna stopa promjene računa kao geometrijska sredina koeficijenata dinamike, odnosno koristeći obrazac: ݏҧ ൌ ሺ ܩെ ͳሻ ή ͳͲͲ Gdje je: ܩൌ
షభ
ඥ݇ଵ ή ݇ଶ ή ڮή ݇ ൌ
షభ
௬
ට௬
భ
షభ
௬
Tako da vrijedi, da je: ݏҧ ൌ ሺ ට െ ͳሻ ή ͳͲͲ. ௬ భ
Ukoliko su za određenu pojavu poznate dnevna, sedmična, mjesečna ili kvartalna stopa promjene koja se odgovarajućim postupkom prevodi u efektivnu godišnju stopu promjene. Pokazatelji dinamike se grefički prikazuju površinskim i linijskim dijagramima.
346
Primjer 6.3. Podaci o broju stanovnika koji su u periodu od 2007 – 2014.godine prevenciju sezonskog gripa vršili vakcinisanjem u zdravstvenoj ustanovi na području koje spada u nadležnost posmatrane zdravstvene ustanove, mogu se prikazati u sljedećoj tabeli: Godina
07
Broj vakcinisanih pacijenata
08
09
5271 14130 14127
10
11
6420
12
2926
13
7927
14
4798
8608
Tabela 164. Distribucija pacijenata prema broju vakcinisanih proitiv sezonskog gripa
Potrebno je: a. Izračunati vrijednost promjena broja vakcinisanih pacijenata u uzastopnim godinama; b. Kolika je uzastopna stopa promjene broja vakcinisanih pacijenata? Da li je prosječna prva diferencija adekvatan pokazatelj; c. Kolike su stope promjene u odnosu na 2014.godinu; d. Odrediti prosječnu godišnju stopu promjene broja vakcinisanih pacijenata u posmatranom periodu; e. Uzastopne relativne stope promjene broja vakcinisanih pacijenata grafički prikazati površinskim dijagramom. Rješenje: Elemente potrebne za izračunavanje pokazatelja dinamike možemo prikazati u sljedećoj radnoj tabeli: Godina 2007
yt
Δyt
Δ(2014) yt
st
5271 -
-
st(2014) -3337
-38,77
2008
14130
8859
168,07
5522
64,15
2009
14127
-3
-0,02
5519
64,11
2010
6420
-7707
-54,56
-2188
-25,42
2011
2926
-3494
-54,42
-5682
-66,01
2012
7927
5001
170,92
-681
-7,91
2013
4798
-3129
-39,47
-3810
-44,26
2014
8608
3810
79,41 -
-
Tabela 165. Elementi za izračunavanje pokazatelja dinamike posmatrane pojve (broja pacijentata, koji prevenciju oboljenja od sezonskog gripa vrše vakcinacijom)
347
a. Promjene broja pacijenata, koji prevenciju oboljenja od sezonskog gripa vrše vakcinacijom, u uzastopnim periodima sadržani su u koloni Δyt, a njihova vrijednost izračunava se kao razlika između nivoa pojave u posmatranom I prethodnom vremenskom interval, odnosno vrijedi da je: Δyt = yt – yt-1, npr. Δy2 = y2 – y1 = 14130 – 5271 = 8859, ostale vrijednosti izračunavaju se analognim postupkom; b. Uzastopna godišnja stopa promjene broja pacijenta, koji prevenciju sezonskog gripa vrše vakcinisanjem, izračunata je u koloni st prethodne tabele, a njihova vrijednost dobija se kao:
ݏ௧ ൌ
ο௬ ௬షభ
ή ͳͲͲ,
npr.
ݏଶ ൌ
ο௬మ ௬భ
ή ͳͲͲ ൌ
଼଼ହଽ ହଶଵ
ή ͳͲͲ ൌ ͳͺǡͲ;
ostale
vrijednosti
izračunavaju se analognim postupkom. Prosječna vrijednost prve diferencije izračunava se ௬ ି௬ ଼଼ିହଶଵ ଷଷଷ korištenjem obrasca: തതതത ο ݕൌ భ ൌ ൌ ൌ Ͷǡͳ. Navedeni pokazatelj nije ିଵ
଼ିଵ
relevantan jer su derivacije različitog predznaka I visokog stepena varijabiliteta. Uzlovi za korištenje ovog pokazatelja su das u prve derivacije istog predznaka I niskog varijabiliteta; c. Godišnja stopa promjene broja pacijenta, koji prevenciju sezonskog gripa vrše vakcinisanjem, u odnosu na 2014.godinu izračunata je u koloni st(2014) prethodne tabele, a njihova vrijednost dobija se kao: ݏ௧ ሺଶଵସሻ ൌ ିଷଷଷ ଼଼
οሺమబభరሻ ௬ ௬ሺమబభరሻ
ή ͳͲͲ, npr. ݏଶ ൌ
οሺమబభరሻ ௬భ ଼଼
ή ͳͲͲ ൌ
ή ͳͲͲ ൌ െ͵ͺǡ; ostale vrijednosti izračunavaju se analognim postupkom. షభ
௬
d. Prosječna godišnja stopa promjne izračunava se na sljedeći način: : ݏҧ ൌ ൬ ට െ ͳ൰ ή ௬ భ
ఴషభ
଼଼
ͳͲͲ ൌ ቆ ට
ହଶଵ
െ ͳቇ ή ͳͲͲ ൌ ሺ ళξͳǡ͵͵Ͳͺ െ ͳ)100 = (1,07258 – 1)100 = 7,26. Broj
vakcinisanih pacijenata u periodu od 2007 – 2014.godine povećavao se u prosjeku godišnje za 7,26%; e. Uzastopne relativne promjene broja pacijenata, koji prevenciju oboljenja od sezonskog gripa vrše vakcinisanjem, u periodu od 2007 – 2014.godine može se grafički prikazati na sljedećoj slici, važno je naglasiti da visina stupaca na narednom grafikonu označava relativne promjene u odnosu na prethodni vremenski interval.
348
Stopa promjene broja pacijenata 200 150 100 Stopa promjene broja pacijenata
50 0 2007 2008 2009 2010 2011 2012 2013 2014 -50 -100
Slika 42. Grafički prikaz stope promjene broja pacijenata jednostavnim stupcima
6.3. Indeksi Indeksima se izražava odnos vrijednosti jedne pojave u dva različita perioda. Pojedinačni ili individualni indeksi izražavaju odnos jedne pojave u posmatranom vremenskom trenutku (ili interval) u odnosu na vrijednost te pojave u prethodnom ili nekom drugom odabranom vremenu. U tome kontekstu razlikuju se lančani I bazni indeksi. Kod lančanih indeksa vrijednost pojave u odabranom vremenskom periodu dijeli se sa vrijednošću iz prethodnog vremenskog perioda I dobijeni količnik se pomnoži sa sto, odnosno: ݕ௧ ή ͳͲͲ ൌ ݇௧ ή ͳͲͲ ܫ௧ ൌ ݕ௧ିଵ Bazni indeksi nastaju dijelenjem vrijednosti pojave u posmatranom vremenskom period sa vrijednošću iz odabranog vremenskog perioda (baznog perioda) ili nekom drugom baznom veličinom, nakon čega dobijeni količnik množimo sa 100, odnosno: ݕ௧ ܫ௧ ൌ ή ͳͲͲ ൌ ݅௧ ή ͳͲͲ ݕ Indeksi služe jednostavnijem objašnjavanju varijacija određene vremenske serije, kao I za komparaciju raznorodnih vremenskih serija ili vremenskih serija kod kojih su frekvencije u istim mjernim jedinicama ali veoma različitih vrijednosti. Ukoliko je vrijednost indeksa veća od 100, zaključujemo da se vrijednost pojave u posmatranom periodu povećala u odnosu na period sa kojim 349
je vrijednost stavljena u odnos. Suprotno tome, ako je vrijednost indeksa manja od 100, zaključujemo da se vrijednost pojave u posmatranom periodu smanjila u odnosu na period sa kojim je vrijednost stavljena u odnos. Ukoliko je vrijednost indeksa 100 nivo pojava je isti u oba perioda. Grupni indeksi služe za izražavanje relativne promjene više povezanih pojava u vremenu, najčešće se koriste grupni indeksi cijena, fizičkog obima I vrijednosti. Određeni indeksi se pojavljuju pod različitim nazivima, kao što su ideks troškova života, indeks cijena na malo, indeks zarada, indeks količina industrijske proizvodnje, indeks vrijednosi uvoza, … Indeksi cijena I fizičkog obima računaju se na različite načine, a najčešće kao ponderisane aritmetičke sredine. Grupni indeks cijena može se izračunati kao: σ సభ భ బ
-
Laspeyresov indeks cijena: ܫ ൌ σ
-
Paasheov indeks cijena: ܫ ൌ σసభ
ή ͳͲͲ ൌ
సభ బ బ
σ భ భ సభ బ భ
ή ͳͲͲ ൌ
భ σ సభ బ బ బ
σ సభ బ బ
σ సభ భ భ
బ σ భ భ సభ
ή ͳͲͲ ili
ή ͳͲͲ
భ
Gdje su: pi0 – vrijednost cijena u baznom period; pi1 – vrijednost cijena u posmatranom (tekućem) period; qi0 – vrijednost fizičkog obima u baznom periodu; qi1 – vrijednost fizičkog obima u posmaranom (tekućem) period. Kod prvog obrasca, u oba slučaja, koristi
se metoda agregata prilikom izračunavanja
vrijednosti indeksa, dok se kod drugog obrasca koristi metoda potpunih odnosa. Grupni indeks fizičkog obima može se izračunati kao: σ సభ బ భ
-
Laspeyresov indeks fizičkog obima: ܫ ൌ σ
-
Paasheov indeks fizičkog obima: ܫ ൌ σసభ
సభ బ బ
σ భ భ సభ భ బ
ή ͳͲͲ ൌ
ή ͳͲͲ ൌ
σ భ భ
Grupni indeks vrijednosti izračunava se kao: ܫ ൌ σసభ
సభ బ బ
భ σ సభ బ బ బ
σ సభ బ బ
σ సభ భ భ
బ σ సభ భ భ
ή ͳͲͲ ili
ή ͳͲͲ
భ
ή ͳͲͲ
Grupni indeksi imaju veliku važnost prilikom izražavanja odnosa pojava kod kojih su vrijednosti, pa I mjerne jedinice izrazito različiti. Osobine indeksa ispituju se korištenjem Fisherovog testa.
350
Primjer 6.4. Na području SJB (Stanice javne bezbijednosti) zabilježeni su podaci o broju saobraćajnih nezgoda u period od 2009 – 2014.godine, pri čemu se navedeni podaci mogu prikazati u sljedećoj tabeli: Godina
2009
Broj saobraćajnih nezgoda
2010
406
166
2011 426
2012
2013
139
2014
312
336
Tabela 166. Distribucija broja saobraćajnih nezgoda na području SJB u period 2009 – 2014.godine
Potrebno je: a. Izračunati uzastopne stope promjena broja saobraćajnih nezgoda, kao i lančane indekse broja saobraćajnih nezgoda u posmatranom period I grafički ih prikazati linijskim dijagramom; b. Izračunati stope promjena broja saobraćajnih nezgoda u odnosu na 2014 godinu, kao I bazne indekse sa istom bazom I grafički ih predstaviti površinskim dijagramom; c. Izračunati prosječnu godišnju stopu promjene broja saobraćajnih nezgoda I pomoću nje predvidjeti broj saobraćajnih nezgoda u 2016.godini; d. Preračunati lančane indekse u bazne sa bazom u 2009 godini, te bazne indekse (2014 = 100) u lančane, kao I bazne sa bazom u 2014 u bazne sa bazom u 2012.godini. Rješenje: Radna tabela sa elementima neophodnim za određivanje posmatranih veličina ima sljedeći izgled: Godina
Y
st
st(2014)
ILt
2009
406 -
-
2010
166
0,41
2011
426
2012
IBt(2014)
IBt(2009)
ILtP
IBt(2012)
1,21
120,83
100 -
292,09
40,89
0,49
49,40
40,89
40,89
119,42
2,57
256,63
1,27
126,79
104,93
256,63
306,47
139
0,33
32,63
0,41
41,37
34,24
32,63
100,00
2013
312
2,24
224,46
0,93
92,86
76,85
224,46
224,46
2014
336
1,08
107,69
1,00
100,00
82,76
107,69
241,73
Tabela 167. Radna tabela – elementi za određivanje vrijednosti traženih veličina
a. Uzastopne stope promjena imaju vrijednosti kao što je navedeno u koloni st, a njihove vrijednosti dobijamo tako što dijelimo nivo pojave u posmatranoj godini sa nivoom pojave u prethodnoj godini, ukoliko vrijednost navedenog pokazatelja pomnožimo sa 100 dobijamo vrijednost lančanog indeksa, koji se prevashodno izračunava korištenjem 351
obrasca: ܫ௧ ൌ
௬ ௬షభ
ή ͳͲͲ. Grafički prikaz lančanih indeksa ilustrujemo sljedećim
prikazom: 300,00 250,00 200,00 150,00
lančani indeks
100,00 50,00 0,00 2009
2010
2011
2012
2013
2014
Slika 43. Grafička ilustracija lančanih indeksa pomoću linjskog dijagrama
b. Stope promjena u odnosu na 2014.godinu imaju vrijednosti kao što je navedeno u koloni st(2014), a njihove vrijednosti dobijamo tako što dijelimo nivo pojave u posmatranoj godini sa nivoom pojave u 2014.godini, ukoliko vrijednost navedenog pokazatelja pomnožimo sa 100 dobijamo vrijednost baznog indeksa sa bazom u 2014.godini, koji se prevashodno izračunava korištenjem obrasca: ܫ௧ ሺଶଵସሻ ൌ
௬ ௬ಳ
ή ͳͲͲ ൌ
௬ ଷଷ
ή ͳͲͲ. Grafički prikaz baznih
indeksa ilustrujemo sljedećim prikazom: bazni indeks 2014=100 40,00 30,00 20,00 10,00 0,00 -10,00 -20,00 -30,00 -40,00 -50,00 -60,00 -70,00
2009
2010
2011
2012
2013
2014
Slika 44. Grafička ilustracija baznih indeksa pomoću površinskog dijagrama
352
c. Prosječna godišnja stopa promjene broja saobraćajnih nezgoda izračunava se I iznosi kako షభ
௬
లషభ
ଷଷ
ఱ
slijedi:ݏҧ ൌ ൬ ට െ ͳ൰ ή ͳͲͲ ൌ ቆ ට െ ͳቇ ή ͳͲͲ ൌ ሺඥͲǡͺʹͷͺ െ ͳ)100 = (0,96286 ସ ௬ భ
– 1)100 = – 3,71. Navedeno upućuje na zaključak da se broj saobraćajnih nezgoda u periodu od 2009 – 2014.godine u prosjeku smanjuje za 3,71% godišnje. Tako da se u 2016.godni može očekivati sljedeći broj saobraćajnih nezgoda: 336*[(100 – 3,71)i]/100 = 336*0,962852/100 = 336*0,927097/100 = 311,5047 | 311. U prethodnom obrascu i predstavlja razmak između vremenskog intervala za koji se predviđa nivo pojave i vremenskog intervala na osnovu kojeg se vrši predviđanje a to su u ovom slučaju 2014 i 2016.godina i = 2016 – 2014 = 2, dok je y(2014) = 336. Zaključujemo da se prema vrijednosti prosječne godišnje promjene broja nezgoda u 2016.godini može očekivati 311 saobraćajnih nezgoda na području posmatrane SJB; d. Lančani indeksi se preračunavaju u bazne indekse tako što se transformacija podijeli na dva dijela I to na periode prije baznog perioda I periode poslije baznog perioda. Za bazni period vrijednost ovog indeksa je 100, za godine prije baznog perioda bazni indeks dobijamo tako što bazni indeks sljedeće godine podijelimo sa lančanim indeksom iz istog perioda I rezultat pomnožimo sa 100, odnosno pomoću obrasca: ܫ௧ ൌ
ܫ௧ାଵ ή ͳͲͲ ܫ௧ାଵ
Za periode poslije baznog perioda preračunavanje lančanih indeksa u bazne vršimo tako što pomnožimo vrijednost baznog indeksa prethodnog perioda I lančanog indeksa posmatranog perioda I dobijeni proizvod podijelimo sa 100, odnosno pomoću obrasca: ܫ௧ ൌ
ܫ௧ିଵ ή ܫ௧ ͳͲͲ
Rezultati preračunavanja lančanih indeksa u bazne sa bazom u 2009 godini prikazani su u prethodnoj tabeli u koloni IBt(2009). Bazni indeksi sa bazom u jednom period (100 = BS) mogu se preračunati u bazne indekse sa bazom u drugom periodu (100 = BN), tako što vrijednost indeksa koji odgovara novoj bazi ima vrijednost 100, a svi ostali se dobiju tako što se vrijednost indeksa sa prethodnom bazom (IBSt) podijeli sa vrijednošću baznog indeksa u period nove baze (IBS;t=N) I dobijeni količnik se pomnoži sa 100, odnosno pomoću obrasca:
353
ܫே௧ ൌ
ܫௌ௧ ܫௌǢ௧ୀே
ή ͳͲͲ
Bazni indeksi se preračunavaju u lančane tako što dijelimo bazni indeks iz posmatranog perioda (perioda za koji računamo vrijdenost indeksa) sa baznim indeksom iz prethodnog perioda I dobijeni količnik pomnožimo sa 100, odnosno pomoću obrasca: ܫ௧ ൌ
ூಳ ூಳషభ
ή
ͳͲͲ. Primjer preračunavanja baznih indeksa sa bazom u 2014.godini (2014 = 100) u lančane imamo urađen u prethodnoj tabeli I rezultati su u koloni ILtP. Konkretno određivanje vrijednosti podrazumijeva prethodno opisani ostupak, pri čemu je npr. IL3P = ሺమబభరሻ
ூಳయ
ሺమబభరሻ
ூಳమ
ή ͳͲͲ ൌ
ଵଶǡଽ ସଵǡଷ
ή ͳͲͲ ൌ ʹͷǡ͵.
Bazni indeksi sa bazom u 2014.godini (BS = 2014 = 100) preračunavaju se u bazne sa ሺଶଵଶሻ
bazom u 2012.godini (NB = 2012 = 100), tako što je npr. IB4(2012) = 100, ܫଵ ͳͲͲ ൌ
ଵଶǡ଼ଷ ସଵǡଷ
ൌ
ሺమబభరሻ
ூಳభ
ሺమబభరሻ
ூಳర
ή
ή ͳͲͲ ൌ ʹͻʹǡͲͻ, ostale vrijednosti izračunavaju se analognim postupkom.
Primjer 6.5. Podaci o cijenama I količinama proizvoda u toku 2013 I 2014.godine u jednoj pekari mogu se prikazati u sljedećoj tabeli: Proizvod
2013.godina
2014.godina
Cijena (BAM)
Količina (000 kom.)
Cijena (BAM)
Količina (000 kom.)
Kifla mala
0,09
45
0,11
39
Kifla velika
0,15
45
0,15
32
Pecivo kajzer
0,25
16
0,23
18
Lepinja
0,19
39
0,22
43
Kruh
0,75
48
0,72
35
Porodični kruh
1,3
16
1,25
25
Tabela 168. Ostvarene proizvodne cijene i obim proizvodnje po asortimanu pekarskih proizvoda u toku 2013 I 2014.
Potrebno je: a. Odrediti individualne indekse cijena posmatranih proizvoda, te odrediti prosječnu vrijednost individualnih indeksa cijena proizvoda kao prostu sredinu indeksa cijena pojedinih proizvoda I u obliku količnika agregata cijena u posmatranim razdobljima; b. Odrediti Laspeyresov I Paascheov indeks cijena proizvoda, prvi preko potpunih odnosa, a drugi metodom agregata; 354
c.
Odrediti Laspeyresov I Paascheov indeks fizičkog obima proizvodnje, prvi metodom agregata, a drugi preko potpunih odnosa;
d. Odrediti indeks vrijednosti proizvodanje I komentarisati uticaj promjene cijena I fizičkog obima proizvodnje na njegovu vrijednost. Rješenje: Radna tabela sa elementima za određivanje pomenutih analitičkih pokazatelja dinamike poslovanja ima sljedeći izgled: భ
Ipt=
ή ͳͲͲ
భ
q1
0,09
45
0,11
39
122,2
4,05
4,29
4,95
3,51
3,51
0,15
45
0,15
32
100,0
6,75
4,8
6,75
4,8
4,8
0,25
16
0,23
18
92,0
4
4,14
3,68
4,5
4,5
0,19
39
0,22
43
115,8
7,41
9,46
8,58
8,17
8,17
0,75
48
0,72
35
96,0
36
25,2
34,56
26,25
26,25
1,3
16
1,25
25
96,2
20,8
31,25
20
32,5
32,5
79,0
79,1
78,5
79,7
79,7
622,2
బ
p0q1
p0 q0
p1
Ukupno (6):
p1 q1
p0 q0
q0
బ
p 0 q0
భ
p0
బ
Tabela 169. Radna tabela elementi za izračunavanje vrijednosti indeksa
a. Vrijednost individualnih indeksa cijena (Ipt) u 2014 u odnosu na 2013.godinu dobijamo kao njihov količnik pomnožen sa 100, vrijednosti individualnih indeksa cijena sadržani su u koloni Ipt, prosječna vrijednost indeksa cijena kao prosta aritmetička sredina ଵ ଵ pojedinih indeksa cijena izračunava se kako slijedi: ܫഥ ൌ σୀଵ భ ή ͳͲͲ ൌ ή ʹʹǡʹ ൌ
బ
ͳͲ͵ǡͻ. Prosječna vrijednost indeksa cijena izražen putem agregata cijena dobijamo tako što saberemo cijene u jednom vremenskom periodu I podijelimo sa zbirom cijena u
σ భ ǡଵଵାǡଵହାǡଶଷାǡଶଶାǡଶାଵǡଶହ ଶǡ଼ ή ͳͲͲ ൌ ή ͳͲͲ ൌ ή ͳͲͲ ൌ drugom periodu: ܫഥ ൌ σసభ సభ బ
ǡଽାǡଵହାǡଶହାǡଵଽାǡହାଵǡଷ
ଶǡଷ
ͻͳǡͳǤ ͵ b. Grupni indeks cijena određujemo kao Laspeyresov metodom potpunih odnosa koristeći obarazac:ܫ ൌ 36
భ σ సభ బ బ బ
σ సభ బ బ
ή ͳͲͲ ൌ
଼ǡହ ଽǡ
100 = 99,38; zatim grupni indeks cijena
Analognim postupkom moguće je izračunati individualne i prosječne vrijednosti individualnih indeksa fizičkog obima
355
σ భ భ
izračunavamo kao Paasheov metodom agregata koristeći obrasac: ܫ ൌ σసభ
సభ బ భ
ͳͲͲ ൌ
ଽǡଵ ଽǡ
ή
ή ͳͲͲ = 99,26. Obe dobijene vrijednosti grupnog indeksa cijena upućuju na
zaljučak da se nivo cijena u 2014 u odnosu na 2013.godinu u prosjeku smanjio I to po jednom pokazatelju za 0,62; odnosno 0,74% po drugom pokazatelju. c. Grupni indeks fizičkog obima može se izračunati kao Laspeyresov indeks fizičkog σ బ భ
obima koristeći metodu agregata, odnosno pomoću obrasca: ܫ ൌ σసభ
సభ బ బ
ή ͳͲͲ ൌ
ଽǡ ଽǡ
ή
ͳͲͲ ൌ ͳͲͲǡͻͳǢ zatim grupni indeks fizičkog obima izračunavamo kao Paasheov indeks fizičkog obima, metodom potpunih odnosa, odnosno koristeći obrazac: ܫ ൌ σ సభ భ భ బ σ సభ భ భ భ
ή ͳͲͲ ൌ
ଽǡଵ ଼ǡହ
ή ͳͲͲ ൌ ͳͲͲǡͻ. Obe dobijene vrijednosti grupnog indeksa
fizičkog obima proizvodnje upućuju na zaključak da se nivo fizičkog obima proizvodnje u 2014 u odnosu na 2013.godinu u prosjeku povećao I to po jednosm pokazatelju za 0,91; odnosno 0,79% po drugom pokazatelju. σ భ భ
d. Grupni indeks vrijednosti izračunava se kao: ܫ ൌ σసభ
సభ బ బ
ή ͳͲͲ ൌ
ଽǡଵ ଽǡ
ή ͳͲͲ ൌ
ͳͲͲǡͳ. Indeks vrijdenosti proizvodnje u posmatranoj pekari upućuje na zaključak da se vrijednost proizvodnje u 2014 u odnosu na 2013.godinu povećala za 0,16%, na šta je uticalo prosječno povećanje fizičkog obima proizvodnje I prosječno smanjenje proizvodnih cijena, pri čemu je prosječno povećanje fizičkog obima proizvodnje veće (po jednom pokazatelju je 0,91, a po drugom 0,79%) od prosječnog smanjenja cijena (po jednosm pokazatelju je 0,62, a po drugom 0,74%), čime promjena fizičkog obima ima dominantan uticaj na promjenu vrijednosti proizvodnje u posmatranoj pekari u 2014 u odnosu na 2013.godinu.
6.4. Odabrani modeli vremenskih serija Model obuhvata sliku realnih pojava I procesa, pojam model vremenske serije obuhvata analitičke izraze kojima se opisuje razvoj određene pojave u vremenu. Tipični elementi kojima opisujemo razvoj pojave u vremenu, uobičajeno, obuhvataju sljedeće komponente: 356
Trend komponentu, kojom se izražava dugoročna razvojna tendencija;
-
Sezonsku komponentu, kojom se izražavaju ponovljene pojave u toku jediničnog vremenskog perioda (jedne godine);
-
Cikličnu komponentu, kojom se se izražavaju ponovljene pojave u toku više jediničnih vremenskih perioda (više godina) i
-
Slučajnu (rezidualnu) komponentu, kojom se izražavaju nesistematski uticaji na razvoj pojave.
Prve tri komponente (trend, ciklična I sezonska) nazivaju se sistematskim komponentama, jer se njima izražavaju kovarijacije pojava u vremenu, pri čemu postoji mogućnost njihovog izražavanja odgovarajućom funkcijom pojave u vremenu. Modeli vremenskih serija obuhvataju statističke I analizičke postupke kojima se vrši deskripcija proteklog razvoja pojave u vremenu, deskripcija varijacija posmatrane pojave pomoću varijacija drugih veličina, predikciji I kontroli dinamičkih procesa u budućnosti. Izbor statističkih postupaka I modela određen je ciljevima analize I osobinama analizirane vremenske serije. Modeli analize vremenskih serija odnose se na deskriptivne I inferncijalne modele u zavisnosti od obuhvaćenosti obima pojave istraživanjem, te modele u vremenskom domenu I modele u domenu frekvencija, u zavisnosti od oblika raščlanjivanja vremenske serije na komponente vremenske serije. 6.4.1.
Modeli trenda
Model trenda, u analizi vremenske serije, ima zadatak da izvrši stohastičku deskripciju dugoročne kovarijacije određene pojave sa vremenom, pri čemu se opšti oblik modela trenda može zapisati kao aditivni model trenda, opšteg oblika: yi = f(xi) + εi ili multiplikativni model trenda, opšteg oblika: yi = f(xi) εi. U prethodnim izrazima: -
yi označava pojavu izraženu vremenskom serijom;
-
f(xi) označava nepoznatu funkciju vremena – deterministički dio trenda, pri čemu navedena funkcija može biti različitog analitičkog oblika, kao što su: polinomni (najčešće: linearni i kvadratni), eksponencijalni (najčešće: jednostavni eksponencijalni modeli i logaritamska parabola), recipročni polinomni, asimptotski,...
-
xi označava nezavisno promjenljivu veličinu, a njome se izražava vrijeme u određenim jedinicama mjere, najčešće u godinama, konvencionalno se izražava nizom od n vrijednosti čiji je zbir jednak nula, a međusobni razmak jednak razmaku empirijskih 357
vrijednosti. Moguće je i izražavanje nizom od n prirodnih brojeva, pri čemu je n = 0, 1, 2, ... , (n – 1). Godina kojoj, opisanom transformacijom, dodijelimo vrijednost 0 naziva se ishodištem perioda (godina za koju je xi = 0)37; -
εi označavaju slučajna odstupanja koja se pojavljuju u obliku slučajnih promjenljivih.
Uobičajeno je da model trenda nosi naziv prema analitičkom obliku njegovog determinističkog modela. Metode izbora analitičkog oblika funkcije trenda podrazumijeva dijagram rasipanja podataka kao apriorni metod, te aposteriorne metode, kao što su: mjere varijabiliteta, testiranje statističke značajnosti parametara modela I modela kao cjeline. Modeli trenda mogu biti globalni I lokalni modeli trenda, pri čemu se kod globalnih modela trenda parametri se ne mijenjaju sa vremenom, I takvi modeli se analiziraju metodama regresione analize, kod modela lokalnog trenda parametri trenda se prilagođavaju se promjenama osobina podataka koji su predmet analize. Svi analitički postupci kojima vršimo regresionu analizu primjenljivi su I na modele globalnog trenda, te se I provode istim postupkom. Primjer 6.6. Prema podacima zdravstvene ustanove “Z”, broj pacijenata sa određenim hroničnim zdravstvenim problemima, u period od 1996, do 2013.godine mogu se prikazati sljedećim tabelarnim prikazom: Godina 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 37
Broj pacijenata sa hroničnim zdravstvenim tegobama Hipertenzija Dijabetes tipa I Hipotireoza 21555 948 18665 770 17598 541 16524 543 16841 303 14365 289 12834 275 16912 197 11542 185 7983 188 10523 182 8614 174 7681 216
412 415 427 486 527 594
Ukoliko se vrši transformacija na način da dobijemo niz transformisan da zbir vrijednosti bude nula, tada je ishodište u sredini vremenskog intervala, a u drugom slučaju ishodište je na početku vremenskog perioda. Važno je napomenutu da su moguće i druge transformacije uz uslov da se poštuje da je Δxi = 1, i
358
2008 2009 2010 2011 2012 2013
5698 4652 3896 2598 1995 2016
167 162 155 141 147 137
703 774 856 1055 1450 1751
Tabela 170. Distribucija broja pacijenata prema hroničnim zdravstvenim tegobama u vremenskom periodu od 1996 – 2013.godine
Potrebno je: a. Prikazati prethodne vremenske distribucije u dekartovom koordinatnom sistemu I na osnovu izgleda dijagrama rasipanja izabrati odgovarajuću funkciju trenda koja se adekvatno prilagođava empirijskim podacima; b. Ocijeniti vrijednosti parametra odabranog trenda; c. Ocijeniti vrijednost standardne devijacije i koeficijenta varijacije trenda; d. Predvidjeti broj pacijenata sa posmatranim hroničnim tegobama u 2015.godini korištenjem odabranog trenda. Rješenje: a. Ovdje je riječ o tri statističke serije koje je potrebno odvojeno analizirati. Prvi korak u analizi predstavlja grfičko prikazivanje posmatranih serija, što predstavljamo narednim ilustracijama. Distribucija pacijenata sa hipertenzijom se može ilustrovati sljedećim prikazom: Broj pacijenata sa hipertenzijom 25000 20000 15000 10000 5000 0 1990
1995
2000
2005
2010
2015
2020
-5000 Slika 45. Grafički prikaz distribucije pacijenata sa hroničnim tegobama, hipertenzije, u zdravstvenoj ustanovi “Z”
359
Prema obliku grupisanja podataka u dijagramu rasipanja uočavamo da se podaci grupišu oko prave linije tako da se adekvatan oblik zavisnosti odnosi na izbor linearne funkcije trenda, koja se uopšteno može iskazati analitičkim oblikom: yi = α + βxi + εi. Distribucija pacijenata sa dijabetesom tipa I može se prikazati sljedećom ilustracijom: Broj pacijenata sa dijabetesom tipa I 1000 900 800 700 600 500 400 300 200 100 0 1990
1995
2000
2005
2010
2015
Slika 46. Grafički prikaz distribucije pacijenata sa hroničnim tegobama, dijabetes tipa I, u zdravstvenoj ustanovi “Z”
Prema obliku grupisanja podataka u dijagramu rasipanja uočavamo da se podaci grupišu oko parabole, tako da se adekvatan oblik zavisnosti odnosi na izbor polinomne funkcije drugog reda, koja se uopšteno može iskazati analitičkim oblikom: yi = α + βxi + γxi2 + εi. Distribucija pacijenata sa hipotireozom može se prikazati sljedećom ilustracijom: Broj pacijenata sa hipotireozom 2000 1800 1600 1400 1200 1000 800 600 400 200 0 1994
1996
1998
2000
2002
2004
2006
2008
Slika 47. Grafički prikaz distribucije pacijenata sa hroničnim tegobama, hipotireozom, u zdravstvenoj ustanovi “Z”
360
Prema obliku grupisanja podataka u dijagramu rasipanja uočavamo da se podaci grupišu oko hiperbole, tako da se adekvatan oblik zavisnosti odnosi na izbor eksponencijalne funkcije, koja se uopšteno može iskazati analitičkim oblikom: yi = αβxiεi. b. Radna tabela sa elementima za određivanje parametara linearnog trenda, za potrebe iskazivanja dugoročne razvojne tendencije broja pacijenata zdravstvene ustanove “Z” sa hroničnom hipertenzijom ima izgled: Godina
Y1i
Xi2
X1i
ܻଵ
Xi Yi
ei
1995
21555
-9
81
-193995 20425,88
1274902
1996
18665
-8
64
-149320 19340,51
456307,4
1997
17598
-7
49
-123186 18255,13
431815
1998
16524
-6
36
-99144 17169,75
416989,7
1999
16841
-5
25
-84205 16084,37
572491,3
2000
14365
-4
16
-57460 14998,99
401942,7
2001
12834
-3
9
-38502 13913,61
1165559
2002
16912
-2
4
-33824 12828,23 16677165
2003
11542
-1
1
-11542 11742,85
40341,78
2004
7983
0
0
0 10657,47
7152809
2005
10523
1
1
10523 9572,095
904220,8
2006
8614
2
4
17228 8486,716
16201,27
2007
7681
3
9
23043 7401,337
78211,48
2008
5698
4
16
22792 6315,958
381872
2009
4652
5
25
23260 5230,579
334753,6
2010
3896
6
36
23376
4145,2
62100,64
2011
2598
7
49
18186 3059,821
213278,7
2012
1995
8
64
15960 1974,442
422,627
2013
2016
9
81
18144 889,0632
1269987
Ukupno
202492
0
570
-618666
202492 31851371
Tabela 171. Radna tabela elementi za određivanje parametara linearnog trenda
361
Ocijenjeni oblik linearnog trenda, kojim iskazujemo razvojnu tendenciju broja pacijenata zdravstvene ustanove “Z” sa hipertenzijom, glasi: ܻଵ ൌ ܽ ܾܺଵ ݁ Ocijenjene vrijednosti parametara linearnog trenda određuju se korištenjem sljedećih izraza: ܾൌ
σୀଵ ݔ ݕ െ ݊ݔҧ ݕത െͳͺǤ െ ͳͻ ή Ͳ ή ͳͲǤͷǡͶ σୀଵ ݔ ݕ ൌ ൌ ଶ ൌ െͳǤͲͺͷǡ͵ͺ തതതଶ σୀଵ ݔ ͷͲ െ ͳͻ ή Ͳଶ σ ݔଶ െ ݊ݔ ୀଵ
ܽ ൌ ݕത െ ܾݔҧ ൌ ͳͲǤͷǡͶ ͳǤͲͺͷǡͶ ή Ͳ ൌ ݕത ൌ ͳͲǤͷǡͶ U računu su korišteni elementi: ݔҧ ൌ
σ సభ ௫
ൌ
ଵଽ
ൌ Ͳ I ݕത ൌ
σ సభ ௬
ൌ
ଶଶǤସଽଶ ଵଽ
ൌ ͳͲǤͷǡͶ
Ocijenjeni oblik funkcije trenda, kojom izražavamo dugoročnu razvojnu tendenciju broja pacijenata sa hroničnim tegobama obliku hipertenzije liječenih u zdravstvenoj ustanovi “Z”, glasi:ܻଵ ൌ 10.657,47 – 1.085,47 X1i Značenje parametara odnosi se na: Prosječan broj pacijenata liječenih od hipertenzije u zdravstvenoj ustanovi “Z” u ishodišnoj godini (godina za koju je x1i = 0 – u konkretnom primjeru to je 2004.godina) iznosi 10.657 pacijenata.38 Prosječna godišnja promjena broja pacijena liječenih od hipertenzije u zdravstvenoj ustanovi “Z” iznosi – 1.085,38; zaključujemo da se godišnje u prosjeku broj pacijenata liječenih od hipertenzije u zdravstvenoj ustanovi “Z” smanji za 1.085. Radna tabela sa elementima za određivanje parametara paraboličnog trenda (polinomni trend drugog reda), za potrebe iskazivanja dugoročne razvojne tendencije broja pacijenata zdravstvene ustanove “Z” sa hroničnom dijabetesom tipa I ima izgled: Godina
38
X2i Y2i
X2i2
X2i3
X2i4
X2iY2i
X2i2Y2i
ܻଶ
ei
1995
-9
948
81
-729
6561
-8532
76788 819,0827 16619,67
1996
-8
770
64
-512
4096
-6160
49280 712,4762 3308,989
1997
-7
541
49
-343
2401
-3787
26509 614,5251 5405,946
1998
-6
543
36
-216
1296
-3258
19548 525,2295 315,7891
1999
-5
303
25
-125
625
-1515
7575 444,5894 20047,56
2000
-4
289
16
-64
256
-1156
4624 372,6047 6989,754
Vrijednost parametra a iznosi 10.657,47 pri čemu navedena vrijednost predstavlja broj pacijenata koji se iskazuje prirodnim brojem, stoga je njegovu vrijednost potrebno zaokružiti
362
2001
-3
275
9
-27
81
-825
2475 309,2755 1174,813
2002
-2
197
4
-8
16
-394
788 254,6018 3317,967
2003
-1
185
1
-1
1
-185
185 208,5835 556,1823
2004
0
188
0
0
0
0
0 171,2207 281,5449
2005
1
182
1
1
1
182
182 142,5133 1559,196
2006
2
174
4
8
16
348
696 122,4614 2656,222
2007
3
216
9
27
81
648
1944
111,065 11011,35
2008
4
167
16
64
256
668
2672
108,324 3442,868
2009
5
162
25
125
625
810
4050 114,2385 2281,157
2010
6
155
36
216
1296
930
5580 128,8085 685,9951
2011
7
141
49
343
2401
987
6909 152,0339 121,7471
2012
8
147
64
512
4096
1176
9408 183,9148 1362,701
2013
9
137
81
729
6561
1233
Ukupno:
0
5720
570
0
30666
11097 224,4511
-18830 230310
7647,7
5720 88787,15
Tabela 172. Radna tabela elementi za određivanje parametara paraboličnog trenda
Ocijenjeni oblik linearnog trenda, kojim iskazujemo razvojnu tendenciju broja pacijenata ଶ ݁ zdravstvene ustanove “Z” sa hipertenzijom, glasi: ܻଶ ൌ ܽ ܾܺଶ ܿܺଶ
Ocijenjene vrijednosti parametara linearnog trenda određuju se polazeći od sistema normalnih jednačina koji glasi: σୀଵ ݕ = na + bσୀଵ ݔ + cσୀଵ ݔଶ σୀଵ ݔ ݕ = aσୀଵ ݔ + bσୀଵ ݔଶ + cσୀଵ ݔଷ σୀଵ ݔଶ ݕ = aσୀଵ ݔଶ + bσୀଵ ݔଷ + cσୀଵ ݔସ Uvrštavajući konkretne vrijednosti u prethodni sistem jednačina, dobijamo: 5720 = 19,00a + 0b + 570c -18.830 = 0a + 570b + 0c 230.310 = 570a + 0b + 30.666c Rješavanje posmatranog sistema jednačina moguće je odrediti korištenjem adekvatnih matematičkih metoda, kao što su supstitucija, Gausova metoda (suprotnih koeficjenata),
363
matrična metoda i dr. Posmatrani sistem jednačina rješiti ćemo metodom determinanti39. Ocijenjene vrijednosti parametara regresionog modela dobijamo sljedećim postupkom: ͳͻ Ͳ ܦൌอ Ͳ ͷͲ ͷͲ Ͳ
ͷͲ Ͳ อ ൌ ͳͶǤͻͳͻǤͺͲ ് Ͳ ͵ͲǤ
Kako je determinanta sistema različita od nule, zaključujemo da sistem ima rješenje. ͷǤʹͲ Ͳ ͷͲ ܦ ൌ อെͳͺǤͺ͵Ͳ ͷͲ Ͳ อ ൌ ʹǡͷʹ ή ͳͲଵ ʹ͵ͲǤ͵ͳͲ Ͳ ͵ͲǤ ͳͻ ͷǤʹͲ ͷͲ ܦ ൌ อ Ͳ െͳͺǤͺ͵Ͳ Ͳ อ ൌ െͶǡͺͷ ή ͳͲଽ ͷͲ ʹ͵ͲǤ͵ͳͲ ͵ͲǤ ͳͻ Ͳ ͷǤʹͲ ܦ ൌ อ Ͳ ͷͲ െͳͺǤͺ͵Ͳอ ൌ ǡ͵ ή ͳͲ଼ ͷͲ Ͳ ʹ͵ͲǤ͵ͳͲ Nadalje dobijamo: ܽൌ
ܦ ʹǡͷʹ ή ͳͲଵ ൌ ൌ ͳͳǡʹʹͲ ܦ ͳͶǤͻͳͻǤͺͲ
ܾൌ
െͶǡͺͷ ή ͳͲଽ ܦ ൌ ൌ െ͵͵ǡͲ͵ͷͲͻ ܦ ͳͶǤͻͳͻǤͺͲ
ܿൌ
ǡ͵ ή ͳͲ଼ ܦ ൌ ൌ Ͷǡ͵ʹ͵ͳͳ ܦ ͳͶǤͻͳͻǤͺͲ
Ocijenjeni oblik funkcije trenda, kojom izražavamo dugoročnu razvojnu tendenciju broja pacijenata sa hroničnim tegobama obliku dijabetesa tipa 1 liječenih u zdravstvenoj ustanovi ଶ “Z”, glasi: ݕෞ ଶప ൌ ͳͳǡʹʹ െ ͵͵ǡͲ͵ݔଶ Ͷǡ͵͵ݔଶ
Značenje parametara odnosi se na: Prosječan broj pacijenata liječenih od dijabetesa tipa I u zdravstvenoj ustanovi “Z” u ishodišnoj godini (godina za koju je x1i = 0 – u konkretnom primjeru to je 2004.godina) iznosi 171 pacijent. Prosječna godišnja promjena broja pacijena liječenih od dijabetesa tipa I u zdravstvenoj ustanovi “Z” iznosi – 33,03; zaključujemo da se godišnje u prosjeku broj pacijenata liječenih od hipertenzije u zdravstvenoj ustanovi “Z” smanji za 33. Kvadratni član modela ima vrijednost 4,33.
39
Primjena matrične metode objašnjena je u poglavlju o regresionoj analizi
364
Radna tabela sa elementima za određivanje parametara eksponencijalnog trenda, za potrebe iskazivanja dugoročne razvojne tendencije broja pacijenata zdravstvene ustanove “Z” sa hroničnom hipotireozom ima izgled: Godina
X3i
Y3i
logY3i
X3i log Y3i
log ܻଷ
X3i2
ܻଷ
ei
2002
-5,5
412 2,614897
-14,3819
30,25
2003
-4,5
415 2,618048
-11,7812
20,25 2,587805 387,0839 779,3071
2004
-3,5
427 2,630428
-9,2065
2005
-2,5
486 2,686636
-6,71659
6,25 2,702176 503,7051 313,4688
2006
-1,5
527 2,721811
-4,08272
2,25 2,759362 574,5951
2007
-0,5
594 2,773786
-1,38689
0,25 2,816547 655,4619 3777,569
2008
0,5
703 2,846955
1,423478
0,25 2,873733 747,7098 1998,964
2009
1,5
774 2,888741
4,333111
2,25 2,930919 852,9403 6231,573
2010
2,5
856 2,932474
7,331184
6,25 2,988104 972,9807 13684,48
2011
3,5
1055 3,023252
10,58138
12,25
2012
4,5
1450 3,161368
14,22616
20,25 3,102475 1266,122
2013
5,5
1751 3,243286
17,83807
30,25 3,159661 1444,312 94057,62
0
9450 34,14168
8,177538
Ukupno:
2,53062 339,3279 5281,236
12,25 2,644991
441,561 212,0231 2265,29
3,04529 1109,915 3015,681
143 34,14168
33811,3 165428,5
Tabela 173. Radna tabela elementi za određivanje parametara eksponencijalnog trenda
Ocijenjeni oblik linearnog trenda, kojim iskazujemo razvojnu tendenciju broja pacijenata zdravstvene ustanove “Z” sa hipertenzijom, glasi: ݈ܻ݃ଷ ൌ ݈ ܽ݃ ܺଷ ݈ ܾ݃ ݈݁݃ Ocijenjene vrijednosti parametara linearnog trenda određuju se korištenjem sljedećih izraza: ݈ ܾ݃ൌ
σୀଵ ݔଷ ݈ݕ݃ଷ െ ݔҧ σୀଵ ݈ݕ݃ଷ ͺǡͳͷ͵ͺ െ ͳʹ ή Ͳ ή ͵ͶǡͳͶͳͺ ൌ തതതଶ ͳͶ͵ െ ͳʹ ή Ͳଶ σ ݔଶ െ ݊ݔ ୀଵ ଷ
σୀଵ ݔଷ ݈ݕ݃ଷ ൌ ൌ ͲǡͲͷͳͺ ଶ σୀଵ ݔଷ ݈ ܽ݃ൌ
σୀଵ ݈ݕ݃ଷ σୀଵ ݈ݕ݃ଷ ͵ͶǡͳͶͳͺ െ ݈ݔܾ݃ҧ ൌ ͲǡͲͷͳͺ ή Ͳ ൌ ൌ ʹǡͺͶͷͳͶ ͳʹ ݊ ݊
U računu je korišten element: ݔҧ ൌ
σ సభ ௫
ൌ
ଵଶ
ൌ Ͳ.
365
Ocijenjeni oblik funkcije trenda, kojom izražavamo dugoročnu razvojnu tendenciju broja pacijenata sa hroničnim tegobama obliku hipotireoze liječenih u zdravstvenoj ustanovi “Z”, glasi:݈ܻ݃ଷ ൌ 2,84514 + 0,057186 X3i Značenje parametara odnosi se na: Prosječan broj pacijenata liječenih od hipotireoze u zdravstvenoj ustanovi “Z” u ishodišnoj godini (godina za koju je x3i = 0 – u konkretnom primjeru to je vremenski trenutak između 2007. I 2008.godina) iznosi 102,84514 = 700,0681|700, a prosječno godišnje povećanje broja pacijenata koji se u zdravstvneoj ustanovi liječe od hipotireoze povećava se u prosjeku za 14, jer je logy = 100,057186 = 1,14|1, pa je Δy = 101,14=13,82729|14. c. Ocijenjena vrijednost standardne devijacije i koeficijenta varijacije trenda izračunava se korištenjem obrasca: ߪො ൌ ට
σ ො ሻమ సభሺ௬ ି௬ ିሺାଵሻ
ෝ ఙ
Ǣ ܭ௬ො ൌ ത ή ͳͲͲΨ ௬
Ocijenjena vrijednost standardne devijacije modela linearnog trenda izračunava se korištenjem obrasca: ߪො ൌ ට
σ ො ሻమ సభሺ௬ ି௬ ିሺାଵሻ
ܭ௬ො ൌ
ൌට
ଷଵǤ଼ହଵǤଷଵ ଵଽିሺଶାଵሻ
ൌ ͳǤͶͳͲǡͻʹͷǢ
ͳǤͶͳͲǡͻʹͷ ή ͳͲͲΨ ൌ ͳ͵ǡʹͶΨ ͳͲǤͷǡͶ
Vrijednost prethodnih pokazatelja ukazuje na nizak nivo varijabiliteta u okviru izabranog regresionog modela, čime je, sa posmatranog aspekta, opravdano smatrati ga reprezentativnim za pojave čiji varijabilitet se nime izražava. Ocijenjena vrijednost standardne devijacije modela paraboličnog trenda izračunava se σ ො ሻమ సభሺ௬ ି௬
korištenjem obrasca: ߪො ൌ ට ܭ௬ො ൌ
ଷଵǡହଶ ǡଽଷହଽ
ିሺାଵሻ
ൌට
ହǤଽଵଽǡଵସସ ଵଽିሺଷାଵሻ
ή ͳͲͲΨ ൌ ʹͷǡͷΨ, pri čemu je ܻഥଶ ൌ
ൌ ǡͻ͵ͷͻǢ
ହǤଶ ଵଽ
ൌ ͵ͲͳǡͲͷʹ
Vrijednost prethodnih pokazatelja ukazuje na nizak nivo varijabiliteta u okviru izabranog regresionog modela, čime je, sa posmatranog aspekta, opravdano smatrati ga reprezentativnim za pojave čiji varijabilitet se nime izražava. Ocijenjena vrijednost standardne devijacije modela paraboličnog trenda izračunava se σ ො ሻమ సభሺ௬ ି௬
korištenjem obrasca: ߪො ൌ ට 366
ିሺାଵሻ
ൌට
ଵହǤସଶ଼ǡହ ଵଶିሺଶାଵሻ
ൌ ͳ͵ͷǡͷ͵Ǣ
ܭ௬ො ൌ
ଵଷହǡହଷ ଼ǡହ
ή ͳͲͲΨ ൌ ͳǡʹʹΨ, pri čemu je ܻഥଶ ൌ
ଽସହ ଵଶ
ൌ ͺǡͷ
Vrijednost prethodnih pokazatelja ukazuje na nizak nivo varijabiliteta u okviru izabranog regresionog modela, čime je, sa posmatranog aspekta, opravdano smatrati ga reprezentativnim za pojave čiji varijabilitet se nime izražava. d. Ocijenjeni oblik funkcije trenda koristi se u prediktivne svrhe, pri čemu vrijednost nezavisne promjenljive u godini za koju vršimo predikciju (Xp) vršimo pomoću referentne godine obuhvaćene uzorkom Xk, pri čemu je Xp = p – k + XK. polazeći od konkretnog primjera imamo: p = 2015, neka je k = 1999, tada je Xk = – 5 , pa dobijamo Xp = 2015 – 1999 – 5 = 11. U 2015.godini predviđa se da bi broj pacijenata liječenih u zdravstvenoj ustanovi “Z” od hipertenzije ima vrijednost: ܻଵǢଶଵହ ൌ 10.657,47 – 1.085,47 11 = – 1.281,69 negativna vrijednost upućuje na zaključak da će zdravstvena ustanova “Z” prije 2015.godine prestati liječiti pacijente sa hipertenzijom, uvidom u ispravljene (teorijske vrijednosti) u radnoj tabeli moguće je zaključiti da će liječenje pacijenata sa hipertenzijom prestati već 2014.godine. U 2015.godini predviđa se da bi broj pacijenata liječenih u zdravstvenoj ustanovi “Z” od hipertenzije ima vrijednost: ݕොଷǢଶଵହ ൌ ͳͳǡʹʹ െ ͵͵ǡͲ͵ ή ͳͳ Ͷǡ͵͵ ή ͳͳଶ ൌ ͵͵ͳǡͶͻͲʹ. U zdravstvenoj ustanovi „Z“ u 2015.godinu prosječno se očekuje 331 pacijent sa dijabetesom tipa I. U 2015.godini predviđa se da bi broj pacijenata liječenih u zdravstvenoj ustanovi “Z” od hipertenzije ima vrijednost:݈ܻ݃ଷǢଶଵହ ൌ 2,84514 + 0,0571867,5 = 3,274032 ݕොଷǢଶଵହ ൌ ͳͲଷǡଶସଷଶ = 1.879,456|1.879. U zdravstvenoj ustanovi „Z“ u 2015.godinu prosječno se očekuje 1.879 pacijenata sa hipotireozom. 6.4.2.
Metode izravnavanja vremenske serije
Pomični prosjeci predstadvljaju aritmetičke sredine m40 uzastopnih frekvencija vremenske statističke serije, a oni formiraju novu statističku seriju kod koje je stepen varijabiliteta manji od varijabiliteta u polaznoj seriji. Pomični prosjeci izračunavaju se kao proste ili ponderisane sredine I 40
Obavezno mora da vrijedi da je m < n, pri čemu n predstavlja veličinu polazne vremenske serije
367
njihov zadatak je da eliminišu periodičnu komponentu vremenske serije I koriste se u analizi sezonskih pojava. Pomični prosjeci izračunavaju se kao proste ili ponderisane aritmetičke sredine gdje se centriranje prosjeka prilagođava broju članova pomičnih prosjeka: -
Ukoliko je broj članova pomičnog prosjeka neparan, tj.ukoliko je m = 2k+1, pomični prosjeci se računaju pomoću izraza: o za prostu aritmetičku sredinu: ݕ௧ כൌ
ଵ
σ ௦ୀି ݕ௧ା௦ Ǣ ݆݆݃݀݁݁ǣ ݐൌ ݉ ͳǡ ݉
ʹǡ ǥ ǡ ݊ െ ݉, prvih k I poslednjih k – vremenskih perioda vrijednosti pomičnih prosjeka nije moguće izračunati; o za ponderisanu aritmetičku sredinu:ݕ௧ כൌ
ଵ
σ ௦ୀି ݓ௦ ݕ௧ା௦ Ǣ ݆݃݀݁ݑݏǣ ݐൌ ݉
ଵ
ͳǡ ݉ ʹǡ ǥ ǡ ݊ െ ݉݅ݓ௦ ൌ ሾݓଵ ǡ ݓଶ ǡ ǥ ǡ ݓ ሿ, pri čemu su wj – predstavljaju
pondere korištene za izračunavanje ponderisane aritmetičke sredine I za koje vrijedi: p = σ ୀଵ ݓ ; -
Ukoliko je broj članova pomičnog prosjeka paran, tj.ukoliko je m = 2k, pomični prosjeci se računaju pomoću izraza: o za ଵ
prostu
aritmetičku
ݕ ቃ Ǣ ݆݆݃݀݁݁ǣݐ ଶ ௧ା
sredinu:
ଶ
ଵ ଵ ቂ ݕ ଶ ௧ି
σିଵ ௦ୀିሺିଵሻ ݕ௧ା௦
ൌ ݉ ͳǡ ݉ ʹǡ ǥ ǡ ݊ െ ݉;
o za ponderisanu aritmetičku sredinu:ݕ௧ כൌ ଵ
ݕ௧ כൌ
ଵ ଵ
ቂ ݓଵ ݕ௧ି σିଵ ௦ୀିሺିଵሻ ݓ௦ ݕ௧ା௦
ଶ
ଵ
ݓ௧ା ݕ௧ା ቃ Ǣ ݆݃݀݁ݑݏǣ ݐൌ ݉ ͳǡ ݉ ʹǡ ǥ ǡ ݊ െ ݉݅ݓ௦ ൌ ሾݓଵ ǡ ݓଶ ǡ ǥ ǡ ݓ ሿ,
pri čemu su wj – predstavljaju pondere korištene za izračunavanje ponderisane aritmetičke sredine I za koje vrijedi: p = σ ୀଵ ݓ . Vremenska serija izražena nizom pomičnih prosjeka kod koga je broj čalova jednak periodu obnavljanja niz pomičnih prosjeka neće biti periodičan, a time I osnovni zadatak pomičnih prosjeka ispunjen. Izgled statističke serije prije I poslije izravnavanja pomičnim prosjecima kontroliše se grafički korištenjem grafičkog prikaza u dekartovom koordinatnom sistemu (dijagram rasipanja). Metoda eksponecijalnog izravnavanja srodna je metodi pomičnih prosjeka, pri čemu se jedinice statističkog skupa ponderišu nejednakim ponderima, a izglađena vrijednost je ponderisana sredina vrijednosti prethodnih razdoblja. Ponderisanje se vrši tako da korišteni ponderi tvore geometrijski niz, pri čemu se frekvenciji tekućeg perioda dodjeljuje vrijednost najvećeg pondera, a 368
udajenijim frekvencijama manji ponderi proporcionalno udaljenosti. Eksponencionalno izravnanje može biti jednostruko ili višestruko. Postupak jednostavnog eksponencijalnog izravnavanja podrazumijeva izračunavanje ponderisane aritmetičke sredine, pri čemu se koristi izraz: -
Koji u opštem obliku glasi: ݕ௧ כൌ ߙݕ௧ ሺͳ െ ߙሻݕ௧ିଵ , gdje je α konstanta izglađivanja I ima vrijednost između nula I jedan, tj. 0 < α < 1;
-
Primjenom metode uzastopne supstitucije prethodni izraz prelazi u oblik: ݕ௧ כൌ ݓ ݕ௧ ݓଵ ݕ௧ିଵ ݓଶ ݕ௧ିଶ ǥ ݓ௧ ݕ , pri čemu je wj = α(1 – α)j.
Postupak dvoparametarskog izravnavanja vremenske serije naziva se Holt – Wintersov postupak, koristi dvije konstante izravnavanja α I β I primjenjuje se na pojave sa trendom I ima כ oblik: : ݕ௧ כൌ ߙݕ௧ ሺͳ െ ߙሻሺݕ௧ିଵ ܶ௧ିଵ ሻ, gdje je procjena uticaja trenda u vremenskom period t: כ Tt = β(ݕ௧ כെ ݕ௧ିଵ )+(1 – β)Tt-1, pri čemu vrijedi da je 0 < α < 1 I 0 < β < 1.
Primjer 6.7. Polazeći od statističke serije broja pacijenata liječenih od hipertenzije u zdravstvenoj ustanovi “Z” iz primjera 6.6. Potrebno je: a. Odrediti trogodišnje i četverogodišnje pomične prosjeke; b. Odrediti ponderisane petogodišnje pomične prosjeke, koristeći pondere ws: [-3 12 17 12 -3]; c. Uporediti polaznu vremensku seriju sa serijama dobijenim pomoću pomičnih prosjeka na jednom grafikonu. Rješenje: Radna tabela sa elementima za određivanje vrijednosti navedenih pokazatelja ima izgled, kako slijedi: Pomični prosjeci
Pomični prosjeci
Ponderisani pomični prosjeci
Godina
Y
m=3
m=4
m =5
1
2
3
4
5
1995
21555
*
*
*
1996
18665
19272,67
*
*
1997
17598
17595,67
17996,25
17321,31
1998
16524
16987,67
16869,50
17002,46
1999
16841
15910,00
15736,50
16161,97 369
2000
14365
14680,00
15189,50
14285,63
2001
12834
14703,67
14575,63
14524,37
2002
16912
13762,67
13115,50
14656,34
2003
11542
12145,67
12028,88
12139,51
2004
7983
10016,00
10702,75
9254,657
2005
10523
9040,00
9182,88
9153,886
2006
8614
8939,33
8414,63
9252,657
2007
7681
7331,00
7395,13
7337,029
2008
5698
6010,33
6071,50
5923,771
2009
4652
4748,67
4846,38
4667,857
2010
3896
3715,33
3748,13
3718,657
2011
2598
2829,67
2955,75
2710,114
2012
1995
2203,00
2013
2016
*
*
*
*
*
Tabela 174. Radna tabela – određivanje prostih tročlanih I četveročlanih pomičnih prosjeka, te ponderisanih pomičnih peteročlanih prosjeka
a. Prosti tročlani pomični prosjeci izračunati su kao proste aritmetičke sredine triju uzastopnih frekvencija vremenske serije, kako je m = 2*1+1 = 3 k = 1, tako da nije moguće izračunati prvi I poslednji (devetnaesti) pomični prosjek,vrijednost pomičnih prosjeka izračunata je I zapisana u koloni 3 prethodne tabele, a za njihovo izračunavanje ଵ
ଵ
ଷ
ଷ
korišten je obrazac: ݕ௧ כൌ σଵ௦ୀିଵ ݕ௧ା௦ , t = 2,3, … , 18, npr. ݕଶ כൌ ሺݕଵ ݕଶ ݕଷ ሻ ൌ ଵ ଷ
ሺʹͳǤͷͷͷ ͳͺͷ ͳͷͻͺሻ ൌ ͳͻʹʹǡ ostali
pomični
prosjeci
se
računaju
analognim postupkom; b. Prosti četveročlani pomični prosjeci izračunati su kao proste aritmetičke sredine četiriju uzastopnih frekvencija vremenske serije, kako je m = 2*2 = 4 k = 2, tako da nije moguće izračunati prvi I poslednja dva (prvi, drugi, osamnaesti I devetnaesti) pomični prosjek,vrijednost pomičnih prosjeka izračunata je I zapisana u koloni 4 prethodne ଵ ଵ
tabele, a za njihovo izračunavanje korišten je obrazac: ݕ௧ כൌ ሺ ݕ௧ିଵ σଵ௦ୀିଵ ݕ௧ା௦ ସ ଶ
ଵ
ݕሻ, ଶ ௧ାଶ
370
ଵ ଵ
ଵ
ଵ ଵ
ସ ଶ
ଶ
ସ ଶ
t = 3,4, … , 17, npr. ݕଷ כൌ ቀ ݕଵ ݕଶ ݕଷ ݕସ ݕହ ቁ ൌ ሺ ʹͳǤͷͷͷ
ଵ
ͳͺͷ ͳͷͻͺ ͳͷʹͶ ͳͺͶͳሻ ൌ ͳͻͻǡʹͷ ostali pomični prosjeci se računaju ଶ
analognim postupkom; c. Ponderisani peteročlani pomični prosjeci izračunati su kao ponderisane aritmetičke sredine pet uzastopnih frekvencija vremenske serije uz korištenje pondera ws = ଵ ଷହ
ሾെ͵ǡͳʹǡͳǡͳʹǡ െ͵ሿ, kako je m = 2*2+1 = 5 k = 2, tako da nije moguće izračunati
prvi I poslednja dva (prvi, drugi, osamnaesti I devetnaesti) pomični prosjek,vrijednost pomičnih prosjeka izračunata je I zapisana u koloni 5 prethodne tabele, a za njihovo izračunavanje korišten je obrazac: ݕ௧ כൌ
ଵ ଷହ
ሺσଶ௦ୀିଶ ݓ௦ ݕ௧ା௦ ሻ, t = 3,4, … , 17, npr.
ଵ
ଵ
ହ
ହ
ݕଷ כൌ ሺെ͵ݕଵ ͳʹݕଶ ͳݕଷ ͳʹݕସ െ ͵ݕହ ሻ ൌ ሺെ͵ ή ʹͳǤͷͷͷ ͳʹ ή ͳͺͷ ͳ ή ͳͷͻͺ ͳʹ ή ͳͷʹͶ െ ͵ ή ͳͺͶͳሻ ൌ ͳ͵ʹͳǡ͵ͳ ostali pomični prosjeci se računaju analognim postupkom; d. Grafička ilustracija orginalne vremenske serije, izravnate vremenske serije pomoću prostih tročlanih I četveročlanih pomičnih prosjeka, te ponderisanih peteročlanih pomičnih prosjeka, može se prikazati sljedećem prikazu: 25000
Serija orginalnih podataka
20000
Pomični prosjek m = 3
15000
10000
Pomični prosjek m =4 5000
1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013
0
Ponderisani pomični prosjeci m = 5
Slika 48. Izgled vremenske serije prije I poslije izravnavanja metodom pomičnih prosjeka
Na slici se jasno vide efekti izravnavanja posmatrane vremenske serije, najveća kolebanja su prisutna kod orginalne vremenske serije, dok sa povećanjem broja članova pomičnih prosjeka serija postaje ravnija, odnosno efekti izravnavanja postaju vidljiviji.
371
Primjer 6.8. U zdravstvenoj ustanovi “Z” zabilježeni su kvartalne vrijednosti podataka o broju pregledanih pacijenata u toku 2012, 2013 I 2014.godine, što se može prikazati u sljedećoj tabeli: Godina
2012
Kvartal
I
Broj
2203
II
2013
III
2598 2710
2014
IV
I
II
III
IV
I
II
III
IV
2829
2955
3016
3751
3896
4652
4748
4846
5698
Tabela 175. Distribucija kvartala prema broju pacijenata pregedanih u zdravstvenoj ustanovi “Z” (red sa oznakom “Broj” označava broj pregledanih pacijenata u toku kvartala)
Potrebno je: a. Izvršiti prosto eksponencijalno izravnavanje posmatrane vremenske serije ako je konstanta izravnavanja 0,6; b. Izvršiti Holt – Wintersonov dvostepeni postupak izravnavanja za modele sa linearnim trendom, konstante izravnavanja su α = 0,6 I β = 0,7; c. Na istom grafikonu prikazati orginalnu vremensku seriju I izravnate vremenske serije. Rješenje: Radna tabela koja sadrži elemente potrebne za provođenje postupka jednofaktorskog I dvofaktorskog eksponencijalnog izravnavanja vremenske serije broja pregledanih pacijenata u zdravstvenoj ustanovi “Z” ima sljedeći izgled: Vremenski Godina
Broj
interval Kvartal
1
2
3 t
2012
2013
372
Izravnate
Izrav.vr (Holt-
Procene
vrijednosti
Wintersonov
efekata
pacijenata (jednofak.eks,α=0,6) model,α=0,6 I β=0,7)
trenda
4
7
5
yt
6 Yt(I)*
Yt(II)*
Tt
I
1
2203
2203
2126,62
379,56
II
2
2598
2440
2561,27
418,13
III
3
2710
2602
2817,76
304,98
IV
4
2829
2738,2
2946,50
181,61
I
5
2955
2868,28
3024,24
108,91
II
6
3016
2956,912
3062,86
59,70
III
7
3751
3433,365
3499,63
323,65
2013
IV
8
3896
3710,946
3866,91
354,19
I
9
4652
4275,578
4479,64
535,17
II
10
4748
4559,031
4854,72
423,11
III
11
4846
4731,213
5018,73
241,74
IV
12
5698
5311,285
5522,99
425,50
78
43902
41829,81
43781,86
3756,25
Ukupno:
Tabela 176. Radna tabela – elementi za provođenje jednofaktorskog I dvofaktorskog Holt – Wintersonovog eksponencijalnog izravnavanja vremenske serije
a. Postupak jednosfaktorskog eksponencijalnog izravnavanja vremenske serije uz konstantu כ כ ൌ Ͳǡݕ௧ െ ͲǡͶݕ௧ିଵ . Rezultati izravnavanja α = 0,6; provodi se korištenjem obrasca: ܻ௧ሺூሻ
eksponencionalnog izravnavanja prikazani su u prethodnoj radnoj tabeli u koloni 5. U postupku izravnavanja uzima se da je vrijednost nultog razdoblja jednaka prvoj frekvenciji vremenske serije (Y0(I)* = y1 = 2.203); b. Inicijalne vrijednosti za primjenu Holt – Wintersovog modela određuju se pomoću jednačine linearnog trenda broja pregledanih pacijenata koji ima oblik: ݕො௧ ൌ ͳͳʹǡͺʹ ʹͻͻǡ͵ͷݔ௧ Ͷͳ. Parametric linearnog trenda koriste se u analizi, tako što izravnata vrijednost nultog vremenskog perioda ima vrijednost parametra a, a ocijenjena vrijednost efekata trenda u nultom vremenskom period ima vrijednost jednaku parametru b, tj.vrijedi da je Y0(II)* = a = 1.716,682 I T0 = b = 299,3566. Model dvofaktorskog izravnavanja u posmatranom
primjeru
je:
כ כ ൌ Ͳǡݕ௧ ͲǡͶ൫ܻ௧ିଵሺூூሻ ܶ௧ିଵ ൯Ǣ ݆݆݃݀݁݁ǣ ܶ௧ ൌ ܻ௧ሺூூሻ
כ כ െ ܻ௧ିଵሺூூሻ ൯ Ͳǡ͵ ή ܶ௧ିଵ . Izračunatevrijednosti prikazane su u kolonama 6 I 7 Ͳǡ൫ܻ௧ሺூூሻ
prethodne radne tabele. Kolona 6 sadrži izravnate vrijednosti dobijene primjenom Holt – Wintersonovog modela, a kolona 7 ocjenene vrijednosti efekata trenda posmatranog vremenskog perioda. c.
Grafička ilustracija efekata eksponencijalnog izravnavanja može se predstaviti sljedećim prikazom:
41
Parametri linearnog trenda određeni su metodom najmanjih kvadrata, gdje su parametric izračunati korištenjem σ௬ σ௫ σ ௫ ௬ ିσ ௫ ήσ ௬ ଵଶכήଷଶ଼Ǥଵଵି଼ήସଷǤଽଶ ସଷǤଽଶ sljedećih obrazaca: ܾ ൌ σ మ =299,3566 I ܽ ൌ െ ܾ ൌ െ ʹͻͻǡ͵ͷ ή మ ൌ మ
଼ ଵଶ
௫ ିሺσ ௫ ሻ
ଵଶήହି଼
ଵଶ
ൌ ͳǤͳʹǡͺʹ
373
6000 5000
Orginalna vremenska serija
4000 Izglađene vrijednosti jednofaktorsko eksponencijalno izravnavanje
3000 2000
Izravnate vrijednosti Holt - Wintersonov model
1000 0 I
II III IV I
II III IV I
II III IV
2012
2013
2014
Slika 49. Izgled vremenske serije prije I poslije izravnavanja metodom jednofaktorskog (α = 0,6)I dvofaktorskog eksponencijalnog izravnavanja; u dvofaktorsko izravnavanje se primjenjuje modelom Holt – Wintersa (α = 0,6 I β = 0,7)
6.4.3. Metode analize sezonskih pojava Analiza vremenskih serija podrazumijeva dekomponovanje vremenske serije na veći broj komponenti među kojima su: trend, ciklična, sezonska i rezidualna komponenta. Sezonska komponenta vremenske serije obuhvata periodične pojave u periodu od jedne godine. Modeli analize vermenskih serija mogu biti: -
Aditivni, uopšteno, iskazani u obliku: yt = Tt + Ct + St + εt ili
-
Multiplikativni, uopšteno, iskazani u obliku: yt = Tt · Ct · St · εt. Modeli vremenskih serija se, ponekad, proširuju uvođenjem komponente kojom se
izražavaju varijacije broja radnih dana, a moguće je i spajanje komponente trenda i ciklične komponente u zajedničku trend – ciklus komponentu. Analiza sezonskih uticaja ima zadatak da izmjeri sezonski uticaj kao i uticaj ostalih komponenti vremenske serije u prognostičke svrhe. Metode analize sezonskih pojava razlikuju se u pogledu načina određivanja vrijednosti pojedinih komponenti, a primjenjuju se:
374
-
Metoda pomičnih prosjeka;
-
Regresioni model sa sezonskim indeksima;
-
CENSUS metoda i njezine varijante i dr.
Primjena metode pomičnih prosjeka koristi se za procenu trend – ciklična komponenta, metoda se provodi primjenom sljedeće procedure: -
Prvo se računaju centrirarni pomični prosjeci prema broju obuhvaćenih perioda u toku godine (ako su podaci dati kvartalno – četveročlani centrirani pomični prosjeci; ako su podaci dati mjesečno – dvanaestočlani centrirani pomični prosjeci i sl);
-
Nakon toga, izračunavaju se prve procjene sezonskih faktora iskazane kao količnici odgovarajućih frekvencija i pomičnih prosjeka. Ocjena sezonske komponente vremenske serije dobija se kao srednja vrijednost prve procene sezonskih uticaja kao jednostavna ili modifikovana42 aritmetička sredina, medijana, vrijednosti istih perioda u toku godine za sve godine obuhvaćene vremenskom serijom. Izračunata sredja vrijednost predstavlja sezonski faktor, koji pomnožen sa sto predstavlja sezonski indeks;
-
Treći korak predstavlja „pročišćavanje“ sezonskog uticaja, a provodi se djelenjem frekvencija sezonskim faktorom;
-
Četvrti korak predstavlja izračunavanje rezidualnog faktora čija vrijednost se dobija dijelenjem desezonirane vrijednosti pojave pomičnim prosjecima kao ocijenjenom vrijednošću trenda. Primjena regresione analize podrazumijeva formiranje regresionog modela koji uključuje i
promjenljive veličine kojima se iskazuje sezonski varijabilitet. Primjer 6.9. Potrošnja penicilina u zdravstvenoj ustanovi „Z“ u periodu od 2009 – 2014. po godinama i kvartalima imala je vrijednost kao u sljedećoj tabeli: Potrošnja penicilina ·106 M i.j.
Godina I kvartal
II kvartal
III kvartal
IV kvatral
2009
3787
4324
1331
2109
2010
3269
1984
1638
4932
2011
4758
1573
1904
4500
2012
1680
2884
844
4427
2014
3820
2034
967
3854
Tabela 177. Potrošnja penicilina u zdravstvenoj ustanovi “Z” u period od 2009 – 2014.godine po kvartalima
Potrebno je: 42
Modifikovana aritmetička sredina se dobija isključivanjem najmanje I najveće vrijednosti
375
a. Analizirati vremensku seriju polazeći od multiplikativnog modela vremenske serije, objedinjujući trend i cikličnu komponentu i primjenjujući metodu pokretnih prosjeka; b. Prikazati statističke serije: orginalnih podataka, pomičnih prosjeka i desezoniranih podataka u istom grafikonu. Rješenje: Elementi potrebni za analizu vremenske serije mogu se prikazati u sljedećoj radnoj tabeli: Godina, Potrošnja kvartal yi 1 2 2009, I 3787 II 3269 III 4758 IV 1680 2010, I 3820 II 3886 III 4324 IV 1984 2011, I 1573 II 2884 III 2034 IV 870 2012, I 1331 II 1638 III 1904 IV 844 2013, I 967 II 1966 III 2109 IV 4932 2014, I 4500 II 4427 III 3854 IV 3689
Pomični prosjeci 3
I ocjena Sezonski sez.faktora faktor 4 5
-
2690,125 2495,625 2455,500 2677,000 2778,000 2259,375 1790,250 1616,500 1534,875 1252,875 1009,250 1089,000 1157,375 1012,625 936,500 1102,375 1756,125 2568,500 3175,000 3330,000
-
1,768691 0,673178 1,555691 1,451625 1,556515 0,878119 0,878648 1,784101 1,325189 0,694403 1,318801 1,504132 1,645102 0,833477 1,032568 1,783422 1,20094 1,920187 1,417323 1,329429 -
1,240606 1,570542 1,145549 0,865237 1,240606 1,570542 1,145549 0,865237 1,240606 1,570542 1,145549 0,865237 1,240606 1,570542 1,145549 0,865237 1,240606 1,570542 1,145549 0,865237 1,240606 1,570542 1,145549 0,865237
Desezonirana Rezidualna serija komponenta 6 7 3052,54 2081,45 4153,47 1941,66 3079,14 2474,31 3774,61 2293,01 1267,93 1836,31 1775,57 1005,50 1072,86 1042,95 1662,09 975,46 779,46 1251,80 1841,04 5700,17 3627,26 2818,77 3364,33 4263,57
1,543968 0,778027 1,253977 0,924283 1,358751 1,014888 0,708241 1,135978 1,156816 0,802558 1,06303 0,957715 1,436082 0,963294 0,832309 1,135546 1,048353 2,219261 1,142444 0,846478 -
Tabela 178. Radna tabela – elementi za analizu vremenske serije potrošnje penicilina u zdravstvenoj ustanovi “Z”
a. Multiplikativni model trenda u opštem obliku glasi: yt = Tt · Ct · St · εt, 376
-
Trend-ciklična komponenta modelirane vremenske serije određuje se metodom pomičnih prosjeka, koji se određuju kao centrirani četveročlani pomični prosjeci. Njihove vrjednosti navedene su u koloni 3 prethodne tabele;
-
Prva ocjena sezonske komponente dobija se kao količnik frekvencija vremanske serije i pomičnog prosjeka (dijele se vrijednosti druge (2) i treće (3) kolone u prethodnoj tabeli), vrijednosti ovog pokazatelja zapisane su u koloni 4 prethodne radne tabele;
-
Sezonski faktor za svaki kvartal dobijen kao prosta aritmetička sredina prvih procjena sezonskih faktora, tako npr.za prvi kvartal sezonski faktor dobijamo kao (1,555691 + 0,878648 + 1,318801 + 1,032568 + 1,417323)/5 vrijednosti ovog pokazatelja zapisani su u koloni 5 prethodne tabele;
-
Pročišćene vrijednosti dobijamo djelenjem frekvencija vremenske serije sezonskim faktorom, tj dijelimo elemente kolone 2, odgovarajućim elementima kolone 5. Rezultati su zapisani u koloni 6 prethodne tabele;
-
Rezidualni faktori dobijaju se djelenjem desezoniranih vrijednosti (vrijednosti kolone 6) pojave sa pomičnim prosjecima kao ocijenjenim vrijednostima trenda (vrijednosti zapisane u koloni 7 prethodne radne tabele;
-
Vrijednosti sezonskih indeksa dobijaju se množenjem sezonskih faktora sa sto (prevođenjem u procente), njihove vrijednosti u posmatranoj analizi iznose: kvartal zonski indeks
kvartal 124,06%
kvartal 157,05%
kvartal 114,55%
86,52%
Tabela 179. Vrijednosti sezonskih indeksa posmatrane vremenske serije
Vrijednost sezonskih indeksa označava da se nivo potrošnje penicilina u prvom kvartalu svake godie veći za 24,06% kao posljedice sezonskih uticaja, u drugom kvartalu je nivo iste pojave veći za 57,05%, u trećem je veći za 14,55%, dok je u četvrtom kvartalu potrošnja penicilina manja za 13,48% kao posljedica sezonskih uticaja. Indeks rezidualnih uticaja dobijamo djelenjem kolone 7 sa 100 (prevođenjem u procente), tako je moguće uočiti da je indeks rezidualnog uticaja u prvom kvartalu 2011.godine 70,82%, što označava da je nivo pojave tog kvartala, uslijed rezidualnog utjecaja, bio niži za 29,18% ili da je indeks rezidualnog utjecaja u četvrtom kvartalu 2013.godine iznosio 221,93%, što označava da je nivo pojave tog kvartala, uslijed rezidualnog utjecaja, bio viši za 121,93%. Navedene vrijednosti su označene u koloni 7 radne tabele. 377
b. Grafička ilustracija analitički razložene vremenske serije potrošnje penicilina u periodu od 2009 – 2014.godine razložene po kvartalima ima izgled kao na sljedećoj slici: 6000 5000 4000
Potrošnja penicilina
3000
Pomični prosjeci - trendciklična komponenta
2000
Desezonira serija
1000 0
Slika 50. Prikaz vremenske serije potrošnje penicilina u period od 2009 – 2014.godine kvartalno, vrijednosti pomičnih prosjeka i desezonirane vrijednosti
Zadaci: 6.10. Polazeći od datih vremenskih serija: I.
Broj registrovanih birača na početku kalendarske godine, izražen u hiljadama, u posmatranoj izbornoj jedinici u periodu od 2004 – 2014.godine, iznosio je:
Godina 04 Birača
05 24
06 21
07 23
08 22
09 19
10 17
11 21
12 20
13 17
14 15
16
Tabela 180. Distribucija izborne jedninice prema broju birča u period od 2004 – 2014.godine
II.
Obim proizvodnje preduzeća „P“, izražen u hiljadama komada, u periodu od 2005 – 2014.godine, iznosio je:
Godina
05
Obim proizvodnje
06 37
07 25
08 24
09 24
10 19
11 17
12 15
13 18
14 16
Tabela 181. Distribucija preduzeća prema ostvarenom obimu proizvodnje u period od 2005 – 2014.godine
III. Težina novorođenčeta, izražena u gramima, mjerena sedmično tokom prva tri mjeseca života: Sedmica 0 378
1
2
3
4
5
6
7
8
9
10
11
12
20
Težina
1946 1982 2079 2646 2863 3071 3285 3391 3427 3823 3959 4017 3964
Tabela 182. Distribucija težine novorođenčeta u period od rođenja do trećeg mjeseca, mjerena sedmično
IV. Mjesečne otplate potrošačkog zajma tokom 2014.godine, izražene u hiljadama BAM, u jednoj komercijalnoj banci: Mjesec 1 Otplata
2 316
3 351
4 157
5 213
6 803
7 185
8 127
9 173
10 298
11
285
12
715
467
Tabela 183. Distribucija vrijednosti mjesečne otplate zajma u komercijalnoj banci u toku 2014.godine
V.
Vrijednost indeksa tjelesne težine (BMI) jednog sportiste u periodu od 2006 – 2014.godine, mjern 31.12.posmatrane godine, imao je vrijednost:
Godina
06
BMI
07 18,8
08 22,4
09 18,8
10 20,8
11 18,8
12 17,4
13 18,3
14 19,5
18,8
Tabela 184. Distribucija vrijednosti BMI – ja sportiste u period od 2006 – 2014.godine
Potrebno je: a. Izvršiti klasifikaciju prethodnih vremenskih serija prema obliku obilježja; b. Prikazati statističku seriju pod II, površinskim i linijskim dijagramom; c. Formirati kumulativnu seriju prethodne serije i prikazati je površinskim i linijskim dijagramom; d. Prikazati statističku seriju pod IV, polarnim dijagramom. 6.11. Podaci o vrijednosti prodaje po vrstama prehrambenih proizvoda u periodu od 2007 – 2014.godine u jednom supermarketu, izražen u BAM, mogu se prikazati sljedećim tabelarnim prikazom: Godina
Ukupno Kruh i peciva
2007 2008 2009 2010 2011 2012 2013 2014
2584 2149 2331 1857 2425 955 1803 2039
788 853 716 407 912 254 396 974
Vrsta proizvoda Konditorski Mlijeko i mliječni Svježe proizvodi proizvodi povrće 129 730 134 586 842 344 588 96 461 622 60 434 204 939 91 472
voće
i
937 576 429 766 430 207 264 502 379
Tabela 185. Struktura vrijednosti prodaje po vrstama proizvoda u posmatranom supermarket, u period od 2007 – 2014.godine
Potrebno je: a. Grafičkim prikazom uporediti vrijednosnu strukturu prodatih vrsta proizvoda u posmatranom supermarketu; b. Grafičkim prikazom uporediti vrijednosnu strukturu prodatih vrsta proizvoda u posmatranom supermarketu; c. Izračunati vrijednost promjena vrijednosti ukupne prodaje u uzastopnim godinama; d. Kolika je uzastopna stopa promjene vrijednosti ukupne prodaje? Da li je prosječna prva diferencija adekvatan pokazatelj; e. Kolike su stope promjene u odnosu na 2014.godinu; f. Odrediti prosječnu godišnju stopu promjene vrijednosti ukupne prodaje u posmatranom periodu; g. Uzastopne relativne stope promjene vrijednosti ukupne prodaje grafički prikazati površinskim dijagramom; h. Izračunati lančane indekse vrijednosti ukupne prodaje u posmatranom period I grafički ga prikazati linijskim dijagramom; i. Izračunati bazne indekse sa bazom u 2014. I grafički ih predstaviti površinskim dijagramom; j. Izračunati prosječnu godišnju stopu promjene vrijednosti ukupne prodaje I pomoću nje predvidjeti vrijednost ukupne prodaje u 2016.godini; k. Preračunati lančane indekse u bazne sa bazom u 2009 godini, te bazne indekse (2014 = 100) u lančane, kao I bazne sa bazom u 2014 u bazne sa bazom u 2012.godini. 6.12. Polazeći od podataka iz prethodnog primjera, potrebno je: a. Prikazati prethodne vremenske distribucije u dekartovom koordinatnom sistemu I na osnovu izgleda dijagrama rasipanja izabrati odgovarajuću funkciju trenda koja se adekvatno prilagođava empirijskim podacima; b. Ocijeniti vrijednosti parametra odabranog trenda; c. Ocijeniti vrijednost standardne devijacije i koeficijenta varijacije trenda; d. Predvidjeti vrijednost prodaje po odabranim vrstama prehrambenih proizvoda u 2016.godini korištenjem odabranog trenda. 380
6.13. Podaci o cijenama I količinama proizvoda u toku 2013 I 2014.godine u preduzeću koje se bavi preradom mesa mogu se prikazati u sljedećoj tabeli: Proizvod (jedninca mjere) Svježe meso(kg) Kobasice za kuvanje 400g (kom) Trajne kobasice (kg) Mesni narezak 180g (kom) Haše 125g (kom) Pljeskavice (kg)
2013.godina Cijena (BAM) Količina (000 kom.) 15,20 526 7,95 827
2014.godina Cijena (BAM) Količina (000 kom.) 14,95 659 8,12 925
22,63 2,76
968 985
21,58 2,69
975 1026
3,61 9,98
215 628
2,99 10,02
302 731
Tabela 186. Ostvarene proizvodne cijene i obim proizvodnje po elementima asortimana proizvoda u toku 2013 I 2014.
Potrebno je: a. Odrediti individualne indekse cijena posmatranih proizvoda, te odrediti prosječnu vrijednost individualnih indeksa cijena proizvoda kao prostu sredinu indeksa cijena pojedinih proizvoda I u obliku količnika agregata cijena u posmatranim razdobljima; b. Odrediti Laspeyresov I Paascheov indeks cijena proizvoda, prvi preko potpunih odnosa, a drugi metodom agregata; c. Odrediti Laspeyresov I Paascheov indeks fizičkog obima proizvodnje, prvi metodom agregata, a drugi preko potpunih odnosa; d. Odrediti indeks vrijednosti proizvodanje I komentarisati uticaj promjene cijena I fizičkog obima proizvodnje na njegovu vrijednost. 6.14. Polazeći od statističke serije vrijednosti prodaje konditorskih proizvoda primjera 6.11. Potrebno je: a. Odrediti trogodišnje i četverogodišnje pomične prosjeke; b. Odrediti ponderisane petogodišnje pomične prosjeke, koristeći pondere ws: [-3 12 17 12 -3]; c. Uporediti polaznu vremensku seriju sa serijama dobijenim pomoću pomičnih prosjeka na jednom grafikonu. 6.15. U zdravstvenoj ustanovi “Z” zabilježeni su kvartalne vrijednosti podataka o broju pregledanih pacijenata u toku 2012, 2013 I 2014.godine, što se može prikazati u sljedećoj tabeli:
381
Godina
2012
2013
2014
Kvartal
I
II
III
IV
I
II
III
IV
I
II
III
IV
Broj
813
625
693
394
386
951
867
781
895
763
723
335
Tabela 187. Distribucija kvartala prema broju pacijenata pregedanih u zdravstvenoj ustanovi “Z” (red sa oznakom “Broj” označava broj pregledanih pacijenata u toku kvartala)
Potrebno je: a. Izvršiti prosto eksponencijalno izravnavanje posmatrane vremenske serije ako je konstanta izravnavanja 0,3; b. Izvršiti Holt – Wintersonov dvostepeni postupak izravnavanja za modele sa linearnim trendom, konstante izravnavanja su α = 0,3 I β = 0,2; d. Na istom grafikonu prikazati orginalnu vremensku seriju I izravnate vremenske serije. 6.16. Potrošnja penicilina u zdravstvenoj ustanovi „Z“ u periodu od 2009 – 2014. po godinama i kvartalima imala je vrijednost kao u sljedećoj tabeli: Potrošnja penicilina ·106 M i.j.
Godina I kvartal
II kvartal
III kvartal
IV kvatral
2009
936
710
810
492
2010
892
481
655
419
2011
652
477
685
497
2012
930
406
638
385
2014
889
423
755
267
Tabela 188. Potrošnja penicilina u zdravstvenoj ustanovi “Z” u period od 2009 – 2014.godine po kvartalima
Potrebno je: a. Analizirati vremensku seriju polazeći od multiplikativnog modela vremenske serije, objedinjujući trend i cikličnu komponentu i primjenjujući metodu pokretnih prosjeka; b. Prikazati statističke serije: orginalnih podataka, pomičnih prosjeka i desezoniranih podataka u istom grafikonu.
382
LITERATURA: 1. 2. 3. 4.
Aczel, A. D.et al. (2002). Complete Business Statistics, Irwin: Mc Graw - Hill Ajduković, G. (2003). Poslovna statistika, Beograd: Braća Karić Anderson, D.R.et al. (1981). Statistics for Business and Economics, St. Paul: West Aronson, M.; Aronson, A. (1990). SAS System A Programmer`s Guide, New York: Mc Graw 5. Bamberg, G.; Bauer, F. (1996). Statistik 9. Auflage, München: Oldenburg 6. Blažić, M. (1980), Opšta statistika, Beograd: Savremena administracija 7. Blažić, M.; Dragović, V. (1988). Opšta statistika, Beograd: Savremena administracija 8. Conover, W. J. (1980). Practical Nonparametric Statistics, New York: Wiley 9. Dragović, V.; Pašalić, B. (1988). Osnovi statističke analize kroz primjere, Beograd: Savremena administracija 10. Gujarati, D. N. (1988). Basic Econometrics, New York: Mc Graw 11. Jančurić, M. (1986). Statistika za ekonomiste, Subotica: Ekonomski fakultet 12. Johnston, R.; Bahttacharyya, G. (1985). Statistics Principles and Methods, New York: Mc Graw 13. Kish, L. (1965). Survey Sampling, New York: Wiley 14. Kostić, M. (1996). Metodi statističke analize, Beograd: Savremena administracija 15. Kostić, M. (1996). Metodi statističke analizesa kompjuterskim prilazom, Beograd: Savremena administracija 16. Lovrić, M.i dr (2006). Statistička analiza – metodi i primjena, Banja Luka: Ekonomski fakultet 17. Maddala, G. S. (1988). Introduction to Econometrics, New York: Mac Millan 18. Mladenović, D.i dr. (1995). Ekonomska statistika, Beograd: Savremena administracija 19. Pankratz, A. (1983). Forecasting with Univariate Box – Jenkins Models, New York: Wiley 20. Pankratz, A. (1991). Forecasting with Dynamic Regression Models, New York: Wiley 21. Pauše, Ž. (1978). Vjerojatnost. Informacija. Stohastički procesi, Zagreb: Školska Knjiga 22. Pauše, Ž. (1993). Uvod u matematičku statistiku, Zagreb: Školska knjiga 23. Payne et al. (1989). Genstat 5. Refernce Manual, Oxford: Claredon 24. Ralević, N.i dr (2002). Poslovna statistika, Kostić, Beograd: Savremena administracija 25. Ralević, N.; Mikić, Đ. (2006). Statističke metode u menadžmentu, Banja Luka: Panevropski univerzitet „Apeiron“ 26. Schätzle, R. (1995). Handbuch Börse 1996, München: Heyne 27. Silver, M. (1992). Business Statistics, London: Mc Graw 28. Stanković, J; Ralević, N; Ljubanović – Ralević, I. (1992). Statistika sa primenom u poljoprivredi, Beograd: Poljuprivredni fakultet 29. Stojković, M.i dr (1995). Primjena statistike u ekonomiji, Subotica: Ekonomski fakultet 30. Stojković, M. (1995). Statistika zs menadžere, Subotica: Ekonomski fakultet 31. Šošić, I. (1990). Zbirka zadataka iz statistike, Zagreb: Informator 32. Šošić, I. (1991). Metode statističke analize, Zagreb: Ekonomski fakultet 33. Šošić, I. (1997). Statistika, Zagreb: Školska knjiga 34. Šošić, I.; Serdar, V. (1997). Uvod u statistiku, Zagreb: Školska knjiga 35. Todić, R.; Radić, A. (1972). Poslovna statistika, Beograd: Savremena administracija 36. Todić, R. (1973). Osnovi statističke analize, Beograd: Savremena administracija 37. Veljković, R. (1992). Poslavna statistika, Beograd: Savremena administracija 383
38. Weisberg, S. (1980). Applied Linear Regession, New York: Wiley 39. Zečević, T.i dr (1991). Teorija uzoraka i planiranje eksperimenata, Beograd: Savremena administracija 40. Zečević, T.i dr (1995). Statistika za menadžere, Beograd: Savremena administracija 41. Žižić, M.i dr (1996). Metodi statističke analize, Beograd: Ekonomski fakultet
CIP - Каталогизација у публикацији Народна и универзитетска библиотека Републике Српске, Бања Лука 311(075.8) ЛАНДИКА, Мирјана Metodi statističke analize : primjena u oblasti zdravstvenih, sportskih i inženjerskih nauka / Mirjana Landika, Đuro Mikić. - 1. izd. Banja Luka : Panevropski univerzitet Apeiron, 2015 (Banja Luka : Markos). - 384 str. : graf. prikazi, tabele ; 24 cm. - (Edicija Ekonomska biblioteka ; knj. 107) Tiraž 200. - Bibliografija: str. 383-384. ISBN 978-99955-91-64-9 1. Микић, Ђуро [аутор] COBISS.RS-ID 5208600
384