Skup svih jedinki koje su od značaja za neko istraživanje se u statistici naziva populacija ( ili statistički skup ). Populacija je skup svih jedinica posmatranja koje su od interesa za istraživanje; odnosno skup o kom istraživač želi da izvuče zaključke. , a podskup populacije odabran po uzorak . određenom pravilu – uzorak. Statistički skup se definiše u zavisnosti od potreba konkretnog istraživanja
-
Pojmovno (pripadnost jedinica skupu), Prostorno (definiše se pripadnost u zavisnosti od regije) i Vremenski (definiše se vrijeme u kojem se vrši isreaživanje i/ili vrijeme na koje se odnose podaci).
Osobine koje imaju jedinke populacije se nazivaju obilježjima. Obilježja mogu biti kvalitativna kvalitativna (na primjer pol ispitanika) ili kvantitivna kvantitivna (na (na primjer s tarost, ili težina).
Postoji više tipova izvora podataka: -
Podaci iz već postojećih izvora Podaci koji se prikupljaju neposredno Poseban izvor podataka je popis stanovništva, koji se vrši jednom u 10 godina uz temeljne pripreme, a podaci iz popisa se smatraju najpouzdanijim.
Statistika se može podjeliti na : -
deskriptivnu (Osnovni dio deskriptivne analize predstavlja proučavanje strukture i dinamike pojave pomoću računskih operacija sabiranja, oduzimanja, množenja i dijeljenja. ) inferencijalnu (pomoću datih informacija – uzorka – se donose sudovi o osobinama populacije )
Svaka se pojava može analizirati sa aspekta struk ture i dinamike. -
-
Struktura ( primjenjuje ( primjenjuje na kvalitativna obilježja na način da se jedinice posmatranja grupišu prema jednoj osobini (na primjer, grupiše se stanovništvo po polu) i posmatra se udio svake od grupa u populaciji. ) Dinamike ( predstavlja predstavlja praćenje vrijednosti neke pojave kroz vrijeme (na primjer, praćenje cijena električne energije u nekoliko uzastopnih godina)) godina) )
Pokazatelji strukture pojave - Koeficijenti ( učešće količine pojedine grupe u totalu ) - Procenti Procenti ( ( koeficijent pomnožen sa 100, odnosno izražen u procentima ) Pokazatelji dinamike pojave - Prosti indeks predstavlja količnik vrijednosti neke pojave u sadašnjem i nekom prethodnom
periodu, može biti Lančani (količnik vrijednosti neke pojave u dva uzastopna perioda), ili o Bazni (količnik vrijednosti neke pojave u tekućem i baznom periodu) o
Često je korisno izraziti lančane indekse kao bazne i obratno, što se postiže jednosta vnim matematičkim transformacijama, a primjer je prikazan u vježbama. -
-
Složeni indeks se formira kada se želi pratiti ukupna promjena neke pojave u nekoliko uzastopnih perioda, a koja zavisi od dodatnog parametra – pondera (na primjer stopa inflacije), tako što se vrijednost pojave za svaki period pomnoži ponderom i onda se sve dobijene vrijednosti saberu. Stopa se računa kao razlika indeksa i jedinice i može biti prosta ili složena, u zavisnosti od indeksa iz koga je izvedena.
Po pravilu, struktura se izražava kružnim dijagramom dinamika pojave se uvijek prikazuje štapićastim ili linijskim dijagramom.
Kao posebni pokazatelji vitalnosti stanovništva jedne države izdvajaju se:
Prirodni priraštaj – računa se kao razlika broja živorođenih i broja umrlih lica u datom periodu Vitalni indeks – računa se kao količnik broja živorođenih i broja umrlih lica u datom periodu.
Uzorak je dio (podskup) populacije. Upareni u zorci spadaju u (međusobno) zavisne uzorke. Nezavisni uzorci su oni koji se biraju iz iste ili iz različitih populacija, a nemaju nikakvog efekta jedni na druge. - Slučajni uzorak ( uzrokovanje) je tehnika kjom se obezbjeđuje da se svaka jedinica posmatranja bira potpuno slučajno, kao i da sve imaju poznatu (ne obave zno istu) -
vjerovatnoću izbora. Prost slučajni uzorak (Simple Random Sample – SRS)
Kod SRS tehnike se svaka jedinica bira slučajno, pri čemu sve jedinice populacije imaju iste šanse da budu odabrane u uzorak. Stratificirani uzorak
Često se populacija može prirodno podijeliti u disjunktne podskupove (potpopulacije, stratume), pri čemu se očekuje da mjerenja od interesa variraju među poskupovima. (Na primjer, istraživanje kupovne moći potrošača po kantonima u Federaciji BiH.) Tada bi se razlike među podpopulacijama trebale odraziti i na uzorku, što se postiže stratificiranim uzorkovanjem . Stratificirani uzorak se dobija biranjem uzoraka iz svakog stratuma populacije.
U opštem slučaju se traži da proporcije svakog stratuma u uzorku budu jednake kao i u populaciji. Stratificirani uzorak se koristi kod nehomogenih populacija, ili kod populacija iz kojih se mogu izdvojiti homogene potpopulacije, dok se SRS koristi kod uzorkovanja iz homogene populacije.
Neke od prednosti stratificiranog na d prostim slučajnim uzorkovanjem su: -
može se umanjiti cijena istraživanja po jedinici posmatranja, potrebno je ocijeniti parametre populacije i za potpopulacije,
može se povećati preciznost za fiksiranu cijenu istraživanja.
Klaster uzorak Koristi se kada i straživaču nije dostupan spisak jedinica posmatranje čitave populacije, ali ima potpune podatke za grupe (klastere) . Takođe se koristi kada SRS može rezultirati toliko razuđenim
uzorkom da bi istraživanje bilo preskupo (na primjer, ljudi koji žive u različitim mjestima). Često je praktičnije i/ili jeftinije i od SRS i od stratificiranog uzorkovanja. Ovom metodom se čitava populacija podijeli u podskupove disjunktne po posmatranom obilježju (klastere), pa se bira SRS od tih klastera. Sve jedinice posmatranja koje pripadaju odabranom klasteru su u uzorku. Kvota uzorak
Danas je možda i najpopularniji način na koji razne marketinške agencije prikupljaju podatke, ali ima ozbiljne metodološke nedostatke; za početak, to nije slučajni uzorak pa je uzoračka raspodjel a bilo koje statistike nepoznata.
Princip je sljedeći: svakom anketaru se dodijeli određeni broj (kvota) jedinica posmatranja koje bi trebalo da „regrutuje“ za uzorak. Pristrasnost (Bias)
Pristrasnošću se mjeri koliko je prosječna statistika udaljena od parametra koji mjeri, dakle greška koja nastaje pri ocjenjivanju veličine. Polazna pretpostavka je da će se slučajne greške međusobno eliminisati ponavljanjem, ali da pristrasnost (ukoliko postoji) ostaje. Preciznost
Preciznost je mjera očekivanja blizine ocjene stvarnoj vrijednosti parametra, a obratno je srazmjerna standardnoj grešci (standardna devijacija).
Sortiranje p odataka
Nakon što se odabere uzorak, podaci se najčešće trebaju na naki način urediti da bi se mogli smisleno predstaviti i/ili dalje obrađivati. Neke od tehnika su: tabeliranje (obrađeno u prethodnoj nastavnoj jedinici kroz vježbe), sortiranje, filtriranje i grafički prikaz. Podaci u uzorku se mogu sortirati na različite načine:
1) Sortiranje elemenata po učestalosti ponavljanja u uzorku (Svaki statistički softver ima ugrađene funkcije za sortiranje elemenata prema učestalosti njihovog ponavljanja u uzorku . naredba u excelu FREQUENCY. Postupak sortiranja bi bio sljedeći: vrijednosti u uzorku se sortiraju (u rastućem ili opadajućem poretku) pa se prebroji koliko se puta koja vrijednost ponavlja. Korisno je pronaci minimalni i maksimalni elem ent (pomoću funkcija MIN i MAX) )
2) Sortiranje po grupama. Ukoliko su podaci diskretni , a ima previše elemenata da bi se mogli prikazati u tabeli i/ili grafikonu, ili ako se radi o neprekidnim podacima, onda se pribjegava
grupisanju. Na primjer, ako se želi mjeriti starost (koja se kreće od 0 do 100 i više godina) onda se takvi podaci uvije k grupišu, pa se prebrojava koliko elemenata uzorka se nalazi u svakoj od grupa. 3) Sortiranje po vrijednostima. Ako se elementi jednog uzorka sortiraju po vrijednostima u rastućem redoslijedu, tada se oni mogu podijeliti u grupe koje imaju jednak broj elemenata.
Tako se, na primjer, može govoriti o prvoj i drugoj polovini uzorka, i mogu se analizirati njihove razlike. Kada se podaci sortiraju po vrijednostima, oni se mogu podijeliti u proizvoljan broj grupa, ali su najpoznatije podjele u decile (10 grupa), kvintile (5 grupa), kvartile (4 grupe) i tercile (3 grupe).
Prilikom sortiranja u bilo koje od navedenih grupa, uzorak se sortira, veličina uzorka se podijeli brojem grupa i onda se određuju granice. Mjere centralne tendencije Sve funkcje za mjere centralne tendencije opisuju srednju vrijednost podatka, odnosno vrijednost za
koju se očekuje da se nalazi u sredini opisanog skupa, ili da se najčešće ponavlja u uzorku, ili da se sve ostale vrijednosti grupišu oko nje. Funkcije koje se koriste za opisiv anje centralne tendencije se još nazivaju i sredinama. Vrste sredina Različiti podaci se moraju opisivati različitim sredinama. Najčešće korištena sredina u statistici je aritmetička sredina podataka ili prosta sredina. U Excelu je to funkcija AVERAGE. Veličina uzorka se u Excelu može odrediti pomoću funkcije COUNT, a masa pomoću funkcije SUM. Sredina uzorka se može opisati i na druge načine. Jedan od njih je da se u obzir uzme koji se element najčešće ponavlja. Ta mjera centralne tendencije se naziva :
modus (dominantna sredina) . U Excel-u se ona može izračunati pomoću funkcije MODE. U uzorku može biti više od jednog modusa, ukoliko postoji veći broj elemenata koji se ponavljaju isti broj puta.
Elementi uzorka mogu se sortirati (u rastućem poretku) i onda se odrediti koji element se nalazi na sredini sortiranog uzorka. Ta mjera centralne tendencije se naziva :
medijana (centralna vrijednost) . Ukoliko uzorak ima neparan broj elemenata, onda je medijana element sortiranog uzorka pod rednim brojem (n-1)/2, a ukoliko je u uzorku paran broj elemenata, medijana je aritmetička sredina srednja dva . U Excel-u postoji ugrađena funkcija MEDIAN
koja se može upotrijebiti za računanje medijane.
Odnos aritmetičke sredine i medijane
Kada se opisuje centralna tendencija nekog uzorka, korisno je uporediti različite vrste sredina. Na taj način se dolazi do informacije o zakrivljenosti uzorka . Zakrivljenost se karakteriše pozicijom medijane u odnosu na prostu sredinu: ako je medijana desn o od aritmetičke sredine, skup je zakrivljen udesno i obratno . U ovo razmatranje se može uzeti i modus, ukoliko postoji . Odnos između medijane i modusa može da upozori na neke karakteristike uzorka, kao što su bipolarnost (Uzorak sa dva modusa se naziva i bipolaran (vrijednosti u uzorku se koncentrišu oko dvije različite vrijednosti.) (sa jednim elementom ekstremne vrijednosti postojanje ekstremne vrijednosti u uzorku. aritmeticka sredina se moze znatno uvecati, medijana ce ostati ista ili ce se sasvim malo
povecati, a modusi će ostati isti)
Frekvencijsk a s redina Sredina se može računati i iz sortiranog uzorka. Ukoliko se radi o frekvencijskom uzorku, frekvencijska sredina će biti jednaka prostoj sredini. Grupna (razredna sredina) Kada su dostupne samo frekvencije po razredima, onda se može izračunati sredina razreda, smatrati se da su svi elementi razreda predstavljeni tom sredinom i dalje se primjeniti postupak za
frekvencijsku sredinu. Važno je zapamtiti da razredna sredina ne mora biti jednaka aritmetičkoj sredini.
Harmoni jska sredina Harmonijska sredina predstavlja količnik obima uzorka i sume recipročnih vrijednosti njegovih elemenata. Računa se po formuli:
Koristi se veoma rijetko. U statistici je korisno primjenjivati harmonijsku sredinu kada u uzorku postoje
vrijednosti koje su mnogo puta veće od ostalih (takozvani ekstremne vrijednosti ili autlejeri).
Geometrijska sredina Geometrijska sredina se računa kao n-ti korjen proizvoda svih elemenata u uzorku, po formuli:
Koristi se kod uzoraka čiji su elementi pozitivni, a čiji se kumulativ interpretira ne sumom nego proizvodom (na primjer u ekonomiji, za računanje prosječne vrijednosti povrata investicija kroz vrijeme, ili za računanje kumulativnih kamatnih stopa). U odnosu na geometrijsku i aritme tičku sredinu, harmonijska je uvijek najmanja, Geometrijska sredina je uvijek veća od harmonijske, ali manja od aritmetičke a jednakost sve tri važi samo ako su svi elementi u uzorku jednaki. Dakle najveca je Aritmetička pa Geometrijska pa onda Harmonijska.
- - - - - - - - - - - predavanje 5 - - - - - - - - - - Mjerenjem udaljenosti elemenata uzorka od njegove sredine se dolazi do pojma varijabilnosti. Najjednostavnija mjera varijabilnosti uzorka je raspon , odnosno razlika između maksimalnog i minimalnog elementa u uzorku ( neisgurna i neprecizna mjera )
Druga mjera koja se može koristiti za sve sredine osim aritmetičke je prosječno odstupanje elemenata od sredine, tzv. srednje odstupanje . Ono se računa tako što se saberu odstupanja svih elemen ata od sredine, pa se taj zbir podijeli veličinom uzorka. Funkcija kojom se opisuje odstupanje elemenata uzorka od sredine se naziva
varijansa ili
disperzija. varijansa predstavlja prosječno kvadratno odstupanje elemenata uzorka od sredine a to se predstavlja formulom :
Ovo je formula za varijansu populacije; za varijansu uzorka se umjesto sa dijeli sa −1. Smatra
se da se za uzorke veličine manje od 30 treba primijeniti formula za varijansu uzorka, a za ostale formula za varijansu populacije.
Kako se varijansom izražava prosječno kvadratno odstupanje , to se uvodi statistika kojom se izražava prosječno linearno odstupanje od sredine, standardna devijacija. Ona se računa kao kvadratni korjen iz varijanse i koristi se kao standard za mjerenje varijabilnosti rezultata.
Tabela 1: Dva uzorka sa
U Tabeli 2 je prikazan postupak računanja varijanse za uzorke iz
različitim elementima i istim Tabele 1. sredinama
U kom slučaju je varijansa uzorka jednaka nuli? – kada je svaki
− = 0
Kada su podaci pravilno ( normalno normalna raspodjela bice objašnjeno u narednim predavanjima ) grupišu oko sredine, onda važi:
interval (−,+) obuhvata 68.26% elemenata uzorka, interval (−2,+2) obuhvata 95.44% elemenata uzorka, interval (−3,+3) obuhvata 99.73% elemenata uzorka
Detaljan postupak računanja varijanse i standardne devijacije za frekvencijsku i grupnu/razrednu sredinu je prikazan u materijalima za vježbe. Koeficijent varijacije
Još jedna korisna funkcija kojom se izražava varijabilnost uzorka je koeficijent varijacije, koji se računa po formuli
Gdje su:
- koeficijent varijacije
- Varijansa - Sredina Koristi se kada se želi utvrditi jedna od sljedeće dvije stvari: 1. koje obilježje više varira, ako se na jednom uzorku mjere osobine dva ili više njih, 2. koji uzorak više varira, ako se na barem dva uzorka mjere osobine istog obilježja.
- - - - - - - - - - - predavanje 6 - - - - - - - - - - Empirijska defin icija vjerovatnoće
Neka se posmatra događaj A čiji se elementarni ishodi obilježavaju sa Ω. Empirijska vjerovatnoća nekog događaja se posmatra kao omjer broja povoljnih ishoda za taj
događaj i ukupnog broja svih ishoda. Na primjer, ako se događaj A definiše tako da je prilikom bacanja pao ili broj 3 ili 4 ili 5, onda je vjerovatnoća tog događaja jednaka 3/6, jer su od šest mogućih tri ishoda povoljna za A. U tom smislu se može reći da je događaj podskup skupa elementarnih ishoda. Vjerovatnoća događaja za koji je potpuno izvjesno da će se dogoditi jednaka je 1, a takav događaj se naziva izvjestan ili siguran događaj. Ako je potpuno izvjesno da se nešto neće dogoditi, onda je vjerovatnoća tog događaja jednaka 0 i on se naziva nemoguć događaj. Vjerovatnoća da će se dogoditi bilo koji od nekoliko nezavisnih događaja jednaka je sumi vjerovatnoća pojedinačnih događaja. Zbog toga se kaže da je vjerovatnoća aditivna.
Sa druge strane, vjerovatnoća da će se istovremeno desiti dva ili više nazavisna događaja jednaka je proizvodu pojedinačnih vjerovatnoća (princip multiplikativnosti ). Vjerovatnoća se uvijek obilježava slovom p (engl. probability). Ukoliko se radi o vjerovatnoći elementarnog ishoda, ona se obilježava malim slovom, a ukoliko se radi o vjerovatnoći nekog događaja, obilježava se velikim slovom. Na primjer, sa P(A) se obilježava vjerovatnoća događaja A. Za događaje se kaže da su nezavisni ako ishod jednog događaja ne utiče na vjerovatnoću drugog i obratno. Na primjer, ako se dva puta uzastopno baca kocka, onda je vjerovatnoća da će „pasti“ 4 u oba pojedinačna bacanje jednaka 1/6. slučajna promjenjiva je ona promjenjiva kod koje se svaka vrijednost realizira sa određenom
vjerovatnoćom. Vjerovatnoća da je realizacija slučajne promjenjive X jednaka x se obilježava sa P(X=x).
Vrijednosti koje može uzeti slučajna promjenjiva se nazivaju realizacije slučajne promje njive. Skup realizacija može biti diskretan ili neprekidan i u zavisnosti od njega se slučajne promjenjive nazivaju diskretne ili neprekidne.
U statistici se dešava i da se prikaz kao u Tabeli 1 naziva raspodjelom, a u tom slučaju se empirijske vjerovatn oće računaju na isti način kao i koeficijenti, a ponekad se izražavaju i kao procenti. Za slučajnu promjenjivu se vezuju i pojmovi matematičkog očekivanja i varijanse, kovarijanse i korelacije, kao i momenata. Matematičko očekivanje slučajne promjenjive X, u oznaci EX, ili E(X), je formula kojom se dobija
očekivana vrijednost neke slučajne promjenjive. Aritmetička sredina je jedna od ocjena matematičkog očekivanja, a u primjenjenoj statistici je i najčešća.
Centralni moment drugog reda se naziva varijansa (disperzija). Standardizirani moment trećeg reda se naziva koeficijent simetrije (ili koeficijent asimetrije) , a četvrtog reda koeficijent spljoštenosti.
Najpoznatija raspodjela za diskretne slučajne promjenjive je Binomna raspodjela. Ona se primjenjuje u situacijama kada se radi o slučajnoj promjenjivoj (X) koja ima samo dvije realizacije, sa vjerovatnoćama p i 1-p. Ako je vjerovatnoća neke realizacije (ili događaja) p, onda se vjerovatnoća q=1- p naziva suprotna vjerovatnoća (vjerovatnoća da se događaj neće realizirati)
Poisson-ova raspodjela se odnosi na diskretne slučajne promjenjive koje zadovoljavaju uslove Poisson-ovog eksperimenta: -
Rezultati eksperimenta su ishodi koji se mogu klasificirati kao uspješni ili neuspješni; Prosječan broj uspješnih ishoda za jedan region () je unaprijed poznat; Vjerovatnoća da će ishod biti uspješan je proporcionalna veličini regiona; Vjerovatnoća da će se uspješan ishod javiti u veoma malom regionu je zanemarljiva (praktično jednaka nuli).
-
Region može biti dužina, površina, vremenski period, opseg ili tome slično.
- - - - - - - - - - - predavanje 7 - - - - - - - - - - -
Neprekidne slučajne promjenjive se karakterišu neprekidnom (ili čak apsolutno neprekidnom) funkcijom raspodjele
Formule za Kovarijansa i koeficijent korelacije
gdje su sa i obilježene standardne devijacije slučajnih promjenjivih X i Y respektivno. Vrijednost koeficijenta korelacije se kreće od -1 do 1, a njime se utvrđuje imaju li dvije slučajne promjenj ive tendenciju da istovremeno rastu/opadaju, ili im se vrijednost kreću u suprotnim smjerovima (-1 je maksimalna negativna korelacija, a 1 maksimalna pozitivna). Centralni momenti neprekidnih slučajnih promjenjivih
Centralni moment drugog reda se naziva varijansa (disperzija). Standardizirani moment trećeg reda se naziva koeficijent simetrije (ili koeficijent asimetrije) , a četvrtog reda koeficijent spljoštenosti. Posljednja dva koeficijenta se u primjenjenoj statistici često koriste za poređenje empirijs ke raspodjele sa normalnom. Normalna (Gauss-ova) raspodjela
Najpoznatija raspodjela za neprekidne slučajne promjenjive je normalna raspodjela ( (,2)). Parametri normalne raspodjele su matematičko očekivanje ( ) i varijansa ( 2). Matematičko očekivanje predstavlja vrijednost oko koje su grupisane realizacije slučajne promjenjive. Normalna raspodjela kod koje je matematičko očekivanje jednako nuli , a varijansa jedinici, naziva standardizovana normalna raspodjela .
(0,1) se
normalnu raspodjel u je jednostavno izraziti analitički, odnosno, veliki broj rezultata koji se na nju
odnose se mogu eksplicitno izračunati. Kako su za normalnu raspodjelu očekivanje i varijansa parametri, to njih nije potrebno računati. Treći centralni momenat (kao i svi ostali neparni momenti) jednak je nuli, pa se u primijenjenoj statistici
empirijska raspodjela može smatrati asimetričnom (u odnosu na sredinu) ukoliko se izračunati standardizirani treći momenat razlikuje od nule. Analogno, kako je četvrti mom enat oko sredine kod normalne raspodjele jednak 3 4 ( k-ti centralni moment, za parne k, jednak je ( −1) ), to se empirijska raspodjela može smatrati spljoštenom (ispupčenom) ukoliko je izračunati standardizirani četvrti momenat manji (veći) od 3.
- - - - - - - - - - - predavanje 8 - - - - - - - - - - -
Postoje dvije vrste testova za provjeru statističkih hipoteza, parametarski i neparametarski . Kod parametarskih testova se testiraju hipoteze o parametrima raspodjela.
Ukoliko se hipotezom određuju vrijednosti svih parametara gustine raspodjele, ona se naziva prosta hipoteza; u protivnom hipoteza je složena. Matematički, uslov za konstruisanje najboljeg testa daje lemma Neumann-Pearson koja određuje najbolji kritični region (površina ispod gustine raspodjele koja je nepovoljna za datu hipotezu) za unaprijed određenu veličinu. Kritični region veličine se vezuje uz pojam greške I vrste, koja predstavlja vjerovatnoću da dobijena vrijednost pripada kritičnom regionu iako je hipoteza ispunjena. Sa druge strane greška II vrste je vjerovatnoća da vrijednost ne pripada kritičnom regionu za (dakle trebala bi se prihvatiti 0), ali se prihvata suprotna hipoteza 1.
U slučajevima kada se lemma Neumann -Pearson ne može primijeniti, primjenjuje se test količnika vjerodostojnosti . Još jedan bitan pojam vezan za testiranje hipoteza je funkcija moći testa () kojom se određuje vjerovatnoća da dobijena vrijednost pripada kritičnom regionu kada je stvarna vrijednost parametra; važi da je ()=1−(). Goodness-of-fit t estovi ( testiranje da li uzorak odgovara teorijskoj raspodjeli ) Multinomna raspodjela ima slične karakteristike kao Binomna i smatra se njenim uopštenjem. Kod binomne raspodjele se u svakom ponavljanju eksperimenta posmatrani događaj ili realizuje (sa vjerovatnoćom ), ili ne realizuje (sa vjerovatnoćom =1−). Kod multinomne raspodjele postoji više elementarnih ishoda k oji su svi međusobno isključivi, 1, 2,…, i svakom od njih se pridružuje vjerovatnoća . 2 test vidjeti primjer u xcel fajlu vjezbe 8. U praksi se pokazalo da je 2 test nepouzdan ukoliko su vrijednosti (frekvencije pojavljivanja ishoda)
manje od 5. U tom slučaju se mora voditi računa da makar očekivane vrijednosti budu veće od 5, a ako ni to nije slučaj, onda se ili mora izvršiti spajanje kategorija (sumiranje frekvencija) ili se primijeniti neki drugi metod inferencije.
Apro ks im aci je kri ve gus ti ne raspodjele
Postoje situacije kada se želi provjeriti može li se za histogram frekvencija reći da aproksimira neku raspodjelu (najčešće Normalnu, Poisson-ovu ili Binomnu).
- - - - - - - - - - - predavanje 9 - - - - - - - - - - -
Još jedna veoma česta primjena 2 testa je vezana za provjeru kompatibilnosti uočenih i očekivanih vrijednosti u takozvanim tabelama kontigencije. U takvim tabelama su podaci već sumirani, odnose se na dva različita obilježja koja su podijeljena po kategorijama, a koriste se za istraživanje relacija između dvije klasifikacijske promjenjive. Testir anje nezavisnos ti Kod tabela kontigencije se 2 testom se može testirati hipoteza da ne postoji zavisnost između dvije promjenjive po kategorijama. Ako je dobijena empirijska vrijednost 2 statistike veća od teorijske to se hipoteza može odbaciti. Ako je vrijednost dobijena iz uzorka veća od teorijski dobijene vrijednosti, ona pripada kritičnom regionu, pa se mora odbaciti hipoteza da su empirijske vrijednosti jednake teorijskim. Tj hipoteza može odbaciti. Ako je empirijska vrijednost manja od teorijske za zadatu kritičnu vrijednost, ona se ne nalazi u kritičnom regionu, hipoteza 0 se prihvata.
Pošto je empirijska vrijednost manja od teorijske, to se postavljena hipoteza može prihvatiti, pa slijedi da su izmjereni podaci u skladu sa pretpostavljenom normalnom raspodjelom. Testir anje homogenosti
je veoma slično testiranju nezavisnosti u tabeli kontigencije. Primjenjuje se kada se isti eksperiment ponavlja više puta i želi se ispitati da li su različite realizacije eksperimenta međusobno nezavisne. Na primjer, u proizvodnji nekog elementa se svako dnevno uzimaju uzorci i utvrđuje se broj defektnih elemenata. Treba se utvrditi da li se broj defektnih elemenata poklapa sa očekivanim (dozvoljenim) brojem iz dana u dan. Ako je dobijena teorijska vrijednost 2 statistike veća od empirijske, to se hipoteza prihvata. U ovom slučaju to znači da su podaci homogeni.
- - - - - - - - - - - predavanje 10 - - - - - - - - - - -
Testiranje fipoteza 3 – F test i t test Bitna primjena 2 raspodjele se odnosi na jednu izvedenu raspodjelu pomoću koje se mogu testirati hipoteze o jednakosti varijansi u dvije populacije. F raspodjela se definiše kao količnik dvije nezavisne 2 promjenjive podjeljene pripadajućim brojem
stepeni slobode. Formula je sljedeća:
Ovakvom definicijom raspodjela čuva neke od osobina 2 promjenjivih, kao što su nenegativnost, asimetričnost raspodjele, srednju vrijednost približno jednaku 1. Kako se radi o količniku dvije promjenjive sa 2 raspodjelom, F raspodjela se definiše pomoću dva stepena slobode. F test je osmišljen da testira hipotezu da su varijanse u dvije populacije jednake. Kako se radi o količniku, jednakost se iskazuje vrijednosću 1. Prilikom korištenja F testa, treba se voditi računa o sljedećem:
Veća varijansa bi trebala biti u nazivniku. Testna statistika je količnik uzoračkih varijansi. Ako se koristi „dvorepa“ raspodjela, vjerovatnoća se treba podijeliti sa 2 i onda se gleda kritična vrijednost za desni „rep“. Ako su poznate standardne devijacije, one se moraju kvadrirati. Populacija iz koje se biraju uzorci mora imati normalnu raspodjelu. Uzorrci moraju biti nezavisni.
Studentova t raspodjela , ili samo t raspodjela se bazira na standardizovanoj normalnoj raspodjeli (z raspodjeli).
Razlika je u tome što se u z raspodjeli koristi varijansa populacije, a u t raspodjeli varijansa uzorka. Slijedi da su za uzorke obima većeg od 30 ove dvije raspodjele ekvivalentne. Iz ovakve definicije se nameće da je posebno značajna primjena t raspodjele za male uzorke. Kao i z raspodjela i t raspodjela se može koristiti za donošenje zaključaka o matematičkom očekivanju, odnosno o srednjoj vrijednosti uzorka (ili populacije). Koristi se kada nije poznata varijansa populacije ( 2) ali jeste poznata uzoračka varijansa (2).
t test se za potrebe ovog kursa koristi u tri varijante: 1) upareni t test kojim se testira jednakost sredina jednog uzorka u dva vremenska perioda (na
promjer, mjere se težine ispitanika prije i poslije ciklusa vježbi i poredi se da li ima razlike). 2) t test za testiranje jednakosti sredina u dva uzorka sa jednakom varijansom. 3) t test za testiranje jednakosti sredina u dva uzorka sa različitim varijansama.
U svakom slučaju, osnovni preduslov je da su uzorci iz populacije sa normalnom raspodjelom. F test i t test se koriste i u procjeni pouzdanosti regresije i njenih parametara, što je objašnjeno u
vježbama.
- - - - - - - - - - - predavanje 11 - - - - - - - - - - -
Linearna regresija se koristi za modeliranje međusobne zavisnosti između dvije promjenjive
(varijable) na način da se linearna jednačina prilagodi podacima. Pri tome se jedna promjenjiva smatra zavisnom, a druga eksploratornom (nezavisnom , deskri ptivno m).
Prije nego što se podaci aproksimiraju linearnom funkcijom, modelar bi trebao istražiti postoji li neka vrsta povezanosti između promjenjivih od interesa. Postojanje povezanosti ne implicira nužno da je jedna promjenjiva uzrok promjene druge, već samo da postoji neka vrsta značajne povezanosti među njima. Jedan od korisnih instrumenata za istraživanje povezanosti je tzv. scatterplot ( prikaz parova vrijednosti u dvodimenzionom koordinatnom sistemu ). Ukoliko se na grafikonu ne vidi nikakva značajna povezanost (ukoliko su tačke nepravilno razasute po koordinatnom sistemu), linearna aproksimacija ne mora imati smisla.
Numerički pokazatelj povezanosti podataka koji se veoma često koristi u praksi je koeficijent korelacije . Njime se može ustanoviti ne samo postojanje, nego i jačina povezanosti. Prava linearne regresije ima jednačinu opšteg oblika =+ , gdje je zavisna promjenjiva, eksploratorna (nezavisna) promjenjiva, presjek sa −osom, a nagib prave. Metoda najmanjih k vadrata u regresiji Kada su podaci za i poznati, onda se mogu aproksimirati i vrijednosti za koeficijente i . Jedna
od najčešće korištenih metoda je metoda najmanjih kvadrata u kojoj se minimizira greška regresije. Greška se posmatra kao rastojanje pojedinačnih tačaka od prave regresije (ukoliko tačka leži na pravoj njeno odstupanje jednako je nuli). Kako se odstupanja od prave kvadriraju, to se pozitivne i negativne vrijednosti ne mogu anulirati.
Za realizaciju ove metode, potrebno je jednačinu regresije zapisati u obliku = + + , gdje su malim slovima označene realizacije slučajnih promjenjivih , a sa je označena greška regresije.
Ukoliko se istražuje povezanost samo dvije promjenjive, za regresiju se kaže da je prosta; prosta linearna regresija znači da se ispituje linearna zavisnost između dvije promjenjive. Regresija može biti i nelinearna, ali i višestruka (ukoliko se ispituje zavisnost neke promjenjive od dvije ili više deskriptivnih promjenjivih). Koeficijenti regresije, kao i druge bitne statistike se mogu dobiti primjenom naredbe LINEST u MSExcel-u , što je detaljno opisano u materijalima za vježbe.
Dodatna statistika na koju se treba obratiti pažnja je koeficij ent determinacije, 2. Računa se kao kvadrat koeficijenta korelacije, a njime se procjenjuje procenat (udio) varijacije jedne promjenjive koji se može objasniti drugom. Autl ejer je podatak koji odstupa u velikoj mjeri od ostalih podataka u uzorku. U statistici se ovakvi
podaci posebno provjeravaju, jer se može desiti da predstavljaju grešku prilikom unosa. U regresionoj analizi se autlejerom naziva tačka (par podataka) koja je udaljena od regresione prave i koji zbog toga ima veliku rezidualnu vrijednost. Autl ejer može označavati pogrešnu vrijednost ili lošu aproksimaciju prave linearne regresije. Sa druge strane, ukoliko je neki podatak udaljen horizontalno od ostalih podataka, on se naziva uticajna vrijednost.
Da bi se poboljšala aproksimacija, uobičajeno je da se uticajna vrijednost isključi iz razmatranja, ukoliko to ima smisla u stvarnosti.
Primjer računanja reziduala: Sa y' je označena procijenjena vrijednost zavisno promjenjive izračunata za konkretno x smjenom u linearnu jednačinu y=bx+a. Rezidual je razlika između stvarnog podatka, y i procijenjene vrijednosti, y' .
Ekstrapolacija
Kada se napravi regresioni model za grupu podataka, raspon tih podataka se mora pažljivo proučiti. Tako se u praksi ispostavlja da je često neadekvatno primjenjivati jednačinu regresije izvan zadatog raspona, jer rezultati mogu biti potpuno nevjerovatni. Očigledan primjer bi bila jednačina regresije koja opisuje dobitak na težini veoma male djece; primjena takve jednačine na stariju populaciju bi bila potpuno neumjesna.
- - - - - - - - - - - predavanje 12 - - - - - - - - - - -
Prosta nelinearna regresija
U praksi se dešava da linearna funkcija nije najbolja aproksimacija podataka. Tako, osim proste linearne regresije, postoje i nelinearne regresije, u skladu sa oblikom funkcije koja opisuje zavisnost
između dvije promjenjive. Tako se može govoriti o polinomnoj regresiji (zavisnost se opisuje polinomnom funkcijom 2., 3. ili višeg stepena), logaritamskoj (koja je najčešća alternativa linearnoj zbog monotonosti i sporog rasta), eksponencijalnoj (koja se jako rijetko upotrebljava, jer eksponencijalna funkcija veoma brzo raste), stepenoj... itd. Višestruka linearna regresija
Model višestruke regresije se sastoji od jedne zavisne, dvije ili više nezavisnih promjenjivih i slučajne promjenjive kojom se opisuje greška. Opšti oblik modela višest ruke regresije je: y=f (x1,x2,...,xk )+e U navedenom modelu y je zavisna promjenjiva, a njome se opisuje pojava čije se varijacije izražavaju pomoću nezavisnih promjenjivih x1,x2,...,xk. Promjenjiva e odzražava nepoznata odstupanja od funkcionalne zavisnosti. Kao i kod proste regresije, nepoznati parametri u funkcionalnoj zavisnosti se procjenjuju na osnovu uzorka veličine za poznate vrijednosti zavisne i nezavisnih promjenjivih, pri čemu se nastoji
minimizirati greška, odnosno odstupanje od funkcionalne zavisnosti. Pretpostavi li se da je veza između zavisne i nezavisnih promjenjivih linearna, radi se o modelu višestruke linearne regresije, čija je jednačina: y= 0+1x1+2 x2+ ...+xk U navedenoj jednačini y je zavisna promjenjiva, x1,x2,...,xk su nezavisne promjenjive, a 0,1,2 ,..., su procijenjeni parametri. Procjena pouzdanosti parametara i regresije
Nakon što se parametri regresije procjene, „tačnost“ regresije se, osim pomoću koeficijenta determinacije, može ispitati i testiranjem dobijenih vrijednosti parametara i čitave regresije. U MSExcel-u se ovaj postupak za linearnu regresiju provodi jednostav no, korištenjem izlaza iz funkcije LINEST (što je objašnjeno u materijalima za vježbe).