ver 0.8
STATISTIKA skripta po ispitnim pitanjima Medicinskog fakulteta u Beogradu
Srđan Pandurević februar 2015.
≑
A. atributivna (kvalitativna): izražavaju se opisno (pol, vrsta obolj enja,
Pojam i definicija statistike
ishod bolesti itd.)
I. Gottfried Achenwal - Univerzitetska statistika II.
≑
B. numerička (kvantitativna): izražavaju se b rojevima, i mogu se
Po njemu statistika = nauka o državi
prebrojavati i mjeriti (broj oboljelih, godine života, temperatura, lipidi
III. Metod kvantitativnog i straživanja masovnih pojava
u serumu itd.)
Razvoj statistike
1.diskontinuirana: rezultat prebrojavanja, samo cijeli brojevi (broj
I. Stara 6000 godina (ma daa) II.
oboljelih, frekvencija pulsa, eritrociti u krvi itd.)
Prvi oblik statistike popis
2.kontinuirana: rezultat mjerenja, realne vrijednosti (jačina doze,
A. rimski cenzus
krvni pritisak, temperatura itd.)
III. Moderna statistika kraj XVIII, početak XIX vijeka, prvi organi stat. službe
V.podatak: bilo kakav zapis o statističkom skupu, jedinicama posmatranja ili
IV. Adolf Ketle smatra se osnivačem savremene statistike V.Karl Pearson, genetika i eugenika, jako bitan lik, razradio savremenu
≑
statistiku
≑
Klasifikacija statistike
Grupisanje podataka I. Grupisanje: metoda razvrstavanja jedinica posmatranja statisti čkog skupa u
grupe i grupne intervale obilježja posmatranja
I. Evidenciona statistika: prikupljanje, registrovanje, sređivanje podataka kao
II.
krajnji cilj II.
obilježjima posmatranja
Teorijska statistika: oblast primjenjene matematike, riješava teorijsk e
B. sistematičnost
probleme statistike
C. određenost
III. Primjenjene statistike: posebne statistike korišćene za istraživanje u
III. Redoslijed grupisanja:
raznim oblastima nauke. Ima ih onoliko koliko ima oblasti istraživanja
A. utvrđivanje minimalne i maksimalne vrijednosti, da bi sve vrijednosti
A. Medicinska statistika: nastala 1847. Semmelweiss i smrtnost
stat. skupa bile obuhvaćene
porodilja
≑ Statistički metod i m
Pravila grupisanja: A. sveobuhvatnost
B. utvrđivanje raspona vrijednosti, na osnovu čega se utvrđuje širina
etodologija
grupnog intervala
I. Statistika kao naučni metod ima dvije osnovne karakteristike: (1)
1. mali intervali → veći broj intervala → manji gubitak
masovnost i (2) kvantitativnost II.
informacija/manja preglednost
Statistički istraživanje se primjenjuje na masovne pojave (pojave koje se
2. veliki intervali → manji broj intervala → veći gubitak
dešavaju u velikom broju, ili se ponavljaju u vremenu)
informacija/veća preglednost
III. Kvantitativnost j e specifičnost statističkog metoda i omogućava
3.intervali moraju biti iste veličine
utvrđivanje opšteg svojstva i zakonitosti individualno promjenljivih pojava
4. donja granica prvog intervala počinje sa 0
IV. Etape rada statističkog metoda:
IV. Frekvencija ( f ) :broj jedinica posmatranja koje pripadaju jednoj grupi
A. proučavanje pojave i planiranje istraživanja B. posmatranje/prikupljanje podataka: najveća etapa po obim u
A. apsolutna frekvencija: rezultat prebrojavanja jedinica posmatranja
C. obrada prikupljenih podataka
B. relativna frekvencija: rezultat odnosa apsolutne frekvencije j edne
1. sređivanje
grupe prema ukupnob broju jedinica; izražava se u vidu decimale ili
2.opisivanje
procenta C. kumulativna frekvencija: sukcesivni zbir frekvencija pojedinih grupa;
3.analiziranje
poslednja kumulativna frekvencija je jednaka ukupnom broju j edinica
4. generalizacija zaključka V.Dvije vrste grešaka u statističkim istraživanjima A. greške u radu
≑
2. slučajne: nasumično se ispoljavaju, efekti na istraživanje se obično potiru 3. perturbacije: pojava se posmatra u neuobičajenimokolnostima,
Prikazivanje podataka – obuhvata ispitna pitanja: I. Tabeliranje
1.sistematske: stalno se ispoljavaju u istom smislu – kritično
ugrožavaju istraživanje
posmatranja
≑
II.
Tabeliranje I. Pregledno prikazivanje prethodno grupisanih podataka tabelom II.
što krivi sliku o njoj
B. horizontalne rubrike: redovi III. Tabela mora da bude: A. pregledna, sa ograničenim brojem kolona i redova
2. greške II vrste
≑ Osnovni statistički pojmovi
B. jasna i razumljiva C. potpuna
I. Statistika: nauka koja se bavi kvantitativnim istraživanjem pojava u cilju
D. tehnički dobra i pravilna
njihove deskripcije, analize i generalizacije zaključaka II.
Statistički skup: cjelina sastavljena od istovrsnih elemenata sa
Pravougaona, izdjeljena horizontalnim i vertikalnim linijama na rubrike A. vertikalne rubrike: kolone
B. greške u zaključivanju 1. greške I vrste
Grafičko prikazivanje
IV. Podjela tabela: A. prema broju statističkih serija
zajedničkom varijablom (promjenljivom karakteristikom) A. mora biti sastavljen od istovrsnih i međusobno uporedivih elemenata
1.proste: 1 serija
B. dvije vrste statističkih skupova:
2. složene: više serija B. prema broju i raščlanjenosti obilježja
1. osnovni skup: skup svih postojećih istovrsnih elemenata –
1. elementarne: jedno raščlanjeno obilježje
praktično nedostupan 2.uzorak: reprezentativni dio osnovnog skupa III. Jedinice posmatranja: istovrsni elementi statističkog skupa, nosio ci
obilježja posmatranja IV. Obilježja posmatranja: karakteristike statističkog skupa, mogu biti kvalitativna i kvantitativna
2. kombinovane: više raščlanjenih obilježja
≑ Grafičko prikazivanje
I. Metod prikazivanja grupisanih i tabeliranih podataka u vizuelnom obliku II.
Dvije grupe: A. podaci prikazani oznakama i simbolima: kartogrami, simbolički crteži B. dijagrami: podaci prikazani geometrijskim oblicima
1. tačkasti (korelacioni)
A. vrijednosti se poređaju po veličini u niz
2.linijski
B. utvrdi se sredina niza
a. poligon frekvencija
C. ukoliko je zbir frekvencija
b.kriva frekvencija
1.neparan: vrijednost na sredini je medijana
c. vremenski linijski dijagram
2.paran: dvije centralne vrijednosti se saberu i podijele sa 2
d.kumulativni dijagram
1
3
20
99
e. polarni dijagram 1
3. površinski a. stubičasti
II.
b. štapićasti c. histogram frekvencija d. kružni (pie)
≑
1 II.
99
101
552
1
612
980
992
Ukoliko postoji više vrijednosti sa maksimalnim frekvencijama grupa
Relativni brojevi
B. ukoliko su podijeljene sa više drugih vrijednosti, onda je polimodalna
I. Apsolutni brojevi se dobijaju kao rezultat mjerenja, ali se ne mogu koristiti
raspodjela, što je loše, valjda
za poređenje pojava koje nisu istovjetne. Za te potrebe njih dopunjuju relativni brojevi
Relativni brojevi: statistički parametri koji omogućuju poređenje
≑
istoimenih i raznoimenih pojava bez obzira na njihov intenzitet
I. Kada su vrijednosti pravilno i simetrično raspoređene, aritimetička sredina,
Kada su vrijednosti asimetrično raspoređene, medijana se uvijek nalazi
između moda i aritimetičke sredine
IV. Dobija se kao količnik dva broja, brojioca (vrijednosti koja se upoređuje) i
III. Kod unimodalnih simetričnih i umjereno asimetričnih raspodjela
imenioca (vrijednost kojom se upoređuje) :
učestalosti, medijana se nalazi na trećini puta od aritimetičke sredine ka
→ procenti, i sa 1000 → promili. Proporcija je relativni broj uvijek ≤ 1
Odnos mjera centralne tendencije
II.
nekom odnosu jedan prema drugom
V.Relativni broj je decimalan broj, i za lakše tumačenje se često množi sa 100
III. Mod se koristi prvenstveno za nominalne vrijednosti
medijana i mod imaju iste, jednake vrijednosti
III. Relativni brojevi se mogu izračunati ako se znaju bar dva broja koji su u
modu:
≑
VI. Postoje tri tipa relativnih brojeva
Mjere varijabiliteta I. Srednje vrijednosti se koriste kod skupova koji se g rupišu oko jedne
vrijednosti, ukoliko to nije slučaj, srednje vrijednosti nemaju svrhu za taj
A. indeks strukture: porede odnos dijela i cjeline
skup
B. indeks dinamike: pokazuju relativnu promjenu obilježja u vremenu
II.
1.bazni indeks: vrijednosti se porede sa istom bazom
Mjere varijabiliteta određuju da li se, i koliko, vrijednosti skupa grupišu
oko srednje vrijednosti
2. lančani indeks: svaka sledeća vrijednost se poredi sa pret hodnom
III. Dijele se na:
C. koeficijent: poredi intenzitete dvije vrijednosti od kojih je bar jedna
A. apsolutne mjere varijabiliteta:
masovna (natalitet, mortalitet, incidencija, prevalencija)
1.interval varijacije
Mjere centralne tendencije
2.standardna devijacija
I. Dijele se na dvije grupe:
3.srednje apsolutno odstupanje
A. matematičke
4.kvartili, decili, centili
1. aritimetička sredina
5.varijansa
B. pozicione
B. relativne mjere varijabiliteta:
1.medijana
1.koeficijent varijacije
2.mod Aritimetička sredina I. Dobija se sabiranjem svih vrijednosti ispitivanog obilježja i dijeljenjem
≑
̅
IV. Veći broj vrijednosti takođe utiče na ovu mjeru (veća šansa za ekstremne
ponderisana aritimetička sredina zato što uticaj vrijednosti na aritimetičku
∑̅ )
V.Za heterogeni skup se ne može koristiti aritimetička sredina, zato što
ekstremne vrijednosti onemogućuju reprezentativnost aritimetičke sredine, zbog čega se koriste pozicione mjere u tom slučaju Medijana I. Srednja vrijednost po položaju, izračunava se:
–
varijabilitetu unutar intervala
pripadaju određenoj grupi; aritimetička sredi na ovih vrijednosti se zove
uvijek minimalan za aritimetičku sredinu, u odnos u na bilo koju drugu
Pokazuje razmak od najmanje do najveće vrijednosti:
III. Daje informacije samo o ekstremnim vrijednostima, a ne daje nikakve o
III. Za grupisane vrijednosti se dodaje f , frekvencija vrijednosti koje
IV. U homogenom skupu, kvadrat odstupanja pojedinačnih vrijednosti je
Interval varijacije
II.
Označava se sa (iks bar)
sredinu zavisi od njene frekvencije
2. z vrijednost
I. Najjednostavnija mjera varijabiliteta
zbira sa brojem vrijednosti
≑
3
A. ukoliko su one susjedne vrijednosti, mod je granična vrijednost tih
C. atributivni – stubičasti, kružni
vrijednost (
980
I. Srednja vrijednost po položaju, dobija se tako što se odredi vrijednost koja
B. numerički diskontinuirani – štapićasti
II.
612
992
Koristi se kada ekstremne vrijednosti ne dozvoljavaju upotrebu
1
A. numerički kontinuirani – poligon frekvencija, histogram frekvencija
≑
552
980
se najviše p uta pojavljuje u skupu
III. Različite vrste obilježja zahtijevaju korišćenje različitih dijagrama:
≑
612
Mod
4.prostorni (stereogrami)
II.
20
552
aritimetičke sredine
e. pravougaoni
≑
3
101
101 99 101 med 100
≑
vrijednosti) Standardna devijacija I. Najčešće upotrebljavana mjera varijabiliteta II.
Mjeri odstupanje vrijednosti od aritimetičke sredine, tj. gustinu
grupisanja oko a.s. III. Manja vrijednost SD znači manje odstupanje, kao i manji varijabilitet, i obrnuto
√ – varijansa
IV. Varijansa je srednje kvadratno odstupanje od aritimetičke sredine. Dobija
se kao količnik sume svih razlika vrijednosti i aritimetičke sredine sa ukupnim brojem vrijednosti:
∑
V.Apsolutna je mjera, tako da se može koristiti samo za upoređivanje
varijabiliteta istih obilježja, ukoliko se aritimetičke sredine ne razlikuju
≑
mnogo
≑ Statistička analiza
I. Matematičko-logički postupak donošenja zaključaka o problemu
Koeficijent varijacije
istraživanja, na osnovu rezultata adekvatno odabranih i pravilno
I. Relativna mjera varijabiliteta, omogućava poređenje varijabilnosti različitih
primjenjenih specifičnih statističkih m etoda
obilježja kao i istih obilježja sa različitom aritimetičkom sredinom II.
Apsolutna tačnost statističkih zaključaka je nemoguća, zato se mora
II.
Dobija se kao količnik standardne devijacije i aritimetičke sredine:
utvrditi stepen sigurnosti, odnosno greške III. Vjerovatnoća sigurnosti: minimalna vjerovatnoća koja podržava doneseni
A. k oeficijent varijacije je standardna devijacija izražena u procentima
zaključak. Naspram nje je vjerovatnoća greške – maksimalna vjerovatnoća
aritimetičke sredine
dopustive greške u zaključivanju. Zajedno čine 1, odn. 100%
III. CV se koristi i kao mjera homogenosti skupa; homogenost je veća ukoliko
IV. Minimalni nivo značajnosti u medicini je 0,95 → maksimalna greška 0,05.
je CV manji A. smatra se da je pojava homogena ako je
Drugi definisani nivo značajnosti je 0,99, odnosno maksimalna greška 0,01
, u suprotnom je
A. To znači da, sa nivoom značajnosti od 0,05, postoji šansa od 5% da
heterogena
izvedeni rezultati istraživanja nisu tačni
IV. CV se upotrebljava u slučaju kada se želi utvrditi:
≑
V.Dva tipa statističke analize:
u kom obilježju neka grupa varira više a u kom manje
A.
A. procjena parametara osnovnog skupa preko ispitivanja uzorka.
B. koja grupa više varira a koja manje po jednom obilježju
Interval povjerenja govori o pouzdanosti procjene
z vrijednost
B. ispitivanje hipoteze o uočenoj pojavi. Provjerava s e njena istinitost za
I. z vrijednost: Odstupanje vrijednosti od aritimetičke sredine iskazano u standardnim devijacijama:
određeni nivo značajnosti . Postupkom provjere istinitosti se procjenjuje
̅
1. značajnost sličnosti oblika raspodjel a 2. značajnost razlike
II. z vrijednost je pokazatelj relativne pozicije vrijednosti u skupu III. Kad je z negativno, onda je vrijednost manja od aritimetičke sredine, a
kada je pozitivna, onda je veća od a.s.
≑ Poređenje varijabiliteta
I. Procjena varijabiliteta se vrši na osnovu odnosa aritimetičke sredine i standardne devijacije. Za odnos varijabiliteta dvije pojave, razlikuju se
sledeće situacije:
– varijabilitet je isti – varijabilitet je manji tamo gdje je manja B.
A.
≑
3. značajnost paralelizma (povezanosti, zavisnosti) Ispitivanje hipoteze I. Postupak provjere istinitosti n aučne pretpostavke o pojavi koja se ispituje
Definišu se dvije, suprotne hipoteze: alternativna – H1 i nulta – H0. Počinje
II.
se sa prepostavkom da je nulta hipoteza tačna III. Nulta hipoteza tvrdi da je proučavana pojava nasumična i da nije
značajna, i na osnovu nje se provjerava validnost alternativne hipoteze IV. Hipoteze se mogu formulisati: A. dvosmjerno: nije bitan smjer variranja, bitno je samo da li se vrijednost
standardna devijacija, i obrnuto
C.
devijacija, i obrnuto
D.
≑
razlikuje od očekivane (npr. H 0: pušenje ne utiče na i ncidenciju raka
– varijabilitet je veći tamo gdje je manja standardna – može se izračunati CV i z vrijednost, tamo gdje su oni manji, manji je i varijabilitet
Mjere oblika raspodjela frekvencija
pluća) B. jednosmjerno: uzima se u obzir smjer variranja (npr. H 0: pušenje ne
utiče, ili umanjuje incidenciju raka pluća) V.Bira se nivo značajnosti, odnosno, bira se vjerovatnoća greške prve vrste
( ), na osnovu prirode ispitivane pojave
I. Raspodjele frekvencija mogu biti simetrične i deformisane A. Simetrična distribucija frekvencija se karakteriše nagomilavanjem
vrijednosti oko aritimetičke sredine/simetričnim, postepenim padom učestalosti lijevo i desno od aritimetičke sredine B. Deformisana dist ribucija može biti: 1. asimetrična/nagnuta na jednu stranu a. nagnuta negativno (ispod aritimetičke sredine)/iskošena udesno b. nagnuta pozitivno (iznad a.s.)/iskošena ulijevo
oblasti odbacivanja nulte hipoteze, dvosmjerno
≑ Greške u zaključivanju
I. Pošto se statistički zaključci baziraju na uzorku, pri ispitivanju hipoteza
postoji mogućnost greške. Procjena ispravnosti hipoteza zato ima 4 ishoda:
A. prihvaćena tačna H 0 (1- ) 2. spljoštena/izdužena (kurtosis)
odbačena pogrešna H ( ) odbačena tačna H () – greška I vrste
B. prihvaćena pogrešna H 0 ( ) – greška II vrste
a. vertikalno spljoštena, platikurtosis (niska, široka rasp odjela)
C.
b. bočna spljoštenost, leptokurtosis (visoka, uska raspodjela)
D.
0
0
Što je veća , veća je šansa da će biti prihvaćena alternativna hipoteza, ali
II.
1. matematička – odnos broja očekivanih ishoda sa ukupnim brojem
i veća šansa da će biti odbačena tačna nult a. Istraživač direktno bira ovu
mogućih ishoda a. za pismo, broj mogućih ishoda je 2 (glava/pismo), a očekivan
vrijednost III.
, sa druge strane, je pod uticajem više faktora:
je 1 (pismo) 2. statistička/empirijska – vjerovatnoća dobijena posmatranjem više
A. stvarna vrijednost parametra uzorka B.
istih događaja i bilježenja rezultata
C. veličina uzorka
a. baca se 100 novčića, i bilježi koliko je palo glava, a koliko
pisama (npr 54 glave/46 pisama → 54% šansa za glave, 46%
D. smjer procjene ispravnosti hipoteze
i se, stoga, ne dopunjuju do 1, v eć, iako smanjenje povećava šansu za , povećanje uzorka je smanjuje, tako što smanjuje standardnu grešku
šansa za pisma)
IV.
b. što se više događaja posmatra, statistička vjerovatnoća se
više približava matematičkoj (npr. 1000 bacanja novčića →
(SE ) V.Jednosmjerno testiranje hipoteza takođe smanjuje šan su za nastanak
≑ Jačina, efikasnost i osjetljivost metoda
51% glava, 49% pisma) B. subjektivna: lično uvjerenje o vjerovatnoći nekog događaja , bazirano
na ličnom iskustvu i znanju
I. Jačina metoda ( ) je maksimalna mogućnost metoda da garantuje tačnost
V.Događaji mogu po zavisnosti biti:
zaključka
A. nezavisni: vjerovatnoća jednog događaja ne zavisi od drugog (npr.
A. komplementarna je beti →
II.
bacanje dva novčića) B. zavisni: da bi se jedan događaj desio, mora da se desi neki drugi
Efikasnost metoda je relativna jačina metoda. Dobija se poređenjem
jačine jednog metoda sa standardom. Ukoliko je efikasnost >1, prvi metod je
događaj prije njega (npr. bacanje jednog novčića tako da prvo padne
efikasniji od standarda
glava, pa pismo) VI. Događaji mogu po isključivosti biti:
III. Osjetljivost/robusnost metoda pokazuje ponašanje metoda u usl ovima
A. isključivi: događaji koji se ne mogu desiti istovremeno (ne može
različitog stepena narušenosti pretpostavki o uzorku(normalnost,
istovremeno da padne i glava i pismo b acanjem jednog novčića)
homogenost, simetričnost itd.)
≑ Analitički metodi
B. neisključivi: događaji koji se mogu desiti istovremeno (osoba ima cirozu jetre, osoba ima hepatitis B)
I. Specifični statistički metodi koji se koriste u statističkoj analizi II.
VII. Zakon adicije:
Postoje dvije glavne vrste:
A. ako su 2 događaja isključiva: vjerovatnoća da će se desiti jedan ili
A. parametarski: zahtijevaju poznavanje ra spodjele učestalosti uzoračkog
drugi događaj je jednaka zbiru vjerovatnoća jednog i drugog
skupa i mogućnošću izračunavanja parametara
1. primjeri parametara: aritimetička sredina, varijansa, standardna
B. ako 2 događaja nisu isključiva : vjerovatnoća da će se desiti jedan ili
devijacija… 2.osnovni zahtjev jeste homogenost (
), ukoliko je uzorak
drugi događaj je jednaka zbiru jednog i drugog, minus vjerovatnoća da
će se desiti oba zajedno
jako mali
3. članovi: a. z test
VIII.Zakon multiplikacije: vjerovatnoća da će se dva nezavisna događaja oba
b.t test
dogoditi (npr. da će u jednom danu u ordinaciju ući alkoholičar i trudnica)
je jednaka proizvodu vjerovatnoća ta dva događaja:
B. neparametarski: mogu se primjenjivati u svim empirijskim situacijama,
a ukoliko je nemoguće iskoristiti parametarski metod, onda je i
A. Ukoliko su događaji zavisni, jedan događaj je nezavistan, a drugi je
obavezna
zavistan od pojave prvog (npr. ciroza jetre je zavisna od pojave
1. parametarski metodi su jači, tako da njih treba koristiti kada je
hepatitisa B). Prvo se mora znati vjerovatnoća pojave zavisnog
moguće
događaja ukoliko se ostvari nezavisni( P(zavisni|nezavisni)), pa se onda
2.dijele se na dvije podgrupe:
ona množi sa vjerovatnoćom pojave nezavisnog:
a. oni koji procjenjuju empirijske učestalosti: i.
1. BTW to znači da je vjerovatnoća zavisnog događaja ako se ne
ii. Fišerov test tačne vjerovatnoće
dogodi nezavisni = 0
iii. MekNemarov test
2. BTW2 relativna vjerovatnoća je vjerovatnoća pojave zavisnog
b.oni koji procjenjuju rangovne vrijednosti i. test ekvivalentnih parova ii. test sume rangova iii. test predznaka III. Za procjenu oblika povezanosti/zavisnosti se koristi linearna regresija IV. Za procjenu jačine povezanosti se koriste: A. parametarski: Pearsonov linearni koeficijent korelacije B. neparametarski: Spearmanov koeficijent korelacije rangova
≑ Vjerovatnoća
I. Teorija vjerovatnoće se bavi vjerovatnim/slučajnim događajima II.
Slučajni događaj je događaj koji se u datim uslovima može očekivati, ali se
ne mora nužno ostvariti; sigurni/nužni događaj se mor a ostvariti A. Bačen novčić mora pasti na zemlju pod u ticajem gravitacije (nužni
događaj), ali ne mora nužno da padne pismo (slučajan događaj) III. Vjerovatnoća: mjera šanse da se dogodi sl učajni događaj. IV. Vjerovatnoća može biti: A. objektivna:
≑
ukoliko se ostvari nezavisni događaj Teorijske raspodjele I. Matematički modeli raspodjela vjerovatnoća II.
Formiraju se primjenom teorije vjerovatnoće na složene slučajne
događaje III. Složeni događaj znači da se više događaja uzima u obzir (više bacanja
novčića, više ispitanika) IV. Teorijske raspodjele mogu biti: A. kontinuirane – kada su “glatke” na grafiku 1.normalna raspodjela 2.t 3.hi-kvadrat B. diskontinuirane – kada postoje definisane cjelobrojne vrijednosti 1.binomna raspodjela V.Prikaz vjerovatnoća može biti:
A. parcijalan – za svaku pojedinačnu vrijednost na
osi se pridružuje
VI. Idealne zamišljene raspodjele koje služe za idealizovanje realnih
njena vjerovatnoća na osi
podataka, čime se onda lakše dolazi do statističkih zaključaka. Jako bitno da
B. kumulativan – vjerovatnoća svake sledeće vrijednosti na osi je zbir
realni podaci koliko-toliko odgovaraju izabranoj teorijskoj raspodjeli, inače
svih prethodnih (dobija se neminovno rastući grafik)
≑
zaključci doneseni na osnovu neodgovarajuće raspodjele mo’š bačit’
III. Standardna devijacija se nalazi na prevojnoj tački krive iz konveksiteta u konkavitet
Binomna raspodjela
IV. Površina između
I. Diskretna raspodjela vjerovatnoće broja očekivanih ishoda (uspjeha, p)
vjerovatnoći svih mogućih ishoda
naspram suprotnog ishoda (neuspjeha, q) II.
Njeni parametri su proporcija p (vjerovatnoća očekivanog ishoda) i n
V.Iako je definisana od
III. Koristi se za dvije mogućnosti, očekivani ishod (vjerovatnoća p), i
pa i prekidne VI. Glavni razlog zašto je toliko korisna je centralna granična teorema, koja
suprotni ishod (vje rovatnoća q) i izračunava se na sledeći način:
dakle, , koja se crta na osi na grafiku, označava vjerovatnoću da će prostih ishoda biti očekivani ishod
B. pošto ne može da se desi pola ili 1/3 prostog ishoda, bino mna
≑
≑
nema, normalnu raspodjelu t raspodjela [nije ispitno pitanje]
II.
I. Oblika famozne Gausove krive, dobija se tako što se realna kriva “pomjeri”
,
po sledećoj formuli ( z vrijednost):
̅
A. ovo se zove standardizacija, čime se omogućava poređenje vrijednosti,
npr. generalizaciju na čitavu populaciju zaključaka dobijenih na uzorku Za normalnu raspodjelu, aritimetička sredina, medijana i mod imaju istu
vrijednost
sve više da liči na normalnu raspodjelu, iako uzoračka raspodjela ne mora, i
normalnoj raspodjeli dovoljno dobro
Normalna raspodjela
II.
kaže: što je veći broj uzoraka, distribucija aritimetičkih sredina uzorka će
I. Kada je broj jedinica posmatranja jako mali, distribucija uzorka ne odgovara
raspodjela je prekidna/diskretna
tako da aritimetička sredina pada na 0, a standardna devijacija postaje
do , na rastojanju od 3 sd se nalazi 99,74%
površine, što joj omogućava da se koristi aproksimacija za druge raspodjele,
(broj prostih ishoda), što potpuno definiše binom
A.
ose i krive je jednaka 1, što je jednako ukupnoj
Tada se koristi t raspodjela, koja uklju čuje dodatnu varijablu: stepen
slobode, koji zavisi od broja jedinica posmatranja:
III. Za razliku od normalne raspodjele, t raspodjela je u stvari grupa krivih,
koje su sve spljoštenije, što je DF manje. Obrnuto, veće DF znači da je t raspodjela približnija normalnoj
≑ raspodjela [nije ispitno pitanje]
I. Ako standardnu devijaciju normalne raspodjele kvadriramo (to je
raspodjelu:
varijansa) i nacrtamo grafik, dobijamo
A. navedena formula služi za upoređivanje uzork a i populacije, gdje nam
govori da li ćemo da prihvatimo nultu hipotezu ili ne, na osnovu izabrane značajnosti ( ). Ima tablica za te stvari. dobijena vrijednost
≑
Uzorak (Reprezentativni metod u knjizi) I. Metod koji omogućava da se do željenih saznanja dođe ispitivanjem dijela (uzorka) osnovnog skupa II.
Uzorak je reprezentativni skup podskup osnovnog skupa
:D
III. Da bi uzorak bio reprezentativan, mora biti slučajan. Postoji više načina formiranja uzorka: A. prost slučajan: svaka jedinica osnovnog skupa mora da ima jednaku
mogućnost da postane dio uzorka. Svaka pristrasnost smanjuje tu IV. Pošto uvodi novu v arijablu, DF , onda se statistički zaključak izvodi slično
mogućnost za neke jedinice
kao z test, ali se u tablici traži po odgovarajućem nivou značajnosti i
1. metoda kojom se postiže slučajnost jeste softverski random
odgovarajućem DF
number generator , ili kako se to radilo prije 100 godina: tablica
slučajnih brojeva B. sistematski uzorak: sa liste jedinica se uzme dio jedinica po nekom sistemu (npr. iz telefonskog imenika se zove svaki 10. broj za anketu).
≑ Neparametarski metodi za ispitivanje razlike [obuhvata sledećih 6 pitanja] I.
Bitno je da je početak odabiranja slučajan (telefonski i menik se otvori
II.
na slučajnoj strani)
III. Medijan test
C. stratifikovan uzorak: 1.prvo se s kup podjeli na stratume kao što su starosne grupe ili pol
V.Test ekvivalentnih parova
2. onda se vadi uzorak preko prostog slučajnog ili sistematskog
VI. Test sume rangova
IV. Mali uzorci su oni sa
30 jedinica, a veliki sa više od 30
≑
V.Preciznost: mjera odstupanja ocjene iz uzorka od teoretske vrijednosti
I. Neparametarski metod za procjenu značajnosti razlike
III. Prihvata i atributivne i numeričke podatke, ali se numerički moraju
= 2,58
grupisati u intervale, čime se gubi dio informacija
A. Ako više od 20% intervala ima manje od 5 vrijednosti, onda se moraju
A. za mali broj uzoraka se koristi t vrijednost i tablice t testa
sažimati
Parametarski metodi za ispitivanje razlike [obuhvata sledeća 2 pitanja]
IV.
distribucija nije simetrična, tako da se kod dvostranog testiranja
moraju posebno izračunavati, preko različitih tablica
I. z test t test
1.BTW ne zahtijeva poznavanje distribucije podataka, i najbolje se
osjeća kada se statistički parametri ne mogu ni izračunati (npr.
z test
ordinalni po daci, ne možeš izvući aritimetičku sredinu iz “ima
I. Baziran na karakteristikama standardne normalne raspodjele i standardne
erektilnu disfunkciju” i “nema erektilnu disfunkciju”)
z vrijednosti II.
Parametarski metod za procjenu značajnosti razlike
V.Postoje dvije glavne grupe situacija u kojima se koristi ovaj test
III. Služi za procjenjivanje značajnosti razlika par ametara – homogenih
A. procjenjivanje značajnosti razlike učestalosti jednog obilježja
vrijednosti jedinica posmatranja dvije grupe podataka
posmatranja B. procjenjivanje značajnosti razlika učestalosti dva nezavisna obilježja
IV. Koristi se za kvantitativne podatke V.Zahtijeva poznavanje standardne devijacije osnovnog skupa ili uzroka sa
posmatranja, i prezentuju se u tablicama kontingencije
kojim se upoređuje VI. Izračunava se:
1.tablice kontingencije su složene kombinovane tabele koje
prikazuju opažene/empirijske učestalosti na osnovu dva obilježja.
̅ ̅
Strukturno obilježje
̅ ̅ – razlika aritimetičkih sredina uzoraka koji se VII. Statistički zaključak se donosi poređenjem empirijske i teoretske
I gradacija II gradacija
vrijednosti z testa. Teoretska vrijednost zavisi od izabranog nivoa
Ukupno
upoređuju (ili uzorka i osnovnog skupa)
značajnosti, kao i smjera procjene testa (dvosmjeran/jednosmjeran). Za
≑
Može se koristiti na jednom ili više obavezno nezavisnih uzoraka
(MakNemarov je za zavisne)
standardne greške ( SE ). z vrijednost je za nivo značajnost 0,05 = 1,96 i 0,01
≑
test (da, Pearson-ova je i linearna korelacija, jebe mu se)
Pearson-ov
II.
dobijene mjerenjem os novnog skupa. Određuje se preko z vrijednosti i
II.
Test tačne vjerovatnoće
IV. MekNemarov test
uzorkovanja
≑
test
Otprilike z test za male uzorke (<30), dijeli njegove karakteristike: A. parametarski metod za procjenu znača jnosti razlike
c
d
c+d
a+c
b+d
a+b+c+d =n
a+b
VI. Formula iznad uključuje tzv. Yates-ovu korekciju za kontinuitet, koja je
B. služi za procjenjivanje značajnosti razlika parametara – homogenih
D. izračunava se isto
Ukupno
vrijednosti za 2x2 tabelu je:
I. Bazira se na t raspodjeli, a inače je isti kao i z test
C. koristi se za kvantitativne podatke
II gradacija b
2. formula za izračunavanje
t test
vrijednosti jedinica posmatranja dvije grupe podataka
I gradacija a
tabele mogu imati i više vrijednosti, ali je 2x2 najčešća
a za II.
Funkcionalno obilježje
≑
neophodna za DF =1 Fisher-ov test tačne vjerovatnoće I. Koristi se kad
ne može:
A. ako je 20%+ učestalosti manje od 5 (za 2x2 tabelu bar jedna)
III. Sad pričaš t raspodjelu
B. ukupna učestalost <20 II.
Koristi takođe 2x2 tabelu kontingencije
III. Izračunava se tačna vjerovatnoća, na sledeći način:
a. ako je razlika 0, zanemari tu vrijednost
D.
A. Ne viče, “!” znači faktorijel (BTW 0!=1, 1!=1)
teorijska vrijednost iz tablice), prihvata se alter nativna hipoteza. U
, prihvata se nulta hipoteza, u su protnom, istraživanje je uspjelo. se,
B. Nema tablica, P se upoređuje sa nivoima značajnosti, pa ako je
≑
suprotnom, ostaje nulta IV. Teorijska vrijednost se dobija po tablici na osnovu sledećih parametara:
kada se koristi ovaj test, uzima dosta strožije: 0,025 i 0,005 jer zato .
A. broj jedinica posmatranja
Medijan test I. Neparametarski test, varijacija na temu na temu II.
B. izabrani nivo značajnosti
(svi neparametarski su varijacija
, jebeni matematičari nemaštoviti)
Ne treba joj normalnost, simetričnost, raspodjela, isto kao ni
C. izabrani smjer testa (jednosmjerni, dvosmjerni) V.Osim izračunavanja empirijske i teorijske vrijednosti, ovaj test može da se
koristi i za određivanje smjera i veličine promjene (ako je
III. Prave se tablice, ali tako da se za redove (strukturne gradacije) uzimaju normalno gradirane grupe kao na
∑ ) poredi se sa teorijskom vrijednošću, i ako je ∑ ∑ (∑ je
C. manji od dva zbira je empirijska vrijednost testa (
negativnih vrijednosti, onda je smjer negativan i obrnuto)
, dok se za kolone (funkcionalne
VI. Postoji i fora da ako je broj uzoraka n > 2 5 da se umjesto jednostavnog
gradacije) uzimaju samo dvije grupe, na sledeći način:
sličnija raspodjela normalnoj):
vrijednosti koje su jednake medijani B. dalje se podijeli skup na vrijednosti manje i veće o d medijane, čije se onda frekvencije ubace u kolone, like so:
Funkcionalno obilježje
obilježje I gradacija II gradacija
≑
IV. Onda sve isto kao sa
Ukupno
< med a
> med b
c
d
c+d
a+c
b+d
a+b+c+d =n
Ukupno
a+b
≑
otkrićem. Bitna činjenica II.
III. Glavna pretpostavka ovog testa je da su oba uzorka iz jednog osnovnog
skupa, što bi značilo da imaju iste medijane. To je nulta hipoteza → značajno odstupanje medijane jednog uzorka od drugog podrazumijeva tačnost
Diskordantni parovi su parovi koji se mijenjaju u vremenu, ostali su, jel,
alternativne hipoteze
nediskordantni. Ovako:
IV. Takođe se rangira, ali na malo drugačiji način: Drugo mjerenje + a (++) b (+-) c (-+) d (--)
Ukupno
a+c
b+d
Ukupno
A. uzimaju se vrijednosti iz oba uzorka i zajedno rangiraju
a+b c+d a+b+c+d =n
B. rangirane vrijednosti se ponovo vrate svojim uzorcima
i ):
C. određuje se U za oba uzorka (
A. Kao što se da vidjeti, b i c su se mijenjali između mjerenja ili štagod u
istraživanju, tako da su to diskordantni parovi III. Formula:
I sa Yates-ovom korekcijom (isto kao kod pogodi kog testa):
D. Manje U od ta dva se onda upoređuje sa kritičnom vrijednošću iz tabele
IV.
≑
Wilcoxon-ov test ekvivalentnih parova
E. I ovdje možemo da se izdrkavamo ako je manje n veće od 8, i koristimo z tabelu kao u testu ekvivalentnih parova, ali tu zajebanciju ostavljam
≑
čitaocu na maštu Ispitivanje paralelizma [nije ispitno pitanje opusti se] I. Svi testovi do sada su tražili razliku, ovi traže
sličnost /asocijaciju/povezanost
I. Neparametarski metod za procjenu značajnosti razlike II.
Isto što i test ekvivalentnih parova, ali za nezavisne podatke A. analitički neparametarski metod za procjenu značajnosti razlike
uzorci), ovdje nazvane diskordantni parovi
Prvo mjerenje + -
Mann-Whitney U test sume rangova
nazove po sebi, v eć ga je prepustio kolegama koji su kasnili dvije godine sa
za zavisne, vezane uzorke (npr. jedan uzorak kroz vrijeme, ili mečovani
II.
1. mda…
∑
I. Wilcoxon je prvi izmislio i ovaj test, ali nije bio peder kao Pearson da ga isto
MekNemarov test I.
∑ ∑ , koristi sledeća formula (što više uzoraka,
upoređivanja da li je
A. izračuna se zajednička medijana, a onda se iz skupa izbace sve
Strukturno
∑ od
Koristi se za zavisne podatke, kao što je npr. bol prije i posle uzimanja
II.
Dvije varijable su povezane ako promjena jedne (nezavisne) utiče na
promjenu druge (zavisne)
lijeka III. Koristi se rangiranje rezultata da bi se dobila empirijska vrijednost testa,
III. Povezanost može biti: A. direktna/pozitivna: jedna raste, druga raste
na sledeći način: A. razlike između vrijednosti prije i posle tretmana/prvog i drugog mjerenja se rangiraju po svojim apsolutnim vrijednostima (nebitan
B. recipročna/negativna: jedna raste, druga pada IV. Oblik slaganja može biti: A. pravolinijski: definiše se jednačinom prave ili štagod
predznak) – radni rang B. znakovi se onda vraćaju, i sabiraju se istoznačn i rangovi 1. ukoliko ima više istih vrijednosti, sve dobijaju isti rang koji je
B. krivolinijski: linija talasa V.Uočavanje povezanosti je obično odokativno: napravi se dijagram
jednak aritimetičkoj sredini ranga prije izjednačavanja. Da
rasturanja, ili scatter plot: sv aka tačka ima x poziciju (nezavisna varijabla ) i
nacrtam:
y (pretpostavljena zavisna varijabla)
prije
posle
razlika
radni rang
1 1 3 2 2
3 2 5 3 -2
+2 +1 +2 +1 -4
|3| |1| |4| |2| |5|
rang (Rd) +2,5 +1,5 +2,5 +1,5 -3
2. dakle, sve se vrijednosti poređaju, pa se za iste uzme srednja
vrijednost i to je rang (“radni rang” sam izmislio da bih objasnio suštinu)
3. korelacija je “jaka” ako je r veće od 0,70, iznad 0,40 je “umjereno
jaka”, a ispod nije dovoljna. Ovo ide u oba pravca (-0.80 i +0,80 su podjednako jake) IV. Mi vidimo liniju iz tačaka, ali to nije to ako ne postoji još jedna formulica
koja će to da ozvaniči:
b – tangens ugla koji linija regre sije zaklapa sa x osom bla bla truć truć A. Šta je bitno: ova linija nam omogućava ne samo crtanje linije preko
postojećih podataka, nego i ekstrapolaciju (izvođenje) na nove događaje! Jednostavno je: zamisli da auto ide po grafiku, ⇗, prati liniju. Stiže do kraja linije, ali ne koči. Kuda će nastaviti?! Pa istim putem, nastavljajući zamišljenu liniju u beskonačnost. Specijalan slučaj te
analiza nedvosmisleno kaže: što mlađe to slađe
≑
VI. Povezanost ima tri karakteristike A. smjer: ispituju ga korelacione i regresione metode
regresije je: Linearni trend
I. Kada je osa vrijeme (minut, dan, godina), a regresija linearna
B. jačina: ispituju ga korelacio ne metode
II.
C. oblik: ispituju ga regresione metode
ekstrapolira taj trend u budućnost
VII. Kao i kod ostalih testo va, neparametarski se koriste za heterogene
≑
Nastaje kao i linija regresij e, iz postojećih podataka, i onda se
A. npr. poslednjih 10 godina konstantno raste godišnji broj
uzorke, a parametarski za homogene
kardiovaskularnih oboljenja za recimo 5%. Koliko će procenata porasti
Jednostruka linearna povezanost (Pearson-ov linearni koeficijent korelacije)
≑
I. Ispituje jačinu linearne povez anosti dvije promjenljive: nezavisno
promjenljive i zavisno promjenljive II.
Napravi se scatter plot i prvo uoči da li postoji sumnja na korelaciju
taj broj u 2015.? Jako komplikovano Spearman-ova korelacija ranga I. Neparametarska metoda za određivanje korelacije II.
A. ako pravi kao liniju koja ide od dole lijevo ka gore desno (kao /), onda
Manje pouzdana, tako da se koristi u sledećim slučajevima A. podaci su neparametarskog karaktera
postoji šansa da je pozitivna kor elacija
B. podaci su heterogeni
B. ako je linija suprotna (\), onda je vjerovatno korelacija negativna C. može biti i bezveze, kada nema korelacije
III. Da bi se izračunala, podaci se moraju prvo rangirati: A. pravila ista kao i za ostal e rangirane testove, dobija se
III. Pošto je sve to u stvari bullshit, sada se vadi formula:
IV.
∑ ̅
∑
je Spearman-ov koeficijent korelacije ranga, koji se dobija na sledeći
način:
∑
A. r je Pearson-ov koeficijent korelacije, i ima određene karakteristike
A. d je diferencija, i označava razliku između rangova upoređenih
1. uvijek je između -1 i 1
vrijednosti 2 uzorka
2.ako je blizu 1, onda je korelacija pozitivna, a kod -1 negativna
V.Može da isprati i nelinearne korelacije, što je +
Srđan Pandurević, februar 2015.