Statistika Po Ispitnim Pitanjima - Pandurevic

ver 0.8

STATISTIKA skripta po ispitnim pitanjima Medicinskog fakulteta u Beogradu

Srđan Pandurević februar 2015.

≑

A. atributivna (kvalitativna): izražavaju se opisno (pol, vrsta obolj enja,

Pojam i definicija statistike

ishod bolesti itd.)

I. Gottfried Achenwal - Univerzitetska statistika II.

≑

B. numerička (kvantitativna): izražavaju se b rojevima, i mogu se

Po njemu statistika = nauka o državi

prebrojavati i mjeriti (broj oboljelih, godine života, temperatura, lipidi

III. Metod kvantitativnog i straživanja masovnih pojava

u serumu itd.)

Razvoj statistike

1.diskontinuirana: rezultat prebrojavanja, samo cijeli brojevi (broj

I. Stara 6000 godina (ma daa) II.

oboljelih, frekvencija pulsa, eritrociti u krvi itd.)

Prvi oblik statistike popis

2.kontinuirana: rezultat mjerenja, realne vrijednosti (jačina doze,

A. rimski cenzus

krvni pritisak, temperatura itd.)

III. Moderna statistika kraj XVIII, početak XIX vijeka, prvi organi stat. službe

V.podatak: bilo kakav zapis o statističkom skupu, jedinicama posmatranja ili

IV. Adolf Ketle smatra se osnivačem savremene statistike V.Karl Pearson, genetika i eugenika, jako bitan lik, razradio savremenu

≑

statistiku

≑

Klasifikacija statistike

Grupisanje podataka I. Grupisanje: metoda razvrstavanja jedinica posmatranja statisti čkog skupa u

grupe i grupne intervale obilježja posmatranja

I. Evidenciona statistika: prikupljanje, registrovanje, sređivanje podataka kao

II.

krajnji cilj II.

obilježjima posmatranja

Teorijska statistika: oblast primjenjene matematike, riješava teorijsk e

B. sistematičnost

probleme statistike

C. određenost

III. Primjenjene statistike: posebne statistike korišćene za istraživanje u

III. Redoslijed grupisanja:

raznim oblastima nauke. Ima ih onoliko koliko ima oblasti istraživanja

A. utvrđivanje minimalne i maksimalne vrijednosti, da bi sve vrijednosti

A. Medicinska statistika: nastala 1847. Semmelweiss i smrtnost

stat. skupa bile obuhvaćene

porodilja

≑ Statistički metod i m

Pravila grupisanja: A. sveobuhvatnost

B. utvrđivanje raspona vrijednosti, na osnovu čega se utvrđuje širina

etodologija

grupnog intervala

I. Statistika kao naučni metod ima dvije osnovne karakteristike: (1)

1. mali intervali → veći broj intervala → manji gubitak

masovnost i (2) kvantitativnost II.

informacija/manja preglednost

Statistički istraživanje se primjenjuje na masovne pojave (pojave koje se

2. veliki intervali → manji broj intervala → veći gubitak

dešavaju u velikom broju, ili se ponavljaju u vremenu)

informacija/veća preglednost

III. Kvantitativnost j e specifičnost statističkog metoda i omogućava

3.intervali moraju biti iste veličine

utvrđivanje opšteg svojstva i zakonitosti individualno promjenljivih pojava

4. donja granica prvog intervala počinje sa 0

IV. Etape rada statističkog metoda:

IV. Frekvencija ( f ) :broj jedinica posmatranja koje pripadaju jednoj grupi

A. proučavanje pojave i planiranje istraživanja B. posmatranje/prikupljanje podataka: najveća etapa po obim u

A. apsolutna frekvencija: rezultat prebrojavanja jedinica posmatranja

C. obrada prikupljenih podataka

B. relativna frekvencija: rezultat odnosa apsolutne frekvencije j edne

1. sređivanje

grupe prema ukupnob broju jedinica; izražava se u vidu decimale ili

2.opisivanje

procenta C. kumulativna frekvencija: sukcesivni zbir frekvencija pojedinih grupa;

3.analiziranje

poslednja kumulativna frekvencija je jednaka ukupnom broju j edinica

4. generalizacija zaključka V.Dvije vrste grešaka u statističkim istraživanjima A. greške u radu

≑

2. slučajne: nasumično se ispoljavaju, efekti na istraživanje se obično potiru 3. perturbacije: pojava se posmatra u neuobičajenimokolnostima,

Prikazivanje podataka – obuhvata ispitna pitanja: I. Tabeliranje

1.sistematske: stalno se ispoljavaju u istom smislu – kritično

ugrožavaju istraživanje

posmatranja

≑

II.

Tabeliranje I. Pregledno prikazivanje prethodno grupisanih podataka tabelom II.

što krivi sliku o njoj

B. horizontalne rubrike: redovi III. Tabela mora da bude: A. pregledna, sa ograničenim brojem kolona i redova

2. greške II vrste

≑ Osnovni statistički pojmovi

B. jasna i razumljiva C. potpuna

I. Statistika: nauka koja se bavi kvantitativnim istraživanjem pojava u cilju

D. tehnički dobra i pravilna

njihove deskripcije, analize i generalizacije zaključaka II.

Statistički skup: cjelina sastavljena od istovrsnih elemenata sa

Pravougaona, izdjeljena horizontalnim i vertikalnim linijama na rubrike A. vertikalne rubrike: kolone

B. greške u zaključivanju 1. greške I vrste

Grafičko prikazivanje

IV. Podjela tabela: A. prema broju statističkih serija

zajedničkom varijablom (promjenljivom karakteristikom) A. mora biti sastavljen od istovrsnih i međusobno uporedivih elemenata

1.proste: 1 serija

B. dvije vrste statističkih skupova:

2. složene: više serija B. prema broju i raščlanjenosti obilježja

1. osnovni skup: skup svih postojećih istovrsnih elemenata –

1. elementarne: jedno raščlanjeno obilježje

praktično nedostupan 2.uzorak: reprezentativni dio osnovnog skupa III. Jedinice posmatranja: istovrsni elementi statističkog skupa, nosio ci

obilježja posmatranja IV. Obilježja posmatranja: karakteristike statističkog skupa, mogu biti kvalitativna i kvantitativna

2. kombinovane: više raščlanjenih obilježja

≑ Grafičko prikazivanje

I. Metod prikazivanja grupisanih i tabeliranih podataka u vizuelnom obliku II.

Dvije grupe: A. podaci prikazani oznakama i simbolima: kartogrami, simbolički crteži B. dijagrami: podaci prikazani geometrijskim oblicima

1. tačkasti (korelacioni)

A. vrijednosti se poređaju po veličini u niz

2.linijski

B. utvrdi se sredina niza

a. poligon frekvencija

C. ukoliko je zbir frekvencija

b.kriva frekvencija

1.neparan: vrijednost na sredini je medijana

c. vremenski linijski dijagram

2.paran: dvije centralne vrijednosti se saberu i podijele sa 2

d.kumulativni dijagram

1

3

20

99

e. polarni dijagram 1

3. površinski a. stubičasti

II.

b. štapićasti c. histogram frekvencija d. kružni (pie)

≑

1 II.

99

101

552

 1

612

980

992

Ukoliko postoji više vrijednosti sa maksimalnim frekvencijama grupa

Relativni brojevi

B. ukoliko su podijeljene sa više drugih vrijednosti, onda je polimodalna

I. Apsolutni brojevi se dobijaju kao rezultat mjerenja, ali se ne mogu koristiti

raspodjela, što je loše, valjda

za poređenje pojava koje nisu istovjetne. Za te potrebe njih dopunjuju relativni brojevi

Relativni brojevi: statistički parametri koji omogućuju poređenje

≑

istoimenih i raznoimenih pojava bez obzira na njihov intenzitet

I. Kada su vrijednosti pravilno i simetrično raspoređene, aritimetička sredina,

Kada su vrijednosti asimetrično raspoređene, medijana se uvijek nalazi

između moda i aritimetičke sredine

IV. Dobija se kao količnik dva broja, brojioca (vrijednosti koja se upoređuje) i

III. Kod unimodalnih simetričnih i umjereno asimetričnih raspodjela

imenioca (vrijednost kojom se upoređuje) :

učestalosti, medijana se nalazi na trećini puta od aritimetičke sredine ka

          

→ procenti, i sa 1000 → promili. Proporcija je relativni broj uvijek ≤ 1

Odnos mjera centralne tendencije

II.

nekom odnosu jedan prema drugom

V.Relativni broj je decimalan broj, i za lakše tumačenje se često množi sa 100

III. Mod se koristi prvenstveno za nominalne vrijednosti

medijana i mod imaju iste, jednake vrijednosti

III. Relativni brojevi se mogu izračunati ako se znaju bar dva broja koji su u

modu:

≑

VI. Postoje tri tipa relativnih brojeva



Mjere varijabiliteta I. Srednje vrijednosti se koriste kod skupova koji se g rupišu oko jedne

vrijednosti, ukoliko to nije slučaj, srednje vrijednosti nemaju svrhu za taj

A. indeks strukture: porede odnos dijela i cjeline

skup

B. indeks dinamike: pokazuju relativnu promjenu obilježja u vremenu

II.

1.bazni indeks: vrijednosti se porede sa istom bazom

Mjere varijabiliteta određuju da li se, i koliko, vrijednosti skupa grupišu

oko srednje vrijednosti

2. lančani indeks: svaka sledeća vrijednost se poredi sa pret hodnom

III. Dijele se na:

C. koeficijent: poredi intenzitete dvije vrijednosti od kojih je bar jedna

A. apsolutne mjere varijabiliteta:

masovna (natalitet, mortalitet, incidencija, prevalencija)

1.interval varijacije

Mjere centralne tendencije

2.standardna devijacija

I. Dijele se na dvije grupe:

3.srednje apsolutno odstupanje

A. matematičke

4.kvartili, decili, centili

1. aritimetička sredina

5.varijansa

B. pozicione

B. relativne mjere varijabiliteta:

1.medijana

1.koeficijent varijacije

2.mod Aritimetička sredina I. Dobija se sabiranjem svih vrijednosti ispitivanog obilježja i dijeljenjem

≑

̅

IV. Veći broj vrijednosti takođe utiče na ovu mjeru (veća šansa za ekstremne

ponderisana aritimetička sredina zato što uticaj vrijednosti na aritimetičku

∑̅    )

V.Za heterogeni skup se ne može koristiti aritimetička sredina, zato što

ekstremne vrijednosti onemogućuju reprezentativnost aritimetičke sredine, zbog čega se koriste pozicione mjere u tom slučaju Medijana I. Srednja vrijednost po položaju, izračunava se:

   – 

varijabilitetu unutar intervala

pripadaju određenoj grupi; aritimetička sredi na ovih vrijednosti se zove

uvijek minimalan za aritimetičku sredinu, u odnos u na bilo koju drugu

Pokazuje razmak od najmanje do najveće vrijednosti:

III. Daje informacije samo o ekstremnim vrijednostima, a ne daje nikakve o

III. Za grupisane vrijednosti se dodaje f , frekvencija vrijednosti koje

IV. U homogenom skupu, kvadrat odstupanja pojedinačnih vrijednosti je

Interval varijacije

II.

Označava se sa (iks bar)

sredinu zavisi od njene frekvencije

2. z vrijednost

I. Najjednostavnija mjera varijabiliteta

zbira sa brojem vrijednosti

≑

3

A. ukoliko su one susjedne vrijednosti, mod je granična vrijednost tih

C. atributivni – stubičasti, kružni

vrijednost (

980

I. Srednja vrijednost po položaju, dobija se tako što se odredi vrijednost koja

B. numerički diskontinuirani – štapićasti

II.

612

992

Koristi se kada ekstremne vrijednosti ne dozvoljavaju upotrebu

1

A. numerički kontinuirani – poligon frekvencija, histogram frekvencija

≑

552

980

se najviše p uta pojavljuje u skupu

III. Različite vrste obilježja zahtijevaju korišćenje različitih dijagrama:

≑

612

Mod

4.prostorni (stereogrami)

II.

20

552

aritimetičke sredine

e. pravougaoni

≑

3

101

 101 99 101 med  100

≑

vrijednosti) Standardna devijacija I. Najčešće upotrebljavana mjera varijabiliteta II.

Mjeri odstupanje vrijednosti od aritimetičke sredine, tj. gustinu

grupisanja oko a.s. III. Manja vrijednost SD znači manje odstupanje, kao i manji varijabilitet, i obrnuto

 √   – varijansa

IV. Varijansa je srednje kvadratno odstupanje od aritimetičke sredine. Dobija

se kao količnik sume svih razlika vrijednosti i aritimetičke sredine sa ukupnim brojem vrijednosti:

   ∑ 



V.Apsolutna je mjera, tako da se može koristiti samo za upoređivanje

varijabiliteta istih obilježja, ukoliko se aritimetičke sredine ne razlikuju

≑

mnogo

≑ Statistička analiza

I. Matematičko-logički postupak donošenja zaključaka o problemu

Koeficijent varijacije

istraživanja, na osnovu rezultata adekvatno odabranih i pravilno

I. Relativna mjera varijabiliteta, omogućava poređenje varijabilnosti različitih

primjenjenih specifičnih statističkih m etoda

obilježja kao i istih obilježja sa različitom aritimetičkom sredinom II.

Apsolutna tačnost statističkih zaključaka je nemoguća, zato se mora

II.

Dobija se kao količnik standardne devijacije i aritimetičke sredine:

    

utvrditi stepen sigurnosti, odnosno greške III. Vjerovatnoća sigurnosti: minimalna vjerovatnoća koja podržava doneseni

A. k oeficijent varijacije je standardna devijacija izražena u procentima

zaključak. Naspram nje je vjerovatnoća greške – maksimalna vjerovatnoća

aritimetičke sredine

dopustive greške u zaključivanju. Zajedno čine 1, odn. 100%

III. CV se koristi i kao mjera homogenosti skupa; homogenost je veća ukoliko

IV. Minimalni nivo značajnosti u medicini je 0,95 → maksimalna greška 0,05.

je CV manji A. smatra se da je pojava homogena ako je

Drugi definisani nivo značajnosti je 0,99, odnosno maksimalna greška 0,01

 , u suprotnom je

A. To znači da, sa nivoom značajnosti od 0,05, postoji šansa od 5% da

heterogena

izvedeni rezultati istraživanja nisu tačni

IV. CV se upotrebljava u slučaju kada se želi utvrditi:

≑

V.Dva tipa statističke analize:

u kom obilježju neka grupa varira više a u kom manje

A.

A. procjena parametara osnovnog skupa preko ispitivanja uzorka.

B. koja grupa više varira a koja manje po jednom obilježju

Interval povjerenja govori o pouzdanosti procjene

z vrijednost

B. ispitivanje hipoteze o uočenoj pojavi. Provjerava s e njena istinitost za

I. z vrijednost: Odstupanje vrijednosti od aritimetičke sredine iskazano u standardnim devijacijama:

određeni nivo značajnosti . Postupkom provjere istinitosti se procjenjuje

  ̅ 

1. značajnost sličnosti oblika raspodjel a 2. značajnost razlike

II. z vrijednost je pokazatelj relativne pozicije vrijednosti u skupu III. Kad je z negativno, onda je vrijednost manja od aritimetičke sredine, a

kada je pozitivna, onda je veća od a.s.

≑ Poređenje varijabiliteta

I. Procjena varijabiliteta se vrši na osnovu odnosa aritimetičke sredine i standardne devijacije. Za odnos varijabiliteta dvije pojave, razlikuju se

sledeće situacije:

      – varijabilitet je isti     – varijabilitet je manji tamo gdje je manja B.   

A.

≑

3. značajnost paralelizma (povezanosti, zavisnosti) Ispitivanje hipoteze I. Postupak provjere istinitosti n aučne pretpostavke o pojavi koja se ispituje

Definišu se dvije, suprotne hipoteze: alternativna – H1 i nulta – H0. Počinje

II.

se sa prepostavkom da je nulta hipoteza tačna III. Nulta hipoteza tvrdi da je proučavana pojava nasumična i da nije

značajna, i na osnovu nje se provjerava validnost alternativne hipoteze IV. Hipoteze se mogu formulisati: A. dvosmjerno: nije bitan smjer variranja, bitno je samo da li se vrijednost

standardna devijacija, i obrnuto

C.

devijacija, i obrnuto

D.

≑

razlikuje od očekivane (npr. H 0: pušenje ne utiče na i ncidenciju raka

      – varijabilitet je veći tamo gdje je manja standardna       – može se izračunati CV i z vrijednost, tamo gdje su oni manji, manji je i varijabilitet

Mjere oblika raspodjela frekvencija

pluća) B. jednosmjerno: uzima se u obzir smjer variranja (npr. H 0: pušenje ne

utiče, ili umanjuje incidenciju raka pluća) V.Bira se nivo značajnosti, odnosno, bira se vjerovatnoća greške prve vrste



( ), na osnovu prirode ispitivane pojave

I. Raspodjele frekvencija mogu biti simetrične i deformisane A. Simetrična distribucija frekvencija se karakteriše nagomilavanjem

vrijednosti oko aritimetičke sredine/simetričnim, postepenim padom učestalosti lijevo i desno od aritimetičke sredine B. Deformisana dist ribucija može biti: 1. asimetrična/nagnuta na jednu stranu a. nagnuta negativno (ispod aritimetičke sredine)/iskošena udesno b. nagnuta pozitivno (iznad a.s.)/iskošena ulijevo

oblasti odbacivanja nulte hipoteze, dvosmjerno

≑ Greške u zaključivanju

I. Pošto se statistički zaključci baziraju na uzorku, pri ispitivanju hipoteza

postoji mogućnost greške. Procjena ispravnosti hipoteza zato ima 4 ishoda:



A. prihvaćena tačna H 0 (1- ) 2. spljoštena/izdužena (kurtosis)

 odbačena pogrešna H (  ) odbačena tačna H () – greška I vrste

B. prihvaćena pogrešna H 0 ( ) – greška II vrste

a. vertikalno spljoštena, platikurtosis (niska, široka rasp odjela)

C.

b. bočna spljoštenost, leptokurtosis (visoka, uska raspodjela)

D.

0

0



Što je veća , veća je šansa da će biti prihvaćena alternativna hipoteza, ali

II.

1. matematička – odnos broja očekivanih ishoda sa ukupnim brojem

i veća šansa da će biti odbačena tačna nult a. Istraživač direktno bira ovu

mogućih ishoda a. za pismo, broj mogućih ishoda je 2 (glava/pismo), a očekivan

vrijednost III.

, sa druge strane, je pod uticajem više faktora:

je 1 (pismo) 2. statistička/empirijska – vjerovatnoća dobijena posmatranjem više

A. stvarna vrijednost parametra uzorka B.



istih događaja i bilježenja rezultata

C. veličina uzorka

a. baca se 100 novčića, i bilježi koliko je palo glava, a koliko

pisama (npr 54 glave/46 pisama → 54% šansa za glave, 46%

D. smjer procjene ispravnosti hipoteze

 i  se, stoga, ne dopunjuju do 1, v eć, iako smanjenje  povećava šansu za , povećanje uzorka je smanjuje, tako što smanjuje standardnu grešku

šansa za pisma)

IV.

b. što se više događaja posmatra, statistička vjerovatnoća se

više približava matematičkoj (npr. 1000 bacanja novčića →

(SE ) V.Jednosmjerno testiranje hipoteza takođe smanjuje šan su za nastanak

≑ Jačina, efikasnost i osjetljivost metoda



51% glava, 49% pisma) B. subjektivna: lično uvjerenje o vjerovatnoći nekog događaja , bazirano



na ličnom iskustvu i znanju

I. Jačina metoda ( ) je maksimalna mogućnost metoda da garantuje tačnost

V.Događaji mogu po zavisnosti biti:

zaključka

A. nezavisni: vjerovatnoća jednog događaja ne zavisi od drugog (npr.

A. komplementarna je beti →

          II.

bacanje dva novčića) B. zavisni: da bi se jedan događaj desio, mora da se desi neki drugi

Efikasnost metoda je relativna jačina metoda. Dobija se poređenjem

jačine jednog metoda sa standardom. Ukoliko je efikasnost >1, prvi metod je

događaj prije njega (npr. bacanje jednog novčića tako da prvo padne

efikasniji od standarda

glava, pa pismo) VI. Događaji mogu po isključivosti biti:

III. Osjetljivost/robusnost metoda pokazuje ponašanje metoda u usl ovima

A. isključivi: događaji koji se ne mogu desiti istovremeno (ne može

različitog stepena narušenosti pretpostavki o uzorku(normalnost,

istovremeno da padne i glava i pismo b acanjem jednog novčića)

homogenost, simetričnost itd.)

≑ Analitički metodi

B. neisključivi: događaji koji se mogu desiti istovremeno (osoba ima cirozu jetre, osoba ima hepatitis B)

I. Specifični statistički metodi koji se koriste u statističkoj analizi II.

VII. Zakon adicije:

Postoje dvije glavne vrste:

A. ako su 2 događaja isključiva: vjerovatnoća da će se desiti jedan ili

A. parametarski: zahtijevaju poznavanje ra spodjele učestalosti uzoračkog

drugi događaj je jednaka zbiru vjerovatnoća jednog i drugog

skupa i mogućnošću izračunavanja parametara

     

1. primjeri parametara: aritimetička sredina, varijansa, standardna

B. ako 2 događaja nisu isključiva : vjerovatnoća da će se desiti jedan ili

devijacija… 2.osnovni zahtjev jeste homogenost (

 ), ukoliko je uzorak

drugi događaj je jednaka zbiru jednog i drugog, minus vjerovatnoća da

će se desiti oba zajedno

jako mali

         

3. članovi: a. z test

VIII.Zakon multiplikacije: vjerovatnoća da će se dva nezavisna događaja oba

b.t test

dogoditi (npr. da će u jednom danu u ordinaciju ući alkoholičar i trudnica)

je jednaka proizvodu vjerovatnoća ta dva događaja:

B. neparametarski: mogu se primjenjivati u svim empirijskim situacijama,

   

a ukoliko je nemoguće iskoristiti parametarski metod, onda je i

A. Ukoliko su događaji zavisni, jedan događaj je nezavistan, a drugi je

obavezna

zavistan od pojave prvog (npr. ciroza jetre je zavisna od pojave

1. parametarski metodi su jači, tako da njih treba koristiti kada je

hepatitisa B). Prvo se mora znati vjerovatnoća pojave zavisnog

moguće

događaja ukoliko se ostvari nezavisni( P(zavisni|nezavisni)), pa se onda

2.dijele se na dvije podgrupe:

ona množi sa vjerovatnoćom pojave nezavisnog:

a. oni koji procjenjuju empirijske učestalosti: i.

   



1. BTW to znači da je vjerovatnoća zavisnog događaja ako se ne

ii. Fišerov test tačne vjerovatnoće

dogodi nezavisni = 0

iii. MekNemarov test

2. BTW2 relativna vjerovatnoća je vjerovatnoća pojave zavisnog

b.oni koji procjenjuju rangovne vrijednosti i. test ekvivalentnih parova ii. test sume rangova iii. test predznaka III. Za procjenu oblika povezanosti/zavisnosti se koristi linearna regresija IV. Za procjenu jačine povezanosti se koriste: A. parametarski: Pearsonov linearni koeficijent korelacije B. neparametarski: Spearmanov koeficijent korelacije rangova

≑ Vjerovatnoća

I. Teorija vjerovatnoće se bavi vjerovatnim/slučajnim događajima II.

Slučajni događaj je događaj koji se u datim uslovima može očekivati, ali se

ne mora nužno ostvariti; sigurni/nužni događaj se mor a ostvariti A. Bačen novčić mora pasti na zemlju pod u ticajem gravitacije (nužni

događaj), ali ne mora nužno da padne pismo (slučajan događaj) III. Vjerovatnoća: mjera šanse da se dogodi sl učajni događaj. IV. Vjerovatnoća može biti: A. objektivna:

≑

ukoliko se ostvari nezavisni događaj Teorijske raspodjele I. Matematički modeli raspodjela vjerovatnoća II.

Formiraju se primjenom teorije vjerovatnoće na složene slučajne

događaje III. Složeni događaj znači da se više događaja uzima u obzir (više bacanja

novčića, više ispitanika) IV. Teorijske raspodjele mogu biti: A. kontinuirane – kada su “glatke” na grafiku 1.normalna raspodjela 2.t 3.hi-kvadrat B. diskontinuirane – kada postoje definisane cjelobrojne vrijednosti 1.binomna raspodjela V.Prikaz vjerovatnoća može biti:

A. parcijalan – za svaku pojedinačnu vrijednost na



 osi se pridružuje

VI. Idealne zamišljene raspodjele koje služe za idealizovanje realnih

njena vjerovatnoća na osi

podataka, čime se onda lakše dolazi do statističkih zaključaka. Jako bitno da



B. kumulativan – vjerovatnoća svake sledeće vrijednosti na osi je zbir

realni podaci koliko-toliko odgovaraju izabranoj teorijskoj raspodjeli, inače

svih prethodnih (dobija se neminovno rastući grafik)

≑

zaključci doneseni na osnovu neodgovarajuće raspodjele mo’š bačit’

III. Standardna devijacija se nalazi na prevojnoj tački krive iz konveksiteta u konkavitet

Binomna raspodjela

IV. Površina između

I. Diskretna raspodjela vjerovatnoće broja očekivanih ishoda (uspjeha, p)

vjerovatnoći svih mogućih ishoda

naspram suprotnog ishoda (neuspjeha, q) II.

Njeni parametri su proporcija p (vjerovatnoća očekivanog ishoda) i n

V.Iako je definisana od

III. Koristi se za dvije mogućnosti, očekivani ishod (vjerovatnoća p), i

pa i prekidne VI. Glavni razlog zašto je toliko korisna je centralna granična teorema, koja

suprotni ishod (vje rovatnoća q) i izračunava se na sledeći način:

     dakle, , koja se crta na  osi na grafiku, označava vjerovatnoću da će  prostih ishoda biti očekivani ishod

B. pošto ne može da se desi pola ili 1/3 prostog ishoda, bino mna

≑

≑

nema, normalnu raspodjelu t raspodjela [nije ispitno pitanje]

II.

I. Oblika famozne Gausove krive, dobija se tako što se realna kriva “pomjeri”

,

po sledećoj formuli ( z vrijednost):

  ̅ 

A. ovo se zove standardizacija, čime se omogućava poređenje vrijednosti,

npr. generalizaciju na čitavu populaciju zaključaka dobijenih na uzorku Za normalnu raspodjelu, aritimetička sredina, medijana i mod imaju istu

vrijednost

sve više da liči na normalnu raspodjelu, iako uzoračka raspodjela ne mora, i

normalnoj raspodjeli dovoljno dobro

Normalna raspodjela

II.

kaže: što je veći broj uzoraka, distribucija aritimetičkih sredina uzorka će

I. Kada je broj jedinica posmatranja jako mali, distribucija uzorka ne odgovara

raspodjela je prekidna/diskretna

tako da aritimetička sredina pada na 0, a standardna devijacija postaje

 do , na rastojanju od 3 sd se nalazi 99,74%

površine, što joj omogućava da se koristi aproksimacija za druge raspodjele,

(broj prostih ishoda), što potpuno definiše binom

A.

 ose i krive je jednaka 1, što je jednako ukupnoj

Tada se koristi t raspodjela, koja uklju čuje dodatnu varijablu: stepen

slobode, koji zavisi od broja jedinica posmatranja:



III. Za razliku od normalne raspodjele, t raspodjela je u stvari grupa krivih,

koje su sve spljoštenije, što je DF manje. Obrnuto, veće DF znači da je t raspodjela približnija normalnoj

≑  raspodjela [nije ispitno pitanje]

I. Ako standardnu devijaciju normalne raspodjele kvadriramo (to je

  raspodjelu:    

varijansa) i nacrtamo grafik, dobijamo

A. navedena formula služi za upoređivanje uzork a i populacije, gdje nam

 govori da li ćemo da prihvatimo nultu hipotezu ili ne, na osnovu izabrane značajnosti ( ). Ima tablica za te stvari. dobijena vrijednost

≑

Uzorak (Reprezentativni metod u knjizi) I. Metod koji omogućava da se do željenih saznanja dođe ispitivanjem dijela (uzorka) osnovnog skupa II.

Uzorak je reprezentativni skup podskup osnovnog skupa

:D

III. Da bi uzorak bio reprezentativan, mora biti slučajan. Postoji više načina formiranja uzorka: A. prost slučajan: svaka jedinica osnovnog skupa mora da ima jednaku

mogućnost da postane dio uzorka. Svaka pristrasnost smanjuje tu IV. Pošto uvodi novu v arijablu, DF , onda se statistički zaključak izvodi slično

mogućnost za neke jedinice

kao z test, ali se u tablici traži po odgovarajućem nivou značajnosti i

1. metoda kojom se postiže slučajnost jeste softverski random

odgovarajućem DF

number generator , ili kako se to radilo prije 100 godina: tablica

slučajnih brojeva B. sistematski uzorak: sa liste jedinica se uzme dio jedinica po nekom sistemu (npr. iz telefonskog imenika se zove svaki 10. broj za anketu).

≑ Neparametarski metodi za ispitivanje razlike [obuhvata sledećih 6 pitanja] I.

Bitno je da je početak odabiranja slučajan (telefonski i menik se otvori

II.

na slučajnoj strani)

III. Medijan test

C. stratifikovan uzorak: 1.prvo se s kup podjeli na stratume kao što su starosne grupe ili pol

V.Test ekvivalentnih parova

2. onda se vadi uzorak preko prostog slučajnog ili sistematskog

VI. Test sume rangova

IV. Mali uzorci su oni sa

30 jedinica, a veliki sa više od 30

≑

V.Preciznost: mjera odstupanja ocjene iz uzorka od teoretske vrijednosti

I. Neparametarski metod za procjenu značajnosti razlike

III. Prihvata i atributivne i numeričke podatke, ali se numerički moraju

= 2,58

grupisati u intervale, čime se gubi dio informacija

 

A. Ako više od 20% intervala ima manje od 5 vrijednosti, onda se moraju

A. za mali broj uzoraka se koristi t vrijednost i tablice t testa

sažimati

Parametarski metodi za ispitivanje razlike [obuhvata sledeća 2 pitanja]

IV.

  distribucija nije simetrična, tako da se kod dvostranog testiranja

moraju posebno izračunavati, preko različitih tablica

I. z test t test

1.BTW ne zahtijeva poznavanje distribucije podataka, i najbolje se

osjeća kada se statistički parametri ne mogu ni izračunati (npr.

z test

ordinalni po daci, ne možeš izvući aritimetičku sredinu iz “ima

I. Baziran na karakteristikama standardne normalne raspodjele i standardne

erektilnu disfunkciju” i “nema erektilnu disfunkciju”)

z vrijednosti II.

Parametarski metod za procjenu značajnosti razlike

V.Postoje dvije glavne grupe situacija u kojima se koristi ovaj test

III. Služi za procjenjivanje značajnosti razlika par ametara – homogenih

A. procjenjivanje značajnosti razlike učestalosti jednog obilježja

vrijednosti jedinica posmatranja dvije grupe podataka

posmatranja B. procjenjivanje značajnosti razlika učestalosti dva nezavisna obilježja

IV. Koristi se za kvantitativne podatke V.Zahtijeva poznavanje standardne devijacije osnovnog skupa ili uzroka sa

posmatranja, i prezentuju se u tablicama kontingencije

kojim se upoređuje VI. Izračunava se:

1.tablice kontingencije su složene kombinovane tabele koje

prikazuju opažene/empirijske učestalosti na osnovu dva obilježja.

  ̅ ̅ 

Strukturno obilježje

̅  ̅ – razlika aritimetičkih sredina uzoraka koji se VII. Statistički zaključak se donosi poređenjem empirijske i teoretske

I gradacija II gradacija

vrijednosti z testa. Teoretska vrijednost zavisi od izabranog nivoa

Ukupno

upoređuju (ili uzorka i osnovnog skupa)

značajnosti, kao i smjera procjene testa (dvosmjeran/jednosmjeran). Za

≑

Može se koristiti na jednom ili više obavezno nezavisnih uzoraka

(MakNemarov je za zavisne)

standardne greške ( SE ). z vrijednost je za nivo značajnost 0,05 = 1,96 i 0,01

≑

 test (da, Pearson-ova je i linearna korelacija, jebe mu se)

Pearson-ov

II.

dobijene mjerenjem os novnog skupa. Određuje se preko z vrijednosti i

II.

Test tačne vjerovatnoće

IV. MekNemarov test

uzorkovanja

≑

  test

Otprilike z test za male uzorke (<30), dijeli njegove karakteristike: A. parametarski metod za procjenu znača jnosti razlike

c

d

c+d

a+c

b+d

a+b+c+d =n

a+b

VI. Formula iznad uključuje tzv. Yates-ovu korekciju za kontinuitet, koja je

B. služi za procjenjivanje značajnosti razlika parametara – homogenih

D. izračunava se isto

Ukupno

  vrijednosti za 2x2 tabelu je:          

I. Bazira se na t raspodjeli, a inače je isti kao i z test

C. koristi se za kvantitativne podatke

II gradacija b

2. formula za izračunavanje

t test

vrijednosti jedinica posmatranja dvije grupe podataka

I gradacija a

tabele mogu imati i više vrijednosti, ali je 2x2 najčešća

      a za       II.

Funkcionalno obilježje

≑

neophodna za DF =1 Fisher-ov test tačne vjerovatnoće I. Koristi se kad

  ne može:

A. ako je 20%+ učestalosti manje od 5 (za 2x2 tabelu bar jedna)

III. Sad pričaš t raspodjelu

B. ukupna učestalost <20 II.

Koristi takođe 2x2 tabelu kontingencije

III. Izračunava se tačna vjerovatnoća, na sledeći način:

a. ako je razlika 0, zanemari tu vrijednost

           

D.

A. Ne viče, “!” znači faktorijel (BTW 0!=1, 1!=1)

teorijska vrijednost iz tablice), prihvata se alter nativna hipoteza. U

  , prihvata se nulta hipoteza, u su protnom, istraživanje je uspjelo.  se,

B. Nema tablica, P se upoređuje sa nivoima značajnosti, pa ako je

≑

suprotnom, ostaje nulta IV. Teorijska vrijednost se dobija po tablici na osnovu sledećih parametara:

kada se koristi ovaj test, uzima dosta strožije: 0,025 i 0,005 jer zato .

A. broj jedinica posmatranja

Medijan test I. Neparametarski test, varijacija na temu na temu II.

B. izabrani nivo značajnosti

  (svi neparametarski su varijacija

 , jebeni matematičari nemaštoviti)

Ne treba joj normalnost, simetričnost, raspodjela, isto kao ni

C. izabrani smjer testa (jednosmjerni, dvosmjerni) V.Osim izračunavanja empirijske i teorijske vrijednosti, ovaj test može da se



koristi i za određivanje smjera i veličine promjene (ako je

III. Prave se tablice, ali tako da se za redove (strukturne gradacije) uzimaju normalno gradirane grupe kao na

∑ ) poredi se sa teorijskom vrijednošću, i ako je ∑  ∑ (∑ je

C. manji od dva zbira je empirijska vrijednost testa (

negativnih vrijednosti, onda je smjer negativan i obrnuto)

 , dok se za kolone (funkcionalne

VI. Postoji i fora da ako je broj uzoraka n > 2 5 da se umjesto jednostavnog

gradacije) uzimaju samo dvije grupe, na sledeći način:

sličnija raspodjela normalnoj):

vrijednosti koje su jednake medijani B. dalje se podijeli skup na vrijednosti manje i veće o d medijane, čije se onda frekvencije ubace u kolone, like so:

Funkcionalno obilježje

obilježje I gradacija II gradacija

≑

IV. Onda sve isto kao sa

Ukupno

< med a

> med b

c

d

c+d

a+c

b+d

a+b+c+d =n

Ukupno

a+b

≑

otkrićem. Bitna činjenica II.



III. Glavna pretpostavka ovog testa je da su oba uzorka iz jednog osnovnog

skupa, što bi značilo da imaju iste medijane. To je nulta hipoteza → značajno odstupanje medijane jednog uzorka od drugog podrazumijeva tačnost

Diskordantni parovi su parovi koji se mijenjaju u vremenu, ostali su, jel,

alternativne hipoteze

nediskordantni. Ovako:

IV. Takođe se rangira, ali na malo drugačiji način: Drugo mjerenje + a (++) b (+-) c (-+) d (--)

Ukupno

a+c

b+d

Ukupno

A. uzimaju se vrijednosti iz oba uzorka i zajedno rangiraju

a+b c+d a+b+c+d =n

B. rangirane vrijednosti se ponovo vrate svojim uzorcima

 i ):                  

C. određuje se U za oba uzorka (

A. Kao što se da vidjeti, b i c su se mijenjali između mjerenja ili štagod u

istraživanju, tako da su to diskordantni parovi III. Formula:

  I sa Yates-ovom korekcijom (isto kao kod pogodi kog testa):        

D. Manje U od ta dva se onda upoređuje sa kritičnom vrijednošću iz tabele

 

IV.

≑

Wilcoxon-ov test ekvivalentnih parova

E. I ovdje možemo da se izdrkavamo ako je manje n veće od 8, i koristimo z tabelu kao u testu ekvivalentnih parova, ali tu zajebanciju ostavljam

≑

čitaocu na maštu Ispitivanje paralelizma [nije ispitno pitanje opusti se] I. Svi testovi do sada su tražili razliku, ovi traže

sličnost /asocijaciju/povezanost

I. Neparametarski metod za procjenu značajnosti razlike II.

Isto što i test ekvivalentnih parova, ali za nezavisne podatke A. analitički neparametarski metod za procjenu značajnosti razlike

uzorci), ovdje nazvane diskordantni parovi

Prvo mjerenje + -

Mann-Whitney U test sume rangova

nazove po sebi, v eć ga je prepustio kolegama koji su kasnili dvije godine sa

 za zavisne, vezane uzorke (npr. jedan uzorak kroz vrijeme, ili mečovani

II.

1. mda…

     ∑    

I. Wilcoxon je prvi izmislio i ovaj test, ali nije bio peder kao Pearson da ga isto

MekNemarov test I.

∑  ∑ , koristi sledeća formula (što više uzoraka,

upoređivanja da li je

A. izračuna se zajednička medijana, a onda se iz skupa izbace sve

Strukturno

∑ od

Koristi se za zavisne podatke, kao što je npr. bol prije i posle uzimanja

II.

Dvije varijable su povezane ako promjena jedne (nezavisne) utiče na

promjenu druge (zavisne)

lijeka III. Koristi se rangiranje rezultata da bi se dobila empirijska vrijednost testa,

III. Povezanost može biti: A. direktna/pozitivna: jedna raste, druga raste

na sledeći način: A. razlike između vrijednosti prije i posle tretmana/prvog i drugog mjerenja se rangiraju po svojim apsolutnim vrijednostima (nebitan

B. recipročna/negativna: jedna raste, druga pada IV. Oblik slaganja može biti: A. pravolinijski: definiše se jednačinom prave ili štagod

predznak) – radni rang B. znakovi se onda vraćaju, i sabiraju se istoznačn i rangovi 1. ukoliko ima više istih vrijednosti, sve dobijaju isti rang koji je

B. krivolinijski: linija talasa V.Uočavanje povezanosti je obično odokativno: napravi se dijagram

jednak aritimetičkoj sredini ranga prije izjednačavanja. Da

rasturanja, ili scatter plot: sv aka tačka ima x poziciju (nezavisna varijabla ) i

nacrtam:

y (pretpostavljena zavisna varijabla)

prije

posle

razlika

radni rang

1 1 3 2 2

3 2 5 3 -2

+2 +1 +2 +1 -4

|3| |1| |4| |2| |5|

rang (Rd) +2,5 +1,5 +2,5 +1,5 -3

2. dakle, sve se vrijednosti poređaju, pa se za iste uzme srednja

vrijednost i to je rang (“radni rang” sam izmislio da bih objasnio suštinu)

3. korelacija je “jaka” ako je r veće od 0,70, iznad 0,40 je “umjereno

jaka”, a ispod nije dovoljna. Ovo ide u oba pravca (-0.80 i +0,80 su podjednako jake) IV. Mi vidimo liniju iz tačaka, ali to nije to ako ne postoji još jedna formulica

koja će to da ozvaniči:

   

b – tangens ugla koji linija regre sije zaklapa sa x osom bla bla truć truć A. Šta je bitno: ova linija nam omogućava ne samo crtanje linije preko

postojećih podataka, nego i ekstrapolaciju (izvođenje) na nove događaje! Jednostavno je: zamisli da auto ide po grafiku, ⇗, prati liniju. Stiže do kraja linije, ali ne koči. Kuda će nastaviti?! Pa istim putem, nastavljajući zamišljenu liniju u beskonačnost. Specijalan slučaj te

analiza nedvosmisleno kaže: što mlađe to slađe

≑

VI. Povezanost ima tri karakteristike A. smjer: ispituju ga korelacione i regresione metode

regresije je: Linearni trend



I. Kada je osa vrijeme (minut, dan, godina), a regresija linearna

B. jačina: ispituju ga korelacio ne metode

II.

C. oblik: ispituju ga regresione metode

ekstrapolira taj trend u budućnost

VII. Kao i kod ostalih testo va, neparametarski se koriste za heterogene

≑

Nastaje kao i linija regresij e, iz postojećih podataka, i onda se

A. npr. poslednjih 10 godina konstantno raste godišnji broj

uzorke, a parametarski za homogene

kardiovaskularnih oboljenja za recimo 5%. Koliko će procenata porasti

Jednostruka linearna povezanost (Pearson-ov linearni koeficijent korelacije)

≑

I. Ispituje jačinu linearne povez anosti dvije promjenljive: nezavisno



promjenljive i zavisno promjenljive II.



Napravi se scatter plot i prvo uoči da li postoji sumnja na korelaciju

taj broj u 2015.? Jako komplikovano Spearman-ova korelacija ranga I. Neparametarska metoda za određivanje korelacije II.

A. ako pravi kao liniju koja ide od dole lijevo ka gore desno (kao /), onda

Manje pouzdana, tako da se koristi u sledećim slučajevima A. podaci su neparametarskog karaktera

postoji šansa da je pozitivna kor elacija

B. podaci su heterogeni

B. ako je linija suprotna (\), onda je vjerovatno korelacija negativna C. može biti i bezveze, kada nema korelacije

III. Da bi se izračunala, podaci se moraju prvo rangirati: A. pravila ista kao i za ostal e rangirane testove, dobija se

III. Pošto je sve to u stvari bullshit, sada se vadi formula:

IV.

      ∑   ̅ 

∑

 je Spearman-ov koeficijent korelacije ranga, koji se dobija na sledeći

način:

     ∑        

A. r je Pearson-ov koeficijent korelacije, i ima određene karakteristike

A. d je diferencija, i označava razliku između rangova upoređenih

1. uvijek je između -1 i 1

vrijednosti 2 uzorka

2.ako je blizu 1, onda je korelacija pozitivna, a kod -1 negativna

V.Može da isprati i nelinearne korelacije, što je +

Srđan Pandurević, februar 2015.

Statistika Po Ispitnim Pitanjima - Pandurevic

Recommend Documents