7. Metode za testiranje hipoteze Statističke metode (testovi) za testiranje hipoteze mogu da se podele u dve grupe: parametarske i neparametarske. Osnovna pretpostavka za parametarske testove je da je poznata raspodela populacije, za razliku od neparametarskih testova koji ne uzimaju u obzir tip raspodele. I parametarski i neparametarski testovi mogu da se koriste za testiranje hipoteze za jednu, dve ili više populacija.
Testovi za jednu populaciju
1. TESTIRANJE HIPOTEZE ZA SREDNJU VREDNOST JEDNE POPULACIJE
Testiranjem hipoteze za srednju vrednost jedne populacije dokazujemo da li uzorak čija je srednja vrednost x potiče iz populacije čija je srednja vrednost µ. U tu svrhu koristimo z-test i Studentov t-test, a razlika između ova dva testa je u tome što se z-test primenjuje kada je poznata standardna devijacija (σ) populacije, a t-test kada standardna devijacija populacije nije poznata. I za jedan i za drugi test je osnovna pretpostavka da su podaci normalno norm alno distribuirani. Z-TEST
Kao što je ve ć re čeno, z-test se koristi kada je poznata standardna devijacija populacije σ i kada su podaci normalno distribuirani. Ako je zaklju čak z-testa da se nulta hipoteza prihvata, to znači da postoji velika verovatnoća da uzorak čija je srednja vrednost vrednost x potiče iz populacije sa srednjom vrednošću µ, odnosno da razlika između x i µ nije statisti čki značajna. U suprotnom, uzorak sa srednjom vrednošću x ne poti potiče iz populacije sa srednjom vrednošću µ i razlika između x i µ je statistički značajna. z-Test može da se primeni kao jednostrani i kao dvostrani, a izraz za izračunavanje vrednosti z glasi: x−µ z= σ
N Dvostrani z-test PRIMER 1. Deklarisana težina kutija sa čajem je 300 g, a merenjem 25 kutija dobijena je srednja
vrednost x = 305,4 g. Od ranije je poznato da je standardna devijacija za ovu populaciju σ = 15 g. Ako želimo da testiramo hipotezu da je izra čunata srednja vrednost (srednja vrednost uzorka x ) jed-
7-2
Statistika u farmaciji
naka deklarisanoj vrednosti (srednja vrednost populacije µ), postavi ćemo sledeću nultu i alternativnu hipotezu: H0 : µ = 300 , odnosno H1 : µ ≠ 300. 1 Odabrani nivo značajnosti je α = 0,05, a kada ove podatke uvrstimo u izraz za z dobijamo: x − µ 305,4 − 300 5,4 = = = +1,80 z= σ 15 3 N 25 Koristeći tablicu standardizovane normalne raspodele vidimo da su granične vrednosti z koje odvajaju po 0,025 delova površine sa jedne i druge strane krive (regioni za odbacivanje hipoteze) jednake +1,96 i –1,96, iz čega proizilazi da se vrednost z = +1,80 nalazi u regionu za prihvatanje hipoteze. Drugim rečima, donosimo odluku da se nulta hipoteza prihvata za odabrani nivo zna čajnosti, a zaključak je da ima dovoljno dokaza da je izra čunata srednja vrednost uzorka jednaka srednjoj vrednosti populacije µ = 300 g (odnosno, kutije sa čajem imaju traženu težinu). Odbacuje se H0
Odbacuje se H0
0,025
0,025
-1,96
0
1,96
z
z = + 1,80
Vrednost p koja odgovara izračunatoj vrednosti z je p(z ≤ -1,80 i z ≥ 1,80) = 0,1336. Do ove vrednosti se dolazi tako što se u tablici standardizovane normalne raspodele prona đe vrednost za površinu levo od vrednosti z = -1,80, što iznosi 0,0359 i desno od z = +1,80, što iznosi 1 – 0,9647 = 0,0359. Sabiranjem ove dve površine (jer se radi o dvostranom testu) dobija se vrednost p = 0,0718, koja predstavlja verovatnoću za ovaj primer. Kako je p = 0,0718 ≥ α = 0,05, nulta hipoteza se prihvata. 1/2 p-vrednosti = 0,0359
1/2 p-vrednosti = 0,0359
odbacuje se
odbacuje se
1/2 α = 0,025
1/2 α = 0,025 -1,80
0
+1,80
z
Izračunata z vrednost
Iz ovog primera se vidi da se kod dvostranog z testa nulta hipoteza prihvata ako je izračunata vrednost z između kritičnih vrednosti za izabrani nivo značajnosti α (manja je po apsolutnoj vrednosti od kritičnih vrednosti), odnosno ako je dobijeni nivo značajnosti p veći od izabranog nivoa značajnosti α. Jednostrani z-test
I kod jednostranog, kao i kod dvostranog z-testa osnovna pretpostavka je da je raspodela normalno distribuirana i da je poznata varijansa populacije. Nulta hipoteza ima znak ≤ ili ≥, a alternativna
1
U nultoj i alternativnoj hipotezi su µ i 300 (a ne x i 305,4), zato što testiramo hipotezu da li je srednja vrednost populacije µ jednaka očekivanoj vrednosti 300, a to radimo koristeći uzorak.
7-3
S. Spasi ć
znak > ili <. Za izračunavanje z koristi se izraz koji je već naveden, a nulta hipoteza se prihvata ako je: kod desnostranog testa izračunato z manje od kritične vrednosti koja odvaja region za odbacivanje od regiona za prihvatanje, za odabrani nivo zna čajnosti i kod levostranog testa ako je z veće od kritične vrednosti koja odvaja region za odbacivanje od regiona za prihvatanje, za odabrani nivo značajnosti. PRIMER 2. Koristeći podatke iz Primera 1. možemo da testiramo hipotezu da je dobijena srednja vrednost težine sa čajem veća od deklarisane i u tom slučaju postavićemo sledeću nultu i alter-
nativnu hipotezu: H0 : µ ≤ 300 , odnosno HA : µ > 300 2. Odabrani nivo značajnosti je i u ovom slu čaju α = 0,05, a koristeći gornji izraz dobijamo istu vrednost z kao i u Primeru 1.: x − µ 305,4 − 300 5,4 = = = +1,80 z= σ 15 3 N 25 Kod jednostranog testiranja hipoteze cela površina regiona za odbacivanje hipoteze nalazi se sa jedne strane raspodele, u ovom slučaju sa desne. Koristeći tablicu standardizovane normalne raspodele vidimo da je granična vrednosti z koja odvaja 0,05 delova površine sa desne strane raspodele (region za odbacivanje hipoteze) jednaka +1,645 , iz čega proizilazi da se vrednost z = +1,80 nalazi u regionu za odbacivanje hipoteze. U ovom slu čaju donosimo odluku da se nulta hipoteza ne prihvata za odabrani nivo značajnosti, a zaključak je da nema dokaza da je izračunata srednja vrednost manja ili jednaka srednjoj vrednosti populacije µ = 300 g (odnosno kutije sa čajem imaju značajno veću težinu od očekivane). Odbacuje se H0
0,05
0
z
+1,645
z = + 1,80
Vrednost p koja odgovara dobijenoj vrednosti z je p(z ≥ 1,80) = 0,0359. Do ove vrednosti se dolazi tako što se u tablici normalne raspodele pronađe vrednost za površinu desno od z = +1,80 što iznosi 1 – 0,9647 = 0,0359. Kako je p = 0,0359 < α = 0,05, nulta hipoteza se ne prihvata. p-vrednosti = 0,0359 odbacuje se H0 α=
0
0,05
+1,80
z
Izračunata z vrednost
2
Potrebno je pokazati da li je težina kutija sa čajem veća od 300 g, pa znak > ide u alternativnu hipotezu, a u nultu hipotezu znak ≤ , jer nulta hipoteza podrazumeva da razlike nema, odnosno u ovom slučaju da je težina jednaka ili manja od 300 g.
7-4
Statistika u farmaciji
Kao zaključak može da se kaže da se u ovom primeru nulta hipoteza ne prihvata zato što je izračunata vrednost z veća od kritične vrednosti z za izabrani nivo zna čajnosti α = 0,05, odnosno zato što je izračunati nivo značajnosti p manji od izabranog nivoa značajnosti α = 0,05. STUDENTOV T-TEST
Teorija normalne raspodele je razvijena iz velikog broja podataka i ne može da se primeni kada je uzorak mali. Kako prakti čnim radom često ne može da se dobije veliki broj podataka, primena statističkih testova baziranih na normalnoj raspodeli dovešće do pogrešnih zaključaka. Ovo je uočio irski hemičar W.S.Gosset, koji je razvio teorijsku raspodelu verovatno će slučajne promenljive t za mali broj podataka uzetih iz normalne raspodele. Svoju teoriju je objavio 1908. godine pod pseudonimom "Student", tako da je ova raspodela nazvana Student-t raspodela. Kada se radi sa malim brojem podataka nisu poznate prave vrednosti populacione standardne devijacije σ i srednje vrednosti µ, tako da se u tom slučaju σ zamenjuje standardnom devijacijom uzorka - Sd, a µ se zamenjuje sa x . U ovom slučaju mora da se koristi nova raspodela koja nije zavisna od σ, a Gosset je pokazao da je ona zavisna samo od broja podataka. Postoji beskonačno mnogo t-krivih i sve zavise od broja podataka. Ako je broj podataka N, onda t-krive identifikujemo preko broja stepena slobode ( φ ili df) koji iznosi N-1. t-Krive za razli čit broj stepena slobode razlikuju se između sebe, ali su sličnog oblika. t-raspodela se približava normalnoj raspodeli kada se povećava broj podataka, a sasvim će se poklopiti kada broj podataka bude beskonačno veliki (sl. 1.). Standardizovana normalna raspodela (t sa df = ) ∞
t (df = 13) t-raspodela je zvonasta i simetrična, ali šira od normalne raspodele
t (df = 5)
0
t
Slika 1. Studentova t-kriva i standardizovana normalna raspodela
Koncept t-raspodele je osnova za sve testove zna čajnosti kojima se upoređuju dve srednje vrednosti dobijene iz malog broja podataka. Kriti čne vrednosti za veličinu t date su u obliku tablice za određeni broj stepena slobode i različite nivoe verovatnoće, a izvedene su na isti način kao i vrednosti u tablici za standardizovanu normalnu raspodelu, odnosno iz površine ispod t-krive. Dvostrani t-test
Kod dvostranog t-testa polazimo od pretpostavke da je raspodela normalno distribuirana i da standardna devijacija populacije nije poznata, tako da se koristi standardna devijacija uzorka. Kod ovog testa nulta hipoteza ima uvek znak =, a alternativna znak ≠. Za izračunavanje t-vrednosti koristi se sledeći izraz: x−µ t= Sd N
7-5
S. Spasi ć
Izračunata vrednost t upoređuje se sa tabličnom za odabrani nivo značajnosti i odgovarajući broj stepena slobode. Broj stepena slobode φ za ovaj izraz jednak je N-1. Ukoliko je izra čunata vrednost t veća od tablične za izabrane kriterijume zaključak je da je razlika statisti čki značajna, odnosno nulta hipoteza se ne prihvata (odbacuje) i obrnuto. PRIMER 3. U leku, čiji je sadržaj aktivne supstance 135 mg (srednja vrednost populacije µ),
određen je sadržaj te aktivne supstance 16 puta. Iz dobijenih podataka izra čunata je srednja vrednost x = 135,8 mg sa standardnom devijacijom Sd = 2,04 mg (srednja vrednost i standardna devijacija uzorka). Pošto nije poznata standardna devijacija populacije, ve ć samo standardna devijacija uzorka, koristimo t-test. Testiramo nultu hipotezu da je dobijena srednja vrednost jednaka očekivanoj vrednosti (srednjoj vrednosti populacije µ). Rešenje: Hipoteza se testira dvostranim testom, pa nulta i alternativna hipoteza glase: H0 : µ = 135 i H1 : µ ≠ 135. Ostali podaci su: φ = 16 – 1 = 15, α = 0,05 , N = 16 , x = 135,8 mg, Sd = 2,04 mg. 135,8 - 135 0,8 t= = = 1,569 2,04 0,51 16 Tablična vrednost t za φ = 15 i α = 0,05 jednaka je 2,131, a kako je izra čunata vrednost t manja, nulta hipoteza se prihvata i zaklju čak je da je dobijena srednja vrednost uzorka jednaka srednjoj vrednosti populacije (ili između dobijene srednje vrednosti i očekivane vrednosti sadržaja aktivne supstance u leku) nema značajne razlike. region za odbacivanje
region za odbacivanje
0,025
0,025
-2,131
0
2,131
t
t = 1,569 Već je ranije re čeno da t-raspodela zavisi od broja podataka, a to se direktno odražava na tumačenje rezultata. Pretpostavimo da je u prethodnom primeru broj podataka bio 36 (umesto 16) i tada bi vrednost t bila jednaka: 135,8 - 135 0,8 t= = = 2,35 2,04 0,34 36 Kritična vrednost t za φ = 35 i α = 0,05 iznosi 2,030, a kako je izra čunata vrednost t ve ća od nje, zaklju čak je da se nulta hipoteza ne prihvata. Iako je izra čunata srednja vrednost ista kao u prethodnom primeru, zaklju čak je suprotan upravo zbog ve ćeg broja podataka.
7-6
Statistika u farmaciji
region za odbacivanje
region za odbacivanje
0,025
0,025
-2,030
0
t
2,030
t = 2,35
Jednostrani t-test
I kod jednostranog, kao i kod dvostranog t-testa osnovna pretpostavka je da je raspodela normalno distribuirana i da standardna devijacija populacije nije poznata, pa se za izra čunavanje koristi standardna devijacija uzorka. Nulta hipoteza ima znak ≤ ili ≥, a alternativna znak > ili <. Za izra čunavanje t koristi se izraz koji je naveden kod dvostranog testa, a nulta hipoteza se prihvata ako je: kod desnostranog testa izračunato t manje od kritične vrednosti koja odvaja region za odbacivanje od regiona za prihvatanje, za odabrani nivo zna čajnosti i kod levostranog testa ako je t veće od kritične vrednosti koja odvaja region za odbacivanje od regiona za prihvatanje, za odabrani nivo značajnosti. PRIMER 4.: Problem iz Primera 3 možemo da testiramo i jednostranim t-testom, pa testiramo hipotezu da je dobijena srednja vrednost veća od o čekivane vrednosti (srednje vrednosti populacije µ =
135). Nulta i alternativna hipoteza glase H0 : µ ≤ 135 i H1 : µ > 135. Ostali podaci su isti kao u Primeru 5: φ = 16 – 1 = 15, α = 0,05, N = 16, x = 135,8 mg, Sd = 0,937 mg. Izračunata vrednost t je ista kao u Primeru 3: 135,8 - 135 0,8 t= = = 1,569 2,04 0,51 16 Kritična vrednost t za jednostrani test za φ = 15 i α = 0,05 iznosi 1,753, a kako je izračunata vrednost t manja od nje, zaklju čak je da se nulta hipoteza prihvata. Drugim re čima izračunata srednja vrednost nije značajno veća od očekivane vrednosti.
0,05
0
1,753
t
t=1,569 2. TESTIRANJE HIPOTEZE ZA PROPORCIJU JEDNE POPULACIJE
Testiranje hipoteze za srednju vrednost se koristi kada su podaci izraženi skalom odnosa ili intervalnom skalom, jer se kod tih podataka izra čunava srednja vrednost. Kategorički podaci se grupišu i izražavaju najčešće kao proporcija (procenat), a za testiranje hipoteze da je proporcija neke varijable izračunata iz uzorka jednaka proporciji te varijable u populaciji koristi se z-test za proporciju.
7-7
S. Spasi ć
Pre izračunavanje vrednosti z, proverava se da li podaci slede normalnu raspodelu koriš ćenjem izraza N·p ≥ 5 i N·(1 - p) ≥ 5, gde je p – proporcija koja se testira Vrednost z se izračunava iz izraza ps − p z= , p (1 − p) n gde je ps proporcija izračunata iz uzorka, a p je proporcija koja se testira. PRIMER 5. Pretpostavimo da sistem za pakovanje tableta daje 10% neispravnih pakovanja i
mora da bude zamenjen novim. Korišćenjem novog sistema u slučajnom uzorku od 200 kutija dobijeno je 11 neispravnih pakovanja. Testiramo hipotezu za α = 0,05 da novi sistem daje jednak broj neispravnih pakovanja? Rešenje: Prvo se proverava da li je zadovoljen uslov da podaci slede normalnu raspodelu: N·p = 200·0,1 = 20 ≥ 5 N·(1 - p) = 200 · (1-0,1) = 180 ≥ 5 Pošto je uslov zadovoljen postavljamo nultu i alternativnu hipotezu: H 0 : p = 0,1 i H1 : p ≠ 0,1 Ostali podaci su: N = 200 α = 0,05 p = 0,1 ps = 11/200 11 − 0,10 ps − p 200 z= = = −2,12 p (1 − p) 0,10 (1 − 0,10) N 200 Izračunata vrednost z je manja od -1,96 i nalazi se u regionu za odbacivanje, pa je zaklju čak da se nulta hipoteza ne prihvata, odnosno novi sistem za pakovanje ne daje jednak broj neispravnih pakovanja kao stari sistem. odbacuje se H0
odbacuje se H0 0,025
0,025
-1,96
0
1,96
z
z = -2,12
Problem u Primeru 5 može da se rešava i kao jednostrani test, pa testiramo hipotezu da novi sistem daje manji broj neispravnih pakovanja? Rešenje: Nulta i alternativna hipoteza glase: H0 : p ≥ 0,1 i H1 : p < 0,1 Ostali podaci su isti kao u Primeru 5: N = 200 α = 0,05 p = 0,1 ps = 11/200 11 − 0,10 ps − p 200 z= = = −2,12 p (1 − p) 0,10 (1 − 0,10) n 200
7-8
Statistika u farmaciji
Izračunata vrednost z je manja od -1,645 (kriti čna vrednost z za jednostrani test i nivo značajnosti 0,05) i nalazi se u regionu za odbacivanje, pa je zaključak da se nulta hipoteza ne prihvata, odnosno sistem ne daje veći ili jednak broj neispravnih pakovanja (tako glasi nulta hipoteza). U ovom slu čaju važi alternativna hipoteza koja kaže da sistem daje manji broj neispravnih pakovanja, što zna či da je razlika u broju neispravnih pakovanja između starog i novog sistema značajna. odbacuje se H0
0,05
-1,645
0
z
z = - 2,12
Testovi za dve populacije 1. TESTIRANJE HIPOTEZE ZA SREDNJE VREDNOSTI DVE NEZAVISNE POPULACIJE
Testiranje hipoteze za srednje vrednosti dve populacije podrazumeva testiranje razlike izme đu srednjih vrednosti dve nezavisne populacije, a u tu svrhu se koriste z-test i t-test. Osnovna pretpostavka za primenu ova dva testa je da su populacije normalno distribuirane i da su nezavisne jedna od druge. Z-TEST ZA SREDNJE VREDNOSTI DVE NEZAVISNE POPULACIJE
z-Test se i u ovom slučaju se primenjuje kao jednostrani ili kao dvostrani, uz pretpostavku da su raspodele obe populacije normalno distribuirane, da su nezavisne jedna od druge i da je poznata standardne devijacije obe populacije. Izraz za izračunavanje vrednosti z glasi: x −x z= 1 2 σ 12
N1
+
σ 22
N2
gde je: x1 - srednja vrednost uzorka 1 - standardna devijacija populacije 1 N1 - broj podataka u uzorku 1 x 2 - srednja vrednost uzorka 2 σ1
- standardna devijacija populacije 2 N2 - broj podataka u uzorku 2 σ2
Nulta i alternativna hipoteza mogu da se postave na dva na čina: 1. Dvostrani z-test H0 : µ1 = µ2 – dve srednje vrednosti su jednake i H1 : µ1 ≠ µ2 – dve srednje vrednosti su različite
7-9
S. Spasi ć
ili H0 : µ1 - µ2 = 0 – razlika između dve srednje vrednosti je jednaka nuli i H1 : µ1 - µ2 ≠ 0 – razlika između dve srednje vrednosti je različita od nule. Nulta hipoteza se prihvata ako je izračunato z manje od kritične vrednosti z koja odvaja desni region za odbacivanje od regiona za prihvatanje, odnosno ve će od kritične vrednosti z koja odvaja levi region za odbacivanje od regiona za prihvatanje, za odabrani nivo zna čajnosti. 2. Desnostrani z-test H0 : µ1 ≤ µ2 i H1 : µ1 > µ2 ili H0 : µ1 - µ2 ≤ 0 i H1 : µ1 - µ2 > 0 Nulta hipoteza se prihvata ako je izračunato z manje od kritične vrednosti koja odvaja region za odbacivanje od regiona za prihvatanje, za odabrani nivo zna čajnosti. 3. Levostrani z-test H0 : µ1 ≥ µ2 i H1 : µ1 < µ2 ili H0 : µ1 - µ2 ≥ 0 i H1 : µ1 - µ2 < 0 Nulta hipoteza se prihvata ako je z ve će od kritične vrednosti koja odvaja region za odbacivanje od regiona za prihvatanje, za odabrani nivo značajnosti. PRIMER 6. Iz jedne serije tableta uzeto je 25 komada (N1 = 25) i u njima je odre đen sadržaj akti-
vne supstance. Iz dobijenih podataka izračunata je srednja vrednost x 1 = 102 mg, a od ranije je poznato da je standardna devijacija populacije σ1 = 2,5 mg. Iz druge serije tableta takođe je uzeto 25 kom (N2 = 25), a srednja vrednost sadržaja aktivne supstance u njima je x 2 = 97 mg, sa istom standardnom devijacijom σ2 = 2,5 mg. Testiramo hipotezu za nivo zna čajnosti α = 0,05 da su srednje vrednosti dve populacije jednake: H0 : µ1 = µ2 i i H1 : µ1 ≠ µ2 . Vrednost z je jednaka: x −x 102 − 97 5 z= 1 2 = = = 7,07 2 2 2 2 0 , 707 2,5 2,5 σ σ 1
N1
−
2
N2
25
+
25
Kritične vrednosti z za nivo značajnosti 0,05 su jednake ± 1,96, što zna či da se nulta hipoteza ne prihvata jer je izračunata vrednost z veća od +1,96. Zaključak je da ove dve srednje vrednosti nisu jednake, odnosno razlika između njih je statistički značajna, odnosno ova dva uzorka su uzeta iz dve različite populacije. STUDENTOV T-TEST ZA SREDNJE VREDNOSTI DVE NEZAVISNE POPULACIJE
Studentov t-test za testiranje hipoteze za razliku srednjih vrednosti dve nezavisne populacije može da se primenjuje kao dvostrani i jednostrani, uz pretpostavke da su obe populacije normalno distribuirane i da standardne devijacije dve populacije nisu poznate. Izrazi za izra čunavanje t zavise od broja podataka u grupama. Izračunavanje vrednosti t kada dve grupe imaju jednak broj podataka
Kada se testira hipoteza za srednje vrednosti dve populacije sa istim brojem podataka u uzorku, t se izračunava prema sledećem izrazu: x1 − x 2 t= 2 2 Sd1 + Sd2 N-1 gde je: x1 - srednja vrednost uzorka 1 Sd1 - standardna devijacija uzorka 1 x 2 - srednja vrednost uzorka 2 Sd2 - standardna devijacija uzorka 2
7-10
Statistika u farmaciji
N = N1 = N2 Broj stepena slobode za ovaj izraz je φ = N1 + N2 - 2 PRIMER 7. U dva kontrolna uzorka seruma određena je koncentracija natrijuma. U svakom
uzorku određivanje je ponovljeno 15 puta (N 1 = N2 = N = 15). Testiramo hipotezu dvostranim testom da između dve srednje vrednosti nema razlike. Iz dobijenih podataka izra čunate su sledeće srednje vrednosti i standardne devijacije: uzorak 1: x1 = 145,9 mmol/L, Sd1 = 3,86 mmol/L uzorak 2: x 2 = 148,9 mmol/L, Sd2 = 3,31 mmol/l Nulta i alternativna hipoteza glase: H0 : µ1 = µ2 i H1: µ1 ≠ µ2 α = 0,05 φ = 15 + 15 - 2 = 28 tablična vrednost t0,05, φ=28 = 2,048 Rešenje: 145,9 − 148,9 3,0 3,0 t= = = = 2,208 2 2 1 , 359 1 , 847 3,86 + 3,31 1'5 − 1 Kritična vrednost t za α = 0,05 i φ = 28 jednaka je 2,048, a kako je izra čunata vrednost t veća od ove, nulta hipoteza se ne prihvata, odnosno postoji značajna razlika između srednjih vrednosti u ova dva uzorka. Izračunavanje vrednosti t kada dve grupe imaju različit broj podataka
Izraz za izračunavanje t kod poređenja srednjih vrednosti dve grupe koje imaju razli čit broj podataka glasi: t=
x1 − x 2 2 2 N1 Sd1 + N2 Sd1 × N1 + N2 N1 + N2 - 2 N1 N2
gde je: x 1 - srednja vrednost uzorka 1 Sd1 - standardna devijacija uzorka 1 N1 - broj podatka u uzorku 1 x 2 - srednja vrednost uzorka 2 Sd2 - standardna devijacija uzorka 2 N2 - broj podataka u uzorku 2 Broj stepena slobode za ovaj izraz je φ = N1 + N2 – 2 PRIMER 8. U jednom uzorku seruma određena je koncentracija ureje metodom sa
diacetilmonoksimom (uzorak 1) i metodom sa fenolom i hipohloritom (uzorak 2). Metodom sa diacetilmonoksimom određivanje je ponovljeno 10 puta, a metodom sa fenolom i hipohloritom 14 puta. Testiramo hipotezu dvostranim testom da između dve srednje vrednosti nema razlike. Iz dobijenih podataka izračunate su sledeće srednje vrednosti i standardne devijacije: uzorak 1: N1 = 10, x1 = 7,1 mmol/L, Sd1 = 0,39 mmol/L
7-11
S. Spasi ć
uzorak 2: N2 = 14, x 2 = 6,9 mmol/L, Sd2 = 0,23 mmol/l Rešenje: Nulta i alternativna hipoteza glase: H0 : µ1 = µ2 i H1: µ1 ≠ µ2 α = 0,05 φ = 10 + 14 – 2 = 22 tablična vrednost t0,05, φ=22 = 2,074
t=
7,1 - 6,9 10 x 0,392 + 14 x 0,232 10 + 14 x 10 + 14 - 2 10 x 14
=
0,2 = 2,63 0,076
Kritična vrednost t za α = 0,05 i φ = 22 jednaka je 2,074, a kako je izra čunata vrednost t veća od ove, zaključak je da se nulta hipoteza ne prihvata, odnosno razlika izme đu srednjih vrednosti ove dve grupe podataka je značajna. Uticaj različitih faktora na testiranje hipoteze z- i t-testom
Na krajnji zaključak kod testiranja hipoteze i z- i t-testom utiču: - veličina razlike između srednje vrednosti uzorka i srednje vrednosti populacije, odnosno dve srednje vrednosti - veličina uzorka - varijacija (veličina standardne devijacije) u uzorku Velika razlika između srednjih vrednosti daje veliku vrednost t (veću od kritične vrednosti za izabrani nivo značajnosti), što znači da je sa velikom razlikom teže dokazati nultu hipotezu.
mala razlika između grupa nulta hipoteza se lako dokazuje
velika razlika izme đu grupa nulta hipoteza se teško dokazuje
Veličina uzorka takođe utiče na krajnji zaklju čak kod testiranja hipoteze. Što je uzorak veći to je
teže dokazati nultu hipotezu, jer veliki uzorak (veliko N) daje veliku vrednost z, odnosno t (ve ću od kritične vrednosti za izabrani nivo značajnosti).
7-12
Statistika u farmaciji
mali broj podataka u grupi nulta hipoteza se lako dokazuje
veliki broj podataka u grupi nulta hipoteza se teško dokazuje
PRIMER 9. U Primeru 1 sa uzorkom od N = 25 i standardnom devijacijom σ = 15 g, izračunata je
vrednost z = +1,80, a zaključak je bio da se nulta hipoteza prihvata jer se ova vrednost nalazila u regionu za prihvatanje (između vrednosti -1,96 i +1,96. Podatke iz Primera 1 ćemo izmeniti tako da povećamo uzorak sa 25 na 36, deklarisana težina je 300 g, a merenjem 36 kutija dobijena je srednja vrednost x = 305,4 g; standardna devijacija populacije je σ = 15 g. Nulta i alternativna hipoteza glase H0 : µ = 300 , odnosno H1 : µ ≠ 300, a odabrani nivo značajnosti je α = 0,05. Vrednost z je jednaka:
z=
x−µ σ
N
=
305,4 − 300 15 36
=
5,4 2,5
= +2,16
Sa istom standardnom devijacijom i uzorkom od 36 podataka, dobija se vrednost z = +2,16, što znači da se nulta hipoteza ne prihvata jer se ova vrednost nalazi u regionu za odbacivanje (ve ća je od +1,96). Iz ovog primera se vidi da se za istu apsolutnu razliku u težini dobija drugačiji zaključak, a razlog tome je veći uzorak. PRIMER 10. U Primeru 7 su navedeni podaci za odre đivanje koncentracije natrijuma u dva uzor-
ka, tako da je u svakom uzorku odre đivanje je ponovljeno 15 puta (N1 = N2 = N). Zaključak je bio da se nulta hipoteza ne prihvata jer je izra čunato t = 2,208, a tablična vrednost t za α = 0,05 i φ = 28 je 2,048. Pretpostavimo da je u svakom uzorku određivanje ponovljeno po 10 puta i da su izračunate srednje vrednosti i standardne devijacije iste kao u primeru 7: x1 = 145,9 mmol/L, Sd1 = 3,86 mmol/L, x 2 = 148,9 mmol/L, Sd2 = 3,31 mmol/L. Vrednost t je jednaka t=
145,9 − 148,9 3,86 2 + 3,312
=
−3,0
1,695
= −1,77
1'0 − 1 Tablična vrednost t za α = 0,05 i φ = 18 jednaka je 2,101, što znači da se nulta hipoteza prihvata jer je izračunata vrednost t manja, odnosno nema zna čajne razlike između srednjih vrednosti dobijenih u ova dva uzorka. Iz ovog primera se vidi da je sa manjim uzorkom bilo lakše dokazati nultu hipotezu.
7-13
S. Spasi ć
Velika standardna devijacija (velika varijacija) u uzorku daje malu vrednost t (manju od kriti čne
vrednosti za izabrani nivo značajnosti), što znači da je sa velikom standardnom devijacijom lakše dokazati nultu hipotezu.
velika varijacija unutar grupa nulta hipoteza se lako dokazuje
mala varijacija unutar grupa nulta hipoteza se teško dokazuje
PRIMER 11. U Primeru 1 je. navedeno da je deklarisana težina kutija sa čajem je 300 g i da je
merenjem 25 kutija dobijena srednja vrednost x = 305,4 g sa standardnom devijacijom populacije σ = 15, a zaključak je bio da se nulta hipoteza prihvata jer je izra čunata vrednost z bila manja od kriti čne vrednosti. Pretpostavimo sada da je vrednost standardne devijacije populacije manja i iznosi σ = 10 g. Vrednost z je jednaka:
z=
x−µ σ
N
=
305,4 − 300 10 25
=
5,4 2
= +2,7
Kako su granične vrednosti z za nivo zna čajnosti 0,05 jednake ± 1,96, vidimo da je izra čunata vrednost z veća od +1,96 i da se nalazi u regionu za odbacivanje nulte hipoteze. Drugim re čima, nulta hipoteza se ne prihvata i izračunata srednja vrednost nije jednaka srednjoj vrednosti populacije µ = 300 g. Zaključak je da kutije sa čajem nemaju traženu težinu jer je razlika u težini od 5,4 g statisti čki značajna. Iz ovog primera se vidi da se za istu apsolutnu razliku u težini dobija druga čiji zaključak, a razlog tome je manja standardna devijacija populacije.
2. TESTIRANJE HIPOTEZE ZA SREDNJE VREDNOSTI DVE ZAVISNE POPULACIJE (PAROVE VREDNOSTI)
Nekada nije moguće da se u jednom uzorku materijala uradi veliki broj odre đivanja, zbog prirode samog materijala, kao što nekad nije mogu će da se istovremeno uradi veliki broj odre ćivanja, zbog prirode same metode. U tom slu čaju se u jednom uzorku materijala urade dva odre đivanja jednom istom ili dvema razli čitim metodama (zavisi od prirode zadatka), zatim se u drugom uzorku materijala ponove druga dva određivanja, s tim što sva određivanja ne moraju da se rade istog dana. Izračunavanje vrednosti t na ovaj način primenjuje se i u slu čajevima kada se procenjuje neki faktor uticaja (vreme, lekovi, način čuvanja uzoraka i dr.). Za te potrebe se različiti uzorci obrađuju pre i posle delovanja ispitivanog faktora, a značajnost njegovog uticaj se ocenjuje izra čunavanjem vrednosti t. Vrednost t se izračunava prema sledećem izrazu:
7-14
t=
Statistika u farmaciji
d Sd N
gde d predstavlja srednju razliku izme đu parova određivanja, koja se izračunava prema izrazu: ∑ ( x1 - x 2 ) ∑ d d= = N N Standardna devijacija Sdd izračunata je iz razlika d1, d2, ... , dN prema izrazu:
Sdd =
∑ d2 - N
( d )2
N-1 Broj stepena slobode je jednak
φ = N
- 1, gde je N jednako broju parova vrednosti.
PRIMER 12. Kod 14 gojaznih osoba koje su podvrgnute nultoj dijeti određena je koncentracija holes-
terola na početku dijete i posle tri nedelje. Pokazati da li ima zna čajne promene u koncentraciji holesterola posle ove dijete (vrednosti su date u mmol/L) uzimaju ći u obzir nivo verovatnoće 0,05. pre dijete
d2
posledijete d (pre-posle)
5,2
4,8
0,4
0,16
5,2
4,7
0,5
0,25
5,3
5,1
0,2
0,04
5,5
5
0,5
0,25
4,9
4,4
0,5
0,25
4,2
4,4
-0,2
0,04
6,8
6,3
0,5
0,25
4,3
2,7
1,6
2,56
4,8
4,4
0,4
0,16
Σd=4,4
Rešenje: H0 : µpre = µposle i H1 : µpre ≠ µposle 4,4 d= = 0,489 9
2
Σd
=3,96
φ = 9 - 1 = 8 α = 0,05
3,96 - 9 x (0,489)2 1,8079 Sd = = = 0,226 = 0,475 8 8
0,489 0,489 = = 3,095 0,475 0,158 9 Kritična vrednost t za p = 0,05 i φ= 8 jednaka je 2,306, a kako je izra čunata vrednost t veća od ove, zaključak je da se nulta hipoteza ne prihvata. Drugim rečima postoji značajna razlika između vrednosti holesterola pre i posle primene dijete. t=
7-15
S. Spasi ć
3. TESTIRANJE HIPOTEZE ZA PROPORCIJU DVE POPULACIJE
U nekim slučajevima rezultati ne mogu da budu izraženi u jedinicama koje imaju dimenziju, ve ć jednostavno kao "+" ili "-", odnosno "ima" ili "nema". Rezultati sa određenim obeležjem izražavaju se kao procenat od ukupnog broja rezultata. Kod takvih rezultata dve grupe se upore đuju pomoću vrednosti t koja se izračunava iz sledećeg izraza: p1 - p 2 t= p1 q1 p2 q2 + N1 N2 gde je: p1 - željeno obeležje u grupi 1 q1 - suprotno obeležje u grupi 1 N1 - broj podataka u grupi 1 p2 - željeno obeležje u grupi 2 q2 - suprotno obeležje u grupi 2 N2 - broj podataka u grupi 2. Obeležja p i q se izražavaju u procentima, pri čemu je p + q = 100%, ili kao udeo do jedinice, pa je p + q = 1. Broj stepena slobode je jednak φ = N1 + N2 - 2, a kako se kod ovakvih primera često radi sa velikim brojem podataka, tablična vrednost se pronalazi za φ = . PRIMER 13. Kod dece iz ravni čarskog područ ja odredjen je hemoglobin i dobijeni su sledeći
rezultati: od 400 dece iz gradskog područ ja, 40% je imalo snižene vrednosti hemoglobina, a od 210 dece sa seoskog područ ja snižen hemoglobin je imalo njih 30%. Pokazati da li je značajno veći broj, odnosno procenat dece sa sniženim hemoglobinom u gradu nego u selu. Rešenje: N1 = 400, p1 = 40%, q1 = 100 - 40 = 60% N2 = 210, p2 = 30%, q2 = 100 - 30 = 70%
t=
40 - 30 10 = = 2,5 40 x 60 30 x 70 16 + 400 210
Izračunata vrednost t veća je od tablične za p = 0,05 i φ = (t = 1,97), što znači da je kod dece u gradu značajno veći broj sa sniženim hemoglobinom.
7-16
Statistika u farmaciji
Zadaci za vežbanje
1. Dvema automatskim pipetama od 1 ml odmerena je više puta destilovana voda, a zatim je merena težina te vode, da bi se uporedile zapremine koje te pipete odmeravaju. Uporediti dobijene vrednosti i pokazati da li se zapremine značajno razlikuju. pipeta I: 1,084 1,062 1,073 1,065 1,045 1,058 1,065 1,075 pipeta II: 1,110 1,095 1,080 1,100 1,128 1,108
2. Na dva pH-metra izmeren je pH jednog rastvora po 10 puta. Treba pokazati da li se zna čajno razlikuju vrednosti dobijene na ova dva aparata, kao i da li pH-metri mere tačno ako rastvor ima pH 7,1. A:
7,11
7,15
7,14
7,10
7,09
7,15
7,12
7,14
B:
7,12
7,06
7,02
7,08
7,11
7,03
7,06
7,08
3. Populacija od 16 uzoraka ima srednju vrednost 41,5, a standardnu devijaciju 2,795. Ako je prava srednja vrednost populacije 43, da li je razlika zna čajna? 4. Deklarisana težina pakovanja pudera za bebe je 200 g. Na osnovu slu čajnog uzorka od 53 pakovanja dobijena je srednja vrednost od 195 g sa standardnom devijacijom 8,25 g. Pokazati da li je težina značajno niža od deklarisane. 5. Naznačen sadržaj kalcijuma u litru mineralne vode je 150 mg. Na osnovu slu čajnog uzorka od 50 litara mineralne vode dobijena je srednja vrednost 156 mg, sa standardnom devijacijom 6,87 mg. Pokazati da li je dobijena vrednost kalcijuma u mineralnoj vodi zna čajno različita od naznačene. 6. Kod 20 eksperimentalnih životinja tretiranih novim lekom došlo je do poboljšanja stanja kod 14 životinja, a kontrolnoj grupi tretiranoj starim preparatom efekat poboljšanja zapažen je kod 8 od ukupno 15 životinja. Da li je efekat novog leka zna čajno bolji? 7. Ispitivana je lomljivost tableta prvog proizvodja ča na osnovu slučajnog uzorka od 200 komada, u kome je utvrdjeno 10 nesolidnih tableta, dok je u slu čajnom uzorku od 180 komada, iz pošiljke drugog proizvodjača, utvrdjeno 13 nesolidnih tableta. Pokazati da li su zna čajno kvalitetnije tablete prvog proizvodjača. 8. Kod 15 pacijenata le čenih Vasoflex-om odredjen je kreatinin pre i posle dvonedeljne terapije. Pokazati da li lek ima uticaja na funkciju bubrega uzimaju ći u obzir nivo verovatnoće 0,05 . pre terapije: posle terapije:
125 128
122 130
100 98
88 95
105 109
94 108
77 75
129 127
96 105
119 125
123 120
75 79
13. Grupi od 15 pacijenata dat je jedan stimulans; pokazati da li postoji razlika u vrednosti pulsa pre i posle davanja stimulansa uzimajući u obzir nivo verovatno će 0,01. pre: posle:
65 71
72 80
58 65
69 67
79 77
70 71
85 82
67 65
78 70
83 90
80 78
67 70
60 67