ALFA UNIVERZITET FAKULTET ZA MENADŽMENT U SPORTU
SEMINARSKI RAD
“STATISTIČKA OBRADA REZULTATA ”
Mentor: Prof. dr Banđur Miloš
Student: Milojević Selena 17/10
Beograd, 2011.
Seminarski rad ”Statistička obrada rezultata“
Milojević Selena 17/10
SADRŽAJ UVOD..............................................................................................................................................2 SREDNJE VREDNOSTI......................................................................................................................3 ARITMETIČKA SREDINA ..............................................................................................................4 POZICIONE SREDNJE VREDNOSTI.............................................................................................7 MODUS (Mo).......................................................................................................................................7 MEDIJANA (Me).................................................................................................................................7 MERE DISPERZIJE.............................................................................................................................9 STANDARDNA DEVIJACIJA.........................................................................................................9 KOEFICIJENT VARIJACIJE (Kv).................................................................................................10 PROCENA ARITMETIČKE SREDINE OSNOVNOG SKUPA...................................................10 TEORIJA HI-KVADRAT TESTA (χ2)............................................................................................12 REGRESIONA ANALIZA................................................................................................................13 OSNOVNI OBLICI POVEZANOSTI POJAVA.........................................................................14 REGRESIJA-POJAM I ZNAČENJE..........................................................................................15 STANDARDNA GREŠKA REGRESIJE.....................................................................................15 KORELACIJA – POJAM I ZNAČENJE......................................................................................16 KOEFICIJENT KORELACIJE.....................................................................................................16 ZAKLJUČAK................................................................................................................................17 LITERATURA...............................................................................................................................18
UVOD Statistika je metodologija kojom se istražuju masovne pojave radi otkrivanja zakonitisti koje u njima vladaju. Statistika, metodologija istraživanja masovnih pojava, skuplja bitne činjenice o tim pojavama, kvanticifira ih i sređuje na način koji omogućuje stvaranje teorije i ispitivanja zakonitosti. Odgovarajućom metodom se, na bazi kvanticifiranih uzoraka, sagledavaju, ili preciznije pokušavaju da sagledaju posledice. Predmet proučavanja statistike su varijabilni (promenljive) pojave koje se ispoljavaju u masi slučajeva i zovu se masovne pojave. Varijabilitet je univerzalana karakteristika prirodnih i društvenih zbivanja. Svaka pojava nastaje pod uticajem nekih faktora, pa ponašanje pojave zavisi od prirode, broja i načina kombinovanja tih faktora. Pošto su faktori koji deluju na pojavu varijabilni, to će i pojava pokazivati manje ili više izražen varijabilitet. Elementarne pojave pokazuju najmanji varijabilitet individualnih slučajeva i rezultat su delovanja malog broja faktora. Odnos između ovih pojava i faktora međusobno uslovljenih ponavljaju se na približno isti način u svim konkretnim slučajevima. Kod takvih pojava primenjuje se metod pojedinačnog posmatranja, ispituje se jedan ili nekoliko slučajeva. Kod pojava koje ispoljavaju veću varijabilnost (društveno-ekonomske pojave) tek posmatranjem većeg broja slučajeva dolazio se do određenih zakonitosti u njihovom ponašanju. Zato statistika istaržuje masovne pojave a to istraživanje ima kvantitativni karakter. Pod statistikom se danas podrazumeva: Deskriptivna statistika prikuplja, obrađuje i povezuje podatke.
2
Seminarski rad ”Statistička obrada rezultata“
Milojević Selena 17/10
Statistička analiza omogućuje pribavljanje numeričkih informacija, njihovu kvalitativnu interpretaciju, donošenje zaključaka i formiranje zakonitosti ponašanja posmatranih pojava. Statistička teorija iznalazi statističe metode, objašnjava ih, dokazuje i usavršava.1 Sve u svetu je međusobno zavisno, a broj je samo nekakav čvor veza. Statistika je put do tog čvora. Zadatak statistike je u tome da pomaže da slučajnosti bude svakog dana sve manje. Odgovor na pitanje šta je statistika je: Statistika je metodologija istraživanja masovnih pojava brojčanim načinom izražavanja. Statitika je potrebna psiholozima i psihijatrima, lekarima, spotistima, agronomima, pravnicima i inžinjerima. Svima njima su potrebni menadžeri koji doprinose da njihova stručna znanja budu korišćena na pravi način, koji im pomažu da se timski organizuju u rešavanju neizbežnih interdisciplinarnih problema. Menadžeri reaguju brzo, odlučuju bez odlaganja, vode timove ka sopstvenim vizijama, a za to su im je pored intuicije neohodni i određeni podaci. Jedan professor sa Univerziteta iz Floride je rekao: “Statistički rad je esencijalan u biznisu i industriji i zadire u sve oblasti menadžmenta, razvoja i proizvodnje. Zbog svoje široke primenljivosti, statistika je interdisciplinarna i inherentna za sve naučne oblasti gde se zahteva kvantitativna informacija za donošenje odluka.”2 Tema ovog rada je statistička obrada rezultata FC „Barselone“ u toku sezona 2010/2011, 2009/2010, 2008/2009, 2007/2008, 2006/2007, 2005/2006. Za ostvarivanje ovog zadatka obradicemo rezultate u toku šest uzastopnih sezona pomoću aritmetičke sredine, standardne devijacije, koeficijenta varijacije, medijane i moda. Takođe, na osnovu aritmetičke sredine uzorka procenićemo aritmetičku sredinu osnovnog skupa sa verovatnoćom greške od 5% i 1%. Izložićemo teoriju regresione analize i teoriju hi-kvadrat testa.
SREDNJE VREDNOSTI Statistički skupovi imaju mnoštvo elemenata, a što je skup veći to je teže da se shvate količinski odnosi vrednosti obeležja tog skupa, teže je stvoriti sliku pojave na osnovu originalnih podataka. Srednjom vrednošću se karakteriše serija različitih brojeva, ona je prosek mnoštva različitih individualnih veličina i računa se samo za veći broj vrednosti. Srednjim vrednostima se podaci uopštavaju, a svako uopštavanje preti prikrivanjem prave slike koja se posmatra. Sama reč srednja, uz reč vrednost, kaže da ona uvek mora da se nalazi između najmanje I najveće veličine u seriji za koju se izračunava. Osnovne karakteristike srednjih vrednosti su sledeće: • na njih utiču ekstremne vrednosti • na njih utiču frekvencije u distribuciji frekvencija • na njih utiču svi modaliteti obeležja za koje se računa srednja vrednost. Zahtevi kojima moraju da odgovore srednje vrednosti: • mogućnost utvrđivanja objektivnim računskim pravilom na jedinstven način • srednja vrednost mora biti vrednost između ekstrema 1 2
Prof. dr Šekarić Mirjana, Kostić-Kovačević Ivana, “Kvantitativne metode”, Beograd 2005, Prof. dr Gordana Ajduković, “Poslovna statistika”, Beograd 2003,
3
Seminarski rad ”Statistička obrada rezultata“ •
Milojević Selena 17/10
ako su sve vrednosti obeležja jednake I srednja vrednost mora da bude jednaka toj vrednosti.
Srednje vrednosti se dele na dve osnovne grupe: • izračunate srednje vrednosti • pozicione srednje vrednosti Izračunate srednje vrednosti se računskim putem dobijaju iz podataka serije. U izračunate srednje vrednosti spadaju: • aritmetička sredina • harmonijska sredina • geometrijska sredina Pozicione srednje vrednosti se određuju pozicijom koju zauzimaju u datoj seriji podataka. U pozicione srednje vrednosti spadaju: • modus ili mod • medijana Srednje vrednosti nalazi primenu u svim oblastima statističke analize.3 ARITMETIČKA SREDINA Aritmetička sredina je poznata pod imenom prosek. Izračunava se tako da se sve vrednosti numeričkog obeležja saberu, pa se zatim zbir podeli s brojem podataka. ARITMETIČKA SREDINA= Suma vrednosti numeričkog obeležja Broj podataka Polazna tačka za izračunavanje aritmetičke sredine je zbir svih vrednosti numeričkog obeležja elemenata statisističkog skupa. Taj zbir se zove total. Total razdeljen na onoliko delova koliko skup ima elemenata je aritmetička sredina. Označimo li vrednosti numeričkog obeležja sa:
x1, x2 , x3, x4, ........... xi onda je aritmetička sredina za tih N vrednosti numeričkog obeležja N-ti deo totala X =
x1 + x 2 + x3 + x 4 + ...... + xi n ili
3
Prof. dr Gordana Ajduković, “Poslovna statistika”, Beograd 2003,
4
Seminarski rad ”Statistička obrada rezultata“
Milojević Selena 17/10
n
X
x =∑ i =1
i
n PRIMER: Broj ostvarenih bodova, pobeda, poraza,nerešenog rezultata i gol razlika FC „Barselona“ po sezonama su sledeći: Tabela br. 1: Broj ostvarenih bod.,pobeda, poraza, nerešenog rezultata i gol razlika FC „Barselona“ Broj ostvarenih Gol Sezone bodova po Pobede Porazi Nerešeno razlika xi sezoni 2010/2011 96 30 2 6 74 X1 2009/2010 99 31 1 6 74 X2 2008/2009 87 27 5 6 70 X3 2007/2008 67 19 9 10 33 X4 2006/2007 76 22 6 10 45 X5 2005/2006 82 25 6 7 45 X6 Ukupno 507 154 29 45 341 100 80
Bodovi po sezoni
60
Pobede Porazi
40
Nerešeno
20
Razlika u gol.
0 2010/2011
2008/2007
2006/2007
Grafik br. 1: Broj ostvarenih bod.,pobeda, poraza, nerešenog rezultata i gol razlika FC „Barselona“ Koliki je bio prosečni broj bodova, pobeda, poraza, nerešenih i gol razlika po sezonama? x1 + x 2 + x3 + x 4 + x5 + x6 X= 6 X = 96 + 99 +87 + 67 + 76 + 82 = 507 6 6 X = 84,5 bodova
5
Seminarski rad ”Statistička obrada rezultata“
Milojević Selena 17/10
Tabela br. 2: Aritmetička sredina broja bodova, pobeda, poraza, nerešenih i gol razlika po sezonama Obeležja Broj ostvarenih bodova po sezoni Pobede Porazi Nerešeno Gol razlika
X 84,50 25,67 4,83 7,50 53,83
Br. Ost. Bod. Pobede Porazi Nerešeno Gol razlika
Grafik 2: Aritmetička sredina broja bodova, pobeda, poraza, nerešenih i gol razlika po sezonama Prosečan broj bodova u posmatranih 6 sezona bio je 84,50 (bodova), prosečan broj pobeda bio je 25,67; prosečan broj poraza bio je 4,83; prosečan broj nerešenih rezultata je 7,50; a prosečna gol razlika u posmatranih 6 sezona bila je 53,83 (gola). Najvažnije osobine aritmetičke sredine su: 1. Zbir odstupanja pojedinačnih obeležja od aritmetičke sredine jednak je nuli.(od svake individualne vrednosti obeležja oduzima se vrednost aritmetičke sredine). Za negrupisane podatke: Σ( xi- X )=0 Za grupisane podatke: Σfi( xi- X )=0 2. Aritmetička sredina se uvek nalazi između najmanje i največe vrednosti obeležja. Xmin < X < Xmax 3. Ako su vrednosti obeležja međusobno jednake, onda je aritmetička sredina jednaka tim vrednostima: X1=X2=X3=........=Xn 6
Seminarski rad ”Statistička obrada rezultata“
Milojević Selena 17/10
X =X1=X2=...........Xn 4. Zbir kvadrata odstupanja podataka od aritmetičke sredine jeste linijski.4 ∑(xi- X )2=min
POZICIONE SREDNJE VREDNOSTI Naziv pozicione srednje vrednosti dobile su zato što se one uglavnom ne izračunavaju kao sredine, nego se određuje njihova pozicija, mesto u datoj seriji. One se nalaze, po pravilu, na onom mestu koje zauzima bilo dominantan (najznačajniji), bilo centralni (središnji) položaj u seriji. Pre nego što se pristupi iznalaženju srednjih brojeva brojeva, potrebno je da datu seriju sredimo po veličini modaliteta. U grupu srednjih brojeva spadaju: modus (Mo) i medijana (Me): MODUS (Mo) To je onaj podatak (modalitet) koji se najčešće javlja tj. koji ima najveću frekvenciju. To je, dakle podatak koji zauzima dominantan položaj i koji na poligonu frekvencija ima najveću ordinatu. Zbog toga se modus često naziva još i dominanta ili normala. To je na primer, najčešća cena, najčešća visina,itd.Zbog toga kažemo da se modus kao srednja vrednost koristi najčešće kada se radi o proceni stanja ili karakteristika neke pojave. U praksi se može tražiti modus kod neintervalnih serija ili kod intervalnih serija. IZRAČUNAVANJE MODUSA KOD NEINTERVALNIH SERIJA PRIMER1:Iz sledeće serije podataka odrediti Mo. Broj poraza u sezonama je sledeći: 1,2,5,6,6,9. Broj koji se najčešće pojavljuje je 6 .Znači Mo =6. MEDIJANA (Me) Medijana je takva poziciona srednja vrednost koja se u seriji nalazi na središnjoj poziciji ukupnog broja frekvencija (slučajeva). To je najveća vrednost modaliteta posmatranog obeležja u nekoj seriji, njena vrednost ne mora da se podudara sa veličinama (vrednostima) modaliteta koji su navedeni u seriji, nego ona predstavlja najvišu (maksimalnu) veličinu posmatranog obležja za prvih 50% svih frekvencija ili slučajeva. Određivanje i izračunavanje medijane vrši se u serijama koje su prethodno sređene po veličini modaliteta, zato se vrednost medijane uvek nalazi oko sredine raspona intervala varijacije između minimalne i maksimalne vrednosti modaliteta. Medijana se koristi za analizu statističkih serija po segmentima (delovima) a pasebno u komparativnoj analizi istorodnih pojava. Medijana se izračunava iz prostih serija ali se to najčešče vrši kod serija distribucije frekvencija. IZRAČUNAVANJE MEDIJANE KOD PROSTIH SERIJA 4
Prof. dr Šekarić Mirjana, Kostić-Kovačević Ivana, “Kvantitativne metode”, Beograd 2005,
7
Seminarski rad ”Statistička obrada rezultata“
Milojević Selena 17/10
Kod prostih serija,kada se svaki modalitet javlja samo po jedanput, medijana će zauzimati mesto središnjeg modaliteta, odnosno medijana će biti upravo onaj modalitet koji se nalazi na središnjoj poziciji. Kod svih prostih serija mesto medijane se nalazi po obascu: n +1 2 Mora se voditi računa da li to prosta serija ima neparan ili paran broj podataka pomoću ovog obrasca neposredno nalazimo mesto i vrednost medijane. PRIMER1: Izračunaj medijanu iz sledeće serije: Gol razlika je: 74,74,70,33,45,45. Prvo ćemo poređati seriju po redu: 33,45,45,70,74,74. Serija ima paran broj podataka (n=6) pa se medijana nalazi između dva sedišnja podatka. n +1 6 +1 7 = = = 3,5 Mesto Me = 2 2 2 Medijana se nalzi na sredini između trećeg i četvrtog mesta u seriji. Prostom aritmetičkom sredinom izračunavamo medijanu. Tabela br.3: Gol razlika FC“Barselona“ po sezonama Redni broj obeležja Obeležje 1 33 2 45 3 45 Položaj medijana Medijana 4 70 5 74 6 74 45 + 70 115 = 2 2 Me= 57,5 Me=
Medijana je 57,5.
8
Seminarski rad ”Statistička obrada rezultata“
Milojević Selena 17/10
80 70 60 50 40 30 20 10 0
Gol razlika
1
2
3
4
5
6
Me Grafik br.3: Gol razlika FC“Barselona“ po sezonama
MERE DISPERZIJE STANDARDNA DEVIJACIJA Linearni oblik varijanse naziva se standardna devijacija. To je kvadratni koren iz varijanse. Tu meru varijacije takođe izračunavamo i kod prostih serija i kod serija distribucije frekvencija. STANDARDNA DEVIJACIJA KOD PROSTIH SERIJA (δ) Izračunava se po obrascu: δ=
∑ ( xi − X )
2
n Tabela br. 4: Broj ostvarenih bodova FC „Barselona“ po sezonama Broj ostvarenih Sezone bodova po sezoni xi- X xi 2010/2011 96 11,5 2009/2010 99 14,5 2008/2009 87 2,5 2007/2008 67 -17,5 2006/2007 76 -8,5 2005/2006 82 -2,5 507 / ∑
(xi- X )2 132,25 210,25 6,25 306,25 72,25 6,25 882
9
Seminarski rad ”Statistička obrada rezultata“
∑ X= n
xi
=
Milojević Selena 17/10
507 = 84.5 prosečan broj bodova 6
(xi − X ) δ =∑
2
882 = 147 n 6 Iz prethodnog primera varijansa je: δ2=147 a standardna devijacija biće: δ= 147 = 12,12 bodova 2
=
Od svih mera varijabiliteta najznačajnija je standardna devijacija. Njen naziv potiče od toga što ona predstavlja neku standardnu prihvaćenu meru u statističkoj analizi, pa će se ona javiti u reprezentativnoj analizi i kod raznih testiranja sudova i rezultata pod nazivo ¨Standardne greške¨ koja nije ništa drugo nego standardna devijacija,tj. mera varijabiliteta kod uzoraka. KOEFICIJENT VARIJACIJE (Kv) . Koeficijent varijacije (Kv) predstavlja količnik između standardne devijacije i aritmetičke sredine jedne iste pojave. Izražava se kao prost količnik (koeficijent) ili kao procentni broj. Obrazac po kome se izračunava koeficijent varijacije glasi: δ δ Kv= ili kao procentni izraz: Kv= ⋅ 100 5 X X Iz predhodnoh primera preuzećemo podatke, tako da dobijamo da je: : Kv=
δ 12.12 ⋅ 100 = ⋅ 100 =14,34% 84.5 X
Prosečno odstupanje od proseka je 14,34%. PROCENA ARITMETIČKE SREDINE OSNOVNOG SKUPA Aritmetičku sredinu osnovnog skupa procenjujemo na osnovu aritmetičke sredine njegovog uzorka. Procena aritmetičke sredine neće nikada biti donošena jednim brojem, nego ćemo je uvek davati u nekom rasponu, intervalu uz tačno utvrđen stepen verovatnoće ili pouzdanosti sa kojim smo taj interval izračunali. Veličina tog interval ili raspona menja se i zavisi od stepena verovatnoće ili pouzdanosti koju smo uzeli ili koja nam je zadata. Taj raspon naziva se interval poverenja ili pouzdanosti. Izračunava se po obrascu:
( X ± tS ) x
X - aritmetička sredina uzorka t – stepen verovatnoće (vrednost iz tablice) S x - standardna greška aritmetičke sredine
5
Prof. dr Šekarić Mirjana, Kostić-Kovačević Ivana, “Kvantitativne metode”, Beograd 2005,
10
Seminarski rad ”Statistička obrada rezultata“
∑X
Sx =
2 f
− nX
Milojević Selena 17/10
2
n( n − 1)
Interval poveranja u kome se procenjuje vrednost aritmetičke sredine osnovnog skupa glasi: X − tS x 〈 x〉 X + tS x 6
(
) (
)
Primer: Iz skupa sezona jednog kluba na slučajan način izabrane su četiri u kojoj je klub ostvario 26 poraza. I dobijeni su sledeci podaci: Sezone 2008/2009 2007/2008 2006/2007 2005/2006
Broj utakmica 5 9 6 6
a) Sa pouzdanošću od 95% oceniti prosečan broj poraza. b) Sa pouzdanošću od 99% oceniti prosečan broj poraza. a) Xi = 5 + 9 + 6 + 6 = 26 = 6,5 X =∑ n 4 4 Prosečan broj poraza po sezoni bio je 6.5.
∑X
Sx =
− nX
2
n( n − 1)
∑X Sx =
2 f
2 f
= 5 2 + 9 2 + 6 2 + 6 2 = 178
178 − 4 × 6.5 2 178 − 4 × 42.25 178 − 169 = = = 4( 4 − 1) 4×3 12
7 =0,76 12
Ocena srednje mere odstupanja aritmetičkih sredina uzorka od aritmetičke sredine osnovnog skupa iznosi 0,76 poraza. X − tS x 〈 x〉 X + tS x
(
6
) (
)
Prof. dr Šekarić Mirjana, “Statističke metode”, Beograd 2010,
11
Seminarski rad ”Statistička obrada rezultata“
Milojević Selena 17/10
(Vrednost t očitava se iz tablice; prvo se izračunava stepen slobode r=n-1, r =4-1=3, a rizik grešje je α =0,05% za verovatnoću od 95% (Studentov raspored ili t distribucija vrednosti za t=2.353) (6,5 – 2,353 x 0,76) 〈x〉 (6,5 + 2,353 x 0,76) 4,712 〈x〉 8,288 Uz rizik greške od 5% može se očekivati da će prosećan broj poraza tokom sezone biti u intervalu od 4,7 do 8,2. Xi b) X = ∑ = 5 + 9 + 6 + 6 = 26 = 6,5 n 4 4 Prosečan broj poraza po sezoni bio je 6.5.
∑X
Sx =
− nX
2
n( n − 1)
∑X Sx =
2 f
2 f
= 5 2 + 9 2 + 6 2 + 6 2 = 178
178 − 4 × 6.5 2 178 − 4 × 42.25 178 − 169 = = = 4( 4 − 1) 4×3 12
7 =0,76 12
Ocena srednje mere odstupanja aritmetičkih sredina uzorka od aritmetičke sredine osnovnog skupa iznosi 0,76 poraza. X − tS x 〈 x〉 X + tS x
(
) (
)
(Vrednost t očitava se iz tablice; prvo se izračunava stepen slobode r=n-1, r =4-1=3, a rizik grešje je α =0,01% za verovatnoću od 99% (Studentov raspored ili t distribucija vrednosti za t=4.541) (6,5 – 4,541 x 0,76) 〈x〉 (6,5 + 4,541 x 0,76) 3,049 〈x〉 9,951 Uz rizik greške od 1% može se očekivati da će prosećan broj poraza tokom sezone biti u intervalu od 4,04 do 9,95.
TEORIJA HI-KVADRAT TESTA (χ2) To je jedan od najpoznatijih neparametrijskih testova. Poznat je i pod nazivom Pearson-ov χ2 test, jer ga je razradio K. Pearson 1900. godine. χ2 testom se izračunava da li postoji statistički značajna povezanost u frekvencijama dva atributivna obeležja ili između dobijenih (opaženih) frekvencija i frekvencija koje očekujemo kod određene hipoteze. Dobijene frekvencije su frekvencije dobijene empirijskim istraživanjem ili eksperimentom. 12
Seminarski rad ”Statistička obrada rezultata“
Milojević Selena 17/10
Očekivane frekvencije su teorijskog karaktera ili očekivane na osnovu hipoteze koju želimo da proverimo. Hi kvadrat test se upotrebljava za testiranje značajnosti razlike između dobijenih (fd) i očekivanih (fo) frekvencija. Definiše se formulom:
∑( f χ2=
d
− fo )
2
fo
Pri izradi ovog testa: - Zbir dobijenih i očekivanih frekvencija mora uvek biti jednak - Zbir razlike dobijenih i očekivanih frekvencija uvek je jednak nuli Ako ova dva uslova nisu ispunjena, postoji negde greška u računu ili problem nema smisla, nije χ2 test adekvatan za taj problem. Vrednost χ2 testa ne može da bude negativna jer ona predstavlja sumu kvadrata. Stepen slobode se izračunava po obrascu: S.S. = (R-1) x (K-1), gde je K - broj kolona, a R – broj redova. Tumačenje dobijene vrednosti bazira se na teorijskom χ2 rasporedu: a) Raspored je definisan u oblasti od 0 do +∞, b) Kriva rasporeda nije simetrična, međutim, s povećanjem broja modaliteta posmatranog obeležja (sa povećanjem broja stepena slobode) χ2 kvadrat raspored se približava normalnom rasporedu, c) Za svaki broj stepeni slobode postoji i određen χ2 kvadrat raspored i kritične oblasti prihvatanja ili odbacivanja nulte hipoteze. Tri su najvažnija uslova za primenu χ2 kvadrat testa: 1. χ2 kvadrat test se izračunava isključivo is apsolutnih frekvencija, ili iz podataka ako mogu da se svedu na apsolutne frekvencije; 2. Nijedna od apsolutnih frekvencija ne sme da ima vrednost manju od 5 jedinica i 3. Kada su uzorci manji od 200 jedinica (n1+n2<200) primenjuje se Yates-ova korekcija: (1) Svaka dobijena frekvencija, ako je veća od očekivane umanjuje se za 0,5, a (2) Svaka dobijena frekvencija ako je manja od očekivane uvećava se za 0,5. χ2 kvadrat test može imati sledeće modalitete: 1. χ2 TEST RASPOREDA FREKVENCIJA (ispituje razliku između rasporeda dobijenih (opaženih) i očekivanih (teoretskih) frekvencija.) 2. χ2 TEST NEZAVISNOSTI (dva nezavisna uzorka koja se testiraju uzeta su iz jednog skupa i testira se povezanost između dva obeležja.) 3. χ2 TEST HOMOGENOSTI (ovaj test utvrđuje da li ispitivani nezavisni uzorci pripadaju istom ili su uzeti iz različitih skupova.)
REGRESIONA ANALIZA
13
Seminarski rad ”Statistička obrada rezultata“
Milojević Selena 17/10
Regresiona analiza kao skup naučno razrađenih statističkih metoda za istraživanje odnosa među pojavama, nastala je na višem stepenu razvoja statističke teorije. Karakterističke regresione analize, kao naučnog metoda istarživanja i složene analize su u tome što je statistička teorija sve svoje rezultate i sudove nastojala da iskaže nekim kvantitativnim pokazateljima, brojem ali je pri tome izgrađivala specifičan sistem tih kvantitativnih pokazatelja koji nisu kruti brojevi i koji ne daju samo jednu stranu kvantitativnih sadržaja koje odražavaju. Od prvih etapa posmatranja pa preko sreađivanja i grupisanja, statističko istraživanje je, izraženo u najjednostavnijem obliku, teklo u smeru posmatranja karakteristika i zakonitosti koje vladaju u pojedinačnim pojavama. S obzirom da se statistička analiza uopšte odvija u sferu stohastičkih pojava i procesa, statistika ima za cilj da u naučnom istraživanju zakonitosti varijacija obeležja pojedinačnih pojava kao i u zakonitostima varijacija odnosa među pojavama, istražuje i definiše tu zakonitost kao centralnu nit, funkciju, oko koje se dešavaju varijacije. Regresiona analiza dobila je naziv i svoje osnovne sadržinske definicije početkom XX veka. Etimološki potiče od latinske reči regresio, što znači uzvrat, uzvraćanje. Prvi put nalazimo kod Galtona poznatog engleskog prirodnjaka, neodarvinista, koji se služio statističkom analizom u istarživanju naslednih osobina. On je uveo termin regresija i regresiona analiza, da bi bliže definisao karakter statističke analize kojom se služimo. U okviru i pod pojmom regresione analize obuhvataju se tri osnovna područja istraživanja odnosa među pojavama. To su: 1. Kovarijacija 2. Regresija 3. Korelacija Regresiona analiza kao celovit skup odgovarajućih metoda naučnog istraživanja međusobnih odnosa, treba da nam omogući da ustanovimo ili procenimo: • Da li između dve ili više posmatranih pojava postoji neka zakonomerna veza karakteristična za njihovu egzistenciju uopšte, ili se neki oblik veze javlja pod uticajem slučajnih negrupisanih faktora; • Ako postoji neki oblik zakonitosti veza između posmatranih pojava, u kom stepenu je to izraženo. Tačnije, statistika treba da iznađe način da pri tome to kvantitativno iztraživanje bude što realniji izraz kvalitativnih odnosa posmatranih pojava. • Međusobne veze posmatranih pojava mogu da ispoljavaju jače ili slabije odnose u oba smera: 1. Istosmerno (bilo u pozitivnom, bilo u negativnom smeru); 2. Suprotnosmerno, kada varijacijama kod jedne pojave odgovaraju suprotnosmerne varijacije kod druge pojave a to sve može imati različite oblike. Istražujući odnose među pojavama, dolazimo do zaključka i sudova o tome na kome se stepenu nalaze ti odnosi u drugačijoj skali raspona između potpune nezavisnosti kao jedne i funkcionalne zavisnosti kao druge krajnje tačke teorijskih mogužnosti postojanja njihovih međusobnih veza. OSNOVNI OBLICI POVEZANOSTI POJAVA Područje ispoljavanja međusobnih veza i odnosa različitih pojava jeste područje:
14
Seminarski rad ”Statistička obrada rezultata“
Milojević Selena 17/10
1. STOHASTIČKE VEZE, ovaj oblik međusonih veza uglavnom proističe iz postojanja stalnih uslova faktora i uzroka koji uslovljavaju i opredeljuju njihov intezitet i smer. Kvantitativno iztraživanje i iztraživanje stohastčke povezanosti ima za cilj da se izrazi stepen ili mera te povezanosti, dok nam kvantitativno istraživanje ima za cilj da ustanovimo da li jedna pojva uslovljava drugu. 2. FUNKCIONALNA POVEZANOST, to je najviši oblik povezanosti i odnosa među pojavama. I dok se stohastička povezanost najčešće ispoljava kod društvenih i privrednih pojava, dotle se funkcionalna povezanost najčešće ispoljava kod prirodnih pojava. Ovo je isovremeno i najčešći oblik povezanosti pojava, pa je zbog toga najjednostavnije za kvantitativno iztraživanje i praćenje a uz to i za kvalitativno definisanje. Matematički izraz te povezanosti iskazuje se određenim oblicima funkcija, kada promenama jedne veličine odgovaraju tačno određene promene druge veličine pri čemu se ta uzajamna zavisnost promena ispoljava u oba smera varijabilnosti. 3. EMPIRISKA POVEZANOST, ustanovljavanje ove povezanosti vrši se iskustvom, empirijom, posmatranjem, eksperimentom i drugim savremenim oblicima simuliranog dovođenja u neposredni odnos i vezu uzroke i posledice. Ovaj oblik povezanosti čini osnovni sadržaj mnogih nauka i prvu fazu naučnog iztraživnja. Iz ovih iztraživanja se dalje razvijaju iztraživanja funkcionalne i stohastičke povezanosti, koje su omogućile uopštavanje do tada dobijenih rezultata. REGRESIJA-POJAM I ZNAČENJE U statistici pod pojmom regresije podrazumeva se: 1. Prosečan zakonmeran kvantitaivni odnos između dve posmatrane pojave pojave izveden na osnovu rasporeda i veličine parova njihovih podataka. 2. Matematička funkcija (prava ili kriva linija) koja izražava taj prosečan zakonomeran odnos dveju pojava. Regresija se izračunava kao metod statističke analize kada imamo dve statističke serije koje izražavaju podatke o nekom istorodnom obeležju različitih pojava ili o različitim obelžjima jedne iste pojave. Regresija se deli na: 1. linearnu 2. nelinearnu ili krivolinijsku. STANDARDNA GREŠKA REGRESIJE Ona predstavlja stepen prilagođenosti linije regresije originalnim podacima funkcije Y. Izračunava se po obrascu:
S
y
=
∑ y − y ) i
2
c
n
Standardna greška regresije služi kao metod testiranja pri izboru vrste funkcije kojom izražavamo regresiju. To je slučaj kada nam prema dijagramu rasturanja originalnih podataka nije potpuno jasno kakav oblik kretanja bi najbolje odgovaralo tom rasturanju podataka,odnosno koju matematičku funkciju bi trebalo primeniti da bi što realnije izračunala linija regresije. Ako postoji dilema,potrebno je izračunati sve vrste regresije(linearna ili krivolinijska) za koje smatramo da bi
15
Seminarski rad ”Statistička obrada rezultata“
Milojević Selena 17/10
mogle da se primene u konkretnom primeru pa između njih odabrati onu čija je standardna greška regresije najmanja, jer samo tako možemo da postignemo željeni stepen naučnosti analize. KORELACIJA – POJAM I ZNAČENJE Korelacija je deo regresione analize. U posmatranju uzajamnih odnosa i povezanosti dve iliviše pojava, naučna analiza se najčešće usmerava na iznalaženje i izražavanje stepena (jačine) i smera njihove međusobne veze i odnosa. Kod istrživanja korelacije, posmatrane pojave su jednako značajne pa zbog toga ne govorimoo tome koliko je među tim pojavama izražena njihova međusobna zavisnost u smislu izražavanja te zavisnosti u jednom smeru, tj. kada posmaramo zavisnost jedne pojave od druge, bez uzimanja obzir i takvog posmatranja u obrnutom smeru. Statističko definisanje pojma korelacije ne svodi se na izražavanje uzročne povezanosti među pojavama, nego se korelacijom ukazuje da ima među posmatranim pojavama ispoljavanja uzročne povezanosti. KOEFICIJENT KORELACIJE Brojčani statistički pokazatelj kojim se izražava korelacijau statističkoj analizi naziva se
∑ ( xi − X )( yi − Y ) n
koeficijent korelacije. Izračunava se po obrascu:
r=±
i =1
∑ xi − X ) ⋅ ∑ ( yi − Y ) n
i =1
2
n
2
i =1
Ovaj koeficijent se kreće u zoni pozitivnih(istosmerna veza) i negativnih(suprotno smerna veza) varijacija obeležja. Skala jačine korelacionih veza: 1. Za vrednost r od 0 do ± 0,25 postoji izvestan slab stepen uzajamnosti, ali to obično zanemerujemo; 2. Za vrednost r od ± 0,25 do ± 0,50 postoji uzajamnost sa kojom treba računati; 3. Za vrednost r od ± 0,50 do ± 0,75 postoji visok stepen uzajamnosti; 4. Za vrednost r od ± 0,75 do ± 1 postoji visok stepen uzajamnosti; 5. Za vrednost r = ± 1 kažemo da postoji povezanost i uzajamnost između posmatranih pojava i obeležja koju tumačimo funkcionalnom vezom.7
7
Prof. dr Šekarić Mirjana, Kostić-Kovačević Ivana, “Kvantitativne metode”, Beograd 2005,
16
Seminarski rad ”Statistička obrada rezultata“
Milojević Selena 17/10
ZAKLJUČAK Statistika je od najranijih vremena bila metod i sredstvo za prikazivanje najpouzdanijih informacija za vođenje politike razvoja društva. Ona je nerazdvojni sastavni deo svakodnevnog života svakog pojedinca, da bolje sazna prilike i život koji ga okružuje, a naučnom radniku da dođe do objektivnih činjenica u svom istraživanju. Statistika istražuje pojave koje su po svojoj prirodi varijabilne, koje imaju masovne karakteristike i čije ponašanje u masi, na našem nivou intelektualnog razvoja, nije unapred odredeno egzaktnim uzrocno-posledicnim zakonitostima. Posmatranjem i analiziranjem pojava na velikom broju slučajeva, statistika donosi odredene zakljucke o masovnom ponašanju tih pojava, te se najcešce i predstavlja kao naučni metod kvantitativnog istraživanja masovnih pojava. Kada govorimo o srednjim vrednostima, bilo izračunatim, bilo pozicionim, moramo imati u vidu da svaka od njih u praksi ima svoje mesto, kako sa stanovišta značaja tako i sa stanovišta izračunavanja. Koju srednju vrednost odabrati kao najpodesniju karakteristiku distribucije frekvencija zavisice, u krajnjoj liniji, od cilja istraživanja. Sa pojavom elektronskih računara otvoreno je novo razdoblje u razvoju statistike. Rekordna brzina i maksimalna tačnost u obradi statističkih podataka višestruko je učinila efikasnim statistički rad i otvorili su velike mogućnosti primene statistike. Zadatak statistike je da širi opštu kulturu u korišćenju statističkih podataka kao i poznavanju i razumevanju njihovog značaja, kako bi se isključile razne zloupotrebe samih podataka i imanipulacije u negativnom smislu. Isto tako statistika ima zadatak da podstiče i daje inicijativu za čuvanje statističkih dokumenata kao materijala trajne vrednosti koji u istorijskom rasponu stalno uvećavaju svoj značaj i vrednost. Znamo koliko je statistika značajna u sportu. Profesionalcima, kao i publici, uvek je važno da znaju koji je igrač u košarci dao najviše koševa, koliko je utakmica dobio određeni fudbalski tim, koji su sportski rekordi. Bez kompjutera bilo bi veoma teško voditi ažurne statistike. Primena računara u sportskoj statistici je ogromna. Kompjuter može da vodi statistiku tima i svakog pojedinačnog igrača. Tabelarne (spreadsheet) aplikacije, tj. programi koji mogu da čuvaju i obrađuju nizove brojeva, najčešće se koriste da bi se obradili rezultati i napravila statistika.
17
Seminarski rad ”Statistička obrada rezultata“
Milojević Selena 17/10
Statistika se danas do te mere razvila da se pomoću nje vrše procene, odmeravaju rizici, istražuju tendencije, analiziraju odnosi i faktori koji ih opredeljuju, ne samo u prošlosti i momentu posmatranja, nego prvenstveno da bi se sagledali pravci i tokovi daljeg razvoja, da bi se bolje sagledale pojave u budućnosti.
LITERATURA 1. 2. 3. 4.
Prof. dr Šekarić Mirjana, Kostić-Kovačević Ivana, “Kvantitativne metode”, Beograd 2005, Prof. dr Gordana Ajduković, “Poslovna statistika”, Beograd 2003, Prof. dr Šekarić Mirjana, “Statističke metode”, Beograd 2010, http://www.fudbal91.com/fudbalski_klubovi 11111
18