Korelacija (smisao, smjer, veličina)
Informacijske znanosti: Vjerojatnost i statistika 03.11.2015.
• Pearsonov koeficijent • Spearmanov koeficijent • Point-biserijalni
koeficijent
• Parcijalna korelacija
Svakodnevni život: međusobna zavisnost, povezanost,
asocijacija
npr. između visine i težine; viši ljudi su u prosjeku teži od nižih
ljudi, između prosječne količine konzumirane hrane i težine i sl.
Engl. matematičar Karl Pearson- razradio računski postupak za
izračunavanje stupnja povezanosti, i izrazio ga brojkom – koeficijent korelacije (r)
Pojam • Korelacija u
statistici označava sukladnost u variranju dviju (ili više) varijabli.
• Stupanj sukladnosti u
variranju se izražava koeficijentom korelacije (r).
• Vrste korelacija:
maksimalna pozitivna (r=+1), pozitivna (0<+1), nulta (r=0), negativna (-1
Vrijednost koeficijenta korelacije kreće se u granicama od -1, potpuno
negativna povezanost (dok jedna varijabla raste, druga opada), do +1, potpuno pozitivna povezanost (obje varijable su u porastu).
U opisivanju povezanosti
koristimo grafičke i numeričke metode.
Grafička metoda podrazumijeva
grafički prikaz povezanosti između dvije varijable preko scatter – dijagrama.
Vrijednosti jedne varijable nanose
se na X osu, a druge na Y osu. Svaki ispitanik se prikazuje kao tačka u koordinatnom sustavu.
Prediktorska varijabla nanosi se
na apscisu, a kriterijska na ordinatu.
Scatter-dijagram omogućava
da: odredimo smjer povezanosti; procjenimo da li je povezanost visoka, umjerena ili niska; utvrdimo kakvog je oblika povezanost (linearna, inverzna U, ili neka druga); detektiramo ekstremne rezultate.
Napomena: u dosadašnjim primjerima prikazane su samo
linearne povezanosti između dvije varijable (grafički se odnos može prikazati ravnom crtom tj. pravcem).
Osim linearnih, postoje i druge vrste povezanosti koje bi se u
grafičkom obliku prikazivale zakrivljenim linijama.
Npr., temperatura u sobi i učinak u učenju gradiva
Primjeri nelinearne povezanosti (različiti oblici):
Obrnuto U
Periodične promjene
Primjeri nelinearne povezanosti (različiti oblici):
Pozitivna deceleraci ja (pad je u početku manji pa veći)
negativna akceleraci ja (rast je u početku veći pa manji)
Negativna deceleraci ja (pad je u početku veći pa manji)
Pozitivna akceleraci ja (rast je u početku manji pa veći)
Ako postoji povezanost između dvije varijable (npr, visina i
težina) to ne znači da postoji uzročno-posljedični odnos!
Ne mora značiti da jedna varijabla utječe na drugu, ako su
povezane, nego da je neka „treća” (ili više varijabli) podjednako uzrokovala promjene na povezanim varijablama
Koje varijable potencijalno utječu na podjednake promjene u
težini i visini osobe?
Skale mjerenja – za mnoga mjerenja kod korelacije, od skala bi trebale biti
korištene intervalna ili omjerna skala. Jedini izuzetak je kada imamo dihotomne nezavisne varijable (samo dvije vrijednosti) i jednu stalnu zavisnu varijablu (point-biserijalni koeficijent).
Mjere na obje varijable – svaki ispitanik mora imati rezultat na obje
varijable: X i Y (bez „missing cases”).
Normalnost – rezultati svake varijable trebaju biti normalno distribuirani.
To može biti provjereno, između ostalog, uvidom u rezultate svake varijable na histogramu.
Linearnost – veza između dvije varijable treba biti linearna. To znači, kada
pogledate na rezultate u skater dijagramu trebali bi vidjeti ravnu liniju, ne krivulju.
Homoscedascitet – varijabilitet rezultata za varijablu X treba biti sličan
varijabilitetu vrijednosti varijable Y.
Normalnost distribucije
Linearnost povezanosti
Homoscedascitet
Korelacija je postupak kojim se određuje povezanost između dvije
varijable, bez poznavanja uzročno-posljedične veze.
Korelacijom saznajemo da li su dvije varijable međusobno povezane, ali
ne znamo koja varijabla utječe na koju i u kojem stupnju.
Koeficijent korelacije može biti od -1 do +1. Ukoliko je koeficijent
korelacije 0, korelacije nema. Što je veći koeficijent korelacije, veća je povezanost i obratno.
Parametrijska korelacija (normalna distribucija varijabli) se određuje
Pearsonovim r koeficijentom korelacije, a neparametrijska korelacija (asimetrične distribucije) se određuje Spearmanovim rho koeficijentom.
1. Odabrati Analyze, nakon toga kliknuti na Correlate, zatim odabrati
Bivariate. 2. Umetnuti dvije varijable u prostor Variables. 3. Ovisno od toga da li je distribucija rezultata normalna (parametrijska statistika) ili nije (neparametrijska statistika), u prostoru Correlation Coefficients odabrati Pearsonov ili Spearmanov koeficijent. 4. Kliknuti na Options. Za nedostajuće vrijednosti (vrijednosti koje nedostaju) kliknuti na Exclude cases pairwise. Unutar Options možete, ako želite, odabrati aritmetičku sredinu i standardnu devijaciju. 5. Kliknuti na Continue, a zatim na OK.
Otvorite matricu podataka „ViS_v4- Korelacija” a)Dijagramom raspršenja utvrdite kakav je (otprilike)
odnos između „Radnog iskustva” i „Koeficijenta plaće”. Je li približno linearan?
b)Utvrdite (Pearsonovu) korelaciju između ove dvije
varijable
c)Je li korelacija značajna? Ako da, kakvog je smjera? Što
to znači?
d)Kakva je korelacija po veličini?
1. Provjera informacija o uzorku Prvo što treba provjeriti u tabeli je vrijednost N koja označava broj ispitanika. Da li je ta vrijednost odgovarajuća? Ako puno podataka nedostaje, treba provjeriti zašto.
2. Utvrđivanje smjera povezanosti Sljedeće što treba provjeriti je smjer povezanosti varijabli, na što upućuje predznak „+“ ili „-“. Ako je predznak koeficijenta korelacije negativan, to znači da veći skor u jednoj varijabli odgovara manjem skoru u drugoj varijabli. Varijable su, dakle, u negativnoj korelaciji. Kada je predznak koeficijenta korelacije pozitivan, varijable se mijenjaju u istom smjeru.
3. Utvrđivanje snage povezanosti Pojedini teoretičari, poput Cohena, objašnjavaju da je korelacija mala ako je
vrijednost koeficijenta korelacije između .10 i .29, srednja između .30 i .49 i visoka između .50 i 1.0.
Povezanost od .5 i -.5 je u potpunosti ista, odnosno velika, jer predznak određuje
samo smjer povezanosti, a ne i snagu te povezanosti.
4. Izračunavanje koeficijenta determinacije Kvadriranjem vrijednosti koeficijenta korelacije dobiva se koeficijent
determinacije, i ako potom dobiveni koeficijent determinacije pomnožimo sa 100, dobit ćemo broj koji nam govori koliki postotak varijance obuhvaćaju određene varijable.
5. Procjena značajnosti koeficijenta korelacije
Koliki je koeficijent determinacije između „Radnog iskustva” i
„Koeficijenta plaće”?
Koliki je koeficijent determinacije između „Koeficijenta plaće” i
„Opsega struka”?
Koji od ove dvije kombinacije varijabli ima više zajedničkih
faktora?
Utvrdite povezanost „spola” i „koeficijenta plaće”, primjenom
point-biserijalnog koeficijenta korelacije (=Pearsonov)
Je li povezanost značajna? Kakva je veličina korelacije? Utvrdite povezanost „spola” i „opsega struka” Je li povezanost značajna? Kakva je veličina korelacije?
• Nekada se između dvije
varijable može dobiti visoka korelacija zato što na obje varijable istovremeno, na isti način djeluje na neka treća varijabla. • Npr., mjerenje duljine stopala i
sposobnosti pisanja kod djecekorelacija je velika, ali zbog utjecaja trećeg faktora, a to je starost/dob . Kada bi isključili taj faktor starosti, povezanosti vjerovatno ne bi bilo.
• Formulom za parcijalnu korelaciju računa se povezanost dvije
varijable, uz istovremeno isključivanje utjecaja treće varijable na prvu i drugu varijablu.
*Bazirana na Pearsonovoj formuli za korelaciju, moguće računanje koeficijenta determinacije
1. Kliknite na Analyze, te na Correlate, pa zatim odaberite
Partial.
2. Kliknite na dvije varijable koje želite međusobno korelirati i
prebacite ih u okvir Variables.
3. Potom kliknite na varijablu čiji doprinos toj korelaciji želite
kontrolirati i prebacite je u okvir Controlling for.
4. Kliknite na Options. U sekciji Missing Values, odaberi Exclude Cases Pairwise. U sekciji Statistics, odaberi Zero Order Correlations. 5. Kliknite na Continue, zatim na OK.
Utvrdite povezanost između „Opsega struka”, „Koeficijenta
plaće” i „Radnog iskustva”
Utvrdite povezanost „Opsega struka” i „Koeficijenta plaće”, uz
istovremenu kontrolu varijable „Radn iskustva”
Usporedite povezanost Opsega struka i Koef. plaće prije i nakon
kontrole godina Radnog iskustva? Zašto se promijenila?
Utvrdite povezanost između Koeficijenta plaće, Ukupnog broja
sati sna u tjednu i Radnog iskustva
Ponovno utvrdite povezanost između Koef. Plaće i Sati sna, uz
kontrolu varijable Radno iskustvo
Do kakve je promjene u povezanosti došlo?