Regresiona i korelaciona analiza Regresiona
1
Relacije između varijabli
Reprezentuju neke fenomene Matematički modeli su matematički izrazi tih fenomena Gauss-Markoff pretpostavka za linearnu regresiju Formula za izračunavanje koeficijenata u regresiji je BLUE (Best Linear Unbiased Estimators) Best Linear – najmanjom varijansom – najefikasniji model sa najmanjom Unbiased Estimators – varijable – očekivane vrednosti zavisne varijable iste ili vrlo bliske populacionim vrednostima
2
Regresiona analiza ana liza
Regresiona analiza se koristi da: objasni kakav efekat ima promena nezavisne varijable na zavisnu varijablu predvidi vrednost zavisne varijable na osnovu najmanje jedne nezavisne varijable
Zavisna varijabla: varijabla koju želimo da objasnimo ili predvidimo Nezavisna varijabla: varijabla koju koristimo da objasnimo zavisnu varijablu
3
Regresioni modeli
Izražavaju se jednačinom u kojoj je: 1 numerička zavisna (odgovor ) vari j jabla 1 ili više numeričkih ili kategoričkih nezavisnih varijabli
Prosta linearna regresija samo jedna nezavisna varijabla x
relacija između x i y izražena je linearnom funkcijom
4
Prost linearni regresioni model • Relacija između varijabli je linearna funkcija • Prava linija najbolje “fituje” podatke y intercept (konstanta) slučajna greška
yi = β0 + β1xi + εi zavisna varijabla (odgovor)
nagib
nezavisna varijabla (eksplanatorna)
5
Populacioni linearni regresioni model
yi = β 0 + β1xi + ε i
y
dobijena vrednost
ει = slučajna greška
µ xy = β 0 + β1xi x dobijena vrednost 6
Prost linearni regresioni model
yi = a + bxi yi - predviđena vrednost za zapažanje i xi - vrednost x za zapažanje i a - intercept za uzorak, koristi se za procenu populacionog β0 b - nagib za uzorak, koristi se za procenu populacionog β1
7
Linearna jednačina
y
y = a + bx promena u y b = nagib promena u x a = y-intercept x
© 1984-1994 T/Maker Co.
8
Metoda najmanjih kvadrata
Kako povlačimo liniju između tačaka? Kako procenjujemo koja linija najbolje obuhvata podatke? Metoda najmanjih kvadrata Najbolje slaganje (“fitovanje”) znači da je razlika između stvarne vrednosti y i izračunate vrednosti y najmanja
Iz srednje vrednosti x možemo da izračunamo izračunamo srednju vrednost y kada x odstupa od srednje vrednosti, možemo da očekujemo i da y odstupa od svoje srednje vrednosti x “objašnjava” odstupanje y od srednje vrednosti 9
Metoda najmanjih kvadrata – grafički prikaz Metoda najmanjih kvadrata minimizuje sumu kvadriranih razlika (grešaka = e) između stvarnih i pretpostavljenih vrednosti y n
∑
2
2
2
2
2
ei = e1 + e 2 + e 3 + e 4
i =1
y2 = a + b x2 + e2
y
e4
e2 e1
e3
y = a + bx
x 10
Koeficijenti u jednačini prave
Regresiona jednačina
y = a + bx
Nagib prave
xy− N x y ∑ b= ∑ x − N ( x)
Odsečak na y-osi
a = y − bx
2
2
11
Interpretacija koeficijenata b - nagib Daje promenu y (kao umnožak) za 1 jedinicu povećanja x Primer : Ako Ako
je b = 2, onda je očekivano y dva puta veće za svaku 1 jedinicu povećanja u x
a - odsečak na y-osi Prosečna vrednost y kada je x = 0
12
Primer 1 t (C 0)
unošen j e vode (mL)
24
48 0
28
60 0
29
75 0
29
81 0
33
96 0
36
1440
37
1440
0
13
Primer 1 – grafički prikaz
1600 1400 1200 1000 L m
800 600 400 200 0 0
5
10
15
20
25
30
35
40
t
14
Primer 1 t (0C) x
voda (mL) y
x2
xy
24
480
576
11520
28
600
784
16800
29
750
841
21750
29
810
841
23490
33
960
1089
31680
36
1440
1296
51840
37
1440
1369
53280
216 x= = 30,857 7 6480 y= = 925,714 7 Σx2 = 6796 Σxy = 210360
15
Primer 1 xy− N x y ∑ b= ∑ x − N ( x) 2
2
210360− 7 × 30,857× 925,714 = = 79,5197 2 6796− 7 (30,857)
a = y − b x = 925,714- 79,5197× 30,857= -1528,035
y = - 1528,03 + 79,52x mL = - 1528,03 + 79,52 t
16
Evaluacija modela
U kojoj meri model izražava relaciju između varijabli?
Približnost “najboljem slaganju”
Što su tačke bliže liniji to je slaganje bolje
Ispitivanje veličine varijacije
Značajnost izračunatih parametara
Rezidualna analiza y = a + bx
17
Mere varijacije u regresiji reg resiji SST = Ukupna varijacija (ukupna suma kvadrata)
mera za varijaciju vrednosti y oko njihove srednje vrednosti ukupna varijacija oko regresione prave jednaka je sumi kvadrata razlika između vrednosti y u svakom paru i srednje vrednosti y odgovara ukupnoj sumi kvadrata u ANOVI
∑ (yi − y)
2
18
Mere varijacije u regresiji reg resiji SSR = Varijacija za koju postoji objašnjenje
(r egresion egresiona suma kvadrata)
mera za varijaciju vezanu za relaciju između x i y objašnjiva varijacija jednaka je sumi kvadrata razlika između svake izračunate (iz jednačine) vrednosti y i srednje vrednosti y odgovara sumi kvadrata između grupa u ANOVI
∑ ( yˆ i − y)
2
19
Mere varijacije u regresiji reg resiji SSE = Varijacija za koju ne postoji objašnjenje
(suma kvadrata greške)
mera za varijaciju koja potiče od drugih faktora varijacija za koju ne postoji objašnjenje Neobjašnjiva varijacija jednaka je sumi kvadrata razlika između vrednosti y u svakom paru i odgovarajuće izračunate (iz jednačine) vrednosti y odgovara sumi kvadrata unutar grupa u ANOVI
∑
2 ˆ (yi − y) 20
Mere varijacije u regresiji yi y
SSE = Σ(yi − y) 2
yˆ
y = a + bx
SS T = Σ(yi − y) 2
SSR = Σ( y − y) 2 y
X
xi
x
21
Koeficijent determinacije
objašnjiva varijacija SK R r = = = ukupna varijacija SK T 2
0 ≤ r 2 ≤ 1
2 − y y ) ∑ = = 2 ∑(yi − y)
procenat varijacije u y koji je posledica varijacije u x
22
r 2 - primeri y
r 2 = 0,81
y
x
y
r 2 = 0,42
x
r 2 = 0,77
x y
r 2 = 0,05
x 23
Primer 1
r2 =
Σ(y − y)2 Σ(yi − y)2
r2 = 0,9412 94% varijacije u y (mL vode) potiče od varijacije u x (temperatura)
24
Standardna greška regresione prave
Mera za odstupanje dobijene vrednosti y od izračunate (iz jednačine) vrednosti y Veličina greške utiče na: tačnost predviđanja značajnost parametara
Σ(yi − y)2 SS E = S yx = N− 2 N− 2
S yx =
Σy2 − aΣy - bΣxy N−2 25
Primer 1 a = − 1528 ,03 0
t (0C) x 24
mL y 480
y2
xy
230400
11520
Σ y = 6480
28
600
360000
16800
Σ y = 6877800
29
750
562500
21750
Σ xy= 210360
29
810
656100
23490
N= 7
33
960
921600
31680
36
1440
2073600
51840
37
1440
2073600
53280
2
b = 79,52 2
Syx = 101 ,59
26
Testiranje nagiba b
Da li postoji linearna relacija između x i y ? Hipoteze H : β = 0 (nema linearne relacije) 0 1 H : β ≠ 0 (postoji linearna relacija) 1 1
Sb =
Sy x 2
2
Σ x − Nx
b− β 1 tb = Sb
H0 se prihvata ako je tb < tα, N-2 zaključak: b = 0 (ne postoji linearna relacija) 27
Primer 1 Sb = 8,8787
tb = 8, 956
t0,05; 5 = 2,571
tb > t0,05; 5
H0 se ne prihvata Zaključak: postoji linearna relacija između spoljašnje temperature i zapremine vode koju čovek popije
28
Testiranje odsečka a
Testira se ako postoji linearna relacija izmedju x i y Hipoteze H : β = 0 0 0 H : β ≠ 0 1 0 Sa = Sy,x
Σx2 N (Σx2 − Nx2)
a ta = Sa H0 se prihvata ako je ta < tα, N-2 zaključak: a = 0 (nema sistematske greške) 29
Primer 1 Sa = 277,008
ta = 5,516
t0,05; 5 = 2,571
ta > t0,05; 5
H0 se ne prihvata Zaključak: odsečak na y-osi je značajno različit od 0
30
Intervali pouzdanosti za regresione koeficijente
Interval pouzdanosti za odsečak a za nivo značajnosti 95%: a ± t 0,05; n-2(Sa) za nivo značajnosti 99%: a ± t 0,01; n-2(Sa)
Primer 1: 95% IP za odsečak a
a = – 1528,04 t0,05; 5 = 2,571 Sa = 277,008 –1528,04 ± 2,571 (277,008) = –1528,04 ± 712,19 95% IP: –2240,23 do –815,85
Primer 1: 99% IP za odsečak a
a = –1528,04 t0,01; 5 = 4,032 Sa = 277,008 –1528,04 ± 4,032 (277,008) = –1528,04 ± 1116,90 99% IP: –2644,94 do –411,14 31
Intervali pouzdanosti za regresione koeficijente
Interval pouzdanosti za nagib b za nivo značajnosti 95%: b ± t 0,05; n-2(Sb) za nivo značajnosti 99%: b ± t 0,01; n-2 (Sb)
Primer 1: 95% IP za nagib b
b = 79,52 t0,05; 5 = 2,571 Sb = 8,8903 79,52 ± 2,571 (8,8903) = 79,52 ± 22,86 95% IP: 56,66 do 102,38
Primer 1: 99% IP za nagib b
b = 79,52 t0,01; 5 = 4,032 Sb = 8,8903 79,52 ± 4,032 (8,8903) = 79,52 ± 35,85 99% IP: 43,67 do 115,37 32
Rezidualna analiza
Uslovi za regresionu analizu:
normalna raspodela greške konstantna varijansa greške za sve vrednosti x (homosedastičnost) greške su nezavisne jedna od druge
Odstupanje od ovih uslova se ispituje rezidualnom analizom Rezidualna analiza: izračunavanje razlike između dobijenih vrednosti y i izračunatih (iz jednačine) vrednosti y
33
Uslovi za regresionu analizu • normalna raspodela greške • konstantna varijansa greške za sve vrednosti x (homosedastičnost)
34
Primer 1 - reziduali 0
tC
mL dobijeni
mL izračunati
reziduali
24
480
380,4
99,6
28
600
698,5
-98,5
29
750
778,0
-28,0
29
810
778,0
32,0
33
960
1096,1
-136,1
36
1440
1334,7
105,3
37
1440
1414,2
25,8
35
Primer 1 - reziduali t Residual Plot 150
100
50 s l a u d i s e R
0 0
5
10
15
20
25
30
35
40
-50
-100
-150 t
36
Rezidualna analiza za homosedastičnost Y
Y
x
x
i l a u d i z e r
x
Nekonstantna varijansa
i l a u d i z e r
x
Konstantna varijansa 37
Predviđanja uz pomoć regresione analize
Vrste predviđanja Predviđanje jedne vrednosti (u jednoj tački) Predviđanje intervala
Šta se predviđa Populacioni prosečni odgovor (μ ) za dato x yx Tačka na populacionoj regresionoj liniji Individualni odgovor (y ) za dato x
38
Primer 1 – predviđanje y y = - 1528,03 + 79,52x, r = 0,970 mL = - 1528,03 + 79,52 t0C mL = - 1528,03 + 79,52 x 400C = 1652,8 mL = - 1528,03 + 79,52 x 200C= 62,4 mL = - 1528,03 + 79,52 x 100C = -732,8
(??) (??)
Predviđanje samo za raspon vrednosti x iz kojih je izračunata regresiona jednačina!
39
Predviđanje y Interval predikcije
y ± tα / 2,n− 2Syx 1+
(xp − x)2
1 + 2 n Σx − n(x)2
Za predviđanje jedne vrednosti y za dato x
Interval pouzdanosti
y ± tα / 2,n−2Syx
(xp − x)2 1 + n Σx2 − n(x)2
Za predviđanje populacione prosečne vrednosti y za dato x
Interval pouzdanosti za y je uži od intervala predikcije za y za istu datu vrednost x, jer je manja greška u predviđanju prosečne vrednosti od greške u predviđanju jedne vrednosti
40
Interval pouzdanosti za y
t - 290C y = 778 mL (izračunato) 95% Interval pouzdanosti t0,05, 5 = 2,571
1 (29− 30,857)2 778± 2,571×101 ,59 + 7 6796− 7(30,857)2
= 778± 107,44
670,56mL − 885,44mL
t - 290C y = 778 mL (izračunato) 99% Interval pouzdanosti t0,01, 5 = 4,032
1 (29− 30,857)2 778± 4,032×101 ,59 + 7 6796− 7(30,857)2
= 778± 168,49
609,51mL − 946,49mL 41
Interval predikcije za y
t - 290C y = 778 mL (izračunato) 95% Interval predikcije t0,05, 5 = 2,571
1 (29− 30,857)2 778± 2,571× 101 ,59 1+ + 7 6796− 7(30,857)2
= 778± 282,42
495,58mL − 1060 ,42mL
t - 290C y = 778 mL (izračunato) 99% Interval predikcije t0,01, 5 = 4,032
1 (29− 30,857)2 778± 4,032×101 ,59 1+ + 7 6796− 7(30,857)2
= 778± 442,91
335,09mL − 1220 ,91mL 42
Interval pouzdanosti vs. interval predikcije Interval predikcije za jedno y, za dato xp
y Interval pouzdanosti za prosečno y, za dato xp
x b 1 + y = b 0
x
x p
x
43
Korelacioni modeli
Daju odgovor na pitanje “Koliko je jaka linearna relacija između dve varijable”?’
Izražavaju se koeficijentom korelacije
Populacioni koeficijent korelacije se označava sa ρ (rho) Vrednosti se kreću od -1 to +1 Izražava stepen asocijacije
Koriste se uglavnom za razumevanje relacija
44
Koeficijent korelacije
Pearson – ov koeficijent korelacije:
r = koeficijent determinac ije =
=
∑ xy− Nxy (∑ x − N( x) ) (∑ y N( y) ) 2
2
2
2
45
Vrednosti koeficijenta korelacije potpuna negativna korelacija
-1.0
potpuna pozitivna korelacija
nema korelacije
-0.5
povećanje stepena negativne korelacije
0
+0.5
+1.0
povećanje stepena pozitivne korelacije
46
Koeficijent korelacije r = 0,8
r = 0,4
r = 0,0
r = -0,8
r = -0,4
r = 1,0
47
Tumačenje veličine koeficijenata korelacije do 0,20
neznatna korelacija, gotovo ne postoji povezanost između varijabli
od 0,20 do 0,40
niska korelacija, postoji mala povezanost između varijabli
od 0,40 do 0,70
umjerena korelacija, bitna povezanost između varijabli
od 0,70 do 0,90
visoka korelacija, izrazita povezanost između varijabli
od 0,90 do 1,00
veoma visoka korelacija, veoma uska povezanost između varijabli
48
Testiranje koeficijenta korelacije
Testira se da li postoji linearna korelacija između dve varijable Hipoteze H : ρ = 0 (nema korelacije) 0 H : ρ ≠ 0 (postoji korelacija) 1 Izraz za izračunavanje
N−2 t = r 2 − 1 r
H0 se prihvata ako je t < t α, N-2 zaključak: nema korelacije 49
Primer 1
r 2 = 0,9412 r = 0,9702
t = 8,95
H0 se ne prihvata Zaključak: postoji značajna korelacija
t0,05; 5 = 2,571
t > t0,05; 5
50
Linearna regresija u MS-Excel-u
Tools, Data Analysis, Regression Input Y-range: obeležiti zavisnu promenljivu Input X-range: obeležiti nezavisnu promenljivu Labels: označiti Confidence Level: 95% (ili 99%) označiti polje Output range i postaviti kursor na polje u Worksheetu gde treba da se pojavi izveštaj Residuals: označiti Residuals Plots: označiti Line Fit Plots: označiti OK
51
Primer 1 - u MS-Excel-u SUMMARY OUTPUT Regression Statistics Multiple R 0,97014 R Square 0,94118 Adjusted R Square 0,92942 Standard Error 101,698 Observations 7 ANOVA df Regression Residual Total
Intercept temp
1 5 6
SS MS F Significance F 827458,76 827458,76 80,005429 0,0002911 51712,66376 10342,533 879171,4286
Coefficients Standard Error -1528,034934 277,0080568 79,5197 8,8903
t Stat P-value -5,516 0,0026802 8,945 0,0002911
Lower 95% Upper 95% -2240,11 -815,96 56,67 102,37
52
Interpretacija ANOVA rezultata
F test testira nultu hipotezu da regresija ne objašnjava značajnu proporciju varijacije u y Stepeni slobode za F-test su 1 i n-2 U ovom primeru F = 80,1 sa 1 i 5 stepena slobode t-test za b=0 je identičan F-testu za r 2 = 0 vrednost t za b = 0 je jednaka kvadratnom korenu iz F
53
Linearna regresija u SPSS-u
Podaci se unose u dve kolone (nezavisna i zavisna promenljiva) Analyze, Regression, Linear Dependent : mL Independent: t Statistics:
Regression coefficients: označiti Estimates i Confidence intervals označiti Model Fit
Continue OK
54
Primer 1 - u SPSS-u Variable s Enter ed/Removebd
Model 1
Variables Entered Ta
Variables Removed ,
Method Enter
a. All requested variables entered. b. Dependent Variable: ML
M ode l Summaryb
Model 1
R R Square ,970 a ,941
Adjusted R Square ,929
Std. Error of the Estimate 101,70
a. Predictors: (Constant), T b. Dependent Variable: ML
55
Primer 1 - u SPSS-u ANOVAb
Model 1
Regression Residual Total
Sum of Squares 827458,8
df 1
Mean Square 827458,765
51712,664
5
10342,533
879171,4
6
F 80,005
Sig. ,000 a
a. Predictors: (Constant), T b. Dependent Variable: ML a Coefficients
Unstandardized Coefficients Model 1
B (Constant) -1528,035 T 79,520
Std. Error 277,008 8,890
Standardi zed Coefficien ts Beta ,970
95% Confidence Interval for B t -5,516
Sig. ,003
Lower Bound -2240,096
Upper Bound -815,974
8,945
,000
56,667
102,372
a. Dependent Variable: ML
y = - 1528,03 + 79,52x, r = 0,970 56
Primer 1 - u SPSS-u
Residu als Statisticsa Minimum 380,44
Maximum 1414,19
Mean 925,71
Std. Deviation 371,36
-136,11
105,33
1,14E-13
92,84
7
Std. Predicted Value
-1,468
1,315
,000
1,000
7
Std. Residual
-1,338
1,036
,000
,913
7
Predicted Value Residual
N 7
a. Dependent Variable: ML
57
Primer 1 - Grafik u SPSS
Graphs Scatter – Simple – Define Y-axis: mL X-axis: t OK Kliknuti na sliku 2 puta, da se otvori Chart Editor U Chart Editoru otvoriti Chart – Options – označiti Fit Line: Total, OK Zatvoriti Chart Editor
58
Primer 1 - Grafik u SPSS 1600
1400
1200
1000
800
600 L M 400 22
24
26
28
30
32
34
36
38
T
59
Primer 2 – vežba na času This dataset stems from a study concerning the preservation of ascorbic acid in vegetables during drying and storing. The amount of acid preserved is the response (dependent) variable, while the percentage dry matter is the explanatory (independent) variable. % suve materije 10,0
% sačuvanog vit C 66,7
% suve materije 10,0
% sačuvanog vit C 70,9
10.2
77,2
8,9
74,0
11.2
83,8
8,9
58,6
11.2
67,9
9,2
80,6
10,0
88,9
7,8
69,4
10,7
69,0
10,1
76,0
10,3
69,8
9,0
66,4
12,9
86,0
8,2
50,9
11,8
79,9
9,5
61,9
14,9
88,2
10,8
65,2
12,5
74,2
11,1
77,2
12,3
83,1
11,2
89,6
60
Primer 2 – Izveštaj u MS Excelu SUMMARY OUTPUT Regression Statistics Multiple R 0,618229 R Square 0,382207 Adjusted R 0,354125 Standard Err 8,052384 Observation 24 ANOVA df Regression Residual Total
SS MS 1 882,5254 882,5254 22 1426,5 64,84089 23 2309,025
Coefficientsandard Err Intercept 33,4819 11,0983 % suve mate 3,8458 1,0424
t Stat 3,0168 3,6893
F ignificance F 13,611 0,00128
P-value Lower 95%Upper 95%ower 95,0 pper 95,0 0,0063 10,4653 56,4984 10,46535 56,49844 0,0013 1,6839 6,0077 1,683931 6,007677
61
Primer 2 – Grafički prikaz 100 90 80 70 C t i v 60 g o n a 50 v u č a 40 s %
30 20 10 0 0
2
4
6
8
10
12
14
16
% suve materije % sačuvanog vit C
Linear (% sačuvanog vit C)
62
% suve materije
% dobijen
% izračunat
Residuals
10,0
66,7
71,94
-5,24
10,2
77,2
72,71
4,49
11,2
83,8
76,55
7,25
11,2
67,9
76,55
-8,65
10,0
88,9
71,94
16,96
10,7
69
74,63
-5,63
10,3
69,8
73,09
-3,29
12,9
86
83,09
2,91
11,8
79,9
78,86
1,04
14,9
88,2
90,78
-2,58
12,5
74,2
81,55
-7,35
12,3
83,1
80,79
2,31
10,0
70,9
71,94
-1,04
8,9
74
67,71
6,29
8,9
58,6
67,71
-9,11
9,2
80,6
68,86
11,74
7,8
69,4
63,48
5,92
10,1
76
72,32
3,68
9,0
66,4
68,09
-1,69
8,2
50,9
65,02
-14,12
9,5
61,9
70,02
-8,12
10,8
65,2
75,02
-9,82
11,1
77,2
76,17
1,03
11 2
89 6
76 55
13 05
Reziduali
63
Primer 2 - Reziduali Residuals 20 15 10 5 0 0
2
4
6
8
10
12
14
16
-5 -10 -15 -20 % suve materije
64
Primena regresione analize u analitici
Regresiona analiza se u analitici primenjuje u sledećim slučajevima Za izračunavanje jednačine standardne krive Za procenu tačnosti metoda i poređenje metoda Za procenu tačnosti metoda na osnovu metode standardnog dodatka (“recovery”)
65
Primena regresione analize u analitici
Stupnjevi u primeni regresione i korelacione analize:
1.
Izračunavanje koeficijenta korelacije r za standardnu krivu r ≥ 0,99 r 2 = 0,98 = 98% za tačnost i poredjenje metoda r ≥ 0,9 r 2 = 0,81 = 81%
66
Primena regresione analize u analitici 2.
Izračunavanje jednačine prave Odsečak a – sistematska greška Nagib b – sistematska (% greška)
2.
Testiranje koeficijenata Za standardnu krivu: testiranje odsečka a Za poredjenje metoda: testiranje odsečka a i nagiba b Za “recovery” test: testiranje nagiba b
67
Tačnost metode – primer 3
r = 0,99995 b = 1,037
a = -4,221
Syx = 1,0486
68
Tačnost metode – testiranje grešaka Testiranje značajnosti odsečka a (sistematske greške) H : a = 0 H1: a ≠ 0 0 S = 0,976 ta = 4,324 a t ta > t0,05 0,05, 4 = 2,776
Značajnost odsečka a: Prihvata se H1: a ≠ 0 Zaključak: postoji negativna sistematska greška od 4,22 mmol/L 69