Prosta Linearna Regresiona Analiza

Regresiona i korelaciona analiza Regresiona

1

Relacije između varijabli  



Reprezentuju neke fenomene Matematički modeli su matematički izrazi tih fenomena Gauss-Markoff pretpostavka za linearnu regresiju  Formula za izračunavanje koeficijenata u regresiji je BLUE (Best Linear Unbiased Estimators)  Best Linear – najmanjom varijansom – najefikasniji model sa najmanjom  Unbiased Estimators – varijable – očekivane vrednosti zavisne varijable iste ili vrlo bliske populacionim vrednostima

2

Regresiona analiza ana liza 

Regresiona analiza se koristi da:  objasni kakav efekat ima promena nezavisne varijable na zavisnu varijablu  predvidi vrednost zavisne varijable na osnovu najmanje jedne nezavisne varijable



Zavisna varijabla: varijabla koju želimo da objasnimo ili predvidimo Nezavisna varijabla: varijabla koju koristimo da objasnimo zavisnu varijablu



3

Regresioni modeli 

Izražavaju se jednačinom u kojoj je:  1 numerička zavisna (odgovor ) vari j jabla  1 ili više numeričkih ili kategoričkih nezavisnih varijabli



Prosta linearna regresija  samo jedna nezavisna varijabla x 

relacija između x i y izražena je linearnom funkcijom

4

Prost linearni regresioni model • Relacija između varijabli je linearna funkcija • Prava linija najbolje “fituje” podatke y intercept (konstanta) slučajna greška

yi = β0 + β1xi + εi zavisna varijabla (odgovor)

nagib

nezavisna varijabla (eksplanatorna)

5

Populacioni linearni regresioni model

yi = β 0 + β1xi + ε i

y

dobijena vrednost

ει = slučajna greška

µ xy = β 0 + β1xi x dobijena vrednost 6

Prost linearni regresioni model

yi = a + bxi yi - predviđena vrednost za zapažanje i xi - vrednost x za zapažanje i a - intercept za uzorak, koristi se za procenu populacionog β0 b - nagib za uzorak, koristi se za procenu populacionog β1

7

Linearna jednačina

y

y = a + bx promena u y b = nagib promena u x a = y-intercept x

© 1984-1994 T/Maker Co.

8

Metoda najmanjih kvadrata  

 

Kako povlačimo liniju između tačaka? Kako procenjujemo koja linija najbolje obuhvata podatke? Metoda najmanjih kvadrata Najbolje slaganje (“fitovanje”) znači da je razlika između stvarne vrednosti y i izračunate vrednosti y najmanja 





Iz srednje vrednosti x možemo da izračunamo izračunamo srednju vrednost y kada x odstupa od srednje vrednosti, možemo da očekujemo i da y odstupa od svoje srednje vrednosti x “objašnjava” odstupanje y od srednje vrednosti 9

Metoda najmanjih kvadrata – grafički prikaz Metoda najmanjih kvadrata minimizuje sumu kvadriranih razlika (grešaka = e) između stvarnih i pretpostavljenih vrednosti y n

∑

2

2

2

2

2

ei = e1 + e 2 + e 3 + e 4

i =1

y2 = a + b x2 + e2

y

e4

e2 e1

e3

y = a + bx

x 10

Koeficijenti u jednačini prave

Regresiona jednačina

y = a + bx

Nagib prave

xy− N x y ∑ b= ∑ x − N ( x)

Odsečak na y-osi

a = y − bx

2

2

11

Interpretacija koeficijenata b - nagib Daje promenu y (kao umnožak) za 1 jedinicu povećanja x  Primer : Ako Ako

je b = 2, onda je očekivano y dva puta veće za svaku 1 jedinicu povećanja u x

a - odsečak na y-osi Prosečna vrednost y kada je x = 0

12

Primer 1 t (C 0)

unošen j e vode (mL)

24

48 0

28

60 0

29

75 0

29

81 0

33

96 0

36

1440

37

1440

0

13

Primer 1 – grafički prikaz

1600 1400 1200 1000 L m

800 600 400 200 0 0

5

10

15

20

25

30

35

40

t

14

Primer 1 t (0C) x

voda (mL) y

x2

xy

24

480

576

11520

28

600

784

16800

29

750

841

21750

29

810

841

23490

33

960

1089

31680

36

1440

1296

51840

37

1440

1369

53280

216 x= = 30,857 7 6480 y= = 925,714 7 Σx2 = 6796 Σxy = 210360

15

Primer 1 xy− N x y ∑ b= ∑ x − N ( x) 2

2

210360− 7 × 30,857× 925,714 = = 79,5197 2 6796− 7 (30,857)

a = y − b x = 925,714- 79,5197× 30,857= -1528,035

y = - 1528,03 + 79,52x mL = - 1528,03 + 79,52 t

16

Evaluacija modela 

U kojoj meri model izražava relaciju između varijabli?



Približnost “najboljem slaganju” 

Što su tačke bliže liniji to je slaganje bolje



Ispitivanje veličine varijacije



Značajnost izračunatih parametara



Rezidualna analiza y = a + bx

17

Mere varijacije u regresiji reg resiji SST = Ukupna varijacija (ukupna suma kvadrata) 





mera za varijaciju vrednosti y oko njihove srednje vrednosti ukupna varijacija oko regresione prave jednaka je sumi kvadrata razlika između vrednosti y u svakom paru i srednje vrednosti y odgovara ukupnoj sumi kvadrata u ANOVI

∑ (yi − y)

2

18

Mere varijacije u regresiji reg resiji SSR = Varijacija za koju postoji objašnjenje

(r egresion egresiona suma kvadrata)  



mera za varijaciju vezanu za relaciju između x i y objašnjiva varijacija jednaka je sumi kvadrata razlika između svake izračunate (iz jednačine) vrednosti y i srednje vrednosti y odgovara sumi kvadrata između grupa u ANOVI

∑ ( yˆ i − y)

2

19

Mere varijacije u regresiji reg resiji SSE = Varijacija za koju ne postoji objašnjenje

(suma kvadrata greške)   



mera za varijaciju koja potiče od drugih faktora varijacija za koju ne postoji objašnjenje Neobjašnjiva varijacija jednaka je sumi kvadrata razlika između vrednosti y u svakom paru i odgovarajuće izračunate (iz jednačine) vrednosti y odgovara sumi kvadrata unutar grupa u ANOVI

∑

2 ˆ (yi − y) 20

Mere varijacije u regresiji yi y



SSE = Σ(yi − y) 2

yˆ

y = a + bx

SS T = Σ(yi − y) 2



SSR = Σ( y − y) 2 y

X

xi

x

21

Koeficijent determinacije

objašnjiva varijacija SK R r = = = ukupna varijacija SK T 2

0 ≤ r 2 ≤ 1



2 − y y ) ∑ = = 2 ∑(yi − y)

procenat varijacije u y koji je posledica varijacije u x

22

r 2 - primeri y

r 2 = 0,81

y

x

y

r 2 = 0,42

x

r 2 = 0,77

x y

r 2 = 0,05

x 23

Primer 1 

r2 =

Σ(y − y)2 Σ(yi − y)2

r2 = 0,9412 94% varijacije u y (mL vode) potiče od varijacije u x (temperatura)

24

Standardna greška regresione prave 



Mera za odstupanje dobijene vrednosti y od izračunate (iz jednačine) vrednosti y Veličina greške utiče na:  tačnost predviđanja  značajnost parametara 

Σ(yi − y)2 SS E = S yx = N− 2 N− 2

S yx =

Σy2 − aΣy - bΣxy N−2 25

Primer 1 a = − 1528 ,03 0

t (0C) x 24

mL y 480

y2

xy

230400

11520

Σ y = 6480

28

600

360000

16800

Σ y = 6877800

29

750

562500

21750

Σ xy= 210360

29

810

656100

23490

N= 7

33

960

921600

31680

36

1440

2073600

51840

37

1440

2073600

53280

2

b = 79,52 2

Syx = 101 ,59

26

Testiranje nagiba b  

Da li postoji linearna relacija između x i y ? Hipoteze  H : β = 0 (nema linearne relacije) 0 1  H : β ≠ 0 (postoji linearna relacija) 1 1

Sb =

Sy x 2

2

Σ x − Nx

b− β 1 tb = Sb

H0 se prihvata ako je tb < tα, N-2 zaključak: b = 0 (ne postoji linearna relacija) 27

Primer 1 Sb = 8,8787

tb = 8, 956

t0,05; 5 = 2,571

tb > t0,05; 5

H0 se ne prihvata Zaključak: postoji linearna relacija između spoljašnje temperature i zapremine vode koju čovek popije

28

Testiranje odsečka a  

Testira se ako postoji linearna relacija izmedju x i y Hipoteze  H : β = 0 0 0  H : β ≠ 0 1 0 Sa = Sy,x

Σx2 N (Σx2 − Nx2)

a ta = Sa H0 se prihvata ako je ta < tα, N-2 zaključak: a = 0 (nema sistematske greške) 29

Primer 1 Sa = 277,008

ta = 5,516

t0,05; 5 = 2,571

ta > t0,05; 5

H0 se ne prihvata Zaključak: odsečak na y-osi je značajno različit od 0

30

Intervali pouzdanosti za regresione koeficijente 

Interval pouzdanosti za odsečak a  za nivo značajnosti 95%: a ± t 0,05; n-2(Sa)  za nivo značajnosti 99%: a ± t 0,01; n-2(Sa)



Primer 1: 95% IP za odsečak a   



a = – 1528,04 t0,05; 5 = 2,571 Sa = 277,008 –1528,04 ± 2,571 (277,008) = –1528,04 ± 712,19 95% IP: –2240,23 do –815,85

Primer 1: 99% IP za odsečak a   

a = –1528,04 t0,01; 5 = 4,032 Sa = 277,008 –1528,04 ± 4,032 (277,008) = –1528,04 ± 1116,90 99% IP: –2644,94 do –411,14 31

Intervali pouzdanosti za regresione koeficijente 

Interval pouzdanosti za nagib b  za nivo značajnosti 95%: b ± t 0,05; n-2(Sb)  za nivo značajnosti 99%: b ± t 0,01; n-2 (Sb)



Primer 1: 95% IP za nagib b   



b = 79,52 t0,05; 5 = 2,571 Sb = 8,8903 79,52 ± 2,571 (8,8903) = 79,52 ± 22,86 95% IP: 56,66 do 102,38

Primer 1: 99% IP za nagib b   

b = 79,52 t0,01; 5 = 4,032 Sb = 8,8903 79,52 ± 4,032 (8,8903) = 79,52 ± 35,85 99% IP: 43,67 do 115,37 32

Rezidualna analiza 

Uslovi za regresionu analizu:  







normalna raspodela greške konstantna varijansa greške za sve vrednosti x (homosedastičnost) greške su nezavisne jedna od druge

Odstupanje od ovih uslova se ispituje rezidualnom analizom Rezidualna analiza: izračunavanje razlike između dobijenih vrednosti y i izračunatih (iz jednačine) vrednosti y

33

Uslovi za regresionu analizu • normalna raspodela greške • konstantna varijansa greške za sve vrednosti x (homosedastičnost)

34

Primer 1 - reziduali 0

tC

mL dobijeni

mL izračunati

reziduali

24

480

380,4

99,6

28

600

698,5

-98,5

29

750

778,0

-28,0

29

810

778,0

32,0

33

960

1096,1

-136,1

36

1440

1334,7

105,3

37

1440

1414,2

25,8

35

Primer 1 - reziduali t Residual Plot 150

100

50 s l a u d i s e R

0 0

5

10

15

20

25

30

35

40

-50

-100

-150 t

36

Rezidualna analiza za homosedastičnost Y

Y

x

x

i l a u d i z e r

x

Nekonstantna varijansa

i l a u d i z e r

x



Konstantna varijansa 37

Predviđanja uz pomoć regresione analize 

Vrste predviđanja  Predviđanje jedne vrednosti (u jednoj tački)  Predviđanje intervala



Šta se predviđa  Populacioni prosečni odgovor (μ ) za dato x yx  Tačka na populacionoj regresionoj liniji  Individualni odgovor (y ) za dato x

38

Primer 1 – predviđanje y y = - 1528,03 + 79,52x, r = 0,970 mL = - 1528,03 + 79,52 t0C mL = - 1528,03 + 79,52 x 400C = 1652,8 mL = - 1528,03 + 79,52 x 200C= 62,4 mL = - 1528,03 + 79,52 x 100C = -732,8

(??) (??)

Predviđanje samo za raspon vrednosti x iz kojih je izračunata regresiona jednačina!

39

Predviđanje y Interval predikcije



y ± tα / 2,n− 2Syx 1+

(xp − x)2

1 + 2 n Σx − n(x)2

Za predviđanje jedne vrednosti y za dato x

Interval pouzdanosti 

y ± tα / 2,n−2Syx

(xp − x)2 1 + n Σx2 − n(x)2

Za predviđanje populacione prosečne vrednosti y za dato x

Interval pouzdanosti za y je uži od intervala predikcije za y za istu datu vrednost x, jer je manja greška u predviđanju prosečne vrednosti od greške u predviđanju jedne vrednosti

40

Interval pouzdanosti za y  

t - 290C y = 778 mL (izračunato) 95% Interval pouzdanosti t0,05, 5 = 2,571

1 (29− 30,857)2 778± 2,571×101 ,59 + 7 6796− 7(30,857)2

= 778± 107,44

670,56mL − 885,44mL

 

t - 290C y = 778 mL (izračunato) 99% Interval pouzdanosti t0,01, 5 = 4,032

1 (29− 30,857)2 778± 4,032×101 ,59 + 7 6796− 7(30,857)2

= 778± 168,49

609,51mL − 946,49mL 41

Interval predikcije za y  

t - 290C y = 778 mL (izračunato) 95% Interval predikcije t0,05, 5 = 2,571

1 (29− 30,857)2 778± 2,571× 101 ,59 1+ + 7 6796− 7(30,857)2

= 778± 282,42

495,58mL − 1060 ,42mL

 

t - 290C y = 778 mL (izračunato) 99% Interval predikcije t0,01, 5 = 4,032

1 (29− 30,857)2 778± 4,032×101 ,59 1+ + 7 6796− 7(30,857)2

= 778± 442,91

335,09mL − 1220 ,91mL 42

Interval pouzdanosti vs. interval predikcije Interval predikcije za jedno y, za dato xp

y Interval pouzdanosti za prosečno y, za dato xp

x b 1 + y = b 0

x

x p

x

43

Korelacioni modeli 

Daju odgovor na pitanje “Koliko je jaka linearna relacija između dve varijable”?’



Izražavaju se koeficijentom korelacije   



Populacioni koeficijent korelacije se označava sa ρ (rho) Vrednosti se kreću od -1 to +1 Izražava stepen asocijacije

Koriste se uglavnom za razumevanje relacija

44

Koeficijent korelacije 

Pearson – ov koeficijent korelacije:

r = koeficijent determinac ije =

=

∑ xy− Nxy (∑ x − N( x) ) (∑ y N( y) ) 2

2

2

2

45

Vrednosti koeficijenta korelacije potpuna negativna korelacija

-1.0

potpuna pozitivna korelacija

nema korelacije

-0.5

povećanje stepena negativne korelacije

0

+0.5

+1.0

povećanje stepena pozitivne korelacije

46

Koeficijent korelacije r = 0,8

r = 0,4

r = 0,0

r = -0,8

r = -0,4

r = 1,0

47

Tumačenje veličine koeficijenata korelacije do 0,20

neznatna korelacija, gotovo ne postoji povezanost između varijabli

od 0,20 do 0,40

niska korelacija, postoji mala povezanost između varijabli

od 0,40 do 0,70

umjerena korelacija, bitna povezanost između varijabli

od 0,70 do 0,90

visoka korelacija, izrazita povezanost između varijabli

od 0,90 do 1,00

veoma visoka korelacija, veoma uska povezanost između varijabli

48

Testiranje koeficijenta korelacije 





Testira se da li postoji linearna korelacija između dve varijable Hipoteze  H : ρ = 0 (nema korelacije) 0  H : ρ ≠ 0 (postoji korelacija) 1 Izraz za izračunavanje

N−2 t = r 2 − 1 r

H0 se prihvata ako je t < t α, N-2 zaključak: nema korelacije 49

Primer 1 

r 2 = 0,9412 r = 0,9702



t = 8,95



H0 se ne prihvata Zaključak: postoji značajna korelacija





t0,05; 5 = 2,571

t > t0,05; 5

50

Linearna regresija u MS-Excel-u      

   

Tools, Data Analysis, Regression Input Y-range: obeležiti zavisnu promenljivu Input X-range: obeležiti nezavisnu promenljivu Labels: označiti Confidence Level: 95% (ili 99%) označiti polje Output range i postaviti kursor na polje u Worksheetu gde treba da se pojavi izveštaj Residuals: označiti Residuals Plots: označiti Line Fit Plots: označiti OK

51

Primer 1 - u MS-Excel-u SUMMARY OUTPUT Regression Statistics Multiple R 0,97014 R Square 0,94118 Adjusted R Square 0,92942 Standard Error 101,698 Observations 7 ANOVA df Regression Residual Total

Intercept temp

1 5 6

SS MS F Significance F 827458,76 827458,76 80,005429 0,0002911 51712,66376 10342,533 879171,4286

Coefficients Standard Error -1528,034934 277,0080568 79,5197 8,8903

t Stat P-value -5,516 0,0026802 8,945 0,0002911

Lower 95% Upper 95% -2240,11 -815,96 56,67 102,37

52

Interpretacija ANOVA rezultata 

 

 

F test testira nultu hipotezu da regresija ne objašnjava značajnu proporciju varijacije u y Stepeni slobode za F-test su 1 i n-2 U ovom primeru F = 80,1 sa 1 i 5 stepena slobode t-test za b=0 je identičan F-testu za r 2 = 0 vrednost t za b = 0 je jednaka kvadratnom korenu iz F

53

Linearna regresija u SPSS-u     

Podaci se unose u dve kolone (nezavisna i zavisna promenljiva) Analyze, Regression, Linear Dependent : mL Independent: t Statistics: 

  

Regression coefficients: označiti Estimates i Confidence intervals označiti Model Fit

Continue OK

54

Primer 1 - u SPSS-u Variable s Enter ed/Removebd

Model 1

Variables Entered Ta

Variables Removed ,

Method Enter

a. All requested variables entered. b. Dependent Variable: ML

M ode l Summaryb

Model 1

R R Square ,970 a ,941

Adjusted R Square ,929

Std. Error of the Estimate 101,70

a. Predictors: (Constant), T b. Dependent Variable: ML

55

Primer 1 - u SPSS-u ANOVAb

Model 1

Regression Residual Total

Sum of Squares 827458,8

df 1

Mean Square 827458,765

51712,664

5

10342,533

879171,4

6

F 80,005

Sig. ,000 a

a. Predictors: (Constant), T b. Dependent Variable: ML a Coefficients

Unstandardized Coefficients Model 1

B (Constant) -1528,035 T 79,520

Std. Error 277,008 8,890

Standardi zed Coefficien ts Beta ,970

95% Confidence Interval for B t -5,516

Sig. ,003

Lower Bound -2240,096

Upper Bound -815,974

8,945

,000

56,667

102,372

a. Dependent Variable: ML

y = - 1528,03 + 79,52x, r = 0,970 56

Primer 1 - u SPSS-u

Residu als Statisticsa Minimum 380,44

Maximum 1414,19

Mean 925,71

Std. Deviation 371,36

-136,11

105,33

1,14E-13

92,84

7

Std. Predicted Value

-1,468

1,315

,000

1,000

7

Std. Residual

-1,338

1,036

,000

,913

7

Predicted Value Residual

N 7

a. Dependent Variable: ML

57

Primer 1 - Grafik u SPSS       



Graphs Scatter – Simple – Define Y-axis: mL X-axis: t OK Kliknuti na sliku 2 puta, da se otvori Chart Editor U Chart Editoru otvoriti Chart – Options – označiti Fit Line: Total, OK Zatvoriti Chart Editor

58

Primer 1 - Grafik u SPSS 1600

1400

1200

1000

800

600 L M 400 22

24

26

28

30

32

34

36

38

T

59

Primer 2 – vežba na času This dataset stems from a study concerning the preservation of ascorbic acid in vegetables during drying and storing. The amount of acid preserved is the response (dependent) variable, while the percentage dry matter is the explanatory (independent) variable. % suve materije 10,0

% sačuvanog vit C 66,7

% suve materije 10,0

% sačuvanog vit C 70,9

10.2

77,2

8,9

74,0

11.2

83,8

8,9

58,6

11.2

67,9

9,2

80,6

10,0

88,9

7,8

69,4

10,7

69,0

10,1

76,0

10,3

69,8

9,0

66,4

12,9

86,0

8,2

50,9

11,8

79,9

9,5

61,9

14,9

88,2

10,8

65,2

12,5

74,2

11,1

77,2

12,3

83,1

11,2

89,6

60

Primer 2 – Izveštaj u MS Excelu SUMMARY OUTPUT Regression Statistics Multiple R 0,618229 R Square 0,382207 Adjusted R 0,354125 Standard Err 8,052384 Observation 24 ANOVA df Regression Residual Total

SS MS 1 882,5254 882,5254 22 1426,5 64,84089 23 2309,025

Coefficientsandard Err Intercept 33,4819 11,0983 % suve mate 3,8458 1,0424

t Stat 3,0168 3,6893

F ignificance F 13,611 0,00128

P-value Lower 95%Upper 95%ower 95,0 pper 95,0 0,0063 10,4653 56,4984 10,46535 56,49844 0,0013 1,6839 6,0077 1,683931 6,007677

61

Primer 2 – Grafički prikaz 100 90 80 70 C t i v 60 g o n a 50 v u č a 40 s %

30 20 10 0 0

2

4

6

8

10

12

14

16

% suve materije % sačuvanog vit C

Linear (% sačuvanog vit C)

62

% suve materije

% dobijen

% izračunat

Residuals

10,0

66,7

71,94

-5,24

10,2

77,2

72,71

4,49

11,2

83,8

76,55

7,25

11,2

67,9

76,55

-8,65

10,0

88,9

71,94

16,96

10,7

69

74,63

-5,63

10,3

69,8

73,09

-3,29

12,9

86

83,09

2,91

11,8

79,9

78,86

1,04

14,9

88,2

90,78

-2,58

12,5

74,2

81,55

-7,35

12,3

83,1

80,79

2,31

10,0

70,9

71,94

-1,04

8,9

74

67,71

6,29

8,9

58,6

67,71

-9,11

9,2

80,6

68,86

11,74

7,8

69,4

63,48

5,92

10,1

76

72,32

3,68

9,0

66,4

68,09

-1,69

8,2

50,9

65,02

-14,12

9,5

61,9

70,02

-8,12

10,8

65,2

75,02

-9,82

11,1

77,2

76,17

1,03

11 2

89 6

76 55

13 05

Reziduali

63

Primer 2 - Reziduali Residuals 20 15 10 5 0 0

2

4

6

8

10

12

14

16

-5 -10 -15 -20 % suve materije

64

Primena regresione analize u analitici 

  

Regresiona analiza se u analitici primenjuje u sledećim slučajevima Za izračunavanje jednačine standardne krive Za procenu tačnosti metoda i poređenje metoda Za procenu tačnosti metoda na osnovu metode standardnog dodatka (“recovery”)

65

Primena regresione analize u analitici 

Stupnjevi u primeni regresione i korelacione analize:

1.

Izračunavanje koeficijenta korelacije r za standardnu krivu r ≥ 0,99 r 2 = 0,98 = 98% za tačnost i poredjenje metoda r ≥ 0,9 r 2 = 0,81 = 81%

66

Primena regresione analize u analitici 2.

Izračunavanje jednačine prave  Odsečak a – sistematska greška  Nagib b – sistematska (% greška)

2.

Testiranje koeficijenata  Za standardnu krivu: testiranje odsečka a  Za poredjenje metoda: testiranje odsečka a i nagiba b  Za “recovery” test: testiranje nagiba b

67

Tačnost metode – primer 3

r = 0,99995 b = 1,037

a = -4,221

Syx = 1,0486

68

Tačnost metode – testiranje grešaka Testiranje značajnosti odsečka a (sistematske greške)  H : a = 0 H1: a ≠ 0 0  S = 0,976 ta = 4,324 a  t ta > t0,05 0,05, 4 = 2,776

Značajnost odsečka a: Prihvata se H1: a ≠ 0 Zaključak: postoji negativna sistematska greška od 4,22 mmol/L 69

Prosta Linearna Regresiona Analiza

Recommend Documents