Probleme Rezolvate Regresie Liniara Simpla

Problema 1. Un analist doreşte s ă studieze legătura dintre cheltuielile pentru promovarea produselor şi nivelul vânzărilor realizate. În acest scop el sistematizează date pentru 15 mărfuri alimentare privind cheltuielile lunare cu promovarea produsului (mii lei) şi încasările lunare realizate (mii lei): Cheltuieli promovare (mii lei) 20,0 14,8 20,5 12,5 18,0 14,3 24,9 16,5 24,3 20,2 22,0 19,0 12,3 14,0 16,7

Nr. crt. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Încasări lunare (mii lei) 2190 1900 1990 1210 1500 1980 3340 1880 3100 2130 2880 3120 1860 1730 1740

a) Analiza legaturii pe baza metodei grafice: Pentru analiza de regresie liniară simplă vom construi corelograma: 3800

3400

3000

) i e l 2600 . l i m ( i r a s a 2200 c n I 1800

1400

1000 10

12

14

16

18

20

22

24

26

Cheltuieli de promovare (mil. lei)

Figura 4.8 Distribuţia încasărilor în funcţie de cheltuieli

Analizând corelograma remarcăm că între cele două variabile există o legătură liniară directă ce poate fi descrisă printr-o ecuaţie de forma: yi = a + bxi + ei

b) Determinam modelul de regresie liniara in esantion. Calculele necesăre estimării parametrilor ecuaţiei de regresie sunt redate în tabelul următor: Tabelul 4.2

Nr. Chelt. Încas. (Y) crt. (X)

x 2

y 2

xy

y

)

y − y

)

( y − y ) 2

)

y − y

2

( y − y )

Nr. Chelt. Încas.

crt. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Total

(X) 12,30 12,50 14,00 14,30 14,80 16,50 16,70 18,00 19,00 20,00 20,20 20,50 22,00 24,30 24,90 270,00

y 2

x 2

(Y) 1860 1210 1730 1980 1900 1880 1740 1500 3120 2190 2130 1990 2880 3100 3340 32550

xy

)

y − y

y

)

151,29 3459600 22878 1448,83 156,25 1464100 15125 1474,14 196,00 2992900 24220 1663,90 204,49 3920400 28314 1701,85 219,04 3610000 28120 1765,11 272,25 3534400 31020 1980,18 278,89 3027600 29058 2005,48 324,00 2250000 27000 2169,94 361,00 9734400 59280 2296,45 400,00 4796100 43800 2422,96 408,04 4536900 43026 2448,26 420,25 3960100 40795 2486,22 484,00 8294400 63360 2675,98 590,49 9610000 75330 2966,95 620,01 11155600 83166 3042,86 5086,00 76346500 614492 32549,10

( y − y )

)

2

411,17 169058,30 -264,14 69767,30 66,10 4369,21 278,15 77365,75 134,89 18195,85 -100,18 10035,03 -265,48 70478,04 -669,94 448819,60 823,55 678234,60 -232,96 54270,36 -318,26 101290,70 -496,22 246229,33 204,02 41624,16 133,05 17701,50 297,14 88292,77 0,90 2095732,52

y − y

( y − y )2

-310 -960 -440 -190 -270 -290 -430 -670 950 20 -40 -180 710 930 1170 0

96100 921600 193600 36100 72900 84100 184900 448900 902500 400 1600 32400 504100 864900 1368900 5713000

Sistemul de ecuaţii, pentru determinarea coeficienţilor a şi b este:  15a   270a

+

=

270b +

5086b

32550 =

614492

şi rezultă:

a = -107,24 şi b = 126,51 Ecuaţia de regresie este: ) yi

= −107 ,24 + 126 ,51 xi

Pe baza datelor din tabelul 4.1 putem determina coeficientul de corelaţie: 15 ⋅ 614492 − 270 ⋅ 32550 = 0,796 , ceea ce ne arată o legătură directă şi de (15 ⋅ 5086 − 270 2 )(15 ⋅ 76346500 − 32550 2 )

r=

intensitate destul de puternică între cele două variabile. c) Vom valida modelul de regresie determinat mai sus: Surs ă variaţiei

Suma pătratelor

(SS-Sum of Squares)

Datorată regresiei

∆ y / x =3617268

Reziduală

∆ e =2095732

Totală

Grade de libertate

( df- degree of freedom)

2

2

2

∆ y =5713000

k=1 n – k – 1=15-

2=13

Media pătratelor ( MS- Mean of Squares) s y2 / x =3617268

se2 =161210,2

n – 1=15-1= 14

Pentru testarea validităţii modelului se formulează cele două ipoteze: H 0: model nevalid statistic,

cu alternativa

Tabelul 4.4 Testul Fisher ( testul F)

Fcalc =

3617268 =22,438 161210 ,2

H 1: model valid statistic

Valoarea teoretică pentru un prag de semnificaţie

= 0,05 şi 1, respectiv 13 grade de libertate,

preluată din tabelul repartiţiei Fisher este F α ;k ;n−k −1 =4,67. Întrucât Fcalc> F α ;k ;n−k −1 se respinge H 0, adică se concluzionează că modelul este valid. d) Pe baza datelor din exemplul de mai sus putem calcula şi testa: 1) Raportul de corela ţ ie

R

1−

=

2095732 ,52 5713000

0 ,6332

=

=

0 ,796 ,ceea ce ne arată o legătură destul de puternică între

variabile. n − k − 1

F =

k

⋅

R 2

=

1 − R 2

22 ,438

Valoarea teoretică pentru un prag de semnificaţie α = 0,05 şi 1, respectiv 13 grade de libertate, preluată din tabelul repartiţiei Fisher este F α ;k ;n−k −1 =4,67. Întrucât Fcalc> F α ;k ;n−k −1 se respinge H 0, adică se concluzionează că R este semnificativ statistic. 2) Coeficientul de determina ţ ie R2 =

0, 6332 ceea ce arată că 63,32% din variaţia încasărilor se explică prin variaţia cheltuielilor

de promovare a produsului. Observăm, de asemenea, că r =R =0,796 , ceea ce arată că modelul de regresie este liniar. e) Testarea semnificatiei parametrilor modelului de regresie si determinarea intervalelor lor de incredere. 1) parametrul β Ipotezele sunt: H0 : β = 0 ( µ b = β = 0), H1 : β ≠ 0. Deoarece volumul eşantionului este mic (n<30), vom utiliza testul t : b − µ b

t calc

=

t calc

= 4,736,

sb

=

b−0 sb

, statistică ce urmează o distribuţie t cu (n – 2) grade de libertate.

iar sb = 26,7

Pentru un prag de semnificaţie de 5%, valoarea teoretică a testului este tα /2;13 = 2,16 . Deoarece t calc >tα /2;13 vom concluziona că este foarte improbabil ca estimatorul b să provină dintr-o populaţie cu β =0 ( adică β este semnificativ diferit de zero).

Intervalul de încredere pentru parametrul β , coeficientul de regresie din colectivitatea generală, este:

b − t α / 2 ,n −2 ⋅ s b

≤

β ≤ b + t α / 2 ,n− 2 ⋅ sb , adică 68 ,81

≤

β

≤

184 ,21

2) parametrul a Ipotezele sunt: H0 : α = 0, H1 : α ≠ 0 Statistica t este: t calc

=

a − µ a

=

a−0

sa

sa

.

t calc = -0,218, iar sa =491,8

Pentru un prag de semnificaţie de 5%, valoarea teoretică a testului este tα /2;13 = 2,16 . Deoarece t calc
( adică α nu este semnificativ diferit de zero). Intervalul de încredere pentru parametrul α este dat de: a − t α / 2 ,n −2 ⋅ s a

≤ α ≤

a + t α / 2 ,n−2 ⋅ sa , adică -1169,69

Un argument suplimentar pentru concluzia că parametrul

α

≤ α ≤ 955,22.

este nesemnificativ statistic este acela că

intervalul de încredere include şi valoarea zero.

Problema 2. Proprietarul unui minihotel dezvoltă o analiză statistică pentru determinarea cheltuielilor cu materialele de curăţenie (Y) în funcţie de numărul camerelor ocupate (X). El determină ecuaţia de regresie pentru cheltuielile zilnice (pentru detergent, clor etc.) (zeci mii lei), pe baza datelor înregistrate pentru n=14 zile: yi

= 10,8 + 3,7 xi

∑ ( x ∑ ( y

− x )

2

i

ˆ) − y

2

i

=

26,86

x

=

2,3

= 163,39

a) Proprietarul doreşte să estimeze cheltuielile cu materialele de curăţenie pentru o zi în care are 6 camere ocupate; b) Proprietarul doreşte să estimeze cheltuielile medii cu curăţenia pentru zilele în care are 6 camere ocupate. Dacă numărul camerelor ocupate este x n +1

=

6 , atunci:

yˆ n +1

= 10,8 + 3,7 ⋅ 6 =

t α / 2,n −2 se

=

= t 0.025,12

163,39 12

33; = 2,179;

= 3,69.

t 0,025;12 = 2,179

a) Intervalul de încredere pentru cheltuielile unei zile în care sunt 6 camere ocupate este:

1 (6 − 2,3) 2 33 ± 2,179 ⋅ 3,69 1 + + , 14 26.86 adică (22,89;43,11) garantat cu o probabilitate de 95%; b) Intervalul de încredere pentru media cheltuielilor zilnice în cazul în care au 6 camere ocupate este:

1 (6 − 2,3) 2 33 ± 2,179 ⋅ 3,69 + , 14 26.86 adică (30,19;35,82), garantat cu o probabilitate de 95%.

Problema 3 Pentru un magazin de mobilă s-au cules date privind numărul de spoturi publicitare difuzate

şi

numărul vizitatorilor (mii pers.) timp de 14 zile.: Ziua 1 2 3 4 5 6 7 8 9 10 11 12 13 14

Nr. spoturi publicitare 7 5 1 8 10 2 6 7 9 3 12 8 4 11

Nr. vizitatori (mii pers.) 42 32 10 40 61 8 35 34 45 11 64 37 30 55

Se cere: a) reprezentaţi grafic datele; Comentaţi graficul. b) pe baza datelor de la nivelul eşantionului, determinaţi ecuaţia de regresie care modelează legătura dintre cele două variabile şi calculaţi numărul zilnic previzionat de vizitatori; c) verificaţi dacă modelul de regresie identificat este valid statistic;

d) testaţi semnificaţia statistică a parametrilor modelului, determinând şi intervalele de încredere pentru aceştia; e) măsuraţi intensitatea legăturii dintre cele două variabile cu ajutorul coeficientului şi a raportului de corelaţie; testaţi semnificaţia indicatorilor utilizaţi; f) în ce măsură variaţia numărului de vizitatori este determinată de numărul spoturilor publicitare, pe baza modelului de regresie determinat? g) previzionaţi numărul vizitatorilor aşteptaţi într-o zi, în ipoteza că se vor difuza 15 spoturi în acea zi. h) previzionaţi numărul mediu zilnic de vizitatori, în ipoteza că se vor difuza 8 spoturi publicitare în medie pe zi. Rezolvare:

a) Notăm cu X variabila factorială, independentă „nr.spoturi publicitare” şi cu Y variabila dependentă „nr.vizitatori”. Pentru a identifica existenţa, forma şi sensul legăturii dintre variabilele analizate construim corelograma (figura 4.10).

70

60

50

i r o t 40 a t i z i v 30 . r n 20

10

0 0

2

4

6

8

10

12

14

nr.spoturi

Figura 4.10 Corelograma (diagrama de împrăştiere) Se observă că legătura dintre variabile este directă şi liniară (întrucât dreapta de regresie are pantă pozitivă), iar ecuaţia de regresie va avea forma: ˆ i = a + bxi y

b) Pentru a determina estimatorii a şi b, rezolvăm sistemul de ecuaţii normale, folosind datele din tabelul de lucru 4.5:

∑

∑

na + b xi = yi   2 a xi + b xi = xi yi

∑

∑

∑

n=14 (numărul observaţiilor)

Tabelul 4.5 xi

2

xi

yi

2

7 5 1 8 10 2 6 7 9 3 12 8 4 11

42 32 10 40 61 8 35 34 45 11 64 37 30 55

49 25 1 64 100 4 36 49 81 9 144 64 16 121

=93

=504

=763

yˆ i

2,2858 + 5,0753 xi

yi

x y i i

294 160 10 320 610 16 210 238 405 33 768 296 120 605

=

1764 1024 100 1600 3721 64 1225 1156 2025 121 4096 1369 900 3025

∑ xi ∑ yi ∑ xi2 ∑ xi yi ∑ yi2

=4085 =22190

( yˆ i − y )2

( yi − yˆ i )2

( x

i

− x

)2

37,81 27,66 7,36 42,89 53,04 12,44 32,74 37,81 47,96 17,51 63,19 42,89 22,59 58,11

17,53 18,82 6,96 8,34 63,39 19,68 5,12 14,54 8,78 42,40 0,66 34,67 54,96 9,69

3,29 69,52 820,19 47,44 290,31 555,25 10,64 3,29 143,12 341,82 739,24 47,44 179,91 489,01

0,13 2,70 31,84 1,84 11,27 21,56 0,41 0,13 5,56 13,27 28,70 1,84 6,98 18,98

504

305,53

3740,47

145,21

14 a + 93b = 504  93a + 763b = 4085 a=

∆a ∆

=

b=

∆b ∆

=

504 ⋅ 763 − 93 ⋅ 4085 2

14 ⋅ 763 − (93)

14 ⋅ 4085 − 93 ⋅ 504 2

14 ⋅ 763 − (93 )

=

4647

=

2 ,2858

=

5 ,0753

2033 =

10318 2033

Ecuaţia de regresie este: ˆ i = 2 ,2858 + 5 ,0753 xi y

c) Testarea validităţii modelului de regresie determinat. Pentru testarea validităţii modelului se formulează cele două ipoteze: H 0: model nevalid statistic,

cu alternativa

H 1: model valid statistic

Se completează tabelul: Sursă variaţiei

Suma pătratelor (SS-Sum of Squares)

Datorată regresiei

∆ y / x =3740,465

Reziduală

∆ e =305,535

Totală

Grade de libertate

( df- degree of freedom)

2

2

2

∆ y =4046,000

k=1 n – k – 1=14 -

2=12 n – 1=15-1= 13

Media pătratelor ( MS- Mean of Squares) s y2 / x =3740,465

se2 =25,461

Testul Fisher ( testul F)

Fcalc

=

3740 , 465 =146,908 25 , 461

Valoarea teoretică pentru un prag de semnificaţie α = 0,05 şi 1, respectiv 12 grade de libertate, preluată din tabelul repartiţiei Fisher este F α ;k ;n−k −1 =4,75. Întrucât Fcalc> F α ;k ;n−k −1 se respinge H 0, adică se concluzionează că modelul este valid. Calculele intermediare se găsesc în tabelul 4.5. d) Ecuaţia de regresie liniară la nivelul colectivităţii generale se scrie: yi = α + β xi + ε i,

iar la nivelul eşantionului: yi = a + bxi + ei

Pentru testarea semnificaţiei parametrilor modelului de regresie liniară şi estimarea lor pe intervalele de încredere se procedează astfel:

1) pentru parametrul β Ipotezele testate sunt: H0 : β = 0 ( µ b = β = 0), H1 : β ≠ 0. Deoarece volumul eşantionului este mic (n<30), vom utiliza testul t : t calc

=

b − µ b

Unde sb

=

b−0

sb

sb

=

se n

∑1 ( x

i

, statistică ce urmează o distribuţie t cu (n – 2) grade de libertate. =

− x )

2

5,046 = 0, 4187 145,21

i=

n

∑1 ( y

2

Iar se

=

∆e

n−2

Se obţine t calc

i

ˆi ) − y

i=

=

n−2

2

=

305,53 12

=

5,046

= 12,1206

Pentru un prag de semnificaţie de 5%, valoarea teoretică a testului este tα /2;13 = 2,179 . Deoarece t calc >tα /2;13 vom concluziona că este foarte improbabil ca estimatorul b să provină dintr-o populaţie cu β =0 ( adică β este semnificativ diferit de zero), deci parametrul β este semnificativ statistic. Intervalul de încredere pentru parametrul β , coeficientul de regresie din colectivitatea generală, este:

b − t α / 2 ,n −2 ⋅ s b

≤

β ≤ b + t α / 2 ,n− 2 ⋅ sb , adică 4,1629

2) pentru parametrul a Ipotezele testate sunt: H0 : α = 0,

≤

β

≤

5,9876

H1 : α ≠ 0 Statistica t este: t calc

=

a − µ a

=

a−0

sa

sa

.

n

∑1 x 2

763 14 ⋅ 145,21

i

Unde s a

=

i=

se

n

n

∑1 ( x

i

− x )

=

5,046 ⋅

2

=

3,0912

i=

Se obţine t calc = 0,7394 Pentru un prag de semnificaţie de 5%, valoarea teoretică a testului este tα /2;13 = 2,179 . Deoarece t calc
( adică α nu este semnificativ diferit de zero). Intervalul de încredere pentru parametrul α este dat de: ≤ α ≤

a − t α / 2 ,n −2 ⋅ s a

a + t α / 2 ,n−2 ⋅ sa , adică -4,4495 ≤ α ≤ 9,0210.

Un argument suplimentar pentru concluzia că parametrul

α

este nesemnificativ statistic este acela că

intervalul de încredere include şi valoarea zero.

e) Pentru a măsura intensitatea legăturii dintre cele două variabile se va calcula mai întâi coeficientul de corela ţ ie liniar ă: r =

∑ xi yi − ∑ xi ∑ yi = n x 2 − ( x )2  n y 2 − ( y )2   ∑ i ∑ i   ∑ i ∑ i  n

10318

=

(

2033 14 ⋅ 22190 − 504

2

)

=

10318 10731

∆b ∆ n 

∑

2 yi −

=

2

(∑ yi )



= 0 ,9615

Acest indicator ne arată o legătură directă şi foarte puternică (r este pozitiv şi apropiat de valoarea unitară). Pentru testarea semnificaţiei coeficientului de corelaţie liniară simplă, se procedează astfel: Ipotezele testate sunt: H0 : ρ = 0 ( ρ nu este semnificativ statistic)

H1: ρ ≠ 0 ( ρ este semnificativ statistic). Statistica t este: t calc

=

r s r

=

r n − 2 2

1 − r

=

0,9615 ⋅ 12 1 − 0,9615 2

= 12,12 .

Cum valoarea tabelară a testului t , pentru un prag de semnificaţie de 5% şi 12 grade de libertate este 2,179 rezultă că t calc > t α ;n −2 , deci coeficientul de corelaţie este semnificativ statistic

Un alt indicator utilizat atât în cazul legăturilor liniare, cât şi al celor neliniare este raportul de corela ţ ie R:

R = R y / x

=

( y − yˆ )2 ∑ 1− 2 ∑ ( y − y ) i

i

=

1−

i

305,53 4046

=

0,9615

Calculele necesăre determinării raportului de corelaţie sunt redate în 4.5 y =

∑ yi = 504 = 36 mii pers. n

14

R y/x = r y/x = 0,9615, deci există o legătură liniară, puternică şi directă între cele două variabile.

Testarea semnificaţiei raportului de corelaţie se face cu testul F: F =

n − k − 1 k

⋅

R

2

1 − R 2

= 146,9

Valoarea teoretică pentru un prag de semnificaţie α = 0,05 şi 1, respectiv 12 grade de libertate, preluată din tabelul repartiţiei Fisher este F α ;k ;n−k −1 =4,75. Întrucât Fcalc> F α ;k ;n−k −1 se respinge H 0, adică se concluzionează că R este semnificativ statistic. f) Pentru a determina în ce măsură variaţia numărului de vizitatori este explicată de influenţa numărului de spoturi publicitare difuzate zilnic, se calculează coeficientul de determina ţ ie: 2

2

R y / x = 0 ,9615 = 0 ,9245 său

92,45% arată că aproximativ 92% din variaţia variabilei

Y

este

explicată de variabila X . g) Dacă numărul spoturilor publicitare difuzate va fi de 15, atunci numărul previzionat al vizitatorilor pe baza acestei ecuaţii de regresie este: ˆ / x =15 = 2 ,2858 + 5 ,0753 ⋅ 15 ≅ 78 mii pers. (estimare punctuală) y

Pentru estimarea pe interval de încredere, trebuie să determinăm dispersia diferenţei yˆ n +1 − y n +1,i , adică dispersia erorii de previzionare. Dispersia în eşantion este:

2

2

s( yˆn 1,i ) = s( yˆ n 1 − yn 1,i ) +

+

+

   2   1 (15 − 6,64) 2  1 ( xn+1 − x)  2  = 39,534 . 25,461⋅ 1+ + = se 1 + +  n n = 14 145 , 21 2   ( xi − x)   ∑   i =1

Intervalul de încredere este:

yˆ n +1,i

± t α / 2 ,n − 2 s e

1+

1

+

n

( x n 1 − x ) 2 +

n

∑1 ( x

i

− x )

, adică (64,71; 92,11) mii persoane.

2

i=

h) Suntem în cazul determinării intervalului de încredere pentru media de răspuns, când xn+1 ≠x.

Pentru aceasta se determină yˆ n+1 = y + b( x n+1 − x) = 36 + 5,0753 ⋅ (8 - 6,64 ) = 42,9

iar estimatorul dispersiei pentru yˆ n+1 este:

2

s ( yˆ n

+1

)

   2   1 (8 − 6,64) 2  ( x n +1 − x)  2 1 = se + = 25,461 ⋅   14 + 145,21  = 2,14 n n 2    ( xi − x )   ∑ i =1  

Intervalul de încredere pentru media de răspuns este: yˆ n +1

2 ) + 2 n ∑1 ( x − x )

( x

1

± t α / 2, n− 2 s e

− x

n +1

, adică (39,71; 46,08) mii persoane

n

i

i=

Se poate utiliza, însă, pentru rezolvarea problemei şi un pachet informatic specializat, în cazul nostru – EXCEL. În urma selectării, din meniul principal, a opţiunilor

+
Analysis>+, s-au obţinut următoarele rezultate:

SUMMARY OUTPUT Regression Statistics

Multiple R R Square Adjusted R Square Standard Error Observations

0,961501303 0,924484756 0,918191819 5,045911528 14

ANOVA df

Regression Residual Total

SS

1 12 13

Coefficients

Intercept Nr. spoturi

2,2858 5,0753

MS

3740,465 3740,465 305,535 25,461 4046,000

Standard Error

3,0912 0,4187

t Stat

F

Significance F

146,908

0,0000000433

P-value

0,7394 0,4738580696 12,1206 0,0000000433

Lower 95%

-4,4495 4,1629

Upper 95%

9,0210 5,9876

Problema 4. Un vânzător de automobile second hand ar dori să ştie dacă preţul de vânzare al acestora la licitaţie depinde de numărul de kilometri parcurşi de automobilul respectiv. Pentru aceasta el selectează 50 de automobile cu o vechime de 3 ani, aceeaşi marcă şi aceleaşi facilităţi. Pentru fiecare maşină a înregistrat preţul de vânzare la licitaţie şi numărul de kilometri de la bordul autoturismului. a)

Vânzătorul ar dori să ştie care este dependenţa dintre preţul de vânzare şi numărul de kilometri parcurşi.

b)

Testaţi semnificaţia parametrilor funcţiei de regresie şi validitatea modelului de regresie obţinut.

c)

Măsuraţi intensitatea legăturii dintre variabile. Pre ţ ul Nr.Km

Pre ţ ul Nr.Km

Pre ţ ul Nr.Km

Pre ţ ul Nr.Km

Pre ţ ul Nr.Km

37388 44758 45833 30862 31705 34010 45854 19057 40149 40237

32359 43533 32744 34470 37720 41350 24469 35781 48613 24188

38775 45563 28676 38231 36683 32517 39050 45251 34384 38383

32161 26561 33533 41849 36668 37495 25629 40099 31014 42233

37407 34356 30599 42485 38430 40452 26030 46296 34844 27379

5318 5061 5008 5795 5784 5359 5235 5845 5536 5401

5595 5330 5806 5805 5317 5316 5870 5504 5333 5705

5150 5249 5775 5327 5192 5544 5054 5115 5410 5529

5507 5873 5303 5237 5383 5286 5827 5483 5440 5215

5105 5685 5788 5208 5168 5128 5750 4965 5238 5763

Rezolvare: a) Pentru determinarea dependenţei între cele două variabile se face un grafic pentru determinarea tipului legăturii. 6000 5800 5600 ţ

e r P

5400 5200 5000 4800 0

10000

20000 30000 40000 50000 Număr de kilometri parcur ş i

60000

Figura 4.12

Deoarece punctele reprezentate sunt grupate în jurul diagonalei secundare, există o dependenţă liniară, inversă între cele două variabile. Pentru determinarea modului în care preţul variază în funcţie de numărul de kilometri parcurşi se va folosi modelul de regresie liniară.

Rezolvare folosind EXCEL:

1. Introduceţi datele astfel: în celula A1 tastaţi „Nr.Km.“ iar în B1 „Preţul“. În prima coloană, începând din A2 se vor introduce numărul de kilometri parcurşi, iar pe coloana a doua, începând din B2 se vor introduce preţurile. 2. Apăsăţi Tools-Data Analysis şi Regression. 3. La Input Y Range selectaţi B1:B51. La Input X Range selectaţi A1:A51. Selectaţi Labels. 4. Dacă doriţi să calculaţi valorile reziduale ( y i − yˆ i ), selectaţi Residuals. Apăsăţi OK. Se obţin rezultatele: SUMMARY OUTPUT Regression Statistics

Multiple R R Square Adjusted R Square Standard Error Observations

0.808922 0.654355 0.647154 157.8984 50

ANOVA Df

Regression Residual Total Coefficients

Intercept Nr.Km.

SS

1 48 49

2265584 1196732 3462316

Standard Error

6598.34 -0.03224

124.3322 0.003382

MS

F

2265584 24931.91

t Stat

53.07024 -9.53262

Significance F

90.87089

P-value

1.19E-12

Lower 95% Upper 95%

2.78E-44 1.19E-12

6348.353 -0.03904

6848.326 -0.02544

Interpretarea rezultatelor prezente în ultimul tabel din SUMMARY OUTPUT.

Coeficientul

b

este – 0,03224, ceea ce însemnă că la creşterea distanţei parcurse cu 1

kilometru, preţul va descreşte cu 0,03224×104 lei (322,4 lei).

Intercept este termenul liber, deci coeficientul a este 6598,34. Termenul liber este punctul în care dreapta de regresie intersectează axa y. Aceasta înseamnă că x=0, deci a reprezintă preţul unei maşini care nu a fost condusă. Dar, în cazul nostru acest punct nu are semnificaţie, deoarece toate maşinile sunt second hand. Interpretarea rezultatelor prezente în primul tabel din SUMMARY OUTPUT.

Este calculată eroarea standard, Standard Error, egală cu 157,9. În cazul în care această valoare este zero, înseamnă că toate punctele observate se află pe dreapta de regresie. Deci, bine este ca această valoare să fie cât mai apropiată de zero. Ce înseamnă mai apropiată de zero este greu de spus folosind doar eroarea standard. De aceea se calculează mărimi derivate din aceasta pentru a spune cât de apropiate sunt punctele de dreapta de regresie. Pentru a putea spune în ce măsură modelul liniar de regresie explică dependenţa dintre variabile se calculează coeficientul de determinaţie, R-square care în cazul nostru este 0,6544. Deci 65,44% din variaţia preţului este explicată de variaţia numărului de kilometri parcurşi de automobil. 2

Este calculat, de asemenea, coeficientul de determinaţie ajustat, R , egal cu 0,6472. În cazul în care a fost selectat şi Residuals, tot în acest Sheet de rezultate sunt calculate valorile reziduale şi valorile previzionate pe baza modelului de regresie.

RESIDUAL OUTPUT Observation

Predicted Price

1 2 3 4 .....

5392.879821 5155.257064 5120.597029 5603.29042

Residuals

-74.8798 -94.2571 -112.597 191.7096

Rezolvare folosind STATISTICA: 1. Creaţi un fişier cu 2 variabile şi 50 de cazuri (File/New data). Introduceţi datele astfel: prima variabilă este numărul de kilometri parcurşi, a doua variabilă este preţul stabilit la licitaţie. 2. Selectaţi modulul General Linear Model. Selectaţi apoi Simple Regression. 3. În noua fereastră deschisă apăsăţi butonul Variables. Aici selectaţi la Dependent variable list a doua variabilă şi la Predictor prima variabilă. Apăsăţi OK. 4. Apăsăţi Summary. Apăsăţi Coefficients. Se obţine:

Acest tabel se interpretează similar cu tabelul 3 din SUMMARY OUTPUT obţinut prin EXCEL. 5. Apăsăţi Continue. Apăsăţi Whole model R. Se obţine:

Acest tabel se interpretează similar cu tabelul 1 din SUMMARY OUTPUT obţinut prin EXCEL. Dacă se doreşte calculul valorilor reziduale şi al celor previzionate se parcurg paşii: 6. Apăsăţi Continue. Apăsăţi Resids. Selectaţi Extended. Apăsăţi Predicted and residuals. Se obţine:

Se observă că în tabelul anterior sunt afişate: - preţul observat; - preţul previzionat; - valoarea reziduală: preţul observat – preţul previzionat; - eroarea standard;

b) Rezolvare folosind EXCEL: Interpretarea rezultatelor prezente în ultimul tabel din SUMMARY OUTPUT.

În coloana a doua (Standard Error) sunt calculate, erorile standard ale parametrilor estimaţi: sa

= 124,33 şi

sb

= 0,0034. Aceste erori sunt folosite pentru calculul statisticilor t pentru testarea

semnificaţiei estimatorilor. Acestea sunt calculate în coloana tStat, ta = 53,07 şi tb = - 9,53. Deoarece valorile p asociate sunt foarte apropiate de zero (în coloana P-value), se poate spune că estimatorii sunt semnificativi.

Lower 95% şi Upper 95% sunt limitele inferioare, respectiv superioare ale coeficienţilor estimaţi. Interpretarea rezultatelor prezente în tabelul ANOVA.

Validitatea modelului de regresie se testează folosind testul F. În tabelul ANOVA sunt calculate cele trei variaţii: cea explicată de model, cea reziduală şi cea totală. Cu ajutorul acestora se calculează Statistica F. În cazul nostru aceasta este 90,87. Deaorece valoarea p asociată este foarte apropiată de zero (prag de semnificaţie scăzut), se poate valida modelul de regresie. În cazul în care a fost selectat şi Residuals, tot în acest Sheet de rezultate sunt calculate valorile reziduale şi valorile previzionate pe baza modelului de regresie. RESIDUAL OUTPUT Observation

Predicted Price

1 2 3 4 .....

Residuals

5392.879821 -74.8798 5155.257064 -94.2571 5120.597029 -112.597 5603.29042 191.7096

Rezolvare folosind STATISTICA:

Acest tabel se interpretează similar cu tabelul 3 din SUMMARY OUTPUT obţinut prin EXCEL. Dacă se doreşte calculul valorilor reziduale şi al celor previzionate se parcurg paşii: Apăsăţi Continue. Apăsăţi Resids. Selectaţi Extended. Apăsăţi Predicted and residuals.

Se obţine:

Se observă că în tabelul anterior sunt afişate: -

preţul observat;

-

preţul previzionat;

-

valoarea reziduală: preţul observat – preţul previzionat;

-

eroarea standard;

-

intervalul de previziune, pentru o probabilitate de 95%: în cazul unui automobil cu acelaşi număr de kilometri parcurşi, cu o probabilitate de 95%, preţul previzionat al acestuia va fi inclus în intervalul de previziune;

-

intervalul de încredere, pentru o probabilitate de 95%: în cazul unui automobil cu acelaşi număr de kilometri parcurşi, cu o probabilitate de 95%, preţul acestuia va fi inclus în intervalul de încredere. c) Deoarece datele sunt cantitative, pentru măsurarea intensităţii legăturii dintre două variabile

se calculează coeficientul de corelaţie liniară.

Rezolvare folosind EXCEL: 1. Introduceţi datele ca în Exemplul 5.13. 2. Apăsăţi Tools-Data Analysis şi Correlation. 3. Specificaţi Input Range (A1:B51). Apăsăţi Labels in First Row. Apăsăţi OK. Se obţin rezultatele: Număr de kilometri parcur şi Număr de kilometri parcur şi Pre ţ

1 -0.808922247

Pre ţ

1

Coeficientul de corelaţie dintre numărul de kilometri parcurşi şi preţ este -0,809. Deoarece acesta este negativ şi apropiat de unu se poate spune că există o corelaţie inversă între cele două variabile.

Rezolvare folosind STATISTICA: 1. Introduceţi datele ca în Exemplul 5.13. 2. Selectaţi modulul Basic Statistics and Tables. Selectaţi apoi Correlation Matrices. 3. Apăsăţi butonul One variable list (square matrix). Selectaţi ambele variabile. Apăsăţi OK. 4. La Display selectaţi Detailed table of results. Apăsăţi OK. Se obţin rezultatele:

Coeficientul de corelaţie dintre numărul de kilometri parcurşi şi preţ este -0,81. Deoarece acesta este negativ şi apropiat de unu se poate spune că există o corelaţie inversă între cele două variabile.

Probleme Rezolvate Regresie Liniara Simpla

Recommend Documents