1. În tabelul următor avem date referitoare la 15 agenţi de asigurări angajaţi ai unei companii de asigurări de viaţă şi anume: timpul mediu, în minute, petrecut de un agent cu un potenţial client şi numărul de poliţe încheiate într-o săptămână. Dacă X reprezintă timpul mediu, iar Y reprezintă numărul de poliţe, avem datele sistematizate astfel: X 25 23 30 25 20 33 18 21 22 30 26 26 27 29 20
Y 10 11 14 12 8 18 9 10 10 15 11 15 12 14 11
Se cere: a) să se estimeze parametrii modelului liniar de regresie; b) să se testeze semnificaţia parametrilor modelului pentru un prag de semnificaţie α = 5%; c) să se determine erorile reziduale; d) să se testeze validitatea modelului de regresie pentru un nivel de semnificaţie α = 5%; e) măsuraţi intensitatea legăturii dintre cele două variabile folosind un indicator adecvat şi testaţi semnificaţia acestuia pentru un nivel de încredere de 0,5%; f) efectuaţi o previzionare punctuală şi pe interval de încredere a numărului de poliţe încheiate de un agent care petrece în medie 24 de minute cu un potenţial client. Rezolvare: Pentru a determina forma modelului de regresie se va construi corelograma:
num ar polite
OY
16 14 12 10 8
OX
6 16
18
20
22
24
26
28
30 32 34 tim pul m ediu
1 cm OY = 5 poliţe 1 cm OX = 2 minute ˆ i =a 0 + a 1 x i y a) Parametrii a şi b se determină cu ajutorul metodei celor mai mici pătrate:
∑ ( yi i
− yˆ i ) 2 min
⇔
∑( yi i
− a 0 − a 1 x i ) 2 min
⇔
n n na 0 + a 1 ∑ x i = ∑ y i i =1 i =1 n =15 n n n 2 a ∑ x + a ∑ x = ∑ x y 1 i i i 0 i =1 i i =1 i =1 Pentru a rezolva sistemul vom folosi următorul tabel în care sunt prezentate valorile intermediare:
xi
25 23 30 25 20 33 18 21 22 30 26 26 27 29 20
∑x i 375
x i2
yi
10 11 14 12 8 18 9 10 10 15 11 15 12 14 11
=
∑y i 180
x i yi
625 529 900 625 400 1089 324 441 484 900 676 676 729 841 400 =
∑x i2
=
9639
250 253 420 300 160 594 162 210 220 450 286 390 324 406 220
∑x i y i 4645
y i2
100 121 196 144 64 324 81 100 100 225 121 225 144 196 121 = ∑y 2 = i 2262
(y i − y )2 (x i − x ) 2 4 1 4 0 16 36 9 4 4 9 1 9 0 4 1 102
0 4 25 0 25 64 49 16 9 25 1 1 4 16 25 264
15a 0 + a 1 ⋅ 375 = 180 a 0 ⋅ 375 + a 1 ⋅ 9639 = 4645
a 0 = −1,73 ⇒ a 1 = 0,5492
Deci: ˆ i =−1,73 +0,5492 ⋅ x i y
b) Testarea semnificaţiei parametrilor modelului: Ecuaţia de regresie la nivelul colectivităţii generale este: y i = α0 + α1 x i + u i
iar la nivelul eşantionului este: y i =a 0 + a 1 x i + u i
Testarea semnificaţiei parametrului α 1: 1) se stabileşte ipoteza nulă: H0 : α 1 = 0 2) se stabileşte ipoteza alternativă: H1 : α 1 ≠ 0, adică α 1 este semnificativ diferit de zero, adică α 1 este semnificativ statistic. 3) se calculează testul statistic: deoarece n = 15 < 30 avem eşantion de volum redus şi pentru testare vom utiliza testul t: a − α1 a 1 − 0 a 1 0,5492 t= 1 = = = = 6,8 s a1 s a1 s a1 0,08 s a2 = i
s2 u
∑(x i i
∑( yi
s 2u = i
−x
)
2
=
1,7199 = 0,0064 264
=
22,35 = 1,7199 15 − 2
− yˆ i ) 2
n − k −1
k – reprezintă numărul variabilelor factoriale (în cazul modelului unifactorial k = 1). 15
∑xi
375 x = i =1 = = 25 15 15
Pentru un prag de semnificaţie de 5% valoarea tabelată a testului este: t0,05/2; 13 = t0,025; 13 = 1,35 Testarea semnificaţiei parametrului α 0: 1) se stabileşte ipoteza nulă: H0: α 0 = 0; 2) se stabileşte ipoteza alternativă: H1: α 0 ≠ 0; 3) se calculează testul statistic: a − α1 a 0 − 0 a 0 − 1,73 t= 0 = = = = −0,84 s a0 s a0 s a 0 2,096
2 sa 0
=s 2 u
2 1 x 1 25 + =1,71 15 + 264 =4,186 2 n x − x ∑ i i
(
)
t calc = −0,84 > −t α/ 2;n −2 = −1,35
⇒ se acceptă ipoteza nulă, adică
parametrul a0 nu este semnificativ statistic. c) Erorile reziduale sunt u i = y i − yˆ i şi sunt prezentate în tabelul de mai jos: ui -20,62
-14,99 9,90
-27,57 27,22
-0,91 -19,95
18,38 -17,48
16,58 -5,09
7,37 5,42
5,03 16,70
d) Testarea validităţii modelului de regresie: 1) se stabileşte ipoteza nulă: H0: împrăştierea valorilor yˆ t datorate factorului nu diferă semnificativ de împrăştierea aceloraşi valori datorate întâmplării, deci modelul nu este valid. 2) se stabileşte ipoteza alternativă: H1: modelul este valid; 3) se calculează testul F: s2 79 ,64 F= x = = 46 ,3 2 1,71 su
∑( yˆ i
s 2x = i
∑( yi
s 2u = i
−y
)2
k
− yˆ i ) 2
n − k −1
=
79 ,64 = 79 ,64 1
=
22,35 = 1,71 15 − 2
15
y=
∑yi
i =1
15
=
180 = 12 15
Fcalc = Fα;n −k −1 = F0,05 ;1,13 = 4,67
Deoarece Fcalc > Ftab ⇒ modelul este valid. e) Intensitatea legăturii dintre cele două variabile se face cu coeficientul de corelaţie liniară: r= =
[
n∑ x i yi − ∑ x i ⋅ ∑ yi
n ∑ x i2
− (∑ xi )
2
][
n ∑ y i2
− ( ∑ yi )
15 ⋅ 4645 − 375 ⋅ 180
2
[15 ⋅ 9639 − 375 ][15 ⋅ 2262 − 180 ] 2
2
]
=
= 0,88 → 1 > 0
Rezultă că între cele două variabile există o legătură directă foarte puternică.
Testarea semnificaţiei coeficientului de corelaţie: - se stabileşte ipoteza nulă: H0: ρ nu este semnificativ statistic; - se stabileşte ipoteza alternativă: H1: ρ este semnificativ statistic; - se calculează testul t: t=
r r n −2 0,88 ⋅ 13 = = = 6,75 2 sr 1 −r 1 − 0,88 2
t calc > t α;n −k −1 = t 0,05 ; 13 = 2,16
⇒ Coeficientul de corelaţie este semnificativ statistic. Măsurarea intensităţii legăturii cu raportul de corelaţie R:
∑ ( yˆ i − y )
2
∑ ( y i − y)
2
n
R = i =1 n
= 0,88
i =1
Deoarece R = r = 0,88, apreciem că există o legătură liniară, puternică şi directă între cele două variabile. Testarea raportului de corelaţie se face cu testul F: F=
Cum:
R2 1−R
2
⋅
n − k −1 0,78 13 = ⋅ = 46 ,09 k 1 − 0,78 1
Fcalc > F0,05 ; 1; 13 = 4,67
⇒
R este semnificativ statistic. f)
yˆ n +1 = −1,73 + 0,5492 ⋅ 24 = 11,45 ~ 12
poliţe
(aceasta
este
estimarea
punctuală). Pentru estimarea pe interval de încredere vom avea: yˆ n +1 − t α / 2;n − k −1 ⋅ s yˆ n +1 ≤ y n +1 ≤ yˆ n +1 + t α / 2;n − k −1 ⋅ s yˆ n +1 12 − t 0,025 ;13 ⋅1,35 ≤ y n +1 ≤12 + t 0,025 ;13 ⋅1,35 2 x n +1 − x 1 1 ( 24 − 25 ) 2 1 + + =1,71 1 + + 2 n 15 264 ∑ x i −x i
s2 ˆ n +1 y
=s 2 u
sy ˆ
=1,35
n+ 1
(
(
) )
10 ,1775 ≤ y n +1 ≤13,8225
Intervalul de încredere pentru numărul de poliţe încheiate este:
=1,82
⇒
10 ≤ y n +1 ≤ 14
Rezolvarea problemei cu ajutorul programului informatic EXCEL: Se selectează din meniul principal opţiunea Tools, apoi Data Analysis, apoi Regression şi se deschide următoarea fereastră:
şi se obţin următoarele rezultate: SUMMARY OUTPUT Regression Statistics Multiple R 0.883621 R Square 0.780786 Adjusted R 0.763923 Square Standard Error 1.311483 Observations 15.000000 ANOVA Regression Residual Total
df SS MS F Significance F 1.000000 79.640152 79.64015 46.30272 0.000013 2 7 13.000000 22.359848 1.719988 14.000000 102.00000
0
Intercept X Variable 1
Coefficient Standard t Stat P-value Lower Upper s Error 95% 95% -1.731061 2.046120-0.846021 0.412843-6.151434 2.68931 3 0.549242 0.080716 6.804611 0.000013 0.374866 0.72361 9
RESIDUAL OUTPUT Observation 1.000000 2.000000 3.000000 4.000000 5.000000 6.000000 7.000000 8.000000 9.000000 10.000000 11.000000 12.000000 13.000000 14.000000 15.000000
Predicted Y 12.000000 10.901515 14.746212 12.000000 9.253788 16.393939 8.155303 9.803030 10.352273 14.746212 12.549242 12.549242 13.098485 14.196970 9.253788
Residuals -2.000000 0.098485 -0.746212 0.000000 -1.253788 1.606061 0.844697 0.196970 -0.352273 0.253788 -1.549242 2.450758 -1.098485 -0.196970 1.746212
Explicitarea datelor din tabelele de mai sus: SUMMARY OUTPUT
Regression Statistics n
Multiple R Raportul de corelatie (R)
∑ ( yˆ i − y ) 2
0.883621
n
∑ ( y i − yˆ i ) 2
Ry, x = i=1
= 1 − i=1
i =1
i =1
n
∑ ( yi − y) 2
n
∑ ( yi − y) 2
∑ ( yˆ i − y )
2
∑ ( yi − y)
2
n
R Square Coeficientul (gradul ) de determinaţie
0.780786
R2 =
∆2y / x ∆2y
= 1−
∆2e ∆2y
= i=1 n
i =1
Adjusted R Square Valoarea ajustată a coeficientului de determinaţie
0.763923
R
2
=1−
∆2u / n − k − 1 ∆2y / n − 1 n
Standard Error Abaterea medie pătratică a erorilor în eşantion
1.311483
Observations Numărul observaţiilor (n)
15
∆2u
su =
n−2
∑ ( y i − yˆ i ) 2
= i=1
n−2
Tabel 2. ANOVA Sursa variaţiei
df (grade de libertate)
SS (varianţa) (suma pătratelor) SSR=
Regression (variaţia datorată regresiei)
Residual (variaţia reziduală)
Total (variaţia totală)
n
1 (k)
(
∆2x = ∑ yˆ i − y
)2 =
i =1 79.640152 SSE= n 2 ˆi )2 = 13 (n-k-1) ∆ u = ∑ ( y i − y i =1 22.359848 SST= n 2 ∆2y = ∑ y i − y = 14 (n-1) i =1 102.000000 SST=SSR + SSE
(
)
MS =SS/df (media pătratelor) (dispersia corectată)
s 2x =
∆2x = k
Significance F
Testul F=46.302727 2
2
F= s x / s u
79.640152
s 2u
F
0.000013< 0.05 (resping H0 – model valid)
∆2u = n − k −1
= 1.719988
s 2y =
∆2y n −1
Tabel 3 Coefficients (Coeficienţi)
Standard Error (Abaterea medie patratică)
t Stat
P-value
Lower 95%
Upper 95%
Limita inf. a Limita sup. a intervalului intervalului de încredere de încredere Intercept (termenul liber)
a0= -1.731061
Timpul mediu
a1 = 0.549242
s a0 =2.046120
s a1 =0.080716
Tabel 4. RESIDUAL OUTPUT
t a0
0.412843 > 0,05
-6.151434
2.689313
t a1 = 6.804611 0.000013
0.374866
0.723619
= -0.846021
< 0,05
Observation 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Predicted yˆ i Numărul de poliţe 338.5796 371.2542 376.1748 332.8525 311.8281 310.6962 325.9235 287.8659 310.9763 382.3073 336.2188 369.2938 338.7504 367.2528 346.0917
Residuals
y i − yˆ i
-14.9986 -27.5722 -0.9108 18.3895 16.5889 7.3728 5.0355 -20.6299 9.9067 27.2277 -19.9568 -17.4878 -5.0954 5.4262 16.7043
Interpretare rezultate din tabelul SUMMARY OUTPUT: R= 0.883621 arată că între numărul de poliţe încheiate şi timpul mediu petrecut cu un potenţial client există o legătură puternică. R2 =0.780786 arată că 78% din variaţia numărului de poliţe încheiate este explicată de timpul mediu petrecut de un agent cu un potenţial client. Abaterea medie patratica a erorilor s u = 1.311483. În cazul în care acest indicator este zero înseamnă că toate punctele sunt pe dreapta de regresie. Interpretare rezultate din tabelul ANOVA: În acest tabel este calculat testul F pentru validarea modelului de regresie. Întrucât F=46.302727, iar Significance F (pragul de semnificatie) este 0.000013 (valoare mai mica de 0.05) atunci modelul de regresie construit este valid şi poate fi utilizat pentru analiza dependenţei dintre cele două variabile. Interpretarea rezultatelor din tabelul 4: Intercept este termenul liber, deci coeficientul a0 este -1.731061. Termenul liber este punctul în care variabila explicativă (factorială) este 0. Deci numărul de t poliţe încheiate, dacă timpul petrecut este 0. Deoarece a0 = -0.846021iar pragul de semnificaţie P-value este 0.412843>0,05 înseamnă că acest coeficient este nesemnificativ. De altfel faptul că limita inferioară a intervalului de încredere (-6.151434
≤ α 0 ≤ 2.689313)
pentru acest parametru este negativă, iar limita
superioară este pozitivă arată că parametrul din colectivitatea generală este aproximativ zero. Coeficientul a1 este 0.549242, ceea ce însemnă că la creşterea timpului petrecut cu un minut, numărul de poliţe încheiate va creşte cu 0,549242. Deoarece t a1 = 6.804611 iar pragul de semnificaţie P-value este 0.000013<0,05 înseamnă că
acest coeficient este semnificativ. Intervalul de încredere pentru acest parametru este 0.374866 ≤ α1 ≤ 0.723619. 2. În tabelul următor avem informaţii privind veniturile obţinute de 20 de gospodării selectate aleator şi taxele plătite de către aceste gospodării: Venitul (mii euro) x 17,5 37,5 47,5 25,0 55,5 35,0 15,5 12,0 32,0 42,3
Taxele (euro) y 35,0 60,5 88,5 70,5 125,0 63,0 30,0 30,0 65,0 80,0
Venitul (mii euro) x 28,0 22,5 25,0 29,5 65,0 51,0 39,3 33,0 45,0 75,0
Taxele (euro) y 75,0 70,0 60,0 65,0 150,0 100,0 75,0 40,0 75,0 200,0
Se cere: a) să se specifice modelul econometric ce descrie legătura dintre cele două variabile; b) să se estimeze parametrii modelului; c) să se verifice ipotezele metodei celor mai mici pătrate; d) să se verifice semnificaţia parametrilor modelului de regresie pentru α = 0,1; e) să se testeze validitatea modelului de regresie; f) să se testeze intensitatea legăturii dintre cele două variabile şi să se testeze semnificaţia indicatorilor utilizaţi; g) să se estimeze punctual şi pe interval de încredere nivelul taxelor care trebuie plătite dacă venitul este de 40 mii euro pentru o probabilitate de 95%. Rezolvare: a) Se va reprezenta grafic legătura dintre nivelul taxelor şi venit pentru cele 20 de gospodării prin corelogramă sau diagrama norului de puncte: OY 220 200 180 160 140 120 100 80 60 40 20 0
yi
OX 0
10
20
30
40
50
1 cm OX = 10 mii euro ; 1 cm OY = 20 euro
60
70
xi
80
Din grafic se poate observa că distribuţia punctelor (xi, yi) poate fi aproximată cu o dreaptă, deci modelul econometric care descrie legătura dintre cele două variabile este un model liniar: y =α0 +α1 x + u
α 0, α 1 – parametrii modelului;
α 1 > 0 (panta dreptei) deoarece legătura dintre cele două variabile este directă. b) Pentru estimarea parametrilor modelului de regresie utilizăm metoda celor mai mici pătrate: y i =a 0 +a1 x i + u ˆ i =a 0 + a 1 x i y y i − yˆ i 2 min i
∑(
)
i =1,20
⇔
∑( yi i
− a 0 − a 1 x i ) 2 min
⇔
20a 0 + 733,1a 1 = 1557,5 a 0 = −6,4201 ⇔ a 1 = 2,2997 a 0 ⋅ 733,1 + a 1 ⋅ 31991,53 = 68864 Deci, modelul este: ˆ i =−6, 4201 +2, 2997 x i y
∑ yi ∑ x i yi ∑xi ∑ x i2
n a1 =
∑xi n
∑xi
=
20 1557 ,5 733,1 68864 20 733,1 733,1 31991 ,53
= 2,2997
a 0 = y − a 1 ⋅ x = −6,4201
c) Ipotezele metodei celor mai mici pătrate: c1) Variabilele observate nu sunt afectate de erori de măsură. Această ipoteză se poate verifica cu ajutorul următoarelor relaţii: x − 3s x < x i < x + 3s x y − 3s y < y i < y + 3s y
unde:
∑ (x i n
s x = i =1
−x
)2
n
∑ ( y i − y) n
s y = i =1
x = i =1 n
5119 ,74 = 15,99 20
=
32116 ,44 = 40,07 20
2
n
n
∑x i
=
20
∑x i
= i =1 20
=
733 ,1 = 36 ,655 20
20
∑yi
y = i =1 20
=
1557 ,5 = 77 ,875 20
36 ,655 − 3 ⋅ 15 ,99 < x i < 36 ,655 + 3 ⋅ 15,99 −11,315 < x i < 84 ,625 (adevărat) 77 ,875 − 3 ⋅ 40 ,07 < y i < 77 ,875 + 3 ⋅ 40 ,07 − 42 ,335 < y i < 201 ,085 (adevărat)
Ipoteza poate fi acceptată fără nici un dubiu. c2) Variabila aleatoare (reziduală) u este medie nulă şi dispersia variabilei reziduale este constantă şi independentă de variabila factorială (ipoteza de homoscedasticitate). Ipoteza de homoscedasticitate poate fi verificată cu metoda grafică (corelograma). Se reprezintă grafic pe axa OX valorile variabilei factoriale x, iar pe axa OY se reprezintă valorile variabilei reziduale u. Va trebui să calculăm valorile variabilei reziduale: u i = y i − yˆ i Rezultatele sunt prezentate în tabelul de mai jos: ˆi y 33,82 79,82 102,82 51,07 121,21 74,07 29,23 21,18 67,17 90,86 57,97 45,32 51,07 61,42 143,06 110,86 83,96 69,47 97,07 166,06
ui 1,18 -19,32 -14,32 19,43 3,79 -11,07 0,77 8,82 -2,17 -10,86 17,03 24,68 8,93 3,58 6,94 -10,86 -8,96 -29,47 -22,07 33,94
OY
35 30 25 20 15 10 5 0 -5 0 -10 -15 -20 -25 -30
ui
OX 20
40
60
80 xi
Deoarece graficul punctelor prezintă o evoluţie oscilantă putem accepta ipoteza că variabila factorială şi cea reziduală sunt independente. c3) Valorile variabilei reziduale nu sunt autocorelate, adică sunt independente între ele: Verificarea acestei ipoteze se poate face prin: - metoda grafică (corelograma); - testul Durbin-Warson. Prin metoda grafică se construieşte corelograma trecându-se pe axa OX valorile variabilei rezultative yi, iar pe axa OY valorile variabilei reziduale: OY
35 30 25 20 15 10 5 0 -5 0 -10 -15 -20 -25 -30
ui
OX 20
40
60
80
100
120
140
160
180 yi
Distribuţia erorilor este oscilantă, adică nu avem alternativă sistematică sub formă de dinţi de fierăstrău, deci putem accepta ipoteza că erorile sunt independente, adică nu sunt autocorelate. Testarea ipotezei cu ajutorul testului Durbin-Watson: - se stabileşte ipoteza nulă: H0: variabila reziduală nu este autocorelată. - se stabileşte ipoteza alternativă:
H1: variabila reziduală este autocorelată. - se calculează testul Durbin-Watson: n
∑(ui
d calc = i =1
− u i −1 ) 2 =
n
∑ u i2
7508 ,87 = 1,48 5040 ,26
i =1
Pentru a efectua calculul lui d vom prezenta rezultatele intermediare în următorul tabel: ui
u i −1
1,18 -19,32 -14,32 19,43 3,79 -11,07 0,77 8,82 -2,17 -10,86 17,03 24,68 8,93 3,58 6,94 -10,86 -8,96 -29,47 -22,07 33,94
1,18 -19,32 -14,32 19,43 3,79 -11,07 0,77 8,82 -2,17 -10,86 17,03 24,68 8,93 3,58 6,94 -10,86 -8,96 -29,47 -22,07
( u i − u i−1 ) 2 420,19 25,04 1138,90 244,71 220,80 140,30 64,86 120,79 75,47 777,77 58,47 248,14 28,63 11,29 317,00 3,62 420,66 54,81 3137,41 7508,87
u i2
1,38 373,21 204,94 377,43 14,34 122,53 0,60 77,86 4,71 117,88 289,97 608,95 79,70 12,81 48,16 118,04 80,25 868,48 486,93 1152,10 5040,26
- se compară dcalc cu cele două valori d1 şi d2 din tabelul testului Durbin-Watson pentru pragul de semnificaţie α = 0,05 pentru numărul variabilelor exogene k = 1 şi pentru n = 20: d1 = 1,20 d2 = 1,41 d 2 < d calc < 4 − d 2 1,41 <1,48 < 2,59
⇒ erorile sunt independente. Tot pentru testarea ipotezei privind autocorelarea erorilor poate fi utilizat şi coeficientul de autocorelaţie de ordinul I: n
∑ u i ⋅ u i −1
r1 = i =1
n
∑ u i2
i =1
=
709 ,41 = 0,14 5040 ,26
Deoarece r1 este apropiat de 0 putem aprecia că valorile variabilei reziduale nu sunt autocorelate, adică sunt independente. c4) Valorile variabilei reziduale sunt normal distribuite: Pentru a testa această ipoteză se foloseşte metoda grafică (corelograma). Pe axa OX ˆ i , iar pe axa OY se reprezintă valorile variabilei se reprezintă valorile ajustate y reziduale: +uit0,05; 18⋅ su
OY
35 30 25 20 15 10 5 0 -5 0 -10 -15 -20 -25 -30
OX 20
40
60
80
100
120
140
160
ˆi y
180
- t0,05; 18⋅ su
Se observă că valorile reziduale ui se înscriu în banda construită, deci putem accepta ipoteza de normalitate a erorilor pentru un prag de semnificaţie de α = 0,05. d) Testarea semnificaţiei parametrilor modelului Testarea semnificaţiei parametrului α 0: - se stabileşte ipoteza nulă: H0: α 0 = 0 - se stabileşte ipoteza alternativă: H1: α 0 ≠ 0 - se calculează testul t: a − 6,4201 t= 0 = = −0,15 s a0 41,82 s a2 0
=s 2 u
⋅
∑x i2 i
∑(x i
−x
i
∑( yi
s 2u = i
)
− yˆ i ) 2
n −2
=
2
= 280 ,01 ⋅
31991 ,53 =1449 ,68 5119 ,75
5040 ,26 = 280 ,01 18
- se compară tcalc cu tα /2; n-2 = t0,05; 15 = 2,101 Deoarece t calc < t 0,05 ;18 ⇒ este foarte probabil ca estimatorul a0 să provină dintr-o colectivitate cu α 0 = 0 deci α 0 nu este diferit semnificativ de zero. Testarea semnificaţiei parametrului α 1: - se stabileşte ipoteza nulă: H0: α 1 = 0
- se stabileşte ipoteza alternativă: H1: α 1 ≠ 0 - se calculează testul t: a 2,2997 t= 1 = = 9,99 s a1 0,23 s a2 = 1
s 2u
∑( x i 20
−x
i =1
)2
=
280 ,01 = 0,05 5119 ,75
- se compară tcalc cu tα /2; n-2 = t0,05; 18 = 2,101 Deoarece t calc > t 0,05;18 ⇒ apreciem că parametrul α 1 este semnificativ statistic. Intervalul de încredere pentru parametrul α 1 este: a 1 − t α / 2;n − 2 ⋅ s a1 ≤ α 1 ≤ a 1 + t α / 2;n − 2 ⋅ s a1
2,2997 − 2,101 ⋅ 0,23 ≤ α1 ≤ 2,2997 + 2,101 ⋅ 0,23 1,81647 ≤ α1 ≤ 2,78293
e) Testarea validităţii modelului de regresie: - se stabileşte ipoteza nulă: H0: modelul nu este valid. - se stabileşte ipoteza alternativă: H1: modelul este valid; - se calculează testul F: s2 27076 ,18 F= x = = 96 ,69 2 280 ,01 su
∑ ( yˆ i 20
s 2x = i =1
−y
k
)2 =
27076 ,18 = 27076 ,18 1
- se compară Fcalc cu Fα ; k; n-k-1 = F0,1; 1; 18 = 8,28 Fcalc =96 ,69 > F0,1;1;18 ⇒ se respinge ipoteza nulă şi se acceptă alternativa, deci modelul este valid. f) Intensitatea legăturii dintre cele două variabile se apreciază cu ajutorul: - coeficientului de corelaţie; - raportului de corelaţie. Coeficientul de corelaţie: n ∑x i y i − ∑x i ⋅ ∑y i ry / x =
i
i
2
i
2 n ∑x 2 − ∑x i n ∑y 2 − ∑y i i i i i i i
= 0,918
Deoarece ry/x = 0,918 → 1, apreciem că între cele două variabile există o legătură liniară, directă, foarte puternică. Testarea semnificaţiei coeficientului de corelaţie pentru colectivitatea generală: - se stabileşte ipoteza nulă: H0: ρ = 0 (ρ nu este semnificativ statistic); - se stabileşte ipoteza alternativă: H1: ρ ≠ 0 (ρ este semnificativ statistic); ρ - coeficientul de corelaţie la nivelul colectivităţii generale - se calculează testul t:
t calc =
r n −2 1 −r
2
=
0,918 ⋅ 18 1 − 0,918 2
= 9,82
- se compară t calc cu t α;n −2 = t 0,1; 18 = 2,878 Deoarece t calc > t 0,1; 18 ⇒ respingem ipoteza nulă şi acceptăm alternativa, deci coeficientul de corelaţie este semnificativ statistic. Raportul de corelaţie R:
∑ ( yi
− yˆ i ) 2
∑ (yi
−y
R = 1 − i =1
i =1
)2
= 1−
5040 ,26 = 0,918 32116 ,44
Deoarece R = ry/x, apreciem că între cele două variabile există, o legătură liniară. Testarea semnificaţiei raportului de corelaţie: - se stabileşte ipoteza nulă: H0: R nu este semnificativ statistic; - se stabileşte ipoteza alternativă: H1: R este semnificativ statistic; - se calculează testul F: n − k −1 R2 18 0,918 2 ⋅ = ⋅ = 94 ,5 k 1 1 − 0,918 2 1−R2 - se compară Fcalc cu Fα;k ;n −k −1 = F0,1;1;18 =8,28 Deoarece Fcalc > F0,1; 1; 18 ⇒ se respinge ipoteza nulă
într-adevăr,
Fcalc =
şi se acceptă alternativa,
deci raportul de corelaţie este semnificativ statistic. g)
yˆ n +1 = −6,4201 + 2,2997 ⋅ 40 = 85 ,5679 euro (estimarea punctuală)
Pentru estimarea pe interval de încredere vom avea: yˆ n +1 − t α / 2;n − k −1 ⋅ s yˆ n +1 ≤ y n +1 ≤ yˆ n +1 + t α / 2;n − k −1 ⋅ s yˆ n +1
85 ,5679 − t 0,025 ;18 =2,552 ⋅17 ,16 ≤ y n +1 ≤ 85 ,5679 + t 0,025 ;18 =2,552 ⋅17 ,16
s 2yˆ
2 x −x ( 40 − 36 ,655 ) 2 1 1 =s 2 + n +1 = 280 ,01 1 + + = 294 ,59 u 1 + n n 20 5119 ,75 2 ∑ xi −x i =1
(
n +1
(
) )
Deci, intervalul de încredere pentru taxele plătite pentru un venit de 40 mii euro la nivelul populaţiei este: 41,77 (euro ) ≤ y n +1 ≤129 ,36 (euro )
Rezolvarea problemei cu ajutorul programului informatic EXCEL: Se selectează din meniul principal opţiunea Tools, apoi Data Analysis, apoi Regression şi se va deschide următoarea fereastră:
şi se obţin următoarele rezultate SUMMARY OUTPUT Regression Statistics 0.9181845 Multiple R 88 0.8430629 R Square 37 Adjusted R 0.8343442 Square 12 Standard 16.733631 Error 08 Observations 20 ANOVA df Regression Residual Total
Intercept
Significanc eF 27076.1 1.15588E127076.17814 8 96.69566 08 280.014 185040.259363 4 19 32116.4375 SS
MS
F
Coefficient Standard s Error t Stat P-value -9.353374888 -0.6864 0.501209
Lower 95%
Upper 95% - 13.23058
6.4201424 26.070869 8 14 X Variable 1 2.2996901 9.83339 1.8083569 (Venitul) 510.233865325 5 1.16E-08 55 2.791023 RESIDUAL OUTPUT Observation 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
Predicted Y Residuals 33.824435 16 1.17556484 79.818238 18 19.31823818 102.81513 97 14.31513969 51.072111 2919.42788871 121.21266 093.787339107 74.069012 8 -11.0690128 29.225054 860.774945141 21.176139 338.823860669 67.169942 35 2.169942348 90.856750 9 -10.8567509 57.971181 7417.02881826 45.322885 9124.67711409 51.072111 298.927888708 61.420716 973.579283029 143.05971 736.940282674 110.86405 52 10.86405521 83.957680 45 8.957680449 69.469632 5 -29.4696325
97.065914 31 22.06591431 166.05661 8833.94338117
19 20
Explicitarea datelor din tabelele de mai sus: SUMMARY OUTPUT Regression Statistics n
Multiple R Raportul de corelaţie (R)
n
∑ ( yˆ i − y ) 2
0.91818458 Ry, x = 8
∑ ( y i − yˆ i ) 2
i =1 n
= 1 − i=1
i =1
i =1
n
∑ ( yi − y) 2
∑ ( yi − y) 2
∑ ( yˆ i − y )
2
∑ ( y i − y)
2
n
R Square 0.84306293 Coeficientul (gradul ) de 7 determinaţie
R2 =
∆2y / x ∆2y
=1−
∆2e ∆2y
= i=1 n
i =1
Adjusted R Square Valoarea ajustată a coeficientului de determinaţie Standard Error Abaterea medie pătratică a erorilor în eşantion Observations Numărul observaţiilor (n)
0.83434421 2
R
2
=1−
∆2u / n − k − 1 ∆2y / n − 1 n
16.7336310 8
su =
∆2u n−2
∑ ( y i − yˆ i ) 2
= i=1
n−2
20
Tabel 2. ANOVA Sursa variaţiei Regression (variaţia datorată regresiei) Residual (variaţia reziduală)
df (grade de libertate)
1 (k)
MS =SS/df (media pătratelor) (dispersia corectată)
SS (varianţa) (suma pătratelor) SSR= ∆
2 x
n
(
= ∑ yˆ i − y i =1
)
2
18 (n-k-1)
SSE= ∆
= ∑ ( y i − yˆ i ) n
i =1
= 5040.259363
=
27076.18
27076.17814 2 u
=
∆2 s = x k 2 x
2
su2 =
∆2u n − k −1
= 280.0144
Significance F
F
Testul F=96.69566 2
2
F= s x / s u
1.15588E08< 0.05 (resping H0 – model valid)
Total (variaţia totală)
19 (n-1)
2 SST= ∆ y
n
(
= ∑ yi − y
i =1 32116.4375 SST=SSR + SSE
)
2
=
s = 2 y
∆2y n −1
Tabel 3. Standard Error Coefficients (Abaterea medie (Coeficienţi) patratică)
t Stat
P-value
Lower 95%
Upper 95%
Limita sup. Limita inf. a a intervalului de intervalului încredere de încredere Intercept (termenul liber)
a0= -6.42014248
Venitul
a1 = 2.299690151
s a0
= 9.353374888
s a1
t a0
= -0.6864
0.501209>0,05 -26.07086914
t
a1 = = 1.16E-08<0,05 0.233865325 9.833395
Tabel 4. RESIDUAL OUTPUT Predicted yˆ i Observation taxe plătite 1 338.5796 2 371.2542 3 376.1748 4 332.8525 5 311.8281 6 310.6962 7 325.9235 8 287.8659 9 310.9763 10 382.3073 11 336.2188 12 369.2938 13 338.7504 14 367.2528 15 346.0917
1.808356955
13.23058 2.791023
Residuals y i − yˆ i -14.9986 -27.5722 -0.9108 18.3895 16.5889 7.3728 5.0355 -20.6299 9.9067 27.2277 -19.9568 -17.4878 -5.0954 5.4262 16.7043
Interpretare rezultate din tabelul SUMMARY OUTPUT: R= 0.918184588 arată că între impozitele plătite şi venitul anual, există o legătură puternică. R2=0.843062937 arată că 84% din variaţia impozitelor este explicată de venit Abaterea medie patratica a erorilor s u = 16.73363108. În cazul în care acest indicator este zero înseamnă că toate punctele sunt pe dreapta de regresie. Interpretare rezultate din tabelul ANOVA: În acest tabel este calculat testul F pentru validarea modelului de regresie. Întrucât F=96.69566, iar Significance F (pragul de semnificaţie) este 1.15588E-08 (valoare mai
mica de 0.05) atunci modelul de regresie construit este valid şi poate fi utilizat pentru analiza dependenţei dintre cele două variabile.
Interpretarea rezultatelor din tabelul 4: Intercept este termenul liber, deci coeficientul a0 este -6.42014248. Termenul liber este punctul în care variabila explicativă (factorială) este 0. Deci impozitele t care ar trebui plătite, dacă nu s-ar obţine nici un venit. Deoarece a = -0.6864 iar pragul de semnificaţie P-value este 0.501209>0,05 înseamnă că acest coeficient este nesemnificativ. De altfel faptul că limita inferioară a intervalului de încredere 0
(-26.07086914
≤ α 0 ≤ 13.23058) pentru acest parametru este negativă, iar limita
superioară este pozitivă arată că parametrul din colectivitatea generală este aproximativ zero. Coeficientul a1 este 2.299690151, ceea ce însemnă că la creşterea venitului cu o mie euro, taxele vor creşte cu 2,299690151 euro. Deoarece t a1 = 9.833395 iar pragul de semnificaţie P-value este 1.16E-08<0,05 înseamnă că acest coeficient este semnificativ. Intervalul de încredere pentru acest parametru este 1.808356955 ≤ α1 ≤ 2.791023