CAP. I. TESTARI DE IPOTEZE
Problema 1 Patronul unei firme de prestări servicii doreşte să fluidizeze servirea clienţilor şi, până în prezent, el presupunea că timpul de servire a clienţilor este normal distribuit, de medie 130 de minute şi abatere medie pătratică 15 minute. El este de acord cu abaterea medie pătratică, dar se îndoieşte de faptul că durata medie de servire a unui client este 130 minute. Pentru a studia această problemă, înregistrează timpii de servire pentru 100 de clienţi. Timpul mediu obţinut în eşantion este 120 minute. Poate patronul să concluzioneze, la o probabilitate de 99%, că timpul mediu este diferit de 130 minute. În această problemă, parametrul ce ne interesează este timpul mediu în colectivitatea generală şi ipotezele de testat sunt:
H 0 : 130, H1 : 130. Trebuie, aşadar, să răspundem la întrebarea: “Este media de 120 minute suficient de diferită de valoarea 130, pentru a ne permite să concluzionăm că media populaţiei nu este egală cu 130 minute?” Vom putea să respingem ipoteza nulă dacă media eşantionului este suficient de diferită, relativ la valoarea 130. Dar, interpretările nu sunt evidente. Dacă în eşantion obţineam media 1300 sau 1,3 atunci diferenţele erau clare. De asemenea, dacă media eşantionului era 130,1 atunci egalitatea era şi ea evidentă. Distribuţia de eşantionare a mediei x este normală sau aproximativ normală, cu media şi abaterea
z
medie
pătratică
s/ n .
Ca
rezultat,
putem
standardiza
x
şi
calcula
x 130 x 130 . 1,5 15 / 100 Regiunea de respingere (critică) o putem specifica astfel: Se respinge H0, dacă z z 0.005 sau z z 0.005 . În exemplul nostru, z / 2 z 0.005 2,575 z
120 130 6,67 . 1,5
Cum z 6,67 2,575 z 0.005 , rezultă că sunt suficiente dovezi pentru a respinge ipoteza nulă H0 şi a accepta ipoteza alternativă, aceea că timpul mediu de servire a unui client este diferit de 130 minute.
Problema 2
Conducerea unei companii apelează la 5 experţi pentru a previziona profitul companiei în anul curent. Valorile previzionate sunt: 2,60; 3,32; 1,80; 3,43; 2,00 (miliarde lei, preţurile anului anterior).
Ştiind că profitul companiei în anul anterior a fost de 2,01 mld. lei, sunt suficiente dovezi pentru a concluziona că media previziunilor experţilor este semnificativ mai mare decât cifra anului anterior (pentru α = 0,05)? Media previziunilor experţilor este x 2,63 mld. lei, cu dispersia:
s
2 x
x
i
x
n 1
2
2,203 0,5507 şi abaterea medie pătratică: s x s x2 0,74 mld. lei. 4
Elementele procesului de testare a ipotezei statistice sunt: H0: μ = 2,01, H1: μ > 2,01 (test unilateral dreapta).
t
x x 2,63 2,01 1,874 . sx sx n 0,74 / 5
În scopul folosirii statisticii t, vom face presupunerea că populaţia generală din care s-a extras eşantionul este normal distribuită. Cum tα,n-1 = t0,05;4 = 2,132, regiunea critică este dată de t>tα,n-1. Cum t=1,874< t0,05;4=2,132, nu putem trage concluzia că media profitului previzionată de cei 5 experţi pentru anul curent este semnificativ mai mare decât profitul anului trecut, de 2,01 mld. lei.
Problema 3 Presupunem că pentru 100 de observaţii asupra unei variabile aleatoare X s-a obţinut media x 110 şi abaterea standard 60. a) Testaţi ipoteza nulă că µ=100, cu alternativa µ>100, utilizând = 0,05. b) Testaţi ipoteza nulă că µ = 100, cu alternativa µ 100, utilizând = 0,05. Comparaţi rezultatele celor două teste. Rezolvare: a) n = 100;
x 110 ; sx = 60; = 0,05. Considerăm: H0: µ = µ0=100, H1: µ > µ0=100. Se aplică testul z unilateral dreapta:
x 0 P z 1 s / n x Regiunea critică va fi dată de:
sx
x 0 z
n
z 0,05 1,645
0 z
sx n
100
60 100
1,645 109,870
Cum x 110 > 109,870, suntem în regiunea critică deci se respinge H0.
b) H0: µ = 100; H1: µ 100. Se aplică testul z bilateral.
x 0 P z z 1 ; 2 2 sx / n z 0, 05 1,96 . 2
Limitele intervalului de încredere sunt:
0 z 2
sx n
z 2
sx n
x 0 z
60 100
sx
2
;
n
1,96 11,76 ;
100 11,76 x 100 11,76; 88,24 x 111,76. Întrucât ne aflăm în intervalul de încredere, se acceptă ipoteza H0. Problema 4 Un producător de detergenţi industriali preambalează produsul la cutii ce trebuie să aibă, în medie, 12 kg. El doreşte să verifice corectitudinea ambalării şi hotărăşte să organizeze un sondaj de n=100 observaţii (cutii), pentru care obţine greutatea medie x 11,85 kg, cu o abatere medie pătratică sx=0,5 kg. Să se testeze ipoteza conform căreia în medie cutiile au câte 12 kg, cu alternativa că greutatea este diferită de 12 kg. (<12 kg sau >12 kg), pentru o probabilitate de 95%. Rezolvare: H0: 0 12 kg; H1: 12 kg ( 12 kg sau 12 kg).
Testul statistic: z
x 0 x 0 11,85 12 3,0 . sx 0,5 / 10 sx / n
Nivelul de încredere: 1 - = 0,95. Pragul de semnificaţie: = 0,05, din care rezultă /2 = 0,025 (deoarece avem test bilateral). z / 2 z 0,025 1,96 .
Regiunea de respingere: z / 2 1,96 sau z / 2 1,96 . Cum z calc z / 2 , rezultă că ipoteza nulă este respinsă şi se acceptă ipoteza alternativă, aceea că în cutii se află o cantitate de detergenţi semnificativ diferită de 12 kg.
Problema 5
Într-o cercetare prin sondaj aleator privitoare la transportul în comun, au fost selectate 100 de persoane pentru care s-a calculat valoarea medie a biletelor cumpărate într-o lună pentru transport în comun urban de 110 u.m, cu o abatere medie pătratică de 60 u.m. a) Testaţi ipoteza nulă, aceea conform căreia valoarea medie a biletelor cumpărate într-o lună, în colectivitatea generală, este 0 100 u.m, cu ipoteza alternativă 0 100 u.m, utilizând un nivel de încredere 1 - = 0,95 (probabilitatea (1-)100 = 95%). b) Testaţi ipoteza nulă 0 100 u.m, cu ipoteza alternativă 0 100 u.m, cu aceeaşi probabilitate. Interpretaţi rezultatele.
Rezolvare: a) H0: 0 100 u.m H1: 0 100 u.m. Testul statistic: z
x 0 x 0 110 100 1,67 sx 60 / 10 sx / n
Nivelul de încredere: 1 - = 0,95. Pragul de semnificaţie: = 0,05 (test unilateral dreapta) z z 0,05 1,645
Cum z calc z , rezultă că ipoteza nulă este respinsă ( 0 100 u.m.) şi se acceptă ipoteza alternativă ( 0 100 u.m.). b) H0: 0 100 u.m.;
H1: 0 100 u.m. Test statistic: z
x 0 x 0 110 100 1,67 . sx 60 / 10 sx / n
Nivelul de încredere 1 - = 0,95. Pragul de semnificaţie = 0,05, din care rezultă /2 = 0,025 (deoarece avem test bilateral). z / 2 z 0,025 1,96
Cum z calc z / 2 , (1,67 < 1,96), rezultă că se acceptă ipoteza nulă (valoarea medie a biletelor cumpărate nu este semnificativ diferită de 100 u.m.).
CAP. 2. METODA ANALIZEI DISPERSIONALE ANOVA Problema 1.
Un producător de sucuri de mere a realizat un nou produs: concentrat lichid. Acest nou produs are următoarele avantaje faţă de vechiul produs: este mai practic de utilizat, are o calitate cel puţin la fel de bună şi cost semnificativ mai mic. Pentru a decide pe care dintre cele trei avantaje să-şi axeze strategia de marketing, directorul acestui departament a realizat un studiu în trei oraşe. În oraşul A campania de publicitate s-a axat pe uşurinţa de utilizare a noului produs. În oraşul B campania de publicitate s-a axat pe calitatea noului produs. În oraşul C campania de publicitate s-a axat pe preţul mai mic al noului produs. În toate cele 3 oraşe s-a înregistrat numărul de bucăţi vândute în 20 de săptămâni. Directorul de marketing ar dori să ştie dacă există diferenţe semnificative între numărul de bucăţi vândute, în medie pe săptămână, în cele trei oraşe după terminarea campaniei de publicitate. In urma prelucrarii datelor si a aplicarii metodei analizei dispersionale, s-au obtinut urmatoarele rezultate: ANOVA Source of Variation Between Groups Within Groups
SS 57512.23 506983.5
df 2 57
Total
564495.7
59
MS 28756.12 8894.447
F 3.233
P-value 0.047
F crit 3.159
Identificarea metodei: Datele sunt cantitative şi problema revine la a compara mediile celor trei populaţii. Ipotezele ce trebuie testate sunt: H0: μ1 = μ2 = μ3 cu alternativa H1: cel puţin două medii sunt diferite. MSB=28756,12 SSW=506983,5 Completarea coloanei Df: r-1=3-1=2 n-r=60-3=57 n-1=60-1=59 Completarea coloanei SS: Stim ca MSB=SSB/(r-1), de unde derulta ca: SSB=MSB * (r-1) =28756,12 * 2 = 57512,23
SST=SSB+SSW=57512,23 + 506983,5 = 564495,7 Completarea coloanei MS: MSW=SSW/(n-r) = 506983,5 / 57 = 8894,447 Fcalc= MSB/MSW=28756,12 / 8894,447 = 3,233 Cum Fcalc (3,233) >Fcrit (3,159), rezulta ca se respinge H0, se accepta H1, deci exista diferente semnificative intre vanzarile medii din cele trei orase, asadar strategia de marketing aleasa a influentat semnificativ variatia vanzarilor. CAP. 3. REGRESIA LINIARA
Problema 1. O firmă de asigurări vrea să găsească o legătură între valoarea prejudiciului provocat de incediul unei locuinţe şi distanţa dintre locul incendiului şi cea mai apropiată staţie de pompieri. Pentru aceasta, realizează un studiu, întro anumită regiune, luând în considerare cele mai recente 15 incendii. Sunt înregistrate date referitoare la valoarea prejudiciului (mii Euro) şi distanţa dintre incendiu şi cea mai apropiată staţie de pompieri (zeci km). In urma prelucrarii datelor cu programul EXCEL, s-au obtinut urmatoarele rezultate: Regression Statistics Multiple R R = 0,9609 R Square R2 = 0,9234 Adjusted R Square 0,9175 Se=
Standard Error Observations
raportul de corelaţie coeficientul de determinaţie
MSE = 2,3163 abaterea standard a erorilor n = 15
volumul eşantionului
ANOVA Regression Residual Total
df k=1 n-k-1 = 13 n-1 = 14
Coefficients Intercept Distanta (zeci km)
a = 10,2779 b = 4,9193
SS SSR = 841,7664 SSE = 69,7509 SST = 911,5173
Standard Error sa = 1,4202 sb = 0,3927
MS MSR = 841,7664 MSE = 5,3654
t Stat
F Fcalc = 156,8861
P-value
Significance F 0,000000012
Lower 95%
Upper 95%
tcalc(α) = 7,2365
0,000007
Lim_inf(α) = 7,2096
Lim_sup(α) = 13,3462
tcalc(β) = 12,5254
0,000000012
Lim_inf(β) = 4,0708
Lim_sup(β) = 5,7678
a) Determinaţi modelul de regresie liniara in esantion si interpretaţi valorile coeficienţilor modelului; b) Testaţi validitatea modelului de regresie liniară la un prag de semnificaţie (α’) de 5% (pentru o probabilitate de 95%, pentru care Fcritic=4,67); c) Testati ipotezele referitoare la semnificaţia parametrilor modelului de regresie, la un nivel de semnificaţie de 5% (tcritic=2,16); d) Determinaţi intervalele de încredere 95% pentru parametrii modelului; e) Calculati coeficientul de determinaţie şi interpretaţi rezultatul obţinut; f) Măsuraţi intensitatea legăturii dintre cele două variabile folosind raportul de corelaţie; g) Estimaţi nivelul prejudiciului, dacă distanţa între locul incendiului şi staţia de pompieri ar fi de 6,5 zeci de kilometri. REZOLVARE a) Variabilele sunt:
X – variabila care arată distanţa dintre incendiu şi cea mai apropiată staţie de pompieri, exprimată în zeci de km (variabila independentă sau variabila explicativă sau variabila exogenă) Y – variabila care arată valoarea prejudiciului, exprimată în mii Euro (variabila dependentă sau variabila explicată sau variabila endogenă) Există o funcţie f astfel încât variabila X explică variabila Y prin funcţia f, Y f X , o funcţie liniară
f x x . Modelul liniar de regresie este Y X . Valorile coeficientilor sunt:
a 10,2779
b 4,9193
(se preiau don coloana „Coefficients” a ultimului tabel), sau cu functiile Excel: intercept(valorile lui Y; valorile lui X), ce returneaza valoarea lui „a”. slope(valorile lui Y; valorile lui X) ce returneaza valoarea lui „b”. prin urmare dreapta de regresie este de ecuaţie yˆ a b x 10,2779 4,9193 x , ecuaţia de regresie liniară în eşantion este iar valorile ajustate ale observaţiilor
yi a b xi ei 10,2779 4,9193 xi ei , i 1,15 ,
yi , i 1,15 prin regresie sunt
yˆ i a b xi 10,2779 4,9193 xi , i 1,15 . Interpretarea valorilor coeficienţilor b arată că valoarea prejudiciului creşte cu 4,9193 mii euro dacă distanţa dintre incediu şi staţia de pompieri creşte cu o unitate, adică 10 km. In plus, pt. ca b>0, rezulta ca legatura dintre cele odua variabile este directa. Daca b ar fi fost negativ (b<0), legatura era inversa. a arată că valoarea prejudiciului este, în medie, egală cu 10,2779 mii euro dacă incendiul ar fi lângă staţia de pompieri. b) Validitatea modelului de regresie
Pentru testarea validităţii modelului se formulează cele două ipoteze: H0: modelul de regresie nu este valid statistic, cu alternativa H1: modelul de regresie este valid statistic.
Statistica utilizată pentru a decide care dintre ipoteze se acceptă este Statistica F. Pentru calculul statisticii Fcalc folosim tabelul ANOVA:
ANOVA Regression Residual Total
df k=1 n-k-1 = 13 n-1 = 14
SS SSR = 841,7664 SSE = 69,7509 SST = 911,5173
MS MSR = 841,7664 MSE = 5,3654
F Fcalc = 156,8861
Significance F 0,000000012
Regula de decizie: dacă
Fcalc Fcritic F ';k ,nk 1 , adică Fcalc se găseşte în regiunea critică, atunci
respingem H0 şi acceptăm H1, adică modelul de regresie este valid statistic. Cum Fcalc 156,89 4,667 Fcritic sau Significance F < 0.05 (F critic se determina cu functia Excel FINV(0.05;1;13)) se respingem ipoteza nulă şi concluzionăm că modelul de regresie este valid statistic (modelul este semnificativ statistic sau modelul este corect specificat). Probabilitatea maxima pt. care putem sustine ca modelul este valid se determina cu relatia: 100SignificanceF%=99,999….>95%.
c) Testarea
semnificatiei
Y X :
parametrului
α
al
modelului
linear
de
regresie
H0: α=0 (parametrul α nu este semnificativ statistic) H1: α≠0 (parametrul α este semnificativ statistic, adică semnificativ diferit de 0)
t calc
a0 a , deci t calc 7,237 , cu s =1,42. (t se gaseste in coloana „t Stat” a calc sa sa
din tabelul nr. 3. obtinut in Excel. Cum tcalc>tcritic, se respinge H0, se accepta H1, parametrul α este semnificativ statistic (tcritic =2,16 este dat in textul problemei). In plus, cum Pvalue(a)<0.05 atunci respingem H0, acceptam H1 şi concluzionăm ca α este semnificativ statistic. Probabilitatea maxima pt. care putem sustine ca α este semnificativ statistic se determina cu relatia: 100-pvalue(α )%=99,999….>95%.
Testarea
semnificaţiei
Y X :
parametrului
β
al
modelului
linear
de
regresie
H0: β=0 (parametrul nu este semnificativ statistic) H1: β≠0 (parametrul β este semnificativ statistic, adică semnificativ diferit de 0)
t calc
b0 b b 4,9193 tcalc 12,56 , cu s =0,39. (t se gaseste in , deci b calc sb 0,39 sb sb
coloana „t Stat” din tabelul nr. 3. obtinut in Excel. Cum tcalc>tcritic, se respinge H0, se accepta H1, parametrul β este semnificativ statistic (tcritic =2,16 este dat in textul problemei). In plus, cum Pvalue(b)<0.05, atunci respingem H0, acceptam H1 şi concluzionăm ca β este semnificativ statistic. Probabilitatea maxima pt. care putem sustine ca β este semnificativ statistic se determina cu relatia: 100-pvalue(β )%=99,999….>95%.
d) Intervalul de încredere garantata cu probabilitatea: (1-α’)·100% = 95% pentru parametrul α al modelului linear de regresie Y X , determinat pe baza eşantionului observat, este:
a t ' sa ;n k 1 2 limita inferioara a intervalului de incredere (1-α')100% a parametrul ui
a t ' sa ;n k 1 2 limita superioara a intervalului de incredere (1- ')100% a parametrul ui
unde sa este eroarea standard a estimatorului a.
,
În cazul nostru, a=10,2779, sa=1,42, α’=0,05, t ' ;n k 1 t 0, 05 ;13 2,16 , deci intervalul 2
2
[7,2; 13,3] acoperă valoarea adevărată a parametrului α cu probabilitatea 0,95, adică intervalul de valori [7,2; 13,3] mii Eur acoperă nivelul prejudiciului provocat de incendiu, dacă acesta se produce chiar lângă staţia de pompieri. Cum intervalul de încredere 95% determinat pentru parametrul α nu acoperă valoarea 0, atunci putem spune ca acesta este semnificativ diferit de 0 sau este semnificativ statistic. Dacă însă, intervalul de încredere pentru α ar fi acoperit, adică ar fi conţinut, şi valoarea 0, atunci concluzionam că parametrul este nesemnificativ statistic (nu este semnificativ diferit de 0). Intervalul de încredere (1-α’)·100% = 95% pentru parametrul β al modelului linear de regresie Y X , determinat pe baza eşantionului observat, este:
b t ' sb ;n k 1 2 limita inferioara a intervalului de incredere (1-α')100% a parametrul ui β
b t ' sb ;n k 1 2
,
limita superioara a intervalului de incredere (1- ')100% a parametrul ui
unde sb este eroarea standard a estimatorului b.
În cazul nostru, b=4,9193, sb=0,39, α’=0,05, t ' ;n k 1 t 0, 05 ;13 2,16 , deci intervalul [4,07; 5,76] 2
2
acoperă valoarea adevărată a parametrului β cu probabilitatea 0,95. Cu alte cuvinte, dacă distanţa devine mai mare cu o unitate (10 km), nivelul prejudiciului creşte cu o valoare acoperită de intervalul [4,07; 5,76] mii Eur, cu o probabilitate de 0,95.
Cum intervalul de încredere 95% determinat pentru parametrul β nu acoperă valoarea 0, atunci putem spune că acesta este semnificativ diferit de 0 sau este semnificativ statistic. Dacă însă, intervalul de încredere pentru β ar fi acoperit, adică ar fi conţinut, şi valoarea 0, atunci concluzionam că parametrul este nesemnificativ statistic (nu este semnificativ diferit de 0).
e) Coeficientul de determinaţie este R 0,9235 sau R 2 0,960982 0,9235 şi arată că 92,35% (adică R2%) din variaţia totală a prejudiciului cauzat de incendii este explicată de variaţia variabilei independente (distanţa între locul incendiului şi staţia de pompieri). Indicatorul se gaseste in primul tabel Excel, sub denumirea de „R Square”. 2
f). Intensitatea legăturii dintre cele două variabile folosind raportul de corelaţie.
R 0,96097772
Indicatorul ia valori in intervalul [0;1] si se gaseste in primul tabel Excel sub denumirea de „Multiple R”. Se observa ca raportul de corelatie este egal cu coeficientul de corelatie liniara Pearson, asadar legatura dintre cele doua variabile este liniara, iar legatura este puternica deoarece R are o valoare apropiata de 1. In plus, in cazul legaturii liniare, este adevarata relatia:
R rxy Unde rxy este coeficientul de corelatie liniara Pearson. g). În modelul de regresie liniară
yˆ i a b xi 10,2779 4,9193 xi , i 1,15 înlocuim pe xi cu valoarea
de 6,5, obţinându-se valoarea corespunzătoare a lui Y:
yˆ i 10,2779 4,9193 6,5 42,25
zeci mii euro.