Analiza dispersionala – ANOVA Problema rezolvata Un cercetător face un studiu asupra unor firme, privind şansele pe care acestea le oferă tinerilor angajaţi de a promova repede şi de a avansa în carieră. Pentru aceasta el a cuprins în studiu un număr de 20 de companii producătoare de tehnologie de vârf şi a înregistrat timpul scurs de la angajarea iniţială a unui salariat în firmă până la prima promovare a acestuia. Firmele au fost grupate după mărime, iar datele înregistrate sunt: Mărimea firmelor
Număr de promovare 30; 26; 30; 34; 32; 25; 47; 41; 43;
Mici Medii Mari
săptămâni de la angajare până la prima 32; 38; 24; 32; 28; 36; 33 48; 40; 49; 40.
Se cere să se determine, folosind testul F de analiză dispersională, dacă variaţia timpului scurs până la prima promovare este influenţată semnificativ de mărimea firmei? (nivel de semnificatie 5%) Rezolvare: Populatia statistica este multimea companiilor producatoare de tehnologie de varf. o Unitatea statistica este o companie (firma). o Caracteristicile urmarite sunt: o
X
- variabila ce arata marimea unei firme; - variabila nenumerica avand r=3 categorii sau variante: firme mici, firme mijlocii si firme mari: aceste categorii ale variabilei X vor determina impartirea populatiei statistice in r =3 grupe si anume: Grupa 1 (grupa firmelor mici), Grupa 2 (grupa firmelor mijlocii), Grupa 3 (grupa firmelor mari); - astfel, variabila X, marimea firmei, se mai numeste si factor de grupare.
si Y
- variabila ce arata durata de timp, in saptamani, de la angajare la prima promovare a unui salariat al unei firme producatoare de tehnologie de varf; - variabila numerica de interes.
(
)
o Fie Y1 ~ N µ1 , σ 12 variabila ce arata durata de timp, in saptamani, de la angajare la prima promovare a unui salariat al unei firme mici – Grupa 1, unde µ1 este media variabilei la nivelul intregii grupe. Din Grupa 1 (grupa firmelor mici) se selecteaza un subesantion de volum n1 = 8 firme pentru care se inregistreaza valorile variabilei Y1:
{ y1,1 = 30, y1,2 = 26, y1,3 = 30, y1,4 = 32, y1,5 = 38, y1,6 = 24, y1,7 = 32, y1,8 = y1,n1 = 28 } Media de selectie de grupa este y1 =
y1,1 + y1, 2 + ... + y1,n1
iar dispersia de selectie de grupa este ( y1,1 − y1 ) 2 + ( y1,2 − y1 ) 2 + ... + y1,n1 − y1 2 s1 = n1 − 1
(
(
n1
)2
=
240 = 30 saptamani, 8
= 18,2857 .
)
o Fie Y2 ~ N µ 2 , σ 22 variabila ce arata durata de timp, in saptamani, de la angajare la prima promovare pentru un salariat al unei firme mijlocii – Grupa 2, unde µ2 este media variabilei la nivelul intregii grupe. Din Grupa 2 (grupa firmelor mijlocii) se selecteaza un subesantion de volum n2 = 5 firme pentru care se inregistreaza valorile variabilei Y2: { y 2,1 = 34, y 2, 2 = 32, y 2,3 = 25, y 2, 4 = 36, y 2,5 = y 2,n2 = 33} . y 2,1 + y 2, 2 + ... + y 2,n2 160 = = 32 saptamani, Media de selectie de grupa este y 2 = n2 5 iar dispersia de selectie de grupa este ( y 2,1 − y 2 ) 2 + ( y 2,2 − y 2 ) 2 + ... + y 2,n2 − y 2 2 2 s2 = = 17,5 . n2 − 1
(
(
)
)
o Fie Y3 ~ N µ 3 , σ 32 variabila ce arata durata de timp, in saptamani, de la angajare la prima promovarepentru un salariat al unei firme mari – Grupa 3, unde µ3 este media variabilei la nivelul intregii grupe. Din Grupa 3 (grupa firmelor mari) se selecteaza un subesantion de volum n3 = 7 firme pentru care se inregistreaza valorile variabilei Y3: { y 3,1 = 47, y3, 2 = 41, y 3,3 = 43, y3, 4 = 48, y 3,5 = 40, y3, 6 = 49, y3, 7 = y 3,n2 = 40 } . y 3,1 + y 3, 2 + ... + y 3,n3 308 = = 44 saptamani, Media de selectie de grupa este y3 = n3 7 iar dispersia de selectie de grupa este ( y3,1 − y3 ) 2 + ( y3,2 − y3 ) 2 + ... + y3,n3 − y3 2 2 s3 = = 15,3333 . n3 − 1
(
)
o Media totala la nivelul intregului esantion de volum n = n1 + n2 + n3 = 20 firme este y ⋅ n + y ⋅ n + y 3 ⋅ n3 30 ⋅ 8 + 32 ⋅ 5 + 44 ⋅ 7 y= 1 1 2 2 = n1 + n2 + n3 20 ⇒ y = 35,4 saptamani.
2
o Ipotezele statistice sunt: H 0 : µ1 = µ 2 = µ 3 (factorul de grupare – marimea companiei nu influenteaza
semnificativ variatia duratei de timp pana la prima promovare a unui salariat) H 1 : ∃k , l ∈ {1,2,3} , k ≠ l astfel incat µk ≠ µl (cel putin doua medii sunt semnificativ diferite, adica factorul de grupare – marimea companiei influenteaza semnificativ variatia duratei de timp pana la prima promovare a unui salariat) o Statistica testului este SSB MSB F= = r − 1 ∈ Fisher( r −1=2, n −r =17 ) . SSW MSW n −r
o Pe baza datelor de selectie calculam: • Variatia dintre grupe
SSB = ( y1 − y ) 2 ⋅ n1 + ( y 2 − y ) 2 ⋅ n2 + ( y 3 − y ) 2 ⋅ n3 =
= ( 30 − 35,4 ) 2 ⋅ 8 + ( 32 − 35,4) 2 ⋅ 5 + ( 44 − 35,4 ) 2 ⋅ 7 ⇒SSB = 808,8
•
Variatia din interiorul grupelor
SSW = ( n1 − 1) ⋅ s12 + ( n 2 − 1) ⋅ s 22 + ( n3 − 1) ⋅ s32
= ( 8 − 1) ⋅18,2857 + ( 5 − 1) ⋅17,5 + ( 7 − 1) ⋅15,3333
⇒ SSW = 290 • Variatia totala
SST = SSB + SSW = 808,8 + 290 ⇒SST =1098,8
•
Dispersia factoriala corectata (cu gradele de libertate r − 1 = 2 )
MSB =
SSB 808,8 = r −1 2
⇒MSB = 404,4
•
Dispersia reziduala corectata (cu gradele de libertate n − r = 17 )
MSW =
SSW 290 = n −r 17
⇒MSW = 17,0588
•
Valoarea calculata a statisticii testului este
MSB 404,4 = MSW 17,0588 ⇒ Fcalc = 23,7062 Fcalc =
o Nivelul de semnificatie al testului este α = 0,05 , iar valoarea critica a testului este Fcritic = Fα; r −1, n −r = F0,05; 2,17 = 3,59 , deci regiunea critica este Rc = ( Fcritic ;+∞) = ( 3,59; + ∞) .
3
o Cum Fcalc > Fcritic ⇒ Fcalc ∈ Rc , respingem ipoteza nula H0 si acceptam ipoteza alternativa H1, concluzionand ca la un nivel de semnificatie de 5% si pe baza acestor date de selectie, marimea companiei influenteaza semnificativ variatia duratei de timp pana la prima promovare pentru un salariat. o Calculele pot fi organizate in urmatorul tabel ANOVA Source of variation (Sursa variatiei) Between groups (Factorul de grupare X) Within Groups (Reziduala) Total
SS (sum of squares (suma patratelor) SSB = 404,4
df – degrees of freedom (gradele de libertate) r-1 = 3
MS mean of sum of squares (dispersiile corectate) MSB =
SSB r −1
= 404,4 SSW = 290
n-r = 17
F
Fcalc =
Fcritic MSB MSW
=23,0762
Fcritic=F0,05; 2, 17 =3,59
SSW MSW = n −r
=17,0588
SST=SSB+SS W = 1098,8
n-1 = 19
Problema poate fi rezolvata in Excel dupa cum urmeaza: Intr-o foaie de lucru se introduc datele din cele trei subesantioane pe coloane, asa cum apare in Figura 1; In Excel 2003, din meniul principal Tools, submeniul Data Analysis, se alege Anova: Single Factor; In Excel 2007, din meniul principal Data, submeniul Data Analysis, se alege Anova: Single Factor;
Figura 1. Introducerea datelor si alegerea Anova: Single Factor din submeniul Data Analysis. Fereastra de dialog este prezentata in Figura 2. 4
Figura 2. Fereastra de dialog pentru Anova: Single Factor. Output-ul consta din doua tabele: primul contine rezultatele obtinute in urma prelucrarii datelor din fiecare grupa, iar cel de-al doilea este tabelul ANOVA. Anova: Single Factor SUMMARY Groups
Count ( ni )
Sum
Average ( y i )
Variance ( si2 )
30 = y1
18.2857 = s12
32 = y 2
17.5 = s 22
44 = y 3
15.3333 = s32
240 Grupa 1 (firme mici) Grupa 2 (firme mijlocii)
8=
n1
8
= ∑ y1 j j =1
5 = n2
160 = ∑ y
7 = n3
7
5
j =1
2j
308 Grupa 3 (firme mari)
= ∑ y3 j j =1
ANOVA Source of Variation Between Groups
SS 808.8=SSB
df 2=r-1
MS
F
404.4=MSB
23.7062=Fcalc
P-value 1.21E-05
17.0588=MS Within Groups
Total
290=SSW
17=n-r
1098.8=SST
19=n-1
W
5
F crit 3.59
Observatii: In Excel 2007, submeniul Data Analysis se instaleaza astfel: - intr-o foie obisnuita de lucru, dati click pe Office Button (cerculetul stanga sus) - click pe Excel Options - apoi click pe Add Ins - selectati cu un singur click Analisys Toolpack din partea deapta a ferestrei de la Add Ins si apoi click GO - apare o noua fereastra in care bifati Analysis ToolPack si de asemenea Analysis ToolPack VBA, iar apoi click pe OK - se instaleaza aceasta optiune si va aparea ca submeniul Data Analysis din meniul principal Data. In Excel 2003, submeniul Data Analysis se instaleaza astfel: - intr-o foie obisnuita de lucru, din meniul principal Tools, alegeti Add Ins - apare o fereastra in care bifati Analysis ToolPack si de asemenea Analysis ToolPack VBA, iar apoi click pe OK - se instaleaza aceasta optiune si va aparea ca submeniul Data Analysis din meniul principal Tools.
Alte probleme analiza dispersionala (ANOVA)
Problema 1. Un producător de sucuri de mere a realizat un nou produs: concentrat lichid. Acest nou produs are următoarele avantaje faţă de vechiul produs: este mai practic de utilizat, are o calitate cel puţin la fel de bună şi cost semnificativ mai mic. Pentru a decide pe care dintre cele trei avantaje să-şi axeze strategia de marketing, directorul acestui departament a realizat un studiu în trei oraşe. În oraşul A campania de publicitate s-a axat pe uşurinţa de utilizare a noului produs. În oraşul B campania de publicitate s-a axat pe calitatea noului produs. În oraşul C campania de publicitate s-a axat pe preţul mai mic al noului produs. În toate cele 3 oraşe s-a înregistrat numărul de bucăţi vândute în 20 de săptămâni. Uşurinţa folosirii:
529 498
658 663
793 604
514 495
663 485
719 557
711 353
606 557
461 542
529 614
Calitate:
804 492
630 719
774 787
717 699
679 572
604 523
620 584
697 634
706 580
615 624
Preţ:
672 691
531 733
443 698
596 776
602 561
502 572
659 469
689 581
675 679
512 532
Directorul de marketing ar dori să ştie dacă există diferenţe semnificative între numărul de bucăţi vândute, în medie pe săptămână, în cele trei oraşe după terminarea campaniei de publicitate, considerand un nivel de semnificatie de 5%. (Se cere rezolvarea in Excel).
6
Problema 2. Directorul unei companii pentru fabricarea mobilei de birou, crede ca productivitatea lucratorilor depinde, printre altele si de succesiunea operatiilor pe care trebuie sa le execute muncitorul. Pentru producerea unui birou ergonomic sunt considerate doua variante de realizarea a acestuia ( din punctul de vedere al succesiunii operatiilor). Pentru a decide care varianta este mai buna au fost selectati aleator 50 de muncitori care asamblau birouri si au fost inregistrati timpii de asamblare. Timpii de asamblare (ore) Varianta A 6,8; 5,0; 7,9; 5,2; 7,6; 5,0; 5,9; 5,2; 6,5; 7,4; 6,1; 6,2; 7,1; 4,6; 6,0; 7,1; 6,1; 5,0; 6,3; 7,0; 6,4; 6,1; 6,6; 7,7; 6,4; 5,2; 6,7 Varianta B 5,7; 6,6; 8,5; 6,5; 5,9; 6,7; 6,6; 4,2; 4,2; 4,5; 5,3; 7,9; 7,0; 5,9; 7,1; 5,8; 7,0; 5,7; 5,9; 4,9; 5,3; 4,2; 7,1 Directorul doreste sa afle daca pentru un nivel de semnificatie de 5%, timpii de asamblare in cele doua variate difera. (Se cere rezolvarea in Excel). Problema 3. Pentru 7 magazine situate în cartierul A al unui oraş si 5 magazine situate in cartierul B al aceluiasi oras, se cunosc valorile vânzărilor (mil. lei). In urma aplicarii metodei de analiza dispersionala ANOVA si a prelucrarii datelor cu Excel, s-au obtinut urmatoarele rezultate: ANOVA Source of Variation Between Groups Within Groups Total
SS ………. ………. ………..
df 1 ……. ……
MS ………. 7,891429
F 17,96283
F crit 4,964603
Se cere să se determine datele lipsa si sa se interpreteze rezultatele prelucrarii. Influenteaza cartierul in care sunt amplasate magazinele variatia vanzarilor in mod semnificativ? Testati pentru un nivel de semnificatie de 5%. Problema 4. Managerul unui lanţ de supermarketuri doreşte să deschidă un nou magazin în unul din cele 4 cartiere principale ale unui oras. Unul din factorii importanti luati in considerare in luarea deciziei de amplasare este venitul mediu lunar al rezidentilor fiecarui cartier. Se selectează astfel un eşantion de 80 gospodarii şi se înregistrează veniturile (mii lei). În urma prelucrării datelor in Excel s-au obţinut rezultatele: Groups Cartierul A Cartierul B Cartierul C Cartierul D
Count 19 24 16 21
Sum 44,2 78,3 33,6 57,3
Average 2,33 3,26 2,10 2,73
Varianc e 0,24 0,33 0,17 0,46
Testaţi, folosind testul Fisher, pentru o probabilitate de 95% (Fcritic = 2,73) dacă există diferenţe semnificative între veniturile gospodariilor, diferenţe generate de cartierul de rezidenţă.
7
Problema 1. Rezolvare: o Unitatea statistica este noul produs concentrat lichid al respectivului producator de sucuri. o Caracteristicile urmarite sunt: X
- variabila ce arata tipul de publicitate pe care s-a axat campania de promovare a noului produs; - variabila nenumerica avand r=3 categorii sau variante de raspuns: avantaje legate de usurinta folosirii, avantaje legate de calitate si avantaje legate de pret; - aceste categorii ale variabilei X vor determina impartirea populatiei statistice in r =3 grupe si anume: Grupa 1 (grupa produselor promovate in orasul A unde campania de publicitate s-a axat pe usurinta folosirii), Grupa 2 (grupa produselor promovate in orasul B unde campania de publicitate s-a axat pe calitate), Grupa 3 (grupa produselor promovate in orasul C unde campania de publicitate s-a axat pe pret); - astfel, variabila X, marimea firmei, se mai numeste si factor de grupare.
si Y
- variabila ce arata numarul de bucati vandute intr-o saptamana; - variabila numerica de interes.
(
)
o Fie Y1 ~ N µ1 , σ 12 variabila ce arata numarul de bucati vandute intr-o saptamana in orasul A – Grupa 1, unde µ1 este media variabilei la nivelul intregii grupe. In Grupa 1 se realizeaza o selectie de volum n1 = 20 saptamani pentru care se inregistreaza valorile variabilei Y1 – numarul de bucati vandute: { y1, 1 = 529, y1, 2 = 658, ..., y1, 20 = y1, n = 614 } bucati. Media de selectie de grupa este y1, 1 + y1, 2 + ... + y1, n1 11551 y1 = = = 577,55 bucati/saptamana, n1 20 iar dispersia de selectie de grupa este ( y1, 1 − y1 ) 2 + ( y1, 2 − y1 ) 2 + ... + ( y1, n1 − y1 ) 2 2 s1 = = 10775 . n1 − 1 1
(
)
o Fie Y2 ~ N µ 2 , σ 22 variabila ce arata numarul de bucati vandute intr-o saptamana in orasul B – Grupa 2, unde µ2 este media variabilei la nivelul intregii grupe. In Grupa 2 se realizeaza o selectie de volum n2 = 20 saptamani pentru care se inregistreaza valorile variabilei Y2 – numarul de bucati vandute: { y2 , 1 = 804, y2 , 2 = 630, ..., y2 , 20 = y2 , n = 624} bucati. Media de selectie de grupa este y 2, 1 + y 2, 2 + ... + y 2, n2 13060 y2 = = = 653 bucati/saptamana, n2 20 2
8
iar dispersia de selectie de grupa este ( y 2, 1 − y 2 ) 2 + ( y 2, 2 − y 2 ) 2 + ... + ( y 2, n2 − y 2 ) 2 2 s2 = = 7238,105 . n2 − 1
(
)
o Fie Y3 ~ N µ 3 , σ 32 variabila ce arata numarul de bucati vandute intr-o saptamana in orasul C – Grupa 3, unde µ3 este media variabilei la nivelul intregii grupe. In Grupa 3 se se realizeaza o selectie de volum n3 = 20 firme pentru care se inregistreaza valorile variabilei Y3 – numarul de bucati vandute: { y 3, 1 = 672, y 3, 2 = 531, ... , y3, 20 = y 3 n2 = 532 } bucati. Media de selectie de grupa este y 3, 1 + y 3, 2 + ... + y 3, n3 12173 y3 = = = 608,65 bucati/saptamana, n3 20 iar dispersia de selectie de grupa este ( y3, 1 − y3 ) 2 + ( y3, 2 − y3 ) 2 + ... + ( y3, n3 − y3 ) 2 2 s3 = = 8670,239 . n3 − 1 o Media totala la nivelul intregului esantion de volum n = n1 + n2 + n3 = 60 este y ⋅ n + y 2 ⋅ n2 + y 3 ⋅ n3 577,55 ⋅ 20 + 653 ⋅ 20 + 608,65 ⋅ 20 y= 1 1 = n1 + n2 + n3 60 ⇒ y = 613,06 bucati/saptamana. o Ipotezele statistice sunt: H 0 : µ1 = µ 2 = µ 3 (factorul de grupare – tipul de publicitate pe care s-a axat campania
de promovare a noului produs nu influenteaza semnificativ variatia numarului de bucati vandute intr-o saptamana) H 1 : ∃k , l ∈ {1,2,3} , k ≠ l astfel incat µk ≠ µl (cel putin doua medii sunt semnificativ diferite, adica factorul de grupare – tipul de publicitate influenteaza semnificativ variatia numarului de bucati vandute intr-o saptamana)
o Pragul de semnificatie al testului este α = 0,05 . o Statistica testului este SSB MSB F= = r − 1 ∈ Fisher( r −1=2, n−r =57 ) . SSW MSW n −r
o Introducerea datelor intr-o foaie de lucru in Excel, apelarea optiunii Data Analysis si Anova: Single Factor, precum si rezultatele prelucrarii datelor sunt prezentate in imaginile de mai jos.
9
Anova: Single Factor SUMMARY Groups
Count
Sum
Averag
Variance
10
Grupa 1 Usurinta folosirii Grupa 2 Calitate Grupa 3 Pret
20 20 20
ANOVA Source of Variation Between Groups Within Groups
SS 57512,23 506983,5
Total
564495,7
11551 13060 12173
df 2 57
e 577,55 653 608,65
10775 7238,105 8670,239
MS 28756,12 8894,447
F 3,233041
P-value 0,046773
F crit 3,158846
59
o Valoarea calculata a statisticii testului este Fcalc = 3,233 , iar Fcritic = Fα; r −1, n −r = F0, 05; 2 , 57 = 3,158 , deci regiunea critica este Rc = ( Fcritic ; ∞) = ( 3,158; ∞) o Cum Fcalc = 3,233 ∈ Rc , respingem ipoteza nula H0 si acceptam ipoteza alternativa H1, concluzionand ca tipul de publicitate pe care se bazeaza campania de promovare, adica prezentarea diferitelor avantaje ale noului produs, are o influenta semnificativa asupra variatiei numarului de bucati vandute. Problema 2. Rezolvare: o Populatia statistica este multimea birourilor realizate intr-o fabrica de mobila. o Unitatea statistica este un birou. o Caracteristicile urmarite sunt: X
- variabila ce arata varianta de realizare a unui birou; - exista are r=2 variante numite simbolic varianta A si varianta B; astfel ca multimea birourilor realizate in acea fabrica va fi impartita in r =2 grupe si anume: Grupa 1 (grupa birourilor realizate in varianta A), Grupa 2 (grupa birourilor realizate in varianta B); - variabila X, varianta de realizare, se mai numeste si factor de grupare.
si Y
- variabila ce arata durata de timp, in ore, in care un muncitor asambleaza un birou; - variabila numerica de interes.
(
)
o Fie Y1 ~ N µ1 , σ 12 variabila ce arata durata de timp, in ore, in care un muncitor asambleaza un birou prin varianta A – Grupa 1, unde µ1 este media variabilei la nivelul intregii grupe. Din Grupa 1 se selecteaza n1 = 27 muncitori pentru care se inregistreaza timpii de realizare a birourilor prin varianta A, adica se inregistreaza valorile variabilei Y1: { y1, 1 = 6,8; y1, 2 = 5,0; ..., y1, 27 = y1, n = 6,7 } ore. Media de selectie de grupa este 1
11
y1 =
y1, 1 + y1, 2 + ... + y1, n1
=
169,1 = 6,2629 ore, 27
n1 iar dispersia de selectie de grupa este ( y1, 1 − y1 ) 2 + ( y1, 2 − y1 ) 2 + ... + y1, n1 − y1 s12 = n1 − 1
(
(
)
2
= 0,8339 .
)
o Fie Y2 ~ N µ 2 , σ 22 variabila ce arata durata de timp, in ore, in care un muncitor asambleaza un birou prin varianta B – Grupa 2, unde µ2 este media variabilei la nivelul intregii grupe. Din Grupa 2 se selecteaza n1 = 23 muncitori pentru care se inregistreaza timpii de realizare a birourilor prin varianta B, adica se inregistreaza variabilei Y2: { y 2, 1 = 5,7; y 2, 2 = 6,6; ..., y 2, 23 = y 2, n = 7,1 } ore. Media de selectie de grupa este y 2, 1 + y 2, 2 + ... + y 2, n2 138,5 y2 = = = 6,0217 ore, n2 23 iar dispersia de selectie de grupa este ( y 2, 1 − y 2 ) 2 + ( y 2, 2 − y 2 ) 2 + ... + ( y 2, n2 − y 2 ) 2 s 22 = = 1,3699 . n2 − 1 2
o Media totala la nivelul intregului esantion de volum n = n1 + n 2 = 50 este y ⋅ n + y 2 ⋅ n2 6,2629 ⋅ 27 + 6,0217 ⋅ 23 y= 1 1 = n1 + n 2 50 ⇒ y = 6,1519 ore. o Ipotezele statistice sunt: H 0 : µ1 = µ 2
(factorul de grupare – varianta de asamblare a unui birou nu influenteaza semnificativ variatia timpului de realizare a cestuia) H 1 : µ1 ≠ µ 2 (mediile sunt semnificativ diferite, cu alte cuvinte varianta de asamblare a unui birou influenteaza semnificativ variatia timpului de realizare a cestuia)
o Pragul de semnificatie al testului este α = 0,05 . o Statistica testului este SSB MSB F= = r − 1 ∈ Fisher( r −1=1, n −r =48 ) . SSW MSW n −r Grupa 1 (Varianta A) 6,8 5 7,9 5,2 7,6
Grupa 2 (Varianta B) 5,7 6,6 8,5 6,5 5,9
12
5 5,9 5,2 6,5 7,4 6,1 6,2 7,1 4,6 6 7,1 6,1 5 6,3 7 6,4 6,1 6,6 7,7 6,4 5,2 6,7
6,7 6,6 4,2 4,2 4,5 5,3 7,9 7 5,9 7,1 5,8 7 5,7 5,9 4,9 5,3 4,2 7,1
Rezultatele prelucrarii datelor in Excel se prezinta sub forma urmatoarelor doua tabele: Anova: Single Factor SUMMARY Groups Grupa 1 (Varianta A) Grupa 2 (Varianta B) ANOVA Source of Variation Between Groups Within Groups Total
Count
Sum
Average
Variance
27
169,1
6,262963
0,83396
23
138,5
6,021739
1,36996
MS 0,722707 1,079627
F 0,669404
SS 0,722707 51,82209 52,5448
df 1 48
P-value 0,417303
F crit 4,042647
49
o Valoarea calculata a statisticii testului este Fcalc = 0,669 , iar Fcritic = Fα; r −1, n −r = F0,05; 1, 48 = 4,042 , deci regiunea critica este Rc = ( Fcritic ; ∞) = ( 4,042; ∞) o Cum Fcalc = 0,669 ∉ Rc , nu avem suficiente motive pentru a respinge ipoteza nula H0, deci o acceptam, concluzionand ca varianta de realizare a unui birou nu influenteaza semnificativ variatia timpului in care un muncitor lucreaza pentru asamblare. Problema 3. Rezolvare: o Unitatea statistica este un magazin. 13
o
Caracteristicile urmarite sunt:
X
- variabila ce arata cartierul din oras unde se gaseste magazinul; - orasul are r=2 cartiere numite simbolic A si B, astfel ca multimea magazinelor din oras va fi impartita in r =2 grupe si anume: Grupa 1 (grupa magazinelor situate in cartierul A), Grupa 2 (grupa magazinelor situate in cartierul B); - astfel, variabila X, cartierul, se mai numeste si factor de grupare.
si Y
- variabila ce arata valoarea vanzarilor, in mil. lei, a unui magazin intr-o anumita perioada; - variabila numerica de interes.
(
)
o Fie Y1 ~ N µ1 , σ 12 variabila ce arata valoarea vanzarilor unui magazin situat in cartierul A – Grupa 1, unde µ1 este media variabilei la nivelul intregii grupe. In Grupa 1 se realizeaza o selectie de volum n1 = 7 magazine pentru care se inregistreaza valorile variabilei Y1 – valoarea vanzarilor: { y1, 1 , y1, 2 , ..., y1, 7 = y1, n } mil. lei. Media de selectie de grupa este y1 mil.lei si dispersia de selectie de grupa este s12 . 1
(
)
o Fie Y2 ~ N µ 2 , σ 22 variabila ce arata valoarea vanzarilor unui magazin situat in cartierul B – Grupa 2, unde µ2 este media variabilei la nivelul intregii grupe. In Grupa 2 se realizeaza o selectie de volum n2 = 5 magazine pentru care se inregistreaza valorile variabilei Y2 – valoarea vanzarilor: { y 2, 1 , y 2, 2 , ..., y 2, 5 = y 2, n2 } mil. lei. Media de selectie de grupa este y 2 mil.lei si dispersia de selectie de grupa este s 22 . o Volumul intregului esantion este n = n1 + n2 = 12 magazine. o Ipotezele statistice sunt: H 0 : µ1 = µ 2 (cartierul in care este amplasat magazinul nu influenteaza semnificativ variatia vanzarilor) H 1 : µ1 ≠ µ 2 (mediile sunt semnificativ diferite, cu alte cuvinte factorul de grupare – cartierul influenteaza semnificativ variatia vanzarilor) o Pragul de semnificatie al testului este α = 0,05 . o Statistica testului este SSB MSB F= = r − 1 ∈ Fisher ( r − 1 = 1, n − r = 10 ) . SSW MSW n−r
In urma prelucrarii datelor de selectie s-a obtinut urmatorul tabel ANOVA: ANOVA Source of
SS
df
MS
F
F crit
14
Variation Between Groups Within Groups Total
SSB=141,7523976
r-1 = 1
MSB=141,7523976
SSW=78,91429 SST=220,66
n-r = 10 n-1 = 11
MSW=7,891429
Fcalc =17,9628
4,9646
MSB ⇒ MSB = MSW ⋅ Fcalc = MSW
Cum Fcalc =
= 7,891429 ⋅17,96283
⇒MSB =141,7523976
Cum MSB =
SSB ⇒ SSB = ( r − 1) ⋅ MSB = r −1
⇒SSB = 141,7523976
Cum MSW =
= ( 2 −1) ⋅141,7523976
SSW ⇒ SSW = ( n − r ) ⋅ MSW = n−r
⇒SSW = 78,91429
Cum SST = SSB + SSW
= (12 − 2 ) ⋅ 7,891429
⇒SST = 220,66 .
a testului este Rc = ( Fcritic ; ∞) = ( 4,96; ∞) si cum Fcalc = 17,96 ∈ Rc , atunci respingem ipoteza nula H0 si acceptam ipoteza alternativa H1, cartierul in care este amplasat magazinul influenteaza semnificativ variatia vanzarilor.
o Regiunea
critica
Problema 4. Rezolvare: o Populatia statistica este multimea gospodariilor rezidentilor dintr-un oras. o Unitatea statistica este o gospodarie. o Caracteristicile urmarite sunt: X
- variabila ce arata cartierul din oras unde se afla gospodaria; - orasul are r=4 cartiere numite simbolic A, B, C si D, astfel ca populatia statistica a gospodariilor rezidentilor acelui oras va fi impartita in r =4 grupe si anume: Grupa 1 (grupa gospodariilor situate in cartierul A), Grupa 2 (grupa gospodariilor situate in cartierul B), Grupa 3 (grupa gospodariilor situate in cartierul C),
15
Grupa 4 (grupa gospodariilor situate in cartierul D); - astfel, variabila X, cartierul, se mai numeste si factor de grupare. si Y
- variabila ce arata venitul lunar, in mii lei, al unei gospodarii; - variabila numerica de interes.
(
)
o Fie Y1 ~ N µ1 , σ 12 variabila ce arata arata venitul lunar, in mii lei, al unei gospodarii din cartierul A – Grupa 1, unde µ1 este media variabilei la nivelul intregii grupe. In Grupa 1 se realizeaza o selectie de volum n1 = 19 gospodarii pentru care se inregistreaza valorile variabilei Y1: { y1, 1 , y1, 2 , ..., y1, 19 = y1, n } mii lei/luna. In urma prelucarii datelor din acest subesantion, se obtine media de selectie de grupa este y1, 1 + y1, 2 + ... + y1, n1 44,2 y1 = = = 2,33 mii lei/luna, n1 19 1
iar dispersia de selectie de grupa este s12 = 0,24 .
(
)
o Fie Y2 ~ N µ 2 , σ 22 variabila ce arata venitul lunar, in mii lei, al unei gospodarii din cartierul B – Grupa 2, unde µ2 este media variabilei la nivelul intregii grupe. In Grupa 2 se realizeaza o selectie de volum n 2 = 24 gospodarii pentru care se inregistreaza valorile variabilei Y2: { y 2, 1 , y 2, 2 , ..., y 2, 24 = y 2, n } mii lei/luna. In urma prelucarii datelor din acest subesantion, media de selectie de grupa este y 2, 1 + y 2, 2 + ... + y 2, n2 78,3 y2 = = = 3,26 mii lei/luna, n2 24 2
iar dispersia de selectie de grupa este s 22 = 0,33 .
(
)
o Fie Y3 ~ N µ 3 , σ 32 variabila ce arata venitul lunar, in mii lei, al unei gospodarii din cartierul C – Grupa 3, unde µ3 este media variabilei la nivelul intregii grupe. In Grupa 3 se se realizeaza o selectie de volum n3 = 16 gospodarii pentru care se inregistreaza valorile variabilei Y3: { y3, 1 , y 3, 2 , ... , y 3, 16 = y3, n } mii lei/luna. In urma prelucarii datelor din acest subesantion, media de selectie de grupa este y 3, 1 + y 3, 2 + ... + y 3, n3 33,6 y3 = = = 2,10 mii lei/luna, n3 16 2
iar dispersia de selectie de grupa este s32 = 0,17 .
(
)
o Fie Y4 ~ N µ 4 , σ 42 variabila ce arata venitul lunar, in mii lei, al unei gospodarii din cartierul D – Grupa 4, unde µ4 este media variabilei la nivelul intregii grupe. In Grupa 4se se realizeaza o selectie de volum n4 = 21 de gospodarii pentru care se inregistreaza valorile variabilei Y4:
16
{ y 4, 1 , y 4 , 2 , ... , y 4 , 21 = y 4, n4 } mii lei/luna. In urma prelucarii datelor din acest subesantion, media de selectie de grupa este y 4, 1 + y 4, 2 + ... + y 4, n4 57,3 y4 = = = 2,73 mii lei/luna, n4 21
iar dispersia de selectie de grupa este s 42 = 0,46 . o S-au selectat astfel, la nivelul intregului oras, n = n1 + n2 + n3 + n4 = 80 de gospodarii. o Ipotezele statistice sunt: H 0 : µ1 = µ 2 (cartierul de rezidenta al gospodariilor nu influenteaza semnificativ
variatia venitului lunar al acestora) H 1 : ∃k , l ∈ {1,2,3,4}, k ≠ l astfel incat µk ≠ µl (cel putin doua medii sunt semnificativ diferite, adica factorul de grupare – cartierul influenteaza semnificativ variatia venitului lunar al unei gospodarii) o Nivelul de incredere al testului este 95%, deci nivelul de semnificatie este α = 0,05 . o Statistica testului este SSB MSB F= = r − 1 ∈ Fisher ( r − 1 = 3, n − r = 76 ) . SSW MSW n−r In urma prelucrarii datelor de selectie se obtine:
o •
•
Media totala la nivelul intregului esantion de volum n = n1 + n2 + n3 + n4 = 80 este y ⋅ n + y 2 ⋅ n 2 + y 3 ⋅ n3 + y 4 ⋅ n 4 2,33 ⋅ 19 + 3,26 ⋅ 24 + 2,10 ⋅ 16 + 2,73 ⋅ 21 y= 1 1 = n1 + n 2 + n3 + n 4 80 ⇒ y = 2,668 mii lei/luna. Variatia dintre grupe SSB = ( y1 − y ) ⋅ n1 + ( y 2 − y ) ⋅ n 2 + ( y 3 − y ) ⋅ n3 + ( y 4 − y ) ⋅ n 4 = 2
2
2
2
= ( 2,33 − 2,668) ⋅ 19 + ( 3,26 − 2,668) ⋅ 24 + 2
2
+ ( 2,10 − 2,668) ⋅ 16 + ( 2,73 − 2,668) ⋅ 21 ⇒SSB = 15,82448 2
•
2
Variatia din interiorul grupelor
SSW = ( n1 − 1) ⋅ s12 + ( n 2 − 1) ⋅ s 22 + ( n3 − 1) ⋅ s32 + ( n 4 − 1) ⋅ s 42 =
= (19 − 1) ⋅ 0,24 + ( 23 − 1) ⋅ 0,33 + (16 − 1) ⋅ 0,17 + ( 21 − 1) ⋅ 0,46
⇒SSW = 23,66
•
Variatia totala
•
Dispersia factoriala corectata (cu gradele de libertate r −1 = 3 )
SST = SSB + SSW = 15,82448 + 23,66 ⇒SST = 39,48448
17
MSB =
SSB 15,82448 = r −1 3
⇒MSB = 5,274826
•
Dispersia reziduala corectata (cu gradele de libertate n − r = 76 ) MSW =
SSW 23,66 = n −r 76
⇒MSW = 0,311315
•
Valoarea calculata a statisticii testului este MSB 5,274826 = MSW 0,311315 ⇒ Fcalc = 16,9436 Fcalc =
Tabelul ANOVA: ANOVA Source of Variation Between Groups Within Groups Total
SS SSB=15,82448 SSW=23,66 SST=39,48448
df r-1 = 3 n-r = 76 n-1 = 79
MS MSB=5,274826 MSW=0,311315
F Fcalc =16,9436
F crit 2,73
o Cum Fcalc = 16,94 ∈ Rc = ( 2,73; ∞) , atunci respingem ipoteza nula H0 si acceptam ipoteza alternativa H1, cartierul in care se gaseste gospodaria influenteaza semnificativ variatia veniturilor.
18