PROIECT STATISTICĂ ANALIZA CHESTIONARULUI
Coordonator ştiinţific Prof.univ.dr. Elisabeta Jaba
CUPRINS 1. Intr Introd oduc ucer ere e 1.1 Definirea problemei 1.2 Obiectivul proiectului 2. Constr Construir uirea ea baz bazei ei de de date date 2.1. Alegerea Alegerea variabil variabilelor elor analizat analizate e 2.2. Definirea Definirea varia variabilel bilelor or şi introduce introducerea rea datelor datelor în SPSS SPSS 3. Verifi Verifica carea rea baz bazei ei de date date 3.1. 3.1. Depis Depista tarea rea outlie outlieriri-lor lor 3.2. Verifica Verificarea rea norma normalită lităţii ţii distri distribuţi buţiilor ilor 4. Analiza Analiza statis statistică tică univar univariată iată a datelor datelor 4.1. Descrier Descrierea ea statist statistică ică a variab variabilelo ilelorr nominale nominale 4.2. Descrierea statistică a variabielor numerice 5. Analiza Analiza statis statistică tică bivar bivariată iată a datelor datelor 5.1. Analiza Analiza statisti statistică că a gradului gradului de asociere asociere între între două variab variabile ile 5.2. Analiza Analiza de regr regresie esie şi corel corelaţie aţie 5.3. 5.3. Analiz Analiza a dispersi dispersiona onală lă (ANOVA (ANOVA)) 6. Estimar Estimarea ea şi şi testar testarea ea stat statisti istică că 6.1. Estimar Estimarea ea parame parametril trilor or prin interva intervall de încredere încredere 6.1.1. Estimarea prin prin interval de încredere încredere a unei medii şi unei unei proporţii 6.1.2. Estimarea prin prin interval de încredere încredere a diferenţei diferenţei dintre două medii medii şi două proporţii 6.2. 6.2. Testa Testarea rea stati statisti stică că 6.2.1. Testarea unei medii şi unei proporţii proporţii 6.2.1.1. Testarea unei medii 6.2.1.2. Testarea unei proporţii 6.2.2. Testarea diferenţei diferenţei dintre două două medii şi două proporţii proporţii 6.2. 6.2.2. 2.1. 1. 6.2. 6.2.2. 2.2. 2.
Test estarea dife difere renţ nţei ei din dintre tre do două medii Test Testar area ea dife difere renţ nţei ei dint dintre re două două prop propor orţi ţiii
7. Concl oncluz uziii
2
CAPITOLUL 1 INTRODUCERE 1.1 Defi Defini nire rea a pr proble oblem mei Studenţii anului 1, învăţământ la distanţă, specializarea Economie şi Gestiune Financiar Bancară, învăţământ post-universitar FIBAS, au completat în cadrul cursului de Statistică un chesti chestiona onar. r. Chesti Chestiona onarul rul cuprind cuprinde e întreb întrebări ări privin privind d profes profesia ia şi domeni domeniul ul de activ activita itate te ale ale studentului, venitul lunar obţinut, judeţul în care locuieşte. Deoarece chestionarul a fost realizat în preajma alegerilor prezidenţiale, s-au regăsit şi întrebări de interes pentru studenţi, cum ar fi, dacă activează în cadrul unui partid politic şi care este acesta, care sunt primele trei preferinţe pentru viitorul preşedinte al României. Răspun Răspunsur surile ile la întreb întrebări ările le din chesti chestiona onarr au fost fost introd introduse use în progra programul mul SPSS SPSS şi au format o bază de date pentru diferite analize.
1.2 1.2 Ob Obie iect ctiv ivul ul proi proiec ectu tulu luii În cadrul acestui proiect am dorit să analizez câteva întrebări din chestionar şi mai precis, întrebările privind vârsta şi venitul studenţilor studenţilor din anul 1 IDD, profesia şi domeniul de activitate. activitate. Prin utilizarea programului SPSS am încercat să obţin informaţii privind vârsta medie a studenţilor, venitul mediu; repartiţia studenţilor pe sexe, judeţe, domenii de activitate. Totodată, mi-am propus să reprezint grafic aceste repartiţii. Pentru Pentru a realiz realiza a o analiz analiză ă mai compl complexă exă,, am consid considera eratt utilă utilă aplica aplicarea rea proced procedeul eului ui ANOVA pentru a studia influenţa domeniului de activitate asupra venitului obţinut de studenţi. Anal Analiz iza a de regr regres esie ie şi core corela laţi ţie e mi-a mi-a perm permis is stud studie iere rea a legă legătu turii rii dint dintre re vârs vârsta ta şi veni venitu tull studenţilor. Am aplicat analiza asocierii pentru a identifica gradul de asociere între domeniul de activitate şi profesia studenţilor.
3
CAPITOLUL 2 CONSTRUIREA BAZEI DE DATE 2.1 Alegerea variabilelor analizate Am analizat răspunsurile studenţilor din anul 1 IDD la întrebările din chestionar cu ajutorul programului SPSS. Principalele întrebări considerate se referă la: sexul persoanei, vârsta, profesia, domeniul de activitate, venitul, mediul, judeţul, apartenenţa politică, partidul, participarea la alegeri, preferinţa pentru un candidat. Fiecare întrebare reprezintă o variabilă ce a fost introdusă în programul SPSS. Răspunsurile studenţilor la aceste întrebări constituie valori ale variabilelor definite anterior.
2.2 Definirea variabilelor şi introducerea datelor în SPSS Pentru a realiza analizele propuse în obiectivul acestui proiect, am început prin a creea baza de date. Acest proces presupune prezentarea datelor într-o formă care să permită organizarea şi efectuare analizei lor şi constă în două etape: - definirea variabilelor şi - introducerea datelor. Am definit variabilele în coloanele foii
Variable View
din fereastra
fiecare variabilă introdusă trebuie să-I precizăm atributele: - numele variabilei; - tipul variabilei (numeric, alfanumeric); - lungimea (numărul de caractere, numărul de zecimale); -
eticheta şi valorile etichetei; modalitatea de măsurare a variabilei (scală, ordinal, nominal).
4
Data Editor .
Pentru
Variabilele definite, în număr de 13, sunt prezentate în figura de mai jos:
Figura 1. Foaia Variable View din fereastra Data Editor În cazul variabilelor categoriale (nominale) am precizat valorile luate de variabile şi etichetele corespunzătoare acestoraîn fereastra Value Label. Pentru sexul respondentului am scris: 1 – masculin; 2 – feminin. Pentru profesia respondentului am scris: 1 – economist; 2 – inginer;
4 – medic; 5 – profesor;
3 – jurist;
6 – altele.
Pentru domeniul de activitate am scris: 1 – industrie;
3 – servicii;
2 – comerţ;
4 – altele.
Pentru mediul de rezidenţă am scris: 1 – urban; 2 – rural. Pentru apartenenţă politică am scris:
5
1 – da; 0 – nu. Pentru participare la alegeri am scris: 1 – da; 0 – nu. Pentru preferinţa 1 (preferinţa 2, preferinţa 3) privind candidaţii la preşedinţie am scris: 1 – Traian Băsescu; 2 – Marko Belo; 3 – Ciuhandru; 4 – Adrian Năstase;
5 – Corneliu Vadim Tudor; 6 – Gigi Becali; 7 – Miluţ; 8 – Altă preferinţă.
Variabilele judeţul şi partidul au fost definite ca variabile alfanumerice (String). Pentru variabila venitul lunar milioane lei am scris intervalele oferite ca variante ajutătoare de răspuns: 1 – <3 milioane lei; 2 – 3-5 milioane lei; 3 – 5-10 milioane lei; 4 – 10-20 milioane lei; 5 – >20 milioane lei. Am introdus datele în celulele foii Data View din fereastra Data Editor. În fiecare coloană (variabilă) am introdus răspunsul corespunzător. În total au fost 32 de subiecţi, deci am obţinut 32 de răspunsuri.
6
CAPITOLUL 3 VERIFICAREA BAZEI DE DATE Pentru a verifica dacă distribuţia valorilor unei variabile prezintă asimetrie accentuată, dacă sunt outlier-i sau alte anomalii se pot utiliza diagramele Boxplot create prin opţiunea Explore a comenzii Descriptive Statistics din meniul Analyze, sau alte procedee de verificare a normalităţii (procedee grafice: histograma, P-P plot, Q-Q plot şi teste de normalitate).
3.1 Depistarea outlieri-lor În output-ul opţiunii Explore am obţinut valorile extreme cele mai mari şi cele mai mici pentru cele două variabile numerice: vărsta respondentului şi venitul lunar mil. lei. Extreme Values
varsta respondentului
Highest
Lowest
venitul lunar milioane lei Highest
Lowest
1
Case Number 10
Value 43.00
2
9
41.00
3
30
39.00
4
6
37.00
5
17
37.00
1
28
22.00
2
27
22.00
3
19
23.00
4
32
23.00
5
16
1
10
25.00
2
9
25.00
3
25
15.00
4
3
15.00
5
8
1
28
1.50
2
11
1.50
3
31
1.50
4
7
1.50
5
13
.a
.b
.c
a. Only a partial list of cases with the value 23 are shown in the table of lower extremes. b. Only a partial list of cases with the value 15 are shown in the table of upper extremes. c. Only a partial list of cases with the value 2 are shown in the table of lower extremes.
7
Din figura 5 observăm că diagrama Boxplot pentru variabila venitul lunar mil. lei indică două valori outlier-e pentru respondenţii cu nr. crt. 9 şi 10 şi anume valoarea egală cu 25 mil. lei.
3.2 Verificarea normalităţii distribuţiilor Ca procedee numerice pentru testarea normalităţii am folosit asimetria (Skewness) şi boltirea (Kurtosis). Valorile pentru asimetrie obţinute pentru distribuţiile după variabilele vârsta respondentului şi venitul respondentului sunt mai mari decât 0 (0,579 şi respectiv 1,204) indicând o asimetrie la dreapta (pozitivă). Valorile pentru boltire obţinute diferă pentru cele două variabile. Pentru variabila vârsta respondentului valoarea coeficientului de boltire este negativă (-1,006) relevând o distribuţie platicurtică. Pentru variabila venitul respondentului valoarea coeficientului de boltire este pozitivă (1,283) relevând o distribuţie leptocurtică.
Descriptives
varsta respondentului
Mean 95% Confidence Interval for Mean
Lower Bound Upper Bound
5% Trimmed Mean
Std. Error 1.1080
31.6973 29.1389 27.0000 39.286 6.2679 22.00 43.00 21.00
Median Variance Std. Deviation Minimum Maximum
venitul lunar milioane lei
Statistic 29.4375 27.1777
Range Interquartile Range Skewness Kurtosis Mean 95% Confidence Interval for Mean
Lower Bound Upper Bound
5% Trimmed Mean Median Variance Std. Deviation Minimum Maximum Range Interquartile Range
11.0000 .579 -1.006 8.2500 5.9762
.414 .809 1.1149
10.5238 7.6944 7.5000 39.774 6.3067 1.50 25.00 23.50 9.1250 1.204 1.283
Skewness Kurtosis
8
.414 .809
Principiul verificării normalităţii unei distribuţii pe baza testului Kolmogorov-SmirnovLilliefors (K-L-S) constă în compararea frecvenţelor reale cumulate cu frecvenţele teoretice cumulate extrase din tabelul Gauss. Tests of Normality a
Kolmogorov-Smirnov Statistic .214
varsta respondentului venitul lunar milioane lei
df
.297
Shapiro-Wilk
32
Sig. .001
Statistic .882
32
.000
.828
df 32
Sig. .010**
32
.010**
**. This is an upper bound of the true significance. a. Lilliefors Significance Correction
Nivelul redus al gradului de semnificaţie obţinut pentru cele două variabile (Sig. mai mic decât 0,05) arată că distribuţiile după „vârsta respondentului” şi „venitul respondentului” diferă semnificativ de forma distribuţiei normale. Diagrama Q-Q pentru variabila vârsta respondentului prezintă punctele Q-Q conturând o linie care este apropiată de dreapta care reprezintă distribuţia teoretică. Această situaţie indică o distribuţie normală. Normal Q-Q Plot of varsta respondentului 2
1
l 0 a m r o N d -1 e t c e p x E -2 10
20
30
40
50
Observed Value
Figura 2. Diagrama Q-Q plot pentru variabila “vârsta respondentului”
9
Diagrama Q-Q pentru variabila venitul respondentului arată că punctele sunt serios deviate de la dreaptă ceea ce indică abateri de la normalitate, deci o distribuţie care nu este normală.
Normal Q-Q Plot of venitul lunar milioane 2.0
1.5
1.0
.5
l a m r o N d e t c e p x E
0.0
-.5
-1.0 -1.5 0
10
20
30
Observed Value
Figura 3. Diagrama Q-Q plot pentru variabila “venitul lunar milioane lei”
Diagrama Boxplot pentru variabila “vârsta respondentului” arată o distribuţie asimetrică la dreapta.
10
50
40
30
20 N=
32
varsta respondentulu
Figura 4. Diagrama Boxplot pentru variabila “vârsta respondentului”
Diagrama Boxplot pentru variabila “venitul respondentului” indică prezenţa a doi outlier-i arătând astfel că distribuţia nu este normală.
30
10 9 20
10
0
-10 N=
32
venitul lunar milioa
Figura 5. Diagrama Boxplot pentru variabila “venitul lunar milioane lei”
11
CAPITOLUL 4 ANALIZA STATISTICĂ UNIVARIATĂ A DATELOR 4.1
Descrierea statistică a variabilelor nominale
În urma analizei variabilelor nominale cu ajutorul opţiunii Frequencies din comanda Descriptive Statistics a meniului Analyze am obţinut tabele de frecvenţă pentru fiecare varibilă în parte, în care sunt calculate, sub formă procentuală, proporţiile diferitelor categorii de respondenţi în totalul eşantionului. Pentru reprezentarea grafică a variabilelor nominale şi prezentarea vizuală a aceloraşi rezultate privind proporţiile diferitelor categorii de respondenţi am ales opţiunea Pie charts din fereastra de dialog Frequencies Charts. Informaţiile obţinute atât din tabelele de frecvenţă cât şi din diagramele Pie privesc structura eşantionului de respondenţi pe sexe, profesii, domenii de activitate, medii, judeţe şi apartenenţă politică. sexul respondentului
Valid
Frequency 10
Percent 31.3
Valid Percent 31.3
Cumulative Percent 31.3
feminin
22
68.8
68.8
100.0
Total
32
100.0
100.0
masculin
12
profesia respondentului
Valid
Frequency 23
Percent 71.9
Valid Percent 71.9
Cumulative Percent 71.9
inginer
3
9.4
9.4
81.3
jurist
3
9.4
9.4
90.6
profesor
2
6.3
6.3
96.9
altele
1
3.1
3.1
100.0
Total
32
100.0
100.0
economist
domeniul de activitate
Valid
comert
Frequency 5
Percent 15.6
Valid Percent 15.6
Cumulative Percent 15.6
servicii
19
59.4
59.4
75.0
altele
8
25.0
25.0
100.0
Total
32
100.0
100.0
mediul
Valid
Frequency 31
Percent 96.9
Valid Percent 96.9
Cumulative Percent 96.9
rural
1
3.1
3.1
100.0
Total
32
100.0
100.0
urban
judetul
Valid
Frequency 1
Percent 3.1
Valid Percent 3.1
Cumulative Percent 3.1
Botosani
5
15.6
15.6
18.8
Harghita
1
3.1
3.1
21.9
20
62.5
62.5
84.4
Neamt
2
6.3
6.3
90.6
Vaslui
3
9.4
9.4
100.0
32
100.0
100.0
Bacau
Iasi
Total
apartenenta politica
Valid
nu
Frequency 25
Percent 78.1
Valid Percent 78.1
Cumulative Percent 78.1
da
7
21.9
21.9
100.0
32
100.0
100.0
Total
Din totalul celor 32 de respondenţi, 31,3% sunt persoane de sex feminine iar 68,7% sunt personae de sex masculine.
13
Din cei 32 de studenţi la Fibas din anul 1 IDD anchetaţi , 71,9% sunt de profesie economişti, 9,4% sunt ingineri, 9,4% sunt jurişti, 6,3% sunt profesori şi 3,1% alte profesii. Cei mai mulţi studenţi îşi desfăşoară activitatea profesională în domeniul serviciilor (59,4%), doar 15,6% îşi desfăşoară activitatea în comerţ, iar 25% îşi desfăşoară activitatea în alte domenii. În ceea priveşte mediul de rezidenţă, o singură persoană locuieşte în mediul rural, în timp ce restul peroanelor, în proporţie de 96,9%, locuiesc în mediul urban. Peste 50% dintre studenţii anului 1 IDD sunt din judeţul Iaşi (62,5%), 15,6% sunt din judeţul Botoşani, 9,4% sunt din judeţul Vaslui, 6,3% sunt din judeţul Neamţ, 3,1% sunt din judeţul Bacău şi tot 3,1% din judeţul Harghita. Din totalul respondenţilor, 78,1% nu aparţin nici unui partid politic în timp ce 21,9% aparţin unei formaţiuni politice.
profesia respondentului
domeniul de activitate
altele
altele
profesor
25.0%
jurist
comert
inginer
15.6%
economist
servicii 59.4%
judetul
mediul rural Vaslui
3.1%
9.4% Neamt 6.3%
Bacau 3.1% Botosani 15.6% Harghita 3.1%
Iasi 62.5%
urban 96.9%
14
sexul respondentului
apartenenta politica da
masculin
21.9%
31.3%
feminin 68.8%
nu 78.1%
Figura 6. Diagramele Pie
Am aflat categoria cea mai des întâlnită pentru fiecare variabilă nominală calculând modul. Astfel, din cei 32 de studenţi din anul 1 IDD, predomină studenţii de sex masculin, având profesia de economist, desfăşurându-şi activitatea în domeniul servciilor, din mediul urban şi fără apartenenţă politică. Statistics
N
Valid Missing
Mode
sexul respondentului 32
profesia respondentului 32
domeniul de activitate 32
32
apartenenta politica 32
0
0
0
0
0
2.00
1.00
3.00
1.00
.00
mediul
4.2 Descrierea statistică a variabielor numerice Am caracterizat distribuţiile statistice după vârsta respondentului şi venitul lunar calculând indicatorii tendinţei centrale, dispersiei şi formei prin selectarea opţiunii Frequencies din comanda Descriptive Statistics a meniului Analyze.
15
Statistics varsta respondentului 32
venitul lunar milioane lei 32
0
0
Mean
29.4375
8.2500
Median
27.0000
7.5000
35.00
7.50
6.2679
6.3067
39.2863
39.7742
.579
1.204
.414
.414
-1.006
1.283
.809
.809
Range
21.00
23.50
Minimum
22.00
1.50
Maximum
43.00
25.00
942.00
264.00
N
Valid Missing
Mode Std. Deviation Variance Skewness Std. Error of Skewness Kurtosis Std. Error of Kurtosis
Sum
Pentru variabila vârsta respondentului am obţinut următoarele valori ale indicatorilor calculaţi:
Mean (media) = 29,43 ani : Vârsta medie a studenţilor din anul 1, IDD este de 29,34 ani.
Median (mediana) = 27 ani : Jumătate dintre studenţii din anul 1, IDD au vârsta până la 27 ani şi jumătate din studenţii din anul 1, IDD au vârsta peste 27 ani.
Mode (modul) = 35 ani : Vârsta purtată de cei mai mulţi dintre studenţii anului 1, IDD este vârsta de 35 de ani.
Std. Deviation (abaterea medie pătratică, numită şi abaterea standard) = 6,26 ani : În medie, vârsta unui student se abate faţă de vârsta medie a studenţilor cu 6,26 ani, adică aproximativ 68% dintre studenţi au vârsta cuprinsă într-un interval egal cu media plus sau minus valoarea abaterii medii pătratice, respectiv: 29,43 ± 6,26 ani.
Kurtosis (boltirea) = -1,006 : Valoarea negativă a coeficientului de boltire relevă o distribuţie platicurtică.
Skewness (asimetria) = 0,579 : Valoarea pozitivă a coeficientului de asimetrie indică o asimetrie
la dreapta (pozitivă).
Pentru a arăta forma distribuţiei studenţilor după vârstă am folosit histograma şi curba frecvneţelor obţinute cu ajutorul butoanelor de comandă din fereastra Frequencies:Charts.
16
varsta respondentului 10
8
6
4
y c 2 n e u q e r F 0
Std. Dev = 6.27 Mean = 29.4 N = 32.00 22.5
27.5 25.0
32.5 30.0
37.5 35.0
42.5 40.0
varsta respondentului
Figura 7. Histograma şi curba frecvenţelor – Distribuţia după vârstă a studenţilor din anul 1, IDD Din figura 7 observăm că, pe ansamblu, eşantionul are o distribuţie după vârstă asimetrică la dreapta predominând vârsta tânără.
Pentru variabila venitul lunar milioane lei am obţinut următoarele valori ale indicatorilor calculaţi:
Mean (media) = 8,25 mil. lei : Oricare student din cei 32 de studenţi din anul 1 IDD, realizează în medie un venit lunar de 8,25 mil. lei.
Median (mediana) = 7,5 mil. lei : Jumătate dintre studenţii din anul 1, IDD realizează un venit lunar până la 7,5 mil. lei ani iar jumătate dintre studenţi realizează un venit peste 7,5 mil. lei.
Mode (modul) = 7,5 mil. lei : V enitul realizat de cei mai mulţi dintre studenţii anului 1, IDD este de 7,5 mil. lei.
Std. Deviation (abaterea medie pătratică, numită şi abaterea standard) = 6,3 mil. lei : În medie, venitul lunar câştigat de un student se abate faţă de venitul mediu lunar cu 6,3 mil. lei, adică aproximativ 68% dintre studenţi realizează un venit mediu lunar cuprinsă într-un interval egal cu media plus sau minus valoarea abaterii medii pătratice, respectiv: 8,25 ± 6,3 mil. lei.
Kurtosis (boltirea) = 1,283 : Valoarea coeficientului de boltire este pozitivă relevând o distribuţie leptocurtică.
Skewness (asimetria) = 1,204 : Valoarea pozitivă a coeficientului de asimetrie indică o asimetrie
la dreapta (pozitivă).
Sum (suma tuturor observaţiilor) = 264 mil. lei : Cei 32 de studenţi din anul 1 IDD au realizat un venit lunar de 264 mil. lei.
17
Din figura 8 observăm că, pe ansamblu, eşantionul are o distribuţie după venitul lunar asimetrică la dreapta predominând veniturile mici şi medii. Curba frecvenţelor este leptocurtică.
venitul lunar milioane lei 14
12
10
8
6
4 y c n e u q e r F
Std. Dev = 6.31
2
Mean = 8.3 N = 32.00
0 0.0
5.0
10.0
15.0
20.0
25.0
venitul lunar milioane lei
Figura 8. Histograma şi curba frecvenţelor– Distribuţia după venit a studenţilor din anul 1, IDD
CAPITOLUL 5 ANALIZA STATISTICĂ BIVARIATĂ A DATELOR 5.1 Analiza statistică a gradului de asociere între două variabile Tratarea datelor în vederea analizei statistice a gradului de asociere presupune: -
construirea tabelelor de asociere şi calculul frecvenţelor condiţionate;
-
calculul şi interpretarea lui hi-pătrat; calculul coeficienţilor de asociere.
18
În acest subcapitol mi-am propus să studiez gradul de asociere dintre două variabile nominale: domeniul de activitate şi profesia respondentului. Distribuţia eşantionului de respondenţi observaţi simultan după cele două variabile considerate poate fi obţinută prin opţiunea Crosstabs a comenzii Descriptive Statistics din meniul Analyze. Distribuţia de frecvenţă „ domeniul de activitate * profesia respondentului” este obţinută în crostabelul de mai jos. Tabelul ne arată câte personae ce activează într-un anumit domeniu de activitate au o anumită profesie.
Crosstab Count profesia respondentului domeniul de activitate
comert
economist 4
servicii
16
altele Total
inginer
jurist
profesor
altele
Total
1
5
3
19
3 23
3
2
2
1
8
3
2
1
32
Dintre cei 5 respondenţi care îşi desfăşoară activitatea în comerţ, 4 sunt de profesie economişti iar unul jurist. Dintre cei 19 respondenţi care activează în domeniul serviciilor, 16 sunt economişti iar 3 ingineri. Dintre cei 8 respondenţi care îşi desfăşoară activitatea în alte domenii 3 sunt economişti, 2 sunt jurişti, 2 sunt profesori iar unul are altă profesie decât cele precizate în chestionar. Am reprezentat grafic, prin bare, distribuţia după domeniul de activitate şi profesia respondentului.
20 18 16 14 12 profesia
10
t n u o C
8
economist
6
inginer
4
jurist
2
profesor
0
altele comert
servicii
altele
domeniul de activitate
Figura 9. Distribuţia de frecvenţă „domeniul de activitate * profesia respondentului”
19
(clustered bar charts)
Am analizat diferenţele calitative prin calculul şi interpretarea lui hi-pătrat (Pearson ChiSquare). Chi-Square Tests
Pearson Chi-Square Likelihood Ratio Linear-by-Linear Association N of Valid Cases
8
Asymp. Sig. (2-sided) .027
18.906
8
.015
7.173
1
.007
Value 17.283a
df
32
a. 13 cells (86.7%) have expected count less than 5. The minimum expected count is .16.
Am citit din tabel valoarea testului hi-pătrat egală cu 17,283. Pentru 8 grade de libertate, valoarea semnificaţiei (Asymp. Sig.) este egală cu 0,027 şi deci este mai mică decât 0,05. În concluzie, se respinge ipoteza H 0 şi se acceptă ipoteza H 1. Conform ipotezei H1, există asociere între variabila „domeniul de activitate” şi variabila „profesia respondentului”.
5.2 Analiza de regresie şi corelaţie În acest subcapitol mi-am propus să analizez legătura dintre două variabile, dintre care una este efectul (rezultativa, dependenta) iar cealaltă este cauza (factoriala, independenta). Am aplicat analiza de regresie pentru a evalua în ce măsură variabila dependentă „venitul lunar milioane lei” poate fi explicată prin variabila independentă „vârsta respondentului”. Programul SPSS estimează parametrii modelului de regresie ales (am ales modelul de regresie simplu liniar). Pentru analiza modelului de regresie am parcurs următorii paşi: - estimarea parametrilor ecuaţiei de regresie (pe baza metodei celor mai mici pătrate) şi interpretarea regresiei în funcţie de semnul şi valoarea parametrilor modelului de -
regresie; testarea semnificaţiei parametrilor de regresie.
Parametrii ecuaţiei de regresie , într-un model liniar simplu, 20
Y = α + β X + ε
, sunt:
-
α
– ordonata la origine (valoarea variabilei Y când X = 0); – panta dreptei, numit şi coeficient de regresie;
Variabila independentă (X) şi variabila dependentă (Y) sunt prezentate în tabelul Variables Entered. b Variables Entered/Removed
Model 1
Variables Entered varsta responden a tului
Variables Removed .
Method Enter
a. All requested variables entered. b. Dependent Variable: venitul lunar milioane lei
În ecuaţia de regresie, parametrii
α
şi
sunt necunoscuţi. În practică parametrii unui
model de regresie sunt estimaţi pe baza datelor la nivelul unui eşantion observat:
Y
=
a
+ bX
,
unde:
- a şi b sunt estimaţii ale parametrilor
α
şi
.
Coefficientsa
Standardi zed Coefficien ts
Unstandardized Coefficients Model 1
(Constant) varsta respondentului
B -7.558
Std. Error 4.673
.537
Beta
.155
.534
t -1.618
Sig. .116
3.457
.002
a. Dependent Variable: venitul lunar milioane lei
Am obţinut în tabelul Coefficients valorile estimaţiilor parametrilor de regresie şi anume valorile lui a şi b (Unstandardized Coefficients). a (Constant) = -7,558 b (vârsta respondentului) = 0,537 Modelul de regresie estimat este:
Y
21
7,558
=−
+
0,537
⋅ X
Deoarece am obţinut o valoare pozitivă a coeficientului de regresie
b,
înseamnă că există o legătură directă între vârsta respondentului şi venitul lunar obţinut. Dacă vârsta creşte cu 1 an, atunci venitul lunar creşte, în medie, cu 0,537 mil. lei. Am testat parametrii modelului de regresie folosind testul t. În tabelul Coefficients citim valoarea testului t şi valoarea Sig. corespunzătoare. Pentru coeficientul de regresie
b, citim valoarea testului egală cu 3,457 şi valoarea semnificaţiei Sig. de 0,002. Deoarece Sig. este mai mic decât 0,05, atunci respingem ipoteza H 0 ( semnificativ de 0) şi acceptăm ipoteza H 1 (
nu diferă
diferă semnificativ de 0). În
conlcuzie, putem spune că există legătură semnificativă între vârsta respondentului şi venitul lunar obţinut.
În continuare am studiat intensitatea legăturii dintre variabilele “vârsta respondentului” şi “venitul lunar milioane lei”. În acest sens am folosit analiza de corelaţie şi am obţinut şi interpretat indicatorii corelaţiei. Valoarea R (valoarea coeficientului de corelaţie) arată dacă există sau nu corelaţie între variabila dependentă (Y) şi variabila independentă (X). Valoarea lui R este egală cu 0,534, deci putem spune că există o legătură strânsă (dar nu foarte strânsă) între cele două variabile. Mod el Summary
Model 1
R R Square a .534 .285
Adjusted R Square .261
Std. Error of the Estimate 5.4216
a. Predictors: (Constant), varsta respondentului
Putem calcula coeficientul de corelaţie şi cu ajutorul opţiunii Bivariate a comenzii correlate din meniul Analyze. Tabelul Correlations prezintă valorile coeficienţilor de corelaţie dintre variabilele “vârsta respondentului” şi “venitul lunar”. Coeficientul de corelaţie Pearson (Pearson Correlation) este
22
egal cu 0,534. Valoarea coeficientului este pozitivă deci, corelaţia dintre variabile este directă şi strânsă. Correlations
varsta respondentului
Pearson Cor relation
varsta responde ntului 1.000
Sig. (2-tailed) N venitul lunar milioane lei
venitul lunar milioane lei .534**
.
.002
32
32
Pearson Cor relation
.534**
Sig. (2-tailed)
.002
.
32
32
N
1.000
**. Correlation is significant at the 0.01 level (2-tailed).
Testul t este aplicat pentru a verifica dacă există o corelaţie semnificativă între cele două variabile. Valoarea Sig. corespunzătoare testului t este egală cu 0,002, deci putem concluziona că am obţinut un coeficient de corelaţie semnificativ.
5.3 Analiza dispersională (ANOVA) În acest subcapitol mi-am propus să studiez influenţa domeniului în care îşi desfăşoară activitatea studenţii anului 1 IDD, asupra venitului lunar realizat. Pentru atingerea acestui obiectiv am aplicat procedeul de analiză ANOVA unifactorială (One-Way ANOVA) care analizează varianţa pentru o variabilă cantitativă (venitul lunar) dependentă de o singură variabilă factor (domeniul de activitate). Prin ANOVA se compară venitul mediu pentru cele trei subpopulaţii definite de variabila de grupare (respondenţii care activează în comerţ, respondenţii care activează în servicii şi respondenţii care activează în alte domenii). În SPSS, am ales opţiunea One-Way ANOVA din comanda Compare Means a meniului Analyze. Pentru a verifica dacă sunt îndeplinite restricţiile cerute de ANOVA am bifat casetele de validare Descriptives, Homogeneity of variance şi Means plot. Restricţiile impuse unei analize ANOVA şi verificarea lor constau în: - restricţia de normalitate (pentru a verifica normalitatea putem folosi: rezultatele din tabelul Descriptives, diagrama Boxplot – vezi figura 5, diagrama Q-Q – vezi figura 3, testul K-L-S); -
restricţia de homoscedasticitate (pentru a verifica dacă varianţele grupelor sunt egale folosim testul Levene – Test of Homogeneity of Variances);
23
-
restricţia de independenţă; Descriptives
venitul lunar milioane lei 95% Confidence Interval for Mean N 5
Mean 2.7000
Std. Deviation 2.6833
Std. Error 1.2000
Lower Bound -.6317
Upper Bound 6.0317
M inim um 1.50
M axim um 7.50
19
9.7895
6.3712
1.4617
6.7187
12.8603
4.00
25.00
altele
8
8.0625
6.2589
2.2129
2.8299
13.2951
1.50
15.00
Total
32
8.2500
6.3067
1.1149
5.9762
10.5238
1.50
25.00
comert servicii
Test of Homogeneity of Variances venitul lunar milioane lei Levene Statistic 1.627
df1
df2 2
29
Sig. .214
În tabelul ANOVA am obţinut valoarea statisticii test Fisher, valoarea semnificaţiei Sig. şi elementele de calcul pentru statistica test F (Fisher). ANOVA
venitul lunar milioane lei
Between Groups
Sum of Squares 199.323
Within Groups Total
df 2
Mean Square 99.662
1033.677
29
35.644
1233.000
31
F 2.796
Sig. .078
Statistica test F se calculează după relaţia: 2
F =
S E 2
S R
SE2 reprezintă estimatorul varianţei intergrupe (Between-Groups); SR2 reprezintă media varianţelor de grupă şi arată varianţa din interiorul fiecărei grupe (Within Groups). Valoarea statisticii F este mică (2,796) iar semnificaţia Sig. corespunzătoare este egală cu 0,078. Deoarece Sig. este mai mare decât 0,05 nu se respinge ipoteza H 0 (ipoteza de egalitate a mediilor), deci, nu există diferenţe semnificative între domeniile de activitate cu privire la venitul mediu lunar realizat. Graficul corespunzător pentru mediile din cele trei domenii de activitate este prezentat în figura de mai jos:
24
12
10
i e l e n a o i l i m r a n u l l u t i n e v f o n a e M
8
6
4
2 comert
servicii
altele
domeniul de activitate
Figura 10. Venitul mediu lunar pe domenii de activitate
CAPITOLUL 6 ESTIMAREA ŞI TESTAREA STATISTICĂ 6.1 Estimarea parametrilor prin interval de încredere Prin estimare se înţelege un procedeu prin care se generalizează rezultatele observate pe un eşantion la nivelul populaţiei din care este extras, adică se află valoarea unui parametru al unei populaţii pe baza datelor înregistrate la nivelul unui eşantion extras din aceasta. (Elisabeta Jaba, Ana Grama, pag. 176). Estimarea se poate efectua punctual sau prin interval de încredere. Estimarea punctuală presupune o estimaţie calculată pe baza datelor înregistrate la nivelul unui eşantion. Estimarea prin interval de încredere presupune aflarea limitelor de încredere ale unui interval care acoperă valoarea adevărată a unui parametru al populaţiei. 6.1.1
Estimarea prin interval de încredere a unei medii şi unei proporţii
Pentru a estima prin interval de încredere vârsta medie , respectiv venitul mediu al tuturor studenţilor din anul 1 IDD, studii post-universitare FIBAS, am selectat opţiunea Explore din comanda Descriptive Statistics a meniului Analye. Caseta Descriptives permite calculul intervalului de încredere 95%.
25
Descriptives
varsta respondentului
Statistic 29. 43 75
Mean 95% Confidence Interval for Mean
venitul lunar milioane lei
Lower Bound Upper Bound
27.1777 31.6973
Mean
8.2500
95% Confidence Interval for Mean
Lower Bound Upper Bound
Std. Error 1 .1080
1.1149
5.9762 10.5238
Limita inferioară a intervalului de încredere (Lower Bound) este: Lmita superioară a intervalului de încredere (Upper Bound) este:
x
x
− z α / 2
+ z α / 2
σ
n σ
n
În concluzie, vârsta medie a populaţiei este cuprinsă, cu o încredere de 95%, între 27,17 şi 31,69 ani. Venitul mediu al populaţiei este cuprins, cu o încredere de 95%, între 5,97 şi 10,52 milioane lei.
Pentru a estima prin interval de încredere proporţia studenţilor din anul 1, IDD studii post-universitare FIBAS, care îl preferă cel mai mult la preşedinţie pe Traian Băsescu (preferinţa 1) am efectuat următorul set de operaţii: 1. Am calculat, la nivelul eşantionului observat, proporţia răspunsurilor pentru Traian Băsescu ca prima preferinţă. preferinta 1 pen tru candidatul la p resedintie
Valid
basescu
Frequency 21
Percent 65.6
Valid Percent 65.6
Cumulative Percent 65.6
nastase
8
25.0
25.0
90.6
becali
2
6.3
6.3
96.9
alta preferinta
1
3.1
3.1
100.0
32
100.0
100.0
Total
Din totalul celor 32 de respondenţi, 65,6% îl preferă cel mai mult pe Traian Băsescu pentru preşedinţie. 2. Am calculat eroarea standard S p după relaţia: S p
=
s n
, unde
s
=
f(1 - f) este abaterea standard iar n este volumul esantionul ui
Aplicăm formula de mai sus pentru
f = 0.656 si n
26
=
32 persoane
şi obţinem:
S p
=
0.656 (1 − 0.656 ) 32
=
0.656 ⋅ 0.344 32
0.225
=
32
=
0.475 5.656
=
0.084
3. Am calculat limitele I.C. (pentru z = 1,96 ) Limita inf. : L i Lmita
sup. : L s
=
f −1,96
=
⋅
f +1.96
S p ⋅
=
S p
0,656
=
0.656
1.96
−
⋅
1.96
+
0.084 ⋅
0.084
=
0.656 - 0.164 0.656
=
+
=
0.164
0.492 (49.2%) =
0.82 (82%)
Cu o încredere de 95%, proporţia studenţilor din anul 1, IDD studii postuniversitare FIBAS, care îl preferă cel mai mult la preşedinţie pe Traian Băsescu (preferinţa 1) este cuprinsă între 49,2% şi 82%. Acest rezultat arată o pondere destul de ridicată a preferinţei pentru Traian Băsescu.
6.1.2
Estimarea prin interval de încredere a diferenţei dintre două medii şi
două proporţii
Pentru a estima prin interval de încredere diferenţa dintre venitul mediu realizat de persoanele ce îşi desfăşoară activitatea în comerţ ( μ 1 ) şi venitul mediu realizat de persoanele ce îşi desfăşoară activitatea în domeniul serviciilor (μ 2 ) am calculat limitele I.C. Limita inferioară (Lower) este:
Lmita superioară (Upper) este:
(x1 − x 2 ) − t
/2 ⋅
α
(x1 − x 2 ) + t
/2 ⋅
α
s12 n1 s12 n1
s
+
2 2
n2 s
+
2 2
n2
Intervalul de încredere pentru diferenţa dintre cele două medii este calculat în SPSS cu ajutorul opţiunii Independent Samples T Test (vezi output-ul de mai jos).
27
Independent Samples Test
venitul lunar milioane lei Levene's Test for Equality of Variances
F Equal variances assumed
.901
Sig. .356
Equal variances not assumed
t-test for Equality of Means
t
df
Sig. (2-tailed)
Mean Difference
Std. Error Difference
95% Confidence Interval of the Difference Lower
Upper
-3.765
17
.002
-3.8000
1.0093
-5.9294
- 1.6706
-2.974
5.112
.030
-3.8000
1.2776
-7.0628
-.5372
Diferenţa dintre venitul mediu a respondenţilor din cele două domenii de activitate este acoperită de intervalul (-5,93 milioane lei; -1,67 milioane lei). Prin urmare, ne putem aştepta, cu o încredere de 95%, ca venitul mediu al persoanelor din comerţ să fie mai mic decât venitul mediu al persoanelor din domeniul serviciilor cu o valoare din intervalul (1,67 mil. lei; 5,93 mil. lei).
6.2 Testarea statistică Demersul testării unei ipoteze presupune parcurgerea mai multor etape: 1. Se formulează ipotezele, în funcţie de problema pusă; 2. Se alege un test în funcţie de distribuţia de selecţie a statisticii considerate; 3. Se alege un prag de semnificaţie
α
pentru test;
4. Se definesc regiunile de acceptare şi de respingere a ipotezei H0;
5. Se calculează valoarea statisticii test; 6. Se compară valoarea calculată a statisticii test cu valoarea teoretică; 7. Se ia decizia de a nu respinge sau de a respinge ipoteza admisă. 6.2.1
Testarea unei medii şi unei proporţii
se realizează folosind opţiunea One-Sample T Test din comanda Compare Means a meniului Analyze. Testarea egalităţii unei medii cu o valoare specificată
Am formulat ipoteza cu privire la vârsta respondenţilor şi anume, vârsta medie a respondenţilor este egală cu o constantă specificată (30 ani). Vârsta medie a respondenţilor este egală cu 29,43 ani (vezi output-ul One-Sample Statistics). Valoarea specificată este egală cu 30 ani (vezi output-ul One-Sample Test). Diferenţa dintre vârsta medie observată şi valoarea specificată este egală cu -0,5625 (vezi output-ul One-Sample Test).
28
One-Sample Statistics
N varsta respondentului
32
Mean 29.4375
Std. Deviation 6.2679
Std. Error Mean 1.1080
One-Sample Test Test Value = 30
varsta respondentului
t -.508
df 31
Sig. (2-tailed) .615
Mean Difference -.5625
95% Confidence Interval of the Difference Lower -2.8223
Upper 1.6973
Valoarea semnificaţiei testului t (Sig.) este mai mare decât 0,05 şi intervalul de încredere conţine valoarea 0 deci, putem concluziona că nu există o diferenţă semnificativă între vârsta medie observată în eşantion şi valoarea specificată (30 ani).
32
31
30
i u l u 29 t n e d n o p s 28 e r a t s r a v 27 I C % 5 26 9 N=
32
varsta respondentulu
Figura 10. Venitul mediu lunar pe domenii de activitate Prin preocedeul Error Bar se poate observa că valoarea specificată (30 ani) este cuprinsă în intervalul de încredere. Ca urmare, se poate spune cu o încredere de 95% că se acceptă ipoteza de nul, adică de egalitate a vârstei medii a persoanelor din eşantion cu valoarea specificată (30 ani). Testarea proporţiei cu o valoare specificată se realizează folosind testul neparametric Binomial din meniul Analyze. Am formulat ipoteza că proporţia uneia dintre dintre grupele definite prin variabila sexul respondentului nu diferă semnificativ de proporţia specificată de 50%.
29
Binomial Test
sexul respondentului
Group 1
Category feminin
Group 2
masculin
22
Observed Pr op. .69
10
.31
32
1.00
N
Total
T est Pr op . .50
Asymp. Sig. (2-tailed) .052 a
a. Based on Z Approximation.
Proporţia observată în eşantion pentru grupa 1 (feminin) este de 69% în timp ce proporţia specificată este de 50%. Semnificaţia corespunzătoare testului Binomial (Asymp. Sig.) este mai mare decât 0,05, deci putem concluziona, cu o încredere de 95%, că proporţia respondenţilor de sex feminin în eşantion nu diferă semnificativ de proporţia specificată (50%). 6.2.2
Testarea diferenţei dintre două medii şi două proporţii
Testarea diferenţei dintre două medii se realizează folosind opţiunea IndependentSamples T Test pentru două populaţii (grupe) independente din comanda Compare Means a meniului Analyze. Prin acest prodeceu, se testează dacă mediile a două grupe sunt egale. Prin acest demers mi-am propus să verific dacă venitul mediu lunar diferă pentru grupa respondenţilor care îşi desfăşoară activitatea în comerţ şi pentru grupa respondenţilor care îşi desfăşoară activitatea în servicii. Venitul mediu lunar al persoanelor din comerţ este egal cu 2,7 milioane lei iar venitul mediu lunar al persoanelor din servicii este egal cu 6,5 milioane lei (vezi output-ul Group Statistics). Group Statistics
venitul lunar milioane lei
domeniul de activitate comert
N
servicii
5
Mean 2.7000
Std. Deviation 2.6833
14
6.5000
1.6408
Std. Error Mean 1.2000 .4385
Calculul statisticii test t pentru compararea mediilor a două populaţii cere să se verifice dacă deviaţiile standard la nivelul celor două grupe sunt semnificativ diferite. În acest scop se foloseşte testul Levene de egalitate a varianţelor (Levene’s Test for Equality of Variance). Nivelul de semnificaţie observat pentru acest test este mare (Sig. este egal cu 0,356) deci se folosesc varianţe reunite (Equal variances assumed).
30
Independent Samples Test
venitul lunar milioane lei Levene's Test for Equality of Variances
F Equal variances assumed
.901
t-test for Equality of Means
Sig.
t
.356
Equal variances not assumed
df
Sig. (2-tailed)
Mean Difference
Std. Error Difference
95% Confidence Interval of the Difference Lower
Upper
-3.765
17
.002
-3.8000
1.0093
-5.9294
- 1.6706
-2.974
5.112
.030
-3.8000
1.2776
-7.0628
-.5372
Ţinând cont de cele prezentate mai sus, testul t pentru egalitatea mediilor este egal cu -3,765 cu 17 grade de libertate şi o probabilitate Sig. de 0,002 (mai mică decât 0,05) şi ne arată că mediile celor două grupe diferă semnificativ. Intervalul de încredere pentru diferenţa celor două valori (95% Confidence Interval of the Difference) nu conţine pe zero, ca urmare putem concluziona că venitul mediu lunar realizat de respondenţii din comerţ diferă semnificativ de venitul mediu lunar realizat în servicii. Testarea diferenţei dintre două proporţii se realizează cu ajutorul testului neparametric hi-pătrat (Chi Square). Testul verifică, pentru o variabilă nominală, dacă distribuţia de frecvenţă a variabilei concordă cu distribuţia teoretică a frecvenţelor. În ipoteza de nul presupunem egalitatea proporţiilor corespunzătoare opţiunilor pentru
-
preferinţă 1 privind candidatul la preşedinţie. Frecvenţele înregistrate pentru opţiunile privind preferinţa 1 sunt: Becali = 2 Băsescu = 21 Năstase = 8 Alte opţiuni = 1 Frecvenţele teoretice (conform ipotezei de nul) sunt: Becali = 8 Băsescu = 8 Năstase = 8
Alte opţiuni = 8
Diferenţele dintre frecvenţele observate şi frecvenţele teoretice sunt prezentate în coloana Residual. preferinta 1 pe ntru candidatul la presedintie
basescu
Obser ve d N 21
Exp ecte d N 8.0
nastase
8
8.0
.0
becali
2
8.0
-6.0
altele
1
8.0
-7.0
Total
32
31
Resid ua l 13.0
Test Statistics
Chi-Squarea
preferinta 1 pentru candidatul la presedintie 31.750
df
3
Asymp. Sig.
.000
a. 0 cells (.0%) have expected frequencies less than 5. The minimum expected cell frequency is 8.0.
Valoarea estimată a statisticii test hi-pătrat (31,750) este semnificativă la un nivel de încredere de 99%, deoarece valoarea semnificaţiei Asymp. Sig. este mai mică decât 0,01 şi deci se respinge ipoteza H 0. Putem trage concluzia că opţiunile respondenţilor privind preferinţa 1 pentru cei 4 candidaţi la preşedinţie (Băsescu, Năstase, Becali şi alţii) nu au aceeaşi proporţie. distribuţia nu este uniformă.
32
CAPITOLUL 7 CONCLUZII Analizele aplicate prin utilizarea programului SPSS au permis atingerea obiectivelor propuse prin acest proiect şi anume caracterizarea studenţilor din anul 1 IDD, FIBAS, după vârstă, venit, sex, judeţ, profesie, domeniul de activitate etc. Din eşantionul observat (32 de respondenţi), 31,3% sunt persoane de sex feminine iar 68,7% sunt personae de sex masculine. Din punct de vedere profesional, 71,9% sunt economişti, 9,4% ingineri, 9,4% jurişti, 6,3% profesori şi 3,1% au alte profesii. Cei mai mulţi studenţi activează în domeniul serviciilor (59,4%), doar 15,6% în comerţ iar 25% îşi desfăşoară activitatea în alte domenii. Conform analizei gradului de asociere există legătură semnificativă între variabila „domeniul de activitate” şi variabila „profesia respondentului”. În ceea priveşte mediul de rezidenţă, o singură persoană locuieşte în mediul rural, în timp ce marea majoritate (96,9%) locuiesc în mediul urban. Peste 50% dintre studenţii anului 1 IDD sunt din judeţul Iaşi (62,5%), 15,6% sunt din judeţul Botoşani, 9,4% sunt din judeţul Vaslui, 6,3% sunt din judeţul Neamţ, 3,1% sunt din judeţul Bacău şi tot 3,1% din judeţul Harghita. La nivelul eşantionului, 78,1% dintre studenţi nu aparţin nici unui partid politic, în timp ce 21,9% aparţin unei formaţiuni politice. Vârsta medie a studenţilor din anul 1, IDD observaţi în eşantion este de 29,34 ani. La nivelul populaţiei, vârsta medie este cuprinsă, cu o încredere de 95%, între 27,17 şi 31,69 ani. Conform testului t (One Sample T Test) putem concluziona că nu există o diferenţă semnificativă între vârsta medie observată în eşantion şi valoarea specificată (30 ani). Oricare student din cei 32 de studenţi din anul 1 IDD, realizează în medie un venit lunar de 8,25 mil. lei. Venitul mediu al populaţiei este cuprins, cu o încredere de 95%, între 5,97 şi 10,52 milioane lei. Am aplicat analiza de regresie pentru a evalua în ce măsură „venitul lunar milioane lei” poate fi explicat prin variabila „vârsta respondentului”. Conform modelului de regresie estimat, dacă vârsta creşte cu 1 an, atunci venitul lunar creşte, în medie, cu 0,537 mil. lei. Legătura dintre cele două variabile este strânsă (valoarea lui R este egală cu 0,534). Dacă prin analiza varianţei (ANOVA) am observat că domeniul de activitate (variabilă care are patru categorii: industrie, comerţ, servicii şi altele) nu influenţează semnificativ venitul mediu lunar realizat, totuşi, testul t pentru eşantioane independente arată că venitul mediu lunar realizat de respondenţii din comerţ diferă semnificativ de venitul mediu lunar realizat în servicii.
În ceea ce priveşte proporţia studenţilor din anul 1, IDD studii postuniversitare FIBAS, care îl preferă cel mai mult la preşedinţie pe Traian Băsescu (preferinţa 1), ea este cuprinsă între 49,2% şi 82%. Acest rezultat arată o pondere destul de ridicată a preferinţei pentru Traian Băsescu. 33