Proiect Pachete program de statistică
Efectuat de: Velicu A. Valerii Evaluat de: Viorică Elena-Daniela
Universitatea “Alexandru Ioan Cuza” Facultatea de Economie și Administrarea Afacerilor, Iași 2012
January 14, 2013
PACHETE PROGRAM STATISTICĂ
CUPRINS Cuprins .................................................................................................................................................... 2 1.Introducere .......................................................................................................................................... 3 2. Descrierea bazei de date și a a variabilelor analizate ......................................................................... 3 3. Analiza statistică univariată a datelor................................................................................................. 5 3.1 Descrierea statistică a variabilelor nenumerice............................................................................ 5 3.1.1 Response ................................................................................................................................ 5 3.1.2 Gender ................................................................................................................................... 7 3.2 Descrierea statistică a variabilelor numerice................................................................................ 9 3.2.1 Numărul de cumpărări........................................................................................................... 9 3.2.2 Numărul de zile de la ultima cumpărare..............................................................................13 3.2.3 Vârsta (Age)..........................................................................................................................18 4. Analiza statistică bivariată a datelor .................................................................................................21 4.1 Analiza statistică a gradului de asociere între 2 variabile...........................................................21 4.2 Analiza de regresie și corelație ...................................................................................................22 Regresie liniară simplă ..................................................................................................................22 Regresie liniară multiplă ...............................................................................................................26 Modelul de regresie hyperbolic ....................................................................................................28 Modelul de regresie Compound ...................................................................................................31 Modelul de regresie Putere (Power).............................................................................................33 Modelul de regresie parabolic (Quadratic)...................................................................................36 Modelul de regresie cubic.............................................................................................................39 Modelul Growth............................................................................................................................41 Modelul de regresie exponențial ..................................................................................................44 4.3 ANOVA ........................................................................................................................................46 5. Estimarea și testarea statistică .........................................................................................................47 5.1 Estimarea unei medii prin interval de încredere ........................................................................47 5.1.1 Estimarea prin interval de încredere a unei medii...............................................................47 5.1.2 Estimarea prin interval de încredere a diferenței dintre 2 medii ........................................49 5.2 Testarea statistică .......................................................................................................................49 5.2.1 Testatea unei medii și a unei proporții ................................................................................49 5.2.2 Testarea diferenței dintre 2 medii și 2 proporții..................................................................52 Concluzii ................................................................................................................................................55 Bibliografie ............................................................................................................................................55 2
January 14, 2013
PACHETE PROGRAM STATISTICĂ
1.INTRODUCERE Obiectul de cercetare al prezentului proiect este cercetarea a 5 variabile statistice, 3 variabile cantitatie/numerice și 2 variabile nenumerice/nominale și identificarea corelației și a legăturilor dintre acestea. Pentru început a fost identificată a bază de date, nefolosită până la moment, dintr-unul din programele de cercetări statistice, și anume SPSS. 2. DESCRIEREA BAZEI DE DATE ȘI A A VARIABILELOR ANALIZATE Baza de date a fost identificată în programul IBM SPSS Statistics ver. 16.0, și numită customers_model.sav. Aceasta prezintă informații asupra celor 5990 de clienți a unei întreprinderi, în urma cererii de către aceștia unui produs. Baza de date este structurată în 13 variabile, 7 numerice, 4 nominale și 2 ordinale. Pentru clienții care au solicitat produsul au fost înregistrate: ID-ul clientului, codul poștal, răspunsul, numărul de zile de la ultima cumpărare efectuată, suma de bani din toate achizițiile, numărul de achiziții, are sau nu copii, a re conexiune de bandă largă acasă sau nu, genul, vârsta, numărul de cumpărături efectuate pănă la momentul de față…
3
January 14, 2013
PACHETE PROGRAM STATISTICĂ
Variabilele alese pentru studiu sunt: Răspunsul(Response), genul(Gender), Vârsta(Age), numărul de cumpărări efectuate (number of purchases/Frequency) și numărul de zile de la ultima cumpărare(Days since last purchase/Recency). Pentru variabila “Gender” a fost necesară o recodificare.
4
January 14, 2013
PACHETE PROGRAM STATISTICĂ
3. ANALIZA STATISTICĂ UNIVARIATĂ A DATELOR
3.1 DESCRIEREA STATISTICĂ A VARIABILELOR NENUMERICE 3.1.1 Response Statistics Response Valid
5990
N Missing
0
Mode
0
Response Frequency
Percent
Valid Percent
Cumulative Percent
Valid
No
4104
68.5
68.5
68.5
Yes
1886
31.5
31.5
100.0
Total
5990
100.0
100.0
Din cele 5990 de cereri ale produsului de către clienți, 1886 îl vor primi, iar 4104 clienți nu vor primi acest produs. 31.5% dintre clienții solicitanți își vor primi produsul, și 68,5% dintre aceștia nu-l vor primi.
5
January 14, 2013
PACHETE PROGRAM STATISTICĂ
Demersul în SPSS: Accesând meniurile: Analyze => Descriptive stattistics => Frequencies
6
January 14, 2013
PACHETE PROGRAM STATISTICĂ
3.1.2 Gender Statistics Gender Valid
5990
N Missing Mode
0 .00
Gender Frequency
Percent
Valid Percent
Cumulative Percent
Valid
Masculin
4241
70.8
70.8
70.8
Feminin
1749
29.2
29.2
100.0
Total
5990
100.0
100.0
Dintre solicitanții produsului 4241 sunt bărbați și 1749 – femei. 70,8% dintre solicitanții produsului sunt bărbați, și 29,2% sunt femei.
7
January 14, 2013
PACHETE PROGRAM STATISTICĂ
Demersul în SPSS: Accesând meniurile: Analyze => Descriptive stattistics => Frequencies
8
January 14, 2013
PACHETE PROGRAM STATISTICĂ
3.2 DESCRIEREA STATISTICĂ A VARIABILELOR NUMERICE 3.2.1 Numărul de cumpărări Statistics Number of purchases Valid
5990
N Missing Mean
0 10.58
Std. Error of Mean
.123
Median
7.36
Mode
2
Std. Deviation
a
9.548
Variance
91.172
Skewness
2.756
Std. Error of Skewness Kurtosis
.032 11.179
Std. Error of Kurtosis Range
.063 99
Minimum
2
Maximum
101
Percentiles
25
4.47
50
7.36
75
13.10
a. Multiple modes exist. The smallest value is shown
Demersul în SPSS: Accesând meniurile: Analyze =>Descriptive statistics => Frequencies
9
January 14, 2013
PACHETE PROGRAM STATISTICĂ
10
January 14, 2013
PACHETE PROGRAM STATISTICĂ
Interpretări: Media = 10,58 Clienții au solicitat produse de la întreprinderea respectivă, în medie de 11 ori. Mediana = 7,36 50% dintre clienți au solicitat produse de cel mult 7 ori, și 50% mai mult de 7 ori. Modul: = 2 Valoarea cel mai des întâlnită este 2, ceea ce înseamnă că cei mai mulți clienți au solicitat produse de 2 ori. Quartila 1 = 4,47 25% dintre clienți au solicitat produse de până la 4 ori și 25% mai mult de 4 ori. Quartila 2 = 7,36 50% dintre clienți au solicitat produse de până la 7 ori și 50% mai mult de 7 ori. Quartila 3 = 13,1 75% dintre clienți su solicitat produse de până la 13 ori și 25% mai mult de 13 ori. Indicatorii variației: Abaterea standart(Std.Deviation) = 9,548. Arată cu cât variază în medie numărul de cumpărări, față de nivelul mediu al distibuției. Numărul de cumpărări variază în medie față de nivelul mediu cu 9,548(10) cumpărări. Coeficientul de variație: =
9,54 ∗ 100 = 90,24% 10,36
11
January 14, 2013
PACHETE PROGRAM STATISTICĂ
Distibuția este neomogenă, cu o dispersie mare. Amplitudinea(range) = 99. S-a obținut scăzând din valoarea maximă valoarea minimă. Indicatorii asimetriei și boltirii Descriptive Statistics
Number of purchases Valid N (listwise)
N Statistic 5990
Minimum Statistic 2
Maximum Statistic 101
Mean Statistic 10.58
Std. Deviation Statistic 9.548
Skewness Statistic Std. Error 2.756 .032
Kurtosis Statistic Std. Error 11.179 .063
5990
Demersul în SPSS: Accesând meniurile: Analyze => Descriptive statistics =>Descriptives
Coeficientul de asimetrie Pearson(skewness) = 2,756 arată o distribuție asimetrică la dreapta. Coeficientul de boltire Fisher (curtosis) = 11,179 arată o distibuție leptocurtică.
12
January 14, 2013
PACHETE PROGRAM STATISTICĂ
Interpretare grafică:
3.2.2 Numărul de zile de la ultima cumpărare Statistics Days since last purchase Valid
5990
N Missing
0
Mean
5.85
Std. Error of Mean
.065
Median
4.00
Mode
2
Std. Deviation
5.042
Variance
25.421
Skewness
1.184
Std. Error of Skewness
.032
Kurtosis
.743
Std. Error of Kurtosis
.063
Range
23
Minimum
1
Maximum
24 25
2.00
50
4.00
Percentiles
13
January 14, 2013
PACHETE PROGRAM STATISTICĂ 75
9.00
Interpretări: Media = 5.85 Clienții au solicitat produse de la întreprinderea respectivă, în medie cu 6 zile în urmă. Mediana = 4 50% dintre clienți au solicitat produse cu cel mult 4 zile în urmă, și 50% mai mult 4 zile în urmă. Modul = 2 Valoarea cel mai des întâlnită este 2, ceea ce înseamnă că clienții au solicitat produse cel mai des cu 2 zile în urmă. Quartila 1 = 2 25% dintre clienți au solicitat produse cu cel mult 2 zile în urmă și 75% cu mai mult de 2 zile în urmă. Quartila 2 = 4 50% dintre clienți au solicitat produse cu cel mult 4 zile în urmă și 50% cu mai mult de 4 zile în urmă. Quartila 3 = 9 75% dintre clienți au solicitat produse de până 9 zile în urmă și 25% cu mai mult de 9 zile în urmă. Indicatorii variației: Abaterea standart(Std.Deviation) = 5,042. Arată cu cât variază în medie numărul de zile de la ultima cumpărare, față de nivelul mediu al distibuției. Numărul de zile de la ultima cumpărare variază în medie față de nivelul medi u cu 5,042(5) zile. Coeficientul de variație: =
5,042 ∗ 100 = 86,18% 5,85
Distibuția este neomogenă, cu o dispersie mare.
Amplitudinea(range) = 23. Din valoarea maximă a fost scăzută valoarea minimă. Coeficientul de asimetrie Pearson(skewness) = 1,184 arată o distribuție asimetrică la dreapta. Coeficientul de boltire Fisher (curtosis) = 0,743 arată o distibuție leptocurtică.
14
January 14, 2013
PACHETE PROGRAM STATISTICĂ
Demersul în SPSS: Accesând meniurile: Analyze => Descriptive statistics => Frequencies
15
January 14, 2013
PACHETE PROGRAM STATISTICĂ Days since last purchase Frequency
Percent
Valid Percent
Cumulative Percent
Valid
1
1036
17.3
17.3
17.3
2
1116
18.6
18.6
35.9
3
678
11.3
11.3
47.2
4
434
7.2
7.2
54.5
5
300
5.0
5.0
59.5
6
311
5.2
5.2
64.7
7
265
4.4
4.4
69.1
8
286
4.8
4.8
73.9
9
251
4.2
4.2
78.1
10
213
3.6
3.6
81.6
11
137
2.3
2.3
83.9
12
162
2.7
2.7
86.6
13
230
3.8
3.8
90.5
14
159
2.7
2.7
93.1
15
91
1.5
1.5
94.6
16
65
1.1
1.1
95.7
17
51
.9
.9
96.6
18
30
.5
.5
97.1
19
46
.8
.8
97.8
20
44
.7
.7
98.6
21
34
.6
.6
99.1
22
23
.4
.4
99.5
23
19
.3
.3
99.8
24
9
.2
.2
100.0
5990
100.0
100.0
Total
Interpretări: 1036 dintre clienți au solicitat ultima oară produse cu o zi în urmă. 230 dintre clienți au solicitat ultima oară produse cu 13 zile în urmă. 44 dintre clienți au solicitat ultima oară produse cu 20 de zile în urmă.etc... 18,6% dintre clienți au solicitat ultima oară produse cu 2 zile în urmă. 0,9% dintre clienți au solicitat ultima oară produse cu 17 zile în urmă.
16
January 14, 2013
PACHETE PROGRAM STATISTICĂ
Demersul în SPSS: Accesând meniurile: Analyze => Descriptive statistics => Frequencies
17
January 14, 2013
PACHETE PROGRAM STATISTICĂ
3.2.3 Vârsta (Age) Statistics Age Valid
4482
Missing
1508
N Mean
43.44
Std. Error of Mean Median
.132 43.00
Mode
41
Std. Deviation
8.833
Variance
78.020
Skewness
.374
Std. Error of Skewness
.037
Kurtosis
-.249
Std. Error of Kurtosis
.073
Range
47
Minimum
24
Maximum
71
Percentiles
25
37.00
50
43.00
75
49.00
Interpretări: Media = 43,44 Vârsta medie a clienților care au solicitat produsul este de 43 ani. Mediana = 43 50% dintre clienți vârsta de până la 43 de ani, și 50% mai mult de 43 ani. Modul = 41 Cei mai mulți clienți au vârsta de 41 de ani. Quartila 1 = 37 25% dintre clienți au vârsta până la 37 de ani, și 75% peste 37 ani. Quartila 2 = 43 50% dintre clienți au vârsta de până la 43 de ani și 50% peste 43 ani. Quartila 3 = 49 75% dintre clienți au vârsta de până la 49 de ani și 25% peste 49 de ani. Indicatorii variației: 18
January 14, 2013
PACHETE PROGRAM STATISTICĂ
Abaterea standart(Std.Deviation) = 8,83. Arată cu cât variază în medie vârsta clienților, față de nivelul mediu al distibuției. Vârsta clienților variază în medie față de nivelul mediu cu 8,83(9) ani. Coeficientul de variație: =
8,83 ∗ 100 = 20,32% 43,44
Distibuția este omogenă, cu o dispersie mică.
Amplitudinea(range) = 47. Din valoarea maximă a fost scăzută valoarea minimă. Coeficientul de asimetrie Pearson(skewness) = 0,374 arată o distribuție aproape simetrică. Coeficientul de boltire Fisher (curtosis) = -0,249 arată o repartiție platicurtică. Grafic:
19
January 14, 2013
PACHETE PROGRAM STATISTICĂ
Demersul în SPSS: Accesarea meniurilor: Analyze => Descriptive statistics => Frequencies
20
January 14, 2013
PACHETE PROGRAM STATISTICĂ
4. ANALIZA STATISTICĂ BIVARIATĂ A DATELOR
4.1 ANALIZA STATISTICĂ A GRADULUI DE ASOCIERE ÎNTRE 2 VARIABILE Va fi analizată corelația dintre cele 2 variabile nominale, răspunsul și genul.
Correlations Response Pearson Correlation Response
1
-.085
Sig. (2-tailed) N Pearson Correlation
Gender
Gender **
.000 5990
5990
**
1
-.085
Sig. (2-tailed)
.000
N
5990
5990
**. Correlation is significant at the 0.01 level (2-tailed).
Între cele 2 variabile analizate, răspunsul acordat în urma cererii și genul persoanei (clientului), există o corelație puternică și inversă. Coeficientul de corelație Pearson este semnificativ din punct de vedere statistic.
Demersul în SPSS:
=0<
Accesarea meniurilor: Analyze => Correlate => Bivariate
21
January 14, 2013
PACHETE PROGRAM STATISTICĂ
4.2 ANALIZA DE REGRESIE ȘI CORELAȚIE În continuare se vor analiza 3 variabile numerice: numărul de cumpărări efectuate, numărul de zile de la ultima cumpărare, și vârsta clienților, utilizând modelele de regresie liniară și neliniară.
Regresie liniară simplă Variables Entered/Removed Model
1
Variables
Variables
Entered
Removed
a
Method
Days since last
. Enter
b
purchase
a. Dependent Variable: Number of purchases b. All requested variables entered.
b
Model Summary Model
1
R
.256
R Square
a
Adjusted R
Std. Error of the
Square
Estimate
.066
.065
9.231
a. Predictors: (Constant), Days since last purchase b. Dependent Variable: Number of purchases
22
January 14, 2013
PACHETE PROGRAM STATISTICĂ
a
ANOVA Model
Sum of Squares Regression
1
df
Mean Square
35831.175
1
35831.175
Residual
510199.136
5988
85.204
Total
546030.310
5989
F
Sig.
420.536
.000
b
a. Dependent Variable: Number of purchases b. Predictors: (Constant), Days since last purchase
Coefficients Model
a
Unstandardized Coefficients
Standardized
t
Sig.
Coefficients B (Constant)
Std. Error
13.415
.183
-.485
.024
Beta 73.429
.000
-20.507
.000
1 Days since last purchase
-.256
a. Dependent Variable: Number of purchases
Residuals Statistics Minimum Predicted Value
Maximum
a
Mean
Std. Deviation
N
1.77
12.93
10.58
2.446
5990
-10.928
88.170
.000
9.230
5990
Std. Predicted Value
-3.600
.962
.000
1.000
5990
Std. Residual
-1.184
9.552
.000
1.000
5990
Residual
a.
Dependent Variable: Number of purchases
Forma generală: Forma estimată:
=
+
+
= 13,415 − 0,485
= 13,415 - arată nivelul mediu de cumpărări atunci când numărul de zile de la ultima cumpărare este 0. = −0,485 – la o creștere a numărului de zile de la ultima cumpărare cu o zi, numărul de cumpărări scade în medie cu 0,485 zile. ș
,
=0<
= 0.05
23
January 14, 2013
PACHETE PROGRAM STATISTICĂ
Raportul de determinație:
= 0,066
6,60 din variația numărului de cumpărări este explicată de variația numărului de zile de la ultima cumpărare. Raportul de corelație: R = 0,256 Arată o corelație slabă între numărul de cumpărări și numărul de zile de la ultima cumpărare.
24
January 14, 2013
PACHETE PROGRAM STATISTICĂ
Demersul în SPSS: Accesarea meniurilor: Analyze => Regression => Linear
25
January 14, 2013
PACHETE PROGRAM STATISTICĂ
Regresie liniară multiplă Variables Entered/Removed Model
1
Variables
Variables
Entered
Removed
a
Method
Age, Days since last purchase
. Enter
b
a. Dependent Variable: Number of purchases b. All requested variables entered.
b
Model Summary Model
R
1
R Square
.304
a
Adjusted R
Std. Error of the
Square
Estimate
.093
.092
9.238
a. Predictors: (Constant), Age, Days since last purchase b. Dependent Variable: Number of purchases
Coefficients Model
a
Unstandardized Coefficients
Standardized
t
Sig.
Coefficients B
1
Std. Error
(Constant)
7.502
.720
Days since last purchase
-.513
.028
.154
.016
Age
Beta 10.422
.000
-.263
-18.416
.000
.140
9.827
.000
a. Dependent Variable: Number of purchases
Forma generală: Forma estimată:
=
+
+
= 7.502 − 0,513
+
+ 0.154
= 7.502 - arată nivelul mediu de cumpărări atunci când numărul de zile de la ultima cumpărare și vârsta clientului sunt 0. = −0,513 – la o creștere a numărului de zile de la ultima cumpărare cu o zi, numărul de cumpărări scade în medie cu 0,513 zile în condițiile menținerii constante a vârstei clientului. ,
ș
Raportul de determinație :
= 0,093
,
=0<
= 0.05 26
January 14, 2013
PACHETE PROGRAM STATISTICĂ
9,30% din variația numărului de cumpărări este explicată de variația simultană a numărului de zile de la ultima cumpărare și vârsta clientului. Raportul de corelație: R = 0,304 Arată o corelație slabă între numărul de cumpărări și cele 2 variabile indepedndente, numărul de zile de la ultima cumpărare și vârsta clientului.
Demersul în SPSS: Accesarea meniurilor: Analyze => Regression => Linear
27
January 14, 2013
PACHETE PROGRAM STATISTICĂ
Modelul de regresie hyperbolic Model Description Model Name
MOD_2
Dependent Variable
1
Number of purchases
Equation
1
Inverse
Independent Variable
Days since last purchase
Constant
Included
Variable Whose Values Label Observations in Plots
Unspecified
Variable Processing Summary Variables
Number of Positive Values
Dependent
Independent
Number of
Days since last
purchases
purchase
5990
5990
Number of Zeros
0
0
Number of Negative Values
0
0
User-Missing
0
0
System-Missing
0
0
Number of Missing Values
28
January 14, 2013
PACHETE PROGRAM STATISTICĂ
Model Summary R
R Square
.283
Adjusted R
Std. Error of the
Square
Estimate
.080
.080
9.159
The independent variable is Days since last purchase.
ANOVA Sum of Squares Regression
df
Mean Square
43756.873
1
43756.873
Residual
502273.437
5988
83.880
Total
546030.310
5989
F
Sig.
521.660
.000
The independent variable is Days since last purchase.
Coefficients Unstandardized Coefficients
Standardized
t
Sig.
Coefficients B
Std. Error
1 / Days since last purchase
8.399
.368
(Constant)
7.434
.181
Forma generală: Forma estimată:
=
+
Beta .283
22.840
.000
40.961
.000
∙ +
= 7.434 + 8.399 ∙
= 7.434 - arată nivelul mediu de cumpărări atunci când numărul de zile de la ultima cumpărare tinde spre infinit. = 8.399 – la o creștere a
crește în medie cu 8,399 uni tăți.
,
Raportul de determinație:
ă
> 0 => = 0,08
cu o zi, numărul de cumpărări
ț
,
ă
=0<
= 0.05
8% din variația numărului de cumpărări este explicată de variația numărului de zile de la ultima cumpărare. Raportul de corelație: R = 0,283 29
January 14, 2013
PACHETE PROGRAM STATISTICĂ
Arată o corelație slabă între numărul de cumpărări și numărul de zile de la ultima cumpărare. Modelare grafică:
Demersul în SPSS: Accesarea meniurilor: Analyze => Regression => Curve estimation
30
January 14, 2013
PACHETE PROGRAM STATISTICĂ
Modelul de regresie Compound Model Description Model Name
MOD_3
Dependent Variable
1
Number of purchases
Equation
1
Compound
a
Independent Variable
Days since last purchase
Constant
Included
Variable Whose Values Label Observations in Plots
Unspecified
a. The model requires all non-missing values to be positive.
Variable Processing Summary Variables Dependent
Independent
Number of
Days since last
purchases
purchase
Number of Positive Values
5990
5990
Number of Zeros
0
0
Number of Negative Values
0
0
User-Missing
0
0
System-Missing
0
0
Number of Missing Values
Model Summary R
R Square
.255
Adjusted R
Std. Error of the
Square
Estimate
.065
.065
.717
The independent variable is Days since last purchase.
ANOVA Sum of Squares Regression
df
Mean Square
215.085
1
215.085
Residual
3082.011
5988
.515
Total
3297.097
5989
F 417.886
Sig. .000
The independent variable is Days since last purchase.
31
January 14, 2013
PACHETE PROGRAM STATISTICĂ Coefficients Unstandardized Coefficients
Standardized
t
Sig.
Coefficients B
Std. Error
Days since last purchase (Constant)
.963
.002
9.848
.140
Beta .775
543.867
.000
70.425
.000
The dependent variable is ln(Number of purchases).
Forma generală:
=
Forma liniarizată: ln Forma estimată:
∙
=
∙
+
∙
= 9,848 ∙ 0,963
+
= 9,848 - arată nivelul mediu de cumpărări atunci când numărul de zile de la ultima cumpărare este 0. La o creștere a numărului de zile de la ultima achiziție cu 1 zi, numărul total de achiziții scade în medie cu 3,77%. [ln( ) ∙ 100]% = [ln(0.963) ∙ 100]% = [−0.0377 ∙ 100]% = −3.77% ,
0<
< 1 =>
Raportul de determinație:
ă
= 0,065
,
=0<
ă
= 0.05
6.5% din variația numărului de cumpărări este explicată de variația numărului de zile de la ultima cumpărare. Raportul de corelație: R = 0,255 Arată o corelație slabă între numărul de cumpărări și numărul de zile de la ultima cumpărare. Modelare grafică:
32
January 14, 2013
PACHETE PROGRAM STATISTICĂ
Demersul în SPSS: Accesarea meniurilor: Analyze => Regression => Curve estimation
Modelul de regresie Putere (Power) Model Description Model Name
MOD_4
Dependent Variable
1
Number of purchases
Equation
1
Power
a
Independent Variable
Days since last purchase
Constant
Included
Variable Whose Values Label Observations in Plots
Unspecified
a. The model requires all non-missing values to be positive. Variable Processing Summary Variables
Number of Positive Values
Dependent
Independent
Number of
Days since last
purchases
purchase
5990
5990
Number of Zeros
0
0
Number of Negative Values
0
0
User-Missing
0
0
System-Missing
0
0
Number of Missing Values
33
January 14, 2013
PACHETE PROGRAM STATISTICĂ
Model Summary R
R Square
.289
Adjusted R
Std. Error of the
Square
Estimate
.083
.083
.710
The independent variable is Days since last purchase.
ANOVA Sum of Squares Regression
df
Mean Square
275.246
1
275.246
Residual
3021.851
5988
.505
Total
3297.097
5989
F
Sig.
545.418
.000
The independent variable is Days since last purchase.
Coefficients Unstandardized Coefficients
Standardized
t
Sig.
Coefficients B ln(Days since last purchase) (Constant)
Std. Error -.233
.010
10.898
.180
Beta -.289
-23.354
.000
60.476
.000
The dependent variable is ln(Number of purchases).
Forma generală:
=
Forma liniarizată: ln Forma estimată:
∙
=
∙
= 10.898 ∙
+
.
∙
+
= 10.898 - arată nivelul mediu de cumpărări atunci când numărul de zile de la ultima cumpărare este 1. La o creștere a numărului de zile de la ultima achiziție cu 1 %, numărul total de achiziții scade în medie cu 0.233%. ,
Raportul de determinație:
= 0,083
,
=0<
= 0.05
8.3% din variația numărului de cumpărări este explicată de variația numărului de zile de la ultima cumpărare. Raportul de corelație: R = 0,289 Arată o corelație slabă între numărul de cumpărări și numărul de zile de la ultima cumpărare. 34
January 14, 2013
PACHETE PROGRAM STATISTICĂ
Modelare grafică:
Demersul în SPSS: Accesarea meniurilor: Analyze => Regression => Curve estimation
35
January 14, 2013
PACHETE PROGRAM STATISTICĂ
Modelul de regresie parabolic (Quadratic) Model Description Model Name
MOD_5
Dependent Variable
1
Number of purchases
Equation
1
Quadratic
Independent Variable
Days since last purchase
Constant
Included
Variable Whose Values Label Observations in Plots
Unspecified
Tolerance for Entering Terms in Equations
.0001
Variable Processing Summary Variables Dependent
Independent
Number of
Days since last
purchases
purchase
Number of Positive Values
5990
5990
Number of Zeros
0
0
Number of Negative Values
0
0
User-Missing
0
0
System-Missing
0
0
Number of Missing Values
Model Summary R
R Square
.288
Adjusted R
Std. Error of the
Square
Estimate
.083
.083
9.145
The independent variable is Days since last purchase.
ANOVA Sum of Squares Regression
df
Mean Square
45288.236
2
22644.118
Residual
500742.074
5987
83.638
Total
546030.310
5989
F 270.739
Sig. .000
The independent variable is Days since last purchase.
36
January 14, 2013
PACHETE PROGRAM STATISTICĂ
Coefficients Unstandardized Coefficients
Standardized
t
Sig.
Coefficients B Days since last purchase
Std. Error
Beta
-1.239
.075
-.654
-16.590
.000
.043
.004
.420
10.633
.000
15.282
.252
60.606
.000
Days since last purchase ** 2 (Constant)
Forma generală: Forma estimată:
=
+
+
+
= 15.282 − 1.239 + 0.043
= 15.282 - arată nivelul mediu de cumpărări atunci când numărul de zile de la ultima cumpărare este 0. > 0 => legătura admite punct de minim. =
Abscisa punctului de minim: ,
,
Raportul de determinație:
,
∙ ,
= 0,083
=
,
,
= 14,40 ,
=0<
= 0.05
8.3% din variația numărului de cumpărări este explicată de variația numărului de zile de la ultima cumpărare. Raportul de corelație: R = 0,288 Arată o corelație slabă între numărul de cumpărări și numărul de zile de la ultima cumpărare. Modelare grafică:
37
January 14, 2013
PACHETE PROGRAM STATISTICĂ
Demersul în SPSS: Accesarea meniurilor: Analyze => Regression => Curve estimation
38
January 14, 2013
PACHETE PROGRAM STATISTICĂ
Modelul de regresie cubic Model Description Model Name
MOD_6
Dependent Variable
1
Number of purchases
Equation
1
Cubic
Independent Variable
Days since last purchase
Constant
Included
Variable Whose Values Label Observations in Plots
Unspecified
Tolerance for Entering Terms in Equations
.0001
Variable Processing Summary Variables Dependent
Independent
Number of
Days since last
purchases
purchase
Number of Positive Values
5990
5990
Number of Zeros
0
0
Number of Negative Values
0
0
User-Missing
0
0
System-Missing
0
0
Number of Missing Values
Model Summary R
R Square
.297
Adjusted R
Std. Error of the
Square
Estimate
.088
.088
9.119
The independent variable is Days since last purchase.
ANOVA Sum of Squares Regression
df
Mean Square
48288.814
3
16096.271
Residual
497741.496
5986
83.151
Total
546030.310
5989
F 193.579
Sig. .000
The independent variable is Days since last purchase.
39
January 14, 2013
PACHETE PROGRAM STATISTICĂ Coefficients Unstandardized Coefficients
Standardized
t
Sig.
Coefficients B Days since last purchase
Std. Error
Beta
-2.226
.180
-1.175
-12.346
.000
.167
.021
1.643
7.920
.000
-.004
.001
-.751
-6.007
.000
16.825
.359
46.802
.000
Days since last purchase ** 2 Days since last purchase ** 3 (Constant)
=
Forma generală:
+
+
+
= 16.825 − 2.226 + 0.167
Forma estimată:
+
− 0.004
= 16.825 - arată nivelul mediu de cumpărări atunci când numărul de zile de la ultima cumpărare este 0. ,
,
,
Raportul de determinație:
= 0,088
,
=0<
= 0.05
8.8% din variația numărului de cumpărări este explicată de variația numărului de zile de la ultima cumpărare. Raportul de corelație: R = 0,297 Arată o corelație slabă între numărul de cumpărări și numărul de zile de la ultima cumpărare. Modelare grafică:
40
January 14, 2013
PACHETE PROGRAM STATISTICĂ
Demersul în SPSS: Accesarea meniurilor: Analyze => Regression => Curve estimation
Modelul Growth Model Description Model Name
MOD_7
Dependent Variable
1
Number of purchases
Equation
1
Growth
a
Independent Variable
Days since last purchase
Constant
Included
Variable Whose Values Label Observations in Plots
Unspecified
a. The model requires all non-missing values to be positive.
Variable Processing Summary Variables
Number of Positive Values Number of Zeros
Dependent
Independent
Number of
Days since last
purchases
purchase
5990
5990
0
0
41
January 14, 2013
PACHETE PROGRAM STATISTICĂ
Number of Negative Values
0
0
User-Missing
0
0
System-Missing
0
0
Number of Missing Values
Model Summary R
R Square
.255
Adjusted R
Std. Error of the
Square
Estimate
.065
.065
.717
The independent variable is Days since last purchase.
ANOVA Sum of Squares Regression
df
Mean Square
215.085
1
215.085
Residual
3082.011
5988
.515
Total
3297.097
5989
F
Sig.
417.886
.000
The independent variable is Days since last purchase.
Coefficients Unstandardized Coefficients
Standardized
t
Sig.
Coefficients B
Std. Error
Days since last purchase
-.038
.002
(Constant)
2.287
.014
Beta -.255
-20.442
.000
161.077
.000
The dependent variable is ln(Number of purchases).
Forma generală:
=
Forma liniarizată: ln Forma estimată: = ,
.
=
Raportul de determinație:
.
+
+
, ln
= 0,065
= 2,287 − 0,038 ,
=0<
= 0.05
6.5% din variația numărului de cumpărări este explicată de variația numărului de zile de la ultima cumpărare. Raportul de corelație: R = 0,255 Arată o corelație slabă între numărul de cumpărări și numărul de zile de la ultima cumpărare. 42
January 14, 2013
PACHETE PROGRAM STATISTICĂ
Modelare grafică:
Demersul în SPSS: Accesarea meniurilor: Analyze => Regression => Curve estimation
43
January 14, 2013
PACHETE PROGRAM STATISTICĂ
Modelul de regresie exponențial Model Description Model Name
MOD_2
Dependent Variable
1
Number of purchases
Equation
1
Exponential
a
Independent Variable
Days since last purchase
Constant
Included
Variable Whose Values Label Observations in Plots
Unspecified
a. The model requires all non-missing values to be positive.
Variable Processing Summary Variables Dependent
Independent
Number of
Days since last
purchases
purchase
Number of Positive Values
5990
5990
Number of Zeros
0
0
Number of Negative Values
0
0
User-Missing
0
0
System-Missing
0
0
Number of Missing Values
Model Summary R
R Square
.255
Adjusted R
Std. Error of the
Square
Estimate
.065
.065
.717
The independent variable is Days since last purchase.
ANOVA Sum of Squares Regression
df
Mean Square
215.085
1
215.085
Residual
3082.011
5988
.515
Total
3297.097
5989
F 417.886
Sig. .000
The independent variable is Days since last purchase.
Coefficients
44
January 14, 2013
PACHETE PROGRAM STATISTICĂ
Unstandardized Coefficients
Standardized
t
Sig.
Coefficients B
Std. Error
Days since last purchase
-.038
.002
(Constant)
9.848
.140
Beta -.255
-20.442
.000
70.425
.000
The dependent variable is ln(Number of purchases).
Forma generală:
=
Forma liniarizată: ln
= ln
Forma estimată: = 9,848 ,
Raportul de determinație:
,
+
, ln
= 0,065
+
= ln 9,848 − 0,038 + ,
=0<
= 0.05
6.5% din variația numărului de cumpărări este explicată de variația numărului de zile de la ultima cumpărare. Raportul de corelație: R = 0,255 Arată o corelație slabă între numărul de cumpărări și numărul de zile de la ultima cump ărare. Modelare grafică:
45
January 14, 2013
PACHETE PROGRAM STATISTICĂ
4.3 ANOVA Se va verifica influența factorului Genul clientului asupra variabilei numărul total de achiziții.
ANOVA Number of purchases Sum of Squares Between Groups
df
Mean Square
1567.358
1
1567.358
Within Groups
544462.952
5988
90.926
Total
546030.310
5989
F
Sig.
17.238
.000
În output se observă că Sig=0 < 0.05. Se poate garanta cu o probabilitate de 95% că genul clientului nu influențează numărul de achiziții al produsului.
ANOVA Age Sum of Squares Between Groups
df
Mean Square
5.638
1
5.638
Within Groups
349602.476
4480
78.036
Total
349608.114
4481
F
Sig. .072
.788
Din acest output se poate observa că vârsta clienților depinde foarte mult de genul persoanei. Sig=0,788 > 0.05 Demersul în SPSS: Accesarea meniurilor: Analyze => Compare means => One-Way ANOVA
46
January 14, 2013
PACHETE PROGRAM STATISTICĂ
5. ESTIMAREA ȘI TESTAREA STATISTICĂ
5.1 ESTIMAREA UNEI MEDII PRIN INTERVAL DE ÎNCREDERE 5.1.1 Estimarea prin interval de încredere a unei medii Descriptives Statistic Mean
11.26
95% Confidence Interval for
Lower Bound
10.98
Mean
Upper Bound
11.55
5% Trimmed Mean
8.16
Variance
94.007
Std. Deviation
9.696
Minimum
2
Maximum
101
Range
99
Interquartile Range
9
Skewness Kurtosis Mean
2.665
.037
10.678
.073
5.69
.074
95% Confidence Interval for
Lower Bound
5.54
Mean
Upper Bound
5.83
5% Trimmed Mean
5.22
Median
4.00
Variance Days since last purchase
.145
10.04
Median
Number of purchases
Std. Error
24.612
Std. Deviation
4.961
Minimum
1
Maximum
24
Range
23
Interquartile Range
7
Skewness Kurtosis Mean
1.215
.037
.831
.073
43.44
.132
95% Confidence Interval for
Lower Bound
43.18
Mean
Upper Bound
43.70
5% Trimmed Mean
43.24
Median
43.00
Age Variance Std. Deviation Minimum
78.020 8.833 24
47
January 14, 2013
PACHETE PROGRAM STATISTICĂ Maximum
71
Range
47
Interquartile Range
12
Skewness Kurtosis
.374
.037
-.249
.073
Limita inferioară a IC pentru media numărului de achiziții: 10,34 Limita superioară a IC pentru media numărului de achiziții: 10,34 Interpretare: Se poate garanta cu o probabilitate de 95% că media numărului de achiziții pentru întreaga populație este cuprinsă de intervalul [10.34;10.82], adic ă 10 și 11 achiziții.
Limita inferioară a IC pentru media numărului zile de la ultima achiziție: 5,72 Limita inferioară a IC pentru media numărului zile de la ultima achiziție: 5,98 Interpretare: Se poate garanta cu o probabilitate de 95% că media numărului de zile de la ultima achiziție pentru întreaga populație este cuprinsă de intervalul [5,72 ; 5,98], adică cât la nivel de eșantion cât și l nivel de populație media nr. de zile de la ultima achiziție este 6.
Limita inferioară a IC pentru media vârstei clienților: 43,18 Limita inferioară a IC pentru media vârstei clienților: 43,70 Interpretare: Se poate garanta cu o probabilitate de 95% că media vârstei clienților pentru întreaga populație este cuprinsă de intervalul [43,18 ; 43,70], adică 43 și 44 de ani. Demersul în SPSS: Accesarea meniurilor: Analyze => Descriptive statistics => Explore
48
January 14, 2013
PACHETE PROGRAM STATISTICĂ
5.1.2 Estimarea prin interval de încredere a diferenței dintre 2 medii Group Statistics Gender
N
Mean
Std. Deviation
Std. Error Mean
M
4241
10.91
9.809
.151
F
1749
9.78
8.837
.211
Number of purchases
Independent Samples Test Levene's Test for Equality of Variances
F Number of purchases
Equal variances assumed Equal variances not assumed
6.196
t-test for Equality of Means
Sig.
t
.013
df
Sig. (2-tailed)
Mean Difference
Std. Error Difference
95% Confidence Interval of the Difference Lower
Upper
4.152
5988
.000
1.125
.271
.594
1.656
4.335
3592.983
.000
1.125
.260
.616
1.634
Se poate garanta cu o probabilitate de 95% că diferența dintre media numărului de achiziții pentru clienții de gen masculin și cei de genul feminin este cuprinsă de intervalul [0.616;1.634].
5.2 TESTAREA STATISTICĂ 5.2.1 Testatea unei medii și a unei prop orții Testarea unei medii
One-Sample Statistics N Number of purchases
Mean
5990
10.58
Std. Deviation
Std. Error Mean
9.548
.123
One-Sample Test Test Value = 10.5
t Number of purchases
.624
df 5989
Sig. (2-tailed) .532
Mean Difference .077
95% Confidence Interval of the Difference Lower Upper -.16 .32
Sig=0,532, = 0,05, sig>α => cu o probabilitate de 95% se poate afirma că media numărului de achiziții este egală cu 10,5.
49
January 14, 2013
PACHETE PROGRAM STATISTICĂ
One-Sample Test Test Value = 8
t 20.888
Number of purchases
df 5989
Sig. (2-tailed) .000
Mean Difference 2.577
95% Confidence Interval of the Difference Lower Upper 2.34 2.82
Sig=0, = 0,05, sig<α => cu o probabilitate de 95% se poate afirma că media numărului de achiziții nu este egală cu 8. Demersul în SPSS:
Accesarea meniurilor: Analyze => Comapare means => One-Sample T test
Testarea unei Proporții Testarea variabilei Răspunsul
Binomial Test Category
N
Observed Prop.
Test Prop.
Exact Sig. (2tailed)
Response
Group 1
No
4104
.69
Group 2
Yes
1886
.31
5990
1.00
Total
.50
.000
Sig=0, = 0,05, sig<α => cu o probabilitate de 95% se poate afirma că proporția răspunsurilor afirmative și a celor negative nu corespund proporției de 50:50.
50
January 14, 2013
PACHETE PROGRAM STATISTICĂ Binomial Test Category
N
Observed Prop.
Test Prop.
Exact Sig. (1tailed)
Response
Group 1
No
4104
.7
Group 2
Yes
1886
.3
5990
1.0
Total
.4
.000
Sig=0, = 0,05, sig<α => cu o probabilitate de 95% se poate afirma că proporția răspunsurilor negative nu corespund proporției de 40%. Testarea variabilei Genul
Binomial Test Category
N
Observed Prop.
Test Prop.
Exact Sig. (2tailed)
Gender
Group 1
F
1749
.29
Group 2
M
4241
.71
5990
1.00
Total
.50
.000
Sig=0, = 0,05, sig<α => cu o probabilitate de 95% se poate afirma că proporția clienților de gen feminin si masculin nu corespund proporției de 50:50. Binomial Test Category
N
Observed Prop.
Test Prop.
Exact Sig. (1tailed)
Gender
Group 1
F
1749
.3
Group 2
M
4241
.7
5990
1.0
Total
.4
.000
a
Sig=0, = 0,05, sig<α => cu o probabilitate de 95% se poate afirma că proporția clienților de gen feminin nu corespund proporției de 40%. Demersul în SPSS: Accesarea meniurilor: Analyze => Nonparametric Tests => Legacy Dialogs => Binomial (ver.21.0) Accesarea meniurilor: Analyze => Nonparametric Tests => Binomial (ver.13.0)
51
January 14, 2013
PACHETE PROGRAM STATISTICĂ
5.2.2 Testarea diferenței dintre 2 medii și 2 proporții
Testarea diferenței dintre 2 medii
Group Statistics
Number of purchases
Gender M F
N 4241 1749
Mean 10.91 9.78
Std. Deviation 9.809 8.837
Std. Error Mean .151 .211
Independent Samples Test Levene's Test for Equality of Variances
F Number of purchases
Equal variances assumed Equal variances not assumed
6.196
Sig. .013
t-test for Equality of Means
t
df
Sig. (2-tailed)
Mean Difference
Std. Error Difference
95% Confidence Interval of the Difference Lower Upper
4.152
5988
.000
1.125
.271
.594
1.656
4.335
3592.983
.000
1.125
.260
.616
1.634
Sig=0, = 0,05, sig<α => cu o probabilitate de 95% se poate afirma că există diferențe semnificative între media numărului de achiziții pentru clienții de gen feminin și cei de gen masculin. Demersul în SPSS: Accesarea meniurilor: Aalyze => Compare Means => Independent-Samples T test
52
January 14, 2013
PACHETE PROGRAM STATISTICĂ
Testarea diferenței dintre 2 proporții Se va folosi testul Hi-pătrat pentru verificarea diferențeșor între cele 2 proporții a variabilei Response (Yes,No) Pentru inceput se vor testa ponderile 40%-No, 60% -Yes
Response Observed N
Expected N
Residual
No
4104
2396.0
1708.0
Yes
1886
3594.0
-1708.0
Total
5990
Test Statistics Response Chi-Square
a
2029.260
df Asymp. Sig.
1 .000
a. 0 cells (0.0%) have expected frequencies less than 5. The minimum expected cell frequency is 2396.0.
Din output putem observa valoarea Asym. Sig=0 < 0.05, deci putem garanta cu o probabilitate de 95% că proporția răspunsurilor negative și a celor afirmative nu corespund proporțiilor 40% respective 60%. 53
January 14, 2013
PACHETE PROGRAM STATISTICĂ
Se vor testa ponderile 69%-No, 31% -Yes
Response Observed N
Expected N
Residual
No
4104
4133.1
-29.1
Yes
1886
1856.9
29.1
Total
5990
Test Statistics Response Chi-Square
a
.661
df Asymp. Sig.
1 .416
a. 0 cells (0.0%) have expected frequencies less than 5. The minimum expected cell frequency is 1856.9.
Din output putem observa valoarea Asym. Sig=0,416 > 0.05, deci putem garanta cu o probabilitate de 95% că proporția răspunsurilor negative și a celor afirmative corespund proporțiilor 69% respectiv 31%. Demersul în SPSS: Accesarea meniurilor: Analyze => Nonparametric Tests => Legacy Dialogs => Chi-square Accesarea meniurilor: Analyze => Nonparametric Tests => Chi-square (ver.13.0)
54
January 14, 2013
PACHETE PROGRAM STATISTICĂ
CONCLUZII În urma studierii a celor 5 variabile alese, răspunsul(Response), genul(Gender), Vârsta(Age), numărul de cumpărări efectuate (number of purchases/Frequency) și numărul de zile de la ultima cumpărare(Days since last purchase/Recency) putem afirma.
În aproape toate cazurile variabilele se influențează într -o proporție mai mică, totuși nu putem spune că între acestea nu există legături.
Relații mai pronunțate se pot observa între variabilele response, number of purchase și days since last purchase. O altă categorie: Age & Gender.
În cazurile analizate variabilele nenumerice le influențează foarte puțin pe cele numerice. Putem afirma că variabila nenumerica Response este influențată de toate variabilele ce se găsesc în baza de date. BIBLIOGRAFIE Dănuț Jemna, Econometrie, Editura Sedcom Libris, Iași 2009 Principalele meniuri folosite:
55
January 14, 2013
PACHETE PROGRAM STATISTICĂ
56
January 14, 2013
PACHETE PROGRAM STATISTICĂ
57