UNIVERSITE IBN ZOHR ECOLE NATIONALE DE COMMERCE ET DE GESTION D¶AGADIR
CONTROLE : ANALYSE DES DONNEES CAS DE L¶ENQUEE : A PROPOS DE VOTRE VOITURE
Réalisé par :
A l¶attention de :
AMAN MEHDI
Dr. JEBBAR MOHAMED Enseignant à l¶ENCG ± Agadir
Année Universitaire : 2010/2011
Page |2
INT
TION
Dans le cadre du cours d¶Analyse des données, nous sommes amenés à préparer un travail d¶analyse en exploitant les fonctionnalités du logiciel Sphinx. En ce qui concerne ce travail d¶analyse, nous ferons appelle à quatre variables, deux variables quantitatives, et deux autres qualitatives. Nous analyserons chaque variable individuellement à travers des tris à plats, puis nous nous pencherons sur la relation qui existe entre les variables de même nature. Les données auxquelles nous ferons appel seront extraites d¶études déjà faites et traitées au niveau du logiciel Sphinx. E u de référence : Automobil quêt S ti f ctio ¥
£
¤
¡
¦
¡
¦
¤
¢
I-
VARIABLE QUANTITATIVE a. Analy e uni-variée des variables quantitatives i. V i bl L p m uell es co sac e à l automobil e
§
¨
§
©
©
©
©
©
¨
DEPENSE 'De 800 à 1 599' (74 observations) Moyenne = 1 132,00 Ecart-type = 812,74
De 800 à 1 599
74
42,3%
Moins de 800
65
37,1%
De 1 600 à 2 399
22
12,6%
De 2 400 à 3 199
11
6,3%
4 000 et plus
2
1,1%
1,1%
De 3 200 à 3 999
1
0,6%
0,6%
175
100,0%
Total
42,3% 37,1%
Les observations gravitent autour de la moyenne 1132 ¼ elles s¶approchent ou s¶éloignent de celle-ci de 812.74, ou bien, en moyenne, les automobilistes dépensent 1132 ¼ mensuellement sur leurs voitures plus ou moins 812.74 ¼.
12,6%
La plupart des automobilistes, 74, dépensent mensuellement entre 800 à 1599 ¼. Il s¶agit de la classe modale des données regroupées.
6,3%
ii. V ar iabl e 2 : Le K ilom t rage mensuell ement par couru par l automobilist e
Pour cette variable, les observations gravitent autour de 1670.51 Km et s¶approchent ou s¶éloignent de celle-ci avec un écart moyen de 1008.27, ou bien, en moyenne, les automobilistes parcourent mensuellement avec leurs voitures 1670.51 Km plus ou moins 812.74 Km. La plupart des automobilistes mensuellement une distance comprise entre 1000 et 1999 Km. Cette part représente 46.3% de l¶effectif.
KILOMETRAGE 'De 1 000 à 1 999' (81 observations) Moyenne = 1 670,51 Ecart-ty pe = 1 008,27 Min = 40 Max = 6 000
De 1 000 à 1 999
81
46,3%
De 2 000 à 2 999
45
25,7%
Moins de 1 000
28
16,0%
De 3 000 à 3 999
12
6,9%
5 000 et plus
5
2,9%
2,9%
De 4 000 à 4 999
4
2,3%
2,3%
175
100,0%
Total
46,3% 25,7% 16,0% 6,9%
Page |3
b. Anal se bi-variée des variables q antitatives
Dans cette par tie, nous allons pr océder par une anal se si ultanée des deux var iables quantitatives af in que nous puissions dégager les car actér istiques de la r elation qui existe entr e celle-ci. i
P résentati
n des d nnées et du nuage de
!
ints
Le tableau ci-dessous, corr espond aux observations individuelles r elatives à chacune des deux var iables. Dans l échantillon f igur ent 175 observations,25 observations n¶ont pas été pas pr ises en compte (non-réponse à au moins un des cr itèr es). Le gr aphique illustr e un nuage de points, à chaque point corr espond le point de coordonnées (X, Y).
KILOMETRAGE
Observations
Kilométrage (X)
1
1300
2
400 1500 500 500 500
100
1000
1200
3000
2000 200 1500
3
4 5 6 7 8 9
2000 400 600 1000
500 1500 800 2000 5000 1500 « 6000
10 11 12 13 14
« 175
ii "
Dépense (Y) 500
1000 1500
660,00
3000
550,00
DEPENS
2000 « 5000
Analyse des varia les #
Approche descriptive :
Du tableau r essor tent les car actér istiques suivantes : : 1738.55 : 1193.37
: 988.504 : 789.237
D¶apr ès le nuage de points, nous pouvons observer que: y
Les deux var iables var ient toutes les deux dans le même sens.
y
La plupar t des coordonnées gr avitent autour du centr e de gr avité(1738.55 ; 1193.37)1.
y
On peut déduir e tr ois t pologies :
Page |4
Ty l gie1 : Une tr s forte condensation des observations, ces derni res gravitent autour du centre de gravité Ty l gie 2 : Moyennement importante, s¶éloignent modérément du centre de gravité Ty l gie 3 : Tr s éloignées, et représentent la part la moins importantes des observations A $
$
%
&
'
(
)
A
0
1
lytiqu
)
2
: Le coefficient de corrélation est de 0.85. Nous en déduisons une tr s forte linéarité
positive ou directe (70% < 0.85) entre Kilométrage et Dépense, c'est-à-dire que les deux variables varient linéairement dans le même sens, avec des écarts positifs (ou négatifs) par rapport à leurs moyennes. Le mod le ajusté par la méthode des MC Dépense
est le suivant :
(Y) = 0.69 * K ilomét rage (X) - 14.36
Intéressons nous maintenant à l¶appréciation des variations des deux variables. En d¶autres termes, on cherchera à savoir quel incident aura la variation explicative Kilométrage sur la variation expliquée Dépense. Pour ce faire, on proc de par calculer la dérivée de la droite.
= 0.69
Donc nous en déduisons qu¶une variation de Kilométrage de 1 entraine une variation de Dépense de 0.69. En d¶autres termes si le kilométrage parcouru mensuellement par l¶automobiliste varie de 1000 Km, les dépenses quant à elles varieront de 690 ¼. La Variation Kilométrage explique 72.25% de la variation de Dépenses. Le mod le est tr s explicatif. IIVARIABLE QUALITATIVE L¶objectif à ce niveau, est d¶analyser la relation statistique (dépendance ou indépendance) entre les deux variables qualitatives observées. Pour ce faire, nous allons croiser c es derni res à l¶aide d¶un tableau de contingence, comme illustré ci-dessous : CR
ERE / EXE 5
3
4
it
@
A
8
B
D
6
E
G
C
A
D
8
6
F
G
@
A
C
f t u it
@
8
C
5
D
F
ti ut
@
6
E
C
6
7
7
A
E
t u lluti ût ' t ti H
@
A
8
@
A
6
I
8
E
8
6
6
F
8
6
E
H
@
8
@
D
6
8
C
I
A
P
8
D
9
8
G
8
C
@
4
F
' ' t tiqu A 8
@
E
4
8
8
E
H 6
7
7
8
74 72 30 74 15 40 79 10 91 485
F 8
A @
7
7
8
4
24 94 66 72 4 47 76 21 86 490
9
4
98 166 96 146 19 87 155 31 177 975
Page |5
98 La vitesse 166 Le confort 96 La sécurité 146 La consommation 19 La tenue de route 87 La pollution 155 Le coût d'entretien 31 L'espace 177 L'esthétique Homme
Femme
Distr ibution de 975 citations selon le cr itèr e r echerché dans une voitur e, et le sexe. Pour entamer la notion de liaison entr e les deux var iables il faut tout d¶abord dr esser un tableau de f réquences : CRITERES/SEXE La vitesse Le confor t La sécur ité La consommation La tenue de r oute La pollution Le coût d'entr etien L'espace L'esthétique TOTAL
Homme
Femme
TOTAL
7.6% 7.4% 3.1% 7.6% 1.5% 4.1% 8.1% 1.0% 9.3% 49.7%
2.5% 9.6% 6.8% 7.4% 0.4% 4.8% 7.8% 2.2% 8.8% 50.3%
10.1% 17.0% 9.8% 15.0% 1.9% 8.9% 15.9% 3.2% 18.2% 100 %
Pr enons un exemple du tableau f 22 = 9.6% ; f 2. f .2 = 8.55% ; f ij f i. f .j. Nous concluons donc que les deux var iables sont dépendantes. et d¶étudier la r elation de dépendance entr e les deux var iables, et c¶est la r aison pour laquelle nous évoquer ons ci-dessous le TPL et le TPC pour avoir une interprétation plus pr atique de la dépendance entr e deux var iables. e Ta leau de P r fil- ignes T PL R
Q
Q
S
CRITERES/SEXE
Homme
Femme
TOTAL
La vitesse Le confor t La sécur ité La consommation La tenue de r oute La pollution Le coût d'entr etien L'espace L'esthétique TOTAL
75.5% 43.4% 31.3% 50.7% 78.9% 46.0% 51.0% 32.3% 51.4% 49.7%
24.5% 56.6% 68.8% 49.3% 21.1% 54.0% 49.0% 67.7% 48.6% 50.3%
100% 100% 100% 100% 100% 100% 100% 100% 100% 100 %
Nous constatons ainsi à tr aver s le TPL que : Que la var iable sexe dépend de la var iable ritères de h ix T
T
U
V
La vitesse, la tenue de r oute sont attirées par les hommes. Tandis que les femmes attir ent la sécur ité et l¶espace. La sécur ité et l¶espace sont r epoussés par les hommes au moment où la vitesse et la tenue de r oute sont r epoussées par les femmes.
Page |6
Le Tabl eau de Pr ofil -Colonnes TP C CRITER E
/ E E
La vitesse Le confort La sécurité La consommation La tenue de route La pollution Le coût d'entretien L'espace L'esthétique TOTAL
Homme
Femme
TOTAL
15.3% 14.8% 6.2% 15.3% 3.1% 8.2% 16.3% 2.1% 18.8% 100%
4.9% 19.2% 13.5% 14.7% 0.8% 9.6% 15.5% 4.3% 17.6% 100%
10.1% 17.0% 9.8% 15.0% 1.9% 8.9% 15.9% 3.2% 18.2% 100%
A partir du TPC découle que la variable cr it res dépend de la variable sexe W
La vitesse et la tenue de route attire les hommes. La sécurité et l¶espace les repoussent. Les femmes sont attirées par la sécurité et l¶espace et repoussées par les modalités vitesse et tenue de route
Pour tester si la dépendance est significative ou ne l¶est pas, on calcule le chi2, ce test est la résultante d¶une comparaison entre les fréquences des citations effectives et les fréquences théoriques. Sphinx donne le résultat suivant : La dépendance est tr s significative. chi2 = 52.96, ddl = 8, 1-p = >99.99%. L¶AFC ne peut être faite sur sphinx, du fait que nous n¶avons que deux modalités pour la variable cr it res. W