COURS: DATAWAREHOUSE/DATAMINING Pr. A. EL OUARDIGHI
[email protected]
Cours:
Cours Datawarehouse Travaux dirigés Datawarehouse Cours Datamining Travaux pratiques sur un outil de Datamining
Evaluation: 2 Contrôles continus:
1 contrôle continu écrit en Datawarehouse 1 contrôle continu en Datamining
1 Examen Final (Ecrit et Pratique en Dataminin / Datawarehouse) © A. EL OUARDIGHI
Data warehouse
1
Chaîne de l’extraction des connaissances à partir d’une base de données
Zone de préparation des données © A. EL OUARDIGHI
Zone de présentation des données
Outils d’accès aux données Data warehouse
2
DATA WAREHOUSES ARCHITECTURES, FONCTIONNALITES CONCEPTION
ANALYSE MULTIDIMENSIONNELLE Pr. A. EL OUARDIGHI
[email protected]
© A. EL OUARDIGHI
Data warehouse
3
PLAN Partie 1: Notions et architectures d’un DW Partie 2: OLAP et Analyse multidimensionnelle Partie 3: Modélisation et Conception d’un DW Partie 4: Travaux dirigés
© A. EL OUARDIGHI
Data warehouse
4
Partie 1: Notions et Architecture d’un DW Les concepts de datawarehouse Différence entre OLAP et OLTP
Contenu d'un DW Architecture d’un DW
Notion de Datamart
© A. EL OUARDIGHI
Data warehouse
5
Historique Phase 1 Système de gestion de bases de données: modèle relationnel Feuille de calcul & tableur Phase 2
Système interactif d’aide à la décision
Système d’aide aux dirigeants
Phase 3 Entrepôt de données (Datawarehouse)
Exploitation des données (Datamining)
© A. EL OUARDIGHI
Data warehouse
6
Systèmes transactionnels vs Systèmes décisionnels Systèmes transactionnels
Les outils traditionnels de gestion et d’exploitation des données sont du type transactionnel ou OLTP (On-Line Transaction Processing)
L’exploitation de données tourné vers la saisie, le stockage, la mise à jour, la sécurité et l’intégrité des données.
Le système transactionnel est développé pour gérer les transactions quotidiennes
Conserver la cohérence de la BD, c’est l’objectif et la difficulté principale pour l’informatique de production
© A. EL OUARDIGHI
Data warehouse
7
Systèmes transactionnels vs Systèmes décisionnels Systèmes transactionnels
Ces bases de données supportent habituellement des applications particulières telles que les inventaires de magasins, les réservations d’hôtel, etc
Le contenu est fait de données actuelles, pas d’archives
Les données sont très détaillées (détails de chacune des transactions)
La mise à jour s’effectue par de nouvelles transactions
Très souvent plusieurs de ces systèmes existent indépendamment les uns des autres
© A. EL OUARDIGHI
Data warehouse
8
Systèmes transactionnels vs Systèmes décisionnels Opérations dans les systèmes transactionnels
Ajout
Effacement
Mise à jour des enregistrements
Requêtes simples
Interrogations et modifications fréquentes des données par de nombreux utilisateurs
Nécessité de conserver la cohérence des données
Les systèmes transactionnels garantissent la cohérence des données
© A. EL OUARDIGHI
Data warehouse
9
Systèmes transactionnels vs Systèmes décisionnels Systèmes décisionnels
Le terme décisionnel « Business Intelligence » couvre l'ensemble des technologies permettant en bout de chaîne d'apporter une aide à la décision.
SI capable d'agréger les données internes ou externes et de les transformer en information servant à une prise de décision rapide.
SI capable de répondre à certains types de questions:
Quelles sont les ventes du produit X pendant le trimestre A de l'année B dans la région C ?
Comment se comporte le produit X par rapport au produit Y?
Quel type de client peut acheter le produit X?
Est-ce qu'une baisse de prix de 10% par rapport à la concurrence ferait redémarrer les ventes du produit X ?
© A. EL OUARDIGHI
Data warehouse
10
Systèmes transactionnels vs Systèmes décisionnels Ces exemples mettent en évidence les faits suivants:
Les questions doivent pouvoir être formulées dans le langage de l’utilisateur en fonction de son secteur d’activité:
La prévision des interrogations est difficile car elles sont du ressort de l’utilisateur. Les questions vont varier selon les réponses obtenus:
Service marketing, Service économique, service relation clients…
Si le produit X s’est vendu moins bien que l’année précédente, il va être utile de comprendre les raisons: Détailler les ventes par région par type de magasin,…
Des questions ouvertes vont nécessiter la mise en place de méthodes d’extraction d’informations
© A. EL OUARDIGHI
Data warehouse
11
Systèmes transactionnels vs Systèmes décisionnels Des données aux décisions
Données
Points de ventes, géographiques, démographiques, …
Informations I vit dans R, I est âgé de A, …
Connaissances
Dans X%, le produit Y est vendu en même temps que le produit Z, …
Décisions
© A. EL OUARDIGHI
Lancer la promotion de Y & Z dans R auprès des clients plus âgé que A, ...
Data warehouse
12
Notion de donnée et notion d'information Date Heure Numéro
Destinat Durée Coût
5-3 5-3 6-3 6-3
France Italie UK Espagne
07:05 16:12 09:40 20:20
00216188 00216188 00441216 04426576
6 8 10 12 14 16 18 © A. EL OUARDIGHI
04:08 08:10 10:20 16:30
6.30 11.50 16.45 8.40
L M M J V S D Data warehouse
13
Applications transactionnelles v.s Applications décisionnelles Les applications transactionnelles sont constituées de traitements factuels de type OLTP ( On Line Transaction Processing) Les applications d'aide à la décision sont constituées de
traitements ensembliste de type OLAP: On Line Analytical Processing
© A. EL OUARDIGHI
Data warehouse
14
Différence entre OLTP et OLAP Orientée application Structure statique
Orientées sujet Structure évolutive
Détaillées Actuelles Peuvent être mises à jour Accessibles de façon individuelle
Résumées, agrégées Historiques Pas de mises à jour Accessibles de façon ensembliste
Servent les agents opérationnels
Servent les managers
Utilisation
Traitées de façon répétitive Requêtes simples Sensibles aux performances
Traitées de façon heuristiques Requêtes complexes Non sensibles aux performances
Nb Utilisat. Taille BD
Des milliers 100 Mo - Go
Des centaines 100 Go -To
Conception
Données
Utilisateurs
© A. EL OUARDIGHI
Data warehouse
15
Incompatibilités des deux activités Les deux activités (OLTP & OLAP) ne peuvent co-exister sur des données dans le même système d’information: leurs objectifs de performance sont exactement opposés: Les requêtes complexes et lourdes dégradent les performances des systèmes transactionnels, Les données temporelles sont réparties entre données actuelles et
données archivées, rendant la vue historique des données très difficile ou impossible,
Le support efficace d’une activité OLAP nécessite la constitution
d’un système d’information propre: Le Datawarehouse © A. EL OUARDIGHI
Data warehouse
16
Naissance du Datawarehouse
© A. EL OUARDIGHI
Data warehouse
17
Datawarehouse : Définition « Collection de données orientées sujets, intégrées, non volatiles et historisées, organisées pour le support du processus d’aide à la décision » Base de données dans laquelle sont déposées après nettoyage et
homogénéisation les informations en provenance des différents systèmes de production de l’entreprise OLTP
© A. EL OUARDIGHI
Data warehouse
18
Caractéristiques des données d'un DW
Orientées sujet
Organisées autour de sujets majeurs de l’entreprise
Données pour l’analyse et la modélisation en vue de l’aide à la décision, et non pas pour les opérations et transactions journalières
Vue synthétique des données selon les sujets intéressant les décideurs
Intégrées
Construit en intégrant des sources de données multiples et hétérogènes
BD relationnelles, fichiers, enregistrements de transactions
Les données doivent être mises en forme et unifiées afin d’avoir un état cohérent
Phase la plus complexe (60 à 90 % de la charge totale d’un projet DW)
© A. EL OUARDIGHI
Data warehouse
19
Caractéristiques des données d'un DW
Historisées
Fournies par les sources opérationnelles
Matière première pour l'analyse
Stockage de l'historique des données, pas de mise à jour
Un référentiel temps doit être associé aux données
Non volatiles
Conséquence de l’historisation
Une même requête effectuée à intervalle de temps, en précisant la date référence de l’information donnera le même résultat
Stockage indépendant des BD opérationnelles
Pas de mises à jour des données dans le DW
© A. EL OUARDIGHI
Data warehouse
20
Contenu d'un DW Des données agrégées
Correspondent à des éléments d’analyse, par des fonctions de calcul, représentatifs des besoins utilisateurs
Constituent déjà un résultat d’analyse et une synthèse de l’information
Des données détaillées
Reflète les événements les plus récents
Les intégrations des données vont être réalisées à ce niveau
Le volume d’informations est plus importants
© A. EL OUARDIGHI
Data warehouse
21
Contenu d'un DW Des méta données
Elles constituent une véritable aide en ligne permettant de connaître les informations contenue dans le DW
Regroupent l’ensemble des informations concernant le DW
Décrivant la structure des données de base ou agrégées
Donnant des explications sur la qualité, le mode de dérivation, la durée de vie, le rafraîchissement, etc...
Les principales informations sont destinées:
© A. EL OUARDIGHI
Aux utilisateurs
Aux équipes responsable des processus de transformation des données du système de production vers le DW
Aux équipes responsables des processus de création des données agrégées à partir des données détaillées
Aux équipes d’administration de la BD Data warehouse
22
Données multidimensionnelles Notion de dimension
C’est une catégorie linguistique selon laquelle les données sont organisées:
© A. EL OUARDIGHI
Nom d’un attribut
Valeur d’un attribut
Autre élément linguistique
Data warehouse
23
Représentation
© A. EL OUARDIGHI
DuréeMoy
Départ.
Mois
Année
5 5 18 7 12 8 9 15 18 12 22 25
Info Phys Philo Droit Info Phys Philo Droit Info Phys Philo Droit
Janv Janv Janv Janv Févr Févr Févr Févr Mars Mars Mars Mars
1998 1998 1998 1998 1998 1998 1998 1998 1998 1998 1998 1998
Data warehouse
24
... Autres représentations
1998 Info Phys Philo Droit
© A. EL OUARDIGHI
Janv
Févr
Mars
5 5 18 7
12 8 9 15
18 12 22 25
Data warehouse
25
... Autres représentations
1998 30 25 20 15 10 5
Droit Philo
© A. EL OUARDIGHI
Phys
Info
Data warehouse
26
... Autres représentations
Droit Philo Phys Info 1995 1996 1997 1998 7 1 8 7 18 Janv 9 Févr 15 Mars 25 22
© A. EL OUARDIGHI
5 5
5 5
8
12
12
18
Data warehouse
27
Fonctionnalités d’un DW Extraction de données sources
Réalisation d'un transformateur de modèles
Modèle source vers modèle du DW
Règles de transformation entre modèles hétérogènes
Le nettoyage et l’intégration des données
© A. EL OUARDIGHI
Avant l'intégration des données, il convient de les expurger d'incohérences diverses:
Problèmes de formats ou de description
Problème de codage
Problème de nommage
Problèmes de valeurs manquante
Data warehouse
28
Fonctionnalités d’un DW L’agrégation des données
© A. EL OUARDIGHI
Synthèse produisant des indicateurs pour l'aide à la décision utilisant:
Fonctions statistiques simples: Sum, Min, Max,
Analyse de données
Techniques d'apprentissage
Data warehouse
29
Notion de Datamart Définition: « C'est un sous-ensemble de données dérivées du DW ciblé sur un sujet unique».
Caractéristiques:
Orienté vers un sujet unique
Données fortement agrégées
© A. EL OUARDIGHI
Dont l'une des dimensions indique souvent le temps
Lien dynamique avec le DW
Le DW joue le rôle de source et d'historique pour le Datamart
Organisation multidimensionnelle (cubique)
Ex: comportement de la clientèle
Association entre valeur agrégée et valeur détaillée
Interfaces simples et conviviales Data warehouse
30
Les domaines d’application du décisionnel La gestion de la relation client (CRM) est l’un des premiers champs d’application de la Business Intelligence. Le contrôle de gestion pour l’analyse des coûts, l’analyse de la rentabilité, l’élaboration budgétaire, les indicateurs de performance… La direction marketing pour le ciblage, le pilotage de gamme, les applications de géomarketing, de fidélisation clients… La direction commerciale pour le pilotage des réseaux, les prévisions des ventes, l’optimisation des territoires… Les ressources humaines pour la gestion des carrières, La direction de la production pour l’analyse qualité, la prévision des stocks, la gestion des flux, la fiabilité industrielle… La direction générale pour les tableaux de bord, indicateurs de pilotage, gestion d’alertes… © A. EL OUARDIGHI
Data warehouse
31
Exemple: un DW dans les télécoms Sujets
Suivi du marché: lignes installées/ désinstallées, services et options choisis, répartition géographique, répartition entre public et différents secteurs d'organisations
Comportement de la clientèle
Comportement du réseau
Historique
5 ans pour le suivi du marché 1 an pour le comportement de la clientèle 1 mois pour le comportement du réseau
Sources © A. EL OUARDIGHI
Fichiers clients élaborés par les agences Fichiers de facturation
Data warehouse
32
Requêtes Comportement clientèle
Nombre moyen d'heures par client, par mois et par région
Répartition des appels clients sur la journée
Nombre moyen de numéros appelés
Durée moyenne d'une communication urbaine par ville
Durée moyenne d'une communication internationale
Etc …
© A. EL OUARDIGHI
Data warehouse
33
Architectures d’un Datawarehouse Une architecture d’un Datawarehouse possède les caractéristiques suivantes : Les données sources sont extraites du systèmes de bases de données et de fichiers
Les données sources sont nettoyées, transformées et intégrées avant d’être stockées dans l’entrepôt L’entrepôt est en lecture seulement et est défini spécifiquement pour la prise de décision Les usagers accèdent à l’entrepôt à partir d’interfaces et d’applications (clients)
© A. EL OUARDIGHI
Data warehouse
34
Architecture d’un Datawarehouse Architecture centralisée
Il s’agit de la version centralisée et intégrée d’un entrepôt regroupant l’ensemble des données de l’entreprise. Les différentes bases de données sources sont intégrées et sont distribuées à partir de la même plate-forme physique © A. EL OUARDIGHI
Data warehouse
35
Architecture d’un Datawarehouse Architecture fédérée
Il s’agit de la version intégrée d’un entrepôt où les données sont introduites dans les marchés de données orientés selon les différentes fonctions de l’entreprise © A. EL OUARDIGHI
Data warehouse
36
Architecture d’un Datawarehouse Architecture trois-tiers
Il s’agit d’une variante de l’architecture fédérée où les données sont divisées par niveau de détail © A. EL OUARDIGHI
Data warehouse
37
Les différentes phases du Datawarehouse
Conception Construction Administration Restitution
© A. EL OUARDIGHI
Data warehouse
38
Les différentes phases du Datawarehouse Conception: Il s’agit de définir la finalité du DW :
Piloter quelle activité de l’entreprise ;
Déterminer et recenser les données à entreposer ;
Définir les aspects techniques de la réalisation ;
Modèle de données ;
Démarches d’alimentation ;
Stratégies d’administration ;
Définition des espaces d’analyse ;
Mode de restitution, …
© A. EL OUARDIGHI
Data warehouse
39
Les différentes phases du Datawarehouse Construction: Travail technique:
Extraction des données des différentes BD de production
(internes ou externes)
Nettoyage des données, règles d’homogéinisation des données sous formes de méta données.
© A. EL OUARDIGHI
Techniques d’alimentation
Data warehouse
40
Les différentes phases du Datawarehouse Administration: Elle est constituée de plusieurs tâches pour assurer:
La qualité et la pérennité des données aux différents applicatifs ;
La maintenance;
La gestion de configuration;
L’organisation, l’optimisation du SI;
La mise en sécurité du SI.
© A. EL OUARDIGHI
Data warehouse
41
Les différentes phases du Datawarehouse Restitution:
C’est le but du processus d’entreposage des données.
Elle conditionne le choix de l’architecture du DW et de sa construction.
Elle doit permettre toutes la analyses nécessaires pour la construction des indicateurs recherchés.
© A. EL OUARDIGHI
Data warehouse
42
Partie 2 : OLAP et Analyse multidimensionnelles
Concepts OLAP Les 12 règles OLAP Configurations OLAP Opérations OLAP Outils OLAP
© A. EL OUARDIGHI
Data warehouse
43
OLAP
« Il s’agit d’une catégorie de logiciels axés sur l’exploration et l’analyse rapide des données selon une approche multidimensionnelle à plusieurs niveaux d’agrégation ».
OLAP vise à assister l’usager dans son analyse en lui facilitant l’exploration de ses données et en lui donnant la possibilité de le faire rapidement.
L’usager n’a pas à maîtriser des langages d’interrogation et des interfaces complexes
L’usager interroge directement les données, en interagissant avec celles-ci
© A. EL OUARDIGHI
Data warehouse
44
Modèles conceptuel Approche multidimensionnelle
Souvent représentés par une structure à plusieurs dimensions Une dimension est un attribut ou un ensemble d’attributs:
Les cellules contiennent des données agrégées appelées Faits ou Indicateurs:
Temps Géographie Produits Clients Nombre d’unités vendues Chiffre d’Affaire Coût
Représentations:
Relations,
Cube de données,
hyper cube de données
© A. EL OUARDIGHI
Data warehouse
45
Modèle conceptuel Vue multidimensionnelle:
© A. EL OUARDIGHI
Data warehouse
46
Agrégation des données Plusieurs niveau d’agrégation
Les données peuvent être groupées à différents niveaux de granularité
Les regroupements sont pré-calculés,
Par exemple, le total des ventes pour le mois dernier calculé à partir de la somme de toutes les ventes du mois.
Granularité : niveau de détail des données emmagasinées dans un Datawarehouse.
© A. EL OUARDIGHI
Data warehouse
47
Granularité des dimensions La granularité des dimensions
© A. EL OUARDIGHI
Data warehouse
48
Partie 2 : OLAP et Analyse multidimensionnelles
Concepts OLAP
Les 12 règles OLAP Configurations OLAP Opérations OLAP Outils OLAP
© A. EL OUARDIGHI
Data warehouse
49
Les 12 règles OLAP ( Edgar Frank Codd, 1993) Vue multidimensionnelle:
Comme par exemple lorsqu’on souhaite analyser les ventes selon plusieurs dimension: par produit par région ou par période.
Transparence du serveur OLAP à différents types de logiciels
Elle s'appuie sur une architecture ouverte permettant à l'utilisateur d'implanter le système OLAP sans affecter les fonctionnalités du système central.
Accessibilité à de nombreuses sources de données
Le système OLAP doit donner accès aux données nécessaires aux analyses demandées. Les outils OLAP doivent avoir leur propre schéma logique de stockage des données physiques
© A. EL OUARDIGHI
Data warehouse
50
Les 12 règles OLAP ( Edgar Frank Codd, 1993) Performance du système de Reporting
L'augmentation du nombre de dimensions ou du volume de la base de données ne doit pas entraîner de dégradation visible par l'utilisateur.
Architecture Client/Serveur
La plus part des données pour OLAP sont stockées sur des gros systèmes et sont accessibles via des terminaux . Il est donc nécessaire que les outils OLAP soient capables de travailler dans un environnement Client/Serveur.
© A. EL OUARDIGHI
Data warehouse
51
Les 12 règles OLAP ( Edgar Frank Codd, 1993) Dimensions Génériques
Toutes les dimensions doivent être équivalentes en structure et en calcul. Toute fonction qui s'applique à une dimension doit être aussi applicable à une autre dimension.
Gestion dynamique des matrices creuses
Le schéma physique des outils OLAP doit s'adapter entièrement au modèle d'analyse spécifique créé pour optimiser la gestion des matrices creuses
© A. EL OUARDIGHI
Data warehouse
52
Les 12 règles OLAP ( Edgar Frank Codd, 1993) Support Multi-Utilisateurs
Les outils OLAP doivent supporter les accès concurrents, Garantir l'intégrité et la sécurité afin que plusieurs utilisateurs accèdent au même modèle d'analyse.
Opération sur les dimensions
Les opérations doivent pouvoir s'effectuer sur toutes les dimensions.
Manipulation intuitive des données
Toute manipulation doit être accomplie via une action directe sur les cellules du modèle sans utiliser de menus ou des chemins multiples à travers l'interface utilisateur.
© A. EL OUARDIGHI
Data warehouse
53
Les 12 règles OLAP ( Edgar Frank Codd, 1993) Souplesse et facilité de constitution des rapports
La création des rapports dans les outils OLAP doit permettre aux utilisateurs de présenter comme ils le désirent des données synthétiques ou des résultats en fonction de l'orientation du modèle.
Nombre illimité de niveaux d'agrégation et de dimensions
Tout outil OLAP doit gérer au moins 15 à 20 dimensions.
© A. EL OUARDIGHI
Data warehouse
54
Partie 2 : OLAP et Analyse multidimensionnelles
Concepts OLAP Les 12 règles OLAP
Configurations OLAP Opérations OLAP Outils OLAP
© A. EL OUARDIGHI
Data warehouse
55
Configurations OLAP Selon le type de base de données accédé, plusieurs configurations sont possibles :
OLAP Multidimensionnelle: MOLAP
OLAP Relationnelle: ROLAP
OLAP Hybride: HOLAP
© A. EL OUARDIGHI
Data warehouse
56
MOLAP (OLAP Multidimensionnel)
Caractéristiques
MOLAP s’appuis sur une base de données multidimensionnelle Implémentent les cubes comme des matrices en mémoire Nombreuses opérations sur les cubes (Pivot, Slice & Dice, ...)
Exemple
Hyperion, Essbase,
© A. EL OUARDIGHI
http://www.hyperion.com/fr/products.cfm
Data warehouse
57
ROLAP (OLAP Relationnel)
Caractéristiques
ROLAP implémentent les cubes comme des tables relationnelles L’utilisateur interroge directement la base de données relationnelle Configuration supportant les gros volumes de données
Exemples
Microstrategy, Microstrategy 7i, Business Objects, Business Objects,
© A. EL OUARDIGHI
http://www.microstrategy.fr/Software/OLAP.asp http://www.businessobjects.fr/
Data warehouse
58
HOLAP (OLAP Hybride) OLAP Hybride
Architecture mixte: Désigne les outils d’analyse multidimensionnelle qui récupèrent les données dans des bases relationnelle ou multidimensionnelle.
Présente l’avantage de mixer les avantages des deux systèmes MOLAP et ROLAP
© A. EL OUARDIGHI
Data warehouse
59
Partie 2 : OLAP et Analyse multidimensionnelles
Concepts OLAP Les 12 règles OLAP Composantes OLAP Configurations OLAP
Opérations OLAP
© A. EL OUARDIGHI
Data warehouse
60
Opérations sur la structure des cubes
Pivot (Rotation) Switch (Permutation) Split (Décomposition)
© A. EL OUARDIGHI
Data warehouse
61
Pivot: Rotation par rapport à l’un des axes de dimensions
Droit Philo Phys Info
Droit Philo Phys Info 1996 18 24 7 15 1997 9 15 12 25 8 1998 7 8 25 1 5 5 5 17 8 7 18 5 5 Janv Févr Mars
12
15
9
8
12
25
22
12
18 18
8
Janv 7 18 5 5 Févr 15 9 5 12 8 12 Mars 25 2 12 18 8 18 17 15 2 12 18 1996 25 22 1997 1998
6
<>
<>
<>
6
<>
<>
<>
8
6
25
8
Pivot
© A. EL OUARDIGHI
Data warehouse
62
Swich: Permutation de valeurs de dimensions
Droit Philo Phys Info 1996 18 24 7 15 1997 9 15 12 25 8 1998 7 8 25 1 5 5 5 17 8 7 18 5 5 Janv Févr Mars
12
15
9
8
12
25
22
12
18 18
8
6
Droit Philo Info Phys 1996 18 24 15 7 7 1997 9 12 8 25 25 <> 1998 7 1 5 5 8 7 18 5 5 5 <> <> Janv 8 15 9 12 8 <> Févr Mars
25
22
18
12 12
Switch
© A. EL OUARDIGHI
Data warehouse
63
Split: Décomposition Droit Philo Phys Info 1996 18 24 7 15 1997 9 15 12 25 8 1998 7 8 25 1 5 5 5 17 8 7 18 5 5 Janv Févr Mars
Info Janv
15
9
8
12 12 6
25
22
12
18 18
1998 1997 1996
5
Droit 1998 1997 1996 Janv
8
Phys 1998 1997 1996
7
9
18
Févr 15
<> <>
Mars 25
<>
<>
Philo 1998 1997 1996
8
15
Janv
5
25
7
Janv
18 12
24
Févr 12
<>
<>
Févr 8
<>
<>
Févr
9
<>
<>
Mars 18
<> <>
Mars 12
<>
<>
Mars 22
<>
<>
© A. EL OUARDIGHI
Data warehouse
64
Opérations sur le contenu des cubes
Roll-up (passage au grain supérieur) Drill-down (passage au grain inférieur) Slice (Restriction) Dice (Projection)
© A. EL OUARDIGHI
Data warehouse
65
Changement de granule (Roll-up / Drill-down) Droit Philo Phys Info
Période 11,3 18 12,3 9,3 9,3 Janv 11,3 18 12,3 9,3 Févr <> <> <> 18 18 Mars <> <> <> 10,6 10,6 Droit Philo Phys Info 1996 18 24 7 15 1997 9 15 12 25 8 1998 7 8 25 1 5 5 5 17 8 7 18 5 5 Janv 8 12 9 8 12 6 Févr 15 18 Mars 25 22 12 18 Droit Philo Phys Info 1996 16 1997 10,3 16 1998 15,6 16,3 8,3 11,6
13,5
13,5
Trimestre 1 15,6 16,3 8,3 11,6 © A. EL OUARDIGHI
Data warehouse
66
Restriction (Slice) S’applique sur les valeurs du cube ou les valeurs des dimensions
Droit Philo Phys Info 1996 18 24 7 15 1997 9 15 12 25 8 1998 7 8 25 1 5 5 5 17 8 7 18 5 5 Janv Févr Mars
12
15
9
8
12
25
22
12
18 18
© A. EL OUARDIGHI
8
6
Droit Philo 1997 9 12 12 1998 7 1 18 8 7 18 <> Janv 9 9 Févr 15
Data warehouse
67
Projection (Dice) Réduit le nombre de dimension
Droit Philo Phys Info 1996 18 24 7 15 1997 9 15 12 25 8 1998 7 8 25 1 5 5 8 7 18 5 5 5 17 Janv Févr Mars
12
15
9
8
12
25
22
12
18 18
© A. EL OUARDIGHI
8
6
Dice
1996 1997 16 13,5 1998 8,7
Janv 12,6 Févr 14,6 Mars 22,3
<> <> <> <>
Data warehouse
68
Composition d’opérations (Slice & Dice)
Slice
Droit Philo Phys Info 1996 18 24 7 15 1997 9 15 12 25 8 1998 7 8 25 1 5 5 5 17 8 7 18 5 5 Janv 8 12 9 8 12 6 Févr 15 18 Mars 25 22 12 18
© A. EL OUARDIGHI
Droit Philo 1997 9 12 12 1998 7 1 18 8 7 18 <> Janv 9 9 Févr 15
Dice Droit Philo 1997 9,5 10 1998 11 13,5 11 13,5
Data warehouse
69
Opérations entre cubes
Jointure Union
© A. EL OUARDIGHI
Data warehouse
70
Jointure (Join) Droit Philo Phys Info 1996 18 24 7 15 1997 9 15 12 25 8 1998 7 8 25 1 5 5 8 18 5 5 5 17 Janv 7 15
Févr Mars 25
9 22
12
8
12
12
18 18
1996 80 1997 80 75 1998 60 75 76
Janv Févr Mars © A. EL OUARDIGHI
60
70 65
60 70
80 72 70
Droit
8
6
18
1996
9
19977 1998 7 Janv
Philo
80 24 80 7
Phys Info 80 15 80
75 12 75 25 75 8
60 18 60 5
60 18 60 5
75
60 5 60
60 5
60
80
75
76 60
80 72
Févr
15 70
Mars
25 65 22 65 12 65 18 65
9 70
8 70 12 70
70
70
65
65
Data warehouse
71
Union Droit Philo Phys Info 1996 18 24 7 15 1997 9 15 12 25 8 1998 7 8 25 1 5 5 8 18 5 5 5 17 Janv 7 Févr 15 Mars 25
12
9
8
12
22
12
18 18
8
6
Droit Philo Phys Info 1996 15 17 717 25 1997 7 14 21 12 25 1998 12 2 7 16 12 25 16 20 3 12 23 7 16 Avr 12 12 16 8 27 42 Mai 20 Juin 22 28 32 27 27 © A. EL OUARDIGHI
Droit Philo Phys Info 1996 18 24 7 15 1997 9 15 12 25 8 1998 7 8 25 1 5 5 5 17Info 8Droit5 Philo5 Phys 18 Janv 7 8 12 17 717 256 9 8 12 Févr 15 15 25 7 14 21 12 18 12 12 18 Mars 2512 22 2 25 7 16 16 20 3 7 16 Avr 12 23 12 Mai Juin
20
8
27
42 12 16
22
28
32
27 27
Data warehouse
72
Partie 2 : OLAP et Analyse multidimensionnelles
Concepts OLAP Les 12 règles OLAP Composantes OLAP Configurations OLAP Opérations OLAP
Outils OLAP
© A. EL OUARDIGHI
Data warehouse
73
Outils OLAP Exemples d’outils OLAP
BusinessObjects, BusinessObjects, http://www.businessobjects.fr/
SAS, SAS, http://www.sas.com/offices/europe/france/software/technologies/olap/index.html
HarrySoftware , HarryPilot, HarryCube , http://www.harrysoftware.com/jahia/Jahia/pid/61
© A. EL OUARDIGHI
Data warehouse
74
Partie 3: Modélisation et Conception d’un DW
Conception d'un DW Etude préalable
Modélisation Alimentation
© A. EL OUARDIGHI
Data warehouse
75
Construction d’un Datawarehouse Caractéristiques:
Le Datawarehouse est différent des bases de données de production:
Les besoins pour lesquels on veut le construire sont différents
Il contient des informations historisées, organisées selon les métiers de l’entreprise pour le processus d’aide à décision
Le Datawarehouse n’est pas un produit ou un logiciel mais un environnement, qui se bâtit et ne s’achète pas.
© A. EL OUARDIGHI
Data warehouse
76
Construction d’un Datawarehouse
Phases de construction d’un DW:
Il y’a trois parties interdépendante qui relève la construction d’un Datawarehouse:
L’étude préalable qui va définir les objectifs, la démarche à suivre, le retour sur investissement,…
L’étude du modèle de données qui représente le DW conceptuellement et logiquement
L’étude de l’alimentation du Datawarehouse
© A. EL OUARDIGHI
Data warehouse
77
Partie 3: Modélisation et Conception d’un DW
La conception d'un DW
Etude préalable Modélisation Alimentation
© A. EL OUARDIGHI
Data warehouse
78
Etude préalable Etude des besoins:
Définir les objectifs du DW
Déterminer le contenu du DW et son organisation, d’après:
Les résultats attendus par les utilisateurs,
Les requêtes qu’ils formuleront,
Les projets qui ont été définie
Recenser les données nécessaires à un bon fonctionnement du DW:
Recenser les données disponibles dans les bases de production
Identifier les données supplémentaires requises
© A. EL OUARDIGHI
Data warehouse
79
Etude préalable Etude des besoins:
Choisir les dimensions
Choisir les mesures de fait
Typiquement: le temps, le client, le produit, le magasin...
De préférences des quantités numériques additifs
Choisir la granularité des faits
© A. EL OUARDIGHI
Niveau de détails des dimensions
L’unité de temps doit-elle être le jour, la semaine?
Récapitulatifs journaliers, mensuels
Data warehouse
80
Etude préalable Coûts de déploiement:
Nécessite des machines puissantes, souvent une machine parallèle
Capacité de stockage très importante (historisation des données)
Evaluer la capacité de stockage
Equipes de maintenance et d’administration
Les coûts des logiciels
Les logiciels d’administration du DW
Les outils ETL (Extract-Transform- Loading)
Les outils d’interrogation et de visualisation
Les outils de Datamining
© A. EL OUARDIGHI
Data warehouse
81
Partie 3: Modélisation et Conception d’un DW La conception d'un DW Etude préalable Modélisation Alimentation
© A. EL OUARDIGHI
Data warehouse
82
Modèles de données Niveau conceptuel:
Un DW est basé sur une modélisation multidimensionnelle qui représente les données dans un cube
Un cube permet de voir les données suivant plusieurs dimensions:
Tables de dimensions
La table des faits contient les mesures et les clés des dimensions
© A. EL OUARDIGHI
Data warehouse
83
Les schémas de référence Niveau Logique:
Plusieurs schémas types sont proposés pour représenter un DW:
Schéma en étoile;
Schéma en flocon;
© A. EL OUARDIGHI
Data warehouse
84
Schéma en étoile
Une (ou plusieurs) table(s) de faits : identifiants des tables de dimension ; une ou plusieurs mesures .
Plusieurs tables de dimension : descripteurs des dimensions.
© A. EL OUARDIGHI
Data warehouse
85
Schéma en flocons
Raffinement du schéma étoile avec des tables normalisées par dimensions.
© A. EL OUARDIGHI
Data warehouse
86
Propriété des mesures Fait Additive
Additionnable suivant toutes les dimensions
Exemple : CA ; Quantité vendue, ...
Fait Semi-additivité
Additionnable seulement suivant certaines dimensions
Exemple : nombre de contacts clients, Etats des stocks, ...
Fait Non-additivité :
Non additionnable quelque soit la dimension
Comptage des faits ou affichage 1 par 1
Exemple : plus grand CA pour l’ensemble des magasins
© A. EL OUARDIGHI
Data warehouse
87
Exemples de DW Dans la grande distribution Quelques tables de faits :
Détaillées et volumineuses
Tables de dimensions :
Classiques : produit, fournisseur, temps, établissement (structure géographique, fonctionnelle), ... Stratégiques : Client, Promotions, ....
Dans le secteur des banques Tables de faits :
Nombreuses, dédiées à chaque produit , peu détaillées et peu volumineuses.
Tables de dimensions :
© A. EL OUARDIGHI
Classiques : produit, temps, établissement (structure géographique, fonctionnelle), ... Stratégiques : Client, ....
Data warehouse
88
Estimer la taille du DW Les grandes surfaces :
Dimensions
Temps : 4 ans * 365 = 1460 jours
Magasin : 300
Produit : 200000 références (10% vendus chaque jour)
Promotion : un article est dans une seule condition de promotion par jour et par magasin
1460 * 300 * 200000 * 1 = 8,76 milliards d’enregistrements
Nombre de champs de clé = 4
Nombre de champs de fait = 4
Fait
Taille du DW = 8,76.10^9 * 8 champs * 4 octets = 280 Go
© A. EL OUARDIGHI
Data warehouse
89
Estimer la taille du DW
Suivi d’appels Téléphoniques :
Dimensions
Temps : 3 ans * 365 = 1095 jours
Faits
Nombre d ’appel par jour = 100 000 000
Nombre de champs de clé = 5
Nombre de champs de fait = 3
Taille du DW = 109.10^9 * 8 champs * 4 octets = 3,49 To
© A. EL OUARDIGHI
Data warehouse
90
Partie 3: Modélisation et Conception d’un DW Conception d'un DW Etude préalable Modélisation
Alimentation
© A. EL OUARDIGHI
Data warehouse
91
Alimentation
L’alimentation est la procédure qui permet de transférer des données du système opérationnel vers le DW
La conception de cette opération est une tâche complexe
60 à 90 % de la charge totale d’un projet DW
Elle doit être faite en collaboration avec l’administrateur des bases de productions
Il est nécessaire de déterminer:
Quelles données seront chargées
Les transformations et les vérifications nécessaires
La périodicité et le moment de transferts des données
© A. EL OUARDIGHI
Data warehouse
92
Alimentation du DW Alimentation d’un DW (ETL)
Extraction (Extract)
Transformation (Transform)
Filtrer
Homogénéiser
Nettoyer
Etc …
Chargement (Loading)
© A. EL OUARDIGHI
Data warehouse
93
Extraction Extraction:
Depuis les bases sources
Périodique et Répétée
Dater ou marquer les données envoyées
Difficulté:
Ne pas perturber les applications OLTP
Différentes techniques d’extraction:
Méthode Push: Le système opérationnel qui au fil des transactions alimente le DW
Méthode Pull : Le système décisionnel cherche périodiquement les données dans les base de production
© A. EL OUARDIGHI
Data warehouse
94
Transformation C’est une suite d’opérations qui a pour but de rendre les données cibles homogènes et puissent être traitées de façon cohérente. Unification des modèles Convertir / uniformiser les noms des attributs Uniformiser les valeurs d ’attributs Nettoyer ( Valeurs manquantes, aberrantes…)
© A. EL OUARDIGHI
Data warehouse
95
Chargement C’est l’opération qui consiste à charger les données nettoyées et préparées dans le DW. C’est une opération qui peut être longue Mettre en place des stratégies pour assurer de bonnes conditions à sa réalisation Définir la politique de rafraîchissement. C’est une phase plutôt mécanique et la moins complexe
© A. EL OUARDIGHI
Data warehouse
96
Outils ETL Exemples d’outils ETL
BusinessObjects, Data Integrator, http://www.businessobjects.fr/
Oracle Corporation, Warehouse builder, http://www.oracle.com/technology/products/warehouse/index.html/
IBM, Websphere Datastage , http://www.ascential.com/products/datastage.html
© A. EL OUARDIGHI
Data warehouse
97