UNIVERSITE Sidi Mohamed Ben Abdellah Ecole National des sciences appliqués Année Universitaire 2014/2015 Filière Informatique INFO2
TP 4 : Bases de données décisionnelles
http://www.talendforge.org/tutorials/tutorial.php?language=french&idTuto=62
Nettoyer et améliorer vos données avec des données de référence Apprenez à identifier des données de mauvaise qualité, à les nettoyer et à les améliorer avec Talend Enterprise Data Quality Dans ce tutoriel, nous allons analyser les données dans la perspective Profiling de Talend Enterprise Data Quality afin de voir les corrélations entre elles. Ensuite, nous allons les nettoyer et améliorer dans la perspective Design workspace. Pour ce faire, vous devez télécharger le fichier exampleFile.zip rassemblant les fichiers de données, ainsi que les Jobs utilisés dans ce tutoriel. Prérequis : Vous devez d'abord importer les Jobs disponibles dans le fichier exampleFile.zip dans votre Studio, et exécuter le Job Load_customer_data du dossier Prerequisite. Ce Job chargera les données client dans votre base de données, qui les analysera dans ce tutoriel.
Créer une analyse Dans
ce
tutoriel,
nous
utilisons
un
exemple
de
fichier
de
données
client.
Dans ce fichier, nous pouvons voir que les données semblent contenir des codes postaux valides, mais le nom des villes paraît mal orthographié. Nous pouvons descendre dans le fichier pour voir d'autres données client.
1
Des erreurs dans l'orthographe des villes peuvent également être vues dans le reste du fichier, et des lieux de la ville de New York sont mentionnés dans le champ City (ville). Les codes postaux semblent être correctement définis.
2
Dans la vue DQ Repository, à gauche de Talend Enterprise Data Quality : Cliquez-droit sur le noeud DB Connections. Dans le menu, cliquez sur New connection, afin d'ouvrir l'assistant Database Connection
3
Dans l'assistant Database Connection : Dans le champ Name, saisissez le nom que vous souhaitez donner à votre connexion à la base de données : CustomerDB. Cliquez sur Next pour passer à l'étape suivante
4
Dans cette étape, renseignez les paramètres de connexion à la base de données : Dans les champs Login et Password, saisissez votre identifiant et votre mot de passe de connexion à la base de données. Dans la liste DB Type, sélectionnez le type de base de données. Pour ce tutoriel, nous utilisons une base de données MySQL. Décochez la case retrieve all metadata pour ne retourner que les métadonnées de la base de données utilisée dans ce tutoriel. Dans la zone DB URL, saisissez l'URL de la base de données. Pour ce tutoriel, nous utilisons une base de données nommée talend-dbms. Dans le champ DBname, renseignez le nom de la base de données, ici : tutorials. Cliquez sur Finish pour fermer l'assistant et créer la connexion.
5
La connexion s'affiche dans la vue DQ Repository. Vous pouvez naviguer dans la base de données et ses tables. Pour ce tutoriel, nous allons utiliser la table Customer_sample. Vous pouvez la développer pour vérifier ses colonnes. Nous souhaitons analyser la colonne Zip. Cliquez-droit sur la colonne Zip et sélectionnez Analyze correlation dans le menu, afin d'ouvrir l'assistant New Analysis.
6
Dans l'assistant New Analysis : Dans le champ Name, donnez un nom à votre analyse : corranalysis. Cliquez sur Finish pour fermer l'assistant et créer l'analyse. Next
7
La
nouvelle
analyse
s'affiche
dans
l'éditeur
Cliquez sur Select column to analyze, afin d'ajouter une nouvelle colonne à l'analyse.
8
d'analyse.
Dans La A
l'assistant structure droite
de
la de
base
Column de
données
l'assistant,
s'affiche cochez
Cliquez sur OK pour valider.
9
Selection à
gauche la
: de
l'assistant.
case
City.
Exécuter et vérifier l'analyse La
nouvelle
Cliquez
sur
l'icône
colonne du
apparaît
bonhomme
qui
dans court
afin
l'éditeur
d'analyse.
de
l'analyse.
lancer
Une fois l'analyse exécutée, cliquez sur l'onglet Analysis Results, en bas de la fenêtre, pour voir les résultats.
10
Dans Descendez
l'onglet
des jusqu'à
résultats la
de
corranalysis zone
: Graphics.
Nous pouvons voir la corrélation entre le code postal 55555 et la ville de Young America, la corrélation entre 02026 et Dedham, etc.
11
Descendez pour voir les autres corrélations et les différences d'orthographe de North Reading.
12
Vous Allez
pouvez
clarifier au
l'affichage bas
de
ces
de
corrélations. la
Cochez la case Picking.
13
Pour zone
ce
faire
:
Graphics.
Une fois la case Picking cochée, vous pouvez cliquer sur chaque point bleu ou vert de la corrélation et le déplacer pour espacer les corrélations, afin de clarifier l'affichage des liens et des données.
14
Descendez
jusqu'à
la
zone
Data
de
l'analyse.
Cliquez sur le nom de colonne Count, afin de trier les données par nombre d'occurrences. Nous pouvons voir que les données les plus fréquentes sont celles dont l'orthographe est correcte. Les autres sont les données devant être nettoyées.
15
Nettoyer et enrichir vos données Afin de nettoyer les données, nous allons utiliser le fichier census_data.csv, téléchargé pour ce tutoriel, qui est un fichier de référence téléchargé du Bureau du Recensement des États-Unis. Ce fichier contient tous les codes postaux, tous les noms de villes, les ID des états, et le nom des Comtés, ainsi que la latitude, la longitude et la classe des codes postaux. Nous allons également utiliser ce fichier pour nettoyer et enrichir les données client.
16
Pour nettoyer les données, nous allons utiliser le Job Census_Lookup que vous avez téléchargé et importé depuis la section Download de ce tutoriel. Pour ce faire, cliquez sur le bouton Design Workspace dans le coin supérieur droit du Studio.
17
Le bouton Design Workspace est uniquement disponible dans Talend Enterprise Data Quality. Si vous utilisez Talend Open Studio for Data Quality, vous devez utiliser Talend Open Studio for Data Integration pour effectuer les étapes suivantes.
Dans Développez
le
Repository le
noeud
: Metadata.
Mettez à jour la connexion RemoteDBMS, et les métadonnées du fichier Excel Customers File, avec votre emplacement de fichier et vos informations de connexion. Développez le noeud Job Designs et double-cliquez sur le Job Census_Lookup pour l'ouvrir.
18
Le Job comprend deux composants fichiers d'entrée : notre fichier de données client et le fichier des données de recensement ; un tMap, qui permettra d'effectuer une jointure entre les données de deux fichiers, et donc de nettoyer et d'enrichir nos données client ; et deux composants fichiers de sortie, contenant nos données nettoyées et les données rejetées. Double-cliquez sur le tMap pour ouvrir son éditeur.
19
Dans
l'éditeur
du
tMap
:
Les schémas des composants fichiers d'entrée s'affichent dans la zone en haut à gauche de l'éditeur. Les schémas des composants fichiers de sortie s'affichent dans la zone en haut à droite de l'éditeur. Dans l'onglet Schema editor, en bas de l'éditeur, s'affichent les colonnes sélectionnées des schémas d'entrée et de sortie.
20
Dans la zone d'entrée, nous pouvons voir que nos deux schémas customers et census_data sont liés par une jointure entre leur colonne Zip.
21
C'est grâce à cette relation que nous pourrons enrichir et améliorer les données de notre fichier client, ainsi que d'ajouter les informations du type latitude et longitude. Le tMap a aussi été défini pour remplacer le nom des villes dans le champ City et de l'état dans le champ State.
22
Si la relation entre les deux fichiers ne peut être trouvée entre les codes postaux de la liste des clients et les données du recensement, l'enregistrement sera considéré en sortie comme flux de rejet.
23
Dans
le
Job
Designer
:
Double-cliquez sur le composant Standardized Customers afin d'afficher sa vue Component. Dans
la
vue
Component
:
Dans le champ File Name, cliquez sur le bouton [...], afin de définir le chemin d'accès et le nom du fichier contenant les données nettoyées. Vous pouvez également cliquer sur le bouton Sync columns pour récupérer le schéma du composant précédent.
24
Dans Double-cliquez Dans
le sur
le la
Job composant
Zip
Rejects vue
Designer afin
d'afficher
sa
Component
: vue
Component. :
Dans le champ File Name, cliquez sur le bouton [...], afin de définir le chemin d'accès et le nom du fichier contenant les données rejetées. Vous pouvez également cliquer sur le bouton Sync columns pour récupérer le schéma du composant précédent.
25
Dans Appuyez Appuyez
le sur
Job Ctrl+S
sur
afin
Designer de
F6
sauvegarder
: votre
pour
La vue Run s'affiche en bas de Talend Open Studio, et la console suit l'exécution du Job.
26
Job. l'exécuter.
A présent, pour voir le résultat de notre opération de nettoyage et d'amélioration des données, dans le Job Designer : Cliquez-droit sur le composant Zip Rejects, et sélectionnez data viewer dans le menu. Nous pouvons voir dans l'assistant Data Preview que toutes les données rejetées sont rassemblées dans le fichier de rejet. Cliquez sur Close pour fermer cet assistant. Next Le Data Preview est uniquement disponible dans Talend Enterprise Data Quality. Si vous utilisez Talend Open Studio for Data Integration, vous ne pourrez pas visualiser les données à partir du studio.
27
Cliquez-droit sur le composant Standardized Customers et sélectionnez data viewer dans le menu. Nous pouvons voir dans l'assistant Data Preview que toutes les données correctes ont été nettoyées et améliorées par notre Job. Cliquez sur Close pour fermer l'assistant. Le Data Preview est uniquement disponible dans Talend Data Quality Studio. Si vous utilisez Talend Open Studio, vous ne pourrez pas visualiser les données à partir du studio.
28
29