Definition d’un ETL

Article mise à jour le: 28 août 2019

Avant de comprendre le principe d’un ETL, il faut s’attacher a comprendre la chaine de valeur d’un datawarehouse.

Un ETL est un acronyme pour Extract Transform and Load, en français, Extraire, transformer et loader. Il s’agit d’un logiciel qui se place au début de la chaine de production des datas. Son rôle est de préparer les datas avant leur intégration dans le datawarehouse.

Des sources de datas diverses demandant à être agregée dans un ETL

Les sources de datas en entreprise peuvent être diverses et variées. Des données de log web par exemple ne seront pas exemptes d’erreur, de bugs; entre les problèmes de remontées serveurs, les modifications qui sont mal passées en production, la liste des probèmes potentiels est longue. Certaines informations ne pourront être remontées que via un traitement des datas sur fichier Excel: par exemple l’ajout dans le système d’objectifs chiffrés décidés par la direction sont souvent compilés sur Excel dans un premier temps puis retraités avant d’être injectés en base.

L’entreprise a une pluralité de source de données. L’ETL permet d’organiser les extractions entre ces différentes sources.

Avant d’aller plus loin, voici quelques livres sur les data:

Data science pour l’entreprise: Principes fondamentaux pour développer son activité

  La Révolution Big data – Les données au coeur de la transformation de l’entreprise

Des données demandant à être « nettoyées »

Les données recueillies par l’entreprise ne sont pas exemptes d’erreur : une ligne peut contenir par exemple une donnée de commission supérieure au chiffre d’affaire du marchand et les exemples sont nombreux. Une fois les données extraites, il faut les transformer, les préparer : définir un format d’intégration, mettre en place des règles métiers générant automatiquement des rapports en cas d’erreur (rôle d’alerte).

Charger les données dans le datawarehouse

Les données sont maintenant extraites et transformées. L’outil d’ETL permet d’organiser dans un troisième temps le chargement de ces informations dans le datawarehouse. Suivant la version de l’outil utilise, les taches peuvent être parallélisées et séquences de façon logique. Un rapport d’erreur pourra être automatiquement généré en cas de problème d’intégration. D’autres modes d’intégration comme les EAI sont apparus ces dernières années permettant une intégration au fil de l’eau et non par batch comme le font les ETL.

Si vous avez aimé l’article, merci de cliquer sur le bouton « like », cela permet au site de se faire connaitre.

Trouvez votre Freelance pour faire avancer vos projets. Essayez Fiverr!

Cliquez ici si vous cherchez un designer pour votre logo, un webmarketer pour votre site internet, un expert business ou analyste big data.

Le coin des achats professionnels