De la data brute au reporting…les étapes clés

La data est une chose précieuse  Toutes les entreprises courent après les chiffres et le management le plus performant est la plupart du temps composé de grands amateurs de chiffres pour tout ce qui relève de la décision comme le montre cet article.

Les données, avant d’arriver dans des tableaux de bord qui ne demandent plus qu’à être parcourus et les données questionnées passent préalablement par plusieurs étapes essentielles. Pour les non-informaticiens, voici le chemin.

1) La collecte des données

La première étape est celle de la collecte des données. Les données dans les entreprises viennent souvent d’interfaces informatiques de saisie -par exemple un logiciel- mais peuvent provenir de d’autres endroits comme par exemple les fichiers csv, les logs apache des serveurs web…

L’information arrive de tous les côtés dans une entreprise. Cette multiplication croissante des données et leur explosion volumétrique fait que l’on parle depuis quelques années maintenant de « big data ». Les réseaux sociaux et la croissance d’internet ont accéléré la done: comment recueillir l’information sur un secteur en se basant sur les publications trouvées sur internet? Quelles sont les choses qui sont dites sur mon entreprise? Quel est le positionnement tarifaire de la concurrence – question importante notamment pour les compagnies hôtelières ou pour les locations de voiture par exemple.

Autant de sources diverses, éparses, aux nomenclatures et périmètres différents qui doivent cependant être pris en compte dans l’analyse de données.

La collecte d’information peut se faire en allant recueillir « passivement » de l’information -celle déjà prête à être reçue dans une base de données- ou bien « activement » au moyen de scripts informatiques permettant de « scraper » l’information depuis des sites internet -à l’aide notamment de la commande wget sous linux.

Impossible de se passer de cette étape de collecte de données. Les moyens mis en oeuvre pour cette collecte vont fortement varier entre les entreprises et les secteurs d’activité.

2) Le nettoyage des données

Toutes ces données collectées sont brutes. Ces données viennent souvent de plusieurs sources, des lignes peuvent avoir été répétées plusieurs fois, des erreurs de saisie peuvent avoir été commises-personne n’est à l’abri d’une erreur.

On ne parle pas là de fichiers excel avec 30 000 lignes (ou « entrées », selon l’expression consacrée) mais bien de fichiers pouvant comporter des millions de lignes. Impossible de de les traiter manuellement ou semi-manuellement d’autant plus que ces données arrivent généralement à plusieurs heures de la journée.

Il existe des logiciels appelés ETL permettant de nettoyer ces données. ETL est un acronyme pour Extract Transform Load. Avouez que l’on ne peut faire plus explicite comme nom pour un logiciel. Le but d’un ETL est donc, comme son nom l’indique, d’extraire la donnée dans un premier temps, de la transformer puis de la charger.

L’étape d’extraction permet d’aller récupérer les données selon les sources à utiliser. L’outil ira de lui-même -enfin après quelques paramétrages indispensables- interroger les sources de données pour recueillir les informations.

Dans un second temps, l’ETL ira nettoyer et transformer ces données fraîchement recueillies. Cette étape de nettoyage est indispensable est doit le plus souvent être organisée avec les divisions métiers. Le but est de ne pas recueillir des informations qui auraient été corrompues -par exemple un prix d’1 euro pour une bague en diamant, cela se voit rarement. Un rapport de traitement sera effectué après le traitement de l’ETL pour une vérification plus manuelle des entrées posant problème.

Une fois les données extraites et nettoyées, il ne reste plus qu’à les charger dans un datawarehouse.

3) Le datawarehouse

Le dataware permet de compiler dans des bases de données sous forme de tables les données transmises par l’ETL.

Les données sont stockées selon plusieurs principes mis en place par les informaticiens. Contrairement à ce que l’on peut penser, cette étape de stockage des données n’est pas de loin la plus facile.

En effet, le data model -façon d’organiser les informations- aura des conséquences non négligeables sur la facilité d’utilisation des données. On distingue généralement à ce niveau les tables de fait et les tables comportant les référentiels; les tables de nomenclature. Selon la manière dont l’information sera organisée dans les tables de données, requêter les informations sera plus ou moins aisé. Une mauvaise intégration implique souvent le recours à de -trop-nombreuses jointures entre les tables ce qui a pour risque d’augmenter non seulement le risque d’erreur mais ralentit aussi la tâche des développeurs dans l’écriture de leurs scripts.

Le SGBD utilisé aura de nombreuses implications -coûts, performances techniques, intégration avec l’environnement technologique de la société…- et d’autres facteurs comme les moteurs choisis sur les tables auront des impacts sur les performances à l’usage du datawarehouse.

Le choix du SGBD – système de Gestion des bases de donénes – et la conception du datawarehouse sont des étapes à ne pas sous-estimer.

Le travail sur les données n’est pas terminé à ce stade.

4) La conception de datamart

L’étape suivante consiste en la construction de datamarts. Comme précédemment expliqué sur ce site, un datamart est pour simplifier une agrégation des données issues du datawarehouse pour une utilisation orientée business.

Le datamart est crée en fonction des besoins business de l’entreprise: il existe des datamarts orientés marketing, d’autres finances… ces métiers n’ayant pas les mêmes besoins en chiffres.

La conception de datamart est une étape supplémentaire dans la préparation des données avant leur utilisation.

5) Le reporting et l’analyse

Cette étape est encore une fois critique. Selon la solution choisie, l’expérience des utilisateurs sera différente.

Les technologies de visualisation des données comme Qlikview, SAS ou encore Hypérion ont chacune leurs avantages et leurs limites. La scalabilité des systèmes est aussi importante -dit autrement, la capacité de l’outil à intégrer un volume croissant de données à travers le temps.

Choisir une solution de visualisation est coûteux pour l’entreprise: elle va investir dans la connaissance d’une technologie particulière en embauchant notamment les bonnes personnes capables de monter les rapports- et passer beaucoup de temps à créer ces rapports.

 

En conclusion, les données que vous consommez passent donc par de nombreuses étapes dont le traitement est délicat. Une réelle complexité existe autour du traitement des données et l’introduction de nouvelles technologies comme le mobile ne fera que multiplier cette complexité dans le temps.

Découvrez notre séléction de produits shopping