Toutes informations (qu’elles soient structurées ou non) présentes dans une organisation peuvent potentiellement favoriser l’innovation, être soumises à de la réglementation ou être simplement mieux partagées …  Aussi, quelle que soit l’organisation et son secteur d’activité, les données sont indispensables. Mais comment permettre à l’ensemble de ses collaborateurs de trouver et d’accéder aux bonnes informations/données au-dessus des systèmes data encore largement silotés. C’est la raison d’être d’un data catalog de permettre de démocratiser l’accès aux données.

Définition d’un data catalog

Un « data catalog » est un outil de gestion des métadonnées permettant de centraliser la connaissance de son patrimoine informationnel. Il doit permettre à chacun, quel que soit son profil, de comprendre et retrouver les informations gérées dans les différentes sources de données (données structurées ou non) du système d’information.

Un « data catalog » s’appuie en autre sur un savoir-faire historique … celui des bibliothécaires : l’indexation et la cotation des documents. L’indexation traduit et signale le contenu d’une source de données, tandis que la cotation attribue à cette source une adresse physique. 

L’approche Dawizz pour créer un data catalog

L’indexation peut être plus ou moins détaillée en fonction des besoins des utilisateurs et de leur profil.

Dans le cas de MyDataCatalogue, nous utilisons deux types d’indexation :

  • l’indexation « libre » qui construite à partir du langage naturel et constituer une folksonomie (ensemble de mots clés) : celle-ci est notamment pratiquée par les utilisateurs eux-mêmes via ce que l’on appelle un “tag” ;
  • et  l’indexation analytique, aussi appelée « indexation matière », qui décrit le contenu d’une source à l’aide d’un langage documentaire structuré, c’est-à-dire via un thésaurus. Cette classification se fait de façon automatique car il s’agit de mapper le contenu des sources avec des concepts existants. 

Quant à la méthodologie de cotation des documents par les bibliothécaires, elle est reprise dans MyDataCatalogue sous forme de cartographie des données, c’est-à-dire de récupération de métadonnées de localisation des sources dans le système d’information.

Pour simplifier la recherche de données dans un « data-catalog », il est également intéressant de classifier les métadonnées elles-mêmes. En effet, on peut considérer qu’il existe 3 grandes catégories de métadonnées sur les données : des métadonnées techniques, des métadonnées fonctionnelles et des métadonnées partagées. L’objectif de cette classification est de permettre différents prismes pour visualiser son catalogue : une vision SI des données, une vision métier des données et/ou une vision partagée des données. Dans le cas de MyDataCatalogue, nous avons conçu des interfaces différentes (portails dédiés) selon la vision souhaitée, simplifiant ainsi la compréhension des métadonnées par chacun des utilisateurs.

Un catalogue de données n’a pas vocation à être statique : il doit donc permettre une vision exhaustive du patrimoine de données, de l’évolution des données dans le temps (cycle de vie des données) et leurs traitements associés avec éventuellement transfert physique d’un lieu de stockage à un autre (fonction de « traçabilité », ou « Data Lineage »).

Des fonctionnalités avancées de MyDataCatalogue permettent également la création de métadonnées par les données elles-mêmes. En effet, une analyse des données permet de compléter les métadonnées déjà associées : par exemple, il est possible d’automatiser la reconnaissance de typologie de données dans les applications métiers sans prise en compte des métadonnées déjà associées, comme le nom des attributs des bases de données. Les analyses de métadonnées et de données se font soit en parallèle (approche découverte) soit de façon itérative (approche ciblée). 

Concrètement, pour piloter une approche de catalogage des données (qui souvent fait partie d’une approche plus globale de gouvernance des données), il est recommandé de mettre en place des indicateurs de pilotage associés comme par exemples :

  • Indicateur de niveau de qualité sur les métadonnées techniques
  • Indicateurs de niveau de criticité et de conformité sur les métadonnées fonctionnelles
  • Indicateurs de niveau de consultation sur les métadonnées partagées

Pour conclure, un data catalog comme MyDataCatalogue est bien un outil d’aide à la décision car il permet de visualiser et filtrer une masse de données uniquement par leurs descriptions et la rendre compréhensible voire accessible. Son objectif est de connaître et localiser l’ensemble de ses données, cela à des fins de sécurité, de conformité, d’optimisation et bien entendu de partage du patrimoine informationnel.