La démocratisation des outils bureautiques, le besoin de collaborer et d’analyser au quotidien, ont largement contribué à l’explosion des documents et au stockage de données dans des fichiers : les données non-structurées constituent à présent une partie importante du patrimoine de données. Il est donc nécessaire de les intégrer dans le processus de cartographie. Mais avant de les analyser, il faut réaliser un nettoyage des données : le Data Cleaning.

Qu’est ce que le Data Cleaning ?

Le Data Cleaning est un processus informatique qui consiste à nettoyer les données avant de faire une analyse de ces dernières. L’objectif du Data Cleaning est d’identifier les données qui sont obsolètes, incomplètes, corrompues ou encore dupliquées au sein d’un système d’information. Ces données sont ensuite retirées du catalogue de données pour ne pas altérer ou nuire à la précision des données stockées.

Un volume de données qui explose dans le cloud mais pas que …

Selon des études IDC, les volumes de données devraient atteindre 175 zettaoctets (un zettaoctet = 1 milliard de téraoctets !) à l’échelle mondiale d’ici 2025 … et en parallèle, moins de 0,5 % de ces données seraient actuellement analysées.

Le stockage des données se fait à la fois dans des serveurs bureautiques dédiés, sur les Clouds » et dans les équipements personnels (ordinateur, disque dur externe…).

Aussi, il est nécessaire de nettoyer régulièrement son système d’information afin :

  • de faciliter sa mise en conformité avec des réglementations telle que le RGPD (par une réduction des sources sensibles)
  • de minimiser sa surface d’exposition à des risques Cyber, 
  • de limiter son impact environnemental (le stockage numérique nécessite des serveurs, des data center, du matériel réseau, … dont l’empreinte écologique est plutôt élevée à ce jour),

Quelques conseils pour mettre en œuvre un processus de nettoyage des fichiers (Data cleansing / Data cleaning) :

  • Chaque organisation possède des données sensibles. Ces dernières peuvent porter sur son activité propre (propriété intellectuelle, savoir-faire, etc.) ou sur ses clients, administrés ou usagers (données personnelles, contrats, etc.). La sensibilisation des équipes aux risques associés à ces données reste encore le premier conseil pour mettre en œuvre une bonne stratégie data et de nettoyage au fil de l’eau, que l’on pourrait nommer ici « hygiène informatique ». 
  • Chaque organisation doit être capable d’identifier facilement les données à risques. Le premier levier, la phase détection des fichiers obsolètes, est généralement le plus radical et efficace : combien de fichiers de plus de 5 ans d’âge sont vraiment nécessaires au fonctionnement d’une organisation ?
  • Après cette étape de suppression des fichiers obsolètes, la priorisation des actions peut se faire par niveau de sensibilité des données. En effet, une classification des fichiers selon leur niveau de risque, permet de hiérarchiser, de minimiser le travail d’analyse, et enfin de prioriser les actions de nettoyage.
  • Mettre en place une stratégie, une politique de sécurité afin de limiter les accès aux fichiers sensibles (sécurisation au niveau du stockage, gestion des privilèges)
  • L’automatisation de la démarche par des outils dédiés constitue la garantie d’un processus vraiment appliqué. En effet, au regard du volume, le travail de classification, d’analyse des fichiers ne peut pas être réalisé humainement de façon exhaustive et efficace. Aussi, il est préférable de s’appuyer sur des solutions « intelligentes » implémentant des algorithmes et permettant un audit/monitoring régulier du patrimoine informationnel 

Au-delà de la sensibilisation des collaborateurs, il est en effet nécessaire de centraliser l’identification des données sensibles, et de définir des processus de classification, de nettoyage des fichiers afin de définir les mesures de sécurité spécifiques pouvant porter sur la sauvegarde, la suppression, la journalisation, les accès, etc.