Qu'est-ce que le lignage des données ? Pourquoi il est important de suivre le flux de données

Publié: 2021-09-28

Certains professionnels considèrent la lignée des données comme le GPS des données.

En effet, le lignage des données aide les utilisateurs à obtenir un aperçu visuel du cheminement et des transformations des données. Il documente la façon dont les données sont traitées, transformées et transmises pour constituer des informations significatives que les entreprises utilisent pour gérer leurs opérations.

Le lignage des données aide les entreprises à obtenir une vue granulaire de la façon dont les données circulent de la source à la destination. De nombreuses organisations utilisent   logiciel de virtualisation de données   avec la lignée des données pour les aider à suivre leurs données tout en fournissant des informations en temps réel aux utilisateurs.

Le lignage des données informe les ingénieurs sur les transformations de données et pourquoi elles se produisent. Il aide les organisations à suivre les erreurs, à effectuer des migrations de système, à rapprocher la découverte de données et les métadonnées et à mettre en œuvre des modifications de processus avec moins de risques.

Représentation de la lignée des données

Les décisions commerciales stratégiques dépendent de l'exactitude des données. Sans une bonne traçabilité des données, il devient difficile de suivre les processus de données et de les vérifier. Le lignage des données permet aux utilisateurs de visualiser le flux complet d'informations de la source à la destination, ce qui facilite la détection et la correction des anomalies. Avec le lignage des données, les utilisateurs peuvent rejouer des parties ou des entrées spécifiques du flux de données pour déboguer ou générer une sortie perdue.

Dans les situations où les utilisateurs n'ont pas besoin de détails sur la lignée technique, ils utilisent la provenance des données pour obtenir une vue d'ensemble de haut niveau du flux de données. De nombreux   systèmes de bases de données   tirer parti de la provenance des données pour relever les défis de débogage et de validation.

Qu'est-ce que la provenance des données ?

La provenance des données est la documentation de l'origine des données et des méthodes par lesquelles elles sont produites.

Bien que la provenance des données et la lignée des données présentent des similitudes, la provenance des données est plus utile aux utilisateurs professionnels qui ont besoin d'une vue d'ensemble de haut niveau de l'origine des données. Au contraire, le lignage des données comprend à la fois le lignage au niveau métier et au niveau technique et fournit une vue granulaire du flux de données.

Lignage des données et gouvernance des données

La gouvernance des données est l'ensemble de règles et de procédures que les organisations utilisent pour maintenir et contrôler les données. Le lignage des données est un élément essentiel de la gouvernance des données car il informe sur la manière dont les données circulent de la source à la destination.

Les entreprises utilisent différents niveaux de lignages de données en fonction de leurs besoins. Les niveaux inférieurs de lignage des données fournissent une représentation visuelle simple de la façon dont les données circulent au sein d'une organisation, sans inclure de détails spécifiques sur les transformations qui se produisent à mesure qu'elles se déplacent dans le pipeline. Le niveau le plus élevé est la lignée de données au niveau des attributs qui offre des informations sur la manière dont le flux de données peut être optimisé et sur les moyens d'améliorer les plates-formes de données.

Les organisations choisissent le niveau de lignage des données en fonction de leur structure de gouvernance, des coûts encourus pour la mise en œuvre et la surveillance, des préoccupations réglementaires et de l'impact que cela aurait sur l'entreprise.

Comprendre le lignage des données est un aspect critique de la gestion des métadonnées, ce qui le rend essentiel pour   entrepôt de données   et les administrateurs de lac de données. La gestion des métadonnées vous permet de visualiser le flux de données à travers divers systèmes, ce qui facilite la recherche de toutes les données associées à un rapport particulier ou à un processus d'extraction, de transformation et de chargement (ETL).

"La collecte de la lignée des données - décrivant l'origine, la structure et les dépendances des données - augmente automatiquement la qualité des métadonnées fournies et réduit l'effort manuel."

Josef Viehhauser
Responsable plateforme chez BMW

Pourquoi le lignage des données est-il important ?

Le lignage des données ne vous aide pas seulement à résoudre les problèmes ou à effectuer des migrations de système, il vous permet également de garantir la confidentialité et l'intégrité des données en suivant les modifications, la manière dont elles ont été effectuées et qui les a faites.

Avec le lignage des données, les équipes informatiques peuvent visualiser le parcours des données de bout en bout, du début à la fin. Il facilite le travail des professionnels de l'informatique et donne aux utilisateurs professionnels la confiance nécessaire pour prendre des décisions efficaces.

Les outils de lignage des données vous aident à répondre aux questions suivantes :

  • Comment les données ont-elles été modifiées et par quel processus ?
  • Qui était responsable des modifications de données ?
  • Quand le changement a-t-il été effectué ?
  • Quelle était la situation géographique de la personne qui a effectué les modifications ?
  • Pourquoi un changement a-t-il été effectué et quel est le contexte derrière celui-ci ?

Les exigences d'un système de lignage des données sont principalement déterminées par le rôle d'un individu et l'objectif de l'organisation. Cependant, le lignage des données peut avoir un impact significatif dans des domaines tels que :

  • Prise de décision stratégique : la traçabilité des données permet aux utilisateurs professionnels de mieux comprendre les données traitées en visualisant comment elles ont subi des transformations. Ces données sont cruciales pour les opérations commerciales et l'amélioration des produits et services.
  • Utilisation optimale des ensembles de données nouveaux et anciens : la traçabilité des données permet aux entreprises de suivre différents ensembles de données à mesure qu'ils changent en raison de l'évolution des techniques et des technologies de collecte.
  • Migration des données : le lignage des données aide les équipes informatiques à déplacer rapidement les données vers un nouvel emplacement de stockage en comprenant l'emplacement et le cycle de vie des sources de données, ce qui rend les projets de migration moins risqués.
  • Gouvernance des données : étant donné que la traçabilité des données offre une visibilité granulaire sur le cycle de vie des données, elle aide les entreprises à gérer les risques, à se conformer aux réglementations du secteur et à effectuer des audits.

Les professionnels considèrent le lignage des données comme une pratique dataGovOps où le lignage, les tests et le sandboxing relèvent des pratiques de gouvernance des données.

"Le lignage des données est l'une des technologies les plus importantes pour "apprendre à connaître" les paysages de données des clients et comprendre les transformations de données mises en œuvre."

Wolfgang Strasser
Consultant en données chez Cubido Business Solutions GMBH

Wolfgang Strasser a ajouté : « La nécessité de comprendre les dépendances entre les îlots de données et les systèmes dans les organisations est vitale. Ce n'est pas seulement nécessaire d'un point de vue technique ; mieux vous savez comment vos données circulent entre les systèmes, vous pouvez mieux réagir et voir d'où provient une information ainsi que les transformations qui ont été appliquées sur le chemin vers le système de destination. Dans certains de nos projets, nous avons pu trouver des dépendances système dont même le client n'était pas conscient."

Le lignage des données peut aider les individus dans différents rôles professionnels de différentes manières. Par exemple, un développeur ETL peut trouver des bogues dans une tâche ETL et vérifier toute modification dans les champs de données comme les suppressions de colonnes, les ajouts ou les changements de nom. Un gestionnaire de données peut utiliser le lignage pour identifier l'actif de données le moins et le plus utile dans une tâche ETL. Pour les utilisateurs professionnels, cela aide à vérifier l'exactitude des rapports et à identifier les processus et les tâches impliqués lorsque de mauvais rapports sont générés.

Le lignage des données trouve également son application dans   l'apprentissage automatique, où il est utilisé pour recycler des modèles basés sur des données nouvelles ou modifiées. Il aide également à réduire   dérive du modèle. La dérive du modèle fait référence à la dégradation des performances du modèle en raison de changements dans les données et les relations entre les variables d'entrée et de sortie.

Lignage des données à grain grossier ou à grain fin

Les chercheurs universitaires utilisent parfois différemment la lignée de données à grain grossier et à grain fin, mais le concept couvre essentiellement le niveau de lignée de données qu'un utilisateur peut obtenir.

Lignage à grain grossier vs lignage à grain fin

Le lignage de données à grain grossier décrit les pipelines de données, les bases de données, les tables et la façon dont ils sont interconnectés. En règle générale, un système de collecte de lignage accumule un lignage grossier au moment de l'exécution. Ils capturent l'interconnexion entre les pipelines de données, les bases de données et les tables sans détails sur les transformations utilisées pour modifier les données. Cela les aide à réduire leurs frais généraux de capture (informations détaillées sur le flux de données). Dans une situation où un utilisateur souhaite effectuer une analyse médico-légale à des fins de débogage, il doit rejouer le flux de données afin de collecter un lignage de données précis.

D'autre part, le lignage fin des données couvre les transformations appliquées détaillées qui créent ou modifient les données. Les systèmes de collecte de lignage actif capturent le lignage des données à grain grossier ou fin au moment de l'exécution. Il permet une excellente relecture et débogage. Cependant, les frais généraux de capture sont élevés en raison du volume de données de lignage à grain fin.

Cas d'utilisation du lignage des données

Le lignage des données aide les organisations à suivre le flux de données tout au long du cycle de vie, à voir les dépendances et à comprendre les transformations. Les équipes tirent parti de la vue granulaire du flux de données et l'utilisent à de nombreuses fins.

Identification de la cause première des erreurs

Il y a confusion dans les situations où les chiffres de vente ne correspondent pas aux enregistrements du service financier, et il est difficile de déterminer où se situe l'erreur réelle. La lignée des données fournit une explication raisonnable pour de tels cas. Les responsables de l'informatique décisionnelle (BI) peuvent utiliser le lignage des données pour suivre l'intégralité du flux de données et voir toutes les modifications apportées au cours du traitement.

Indépendamment de l'existence ou non d'une erreur, les responsables BI peuvent être sûrs de fournir une explication raisonnable de la situation. En cas d'erreur, les équipes peuvent la rectifier à la source, permettant ainsi l'uniformité des données des utilisateurs finaux entre les différentes équipes.

Mises à niveau du système

Lors de la mise à niveau ou de la migration vers un nouveau système, il est essentiel de comprendre quels ensembles de données sont pertinents et lesquels sont devenus obsolètes ou inexistants. Le lignage des données vous aide à connaître les données que vous utilisez réellement pour effectuer des opérations commerciales et à limiter les dépenses de stockage et de gestion des données non pertinentes.

Avec le lignage des données, vous pouvez planifier et exécuter en toute transparence les migrations et les mises à jour du système. Il vous aide à visualiser les sources de données, les dépendances et les processus, vous permettant de savoir exactement ce que vous devez migrer.

Analyse d'impact

Toute bonne entreprise identifie les rapports, les éléments de données et les utilisateurs finaux concernés avant de mettre en œuvre un changement. Le logiciel de lignage des données aide les équipes à visualiser les objets de données en aval et à mesurer l'impact du changement.

Le lignage des données vous permet de voir comment les utilisateurs professionnels interagissent avec les données et comment un changement les affecterait. Il aide les entreprises à comprendre l'impact d'une modification particulière et leur permet de décider si elles doivent y donner suite.

Techniques de lignage des données

Les organisations peuvent effectuer un lignage des données sur des ensembles de données stratégiques à l'aide de quelques techniques standard. Ces techniques garantissent que chaque transformation ou traitement de données est suivi, ce qui vous permet de mapper des éléments de données à chaque étape lorsque les actifs informationnels passent par des processus.

Les techniques de lignage des données collectent et stockent les métadonnées après chaque transformation de données, qui sont ensuite utilisées pour la représentation du lignage des données.

Lignage par analyse

Lignage en analysant l'une des formes de lignage les plus avancées qui lit la logique utilisée pour traiter les données. Vous pouvez obtenir une traçabilité complète de bout en bout grâce à la logique de transformation des données par ingénierie inverse.

La technique de lignage par parsing est relativement compliquée à déployer car elle nécessite de comprendre tous les outils et langages de programmation utilisés pour transformer et traiter les données. Cela peut inclure la logique ETL, les solutions basées sur le langage de requête structuré (SQL), les solutions JAVA, les solutions de langage de balisage extensible (XML), les formats de données hérités, etc.

Il est difficile de créer une solution de lignage des données prenant en charge une douzaine de langages de programmation, et divers outils prenant en charge le traitement dynamique ajoutent à sa complexité. Lors du choix d'une solution de lignage des données, assurez-vous qu'elle tient compte des paramètres d'entrée, des informations d'exécution et des valeurs par défaut et analyse tous ces éléments pour automatiser la livraison du lignage des données de bout en bout.

Lignage basé sur des modèles

Le lignage basé sur des modèles utilise des modèles pour fournir une représentation de lignage au lieu de lire du code. Le lignage basé sur des modèles exploite les métadonnées sur les tables, les rapports et les colonnes et les profile pour créer un lignage basé sur des similitudes et des modèles communs.

Vous avez sans aucun doute l'avantage de surveiller les données au lieu des algorithmes dans cette technique. Votre solution de lignage des données n'a pas besoin de comprendre les langages de programmation et les outils utilisés pour traiter les données. Il peut être utilisé de la même manière sur n'importe quelle technologie de base de données comme Oracle ou MySQL. Mais en même temps, cette technique ne donne pas toujours des résultats précis. De nombreux détails, tels que la logique de transformation, ne sont pas disponibles.

Cette approche convient aux cas d'utilisation du lignage des données lorsque la compréhension de la logique de programmation n'est pas possible en raison d'un code inaccessible ou indisponible.

Lignée autonome

Le lignage autonome suit chaque mouvement et transformation de données dans un environnement complet qui fournit une logique de traitement des données, une gestion des données de référence, etc. Il devient facile de suivre le flux de données et son cycle de vie.

Pourtant, la solution autonome reste exclusive à un environnement spécifique et est aveugle à tout ce qui se trouve à l'extérieur. À mesure que de nouveaux besoins apparaissent et que de nouveaux outils sont utilisés pour traiter les données, la solution autonome de lignage des données peut ne pas fournir les résultats escomptés.

Lignage par data tagging

Avec le lignage par balisage des données , chaque élément de données qui se déplace ou se transforme est balisé par un moteur de transformation. Toutes les balises sont ensuite lues du début à la fin pour produire une représentation de la lignée. Bien que cela semble être une technique de lignage des données efficace, cela ne fonctionne que s'il existe un moteur ou un outil de transformation cohérent pour contrôler le mouvement des données.

Cette technique exclut les mouvements de données en dehors du moteur de transformation, ce qui la rend appropriée pour effectuer le lignage des données sur des systèmes de données fermés. Dans certains cas, cela peut ne pas être une technique de lignage des données préférée. Par exemple, les développeurs s'abstiennent d'ajouter des colonnes de données formelles au modèle de solution à chaque point de contact pour les déplacements de données.

La blockchain est une solution potentielle pour résoudre les complexités de la lignée par le marquage des données, mais son adoption n'est pas suffisamment répandue pour avoir un impact significatif sur le cycle de vie des données dans les organisations.

Lignée manuelle

Le lignage manuel consiste à parler aux gens pour comprendre le flux de données dans une organisation et à le documenter. Vous pouvez interroger les propriétaires d'applications, les spécialistes de l'intégration de données, les gestionnaires de données et d'autres personnes associées au cycle de vie des données. Ensuite, vous pouvez définir la lignée à l'aide de feuilles de calcul avec des techniques de cartographie simples.

Parfois, vous pouvez trouver des informations contradictoires ou manquer d'interviewer quelqu'un, ce qui entraîne une mauvaise traçabilité des données. En parcourant le code, vous devrez également examiner manuellement les tables, comparer les colonnes, etc., ce qui en fait un processus long et fastidieux. Le volume de code en croissance dynamique et sa complexité ajoutent aux complications du lignage manuel des données.

Indépendamment de ces défis, cette approche s'avère bénéfique pour comprendre ce qui se passe dans un environnement. Le lignage manuel des données s'avère également efficace lorsque le code est indisponible ou inaccessible.

Comment mettre en œuvre le lignage des données

La mise en œuvre du lignage des données dépend fortement de la culture des données de votre organisation. Assurez-vous de disposer d'un cadre de gestion des données établi et établissez une collaboration solide avec les professionnels de la gestion des données et d'autres parties prenantes pour une mise en œuvre réussie du lignage des données.

Suivez ces sept étapes pour implémenter avec succès le lignage des données dans votre organisation.

  1. Identifiez les principaux moteurs de l'activité : discutez des raisons de mettre en œuvre le lignage des données et déterminez s'ils sont essentiels pour atteindre les objectifs de l'entreprise. Ces raisons peuvent inclure des changements commerciaux, des initiatives de qualité des données, des exigences auditives ou des exigences législatives.
  2. Intégrer la haute direction au projet : la mise en œuvre du lignage des données nécessite de nombreuses ressources (humaines et financières) et du temps. Assurez-vous d'avoir le soutien de la haute direction pour faire avancer le projet de mise en œuvre vers son achèvement. Vous pouvez convaincre la direction en expliquant les avantages de la traçabilité des données et comment elle aide à se conformer aux réglementations du secteur.
  3. Portée de l'initiative : une fois que la haute direction a approuvé le projet, décidez de sa portée en fonction des facteurs opérationnels identifiés et des éléments de données critiques (CDE). Les éléments de données critiques ont l'impact le plus significatif sur les performances de l'organisation et l'expérience client.
  4. Définir la portée : la portée du lignage des données commence par les sources de données et se termine au point d'utilisation final. Les grandes organisations peuvent fixer une longueur limitée de lignage des données car elles ont de nombreuses filiales pour éviter les complications.
  5. Préparer les besoins de l'entreprise : les parties prenantes peuvent avoir des attentes différentes en matière de traçabilité des données. Principalement, il y a des parties prenantes commerciales et des parties prenantes techniques qui ont des intérêts différents. Les parties prenantes de l'entreprise s'intéressent davantage à la valeur, à la lignée des données au niveau du modèle de données conceptuel et à l'analyse des causes profondes. Au contraire, les parties prenantes techniques ont des intérêts dans l'analyse d'impact, la lignée de conception des métadonnées et la lignée des données au niveau physique.
  6. Corrigez une méthode pour documenter le lignage des données : vous pouvez soit utiliser une documentation descriptive ou automatisée du lignage des données. Évaluez quelle voie serait la plus appropriée pour votre organisation, compte tenu du temps et des ressources qu'elle consommera.
  7. Choisissez un logiciel de lignage des données adapté : sélectionnez une solution logicielle de lignage des données qui correspond le mieux à vos objectifs et à vos attentes. Vous pouvez explorer   logiciel de gestion des données de référence   qui offre des capacités de lignage automatisé.

Meilleures pratiques de lignage des données

Lineage vous aide à obtenir des données fiables et précises pour soutenir le processus décisionnel de votre entreprise. La planification et la mise en œuvre sont des éléments essentiels de la gouvernance des données. Vous devez être sûr d'où proviennent vos données et où elles vous mènent.

Il existe quelques pratiques que vous pouvez envisager lors de la planification et de la mise en œuvre de la traçabilité des données dans votre organisation :

  • Automatisez l'extraction de la lignée des données : les données et leur lignée sont une entité dynamique. Vous devez aller au-delà de la capture manuelle du lignage des données dans des feuilles de calcul et automatiser le processus pour être compétitif dans un environnement agile.
  • Inclure la source de métadonnées : les systèmes de gestion de base de données, les outils de Big Data, les logiciels ETL et d'autres applications personnalisées créent leurs propres données sur les données qu'ils traitent. Incluez ces métadonnées dans votre lignage car elles aident à comprendre le flux de données et les modifications.
  • Vérifier les sources de métadonnées : encouragez les propriétaires d'applications et d'outils à vérifier les sources de métadonnées respectives, car ce sont eux qui comprennent clairement l'exactitude et la pertinence des métadonnées.
  • Planifiez une extraction progressive : extrayez les métadonnées et le lignage dans le même ordre que celui dans lequel les données circulent dans votre système. Il simplifie le mappage des connexions, des relations et des dépendances entre les systèmes et au sein des données.
  • Validez le lignage des données de bout en bout : validez progressivement le lignage en commençant par des connexions de haut niveau entre les systèmes, puis plongez dans des ensembles de données connectés suivis d'éléments de données avant de valider la documentation des transformations.
  • Implémenter un logiciel de catalogue de données : adopter un   logiciel de catalogue de données intelligent et automatisé   pour collecter des données de lignée de toutes les sources. Ce logiciel vous permet également d'extraire et de déduire la lignée des métadonnées.

Suivre le flux de données à un niveau granulaire

Le lignage des données permet aux organisations d'obtenir une visibilité granulaire du flux de données tout au long du cycle de vie et les aide à identifier la cause première des erreurs, à gérer la gouvernance des données, à effectuer des analyses d'impact et à prendre des décisions commerciales basées sur les données.

Documenter le lignage des données peut être délicat, mais il est avantageux pour les organisations de comprendre et d'utiliser efficacement leurs données.

Découvrez comment obtenir des données en temps réel pour prendre des décisions commerciales stratégiques grâce à la virtualisation des données.