Qu'est-ce que le nettoyage des données ?

Publié: 2021-11-18

Il y a longtemps, les entreprises avaient déjà reconnu l'importance des données lorsqu'il s'agissait de comprendre leurs clients et de prendre des décisions stratégiques pour un retour sur investissement accru.

Cependant, dans la course pour apporter des produits et des solutions personnalisés, des faits cruciaux sur la qualité des données sont mis de côté, ce qui conduit à des inférences analytiques incorrectes et à des décisions commerciales coûteuses.

Selon Gartner, "l'impact financier moyen d'une mauvaise qualité des données sur les organisations est de 9,7 millions de dollars par an". Vous pouvez améliorer la qualité des données en garantissant des points d'entrée de données précis, une fusion efficace des données, une normalisation des données et des méthodes de nettoyage des données.

L'application pratique des techniques de nettoyage et d'enrichissement des données peut aider à créer, valider, mettre à jour, améliorer et améliorer les données critiques de l'entreprise en développant des outils personnalisés (araignées, bots et scripts) et des processus manuels.

Voici quelques implications de mauvaises données :

  • Ovum Research rapporte que la mauvaise qualité des données coûte aux entreprises au moins 30 % de leurs revenus.
  • Des données de vente incorrectes poussent les vendeurs à perdre du temps avec des prospects morts. Des données inexactes peuvent orienter l'entreprise vers des stratégies biaisées.
  • MarketingSherpa déclare que chaque année, 25 à 30 % des données sont corrompues. De mauvaises données peuvent donner des informations déformées sur la démographie des clients et les comportements d'achat, ce qui entraînerait des opportunités manquées pour les spécialistes du marketing.
  • La mauvaise communication est un refus massif pour les clients. De mauvaises données peuvent contribuer à une mauvaise communication avec les clients, à un sentiment d'insatisfaction parmi eux et même à une image de marque négative sur les réseaux sociaux.

Qu'est-ce que le nettoyage des données ?

Le nettoyage des données ou le nettoyage des données est une méthode de détection et de rectification des enregistrements dégradants ou inexacts d'un jeu d'enregistrements, d'une table ou d'une base de données. Cela fait référence à la détection de parties de données fragmentaires, incorrectes, imprécises ou non liées, puis à la substitution, la modification ou la suppression des données sales ou approximatives.

Le nettoyage des données peut être exécuté de manière interactive avec des solutions de gestion des données ou sous forme de traitement par lots par script. Après le nettoyage, un ensemble de données doit être cohérent avec d'autres ensembles de données similaires dans le système.

Les divergences détectées ou supprimées peuvent avoir été initialement causées par des inexactitudes de saisie par l'utilisateur, par une distorsion dans la transmission ou le stockage, ou par des définitions de dictionnaire de données dissemblables des mêmes entités dans différents magasins.

Le nettoyage des données diffère de l'authentification des données en ce que la validation signifie presque invariablement que les données sont exclues du système à l'admission et sont réalisées au moment de l'entrée, plutôt que sur des ensembles de données.

La procédure proprement dite de nettoyage des données peut comprendre la suppression d'erreurs typographiques ou l'authentification et la correction de valeurs par rapport à une liste connue d'objets. La validation peut être stricte (comme refuser toute adresse qui n'a pas de code postal valide) ou floue (comme rectifier des enregistrements qui, dans une certaine mesure, correspondent à des comptes existants et connus).

Certains outils de nettoyage des données nettoient les données par recoupement avec un ensemble de données authentifié. Une pratique typique de nettoyage des données est l'amélioration des données, où les données sont complétées en ajoutant des informations connexes, par exemple, en ajoutant des emplacements avec tous les numéros de téléphone associés à cette adresse.

Le nettoyage des données peut également englober la synchronisation (ou la normalisation) des données, qui consiste à rassembler des données de « formats de fichiers, nomenclature et colonnes variables » et à les transformer en un ensemble de données cohérent ; un exemple simple est une extension des acronymes.

Comment nettoyer les données ?

Les données propres sont le fondement de recherches et d'informations importantes. Par conséquent, les responsables de la science des données consacrent 80 % de leur temps au nettoyage et à la normalisation des données. Le nettoyage des données suit diverses approches.

Audit des données

Auditer les données à l'aide de méthodes statistiques et de bases de données pour détecter les anomalies et les contradictions : cela indique éventuellement les caractéristiques des particularités et leurs localités.

Plusieurs outils vous permettront de postuler des vérifications de différents types (en utilisant une grammaire qui imite un encodage standard comme JavaScript ou Visual Basic) puis de générer du code qui examine les données pour la violation de ces contraintes.

J'ai expliqué le processus ci-dessous dans "spécification du flux de travail", ainsi que "exécution du flux de travail". Pour les utilisateurs qui n'ont pas accès à des outils de nettoyage haut de gamme, les systèmes de gestion de base de données de micro-ordinateurs tels que MS Access ou bien File Maker Pro vous permettront également d'obtenir de telles autorisations sur une base limite par limite, de manière interactive avec une programmation légère ou nulle nécessaire dans de nombreux cas.

Spécification du flux de travail

Avoir un workflow pour la détection et la suppression des anomalies. Cela commence après la procédure d'audit des données et est crucial pour obtenir le produit final de données de haute qualité. La création d'un flux de travail approprié nécessite une surveillance étroite des causes des anomalies et des erreurs dans les données.

Exécution du flux de travail

À cette étape, exécutez le flux de travail une fois que son exigence est terminée et que son exactitude est confirmée.

L'application du flux de travail doit être bien organisée, même sur de vastes ensembles de données, ce qui pose inévitablement un compromis puisque la réalisation d'un processus de nettoyage des données peut être coûteuse en calcul.

Post-traitement et contrôle

Après avoir terminé le flux de travail de nettoyage, inspectez les résultats pour vérifier leur exactitude. Ajustez manuellement les données incorrectes laissées après l'exécution du flux de travail, si cela est concevable.

Le résultat est une nouvelle séquence dans la procédure de nettoyage des données où vous auditez à nouveau les données pour permettre l'exigence d'un flux de travail supplémentaire pour nettoyer les données par un traitement automatique ultérieur.

nettoyage des données

Une source de données de meilleure qualité est liée à la «culture de la qualité des données», et chaque organisation doit l'initier au sommet de l'établissement commercial.

Il ne s'agit pas seulement d'exécuter des contrôles de validation sécurisés sur les écrans de saisie, car même si ces contrôles sont minutieux, ils peuvent souvent être contournés par les utilisateurs.

Il existe un guide en neuf étapes pour les établissements qui souhaitent améliorer la qualité des données :

  • Déclarer une assurance de haut niveau à une culture de la qualité des données
  • Piloter la réingénierie des procédures au niveau de l'élaboration des politiques
  • Passer de la pâte pour faire avancer le réglage de la saisie des données
  • Dépenser de l'argent pour développer l'intégration d'applications
  • Consacrer de l'argent pour modifier le fonctionnement des processus
  • Valider la réactivité de l'équipe de bout en bout
  • Encourager la collaboration interministérielle
  • Révéler publiquement la supériorité de la qualité des données
  • Mesurer et faire progresser sans cesse la qualité des données

D'autres consistent en :

Analyse

pour la reconnaissance des erreurs de syntaxe. Un analyseur détermine si une chaîne de données est acceptable dans la spécification de données autorisée. Cela s'apparente à la façon dont un analyseur peine avec les syntaxes et les langages.

Transformation des données

La transformation des données permet de tracer les données à partir de leur format donné dans l'arrangement attendu par l'application appropriée. Il intègre des conversions de valeurs ou des procédures de traduction, ainsi que la normalisation des valeurs numériques pour suivre les valeurs minimales et maximales.

Élimination des doublons

La détection des doublons nécessite un algorithme pour définir si les données ont des doublons de la même entité. Habituellement, les données sont organisées par une clé qui rapprocherait les entrées identiques pour une identification plus rapide.

Méthodes statistiques

En examinant les données à l'aide des valeurs de la moyenne, de l'écart type, de la plage ou des procédures de regroupement, un expert peut trouver des valeurs imprévues et donc incorrectes.

Même si la correction de ces données est abrupte puisque la dénomination réelle n'est pas connue, vous pouvez toutefois la résoudre en définissant les valeurs sur une moyenne ou une autre valeur statistique.

Une autre utilisation des méthodes statistiques doit gérer les dénominations perdues, qui peuvent être remplacées par une ou plusieurs valeurs possibles, qui sont généralement acquises par des algorithmes d'augmentation de données étendus.

Hygiène des données ou Qualité des données

Pour être exploitables et interprétables de manière efficace et efficiente, les données doivent répondre à un ensemble de critères de qualité. Les données répondant à ces critères de qualité sont dites de haute qualité. En général, une valeur agrégée sur un ensemble de critères de qualité est la qualité des données.

En commençant par les critères de qualité spécifiés dans, nous décrivons l'ensemble de normes qui sont affectées par le nettoyage complet des données et définissons comment évaluer les scores de chacun d'eux pour une collecte de données existante.

Pour mesurer la qualité d'une collecte de données, évaluez les cotes pour chacun des critères de qualité.

L'utilisation de l'évaluation des scores pour les critères de qualité peut être un moyen de quantifier la nécessité du nettoyage des données pour la collecte de données ainsi que le succès d'un processus de nettoyage des données effectué sur une collecte de données.

Vous pouvez utiliser des critères de qualité dans l'optimisation du nettoyage des données en spécifiant des priorités pour chacune des exigences, ce qui influence à son tour l'exécution des méthodes de nettoyage des données affectant les règles spécifiques.

hygiène des données

Validité

Le point auquel les données s'inscrivent dans des règles ou contraintes métier définies.

  • Contraintes de type de données : les valeurs d'une colonne particulière doivent être d'un type de données spécifique, par exemple, booléen, numérique, date, etc.
  • Contraintes de plage : généralement, les nombres ou les dates doivent être compris dans une plage spécifique.
  • Contraintes obligatoires : les colonnes spécifiques ne peuvent pas être vides.
  • Contraintes uniques : un champ, ou un mélange de zones, doit être distinctif dans un ensemble de données.
  • Contraintes d'appartenance à un ensemble : les dénominations d'une colonne émanent d'un ensemble de valeurs discrètes, par exemple des valeurs enum. Par exemple, le sexe peut être masculin, féminin ou autre.
  • Contraintes de clé étrangère : comme dans les systèmes de bases de données relationnelles, une colonne de clé étrangère doit exister dans la clé primaire référencée.
  • Modèles d'expressions régulières : les champs de texte doivent suivre une conception spécifique. Par exemple, les numéros de téléphone doivent obéir à un profil particulier (xxx) xxx-xxx.
  • Validation inter-champs : des paramètres spécifiques couvrant de nombreux champs doivent être conservés, par exemple, la date de sortie d'un patient de l'hôpital ne peut pas être antérieure à l'heure d'admission.

Précision

La mesure dans laquelle les données sont proches des valeurs réelles. Bien que la description de toutes les valeurs de champ valides possibles permette de repérer facilement les valeurs non valides, cela ne signifie pas qu'elles sont exactes.

Une adresse postale valide peut ne pas exister. UN   la couleur des yeux de la personne, disons bleu, peut être correcte, mais pas la bonne. Une autre chose à ne pas oublier est la différence entre l'exactitude et la précision.

Dire que vous vivez sur la planète Terre est correct. Mais, pas précis. Où sur la planète ? Supposer que vous vivez à une adresse particulière est plus précis.

Complétude

Le point auquel toutes les données requises sont connues et assimilées.

Des données seront manquantes pour diverses causes. On peut atténuer ce problème en questionnant la source.

Il est possible que vous obteniez une réponse différente ou que vous ayez du mal à vérifier à nouveau.

Cohérence

La mesure dans laquelle les données sont infaillibles, dans l'ensemble de données correspondant ou dans plusieurs ensembles de données similaires.

L'incohérence se produit lorsque deux valeurs de l'ensemble de données se contredisent.

Un valide   l'âge, disons 10 ans, pourrait ne pas correspondre à l'état matrimonial, disons divorcé. L'enregistrement d'un client dans deux tables différentes avec deux adresses distinctes est une incohérence.

Laquelle est vraie ?

Uniformité

La mesure dans laquelle les données spécifiées utilisent la même unité de la jauge.

Le poids en livres ou en kilos, une date au format USA ou au format européen, et la devise parfois en USD ou YEN.