Ce este curățarea datelor?
Publicat: 2021-11-18Afacerile cu mult timp în urmă au recunoscut deja importanța datelor atunci când vine vorba de înțelegerea clienților lor și de luarea deciziilor strategice pentru creșterea rentabilității investițiilor.
Cu toate acestea, în lupta de a aduce produse și soluții personalizate, faptele cruciale despre calitatea datelor sunt marginalizate, ceea ce duce la inferențe analitice incorecte și la decizii de afaceri costisitoare.
Gartner spune: „Impactul financiar mediu al calității slabe a datelor asupra organizațiilor este de 9,7 milioane USD pe an”. Puteți îmbunătăți calitatea datelor asigurând puncte precise de introducere a datelor, amalgamarea eficientă a datelor, standardizarea datelor și metode de curățare a datelor.
Aplicarea practică a tehnicilor de curățare și îmbogățire a datelor poate ajuta la crearea, validarea, actualizarea, îmbunătățirea și îmbunătățirea datelor critice pentru afaceri prin dezvoltarea de instrumente personalizate (păianjeni, boți și scripturi) și procese manuale.
Iată câteva implicații ale datelor proaste:
- Ovum Research raportează că calitatea slabă a datelor costă companiile cu cel puțin 30% din veniturile lor.
- Datele de vânzări incorecte îi împing pe agenții de vânzări să piardă timpul cu clienții potențiali morți. Datele inexacte pot orienta afacerea către strategii distorsionate.
- MarketingSherpa afirmă că în fiecare an 25-30% din date sunt corupte. Datele proaste pot oferi informații distorsionate despre demografia clienților și despre comportamentele de cumpărare, ceea ce ar duce la oportunități ratate pentru agenții de marketing.
- Comunicarea greșită este o oprire masivă pentru clienți. Datele proaste pot contribui la comunicarea greșită cu clienții, un sentiment de nemulțumire în rândul lor și chiar la branding negativ pe rețelele sociale.
Ce este curățarea datelor?
Curățarea datelor sau curățarea datelor este o metodă de identificare și rectificare a înregistrărilor defectuoase sau inexacte dintr-un set de înregistrări, tabel sau bază de date. Se referă la detectarea unor părți fragmentare, incorecte, imprecise sau fără legătură ale datelor și apoi înlocuirea, modificarea sau eliminarea datelor murdare sau brute.
Curățarea datelor poate fi executată interactiv cu soluții de dispută de date sau ca procesare în lot prin scripting. După igienizare, un set de date ar trebui să fie coerent cu alte seturi de date similare din sistem.
Discrepanțele detectate sau eliminate pot fi cauzate inițial de inexactități la introducerea utilizatorului, de distorsiuni în transmisie sau stocare sau de definiții diferite ale dicționarului de date ale acelorași entități în magazine diferite.
Curățarea datelor diferă de autentificarea datelor prin aceea că validarea înseamnă aproape constant că datele sunt excluse din sistem la admitere și sunt realizate în momentul introducerii, mai degrabă decât pe seturi de date.
Procedura efectivă de curățare a datelor poate cuprinde eliminarea erorilor de tipar sau autentificarea și corectarea valorilor în comparație cu o listă cunoscută de obiecte. Validarea poate fi strictă (cum ar fi refuzul oricărei adrese care nu are un cod poștal valid) sau neclară (cum ar fi rectificarea înregistrărilor care într-o anumită măsură se potrivesc cu conturile existente, cunoscute).
Unele instrumente de curățare a datelor vor curăța datele prin verificarea încrucișată cu un set de date autentificat. O practică tipică de curățare a datelor este îmbunătățirea datelor, în care datele sunt completate prin adăugarea de informații aferente, de exemplu, adăugarea de locații cu orice numere de telefon asociate cu adresa respectivă.
Curățarea datelor poate include, de asemenea, sincronizarea (sau normalizarea) datelor, care este procesul de reunire a datelor de „formate de fișiere variabile, nomenclatură și coloane” și schimbarea acestora într-un singur set de date coeziv; un exemplu simplu este o extindere a acronimelor.
Cum să curățați datele?
Datele curate sunt fundamentul unor cercetări și perspective semnificative. Prin urmare, directorii din domeniul științei datelor își petrec 80% din timp în curățarea și normalizarea datelor. Curățarea datelor urmează diverse abordări.
Auditarea datelor
Auditarea datelor folosind metode statistice și baze de date pentru a detecta anomalii și contradicții: aceasta indică în cele din urmă caracteristicile particularităților și localitățile acestora.
Mai multe instrumente vă vor permite să postulați verificări de diferite tipuri (folosind o gramatică care imită o codificare standard precum JavaScript sau Visual Basic) și apoi să generați cod care examinează datele pentru încălcarea acestor constrângeri.
Am explicat mai jos procesul în „specificația fluxului de lucru”, precum și în „execuția fluxului de lucru”. Pentru utilizatorii care nu au acces la instrumente de curățare de ultimă generație, sistemele de gestionare a bazelor de date Microcomputer, cum ar fi MS Access sau File Maker Pro, vă vor permite, de asemenea, să obțineți astfel de autorizații pe o bază limită cu limită, interactiv, cu o programare ușoară sau fără programare necesară în multe cazuri.
Specificația fluxului de lucru
Aveți un flux de lucru pentru detectarea și eliminarea anomaliilor. Începe după procedura de auditare a datelor și este crucială în realizarea produsului final al datelor de înaltă calitate. Crearea unui flux de lucru adecvat necesită o monitorizare atentă a cauzelor anomaliilor și erorilor din date.
Execuția fluxului de lucru
În această etapă, executați fluxul de lucru după ce cerințele sale sunt complete și exactitatea acestuia este confirmată.
Aplicarea fluxului de lucru ar trebui să fie bine organizată, chiar și pe seturi vaste de date, ceea ce reprezintă inevitabil un compromis, deoarece realizarea unui proces de curățare a datelor poate fi costisitoare din punct de vedere computațional.
Post-procesare și control
După finalizarea fluxului de lucru de curățare, inspectați rezultatele pentru a verifica corectitudinea. Ajustați manual datele incorecte rămase după execuția fluxului de lucru, dacă este posibil.
Rezultatul este o nouă secvență în procedura de curățare a datelor în care auditați din nou datele pentru a permite necesitatea unui flux de lucru suplimentar pentru curățarea datelor prin procesare automată în continuare.

O sursă de date de mai bună calitate are de-a face cu „Cultura calității datelor” și fiecare organizație trebuie să o inițieze la vârful instituției de afaceri.
Nu este vorba doar de a executa verificări de validare securizate pe ecranele de intrare, deoarece aproape indiferent cât de atent ar fi aceste verificări, ele pot fi adesea ocolite de utilizatori.

Există un ghid în nouă pași pentru unitățile care doresc să îmbunătățească calitatea datelor:
- Declarați o asigurare la nivel înalt pentru o cultură a calității datelor
- Conduceți reingineria procedurilor la nivel de elaborare a politicilor
- Cheltuiți aluatul pentru a avansa setarea de introducere a datelor
- Cheltuiți bani pentru a dezvolta integrarea aplicațiilor
- Dedicați bani pentru a modifica modul în care funcționează procesele
- Susține capacitatea de reacție a echipei de la capăt la capăt
- Încurajează colaborarea interdepartamentală
- Dezvăluie public superioritatea calității datelor
- Măsurați și avansați neîncetat calitatea datelor
Altele constau din:
Analizare
pentru recunoașterea erorilor de sintaxă. Un parser alege dacă un șir de date este acceptabil în cadrul specificației de date permise. Este asemănător cu modul în care un parser se chinuie cu sintaxele și limbaje.
Transformarea datelor
Transformarea datelor permite trasarea datelor din formatul dat în aranjamentul așteptat de aplicația corespunzătoare. Încorporează conversii de valori sau proceduri de traducere, precum și standardizarea valorilor numerice pentru a urma valorile minime și maxime.
Eliminare duplicat
Detectarea duplicatelor necesită un algoritm pentru a defini dacă datele au duplicate ale aceleiași entități. De obicei, datele sunt aranjate printr-o cheie care ar aduce intrările identice mai aproape pentru o identificare mai rapidă.
metode statistice
Examinând datele utilizând valorile de medie, abatere standard, interval sau proceduri de grupare, un expert poate găsi valori care sunt neanticipate și, prin urmare, incorecte.
Chiar dacă corectarea unor astfel de date este abruptă, deoarece denumirea reală nu este cunoscută, totuși, o puteți rezolva setând valorile la o valoare medie sau altă valoare statistică.
O altă utilizare a metodelor statistice trebuie să se ocupe de denumiri pierdute, care pot fi înlocuite cu una sau mai multe valori posibile, care sunt de obicei dobândite prin algoritmi extinși de creștere a datelor.
Igiena datelor sau calitatea datelor
Pentru ca datele să fie procesabile și interpretabile în mod eficient și eficient, acestea trebuie să îndeplinească un set de criterii de calitate. Se spune că datele care îndeplinesc aceste criterii de calitate sunt de înaltă calitate. În general, o valoare agregată pe un set de criterii de calitate este calitatea datelor.
Începând cu criteriile de calitate specificate în, descriem setul de standarde care sunt afectate de curățarea cuprinzătoare a datelor și definim cum să evaluăm scorurile pentru fiecare dintre ele pentru o colectare de date existentă.
Pentru a măsura calitatea unei culegeri de date, evaluați evaluările pentru fiecare dintre criteriile de calitate.
Utilizarea evaluării scorurilor pentru criteriile de calitate poate fi o modalitate de a cuantifica necesitatea curățării datelor pentru colectarea datelor, precum și succesul unui proces de curățare a datelor efectuat pe o colectare de date.
Puteți utiliza criterii de calitate în cadrul optimizării curățării datelor prin specificarea priorităților pentru fiecare dintre cerințe, care la rândul lor influențează execuția metodelor de curățare a datelor care afectează regulile specifice.

Valabilitate
Punctul în care datele se încadrează în reguli sau constrângeri de afaceri definite.
- Constrângeri de tip de date: valorile dintr-o anumită coloană trebuie să fie de un anumit tip de date, de exemplu, boolean, numeric, dată etc.
- Constrângeri de interval: de obicei, numerele sau datele ar trebui să fie într-un interval specific.
- Constrângeri obligatorii : anumite coloane nu pot fi goale.
- Constrângeri unice: un câmp sau un amestec de zone trebuie să fie distinctiv într-un set de date.
- Constrângeri de apartenență la set : denumirile unei coloane provin dintr-un set de valori discrete, de exemplu, valori enumerate. De exemplu, genul poate fi masculin, feminin sau alții.
- Constrângeri de cheie străină : ca și în sistemele de baze de date relaționale, o coloană de cheie străină ar trebui să existe în cheia primară referită.
- Modele de expresie regulată: câmpurile de text ar trebui să urmeze un design specific. De exemplu, numerele de telefon trebuie să respecte un anumit profil (xxx) xxx-xxx.
- Validare cross-field: setările specifice care se întind pe numeroase câmpuri trebuie să aibă, de exemplu, data eliberării pacientului din spital nu poate fi înainte de momentul admiterii.
Precizie
Gradul în care datele sunt aproape de valorile reale. Deși sublinierea tuturor valorilor de câmp valide posibile permite identificarea cu ușurință a valorilor nevalide, aceasta nu înseamnă că sunt exacte.
Este posibil să nu existe o adresă stradală validă . A Culoarea ochilor persoanei, să zicem albastru, ar putea fi corectă, dar nu corectă. Un alt lucru de care nu trebuie uitat este diferența dintre corectitudine și precizie.
A spune că trăiești pe planeta Pământ este corect. Dar, nu precis. Unde pe planetă? Presupunând că locuiți la o anumită adresă de stradă este mai corectă.
Completitudine
Punctul în care toate datele necesare sunt cunoscute și asimilate.
Datele vor lipsi din diverse cauze. Se poate atenua această problemă punând la îndoială sursa.
Posibilitățile sunt că fie veți primi un răspuns diferit, fie veți fi dificil să vă constatați din nou.
Consecvență
Gradul în care datele sunt ineficiente, în setul de date potrivit sau în mai multe seturi de date similare.
Incoerența apare atunci când două valori din setul de date se confruntă reciproc.
Un valabil vârsta, să zicem 10 ani, s-ar putea să nu se potrivească cu starea civilă, să zicem divorțat. Înregistrarea unui client în două tabele diferite cu două adrese separate este o inconsecvență.
Care este adevărat?
Uniformitate
Gradul în care datele specificate utilizează aceeași unitate de măsură.
Greutatea în lire sau kilograme, o dată în format SUA sau format european și moneda uneori în USD sau YEN.
