Che cos'è la derivazione dei dati? Perché è importante tenere traccia del flusso di dati

Pubblicato: 2021-09-28

Alcuni professionisti vedono la derivazione dei dati come il GPS dei dati.

È perché la derivazione dei dati aiuta gli utenti a ottenere una panoramica visiva del percorso e delle trasformazioni dei dati. Documenta il modo in cui i dati vengono elaborati, trasformati e trasmessi per costituire informazioni significative utilizzate dalle aziende per eseguire le proprie operazioni.

La derivazione dei dati aiuta le aziende a ottenere una visione dettagliata di come i dati fluiscono dall'origine alla destinazione. Molte organizzazioni usano   software di virtualizzazione dei dati   con derivazione dei dati per aiutarli a tenere traccia dei propri dati fornendo informazioni in tempo reale agli utenti.

La derivazione dei dati informa gli ingegneri sulle trasformazioni dei dati e sul motivo per cui si verificano. Aiuta le organizzazioni a tenere traccia degli errori, eseguire migrazioni di sistema, avvicinare il rilevamento dei dati e i metadati e implementare le modifiche ai processi con meno rischi.

Rappresentazione del lignaggio dei dati

Le decisioni aziendali strategiche dipendono dall'accuratezza dei dati. Senza una buona linea di dati, diventa difficile tenere traccia dei processi di dati e verificarli. La derivazione dei dati consente agli utenti di visualizzare il flusso completo di informazioni dall'origine alla destinazione, semplificando il rilevamento e la correzione delle anomalie. Con la derivazione dei dati, gli utenti possono riprodurre porzioni o input specifici del flusso di dati per eseguire il debug o generare output perso.

Nelle situazioni in cui gli utenti non necessitano di dettagli sulla discendenza tecnica, utilizzano la provenienza dei dati per ottenere una panoramica di alto livello del flusso di dati. Molti   sistemi di banche dati   sfruttare la provenienza dei dati per affrontare le sfide di debug e convalida.

Che cos'è la provenienza dei dati?

La provenienza dei dati è la documentazione della provenienza dei dati e dei metodi con cui vengono prodotti.

Sebbene la provenienza dei dati e la discendenza dei dati abbiano delle somiglianze, la provenienza dei dati è più utile per gli utenti aziendali che necessitano di una panoramica di alto livello della provenienza dei dati. Al contrario, la derivazione dei dati include la derivazione sia a livello aziendale che a livello tecnico e fornisce una visione granulare del flusso di dati.

Derivazione dei dati e governance dei dati

La governance dei dati è l'insieme di regole e procedure utilizzate dalle organizzazioni per mantenere e controllare i dati. La derivazione dei dati è una parte essenziale della governance dei dati in quanto informa su come i dati fluiscono dall'origine alla destinazione.

Le aziende utilizzano diversi livelli di derivazioni di dati in base alle proprie esigenze. I livelli più bassi di derivazione dei dati forniscono una semplice rappresentazione visiva di come i dati fluiscono all'interno di un'organizzazione, senza includere dettagli specifici sulle trasformazioni che si verificano mentre si sposta attraverso la pipeline. Il livello più alto è la derivazione dei dati a livello di attributo che offre informazioni dettagliate su come ottimizzare il flusso di dati e su come migliorare le piattaforme di dati.

Le organizzazioni scelgono il livello di derivazione dei dati in base alla loro struttura di governance, ai costi sostenuti per l'implementazione e il monitoraggio, alle preoccupazioni normative e all'impatto che avrebbe sull'azienda.

Comprendere la derivazione dei dati è un aspetto critico della gestione dei metadati, il che lo rende essenziale per   magazzino dati   e amministratori di data lake. La gestione dei metadati consente di visualizzare il flusso di dati attraverso vari sistemi, facilitando la ricerca di tutti i dati associati a un particolare report o processo di estrazione, trasformazione, caricamento (ETL).

"La raccolta del lignaggio dei dati, che descrive l'origine, la struttura e le dipendenze dei dati, aumenta automaticamente la qualità dei metadati forniti e riduce lo sforzo manuale".

Josef Viehhauser
Leader della piattaforma presso BMW

Perché la derivazione dei dati è importante?

La derivazione dei dati non solo ti aiuta a risolvere problemi o eseguire migrazioni di sistema, ma ti consente anche di garantire la riservatezza e l'integrità dei dati monitorando le modifiche, come sono state eseguite e chi le ha apportate.

Con la derivazione dei dati, i team IT possono visualizzare il percorso end-to-end dei dati dall'inizio alla fine. Semplifica il lavoro di un professionista IT e offre agli utenti aziendali la sicurezza per prendere decisioni efficaci.

Gli strumenti di derivazione dei dati ti aiutano a rispondere alle seguenti domande:

  • Come sono stati modificati i dati e con quale processo?
  • Chi era responsabile della modifica dei dati?
  • Quando è stata effettuata la modifica?
  • Qual era la posizione geografica della persona che ha apportato le modifiche?
  • Perché è stato apportato un cambiamento e qual è il contesto dietro esso?

I requisiti per un sistema di derivazione dei dati sono determinati principalmente dal ruolo di un individuo e dall'obiettivo dell'organizzazione. Tuttavia, la derivazione dei dati può avere un impatto significativo in aree che includono:

  • Processo decisionale strategico: la derivazione dei dati consente agli utenti aziendali di comprendere meglio i dati elaborati osservando come sono passati attraverso le trasformazioni. Questi dati sono fondamentali per le operazioni aziendali e per il miglioramento di prodotti e servizi.
  • Uso ottimale di nuovi e vecchi set di dati: la derivazione dei dati consente alle aziende di tenere traccia di diversi set di dati mentre cambiano a causa dell'evoluzione delle tecniche e delle tecnologie di raccolta.
  • Migrazione dei dati: la derivazione dei dati aiuta i team IT a spostare rapidamente i dati in una nuova posizione di archiviazione, comprendendo la posizione e il ciclo di vita delle origini dati, rendendo i progetti di migrazione meno rischiosi.
  • Governance dei dati: poiché la derivazione dei dati offre una visibilità granulare sul ciclo di vita dei dati, aiuta le aziende a gestire i rischi, rispettare le normative di settore ed eseguire audit.

I professionisti vedono la derivazione dei dati come una pratica dataGovOps in cui derivazione, test e sandboxing rientrano nelle pratiche di governance dei dati.

"La derivazione dei dati è una delle tecnologie più importanti per "conoscere" gli scenari di dati dei clienti e comprendere le trasformazioni dei dati implementate".

Wolfgang Strasser
Data Consultant presso Cubido Business Solutions GMBH

Wolfgang Strasser ha aggiunto inoltre: "La necessità di comprendere le dipendenze tra le isole di dati e i sistemi nelle organizzazioni è fondamentale. Non è richiesta solo dal punto di vista tecnico; meglio si conosce come i flussi di dati tra i sistemi consentono di reagire meglio e vedere da dove ha avuto origine un'informazione così come le trasformazioni che sono state applicate sulla strada per il sistema di destinazione. In alcuni dei nostri progetti, siamo stati in grado di trovare dipendenze di sistema di cui nemmeno il cliente era a conoscenza".

Esistono vari modi in cui la derivazione dei dati può aiutare le persone in diversi ruoli lavorativi. Ad esempio, uno sviluppatore ETL può trovare bug in un processo ETL e verificare eventuali modifiche nei campi dati come eliminazioni, aggiunte o ridenominazione di colonne. Un data steward può utilizzare la derivazione per identificare l'asset di dati meno importante e più utile in un lavoro ETL. Per gli utenti aziendali, aiuta a verificare l'accuratezza dei report e identificare i processi e i lavori coinvolti quando vengono generati report errati.

La derivazione dei dati trova la sua applicazione anche in   machine learning, dove viene utilizzato per riqualificare i modelli basati su dati nuovi o modificati. Aiuta anche a ridurre   deriva del modello. La deriva del modello si riferisce al degrado delle prestazioni del modello dovuto ai cambiamenti nei dati e alle relazioni tra variabili di input e output.

Linea di dati a grana grossa e a grana fine

Gli studiosi accademici a volte usano il lignaggio dei dati a grana grossa e fine in modo diverso, ma il concetto copre sostanzialmente il livello di lignaggio dei dati che un utente può ottenere.

lignaggio a grana grossa vs lignaggio a grana fine

La derivazione dei dati a grana grossa descrive pipeline di dati, database, tabelle e come sono interconnessi. Tipicamente, un sistema di raccolta del lignaggio accumula lignaggio a grana grossa in fase di esecuzione. Catturano l'interconnessione tra pipeline di dati, database e tabelle senza dettagli sulle trasformazioni utilizzate per modificare i dati. Questo li aiuta a ridurre le spese generali di acquisizione (informazioni dettagliate sul flusso di dati). In una situazione in cui un utente desidera condurre un'analisi forense a fini di debug, dovrebbe riprodurre il flusso di dati per raccogliere una linea di dati a grana fine.

D'altra parte, la derivazione dei dati a grana fine copre trasformazioni applicate dettagliate che creano o modificano i dati. I sistemi di raccolta del lignaggio attivo acquisiscono il lignaggio dei dati a grana grossa o fine in fase di esecuzione. Consente un'eccellente riproduzione e debug. Tuttavia, le spese generali di acquisizione sono elevate a causa del volume dei dati di discendenza a grana fine.

Casi d'uso della derivazione dei dati

La derivazione dei dati aiuta le organizzazioni a tracciare il flusso di dati durante tutto il ciclo di vita, vedere le dipendenze e comprendere le trasformazioni. I team sfruttano la visualizzazione granulare del flusso di dati e la utilizzano per molti scopi.

Identificazione della causa principale degli errori

C'è confusione nelle situazioni in cui i numeri di vendita non corrispondono ai record del dipartimento finanziario ed è difficile individuare dove si verifica l'errore effettivo. La derivazione dei dati fornisce una spiegazione ragionevole per tali casi. I manager di Business Intelligence (BI) possono utilizzare la derivazione dei dati per tenere traccia dell'intero flusso di dati e visualizzare le modifiche apportate durante l'elaborazione.

Indipendentemente dalla presenza di un errore, i manager della BI possono sentirsi sicuri di fornire una spiegazione ragionevole della situazione. Se si verifica un errore, i team possono correggerlo alla fonte, consentendo l'uniformità dei dati degli utenti finali tra i diversi team.

Aggiornamenti di sistema

Durante l'aggiornamento o la migrazione a un nuovo sistema, è essenziale capire quali set di dati sono rilevanti e quali sono diventati obsoleti o inesistenti. La derivazione dei dati ti aiuta a conoscere i dati che utilizzi effettivamente per svolgere operazioni aziendali e a limitare la spesa per l'archiviazione e la gestione di dati irrilevanti.

Con la derivazione dei dati, puoi pianificare ed eseguire senza problemi migrazioni e aggiornamenti del sistema. Ti aiuta a visualizzare le origini dati, le dipendenze e i processi, consentendoti di sapere esattamente di cosa hai bisogno per migrare.

Analisi d'impatto

Qualsiasi buon affare identifica report, elementi di dati e utenti finali interessati prima di implementare una modifica. Il software di derivazione dei dati aiuta i team a visualizzare gli oggetti di dati a valle e a misurare l'impatto del cambiamento.

La derivazione dei dati ti consente di vedere in che modo gli utenti aziendali interagiscono con i dati e in che modo un cambiamento li influenzerebbe. Aiuta le aziende a comprendere l'impatto di una particolare modifica e consente loro di decidere se devono proseguire.

Tecniche di derivazione dei dati

Le organizzazioni possono eseguire la derivazione dei dati su set di dati strategici utilizzando alcune tecniche standard. Queste tecniche assicurano che ogni trasformazione o elaborazione dei dati venga tracciata, consentendo di mappare gli elementi dei dati in ogni fase quando le risorse informative passano attraverso i processi.

Le tecniche di derivazione dei dati raccolgono e archiviano i metadati dopo ogni trasformazione dei dati, che vengono successivamente utilizzati per la rappresentazione della derivazione dei dati.

Lignaggio mediante analisi

Lignaggio analizzando una delle forme di discendenza più avanzate che legge la logica utilizzata per elaborare i dati. È possibile ottenere una tracciabilità end-to-end completa mediante il reverse engineering della logica di trasformazione dei dati.

La tecnica del lignaggio per analisi è relativamente complicata da implementare in quanto richiede la comprensione di tutti gli strumenti e i linguaggi di programmazione utilizzati per trasformare ed elaborare i dati. Ciò può includere la logica ETL, soluzioni basate su linguaggio di query strutturato (SQL), soluzioni JAVA, soluzioni XML (Extensible Markup Language), formati di dati legacy e altro ancora.

È difficile creare una soluzione di derivazione dei dati che supporti una dozzina di linguaggi di programmazione e vari strumenti che supportano l'elaborazione dinamica ne aumentano la complessità. Quando scegli una soluzione di derivazione dei dati, assicurati che tenga conto dei parametri di input, delle informazioni di runtime e dei valori predefiniti e analizzi tutti questi elementi per automatizzare la distribuzione della derivazione dei dati end-to-end.

Lignaggio basato su modelli

Il lignaggio basato su modelli utilizza i modelli per fornire la rappresentazione del lignaggio invece di leggere qualsiasi codice. La derivazione basata su modelli sfrutta i metadati su tabelle, report e colonne e li profila per creare una derivazione basata su somiglianze e modelli comuni.

Hai senza dubbio il vantaggio di monitorare i dati invece degli algoritmi in questa tecnica. La tua soluzione di derivazione dei dati non deve comprendere i linguaggi di programmazione e gli strumenti utilizzati per elaborare i dati. Può essere utilizzato allo stesso modo in qualsiasi tecnologia di database come Oracle o MySQL. Ma allo stesso tempo, questa tecnica non mostra sempre risultati accurati. Molti dettagli, come la logica di trasformazione, non sono disponibili.

Questo approccio è adatto per casi d'uso della derivazione dei dati in cui la comprensione della logica di programmazione non è possibile a causa di codice inaccessibile o non disponibile.

Lignaggio autonomo

Il lignaggio autonomo tiene traccia di ogni movimento e trasformazione dei dati all'interno di un ambiente all-inclusive che fornisce logica di elaborazione dei dati, gestione dei dati master e altro ancora. Diventa facile monitorare il flusso di dati e il suo ciclo di vita.

Tuttavia, la soluzione autonoma rimane esclusiva di un ambiente specifico ed è cieca a tutto ciò che è al di fuori di esso. Man mano che emergono nuove esigenze e vengono utilizzati nuovi strumenti per elaborare i dati, la soluzione di derivazione dei dati autonoma può non riuscire a fornire i risultati attesi.

Lineage per data tagging

Con la lineage by data tagging , ogni dato che si sposta o si trasforma viene contrassegnato da un motore di trasformazione. Tutti i tag vengono quindi letti dall'inizio alla fine per produrre una rappresentazione del lignaggio. Sebbene sembri essere una tecnica di derivazione dei dati efficace, funziona solo se è disponibile un motore di trasformazione o uno strumento coerente per controllare il movimento dei dati.

Questa tecnica esclude i movimenti di dati al di fuori del motore di trasformazione, rendendola adatta per eseguire la derivazione dei dati su sistemi di dati chiusi. In alcuni casi, questa potrebbe non essere una tecnica di derivazione dei dati preferita. Ad esempio, gli sviluppatori si astengono dall'aggiungere colonne di dati formali al modello della soluzione in ogni punto di contatto per lo spostamento dei dati.

Blockchain è una potenziale soluzione per affrontare le complessità del lignaggio mediante il tagging dei dati, ma non ha un'adozione abbastanza diffusa da causare un impatto significativo sul ciclo di vita dei dati nelle organizzazioni.

Lignaggio manuale

Il lignaggio manuale implica parlare con le persone per comprendere il flusso di dati in un'organizzazione e documentarlo. Puoi intervistare proprietari di applicazioni, specialisti dell'integrazione dei dati, amministratori dei dati e altri associati al ciclo di vita dei dati. Successivamente, puoi definire il lignaggio utilizzando fogli di calcolo con semplici tecniche di mappatura.

A volte, potresti trovare informazioni contraddittorie o perdere l'intervista a qualcuno, portando a una discendenza di dati impropria. Durante l'analisi del codice, dovrai anche rivedere manualmente le tabelle, confrontare le colonne e così via, rendendolo un processo noioso e dispendioso in termini di tempo. Il volume del codice in crescita dinamica e la sua complessità si aggiungono alle complicazioni della derivazione manuale dei dati.

Indipendentemente da queste sfide, questo approccio si rivela utile per capire cosa sta succedendo in un ambiente. La derivazione manuale dei dati si rivela efficace anche quando il codice non è disponibile o inaccessibile.

Come implementare la derivazione dei dati

L'implementazione della derivazione dei dati dipende fortemente dalla cultura dei dati dell'organizzazione. Assicurati di disporre di un framework di gestione dei dati consolidato e crea una forte collaborazione con i professionisti della gestione dei dati e altre parti interessate per un'implementazione di successo della linea dei dati.

Segui questi sette passaggi per implementare correttamente la derivazione dei dati nella tua organizzazione.

  1. Identificare i fattori trainanti del business: Discuti i motivi per implementare la derivazione dei dati e scopri se sono cruciali per raggiungere gli obiettivi di business. Questi motivi possono includere cambiamenti aziendali, iniziative per la qualità dei dati, requisiti di auditing o requisiti legislativi.
  2. Integrare l'alta dirigenza nel progetto: l'implementazione della linea di dati richiede molte risorse (sia umane che finanziarie) e tempo. Assicurati di avere il supporto dell'alta dirigenza per portare il progetto di implementazione verso il completamento. Puoi convincere il management spiegando i vantaggi della derivazione dei dati e come aiuta a rispettare le normative del settore.
  3. Ambito dell'iniziativa: una volta che l'alta dirigenza ha approvato il progetto, deciderne l'ambito in base ai fattori di business identificati e agli elementi di dati critici (CDE). Gli elementi di dati critici hanno l'impatto più significativo sulle prestazioni dell'organizzazione e sull'esperienza del cliente.
  4. Definire l'ambito: l' ambito della derivazione dei dati inizia con le origini dati e termina nel punto di utilizzo finale. Le grandi organizzazioni possono correggere una lunghezza limitata della derivazione dei dati poiché hanno molte filiali per evitare complicazioni.
  5. Preparare i requisiti aziendali: le parti interessate possono avere aspettative diverse per la derivazione dei dati. In primo luogo, ci sono stakeholder aziendali e stakeholder tecnici che hanno interessi diversi. Gli stakeholder aziendali sono più interessati al valore, alla derivazione dei dati sui livelli del modello di dati concettuali e all'analisi delle cause principali. Al contrario, le parti interessate tecniche hanno interessi nell'analisi dell'impatto, nella linea di progettazione dei metadati e nella linea di dati a livello fisico.
  6. Correggi un metodo per documentare la derivazione dei dati: puoi utilizzare la documentazione descrittiva o automatizzata della derivazione dei dati. Valuta quale modo sarebbe più adatto alla tua organizzazione, considerando il tempo e le risorse che consumerà.
  7. Scegli un software di derivazione dei dati adatto: seleziona una soluzione software di derivazione dei dati che si adatta meglio ai tuoi obiettivi e alle tue aspettative. Puoi esplorare   software di gestione dei dati anagrafici   che offre funzionalità di lignaggio automatizzate.

Best practice per la derivazione dei dati

Lineage ti aiuta a ottenere dati affidabili e accurati per supportare il processo decisionale della tua azienda. La pianificazione e l'implementazione sono un elemento critico della governance dei dati: devi essere sicuro da dove provengono i tuoi dati e dove ti stanno portando.

Ci sono alcune pratiche che puoi prendere in considerazione durante la pianificazione e l'implementazione della derivazione dei dati nella tua organizzazione:

  • Automatizza l'estrazione del lignaggio dei dati: i dati e il relativo lignaggio sono un'entità dinamica. Devi andare oltre l'acquisizione manuale della derivazione dei dati nei fogli di calcolo e automatizzare il processo per competere in un ambiente agile.
  • Includere l'origine dei metadati: i sistemi di gestione del database, gli strumenti per i big data, il software ETL e altre applicazioni personalizzate creano i propri dati sui dati che elaborano. Includi questi metadati nel tuo lignaggio in quanto aiuta a comprendere il flusso di dati e le modifiche.
  • Verifica le origini dei metadati: incoraggia i proprietari di applicazioni e strumenti a verificare le rispettive origini dei metadati poiché sono quelli che comprendono chiaramente l'accuratezza e la pertinenza dei metadati.
  • Pianifica l'estrazione progressiva: estrai metadati e derivazione nello stesso ordine in cui i dati fluiscono attraverso il tuo sistema. Semplifica la mappatura di connessioni, relazioni e dipendenze tra i sistemi e all'interno dei dati.
  • Convalida la derivazione dei dati end-to-end: convalida progressivamente la derivazione partendo da connessioni di alto livello tra i sistemi e quindi approfondisci i set di dati connessi seguiti dagli elementi di dati prima di convalidare la documentazione delle trasformazioni.
  • Implementare il software per il catalogo dei dati: Adottare un   software di catalogazione dati intelligente e automatizzato   per raccogliere dati sul lignaggio da tutte le fonti. Questo software consente inoltre di estrarre e dedurre il lignaggio dai metadati.

Tieni traccia del flusso di dati a livello granulare

La derivazione dei dati consente alle organizzazioni di ottenere una visibilità granulare del flusso di dati durante l'intero ciclo di vita e le aiuta a identificare la causa principale degli errori, gestire la governance dei dati, condurre analisi di impatto e prendere decisioni aziendali basate sui dati.

Documentare la derivazione dei dati può essere complicato, ma è utile per le organizzazioni comprendere e utilizzare efficacemente i propri dati.

Scopri di più su come ottenere dati in tempo reale per prendere decisioni aziendali strategiche con la virtualizzazione dei dati.