O que é limpeza de dados?

Publicados: 2021-11-18

As empresas há muito tempo já reconheciam a importância dos dados quando se trata de entender seus clientes e tomar decisões estratégicas para aumentar o ROI.

No entanto, na luta para trazer produtos e soluções personalizadas, fatos cruciais sobre a qualidade dos dados são deixados de lado, o que leva a inferências analíticas incorretas e decisões de negócios dispendiosas.

O Gartner diz: “O impacto financeiro médio da má qualidade dos dados nas organizações é de US$ 9,7 milhões por ano”. Você pode melhorar a qualidade dos dados garantindo pontos de entrada de dados precisos, amálgama de dados eficaz, padronização de dados e métodos de limpeza de dados.

A aplicação prática de técnicas de limpeza e enriquecimento de dados pode ajudar na criação, validação, atualização, aprimoramento e aprimoramento de dados críticos para os negócios, desenvolvendo ferramentas personalizadas (spiders, bots e scripts) e processos manuais.

Aqui estão algumas implicações de dados incorretos:

  • A Ovum Research relata que a baixa qualidade dos dados custa às empresas pelo menos 30% de sua receita.
  • Dados de vendas incorretos levam os vendedores a perder tempo com leads mortos. Dados imprecisos podem direcionar os negócios para estratégias distorcidas.
  • A MarketingSherpa afirma que todos os anos 25-30% dos dados ficam corrompidos. Dados incorretos podem fornecer informações distorcidas sobre a demografia do cliente e os comportamentos de compra, o que levaria à perda de oportunidades para os profissionais de marketing.
  • A falta de comunicação é um grande desligamento para os clientes. Dados incorretos podem contribuir para a falta de comunicação com os clientes, uma sensação de insatisfação entre eles e até mesmo uma marca negativa nas mídias sociais.

O que é limpeza de dados?

A limpeza de dados ou limpeza de dados é um método de detectar e retificar registros degradados ou imprecisos de um conjunto de registros, tabela ou banco de dados. Refere-se à detecção de partes fragmentadas, incorretas, imprecisas ou não relacionadas dos dados e, em seguida, substituir, modificar ou remover os dados sujos ou brutos.

A limpeza de dados pode ser executada interativamente com soluções de manipulação de dados ou como processamento em lote por script. Após a higienização, um conjunto de dados deve ser coerente com outros conjuntos de dados semelhantes no sistema.

As discrepâncias detectadas ou removidas podem ter sido causadas inicialmente por imprecisões de entrada do usuário, por distorção na transmissão ou armazenamento ou por definições de dicionário de dados diferentes das mesmas entidades em diferentes armazenamentos.

A limpeza de dados difere da autenticação de dados, pois a validação quase invariavelmente significa que os dados são excluídos do sistema na admissão e são obtidos no momento da entrada, e não em conjuntos de dados.

O procedimento real de limpeza de dados pode incluir a remoção de erros tipográficos ou autenticação e correção de valores comparados a uma lista conhecida de objetos. A validação pode ser rigorosa (como recusar qualquer endereço que não tenha um CEP válido) ou difusa (como retificar registros que, em alguma medida, correspondem a contas existentes e conhecidas).

Algumas ferramentas de limpeza de dados limpam os dados por meio de verificação cruzada com um conjunto de dados autenticado. Uma prática típica de limpeza de dados é o aprimoramento de dados, em que os dados são completados com a adição de informações relacionadas, por exemplo, anexando locais a qualquer número de telefone associado a esse endereço.

A limpeza de dados também pode abranger a sincronização (ou normalização) de dados, que é o processo de reunir dados de “formatos de arquivo variáveis, nomenclatura e colunas” e transformá-los em um conjunto de dados coeso; um exemplo simples é uma expansão de siglas.

Como limpar dados?

Dados limpos são a base de pesquisas e insights significativos. Portanto, os executivos de ciência de dados gastam 80% de seu tempo na limpeza e normalização de dados. A limpeza de dados segue várias abordagens.

Auditoria de dados

Auditar os dados usando métodos estatísticos e de banco de dados para detectar anomalias e contradições: isso eventualmente indica as características das peculiaridades e suas localidades.

Várias ferramentas permitem que você postule verificações de vários tipos (usando uma gramática que imita uma codificação padrão como JavaScript ou Visual Basic) e, em seguida, gere um código que examine os dados quanto à violação dessas restrições.

Expliquei o processo abaixo em "especificação de fluxo de trabalho", bem como "execução de fluxo de trabalho". Para usuários que não têm acesso a ferramentas de limpeza de ponta, os sistemas de gerenciamento de banco de dados de microcomputadores, como o MS Access ou o File Maker Pro, também permitirão que você obtenha tais autorizações em uma base de limite por limite, interativamente com pouca ou nenhuma programação necessária em muitos casos.

Especificação do fluxo de trabalho

Tenha um fluxo de trabalho para detecção e remoção de anomalias. Ele começa após o procedimento de auditoria dos dados e é crucial para alcançar o produto final de dados de alta qualidade. A criação de um fluxo de trabalho adequado requer um monitoramento próximo das causas das anomalias e erros nos dados.

Execução do fluxo de trabalho

Nesse estágio, execute o fluxo de trabalho após a conclusão de seu requisito e a confirmação de sua precisão.

A aplicação do fluxo de trabalho deve ser bem organizada, mesmo em grandes conjuntos de dados, o que inevitavelmente representa um trade-off, uma vez que a realização de um processo de limpeza de dados pode ser computacionalmente cara.

Pós-processamento e controle

Depois de concluir o fluxo de trabalho de limpeza, inspecione os resultados para verificar se estão corretos. Ajuste os dados incorretos deixados após a execução do fluxo de trabalho manualmente, se possível.

O resultado é uma nova sequência no procedimento de limpeza de dados em que você audita os dados novamente para permitir a exigência de um fluxo de trabalho adicional para limpar os dados por processamento automático adicional.

limpeza de dados

Uma fonte de dados de melhor qualidade tem a ver com a “Cultura de Qualidade de Dados” e toda organização deve iniciá-la no topo do estabelecimento comercial.

Não é apenas uma questão de executar verificações de validação seguras nas telas de entrada, porque quase não importa quão cuidadosas sejam essas verificações, elas ainda podem ser ignoradas pelos usuários.

Há um guia de nove etapas para estabelecimentos que desejam melhorar a qualidade dos dados:

  • Declare uma garantia de alto nível para uma cultura de qualidade de dados
  • Impulsionar a reengenharia de procedimentos no nível de formulação de políticas
  • Gaste massa para avançar a configuração de entrada de dados
  • Gaste dinheiro para desenvolver a integração de aplicativos
  • Dedique dinheiro para alterar o funcionamento dos processos
  • Apoiar a capacidade de resposta da equipe de ponta a ponta
  • Incentive a colaboração interdepartamental
  • Revelar publicamente a superioridade da qualidade dos dados
  • Meça e avance incessantemente na qualidade dos dados

Outros consistem em:

Análise

para o reconhecimento de erros de sintaxe. Um analisador escolhe se uma sequência de dados é aceitável dentro da especificação de dados permitida. É semelhante à maneira como um analisador trabalha com sintaxes e linguagens.

Transformação de dados

A transformação de dados permite a plotagem dos dados de seu formato determinado no arranjo esperado pelo aplicativo apropriado. Incorpora conversões de valores ou procedimentos de tradução, além de padronizar valores numéricos para seguir os valores mínimo e máximo.

Eliminação duplicada

A detecção de duplicatas precisa de um algoritmo para definir se os dados têm duplicatas da mesma entidade. Normalmente, os dados são organizados por uma chave que aproxima entradas idênticas para uma identificação mais rápida.

Métodos estatísticos

Ao examinar os dados usando os valores de média, desvio padrão, intervalo ou procedimentos de agrupamento, um especialista pode encontrar valores imprevistos e, portanto, incorretos.

Mesmo que a correção de tais dados seja íngreme, uma vez que a denominação real não é conhecida, você pode resolvê-la definindo os valores para uma média ou outro valor estatístico.

Um outro uso de métodos estatísticos tem que lidar com denominações perdidas, que podem ser substituídas por um ou mais valores possíveis, que geralmente são adquiridos por extensos algoritmos de aumento de dados.

Higiene de dados ou qualidade de dados

Os dados para serem processáveis ​​e interpretáveis ​​de forma eficaz e eficiente, devem satisfazer um conjunto de critérios de qualidade. Os dados que atendem a esses critérios de qualidade são considerados de alta qualidade. Em geral, um valor agregado sobre um conjunto de critérios de qualidade é a qualidade dos dados.

Começando com os critérios de qualidade especificados em, descrevemos o conjunto de padrões que são afetados pela limpeza abrangente de dados e definimos como avaliar as pontuações de cada um deles para uma coleta de dados existente.

Para medir a qualidade de uma coleta de dados, avalie as classificações para cada um dos critérios de qualidade.

Usar a avaliação de pontuações para critérios de qualidade pode ser uma forma de quantificar a necessidade de limpeza de dados para coleta de dados, bem como o sucesso de um processo de limpeza de dados realizado em uma coleta de dados.

Você pode usar critérios de qualidade na otimização da limpeza de dados especificando prioridades para cada um dos requisitos, o que, por sua vez, influencia a execução dos métodos de limpeza de dados que afetam as regras específicas.

higiene de dados

Validade

O ponto em que os dados se encaixam nas regras ou restrições de negócios definidas.

  • Restrições de tipo de dados: os valores em uma determinada coluna devem ser de um tipo de dados específico, por exemplo, booleano, numérico, data, etc.
  • Restrições de intervalo: normalmente, números ou datas devem estar dentro de um intervalo específico.
  • Restrições obrigatórias : colunas específicas não podem ficar em branco.
  • Restrições exclusivas: um campo ou uma combinação de áreas deve ser distinto em um conjunto de dados.
  • Restrições Set-Membership : as denominações de uma coluna emanam de um conjunto de valores discretos, por exemplo, valores enum. Por exemplo, o gênero pode ser masculino, feminino ou outros.
  • Restrições de chave estrangeira : como em sistemas de banco de dados relacionais, uma coluna de chave estrangeira deve existir na chave primária referenciada.
  • Padrões de expressão regular: Os campos de texto devem seguir um design específico. Por exemplo, os números de telefone precisam obedecer a um perfil específico (xxx) xxx-xxx.
  • Validação de campo cruzado: configurações específicas que abrangem vários campos devem ser mantidas, por exemplo, a data de alta do paciente do hospital não pode ser anterior ao momento da admissão.

Precisão

O grau em que os dados estão próximos dos valores reais. Embora delinear todos os valores de campo válidos possíveis permita que valores inválidos sejam facilmente identificados, isso não significa que eles sejam precisos.

Um endereço válido pode não existir. UMA   a cor dos olhos da pessoa, digamos, azul, pode estar correta, mas não correta. Uma outra coisa a não esquecer é a diferença entre correção e precisão.

Dizer que você vive no planeta terra é correto. Mas, não preciso. Onde no planeta? Assumir que você mora em um determinado endereço é mais preciso.

Completude

O ponto em que todos os dados necessários são conhecidos e assimilados.

Os dados estarão faltando por várias causas. Pode-se mitigar esse problema questionando a fonte.

As possibilidades são, você vai obter uma resposta diferente ou será difícil de verificar novamente.

Consistência

O grau em que os dados são infalíveis, dentro do conjunto de dados correspondente ou em vários conjuntos de dados semelhantes.

A inconsistência ocorre quando dois valores no conjunto de dados se contrapõem.

Um válido   idade, digamos 10, pode não corresponder ao estado civil, digamos divorciado. Registrar um cliente em duas tabelas diferentes com dois endereços separados é uma inconsistência.

Qual deles é o verdadeiro?

Uniformidade

O grau em que os dados especificados estão utilizando a mesma unidade do medidor.

O peso em libras ou quilos, uma data no formato dos EUA ou formato europeu e a moeda às vezes em USD ou YEN.