什么是数据清洗?

已发表: 2021-11-18

很久以前,企业已经认识到数据在了解客户和制定战略决策以提高投资回报率方面的重要性。

然而,在争相推出定制产品和解决方案的过程中,有关数据质量的关键事实被搁置一旁,从而导致不正确的分析推断和代价高昂的业务决策。

Gartner 表示:“数据质量差对组织的平均财务影响为每年 970 万美元。” 您可以通过确保准确的数据入口点、有效的数据合并、数据标准化和数据清理方法来提高数据质量。

数据清理和丰富技术的实际应用可以通过开发自定义工具(蜘蛛、机器人和脚本)和手动流程来帮助创建、验证、更新、增强和增强业务关键数据。

以下是不良数据的一些影响:

  • Ovum Research 报告称,糟糕的数据质量使企业损失了至少 30% 的收入。
  • 不正确的销售数据会促使销售人员将时间浪费在无效的潜在客户上。 不准确的数据可能会导致业务转向偏斜的策略。
  • MarketingSherpa 指出,每年有 25-30% 的数据损坏。 不良数据可能会提供有关客户人口统计和购买行为的扭曲信息,这将导致营销人员错失机会。
  • 沟通不畅对客户来说是一个巨大的障碍。 不良数据可能会导致与客户的沟通不畅、客户不满意,甚至会在社交媒体上造成负面品牌影响。

什么是数据清洗?

数据清理或数据清理是一种从记录集、表或数据库中发现和纠正低劣或不准确记录的方法。 它是指检测数据中零碎的、不正确的、不精确的或不相关的部分,然后替换、修改或删除脏数据或粗糙数据。

数据清理可以与数据整理解决方案交互执行,也可以通过脚本进行批处理。 清理后,数据集应与系统中的其他类似数据集保持一致。

检测或消除的差异最初可能是由用户输入不准确、传输或存储失真或不同商店中相同实体的不同数据字典定义引起的。

数据清理与数据验证的不同之处在于,验证几乎不变地意味着数据在准入时被排除在系统之外,并且是在输入时完成的,而不是在数据集上完成的。

与已知对象列表相比,数据清理的实际过程可能包括消除印刷错误或验证和更正值。 验证可能很严格(例如拒绝任何没有有效邮政编码的地址)或模糊(例如更正在某些方面与现有已知帐户匹配的记录)。

一些数据清理工具将通过与经过身份验证的数据集进行交叉检查来清理数据。 典型的数据清理实践是数据增强,通过添加相关信息使数据变得完整——例如,将位置附加到与该地址关联的任何电话号码。

数据清理还可能包括数据的同步(或规范化),这是将“可变文件格式、命名法和列”的数据收集在一起并将其更改为一个有凝聚力的数据集的过程; 一个简单的例子是首字母缩略词的扩展。

如何清理数据?

干净的数据是重要研究和见解的基础。 因此,数据科学高管将 80% 的时间用于数据清理和规范化。 数据清理遵循各种方法。

数据审计

使用统计和数据库方法对数据进行审计,以检测异常和矛盾:这最终表明了特殊性及其位置的特征。

有几个工具可以让您假设各种检查(使用模仿 JavaScript 或 Visual Basic 等标准编码的语法),然后生成检查数据是否违反这些约束的代码。

我已经在“工作流程规范”以及“工作流程执行”中解释了以下过程。 对于无法使用高端清理工具的用户,微机数据库管理系统(如 MS Access 或 File Maker Pro)也可以让您在多个限制的基础上实现此类授权,在许多情况下只需轻量级或无需编程即可交互案例。

工作流程规范

有一个检测和消除异常的工作流程。 它在审计数据过程之后开始,对于完成高质量数据的最终产品至关重要。 创建适当的工作流程需要密切监视数据中异常和错误的原因。

工作流程执行

在这个阶段,在其需求完成并确认其准确性后执行工作流。

工作流的应用应该组织良好,即使在大量数据上也是如此,由于执行数据清理过程的计算成本很高,这不可避免地会造成权衡。

后处理和控制

完成清理工作流程后,检查结果以验证正确性。 如果可以的话,手动调整工作流执行后留下的不正确数据。

结果是数据清理过程中的一个新序列,您可以在其中再次审核数据,以允许需要额外的工作流通过进一步的自动处理来清理数据。

数据清洗

更好质量的源数据与“数据质量文化”有关,每个组织都必须在业务机构的顶层启动它。

这不仅仅是在输入屏幕上执行安全验证检查的问题,因为几乎无论这些检查多么小心,它们通常仍然可以被用户绕过。

对于希望提高数据质量的机构,有一个九步指南:

  • 声明对数据质量文化的高水平保证
  • 在决策层推动流程再造
  • 花面子推进数据录入设置
  • 花钱开发应用集成
  • 投入资金来改变流程的运作方式
  • 支持端到端的团队响应能力
  • 鼓励跨部门合作
  • 公开揭示数据质量优势
  • 不断衡量和提高数据质量

其他包括:

解析

用于识别语法错误。 解析器选择在允许的数据规范内是否可以接受数据字符串。 它类似于解析器处理语法和语言的方式。

数据转换

数据转换允许将数据从其给定格式绘制成适当应用程序所期望的排列。 它包含值转换或转换过程,以及标准化数值以遵循最小值和最大值。

重复消除

重复检测需要一种算法来定义数据是否具有相同实体的重复项。 通常,数据由一个键排列,这将使相同的条目更接近以便更快地识别。

统计方法

通过使用平均值、标准差、范围或聚类程序的值检查数据,专家可以发现未预料到的值,因此是不正确的。

尽管由于实际面额未知,因此此类数据的校正非常陡峭,但是,您可以通过将值设置为平均值或其他统计值来解决它。

统计方法的另一种用途必须处理丢失的面额,可以用一个或多个可能的值代替,这些值通常通过广泛的数据增强算法获得。

数据卫生或数据质量

数据要能够有效和高效地处理和解释,它必须满足一组质量标准。 符合这些质量标准的数据被认为是高质量的。 通常,一组质量标准的聚合值就是数据质量。

从中指定的质量标准开始,我们描述了受全面数据清理影响的一组标准,并定义了如何评估现有数据收集中每个标准的分数。

要衡量数据收集的质量,请评估每个质量标准的评级。

使用质量标准的分数评估可以量化数据收集的数据清理的必要性以及对数据收集执行的数据清理过程的成功。

您可以通过为每个需求指定优先级来在数据清理优化中使用质量标准,这反过来会影响影响特定规则的数据清理方法的执行。

数据卫生

有效性

数据适合定义的业务规则或约束的点。

  • 数据类型约束:特定列中的值必须是特定数据类型,例如布尔、数字、日期等。
  • 范围约束:通常,数字或日期应在特定范围内。
  • 强制约束特定列不能为空。
  • 独特的约束:一个字段或多个区域的混合,在数据集中必须是独特的。
  • 集合成员约束列的名称源自一组离散值,例如枚举值。 例如,性别可以是男性、女性或其他。
  • 外键约束与关系数据库系统一样,外键列应该存在于引用的主键中。
  • 正则表达式模式:文本字段应遵循特定设计。 例如,电话号码需要服从特定的配置文件 (xxx) xxx-xxx。
  • 跨领域验证:跨越多个领域的特定设置必须保持,例如,患者的出院日期不能早于入院时间。

准确性

数据接近实际值的程度。 虽然概述所有可能的有效字段值可以很容易地发现无效值,但这并不意味着它们是准确的。

可能不存在有效的街道地址。 一个  人的眼睛颜色,比如蓝色,可能是正确的,但不是正确的。 另一件不要忘记的事情是正确性和精确性之间的区别。

说你住在地球上是正确的。 但是,不精确。 地球上的什么地方? 假设您住在特定的街道地址更准确。

完整性

所有需要的数据都被知道和吸收到的点。

由于各种原因,数据将丢失。 可以通过质疑来源来缓解这个问题。

可能性是,您要么会得到不同的答案,要么将难以再次确定。

一致性

数据在匹配数据集中或跨多个相似数据集的可靠程度。

当数据集中的两个值相互矛盾时,就会发生不一致。

一个有效的  年龄,比如 10 岁,可能与婚姻状况不匹配,比如离婚。 在具有两个不同地址的两个不同表中记录客户是不一致的。

哪一个是真的?

均匀度

指定的数据在何种程度上使用了相同的仪表单位。

以磅或公斤为单位的重量,以美国格式或欧洲格式表示的日期,以及有时以美元或日元表示的货币。