数据剖析:数据科学的第一步
2012年,美国前首席数据分析师DJ Patil和巴布森学院教授Thomson H. Davenport宣称,数据分析师的工作将是“21世纪最性感的工作”。虽然这可能是真的,但大多数据分析师都花费了他们一天中的大部分时间进行数据清洗和准备,这是在工作中他们最不喜欢的部分。
这对业务和数据科学专业人员都不利。合格的数据分析师是罕见且昂贵的,企业浪费资源,当数据分析师被迫在有时被称为“ 看门人工作 ”的时间上花费过多时间时,会让人感到疲惫。因此,整个生态系统的出现或转移他们的专注于尝试自动完成这项工作。虽然这些很重要,但没有任何软件可以取代成熟的数据分析程序。
在高层次上,“数据概要分析”是指从特定来源收集数据摘要和统计数据的过程 - 将其视为一种数据“审计”。虽然追求数据概要分析的原因各不相同,但通常都是这样做的作为总体数据治理战略的一部分,以便发现数据集中的错误和不一致。最终目标是发现输入或处理数据的方式不正确,以便纠正它们。
您可能已经听过“垃圾输入,垃圾输出”这一概念,这在数据科学中与在任何地方一样真实。如果您正在矫正不良数据,那么模型的强大程度无关紧要。虽然您始终可以手动梳理数据集中的每个值以确保其完整性,但从长远来看,这不是可扩展的解决方案。相反,利用数据分析作为发现手段非常重要。
关于如何入门有两种思路:手动和自动分析。手动分析的过程是大多数人入门的过程。它本质上是一个“嗅探测试”,需要一定程度的知识,了解您的数据“应该”是什么样的,以及您的个人资料是否大致映射回预期。例如,在查看数值数据类型的值分布时,最小值/最大值/平均值/平均值/中值是多少?最常见的是什么?90%的潜在客户在拥有5,000名或更多员工的组织中工作是否有意义?
自动化分析是我之前提到的一些工具发挥作用的地方。这种分析通常通过从外部供应商处获得的软件来完成。我们的想法是主动识别可能无法通过经验丰富的数据分析师注意到的异常情况。
作为多年的从业者,我可以告诉你,数据质量问题的解决方案通常不会很难。罪魁祸首通常是数据输入期间的用户错误,这导致数据库级别的不清洁数据。
但是,无论其来源如何,您都可能需要从业务和IT的利益相关者那里获得解决这些问题的支持。通过为其他利益相关者提供持续问题的明确证据及其对业务和IT运营的潜在影响,数据分析将被证明是您最好的朋友。您可以作为一个团队审查关键问题,并确定应该采取哪些措施来减少将来的错误。通过最终授权您在源头解决不清洁数据的问题,从长远来看,Data Profiling将为您节省大量时间和心痛。