混乱数据正在拖累你:常见数据准备问题的 4 种解决方案
如果您曾经进行过数据分析,您就会明白深入挖掘数据的烦恼在于数据结构不佳、不准确或者不完整。您受困于在 Excel 中修复数据或编写复杂的计算,甚至无法对简单的问题作出解答。
数据准备是分析之前准备数据的过程,包括数据发现、数据变换和数据清理任务 - 它是分析工作流的关键部分。《哈佛商业评论》近期的一篇文章指出,人们将 80% 的时间用于数据准备,而分析数据所用的时间仅占 20%。这一统计数据并不仅限于数据管理员角色。数据准备任务已经融入到了分析师甚至非技术业务用户的工作中。
即使是不直接执行数据准备任务的人,也会感受到混乱数据的影响。要从不相互联接的数据中获得可行性见解,需要花费大量的时间和精力,导致临时分析效率低下、组织数据受信任程度降低。这些缓慢的流程最终会导致错失商机并损失收入。事实上,Gartner 的研究表明“糟糕的数据质量会使组织每年平均损失 970 万美元”。
为何会出现混乱数据
各企业正在采取措施,通过建立数据目录和术语表来解决混乱数据这一问题。但即使采取了这些做法,某些混乱数据仍有可能渗透到日常运营中。混乱数据的常见起因包括:
1.人为错误
据 Experian 称,这是造成混乱数据的最常见原因。造成错误的方式可能多种多样,例如数据输入的做法各异,或者员工在电子表格中手动输入值。当进行数据分析时,即使是一个简单的拼写错误也可能会带来挑战。
2.不同的系统
组织通常将数据存储在采用不同结构、要求和聚合的多个系统中。当需要整合这些数据时,分析师需要应对字段重复/缺失或者标签不一致的问题。数据字段或值也可能具有相同的含义,但在不同系统中使用了不同的名称或值。
3.变化的需求
随着业务的发展,数据管理员和工程师需要对数据进行更改 - 更改其粒度、弃用未使用的字段或根据需要引入新字段。这些更改并不总会在整个企业中广泛传达,甚至,在将数据输入到自助式商业智能或数据准备工具之前,分析师可能并不知道这些更改。
4 种常见的数据准备问题及解决方案
01问题:死板、耗时的流程跟不上需求
数据分析师报告称,他们的大部分工作并不是在进行分析,而是在清理和重整数据。这些工作可以通过 ETL 过程,在自助式数据准备工具或电子表格工具(例如 Microsoft Excel)中完成。每当收到新数据时,分析师都需要重复进行手动数据准备任务,调整数据结构并清理数据以进行分析。这最终会导致资源浪费并增加人为错误的风险。
不仅混乱数据令人失望,数据分析师和业务用户甚至可能难以访问其所需数据。传统上,数据准备离不开 IT - 只有某些团队才具有准备新数据源并将其置入集中式数据仓库的能力。不具备此种能力的人员只能在 Excel 等程序中进行数据准备,或者等待其他团队为其进行这些工作。SCAN Health Plan 的 Tableau 开发人员 Cathy Bridges 指出:“当我们需要对数据集进行更改时,可能至少需要几周时间,通常需要几个月。”
解决方案:使用适当的BI工具敏捷开发过程以便提供技术支持
许多企业正在采用自助式数据准备解决方案来进行探索和原型制作,例如艾科思报表工具、tableau、powerbi等等。自助式数据准备工具将权力交给最为了解数据的人员,普及了数据准备过程,减轻了 IT 的负担。任职于一家受欢迎的游戏公司的高级数据分析经理兼架构师 Venkatesh Shivanna 表示:“自助式数据准备工具的附加价值在于每个人都可以成为数据的主人。分析师可以独立完成临时数据清理任务,而不用排队等待。”
如果没有让人们了解到完整的数据准备过程,就无法真正实现数据普及。
流程管理顾问
每个企业都有特定的需求,而“一刀切”式的数据准备方法并不存在,但是在选择自助式数据准备工具时,组织应考虑该工具能否将流程改进为迭代式的敏捷方式,而不为录入工作带来新的障碍。如果能看到数据准备步骤的影响,人们就会更愿意去准备和了解数据。Nationwide Insurance 顾问 Jason Harmer 解释说:“可视化数据准备工作让人们能够看到完整的端到端流程,并在早期发现潜在的信号,例如数据中的拼写错误、多余的空格或不正确的联接子句。这也能增强人们对最终分析的信心。”
02问题:数据准备需要对企业数据有着深入了解
在进行准备数据之前,了解数据的位置、结构、组成以及粒度详细信息(例如字段定义)至关重要。有些人把这个过程称为“数据发现”,它是数据准备的基本要素。您不会在对目的地还没有基本了解时就开始漫长的旅程,同样的逻辑也适用于数据准备。
自助式商业智能的出现及其拖放功能使业务用户能够更轻松地进行数据发现,助其深入了解数据集的现有结构和内容。但是,由于存在信息孤岛,这些用户通常对组织的整体数据环境(包括存在的数据、数据的位置和定义方式)缺乏深入了解。例如,数据定义的混乱可能会阻碍分析或造成更糟的后果 - 导致整个公司得到不准确的分析结果。例如,如果有人想分析客户数据,他们可能会发现营销团队与财务对于“客户”一词的定义不同。
解决方案:为数据定义创建公司标准
通过可视化的自助式数据准备工具,分析师可以更深入地研究数据,以便了解其结构并看出表格之间的关系。分析师能够了解到其数据的概况,因此他们可以轻松发现需要清理的意外值。虽然这项技术让数据更为清晰,但仍然需要公司中其他人的支持,才能了解字段定义等细节。
在公司中进行数据定义标准化的方法之一是创建数据字典。数据字典可帮助分析师了解术语在每个业务应用中的用法,显示与分析相关的字段和严格基于系统的字段。能源公司项目工程师 Brian Davis 称数据字典“极具价值”。
我经常会将会计数据与现场技术人员的数据相合并。定义初始数据以及计算字段有助于实现更准确的分析,并减少确定使用哪个字段或表所花费的时间。
开发数据字典不是一件小事。数据管理员和主题专家需要致力于持续迭代,随需求变更进行检查。如果字典过期,它实际上可能会对您组织的数据策略造成损害。从流程一开始就应该确立沟通方式和所有权,以确定术语表的使用范围以及进行更新和完善的频率。
03问题:“清理数据”是一个视角问题
对于“结构完善”数据的要素,不同的团队有不同的要求和偏好。例如,数据库管理员和数据工程师会优先考虑数据的存储和访问方式,可能会添加数据库(而不是人员)专用的列。构建专用于分析的数据仓库时,工程师会优先考虑能够解答大多数问题的核心业务指标。如果数据分析师需要的信息尚未存在于数据集中,他们可能需要调整聚合或引入外部源。这可能会导致数据中形成孤岛或数据不准确。
SCAN Health Plan 的 Tableau 开发人员 Cathy Bridges 解释说,分析师经常需要重新更新已由其他团队清理过的数据集。“引入额外的列是一个漫长而艰苦的过程。比方说,如果需要对比合计与细分数据,就需要复制数据源,这可能会很痛苦。”
解决方案:将权力交给数据专家
自助式数据准备使分析师能够用适合其分析的方式来修整数据集,从而实现更快速的临时分析,让他们可在问题出现时立即解答。这样也减少了 IT 在每次出现意外问题时进行数据重构的负担。同时,因为其他分析师可以重复使用这些模型,还可以减少重复的工作量。如果数据集可大规模利用,将来可以将它们组合成规范数据集。
数据准备工具应该既能够解决分析师的一次性问题,又能反复利用。当我构建逻辑时,它会保存到某个文件中。下次使用时,我可以重新打开这个文件,重新联接相同的数据源,并从我离开该工作流时的位置继续工作。
04问题:数据准备孤岛的隐藏现实
高级数据准备工具可能会很复杂,这意味着这种功能通常仅限于部分高级用户。但即使分析师和业务用户无法访问数据准备工具,也不代表他们不能在其他应用程序中执行这些任务。自助式商业智能工具为所有技能水平的用户开放了数据分析功能,但为了深入了解自己的数据,这些用户仍需依靠 IT 来获得结构完善的数据。用户不会漫长地等待数据,而会从系统中提取数据并在电子表格中进行数据准备。这样就会生成一个用途单一的新结构数据集,而部门往往毫不知情地重复进行着这项工作。这一过程会导致大量的数据孤岛,它们效率低下、可扩展性差并且难以管理。
甚至即使是不了解“数据准备”这一概念的人,都仍在使用 Excel 等程序进行数据准备。孤岛越多,对数据的解释就越多,我们就越不信任数据
解决方案:在数据准备过程中建立一致和协作
消灭孤岛始于协作。来自 Business Application Research Center (BARC) 的调查研究表明,对数据准备过程最满意的公司是“使数据准备成为 IT 和业务部门之间的共享任务”的公司。
在整个企业中采用自助式数据准备需要用户了解数据的来龙去脉。 由于这些知识历来掌握在 IT 和数据工程角色手中,因此分析师花时间去了解数据中的细微差别(包括粒度以及对数据集进行过的任何转变)尤为重要。针对问题安排定期检查或建立标准化工作流,可以让工程师共享查询和处理有效数据的最新方式,并让分析师能够更快、更有信心地准备数据。