数据分析是一个检查,过滤,转换和建模 数据的过程,目的是发现有用的信息,通知结论和支持决策。数据分析具有多个方面和方法,包括各种名称下的各种技术,同时用于不同的商业,科学和社会科学领域。
数据挖掘是一种特殊的数据分析技术,专注于建模和知识发现,用于预测而非纯粹的描述目的,而商业智能涵盖的数据分析主要依赖于聚合,主要关注业务信息。在统计应用中,数据分析可分为描述性统计,探索性数据分析(EDA)和验证性数据分析(CDA)。EDA专注于发现数据中的新功能,而CDA则专注于确认或伪造现有假设。预测分析侧重于应用统计模型进行预测预测或分类,而文本分析则应用统计,语言和结构技术从文本来源(一种非结构化数据)中提取和分类信息。以上所有都是各种数据分析。
数据集成是数据分析的先驱,和数据分析紧密相连到数据可视化和数据传播。
数据分析过程
分析是指将整体划分为单独的组成部分进行个别检查。数据分析是一个过程,用于获得原始数据并将其转换成用于由用户决策有用的信息。收集和分析数据以回答问题,检验假设或反驳理论。
统计学家John Tukey在1961年将数据分析定义为:“分析数据的程序,解释此类程序结果的技术,规划数据收集的方法,使分析更容易,更精确或更准确,以及所有机器和结果(数学)统计数据适用于分析数据。“
有几个阶段可以区分,如下所述。这些阶段是迭代的,因为来自后期阶段的反馈可能导致早期阶段的额外工作。
数据要求
数据是分析的输入所必需的,这是根据指导分析或客户(谁将使用分析的成品)的要求来指定的。将收集数据的一般实体类型称为实验单元(例如,人或人群)。可以指定和获得关于人口(例如,年龄和收入)的特定变量。数据可以是数字的或分类的(即,数字的文本标签)。
数据收集
数据来自各种来源。分析人员可以将要求传达给数据的保管人,例如组织内的信息技术人员。还可以从环境中的传感器收集数据,例如交通摄像机,卫星,记录设备等。还可以通过访谈,从在线源下载或阅读文档来获得数据。
数据处理
必须处理或组织最初获得的数据以进行分析。例如,这些可能涉及将数据以表格格式(即,结构化数据)放入行和列中以供进一步分析,例如在电子表格或统计软件内。
数据过滤
处理和组织后,数据可能不完整,包含重复项或包含错误。数据过滤的需要将来自输入和存储数据的方式中的问题。数据过滤是预防和纠正这些错误的过程。常见任务包括记录匹配,识别数据的不准确性,现有数据的整体质量,重复数据删除和列分段。这些数据问题也可以通过各种分析技术来识别。例如,对于财务信息,可以将特定变量的总数与被认为可靠的单独公布的数字进行比较。也可以审查高于或低于预定阈值的异常金额。有几种类型的数据过滤取决于数据类型,如电话号码,电子邮件地址,雇主等。异常值检测的定量数据方法可用于摆脱可能错误输入的数据。文本数据拼写检查器可用于减少错误输入的单词数量,但更难判断单词本身是否正确。
探索性数据分析
过滤数据后,即可对其进行分析。分析人员可以应用各种技术(称为探索性数据分析)来开始理解数据中包含的消息。[10]探索过程可能导致额外的数据过滤或对数据的额外请求,因此这些活动本质上可能是迭代的。可以生成描述性统计数据,例如平均值或中值,以帮助理解数据。数据可视化还可用于以图形格式检查数据,以获得关于数据内的消息的额外见解。
建模和算法
可以将数学公式或称为算法的模型应用于数据以识别变量之间的关系,例如相关性或因果关系。一般而言,可以开发模型以基于数据中的其他变量来评估数据中的特定变量,其中一些残余误差取决于模型精度(即,Data = Model + Error)。
推论统计包括测量特定变量之间关系的技术。例如,回归分析可用于模拟广告的变化(自变量X)是否解释了销售的变化(因变量Y)。在数学术语中,Y(销售额)是X(广告)的函数。它可以被描述为Y = aX + b +误差,其中模型被设计成当模型针对给定的X值范围预测Y时a和b最小化误差。分析师可以尝试构建描述的模型。数据,以简化分析和沟通结果。
数据产品
数据产品是一种计算机应用程序,它接收数据输入并生成输出,将它们反馈到环境中。它可以基于模型或算法。一个示例是一个应用程序,它分析有关客户购买历史的数据,并推荐客户可能喜欢的其他购买。
沟通
分析数据后,可以以多种格式向分析用户报告,以支持其要求。用户可能有反馈,这导致额外的分析。因此,大部分分析周期都是迭代的。
在确定如何传达结果时,分析师可能会考虑数据可视化技术,以帮助清楚有效地将信息传达给受众。数据可视化使用信息显示(例如表格和图表)来帮助传达数据中包含的关键消息。表格对于可能查找特定数字的用户很有帮助,而图表(例如条形图或折线图)可能有助于解释数据中包含的定量消息。
定量消息
八种类型的定量消息,用户可能会尝试从一组数据中理解或传达这些消息,以及用于帮助传达消息的相关图形。指定需求的客户和执行数据分析的分析人员可能会在流程中考虑这些消息。
时间序列:在一段时间内捕获单个变量,例如10年期间的失业率。折线图可以用于表明的趋势。
排名:分类细分按升序或降序排列,例如销售人员(类别,每个销售人员为分类细分)在单个期间内的销售业绩(度量)排名。一个柱状图可以用来显示整个销售人员的比较。
部分到整体:分类细分是以整体的比例来衡量的(即100%中的百分比)。饼图或条形图可以显示比率,如通过在市场上的竞争对手表示的市场份额的比较。
偏差:将分类细分与参考进行比较,例如在给定时间段内企业的多个部门的实际费用与预算费用的比较。条形图可以显示实际与参考量的比较。
频率分布:显示给定时间间隔内特定变量的观测数量,例如股票市场回报在0-10%,11-20%等区间之间的年数。直方图,类型条形图,可用于此分析。
相关性:由两个变量(X,Y)表示的观察值之间的比较,以确定它们是否倾向于在相同或相反的方向上移动。例如,绘制几个月样本的失业率(X)和通货膨胀率(Y)。散点图通常用于此消息。
标称比较:比较不按特定顺序的分类细分,例如按产品代码的销售量。条形图可用于此比较。
地理或地理空间:地图或布局中变量的比较,例如各州的失业率或建筑物各层的人数。地图是使用的典型图形。
数据分析是“广泛使用数据,统计和定量分析,解释和预测模型,以及基于事实的管理来推动决策和行动。” 它是商业智能的一个子集,它是一组使用数据来理解和分析业务性能的技术和流程。