数据分析和数据科学之间的差异通常被视为时间尺度的差异。数据分析描述现实的当前或历史状态,而数据科学则使用这些数据来预测或理解未来。
(3)数据分析vs.业务分析
业务分析是数据分析的另一个子集。业务分析使用数据分析技术,包括数据挖掘、统计分析和预测建模,以推动更好的业务决策。调研机构Gartner公司将业务分析定义为“用于构建分析模型和模拟以创建场景、了解现实和预测未来状态的解决方案。”
数据分析的类型
以下有四种分析类型:
(1)描述性分析:发生了什么,现在正在发生什么?描述性分析通过识别趋势和模式,使用来自多个来源的历史和当前数据来描述当前状态。而在业务分析中,这是商业智能(BI)发挥的作用。
(2)诊断分析:为什么会发生?诊断分析使用数据(通常通过描述性分析生成)来发现性能的因素或原因。
(3)预测分析:将来可能会发生什么?预测分析将统计建模、预测和机器学习等技术应用于描述性和诊断分析的输出,以对未来结果进行预测。预测分析通常被认为是一种“高级分析”,通常依赖于机器学习或深度学习。
(4)规范分析:需要做什么?规范分析是一种高级分析,涉及测试和其他技术的应用,以推荐可提供预期结果的特定解决方案。在业务中,预测分析使用机器学习、业务规则和算法。
数据分析方法和技术
数据分析人员使用多种方法和技术来分析数据。CareerFoundry执行编辑Emily Stevens指出了最受欢迎的七个类别,其中包括:
(1)回归分析:回归分析是一组统计过程,用于估计变量之间的关系,以确定一个或多个变量的变化如何影响另一个变量。例如,社交媒体的支出如何影响销售?
(2)蒙特卡罗模拟:蒙特卡罗模拟用于模拟由于随机变量的干预而不易预测的过程中不同结果的概率。它经常用于风险分析。
(3)因子分析:因子分析是一种统计方法,用于获取大量数据集,并将其缩减为更小、更易于管理的数据集。这有一个额外的好处,就是经常发现隐藏的模式。在业务环境中,因子分析通常用于探索诸如客户忠诚度之类的东西。
(4)队列分析:队列分析用于将数据集分解为具有共同特征的组或队列进行分析。这通常用于了解客户细分。
(5)聚类分析:Statistics Solutions公司将聚类分析定义为“用于将对象或案例分类为称为聚类的相对组的一类技术。”它可以用来揭示数据中的结构。例如,保险公司可以使用聚类分析来研究为什么某些地点与特定的保险索赔相关联。