大数据的行业术语你不可不看

1.算法。“算法”如何与大数据相关?即使算法是一个通用术语,但大数据分析使其在当代更受青睐和流行。

2.分析。年末你可能会收到一份来自信用卡公司寄来的包含了全年所有交易记录的年终报表。如果你有兴趣进一步分析自己在食物、衣服、娱乐等方面具体花费占比呢?那你便是在做“分析”了。你正从一堆原始数据中来吸取经验,以帮助自己为来年的消费做出决策。如果你正在针对整个城市人群对Twitter或Facebook的帖子做同样的练习呢?那我们便是在讨论大数据分析了。大数据分析的实质是利用大量数据来进行推断和讲故事。大数据分析有3种不同到的类型,接下来便继续本话题进行依次讨论。

3.描述性分析。刚刚如果你告诉我,去年你的信用卡消费在食物上花费了25%、在服装上花费了35%、娱乐活动上花费了20%、剩下的就是杂七杂八的事项,这种便是描述性分析。当然你还可以参考更多的细节。

4.预测分析。如果你根据过去5年的信用卡历史记录来进行分析,并且划分具有一定的连续性,则你可以高概率预测明年将与过去几年相差无几。此处需要注意的细节是,这并不是“预测未来”,而是未来可能会发生的“概率”。在大数据预测分析中,数据科学家可能会使用类似机器学习、高级的统计过程(后文将对这些术语进行介绍)等先进的技术去预测天气、经济变化等。

5.规范分析。沿用信用卡交易的案例,你可能想要找出哪方面的支出(级食品、服装、娱乐等)对自己的整体支出产生巨大的影响。规范分析建立在预测分析的基础之上,包含了“行动”记录(例如减少食品、服装、娱乐支出),并分析所得结果来“规定”***类别以减少总体支出。你可以尝试将其发散到大数据,并设想高管们如何通过查看各种行动的影响来做出数据驱动的决策。

6.批处理。虽然批量数据处理在大型机时代就早已出现,但大数据交给它更多大数据集处理,因此赋予了批处理更多的意义。对于一段时间内收集到的一组事务,批量数据处理为处理大量数据提供了一种有效的方法。后文将介绍的Hadoop便是专注于批量数据处理。

7. Cassandra是由Apache Software Foundation管理的一款流行的开源数据库管理系统。很多大数据技术都归功于Apache,其中Cassandra的设计初衷便是处理跨分布式服务器的大量数据。

8. 云计算。显而易见云计算已经变得无所不在,所以本文可能无须赘述,但为了文章的完整性还是佐以介绍。云计算的本质是在远程服务器上运行的软件和(/或)数据托管,并允许从互联网上的任何地方进行访问。

9. 集群计算。它是一种利用多台服务器的汇集资源的“集群”来进行计算的奇特方式。在了解了更多技术之后,我们可能还会讨论节点、集群管理层、负载平衡和并行处理等。

10. 黑暗数据。依我看来,这个词适用于那些吓得六神无主的高级管理层们。从根本上来说,黑暗数据是指那些被企业收集和处理但又不用于任何有意义用途的数据,因此描述它是“黑暗的”,它们可能永远被埋没。它们可能是社交网络信息流、呼叫中心日志、会议笔记,诸如此类。人们做出了诸多估计,在60-90%的所有企业数据都可能是“黑暗数据”,但无人真正知晓。

【声明】:芜湖站长网内容转载自互联网,其相关言论仅代表作者个人观点绝非权威,不代表本站立场。如您发现内容存在版权问题,请提交相关链接至邮箱:bqsm@foxmail.com,我们将及时予以处理。

相关文章