如今,云计算的热潮似乎还没散去,行业厂商就已经开始关注下一个热点:大数据。而与以往的炒作周期一样,现在的大数据对于用户来说其来源比较混乱,因为供应商提出了自己独特的,并且经常相互矛盾的定义和术语。
大数据定义之所以混乱的最常见的原因,是人们将大数据存储与大数据分析的结果混为一谈。“大数据”一词起源于开源社区,其开发和分析过程比传统的数据仓库速度更快,扩展性更强,并且可以通过网络在用户每天产生的大量非结构化数据中提取价值。
大数据的存储是相关的,其旨在解决大量的非结构化数据,助长企业级的数据增长。而扩展NAS和对象存储这些技术支撑大数据存储,已经存在了多年,并且人们对此有着充分的了解。
在一个非常简单的层面上,大数据存储无非是存储用于产生大量的非结构化数据的应用程序处理的大量数据。这包括高清晰度视频流,油气勘探,基因组学等数据。
一个大型存储厂商的一位营销高管表示,其公司正在考虑将“海量数据”作为其大数据存储条目的名称。
大数据分析是比较紧急的和多方面的,但IT人员对其理解较少。大数据分析发展过程在历史上一直受到网络的推动。然而,大数据分析的应用程序正在发生在所有主要垂直行业领域,现在的快速增长是一个增长的机会,值得所有供应商进行炒作。
大数据分析是快速增长的多样化的区域。因此,试图确定它有什么用可能是无益的。但是,可以识别和鉴定大数据分析的技术特征和共同点。这些包括:
·在可扩展性方面,传统的数据仓库处理速度太慢,而且有限制;
·融合来自多个数据源的数据的能力,其中包括结构化和非结构化的数据;
·从数据来源获取信息是至关重要的,其中包括越来越多的移动设备、无线射频识别技术、网络,以及自动化技术。
此外,在多样性大数据分析中可以找到至少四个主要发展片段。这些片段是MapReduce,可扩展的数据库,实时流处理和大数据应用。