塑造一套成功大数据基础设施需要遵循的七项要诀

大数据不仅是Hadoop

在大多数人的理解当中，大数据与Hadoop几乎可以等而论之。事实上，大数据远不止Hadoop这么简单。Hadoop是一套文件系统(而非数据库)，其负责将数据传播至成百上千个处理节点当中。其之所以在大数据应用中广泛出现，是因为作为文件系统，它能够很好地处理非结构化数据——甚至包括一些看起来根本不算是数据的素材。Hive与Impala将数据库引入Hadoop

下面聊聊大数据世界中结构化数据部分的对应数据库选项。如果大家希望以明确次序管理Hadoop数据平台，那么Hive应是最佳选项。这是一款基础性结构工具，允许大家在非SQL Hadoop当中执行SQL类操作。

如果大家的一部分数据能够轻松旋转在结构化数据库当中，那么Impala则更为合适——除了自身功能外，它还能够直接利用您已经开发出的Hive命令。Hadoop、Hive与Impala皆属于Apache项目，因此其全部为开源成果——请随意使用。Spark用于处理大数据

截至目前，我们已经探讨了数据的存储与整理。然而，我们该如何对数据进行实际操作?这代表着我们需要一套分析与处理引擎，例如Spark。Spark亦属于Apache项目，能够将您的大批量数据整理为湖、仓储乃至数据库并进行实用性处理。

Spark亦可用于处理存储在任意位置的各类数据，因为丰富的库选项使其拥有了极为广泛的访问能力。另外，由于其属于开源项目，因此大家能够随意修改其核心内容。可以立足大数据执行SQL操作

很多朋友可能非常熟悉SQL数据库构建与SQL查询编写工作。这方面专业知识在大数据领域同样拥有用武之地。Presto是一套开源SQL查询引擎，允许数据科学家利用SQL查询以检索从Hive到专有商用数据库等各类数据库系统。Facebook等巨头级企业都在利用其进行交互查询，因此我们基本可以将Presto视为一套理想的大规模数据集交互式查询工具。

相关文章

物理服务器和大宽服务器怎么选

租用云服务器的注意事项的关键点

大数据如何实时拯救生命：车联网的数据分析有助预防交通事故

物理服务器对ai发展的应用

又一数据处理神器，通过GPU加速Pandas性能！

极光大数据社交狂欢背后，集体孤独