数据仓库Hive vs 及时分析系统Impala

一、什么是Hive?

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行。Hive支持HSQL，是一种类SQL。

也由于这种机制导致Hive最大的缺点是慢。MapReduce调度本身只适合批量，长周期任务，类似查询这种要求短平快的业务，代价太高。

二、什么是Impala?

Impala是用于处理存储在Hadoop集群中的大量数据的MPP(大规模并行处理)SQL查询引擎。它是一个用C++和Java编写的开源软件。与其他Hadoop的SQL引擎相比，它提供了高性能和低延迟。

换句话说，Impala是性能最高的SQL引擎(提供类似RDBMS的体验)，它提供了访问存储在Hadoop分布式文件系统中的数据的最快方法。

三、Hive vs Impala

Impala与Hive都是构建在Hadoop之上的数据查询工具，各有不同的侧重适应面，但从客户端使用来看Impala与Hive有很多的共同之处，如数据表元数据、ODBC/JDBC驱动、SQL语法、灵活的文件格式、存储资源池等。Impala与Hive在Hadoop中的关系如下图所示。

物理服务器和大宽服务器怎么选