生态体系正在成熟仍有大量创新

与此同时，在初创企业 / 供应商这一块，(2009 至 2013年间成立的那批大数据公司现在已经融了数轮的资金，企业规模已经得到了扩大，并且从早期部署的成功或失败中学到了东西，现在他们已经能够提供更成熟的、经受过考验的产品了。少数一些已经成为了上市公司(包括 2015年上市的 HortonWorks 和 New Relic)，而有的(比如 Cloudera、MongoDB 等)融资已经达上亿美元了。

这个领域的 VC 融资活动仍然很有生气，2016年的前几周我们见证好几轮相当可观的后期阶段大数据融资事件：DataDog(9400 万美元)，BloomReach(5600 万美元)，Qubole(3000 万美元)，PlaceIQ(2500 万美元)等。2015年大数据初创企业拿到的融资额达到了 66.4 亿美元，占整个技术 VC 总融资额额 11%。

并购活动则开展得中规中矩(自从上一版大数据版图发布以来完成了 34 项并购，具体可参见附注)

随着该领域的创业活动持续进行以及资金的不断流入，加上适度的少量退出，以及越来越活跃的技术巨头(尤其是 Amazon、Google、IBM)，使得这个领域的公司日益增多，然后汇成了这幅 2018版的大数据版图。

显然这张图已经很挤了，而且还有很多都没办法列进去(关于我们的方法论可以参见附注)

在基本趋势方面，行动开始慢慢从左转到右(即创新、推出新产品和新公司)，从基础设施层(开发者 / 工程师的世界)转移到分析层(数据科学家和分析师的世界)乃至应用层(商业用户和消费者的世界)，“大数据原生应用” 已经在迅速冒头—这多少符合了我们原先的一些预期。

Google 关于 MapReduce 和 BigTable 的论文(Cutting 和 MikeCafarella 因为这个而做出了 Hadoop)的诞生问世已有 10年了，在这段时间里，大数据的基础设施层已经逐渐成熟，一些关键问题也得到了解决。

但是，基础设施领域的创新仍然富有活力，这很大程度上是得益于可观的开源活动规模。

2016年无疑是 Apache Spark 之年。自我们发布上一版大数据版图以来，这个利用了内存处理的开源框架就开始引发众多讨论。自那以后，Spark 受到了从 IBM 到 Cloudera 的各式玩家的拥护，让它获得了可观的信任度。Spark 的出现是很有意义的，因为它解决了一些导致 Hadoop 采用放缓的关键问题：Spark 速度变快了很多(基准测试表明 Spark 比 Hadoop 的 MapReduce 快 10 到 100 倍)，更容易编程，并且跟机器学习能够很好地搭配。

除了 Spark 以外，还出现了其他的一些令人兴奋的框架，比如 Flink、Ignite、Samza、Kudu 等，这些框架的发展势头也很好。一些人认为，Mesos(数据中心资源管理系统，把数据中心当作一台大计算资源池进行编程)的出现也刺激了对 Hadoop 的需求。

即便在数据库的世界里，新兴的玩家似乎也越来越多。多到市场已经难以承受的地步，这里发生了很多令人兴奋的事情，从图形数据库(如 Neo4j )的成熟，到专门数据库的推出(如统计时序数据库 InfluxDB)，乃至于 CockroachDB 的出现(受 Google Spanner 灵感启发诞生的融合了 SQL 与 NoSQL 长处的新型数据库)。数据仓库也在演变(如云数据仓库 Snowflake)。

相关文章

物理服务器和大宽服务器怎么选

租用云服务器的注意事项的关键点

大数据如何实时拯救生命：车联网的数据分析有助预防交通事故

物理服务器对ai发展的应用

又一数据处理神器，通过GPU加速Pandas性能！

极光大数据社交狂欢背后，集体孤独