对话Hadoop之父Doug Cutting:Spark与Hadoop互补互助

Hadoop已成为非常安全的平台
 
当今时代,社交媒体、网络、移动定位等诸多技术的广泛应用使得数据急速增长。Hadoop作为大数据利器,一直被大肆宣传。忆往昔,Hadoop为搜索引擎建立的网页索引,并不是处理信用卡号,所以其安全问题被搁置。如此一来,许多企业对其态度也从原来的浅尝辄止变成了望而却步。
 
关于安全方面,Doug Cutting指出,在Hadoop创立的时候是没有做安全这块的,但是我们后来不断的加强对安全模块的研发,现在Hadoop也成为了非常安全的平台。在安全方面有:身份识别—保登录的人群是被合法认证的;用户授权—控制用户能够读取的信息;审计—提供满足监管需求的文档支持,查看是否有违规操作静态数据以及动态数据的加密。
 
Spark与Hadoop相辅相成、互补共生
 
Hadoop主要包括三方面的功能:以HDFS为主的存储功能,以MapReduce为代表的Batch处理功能以及以YARN为代表的scheduling功能。
 
说到Hadoop自然而然会让人联想到Spark,作为实时处理工具Spark在batch processing和streaming代表着下一代技术,并且在某些方面优于MapReduce。那么,假以时日Spark会不会有取代Hadoop的可能,Doug Cutting给出的答案当然是否定的:“我觉得Spark不可能取代Hadoop,它能够取代部分Hadoop的功能,比如说取代MapReduce,二者之间更多的是互补的关系而不是竞争的关系。在存储和scheduling不可能取代Hadoop,Hadoop在batch或streaming处理方面比Spark更强大;在搜索方面很多又是Spark搜不到的,所以Spark只是相当于开源集群计算的框架,它并不能完全取代Hadoop。Cloudera不光是支持Hadoop,也支持Spark,我们是Hadoop+Spark这样的公司。”
 
Cloudera现在参与的项目有20多个,包括Hadoop、Spark、HBace等生态系统内的项目,也拥有超过100个对于技术和系统都非常资深的技术开发者。其实用户特别希望开源社区以开源形式开发软件,开源社区要进一步发展需要这些厂商来提供支持。作为开源厂商,到底是不是一个商业模式放之四海皆准,现在整个行业都在探索这个问题。Doug Cutting指出:“Cloudera的核心平台是开源的,但是我们可以卖一些加载在核心平台上的软件,这种软件可以让客户更好的管理他的数据,更多地对管理工具进行优化,包括优化、监控数据的管理工具,以收费的方式可以进行出售,我相信是比较成功的。”
 
中国企业为整个Hadoop的开源社区做了大量的贡献
 
Doug Cutting不仅任职于Cloudera,同时也是Apache软件基金会的理事。在基金会里,有很多企业参与Hadoop的研发,整个Hadoop版本发布速度非常快。当然,这其中的也不乏来自中国的代码贡献者,Doug Cutting表示:“中国的企业为整个Hadoop的开源社区做了大量的贡献,例如华为、阿里巴巴、腾讯等企业不但是Hadoop的使用者,同时也是Hadoop技术的贡献者。”目前,90%的Hadoop软件运行于Hadoop系统平台上,其中很多软件都是基于Hadoop平台之外的开发。Doug Cutting强调:“在整个生态系统环境内我们会打造一个非常丰富的生态系统,让更多的参与者能够进行开发。”
【声明】:芜湖站长网内容转载自互联网,其相关言论仅代表作者个人观点绝非权威,不代表本站立场。如您发现内容存在版权问题,请提交相关链接至邮箱:bqsm@foxmail.com,我们将及时予以处理。

相关文章