分布式搜索分析引擎Elasticsearch实现亿万级搜索的隐私

最初我们使用 ES 于日志实时分析场景,典型日志如下:
 
运营日志,比如慢日志、异常日志,用来定位业务问题;
 
业务日志,比如用户的点击、访问日志,可以用来分析用户行为;
 
审计日志,可以用于安全分析。ES 很完美的解决了日志实时分析的需求,它具有如下特点:
 
Elastic 生态提供了完整的日志解决方案,任何一个开发、运维同学使用成熟组件,通过简单部署,即可搭建起一个完整的日志实时分析服务。
 
在 Elastic 生态中,日志从产生到可访问一般在 10s 级。相比于传统大数据解决方案的几十分钟、小时级,时效性非常高。
 
由于支持倒排索引、列存储等数据结构,ES 提供非常灵活的搜索分析能力。
 
支持交互式分析,即使在万亿级日志的情况下,ES 搜索响应时间也是秒级。
 
日志是互联网行业最基础、最广泛的数据形式,ES 非常完美的解决了日志实时分析场景,这也是近几年 ES 快速发展的一个重要原因。第二类使用场景是搜索服务,典型场景包含:商品搜索,类似京东、淘宝、拼多多中的商品搜索;APP 搜索,支持应用商店里的应用搜索;站内搜索,支持论坛、在线文档等搜索功能。我们支持了大量搜索服务,它们主要有以下特点:
 
高性能:单个服务最大达到 10w+ QPS,平响 20ms~,P95 延时小于 100ms。
 
强相关:搜索体验主要取决于搜索结果是否高度匹配用户意图,需要通过正确率、召回率等指标进行评估。
 
高可用:搜索场景通常要求 4 个 9 的可用性,支持单机房故障容灾。任何一个电商服务,如淘宝、京东、拼多多,只要故障一个小时就可以上头条。
 
第三类使用场景是时序数据分析,典型的时序数据包含:Metrics,即传统的服务器监控;APM,应用性能监控;物联网数据,智能硬件、工业物联网等产生的传感器数据。这类场景腾讯很早就开始探索,在这方面积累了非常丰富的经验。这类场景具有以下特点:
 
高并发写入:线上单集群最大规模达到 600+节点、1000w/s 的写入吞吐。
 
高查询性能:要求单条曲线 或者单个时间线的查询延时在 10ms~。
 
多维分析:要求灵活、多维度的统计分析能力,比如我们在查看监控的时候,可以按照地域、业务模块等灵活的进行统计分析。
【声明】:芜湖站长网内容转载自互联网,其相关言论仅代表作者个人观点绝非权威,不代表本站立场。如您发现内容存在版权问题,请提交相关链接至邮箱:bqsm@foxmail.com,我们将及时予以处理。

相关文章