常见线上故障的优秀方法，运维老司机也不一定能懂

故障一：JVM频繁FULL GC快速排查

在分享此案例前，先聊聊哪些场景会导致频繁Full GC：

内存泄漏（代码有问题，对象引用没及时释放，导致对象不能及时回收）。
死循环。
大对象。

尤其是大对象，80%以上的情况就是他。

那么大对象从哪里来的呢？

数据库（包括MySQL和MongoDB等NoSQL数据库），结果集太大。
第三方接口传输的大对象。
消息队列，消息太大。

根据多年一线互联网经验，绝大部分情况是数据库大结果集导致。

好，现在我们开始介绍这次线上故障：

在没有任何发布的情况下，POP服务（接入第三方商家的服务）突然开始疯狂Full GC，观察堆内存监控没内存泄漏，回滚到前一版本，问题仍然存在，尴尬了！！！

按照常规做法，一般先用jmap导出堆内存快照（jmap -dump:format=b,file=文件名 [pid]），然后用mat等工具分析出什么对象占用了大量空间，再查看相关引用找到问题代码。这种方式定位问题周期会比较长，如果是关键服务，长时间不能定位解决问题，影响太大。

下面来看看我们的做法：

先按照常规做法分析堆内存快照，与此同时另外的同学去查看数据库服务器网络IO监控，如果数据库服务器网络IO有明显上升，并且时间点吻合，基本可以确定是数据库大结果集导致了Full GC，赶紧找DBA快速定位大SQL（对DBA来说很简单，分分钟搞定，如果DBA不知道怎么定位，那他要被开除了，哈哈），定位到SQL后再定位代码就非常简单了。

按照这种办法，我们很快定位了问题。原来是一个接口必传的参数没传进来，也没加校验，导致SQL语句where后面少了两个条件，一次查几万条记录出来，真坑啊！这种方法是不是要快很多，哈哈，5分钟搞定。

故障一：JVM频繁FULL GC快速排查

相关文章

【首发】网站安全性检查清单：保护你的网站免受攻击

【首发】使用Web字体提升网站品质

【首发】用户体验优化：打破与用户的最后一道障碍

网站的定期更新：保持信息的新鲜度

如何使用网站进行电影票预订

【首发】网站结构优化：提高搜索引擎抓取和索引效率