怎样看待 AI 和保险的“水土不服”

究其原因，并非是保险行业对AI没有深层次的需求，而是一批学术型的创业者，唯技术论，坚持“数据为王”，不愿意接受行业过去积累的知识，产品效果不好之后就开始抱怨，找各种数据不足、算力欠缺、预算太低的借口。

在本篇文章中，汤子欧博士将继续探讨“AI迟迟未能在保险业真正落地”的原因。

以下是专访的完整内容，雷锋网做了不改变愿意的编辑。

雷锋网：搭建一个很贵的机器学习团队，做出又大又复杂的机器学习模型，但在有些情况下，往往只能解决一些小问题，是否存在大炮打苍蝇、杀鸡用宰牛刀的问题？这个问题您认为该怎么解决？

汤子欧：从方法论角度，保险风险点比银行要多，而健康险又是保险行业风险点最多的，因为这种逻辑是和人打交道，一旦掌握好，就有可能成为全球最大的单一金融分类，规模上超过银行、超过互联网，这在美国已经是事实。

所以这些风险点注定不可能用一个模型解决，否则必然会存在方法的误区，无法兼顾有效性，单一风险覆盖率也会下降。

利用大数据建模，必然是勤快人不能懒。我们好人生的策略其实也是这样，针对一个风险点，至少存在一个模型，也肯定越多越好。

因为单一建模，可能会遇到多元共线性、风险交叉的情况。面对这些问题，用一个模型处理，究竟是作为噪音、还是因变量很难确定。

这个世界上许多事物都存在广泛相互的内在联系，也就是统计学上的多元共线性。

雷锋网：复杂的机器学习模型，在非强关联数据的分析上，有着一定的优势。但因为保险是个难以预测的领域，一旦数据过于多元，会出现过拟合的现象，噪声数据过多直接影响结果。这个问题通常有哪些解决方法？

汤子欧：过拟合本身就是一个伪命题，是象牙塔里面的人，把书本的概念卖到了社会，并引起一系列的误解。

过拟合是一个暂时性现象，原因来自于过多采用了自变量β而造成的结果，过拟合和不过拟合的区别就是预测结果和真实事件的吻合程度，所谓的拟合优度。

那些过拟合的模型，表面上使用过多自变量β显得非常精妙，但预测的结果和事实偏离甚远，这也是当年发生金融危机之后，华尔街被诟病的主要原因。

因为变量的增多，一定会导致模型过于脆弱，其中任何一个变量出现异常，比如不再适用，模型预测结果就会偏离事实，更多的变量出现异常，就会造成严重的过拟合。

对于自变量β的控制，在统计学和数学上早已有了定论，每个β入组之后，都要和模型里面其他因子进行协调，控制多元共线性在一定范围之内，如果是用于金融预测，最要控制在5%以下。

出现过拟合现象的原因，就是那些做学问的人，最初没有把事做好。

具体的解决办法首先就是控制好多元共线性，多元共线性的现象有点像量子力学中那一对共振的量子，会发现两个自变量β背后的表现可能会同进同出、同高同低。

这时候要么在两个自变量β中选择其中之一，把另外一个丢掉。要么选择把自变量β进一步细分，找出其中共线性的部分，归类到一个自变量β当中，剩下的影响因子用细化因子代表。还要考虑自变量在大尺度时间等不同观察期间的韧性或脆弱程度。

这些都应该在统计建模实验室就已经完成，当初没解决，后来效果不好就开始埋怨噪声数据过多。

【独家】优化流程设计：提升企业整体效率的重要保障