究其原因,并非是保险行业对AI没有深层次的需求,而是一批学术型的创业者,唯技术论,坚持“数据为王”,不愿意接受行业过去积累的知识,产品效果不好之后就开始抱怨,找各种数据不足、算力欠缺、预算太低的借口。
在本篇文章中,汤子欧博士将继续探讨“AI迟迟未能在保险业真正落地”的原因。
以下是专访的完整内容,雷锋网做了不改变愿意的编辑。
雷锋网:搭建一个很贵的机器学习团队,做出又大又复杂的机器学习模型,但在有些情况下,往往只能解决一些小问题,是否存在大炮打苍蝇、杀鸡用宰牛刀的问题?这个问题您认为该怎么解决?
汤子欧:从方法论角度,保险风险点比银行要多,而健康险又是保险行业风险点最多的,因为这种逻辑是和人打交道,一旦掌握好,就有可能成为全球最大的单一金融分类,规模上超过银行、超过互联网,这在美国已经是事实。
所以这些风险点注定不可能用一个模型解决,否则必然会存在方法的误区,无法兼顾有效性,单一风险覆盖率也会下降。
利用大数据建模,必然是勤快人不能懒。我们好人生的策略其实也是这样,针对一个风险点,至少存在一个模型,也肯定越多越好。
因为单一建模,可能会遇到多元共线性、风险交叉的情况。面对这些问题,用一个模型处理,究竟是作为噪音、还是因变量很难确定。
这个世界上许多事物都存在广泛相互的内在联系,也就是统计学上的多元共线性。
雷锋网:复杂的机器学习模型,在非强关联数据的分析上,有着一定的优势。但因为保险是个难以预测的领域,一旦数据过于多元,会出现过拟合的现象,噪声数据过多直接影响结果。这个问题通常有哪些解决方法?
汤子欧:过拟合本身就是一个伪命题,是象牙塔里面的人,把书本的概念卖到了社会,并引起一系列的误解。
过拟合是一个暂时性现象,原因来自于过多采用了自变量β而造成的结果,过拟合和不过拟合的区别就是预测结果和真实事件的吻合程度,所谓的拟合优度。
那些过拟合的模型,表面上使用过多自变量β显得非常精妙,但预测的结果和事实偏离甚远,这也是当年发生金融危机之后,华尔街被诟病的主要原因。
因为变量的增多,一定会导致模型过于脆弱,其中任何一个变量出现异常,比如不再适用,模型预测结果就会偏离事实,更多的变量出现异常,就会造成严重的过拟合。
对于自变量β的控制,在统计学和数学上早已有了定论,每个β入组之后,都要和模型里面其他因子进行协调,控制多元共线性在一定范围之内,如果是用于金融预测,最要控制在5%以下。
出现过拟合现象的原因,就是那些做学问的人,最初没有把事做好。
具体的解决办法首先就是控制好多元共线性,多元共线性的现象有点像量子力学中那一对共振的量子,会发现两个自变量β背后的表现可能会同进同出、同高同低。
这时候要么在两个自变量β中选择其中之一,把另外一个丢掉。要么选择把自变量β进一步细分,找出其中共线性的部分,归类到一个自变量β当中,剩下的影响因子用细化因子代表。还要考虑自变量在大尺度时间等不同观察期间的韧性或脆弱程度。
这些都应该在统计建模实验室就已经完成,当初没解决,后来效果不好就开始埋怨噪声数据过多。