AI+保险,更看好NLP的商业落地

AI+保险,更看好NLP的商业落地

从2018年开始,AI就给保险制造了一个强大的话题。复旦大学保险科技实验室、中国保险学会联合发布了首个AI+保险「路线图」,指出人工智能在保险业将飞速发展,预计在2020年,行业进入中智能时代,在2018年以后,保险行业的人工智能运用率将达75%。

此后「保险更AI」成为未来行业发展的潮流与趋势,一度被誉为“新风口”,谁把握了机会,就把握了取胜关键。

两年过去,在所谓的中智能时代,技术的成效进入判定期,雷锋网专访了2017年跟随保险+AI热度从硅谷回国创业的郭志扬博士。

作为栈略数据的联合创始人及首席技术官,郭志扬博士并非保险科班出身,在涉足保险科技前,曾在美国硅谷从事大数据研发工作多年,曾任职于Airbnb(爱彼迎)机器学习构架组核心架构师,带领团队研发的广告投放平台每年支撑广告预算超五亿美金。

他向雷锋网表示,AI制造了一个很大的话题,这个话题的关注度让许多保险公司都产生fear of missing out(害怕错过)的心理,也为更多的AI技术公司创造机会,可以切入到保险领域,接触到业务和数据。

但两年下来,理性取代感性,AI+保险这一风口的实际效果非常有限,对于险企需求最高的流量获客,AI并不擅长,而其它核保、客服虽然有热度,但泡沫居多,风口一过就能发现谁在裸泳。

以下是专访的完整内容,雷锋网做了不改变原意的编辑。

过热是因为噱头过多

雷峰网:对于AI的应用,在保险科技和其他互联网领域有怎样的区别?

郭志扬:以我的经验来看,AI在to B的投入产出比互联网要差的多,在爱彼迎做C端付费增长,每年广告投入超过5亿美金,在全球195个国家做广告投放,团队研发的智能广告投放平台Smart Bidder的产出,则每年都可以为公司省下大量资金,获得直接效果收益。

但to B的AI应用,大多数情况是热度偏多、噱头偏多,真正效果产出并不明显。

而且保险行业的发展趋势也是毛利越来越低。如保费收入来看,保险平台及渠道至少拿掉30%~50%甚至更多,再保企业还要分一部分,运营和客服都需要投入,最后的资金池非常小,而无论核赔还是核赔风控,都需要先期投入,才能收获效果。

在大多数健康险公司都在赔钱的前提下,这种投入的盈利比较困难,但从长期角度,核保和核赔风控一定是硬性刚需。

此外,保险AI还需要满足输出结果可解释性,否则对业务没有任何作用。

雷锋网:现在AI保险热度高的原因是什么?

郭志扬:AI制造了一个很大的话题,这个话题让许多保险公司都产生了焦虑和好奇,也让AI技术公司有机会接触他们的业务和数据,从而产生了许多的学术成果和项目。

雷锋网:AI在保险实际是怎样的情况,在哪些场景中有明显的效果,又在哪些场景停留在噱头阶段。

郭志扬:目前AI在保险的应用场景并不多,如我们栈略数据做的是理赔风控领域,就是AI应用仅有的几个方向之一,其他的核保、销售应用,目前大多数都停留在噱头阶段。

例如,前一段时间某保险科技公司宣称,其研发的语音AI产品已实现自动交互,可以减少2/3的客服坐席,但实际仅仅实现非常初级的NLP应用,本身技术角度AI还无法自由谈话和个性化推荐。

这种类型的应用,最后只是AI效果不足,人力来补,像这样停留在外围的AI应用,在保险行业并不少见。

雷锋网:栈略数据目前做的AI核赔方向,产生怎样的效果,有没有明确案例和量化指标。

郭志扬:栈略数据做的健康险理赔风控主要KPI就是减损率,利用风控模型在核赔中找到减损金额。

以目前比较火的好医保举例,投保和理赔过程中需要填写很多信息,而且还要上传部分投保、检查单据等大量非结构化医疗数据资料。

这些数据里面往往包含大量扣费点,例如过度医疗行为,就需要对应清洗,栈略数据曾就遇到一个手术案例里开了大量的补品,这种场景必须要做相应扣除。

我们从事的业务方向并不面向C端,而是帮助保险公司实现理赔和控费,通过发现赔付不合理的费用。目前栈略数据可以达到15%~20%的不合理费用剔除,未来可能会提升至30%。

雷锋网:那么对于保险核赔,使用复杂机器学习模型和简单决策树,有怎样的效果区别,是否简单的决策树就能搞定。

郭志扬:复杂神经网络和简单决策树之间功能本身就存在重叠,差异来自于适用场景不同。

像时序、文本数据,深度学习就有很多方法,但机器学习就很难完成;而对于结构化表格数据,使用深度学习就会杀鸡用牛刀;栈略数据在面对医保套药这种结构化数据,也是使用随机森林数据模型。

而且简单决策树不会是一招鲜,像理赔风控所应对的问题场景就非常多,包含理赔案例扣除、滥用、冒名就医等多种情况,每一种欺诈行为模式都需要一种固定模型。像前置就医场景,除了使用NLP,还要涉及迁移学习等技术来发现指向型信息,这些简单决策树都无法搞定。

人工 VS 智能

雷锋网:这种理赔风控,过去就已经靠人从统计学角度进行应用,您认为相比AI有怎样的区别。

郭志扬:金融风险控制的本质就是风控+运营。过去统计学角度往往基于宏观概念,这种宏观对于风控的影响在于,如果开始没有精算好,后期理赔运营卡的再紧都会亏。

理赔风控则是按照每一单完成扣费,属于运营中的风险控制,如果控制不好,最后也会造成保险赔的很惨,这也是造成许多初创健康险公司亏损的主要问题。

雷锋网:两者有哪些结合,未来人工和智能,哪一个会更重要?

郭志扬:风控AI建模之初一定需要依靠经验,栈略数据AI产品冷启动阶段,就是算法工程师和理赔专家每天泡在一起,先学习理赔扣除经验,才回到模型训练,把经验沉淀到模型当中。

而且上线之后,模型出现的假阳性或识别不准等情况,往往也需要依靠经验来进行调整,整个AI训练迭代过程,就是人工经验的转化。

但我认为,未来人工经验的重要性会逐渐下降,而且慢慢会被AI所取代。

首先,随着AI经验的积累,两三年以后,对已有风险场景AI会非常精准,人工经验重要性也就随之下降。

像健康险风控,在积累上万以及更多标签之后,就能精准分析实际扣费情况,理赔员应对这一场景也不需要花精力去看,相信AI就可以,因为AI99%的计算要比人更精准。

其次,对特有专家经验泛化,健康险的理赔审核,对于没有医疗经验的理赔员会非常困难,而那些有医疗经验的专业理赔员,也往往没有精力去看比较小的理赔案例,AI则可以把医疗理赔经验进行复制,覆盖更多健康险理赔场景。

雷锋网:未来理赔AI的发展方向,是否是技术为王,又有哪些场景会取代人工?

郭志扬:对于不同场景,可能就会出现替代,像非常容易被预测的黑盒子,固定输入就可以得到固定输出的场景,可能就不再依靠人的经验。

但AI一定不是万能的,像保险精算,输出保险产品会不会赔、赔多少的情况,背后的输入因子需要对多种经验进行复合分析,是踩了很多坑之后的经验集合,这个AI永远替代不了。

我和再保的合作中就发现,精算师对于对于一款健康险产品的判断,往往需要基于渠道选择、销售策略、定价、运营,下面分包情况等多种因素,也就是非常复杂的决策体系,AI很难进行复制。

雷锋网:理赔AI应该怎样和健康险的发展趋势进行结合,未来会发挥怎样的作用。

郭志扬:中国的健康险行业本身就处于早期阶段,许多保险公司将健康险产品当作快销品来营销,如爆红的这些百万医疗险产品。

但这只是短暂历史过程,后面的竞争一定是依靠服务、风控的能力,重视这些的健康险公司才能实现盈利,占据市场。

那些跟风的保险公司会因为运营、风控的原因被逐渐淘汰,之所以还看不到表征是因为保险具有滞后性,上半场无法体现本质,下半场比拼才是硬实力。

雷锋网:应该怎样看待AI在保险中的作用,过分追捧技术,搭建非常厉害的技术团队是否有必要?

郭志扬:我作为技术出身,我认为AI技术本身并不直接产生价值,过分宣传AI就是追求资本噱头,作为一种工具,AI真正的价值产出应该在于其服务的业务场景。

而如果业务本身不赚钱,还在搭建很贵的深度学习团队,过分的追求技术,一定是很大的问题。

我们认为,AI团队的组建策略应该是小而精,应该了解实际问题场景贴近底层,以业务为出发点,而不是抱紧技术。栈略数据的算法团队是一个小团队,但基于对业务的深耕,已经建立上百种风险场景模型。

而且,过分追捧技术就是资本驱动的怪象,这种情形在硅谷非常常见,往往新技术一出现,资本就开始追捧,造成人才成本上涨,所有公司都很焦虑,但最后发现并没有商业价值,泡沫开始破裂,只能开始遣散这些员工。

雷锋网:保险本身作为难以预测的领域,栈略数据在实际应用中是否遇到过拟合、噪音数据过多的情况。

郭志扬:栈略数据的核心优势是同时服务于商保和医保。医保的巨量数据,可以有效训练数据,把经验沉淀为模型,应用到商业健康险风控当中,实现核赔风控。

过拟合这种现象在行业内并不少见,保险行业本身具有目标数据过小、数据贵的特点,这和高频交互、巨量数据的互联网有很大不同。之前在爱彼迎,C端用户交互就可以产生大量带标签数据。

而保险重疾风控、反洗钱场景往往只有几千条训练数据,几百条阳性标签。面对这种情况,栈略数据已经积累更多解决办法,例如数据增强、规则结合模型等。

NLP称王

雷锋网:您觉得当前计算机视觉、语音&NLP、机器学习,这三条技术线,哪个对实际业务改善最显著?

郭志扬:个人觉得NLP相比于其他类,会走得更远,得到的效果也会更好。

而像计算机视觉等还停留在噱头阶段,像前一段时间被追崇的OCR,曾经一家大型保险公司拿着需求,到处找团队尝试,但最后发现都无法取代录入团队,不到半年泡沫就破了。

脱离业务的技术革新本身就是伪命题,没有办法把复杂医疗单据和影像完全结构化。而且目前国内医疗数据格式也还未形成标签化,即使是做到80%识别度,仍然会增加人力审核,还不如不做,所以计算机视觉技术还没热,风口就下去了。

NLP在保险行业从交互机器人,到保险风控都已经有很久的应用,主要是因为其可以解决高危数据、复杂数据格式的特点比较符合保险行业的诉求,许多算法都可以直接迁移到风控当中。

雷锋网:除了计算机视觉,还有哪些AI的实际使用效果并不好,背后原因是什么?

郭志扬:观察来看,整个行业对于AI都还处于探索阶段。如关于核保的应用,在2017年栈略和某BAT也曾联手尝试过,当时计划做一个健康险自动核保系统:输入个人健康信息,即可得到承保结论。

但实践中发现,方法论根本无法突破,首先病历结果数据很难结构化拆分,另外也无法准确比对到核保手册规则引擎,以至于现在都没落地。

另外,交互机器人也存在初始期望过高的情况。许多险企都希望利用交互机器人完成一部分展业工作,通过和客户交互沟通获得诉求,推荐适合保险种类,但实际所推荐的产品和人的需求相差巨大。

这些现象发生的原因,就是很多保险公司都存在fear of missing out(害怕错过)心理,一款新技术出来,不管是否真的有效或者有必要,就去追捧。

雷锋网:AI在保险智能营销上的作用是否比较有限?

郭志扬:销售流量对于保险公司的确是刚需,但销售环节的AI落地并不擅长。高流量入口对AI并非刚需, AI增员现在还仅仅是噱头。

但AI在营销领域依然非常受追捧,这和保险公司自身的策略有很大关系,绝大多数的IT预算都会投入在营销获客,衍生出很多AI应用的噱头。

从技术宅到创业者

雷锋网:遇到不太懂AI的客户,一般怎么教育对方,或者怎么提供咨询服务?

郭志扬:To B销售特点就是需要帮助客户梳理需求,明确需求的核心。理赔控费的核心需求肯定是节省更多钱,具体包括提高核赔效率、再保分保服务、团单二次展业等。

合作初期,大多情况用户可能只有TPA需求,在逐步建立互信之后,按照实际场景匹配更多业务需求,是我们常见的营销策略。

此外,在客户的理赔风控需求的对接期,我们通常会提供一版风控预报告,详细说明节省费用数量、各类风险点,在用户确定其合作价值,再谈详细合作。

雷锋网:如果客户方使用供应商的产品体验不太理想,栈略数据通常情况下会怎么做?

郭志扬:当然也会根据用户需求特点,做MVP(最小可行性产品)改进,之前某个自动化预垫付服务项目,就是按照客户的医疗需求特点,快速调整规则引擎,从而满足需求。

雷锋网:从爱彼迎互联网to C到保险科技,从技术工程师到创业者,这种转变经历了怎样的困难。

郭志扬:这个困难是巨大的,过去作为技术宅,对于AI就是技术型思维,拿着这个锤子,到处找钉子看能不能砸一下。

但创业之后,这种想法慢慢演变为商务思维,变成先了解客户需求是什么、预算情况、付费意愿、下一阶段目标。从需求回到自己的产品,到怎么做,由“锤子”思维(技术思维)转变为创业者思维。

创业的经历让我们明白:世界是由供需关系决定的,提供的商品价值决定获得的价格和营收。建议技术背景创业者,从心态开始转变,在大谈技术之前,应该先了解用户真正需要什么。

雷锋网:您对每年不断涌入AI保险行业的新创业者和优秀技术人才有什么建议?

郭志扬:我个人最初从事的是互联网领域的AI应用,毕业后一直在美国工作,创业初期对国内的医保环境、保险业务流程、行业需求其实是不了解的,属于空白型创业者。

健康险行业本身作为一种融合型的产业,涉及金融、运营、医药健康等多领域,具有许多AI创新的开拓点。但创新的前提是需要对这个行业建立充分的了解,否则所谓的创新,一定会停留在场外。

对于技术型工程师,我的建议是如果追求目标是百万年薪的短期效益,就不要来保险行业。你可以尝试互联网,在流量端进行算法提升,即可迅速带来可观的营收效果。

而保险行业解决的问题需要对业务链产生足够的价值,需要时间的打磨,并不是一蹴而就的结果,如果没有准确切入业务需求,生存都会成为很大问题。

雷锋网:虽然这几年AI在金融、医疗、教育都有很高热度,您认为这种热度是真需求还是资本炒作。

郭志扬:这个不应该看热度,部分AI企业的营收其实并不好,还要流血上市,在难以证明价值的情况下,高估值必然难以长期为继,泡沫一旦退却,往往就能发现谁在裸泳。所以AI应该回归技术本源,真正的价值应该是能解决怎样的行业问题,而不是噱头。

附嘉宾简介

AI+保险,更看好NLP的商业落地

郭志扬博士

现任上海栈略数据技术有限公司首席技术官,博士毕业于纽约州立大学石溪分校电子信息工程学院,研究课题为云计算架构。期间发表二十余篇顶级国际期刊与会议论文,并著有英文书籍《高性能数据中心网络》。郭志扬博士曾在美国硅谷从事大数据研发工作多年,先后担任过Rocket Fuel机器学习构架组科技带头人、Airbnb机器学习构架组核心架构师,回国后参与创立了栈略数据。