互联网金融本质是金融,金融领域重要的一环在于风险的有效控制。风险控制大体来讲是对金融机构或者企业在包括信用风险、利率风险、流动性风险、操作风险、市场风险、法律风险、经营风险、管理风险、声誉风险等方面的有效管理控制。风险管控领域,外部数据尤其是移动互联网的数据是否能够对其起到显著性影响,一直是行业关心的话题。

大数据风控数据服务的一般思路

风险控制一般会从个体性风险和群体性风险两个角度出发。个体风险评估主要关注于个人在信用风险、操作风险中存在的主观/客观违约可能性,目前的分析手段都是从企业内部的业务数据入手总结出大量的风险因子进行模型开发和概率预测;群体风险评估主要是从个体之间的社交关系入手,寻找个体之间的联系,以风险传播的相关理论和模型进行风险扩散的趋势预测。

不同于数据量呈现指数增长的十年,在统计挖掘和机器学习技术深度商业运用的今天,人们已经意识到数据的相关关系分析法的重要性。建立在相关关系分析法基础上的预测模型是大数据分析的核心。这种预测发生的概率非常高,以至于我们经常忽略了它的创新性。当然,它的应用会越来越多[1]。

大数据风控数据服务强调从大数据采集、加工和分析入手,为企业内部风控提供外部数据支持,增加企业的数据分析维度和视角,降低企业获得数据的成本,提高企业风险预测模型的准确度。下面,我们将从个体风险识别和群体风险识别两个角度阐述相关内容。

消息推送的运营指标能否洞察客户的风险特征?

极光开发者服务囊括了 app 开发者需要的一整套高性能功能云服务。因为极光出色的服务质量,极光云平台吸引了众多开发者的使用,采用极光云服务 SDK 的 app 在市场上的占有率超过45%,每月为超过6亿的移动终端提供服务支持,形成了大量的运营日志。以极光推送服务为例,app 开发者通过 API 调用方式,明确送达目标、目标特征、目标分类、送达策略等,为 app 开发者在为不同客户提供差异化的服务提供功能和数据支持,例如规定送达的网络环境、送达时间、送达失败处理策略等。

在服务器资源和性能优化过程中,我们不光从技术性能指标入手,同时也从业务服务的运营指标入手。我们发现不同类型的客户在推送消息业务中,下午1点至4点是消息发送最为密集的时段,约有35%左右的消息在下午发送出去;其次是晚上,发送消息占到27%。这些关键的运营数字可以帮我们进行动态服务资源优化提供了数据参考。可以讲,是极光云服务运营过程中的“魔法数字”。

消息推送服务本质上就是企业对于客户的触达策略一种形式。我们和我们的金融企业合作伙伴,就一系列风险客户名单进行分类分析,发现不同风险的客户其消息发送条数差异显著,风险客户日均发送条数是新客户日均发送条数的3倍,是正常客户日均发送条数的4倍。上文提及的送达时间段分布也是这一系列成果。

可以讲,极光云服务运营过程中的“魔法数字”与客户特征有一定相关性,这些魔法数字可以很直观地反应出企业触达策略是可以反应出客户的风险特征的。

消息推送的运营指标是否可以洞察圈子的风险特征?

如上文提及的,企业客户触达的策略的一种表现形式就是消息推送服务。而在服务提供过程中,我们通过利用社会网络分析的方法结合极光云服务的日志信息,尝试去发现不同设备之间和不同人群之间的社会关系、行为关系等。基于多主体的信息传播模型,将地区间人口流动行为建模为多个主体的集群行为[2]。我们选用了多主体方法构建风险传播模型,研究风险因子在接触网络中的传播和事前预警。重点从网络拓扑、用户行为和交互信息等几个方面总结影响力分析的建模和度量方法。

基于这样分析思路和方法,我们发现了:在山东聊城某县,有283部设备终端,从终端的设备信息、使用 app、线下活动区域范围和场所都具有明显的相关性。例如都安装了名叫"九州电召"的 app ,通过他们的行为轨迹也可以推断出来是以提供召车服务的司机群体,同时在某金融、某钱包、某贷款、某宝、某借款等多个借贷平台间有非常频繁的业务活动,结合相关的其他开放数据信息,我们可以推断这是一个以“薅羊毛”为特征的群体。具体算法就不在这里详述,通过分析他们的社会关系网络,如下图所示:

​按照极光反欺诈数据库默认评分策略进行评分,该圈子中用户在如下19类风险指数中评分均较高,属于高风险用户群体,参考下表:

群体识别方法利用了大数据采集和分析技术到的相关信息,提炼出来识别模型,通过对于特征群体的特征挖掘,从风险因子综合评分入手,有效地找到风险群体的移动互联网+的特征。

利用机器学习分析方法识别疑似风险群体

为了识别更多风险群体,我们运用了优化后的神经网络算法,即高风险人群推荐算法。选取极光风险因子的多维度指数进行建模,通过机器学习的方法完成识别过程。下面以其中五大类维度作为示例,简要描述我们的识别策略。其中,正负样本来源于我们的合作伙伴共享数据,以及我们自身强相关条件的分析结果。

•数据整理。取已定义的高风险人群和非风险人群各m个作为正负样本,提取他们的JID和相关指数Xi;将各维度变量进行数值化变换后,设置各属性权重Wi;各隐含层神经元阈值b2m,输出层神经元阈值b0[3];

•数据技术,变量加权作为输入函数;输出函数定义为y=f(X)=1/(1+e-X);定义输入样本和期望输出;计算各隐含层的输入和输出:

•计算网络期望输出与实际输出的偏差,利用误差函数来修正各神经元的阈值。当误差达到预定范围内,或者迭代次数达到预设次数,结束算法。否则,重新选择训练样本进行下一轮学习。

利用以上算法,我们挖掘到全国共有8万左右的风险圈子。其中TOP6省级区域为为广东、山东、江苏、浙江、河南、河北。而TOP6 城市分布分别为上海、北京、深圳、武汉、苏州、东莞。全国城市风险圈子分布图,如下:

​此外,针对挖掘以上出来的高风险用户,我们对其做了简单的画像,有几点特征比较显著:

1、苹果终端用户的违约率略低于安卓及操作系统的用户;

2、高价值且高消费的用户也更容易产生失信行为;

3、30-40岁之间的高学历青年才俊们也是失信群体的主力军团。

极光云服务和风险管控的关系

在研究金融行业风险传播时,一般将网络中的人群分为几类,如领导者、易感者、传播者、追随者、潜在感染者、新人等。极光反欺诈算法情景进行目标风险控制预警:假设有N个人,其接触网络为G (V,E,W),其中V是群体集合,E是边集,W是边对应的权重集合。已知在某一时刻t发现了有n个人疑似风险用户,应采取一些及时措施进行风险传播,将风险扩散降低到最小。

​如上图所示,Jid0在该圈子中可判定为领导者,而传播者包括Jid9(关键信息传播给Jid5和Jid8)以及Jid6(传播给Jid2、Jid3和Jid4),Jid10判定为易感者,Jid11则可判定为新人。基于这样的社交图谱,对于领导者和传播者进行针对性管控,及时切断传播路径。

上述的一类场景就是企业在风险控制中的典型场景。极光金融风控领域数据服务可以帮助企业在已有的风控管理体系中提供外部数据能力的支持,能够有效地解决企业在外部数据缺失过程中所遇到的困扰。由于极光的数据服务都是通过自身的JID进行关联,提供的都是隐私脱敏数据服务,因此在数据服务过程中的合规合法都是可以信赖的。

结论

数字化经济、越来越精明的用户以及不断加大的甄别需求都给企业带来了巨大的成本压力,必须采取新的解决方案和新的业务模型[4]。极光通过多年云服务运营经验,发现在自身平台运营过程中发现的特征规律可以运用到金融风控领域,极光的反欺诈模型能够帮助企业高效的应对这些挑战,有效地降低管理风险。

借力大数据进行风险管控的企业已经是趋势,大数据的作用和价值不用赘述。相较于传统风控的企业,其目前的成本控制和收益优化,以及未来的市场扩张和行业竞争等多方面的优势将更加显而易见。同时,极光也推出了金融风控的系列产品,这也是在众多合作伙伴鼎力帮助下进行不断的完善。

作者介绍

洪晶,极光数据研究院数据解决方案总监。10年数据仓库与商业智能咨询与实施经验,精通数据处理、统计分析与挖掘建模,擅长基于海量数据的业务管理与运营;

曾经在国内学术刊物上发表多篇该专业文章,精通且熟练使用粗集、神经网络、遗传算法、随机森林、支持向量机、文本挖掘/潜在蒂利克雷主题模型等方法,并将其成功运用到各种商业领域;

曾长期供职于著名数据仓库和数据分析服务提供商,主要服务于国内运营商、金融企业客户、移动互联网公司。

参考文献

[1]维克托·迈尔-舍恩伯格,肯尼思·库克耶著 盛杨燕,周涛译.大数据时代生活、工作与思维的大变革[M].浙江:浙江人民出版社,2013.

[2]斯坦利·沃瑟曼,凯瑟琳·福斯特著 陈禹,孙彩虹译.社会网络分析:方法与应用[M].北京:中国人民大学出版社,2012.

[3]季伟东.进化计算优化前向神经网络的学习方法研究[J].东北林业大学,2013.

[4]叶湘榕.P2P借贷的模式风险与监管研究[J]. 金融监管研究. 2014.