背景
在银行传统的信用评估决策机制中,最常用的几个特征维度无非是个人资产、收入、信贷历史、抵押担保等。这些维度虽然能够反映借款人的还款能力,但是过于简单的规则往往也会拒绝掉很多潜在的优质客户。并且审核过程过于依赖网点客户经理,不但成本很高,人为风险也比较大。
随着互联网的快速发展,我们在网络上留下越来越多的轨迹,比如购物、租房、招聘、学历、社交信息等等。将这些特征引入到信用评分体系当中,能对金融机构的业务决策起到很好的辅助作用。这些特征虽然不直接反应一个人的信贷属性,但是能够帮助金融机构更好地全方位了解这个人。
利用大数据做金融风控的决策方式,是从数据本身出发,去反应一种与信贷属性的内在关联关系,这种关系不容易受偏见的影响,能达到更客观的效果。并且更加丰富的特征维度往往能够带来更高的预测准确率。但是在实际的实施过程中,银行受限于客户特征数据不足,构建的模型往往无法达到预期的效果,而从第三方获取数据的渠道又壁垒重重,隐私合规地使用数据面临巨大的挑战。
合作方案
华为云TICS基于可信硬件和MPC算法构建联邦学习平台,实现了数据不出本地的情况下进行多方联合建模。解决了多方数据共享交换过程中端到端隐私保护问题。
图1 华为云TICS服务架构图
支付平台提供特征数据,通过TICS安全代理接入系统。
xx银行提供标签样本数据,通过TICS安全代理接入系统。
TICS服务提供能力:
- 基于元数据完成数据授权过程,用户可以自定义设置数据隐私策略。
- 基于可信硬件TEE完成秘钥生命周期管理。
- 基于OPRF的自研PSI算法提供样本对齐能力,对齐过程中原始数据不出本地,对齐字段通过密文比较,结果在本地加密保存。
- 使用同态加密技术,将标签样本发送到支付平台侧,完成特征分箱和IV值计算。
- 提供基于XGBOOST算法的联邦训练能力,由支付平台发起训练过程,结果模型输出到支付平台侧,提供业务系统使用。
- 业务系统对银行方开放接口提供业务支持。
- 执行过程基于区块链实现存证,方便事后做安全审计。
实现过程
环境搭建
图2 TICS服务部署方式
- 支付平台基于TICS服务在华为云上创建数据联盟,并且邀请银行方加入联盟。
- 支付平台使用TICS服务在华为云上部署安全代理。
- 银行使用TICS服务部署边缘代理到本地环境中。
数据准备
- 支付平台把准备好的特征数据csv文件放到OBS,通过安全代理将特征数据的元数据发布到联盟,并设置访问权限。
- 银行把准备好的标签数据csv文件放到安全代理本地目录,将标签数据的元数据发布到联盟,并设置访问权限。
数据预处理
- 支付平台从安全代理发起样本对齐请求,TICS通过PSI算法实现样本对接,并将结果加密保存到各自本地目录。
- 支付平台从安全代理发起分箱和IV值计算请求,TICS通过同态加密方式将银行标签发送到支付平台方,实现加密计算。
- 支付平台根据IV值筛选有价值特征。
模型训练
- 支付平台从TICS服务发起联合风控建模任务,TICS负责任务调度,并将任务发送给双方安全代理进行计算。
- TICS将训练完的模型保存到支付平台的OBS上。
开放业务
- 业务系统得到联合风控模型,用于信用评分服务,提供API接口对银行开放服务。
- 行通过API接口调用获取个人信用评分。
总结
TICS服务提供的数据共享交换过程中端到端隐私保护能力,为行业内部、跨行业之间的数据协同创造了可能性。使用联邦学习进行联合建模弥补了传统金融机构中缺乏用户画像数据的问题。在反欺诈领域、信贷准入审批、风险定价、贷后监测等方面都将为金融机构提供巨大的价值。
本文由华为云发布。