背景
2019年9月6日,杭州某独角兽事件打响了数据行业整顿的第一枪。
之后的两个月内,大批业内金融科技公司先后参与相关调查。
截止目前,各大科技公司爬虫相关的数据业务几乎已经全面停止。如果硬要追究爬虫问题,其实许多公司都不能独善其身。说不定哪天,平台审批策略以及模型所依赖的外部数据源就突然消失了。不禁让人思考,动荡的数据条件下如何进行模型变量的配置。
因此本文从动态数据源的角度出发,针对对外部数据依赖同时又担心数据源不稳定的业务,提出一种基于模型组合的动态模型融合方法。防患于未然。
一、模型框架
每种数据源一个单模型,通过各种AUC作为权重,进行加权融合。融合时候需要保证两点:
1. 对分数进行标准化。分数标准化针对单个模型,在离线训练过程中就可以做。因此不涉及上线部署问题。
2. 对权重进行标准化。需要判断当前样本究竟走哪几个模型。然后对相关模型的权重进行标准化,需要部署在线上进行逻辑判断。
二、使用方法
判断用户具有哪种数据源,则在模型子集上对相应的模型AUC值进行标准化,得到权重。并将每个模型的预测分数校准后加权求平均,得到最终结果。
三、稳定性
根据经验来看,多模型融合的稳定性和样本调用的差异化模型数量成正比。前提是单模型效果接近且模型之间的差异足够大。因此需要通过AUC和MIC对数据源进行评估。
四、接入数据源建议
保证融合后整体的效果好且稳定,需要保证3点:
接入数据源有效,单模型AUC值不能明显低于其他模型。
不同数据源训练的模型MIC值差异较大。信息源相似的模型,其融合结果对整体区分度没有明显帮助。
预留同质数据作为备选,以备某类数据突然被斩断。