作者:biosan | 来源:互联网 | 2023-07-14 14:00
最近想整理一下关于信用评分校准的一些知识,发现求是汪老师的文章已经很详细、全面地介绍了这块的内容,于是仔细读了一遍他的文章,并对其中的重点作一下笔记。求是汪老师的文章链接是信用评分卡模型分数校准。
一.分数校准的业务应用场景
分数校准主要应用在3种场景下。
1.分群子评分卡作分数融合。
2.降级备用模型和主模型分数校准。
3.客群变化对原模型分数进行修正。
其实还有一种情况需要校准模型,就是对样本进行抽样建模之后需要对违约概率作校准之后再映射成评分。其本质和上面第3种情况是一样的,都是开发样本的Odds与实际样本的Odds不一致,导致开发样本的坏样本占与比实际情况不一致。
二.概率分数校准的方法
概率分数校准的方法主要有两种。
1.Platt scaling使用LR模型对模型输出的值做拟合。适用于上 述场景1和场景2。
2.评分卡分数的错误分配。适用于上述场景3。
对于方法一,比如现在有两个分数score1和score2,各分数段代表的违约概率不一致,需要进行校准。将score1和样本的y标签进行逻辑回归输出概率值score1_cal,将score2和样本的y标签进行逻辑回归输出概率值score2_cal。score1_cal和score2_cal就在同一尺度上了。
深入思考的话,由于逻辑回归本质上就是将违约概率p、对数几率odds以及信用分数进行映射,如果映射过程中指定的Pdo、P0、odds都是一致的话,评分卡的尺度就是一致的,这种情况下不需要进行校准。即评分卡只要将概率转化为分数时ln(odds)-score关系是一致,则无需进行校准。如果子模型使用的是集成学习方法,则需要进行校准,校准的方法是针对每个seg的xgb_score进行LR校准,校准完之后在整体校准完之后的分数定cutoff。因为策略一般只关注最终输出分数。当然,策略会根据自己的人群标签再做交叉分析。
对于方法二,基于的理论依据是LR中的截距近似于开发样本的ln(Odds),先通过一个案例来学习此方法,案例来源原来评分卡模型的概率是这么校准的!
一个评分卡经过抽样或者客群发生偏移,开发样本的坏样本率为10%,评分卡模型建模样本各分数段的好坏分布如下:
实际上该产品的违约率只有2%左右,那么这个坏样本占比会比产品上线后实际落在该分数段的坏样本占比要高得多。要还原真实的情况,需要进行如下校准:
概括一下,即将实际开发样本的ln(odds),即LR中的截距,加一个ln(odds1/odds)后再进行sigmoid转换。ln(odds1)是抽样前真实好坏比或者目前样本的好坏比。具体的理论依据如下:
可以这样理解上面的过程,逻辑回归拟合出来的截距是约等于ln(odds)的,因此开发样本拟合出来的截距是开发样本的ln(odds),实际样本的截距应该是实际样本的ln(odds1),现在需要将开发样本的ln(odds)调整到实际样本的ln(odds1)上面,则需要-ln(odds)+ln(odds1),即再加上一个ln(odd1s/odds)。这样解释比较容易理解。
三.一些其它的启发(来源于文章评论)
1.逻辑回归拟合出来的截距为什么等于ln(odds)?
这个问题求是汪老师的另一篇文章样本权重对逻辑回归评分卡的影响探讨有写到:
2.LR的输出概率可以认为是真实概率,而其他分类器的输出概率并不反映真实概率?
lr输出概率的分布往往是正态分布,这是因为自变量之间相互独立;(多个独立统计量的和的平均值,符合正态分布);xgb这些模型由于没有做相关性筛选,入模变量相关性比较高,因此输出概率分布一般服从长尾分布(如果各种因素对结果的影响不是相加,而是相乘,那么最终结果不是正态分布,而是对数正态分布)
3.分群导致各seg的odds不同,即LR的截距不同,会有什么影响?
分群的目的就是让不同的seg的odds存在差异化。从贝叶斯角度看,lr中截距项对应总体的odds,所以不同seg训练的lr的截距必然有差异。通过PDO尺度变换后,这个截距对应正态分布的均值。不同seg的分布放在一起看会有重叠,但不会完全一致,否则分群就失去了意义。
【作者】:Labryant
【原创公众号】:风控猎人
【简介】:某创业公司策略分析师,积极上进,努力提升。乾坤未定,你我都是黑马。
【转载说明】:转载请说明出处,谢谢合作!~