当前位置: 开发笔记 > 后端 > 正文

聊一聊评分模型校准

作者：biosan | 来源：互联网 | 2023-07-14 14:00

最近想整理一下关于信用评分校准的一些知识，发现求是汪老师的文章已经很详细、全面地介绍了这块的内容，于是仔细读了一遍他的文章，并对其中的重点

最近想整理一下关于信用评分校准的一些知识&＃xff0c;发现求是汪老师的文章已经很详细、全面地介绍了这块的内容&＃xff0c;于是仔细读了一遍他的文章&＃xff0c;并对其中的重点作一下笔记。求是汪老师的文章链接是信用评分卡模型分数校准。

一.分数校准的业务应用场景

分数校准主要应用在3种场景下。

1.分群子评分卡作分数融合。

2.降级备用模型和主模型分数校准。

3.客群变化对原模型分数进行修正。

其实还有一种情况需要校准模型&＃xff0c;就是对样本进行抽样建模之后需要对违约概率作校准之后再映射成评分。其本质和上面第3种情况是一样的&＃xff0c;都是开发样本的Odds与实际样本的Odds不一致&＃xff0c;导致开发样本的坏样本占与比实际情况不一致。

二.概率分数校准的方法

概率分数校准的方法主要有两种。

1.Platt scaling使用LR模型对模型输出的值做拟合。适用于上述场景1和场景2。

2.评分卡分数的错误分配。适用于上述场景3。

对于方法一&＃xff0c;比如现在有两个分数score1和score2&＃xff0c;各分数段代表的违约概率不一致&＃xff0c;需要进行校准。将score1和样本的y标签进行逻辑回归输出概率值score1_cal&＃xff0c;将score2和样本的y标签进行逻辑回归输出概率值score2_cal。score1_cal和score2_cal就在同一尺度上了。

深入思考的话&＃xff0c;由于逻辑回归本质上就是将违约概率p、对数几率odds以及信用分数进行映射&＃xff0c;如果映射过程中指定的Pdo、P0、odds都是一致的话&＃xff0c;评分卡的尺度就是一致的&＃xff0c;这种情况下不需要进行校准。即评分卡只要将概率转化为分数时ln(odds)-score关系是一致&＃xff0c;则无需进行校准。如果子模型使用的是集成学习方法&＃xff0c;则需要进行校准&＃xff0c;校准的方法是针对每个seg的xgb_score进行LR校准&＃xff0c;校准完之后在整体校准完之后的分数定cutoff。因为策略一般只关注最终输出分数。当然&＃xff0c;策略会根据自己的人群标签再做交叉分析。

对于方法二&＃xff0c;基于的理论依据是LR中的截距近似于开发样本的ln(Odds)&＃xff0c;先通过一个案例来学习此方法&＃xff0c;案例来源原来评分卡模型的概率是这么校准的&＃xff01;

一个评分卡经过抽样或者客群发生偏移&＃xff0c;开发样本的坏样本率为10%&＃xff0c;评分卡模型建模样本各分数段的好坏分布如下&＃xff1a;

违约分布.png

实际上该产品的违约率只有2%左右&＃xff0c;那么这个坏样本占比会比产品上线后实际落在该分数段的坏样本占比要高得多。要还原真实的情况&＃xff0c;需要进行如下校准&＃xff1a;

分数校准.png

概括一下&＃xff0c;即将实际开发样本的ln(odds)&＃xff0c;即LR中的截距&＃xff0c;加一个ln(odds1/odds)后再进行sigmoid转换。ln(odds1)是抽样前真实好坏比或者目前样本的好坏比。具体的理论依据如下&＃xff1a;

理论推导.png

可以这样理解上面的过程&＃xff0c;逻辑回归拟合出来的截距是约等于ln(odds)的&＃xff0c;因此开发样本拟合出来的截距是开发样本的ln(odds)&＃xff0c;实际样本的截距应该是实际样本的ln(odds1)&＃xff0c;现在需要将开发样本的ln(odds)调整到实际样本的ln(odds1)上面&＃xff0c;则需要-ln(odds)&＃43;ln(odds1)&＃xff0c;即再加上一个ln(odd1s/odds)。这样解释比较容易理解。

三.一些其它的启发(来源于文章评论)

1.逻辑回归拟合出来的截距为什么等于ln(odds)&＃xff1f;

这个问题求是汪老师的另一篇文章样本权重对逻辑回归评分卡的影响探讨有写到&＃xff1a;

问题1.png

2.LR的输出概率可以认为是真实概率&＃xff0c;而其他分类器的输出概率并不反映真实概率&＃xff1f;

lr输出概率的分布往往是正态分布&＃xff0c;这是因为自变量之间相互独立&＃xff1b;&＃xff08;多个独立统计量的和的平均值&＃xff0c;符合正态分布&＃xff09;&＃xff1b;xgb这些模型由于没有做相关性筛选&＃xff0c;入模变量相关性比较高&＃xff0c;因此输出概率分布一般服从长尾分布&＃xff08;如果各种因素对结果的影响不是相加&＃xff0c;而是相乘&＃xff0c;那么最终结果不是正态分布&＃xff0c;而是对数正态分布&＃xff09;

3.分群导致各seg的odds不同&＃xff0c;即LR的截距不同&＃xff0c;会有什么影响&＃xff1f;

分群的目的就是让不同的seg的odds存在差异化。从贝叶斯角度看&＃xff0c;lr中截距项对应总体的odds&＃xff0c;所以不同seg训练的lr的截距必然有差异。通过PDO尺度变换后&＃xff0c;这个截距对应正态分布的均值。不同seg的分布放在一起看会有重叠&＃xff0c;但不会完全一致&＃xff0c;否则分群就失去了意义。

【作者】&＃xff1a;Labryant
【原创公众号】&＃xff1a;风控猎人
【简介】&＃xff1a;某创业公司策略分析师&＃xff0c;积极上进&＃xff0c;努力提升。乾坤未定&＃xff0c;你我都是黑马。
【转载说明】&＃xff1a;转载请说明出处&＃xff0c;谢谢合作&＃xff01;~

推荐阅读

pdo
当unique验证运到图片上传时

2019独角兽企业重金招聘Python工程师标准model：public$imageFile;publicfunctionrules(){return[[[na ... [详细]

蜡笔小新 2024-12-20 10:19:12
mysql
在Linux系统上构建Web服务器的详细步骤

本文详细介绍了如何在Linux系统上搭建Web服务器的过程，包括安装Apache、PHP和MySQL等关键组件，以及遇到的一些常见问题及其解决方案。 ... [详细]

蜡笔小新 2024-12-17 19:02:43
timeout
解决PDO::__construct() 发送108字节失败，错误号32：管道断裂的问题

当我在命令行登录MySQL后，无法访问任何依赖数据库连接的PHP应用。此问题每次都会出现。以下是复现问题的具体步骤及解决方案。 ... [详细]

蜡笔小新 2024-12-13 12:28:57
mysql
如何在Docker容器中持久化MySQL数据

作为一名Docker初学者，我已经成功创建了一个基于Alpine Linux 3.4的Docker镜像，该镜像安装了MySQL、Apache和PHP及其相关扩展。本文将探讨如何确保MySQL数据在Docker容器重启后仍能被保留。 ... [详细]

蜡笔小新 2024-12-12 17:40:54
port
MySQL中的Anemometer使用指南

本文详细介绍了如何在MySQL环境中部署和使用Anemometer，以帮助开发者有效监控和优化慢查询性能。通过本文，您将了解从环境准备到具体配置的全过程。 ... [详细]

蜡笔小新 2024-12-11 16:16:39
x86
C#反射reflection

C#shanzm目录简介引入1.新建类库2.类库的使用3.反射反射实例1反射实例2反射实例3简介反射（reflection)是什么？在《精通C#》中是这么说的“反射就是一个运行库发 ... [详细]

蜡笔小新 2024-12-11 15:12:35
node.js
Prototype.js 与 toString() 方法的区别

本文深入探讨了 Prototype.js 框架及其与 JavaScript 原生 toString() 方法之间的区别，适合对前端开发感兴趣的开发者阅读。文章将帮助读者理解两者在功能实现和应用场景上的不同，从而更好地利用这些工具进行高效编程。 ... [详细]

蜡笔小新 2024-12-11 10:28:59
node.js
优化 DropDownList 与 TextBox 的交互体验

本文介绍了一种解决方案，通过在 DropDownList 前添加一个 TextBox 来提升用户体验。当选项过多时，用户可以通过在 TextBox 中输入关键词来快速定位并选择相应的选项。 ... [详细]

蜡笔小新 2024-12-10 11:18:42
x86
数字图像处理与机器视觉随书代码在VS2012中编译报错的解决办法转载

https:www.jianshu.comp2d376a82ba8c?utm_campaignmaleskine&utm_contentnote&utm_mediumseo_not ... [详细]

蜡笔小新 2024-12-09 17:13:45
x86
SE11 - 数据元素管理与维护

本文介绍了如何在SAP系统中创建和维护数据类型，包括数据元素、域和结构体等。详细说明了每种类型的定义方式及其应用场景，并提供了创建时可能遇到问题的解决方案。 ... [详细]

蜡笔小新 2024-12-06 10:27:10
漏洞
开发笔记:新手DVWACSRF

开发笔记:新手DVWACSRF ... [详细]

蜡笔小新 2024-12-03 10:33:16
漏洞
使用JavaScript为ASP.NET DropDownList控件设置默认值

本文介绍如何利用JavaScript在页面加载时为ASP.NET的DropDownList控件设置特定的选项值。 ... [详细]

蜡笔小新 2024-12-01 22:26:31
漏洞
JavaFX TableView 默认滚动条位置问题

本文探讨了在 JavaFX 应用程序中使用 TableView 组件时遇到的滚动条问题，特别是当表格数据变化时，水平滚动条无法自动复位至初始位置的情况。 ... [详细]

蜡笔小新 2024-11-29 16:50:32
mysql
使用Python模拟登录教务系统抓取成绩并分析存储

本文详细介绍如何使用Python编程语言模拟登录学校教务系统，抓取学生的成绩信息，并进行数据分析和可视化处理，最终将数据存储到MySQL数据库中。 ... [详细]

蜡笔小新 2024-11-29 16:42:34
mysql
如何使用JavaScript获取绑定到DropDownList的ID值

本文探讨了在JavaScript中如何有效地从服务器控件DropDownList中获取绑定的ID值，而非仅仅是显示的文本值。这对于需要根据用户选择动态处理数据的应用场景非常有用。 ... [详细]

蜡笔小新 2024-11-29 13:19:37

biosan

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章