当前位置: 开发笔记 > 编程语言 > 正文

基于Logistict回归的评分卡模型

作者：果粒仙子妹妹 | 来源：互联网 | 2023-09-18 11:55

点击「京东数科技术说」可快速关注

基于 Logistict 回归的评分卡模型

「摘要」 信用评分模型是将模型变量WOE编码方式离散化之后运用logistic回归模型进行的一种二分类变量的广义线性模型。利用信用评分模型得到的客户信用评分，可作为是否准予授信或为授信额度和利率提供参考。

在实际应用中，评分卡模型的作用日渐突出。如：评分卡模型可帮助银行、金融机构等更有效地管理资产风险，优化账户管理策略。银行通过信用评分模型，降低误判率，提高收入，并且能准确预测违约率，控制不良贷款比率。

今天，笔者将为大家介绍基于Logistic回归的评分卡模型，分享量化团队分析师构建评分卡模型的全过程，并逐步介绍模型算法、模型评价指标等具体实现方式。

评分卡分类

基于 Logistict 回归的评分卡模型

A卡（Applicationscore card）新客户申请审批

更准确地评估申请人的未来表现(违约率)，降低坏帐率；
加快(自动化)审批流程, 降低营运成本；
增加审批决策的客观性和一致性，提高客户满意度；

B卡（Behaviorscore card）现有客户管理

更好的客户管理策略, 提高赢利；
减少好客户的流失；
对可能拖欠的客户，提早预警；

C卡（Collectionscore card）早期催收

优化催收策略，提高欠帐的回收率；
减少不必要的催收行为，降低营运成本。

模型开发全流程

用一张图为大家展示，量化团队分析师开发评分卡模型的全流程，以及具体实现方式：

基于 Logistict 回归的评分卡模型

Step1：变量初选

通过等频分箱或最优分箱离散原始数据，计算IV值，剔除预测能力差的指标。

信息值（information value，简称”IV”）是常用的进行自变量筛选的指标，计算简单，并且有经验的判断法则，IV值的计算公式为：

基于 Logistict 回归的评分卡模型

Step2：变量剔除

通过变量聚类或者计算相关系数的方法剔除变量，这一步主要目的是解决多重共线性问题。多重共线性（Multicollinearity）是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。

Step3：数据离散化

数据离散化的目的是降低异常值的影响，同时增加模型的可解释性，通过BESTKs、卡方合并、决策树等有监督算法将连续变量离散化几个区间，然后进行WOE转换。

证据权重（Weight of Evidence，简称“WOE”）

基于 Logistict 回归的评分卡模型

WOE是对原始自变量的一种编码形式，要对一个变量进行WOE编码，需要首先把这个变量进行分组处理（也叫离散化、分箱）。

基于 Logistict 回归的评分卡模型

Step4：初步建模

将原始指标用WOE进行替换后，用logistic回归估计参数，并剔除参数估计为负的变量。

下面让我们来了解一下信用评分卡模型所依赖的Logistic回归算法。何为“回归”呢？当有一些数据点，用一条直线对这些点进行拟合（该直线称为最佳拟合直线），这个拟合过程就叫回归。那么，利用Logistic回归进行分类的主要思想就是根据现有数据对分类边界线建立回归公式，以此进行分类。“回归”源于最佳拟合，即使用最优化算法，找到最佳拟合参数集。

Logistic回归的实现：对于输入特征，每个特征乘以一个回归系数，将所有结果值相加带入Sigmoid函数中，从而得到一个0~1之间的数值，根据实际情况设定相关阈值，从而达到预测的目的。
最优化算法：如何找到最优回归系数，是Logistic回归的关键问题。

基于 Logistict 回归的评分卡模型

即：找到上式的机器学习中常用的最优化算法有：梯度下降法（GradientDescent）、牛顿法和拟牛顿法（Newton's method & Quasi-NewtonMethods）、共轭梯度法（Conjugate Gradient）等等，接下来简单介绍梯度下降法。

梯度下降法（Gradient Descent）：梯度下降即沿着某函数的梯度方向，找到该函数的最小值，如果梯度记为▽，则函数f(x,y)的梯度为:

基于 Logistict 回归的评分卡模型

则梯度下降算法的迭代公式为：基于 Logistict 回归的评分卡模型，其中，为步长。

Step5：人工干预

根据指标的业务意义、上下限、人数占比、违约比例调整分箱规则，即业务干预。

Step6：WOE更新

人工干预后，得到新的分箱，根据新分箱，更新WOE。

Step7：模型更新

更新完WOE之后，利用新的WOE值估计回归参数。

Step8：分数转化

根据Logistic回归估计的参数、分箱的WOE来确定每个区间的得分。

Step9：模型效果评估

我们利用AUC、KS等指标评估模型的预测能力。

AUC（Area Under Curve）

AUC实际上就是ROC曲线下的面积，ROC曲线反映了分类器的分类能力，结合考虑了分类器输出概率的准确性，AUC量化了ROC曲线的分类能力，越大分类效果越好，输出概率越合理。

KS (Kolmogorov-Smirnov)

K-S统计量被应用于信用评级模型主要是为了验证模型对违约对象的区分能力，是表现模型区分能力的验证指标；通常，如果模型的K-S统计量越大，表明模型区分正常客户和违约客户的能力越强。

Step10：模型监控

PSI (population stability index)

系统稳定性指数，主要考察了模型预测结果的稳定性，通过对建模样本和监控样本中客户的评分或评级分布的比较来判断模型预测结果的稳定性。系统稳定性指数越小，越稳定，表明监控样本的分数的分布情况和建模样本中的情况越相似，可以预期模型在监控样本中的性能表现和建模样本中的性能表现会很接近。

Step11：评分

下面的小示例，简单为大家展示评分卡及其计分模式：

基于 Logistict 回归的评分卡模型

如果该模型的基础分是50分，比如有个客户，大专毕业，男性，拥有自有住房，工作10年以上，那么他的分数就应该是：Score=50+14+9+24+12=109。

总结

本文介绍了基于Logistic回归的评分卡模型的实现流程，介绍了Logistic算法、IV值和WOE，以及评价模型的指标AUC、ks值、PSI等。在实际应用中，评分卡模型的作用日渐突出。量化团队根据业务需要开发各种不同评分卡模型，并尝试不同算法建模，试图更加科学、准确地构建模型，降低误判率，增加审批的客观性，提高客户的满意度。

关于我们

京东数科运营决策团队基于大数据环境，结合丰富的业务场景，利用机器学习专业技术，不断挖掘海量数据中蕴含的丰富信息，我们已将一系列机器学习模型应用到多个领域中，并且坚持在算法深度的道路上持续探索，致力于对未知信息和事件做出更精准预测，使业务运营策略更加精准有效。

京东数科技术说&技术课堂

▼▼▼

由京东数科-技术研发部策划组织

倡导“原创·实用·技术·专业”

致力于分享技术领域实战经验与技术干货

线上订阅“京东数科技术说”，线下聆听“技术课堂”

为加强技术分享、总结沉淀，提升数科技术影响力而搭建的

线上线下融合交流平台

基于 Logistict 回归的评分卡模型 不只一技之长 · 我有N技在手

咨询、建议、合作请联系：

刘嘉璐（liujialu）/张明瑛（zhangmingying3）

长按识别二维码关注我们

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持我们

推荐阅读

future
投融资周报 | Circle 达成 4 亿美元融资协议，唯一艺术平台 A 轮融资超千万美元

投融资周报 | Circle 达成 4 亿美元融资协议，唯一艺术平台 A 轮融资超千万美元 ... [详细]

蜡笔小新 2024-11-05 04:56:42
future
机器学习的持续探索与进展

在机器学习领域，深入探讨了概率论与数理统计的基础知识，特别是这些理论在数据挖掘中的应用。文章重点分析了偏差（Bias）与方差（Variance）之间的平衡问题，强调了方差反映了不同训练模型之间的差异，例如在K折交叉验证中，不同模型之间的性能差异显著。此外，还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡，以提高模型的泛化能力。 ... [详细]

蜡笔小新 2024-11-11 10:27:39
process
利用OpenCV和线性SVM实现人脸识别

本文介绍如何使用OpenCV和线性支持向量机（SVM）模型来开发一个简单的人脸识别系统，特别关注在只有一个用户数据集时的处理方法。 ... [详细]

蜡笔小新 2024-11-13 14:50:37
input
c/c++常用代码doc,ppt,xls文件格式转PDF格式[转]

[转]doc,ppt,xls文件格式转PDF格式http:blog.csdn.netlee353086articledetails7920355确实好用。需要注意的是#import ... [详细]

蜡笔小新 2024-11-12 16:19:40
sum
杜甫《喜晴》的两种英译比较

本文对比了杜甫《喜晴》的两种英文翻译版本：a. Pleased with Sunny Weather 和 b. Rejoicing in Clearing Weather。a 版由 alexcwlin 翻译并经 Adam Lam 编辑，b 版则由哈佛大学的宇文所安教授 (Prof. Stephen Owen) 翻译。 ... [详细]

蜡笔小新 2024-11-12 15:02:28
sum
飞桨助力产业智能化：百度自研AI硬件深度融合

在2019中国国际智能产业博览会上，百度董事长兼CEO李彦宏强调，人工智能应务实推进其在各行业的应用。随后，在“ABC SUMMIT 2019百度云智峰会”上，百度展示了通过“云+AI”推动AI工业化和产业智能化的最新成果。 ... [详细]

蜡笔小新 2024-11-12 00:45:20
数组
Cocos2d-x学习笔记：基础概念解析与内存管理机制深入探讨

在《Cocos2d-x学习笔记：基础概念解析与内存管理机制深入探讨》中，详细介绍了Cocos2d-x的基础概念，并深入分析了其内存管理机制。特别是针对Boost库引入的智能指针管理方法进行了详细的讲解，例如在处理鱼的运动过程中，可以通过编写自定义函数来动态计算角度变化，利用CallFunc回调机制实现高效的游戏逻辑控制。此外，文章还探讨了如何通过智能指针优化资源管理和避免内存泄漏，为开发者提供了实用的编程技巧和最佳实践。 ... [详细]

蜡笔小新 2024-11-11 14:49:31
config
Android 构建基础流程详解

Android 构建基础流程详解 ... [详细]

蜡笔小新 2024-11-10 15:45:20
stream
AOJ.863 分配书籍问题（深度优先搜索算法）

题目解析给定 n 个人和 n 种书籍，每个人都有一个包含自己喜好的书籍列表。目标是计算出满足以下条件的分配方案数量：1. 每个人都必须获得他们喜欢的书籍；2. 每本书只能分配给一个人。通过使用深度优先搜索算法，可以系统地探索所有可能的分配组合，确保每个分配方案都符合上述条件。该方法能够有效地处理这类组合优化问题，找到所有可行的解。 ... [详细]

蜡笔小新 2024-11-09 20:10:25
stream
独家解析：深度学习泛化理论的破解之道与应用前景

本文深入探讨了深度学习泛化理论的关键问题，通过分析现有研究和实践经验，揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素，并提出了改进模型泛化性能的有效策略。此外，还展望了这些理论在实际应用中的广阔前景，为未来的研究和开发提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 19:29:56
jar
使用Maven JAR插件将单个或多个文件及其依赖项合并为一个可引用的JAR包

本文介绍了如何利用Maven中的maven-assembly-plugin插件将单个或多个Java文件及其依赖项打包成一个可引用的JAR文件。首先，需要创建一个新的Maven项目，并将待打包的Java文件复制到该项目中。通过配置maven-assembly-plugin，可以实现将所有文件及其依赖项合并为一个独立的JAR包，方便在其他项目中引用和使用。此外，该方法还支持自定义装配描述符，以满足不同场景下的需求。 ... [详细]

蜡笔小新 2024-11-09 01:59:29
jar
能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察

本周科技前沿报道了多项重要进展，包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果，以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是，一款能够感知用户情绪状态的智能机器人即将问世，为未来的人机交互带来了全新的可能性。 ... [详细]

蜡笔小新 2024-11-05 20:45:31
jar
当前物联网领域十大核心技术解析：涵盖哪些关键技术？

经过近十年的技术革新，物联网已悄然渗透到日常生活中，对社会产生了深远影响。本文将详细解析当前物联网领域的十大核心关键技术，包括但不限于：1. 军事物联网技术，该技术通过先进的感知设备实现战场环境的实时监测与数据传输，提升作战效能和决策效率。其他关键技术还包括传感器网络、边缘计算、大数据分析等，这些技术共同推动了物联网的快速发展和广泛应用。 ... [详细]

蜡笔小新 2024-11-05 19:25:03
jar
Google 实验框架优化：实现更高效、更精准、更快速的测试

为了评估精心优化的模型与策略在实际环境中的表现，Google对其实验框架进行了全面升级，旨在实现更高效、更精准和更快速的在线测试。新的框架支持更多的实验场景，提供更好的数据洞察，并显著缩短了实验周期，从而加速产品迭代和优化过程。 ... [详细]

蜡笔小新 2024-11-04 21:02:34
jar
AdMob 广告变现潜力几何：收益预测与分析

Google AdMob 为不同规模的应用开发者提供了一种高效且便捷的盈利途径，通过在应用中展示精准定向的广告来实现收入增长。本文将深入探讨 AdMob 的广告变现潜力，结合实际案例和数据，对收益进行预测与分析，帮助开发者更好地理解和利用这一工具。 ... [详细]

蜡笔小新 2024-11-04 11:01:49