基于机器学习的信贷违约预测与模型稳定性分析

用真实多表金融数据做信贷违约预测，并回答业界最在意的问题——模型上线后能稳多久。判别力 + 稳定性双维评价、PSI 概念漂移诊断、5 模型对比 + SHAP 可解释，配套带注释代码、技术文档、面试问答和整套现成配图，适合做毕设、给简历加亮点、准备面试。

任务类型机器学习
专业方向交通运输 · 医疗健康 · 计算机

项目亮点

不只追求 AUC，更追求稳定：实现 Home Credit 2024 官方 `gini stability` 指标，逐周衡量判别力随时间的衰减与波动。
时间划分而非随机划分：用 `WEEK_NUM` 按时间切分，模拟"用过去预测未来"，并定量揭示随机划分的乐观偏差。
概念漂移诊断：用 PSI（群体稳定性指数）定位分布漂移最严重的特征。
真实大规模多表数据：约 150 万笔申请、92 个申请周，5 张关联表多表聚合特征工程。

如果你想找一个能写进简历、面试时又特别有话讲的 AI 项目，这个「用机器学习做信贷违约预测、还专门分析模型稳定性」的题目会很合适。

它踩在金融风控最核心的应用上，方向听起来就很扎实——真实银行级多表数据、违约预测、概念漂移。更重要的是，它没有停在「又一个 XGBoost 跑出 AUC 多少」的烂大街做法上，而是多问了一句业界真正关心的问题：模型上线之后，到底能稳定运行多久？ 这个角度本身就是面试里的加分项。配套也都给你备齐了，帮你真正把它搞懂、在面试和答辩里讲明白：带中文注释、能读懂的代码，一份从背景讲到每步实现的技术文档，一份把面试问题连答案都写好的问答文档，还有一整套可以直接拿去做 PPT 的配图。

flowchart LR A["真实多表数据 (150 万笔申请)"] --> B["多表聚合 特征工程"] B --> C["按申请时间划分 (用过去预测未来)"] C --> D["5 模型对比 LR/RF/XGB/LGB/Cat"] D --> E["双维评价 判别力 + 稳定性"] E --> F["PSI 漂移诊断 + SHAP 可解释"] F --> G["TOPSIS 综合选型"]

先说清楚，它到底在做什么

信贷违约预测，就是银行放贷前判断「这个人会不会还不上钱」。这事看起来是个标准的二分类，但真正难的地方藏在两处。

第一处，数据是真实的、而且是一堆相互关联的表。这个项目用的是 Home Credit 2024 竞赛的真实数据——约 150 万笔贷款申请、横跨 21 个月，还分散在主表、静态申请表、征信局表、历史申请、人口信息、税务收入等好几张表里。每个申请人在「历史申请」「税务」这些表里往往有很多行（一对多）。你不能直接把它们拼起来喂模型，得先把每个人的多行记录按规则聚合成一行（取均值、最大值、笔数等），再压成一张能建模的宽表。光把这堆真实多表数据安全地处理干净，就已经是很多简历项目不具备的工程含量。

第二处，也是这个项目最出彩的地方：学界比的是「测试集 AUC 多高」，业界却更在乎「上线后能稳多久」。 随着时间推移、客群变化、宏观波动，模型的判别力会悄悄衰减，这叫概念漂移（concept drift）。一个测试集 AUC 很高、但半年内就掉下去的模型，远不如一个准头稍低、却能长期稳定的模型。这正是这场竞赛把评价指标从单纯 AUC 改成「gini stability」的原因。

概念漂移示意 — 一张图说清「概念漂移」：训练时模型分得很开，上线半年后客群分布变了、模型就开始失效——这就是为什么不能只看一时的 AUC。

所以这个项目的思路是：先把真实多表数据聚合成特征，严格按申请时间划分（用早期的客户训练、用晚期的客户测试，模拟「用过去预测未来」），然后对比 5 个模型，同时打两个分——判别力（准不准）和稳定性（能不能持续准），再用 PSI 找出哪些特征在悄悄漂移、用 SHAP 解释模型凭什么判定违约，最后用 TOPSIS 把这些维度综合起来选出最该上线的模型。

违约率随时间变化 — 真实数据里违约率本身就随时间起伏——这正是「为什么要按时间评估、为什么要盯稳定性」的最直接证据。

搞懂它，你能在面试里讲清楚什么

这才是这个项目对你最大的价值。把下面几件事吃透，面试官顺着风控、模型评估这条线深挖时，你都能不慌不忙地接住。

怎么把「稳定性」讲成一个能量化的指标。 这是全项目的灵魂，也是最能让你从一堆「调包跑模型」的候选人里跳出来的点。你能讲清楚官方 gini stability 是怎么算的：先把测试期按周切开，逐周算一次判别力（gini），再用一条直线去拟合这串逐周分数——直线的斜率代表「随时间下滑的速度」，分数围绕直线的波动代表「稳不稳」。最终的稳定性分 = 平均判别力 + 对下滑的惩罚 − 对波动的惩罚。一个高 AUC 但快速衰减的模型，稳定性分会被狠狠拉低。能把这套逻辑讲明白，面试官立刻知道你不是只会看一个数字。

稳定性评价框架 — 面试常被追问「你这个稳定性到底怎么定义的」，照着这张框架图，平均判别力、下滑惩罚、波动惩罚三块，三句话就能讲透。

怎么把实验结论讲出「有判断力」的味道。 这个项目最漂亮的一个结论是：最准的那个，不是最稳的那个。 对比下来，CatBoost 的 AUC 最高，但 LightGBM 的稳定性最高、而且 TOPSIS 综合排名第一。这意味着如果只看 AUC 就选型，你会选错。把这个「准 ≠ 稳、选型要综合权衡」的认知讲出来，比单纯背一个「我做到了 AUC 0.78」要高一个层次。下面这张稳定性 vs 判别力散点图，就是把这个权衡画在了一张图上。

稳定性与判别力散点 — 横轴判别力、纵轴稳定性——一眼看出「又准又稳」的模型落在哪个角落，面试讲选型逻辑时极有说服力。

怎么讲明白「时间划分」和「概念漂移诊断」。 你能说清楚两件很专业的事：一是为什么不能随机划分——随机划分会把未来的样本混进训练，造成时间信息泄露、AUC 虚高，这个项目专门做了对照实验把这种「乐观偏差」量化出来；二是怎么用 PSI（群体稳定性指数）给每个特征体检，定位出分布漂移最严重的特征，在模型性能恶化之前就提前预警。这两点都是真实风控团队每天在做的事，讲出来非常落地。

下面这组分析图也都给你做好了，可以直接放进答辩或面试 PPT：

更关键的是，每一张图是怎么跑出来的、该怎么解读，技术文档里都讲清楚了——所以你不是只会往 PPT 上贴图，而是能说明白每张图到底说明了什么、能支撑你哪句结论。

模型对比与可解释性，一并备齐

除了稳定性这条主线，常规但必问的「模型对比」和「可解释性」也都做得很完整。5 个模型（逻辑回归基线、随机森林、XGBoost、LightGBM、CatBoost）在同一套数据上横向比 AUC、KS、违约类 F1；针对约 3% 的极端类别不平衡，用加权而刻意不用 SMOTE（合成过采样会破坏时间结构、污染漂移信号）——这个取舍本身就是一个能体现你想清楚了的面试点。

可解释性这块用 SHAP 把模型「打开」——全局重要性看哪些因素最影响违约判断，蜂群图看每个特征是把风险推高还是拉低，单样本瀑布图能解释「为什么这一笔被判为高风险」。风控对透明度的要求很高，能把 SHAP 讲明白，是这个方向面试的硬通货。

面试官会问的，都帮你备好了

随便感受几个这个项目真实会被追问的问题：

为什么不能随机划分训练测试集，非要按时间切？随机划分会带来什么问题？

稳定性指标和 AUC 是什么关系？为什么 AUC 最高的模型反而没被选中？

违约率只有 3%，为什么不能看准确率？你又是怎么处理这种极端不平衡的？

看到这几个是不是会想停下来组织一下语言？正常。配套的面试问答文档把这个项目——从整体思路到每个流程细节、各种可能被追问的点——连参考答案都给你写好了。

另外还有现成的简历描述，照着改就能写进简历；那一整套配图也能直接套进 PPT 模板，快速出一份面试 / 答辩 PPT。你要做的不是死记，而是理解，再用自己的话讲一遍。

配套资料：搞懂一个项目需要的，这里全都有

先看那份技术文档——从研究背景一直讲到每一步实现，图文并茂，把稳定性指标、概念漂移、PSI、SHAP 这些原理从头帮你吃透：

代码也给你了——关键部分都带着中文注释，帮你读懂「它到底是怎么实现的」，面试被追问细节时也答得上来：

技术文档、面试问答、源码注释、整套配图——搞懂这个项目、并在面试里讲清楚它，需要的全都备齐了。

适合谁

不管你是赶毕设、想给简历添一个有金融风控分量的项目，还是在准备数据/算法岗的面试，这个题目都接得住。专业上，金融科技、数据科学、人工智能、统计、计算机、经济金融都很合适，尤其想往银行、消费金融、风控、量化方向走的同学，这是一个能直接对话业务的好选题。资料、讲解和面试答案都给你铺好了，把它真正搞懂、能讲出来，就是一个能写进简历、撑得起面试的项目。

想把这样的项目做成你简历上的亮点？

这是一套配齐了代码、文档、面试问答和配图的 AI+X 项目，可写进简历、在面试里讲清楚。想做同类项目、或获取「基于机器学习的信贷违约预测与模型稳定性分析」的完整资料（代码 / 数据处理流程 / 论文文档 / 配图），请联系为你介绍本页面的老师咨询，按你的情况定一个合适的项目。