基于机器学习与大模型的企业破产预测
用台湾经济新报 6819 家上市公司的财务数据做破产预测:SMOTE 解极端不平衡(破产仅 3.2%)+ 五模型对比 + 熵权-TOPSIS 客观选模 + 阈值优化 + SHAP 找风险因子,再拉来 GPT-4o / Qwen / DeepSeek 做 ML vs 大模型对照——一条完整的金融风控建模流水线。
项目亮点
- 严重不平衡处理:破产样本仅3.2%,采用SMOTE过采样技术
- 高维特征筛选:95维→低方差过滤+高相关去除+衍生特征
- 5模型对比:LR / RF / SVM / XGBoost / LightGBM
- TOPSIS+熵权法多准则综合排名
数据与任务
| 样本量 | 台湾经济新报 · 6819 家上市公司 |
|---|---|
| 核心方法 | SMOTE + 五模型 + 熵权-TOPSIS + SHAP |
| 技术栈 | scikit-learn · XGBoost · LightGBM · SHAP |
如果你想找一个落在真实金融风控场景、又能把机器学习全流程讲透的项目,这个「企业破产预测」很合适。
它的题目本身就有分量——拿上市公司的财务报表预测谁会破产,是银行授信、债券评级、量化选股里都在做的事。配套也给你备齐了,帮你真正搞懂它、在面试和答辩里讲明白:带中文注释、能读懂的代码,一份从数据到 SHAP 再到大模型对照的技术说明文档,里面连简历描述和会被追问的面试问题都连答案写好了,还有一整套能直接做 PPT 的配图。
先说清楚,它到底在做什么
破产预测的难点不在"分类",而在数据极度不平衡:6819 家企业里真正破产的只占 3.2%。模型只要无脑全猜"不破产",准确率就能到 96%——但这种模型一家破产企业都抓不出来,在风控里毫无价值。所以真正要优化的不是准确率,而是在"漏掉一家破产企业"和"误伤一家健康企业"之间找平衡。
这个项目从台湾经济新报 6819 家上市公司、95 个财务指标出发,搭了一条完整的风控建模流水线:先清洗、用低方差与高相关过滤把 95 维压到 30 维并加上盈利、负债、持续盈利三个衍生指标,再用 SMOTE 只对训练集过采样把破产样本补到平衡;对比逻辑回归、随机森林、SVM、XGBoost、LightGBM 五种模型并逐一调参,用熵权-TOPSIS 客观选出最优模型,对它做阈值优化,最后用 SHAP 找出哪些财务指标最能预警破产。更进一步,还把同一批数据喂给 GPT-4o、Qwen-Max、DeepSeek-V3 三个大模型,做了一组 ML vs 大模型的对照实验。
搞懂它,你能在面试里讲清楚什么
把下面几件事吃透,面试官顺着风控这条线问下来你都能接得住。
极端不平衡怎么处理,为什么准确率会骗人。 这是这个项目的灵魂。你要能讲清楚为什么 96% 的准确率毫无意义,为什么这里要盯着召回率(别漏掉破产企业)和 F1,以及 SMOTE 为什么只能在训练集上做、绝不能碰测试集——否则就是数据泄露。
为什么五个模型还要客观选模。 项目对比了线性、集成树、核方法五类模型,但"哪个最好"不该拍脑袋。这里用熵权法给准确率、精确率、召回率、F1、AUC 五个指标自动定权,再用 TOPSIS 综合排名,把选模这件事做成了一套客观、可追溯的流程。配上这张架构图,你能把"特征工程 → 五模型 → 熵权-TOPSIS 选模"整条链路一口气讲明白。
SHAP 怎么把模型讲成"看得懂的风险因子"。 风控最怕黑盒——模型说一家企业要破产,你得说出凭什么。SHAP 能排出哪些财务指标最推动破产判断,还原出"盈利能力差、负债率高、现金流紧 → 破产风险高"这种符合财务直觉的逻辑,让模型的判断站得住脚、讲得清楚。
下面这组分析图也都给你做好了,可以直接放进答辩或面试 PPT:



更关键的是,每张图怎么跑出来的、该怎么解读,技术文档里都讲清楚了——你能说明白每张图到底说明了什么,而不只是把图贴上去。
面试官会问的,都帮你备好了
随便感受几个这个项目真实会被追问的问题:
- 数据里破产只占 3.2%,你为什么不直接看准确率?该看什么指标?
- SMOTE 为什么只能在训练集上做,在全量数据上做会出什么问题?
- 熵权法和 TOPSIS 各自解决了选模里的什么问题?
- 同样一批数据,机器学习和大模型谁更准?为什么?
看到会愣一下?正常。配套的项目讲解资料把这个项目——从整体思路到每个流程细节、各种可能被追问的点——连参考答案都给你写好了,连 ML 跟大模型那组对照该怎么讲都帮你梳理好了。另外还有现成的简历描述,照着改就能写进简历;那套配图也能直接套进 PPT 模板,快速出一份面试 / 答辩 PPT。
配套资料:搞懂一个项目需要的,这里全都有
先看那份技术说明文档——从数据探索、特征工程、五模型对比、阈值优化,一直讲到 SHAP 可解释性与大模型对照实验,图文并茂:



代码也给你了——关键部分都带着中文注释,帮你读懂"它到底是怎么实现的":左边是把 95 维财务指标压到 30 维的特征工程,右边是把财务报表翻译成自然语言、用大模型做思维链破产判断的那段:


技术文档、项目讲解资料、源码注释、整套配图——搞懂一个项目、并在面试里讲清楚它,需要的全都备齐了。
适合谁
不管你是赶毕设、想给简历添个有金融含量的项目,还是在准备面试,这个题目都接得住。专业上,计算机、人工智能、金融科技、数据科学、统计、经济金融方向都很合适——尤其是想往量化、风控、信用评级方向走的同学,破产预测是把机器学习落到真实金融场景的经典题。把这条从极端不平衡处理到可解释风控、再到大模型对照的完整流水线真正搞懂、能讲出来,就是一个能写进简历、撑得起面试的项目。
想把这样的项目做成你简历上的亮点?
这是一套配齐了代码、文档、面试问答和配图的 AI+X 项目,可写进简历、在面试里讲清楚。 想做同类项目、或获取「基于机器学习与大模型的企业破产预测」的完整资料(代码 / 数据处理流程 / 论文文档 / 配图), 请联系为你介绍本页面的老师咨询,按你的情况定一个合适的项目。