基于机器学习的半导体产量预测

半导体制造良率预测:从 590 维传感器特征出发,做缺失/方差/相关过滤 + ANOVA 选维 + SMOTE,五模型对比 + 熵权-TOPSIS 客观选模 + SHAP 溯源——一条完整的高维工业数据建模流水线。

  • 任务类型机器学习
  • 专业方向计算机 · 人工智能 · 数据科学 · 电气/自动化

项目亮点

  • 来源: [UCI SECOM Dataset](https://archive.ics.uci.edu/ml/datasets/SECOM)
  • 样本数: 1,567 条记录
  • 特征数: 590 个传感器特征
  • 目标变量: 产品质量(-1=通过, 1=失败)

数据与任务

样本量UCI SECOM · 1567×590 维
核心方法特征工程 + 5 模型 + TOPSIS
技术栈scikit-learn · imblearn · SHAP

如果你想找一个能写进简历、面试又能讲清楚,方向还挺有分量的 AI 项目,这个「用机器学习预测半导体良率」会很合适。

它落在工业 4.0 / 智能制造的真实场景上:一条芯片产线上几百个传感器实时采集数据,要在产品下线前就判断它会通过还是失败。配套都给你备齐了,帮你真正搞懂它、在面试和答辩里讲明白:带中文注释、能读懂的代码,一份从背景一直讲到 SHAP 溯源的技术文档,里面连面试问题带参考答案、现成的简历描述都写好了,还有一整套能直接做 PPT 的配图。

flowchart LR A["590 维<br/>传感器数据"] --> B["清洗 + 特征工程<br/>降到 53 维"] B --> C["SMOTE<br/>处理 14:1 不平衡"] C --> D["五模型对比<br/>+ 网格调参"] D --> E["熵权-TOPSIS<br/>客观选模"] D --> F["SHAP<br/>溯源关键传感器"] E --> G["通过 / 失败"] F --> G

先说清楚,它到底在做什么

半导体制造里,一片晶圆要经过几百道工序,产线上布满传感器。等到测出"这片是次品"往往已经浪费了大量工时和材料,所以业界很想提前预测良率、把质量问题拦在前面

难点是这份数据特别"硬":UCI SECOM 数据集有 1567 条记录、590 维传感器特征,但只有约 6.6% 是失败样本(通过∶失败 ≈ 14∶1),还夹着大量缺失值。高维、稀疏、极端不平衡——直接喂给模型基本学不到东西。

这个项目就是冲着这三个难点去的:先用一套特征工程流水线把 590 维压到 53 维(高缺失列删除 → 中位数填充 → 低方差过滤 → 高相关去除 → ANOVA F 检验选 Top50 → 再加传感器均值/标准差/极差三个衍生特征),再用 SMOTE 在训练集上把少数类补齐,然后对比五种模型、用熵权-TOPSIS 客观选出最优解,最后用 SHAP 反查到底是哪些传感器在左右良率。

传感器特征与失败标签相关性
每个传感器与"失败"的相关性排名——正相关(蓝)拉高失败风险、负相关(红)压低。这张图是特征筛选的依据,面试时能用它说明"为什么是这几十个传感器最关键"。

搞懂它,你能在面试里讲清楚什么

把下面几件事吃透,面试官顺着问下来你都能接得住。

590 维怎么压到 53 维,这套高维特征处理是地基。 这是全项目最有讲头的部分。你要能讲清楚这条流水线每一步在干什么、为什么这个顺序:先删高缺失列、再删低方差和高相关的冗余列,最后用 ANOVA F 检验做有监督筛选留下最相关的 50 维,外加三个统计衍生特征。讲明白它,就等于讲明白了"高维工业数据该怎么收拾"。

特征工程与模型评估整体架构
照着这张架构图,能把"从 590 维原始特征到最终预测"的完整管线一口气讲下来——左边特征工程、右边五模型评估与选优。

极端不平衡下,为什么不能只看准确率。 14∶1 的不平衡意味着"全猜通过"也有 93% 准确率,但那对找次品毫无用处。你要能讲清楚为什么要看召回、F1、AUC,为什么要在训练集上做 SMOTE,以及阈值优化(把判定阈值从 0.5 调到 0.62)是怎么进一步把 F1 提上去的。

熵权-TOPSIS 怎么把"选哪个模型"变成客观决策。 五个模型在五个指标上各有高低,谁也不全赢。项目用熵权法自动给指标定权重(让区分度大的指标权重更高),再用 TOPSIS 算出每个模型到"理想解"的距离做综合排名——把"凭感觉挑模型"换成一个可解释、可复述的决策过程。

SHAP 怎么把黑盒模型讲成"看得懂的传感器"。 SHAP 能排出哪些传感器最推动"失败"判断、每个样本上各特征往哪个方向使劲,让模型从黑盒变透明,也对应到产线上"该重点盯哪几个工位"。

下面这组分析图也都给你做好了,可以直接放进答辩或面试 PPT

SHAP 蜂群图
SHAP 特征影响(蜂群)
ROC 对比
五模型 ROC 对比
SHAP 重要性
关键传感器重要性排名

更关键的是,每张图怎么跑出来的、该怎么解读,技术文档里都讲清楚了——你不是只会贴图,而是能说明白每张图到底说明了什么。

面试官会问的,都帮你备好了

随便感受几个这个项目真实会被追问的问题:

  • 590 维降到 53 维,每一步删掉的是什么样的特征?顺序能不能换?
  • 失败率只有 6.6%,为什么 SMOTE 只在训练集做、不在测试集做?
  • 熵权法的权重是怎么算出来的?为什么召回的权重最高?

看到会愣一下?正常。配套的项目讲解资料把这个项目——从整体思路到每个流程细节、各种可能被追问的点——连参考答案都给你写好了。里面还有现成的简历描述,照着改就能写进简历;那套配图也能直接套进 PPT 模板,快速出一份面试 / 答辩 PPT。

配套资料:搞懂一个项目需要的,这里全都有

先看那份技术文档——从工业背景、数据探索,到特征工程、五模型方法、TOPSIS 选优,一直讲到 SHAP 可解释性,图文并茂:

文档封面
封面 + 目录
方法页
架构与模型方法
SHAP 页
SHAP 可解释性

代码也给你了——关键部分都带着中文注释,帮你读懂"它到底是怎么实现的"

特征工程代码
高维特征工程流水线
TOPSIS 代码
熵权 + TOPSIS 综合选模

技术文档、面试问答、源码注释、整套配图——搞懂一个项目、并在面试里讲清楚它,需要的全都备齐了。

适合谁

不管你是赶毕设、想给简历添个有分量的项目,还是在准备面试,这个题目都接得住。它把"高维特征处理 + 不平衡分类 + 客观选模 + 可解释性"这条工业数据建模主线串得很完整,工业味道也足。专业上,计算机、人工智能、数据科学、电气与自动化、工业工程、智能制造方向都很合适。把这条流水线真正搞懂、能讲出来,就是一个能写进简历、撑得起面试的项目。

想把这样的项目做成你简历上的亮点?

这是一套配齐了代码、文档、面试问答和配图的 AI+X 项目,可写进简历、在面试里讲清楚。 想做同类项目、或获取「基于机器学习的半导体产量预测」的完整资料(代码 / 数据处理流程 / 论文文档 / 配图), 请联系为你介绍本页面的老师咨询,按你的情况定一个合适的项目。