基于机器学习的半导体产量预测

半导体制造良率预测：从 590 维传感器特征出发，做缺失/方差/相关过滤 + ANOVA 选维 + SMOTE，五模型对比 + 熵权-TOPSIS 客观选模 + SHAP 溯源——一条完整的高维工业数据建模流水线。

任务类型机器学习
专业方向计算机 · 人工智能 · 数据科学 · 电气/自动化

项目亮点

来源: [UCI SECOM Dataset](https://archive.ics.uci.edu/ml/datasets/SECOM)
样本数: 1,567 条记录
特征数: 590 个传感器特征
目标变量: 产品质量（-1=通过, 1=失败）

数据与任务

样本量	UCI SECOM · 1567×590 维
核心方法	特征工程 + 5 模型 + TOPSIS
技术栈	scikit-learn · imblearn · SHAP

如果你想找一个能写进简历、面试又能讲清楚，方向还挺有分量的 AI 项目，这个「用机器学习预测半导体良率」会很合适。

它落在工业 4.0 / 智能制造的真实场景上：一条芯片产线上几百个传感器实时采集数据，要在产品下线前就判断它会通过还是失败。配套都给你备齐了，帮你真正搞懂它、在面试和答辩里讲明白：带中文注释、能读懂的代码，一份从背景一直讲到 SHAP 溯源的技术文档，里面连面试问题带参考答案、现成的简历描述都写好了，还有一整套能直接做 PPT 的配图。

flowchart LR A["590 维 传感器数据"] --> B["清洗 + 特征工程 降到 53 维"] B --> C["SMOTE 处理 14:1 不平衡"] C --> D["五模型对比 + 网格调参"] D --> E["熵权-TOPSIS 客观选模"] D --> F["SHAP 溯源关键传感器"] E --> G["通过 / 失败"] F --> G

先说清楚，它到底在做什么

半导体制造里，一片晶圆要经过几百道工序，产线上布满传感器。等到测出"这片是次品"往往已经浪费了大量工时和材料，所以业界很想提前预测良率、把质量问题拦在前面。

难点是这份数据特别"硬"：UCI SECOM 数据集有 1567 条记录、590 维传感器特征，但只有约 6.6% 是失败样本（通过∶失败 ≈ 14∶1），还夹着大量缺失值。高维、稀疏、极端不平衡——直接喂给模型基本学不到东西。

这个项目就是冲着这三个难点去的：先用一套特征工程流水线把 590 维压到 53 维（高缺失列删除 → 中位数填充 → 低方差过滤 → 高相关去除 → ANOVA F 检验选 Top50 → 再加传感器均值/标准差/极差三个衍生特征），再用 SMOTE 在训练集上把少数类补齐，然后对比五种模型、用熵权-TOPSIS 客观选出最优解，最后用 SHAP 反查到底是哪些传感器在左右良率。

传感器特征与失败标签相关性 — 每个传感器与"失败"的相关性排名——正相关（蓝）拉高失败风险、负相关（红）压低。这张图是特征筛选的依据，面试时能用它说明"为什么是这几十个传感器最关键"。

搞懂它，你能在面试里讲清楚什么

把下面几件事吃透，面试官顺着问下来你都能接得住。

590 维怎么压到 53 维，这套高维特征处理是地基。 这是全项目最有讲头的部分。你要能讲清楚这条流水线每一步在干什么、为什么这个顺序：先删高缺失列、再删低方差和高相关的冗余列，最后用 ANOVA F 检验做有监督筛选留下最相关的 50 维，外加三个统计衍生特征。讲明白它，就等于讲明白了"高维工业数据该怎么收拾"。

特征工程与模型评估整体架构 — 照着这张架构图，能把"从 590 维原始特征到最终预测"的完整管线一口气讲下来——左边特征工程、右边五模型评估与选优。

极端不平衡下，为什么不能只看准确率。 14∶1 的不平衡意味着"全猜通过"也有 93% 准确率，但那对找次品毫无用处。你要能讲清楚为什么要看召回、F1、AUC，为什么要在训练集上做 SMOTE，以及阈值优化（把判定阈值从 0.5 调到 0.62）是怎么进一步把 F1 提上去的。

熵权-TOPSIS 怎么把"选哪个模型"变成客观决策。 五个模型在五个指标上各有高低，谁也不全赢。项目用熵权法自动给指标定权重（让区分度大的指标权重更高），再用 TOPSIS 算出每个模型到"理想解"的距离做综合排名——把"凭感觉挑模型"换成一个可解释、可复述的决策过程。

SHAP 怎么把黑盒模型讲成"看得懂的传感器"。 SHAP 能排出哪些传感器最推动"失败"判断、每个样本上各特征往哪个方向使劲，让模型从黑盒变透明，也对应到产线上"该重点盯哪几个工位"。

下面这组分析图也都给你做好了，可以直接放进答辩或面试 PPT：

更关键的是，每张图怎么跑出来的、该怎么解读，技术文档里都讲清楚了——你不是只会贴图，而是能说明白每张图到底说明了什么。

面试官会问的，都帮你备好了

随便感受几个这个项目真实会被追问的问题：

590 维降到 53 维，每一步删掉的是什么样的特征？顺序能不能换？

失败率只有 6.6%，为什么 SMOTE 只在训练集做、不在测试集做？

熵权法的权重是怎么算出来的？为什么召回的权重最高？

看到会愣一下？正常。配套的项目讲解资料把这个项目——从整体思路到每个流程细节、各种可能被追问的点——连参考答案都给你写好了。里面还有现成的简历描述，照着改就能写进简历；那套配图也能直接套进 PPT 模板，快速出一份面试 / 答辩 PPT。

配套资料：搞懂一个项目需要的，这里全都有

先看那份技术文档——从工业背景、数据探索，到特征工程、五模型方法、TOPSIS 选优，一直讲到 SHAP 可解释性，图文并茂：

代码也给你了——关键部分都带着中文注释，帮你读懂"它到底是怎么实现的"：

技术文档、面试问答、源码注释、整套配图——搞懂一个项目、并在面试里讲清楚它，需要的全都备齐了。

适合谁

不管你是赶毕设、想给简历添个有分量的项目，还是在准备面试，这个题目都接得住。它把"高维特征处理 + 不平衡分类 + 客观选模 + 可解释性"这条工业数据建模主线串得很完整，工业味道也足。专业上，计算机、人工智能、数据科学、电气与自动化、工业工程、智能制造方向都很合适。把这条流水线真正搞懂、能讲出来，就是一个能写进简历、撑得起面试的项目。

想把这样的项目做成你简历上的亮点？

这是一套配齐了代码、文档、面试问答和配图的 AI+X 项目，可写进简历、在面试里讲清楚。想做同类项目、或获取「基于机器学习的半导体产量预测」的完整资料（代码 / 数据处理流程 / 论文文档 / 配图），请联系为你介绍本页面的老师咨询，按你的情况定一个合适的项目。