基于机器学习与深度学习的空气质量PM2.5预测

用北京逐小时气象数据预测未来 6 小时 PM2.5：时序特征工程 + 七模型双轨对比（Ridge/XGBoost/LightGBM 对阵 LSTM/GRU/Transformer/CNN-LSTM）+ TOPSIS 选模 + SHAP 可解释性，一条完整的时序预测流水线——代码、文档、配图全配齐。

任务类型时序与信号
专业方向环境/地理 · 计算机 · 数据科学

数据与任务

样本量	北京 PM2.5 · 4.2 万条逐小时记录
核心方法	时序特征工程 + 7 模型对比
技术栈	PyTorch · LightGBM · SHAP

如果你想找一个把"时间序列预测"全流程做扎实、又能在面试和答辩里讲明白的 AI 项目，这个「空气质量 PM2.5 预测」很合适。

它的方向接地气又有看点——环境数据 + 机器学习 + 深度学习时序模型，配套也都给你备齐了，帮你真正搞懂它、在面试和答辩里讲清楚：带中文注释、能读懂的代码，一份从背景一直讲到 SHAP 解释的技术文档，把面试可能被追问的点连参考答案都写好的项目讲解资料，还有一整套能直接做 PPT 的配图。

flowchart LR A["北京逐小时 气象监测数据"] --> B["时序特征工程 (滞后/滚动/周期)"] B --> C["七模型双轨对比 ML + 深度学习"] C --> D["TOPSIS + 熵权法 客观选模"] C --> E["SHAP 可解释性"] D --> F["预测未来 6 小时 PM2.5 浓度"] E --> F

先说清楚，它到底在做什么

PM2.5 是空气污染最受关注的指标，能提前几小时预报浓度，对出行、健康防护、城市调度都有实际价值。但这件事不简单：PM2.5 受气象、风向、季节多重因素影响，又有很强的时间依赖——此刻的浓度跟前几个小时高度相关。难点在于，要把这种时序规律变成模型能用的特征，还得严防"用未来信息预测未来"的数据泄漏。

这个项目从北京 2010–2014 年共四万多条逐小时监测记录出发，搭了一条完整的时序预测流水线：先做数据探索摸清污染的季节和日内规律，再用滞后特征、滚动统计、周期编码、交互特征把原始数据扩成 35 维时序特征，然后让机器学习和深度学习两条路线的七种模型同台竞技，用 TOPSIS 客观选出综合最优模型，最后用 SHAP 把"哪些因素最影响 PM2.5"讲清楚。

PM2.5 浓度分布与月份变化 — PM2.5 的浓度分布与季节规律——冬季明显偏高，这正是特征工程里加入周期编码的依据。

搞懂它，你能在面试里讲清楚什么

把下面几件事吃透，面试官顺着问下来你都能接得住。

时序特征怎么构建，又怎么防数据泄漏。 这是整个项目的地基，也是时序题最容易被追问的点。你要能讲清楚：预测 t+6 时刻的 PM2.5，所有特征只能用到 t 时刻及之前的信息，所以滞后特征至少要错开 6 小时、滚动统计也要先 shift 再算。配上时间周期的 sin/cos 编码、温度×风速这类交互特征，把一张普通的气象表扩成信息量足够的 35 维时序表示。

时序特征工程架构图 — 照着这张图，能把"从历史窗口到 35 维特征、再到预测 t+6"的时序特征工程讲明白。

为什么机器学习和深度学习两条路线一起上。 项目同时对比了 Ridge/XGBoost/LightGBM 三种机器学习模型，和 LSTM/GRU/Transformer/CNN-LSTM 四种深度学习时序模型。你能借此讲清楚两条路线的根本差别：树模型吃的是一张展平的特征表，深度学习吃的是滑动窗口切出来的序列；并能说明 Transformer 靠自注意力捕捉长程时序依赖、为什么在这个任务上拿到最优的拟合优度。

Transformer 预测值与真实值时序对比 — 预测值与真实值的逐小时对比——曲线整体贴合，能直观讲清模型抓住了 PM2.5 的涨落节奏，也能顺势讲清极端高值处的欠预测现象。

SHAP 怎么把模型讲成"看得懂的影响因素"。 SHAP 能排出哪些特征最推动 PM2.5 的预测，让黑盒变透明——历史浓度、西北风向、温度露点差这些因素的作用一目了然，跟大气扩散的物理常识也能对上。你能借此讲清楚模型不是瞎拟合，而是学到了合理的规律。

下面这组分析图也都给你做好了，可以直接放进答辩或面试 PPT：

更关键的是，每张图怎么跑出来的、该怎么解读，技术文档里都讲清楚了——你能说明白每张图到底说明了什么。

面试官会问的，都帮你备好了

随便感受几个这个项目真实会被追问的问题：

预测 t+6 的 PM2.5，怎么保证特征里没有混进未来信息（数据泄漏）？

树模型和 LSTM/Transformer 吃的输入有什么本质区别？序列是怎么切出来的？

模型对极端高浓度事件存在欠预测，原因是什么、能怎么缓解？

看到会愣一下？正常。配套的项目讲解资料把这个项目——从整体思路到每个流程细节、各种可能被追问的点——连参考答案都给你写好了。另外还有现成的简历描述，照着改就能写进简历；那套配图也能直接套进 PPT 模板，快速出一份面试 / 答辩 PPT。

配套资料：搞懂一个项目需要的，这里全都有

先看那份技术文档——从项目背景、数据探索、时序特征工程，一直讲到七模型对比、TOPSIS 选模与 SHAP 解释，图文并茂、推导清楚：

代码也给你了——关键部分都带着中文注释，帮你读懂"它到底是怎么实现的"：

Transformer 模型代码 — Transformer 时序回归 + 位置编码

技术文档、项目讲解资料、源码注释、整套配图——搞懂一个项目、并在面试里讲清楚它，需要的全都备齐了。

适合谁

不管你是赶毕设、想给简历添个有分量的项目，还是在准备面试，这个题目都接得住。专业上，环境科学、大气科学、公共卫生、智慧城市、计算机与数据科学方向都很合适。时间序列预测是工业界和科研里都极常见的任务，把这条从特征工程到模型对比、再到可解释性的完整流水线真正搞懂、能讲出来，就是一个能写进简历、撑得起面试的项目。

想把这样的项目做成你简历上的亮点？

这是一套配齐了代码、文档、面试问答和配图的 AI+X 项目，可写进简历、在面试里讲清楚。想做同类项目、或获取「基于机器学习与深度学习的空气质量PM2.5预测」的完整资料（代码 / 数据处理流程 / 论文文档 / 配图），请联系为你介绍本页面的老师咨询，按你的情况定一个合适的项目。