基于机器学习与深度学习的空气质量PM2.5预测

用北京逐小时气象数据预测未来 6 小时 PM2.5:时序特征工程 + 七模型双轨对比(Ridge/XGBoost/LightGBM 对阵 LSTM/GRU/Transformer/CNN-LSTM)+ TOPSIS 选模 + SHAP 可解释性,一条完整的时序预测流水线——代码、文档、配图全配齐。

  • 任务类型时序与信号
  • 专业方向环境/地理 · 计算机 · 数据科学

数据与任务

样本量北京 PM2.5 · 4.2 万条逐小时记录
核心方法时序特征工程 + 7 模型对比
技术栈PyTorch · LightGBM · SHAP

如果你想找一个把"时间序列预测"全流程做扎实、又能在面试和答辩里讲明白的 AI 项目,这个「空气质量 PM2.5 预测」很合适。

它的方向接地气又有看点——环境数据 + 机器学习 + 深度学习时序模型,配套也都给你备齐了,帮你真正搞懂它、在面试和答辩里讲清楚:带中文注释、能读懂的代码,一份从背景一直讲到 SHAP 解释的技术文档,把面试可能被追问的点连参考答案都写好的项目讲解资料,还有一整套能直接做 PPT 的配图。

flowchart LR A["北京逐小时<br/>气象监测数据"] --> B["时序特征工程<br/>(滞后/滚动/周期)"] B --> C["七模型双轨对比<br/>ML + 深度学习"] C --> D["TOPSIS + 熵权法<br/>客观选模"] C --> E["SHAP<br/>可解释性"] D --> F["预测未来 6 小时<br/>PM2.5 浓度"] E --> F

先说清楚,它到底在做什么

PM2.5 是空气污染最受关注的指标,能提前几小时预报浓度,对出行、健康防护、城市调度都有实际价值。但这件事不简单:PM2.5 受气象、风向、季节多重因素影响,又有很强的时间依赖——此刻的浓度跟前几个小时高度相关。难点在于,要把这种时序规律变成模型能用的特征,还得严防"用未来信息预测未来"的数据泄漏。

这个项目从北京 2010–2014 年共四万多条逐小时监测记录出发,搭了一条完整的时序预测流水线:先做数据探索摸清污染的季节和日内规律,再用滞后特征、滚动统计、周期编码、交互特征把原始数据扩成 35 维时序特征,然后让机器学习和深度学习两条路线的七种模型同台竞技,用 TOPSIS 客观选出综合最优模型,最后用 SHAP 把"哪些因素最影响 PM2.5"讲清楚。

PM2.5 浓度分布与月份变化
PM2.5 的浓度分布与季节规律——冬季明显偏高,这正是特征工程里加入周期编码的依据。

搞懂它,你能在面试里讲清楚什么

把下面几件事吃透,面试官顺着问下来你都能接得住。

时序特征怎么构建,又怎么防数据泄漏。 这是整个项目的地基,也是时序题最容易被追问的点。你要能讲清楚:预测 t+6 时刻的 PM2.5,所有特征只能用到 t 时刻及之前的信息,所以滞后特征至少要错开 6 小时、滚动统计也要先 shift 再算。配上时间周期的 sin/cos 编码、温度×风速这类交互特征,把一张普通的气象表扩成信息量足够的 35 维时序表示。

时序特征工程架构图
照着这张图,能把"从历史窗口到 35 维特征、再到预测 t+6"的时序特征工程讲明白。

为什么机器学习和深度学习两条路线一起上。 项目同时对比了 Ridge/XGBoost/LightGBM 三种机器学习模型,和 LSTM/GRU/Transformer/CNN-LSTM 四种深度学习时序模型。你能借此讲清楚两条路线的根本差别:树模型吃的是一张展平的特征表,深度学习吃的是滑动窗口切出来的序列;并能说明 Transformer 靠自注意力捕捉长程时序依赖、为什么在这个任务上拿到最优的拟合优度。

Transformer 预测值与真实值时序对比
预测值与真实值的逐小时对比——曲线整体贴合,能直观讲清模型抓住了 PM2.5 的涨落节奏,也能顺势讲清极端高值处的欠预测现象。

SHAP 怎么把模型讲成"看得懂的影响因素"。 SHAP 能排出哪些特征最推动 PM2.5 的预测,让黑盒变透明——历史浓度、西北风向、温度露点差这些因素的作用一目了然,跟大气扩散的物理常识也能对上。你能借此讲清楚模型不是瞎拟合,而是学到了合理的规律。

下面这组分析图也都给你做好了,可以直接放进答辩或面试 PPT

SHAP 特征重要性
SHAP 特征重要性排序
SHAP 蜂群影响图
SHAP 特征影响蜂群图
预测时序对比
预测 vs 真实时序对比

更关键的是,每张图怎么跑出来的、该怎么解读,技术文档里都讲清楚了——你能说明白每张图到底说明了什么。

面试官会问的,都帮你备好了

随便感受几个这个项目真实会被追问的问题:

  • 预测 t+6 的 PM2.5,怎么保证特征里没有混进未来信息(数据泄漏)?
  • 树模型和 LSTM/Transformer 吃的输入有什么本质区别?序列是怎么切出来的?
  • 模型对极端高浓度事件存在欠预测,原因是什么、能怎么缓解?

看到会愣一下?正常。配套的项目讲解资料把这个项目——从整体思路到每个流程细节、各种可能被追问的点——连参考答案都给你写好了。另外还有现成的简历描述,照着改就能写进简历;那套配图也能直接套进 PPT 模板,快速出一份面试 / 答辩 PPT。

配套资料:搞懂一个项目需要的,这里全都有

先看那份技术文档——从项目背景、数据探索、时序特征工程,一直讲到七模型对比、TOPSIS 选模与 SHAP 解释,图文并茂、推导清楚:

文档封面
封面 + 目录
数据探索页
数据探索与规律分析
结果分析页
预测结果与误差解读

代码也给你了——关键部分都带着中文注释,帮你读懂"它到底是怎么实现的"

时序特征工程代码
滞后 / 滚动特征(防数据泄漏)
Transformer 模型代码
Transformer 时序回归 + 位置编码

技术文档、项目讲解资料、源码注释、整套配图——搞懂一个项目、并在面试里讲清楚它,需要的全都备齐了。

适合谁

不管你是赶毕设、想给简历添个有分量的项目,还是在准备面试,这个题目都接得住。专业上,环境科学、大气科学、公共卫生、智慧城市、计算机与数据科学方向都很合适。时间序列预测是工业界和科研里都极常见的任务,把这条从特征工程到模型对比、再到可解释性的完整流水线真正搞懂、能讲出来,就是一个能写进简历、撑得起面试的项目。

想把这样的项目做成你简历上的亮点?

这是一套配齐了代码、文档、面试问答和配图的 AI+X 项目,可写进简历、在面试里讲清楚。 想做同类项目、或获取「基于机器学习与深度学习的空气质量PM2.5预测」的完整资料(代码 / 数据处理流程 / 论文文档 / 配图), 请联系为你介绍本页面的老师咨询,按你的情况定一个合适的项目。