基于时空图神经网络的城市出租车需求预测与调度分析

把纽约市按出租车区网格化,预测各区每小时的打车需求,为车辆调度与潮汐运力提供依据。基于 NYC TLC 295 万条真实行程,构造时空特征对比均值/LightGBM/LSTM 三类模型——配套带注释代码、技术文档、面试问答和整套配图,适合做毕设、给简历加亮点、准备面试。

  • 任务类型深度学习-图神经网络
  • 专业方向交通运输 · 计算机

项目亮点

  • 数据图(20 张,由真实结果生成):全天需求曲线、工作日vs周末、按星期/节假日对比、
  • AI 生成图(3 张,`docs/latex/figures/`):项目流程图、核心方法架构图(含 STGCN
  • 数据流水线:pyarrow 只读两列高效载入 → 过滤范围外时间戳/无效区域 ID →
  • 特征:小时 / 星期 / 是否周末 / 是否节假日(元旦)+ 滞后(前 1h、前 24h、前 168h)

如果你正在找一个能写进简历、面试时又能讲清楚的 AI 项目,这个「用机器学习预测城市打车需求」的题目会很合适。

它的方向很有分量——智能交通 + 时空数据 + 多模型对比,而且贴近真实业务:能讲清楚一座城市每个区、每个小时大概会有多少人打车。配套也都给你备齐了,帮你真正搞懂它、在面试和答辩里讲明白:带中文注释、能读懂的代码,一份图文并茂的技术文档,一份把面试问题连答案都写好的问答文档,还有一整套可以直接拿去做 PPT 的配图。

flowchart LR A["NYC 出租车<br/>295 万条行程"] --> B["按 区域×小时<br/>聚合需求"] B --> C["时空特征<br/>日历+滞后+滑窗"] C --> D["三类模型对比<br/>均值/LightGBM/LSTM"] D --> E["区域需求预测<br/>支撑车辆调度"]

先说清楚,它到底在做什么

打车这件事,供需经常对不上:有的地方乘客排长队叫不到车,有的地方司机空跑找不到活。要把车调到对的地方,前提是提前知道哪个区、哪个时段会爆单——这就是「短时区域需求预测」,是智能交通和车辆调度的核心技术。

这个项目的思路很直接:拿纽约市出租车管理局(NYC TLC)公开的 2024 年 1 月真实行程数据(清洗后约 295 万条),把整座城市按官方的「出租车区」切成一格一格,再按「区域 × 小时」统计出每个格子每个钟点的打车需求量,最后训练模型去预测它未来的走势。预测准了,就能把附近的空车提前引导到即将爆单的区域,缩短乘客等待、降低司机空驶。

项目最直观的一张图,是用官方地理边界画出来的真实区域需求热力地图——一眼就能看出需求热区集中在哪里:

纽约市出租车需求空间分布地图
面试讲「需求热区在哪」就用这张图:用官方出租车区边界着色,颜色越深需求越高,热区集中在曼哈顿核心区和两大机场——空间高度不均,正是要做调度的根本原因。

搞懂它,你能在面试里讲清楚什么

这才是这个项目对你最大的价值。把下面几件事吃透,面试官问到相关问题时,你都能从容答上来。

为什么必须按时间划分数据,而不是随机划分。 这是时空预测最容易被追问、也最能体现你专业度的一点。预测是「用过去推未来」,如果随机划分,未来的数据会泄漏进训练集,模型相当于偷看了答案,评测分数虚高、一上线就翻车。这个项目严格按时间留出:前 17 天训练、最后 7 天测试,贴近真实上线的样子。把这个讲明白,面试官立刻知道你懂门道。

全天 24 小时需求曲线
讲「需求的时间规律」就用这张:一天里凌晨最低、傍晚 18 点冲到高峰,强烈的日周期正是模型最依赖的信号——也是后面滞后特征的来源。

滞后特征是怎么构造的、为什么这么有用。 出租车需求有极强的「日周期」和「周周期」:今天傍晚的需求,和昨天同一时刻、上周同一时刻高度相似。项目正是据此构造了三个滞后特征——前 1 小时(最近趋势)、前 24 小时(昨日同时段)、前 168 小时(上周同时段),再加滑动均值。关键细节是这些特征都做了 shift 错位,保证只用历史、不碰未来,这点面试常被追问。特征重要性图也证实:这几个滞后特征的贡献排在最前。

LightGBM 特征重要性
这张特征重要性图是面试的「证据」:前 1 小时、上周同时段、昨日同时段三个滞后特征贡献最高——你能用它佐证「为什么这样构造特征」,而不是空口说。

为什么"更高级"的 LSTM 反而打不过树模型——这是全项目最出彩的认知。 项目公平对比了三类模型,结论很反直觉:深度 LSTM 不仅输给 LightGBM,连同时段均值基线都没打过。原因你能讲出三条:① 本任务最强的信号(日/周周期)能被几个显式的日历、滞后特征直接编码,树模型直接受益;② 单序列的 LSTM 只喂了需求数值、缺日历特征,相当于「少看了牌」;③ 单月数据规模对深度模型偏小。一句话收束——让方法匹配问题,比堆复杂模型更重要。这种克制本身就是成熟的科研态度,面试讲出来非常加分。

下面这组分析图也都给你做好了,可以直接放进你的答辩或面试 PPT

三类模型误差对比
三模型 RMSE/MAE 对比
预测 vs 真实
某区 5 天预测 vs 真实
误差随时段分布
误差随时段分布

更关键的是,每一张图是怎么跑出来的、该怎么解读,技术文档里都讲清楚了——所以你不是只会往 PPT 上贴图,而是能说明白每张图到底说明了什么。

面试官会问的,都帮你备好了

随便感受几个这个项目真实会被追问的问题:

  • 为什么按时间顺序划分训练/测试,而不是随机划分?随机划分会出什么问题?
  • 「上周同时段」这种滞后特征,怎么保证它没有偷看未来的数据?
  • 项目里"更高级"的 LSTM 为什么反而不如 LightGBM,甚至连均值基线都没打过?

看到这几个是不是会愣一下?正常。配套的面试问答文档把这个项目——从整体思路到每个流程细节,各种面试可能追问的点——连参考答案都给你写好了

另外还有现成的简历描述,照着改就能写进简历;那一整套配图也能直接套进 PPT 模板,快速出一份面试 / 答辩 PPT。你要做的不是背,而是理解,再用自己的话讲一遍。

配套资料:搞懂一个项目需要的,这里全都有

先看那份技术文档——从研究背景一直讲到每一步实现,图文并茂,帮你把时空预测的方法论从头吃透:

数据探索分析页
需求的时间规律分析
实验结果对比页
三类模型结果与剖析
预测对比页
预测 vs 真实逐时对比

代码也给你了——关键部分都带着中文注释,帮你读懂"它到底是怎么实现的",面试被追问细节时也答得上来:

数据聚合与特征工程代码
区域×小时聚合补 0 + 滞后/滑窗特征(含防泄漏)
三类模型代码
同时段均值 / LightGBM / LSTM 三类模型

再补一张完整的项目流程图,把从原始行程到需求预测的整条链路串起来——讲项目开场时照着它三句话就能说清:

项目整体流程图
从数据清洗、时空聚合、特征工程到多模型预测的完整链路——答辩开场用它做总览图最合适。

技术文档、面试问答、源码注释、整套配图——搞懂一个项目、并在面试里讲清楚它,需要的全都备齐了。

适合谁

不管你是赶毕设、想给简历添个有分量的项目,还是在准备面试,这个题目都接得住。它贴近真实的城市交通业务,又覆盖了时空数据处理、特征工程、多模型对比这套完整方法论,讲起来有料、经得起追问。专业上,交通工程、物流管理、城市规划、地理信息(GIS)、数据科学与计算机方向都很合适。资料、讲解和面试答案都给你铺好了,把它真正搞懂、能讲出来,就是一个能写进简历、撑得起面试的项目。

想把这样的项目做成你简历上的亮点?

这是一套配齐了代码、文档、面试问答和配图的 AI+X 项目,可写进简历、在面试里讲清楚。 想做同类项目、或获取「基于时空图神经网络的城市出租车需求预测与调度分析」的完整资料(代码 / 数据处理流程 / 论文文档 / 配图), 请联系为你介绍本页面的老师咨询,按你的情况定一个合适的项目。