基于图注意力网络的药物分子多标签毒性预测

把药物分子建成图（原子=节点、化学键=边），用图注意力网络在 Tox21 上同时预测 12 个毒性终点；再提取 GAT 注意力权重生成分子热力图，高亮驱动毒性判断的关键原子——代码、技术文档、配图全配齐。

任务类型图神经网络
专业方向计算机 · 人工智能 · 生物/农林 · 医学/生物医学

数据与任务

样本量	Tox21 · 7831 分子 · 12 任务
核心方法	GAT 多标签 + 四模型对比
技术栈	PyG · RDKit

如果你想找一个把图神经网络、AI for Science、可解释性都串在一起，又能在面试里讲出门道的项目，这个「用图注意力网络预测药物分子毒性」很合适。

它的方向很有分量——拿真实的药物分子，一次性预测 12 个不同的毒性终点，本质就是新药研发早期的安全性筛查；更难得的是它不止给一个概率，还能把模型"凭哪些原子判定有毒"用热力图画出来。配套也给你备齐了，帮你真正搞懂它、在面试和答辩里讲明白：带中文注释、能读懂的代码，一份从背景一路讲到 GAT 注意力可解释性的技术文档，里面连面试 / 复试会被追问的问题都连参考答案写好了，还有一整套能直接做 PPT 的配图。

flowchart LR A["药物分子 SMILES"] --> B["RDKit 建图 原子=节点·键=边"] B --> C["GAT 多头注意力 邻居加权聚合"] C --> D["全局池化 分子级表示"] D --> E["12 个毒性任务 多标签输出"] C --> F["提取注意力权重 原子级热力图"]

先说清楚，它到底在做什么

毒性是新药研发里的头号杀手——大量候选药物在临床阶段因为毒性被淘汰。传统做法靠体外、动物实验筛毒，成本高、周期长，几万个候选分子根本测不过来。这个项目想做的，是在分子还停留在结构式的阶段，就用模型先把高风险的标出来。

难点有两层。第一层是"机器看不懂分子"：分子本质是一张化学结构图，原子怎么连、连成什么环、带什么官能团，才决定了它有没有毒——而这恰恰是把分子拍成一串描述符的传统方法最容易丢掉的信息。第二层是这份 Tox21 数据本身就难啃：12 个毒性检测任务要同时预测（多标签），每个任务的阳性样本都只占一小撮（类别严重不平衡），而且不少分子在某些任务上根本没有标签（NaN 缺失）。

这个项目从 Tox21 的七千多个药物分子出发，搭了一条完整的图学习流水线：先用 RDKit 把每个分子的 SMILES 解析成一张图——原子是节点、化学键是边，原子带 28 维特征（类型/度/杂化/芳香性/氢原子数）、键带 8 维特征；再用图注意力网络（GAT）让原子之间互相加权传递信息，池化成分子级表示，一口气输出 12 个毒性任务的判断；训练时用 NaN 掩码只在有标签的地方算梯度。项目还在统一框架下系统对比了 GCN、GAT、GIN、MPNN 四种主流 GNN。

Tox21 各任务标签分布 — 项目先把 Tox21 的 12 个毒性任务逐个做了标签分析——阳性、阴性、缺失标签一目了然，"为什么这是个又不平衡、又带缺失的多标签难题"就从这张图讲起。

搞懂它，你能在面试里讲清楚什么

把下面几件事吃透，面试官顺着问下来你都能接得住。

分子怎么变成图，原子和键的特征怎么设计。 这是整个项目的地基，也是和普通"调包分类"项目拉开差距的地方。你要能讲清楚：用 RDKit 把 SMILES 解析成分子图，给每个原子编码类型、度数、杂化方式、芳香性、连氢数共 28 维特征，给每条键编码键型、是否共轭、是否在环内共 8 维——比传统的分子描述符细粒度得多，而且把"结构"这个最关键的信息原原本本交给了模型。

GAT 在分子图上的注意力机制 — 照着这张图，能把"分子图输入 → 原子特征向量 → GAT 多头注意力加权聚合"这条核心链路讲明白——这也是项目的招牌图。

GAT 的注意力机制，和它相比 GCN / GIN / MPNN 强在哪。 你要能讲清楚四种 GNN 在"如何聚合邻居"上的本质区别：GCN 是固定的归一化平均，GIN 是求和加 MLP（理论区分能力最强），MPNN 让键特征也参与消息传递，而 GAT 给每个邻居学一个注意力权重——不再一视同仁，重要的原子贡献更大。正是这套注意力，让 GAT 在拿到最优平均 AUC 的同时，还天然带来可解释性：注意力权重可以直接读出来。

各任务 AUC 热力图 — 四种 GNN 在 12 个毒性任务上的逐任务 AUC 热力图——哪个模型在哪类任务上更强一眼看清，面试讲"模型怎么客观对比"时就靠它。

注意力可视化怎么把黑盒讲成"看得懂的关键原子"。 这是这个项目最出彩的一块。项目把 GAT 训练后的多头注意力权重提取出来、聚合到每个原子上，再画成"分子热力图"——直接在分子结构上高亮出模型最关注的原子和官能团。在药物安全场景里，"为什么判它有毒"往往比单纯一个概率更值钱，而这一步就把这件事做实了。

下面这组分析图也都给你做好了，可以直接放进答辩或面试 PPT：

更关键的是，每张图怎么跑出来的、该怎么解读，技术文档里都讲清楚了——你能说明白每张图到底在说什么，而不是只会贴图。

面试官会问的，都帮你备好了

随便感受几个这个项目真实会被追问的问题：

分子怎么建成图？原子和键的特征各包含哪些信息，为什么这么设计？

12 个任务一起预测，标签还大量缺失，你的损失函数是怎么处理 NaN 的？

GAT 的注意力机制和 GCN 的固定权重聚合有什么本质区别？

注意力热力图凭什么能当"可解释性"？它高亮的原子可信吗？

看到会愣一下？正常。配套的项目讲解资料里专门有一整块，把这个项目——从整体思路到每个流程细节、各种可能被追问的点——连参考答案都给你写好了。另外还有现成的简历描述，照着改就能写进简历；那套配图也能直接套进 PPT 模板，快速出一份面试 / 答辩 PPT。

配套资料：搞懂一个项目需要的，这里全都有

先看那份技术文档——从药物毒性筛查背景、Tox21 数据集、分子建图与原子/键特征，一路讲到四种 GNN 原理、GAT 注意力机制与可解释性分析，图文并茂、推导清楚：

代码也给你了——关键部分都带着中文注释，帮你读懂"它到底是怎么实现的"：

技术文档、项目讲解资料、源码注释、整套配图——搞懂一个项目、并在面试里讲清楚它，需要的全都备齐了。

适合谁

不管你是赶毕设、想给简历添个有分量的交叉学科项目，还是在准备面试 / 考研复试，这个题目都接得住。专业上，计算机、人工智能、生物信息、药学、化学、材料方向都很合适——它把图神经网络、AI for Science 和模型可解释性扎扎实实地结合在一起，既有分子建图、注意力机制的硬核细节，又有完整的多任务建模、模型对比、可解释性闭环。图注意力网络是当下很有前景的方向，把这条流水线真正搞懂、能讲出来，就是一个有故事、撑得起面试的项目。

想把这样的项目做成你简历上的亮点？

这是一套配齐了代码、文档、面试问答和配图的 AI+X 项目，可写进简历、在面试里讲清楚。想做同类项目、或获取「基于图注意力网络的药物分子多标签毒性预测」的完整资料（代码 / 数据处理流程 / 论文文档 / 配图），请联系为你介绍本页面的老师咨询，按你的情况定一个合适的项目。