计算机方向详解 · AI 药物发现

AI 药物发现:从分子性质到候选药物筛选

AI 药物发现不是“生成一些分子图片”,而是围绕靶点、分子结构、性质预测、虚拟筛选、对接和 ADMET 形成候选药物评估链。学生项目要明确任务是预测、生成、筛选还是解释。

核心数据分子结构、蛋白序列、结合口袋、活性标签和实验筛选数据
常见任务分子性质预测、分子生成、虚拟筛选、蛋白配体对接
常用方法分子图网络、分子生成、蛋白配体对接、ADMET 预测
适合人群适合生物医药交叉、化学信息学和生成模型方向的同学
方向导读

方向理解:先知道它到底在做什么

用深度学习预测分子性质、生成候选药物、模拟蛋白配体结合并优化实验筛选。

AI 药物发现的本质:先把方向翻译成任务闭环

AI 药物发现不是只背一个热门名词,而是要看它处理什么数据、解决什么任务、用什么指标证明有效。

学生入门时最重要的是先跑通最小闭环:明确输入输出,复现一个 baseline,再围绕数据、模型、评价或项目化展示做改进。

  • 输入通常来自AI for Science / 药学交叉相关数据或公开 benchmark。
  • 输出必须能被指标评估,不能只停留在概念介绍。
  • 项目价值来自可复现结果、可视化分析和清楚的误差讨论。

中文链路图:把方向拆成输入、模型、任务和成果

任务地图

任务地图:别只背方向名,要看输入输出

一个方向能不能做成项目,关键看它能不能落到明确任务、评价指标和实验数据。

任务地图:适合小白先判断项目切入点

01

分子性质预测

预测候选分子是否有希望。

输入SMILES、分子图
输出活性/毒性/溶解度
科研价值:适合从公开 benchmark 入门。
02

分子生成

生成满足性质约束的新分子。

输入目标性质、约束条件
输出候选分子结构
科研价值:连接 VAE、图生成和扩散模型。
03

蛋白结构建模

预测蛋白折叠和功能相关结构。

输入氨基酸序列、MSA
输出三维结构
科研价值:是 AI for Science 代表方向。
04

分子对接

预测小分子如何与靶点结合。

输入蛋白口袋、配体结构
输出结合构象和评分
科研价值:适合做可视化项目。
05

虚拟筛选

从大量分子中筛出优先实验对象。

输入化合物库、靶点信息
输出候选排序列表
科研价值:贴近药物研发流程。
06

多模态药物设计

结合文献、结构和实验数据辅助决策。

输入文本、结构、实验结果
输出设计建议和解释
科研价值:适合大模型交叉。
技术路线

技术路线:从经典方法到现在的热点

技术路线不是模型名清单,而是看这个方向的问题意识如何一步步变化。

技术路线图:帮助学生看懂方法演进

阶段 01

分子表示学习

把 SMILES 或分子图转成可学习表示。

SMILESGNNFingerprint
阶段 02

生成式分子设计

用 VAE、强化学习或图生成搜索新分子。

JT-VAEGCPNProperty Optimization
阶段 03

结构预测与对接

从蛋白结构和口袋预测结合姿态。

AlphaFoldDiffDockPocket
阶段 04

研发闭环系统

把虚拟筛选、实验反馈和生成模型接起来。

Active LearningADMETLab-in-the-loop
论文清单

经典论文阅读清单

这不是让你背论文名,而是按时间线建立路线感:先看每篇论文解决了什么问题,再看图里哪一块最关键,最后知道它适合放进什么项目里。

JT-VAE

JT-VAE

为什么重要:JT-VAE 是这个方向的代表工作,适合用来理解具体任务、核心方法和实验指标。

新手读法:重点看它的输入输出、核心模块、评价指标和失败案例,而不是只背论文标题。

打开论文 / 来源
2019经典方法看图重点:JT-VAE 的核心流程如何从输入走到实验结果
GCPN

GCPN

为什么重要:GCPN 是这个方向的代表工作,适合用来理解具体任务、核心方法和实验指标。

新手读法:重点看它的输入输出、核心模块、评价指标和失败案例,而不是只背论文标题。

打开论文 / 来源
2021代表论文看图重点:GCPN 的核心流程如何从输入走到实验结果
DiffDock

DiffDock

为什么重要:DiffDock 是这个方向的代表工作,适合用来理解具体任务、核心方法和实验指标。

新手读法:重点看它的输入输出、核心模块、评价指标和失败案例,而不是只背论文标题。

打开论文 / 来源
2023前沿论文看图重点:DiffDock 的核心流程如何从输入走到实验结果
AlphaFold 3

AlphaFold 3

为什么重要:AlphaFold 3 是这个方向的代表工作,适合用来理解具体任务、核心方法和实验指标。

新手读法:重点看它的输入输出、核心模块、评价指标和失败案例,而不是只背论文标题。

打开论文 / 来源
2025综述/趋势看图重点:AlphaFold 3 的核心流程如何从输入走到实验结果
评价指标

评价指标:怎么证明项目真的有效

不同任务不能只看 Accuracy。论文和项目都要说明指标为什么适合当前问题。

ROC-AUC / PR-AUC

分子活性、毒性等二分类任务常用。

RMSE / MAE

分子性质回归预测误差。

Docking Score

蛋白-配体结合预测或虚拟筛选排序。

Validity / Novelty

生成分子是否合法、是否新颖。

ADMET Profile

吸收、分布、代谢、毒性等综合指标。

Hit Rate

筛选出的候选分子命中比例。

数据工具

数据集和工具:先看有没有公开入口

小白选题时先确认数据、代码和 benchmark 是否可获得,否则方向再热也很难落地。

导师翻译

导师主页方向翻译:这些词到底暗示什么

学生看老师主页最难的是不知道关键词背后对应什么任务和能力要求。

JT-VAE

通常对应 JT-VAE 相关任务、数据集、指标和实现路线。

GCPN

通常对应 GCPN 相关任务、数据集、指标和实现路线。

DiffDock

通常对应 DiffDock 相关任务、数据集、指标和实现路线。

AlphaFold 3

通常对应 AlphaFold 3 相关任务、数据集、指标和实现路线。

入门路径

入门路径:从小项目走到研究点

真正适合学生的路线,是先跑通最小闭环,再逐步加难度。

第 1 阶段:跑分子性质预测

用 MoleculeNet 做分类或回归 baseline。

第 2 阶段:加入结构信息

比较指纹、GNN 和 3D docking 特征。

第 3 阶段:做虚拟筛选

输出候选分子排序和可视化解释。

第 4 阶段:补 ADMET 分析

形成候选药物筛选报告。

项目选题

项目选题:能写进简历和申请材料

下面这些题目不是空泛口号,而是可以沉淀代码、实验结果、图表和论文雏形的方向。

分子毒性预测

用 MoleculeNet 建立 GNN baseline 并解释子结构。

虚拟筛选排序 Demo

对候选分子做性质预测和 docking 排序。

生成分子有效性分析

统计 validity、novelty 和 ADMET。

蛋白-配体结合可视化

展示结合位点、分子结构和预测分数。

常见问题

常见问题:小白最容易卡住的判断

这部分覆盖搜索和咨询时最高频的问题。

不懂化学能做吗?

可以入门,但必须补基本分子表示、性质指标和数据来源。

项目怎么有可信度?

要报告化学有效性、性质指标、对接评分或公开 benchmark。

适合和哪些技术结合?

GNN、扩散模型、蛋白语言模型和主动学习都很常见。

继续探索适合你的科研方向

这个方向只是计算机科研路线中的一个入口。你也可以继续查看多模态学习、世界模型、推荐系统、可信 AI 等方向,再结合自己的专业基础、目标导师和时间周期选择更合适的切入点。