计算机方向详解 · AI for Science

AI for Science:用人工智能加速科学发现

AI for Science 不是单纯把模型套到科学数据上,而是把科学对象、物理约束、实验数据和可验证指标结合起来,用 AI 做预测、生成、模拟和发现。它适合想做交叉科研、未来考虑读研读博或想把专业知识转成 AI 项目的同学。

核心数据分子图、蛋白序列、材料结构、气象场、实验记录、仿真数据
常见任务性质预测、结构预测、分子生成、材料发现、天气气候预测
常用方法GNN、Transformer、扩散模型、物理约束学习、科学基础模型
适合人群愿意补领域知识、想做高价值交叉论文的同学
方向导读

方向理解:先知道它到底在做什么

AI for Science 研究如何用机器学习、图神经网络、生成模型和科学基础模型解决蛋白、分子、材料、气象、物理仿真等科学问题。

AI for Science 的本质:让模型学习科学对象的结构、规律和约束

科学问题往往不是普通分类题。分子有化学键,蛋白有序列和三维结构,材料有晶体结构,气象有空间场和物理规律。AI for Science 的关键是把这些科学结构编码进模型。

这个方向的价值在于它能形成“预测-生成-验证”的闭环:预测性质、生成候选、用实验或仿真验证,再继续改进模型。

  • 输入可以是分子结构、蛋白序列、材料晶胞、气象格点或实验表格。
  • 输出可以是性质、结构、候选材料、药物分子、天气场或实验建议。
  • 难点在于数据稀缺、物理一致性、跨尺度建模和真实实验验证。

中文链路图:把方向拆成输入、模型、任务和成果

任务地图

任务地图:别只背方向名,要看输入输出

一个方向能不能做成项目,关键看它能不能落到明确任务、评价指标和实验数据。

任务地图:适合小白先判断项目切入点

01

分子性质预测

预测分子的化学和生物性质。

输入分子图 / SMILES
输出毒性、活性、溶解度
科研价值:适合药物筛选和化学专业交叉。
02

蛋白结构与功能

理解蛋白从序列到结构和功能的关系。

输入蛋白序列 / 多序列比对
输出结构、功能或相互作用
科研价值:生命科学方向高价值入口。
03

材料性质预测

预测材料是否适合电池、催化、半导体等场景。

输入晶体结构 / 成分
输出带隙、稳定性、强度
科研价值:材料、化学、物理交叉常见。
04

科学生成模型

生成可能满足目标性质的新分子、新蛋白或新材料。

输入目标性质 / 条件约束
输出候选分子或材料
科研价值:适合和扩散模型、强化学习结合。
05

天气气候预测

用深度学习替代或辅助数值天气预报。

输入历史气象场 / 物理变量
输出未来天气或气候状态
科研价值:近年 AI for Science 的热点。
06

自动科学发现

用 Agent 或科学基础模型辅助提出假设和设计实验。

输入文献 + 数据 + 工具
输出假设、实验方案、报告
科研价值:连接 AI Agent 和科学研究流程。
技术路线

技术路线:从经典方法到现在的热点

技术路线不是模型名清单,而是看这个方向的问题意识如何一步步变化。

技术路线图:帮助学生看懂方法演进

阶段 01

科学特征工程和传统机器学习

先把科学对象转成指纹、描述符和表格特征。

DescriptorRandom ForestXGBoost
阶段 02

图神经网络建模结构

用节点、边和几何关系表示分子、材料和相互作用。

GNNSchNetE(3)-equivariant
阶段 03

科学基础模型和生成模型

用 Transformer、扩散模型和大规模预训练学习通用科学表示。

AlphaFoldESMDiffusion
阶段 04

Agentic Science 和闭环发现

把文献、代码、实验规划和验证工具串成科学发现流程。

AI ScientistLab AgentClosed-loop
论文清单

经典论文阅读清单

这不是让你背论文名,而是按时间线建立路线感:先看每篇论文解决了什么问题,再看图里哪一块最关键,最后知道它适合放进什么项目里。

AlphaFold

Highly accurate protein structure prediction with AlphaFold

为什么重要:AlphaFold 展示 AI 可以解决长期科学难题,是 AI for Science 的标志性论文。

新手读法:重点看序列、结构约束和端到端预测如何结合。

打开论文 / 来源
2021蛋白结构看图重点:蛋白序列如何走向三维结构预测
FourCastNet

FourCastNet: A Global Data-driven High-resolution Weather Model using Adaptive Fourier Neural Operators

为什么重要:用神经算子做全球天气预测,是 AI 天气模型的重要代表。

新手读法:重点看空间场、频域建模和多步预测。

打开论文 / 来源
2022气象基础模型看图重点:气象场如何被神经网络快速预测
GraphCast

GraphCast: Learning skillful medium-range global weather forecasting

为什么重要:GraphCast 用图网络做中期天气预报,展示图结构和物理网格结合的威力。

新手读法:重点看地球网格如何转成图,以及多变量天气场如何滚动预测。

打开论文 / 来源
2023天气预测看图重点:全球天气网格如何被图网络建模
Materials FM

A Survey of AI for Materials Science: Foundation Models, LLM Agents, Datasets and Tools

为什么重要:系统梳理材料科学中的基础模型、Agent、数据集和工具,适合建立 AI for Materials 路线图。

新手读法:重点看任务分类:数据抽取、性质预测、结构设计、工艺优化和多尺度建模。

打开论文 / 来源
2025材料综述看图重点:材料科学任务如何被 foundation models 串起来
评价指标

评价指标:怎么证明项目真的有效

不同任务不能只看 Accuracy。论文和项目都要说明指标为什么适合当前问题。

MAE / RMSE

性质预测、天气预测和连续变量任务常用。

Top-K Hit Rate

候选分子或材料筛选时看前 K 个是否命中。

Physical Validity

生成结构是否满足化学、物理或几何约束。

Stability / Energy

分子和材料是否稳定可合成。

Downstream Validation

模型候选是否能通过仿真或实验验证。

Compute Cost

科学模型常常要比较精度和计算成本。

数据工具

数据集和工具:先看有没有公开入口

小白选题时先确认数据、代码和 benchmark 是否可获得,否则方向再热也很难落地。

导师翻译

导师主页方向翻译:这些词到底暗示什么

学生看老师主页最难的是不知道关键词背后对应什么任务和能力要求。

AI for Science

用 AI 加速科学问题求解,通常需要理解领域数据。

Molecular Property Prediction

预测分子毒性、活性、溶解度等性质。

Protein Foundation Model

用大规模蛋白序列/结构预训练模型。

Materials Discovery

寻找新材料、预测稳定性和性能。

Weather Foundation Model

用深度学习预测气象场和气候变量。

Closed-loop Discovery

模型提出候选,仿真或实验验证,再反馈优化。

入门路径

入门路径:从小项目走到研究点

真正适合学生的路线,是先跑通最小闭环,再逐步加难度。

第 1 阶段:选一个科学对象

先确定做分子、蛋白、材料、气象还是实验数据。

第 2 阶段:跑通公开 benchmark

用 MoleculeNet、Materials Project、ERA5 等跑 baseline。

第 3 阶段:加入结构或物理约束

用 GNN、等变模型、物理损失或生成约束提升可信度。

第 4 阶段:形成科学问题

围绕候选发现、跨数据泛化、实验验证或 Agent 科研流程做选题。

项目选题

项目选题:能写进简历和申请材料

下面这些题目不是空泛口号,而是可以沉淀代码、实验结果、图表和论文雏形的方向。

分子毒性预测与解释

用 GNN 预测分子毒性并标出关键原子/子结构。

材料带隙预测系统

输入晶体结构预测带隙并可视化材料空间。

蛋白序列功能分类

用蛋白语言模型提取表示并预测功能。

天气变量短期预测

用 ERA5 数据预测温度、风速或降水变量。

科学论文信息抽取 Agent

从材料或药物论文中抽取实验条件和结果。

分子生成质量评估

比较生成分子的有效性、新颖性、稳定性和目标性质。

常见问题

常见问题:小白最容易卡住的判断

这部分覆盖搜索和咨询时最高频的问题。

AI for Science 适合小白吗?

适合,但一定要选窄问题,不要一开始覆盖整个科学领域。

必须懂化学或生物吗?

不必一开始很深,但必须愿意补领域概念,否则很难解释结果。

它和图神经网络有什么关系?

GNN 是 AI for Science 的常用方法之一,尤其适合分子、材料和相互作用建模。

继续探索适合你的科研方向

这个方向只是计算机科研路线中的一个入口。你也可以继续查看多模态学习、世界模型、推荐系统、可信 AI 等方向,再结合自己的专业基础、目标导师和时间周期选择更合适的切入点。