计算机方向详解 · 生物信息 AI

生物信息 AI / 组学智能:用模型理解基因、细胞和疾病机制

生物信息 AI 不是把医学名词套到模型上,而是处理基因表达、单细胞、蛋白序列和调控网络等高维生物数据,帮助解释细胞类型、疾病机制和扰动反应。

核心数据基因序列、单细胞矩阵、蛋白序列、空间组学和临床标签
常见任务变异检测、单细胞聚类、细胞类型注释、蛋白语言模型
常用方法scVI、Geneformer、蛋白语言模型、单细胞基础模型
适合人群适合生信、医学统计和 AI 交叉的同学
方向导读

方向理解:先知道它到底在做什么

研究基因、单细胞、蛋白序列和多组学数据中的模式,用 AI 辅助生命科学发现。

生物信息 AI / 组学智能的本质:先把方向翻译成任务闭环

生物信息 AI / 组学智能不是只背一个热门名词,而是要看它处理什么数据、解决什么任务、用什么指标证明有效。

学生入门时最重要的是先跑通最小闭环:明确输入输出,复现一个 baseline,再围绕数据、模型、评价或项目化展示做改进。

  • 输入通常来自计算机 / 生物信息 / 生命健康相关数据或公开 benchmark。
  • 输出必须能被指标评估,不能只停留在概念介绍。
  • 项目价值来自可复现结果、可视化分析和清楚的误差讨论。

中文链路图:把方向拆成输入、模型、任务和成果

任务地图

任务地图:别只背方向名,要看输入输出

一个方向能不能做成项目,关键看它能不能落到明确任务、评价指标和实验数据。

任务地图:适合小白先判断项目切入点

01

变异检测

从测序数据中识别 SNP/Indel。

输入测序 reads、参考基因组
输出变异位点
科研价值:适合理解深度学习如何进入基因组学。
02

单细胞表征

学习细胞状态、批次校正和聚类。

输入细胞 × 基因表达矩阵
输出细胞嵌入和类型
科研价值:适合做可视化和下游分析。
03

蛋白语言模型

从序列学习蛋白结构和功能线索。

输入氨基酸序列
输出结构/功能表示
科研价值:连接 NLP 和生命科学。
04

空间组学建模

把空间邻近关系加入表达分析。

输入空间坐标、表达矩阵、图结构
输出组织区域和细胞互作
科研价值:是近年前沿热点。
05

多组学融合

整合多层生命数据做预测。

输入基因、转录、表观、临床
输出风险评分或分型
科研价值:适合医学研究项目。
06

可解释生物标志物

从模型结果回到生物学解释。

输入模型输出、基因通路
输出关键基因和通路
科研价值:有利于论文叙事。
技术路线

技术路线:从经典方法到现在的热点

技术路线不是模型名清单,而是看这个方向的问题意识如何一步步变化。

技术路线图:帮助学生看懂方法演进

阶段 01

基因组深度学习

把测序 pileup 或序列输入转成检测和分类结果。

DeepVariantCNNVariant Calling
阶段 02

单细胞生成模型

用概率模型和深度表示处理表达矩阵。

scVIBatch CorrectionLatent Space
阶段 03

蛋白序列基础模型

用大规模序列预训练获得结构和功能表示。

ESMProtein LMEmbedding
阶段 04

单细胞与空间基础模型

把基因 token、细胞图和空间关系统一建模。

scGPTSpatial OmicsCell Graph
论文清单

经典论文阅读清单

这不是让你背论文名,而是按时间线建立路线感:先看每篇论文解决了什么问题,再看图里哪一块最关键,最后知道它适合放进什么项目里。

DeepVariant

DeepVariant

为什么重要:DeepVariant 是这个方向的代表工作,适合用来理解具体任务、核心方法和实验指标。

新手读法:重点看它的输入输出、核心模块、评价指标和失败案例,而不是只背论文标题。

打开论文 / 来源
2019经典方法看图重点:DeepVariant 的核心流程如何从输入走到实验结果
scVI

scVI

为什么重要:scVI 是这个方向的代表工作,适合用来理解具体任务、核心方法和实验指标。

新手读法:重点看它的输入输出、核心模块、评价指标和失败案例,而不是只背论文标题。

打开论文 / 来源
2021代表论文看图重点:scVI 的核心流程如何从输入走到实验结果
ESM

ESM

为什么重要:ESM 是这个方向的代表工作,适合用来理解具体任务、核心方法和实验指标。

新手读法:重点看它的输入输出、核心模块、评价指标和失败案例,而不是只背论文标题。

打开论文 / 来源
2023前沿论文看图重点:ESM 的核心流程如何从输入走到实验结果
scGPT

scGPT

为什么重要:scGPT 是这个方向的代表工作,适合用来理解具体任务、核心方法和实验指标。

新手读法:重点看它的输入输出、核心模块、评价指标和失败案例,而不是只背论文标题。

打开论文 / 来源
2025综述/趋势看图重点:scGPT 的核心流程如何从输入走到实验结果
评价指标

评价指标:怎么证明项目真的有效

不同任务不能只看 Accuracy。论文和项目都要说明指标为什么适合当前问题。

ARI / NMI

单细胞聚类和细胞类型发现常用指标。

Annotation Accuracy

细胞类型、基因功能或变异注释是否正确。

AUROC

疾病风险、功能位点或调控预测常用。

Batch Mixing

跨批次、跨平台数据整合效果。

Biological Enrichment

预测结果是否富集到合理通路和功能。

Perturbation Error

扰动后基因表达变化预测误差。

数据工具

数据集和工具:先看有没有公开入口

小白选题时先确认数据、代码和 benchmark 是否可获得,否则方向再热也很难落地。

导师翻译

导师主页方向翻译:这些词到底暗示什么

学生看老师主页最难的是不知道关键词背后对应什么任务和能力要求。

DeepVariant

通常对应 DeepVariant 相关任务、数据集、指标和实现路线。

scVI

通常对应 scVI 相关任务、数据集、指标和实现路线。

ESM

通常对应 ESM 相关任务、数据集、指标和实现路线。

scGPT

通常对应 scGPT 相关任务、数据集、指标和实现路线。

入门路径

入门路径:从小项目走到研究点

真正适合学生的路线,是先跑通最小闭环,再逐步加难度。

第 1 阶段:处理表达矩阵

完成 QC、归一化、降维和聚类。

第 2 阶段:做细胞注释

结合 marker gene 和模型预测解释细胞类型。

第 3 阶段:分析基因机制

做差异表达、通路富集和调控关系。

第 4 阶段:尝试基础模型

比较 Geneformer、scGPT 等表征的迁移效果。

项目选题

项目选题:能写进简历和申请材料

下面这些题目不是空泛口号,而是可以沉淀代码、实验结果、图表和论文雏形的方向。

单细胞细胞类型注释

完成聚类、marker gene 和模型注释对比。

基因表达疾病分类

用表达矩阵预测疾病状态并解释关键基因。

扰动响应预测

预测药物或基因扰动后的表达变化。

组学基础模型迁移

比较 Geneformer/scGPT 表征在下游任务中的效果。

常见问题

常见问题:小白最容易卡住的判断

这部分覆盖搜索和咨询时最高频的问题。

没有生物背景能做吗?

可以,但要先弄清输入数据是什么:序列、表达矩阵还是空间组学。

项目最容易卡在哪里?

数据预处理、批次效应、标签定义和生物学解释。

什么产出最有说服力?

可视化嵌入、下游指标、关键基因/通路解释和可复现实验。

继续探索适合你的科研方向

这个方向只是计算机科研路线中的一个入口。你也可以继续查看多模态学习、世界模型、推荐系统、可信 AI 等方向,再结合自己的专业基础、目标导师和时间周期选择更合适的切入点。