← 返回计算机方向目录
计算机方向详解 · Medical Imaging AI

医学影像 AI:让模型看懂 CT、MRI、X-ray 和病理切片

医学影像 AI 是计算机视觉和医学交叉最成熟、也最适合学生入门科研的方向之一。它的核心不是“让 AI 代替医生”,而是用模型辅助识别、定位、分割和量化医学影像中的关键信息。

核心数据CT / MRI / X-ray / 超声 / 病理切片
常见任务分类、检测、分割、配准、报告生成、预后预测
常用模型CNN、U-Net、3D U-Net、Transformer、SAM/MedSAM
适合人群想做 CV + 医学交叉,能耐心处理数据和指标的同学
从影像数据进入模型之前,通常要经历数据清洗、标注、预处理、训练、评估和临床解释。先看完整链路,再进入具体任务会更容易理解。

真实影像示例:先知道模型到底在看什么

医学影像 AI 的难点很大一部分来自数据本身。不同模态的灰度、空间结构、噪声、标注方式和临床含义差异很大,不能把它们都当成普通图片。

这个方向到底在做什么?

把医学影像 AI 想成一个“视觉医生助手”的技术底座:它需要读懂图像、找出异常、圈出区域、给出量化指标,并把结果变成医生能使用的信息。

输入是什么?

输入可以是 2D 胸片、3D CT/MRI、超声视频、病理全切片,也可以和电子病历、报告文本、基因数据一起使用。

医学影像和普通照片最大的区别是:灰度、空间尺度、成像物理和临床语义都更复杂。

输出是什么?

输出可以是疾病概率、病灶框、器官 mask、肿瘤体积、风险评分、诊断提示,甚至是一段结构化影像报告。

做科研时一定要把输出定义清楚,否则很容易变成“拿模型跑图片”的浅项目。

难点在哪里?

医学数据标注贵、样本少、不同医院分布差异大,很多任务还要求模型可解释、可复现、不能只看单一指标。

这也是为什么医学影像 AI 很适合做论文:真实问题多,研究空间足。

任务地图:医学影像不是只有分类

很多新手会从分类开始,但医学影像真正的核心任务往往是检测、分割、配准和多模态融合。

先用这张图建立任务版图,再看下面每类任务的输入、输出和适合选题。
01入门友好,适合第一个项目

影像分类

判断一张片子是否有某类疾病或风险,比如胸片肺炎筛查、眼底病变分级。

胸片 / 眼底图
输出类别或多标签概率

科研价值:入门友好,适合第一个项目

02比分类更接近临床定位问题

目标检测

找出病灶在哪里,比如肺结节、骨折区域、出血点或异常组织。

CT 切片 / X-ray
输出框、类别、置信度

科研价值:比分类更接近临床定位问题

03医学影像 AI 的核心主线

语义分割

把器官、肿瘤、血管或病灶边界逐像素圈出来,是医学影像最经典的任务。

CT / MRI 体数据
输出 mask / 体素标签

科研价值:医学影像 AI 的核心主线

04偏底层和工程,数学味更重

配准与重建

把不同时间、不同模态或不同角度的影像对齐,或从稀疏数据重建高质量图像。

多时间点 / 多模态影像
输出变换场、重建图像

科研价值:偏底层和工程,数学味更重

05多模态大模型热门交叉方向

影像报告生成

结合视觉模型和语言模型,根据影像自动生成结构化报告或辅助描述。

影像 + 临床上下文
输出医学文本报告

科研价值:多模态大模型热门交叉方向

06更接近真实医学研究问题

预后预测

结合影像、临床指标、基因或病理信息,预测生存期、复发风险或治疗响应。

影像 + 临床 / 基因信息
输出风险评分或时间事件预测

科研价值:更接近真实医学研究问题

输入-输出对照:四类任务一眼区分

初学者最容易把分类、检测、分割和报告生成混在一起。真正区分任务时,先看输入、输出和它回答的问题。

任务输入输出回答的问题典型场景
分类一张胸片 / 眼底图疾病概率、类别或多标签回答“有没有问题 / 属于哪一类”筛查、分级、风险预测
检测一张 CT 切片 / X-ray病灶框、类别、置信度回答“异常在哪里”肺结节、骨折、出血点定位
分割MRI / CT 体数据器官或肿瘤 mask回答“边界到底在哪”器官勾画、肿瘤体积、放疗计划
报告生成影像 + 临床上下文结构化中文/英文报告回答“如何把视觉结果写成医学语言”报告撰写、病历结构化、随访提示

不同影像模态适合做什么?

医学影像不是一种数据。不同模态的成像方式、空间结构和临床语义完全不同,选题前要先看数据类型。

模态特点常见任务
X-ray 胸片二维投影图像,便宜、常见、数据集多分类、弱监督定位、报告生成
CT三维体数据,空间结构强,适合看肺结节、器官和肿瘤检测、分割、体积量化
MRI软组织成像强,常见多序列输入脑肿瘤、器官分割、配准、预后预测
病理切片 WSI超大分辨率,像“显微镜地图”癌症区域识别、MIL、病理分级
超声噪声大、操作者差异明显,可做实时分析器官定位、病灶检测、视频理解

技术路线:从 U-Net 到医学基础模型

医学影像 AI 的方法不是孤立的,它基本沿着计算机视觉的发展演进:CNN → U-Net → Transformer → Foundation Model。

阶段 01

CNN 时代

用卷积网络从图像中提取局部纹理和形状特征。ResNet、DenseNet 等骨干网络常用于分类和检测。

ResNetDenseNet迁移学习特征提取
阶段 02

U-Net 时代

编码器负责理解上下文,解码器负责恢复空间细节,跳跃连接让模型既看全局又保留边界。

U-Net3D U-NetnnU-NetDice Loss
阶段 03

Transformer 时代

用注意力机制建模长距离关系,适合处理 3D 体数据、跨切片依赖和多模态融合。

ViTSwin TransformerUNETRSwin UNETR
阶段 04

基础模型时代

把 SAM、大模型、多模态模型迁移到医学影像,用提示、微调和领域数据提升泛化能力。

SAMMedSAMPromptFoundation Model

经典论文阅读清单

这不是堆论文,而是给新手建立路线感:先读懂 U-Net 和综述,再理解 nnU-Net 的工程化,最后看 SAM / MedSAM 代表的新范式。

分割入门范式

U-Net: Convolutional Networks for Biomedical Image Segmentation

为什么重要:医学图像分割最重要的入门论文之一,提出 U 形编码器-解码器和跳跃连接,直接影响后续大量医学分割工作。

新手读法:重点看:为什么医学图像需要精确定位、为什么数据少时要依赖增强、U-Net 结构如何保留边界。

打开论文 / 来源
2015
方法论文
Figure 1:U-Net 架构
视觉 backbone 思想

Deep Residual Learning for Image Recognition

为什么重要:ResNet 不是医学影像专属论文,但它成为医学分类、检测、分割中最常用的 backbone 思想之一。

新手读法:重点看:残差连接解决深层网络退化问题,理解 backbone 为什么能迁移到医学图像。

打开论文 / 来源
2016
方法论文
Figure 2:残差学习模块
方向任务地图

A Survey on Deep Learning in Medical Image Analysis

为什么重要:早期系统综述,帮新手建立医学影像 AI 的任务版图,覆盖分类、检测、分割、配准等主线。

新手读法:重点看:不同医学影像任务的定义,以及深度学习为什么在 2015 年后快速进入医学影像。

打开论文 / 来源
2017
综述
Figure 1:论文、任务和模态分布
工程强基线

nnU-Net: a self-configuring method for deep learning-based biomedical image segmentation

为什么重要:把 U-Net 系列工程化到极致:自动根据数据配置预处理、网络、训练和后处理,是医学分割 benchmark 的强基线。

新手读法:重点看:医学影像项目真正麻烦的不只是模型,还有预处理、patch、spacing、后处理和评估。

打开论文 / 来源
2021
方法论文
Figure 2:自动方法配置
泛化评测基准

The Medical Segmentation Decathlon

为什么重要:医学分割领域重要 benchmark,强调一个算法在多器官、多模态、多任务上的泛化能力。

新手读法:重点看:为什么医学影像不能只在一个小数据集上刷分,跨任务泛化才是研究价值。

打开论文 / 来源
2022
Benchmark
Figure 1:十个分割任务
Prompt 分割范式

Segment Anything

为什么重要:视觉基础模型代表作,提出可提示的通用分割范式,随后引发大量医学影像适配工作。

新手读法:重点看:promptable segmentation 的思想,以及自然图像基础模型为什么不能直接等价于医学模型。

打开论文 / 来源
2023
基础模型
Figure 1:任务、模型和数据
医学基础模型适配

Segment Anything in Medical Images / MedSAM

为什么重要:把 SAM 思路迁移到医学图像,展示医学基础分割模型的潜力,也说明领域适配的重要性。

新手读法:重点看:医学图像和自然图像的差异、prompt 方式、跨模态医学分割表现。

打开论文 / 来源
2023
基础模型
Figure 1:大规模医学分割数据
3D / 视频基础模型

Medical SAM 2: Segment Medical Images as Video via Segment Anything Model 2

为什么重要:把医学 2D/3D 分割任务统一成类似视频目标跟踪的问题,说明 SAM2 思路如何进入医学影像基础模型。

新手读法:重点看:为什么 3D 医学图像可以被组织成序列,memory bank 如何帮助跨切片传播,以及 one-prompt segmentation 的意义。

打开论文 / 来源
2024
基础模型
Page 1:Medical SAM 2 首页
3D / 视频基础模型

MedSAM2: Segment Anything in 3D Medical Images and Videos

为什么重要:进一步把 promptable segmentation 扩展到 3D 医学图像和医学视频,是 2025 年理解医学基础分割模型的重要入口。

新手读法:重点看:3D image-mask pairs、视频帧数据、人机协同标注和减少人工成本,理解医学基础模型开始走向工具化。

打开论文 / 来源
2025
基础模型
Page 1:MedSAM2 首页

评价指标速查:医学影像不能只看 Accuracy

医学任务里漏诊、误诊、边界偏差的代价不同,所以指标要和任务目标绑定。

AUC

常见场景:分类常用

衡量模型区分阳性/阴性的整体能力,医学分类里比 Accuracy 更常见。

Sensitivity / Recall

常见场景:筛查任务常用

有病的人能找出多少。漏诊代价高的任务尤其重视。

Specificity

常见场景:筛查任务常用

没病的人能排除多少。误报太多会增加医生负担。

Dice

常见场景:分割最常用

预测 mask 和真实 mask 的重合程度,医学分割论文里非常核心。

IoU

常见场景:检测/分割常用

预测区域和真实区域交并比,目标检测和分割都常见。

Hausdorff Distance

常见场景:边界质量

关注边界最远误差,适合器官轮廓、肿瘤边界等精细任务。

真实数据集地图:先看官方入口,再决定能不能做

这里不直接搬运医疗图像,而是给出官方或权威入口。你可以在官方页面查看样例、任务说明、访问条件和引用方式。

BraTS:脑肿瘤 MRI

脑肿瘤 MRI 分割经典挑战,适合学习 3D 医学分割、多模态 MRI 和肿瘤区域定义。BraTS 2021 页面说明了增强肿瘤、瘤周水肿、坏死肿瘤核心等标注区域。

适合任务:3D MRI 分割 / 肿瘤区域识别
入门难度:进阶
查看官方入口 / 样例说明

Medical Segmentation Decathlon:多器官分割

覆盖多个器官和模态的医学分割任务,适合理解跨任务泛化和 nnU-Net 类方法。Nature Communications 论文强调它是面向通用医学分割算法的挑战集合。

适合任务:CT / MRI 多任务分割
入门难度:进阶
查看官方入口 / 样例说明

MedMNIST:轻量医学图像入门

轻量级 2D/3D 医学图像分类 benchmark,适合本科生快速跑通第一个医学影像项目。

适合任务:分类 / 小型 benchmark
入门难度:入门
查看官方入口 / 样例说明

NIH ChestX-ray14:胸片多标签

大规模胸片多标签分类数据集,适合做疾病分类、弱监督定位和标签噪声分析。

适合任务:胸片多标签分类
入门难度:入门到进阶
查看官方入口 / 样例说明

CheXpert:胸片不确定标签

Stanford AIMI 数据集页面说明 CheXpert 包含 224,316 张胸片,来自 65,240 名患者,适合研究胸片分类和不确定标签处理。

适合任务:胸片分类 / 不确定标签
入门难度:进阶
查看官方入口 / 样例说明

MIMIC-CXR:胸片 + 报告

PhysioNet 页面说明 MIMIC-CXR 含 377,110 张胸片和 227,835 个影像检查报告,适合做影像报告生成、多模态学习和临床文本联动。

适合任务:胸片理解 / 报告生成
入门难度:进阶,需要申请访问
查看官方入口 / 样例说明

常用工具:别从零手写医学影像流水线

医学影像项目的难点往往在 spacing、patch、滑窗推理、3D transforms 和后处理。用成熟工具能少踩很多坑。

MONAI

PyTorch 生态里的医学影像 AI 框架,提供 transforms、loss、network、workflow 等医学专用工具。官方文档将其定位为面向医疗影像深度学习的社区框架。

查看来源

nnU-Net

医学图像分割强基线。它的价值不只是 U-Net,而是把预处理、网络配置、训练、推理和后处理系统化。

查看来源

MedSAM

医学图像 Segment Anything 方向代表工作,用于理解“基础模型如何迁移到医学分割”。

查看来源

导师主页方向翻译:这些词到底暗示什么?

学生看老师主页时,最卡的不是词不会读,而是不知道它背后对应什么任务和能力要求。

医学图像计算

大概率包含分割、配准、重建、定量分析等基础任务,不一定只做深度学习模型。

智能辅助诊断

通常偏分类、检测、风险预测,目标是给医生提供诊断线索或筛查工具。

多模态医学大模型

通常把影像、报告、临床指标、病理或基因数据融合,做问答、报告生成或综合诊断。

可信医疗 AI

关注模型为什么这样判断、换医院是否还可靠、是否保护隐私、是否存在偏差。

影像组学

从医学影像中提取大量定量特征,再和临床结局关联,传统机器学习和深度学习都会用。

联邦学习 / 隐私计算

多个医院数据不能直接共享时,让模型在保护隐私的前提下协同训练。

新手入门路径

不要一上来就写“医学基础模型”。先跑通一个小任务,再进入 U-Net 分割,最后再讨论泛化、少样本和多模态。

第一阶段:看懂任务

先区分分类、检测、分割、配准、报告生成。用 MedMNIST 或一个小型 X-ray 分类任务跑通流程。

第二阶段:掌握分割

复现 U-Net,在 2D 数据上理解 Dice、IoU、mask、数据增强,再过渡到 3D U-Net。

第三阶段:工程化训练

学习 MONAI / nnU-Net,理解 spacing、patch size、滑窗推理、后处理和 cross-validation。

第四阶段:做一个研究点

从“改模型”升级到“解决问题”:小样本、跨域泛化、可解释性、标注效率、多模态融合。

可以落地成项目的选题

好的学生项目不是“我用了一个模型”,而是有清晰任务、明确指标、对比实验和可解释结果。

想快速做简历项目

MedMNIST / ChestX-ray14 分类 + Grad-CAM 可解释性

2-4 周能做出可展示结果,适合作为入门项目。

想做科研入门

U-Net 器官/病灶分割 + Dice/HD 指标对比

适合写课程论文、科研训练、毕设开题。

想冲小论文

跨域泛化 / 小样本分割 / 半监督医学影像

问题更像真实科研,不只是换模型。

想追前沿热点

MedSAM / 医学基础模型 / 影像报告生成

适合关注大模型、多模态和 foundation model 的同学。

低成本入门项目

用 MedMNIST 做医学图像分类,对比 ResNet、DenseNet、ViT,加入 Grad-CAM 可解释性。

经典分割项目

复现 U-Net 做器官或病灶分割,系统比较 Dice Loss、数据增强、边界后处理的影响。

进阶论文项目

基于 nnU-Net 或 MONAI 做跨数据集泛化,研究不同医院/模态下模型性能下降问题。

前沿热点项目

用 SAM / MedSAM 做医学图像交互式分割,比较点提示、框提示和少量微调的效果。

常见问题:小白怎么把方向变成科研经历?

这部分面向正在搜索科研方向、论文辅导、保研考研科研项目的同学,把最常见的选择问题先说清楚。

医学影像 AI 适合完全没做过科研的小白吗?

适合,但不要一上来就冲“医学基础模型”。更稳的路径是先做一个可复现的小任务,例如医学图像分类或 U-Net 分割,理解数据、指标和实验流程,再逐步进入跨域泛化、多模态或 MedSAM 这类前沿方向。

保研、考研学生做科研项目,应该优先追热点还是优先能落地?

优先能落地。导师和面试老师更关心你是否讲得清楚问题、数据、方法、指标和结果。热点可以作为方向包装,但项目本身要有代码、实验记录、对比结果和一套能写进简历的科研叙事。

论文 0-1 辅导和科研背景提升项目有什么区别?

论文 0-1 辅导更适合没有写过论文、想在 6 个月内投出第一篇高质量论文的小白;科研背景提升项目更适合需要保研、考研复试、导师沟通材料或项目作品的同学,重点是把方向变成可展示的代码、报告、实验结果或论文雏形。

如果我搜索“可信 AI”“多模态”“世界模型”,为什么还会看到医学影像?

因为这些词有两层含义:一层是独立研究方向,另一层是医学影像里的交叉问题。后续方向库会把“可信 AI”“多模态”“世界模型”等关键词单独建页,再在医学影像页里解释它们如何落到医疗场景中。

下一步行动

想把方向真正做成论文或科研项目?

看懂方向只是第一步。真正能写进简历和申请材料里的,是清晰选题、可复现实验、结果分析和一套能讲清楚的科研叙事。

1定位你的基础和目标方向
2拆成论文或项目路线
3沉淀代码、实验、报告或论文雏形
适合已经有方向感,但需要从 0 到 1 落地的同学论文 / 项目双路径

科研背景提升项目

可以根据你的专业基础、目标学校、目标导师方向和时间周期,打造一个属于你的科研项目,而不是套模板做泛泛的 AI 小实验。

项目可以围绕医学影像、世界模型、多模态、推荐系统等方向,沉淀为可展示的代码、实验结果、报告或论文雏形。

适合:需要科研经历、项目作品、导师沟通材料的同学

论文 0-1 辅导

面向没有写过论文、但想真正做出第一篇成果的小白同学,陪你从选题、文献阅读、实验设计、结果分析一路走到论文成稿。

目标是在 6 个月内打磨并投出你的第一篇高质量论文,而不是只停留在“跑了一个模型”的浅层项目。

适合:第一次写论文、缺少选题和实验路线的同学

微信:shujinxing777
疏锦行-科研背景提升微信二维码
交付方向:选题框架、实验路线、论文结构、投稿准备

继续探索适合你的科研方向

医学影像 AI 只是计算机科研方向中的一个入口。你也可以继续查看世界模型、多模态、具身智能、推荐系统等方向,再结合自己的专业基础、目标导师和时间周期选择更合适的切入点。