
胸部 X-ray
二维投影影像,适合讲分类、弱监督定位和报告生成。页面中的蓝色标注能帮助学生理解结构定位。
医学影像 AI 是计算机视觉和医学交叉最成熟、也最适合学生入门科研的方向之一。它的核心不是“让 AI 代替医生”,而是用模型辅助识别、定位、分割和量化医学影像中的关键信息。
医学影像 AI 的难点很大一部分来自数据本身。不同模态的灰度、空间结构、噪声、标注方式和临床含义差异很大,不能把它们都当成普通图片。

二维投影影像,适合讲分类、弱监督定位和报告生成。页面中的蓝色标注能帮助学生理解结构定位。

软组织对比强,常用于脑肿瘤、脑区结构分析、配准和预后预测。

三维空间信息明显,适合解释切片、体数据、重建、肺结节检测和器官分割。

灰度细节和局部异常很关键,常用于病灶检测、良恶性分类和辅助筛查。

高分辨率、纹理密集,适合讲 WSI、MIL、细胞核分割和病理分级。
把医学影像 AI 想成一个“视觉医生助手”的技术底座:它需要读懂图像、找出异常、圈出区域、给出量化指标,并把结果变成医生能使用的信息。
输入可以是 2D 胸片、3D CT/MRI、超声视频、病理全切片,也可以和电子病历、报告文本、基因数据一起使用。
医学影像和普通照片最大的区别是:灰度、空间尺度、成像物理和临床语义都更复杂。
输出可以是疾病概率、病灶框、器官 mask、肿瘤体积、风险评分、诊断提示,甚至是一段结构化影像报告。
做科研时一定要把输出定义清楚,否则很容易变成“拿模型跑图片”的浅项目。
医学数据标注贵、样本少、不同医院分布差异大,很多任务还要求模型可解释、可复现、不能只看单一指标。
这也是为什么医学影像 AI 很适合做论文:真实问题多,研究空间足。
很多新手会从分类开始,但医学影像真正的核心任务往往是检测、分割、配准和多模态融合。
判断一张片子是否有某类疾病或风险,比如胸片肺炎筛查、眼底病变分级。
科研价值:入门友好,适合第一个项目
找出病灶在哪里,比如肺结节、骨折区域、出血点或异常组织。
科研价值:比分类更接近临床定位问题
把器官、肿瘤、血管或病灶边界逐像素圈出来,是医学影像最经典的任务。
科研价值:医学影像 AI 的核心主线
把不同时间、不同模态或不同角度的影像对齐,或从稀疏数据重建高质量图像。
科研价值:偏底层和工程,数学味更重
结合视觉模型和语言模型,根据影像自动生成结构化报告或辅助描述。
科研价值:多模态大模型热门交叉方向
结合影像、临床指标、基因或病理信息,预测生存期、复发风险或治疗响应。
科研价值:更接近真实医学研究问题
初学者最容易把分类、检测、分割和报告生成混在一起。真正区分任务时,先看输入、输出和它回答的问题。
| 任务 | 输入 | 输出 | 回答的问题 | 典型场景 |
|---|---|---|---|---|
| 分类 | 一张胸片 / 眼底图 | 疾病概率、类别或多标签 | 回答“有没有问题 / 属于哪一类” | 筛查、分级、风险预测 |
| 检测 | 一张 CT 切片 / X-ray | 病灶框、类别、置信度 | 回答“异常在哪里” | 肺结节、骨折、出血点定位 |
| 分割 | MRI / CT 体数据 | 器官或肿瘤 mask | 回答“边界到底在哪” | 器官勾画、肿瘤体积、放疗计划 |
| 报告生成 | 影像 + 临床上下文 | 结构化中文/英文报告 | 回答“如何把视觉结果写成医学语言” | 报告撰写、病历结构化、随访提示 |
医学影像不是一种数据。不同模态的成像方式、空间结构和临床语义完全不同,选题前要先看数据类型。
| 模态 | 特点 | 常见任务 |
|---|---|---|
| X-ray 胸片 | 二维投影图像,便宜、常见、数据集多 | 分类、弱监督定位、报告生成 |
| CT | 三维体数据,空间结构强,适合看肺结节、器官和肿瘤 | 检测、分割、体积量化 |
| MRI | 软组织成像强,常见多序列输入 | 脑肿瘤、器官分割、配准、预后预测 |
| 病理切片 WSI | 超大分辨率,像“显微镜地图” | 癌症区域识别、MIL、病理分级 |
| 超声 | 噪声大、操作者差异明显,可做实时分析 | 器官定位、病灶检测、视频理解 |
医学影像 AI 的方法不是孤立的,它基本沿着计算机视觉的发展演进:CNN → U-Net → Transformer → Foundation Model。
用卷积网络从图像中提取局部纹理和形状特征。ResNet、DenseNet 等骨干网络常用于分类和检测。
编码器负责理解上下文,解码器负责恢复空间细节,跳跃连接让模型既看全局又保留边界。
用注意力机制建模长距离关系,适合处理 3D 体数据、跨切片依赖和多模态融合。
把 SAM、大模型、多模态模型迁移到医学影像,用提示、微调和领域数据提升泛化能力。
这不是堆论文,而是给新手建立路线感:先读懂 U-Net 和综述,再理解 nnU-Net 的工程化,最后看 SAM / MedSAM 代表的新范式。
为什么重要:医学图像分割最重要的入门论文之一,提出 U 形编码器-解码器和跳跃连接,直接影响后续大量医学分割工作。
新手读法:重点看:为什么医学图像需要精确定位、为什么数据少时要依赖增强、U-Net 结构如何保留边界。
打开论文 / 来源为什么重要:ResNet 不是医学影像专属论文,但它成为医学分类、检测、分割中最常用的 backbone 思想之一。
新手读法:重点看:残差连接解决深层网络退化问题,理解 backbone 为什么能迁移到医学图像。
打开论文 / 来源为什么重要:早期系统综述,帮新手建立医学影像 AI 的任务版图,覆盖分类、检测、分割、配准等主线。
新手读法:重点看:不同医学影像任务的定义,以及深度学习为什么在 2015 年后快速进入医学影像。
打开论文 / 来源为什么重要:把 U-Net 系列工程化到极致:自动根据数据配置预处理、网络、训练和后处理,是医学分割 benchmark 的强基线。
新手读法:重点看:医学影像项目真正麻烦的不只是模型,还有预处理、patch、spacing、后处理和评估。
打开论文 / 来源为什么重要:医学分割领域重要 benchmark,强调一个算法在多器官、多模态、多任务上的泛化能力。
新手读法:重点看:为什么医学影像不能只在一个小数据集上刷分,跨任务泛化才是研究价值。
打开论文 / 来源为什么重要:视觉基础模型代表作,提出可提示的通用分割范式,随后引发大量医学影像适配工作。
新手读法:重点看:promptable segmentation 的思想,以及自然图像基础模型为什么不能直接等价于医学模型。
打开论文 / 来源为什么重要:把 SAM 思路迁移到医学图像,展示医学基础分割模型的潜力,也说明领域适配的重要性。
新手读法:重点看:医学图像和自然图像的差异、prompt 方式、跨模态医学分割表现。
打开论文 / 来源为什么重要:把医学 2D/3D 分割任务统一成类似视频目标跟踪的问题,说明 SAM2 思路如何进入医学影像基础模型。
新手读法:重点看:为什么 3D 医学图像可以被组织成序列,memory bank 如何帮助跨切片传播,以及 one-prompt segmentation 的意义。
打开论文 / 来源为什么重要:进一步把 promptable segmentation 扩展到 3D 医学图像和医学视频,是 2025 年理解医学基础分割模型的重要入口。
新手读法:重点看:3D image-mask pairs、视频帧数据、人机协同标注和减少人工成本,理解医学基础模型开始走向工具化。
打开论文 / 来源医学任务里漏诊、误诊、边界偏差的代价不同,所以指标要和任务目标绑定。
常见场景:分类常用
衡量模型区分阳性/阴性的整体能力,医学分类里比 Accuracy 更常见。
常见场景:筛查任务常用
有病的人能找出多少。漏诊代价高的任务尤其重视。
常见场景:筛查任务常用
没病的人能排除多少。误报太多会增加医生负担。
常见场景:分割最常用
预测 mask 和真实 mask 的重合程度,医学分割论文里非常核心。
常见场景:检测/分割常用
预测区域和真实区域交并比,目标检测和分割都常见。
常见场景:边界质量
关注边界最远误差,适合器官轮廓、肿瘤边界等精细任务。
这里不直接搬运医疗图像,而是给出官方或权威入口。你可以在官方页面查看样例、任务说明、访问条件和引用方式。
脑肿瘤 MRI 分割经典挑战,适合学习 3D 医学分割、多模态 MRI 和肿瘤区域定义。BraTS 2021 页面说明了增强肿瘤、瘤周水肿、坏死肿瘤核心等标注区域。
适合任务:3D MRI 分割 / 肿瘤区域识别
入门难度:进阶
查看官方入口 / 样例说明
覆盖多个器官和模态的医学分割任务,适合理解跨任务泛化和 nnU-Net 类方法。Nature Communications 论文强调它是面向通用医学分割算法的挑战集合。
适合任务:CT / MRI 多任务分割
入门难度:进阶
查看官方入口 / 样例说明
轻量级 2D/3D 医学图像分类 benchmark,适合本科生快速跑通第一个医学影像项目。
适合任务:分类 / 小型 benchmark
入门难度:入门
查看官方入口 / 样例说明
大规模胸片多标签分类数据集,适合做疾病分类、弱监督定位和标签噪声分析。
适合任务:胸片多标签分类
入门难度:入门到进阶
查看官方入口 / 样例说明
Stanford AIMI 数据集页面说明 CheXpert 包含 224,316 张胸片,来自 65,240 名患者,适合研究胸片分类和不确定标签处理。
适合任务:胸片分类 / 不确定标签
入门难度:进阶
查看官方入口 / 样例说明
PhysioNet 页面说明 MIMIC-CXR 含 377,110 张胸片和 227,835 个影像检查报告,适合做影像报告生成、多模态学习和临床文本联动。
适合任务:胸片理解 / 报告生成
入门难度:进阶,需要申请访问
查看官方入口 / 样例说明
医学影像项目的难点往往在 spacing、patch、滑窗推理、3D transforms 和后处理。用成熟工具能少踩很多坑。
学生看老师主页时,最卡的不是词不会读,而是不知道它背后对应什么任务和能力要求。
大概率包含分割、配准、重建、定量分析等基础任务,不一定只做深度学习模型。
通常偏分类、检测、风险预测,目标是给医生提供诊断线索或筛查工具。
通常把影像、报告、临床指标、病理或基因数据融合,做问答、报告生成或综合诊断。
关注模型为什么这样判断、换医院是否还可靠、是否保护隐私、是否存在偏差。
从医学影像中提取大量定量特征,再和临床结局关联,传统机器学习和深度学习都会用。
多个医院数据不能直接共享时,让模型在保护隐私的前提下协同训练。
不要一上来就写“医学基础模型”。先跑通一个小任务,再进入 U-Net 分割,最后再讨论泛化、少样本和多模态。
先区分分类、检测、分割、配准、报告生成。用 MedMNIST 或一个小型 X-ray 分类任务跑通流程。
复现 U-Net,在 2D 数据上理解 Dice、IoU、mask、数据增强,再过渡到 3D U-Net。
学习 MONAI / nnU-Net,理解 spacing、patch size、滑窗推理、后处理和 cross-validation。
从“改模型”升级到“解决问题”:小样本、跨域泛化、可解释性、标注效率、多模态融合。
好的学生项目不是“我用了一个模型”,而是有清晰任务、明确指标、对比实验和可解释结果。
MedMNIST / ChestX-ray14 分类 + Grad-CAM 可解释性
2-4 周能做出可展示结果,适合作为入门项目。
U-Net 器官/病灶分割 + Dice/HD 指标对比
适合写课程论文、科研训练、毕设开题。
跨域泛化 / 小样本分割 / 半监督医学影像
问题更像真实科研,不只是换模型。
MedSAM / 医学基础模型 / 影像报告生成
适合关注大模型、多模态和 foundation model 的同学。
用 MedMNIST 做医学图像分类,对比 ResNet、DenseNet、ViT,加入 Grad-CAM 可解释性。
复现 U-Net 做器官或病灶分割,系统比较 Dice Loss、数据增强、边界后处理的影响。
基于 nnU-Net 或 MONAI 做跨数据集泛化,研究不同医院/模态下模型性能下降问题。
用 SAM / MedSAM 做医学图像交互式分割,比较点提示、框提示和少量微调的效果。
这部分面向正在搜索科研方向、论文辅导、保研考研科研项目的同学,把最常见的选择问题先说清楚。
适合,但不要一上来就冲“医学基础模型”。更稳的路径是先做一个可复现的小任务,例如医学图像分类或 U-Net 分割,理解数据、指标和实验流程,再逐步进入跨域泛化、多模态或 MedSAM 这类前沿方向。
优先能落地。导师和面试老师更关心你是否讲得清楚问题、数据、方法、指标和结果。热点可以作为方向包装,但项目本身要有代码、实验记录、对比结果和一套能写进简历的科研叙事。
论文 0-1 辅导更适合没有写过论文、想在 6 个月内投出第一篇高质量论文的小白;科研背景提升项目更适合需要保研、考研复试、导师沟通材料或项目作品的同学,重点是把方向变成可展示的代码、报告、实验结果或论文雏形。
因为这些词有两层含义:一层是独立研究方向,另一层是医学影像里的交叉问题。后续方向库会把“可信 AI”“多模态”“世界模型”等关键词单独建页,再在医学影像页里解释它们如何落到医疗场景中。
看懂方向只是第一步。真正能写进简历和申请材料里的,是清晰选题、可复现实验、结果分析和一套能讲清楚的科研叙事。
医学影像 AI 只是计算机科研方向中的一个入口。你也可以继续查看世界模型、多模态、具身智能、推荐系统等方向,再结合自己的专业基础、目标导师和时间周期选择更合适的切入点。