← 返回计算机方向库计算机方向详解 · Multimodal Learning

多模态学习:让模型同时看图、读文字、听声音、理解视频

多模态学习研究不同信息形态如何对齐、融合和推理。它从 CLIP 的图文对齐,发展到 LLaVA、Qwen-VL、Gemini 这类能看图、读文档、理解视频并调用工具的多模态大模型。

核心数据图像 / 文本 / 视频 / 音频 / 传感器
常见任务图文检索、VQA、图像描述、视频理解、跨模态生成
常用模型CLIP、BLIP-2、Flamingo、LLaVA、Qwen-VL、Gemini
适合人群想做大模型应用、视觉语言理解、AI 项目和论文结合的同学
多模态学习的核心是把不同模态映射到可比较、可融合、可推理的表示空间,再服务检索、问答、生成和智能体任务。

这个方向到底在做什么?

一句话:多模态学习让模型把图像、文本、视频、音频等信息放到一起理解,而不是只会看或只会读。

输入是什么?

输入可以是图像、文本、视频、音频、表格、屏幕截图、传感器信号,也可以是多个模态的组合。

关键不是“数据多”,而是不同模态要能互相解释。

输出是什么?

输出可以是检索排序、答案、图像描述、报告、定位框、生成内容、工具调用步骤或多轮对话。

输出越接近真实任务,评价越复杂。

难点在哪里?

图文对齐、细粒度定位、幻觉、长视频理解、跨模态推理、数据噪声和多任务泛化都是常见难点。

这也是它适合做论文和项目的原因。

任务地图:多模态不是只有看图问答

多模态任务从图文检索开始,逐渐扩展到问答、报告生成、视频理解、跨模态生成和智能体交互。

01

图文检索

让模型把图片和文字映射到同一个语义空间,回答“这张图和哪句话最匹配”。

输入图片 + 文本查询
输出最相关图片 / 文本排序

科研价值:CLIP 入门最经典,适合做第一个项目。

02

视觉问答 VQA

模型需要看懂图像局部、文字问题和常识关系,比如“图中有几个人”“异常在哪里”。

输入图片 + 问题
输出自然语言答案

科研价值:从识别走向推理,是多模态大模型核心任务。

03

图像描述 / 报告生成

把视觉内容转成可读文本,常用于图像 caption、医学报告、质检说明和内容生成。

输入图片 / 医学影像 / 场景图
输出结构化文字描述

科研价值:适合和医学影像、教育、工业检测交叉。

04

视频理解

视频比图片多了时间维度,需要理解动作变化、事件顺序和跨帧关系。

输入视频帧 + 语音 / 字幕
输出事件、动作、摘要、问答

科研价值:和世界模型、智能体、内容平台高度相关。

05

跨模态生成

用一种模态控制另一种模态生成,比如文生图、图生文、图像编辑和视频生成。

输入文本 / 图像 / 音频条件
输出图片、视频、语音或文本

科研价值:适合关注 AIGC、扩散模型和产品应用的同学。

06

多模态智能体

让模型看屏幕、读文档、调用工具,完成网页操作、数据分析、机器人控制等复杂任务。

输入屏幕、图像、文本、工具反馈
输出操作步骤 / 工具调用 / 决策

科研价值:更接近现在 AI 应用和科研热点。

技术路线:从双塔对齐到多模态大模型

多模态方法沿着“对齐 → 融合 → 接入 LLM → 工具化智能体”的路线演进。

阶段 01

双塔对齐:先让图片和文字进入同一语义空间

CLIP 代表了图像编码器和文本编码器的双塔结构,用对比学习把匹配图文拉近、不匹配图文推远。

CLIPcontrastive learningshared embeddingzero-shot
阶段 02

视觉语言预训练:从检索走向理解和生成

ViLBERT、UNITER、BLIP 等方法把图文匹配、caption、VQA 等任务组合起来,让模型学会跨模态语义融合。

VQAcaptioningcross-attentionpretraining
阶段 03

视觉语言大模型:把视觉接入 LLM

Flamingo、BLIP-2、LLaVA 用视觉编码器、连接器和大语言模型组合,让模型能看图对话、解释和推理。

FlamingoBLIP-2LLaVAinstruction tuning
阶段 04

通用多模态智能体:多输入、多工具、多步骤

新一代模型进一步处理图像、视频、音频、文档和工具调用,向通用助手、具身智能和复杂任务执行演进。

Qwen-VLGeminiInternVLagent

经典论文:从 CLIP 读到 LLaVA

读多模态论文时,不要只看模型名字,要看它解决的是对齐、融合、接入 LLM、指令微调还是复杂评测。

图文对齐

Learning Transferable Visual Models From Natural Language Supervision / CLIP

为什么重要:CLIP 用大规模图文对比学习建立共享语义空间,直接推动了开放词汇识别、图文检索和后续视觉语言大模型。

新手读法:重点看双塔结构、对比学习目标、zero-shot 分类为什么成立。

打开论文 / 来源
2021
奠基论文Figure 1:CLIP 方法总览
Few-shot VLM

Flamingo: a Visual Language Model for Few-Shot Learning

为什么重要:Flamingo 把视觉输入接入语言模型,并展示少样本视觉语言任务能力,是多模态大模型路线的重要节点。

新手读法:重点看视觉特征如何通过 cross-attention 融入语言模型,以及 few-shot prompt 如何工作。

打开论文 / 来源
2022
视觉语言模型Figure 1:Few-shot 输入输出样例
BLIP-2

BLIP-2: Bootstrapping Language-Image Pre-training

为什么重要:BLIP-2 用 Q-Former 连接冻结视觉编码器和冻结语言模型,降低训练成本,成为很多 VLM 方法的基础思想。

新手读法:重点看 Q-Former 为什么是桥梁,以及两阶段训练如何对齐视觉和语言。

打开论文 / 来源
2023
连接器方法Figure 2:Q-Former 架构
LLaVA

Visual Instruction Tuning / LLaVA

为什么重要:LLaVA 把视觉特征投影进 LLM,并用视觉指令数据训练出看图对话能力,非常适合学生理解多模态大模型工程路线。

新手读法:重点看视觉投影层、指令数据构造、多轮问答和评测方式。

打开论文 / 来源
2023
指令微调Figure 1:LLaVA 网络架构
Qwen-VL

Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond

为什么重要:Qwen-VL 在中文、多语言、OCR、定位和视觉问答上更贴近国内应用生态,适合中国学生做项目参考。

新手读法:重点看视觉定位、OCR、中文问答和多任务评测。

打开论文 / 来源
2023
中文生态Figure 2:Qwen-VL-Chat 样例
Gemini

Gemini: A Family of Highly Capable Multimodal Models

为什么重要:2024 年后多模态方向从图文问答走向视频、音频、文档、工具调用和智能体,研究重点变成复杂任务泛化。

新手读法:重点看模型如何处理多种输入、长上下文、多轮交互和工具使用。

打开论文 / 来源
2024
通用模型Figure 2:交错多模态输入输出

评价指标速查:多模态不能只看回答对不对

不同任务的目标差异很大:检索看排序,问答看准确性,定位看区域,生成还要看幻觉和可用性。

Recall@K

常见场景:图文检索

查询文本能否找回正确图片,或查询图片能否找回正确文本。

VQA Accuracy

常见场景:视觉问答

答案是否正确,但要注意开放式回答、同义表达和推理型问题。

Caption 指标

常见场景:图像描述

BLEU、CIDEr、SPICE 等只能参考,不能完全代表描述是否有用。

Hallucination

常见场景:多模态大模型

模型是否凭空说出图中不存在的物体、文字或关系。

Grounding / IoU

常见场景:定位与指代

回答是否能对应到图像中的正确区域、框或 mask。

Human Eval

常见场景:复杂推理

多模态智能体、长视频理解和复杂报告生成常需要人工或模型辅助评测。

真实数据集和工具:先看任务,再选数据

多模态数据很杂,做项目前先确认任务是检索、VQA、caption、视频理解还是多模态评测。

数据集 / 工具适合任务新手怎么用入口
COCO Captions图像描述适合入门 caption、检索和图文对齐。官方入口
Flickr30k图文检索经典小规模图文匹配数据,适合教学和快速实验。官方入口
VQAv2视觉问答入门 VQA 标准数据集,适合理解图像+问题+答案格式。官方入口
LAION大规模图文预训练适合理解 CLIP 类模型的数据规模和噪声问题。官方入口
MSR-VTT视频文本理解适合视频检索、视频 caption 和视频问答。官方入口
MMMU / MMBench多模态大模型评测适合看模型在学科知识、图表理解和复杂推理上的表现。官方入口

导师主页方向翻译:这些词到底暗示什么?

很多老师不会直接写“多模态学习”,而是写 vision-language、cross-modal、grounding、VLM、agent 等关键词。

Vision-Language Learning

通常研究图像和文本如何对齐、融合、检索、问答和生成。

Cross-modal Retrieval

偏图文检索和共享语义空间,常用 CLIP、对比学习、Recall@K。

Visual Question Answering

偏理解和推理,要求模型根据图像回答自然语言问题。

Multimodal Large Language Model

把视觉、视频、音频等接入 LLM,做对话、推理和工具调用。

Grounding / Referring

要求模型把语言表达定位到图像区域,常和检测、分割、机器人操作相关。

Multimodal Agent

更偏应用和系统,让模型看屏幕、读文档、调用工具完成任务。

新手入门路径

多模态方向很大,不建议一上来就微调大模型。先理解 CLIP 对齐,再做 VQA/caption,最后接入 LLM。

第一阶段:跑通 CLIP 思路

从图文检索或 zero-shot 分类开始,理解 image encoder、text encoder 和 contrastive loss。

第二阶段:做 VQA 或 caption

把模型从“匹配”推进到“回答和生成”,理解视觉特征和语言模型如何融合。

第三阶段:接入 LLM

学习 BLIP-2/LLaVA 思路,用视觉编码器、投影层或 Q-Former 连接语言模型。

第四阶段:做研究点

从幻觉检测、细粒度 grounding、长视频理解、医学多模态、文档理解或智能体工具调用中选一个问题。

可以落地成项目的选题

好的多模态项目要有明确数据、任务、评价和可视化结果,不能只套一个开源模型截图。

图文检索入门项目

用 COCO/Flickr30k 复现 CLIP-style 图文检索,对比不同视觉 backbone 和文本编码器。

视觉问答项目

做一个面向校园、医学、工业或教育场景的 VQA 小系统,并分析模型幻觉和错误类型。

医学多模态项目

结合医学影像和报告文本,做影像报告生成、图文检索或疾病描述辅助。

长视频理解项目

用视频片段和字幕做事件问答、摘要或异常检测,研究时间建模和多帧采样。

多模态智能体项目

让模型读取截图、表格或网页,完成检索、总结、填表或数据分析任务。

常见问题:小白怎么判断自己适不适合?

这部分覆盖多模态科研方向、AI 项目、保研考研科研项目和论文 0-1 选题中最常见的问题。

多模态学习和大模型有什么关系?

早期多模态更像图文对齐和视觉问答;现在多模态大模型把图像、视频、音频接入 LLM,让模型能对话、推理和调用工具。

小白应该从 CLIP 还是 LLaVA 开始?

建议先从 CLIP 开始,因为它最能解释“对齐”这个核心问题。理解双塔和对比学习后,再看 BLIP-2、LLaVA 的视觉接入 LLM。

多模态方向适合保研考研项目吗?

适合。它容易做出可展示 demo,也能和医学影像、教育、工业质检、内容平台等场景结合,但必须有清晰数据、任务和评价指标。

这个方向会不会太卷?

热门方向一定卷,但可选切口很多:幻觉检测、中文多模态、细粒度定位、长视频、多模态智能体、垂直场景应用都能拆出学生项目。

下一步行动

想把多模态方向做成论文或科研项目?

多模态很适合做可展示项目,但真正写进简历和论文的,不是模型名字,而是任务定义、数据处理、实验对比和错误分析。

1定位你的基础和目标方向
2拆成图文/视频/智能体任务
3沉淀代码、结果、报告或论文雏形
适合想做大模型应用、保研科研项目或第一篇论文的同学

科研背景提升项目

可以根据你的专业基础、目标学校、导师方向和时间周期,围绕图文检索、视觉问答、多模态智能体、医学多模态等方向打造科研项目。

项目沉淀为可展示代码、实验结果、报告或论文雏形。

论文 0-1 辅导

面向没有写过论文、但想真正做出第一篇成果的小白同学,陪你从选题、文献阅读、实验设计、结果分析一路走到论文成稿。

没有学长学姐微信的同学,可以联系下方学长。

微信:shujinxing777

继续探索计算机科研方向

多模态和医学影像、世界模型、大模型智能体、可信 AI 都有交叉。你可以先理解图文对齐,再根据目标导师方向选择更具体的切入点。