← 返回计算机方向库计算机方向详解 · World Model

世界模型:让 AI 在脑中模拟未来,再决定怎么行动

世界模型不是单纯“生成视频”,而是学习环境如何变化:如果智能体采取某个动作,未来状态、奖励和风险会怎样。它连接了强化学习、视频生成、机器人、自动驾驶和具身智能。

核心对象视频帧 / 状态序列 / 动作 / 奖励 / 传感器
常见任务未来预测、想象训练、规划控制、场景仿真
常用方法VAE、RNN、Transformer、Diffusion、RL
适合人群喜欢“预测未来 + 决策规划”,愿意处理时序和实验不稳定的同学
先把世界模型理解成一个“可被行动驱动的预测器”:它读入过去,学习状态,模拟未来,再帮助智能体选择动作。

这个方向到底在做什么?

一句话:世界模型学习一个可预测、可规划、可控制的环境内部模型,让智能体不用每次都在真实世界里试错。

输入是什么?

可以是视频帧、图像、机器人传感器、动作序列、奖励、地图、语言指令,也可以是自动驾驶多摄像头数据。

关键不是单张图,而是“时间”和“动作”。

输出是什么?

输出可以是未来状态、未来帧、奖励预测、可执行动作、规划轨迹,甚至是一个可交互的视频环境。

输出必须能帮助决策,否则更像普通生成模型。

难点在哪里?

长期预测容易崩,动作和结果的因果关系难学,生成质量和可控性常常冲突,真实机器人和驾驶场景还要求安全稳定。

这也是它适合做科研的原因:问题足够难,空间足够大。

任务地图:世界模型不是只有视频预测

新手最容易把世界模型等同于“预测下一帧”。实际上它还包含规划、控制、仿真和可交互环境生成。

01

未来状态预测

判断模型能不能学到环境动力学:如果智能体向左走、加速、抓取,世界接下来会怎样。

输入过去观察 + 动作
输出下一帧 / 下一状态 / 奖励

科研价值:理解世界模型最基础的任务。

02

想象 rollout

模型不是只预测一步,而是在内部连续模拟很多步,让策略可以先“脑补”后果再行动。

输入当前 latent state
输出多步未来轨迹

科研价值:Dreamer、PlaNet 这类方法的核心。

03

模型预测控制

在世界模型中尝试多条动作路径,选择长期回报更高、风险更低的一条。

输入候选动作序列
输出最优动作

科研价值:和机器人、自动驾驶、控制系统关系很近。

04

想象强化学习

真实环境采样很贵时,让智能体在模型里生成虚拟经验,提高样本效率。

输入真实经验 + 学到的模型
输出策略网络 / value 网络

科研价值:适合做强化学习、游戏 AI、机器人控制。

05

生成式交互环境

用生成模型创建一个能响应动作的环境,不只是看起来像视频,还要能被操控。

输入图片 / 文本 / 动作提示
输出可控制的视频世界

科研价值:Genie、Genie 2 代表的前沿热点。

06

具身与驾驶世界模型

在机器人或自动驾驶中预测空间变化、物体运动和可行动作,服务于安全规划。

输入多摄像头 / 传感器 / 轨迹
输出未来场景与规划

科研价值:更接近真实产业和科研交叉问题。

技术路线:从 VAE-RNN 到生成式交互环境

世界模型的方法不是孤立的,它沿着计算机视觉、强化学习、序列建模和生成模型一起演进。

阶段 01

表征压缩:先把复杂观察变成可建模状态

原始图像或视频太高维,世界模型通常先学习 latent state,把视觉信息压缩成更容易预测、规划的内部状态。

VAEEncoderlatent staterepresentation
阶段 02

潜在动力学:预测“下一步会发生什么”

用 RNN、RSSM、Transformer 或扩散模型建模状态转移,学习动作、状态和奖励之间的关系。

RNNRSSMTransformerdynamics
阶段 03

想象训练:在模型里采样未来经验

PlaNet、Dreamer 系列把策略学习放到 learned world model 里,通过 imagination rollout 提升样本效率。

PlaNetDreameractor-criticrollout
阶段 04

生成式世界模型:从视频生成走向可交互环境

Genie、视频扩散模型和多模态模型把世界模型推向“可生成、可控制、可交互”的环境模拟。

Genievideo generationinteractive environmentfoundation model

经典论文:从 World Models 读到 Genie

读世界模型论文时不要只看模型结构,更要看它如何定义状态、预测未来、规划动作和评估长期效果。

世界模型概念

World Models

为什么重要:把“用模型学习环境,再在模型中训练智能体”的想法讲得非常直观,是世界模型方向最适合入门的论文之一。

新手读法:重点看 VAE + MDN-RNN + Controller 三件事如何组合,以及为什么 latent imagination 能减少真实环境交互成本。

打开论文 / 来源
2018
奠基论文Figure 4:Vision / Memory / Controller
从像素规划

Learning Latent Dynamics for Planning from Pixels / PlaNet

为什么重要:把像素输入变成 latent dynamics,再用 planning 选择动作,展示了世界模型如何真正服务于控制。

新手读法:重点看 latent dynamics model、multi-step prediction 和 model predictive planning。

打开论文 / 来源
2019
规划方法Figure 1:像素控制任务域
想象 actor-critic

Dream to Control: Learning Behaviors by Latent Imagination

为什么重要:Dreamer 把策略学习放到 latent imagination 中,是世界模型强化学习的重要分水岭。

新手读法:重点看 imagination rollout、actor-critic 如何在模型内部训练。

打开论文 / 来源
2019
强化学习Figure 3:Dreamer 组件
模型式搜索

Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model / MuZero

为什么重要:MuZero 不需要知道环境规则,也能学习一个用于规划的模型,证明“学出来的模型 + 搜索”可以非常强。

新手读法:重点看 representation、dynamics、prediction 三个网络,以及 MCTS 如何使用 learned model。

打开论文 / 来源
2020
决策系统Figure 1:learned model + planning
DreamerV3

Mastering Diverse Domains through World Models

为什么重要:DreamerV3 强调跨不同任务域的统一配置,是理解世界模型泛化能力的重要论文。

新手读法:重点看它如何在不同控制任务和游戏任务中复用同一套世界模型训练框架。

打开论文 / 来源
2023
通用智能体Figure 3:DreamerV3 训练过程
Genie

Genie: Generative Interactive Environments

为什么重要:Genie 把大量视频数据变成可交互环境,代表世界模型和视频生成融合的新方向。

新手读法:重点看它如何从无标注视频中学习动作空间、动力学和可交互 rollout。

打开论文 / 来源
2024
生成式环境Figure 1:从 prompt 到可交互世界
基础世界模型

Genie 2: A Large-scale Foundation World Model

为什么重要:Genie 2 展示了由图像提示生成可交互 3D-like 环境的路线,是世界模型从游戏视频走向通用环境模拟的代表。

新手读法:重点看“生成环境”如何从观看视频升级为可控制、可探索、可评估的交互系统。

打开论文 / 来源
2024
前沿趋势Google DeepMind 官方图
Cosmos WFM

Cosmos World Foundation Model Platform for Physical AI

为什么重要:NVIDIA Cosmos 把世界模型从游戏和视频预测推向 Physical AI 平台,强调视频数据、tokenizer、预训练 WFM、后训练和安全护栏的完整体系。

新手读法:重点看它为什么把世界模型定义成“未来状态生成器”,以及如何服务机器人、自动驾驶和相机控制等物理 AI 场景。

打开论文 / 来源
2025
物理 AIFigure 1:Cosmos World Foundation Models
Genie 3

Genie 3: A new frontier for world models

为什么重要:Genie 3 展示了从文本提示生成可实时导航的动态世界,强调长时间一致性、实时交互和通用环境生成。

新手读法:重点看“实时可玩世界”相比 Genie 2 的升级:24 FPS、720p、分钟级一致性,以及它对智能体训练环境的意义。

打开论文 / 来源
2025
实时交互Google DeepMind 官方图
Cosmos 3

Cosmos 3: Omnimodal World Models for Physical AI

为什么重要:Cosmos 3 把语言、图像、视频、音频和动作统一建模,代表世界模型从“视频生成/预测”进一步走向物理智能体的通用 backbone。

新手读法:重点看 omnimodal 输入输出、action 表示、Mixture-of-Transformers 架构,以及它如何同时服务理解、生成和行动。

打开论文 / 来源
2026
全模态世界模型Figure 1:Physical AI 通用 backbone

评价指标速查:不能只看视频漂不漂亮

世界模型最终要服务预测和行动,所以既要看生成质量,也要看长期一致性、控制性能和样本效率。

预测误差

常见场景:视频预测 / 状态预测

看未来帧、latent state、奖励预测是否准确,但不能只看像素级误差。

长期一致性

常见场景:多步 rollout

世界模型最怕一步还行、多步崩坏,所以要看越滚越远时是否保持物体和因果一致。

控制性能

常见场景:规划 / 强化学习

最终策略能不能拿到高回报,能不能稳定完成任务,这是世界模型真正的落地指标。

样本效率

常见场景:机器人 / 游戏

真实交互次数越少越好,尤其机器人和自动驾驶场景很看重这一点。

可控性

常见场景:生成式环境

给定动作后,环境是否按动作合理变化,而不是只生成漂亮但不可控的视频。

泛化能力

常见场景:多任务 / 多环境

换地图、换视角、换任务后还能不能预测和规划,是做论文时很重要的研究点。

真实数据集和工具:先选环境,再决定能不能做

世界模型很依赖环境和交互数据。做项目前先确认你能否跑环境、收集轨迹、评估策略。

工具 / 数据集适合任务新手怎么用入口
DeepMind Control Suite连续控制任务适合 Dreamer/PlaNet 入门,任务清晰、计算成本相对可控。官方入口
Atari / ALE游戏智能体适合研究视觉输入下的长期决策、样本效率和 planning。官方入口
Procgen Benchmark泛化能力适合测试智能体在程序生成环境中的泛化表现。官方入口
CARLA自动驾驶仿真适合做驾驶世界模型、未来轨迹预测、场景生成和规划。官方入口
D4RL / Offline RL离线强化学习适合研究不与环境交互时,如何从历史数据学习模型和策略。官方入口
Open X-Embodiment机器人多任务数据适合理解机器人世界模型和具身智能数据规模问题。官方入口

导师主页方向翻译:这些词暗示什么能力?

很多老师不会直接写“世界模型”,而是写 model-based RL、video prediction、embodied AI、simulation 等关键词。

World Model / 世界模型

通常指学习环境动力学,用于预测未来、规划动作或训练智能体。

Model-based RL

偏强化学习,重点是先学一个环境模型,再用模型减少真实交互成本。

Video Prediction

偏视觉和生成,重点是从过去视频预测未来,可能不一定做控制。

Embodied AI

偏机器人或具身智能,世界模型常作为感知、规划和控制的中间模块。

Autonomous Driving Simulation

偏自动驾驶,通常研究未来场景、轨迹预测、闭环规划或可控仿真。

Generative Interactive Environment

偏前沿生成模型,把视频生成升级为可交互、可控制的虚拟环境。

新手入门路径

不要一上来就做通用世界模型。先在小环境里跑通状态、动作、奖励和 rollout,再谈大模型和可交互环境。

第一阶段:理解强化学习和序列预测

先弄清状态、动作、奖励、策略、环境,以及 RNN/Transformer 如何处理时间序列。

第二阶段:复现一个小型 world model

用简单游戏或 DeepMind Control 任务,理解 encoder、dynamics model、reward model 和 rollout。

第三阶段:跑通 Dreamer/PlaNet 思路

重点不是调出最好成绩,而是理解模型学习、想象训练、策略更新之间的数据流。

第四阶段:做研究点

从泛化、长期一致性、可控生成、离线数据、机器人仿真到真实迁移中选择一个可落地问题。

可以落地成项目的选题

好的世界模型项目要能展示“预测未来如何帮助行动”,而不是只放几张生成帧。

入门项目

在小型视觉控制环境里复现 latent world model,对比无模型 RL 和 model-based RL 的样本效率。

视频预测项目

用公开视频或仿真数据做未来帧预测,研究长期一致性和动作可控性。

自动驾驶方向

基于 CARLA 做未来场景预测或轨迹规划,比较不同输入模态对规划结果的影响。

机器人方向

用离线机器人数据训练状态预测模型,再评估它对抓取或导航策略的辅助效果。

生成式环境方向

参考 Genie 思路,用小规模游戏视频探索“无动作标注视频如何学习可交互环境”。

常见问题:小白怎么判断自己适不适合?

这部分覆盖世界模型科研方向、AI 项目、保研考研科研项目和论文 0-1 选题中最常见的问题。

世界模型和普通视频生成有什么区别?

普通视频生成更关心画面是否真实;世界模型更关心“动作导致什么后果”。它必须服务于预测、规划或控制,不只是生成好看的视频。

这个方向适合科研小白吗?

可以入门,但不建议直接做大规模 Genie 类模型。更稳妥的是从小型控制环境、视频预测或 Dreamer 复现开始,先掌握状态、动作、奖励和 rollout。

世界模型和强化学习是什么关系?

世界模型常见于 model-based RL:先学习环境模型,再在模型中规划或训练策略。强化学习解决“怎么行动”,世界模型提供“行动后会怎样”的模拟器。

做世界模型对保研考研项目有价值吗?

有价值,但要把范围收窄。可展示项目最好有明确环境、输入输出、指标和可视化 rollout,能讲清楚“模型预测未来如何帮助决策”。

下一步行动

想把世界模型做成论文或科研项目?

世界模型很容易讲得宏大,但学生项目必须落到一个具体环境、一个可复现实验和一个能解释的研究问题上。

1定位你的基础和目标方向
2拆成可跑通的实验路线
3沉淀代码、结果、报告或论文雏形
适合已经对 AI 前沿感兴趣,但需要从 0 到 1 落地的同学

科研背景提升项目

可以根据你的专业基础、目标学校、导师方向和时间周期,围绕世界模型、强化学习、具身智能或自动驾驶仿真打造科研项目。

项目沉淀为可展示代码、实验结果、报告或论文雏形,而不是只做一个泛泛的 AI 小实验。

论文 0-1 辅导

面向没有写过论文、但想真正做出第一篇成果的小白同学,陪你从选题、文献阅读、实验设计、结果分析一路走到论文成稿。

没有学长学姐微信的同学,可以联系下方学长。

微信:shujinxing777

继续探索计算机科研方向

世界模型和多模态、具身智能、强化学习、自动驾驶都高度相关。你可以先理解它,再根据自己的数学基础、算力条件和目标导师方向选择更稳的切入点。