计算机方向详解 · 具身智能

具身智能 Embodied AI:让智能体进入真实和虚拟环境执行任务

具身智能是 AI Agent、世界模型、机器人和多模态学习的交叉点。它不是只让模型回答问题,而是让模型看见环境、理解目标、规划动作、执行操作并从失败中恢复,适合做仿真平台项目、机器人策略学习、导航抓取和长任务智能体。

核心数据图像、视频、深度图、语言指令、动作轨迹、传感器状态
常见任务导航、抓取、操作、视觉语言行动、仿真到真实
常用方法VLM/VLA、模仿学习、强化学习、世界模型、机器人基础模型
适合人群喜欢智能体、机器人、仿真环境和可展示系统的同学
方向导读

方向理解:先知道它到底在做什么

具身智能研究的是 AI 如何通过视觉、语言、动作和反馈感知环境,并在机器人、仿真世界或游戏环境中完成导航、操作和协作任务。

具身智能的本质:模型不只理解语言,还要把理解变成动作

普通大模型主要处理文本,具身智能则要把语言、视觉和动作接到同一个闭环里。模型需要知道自己在哪里、目标物体是什么、下一步怎么移动、失败后如何重新规划。

这个方向适合学生做项目,是因为它天然有可视化和交互形态:虚拟房间导航、桌面抓取、游戏任务、机器人流程规划、视觉语言行动等,都可以形成可演示系统。

  • 输入通常是环境观测、语言目标、历史动作和传感器状态。
  • 输出不是文字答案,而是导航路径、抓取动作、控制指令或任务完成过程。
  • 难点在于长任务、真实物理约束、仿真到真实迁移和安全可控执行。

中文链路图:把方向拆成输入、模型、任务和成果

任务地图

任务地图:别只背方向名,要看输入输出

一个方向能不能做成项目,关键看它能不能落到明确任务、评价指标和实验数据。

任务地图:适合小白先判断项目切入点

01

视觉导航

让智能体在房间、街区或虚拟环境中找到目标位置。

输入图像 / 地图 / 目标描述
输出路径和动作序列
科研价值:适合用 Habitat、AI2-THOR 做入门 Demo。
02

物体抓取与操作

让机器人抓取、移动、打开、放置或组合物体。

输入视觉观测 + 目标物体
输出抓取姿态 / 操作动作
科研价值:机器人方向最核心的可展示任务。
03

视觉语言行动

把自然语言目标转成环境中的连续行动。

输入图像 + 指令 + 历史状态
输出低层动作或 API 调用
科研价值:连接多模态大模型和机器人控制。
04

模仿学习

从人类演示或机器人数据中学习动作策略。

输入专家轨迹 / 视频演示
输出可复现策略
科研价值:数据驱动,适合本科生复现实验。
05

仿真到真实迁移

解决仿真训练和真实机器人之间的差距。

输入仿真训练策略
输出真实环境可用策略
科研价值:论文问题明确,适合做鲁棒性和泛化。
06

安全执行与治理

防止机器人或具身 Agent 执行危险、越界或不可恢复动作。

输入任务策略 + 环境约束
输出可控执行报告
科研价值:和可信 AI、Agent 安全交叉。
技术路线

技术路线:从经典方法到现在的热点

技术路线不是模型名清单,而是看这个方向的问题意识如何一步步变化。

技术路线图:帮助学生看懂方法演进

阶段 01

仿真环境与导航任务

先用虚拟环境建立感知、定位和路径规划闭环。

HabitatAI2-THORVLN
阶段 02

模仿学习与强化学习

从专家轨迹或奖励信号中学习导航、抓取和操作策略。

Behavior CloningRLOffline RL
阶段 03

多模态基础模型接入行动

用 VLM/LLM 理解指令和场景,再生成可执行动作。

VLMVLART-2
阶段 04

世界模型与长期具身 Agent

让智能体在内部模拟环境变化,支持长任务规划和失败恢复。

World ModelPlanningEmbodied Agent
论文清单

经典论文阅读清单

这不是让你背论文名,而是按时间线建立路线感:先看每篇论文解决了什么问题,再看图里哪一块最关键,最后知道它适合放进什么项目里。

Habitat

Habitat: A Platform for Embodied AI Research

为什么重要:提供高性能仿真环境,让学生可以不用真实机器人也能研究导航和具身智能。

新手读法:重点看仿真环境、任务定义和导航评测如何组成研究闭环。

打开论文 / 来源
2020任务平台看图重点:仿真环境如何支撑具身导航任务
SayCan

Do As I Can, Not As I Say: Grounding Language in Robotic Affordances

为什么重要:把语言模型的高层规划和机器人可执行性结合,是具身智能从语言到动作的重要代表。

新手读法:重点看语言计划如何被 affordance 分数筛选。

打开论文 / 来源
2022机器人基础模型看图重点:语言目标如何落到机器人能做的动作
RT-2

RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

为什么重要:把网络视觉语言知识迁移到机器人控制,是 VLA 方向的里程碑论文。

新手读法:重点看视觉语言 token 如何和机器人动作 token 接到一起。

打开论文 / 来源
2023视觉语言行动看图重点:视觉语言模型如何输出机器人动作
Foundation Models

A Survey on Robotics with Foundation Models: toward Embodied AI

为什么重要:系统整理 foundation models 在机器人规划、感知、操作和控制中的应用,是入门具身智能的地图。

新手读法:重点看高层规划、低层控制、数据集和 benchmark 四条线。

打开论文 / 来源
2024综述论文看图重点:基础模型如何进入机器人系统
评价指标

评价指标:怎么证明项目真的有效

不同任务不能只看 Accuracy。论文和项目都要说明指标为什么适合当前问题。

Success Rate

任务最终是否完成,是具身任务最核心指标。

SPL

导航任务中同时考虑成功率和路径效率。

Action Accuracy

动作选择是否符合专家或目标策略。

Collision Rate

机器人或智能体是否频繁碰撞或违反约束。

Sim-to-Real Gap

仿真中有效的策略到真实环境是否仍然有效。

Human Intervention

真实执行中需要人工接管的比例。

数据工具

数据集和工具:先看有没有公开入口

小白选题时先确认数据、代码和 benchmark 是否可获得,否则方向再热也很难落地。

Open X-Embodiment

大规模机器人数据集合,适合研究通用机器人策略。

官方入口 / 资料
导师翻译

导师主页方向翻译:这些词到底暗示什么

学生看老师主页最难的是不知道关键词背后对应什么任务和能力要求。

Embodied AI

通常研究智能体如何在环境中感知、规划和行动。

Vision-Language-Action

把视觉、语言和动作接成统一模型。

Sim-to-Real

关注仿真训练如何迁移到真实机器人。

Manipulation

偏抓取、放置、装配和工具使用。

Navigation

偏室内/室外路径规划和目标寻找。

Robot Foundation Model

用大规模数据训练更通用的机器人策略。

入门路径

入门路径:从小项目走到研究点

真正适合学生的路线,是先跑通最小闭环,再逐步加难度。

第 1 阶段:跑通仿真导航

先用 Habitat 或 AI2-THOR 完成一个目标导航任务。

第 2 阶段:接入语言指令

把自然语言目标转成路径、动作或 API 调用。

第 3 阶段:加入多模态模型

用 VLM 理解场景,用 Planner 拆解任务。

第 4 阶段:形成研究点

围绕长任务、失败恢复、仿真到真实、安全执行或数据效率做实验。

项目选题

项目选题:能写进简历和申请材料

下面这些题目不是空泛口号,而是可以沉淀代码、实验结果、图表和论文雏形的方向。

室内目标导航智能体

输入“找到厨房里的杯子”,在虚拟房间中规划路径并输出动作。

桌面物体操作规划器

识别桌面物体并生成抓取、移动和放置步骤。

视觉语言行动评测工具

比较不同 VLM 在环境理解和动作选择上的表现。

仿真到真实鲁棒性实验

改变光照、材质和视角,观察策略性能下降。

长任务失败恢复 Agent

记录失败动作,重新规划并完成多步任务。

具身智能安全约束器

为机器人动作添加安全规则和人工接管机制。

常见问题

常见问题:小白最容易卡住的判断

这部分覆盖搜索和咨询时最高频的问题。

具身智能需要真实机器人吗?

不一定。学生可以先用 Habitat、AI2-THOR、ManiSkill 等仿真平台做项目。

它和 AI Agent 有什么区别?

AI Agent 更偏工具和软件环境,具身智能强调物理或虚拟环境中的感知和行动。

小白从哪里开始?

建议先做视觉导航或语言条件操作,不要一开始就上真实机械臂。

继续探索适合你的科研方向

这个方向只是计算机科研路线中的一个入口。你也可以继续查看多模态学习、世界模型、推荐系统、可信 AI 等方向,再结合自己的专业基础、目标导师和时间周期选择更合适的切入点。