计算机方向详解 · AI Agent

AI Agent 智能体：让大模型从会聊天走向会做事

AI Agent 是当前最容易被学生理解、也最容易做出系统 Demo 的方向之一。它把大语言模型、RAG、工具调用、任务规划、代码执行和多智能体协作连在一起，适合做保研科研项目、考研复试项目、课程论文和论文 0-1。

先看经典论文看可落地项目

核心数据文本、网页、代码、知识库、工具返回结果

常见任务RAG、工具调用、任务规划、多智能体协作

常用模型LLM、Retriever、Function Calling、Planner

适合人群想快速做出可展示系统、兼顾论文和求职项目的同学

方向导读

方向理解：先知道它到底在做什么

AI Agent 不是“套一个聊天机器人”，而是研究大模型如何理解目标、拆解任务、调用工具、观察反馈并持续修正，最终完成真实工作流。

智能体的本质：把“语言理解”接到“外部行动”

普通聊天模型主要生成回答，AI Agent 则要把回答变成行动。它需要知道目标是什么、任务如何拆、什么时候搜索、什么时候写代码、什么时候调用数据库，以及失败后怎样重试。

这类方向适合小白，是因为它天然有系统形态：知识库问答、论文阅读助手、导师信息检索、自动写报告、代码修复、简历优化等，都可以做成能演示的项目。

输入通常是用户目标、文档、网页、代码仓库或业务数据。
输出不是一句话，而是检索证据、执行步骤、生成文件、修改代码或完成流程。
难点在于可靠性：Agent 很容易幻觉、误调用工具、陷入循环或无法判断任务是否完成。

中文链路图：把方向拆成输入、模型、任务和成果

任务地图

任务地图：别只背方向名，要看输入输出

一个方向能不能做成项目，关键看它能不能落到明确任务、评价指标和实验数据。

任务地图：适合小白先判断项目切入点

RAG 知识库问答

把检索结果接入大模型，让模型回答时引用可追溯资料，而不是凭空编。

输入文档 / 网页 / 私有资料

输出带证据答案

科研价值：最适合小白做第一个 Agent 项目。

工具调用

模型判断该用搜索、计算、数据库、浏览器还是代码执行工具。

输入用户意图 + 工具列表

输出函数调用 / API 调用

科研价值：从聊天机器人升级成能操作系统的关键。

任务规划

把“帮我调研一个方向”拆成搜索、阅读、整理、写作和审核等步骤。

输入复杂目标

输出多步计划

科研价值：适合研究 planning、失败恢复和长期任务。

多智能体协作

让调研员、工程师、审稿人等 Agent 分工完成复杂任务。

输入角色设定 + 任务

输出协作结果

科研价值：适合做论文写作、代码审核、项目管理类系统。

代码智能体

自动定位问题、修改代码、运行测试并解释修改。

输入代码仓库 + issue

输出补丁 / 测试结果

科研价值：和真实软件工程很近，项目展示度高。

行业 Agent

把 Agent 落到医疗、金融、法律、教育等具体场景。

输入领域知识 + 流程

输出自动化服务

科研价值：适合非计算机专业做 AI 交叉项目。

技术路线

技术路线：从经典方法到现在的热点

技术路线不是模型名清单，而是看这个方向的问题意识如何一步步变化。

阶段 01

Prompt 与 CoT：先让模型会拆问题

通过提示、示例和思维链让模型生成更可靠的中间步骤。

PromptCoTfew-shot

阶段 02

RAG：给模型接上外部知识

用检索增强减少幻觉，让回答能引用文档、论文或数据库证据。

RetrieverEmbeddingVector DB

阶段 03

Tool Use：让模型能调用外部工具

模型不只输出文本，还能选择函数、API、浏览器、代码解释器等工具。

Function CallingToolformerReAct

阶段 04

Agentic Workflow：长期任务和多智能体

通过规划、反思、记忆、协作和自动评估，让模型完成更复杂的流程。

ReflectionMemoryMulti-Agent

论文清单

经典论文阅读清单

这不是让你背论文名，而是按时间线建立路线感：先看每篇论文解决了什么问题，再看图里哪一块最关键，最后知道它适合放进什么项目里。

推理 + 行动

ReAct: Synergizing Reasoning and Acting in Language Models

为什么重要：把 reasoning trace 和 action trace 放在一起，是理解 Agent “边想边做”的入门论文。

新手读法：重点看模型如何交替生成思考、行动和观察，以及为什么这能减少幻觉。

打开论文 / 来源

2022方法论文论文 Figure 1：对比 Standard、CoT、Act-only 与 ReAct 的推理-行动轨迹

Toolformer

Toolformer: Language Models Can Teach Themselves to Use Tools

为什么重要：展示语言模型可以学习何时调用外部工具，是 Tool Use 方向的重要代表。

新手读法：重点看工具调用样本如何构造，以及工具结果如何提升模型能力。

打开论文 / 来源

2023工具调用论文关键图：从采样 API 调用、执行调用到过滤有效工具结果

Reflexion

Reflexion: Language Agents with Verbal Reinforcement Learning

为什么重要：把失败经验写成语言反馈，让 Agent 下次表现更好，适合理解 self-reflection。

新手读法：重点看 verbal feedback 如何替代传统梯度更新。

打开论文 / 来源

2023反思学习论文 Figure 2：Actor、Evaluator、Self-reflection 与长期经验记忆的闭环

Voyager

Voyager: An Open-Ended Embodied Agent with Large Language Models

为什么重要：用 Minecraft 展示 Agent 可以持续探索、积累技能和自我改进，是 embodied agent 的经典案例。

新手读法：重点看技能库、自动课程和迭代提示如何组成长期学习系统。

打开论文 / 来源

2023开放式智能体论文 Figure 2：自动课程、迭代提示机制和技能库组成开放式智能体

SWE-agent

SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering

为什么重要：把 LLM Agent 放进真实 GitHub issue 修复流程，推动软件工程 Agent 从 Demo 走向 benchmark。

新手读法：重点看 Agent-Computer Interface 如何设计，以及模型如何浏览仓库、编辑文件、运行测试。

打开论文 / 来源

2024软件工程 Agent看图重点：Agent 如何进入真实仓库并完成软件工程任务

Agent Laboratory

Agent Laboratory: Using LLM Agents as Research Assistants

为什么重要：把文献综述、实验设计、代码执行和报告写作串成科研工作流，适合理解研究助手型 Agent。

新手读法：重点看多个模块如何协作完成研究任务，以及哪些环节需要人类监督。

打开论文 / 来源

2025科研智能体看图重点：科研助手型 Agent 如何串起研究流程

Agentic Reasoning

Agentic Reasoning for Large Language Models

为什么重要：系统梳理 Agentic Reasoning 的基础能力、演化机制和多智能体协作，是 2026 年理解 Agent 方法版图的入口。

新手读法：重点看 foundations、evolution、collaboration 三条主线，理解从单体规划到群体协作的演进。

打开论文 / 来源

2026综述论文看图重点：Agentic Reasoning 从基础能力走向协作系统

评价指标

评价指标：怎么证明项目真的有效

不同任务不能只看 Accuracy。论文和项目都要说明指标为什么适合当前问题。

任务成功率

Agent 最核心指标：最终是否完成用户目标。

步骤正确率

看每一步工具选择、参数和中间结论是否正确。

幻觉率

回答是否引用不存在证据、编造工具结果或误读文档。

成本与时延

Agent 往往多轮调用模型和工具，成本必须被控制。

鲁棒性

面对缺失信息、错误工具返回和长任务时能否恢复。

人工接管率

真实系统里需要人介入的比例越低越好。

数据工具

数据集和工具：先看有没有公开入口

小白选题时先确认数据、代码和 benchmark 是否可获得，否则方向再热也很难落地。

HotpotQA / Natural Questions

适合 RAG 和多跳问答入门。

官方入口 / 资料

ALFWorld

文本环境中的具身任务，适合练 Agent planning。

官方入口 / 资料

WebArena

网页操作智能体 benchmark。

官方入口 / 资料

SWE-bench

软件工程 Agent 常用评测。

官方入口 / 资料

LangChain / LlamaIndex

做 Agent 和 RAG Demo 的常用工具链。

官方入口 / 资料

AutoGen / CrewAI

多智能体协作框架。

官方入口 / 资料

导师翻译

导师主页方向翻译：这些词到底暗示什么

学生看老师主页最难的是不知道关键词背后对应什么任务和能力要求。

RAG

通常是在做知识库问答、证据检索和幻觉控制。

Tool Learning

关注模型如何选择工具、调用 API 和使用外部环境。

Multi-Agent

多个 Agent 分工协作，常用于复杂任务和自动化流程。

Planning

强调长期目标拆解、步骤搜索和失败恢复。

LLM Evaluation

研究 Agent 是否可靠、可复现、能不能被自动评测。

Embodied Agent

把 Agent 接到游戏、机器人或虚拟环境里执行动作。

入门路径

入门路径：从小项目走到研究点

真正适合学生的路线，是先跑通最小闭环，再逐步加难度。

第 1 阶段：做一个 RAG 小系统

先把 PDF/网页/导师资料接入向量库，完成可追溯问答。

第 2 阶段：加入工具调用

让模型能搜索、计算、查数据库或生成文件，形成真实工作流。

第 3 阶段：加入规划与反思

记录中间状态，处理失败重试，观察 Agent 是否真的更可靠。

第 4 阶段：收窄研究问题

围绕幻觉、工具选择、任务成功率、多智能体协作或行业场景做论文点。

项目选题

项目选题：能写进简历和申请材料

下面这些题目不是空泛口号，而是可以沉淀代码、实验结果、图表和论文雏形的方向。

导师主页科研方向 Agent

输入导师主页，自动抽取方向、论文、课题组关键词和项目匹配建议。

论文阅读 Agent

上传论文后自动提取图、方法、实验和新手读法。

课程论文写作助手

围绕指定主题自动检索资料、生成大纲、检查引用和改写表达。

代码修复 Agent

给定 issue 和仓库，自动定位文件、修改代码并运行测试。

保研材料审核 Agent

对简历、个人陈述、科研经历进行一致性和表达质量检查。

行业知识库 Agent

面向医疗、金融、法律或教育资料构建领域问答系统。

常见问题

常见问题：小白最容易卡住的判断

这部分覆盖搜索和咨询时最高频的问题。

AI Agent 适合小白吗？

适合，但不要一开始做“万能 Agent”。先从 RAG 或单工具调用做起，逐步加规划和反思。

Agent 方向容易发论文吗？

纯应用 Demo 不够，要把问题收窄到幻觉控制、工具选择、评测、长期任务或行业可靠性。

非计算机专业能做吗？

可以。非计算机专业反而有真实流程和领域知识，适合做法律、教育、金融、医学 Agent。

继续探索适合你的科研方向

这个方向只是计算机科研路线中的一个入口。你也可以继续查看多模态学习、世界模型、推荐系统、可信 AI 等方向，再结合自己的专业基础、目标导师和时间周期选择更合适的切入点。

回到计算机方向目录看 AI 项目案例