计算机方向详解 · 代码智能体

代码智能体 / AI 软件工程：让模型读仓库、改代码、跑测试

代码智能体不是“让模型写一段函数”这么简单，而是让它进入真实仓库：读 issue、找相关文件、修改代码、运行测试、解释 diff，并在失败后继续定位。学生项目最适合做仓库问答、测试生成、SWE-bench Lite 复现或小型修 bug Agent。

先看经典论文看可落地项目

核心数据代码仓库、Issue、测试用例、PR diff 和 CI 日志

常见任务代码生成、自动修复、测试生成、代码审查

常用方法代码检索、工具调用、测试反馈、仓库级补丁生成

适合人群适合喜欢软件工程、自动化测试和 Agent 系统的同学

方向导读

方向理解：先知道它到底在做什么

研究大模型如何理解代码仓库、定位 issue、修改代码、运行测试并提交补丁。

代码智能体的本质：把自然语言需求接到工程闭环

普通代码生成只看一个函数能不能写出来，代码智能体要面对真实软件工程：仓库上下文很长、依赖复杂、测试会失败、一次修改可能影响多个文件。

入门项目要避免只做聊天式代码助手，最好有明确闭环：输入 issue 或需求，Agent 检索文件、生成补丁、运行测试、记录失败原因，最后输出 diff 和修复报告。

输入通常是代码仓库、issue、错误日志、测试用例、PR diff 或接口文档。
输出不只是代码片段，而是补丁、测试结果、审查意见和可追溯执行日志。
难点在于仓库级上下文：找错文件、误改接口、测试不全和循环尝试都需要被评估。

中文链路图：把方向拆成输入、模型、任务和成果

任务地图

任务地图：别只背方向名，要看输入输出

一个方向能不能做成项目，关键看它能不能落到明确任务、评价指标和实验数据。

任务地图：适合小白先判断项目切入点

代码生成

把需求转成函数、脚本或模块实现。

输入自然语言需求、函数签名

输出可运行代码

科研价值：适合用 HumanEval、MBPP 做入门实验。

仓库级修复

让 Agent 阅读项目、定位 bug 并修改文件。

输入Issue、代码库、测试

输出补丁和 PR

科研价值：贴近真实软件工程场景。

测试生成

自动补齐测试用例并暴露潜在错误。

输入源代码、接口说明

输出单元测试和覆盖率

科研价值：适合做质量提升项目。

代码审查

识别 bug、风格问题和安全风险。

输入diff、上下文、规范

输出审查意见和风险等级

科研价值：容易做成团队工具。

工具调用

让 Agent 调用编译、测试、检索等工具。

输入终端、搜索、编辑器

输出执行日志和结果

科研价值：是 coding agent 的核心能力。

评测基准

用标准 benchmark 测真实修复能力。

输入任务集、仓库、判题器

输出通过率和错误类型

科研价值：能支撑课程论文或技术报告。

技术路线

技术路线：从经典方法到现在的热点

技术路线不是模型名清单，而是看这个方向的问题意识如何一步步变化。

技术路线图：帮助学生看懂方法演进

阶段 01

补全与函数生成

从局部上下文生成代码片段。

CodexCode LLMHumanEval

阶段 02

竞赛式程序合成

把题目、样例和搜索结合生成可提交程序。

AlphaCodeSamplingRanking

阶段 03

仓库级软件修复

理解 Issue、运行测试、编辑多文件。

SWE-benchPatchRepository

阶段 04

闭环 Coding Agent

规划、编辑、测试、反思形成自动化循环。

SWE-agentTool UseCI Loop

论文清单

经典论文阅读清单

这不是让你背论文名，而是按时间线建立路线感：先看每篇论文解决了什么问题，再看图里哪一块最关键，最后知道它适合放进什么项目里。

Codex

Evaluating Large Language Models Trained on Code

为什么重要：Codex 让代码生成成为大模型的重要能力，也让 HumanEval 这类函数级评测进入主流。

新手读法：重点看 pass@k、函数签名、单元测试和采样次数，而不是只看模型会不会写代码。

打开论文 / 来源

2021代码生成看图重点：自然语言需求如何转成候选代码，并用测试衡量是否正确

AlphaCode

Competition-Level Code Generation with AlphaCode

为什么重要：AlphaCode 展示了大规模采样、过滤和排序如何解决竞赛编程题，是代码推理从补全走向解题的重要一步。

新手读法：重点看样例测试、候选程序聚类和排序机制，理解为什么只生成一个答案远远不够。

打开论文 / 来源

2022程序合成看图重点：大量候选代码如何经过过滤、聚类和排序变成可提交程序

SWE-bench

SWE-bench: Can Language Models Resolve Real-World GitHub Issues?

为什么重要：SWE-bench 把代码智能体评测从玩具函数推进到真实 GitHub issue 和仓库级补丁。

新手读法：重点看 issue、仓库快照、测试补丁和 resolved rate，理解为什么真实修 bug 比 HumanEval 难很多。

打开论文 / 来源

2023仓库级评测看图重点：真实 issue 如何被转换成可自动判定的仓库修复任务

SWE-agent

SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering

为什么重要：SWE-agent 关注 Agent 和终端、编辑器、测试环境的接口设计，是仓库级自动修复的重要系统论文。

新手读法：重点看 Agent-Computer Interface、命令执行、文件编辑和测试反馈如何组成闭环。

打开论文 / 来源

2024工程 Agent看图重点：Agent 如何浏览仓库、编辑文件、运行测试并迭代修复

评价指标

评价指标：怎么证明项目真的有效

不同任务不能只看 Accuracy。论文和项目都要说明指标为什么适合当前问题。

Resolved Rate

SWE-bench 或 issue 任务中最终解决比例。

Test Pass Rate

补丁后单元测试、回归测试是否通过。

Patch Quality

修改是否小而准、没有引入额外副作用。

Repository Retrieval Accuracy

是否找到相关文件、函数和上下文。

Iteration Count

定位、修改、测试需要几轮。

Human Review Load

人工审查补丁所需时间和修改量。

数据工具

数据集和工具：先看有没有公开入口

小白选题时先确认数据、代码和 benchmark 是否可获得，否则方向再热也很难落地。

HumanEval

函数级代码生成常用评测。

官方入口 / 资料

MBPP

Python 基础编程题 benchmark。

官方入口 / 资料

SWE-bench

真实 GitHub issue 修复评测。

官方入口 / 资料

SWE-bench Lite

更适合学生复现的小规模仓库修复集合。

官方入口 / 资料

CodeSearchNet

代码检索和代码理解数据集。

官方入口 / 资料

GitHub Actions

可用于项目测试、CI 日志和自动化验证。

官方入口 / 资料

导师翻译

导师主页方向翻译：这些词到底暗示什么

学生看老师主页最难的是不知道关键词背后对应什么任务和能力要求。

Code LLM / Codex

通常对应函数级代码生成、pass@k、单元测试和代码补全。

Program Synthesis

多半关注题目理解、候选采样、测试过滤和程序搜索。

SWE-bench

重点看真实仓库、issue、测试补丁和 resolved rate。

SWE-agent

通常在做工具接口、终端执行、文件编辑和测试反馈闭环。

入门路径

入门路径：从小项目走到研究点

真正适合学生的路线，是先跑通最小闭环，再逐步加难度。

第 1 阶段：做仓库问答

先让模型能检索文件和解释代码。

第 2 阶段：修复小 bug

接入测试，完成定位-补丁-验证闭环。

第 3 阶段：跑 benchmark

用 SWE-bench lite 或自建 issue 集评估。

第 4 阶段：做工程化界面

展示 diff、测试日志和人工审查建议。

项目选题

项目选题：能写进简历和申请材料

下面这些题目不是空泛口号，而是可以沉淀代码、实验结果、图表和论文雏形的方向。

小型仓库修 bug Agent

输入 issue，输出补丁、测试日志和解释。

代码库问答助手

基于仓库检索回答架构、函数和调用关系。

单元测试生成评测

比较模型生成测试的覆盖率和有效性。

SWE-bench Lite 复现报告

分析模型失败原因和改进策略。

常见问题

常见问题：小白最容易卡住的判断

这部分覆盖搜索和咨询时最高频的问题。

没有大型代码模型能做吗？

可以先用开源模型或 API 做评测、测试生成和仓库修复流程。

项目最重要的指标是什么？

不是代码看起来像，而是测试通过率、修复成功率和错误类型分析。

如何做得像科研而不是工具？

围绕 benchmark、消融、失败案例和工具调用策略展开。

继续探索适合你的科研方向

这个方向只是计算机科研路线中的一个入口。你也可以继续查看多模态学习、世界模型、推荐系统、可信 AI 等方向，再结合自己的专业基础、目标导师和时间周期选择更合适的切入点。

回到计算机方向目录看 AI 项目案例