计算机方向详解 · 大模型对齐与评测

大模型对齐与评测：判断模型是否真的可靠

对齐和评测不是简单给模型打分，而是把“有帮助、无害、真实、公平、可控”拆成可执行题库、评分规则、人工/自动标注和错误案例库。学生最适合从小型中文评测集、红队样例、LLM-as-a-Judge 一致性分析做起。

先看经典论文看可落地项目

核心数据偏好数据、安全题库、模型回答、人工评分和评测日志

常见任务指令跟随、偏好对齐、安全拒答、幻觉检测

常用方法指令微调、人类偏好学习、安全对齐

适合人群适合关注大模型安全、评测平台和产品质量的同学

方向导读

方向理解：先知道它到底在做什么

研究模型是否听得懂人类意图、是否安全、是否公平、是否能被系统评测，适合做评测平台和安全治理项目。

对齐评测的本质：把抽象价值观变成可测量行为

“模型安全吗”“模型有没有幻觉”如果只停留在感受层面，就不是科研项目。这个方向要做的是设计题目、rubric、标注流程和统计指标，让不同模型在相同规则下被比较。

小白入门不必一开始训练 RLHF 模型，可以先做评测：收集问题、定义评分维度、比较人工评分和 LLM judge，最后分析模型在哪些场景会误答、拒答过度或编造事实。

输入通常是用户指令、风险问题、候选回答、证据来源和人工偏好。
输出是偏好排序、安全标签、幻觉定位、多维评分或模型排行榜。
难点在于评测标准是否稳定：judge 偏差、题库覆盖和人工一致性都要说明。

中文链路图：把方向拆成输入、模型、任务和成果

任务地图

任务地图：别只背方向名，要看输入输出

一个方向能不能做成项目，关键看它能不能落到明确任务、评价指标和实验数据。

任务地图：适合小白先判断项目切入点

指令跟随

评估模型是否听懂格式、角色、范围和限制。

输入用户指令、约束条件

输出满足要求的回答

科研价值：适合构建中文 instruction-following 小评测。

偏好排序

让模型学习哪个回答更符合人类期待。

输入回答对、人工偏好

输出胜负标签或偏好分数

科研价值：是 RLHF、DPO 和 reward model 的入口。

安全拒答

判断模型面对危险请求时是否能拒绝且保持有帮助。

输入风险提示、越狱样例

输出安全响应和风险标签

科研价值：适合做红队测试和安全报告。

幻觉检测

检查回答是否有依据、是否捏造事实或错引来源。

输入回答、证据、引用来源

输出真实性评分和错误位置

科研价值：和 RAG、知识库问答高度相关。

公平与偏见

分析模型是否对不同群体产生不公平回答。

输入人群属性、场景问题

输出偏差统计和案例分析

科研价值：适合法学、社科和 AI 治理交叉。

自动评测

用 rubrics 和 LLM judge 批量评价模型表现。

输入模型输出、评分规则

输出多维分数和榜单

科研价值：容易做成可展示的评测平台。

技术路线

技术路线：从经典方法到现在的热点

技术路线不是模型名清单，而是看这个方向的问题意识如何一步步变化。

技术路线图：帮助学生看懂方法演进

阶段 01

监督指令微调

用人工示范让模型学会按指令回答。

SFTInstruction DataChat Format

阶段 02

人类反馈对齐

把回答比较数据转成奖励或偏好优化目标。

RLHFReward ModelDPO

阶段 03

安全原则与红队

用原则、批评修改和攻击样例提升安全性。

Constitutional AIRed TeamRefusal

阶段 04

综合评测体系

从能力、安全、鲁棒、成本和公平多维度评价模型。

HELMArenaLLM-as-a-Judge

论文清单

经典论文阅读清单

这不是让你背论文名，而是按时间线建立路线感：先看每篇论文解决了什么问题，再看图里哪一块最关键，最后知道它适合放进什么项目里。

InstructGPT

Training language models to follow instructions with human feedback

为什么重要：InstructGPT 把 SFT、奖励模型和 RLHF 串成经典对齐流程，是理解 ChatGPT 类模型训练路线的入口。

新手读法：重点看三阶段训练数据来自哪里、人工偏好如何进入 reward model，以及为什么人工评测比单一 benchmark 更重要。

打开论文 / 来源

2022对齐方法看图重点：示范数据、偏好比较和 RLHF 如何组成指令跟随训练流程

Constitutional AI

Constitutional AI: Harmlessness from AI Feedback

为什么重要：Constitutional AI 用原则和 AI 反馈降低人工标注成本，是理解安全拒答和无害性训练的重要论文。

新手读法：重点看 harmlessness 的原则如何写入批评-修改流程，以及 AI feedback 和 RLHF 有什么差别。

打开论文 / 来源

2022安全对齐看图重点：模型如何根据安全原则自我批评、修改并形成偏好数据

HELM

Holistic Evaluation of Language Models

为什么重要：HELM 提醒我们不能只看准确率，还要同时看鲁棒性、公平性、偏见、毒性、效率等维度。

新手读法：重点看 scenario、metric 和 model 三层结构，学习如何把评测设计成可复用框架。

打开论文 / 来源

2022评测框架看图重点：综合评测如何把任务、指标和模型比较组织成矩阵

MT-Bench / Arena

Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena

为什么重要：MT-Bench 和 Arena 展示了对话模型如何用多轮题、匿名对战和 LLM judge 进行开放评测。

新手读法：重点看 LLM-as-a-Judge 与人工偏好的一致性，以及为什么开放式对话评测很难只靠标准答案。

打开论文 / 来源

2023评测论文看图重点：多轮问题、模型对战和自动裁判如何形成可更新榜单

评价指标

评价指标：怎么证明项目真的有效

不同任务不能只看 Accuracy。论文和项目都要说明指标为什么适合当前问题。

Win Rate

偏好评测中模型回答相对 baseline 的胜率。

Safety Rate

风险问题上是否安全拒答、避免有害输出。

Helpfulness

回答是否真正解决用户任务，而不是只拒绝或空泛解释。

Hallucination Rate

事实性任务中无依据或错误回答比例。

Judge Agreement

自动评测与人工标注的一致性。

Fairness Gap

不同群体、语言或场景下的性能差距。

数据工具

数据集和工具：先看有没有公开入口

小白选题时先确认数据、代码和 benchmark 是否可获得，否则方向再热也很难落地。

Anthropic HH-RLHF

有帮助/无害偏好数据。

官方入口 / 资料

OpenAI Evals

模型评测框架。

官方入口 / 资料

HELM

斯坦福综合评测平台。

官方入口 / 资料

Chatbot Arena

匿名对战式模型评测。

官方入口 / 资料

SafetyBench

大模型安全评测集合。

官方入口 / 资料

TruthfulQA

真实性问答评测。

官方入口 / 资料

导师翻译

导师主页方向翻译：这些词到底暗示什么

学生看老师主页最难的是不知道关键词背后对应什么任务和能力要求。

RLHF / DPO

通常对应偏好数据、回答排序、奖励模型或直接偏好优化。

Safety / Red Team

多半在做越狱攻击、安全拒答、有害输出检测和风险题库。

LLM-as-a-Judge

要看评分规则、judge 偏差、人工一致性和多模型对比。

Benchmark

重点看评测维度、题库覆盖、指标定义和榜单是否可复现。

入门路径

入门路径：从小项目走到研究点

真正适合学生的路线，是先跑通最小闭环，再逐步加难度。

第 1 阶段：建小评测集

围绕安全、事实性或指令跟随设计 rubrics。

第 2 阶段：比较模型输出

做人工标注和 LLM-as-a-Judge 对比。

第 3 阶段：分析偏差和风险

定位拒答过度、幻觉、偏见等错误类型。

第 4 阶段：形成评测平台

输出榜单、案例库和可复用评测脚本。

项目选题

项目选题：能写进简历和申请材料

下面这些题目不是空泛口号，而是可以沉淀代码、实验结果、图表和论文雏形的方向。

中文安全评测小平台

围绕拒答、幻觉和帮助性设计样例与评分规则。

LLM-as-a-Judge 一致性分析

比较自动 judge 与人工标注在不同题型上的差异。

偏好数据 DPO 小实验

用小模型跑偏好优化并分析回答风格变化。

RAG 幻觉检测工具

判断回答是否有证据支持并输出风险标签。

常见问题

常见问题：小白最容易卡住的判断

这部分覆盖搜索和咨询时最高频的问题。

对齐方向是不是必须训练大模型？

不一定。评测集构建、judge 一致性分析、安全案例库都可以用较小成本完成。

项目怎么避免空泛？

必须有题库、评分规则、模型对比、错误案例和统计结果。

最适合的产出是什么？

一个可复用评测脚本或小平台，加上清楚的安全、幻觉和偏好分析报告。

继续探索适合你的科研方向

这个方向只是计算机科研路线中的一个入口。你也可以继续查看多模态学习、世界模型、推荐系统、可信 AI 等方向，再结合自己的专业基础、目标导师和时间周期选择更合适的切入点。

回到计算机方向目录看 AI 项目案例