计算机方向详解 · 高效大模型

高效大模型 / 模型压缩:让模型更小、更快、更便宜

高效大模型不是“换一个小模型”这么简单,而是在精度、显存、延迟、吞吐和部署成本之间做取舍。学生项目可以围绕量化、蒸馏、LoRA、KV Cache 或端侧部署做可测量优化。

核心数据模型权重、推理日志、显存记录、延迟和吞吐测试
常见任务量化推理、剪枝压缩、知识蒸馏、高效注意力
常用方法蒸馏、量化、剪枝、LoRA、KV Cache 优化
适合人群适合喜欢系统优化、部署和性能分析的同学
方向导读

方向理解:先知道它到底在做什么

研究如何让大模型更小、更快、更省显存,并能部署到边缘设备或低成本服务器。

高效大模型 / 模型压缩的本质:先把方向翻译成任务闭环

高效大模型 / 模型压缩不是只背一个热门名词,而是要看它处理什么数据、解决什么任务、用什么指标证明有效。

学生入门时最重要的是先跑通最小闭环:明确输入输出,复现一个 baseline,再围绕数据、模型、评价或项目化展示做改进。

  • 输入通常来自计算机 / 大模型 / 系统优化相关数据或公开 benchmark。
  • 输出必须能被指标评估,不能只停留在概念介绍。
  • 项目价值来自可复现结果、可视化分析和清楚的误差讨论。

中文链路图:把方向拆成输入、模型、任务和成果

任务地图

任务地图:别只背方向名,要看输入输出

一个方向能不能做成项目,关键看它能不能落到明确任务、评价指标和实验数据。

任务地图:适合小白先判断项目切入点

01

参数高效微调

只训练小模块完成任务适配。

输入基础模型、少量任务数据
输出LoRA/Adapter 权重
科研价值:适合低显存复现和课程项目。
02

量化推理

降低模型体积和显存占用。

输入FP16/FP32 模型权重
输出INT8/INT4 模型
科研价值:能直接展示速度、显存和精度取舍。
03

高效注意力

减少显存读写和注意力计算瓶颈。

输入长序列输入
输出更快 attention 计算
科研价值:适合做性能 profiling。
04

知识蒸馏

把大模型能力迁移到小模型。

输入教师模型输出
输出小模型学生
科研价值:适合做成本友好的部署项目。
05

KV 缓存优化

提高长对话推理速度。

输入多轮对话上下文
输出缓存复用策略
科研价值:贴近真实 LLM 服务。
06

部署评测

比较不同部署方案的工程表现。

输入模型、硬件、并发请求
输出延迟、吞吐、显存曲线
科研价值:能形成完整技术报告。
技术路线

技术路线:从经典方法到现在的热点

技术路线不是模型名清单,而是看这个方向的问题意识如何一步步变化。

技术路线图:帮助学生看懂方法演进

阶段 01

参数高效微调

用低秩矩阵或小模块减少训练参数。

LoRAAdapterPrefix Tuning
阶段 02

量化与压缩

用低比特表示降低显存、带宽和存储成本。

GPTQAWQQLoRA
阶段 03

注意力与缓存优化

减少显存访问和重复计算,提升长上下文效率。

FlashAttentionPagedAttentionKV Cache
阶段 04

端侧与服务部署

把模型推理放进实际硬件和服务约束里评估。

vLLMTensorRT-LLMOn-device
论文清单

经典论文阅读清单

这不是让你背论文名,而是按时间线建立路线感:先看每篇论文解决了什么问题,再看图里哪一块最关键,最后知道它适合放进什么项目里。

LoRA

LoRA: Low-Rank Adaptation of Large Language Models

为什么重要:LoRA 是这个方向的代表工作,适合用来理解具体任务、核心方法和实验指标。

新手读法:重点看它的输入输出、核心模块、评价指标和失败案例,而不是只背论文标题。

打开论文 / 来源
2021微调方法看图重点:LoRA 的核心流程如何从输入走到实验结果
FlashAttention

FlashAttention: Fast and Memory-Efficient Exact Attention

为什么重要:FlashAttention 是这个方向的代表工作,适合用来理解具体任务、核心方法和实验指标。

新手读法:重点看它的输入输出、核心模块、评价指标和失败案例,而不是只背论文标题。

打开论文 / 来源
2022系统方法看图重点:FlashAttention 的核心流程如何从输入走到实验结果
GPTQ

GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers

为什么重要:GPTQ 是这个方向的代表工作,适合用来理解具体任务、核心方法和实验指标。

新手读法:重点看它的输入输出、核心模块、评价指标和失败案例,而不是只背论文标题。

打开论文 / 来源
2022量化方法看图重点:GPTQ 的核心流程如何从输入走到实验结果
QLoRA

QLoRA: Efficient Finetuning of Quantized LLMs

为什么重要:QLoRA 是这个方向的代表工作,适合用来理解具体任务、核心方法和实验指标。

新手读法:重点看它的输入输出、核心模块、评价指标和失败案例,而不是只背论文标题。

打开论文 / 来源
2023量化微调看图重点:QLoRA 的核心流程如何从输入走到实验结果
评价指标

评价指标:怎么证明项目真的有效

不同任务不能只看 Accuracy。论文和项目都要说明指标为什么适合当前问题。

Accuracy Retention

压缩或量化后保留原模型能力的比例。

Latency

单请求响应时间,部署项目必须关注。

Throughput

单位时间可处理请求数量,服务化时很关键。

Memory Footprint

显存、内存和模型文件大小。

Energy / Cost

端侧或云端运行成本。

Context Efficiency

长上下文和 KV cache 优化后的成本表现。

数据工具

数据集和工具:先看有没有公开入口

小白选题时先确认数据、代码和 benchmark 是否可获得,否则方向再热也很难落地。

导师翻译

导师主页方向翻译:这些词到底暗示什么

学生看老师主页最难的是不知道关键词背后对应什么任务和能力要求。

Quantization

通常对应 Quantization 相关任务、数据集、指标和实现路线。

LoRA

通常对应 LoRA 相关任务、数据集、指标和实现路线。

KV Cache

通常对应 KV Cache 相关任务、数据集、指标和实现路线。

Edge Deployment

通常对应 Edge Deployment 相关任务、数据集、指标和实现路线。

入门路径

入门路径:从小项目走到研究点

真正适合学生的路线,是先跑通最小闭环,再逐步加难度。

第 1 阶段:跑通轻量微调

用 LoRA/QLoRA 在小模型上完成任务适配。

第 2 阶段:做量化对比

比较 FP16、INT8、INT4 的效果和显存。

第 3 阶段:接入推理引擎

用 vLLM、llama.cpp 或 ONNX 做服务化。

第 4 阶段:写性能报告

形成效果-延迟-显存-成本完整曲线。

项目选题

项目选题:能写进简历和申请材料

下面这些题目不是空泛口号,而是可以沉淀代码、实验结果、图表和论文雏形的方向。

INT4 量化部署报告

对比模型体积、显存、延迟和准确率。

LoRA vs QLoRA 微调实验

用同一任务比较训练成本与效果。

本地 LLM 推理 Demo

用 llama.cpp 或 vLLM 做可演示服务。

KV Cache 成本分析

测试长上下文下速度和显存增长。

常见问题

常见问题:小白最容易卡住的判断

这部分覆盖搜索和咨询时最高频的问题。

没有高端显卡能做吗?

可以从 LoRA、QLoRA、小模型量化和推理性能测试入手。

怎么证明优化有效?

必须同时给出效果指标、显存、延迟、吞吐和模型大小。

适合偏算法还是偏工程?

两者都可以,但学生项目更容易从工程评测和部署报告做出完整闭环。

继续探索适合你的科研方向

这个方向只是计算机科研路线中的一个入口。你也可以继续查看多模态学习、世界模型、推荐系统、可信 AI 等方向,再结合自己的专业基础、目标导师和时间周期选择更合适的切入点。