计算机方向详解 · 高效大模型

高效大模型 / 模型压缩：让模型更小、更快、更省

高效大模型不是只把模型“压小”，而是要证明压缩后是否还好用、显存省了多少、延迟降了多少、吞吐提高多少、部署成本是否真的变低。学生项目最适合做 LoRA/QLoRA、量化推理、FlashAttention 或本地部署评测报告。

先看经典论文看可落地项目

核心数据模型权重、推理日志、显存记录、延迟和吞吐测试

常见任务量化推理、剪枝压缩、知识蒸馏、高效注意力

常用方法参数高效微调、模型压缩、推理加速

适合人群适合喜欢系统优化、部署和性能分析的同学

方向导读

方向理解：先知道它到底在做什么

研究如何让大模型更小、更快、更省显存，并能部署到边缘设备或低成本服务器。

高效大模型的本质：效果、显存、速度和成本一起看

很多学生会误以为高效大模型就是“换一个量化库”。真正的项目要把原模型、压缩模型和部署环境放在同一张表里比较，说明效果损失和资源节省是否值得。

这个方向非常适合做工程化展示：同一模型在 FP16、INT8、INT4、LoRA/QLoRA 或不同推理引擎下跑任务，输出延迟、吞吐、显存、模型大小和准确率曲线。

输入通常是基础模型、任务数据、量化配置、推理请求和硬件环境。
输出是小模型、低比特权重、LoRA adapter、推理服务或性能报告。
难点在于公平比较：同一硬件、同一 prompt、同一 batch 和同一评价指标必须说清楚。

中文链路图：把方向拆成输入、模型、任务和成果

任务地图

任务地图：别只背方向名，要看输入输出

一个方向能不能做成项目，关键看它能不能落到明确任务、评价指标和实验数据。

任务地图：适合小白先判断项目切入点

参数高效微调

只训练小模块完成任务适配。

输入基础模型、少量任务数据

输出LoRA/Adapter 权重

科研价值：适合低显存复现和课程项目。

量化推理

降低模型体积和显存占用。

输入FP16/FP32 模型权重

输出INT8/INT4 模型

科研价值：能直接展示速度、显存和精度取舍。

高效注意力

减少显存读写和注意力计算瓶颈。

输入长序列输入

输出更快 attention 计算

科研价值：适合做性能 profiling。

知识蒸馏

把大模型能力迁移到小模型。

输入教师模型输出

输出小模型学生

科研价值：适合做成本友好的部署项目。

KV 缓存优化

提高长对话推理速度。

输入多轮对话上下文

输出缓存复用策略

科研价值：贴近真实 LLM 服务。

部署评测

比较不同部署方案的工程表现。

输入模型、硬件、并发请求

输出延迟、吞吐、显存曲线

科研价值：能形成完整技术报告。

技术路线

技术路线：从经典方法到现在的热点

技术路线不是模型名清单，而是看这个方向的问题意识如何一步步变化。

技术路线图：帮助学生看懂方法演进

阶段 01

参数高效微调

用低秩矩阵或小模块减少训练参数。

LoRAAdapterPrefix Tuning

阶段 02

量化与压缩

用低比特表示降低显存、带宽和存储成本。

GPTQAWQQLoRA

阶段 03

注意力与缓存优化

减少显存访问和重复计算，提升长上下文效率。

FlashAttentionPagedAttentionKV Cache

阶段 04

端侧与服务部署

把模型推理放进实际硬件和服务约束里评估。

vLLMTensorRT-LLMOn-device

论文清单

经典论文阅读清单

这不是让你背论文名，而是按时间线建立路线感：先看每篇论文解决了什么问题，再看图里哪一块最关键，最后知道它适合放进什么项目里。

LoRA

LoRA: Low-Rank Adaptation of Large Language Models

为什么重要：LoRA 让微调大模型不再需要更新全部参数，是低成本适配任务的经典方法。

新手读法：重点看低秩矩阵插在哪里、训练参数减少多少，以及为什么可以和原模型权重分开保存。

打开论文 / 来源

2021微调方法看图重点：冻结原模型后，低秩 adapter 如何承担任务适配

FlashAttention

FlashAttention: Fast and Memory-Efficient Exact Attention

为什么重要：FlashAttention 不是近似注意力，而是通过 IO-aware 设计减少显存读写，是高效推理和训练系统的重要基础。

新手读法：重点看 tiling、SRAM/HBM 访问和 exact attention 的关系，理解为什么瓶颈不只在算力。

打开论文 / 来源

2022系统方法看图重点：注意力计算如何通过分块减少显存访问并提升速度

GPTQ

GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers

为什么重要：GPTQ 展示了大模型可以在训练后量化到低比特，是本地部署和显存压缩的重要代表。

新手读法：重点看逐层量化、误差补偿和校准数据如何影响最终精度。

打开论文 / 来源

2022量化方法看图重点：训练后量化如何在模型大小和生成质量之间折中

QLoRA

QLoRA: Efficient Finetuning of Quantized LLMs

为什么重要：QLoRA 把 4-bit 量化和 LoRA 微调结合起来，让单卡微调更大模型成为可能。

新手读法：重点看 NF4、double quantization、paged optimizer 和 LoRA adapter 如何共同降低显存。

打开论文 / 来源

2023量化微调看图重点：4-bit 基座模型如何配合 LoRA 完成低显存微调

评价指标

评价指标：怎么证明项目真的有效

不同任务不能只看 Accuracy。论文和项目都要说明指标为什么适合当前问题。

Accuracy Retention

压缩或量化后保留原模型能力的比例。

Latency

单请求响应时间，部署项目必须关注。

Throughput

单位时间可处理请求数量，服务化时很关键。

Memory Footprint

显存、内存和模型文件大小。

Energy / Cost

端侧或云端运行成本。

Context Efficiency

长上下文和 KV cache 优化后的成本表现。

数据工具

数据集和工具：先看有没有公开入口

小白选题时先确认数据、代码和 benchmark 是否可获得，否则方向再热也很难落地。

Hugging Face Transformers

模型加载和微调工具。

官方入口 / 资料

PEFT

参数高效微调库。

官方入口 / 资料

bitsandbytes

低比特量化工具。

官方入口 / 资料

llama.cpp

本地和端侧 LLM 推理。

官方入口 / 资料

vLLM

高吞吐推理服务。

官方入口 / 资料

OpenVINO

端侧部署工具链。

官方入口 / 资料

导师翻译

导师主页方向翻译：这些词到底暗示什么

学生看老师主页最难的是不知道关键词背后对应什么任务和能力要求。

Quantization

通常对应 INT8/INT4、校准数据、精度损失、显存压缩和推理速度。

LoRA / QLoRA

多半在做低成本微调、adapter 合并、任务适配和训练显存分析。

KV Cache

要关注长上下文、多轮对话、缓存复用和吞吐延迟曲线。

Edge Deployment

通常指本地推理、端侧部署、模型大小、功耗和离线可用性。

入门路径

入门路径：从小项目走到研究点

真正适合学生的路线，是先跑通最小闭环，再逐步加难度。

第 1 阶段：跑通轻量微调

用 LoRA/QLoRA 在小模型上完成任务适配。

第 2 阶段：做量化对比

比较 FP16、INT8、INT4 的效果和显存。

第 3 阶段：接入推理引擎

用 vLLM、llama.cpp 或 ONNX 做服务化。

第 4 阶段：写性能报告

形成效果-延迟-显存-成本完整曲线。

项目选题

项目选题：能写进简历和申请材料

下面这些题目不是空泛口号，而是可以沉淀代码、实验结果、图表和论文雏形的方向。

INT4 量化部署报告

对比模型体积、显存、延迟和准确率。

LoRA vs QLoRA 微调实验

用同一任务比较训练成本与效果。

本地 LLM 推理 Demo

用 llama.cpp 或 vLLM 做可演示服务。

KV Cache 成本分析

测试长上下文下速度和显存增长。

常见问题

常见问题：小白最容易卡住的判断

这部分覆盖搜索和咨询时最高频的问题。

没有高端显卡能做吗？

可以从 LoRA、QLoRA、小模型量化和推理性能测试入手。

怎么证明优化有效？

必须同时给出效果指标、显存、延迟、吞吐和模型大小。

适合偏算法还是偏工程？

两者都可以，但学生项目更容易从工程评测和部署报告做出完整闭环。

继续探索适合你的科研方向

这个方向只是计算机科研路线中的一个入口。你也可以继续查看多模态学习、世界模型、推荐系统、可信 AI 等方向，再结合自己的专业基础、目标导师和时间周期选择更合适的切入点。

回到计算机方向目录看 AI 项目案例