计算机方向详解 · Diffusion / AIGC

扩散模型 / AIGC:从噪声生成图像、视频和设计方案

扩散模型是 AIGC 的核心路线之一,适合做图像生成、医学图像增强、工业缺陷生成、设计生成、视频生成和可控编辑。它视觉展示强,但要做成科研项目,必须讲清控制、评估和应用场景。

核心数据图像、文本、视频、条件图、医学/工业样本
常见任务文生图、图像编辑、可控生成、视频生成、数据增强
常用方法DDPM、DDIM、Latent Diffusion、ControlNet、DiT
适合人群喜欢视觉效果、生成模型和跨专业设计应用的同学
方向导读

方向理解:先知道它到底在做什么

扩散模型把生成过程拆成“加噪声”和“学会去噪”,再用文本、边缘、深度、姿态、参考图等条件控制生成结果。

扩散模型的本质:不是凭空画图,而是学习逐步去噪

DDPM 把真实图像逐步加噪声,训练模型学习如何反向去噪。生成时从纯噪声出发,一步步还原出符合条件的图像。

AIGC 项目不能只展示好看的图。科研上更重要的是:生成是否可控、是否多样、是否符合任务指标、是否能解决真实专业数据稀缺问题。

  • 输入可以是文本、草图、边缘图、深度图、参考图或低质量图像。
  • 输出可以是图像、视频、修复结果、增强样本或设计方案。
  • 难点在于采样成本、可控性、时序一致性、版权安全和评价指标。

中文链路图:把方向拆成输入、模型、任务和成果

任务地图

任务地图:别只背方向名,要看输入输出

一个方向能不能做成项目,关键看它能不能落到明确任务、评价指标和实验数据。

任务地图:适合小白先判断项目切入点

01

文生图

根据自然语言描述生成图片,是 AIGC 最直观的任务。

输入文本提示词
输出图像
科研价值:适合做提示控制和生成质量评估。
02

图像编辑

做局部重绘、风格迁移、超分辨率、去噪和修复。

输入原图 + mask / 指令
输出局部修改图
科研价值:适合产品图、医学图像和设计场景。
03

可控生成

通过 ControlNet 等方法约束布局和形状。

输入边缘 / 姿态 / 深度 / 参考图
输出符合结构的生成图
科研价值:比纯文生图更适合科研项目。
04

视频生成

生成多帧内容,要求运动、身份和场景保持一致。

输入文本 / 图像 / 视频条件
输出连续视频
科研价值:当前前沿热点。
05

数据增强

为医学、工业缺陷等样本少的任务生成补充数据。

输入少量真实样本
输出合成训练样本
科研价值:非常适合跨专业论文选题。
06

安全与版权评估

分析模型是否复制训练图、生成有害内容或侵犯版权。

输入生成内容 + 训练数据线索
输出风险报告
科研价值:和可信 AI 结合度高。
技术路线

技术路线:从经典方法到现在的热点

技术路线不是模型名清单,而是看这个方向的问题意识如何一步步变化。

技术路线图:帮助学生看懂方法演进

阶段 01

DDPM:建立扩散生成范式

通过马尔可夫加噪和反向去噪训练生成模型。

DDPMscore matchingdenoising
阶段 02

采样加速和引导生成

DDIM、classifier-free guidance 等方法让生成更快、更符合条件。

DDIMCFGscheduler
阶段 03

潜空间扩散

Latent Diffusion 在压缩潜空间生成,大幅降低成本,推动 Stable Diffusion。

LDMStable DiffusionVAE
阶段 04

可控生成与视频扩散

ControlNet、DiT、视频扩散把生成推向可控、多模态和长视频。

ControlNetDiTVideo Diffusion
论文清单

经典论文阅读清单

这不是让你背论文名,而是按时间线建立路线感:先看每篇论文解决了什么问题,再看图里哪一块最关键,最后知道它适合放进什么项目里。

DDPM

Denoising Diffusion Probabilistic Models

为什么重要:DDPM 建立现代扩散模型的核心训练和采样范式。

新手读法:重点看前向加噪、反向去噪和 noise prediction 目标。

打开论文 / 来源
2020奠基论文看图重点:扩散模型如何从加噪走向逐步去噪生成
DDIM

Denoising Diffusion Implicit Models

为什么重要:DDIM 让扩散采样更快,是理解采样加速的重要论文。

新手读法:重点看非马尔可夫采样如何减少步数。

打开论文 / 来源
2020采样方法看图重点:采样步数如何减少,生成速度如何提升
Latent Diffusion

High-Resolution Image Synthesis with Latent Diffusion Models

为什么重要:LDM 把扩散放到潜空间,是 Stable Diffusion 的基础。

新手读法:重点看为什么先压缩图像,再在 latent 里生成能降低成本。

打开论文 / 来源
2021潜空间生成看图重点:为什么在 latent 空间生成更省算力
ControlNet

Adding Conditional Control to Text-to-Image Diffusion Models

为什么重要:ControlNet 让扩散模型能听从边缘、深度、姿态等结构条件,是可控生成代表。

新手读法:重点看它如何冻结大模型并复制分支来接收控制条件。

打开论文 / 来源
2023可控生成看图重点:边缘、姿态、深度等条件如何控制生成结果
评价指标

评价指标:怎么证明项目真的有效

不同任务不能只看 Accuracy。论文和项目都要说明指标为什么适合当前问题。

FID

衡量生成分布和真实图像分布距离。

CLIP Score

文本和图像语义是否匹配。

Diversity

同一提示能否生成足够多样结果。

Control Accuracy

生成结果是否遵守边缘、姿态、深度等条件。

Temporal Consistency

视频生成中身份、场景和运动是否连续。

Downstream Gain

合成数据是否提升分类、检测或分割任务。

数据工具

数据集和工具:先看有没有公开入口

小白选题时先确认数据、代码和 benchmark 是否可获得,否则方向再热也很难落地。

导师翻译

导师主页方向翻译:这些词到底暗示什么

学生看老师主页最难的是不知道关键词背后对应什么任务和能力要求。

Diffusion Model

通常研究图像、视频或多模态生成。

Controllable Generation

关注生成结果是否能被边缘、姿态、文本精确控制。

Image Editing

偏局部重绘、图像修复、风格迁移和超分。

Video Generation

关注时间一致性、运动建模和长视频生成。

Synthetic Data

用生成模型补充稀缺训练样本。

Generative AI Safety

关注版权、水印、滥用和生成内容检测。

入门路径

入门路径:从小项目走到研究点

真正适合学生的路线,是先跑通最小闭环,再逐步加难度。

第 1 阶段:理解 DDPM 训练目标

先跑一个 MNIST/CIFAR 小模型,理解加噪和去噪。

第 2 阶段:使用 Diffusers 复现生成

调用预训练模型,学会 prompt、scheduler 和 guidance。

第 3 阶段:做可控生成或编辑

用 ControlNet、inpainting 或 LoRA 做具体任务。

第 4 阶段:和专业场景结合

医学、工业、设计或教育场景中做数据增强、评测或安全分析。

项目选题

项目选题:能写进简历和申请材料

下面这些题目不是空泛口号,而是可以沉淀代码、实验结果、图表和论文雏形的方向。

医学影像合成增强

生成少数类病灶样本,评估是否提升分类或分割效果。

工业缺陷图像生成

用扩散模型生成缺陷图,缓解真实缺陷样本少的问题。

可控海报/产品图生成

使用边缘、布局或参考图控制商业素材生成。

扩散模型生成质量评估工具

比较 FID、CLIP Score 和人工偏好的一致性。

视频生成时序一致性评估

设计指标检测身份漂移、场景跳变和运动错误。

AIGC 水印与检测

研究生成图像检测、水印和版权风险。

常见问题

常见问题:小白最容易卡住的判断

这部分覆盖搜索和咨询时最高频的问题。

扩散模型适合小白吗?

可以,但建议先用 Diffusers 跑预训练模型,再理解 DDPM 数学细节。

只做文生图 Demo 算科研项目吗?

不够。需要加入可控性、评估指标、专业场景或下游任务收益。

扩散模型和 GAN 有什么区别?

GAN 是生成器和判别器对抗训练,扩散模型是逐步去噪,训练更稳定但采样通常更慢。

继续探索适合你的科研方向

这个方向只是计算机科研路线中的一个入口。你也可以继续查看多模态学习、世界模型、推荐系统、可信 AI 等方向,再结合自己的专业基础、目标导师和时间周期选择更合适的切入点。