扩散模型的本质:不是凭空画图,而是学习逐步去噪
DDPM 把真实图像逐步加噪声,训练模型学习如何反向去噪。生成时从纯噪声出发,一步步还原出符合条件的图像。
AIGC 项目不能只展示好看的图。科研上更重要的是:生成是否可控、是否多样、是否符合任务指标、是否能解决真实专业数据稀缺问题。
- 输入可以是文本、草图、边缘图、深度图、参考图或低质量图像。
- 输出可以是图像、视频、修复结果、增强样本或设计方案。
- 难点在于采样成本、可控性、时序一致性、版权安全和评价指标。
扩散模型把生成过程拆成“加噪声”和“学会去噪”,再用文本、边缘、深度、姿态、参考图等条件控制生成结果。
DDPM 把真实图像逐步加噪声,训练模型学习如何反向去噪。生成时从纯噪声出发,一步步还原出符合条件的图像。
AIGC 项目不能只展示好看的图。科研上更重要的是:生成是否可控、是否多样、是否符合任务指标、是否能解决真实专业数据稀缺问题。
中文链路图:把方向拆成输入、模型、任务和成果
一个方向能不能做成项目,关键看它能不能落到明确任务、评价指标和实验数据。
任务地图:适合小白先判断项目切入点
根据自然语言描述生成图片,是 AIGC 最直观的任务。
做局部重绘、风格迁移、超分辨率、去噪和修复。
通过 ControlNet 等方法约束布局和形状。
生成多帧内容,要求运动、身份和场景保持一致。
为医学、工业缺陷等样本少的任务生成补充数据。
分析模型是否复制训练图、生成有害内容或侵犯版权。
技术路线不是模型名清单,而是看这个方向的问题意识如何一步步变化。
技术路线图:帮助学生看懂方法演进
通过马尔可夫加噪和反向去噪训练生成模型。
DDIM、classifier-free guidance 等方法让生成更快、更符合条件。
Latent Diffusion 在压缩潜空间生成,大幅降低成本,推动 Stable Diffusion。
ControlNet、DiT、视频扩散把生成推向可控、多模态和长视频。
这不是让你背论文名,而是按时间线建立路线感:先看每篇论文解决了什么问题,再看图里哪一块最关键,最后知道它适合放进什么项目里。
为什么重要:DDPM 建立现代扩散模型的核心训练和采样范式。
新手读法:重点看前向加噪、反向去噪和 noise prediction 目标。
打开论文 / 来源为什么重要:DDIM 让扩散采样更快,是理解采样加速的重要论文。
新手读法:重点看非马尔可夫采样如何减少步数。
打开论文 / 来源为什么重要:LDM 把扩散放到潜空间,是 Stable Diffusion 的基础。
新手读法:重点看为什么先压缩图像,再在 latent 里生成能降低成本。
打开论文 / 来源为什么重要:ControlNet 让扩散模型能听从边缘、深度、姿态等结构条件,是可控生成代表。
新手读法:重点看它如何冻结大模型并复制分支来接收控制条件。
打开论文 / 来源不同任务不能只看 Accuracy。论文和项目都要说明指标为什么适合当前问题。
衡量生成分布和真实图像分布距离。
文本和图像语义是否匹配。
同一提示能否生成足够多样结果。
生成结果是否遵守边缘、姿态、深度等条件。
视频生成中身份、场景和运动是否连续。
合成数据是否提升分类、检测或分割任务。
小白选题时先确认数据、代码和 benchmark 是否可获得,否则方向再热也很难落地。
学生看老师主页最难的是不知道关键词背后对应什么任务和能力要求。
通常研究图像、视频或多模态生成。
关注生成结果是否能被边缘、姿态、文本精确控制。
偏局部重绘、图像修复、风格迁移和超分。
关注时间一致性、运动建模和长视频生成。
用生成模型补充稀缺训练样本。
关注版权、水印、滥用和生成内容检测。
真正适合学生的路线,是先跑通最小闭环,再逐步加难度。
先跑一个 MNIST/CIFAR 小模型,理解加噪和去噪。
调用预训练模型,学会 prompt、scheduler 和 guidance。
用 ControlNet、inpainting 或 LoRA 做具体任务。
医学、工业、设计或教育场景中做数据增强、评测或安全分析。
下面这些题目不是空泛口号,而是可以沉淀代码、实验结果、图表和论文雏形的方向。
生成少数类病灶样本,评估是否提升分类或分割效果。
用扩散模型生成缺陷图,缓解真实缺陷样本少的问题。
使用边缘、布局或参考图控制商业素材生成。
比较 FID、CLIP Score 和人工偏好的一致性。
设计指标检测身份漂移、场景跳变和运动错误。
研究生成图像检测、水印和版权风险。
这部分覆盖搜索和咨询时最高频的问题。
可以,但建议先用 Diffusers 跑预训练模型,再理解 DDPM 数学细节。
不够。需要加入可控性、评估指标、专业场景或下游任务收益。
GAN 是生成器和判别器对抗训练,扩散模型是逐步去噪,训练更稳定但采样通常更慢。
这个方向只是计算机科研路线中的一个入口。你也可以继续查看多模态学习、世界模型、推荐系统、可信 AI 等方向,再结合自己的专业基础、目标导师和时间周期选择更合适的切入点。