
【导读】
何恺明团队最新研究出手,给火爆的扩散模型加了个「收纳整理」功能!无需修改模型结构、不增参数、不靠外部数据,仅需一个即插即用的正则化项——Dispersive Loss,就能让模型内部特征自动“排排坐”,效果显著提升>>更多资讯可加入CV技术群获取了解哦~
扩散模型的风头正盛,何恺明团队的最新研究也聚焦于此。但这次,他们独辟蹊径——让扩散模型学会“整理收纳”,使其内部特征更加有序,生成的图像效果自然更逼真。

这项研究直指当前扩散模型的一大痛点:模型训练高度依赖回归目标(如去噪),却忽视了中间特征的正则化。这就像盖楼只注重外部结构,却不管内部管线排布是否合理。
何恺明与合作者 Runqian Wang 在论文中提出了一种名为 Dispersive Loss 的即插即用正则化方法,核心思想非常清晰:

其中 LDiffLDiff 为扩散损失,LDispLDisp 为表征分散正则项,λ 为权重系数。
看到“让特征分散”,你可能联想到自监督学习中的对比学习(Contrastive Learning)。对比学习确实通过拉近正样本对(如一张图片的不同裁剪)、推开负样本对(不同图片)来学习良好表征。

但 Dispersive Loss 的设计巧妙避开了对比学习的复杂性和局限性:
团队在 ImageNet 256x256 生成任务上进行了大量实验,基线模型选择了当前主流且强大的扩散/流模型:DiT 和 SiT。

在 SiT-B/2 模型上,仅添加 Dispersive Loss,FID (越低越好) 从 36.49 显著降至 32.35(相对提升 11.35%)。
这种提升在不同规模模型(S, B, L, XL)和不同架构(DiT, SiT)上普遍且一致。有趣的是,模型越大、基线越强,绝对和相对提升往往越大,表明其正则化效应对缓解大模型过拟合特别有效。
尝试在扩散模型中直接加入对比学习损失,效果不佳甚至有害。即使精心控制两个视图的噪声水平使其接近,其收益也远低于 Dispersive Loss,且实现更复杂。
这证明了 Dispersive Loss “无正样本”设计在扩散框架下的优越性。
将 Dispersive Loss 应用于前沿的单步生成模型 MeanFlow 上。

在 ImageNet 256x256 上,MeanFlow-XL/2 的 FID 从 3.43 降至 3.21,刷新了单步扩散/流模型的 SOTA。

与需要依赖外部强大预训练模型(如 DINOv2)的表征对齐方法 REPA 相比:
虽然 REPA 的绝对指标略优,但 Dispersive Loss 是完全自包含的:
何恺明团队的这项工作,其价值不仅在于提出了一个简单有效的新损失函数,更在于它成功地在扩散模型和 表征学习 这两个长期相对独立发展的领域之间,架起了一座简洁而坚固的桥梁。
随着扩散模型不断刷新图像生成的质量和效率纪录,何恺明团队这项“整理收纳术”的横空出世,为扩散模型的优化打开了新思路——有时候,让模型学会把内部特征“收拾整齐”,比一味堆砌数据和算力更有效。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。