何恺明团队又发新作: MeanFlow单步图像生成SOTA提升达50%

  

何恺明团队又发新作: MeanFlow单步图像生成SOTA提升达50%

  本文提出了一种名为 MeanFlow 的理论框架,用于实现单步生成任务◆◆。其核心思想是引入一个新的 ground-truth 场来表示平均速度,而不是流匹配中常用的瞬时速度。

  本文进一步证明,该框架可以自然地整合无分类器引导(CFG)★■,并且在采样时无需额外成本◆■。

  基于这一基本概念■■◆,本文训练了一个神经网络来直接建模平均速度场,并引入损失函数来奖励网络满足平均速度和瞬时速度之间的内在关系。

  这不,5 月 19 日,他又放出一篇新作!作者团队来自 CMU 以及 MIT★◆。

  其中左侧的运算采用乘积法则◆■◆,右侧的运算采用微积分★◆■。重新排列项,得到恒等式:

  此外◆◆■★◆■,MeanFlow 是一个自成一体的生成模型:它完全从头开始训练,没有任何预训练、知识蒸馏或课程学习。该研究大幅缩小了单步扩散 / 流模型与多步研究之间的差距。

  图 1 中,本文将 MeanFlow 与之前的单步扩散 / 流模型进行了比较■■,如表 2(左)所示。总体而言,MeanFlow 的表现远超同类:它实现了 3★■★◆◆.43 的 FID,与 IMM 的单步结果 7■■★★.77 相比◆★,相对提升了 50% 以上。

  何恺明团队又发新作: MeanFlow单步图像生成SOTA◆★◆,提升达50%

  这一结果表明◆◆◆,few-step 扩散 / 流模型可以媲美其多步模型。值得注意的是,本文方法是独立的,完全从头开始训练。它无需使用任何预训练◆◆■、蒸馏或课程学习,就取得了出色的结果。

  其中,u 表示平均速度,v 表示瞬时速度。u (z_t,r,t) 是一个同时依赖于 (r■■◆◆■, t) 的场。u 的场如图 3 所示:

  如果仅比较 1-NFE(而不仅仅是单步)生成,MeanFlow 与之前的最佳方法(10.60)相比,相对提升了近 70%。不难看出,本文方法在很大程度上缩小了单步和多步扩散 / 流模型之间的差距。

  这个方程称为 MeanFlow 恒等式,它描述了 v 和 u 之间的关系。

  生成模型旨在将先验分布转换为数据分布■■◆◆◆。流匹配提供了一个直观且概念简单的框架,用于构建将一个分布传输到另一个分布的流路径。流匹配与扩散模型密切相关,但关注的是引导模型训练的速度场。自引入以来,流匹配已在现代生成模型中得到广泛应用★◆。

  文章提出使用平均速度(在时间间隔内的位移与时间的比值)来代替流匹配中通常建模的瞬时速度。然后本文推导出平均速度与瞬时速度之间存在一个内在的关系★■★◆★■,从而作为指导网络训练的原则性基础。

  文章提出了一种名为MeanFlow的单步生成建模框架■◆,通过引入平均速度(average velocity)的概念来改进现有的流匹配方法,并在 ImageNet 256×256 数据集上取得了显著优于以往单步扩散 / 流模型的结果,FID 分数达到 3★★■◆■.43■★★◆◆,且无需预训练、蒸馏或课程学习■★★■■◆。

  平均速度 u 是瞬时速度 v 的函数★■■,即★■◆★,它是由 v 诱导的场,不依赖于任何神经网络。

  表 3 报告了在 CIFAR-10(32×32)上的无条件生成结果,本文方法与先前的方法相比具有竞争力★★◆◆。

标签:

分类阅读

热门阅读