訂閱
糾錯(cuò)
加入自媒體

顛覆性突破!何愷明團(tuán)隊(duì)重磅工作「Drifting Models」革新生成范式:一步推理直接創(chuàng)紀(jì)錄

作者:Mingyang Deng等

解讀:AI生成未來(lái)

亮點(diǎn)直擊

全新的生成范式:提出了“漂移模型” (Drifting Models),這一范式不再依賴于推理時(shí)的迭代過(guò)程,而是將分布演化的過(guò)程轉(zhuǎn)移到了訓(xùn)練階段。

真正的單步生成:實(shí)現(xiàn)了無(wú)需蒸餾的單步 (One-step / 1-NFE) 高質(zhì)量生成,從根本上解決了擴(kuò)散模型推理速度慢的問(wèn)題。

SOTA 性能:在 ImageNet  上,單步生成的 FID 達(dá)到 1.54,優(yōu)于所有現(xiàn)有的單步生成方法,甚至媲美多步擴(kuò)散模型。

通用的漂移場(chǎng)理論:引入了基于物理直覺(jué)的“漂移場(chǎng)”概念,通過(guò)最小化樣本漂移來(lái)驅(qū)動(dòng)模型達(dá)到平衡狀態(tài)。

解決的問(wèn)題

推理效率瓶頸:現(xiàn)有的擴(kuò)散模型 (Diffusion) 和流匹配模型 (Flow Matching) 依賴于推理時(shí)的迭代去噪(如 20-100 步),導(dǎo)致生成速度慢、計(jì)算成本高。

單步生成質(zhì)量不足:雖然存在如 Consistency Models 等單步生成方法,但它們通常需要復(fù)雜的蒸餾過(guò)程,且生成質(zhì)量往往難以達(dá)到多步模型的水平。

訓(xùn)練與推理的不一致:傳統(tǒng)方法在推理時(shí)模擬動(dòng)態(tài)演化,而本工作通過(guò)訓(xùn)練時(shí)的迭代優(yōu)化來(lái)實(shí)現(xiàn)分布的演化,使推理過(guò)程簡(jiǎn)化為單次映射。

提出的方案

訓(xùn)練時(shí)演化:利用深度學(xué)習(xí)訓(xùn)練過(guò)程本身的迭代性質(zhì)(如 SGD 步驟),將每一次參數(shù)更新視為推前分布 (Pushforward Distribution) 的一次演化。

漂移場(chǎng):定義了一個(gè)向量場(chǎng) ,它描述了生成樣本應(yīng)該如何移動(dòng)才能接近數(shù)據(jù)分布。該場(chǎng)由數(shù)據(jù)分布  的吸引力和當(dāng)前生成分布  的排斥力共同決定。

平衡訓(xùn)練目標(biāo):構(gòu)建了一個(gè)損失函數(shù),旨在最小化漂移場(chǎng)的模長(zhǎng)。當(dāng)生成分布與數(shù)據(jù)分布匹配時(shí) (),漂移場(chǎng)為零,模型達(dá)到平衡。

特征空間操作:為了獲得更好的訓(xùn)練信號(hào),漂移場(chǎng)的計(jì)算在預(yù)訓(xùn)練的特征空間(如 Latent-MAE)中進(jìn)行,而非直接在像素空間。

應(yīng)用的技術(shù)

推前分布:利用  建模生成過(guò)程。

核密度估計(jì)與均值漂移:使用核函數(shù) (Kernel) 來(lái)估計(jì)樣本間的相互作用力,模擬粒子在場(chǎng)中的運(yùn)動(dòng)。

對(duì)比學(xué)習(xí)思想:使用正樣本(真實(shí)數(shù)據(jù))和負(fù)樣本(生成數(shù)據(jù))來(lái)估計(jì)漂移場(chǎng),類似于對(duì)比學(xué)習(xí)中的正負(fù)對(duì)。

Latent-MAE:為了支持像素空間和隱空間的生成,專門(mén)訓(xùn)練了一個(gè)在隱空間操作的 MAE 模型作為特征提取器。

達(dá)到的效果

ImageNet 256×256

Latent Space: FID 1.54 (1-NFE),優(yōu)于 SiT-XL/2 (2.06) 和 DiT-XL/2 (2.27)。

Pixel Space: FID 1.61 (1-NFE),大幅優(yōu)于 StyleGAN-XL (2.30) 和 ADM (4.59)。

機(jī)器人控制:在 Diffusion Policy 基準(zhǔn)測(cè)試中,以 1-NFE 的推理實(shí)現(xiàn)了與 100-NFE 擴(kuò)散策略相當(dāng)甚至更好的成功率。

無(wú)需CFG:最佳性能在 CFG scale = 1.0 時(shí)達(dá)成,無(wú)需額外的無(wú)分類器引導(dǎo)計(jì)算。

生成式建模通常被認(rèn)為比判別式建模更具挑戰(zhàn)性。判別式建模通常專注于將單個(gè)樣本映射到其對(duì)應(yīng)的標(biāo)簽,而生成式建模則關(guān)注從一個(gè)分布到另一個(gè)分布的映射。這可以表述為學(xué)習(xí)一個(gè)映射 ,使得先驗(yàn)分布  的推前分布與數(shù)據(jù)分布相匹配,即 。從概念上講,生成式建模學(xué)習(xí)的是一個(gè)泛函(在此為 ),它將一個(gè)函數(shù)(在此為分布)映射到另一個(gè)函數(shù)。

這種“推前”行為可以在推理時(shí)通過(guò)迭代的方式實(shí)現(xiàn),例如在當(dāng)前流行的范式如擴(kuò)散模型 (Diffusion) (Sohl-Dickstein et al., 2015) 和流匹配 (Flow Matching) (Lipman et al., 2022) 中。在生成時(shí),這些模型將較嘈雜的樣本映射為稍微干凈一點(diǎn)的樣本,逐步將樣本分布向數(shù)據(jù)分布演化。這種建模哲學(xué)可以看作是將一個(gè)復(fù)雜的推前映射(即 )分解為一系列在推理時(shí)應(yīng)用的可行的變換。

在本文中,本文提出了漂移模型 (Drifting Models),這是一種生成式建模的新范式。漂移模型的特點(diǎn)是學(xué)習(xí)一個(gè)在訓(xùn)練期間演化的推前映射,從而消除了對(duì)迭代推理過(guò)程的需求。映射  由一個(gè)單次通行 (single-pass)、非迭代的網(wǎng)絡(luò)表示。由于深度學(xué)習(xí)優(yōu)化中的訓(xùn)練過(guò)程本質(zhì)上是迭代的,這可以自然地被視為通過(guò)更新  來(lái)演化推前分布 。見(jiàn)上圖 1。

為了驅(qū)動(dòng)訓(xùn)練時(shí)推前分布的演化,本文引入了一個(gè)支配樣本移動(dòng)的漂移場(chǎng)。該場(chǎng)依賴于生成的分布和數(shù)據(jù)分布。根據(jù)定義,當(dāng)兩個(gè)分布匹配時(shí),該場(chǎng)變?yōu)榱,從而達(dá)到一個(gè)樣本不再漂移的平衡狀態(tài) (equilibrium)。

基于這一構(gòu)想,本文提出了一個(gè)簡(jiǎn)單的訓(xùn)練目標(biāo),用于最小化生成樣本的漂移。這個(gè)目標(biāo)誘導(dǎo)樣本移動(dòng),并通過(guò)迭代優(yōu)化(例如 SGD)演化底層的推前分布。進(jìn)一步介紹了漂移場(chǎng)的設(shè)計(jì)、神經(jīng)網(wǎng)絡(luò)模型和訓(xùn)練算法。

漂移模型天然地執(zhí)行單步 (“1-NFE”) 生成,并取得了強(qiáng)大的實(shí)證性能。在 ImageNet  上,本文在標(biāo)準(zhǔn)的隱空間生成協(xié)議下獲得了 1.54 的 1-NFE FID,在單步方法中達(dá)到了新的最先進(jìn)水平。即使與多步擴(kuò)散/流模型相比,這一結(jié)果仍然具有競(jìng)爭(zhēng)力。此外,在更具挑戰(zhàn)性的像素空間生成協(xié)議下(即沒(méi)有 latents),本文達(dá)到了 1.61 的 1-NFE FID,大大優(yōu)于之前的像素空間方法。這些結(jié)果表明,漂移模型為高質(zhì)量、高效的生成建模提供了一個(gè)有前途的新范式。

相關(guān)工作

擴(kuò)散/流模型 (Diffusion-/Flow-based Models) 。擴(kuò)散模型及其基于流的對(duì)應(yīng)物通過(guò)微分方程(SDEs 或 ODEs)制定噪聲到數(shù)據(jù)的映射。其推理時(shí)計(jì)算的核心是迭代更新,例如  的形式,如使用 Euler求解器。更新  依賴于神經(jīng)網(wǎng)絡(luò) ,因此生成涉及多步網(wǎng)絡(luò)評(píng)估。

越來(lái)越多的工作集中在減少擴(kuò)散/流模型的步驟上;谡麴s的方法將預(yù)訓(xùn)練的多步模型蒸餾為單步模型。另一行研究旨在從頭開(kāi)始訓(xùn)練單步擴(kuò)散/流模型。為了實(shí)現(xiàn)這一目標(biāo),這些方法通過(guò)逼近誘導(dǎo)的軌跡將 SDE/ODE 動(dòng)力學(xué)納入訓(xùn)練。相比之下,本工作提出了一個(gè)概念上不同的范式,并且不像擴(kuò)散/流模型那樣依賴于 SDE/ODE 公式。

生成對(duì)抗網(wǎng)絡(luò) (GANs) 。GANs 是經(jīng)典的生成模型家族,通過(guò)區(qū)分生成樣本與真實(shí)數(shù)據(jù)來(lái)訓(xùn)練生成器。像 GANs 一樣,本文的方法涉及一個(gè)將噪聲映射到數(shù)據(jù)的單次通行網(wǎng)絡(luò) ,其“好壞”由損失函數(shù)評(píng)估;然而,與 GANs 不同,本文的方法不依賴于對(duì)抗性優(yōu)化。

變分自編碼器 (VAEs) 。VAEs優(yōu)化證據(jù)下界 (ELBO),其中包括重構(gòu)損失和 KL 散度項(xiàng)。經(jīng)典的 VAEs 在使用高斯先驗(yàn)時(shí)是單步生成器。如今流行的 VAE 應(yīng)用通常訴諸于從其他方法學(xué)習(xí)到的先驗(yàn),例如擴(kuò)散或自回歸模型,其中 VAE 有效地充當(dāng) tokenizer。

歸一化流。NFs學(xué)習(xí)從數(shù)據(jù)到噪聲的映射,并優(yōu)化樣本的對(duì)數(shù)似然。這些方法需要可逆的架構(gòu)和可計(jì)算的雅可比行列式。從概念上講,NFs 在推理時(shí)作為單步生成器運(yùn)行,計(jì)算由網(wǎng)絡(luò)的逆執(zhí)行。

矩匹配 (Moment Matching) 。矩匹配方法尋求最小化生成分布和數(shù)據(jù)分布之間的最大均值差異 (MMD)。矩匹配最近已擴(kuò)展到單步/少步擴(kuò)散。與 MMD 相關(guān),本文的方法也利用了核函數(shù)和正/負(fù)樣本的概念。然而,本文的方法側(cè)重于在訓(xùn)練時(shí)顯式控制樣本漂移的漂移場(chǎng)。

對(duì)比學(xué)習(xí)。本工作的漂移場(chǎng)由來(lái)自數(shù)據(jù)分布的正樣本和來(lái)自生成分布的負(fù)樣本驅(qū)動(dòng)。這在概念上與對(duì)比表示學(xué)習(xí)中的正負(fù)樣本有關(guān)。對(duì)比學(xué)習(xí)的思想也已擴(kuò)展到生成模型,例如 GANs 或 Flow Matching。

用于生成的漂移模型

本文提出漂移模型,將生成式建模公式化為通過(guò)漂移場(chǎng)進(jìn)行的推前分布的訓(xùn)練時(shí)演化。本模型天然地在推理時(shí)執(zhí)行單步生成。

訓(xùn)練時(shí)推前

考慮一個(gè)神經(jīng)網(wǎng)絡(luò) 。 的輸入是 (例如,任意維度的噪聲 ),輸出記為 。通常,輸入和輸出維度不必相等。

本文用  表示網(wǎng)絡(luò)輸出的分布,即 。在概率論中, 被稱為  在  下的推前分布,記為:

這里,“” 表示由  誘導(dǎo)的推前。直觀地說(shuō),這個(gè)符號(hào)意味著  將分布  轉(zhuǎn)換為另一個(gè)分布 。生成式建模的目標(biāo)是找到  使得 。

由于神經(jīng)網(wǎng)絡(luò)訓(xùn)練本質(zhì)上是迭代的(例如 SGD),訓(xùn)練過(guò)程產(chǎn)生了一系列模型 ,其中  表示訓(xùn)練迭代次數(shù)。這對(duì)應(yīng)于訓(xùn)練期間的一系列推前分布 ,其中對(duì)于每個(gè) ,。訓(xùn)練過(guò)程逐步演化  以匹配 。

當(dāng)網(wǎng)絡(luò)  更新時(shí),訓(xùn)練迭代  處的樣本隱式地“漂移”為:,其中  源于對(duì)  的參數(shù)更新。這意味著  的更新決定了  的“殘差”,本文將其稱為“漂移” (drift)。

用于訓(xùn)練的漂移場(chǎng)

接下來(lái),本文定義一個(gè)漂移場(chǎng)來(lái)控制樣本  以及隨之而來(lái)的推前分布  的訓(xùn)練時(shí)演化。漂移場(chǎng)是一個(gè)給定  計(jì)算  的函數(shù)。形式上,記該場(chǎng)為 ,本文有:

這里,,漂移后記為 。下標(biāo)  表示該場(chǎng)依賴于 (例如 )和當(dāng)前分布 。

理想情況下,當(dāng)  時(shí),希望所有  停止漂移,即 。考慮以下命題:

命題 3.1。考慮一個(gè)反對(duì)稱 (anti-symmetric) 的漂移場(chǎng):

那么本文有:

證明是直接的。直觀地說(shuō),反對(duì)稱性意味著交換  和  只是翻轉(zhuǎn)了漂移的符號(hào)。這個(gè)命題意味著,如果推前分布  匹配數(shù)據(jù)分布 ,那么對(duì)于任何樣本,漂移為零,模型達(dá)到平衡。

注意到,逆命題(即 )對(duì)于任意選擇的  一般是不成立的。對(duì)于本文的核化公式,本文給出了  意味著  的充分條件。

訓(xùn)練目標(biāo) 。平衡的性質(zhì)激發(fā)了訓(xùn)練目標(biāo)的定義。設(shè)  為由  參數(shù)化的網(wǎng)絡(luò), 其中 。在  的平衡點(diǎn),本文建立以下不動(dòng)點(diǎn)關(guān)系:

這里, 表示能夠達(dá)到平衡的最優(yōu)參數(shù), 表示  的推前分布。

這個(gè)方程激發(fā)了訓(xùn)練期間的不動(dòng)點(diǎn)迭代。在迭代 ,本文尋求滿足:

本文將此更新規(guī)則轉(zhuǎn)換為損失函數(shù):

這里,stop-gradient 操作提供了來(lái)自上一次迭代的凍結(jié)狀態(tài)。直觀地說(shuō),本文計(jì)算一個(gè)凍結(jié)的目標(biāo),并將網(wǎng)絡(luò)預(yù)測(cè)向其移動(dòng)。

本文注意到損失函數(shù)  的值等于 ,即漂移場(chǎng)  的范數(shù)平方。通過(guò) stop-gradient 公式,本文的求解器并不直接通過(guò)  反向傳播,因?yàn)?nbsp; 依賴于 ,而通過(guò)分布反向傳播是非常困難的。相反,本文的公式通過(guò)間接方式最小化該目標(biāo):它將  移向其漂移后的版本,即移向在該迭代中被凍結(jié)的 。

漂移場(chǎng)設(shè)計(jì)

場(chǎng)  依賴于兩個(gè)分布  和 。為了獲得可計(jì)算的公式,本文考慮以下形式:

其中  是描述三個(gè)樣本點(diǎn)之間相互作用的類核函數(shù)。 可以可選地依賴于  和 。本文的框架支持廣泛的函數(shù)類 ,只要當(dāng)  時(shí) 。

對(duì)于本文中的實(shí)例化,引入一種由吸引排斥驅(qū)動(dòng)的  形式。受均值漂移方法 (Cheng, 1995) 的啟發(fā),本文定義以下場(chǎng):

這里, 和  是歸一化因子:

直觀地說(shuō),公式 (8) 計(jì)算向量差  的加權(quán)平均值。權(quán)重由核  給出并由 (9) 歸一化。然后本文定義  為:

直觀地說(shuō),該場(chǎng)可以看作是被數(shù)據(jù)分布  吸引,并被樣本分布  排斥。如圖 2 所示。

圖 2. 漂移樣本的示意圖。生成的樣本 (黑色)根據(jù)向量  進(jìn)行漂移。這里, 是正樣本(藍(lán)色)的均值漂移向量, 是負(fù)樣本(橙色)的均值漂移向量:見(jiàn)公式 (8)。 被  吸引并被  排斥。圖 2. 漂移樣本的示意圖。生成的樣本 (黑色)根據(jù)向量  進(jìn)行漂移。這里, 是正樣本(藍(lán)色)的均值漂移向量, 是負(fù)樣本(橙色)的均值漂移向量:見(jiàn)公式 (8)。 被  吸引并被  排斥。

將公式 (8) 代入公式 (10),本文得到:

這里,向量差簡(jiǎn)化為 ;權(quán)重由兩個(gè)核計(jì)算并聯(lián)合歸一化。這種形式是公式 (7) 的一種實(shí)例化。很容易看出  是反對(duì)稱的:。一般來(lái)說(shuō),本文的方法不需要將  分解為吸引和排斥;它只需要當(dāng)  時(shí) 。

核函數(shù) (Kernel) 。核  可以是衡量相似度的函數(shù)。在本文中,本文采用:

其中  是溫度, 是 -距離。本文將  視為歸一化的核,它吸收了公式 (11) 中的歸一化。

在實(shí)踐中,使用 softmax 操作來(lái)實(shí)現(xiàn) ,其中 logits 由  給出,softmax 是在  上進(jìn)行的。這種 softmax 操作類似于對(duì)比學(xué)習(xí)中的 InfoNCE。在本文的實(shí)現(xiàn)中,本文進(jìn)一步在批次內(nèi)的  集合上應(yīng)用額外的 softmax 歸一化,這在實(shí)踐中略微提高了性能。這種額外的歸一化不會(huì)改變所得  的反對(duì)稱性質(zhì)。

平衡與匹配分布。由于本文在公式 (6) 中的訓(xùn)練損失鼓勵(lì)最小化 ,本文希望  能導(dǎo)致 。雖然這種蘊(yùn)含關(guān)系對(duì)于任意選擇的  并不成立,但本文通過(guò)經(jīng)驗(yàn)觀察到,減小  的值與生成質(zhì)量的提高相關(guān)。在附錄 C.1 中,本文提供了一個(gè)可識(shí)別性啟發(fā)式論證:對(duì)于本文的核化構(gòu)造,零漂移條件對(duì)  施加了大量雙線性約束,在溫和的非退化假設(shè)下,這強(qiáng)制  和  (近似)匹配。

隨機(jī)訓(xùn)練 (Stochastic Training) 。在隨機(jī)訓(xùn)練(例如小批量?jī)?yōu)化)中,本文通過(guò)用經(jīng)驗(yàn)均值近似公式 (11) 中的期望來(lái)估計(jì) 。對(duì)于每個(gè)訓(xùn)練步,本文抽取  個(gè)噪聲樣本  并計(jì)算一批 。生成的樣本也作為同一批次中的負(fù)樣本,即 。另一方面,本文采樣  個(gè)數(shù)據(jù)點(diǎn) 。漂移場(chǎng)  是在這批正負(fù)樣本中計(jì)算的。算法 1 提供了這樣一個(gè)訓(xùn)練步的偽代碼,其中 compute V 在 A.1 節(jié)中給出。

在特征空間中漂移

到目前為止,本文已在原始數(shù)據(jù)空間中直接定義了目標(biāo) (6)。本文公式可以擴(kuò)展到任何特征空間。設(shè)  表示特征提取器(例如圖像編碼器),它在真實(shí)或生成的樣本上操作。本文將特征空間中的損失 (6) 重寫(xiě)為:

這里, 是生成器的輸出(例如圖像)。 在特征空間中定義:在實(shí)踐中,這意味著  和  作為正/負(fù)樣本。值得注意的是,特征編碼是一個(gè)訓(xùn)練時(shí)的操作,不在推理時(shí)使用。

這可以進(jìn)一步擴(kuò)展到多個(gè)特征,例如在多個(gè)尺度和位置:

這里, 表示來(lái)自編碼器  的第  個(gè)尺度和/或位置的特征向量。使用 ResNet 風(fēng)格的圖像編碼器,本文在多個(gè)尺度和位置計(jì)算漂移損失,這為訓(xùn)練提供了更豐富的梯度信息。

特征提取器在高維數(shù)據(jù)生成中起著重要作用。由于本文的方法基于核  來(lái)表征樣本相似度,因此希望語(yǔ)義相似的樣本在特征空間中保持接近。這一目標(biāo)與自監(jiān)督學(xué)習(xí)一致。本文使用預(yù)訓(xùn)練的自監(jiān)督模型作為特征提取器。

與感知損失的關(guān)系 (Relation to Perceptual Loss) 。本文的特征空間損失與感知損失 (Zhang et al., 2018) 相關(guān)但在概念上是不同的。感知損失最小化:,也就是說(shuō),回歸目標(biāo)是  并且需要將  與其目標(biāo)配對(duì)。相比之下,本文在 (13) 中的回歸目標(biāo)是 ,其中漂移是在特征空間中的,且不需要配對(duì)。原則上,本文的特征空間損失旨在匹配推前分布  和 。

與潛在生成的關(guān)系 (Relation to Latent Generation) 。本文的特征空間損失與隱空間中的生成器概念(例如 Latent Diffusion 是正交的。在本文的情況下,當(dāng)使用  時(shí),生成器  仍然可以在 tokenizer 的像素空間或隱空間產(chǎn)生輸出。如果生成器  在隱空間且特征提取器  在像素空間,tokenizer 解碼器將在從  提取特征之前應(yīng)用。

無(wú)分類器引導(dǎo)

無(wú)分類器引導(dǎo) (CFG)通過(guò)在類條件分布和無(wú)條件分布之間進(jìn)行外推來(lái)提高生成質(zhì)量。本文的方法自然地支持一種相關(guān)形式的引導(dǎo)。

在本文的模型中,給定類標(biāo)簽  作為條件,底層的目標(biāo)分布現(xiàn)在變?yōu)?nbsp;,我們可以從中抽取正樣本:。為了實(shí)現(xiàn)引導(dǎo),本文從生成樣本或不同類別的真實(shí)樣本中抽取負(fù)樣本。 形式上,負(fù)樣本分布現(xiàn)在為:

這里, 是混合率, 表示無(wú)條件數(shù)據(jù)分布(腳注 2:這應(yīng)該是排除類別  的數(shù)據(jù)分布。為簡(jiǎn)單起見(jiàn),本文使用無(wú)條件數(shù)據(jù)分布)。

學(xué)習(xí)的目標(biāo)是找到 。將其代入 (15),本文得到:

其中 。這意味著  是要逼近條件和無(wú)條件數(shù)據(jù)分布的線性組合。這遵循了原始 CFG 的精神。

在實(shí)踐中,公式 (15) 意味著除了生成的數(shù)據(jù)外,本文還從  中的數(shù)據(jù)采樣額外的負(fù)樣本。分布  對(duì)應(yīng)于類條件網(wǎng)絡(luò) ,類似于通常的做法 。本文注意到,在本文的方法中,CFG 是設(shè)計(jì)上的訓(xùn)練時(shí)行為:?jiǎn)尾?(1-NFE) 屬性在推理時(shí)得以保留。

圖像生成的實(shí)現(xiàn)

本文描述了 ImageNet在分辨率  上的圖像生成實(shí)現(xiàn)。

Tokenizer。默認(rèn)情況下,本文在隱空間執(zhí)行生成。本文采用標(biāo)準(zhǔn)的 SD-VAE tokenizer,它產(chǎn)生一個(gè)  的隱空間,在其中進(jìn)行生成。

架構(gòu) (Architecture) 。本文的生成器 () 具有類似 DiT (Peebles & Xie, 2023) 的架構(gòu)。其輸入是  維的高斯噪聲 ,輸出是相同維度的生成潛在 。本文使用大小為 2 的 patch,即像 DiT/2。本文的模型使用 adaLN-zero來(lái)處理類條件或其他額外的條件。

CFG 條件 (CFG conditioning) 。本文并采用 CFG 條件。在訓(xùn)練時(shí),隨機(jī)采樣一個(gè) CFG scale (公式 16)。根據(jù)  準(zhǔn)備負(fù)樣本(公式 15),網(wǎng)絡(luò)以此值為條件。在推理時(shí), 可以自由指定和變化而無(wú)需重新訓(xùn)練。

批處理 (Batching) 。算法 1 中的偽代碼描述了一批  個(gè)生成的樣本。在實(shí)踐中,當(dāng)涉及類標(biāo)簽時(shí),本文采樣一批  個(gè)類標(biāo)簽。對(duì)于每個(gè)標(biāo)簽,本文獨(dú)立執(zhí)行算法 1。因此,有效的批量大小是 ,它由  個(gè)負(fù)樣本和  個(gè)正樣本組成。

本文根據(jù)生成的樣本  的數(shù)量定義一個(gè)“訓(xùn)練 epoch”。特別是,每次迭代生成  個(gè)樣本,對(duì)于大小為  的數(shù)據(jù)集,一個(gè) epoch 對(duì)應(yīng)于  次迭代。

特征提取器 (Feature Extractor) 。本文的模型在特征空間中訓(xùn)練漂移損失。特征提取器  是一個(gè)圖像編碼器。本文主要考慮 ResNet 風(fēng)格

例如使用自監(jiān)督學(xué)習(xí)預(yù)訓(xùn)練的編碼器,如 MoCo和 SimCLR。當(dāng)這些預(yù)訓(xùn)練模型在像素空間操作時(shí),本文應(yīng)用 VAE 解碼器將生成器的隱空間輸出映射回像素空間以進(jìn)行特征提取。梯度通過(guò)特征編碼器和 VAE 解碼器反向傳播。本文還研究了在隱空間預(yù)訓(xùn)練的 MAE 。

對(duì)于所有 ResNet 風(fēng)格的模型,特征從多個(gè)階段(即多尺度特征圖)提取。漂移損失 (13) 在每個(gè)尺度上計(jì)算,然后組合。

像素空間生成 。雖然本文的實(shí)驗(yàn)主要集中在隱空間生成,但本文的模型支持像素空間生成。在這種情況下, 和  都是 。本文使用 16 的 patch 大。 DiT/16)。特征提取器  直接在像素空間上操作。

實(shí)驗(yàn)

小實(shí)驗(yàn)

生成分布的演化。圖 3 可視化了一個(gè) 2D 案例,其中  在訓(xùn)練時(shí)向雙峰分布  演化,在三種初始化下。在這個(gè)示例中,本文的方法近似了目標(biāo)分布,沒(méi)有表現(xiàn)出模式坍縮。即使  初始化為坍縮的單模式狀態(tài)(底部),這也成立。這為本文的方法為何對(duì)模式坍縮具有魯棒性提供了直觀解釋:如果  坍縮到一個(gè)模式上, 的其他模式將吸引樣本,允許它們繼續(xù)移動(dòng)并推動(dòng)  繼續(xù)演化。

樣本的演化。圖 4 展示了在兩個(gè) 2D 案例上的訓(xùn)練過(guò)程。訓(xùn)練了一個(gè)小型 MLP 生成器。隨著生成分布收斂到目標(biāo),損失(其值等于 )減小。這與本文的動(dòng)機(jī)一致,即減小漂移并推向平衡將近似產(chǎn)生 。

ImageNet 實(shí)驗(yàn)

在 ImageNet  上評(píng)估本文的模型。消融研究使用 SD-VAE 隱空間上的 B/2 模型,訓(xùn)練 100 個(gè) epoch。漂移損失是在由 latent-MAE 編碼器計(jì)算的特征空間中。本文報(bào)告 50K 生成圖像的 FID。本文分析結(jié)果如下。

反對(duì)稱性 (Anti-symmetry) 。本文對(duì)平衡的推導(dǎo)要求漂移場(chǎng)是反對(duì)稱的;見(jiàn)公式 (3)。在表 1 中,本文進(jìn)行了一項(xiàng)破壞性研究,有意破壞這種反對(duì)稱性。反對(duì)稱情況(本文消融的默認(rèn)設(shè)置)效果良好,而其他情況則遭受災(zāi)難性失敗。直觀地說(shuō),對(duì)于樣本 ,當(dāng)  和  匹配時(shí),本文希望來(lái)自  的吸引力被來(lái)自  的排斥力抵消。這種平衡在破壞性案例中無(wú)法實(shí)現(xiàn)。

正負(fù)樣本的分配 。本文方法采樣正樣本和負(fù)樣本來(lái)估計(jì) (見(jiàn)算法 1)。在表 2 中,本文在固定的 epoch 和固定的批量大小  下,研究了  和  的影響。

表 2 顯示,使用更大的  和  是有益的。更大的樣本量預(yù)計(jì)能提高估計(jì)  的準(zhǔn)確性,從而提升生成質(zhì)量。這一觀察結(jié)果與對(duì)比學(xué)習(xí)中的結(jié)果一致,即更大的樣本集能改善表示學(xué)習(xí)。

用于漂移的特征空間 (Feature Space for Drifting) 。本文的模型在一個(gè)特征空間中計(jì)算漂移損失。表 3 比較了特征編碼器。使用來(lái)自 SimCLR和 MoCo v2的公開(kāi)預(yù)訓(xùn)練編碼器,本文的方法獲得了不錯(cuò)的結(jié)果。

這些標(biāo)準(zhǔn)編碼器在像素域操作,這需要在訓(xùn)練時(shí)運(yùn)行 VAE 解碼器。為了規(guī)避這一點(diǎn),本文直接在隱空間上預(yù)訓(xùn)練了一個(gè)帶有 MAE 目標(biāo)的 ResNet 風(fēng)格模型。這個(gè)“latent-MAE”產(chǎn)生的特征空間表現(xiàn)強(qiáng)勁(表 3)。增加 MAE 編碼器的寬度和預(yù)訓(xùn)練 epoch 數(shù)都能提高生成質(zhì)量;使用分類器對(duì)其進(jìn)行微調(diào) (‘cls ft’) 將結(jié)果進(jìn)一步提升至 3.36 FID。

表 3 的比較表明,特征編碼器的質(zhì)量起著重要作用。本文假設(shè)這是因?yàn)楸疚牡姆椒ㄒ蕾囉谝粋(gè)核函數(shù) (見(jiàn)公式 12)來(lái)衡量樣本相似度。在特征空間中距離更近的樣本通常會(huì)產(chǎn)生更強(qiáng)的漂移,提供更豐富的訓(xùn)練信號(hào)。這一目標(biāo)與自監(jiān)督學(xué)習(xí)的動(dòng)機(jī)是一致的。一個(gè)強(qiáng)大的特征編碼器減少了幾乎“平坦”的核(即  消失,因?yàn)樗袠颖径枷嗑嗌踹h(yuǎn))的出現(xiàn)。

另一方面,如果沒(méi)有特征編碼器,我們無(wú)法使該方法在 ImageNet 上工作。在這種情況下,即使存在潛在 VAE,核函數(shù)也可能無(wú)法有效地描述相似性。我們將對(duì)這一局限性的進(jìn)一步研究留待未來(lái)工作。

系統(tǒng)級(jí)比較 (System-level Comparisons) 。除了消融設(shè)置外,本文訓(xùn)練了更強(qiáng)的變體并在表 4 中進(jìn)行了總結(jié)。在表 5 中與之前的方法進(jìn)行了比較。

本文的方法通過(guò)原生的 1-NFE 生成達(dá)到了 1.54 FID。它優(yōu)于所有之前的 1-NFE 方法,這些方法主要基于逼近擴(kuò)散/流的軌跡。值得注意的是,本文的 Base 大小模型可以與之前的 XL 大小模型相媲美。本文的最佳模型(FID 1.54)使用 CFG scale 為 1.0,這對(duì)應(yīng)于擴(kuò)散模型中的“無(wú) CFG”。本文的 CFG 公式展示了一種ID 和 IS權(quán)衡,類似于標(biāo)準(zhǔn)的 CFG。此外,圖 11-15 展示了與 improved MeanFlow (iMF)的并排比較,后者是最近的最先進(jìn)單步生成方法。

像素空間生成 (Pixel-space Generation) 。本文的方法可以自然地在沒(méi)有潛在 VAE 的情況下工作,即生成器  直接產(chǎn)生  的圖像。特征編碼器應(yīng)用于生成的圖像以計(jì)算漂移損失。本文采用與潛在變體類似的配置;實(shí)現(xiàn)細(xì)節(jié)見(jiàn)附錄 A。

表 6 比較了不同的像素空間生成器。本文的單步、像素空間方法達(dá)到了 1.61 FID,優(yōu)于或媲美之前的多步方法。與其他單步像素空間方法 (GANs) 相比,本文的方法僅使用 87G FLOPs 就達(dá)到了 1.61 FID;相比之下,StyleGAN-XL 使用 1574G FLOPs 產(chǎn)生 2.30 FID。

機(jī)器人控制實(shí)驗(yàn)

除了圖像生成,本文還進(jìn)一步評(píng)估了本文方法在機(jī)器人控制上的表現(xiàn)。本文的實(shí)驗(yàn)設(shè)計(jì)和協(xié)議遵循 Diffusion Policy 。Diffusion Policy 的核心是一個(gè)多步、基于擴(kuò)散的生成器;本文將其替換為本文的單步 Drifting Model。本文直接在控制的原始表示上計(jì)算漂移損失,不使用特征空間。結(jié)果如下表 7 所示。本文的 1-NFE 模型匹配或超過(guò)了使用 100 NFE 的最先進(jìn)的 Diffusion Policy。這一比較表明,漂移模型可以作為不同領(lǐng)域中一種有前途的生成模型。

討論與結(jié)論

本文介紹了漂移模型(Drifting Models),這是一種生成式建模的新范式。核心思想是建模訓(xùn)練過(guò)程中推前分布的演化。這使得本文能夠關(guān)注更新規(guī)則,即 ,在迭代訓(xùn)練過(guò)程中。這與擴(kuò)散/流模型形成對(duì)比,后者在推理時(shí)執(zhí)行迭代更新。本文的方法自然地執(zhí)行單步推理。

鑒于本文的方法論本質(zhì)上是不同的,許多懸而未決的問(wèn)題仍然存在。例如,雖然本文展示了 ,但在理論上逆命題并不普遍成立。雖然本文設(shè)計(jì)的  在實(shí)證上表現(xiàn)良好,但尚不清楚在什么條件下  導(dǎo)致 。

從實(shí)踐角度來(lái)看,雖然本文展示了漂移建模的有效實(shí)例化,但本文的許多設(shè)計(jì)決策可能仍是次優(yōu)的。例如,漂移場(chǎng)及其核的設(shè)計(jì)、特征編碼器和生成器架構(gòu)仍有待未來(lái)探索。

從更廣泛的角度來(lái)看,本文的工作將迭代的神經(jīng)網(wǎng)絡(luò)訓(xùn)練重構(gòu)為一種分布演化機(jī)制,這與作為擴(kuò)散/流模型基礎(chǔ)的微分方程形成對(duì)比。本文希望這一視角能激發(fā)未來(lái)工作中對(duì)該機(jī)制的其他實(shí)現(xiàn)的探索。

參考文獻(xiàn)

[1] Generative Modeling via Drifting

       原文標(biāo)題 : 顛覆性突破!何愷明團(tuán)隊(duì)重磅工作「Drifting Models」革新生成范式:一步推理直接創(chuàng)紀(jì)錄

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)