訂閱
糾錯(cuò)
加入自媒體

擴(kuò)散模型對(duì)齊迎來(lái)“最強(qiáng)解”!HyperAlign屠榜評(píng)測(cè):超網(wǎng)絡(luò)動(dòng)態(tài)適配,畫(huà)質(zhì)、語(yǔ)義雙巔峰

作者:Xin Xie等

解讀:AI生成未來(lái)

亮點(diǎn)直擊

HyperAlign,一種通過(guò)超網(wǎng)絡(luò)自適應(yīng)調(diào)整去噪操作的框架,能夠高效且有效地實(shí)現(xiàn)擴(kuò)散模型的測(cè)試時(shí)對(duì)齊,確保生成的圖像更好地反映用戶意圖的文本語(yǔ)義與視覺(jué)吸引力。

設(shè)計(jì)了不同的自適應(yīng)權(quán)重生成策略,以實(shí)現(xiàn)高效靈活的對(duì)齊。除了以獎(jiǎng)勵(lì)分?jǐn)?shù)作為訓(xùn)練目標(biāo)外,我們還引入了偏好正則化項(xiàng)以防止獎(jiǎng)勵(lì)欺詐問(wèn)題。

在多種生成模型(例如SD V1.5和FLUX)上評(píng)估了所提方法的性能。HyperAlign在不同指標(biāo)上顯著優(yōu)于各基線模型及其他先進(jìn)的微調(diào)和測(cè)試時(shí)縮放方法,證明了其有效性與優(yōu)越性。

總結(jié)速覽

解決的問(wèn)題

擴(kuò)散模型生成結(jié)果與人類偏好和意圖不一致:生成的圖像存在美學(xué)質(zhì)量差、語(yǔ)義與提示詞不符等問(wèn)題。

現(xiàn)有對(duì)齊方法的局限性

微調(diào)方法:存在獎(jiǎng)勵(lì)過(guò)優(yōu)化問(wèn)題,導(dǎo)致多樣性喪失。

測(cè)試時(shí)縮放方法:計(jì)算開(kāi)銷大,且容易獎(jiǎng)勵(lì)欠優(yōu)化,對(duì)齊效果不足。

提出的方案

提出 HyperAlign 框架,通過(guò)訓(xùn)練一個(gè)超網(wǎng)絡(luò)實(shí)現(xiàn)高效且有效的測(cè)試時(shí)對(duì)齊:

核心思路:不直接修改隱狀態(tài),而是通過(guò)超網(wǎng)絡(luò)動(dòng)態(tài)生成低秩適配權(quán)重(LoRA),調(diào)制擴(kuò)散模型的生成算子,從而自適應(yīng)調(diào)整去噪軌跡。

變體設(shè)計(jì):根據(jù)超網(wǎng)絡(luò)的應(yīng)用頻率設(shè)計(jì)了三種策略(逐步驟生成、起始點(diǎn)生成、分段生成),以平衡性能與效率。

優(yōu)化目標(biāo):使用獎(jiǎng)勵(lì)分?jǐn)?shù)作為訓(xùn)練目標(biāo),并結(jié)合偏好數(shù)據(jù)進(jìn)行正則化,以減少獎(jiǎng)勵(lì)黑客問(wèn)題。

應(yīng)用的技術(shù)

超網(wǎng)絡(luò)架構(gòu):輸入包括隱變量、時(shí)間步和提示詞,輸出動(dòng)態(tài)調(diào)制參數(shù)(LoRA權(quán)重)。

低秩適配(LoRA):降低參數(shù)量,避免生成全模型權(quán)重的高成本。

獎(jiǎng)勵(lì)條件對(duì)齊:基于獎(jiǎng)勵(lì)分?jǐn)?shù)優(yōu)化生成軌跡,并結(jié)合偏好數(shù)據(jù)正則化。

多范式適配:在擴(kuò)散模型(如Stable Diffusion)和整流流(如FLUX)等多種生成范式中實(shí)現(xiàn)。

達(dá)到的效果

性能顯著提升:在增強(qiáng)語(yǔ)義一致性和視覺(jué)吸引力方面,顯著優(yōu)于現(xiàn)有微調(diào)和測(cè)試時(shí)縮放基線方法。

高效對(duì)齊:通過(guò)動(dòng)態(tài)權(quán)重生成,避免了傳統(tǒng)測(cè)試時(shí)方法的高計(jì)算開(kāi)銷,實(shí)現(xiàn)了更高效的實(shí)時(shí)調(diào)整。

平衡多樣性與對(duì)齊:通過(guò)正則化緩解獎(jiǎng)勵(lì)過(guò)優(yōu)化,保持生成多樣性的同時(shí)更好地對(duì)齊人類偏好。

廣泛適用性:成功應(yīng)用于多種先進(jìn)生成模型,驗(yàn)證了框架的通用性和擴(kuò)展性。

擴(kuò)散模型對(duì)齊

基于分?jǐn)?shù)的生成模型預(yù)備知識(shí)

擴(kuò)散模型通過(guò)學(xué)習(xí)逆轉(zhuǎn)一個(gè)應(yīng)用于干凈數(shù)據(jù)的漸進(jìn)加噪過(guò)程,從而捕捉數(shù)據(jù)分布。給定數(shù)據(jù)分布 ,擴(kuò)散模型的前向過(guò)程在特定條件下遵循隨機(jī)微分方程 (SDE),用高斯噪聲逐步擾動(dòng)干凈樣本  直至變成高斯噪聲:

其中 , 是標(biāo)準(zhǔn)維納過(guò)程, 和  分別表示漂移系數(shù)和擴(kuò)散系數(shù)。

通過(guò)從  開(kāi)始反向運(yùn)行上述過(guò)程,可以得到一個(gè)通過(guò)逆向 SDE 進(jìn)行的數(shù)據(jù)生成過(guò)程:

其中  表示時(shí)刻  時(shí)  的邊緣分布。分?jǐn)?shù)函數(shù)  可以通過(guò)訓(xùn)練模型  來(lái)估計(jì):

其中  是權(quán)重函數(shù),, 是高斯轉(zhuǎn)移密度,且 。近似后的  定義了一個(gè)學(xué)習(xí)到的分布 。

基于分?jǐn)?shù)的模型統(tǒng)一了擴(kuò)散模型和流匹配模型的公式,其中  的樣本軌跡通過(guò)隨機(jī)或常微分方程(SDE 或 ODE)生成。為了清晰簡(jiǎn)潔,在不失一般性的前提下,下文的陳述將主要聚焦于擴(kuò)散模型。在這一統(tǒng)一公式下,本文的分析和方法可以自然地推廣到擴(kuò)散模型和流匹配模型。

基于獎(jiǎng)勵(lì)的擴(kuò)散模型對(duì)齊

條件擴(kuò)散模型與分?jǐn)?shù)函數(shù)。 本文考慮條件擴(kuò)散模型,其學(xué)習(xí)分布 ,其中  表示條件變量。該模型的訓(xùn)練目標(biāo)是通過(guò)逆擴(kuò)散過(guò)程生成樣本,即在條件  的控制下對(duì)采樣噪聲  進(jìn)行去噪。在圖像生成中, 是輸入提示詞,指示用戶對(duì)生成內(nèi)容的指令。為了更好地進(jìn)行討論,本文采用方差保持(variance-preserving)設(shè)置下的離散分?jǐn)?shù)基模型,其采樣公式為:

其中 ,,,且  是線性增加的噪聲調(diào)度器。這一迭代去噪過(guò)程在潛空間中形成了一條軌跡 ,逐漸將噪聲  轉(zhuǎn)化為反映輸入提示詞  的干凈樣本 。

基于獎(jiǎng)勵(lì)的擴(kuò)散模型對(duì)齊。 盡管現(xiàn)有的文生圖(T2I)模型展示了強(qiáng)大的生成能力,但結(jié)果往往達(dá)不到用戶預(yù)期,表現(xiàn)為視覺(jué)吸引力差以及與輸入提示詞的語(yǔ)義不一致。這種局限性產(chǎn)生的原因在于分?jǐn)?shù)函數(shù)是從大規(guī)模未篩選的數(shù)據(jù)集中學(xué)習(xí)的,這些數(shù)據(jù)集偏離了人類偏好的分布。為了彌補(bǔ)這一差距,引入了擴(kuò)散模型對(duì)齊,以增強(qiáng)生成圖像與人類用戶偏好之間的一致性。

依靠人類偏好數(shù)據(jù),可以獲得一個(gè)捕捉人類偏好(例如美學(xué)偏好)的獎(jiǎng)勵(lì)模型 。通過(guò)與條件  相聯(lián)系,獎(jiǎng)勵(lì)模型可以表述為 ,可以假設(shè)它部分捕捉了  和  之間的一致性以及視覺(jué)美學(xué)偏好。它可以從偏好數(shù)據(jù)中顯式學(xué)習(xí),也可以直接利用數(shù)據(jù)進(jìn)行隱式建模。給定一個(gè)已學(xué)習(xí)的  和一個(gè)獎(jiǎng)勵(lì)模型,擴(kuò)散模型對(duì)齊可以表述為求解一個(gè)新的分布:

其中  是 KL 正則化系數(shù),用于控制獎(jiǎng)勵(lì)最大化與基礎(chǔ)模型一致性之間的平衡。流行為基于訓(xùn)練的對(duì)齊方法通過(guò)強(qiáng)化學(xué)習(xí)(RL)和直接反向傳播來(lái)優(yōu)化目標(biāo)獎(jiǎng)勵(lì)。雖然有效,但這些方法通常會(huì)帶來(lái)巨大的計(jì)算開(kāi)銷和過(guò)度優(yōu)化的風(fēng)險(xiǎn),導(dǎo)致生成多樣性下降。相比之下,測(cè)試時(shí)(test-time)擴(kuò)展方法通過(guò)使用引導(dǎo)來(lái)修改時(shí)間狀態(tài)以實(shí)現(xiàn)對(duì)齊目標(biāo)。由于生成分布表現(xiàn)為采樣過(guò)程中  的軌跡,測(cè)試時(shí)對(duì)齊可以被視為引導(dǎo)該軌跡,以更好地匹配所需的條件分布 。

方法

本工作旨在訓(xùn)練一個(gè)超網(wǎng)絡(luò)(Hypernetwork),以實(shí)現(xiàn)擴(kuò)散模型高效且有效的測(cè)試時(shí)對(duì)齊(Test-time Alignment),該方法被稱為 HyperAlign。

HyperAlig的任務(wù)特定測(cè)試時(shí)間對(duì)齊HyperAlig的任務(wù)特定測(cè)試時(shí)間對(duì)齊

基于擴(kuò)散引導(dǎo)的測(cè)試時(shí)對(duì)齊

測(cè)試時(shí)擴(kuò)散對(duì)齊方法通過(guò)調(diào)整生成軌跡來(lái)更好地滿足對(duì)齊目標(biāo),F(xiàn)有的測(cè)試時(shí)計(jì)算策略大致可分為基于噪聲采樣的方法和基于梯度的擴(kuò)散引導(dǎo)方法。

噪聲采樣方法試圖根據(jù)獎(jiǎng)勵(lì)反饋?zhàn)R別有利的噪聲候選者。然而,在巨大的高維噪聲空間中進(jìn)行探索計(jì)算成本高昂且難以收斂,導(dǎo)致效率低下且結(jié)果欠優(yōu)化。

基于梯度的擴(kuò)散引導(dǎo)直接從特定目標(biāo)計(jì)算梯度,并利用它們通過(guò)修改時(shí)間狀態(tài)來(lái)引導(dǎo)去噪軌跡。

為了通過(guò)直接注入來(lái)自獎(jiǎng)勵(lì)的引導(dǎo)來(lái)有效地對(duì)齊擴(kuò)散模型,本工作旨在訓(xùn)練一個(gè)超網(wǎng)絡(luò),該網(wǎng)絡(luò)在每個(gè)去噪步驟生成特定于提示(prompt-specific)和感知狀態(tài)(state-aware)的調(diào)整。這種設(shè)計(jì)通過(guò)將昂貴的測(cè)試時(shí)優(yōu)化分?jǐn)偟轿⒄{(diào)期間緊湊且可學(xué)習(xí)的建模過(guò)程中,從而保持了計(jì)算效率。

在介紹本方法之前,首先分析利用生成梯度引導(dǎo)去噪軌跡的擴(kuò)散引導(dǎo)方法;谪惾~斯規(guī)則,可以推導(dǎo)出  的近似表達(dá)式,其中第一項(xiàng)對(duì)應(yīng)于無(wú)條件分?jǐn)?shù)(unconditional score),不需要額外優(yōu)化。因此,本工作專注于第二項(xiàng),即把獎(jiǎng)勵(lì)梯度注入去噪過(guò)程:

其中獎(jiǎng)勵(lì)函數(shù)實(shí)際上是通過(guò)解碼器應(yīng)用于解碼后的圖像域。為了討論的簡(jiǎn)潔性,此處省略了解碼器符號(hào)。通過(guò)將上式代入擴(kuò)散更新公式,可以觀察到基于引導(dǎo)的方法通過(guò)將感知獎(jiǎng)勵(lì)的擴(kuò)散動(dòng)態(tài)注入到  中來(lái)實(shí)現(xiàn)對(duì)齊,這本質(zhì)上改變了從  到  的過(guò)渡路徑。

用于測(cè)試時(shí)對(duì)齊的超網(wǎng)絡(luò)

梯度引導(dǎo)方法通過(guò)使用源自獎(jiǎng)勵(lì)的分?jǐn)?shù)直接修改時(shí)間狀態(tài)來(lái)執(zhí)行測(cè)試時(shí)對(duì)齊,從而調(diào)整去噪軌跡。然而,從獎(jiǎng)勵(lì)模型向生成器反向傳播梯度會(huì)帶來(lái)巨大的計(jì)算開(kāi)銷,降低推理速度,并且與生成器的訓(xùn)練過(guò)程是脫節(jié)的。

為了緩解這些問(wèn)題,同時(shí)保留特定任務(wù)建模的優(yōu)勢(shì),本工作訓(xùn)練了一個(gè)超網(wǎng)絡(luò),該網(wǎng)絡(luò)根據(jù)任務(wù)、輸入和當(dāng)前的生成狀態(tài)有效地引導(dǎo)生成軌跡。其測(cè)試時(shí)對(duì)齊能力是在訓(xùn)練期間通過(guò)將基于獎(jiǎng)勵(lì)的引導(dǎo)注入超網(wǎng)絡(luò)來(lái)學(xué)習(xí)的。與微調(diào)對(duì)齊方法使用一組固定參數(shù)適應(yīng)所有用戶意圖組合不同,本方法是特定于提示且感知狀態(tài)的,在每個(gè)去噪步驟動(dòng)態(tài)生成自適應(yīng)調(diào)制參數(shù)以對(duì)齊生成軌跡。

超網(wǎng)絡(luò)作為動(dòng)態(tài) LoRA 預(yù)測(cè)器本工作的目標(biāo)是學(xué)習(xí)一個(gè)超網(wǎng)絡(luò),該網(wǎng)絡(luò)以  和  為輸入,并輸出針對(duì)生成過(guò)程每一步的調(diào)整。一種樸素的方法是學(xué)習(xí)一個(gè)對(duì)齊分?jǐn)?shù)來(lái)替代公式 (6),但這需要類似于原始生成分?jǐn)?shù)的公式,因此復(fù)雜度很高。相反,本工作將超網(wǎng)絡(luò)設(shè)計(jì)為直接調(diào)整對(duì)應(yīng)于原始生成模型中網(wǎng)絡(luò)參數(shù)  的分?jǐn)?shù) ,具體通過(guò)為  生成一個(gè)輕量級(jí)的低秩適配器(Low-Rank Adapter, LoRA)來(lái)實(shí)現(xiàn)。

如下圖 3 所示,超網(wǎng)絡(luò)架構(gòu)主要分為兩個(gè)組件:感知編碼器(Perception Encoder)和Transformer 解碼器(Transformer Decoder)。

輸入處理:具體而言,輸入的時(shí)間潛變量 、時(shí)間步  和提示詞  首先被傳入感知編碼器,該編碼器由生成模型預(yù)訓(xùn)練 U-Net 的下采樣塊組成。預(yù)訓(xùn)練的 U-Net 攜帶豐富的擴(kuò)散先驗(yàn),使其成為捕捉跨不同輸入組合語(yǔ)義表示的天然編碼器。

特征解碼與生成:編碼后的特征隨后通過(guò)一個(gè)線性層投影并傳遞給 Transformer 解碼器。在這里,使用零初始化的 token 生成查詢(Query, Q),并使用編碼特征生成鍵(Key, K)和值(Value, V)。Transformer 解碼器通過(guò)交叉注意力機(jī)制整合時(shí)間信息和語(yǔ)義信息。

LoRA 輸出:隨后的線性層將解碼后的特征映射為 LoRA 權(quán)重:

其中  表示超網(wǎng)絡(luò)  的參數(shù)。在時(shí)間維度上,將生成的 LoRA 權(quán)重整合到原始模型參數(shù)中,產(chǎn)生一個(gè)特定于輸入和步驟的分?jǐn)?shù)函數(shù) (此處濫用符號(hào)  表示整合),從而修改底層的去噪軌跡。

高效的 HyperAlign (Efficient HyperAlign)默認(rèn)情況下,公式 (7) 中的超網(wǎng)絡(luò)設(shè)計(jì)可以從初始步驟  開(kāi)始自適應(yīng)地應(yīng)用于所有生成步驟(稱為 HyperAlign-S)。為了平衡推理效率,本工作進(jìn)一步開(kāi)發(fā)了兩種變體:

HyperAlign-I:訓(xùn)練為僅在起始點(diǎn)預(yù)測(cè)一次 LoRA 權(quán)重,即 ,并將其用于所有步驟。

分段變體 (HyperAlign-P) :該變體在幾個(gè)關(guān)鍵時(shí)間步產(chǎn)生新權(quán)重,同一分段內(nèi)的所有時(shí)間步共享相同的 LoRA 權(quán)重。如下圖 4 所示,本工作計(jì)算一步預(yù)測(cè)潛變量的相對(duì)  距離,較小的值表明相鄰潛變量彼此相似。觀察結(jié)果支持將相似的潛變量狀態(tài)歸為一段并共享相同的 LoRA 權(quán)重,這與不同去噪階段的擴(kuò)散行為一致。本工作計(jì)算曲率率以識(shí)別出對(duì)軌跡有更大影響的  個(gè)關(guān)鍵點(diǎn)。超網(wǎng)絡(luò)被訓(xùn)練為僅在這些關(guān)鍵步驟重新生成 LoRA 權(quán)重,以便以比 HyperAlign-S 更少的計(jì)算量自適應(yīng)地調(diào)制擴(kuò)散過(guò)程,從而在效率和性能之間取得平衡。

HyperAlign 訓(xùn)練

為了優(yōu)化超網(wǎng)絡(luò),可以使用獎(jiǎng)勵(lì)分?jǐn)?shù)作為訓(xùn)練目標(biāo)。通過(guò)最大化獎(jiǎng)勵(lì)信號(hào),鼓勵(lì)模型生成具有更高條件似然的中間預(yù)測(cè),從而將潛變量軌跡與真實(shí)的條件分布對(duì)齊:

獎(jiǎng)勵(lì)優(yōu)化的正則化雖然最大化獎(jiǎng)勵(lì)目標(biāo)驅(qū)動(dòng)模型產(chǎn)生高獎(jiǎng)勵(lì)、條件對(duì)齊的潛變量狀態(tài),但也暴露出兩個(gè)關(guān)鍵挑戰(zhàn):

由于早期去噪階段一步預(yù)測(cè)的模糊性導(dǎo)致獎(jiǎng)勵(lì)信號(hào)不準(zhǔn)確;過(guò)度優(yōu)化的風(fēng)險(xiǎn),即激進(jìn)的獎(jiǎng)勵(lì)最大化導(dǎo)致“獎(jiǎng)勵(lì)破解”(reward hacking)或視覺(jué)保真度下降。

為了緩解這些問(wèn)題,本工作引入了一個(gè)正則化損失來(lái)約束對(duì)齊過(guò)程并保持生成質(zhì)量:

其中  表示超參數(shù), 從偏好數(shù)據(jù)  中采樣,且 。這鼓勵(lì)學(xué)習(xí)到的去噪條件分?jǐn)?shù)與偏好數(shù)據(jù)中的分?jǐn)?shù)相匹配,從而規(guī)范化獎(jiǎng)勵(lì)破解問(wèn)題。

超網(wǎng)絡(luò)優(yōu)化的最終學(xué)習(xí)目標(biāo)如下:

本方法不僅限于擴(kuò)散模型,如前所述,HyperAlign 同樣兼容流匹配模型(Flow-Matching Models,例如實(shí)驗(yàn)中的 FLUX)。

實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)設(shè)置

模型與數(shù)據(jù):使用 SD V1.5 和 FLUX 作為基礎(chǔ)模型。HPSv2 用作獎(jiǎng)勵(lì)模型。正則化損失使用的偏好數(shù)據(jù)來(lái)自 Pick-a-Pic 和 HPD。

數(shù)據(jù)集與指標(biāo):評(píng)估數(shù)據(jù)集包括 Pick-a-Pic、GenEval、HPD 和 Partiprompt。使用 PickScore、ImageReward (IR)、HPSv2、CLIP、GenEval Scorer 和 Aesthetic Predictor 等六種 AI 反饋模型評(píng)估圖像質(zhì)量、提示詞對(duì)齊度和視覺(jué)美感。

與現(xiàn)有方法的比較

本工作將 HyperAlign 與微調(diào)方法(如 DPO, KTO, GRPO)和測(cè)試時(shí)縮放方法(如 BoN, -greedy, FreeDoM, DyMO)進(jìn)行了比較。

定量分析(如下表 1 和表 2 所示)

在 FLUX 和 SD V1.5 基礎(chǔ)模型上,HyperAlign 在多個(gè)指標(biāo)(Pick, IR, CLIP, HPS)上均優(yōu)于現(xiàn)有的微調(diào)和測(cè)試時(shí)縮放基線。

HyperAlign 有效地實(shí)現(xiàn)了對(duì)齊,特別是 HyperAlign-S(每步調(diào)整)表現(xiàn)最佳,而 HyperAlign-I(僅初始步)和 HyperAlign-P(分段步)在保持競(jìng)爭(zhēng)力的同時(shí)提供了更快的推理速度。

相比之下,測(cè)試時(shí)方法往往存在優(yōu)化不足的問(wèn)題,而微調(diào)方法則因缺乏輸入適應(yīng)性導(dǎo)致結(jié)果次優(yōu)。

定性評(píng)估(如下圖 5 和圖 6 所示)

視覺(jué)比較顯示,HyperAlign 生成的圖像布局連貫、語(yǔ)義豐富且視覺(jué)美感優(yōu)越。測(cè)試時(shí)對(duì)齊方法生成的圖像效果不穩(wěn)定,有明顯偽影;微調(diào)方法雖得分高但往往過(guò)度優(yōu)化,產(chǎn)生顏色過(guò)飽和或畸變。

推理效率

HyperAlign 生成單張圖像僅需數(shù)秒(SD V1.5 上約 3-5秒,F(xiàn)LUX 上約 16-20秒),與基礎(chǔ)模型相當(dāng)。相比之下,測(cè)試時(shí)縮放方法(如 -greedy)因梯度計(jì)算或重復(fù)采樣,耗時(shí)巨大(需數(shù)百秒)。HyperAlign 生成和加載自適應(yīng)權(quán)重的額外時(shí)間成本幾乎可以忽略不計(jì)。

用戶研究(如下圖 7 所示)

在針對(duì) FLUX 模型的用戶研究中,100名參與者對(duì)三個(gè)維度(總體偏好、視覺(jué)吸引力、提示詞對(duì)齊)進(jìn)行投票。HyperAlign-S 在所有維度上均獲得了最高的用戶認(rèn)可率,顯著優(yōu)于 DyMO、SRPO 和 MixGRPO 等方法。

消融研究

正則化數(shù)據(jù)的影響:使用 HPD 替代 Pick-a-Pic 作為正則化數(shù)據(jù),或結(jié)合 PickScore 作為獎(jiǎng)勵(lì),HyperAlign 依然表現(xiàn)強(qiáng)勁,證明了方法的魯棒性(如下表 3 所示)。

損失函數(shù)的作用:僅使用偏好數(shù)據(jù)微調(diào)收益微;僅使用獎(jiǎng)勵(lì)優(yōu)化會(huì)導(dǎo)致過(guò)度優(yōu)化(如顏色過(guò)飽和)。結(jié)合獎(jiǎng)勵(lì)損失  和正則化損失  能在提升指標(biāo)的同時(shí)保持視覺(jué)自然度(如下圖 13 所示)。

額外分析

GenEval 基準(zhǔn)測(cè)試:HyperAlign 在對(duì)象合成、屬性綁定等細(xì)粒度指標(biāo)上表現(xiàn)優(yōu)異(如下表 4 和表 5 所示)。

LoRA 權(quán)重動(dòng)態(tài):分析顯示,隨著去噪過(guò)程進(jìn)行,生成的 LoRA 權(quán)重與初始權(quán)重的余弦相似度降低, 變化率增加,表明不同時(shí)間步起到了不同的功能作用(如下圖 8 所示)。

多樣性:PCA 分析表明,HyperAlign 為不同提示詞生成了獨(dú)特的 LoRA 權(quán)重,特別是在生成初期(如下圖 9 所示)。

總結(jié)

HyperAlign,一個(gè)基于超網(wǎng)絡(luò)的高效生成模型測(cè)試時(shí)對(duì)齊框架。HyperAlign通過(guò)在去噪步驟中動(dòng)態(tài)生成低秩調(diào)制權(quán)重,實(shí)現(xiàn)了基于獎(jiǎng)勵(lì)信號(hào)的軌跡級(jí)對(duì)齊。其變體在計(jì)算效率與對(duì)齊精度之間提供了靈活的權(quán)衡機(jī)制。在擴(kuò)散模型和整流流骨干網(wǎng)絡(luò)上的大量實(shí)驗(yàn)表明,與現(xiàn)有微調(diào)及測(cè)試時(shí)對(duì)齊方法相比,HyperAlign在語(yǔ)義一致性和美學(xué)質(zhì)量方面均表現(xiàn)出優(yōu)越性能。未來(lái),將在開(kāi)發(fā)更輕量化超網(wǎng)絡(luò)設(shè)計(jì)的同時(shí),持續(xù)增強(qiáng)動(dòng)態(tài)適應(yīng)能力,從而進(jìn)一步提升系統(tǒng)的效率與可擴(kuò)展性。

參考文獻(xiàn)

[1] HyperAlign: Hypernetwork for Efficient Test-Time Alignment of Diffusion Models

       原文標(biāo)題 : 擴(kuò)散模型對(duì)齊迎來(lái)“最強(qiáng)解”!HyperAlign屠榜評(píng)測(cè):超網(wǎng)絡(luò)動(dòng)態(tài)適配,畫(huà)質(zhì)、語(yǔ)義雙巔峰

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)