訂閱
糾錯(cuò)
加入自媒體

CVPR 2026|“像素級(jí)對(duì)齊大師” VA-π: 25分鐘微調(diào)FID暴降50%

作者:Xinyao Liao*, Qiyuan He*, Kai Xu, Xiaoye Qu, Yicong Li, Wei Wei, Angela Yao

作者單位:華中科技大學(xué),新加坡國立大學(xué)解讀:AI生成未來

在視覺自回歸(AR)模型狂奔的今天,我們似乎已經(jīng)習(xí)慣了將 Tokenizer 和生成器當(dāng)作完美的黑盒組合。然而,回歸事物的本質(zhì),我們必須直面一個(gè)“房間里的大象”:為什么 Tokenizer 在重建圖像時(shí)完美無瑕,但交由 AR 模型自發(fā)生成 Token 序列時(shí),解碼出的圖片卻常常伴隨著結(jié)構(gòu)扭曲與不自然的偽影?

VA-π (Variational Policy Alignment) 深入剖析了這一現(xiàn)象背后的結(jié)構(gòu)邏輯,提出了一種極其輕量且優(yōu)雅的后訓(xùn)練(Post-training)框架。這項(xiàng)研究摒棄了單純追求工程跑分的暴力路線,而是用極具數(shù)學(xué)美感的變分推斷(VI)與強(qiáng)化學(xué)習(xí)(RL),從根本上彌合了生成與重建的鴻溝。

亮點(diǎn)直擊:極簡(jiǎn)算力破解“隱性錯(cuò)位”

當(dāng)前的視覺 AR 模型存在一個(gè)致命的底層割裂:Tokenizer 學(xué)習(xí)的是完美還原真實(shí)像素,而 AR 生成器僅僅在離散空間里優(yōu)化 Token 的似然概率。這種缺乏“真實(shí)物理像素感知”的機(jī)制,導(dǎo)致 AR 模型在推理時(shí)生成的 Token 極易偏離真實(shí)分布流形(Off-manifold)。

為了徹底打通像素與 Token 之間的壁壘,VA-π 給出了一套驚艷的解法:

極致的訓(xùn)練效率: 徹底告別昂貴且不穩(wěn)定的 RLHF 算力集群!在 8 張 A100 顯卡上,僅需 1% 的 ImageNet 數(shù)據(jù),微調(diào)約 25 分鐘即可完成蛻變。

跨越式的質(zhì)量飛躍: 在 LlamaGen-XXL 上,VA-π 讓 FID 指標(biāo)實(shí)現(xiàn)了近乎減半的跨越式下降(從 14.36 暴降至 7.65),Inception Score (IS) 從 86.55 飆升至 116.70。

優(yōu)雅的數(shù)學(xué)解構(gòu): 創(chuàng)新性地在變分框架下引入策略梯度,徹底解決了像素級(jí)反饋優(yōu)化中遇到的“不可導(dǎo)”與“計(jì)算爆炸”雙重難題,并巧妙化解了自回歸生成的“曝光偏差”。

方法論深潛:用變分推斷重塑生成邏輯

想要用真實(shí)像素的誤差來指導(dǎo)離散 Token 的生成,實(shí)操中立刻會(huì)撞上“不可導(dǎo)”和“計(jì)算空間爆炸”兩座大山。VA-π 是如何通過嚴(yán)謹(jǐn)?shù)耐茖?dǎo)將其一一化解的?

在 VA-π (Variational Policy Alignment) 框架中,研究團(tuán)隊(duì)沒有在表層打補(bǔ)丁,而是回到了嚴(yán)密的數(shù)學(xué)理論中。正如框架圖所示,VA-π 是一個(gè)輕量級(jí)的后訓(xùn)練(Post-training)框架,它通過優(yōu)化 AR 生成器來實(shí)現(xiàn)像素空間的分布對(duì)齊。

以下是 VA-π 打破黑盒、實(shí)現(xiàn)直接像素級(jí)對(duì)齊的四大核心推導(dǎo)步驟:

1. 化解“計(jì)算爆炸”:基于變分推斷的對(duì)齊證據(jù)下界 (ELBO)

在自回歸視覺生成中,我們最終的目標(biāo)是最大化真實(shí)圖像  在像素空間的似φ。但在離散的 Token 空間中直接計(jì)算這個(gè)積分是極其困難的(Intractable)。

借鑒 VAE 的思想,VA-π 引入了一個(gè)由 AR 模型學(xué)習(xí)的變分后驗(yàn)分布 來近似真實(shí)的后驗(yàn)。極其巧妙的是,VA-π 利用 Teacher Forcing 機(jī)制來構(gòu)建這個(gè)后驗(yàn)分布——即在給定真實(shí)前綴的情況下來預(yù)測(cè)下一個(gè) Token。這使得后驗(yàn)分布能夠高度集中在那些能被忠實(shí)還原為原圖的 Token 序列上,徹底避免了 Free-running 采樣時(shí)誤差累積導(dǎo)致的流形偏離(Off-manifold)。

基于此,研究團(tuán)隊(duì)推導(dǎo)出了一個(gè)優(yōu)雅的證據(jù)下界 (ELBO) 優(yōu)化目標(biāo):

這個(gè)公式為我們提供了兩個(gè)極具物理意義的訓(xùn)練信號(hào):

重建項(xiàng)(Reconstruction Term): 提供像素級(jí)的監(jiān)督,強(qiáng)迫 AR 模型在 Teacher Forcing 下生成的序列能夠還原出原圖。

先驗(yàn)正則化項(xiàng)(Prior Regularization Term): 約束生成的 Token 分布,維持預(yù)訓(xùn)練 AR 模型的原生語言建模能力。

2. 消除曝光偏差:將正則化簡(jiǎn)化為帶噪的 Next-Token 預(yù)測(cè)

在上述 ELBO 公式中,KL 正則化項(xiàng)衡量的是 Teacher-forced 分布與模型自身 Free-running 分布之間的差異。最小化這個(gè) KL 散度,本質(zhì)上就是在直接最小化自回歸生成中臭名昭著的曝光偏差(Exposure Bias)。

為了高效實(shí)現(xiàn)這一目標(biāo),VA-π 引入了上下文噪聲(Contextual Noise)。通過對(duì)真實(shí)前綴注入擾動(dòng)率  的核噪聲,得到帶噪前綴。最終,這個(gè)復(fù)雜的正則化項(xiàng)被極其優(yōu)雅地簡(jiǎn)化為一個(gè)帶噪的 Next-Token 預(yù)測(cè)損失:

這種強(qiáng)行“加難度”的做法,迫使模型學(xué)會(huì)在帶有干擾的上下文中依然生成高質(zhì)量的 Token,大幅提升了推理魯棒性。

3. 突破“不可導(dǎo)”:引入強(qiáng)化學(xué)習(xí)與重建獎(jiǎng)勵(lì) (Reconstruction Reward)

雖然 ELBO 給出了優(yōu)化方向,但重建項(xiàng)包含量化器(Quantizer)和離散的 Teacher-forcing 采樣,導(dǎo)致梯度被完全阻斷(不可導(dǎo))。僅僅依賴直通估計(jì)器(STE)依然無法解決分類分布采樣帶來的偏差。

為了破局,VA-π 巧妙轉(zhuǎn)換視角,將 AR 生成器視為一個(gè)策略(Policy),采用強(qiáng)化學(xué)習(xí)來最大化重建獎(jiǎng)勵(lì)(即負(fù)的重建損失)。給定參考圖像 、真實(shí) Token  以及解碼器還原的圖像 ,內(nèi)在獎(jiǎng)勵(lì)被定義為:

為了避免讓 AR 模型進(jìn)行昂貴的多次前向推理,這里同樣使用了帶噪的 Token 序列 。最大化這個(gè)獎(jiǎng)勵(lì),就能直接引導(dǎo) AR 模型生成在像素空間完美對(duì)齊的序列。

4. 終極融合:VA-π 策略優(yōu)化 (Policy Optimization with GRPO)

至此,VA-π 擁有了基于 RL 的重建獎(jiǎng)勵(lì)(Eq. 10)和 Next-Token 正則化(Eq. 9)。這與強(qiáng)化學(xué)習(xí)中“策略優(yōu)化 + KL 懲罰”的范式完美契合!

VA-π 采用了先進(jìn)的 GRPO 算法 將這兩者整合進(jìn)一個(gè)統(tǒng)一且極其穩(wěn)定的訓(xùn)練流程中。最終的 VA-π 優(yōu)化目標(biāo)π如下:

實(shí)驗(yàn)展示:全方位、多尺度的極限施壓

嚴(yán)謹(jǐn)?shù)睦碚撝螏砹藰O其扎實(shí)的實(shí)驗(yàn)數(shù)據(jù)。為了驗(yàn)證 VA-π 的普適性,研究團(tuán)隊(duì)在具有挑戰(zhàn)性的兩項(xiàng)視覺生成任務(wù)上進(jìn)行了全面評(píng)測(cè):類別條件圖像生成 (Class-to-Image, C2I) 和 *文本條件圖像生成 (Text-to-Image, T2I)。

實(shí)驗(yàn)配置極其克制:

基座模型: 涵蓋純視覺自回歸標(biāo)桿 LlamaGen(包括 775M 的 XL 版和 1.4B 的 XXL 版),以及當(dāng)前大熱的統(tǒng)一多模態(tài)大模型 Janus-Pro 1B。

極簡(jiǎn)算力: 在 C2I 任務(wù)中,僅使用 ImageNet-1k 中 12.8K 的極小樣本量,微調(diào) 100 步(約 20~25 分鐘)。全程不依賴無分類器引導(dǎo)(CFG)即可實(shí)現(xiàn)穩(wěn)定探索。

1. C2I 核心戰(zhàn)績(jī):25 分鐘微調(diào),F(xiàn)ID 直降 50%

在權(quán)威的 ImageNet-1k 驗(yàn)證集(5 萬張圖像)上,VA-π 迎戰(zhàn)了包括 AR-GRPO(依賴外部獎(jiǎng)勵(lì)模型的 RL 方法)和傳統(tǒng) STE 方法在內(nèi)的一眾強(qiáng)敵。結(jié)果呈現(xiàn)出碾壓態(tài)勢(shì)。

LlamaGen-XXL (1.4B) 的質(zhì)變: 僅僅經(jīng)過 25 分鐘的后訓(xùn)練,VA-π 就讓 XXL 模型的 FID 削減了近 50%(14.35  7.65),同時(shí) Inception Score (IS) 大幅提升 30.16。這徹底粉碎了以往方法“保真度與多樣性不可兼得”的魔咒。

無情碾壓復(fù)雜 RL 路線: 在 LlamaGen-XL (775M) 上,VA-π (配合 CFG=2.0)拿下了 299.63 的最高 IS 得分,直接超越了復(fù)雜的 AR-GRPO 方法。最關(guān)鍵的是,VA-π 既不需要訓(xùn)練任何外部獎(jiǎng)勵(lì)模型,訓(xùn)練速度還快了整整 7.5 倍(僅需 20 分鐘)!

2. T2I 核心戰(zhàn)績(jī):無需外部獎(jiǎng)勵(lì),統(tǒng)一多模態(tài)大模型

VA-π 的恐怖之處在于其極強(qiáng)的泛化能力。盡管在訓(xùn)練中完全沒有使用任何文本對(duì)齊(Text-alignment)或人類偏好獎(jiǎng)勵(lì),它依然在 GenEval 基準(zhǔn)測(cè)試中大放異彩。

全面超越 AR-GRPO: 在 LlamaGen-XL 上,VA-π 在 GenEval 的多數(shù)子任務(wù)上擊敗了 AR-GRPO,特別是在“顏色理解”、“計(jì)數(shù)”和“雙目標(biāo)組合”等復(fù)雜語義上進(jìn)步明顯。更有趣的是(如 Table 1 所示),在評(píng)估圖文一致性的 CLIP 和 HPS v2 指標(biāo)上,未經(jīng)顯式文本偏好微調(diào)的 VA-π,竟然打敗了專門針對(duì)此優(yōu)化的 AR-GRPO!這充分證明了“底層像素級(jí)對(duì)齊”帶來的巨大泛化紅利。

賦能統(tǒng)一多模態(tài)大模型: 當(dāng)我們將 VA-π 插入 Janus-Pro 1B 后,模型的視覺組合能力和語義接地能力進(jìn)一步躍升(GenEval 綜合得分 0.725 0.744)。特別是在“屬性綁定”和“雙目標(biāo)關(guān)系”上提升顯著。這表明 VA-π 為大型多模態(tài)系統(tǒng)在文本條件生成中彌合“Token級(jí)與感知級(jí)差異”,提供了一個(gè)極具擴(kuò)展性的通用機(jī)制。

3. 拒絕“黑盒煉丹”:嚴(yán)密的消融實(shí)驗(yàn)證明

為了探究 VA-π 為何如此高效,研究團(tuán)隊(duì)對(duì)獎(jiǎng)勵(lì)構(gòu)成、正則化項(xiàng)以及上下文噪聲進(jìn)行了極其硬核的拆解。

獎(jiǎng)勵(lì)與正則化缺一不可 (Table 4): 如果只用像素級(jí)重建獎(jiǎng)勵(lì)(LMSE / Lp),模型會(huì)迅速偏離預(yù)訓(xùn)練的 AR 分布,導(dǎo)致徹底崩壞(FID 飆升至 38.76)。只有當(dāng)引入先驗(yàn)正則化項(xiàng)(Prior Regularization)作為輔助護(hù)欄時(shí),才能完美穩(wěn)住 Token 級(jí)似然,達(dá)成最佳的對(duì)齊平衡(FID 7.65)。

輕量級(jí) CE 正則化更優(yōu) (Fig 4): 在對(duì)比 KL 散度與交叉熵(CE)正則化時(shí)發(fā)現(xiàn),CE 展現(xiàn)出了更優(yōu)的穩(wěn)定性。更重要的是,在寬泛的權(quán)重區(qū)間(如 )內(nèi),模型均能取得最佳的保真度與多樣性平衡,徹底告別“煉丹式”調(diào)參。

上下文噪聲的黃金比例 (Table 5): 針對(duì)“曝光偏差(Exposure Bias)”,實(shí)驗(yàn)探究了注入噪聲比例  的影響。結(jié)果表明,適度的噪聲擾動(dòng)是打破訓(xùn)練與推理分布錯(cuò)位的最優(yōu)解,能在 GenEval 測(cè)試中獲得最高的綜合評(píng)分(0.339)。不加噪聲或噪聲過載,都會(huì)直接削弱模型的最終戰(zhàn)斗力。

4. 結(jié)果可視化

類別條件圖像生成 (ImageNet-1K) :我們提供了在 ImageNet-1K 類別上進(jìn)行類別條件圖像生成 (C2I) 的定性對(duì)比結(jié)果。所有樣本均采用相同的解碼設(shè)置(CFG = 1.0,temperature = 1.0,top-k = 0,top-p = 1.0)。ImageNet C2I: kite.

ImageNet C2I: kite.

文本條件圖像生成 (GenEval) :我們展示了基于 GenEval 提示詞的 T2I(文生圖)定性對(duì)比結(jié)果。所有樣本均采用相同的解碼設(shè)置(CFG = 5.0,temperature = 1.0,top-k = 0,top-p = 1.0)。

GenEval: attribute binding.GenEval: attribute binding.

小結(jié):為什么 VA-π 能夠?qū)崿F(xiàn)像素級(jí)對(duì)齊?

像素級(jí)的內(nèi)在獎(jiǎng)勵(lì)把原本割裂的“Token 概率優(yōu)化”與“真實(shí)物理視覺”徹底打通,讓 AR 策略直接為最終的重建質(zhì)量負(fù)責(zé),從根本上消除了 Tokenizer 與生成器的隱性錯(cuò)位。

基于變分推斷(ELBO)的 Teacher-forcing把龐雜的在線多步試錯(cuò)降維成了極其高效的單次前向計(jì)算,完美避開了長序列探索的計(jì)算爆炸,用極簡(jiǎn)算力實(shí)現(xiàn)了像素級(jí)引導(dǎo)。

ELBO 的天然正則化項(xiàng)把“維持原生分布”變成了堅(jiān)固的約束護(hù)欄,確保模型在追求極致像素反饋時(shí),依然保持嚴(yán)密的自回歸一致性,杜絕了生成流形的偏離。

參考文獻(xiàn)

[1] VA-π: Variational Policy Alignment for Pixel-Aware Autoregressive Generation

       原文標(biāo)題 : CVPR 2026|“像素級(jí)對(duì)齊大師” VA-π: 25分鐘微調(diào)FID暴降50%

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)