123,123

CVPR 2026｜“像素級(jí)對(duì)齊大師” VA-π: 25分鐘微調(diào)FID暴降50%

2026-03-03 17:13

作者：Xinyao Liao*, Qiyuan He*, Kai Xu, Xiaoye Qu, Yicong Li, Wei Wei, Angela Yao

作者單位：華中科技大學(xué)，新加坡國立大學(xué)解讀：AI生成未來

在視覺自回歸（AR）模型狂奔的今天，我們似乎已經(jīng)習(xí)慣了將 Tokenizer 和生成器當(dāng)作完美的黑盒組合。然而，回歸事物的本質(zhì)，我們必須直面一個(gè)“房間里的大象”：為什么 Tokenizer 在重建圖像時(shí)完美無瑕，但交由 AR 模型自發(fā)生成 Token 序列時(shí)，解碼出的圖片卻常常伴隨著結(jié)構(gòu)扭曲與不自然的偽影？

VA-π (Variational Policy Alignment) 深入剖析了這一現(xiàn)象背后的結(jié)構(gòu)邏輯，提出了一種極其輕量且優(yōu)雅的后訓(xùn)練（Post-training）框架。這項(xiàng)研究摒棄了單純追求工程跑分的暴力路線，而是用極具數(shù)學(xué)美感的變分推斷（VI）與強(qiáng)化學(xué)習(xí)（RL），從根本上彌合了生成與重建的鴻溝。

亮點(diǎn)直擊：極簡(jiǎn)算力破解“隱性錯(cuò)位”

當(dāng)前的視覺 AR 模型存在一個(gè)致命的底層割裂：Tokenizer 學(xué)習(xí)的是完美還原真實(shí)像素，而 AR 生成器僅僅在離散空間里優(yōu)化 Token 的似然概率。這種缺乏“真實(shí)物理像素感知”的機(jī)制，導(dǎo)致 AR 模型在推理時(shí)生成的 Token 極易偏離真實(shí)分布流形（Off-manifold）。

為了徹底打通像素與 Token 之間的壁壘，VA-π 給出了一套驚艷的解法：

極致的訓(xùn)練效率： 徹底告別昂貴且不穩(wěn)定的 RLHF 算力集群！在 8 張 A100 顯卡上，僅需 1% 的 ImageNet 數(shù)據(jù)，微調(diào)約 25 分鐘即可完成蛻變。

跨越式的質(zhì)量飛躍： 在 LlamaGen-XXL 上，VA-π 讓 FID 指標(biāo)實(shí)現(xiàn)了近乎減半的跨越式下降（從 14.36 暴降至 7.65），Inception Score (IS) 從 86.55 飆升至 116.70。

優(yōu)雅的數(shù)學(xué)解構(gòu)： 創(chuàng)新性地在變分框架下引入策略梯度，徹底解決了像素級(jí)反饋優(yōu)化中遇到的“不可導(dǎo)”與“計(jì)算爆炸”雙重難題，并巧妙化解了自回歸生成的“曝光偏差”。

方法論深潛：用變分推斷重塑生成邏輯

想要用真實(shí)像素的誤差來指導(dǎo)離散 Token 的生成，實(shí)操中立刻會(huì)撞上“不可導(dǎo)”和“計(jì)算空間爆炸”兩座大山。VA-π 是如何通過嚴(yán)謹(jǐn)?shù)耐茖?dǎo)將其一一化解的？

在 VA-π (Variational Policy Alignment) 框架中，研究團(tuán)隊(duì)沒有在表層打補(bǔ)丁，而是回到了嚴(yán)密的數(shù)學(xué)理論中。正如框架圖所示，VA-π 是一個(gè)輕量級(jí)的后訓(xùn)練（Post-training）框架，它通過優(yōu)化 AR 生成器來實(shí)現(xiàn)像素空間的分布對(duì)齊。

以下是 VA-π 打破黑盒、實(shí)現(xiàn)直接像素級(jí)對(duì)齊的四大核心推導(dǎo)步驟：

1. 化解“計(jì)算爆炸”：基于變分推斷的對(duì)齊證據(jù)下界 (ELBO)

在自回歸視覺生成中，我們最終的目標(biāo)是最大化真實(shí)圖像在像素空間的似φ。但在離散的 Token 空間中直接計(jì)算這個(gè)積分是極其困難的（Intractable）。

借鑒 VAE 的思想，VA-π 引入了一個(gè)由 AR 模型學(xué)習(xí)的變分后驗(yàn)分布來近似真實(shí)的后驗(yàn)。極其巧妙的是，VA-π 利用 Teacher Forcing 機(jī)制來構(gòu)建這個(gè)后驗(yàn)分布——即在給定真實(shí)前綴的情況下來預(yù)測(cè)下一個(gè) Token。這使得后驗(yàn)分布能夠高度集中在那些能被忠實(shí)還原為原圖的 Token 序列上，徹底避免了 Free-running 采樣時(shí)誤差累積導(dǎo)致的流形偏離（Off-manifold）。

基于此，研究團(tuán)隊(duì)推導(dǎo)出了一個(gè)優(yōu)雅的證據(jù)下界 (ELBO) 優(yōu)化目標(biāo)：

這個(gè)公式為我們提供了兩個(gè)極具物理意義的訓(xùn)練信號(hào)：

重建項(xiàng)（Reconstruction Term）： 提供像素級(jí)的監(jiān)督，強(qiáng)迫 AR 模型在 Teacher Forcing 下生成的序列能夠還原出原圖。

先驗(yàn)正則化項(xiàng)（Prior Regularization Term）： 約束生成的 Token 分布，維持預(yù)訓(xùn)練 AR 模型的原生語言建模能力。

2. 消除曝光偏差：將正則化簡(jiǎn)化為帶噪的 Next-Token 預(yù)測(cè)

在上述 ELBO 公式中，KL 正則化項(xiàng)衡量的是 Teacher-forced 分布與模型自身 Free-running 分布之間的差異。最小化這個(gè) KL 散度，本質(zhì)上就是在直接最小化自回歸生成中臭名昭著的曝光偏差（Exposure Bias）。

為了高效實(shí)現(xiàn)這一目標(biāo)，VA-π 引入了上下文噪聲（Contextual Noise）。通過對(duì)真實(shí)前綴注入擾動(dòng)率的核噪聲，得到帶噪前綴。最終，這個(gè)復(fù)雜的正則化項(xiàng)被極其優(yōu)雅地簡(jiǎn)化為一個(gè)帶噪的 Next-Token 預(yù)測(cè)損失：

這種強(qiáng)行“加難度”的做法，迫使模型學(xué)會(huì)在帶有干擾的上下文中依然生成高質(zhì)量的 Token，大幅提升了推理魯棒性。

3. 突破“不可導(dǎo)”：引入強(qiáng)化學(xué)習(xí)與重建獎(jiǎng)勵(lì) (Reconstruction Reward)

雖然 ELBO 給出了優(yōu)化方向，但重建項(xiàng)包含量化器（Quantizer）和離散的 Teacher-forcing 采樣，導(dǎo)致梯度被完全阻斷（不可導(dǎo)）。僅僅依賴直通估計(jì)器（STE）依然無法解決分類分布采樣帶來的偏差。

為了破局，VA-π 巧妙轉(zhuǎn)換視角，將 AR 生成器視為一個(gè)策略（Policy），采用強(qiáng)化學(xué)習(xí)來最大化重建獎(jiǎng)勵(lì)（即負(fù)的重建損失）。給定參考圖像、真實(shí) Token 以及解碼器還原的圖像，內(nèi)在獎(jiǎng)勵(lì)被定義為:

為了避免讓 AR 模型進(jìn)行昂貴的多次前向推理，這里同樣使用了帶噪的 Token 序列。最大化這個(gè)獎(jiǎng)勵(lì)，就能直接引導(dǎo) AR 模型生成在像素空間完美對(duì)齊的序列。

4. 終極融合：VA-π 策略優(yōu)化 (Policy Optimization with GRPO)

至此，VA-π 擁有了基于 RL 的重建獎(jiǎng)勵(lì)（Eq. 10）和 Next-Token 正則化（Eq. 9）。這與強(qiáng)化學(xué)習(xí)中“策略優(yōu)化 + KL 懲罰”的范式完美契合！

VA-π 采用了先進(jìn)的 GRPO 算法將這兩者整合進(jìn)一個(gè)統(tǒng)一且極其穩(wěn)定的訓(xùn)練流程中。最終的 VA-π 優(yōu)化目標(biāo)π如下：

實(shí)驗(yàn)展示：全方位、多尺度的極限施壓

嚴(yán)謹(jǐn)?shù)睦碚撝螏砹藰O其扎實(shí)的實(shí)驗(yàn)數(shù)據(jù)。為了驗(yàn)證 VA-π 的普適性，研究團(tuán)隊(duì)在具有挑戰(zhàn)性的兩項(xiàng)視覺生成任務(wù)上進(jìn)行了全面評(píng)測(cè)：類別條件圖像生成 (Class-to-Image, C2I) 和 *文本條件圖像生成 (Text-to-Image, T2I)。

實(shí)驗(yàn)配置極其克制：

基座模型： 涵蓋純視覺自回歸標(biāo)桿 LlamaGen（包括 775M 的 XL 版和 1.4B 的 XXL 版），以及當(dāng)前大熱的統(tǒng)一多模態(tài)大模型 Janus-Pro 1B。

極簡(jiǎn)算力： 在 C2I 任務(wù)中，僅使用 ImageNet-1k 中 12.8K 的極小樣本量，微調(diào) 100 步（約 20~25 分鐘）。全程不依賴無分類器引導(dǎo)（CFG）即可實(shí)現(xiàn)穩(wěn)定探索。

1. C2I 核心戰(zhàn)績(jī)：25 分鐘微調(diào)，F(xiàn)ID 直降 50%

在權(quán)威的 ImageNet-1k 驗(yàn)證集（5 萬張圖像）上，VA-π 迎戰(zhàn)了包括 AR-GRPO（依賴外部獎(jiǎng)勵(lì)模型的 RL 方法）和傳統(tǒng) STE 方法在內(nèi)的一眾強(qiáng)敵。結(jié)果呈現(xiàn)出碾壓態(tài)勢(shì)。

LlamaGen-XXL (1.4B) 的質(zhì)變： 僅僅經(jīng)過 25 分鐘的后訓(xùn)練，VA-π 就讓 XXL 模型的 FID 削減了近 50%（14.35 7.65），同時(shí) Inception Score (IS) 大幅提升 30.16。這徹底粉碎了以往方法“保真度與多樣性不可兼得”的魔咒。

無情碾壓復(fù)雜 RL 路線： 在 LlamaGen-XL (775M) 上，VA-π （配合 CFG=2.0）拿下了 299.63 的最高 IS 得分，直接超越了復(fù)雜的 AR-GRPO 方法。最關(guān)鍵的是，VA-π 既不需要訓(xùn)練任何外部獎(jiǎng)勵(lì)模型，訓(xùn)練速度還快了整整 7.5 倍（僅需 20 分鐘）！

2. T2I 核心戰(zhàn)績(jī)：無需外部獎(jiǎng)勵(lì)，統(tǒng)一多模態(tài)大模型

VA-π 的恐怖之處在于其極強(qiáng)的泛化能力。盡管在訓(xùn)練中完全沒有使用任何文本對(duì)齊（Text-alignment）或人類偏好獎(jiǎng)勵(lì)，它依然在 GenEval 基準(zhǔn)測(cè)試中大放異彩。

全面超越 AR-GRPO： 在 LlamaGen-XL 上，VA-π 在 GenEval 的多數(shù)子任務(wù)上擊敗了 AR-GRPO，特別是在“顏色理解”、“計(jì)數(shù)”和“雙目標(biāo)組合”等復(fù)雜語義上進(jìn)步明顯。更有趣的是（如 Table 1 所示），在評(píng)估圖文一致性的 CLIP 和 HPS v2 指標(biāo)上，未經(jīng)顯式文本偏好微調(diào)的 VA-π，竟然打敗了專門針對(duì)此優(yōu)化的 AR-GRPO！這充分證明了“底層像素級(jí)對(duì)齊”帶來的巨大泛化紅利。

賦能統(tǒng)一多模態(tài)大模型： 當(dāng)我們將 VA-π 插入 Janus-Pro 1B 后，模型的視覺組合能力和語義接地能力進(jìn)一步躍升（GenEval 綜合得分 0.725 0.744）。特別是在“屬性綁定”和“雙目標(biāo)關(guān)系”上提升顯著。這表明 VA-π 為大型多模態(tài)系統(tǒng)在文本條件生成中彌合“Token級(jí)與感知級(jí)差異”，提供了一個(gè)極具擴(kuò)展性的通用機(jī)制。

3. 拒絕“黑盒煉丹”：嚴(yán)密的消融實(shí)驗(yàn)證明

為了探究 VA-π 為何如此高效，研究團(tuán)隊(duì)對(duì)獎(jiǎng)勵(lì)構(gòu)成、正則化項(xiàng)以及上下文噪聲進(jìn)行了極其硬核的拆解。

獎(jiǎng)勵(lì)與正則化缺一不可 (Table 4)： 如果只用像素級(jí)重建獎(jiǎng)勵(lì)（LMSE / Lp），模型會(huì)迅速偏離預(yù)訓(xùn)練的 AR 分布，導(dǎo)致徹底崩壞（FID 飆升至 38.76）。只有當(dāng)引入先驗(yàn)正則化項(xiàng)（Prior Regularization）作為輔助護(hù)欄時(shí)，才能完美穩(wěn)住 Token 級(jí)似然，達(dá)成最佳的對(duì)齊平衡（FID 7.65）。

輕量級(jí) CE 正則化更優(yōu) (Fig 4)： 在對(duì)比 KL 散度與交叉熵（CE）正則化時(shí)發(fā)現(xiàn)，CE 展現(xiàn)出了更優(yōu)的穩(wěn)定性。更重要的是，在寬泛的權(quán)重區(qū)間（如）內(nèi)，模型均能取得最佳的保真度與多樣性平衡，徹底告別“煉丹式”調(diào)參。

上下文噪聲的黃金比例 (Table 5)： 針對(duì)“曝光偏差（Exposure Bias）”，實(shí)驗(yàn)探究了注入噪聲比例的影響。結(jié)果表明，適度的噪聲擾動(dòng)是打破訓(xùn)練與推理分布錯(cuò)位的最優(yōu)解，能在 GenEval 測(cè)試中獲得最高的綜合評(píng)分（0.339）。不加噪聲或噪聲過載，都會(huì)直接削弱模型的最終戰(zhàn)斗力。

4. 結(jié)果可視化

類別條件圖像生成 (ImageNet-1K) ：我們提供了在 ImageNet-1K 類別上進(jìn)行類別條件圖像生成 (C2I) 的定性對(duì)比結(jié)果。所有樣本均采用相同的解碼設(shè)置（CFG = 1.0，temperature = 1.0，top-k = 0，top-p = 1.0）。 ImageNet C2I: kite.