訂閱
糾錯(cuò)
加入自媒體

一統(tǒng)視覺江湖!OpenVision 3發(fā)布:一個(gè)編碼器實(shí)現(xiàn)理解與生成完美統(tǒng)一,性能雙殺CLIP

作者:Letian Zhang等

解讀:AI生成未來

亮點(diǎn)直擊

統(tǒng)一架構(gòu)OpenVision 3是一種先進(jìn)的視覺編碼器,能夠?qū)W習(xí)單一、統(tǒng)一的視覺表示,同時(shí)服務(wù)于圖像理解和圖像生成任務(wù)。

簡(jiǎn)潔設(shè)計(jì):核心架構(gòu)非常簡(jiǎn)潔,將 VAE 壓縮后的圖像隱空間變量輸入到 ViT 編碼器中,并訓(xùn)練其輸出以支持兩個(gè)互補(bǔ)的角色(重建與語義理解)。

協(xié)同優(yōu)化:通過在共享隱空間中聯(lián)合優(yōu)化重建驅(qū)動(dòng)和語義驅(qū)動(dòng)的信號(hào),編碼器學(xué)習(xí)到的表示在兩種機(jī)制下都能很好地協(xié)同和泛化。

圖1。OpenVision 3架構(gòu)設(shè)計(jì)和性能亮點(diǎn)概述。左側(cè)面板:OpenVision 3的架構(gòu)。我們采用凍結(jié)的VAE和可訓(xùn)練的ViT作為統(tǒng)一分詞器,生成同時(shí)輸入生成和理解分支的令牌。中間面板:生成分支和理解分支的學(xué)習(xí)目標(biāo)。在世代分支中,我們專注于高質(zhì)量的像素級(jí)圖像重建;同時(shí),理解分支通過聯(lián)合對(duì)比學(xué)習(xí)和字幕目標(biāo)進(jìn)行優(yōu)化。右側(cè)面板:性能總結(jié)顯示,OpenVision 3在rFID和gFID方面優(yōu)于其他統(tǒng)一分詞器和基于語義的編碼器,同時(shí)在多模態(tài)理解能力上與CLIP保持競(jìng)爭(zhēng)力。圖1。OpenVision 3架構(gòu)設(shè)計(jì)和性能亮點(diǎn)概述。左側(cè)面板:OpenVision 3的架構(gòu)。采用凍結(jié)的VAE和可訓(xùn)練的ViT作為統(tǒng)一分詞器,生成同時(shí)輸入生成和理解分支的令牌。中間面板:生成分支和理解分支的學(xué)習(xí)目標(biāo)。在世代分支中,我們專注于高質(zhì)量的像素級(jí)圖像重建;同時(shí),理解分支通過聯(lián)合對(duì)比學(xué)習(xí)和字幕目標(biāo)進(jìn)行優(yōu)化。右側(cè)面板:性能總結(jié)顯示,OpenVision 3在rFID和gFID方面優(yōu)于其他統(tǒng)一分詞器和基于語義的編碼器,同時(shí)在多模態(tài)理解能力上與CLIP保持競(jìng)爭(zhēng)力。

解決的問題

統(tǒng)一建模的瓶頸:以往的研究通常需要分別為生成任務(wù)(捕捉低級(jí)像素特征)和理解任務(wù)(捕捉高級(jí)語義特征)適配單獨(dú)的編碼器。現(xiàn)有的統(tǒng)一嘗試通常依賴復(fù)雜的離散 token 設(shè)計(jì)(如矢量量化 VQ)或預(yù)訓(xùn)練檢查點(diǎn),且構(gòu)建統(tǒng)一特征空間和高效訓(xùn)練流程仍然不夠透明。

提出的方案

VAE-ViT 混合架構(gòu):使用凍結(jié)的 FLUX.1 VAE 將圖像壓縮為隱空間變量,然后通過從頭訓(xùn)練的 ViT 提取統(tǒng)一特征。

雙分支解碼

重建分支:專注于高質(zhì)量的像素級(jí)圖像重建,通過添加噪聲來增強(qiáng)生成的泛化能力。

理解分支:通過聯(lián)合對(duì)比學(xué)習(xí)和圖像字幕(Image Captioning)目標(biāo)進(jìn)行優(yōu)化,增強(qiáng)語義特征。

應(yīng)用的技術(shù)

FLUX.1 VAE:用于初始圖像壓縮,將輸入降采樣 。

Vision Transformer (ViT):處理 VAE 隱空間變量,patch 大小設(shè)為 ,總壓縮率為 。

噪聲注入 (Noise Injection):在重建分支的統(tǒng)一表示中加入高斯噪聲,以提升生成能力的魯棒性。

多目標(biāo)損失函數(shù):結(jié)合了  重建損失、LPIPS 感知損失、對(duì)比損失(Contrastive Loss)和字幕損失(Captioning Loss)。

達(dá)到的效果

生成性能:在 ImageNet 上,OpenVision 3 的 gFID 達(dá)到 1.89,大幅優(yōu)于標(biāo)準(zhǔn)的 CLIP 基編碼器(2.54),并在 rFID 和 gFID 上優(yōu)于其他統(tǒng)一分詞器。

理解性能:在多模態(tài)理解方面,將其插入 LLaVA-1.5 框架后,性能與標(biāo)準(zhǔn) CLIP 視覺編碼器相當(dāng)(例如在 SeedBench 上 62.4 vs. 62.2,在 POPE 上 83.7 vs. 82.9)。

方法

動(dòng)機(jī)

開發(fā)統(tǒng)一的分詞器(Tokenizer)是實(shí)現(xiàn)生成與理解統(tǒng)一的關(guān)鍵步驟,但這往往受阻于建立統(tǒng)一特征空間的困難以及低效的訓(xùn)練過程。以往的研究提出了許多令人印象深刻的方法來消除這些障礙。然而,關(guān)于構(gòu)建統(tǒng)一表示的探索仍處于初步階段,且相關(guān)的訓(xùn)練流程對(duì)社區(qū)而言依然不夠透明。提出了 OpenVision 3 模型,該模型通過 VAE 和 ViT 以一種有效且直接的方式構(gòu)建了統(tǒng)一的視覺表示空間。展示了如何在 VAE 隱空間內(nèi)從頭開始高效地訓(xùn)練一個(gè)統(tǒng)一的分詞器。

OpenVision 3:一種統(tǒng)一分詞器

OpenVision 3 使用 VAE 編碼器和 Vision Transformer (ViT) 來提取統(tǒng)一的視覺特征。輸入圖像  首先由來自 FLUX.1-dev 的 VAE 編碼器  編碼為 VAE 隱空間變量 ,隨后的訓(xùn)練過程完全在 VAE 隱空間下進(jìn)行。接著,VAE 隱空間變量被輸入到 ViT 編碼器  中,以提取用于理解任務(wù)和生成任務(wù)的統(tǒng)一表示 。

在 VAE 階段,F(xiàn)LUX.1 VAE 將圖像的高度和寬度分別下采樣 。因此,本文將 ViT 的 patch 大小調(diào)整為 ,使得整體壓縮率為 ,這與常見設(shè)置保持一致。形式化表示如下:

其中  是 VAE 隱空間變量通道數(shù), 是 ViT 的維度。編碼后的統(tǒng)一特征  隨后進(jìn)入重建分支和理解分支進(jìn)行解碼。OpenVision 3 采用兩個(gè)完全獨(dú)立的分支來培養(yǎng)其提取生成性和解釋性視覺表示的能力,其各自的架構(gòu)詳述如下。

重建分支 (Reconstruction Branch)重建解碼部分鏡像了分詞器的結(jié)構(gòu),保持了近乎對(duì)稱的配置。在解碼之前,本文首先向統(tǒng)一表示中添加噪聲,以提高生成能力的泛化性。擾動(dòng)后的特征  是通過添加按樣本特定強(qiáng)度縮放的高斯噪聲生成的:

其中  是從  均勻采樣的, 是一個(gè)常數(shù)。然后,本文使用一個(gè) patch 大小為  的 ViT 解碼器和一個(gè)線性層將加噪后的統(tǒng)一特征  轉(zhuǎn)換回 VAE 隱空間變量 。接下來,應(yīng)用 VAE 解碼器將  解碼為重建圖像 。重建損失包括圖像  和 VAE 隱空間變量  的重建損失,以及基于 LPIPS 的感知損失。整個(gè)重建損失可以公式化為:

理解分支 (Understanding Branch)理解分支的范式總體遵循 OpenVision 的設(shè)計(jì),即執(zhí)行對(duì)比學(xué)習(xí)和圖像字幕生成。如圖 1 所示,本文使用文本編碼器提取字幕特征 ,以便與統(tǒng)一視覺特征  計(jì)算對(duì)比損失。同時(shí),本文利用文本解碼器從統(tǒng)一表示中自回歸地預(yù)測(cè)合成字幕,并計(jì)算相應(yīng)的字幕損失。形式化地,理解損失可以表示為:

總體訓(xùn)練目標(biāo)為:

在訓(xùn)練過程中,本文將  配置為  的兩倍。降低  有助于在保持理解能力不受損的同時(shí),保留生成質(zhì)量。

訓(xùn)練設(shè)置

訓(xùn)練階段與分辨率:根據(jù) CLIPA 中得出的結(jié)論,本文對(duì)分詞器采用漸進(jìn)式訓(xùn)練策略,從低分辨率過渡到高分辨率輸入。本文首先在  分辨率下預(yù)訓(xùn)練分詞器,然后在  或  下進(jìn)行微調(diào)。兩個(gè)訓(xùn)練階段的 epoch 分配保持在約 10:1 的比例。通過將大部分計(jì)算集中在低分辨率階段,這種方法在獲得卓越性能的同時(shí),顯著降低了通常與高分辨率訓(xùn)練相關(guān)的計(jì)算開銷。

訓(xùn)練細(xì)節(jié):如圖 1 所示,本文使用預(yù)訓(xùn)練的 FLUX.1 VAE 并在整個(gè)訓(xùn)練過程中將其凍結(jié)。所有其他組件(包括 ViT 編碼器、ViT 解碼器、文本編碼器、文本解碼器和線性層)均隨機(jī)初始化并在整個(gè)訓(xùn)練過程中保持解凍狀態(tài)。對(duì)于這兩個(gè)訓(xùn)練階段,全局批大小分別為 8K 和 4K,基礎(chǔ)學(xué)習(xí)率采用余弦衰減,分別為  和 。詳細(xì)參數(shù)配置請(qǐng)參見表 1。該模型在由 LLaVA-Llama-3 重新標(biāo)注的 DataComp 數(shù)據(jù)集上進(jìn)行訓(xùn)練,這保證了訓(xùn)練數(shù)據(jù)的高質(zhì)量。

實(shí)驗(yàn)

實(shí)驗(yàn)設(shè)置

為了全面評(píng)估統(tǒng)一分詞器的性能,本文分別評(píng)估了重建、生成和理解性能。在生成方面,遵循 RAE 配置,使用 DiT 和寬 DDT 頭訓(xùn)練生成模型,并評(píng)估 OpenVision 3 的生成保真度。在理解方面,在 LLaVA-1.5 框架下使用該分詞器訓(xùn)練視覺-語言模型,并在多個(gè)下游多模態(tài)基準(zhǔn)上評(píng)估理解性能。

性能表現(xiàn)

重建性能:OpenVision 3 在各項(xiàng)指標(biāo)上均顯著優(yōu)于現(xiàn)有的統(tǒng)一分詞器。例如,在 ImageNet 上,OpenVision 3 實(shí)現(xiàn)了 30.33 dB 的 PSNR,大幅領(lǐng)先 UniTok (25.34 dB) 和 Vila-U (22.24 dB)。在感知質(zhì)量(LPIPS)方面,得分為 0.061,優(yōu)于 UniTok 的 0.132。

生成性能:在使用 RAE 框架進(jìn)行測(cè)試時(shí),OpenVision 3 在 gFID、Inception Score (IS)、Precision 和 Recall 等指標(biāo)上均超越了其他分詞器(包括 CLIP 和 SD-VAE 等)。

理解與重建的相互作用

為了探究這兩個(gè)目標(biāo)之間的相互影響,本文進(jìn)行了消融實(shí)驗(yàn):

移除重建損失:僅使用語義損失訓(xùn)練時(shí),重建損失(像素級(jí)和隱空間變量級(jí))依然顯著下降。這表明語義目標(biāo)對(duì)圖像重建有顯著貢獻(xiàn)。

移除理解損失:僅使用重建信號(hào)訓(xùn)練時(shí),對(duì)比損失幾乎停滯,但字幕損失略有下降。有趣的是,加入語義損失反而提高了重建性能,進(jìn)一步證明了這兩個(gè)分支之間存在互惠互利的協(xié)同關(guān)系。

結(jié)論

OpenVision 3,這是一種用于理解和生成的統(tǒng)一視覺編碼器。本文創(chuàng)新性地將 VAE 與 ViT 結(jié)合形成統(tǒng)一架構(gòu),并生成可服務(wù)于不同下游任務(wù)的單一、統(tǒng)一表示。為了高效訓(xùn)練該分詞器,提出了一種結(jié)合重建驅(qū)動(dòng)和語義驅(qū)動(dòng)信號(hào)進(jìn)行聯(lián)合學(xué)習(xí)的新訓(xùn)練范式。綜合評(píng)估表明,本文模型通過低成本訓(xùn)練在生成和理解任務(wù)上均取得了優(yōu)異的結(jié)果。OpenVision 3 在重建和生成方面優(yōu)于當(dāng)前其他的統(tǒng)一分詞器,并在語義任務(wù)上表現(xiàn)出與 CLIP 相當(dāng)?shù)哪芰Α?/p>

參考文獻(xiàn)

[1] OpenVision 3: A Family of Unified Visual Encoder for Both Understanding and Generation

       原文標(biāo)題 : 一統(tǒng)視覺江湖!OpenVision 3發(fā)布:一個(gè)編碼器實(shí)現(xiàn)理解與生成完美統(tǒng)一,性能雙殺CLIP

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)