訂閱
糾錯
加入自媒體

全棧視覺生成器殺到!上交&快手&南洋理工最新VINO:圖像視頻生成+編輯一網(wǎng)打盡

作者:Junyi Chen等

解讀:AI生成未來

亮點直擊

統(tǒng)一視覺生成框架VINO:一個將圖像/視頻生成與編輯任務(wù)統(tǒng)一在單一框架下的模型,無需針對特定任務(wù)設(shè)計獨立模塊。

交錯全模態(tài)上下文:通過耦合視覺-語言模型與多模態(tài)擴(kuò)散 Transformer(MMDiT),將多模態(tài)輸入編碼為交錯的條件Token,實現(xiàn)了對文本、圖像和視頻信號的統(tǒng)一處理。

Token 邊界機(jī)制:一種重用VLM特殊Token(start/end tokens)來包裹MMDiT中VAE隱變量的機(jī)制,有效保持了跨語義和隱變量表示的身份一致性,減少了屬性泄露。

漸進(jìn)式訓(xùn)練策略:設(shè)計了多階段訓(xùn)練流程,成功將視頻生成基礎(chǔ)模型擴(kuò)展為具備多任務(wù)能力的統(tǒng)一生成器,同時保留了原本高質(zhì)量生成能力。

效果一覽

解決的問題

視覺生成任務(wù)的碎片化:現(xiàn)有的文生圖、文生視頻和視覺編輯模型通常是獨立開發(fā)和部署的,缺乏統(tǒng)一性。

多模態(tài)信號的沖突與解耦:當(dāng)同時提供文本、圖像、視頻等多種引導(dǎo)信號時,現(xiàn)有模型難以可靠地解耦并確立信號的優(yōu)先級,導(dǎo)致語義沖突或條件控制效果不一致。

長短文本指令的適應(yīng)性差異:生成任務(wù)通常依賴長描述,而編輯任務(wù)使用短指令,模型難以同時適應(yīng)這兩種格式。

提出的方案 / 應(yīng)用的技術(shù)

VLM + MMDiT 架構(gòu):使用凍結(jié)的 Qwen3-VL 作為前端編碼器處理所有語言和視覺條件,配合 HunyuanVideo(基于 MMDiT)作為擴(kuò)散骨干網(wǎng)絡(luò)。

可學(xué)習(xí)的查詢 Token(Learnable Query Tokens):在 VLM 輸入端引入可學(xué)習(xí) Token,作為高層指令與底層擴(kuò)散特征之間的靈活接口,與生成器聯(lián)合優(yōu)化,提升了多模態(tài)條件的對齊和優(yōu)化穩(wěn)定性。

共享邊界標(biāo)記的隱變量注入:為了彌補(bǔ) VLM 特征丟失細(xì)節(jié)的問題,將參考圖像/視頻的 VAE 隱變量注入 MMDiT。關(guān)鍵技術(shù)在于復(fù)用 VLM 的 <|vision_start|> 和 <|vision_end|> Token 來標(biāo)記 VAE 隱變量的邊界,確保語義特征與隱變量特征的對應(yīng)關(guān)系。

3D RoPE 策略:在時間軸上應(yīng)用統(tǒng)一的 3D 旋轉(zhuǎn)位置編碼,以交錯方式處理不同的視覺模態(tài)。

達(dá)到的效果

多任務(wù)全能表現(xiàn):在 Geneval 和 VBench 等基準(zhǔn)測試中,VINO 展現(xiàn)了強(qiáng)大的圖像/視頻生成及編輯能力。

指令遵循與一致性:相比基線模型,VINO 在遵循復(fù)雜指令、保持參考圖像/視頻的身份特征(ID preservation)方面表現(xiàn)更優(yōu),尤其是在多身份編輯場景下。

高效的能力擴(kuò)展:通過漸進(jìn)式訓(xùn)練,僅需少量編輯數(shù)據(jù)的微調(diào)(Stage 3),模型即展現(xiàn)出優(yōu)于大多數(shù)開源基線的編輯能力。

架構(gòu)方法

本章節(jié)介紹了用于多模態(tài)圖像和視頻生成/編輯的統(tǒng)一框架。本工作的目標(biāo)是設(shè)計一個系統(tǒng),該系統(tǒng)能夠接受異構(gòu)的控制信號——文本指令、參考圖像或視頻以及可學(xué)習(xí) Token,并利用它們來引導(dǎo)基于擴(kuò)散的視覺生成器。遵循高層模型流程(如圖 3 所示),本節(jié)圍繞三個核心組件展開:首先在 2.1 節(jié)描述如何通過視覺-語言模型(VLM)處理多模態(tài)條件以獲得連貫的特征表示;接著在 2.2 節(jié)解釋如何將這些編碼后的條件注入到多模態(tài)擴(kuò)散 Transformer(MMDiT)中,且不引起歧義或錯誤的跨模態(tài)定位;最后在 2.3 節(jié)詳細(xì)介紹使整個架構(gòu)成為支持廣泛編輯和生成任務(wù)的統(tǒng)一多任務(wù)視覺生成器的訓(xùn)練策略。

圖3 |VINO pipeline概述。我們的統(tǒng)一框架將生成條件設(shè)在交錯的全模態(tài)上下文上,該上下文共同編碼系統(tǒng)提示、提示/指令、參考圖片/視頻和可學(xué)習(xí)的標(biāo)記。凍結(jié)的VLM會處理文本指令和視覺引用,生成多模態(tài)嵌入,這些嵌入通過可學(xué)習(xí)的符號(紫色)補(bǔ)充,并用特殊符號(視覺開始符號和視覺結(jié)束符號)分隔。這些交錯的多模表示被輸入到MMDiT模塊中,模塊還接收來自參考圖像或視頻的VAE潛數(shù)。MMDiT模型基于完整的多模態(tài)上下文進(jìn)行降噪,使VINO能夠在單一統(tǒng)一架構(gòu)內(nèi)執(zhí)行圖像和視頻生成以及基于指令的編輯。

圖3 |VINO pipeline概述。我們的統(tǒng)一框架將生成條件設(shè)在交錯的全模態(tài)上下文上,該上下文共同編碼系統(tǒng)提示、提示/指令、參考圖片/視頻和可學(xué)習(xí)的標(biāo)記。凍結(jié)的VLM會處理文本指令和視覺引用,生成多模態(tài)嵌入,這些嵌入通過可學(xué)習(xí)的符號(紫色)補(bǔ)充,并用特殊符號(視覺開始符號和視覺結(jié)束符號)分隔。這些交錯的多模表示被輸入到MMDiT模塊中,模塊還接收來自參考圖像或視頻的VAE潛數(shù)。MMDiT模型基于完整的多模態(tài)上下文進(jìn)行降噪,使VINO能夠在單一統(tǒng)一架構(gòu)內(nèi)執(zhí)行圖像和視頻生成以及基于指令的編輯。

多模態(tài)條件

為了處理多種形式的輸入,本工作采用凍結(jié)的 VLM 模型作為所有語言和視覺條件的前端編碼器。如圖 4 所示,系統(tǒng)提示詞(System Prompt)會根據(jù)輸入模態(tài)的存在與數(shù)量而變化。當(dāng)沒有提供視覺模態(tài)時,用戶僅提供文本輸入,這作為文生圖或文生視頻生成的唯一條件。當(dāng)存在視覺輸入時,它們首先按類型(先圖像,后視頻)排序并放置在提示詞的開頭,每個輸入被分配一個唯一的標(biāo)識符,如 Image 1 或 Video 1。用戶隨后可以在文本輸入中引用這些標(biāo)識符來指定不同的視覺條件,從而實現(xiàn)復(fù)雜的多模態(tài)控制。此外,本工作在提示詞末尾附加了一組可學(xué)習(xí) Token(Learnable Tokens),將跨模態(tài)特征提取到一個共享空間中。這些 Token 同樣使用因果掩碼(Causal Masking)處理,而非給予全雙向注意力。最后,使用 VLM 倒數(shù)第二層的隱藏狀態(tài)作為編碼后的條件,應(yīng)用兩層多層感知機(jī)(MLP)進(jìn)行特征投影,然后輸入到后續(xù)的 MMDiT 中。

交錯全模態(tài)上下文

盡管 VLM 提供了魯棒的高層多模態(tài)語義,但它顯著壓縮了視覺信息,導(dǎo)致缺乏細(xì)粒度的空間細(xì)節(jié)和紋理保真度。因此,它無法充分處理需要精確結(jié)構(gòu)控制的任務(wù),如局部編輯。為了補(bǔ)償這一信息瓶頸,本工作通過所有視覺模態(tài)的 VAE 編碼隱變量(Latents)來補(bǔ)充 VLM 嵌入。如圖 5 所示,這些 VAE 隱變量按照 VLM 中使用的相同順序排列,并將加噪的圖像/視頻隱變量放置在末尾。然而,簡單地拼接圖像和視頻隱變量會引入歧義。為了唯一地區(qū)分不同的視覺條件,并將每個 VAE 隱變量與其對應(yīng)的 VLM 特征對齊,本工作復(fù)用了 VLM 的 <|vision_start|> 和 <|vision_end|> 嵌入向量。在通過一個 MLP 將這些嵌入投影以匹配 MMDiT 輸入維度后,它們被用于標(biāo)記每個視覺隱變量塊的邊界。這種顯式的邊界標(biāo)記作為一種強(qiáng)位置線索,允許注意力機(jī)制正確有效地劃分并解釋序列中不同的視覺條件輸入。

訓(xùn)練統(tǒng)一多任務(wù)視覺生成器

為了構(gòu)建支持多模態(tài)條件的統(tǒng)一視覺生成器,本工作從一個文生視頻擴(kuò)散模型開始,因為它已經(jīng)提供了強(qiáng)大的時間動態(tài)先驗。為了替換原始的文本編碼器,首先將 VLM 的輸出空間與模型原生的文本編碼器對齊。在這一初始階段,僅訓(xùn)練一個兩層 MLP 連接器以在兩個嵌入空間之間進(jìn)行映射。現(xiàn)代文生視頻模型通常依賴長且結(jié)構(gòu)良好的文本提示詞,而編輯任務(wù)通常涉及簡短的指令,這產(chǎn)生了分布差距。為了彌補(bǔ)這一差距,本工作采用了漸進(jìn)式訓(xùn)練策略,逐步轉(zhuǎn)變輸入條件的分布。具體而言,將短提示詞視為長提示詞與簡練編輯指令之間的中間形式。在第二階段,使用長短提示詞混合訓(xùn)練模型,以確保對兩種形式的魯棒性,并在該階段開始更新 MMDiT 參數(shù)。一旦模型適應(yīng)了短提示詞輸入,便進(jìn)入最后階段,進(jìn)行全多任務(wù)混合訓(xùn)練。各階段的數(shù)據(jù)混合比例如圖 6 所示。這使得模型能夠平滑地從結(jié)構(gòu)化文本視頻條件過渡到基于指令的多模態(tài)生成和編輯。

實驗

實驗設(shè)置

基礎(chǔ)模型:采用 Qwen3VL-4B-Instruction 作為多模態(tài)編碼器,HunyuanVideo 作為視覺生成器初始化。數(shù)據(jù)策略:結(jié)合了大規(guī)模開源圖像/視頻集合與高質(zhì)量的蒸餾數(shù)據(jù)。采用動態(tài)分辨率分桶策略(Dynamic resolution bucketing),在保持原始長寬比的同時平衡計算負(fù)載。訓(xùn)練細(xì)節(jié):分為三個階段,使用 DeepSpeed ZeRO-2 進(jìn)行訓(xùn)練。根據(jù)任務(wù)動態(tài)調(diào)整視頻幀數(shù)和參考圖像數(shù)量。

視覺生成表現(xiàn)

基礎(chǔ)能力保持:盡管在 Stage 3 中標(biāo)準(zhǔn)的文生圖/文生視頻數(shù)據(jù)占比很小,但在 Geneval 和 VBench 基準(zhǔn)測試中,VINO 的性能指標(biāo)與 HunyuanVideo 骨干網(wǎng)絡(luò)高度相當(dāng)。證明了訓(xùn)練策略有效避免了災(zāi)難性遺忘。

參考生成能力:在 OpenS2V 基準(zhǔn)測試(針對特定主體的視頻生成)中,VINO 表現(xiàn)出明顯的優(yōu)勢,能夠有效地根據(jù)參考圖像生成定制化視頻。

視覺編輯表現(xiàn)

圖像編輯:在 ImgEdit 和 GEdit 基準(zhǔn)測試中,VINO 在僅經(jīng)過 Stage 3 的少量訓(xùn)練后(1k 步),其編輯能力就迅速超越了大多數(shù)開源基線。這得益于漸進(jìn)式訓(xùn)練帶來的強(qiáng)大指令遵循能力。

視頻編輯:與 VACE-Ditto 等方法相比,VINO 在相同輸入下展現(xiàn)了更強(qiáng)的指令遵循性和視覺質(zhì)量,能夠準(zhǔn)確執(zhí)行如“移除物體”、“風(fēng)格轉(zhuǎn)換”等復(fù)雜操作。

消融實驗

可學(xué)習(xí) Token 的作用:引入可學(xué)習(xí) Token 顯著提升了訓(xùn)練的穩(wěn)定性(優(yōu)化曲線更平滑),并增強(qiáng)了多模態(tài)條件的保真度。去除這些 Token 會導(dǎo)致梯度噪聲變大,且在物體移除/替換等任務(wù)中表現(xiàn)下降。

Image CFG 的影響:增加圖像分類器自由引導(dǎo)(Image CFG)的權(quán)重可以增強(qiáng)對參考圖像視覺身份的保持,但過大的權(quán)重會抑制動作的多樣性。

特殊 Token(邊界標(biāo)記)的作用:如果在 VAE 隱變量序列中不使用特殊的邊界 Token,模型會錯誤地糾纏視頻的時間結(jié)構(gòu)與靜態(tài)圖像隱變量,導(dǎo)致生成的首幀出現(xiàn)明顯偽影。

結(jié)論

VINO,這是一個能夠在單一框架下執(zhí)行圖像和視頻生成及編輯的統(tǒng)一視覺生成器。通過精心設(shè)計的模型組件以及接受交錯全模態(tài)上下文的條件管線,VINO 能夠無縫集成異構(gòu)輸入并處理廣泛的視覺任務(wù)。廣泛的對比實驗證明了本方法的有效性和強(qiáng)大性能。此外,本工作的漸進(jìn)式訓(xùn)練策略使得模型在獲得魯棒的多任務(wù)能力的同時,保留了基礎(chǔ)視頻骨干網(wǎng)絡(luò)的生成優(yōu)勢,最終產(chǎn)出了一個連貫且統(tǒng)一的視覺生成器。VINO 為多對多(many-to-many)視覺生成提供了一個靈活、可擴(kuò)展的基礎(chǔ),并為更通用的多模態(tài)生成系統(tǒng)鋪平了道路。

局限性與未來工作:

文本渲染能力:基礎(chǔ)模型缺乏文本渲染能力,使得 VINO 在涉及文本編輯的基準(zhǔn)測試中處于劣勢。編輯數(shù)據(jù)質(zhì)量:現(xiàn)有的指令編輯數(shù)據(jù)集質(zhì)量通常低于大規(guī)模生成數(shù)據(jù)集,包含的運(yùn)動有限且結(jié)構(gòu)簡單,這可能導(dǎo)致模型在引入編輯任務(wù)后,視覺保真度或動作豐富度略有下降。計算成本:在 MMDiT 中,全注意力機(jī)制的復(fù)雜度呈二次方增長。因此,當(dāng)提供參考視頻和大量參考圖像時,推理延遲會顯著增加。模態(tài)限制:目前支持的模態(tài)受限于 VLM。探索更強(qiáng)大、更全面的 VLM 是未來的研究方向。參考文獻(xiàn)

[1] VInO: A Unified Visual Generator with Interleaved OmniModal Context

       原文標(biāo)題 : 全棧視覺生成器殺到!上交&快手&南洋理工最新VINO:圖像視頻生成+編輯一網(wǎng)打盡

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號