訂閱
糾錯(cuò)
加入自媒體

全棧視覺(jué)生成器殺到!上交&快手&南洋理工最新VINO:圖像視頻生成+編輯一網(wǎng)打盡

作者:Junyi Chen等

解讀:AI生成未來(lái)

亮點(diǎn)直擊

統(tǒng)一視覺(jué)生成框架VINO:一個(gè)將圖像/視頻生成與編輯任務(wù)統(tǒng)一在單一框架下的模型,無(wú)需針對(duì)特定任務(wù)設(shè)計(jì)獨(dú)立模塊。

交錯(cuò)全模態(tài)上下文:通過(guò)耦合視覺(jué)-語(yǔ)言模型與多模態(tài)擴(kuò)散 Transformer(MMDiT),將多模態(tài)輸入編碼為交錯(cuò)的條件Token,實(shí)現(xiàn)了對(duì)文本、圖像和視頻信號(hào)的統(tǒng)一處理。

Token 邊界機(jī)制:一種重用VLM特殊Token(start/end tokens)來(lái)包裹MMDiT中VAE隱變量的機(jī)制,有效保持了跨語(yǔ)義和隱變量表示的身份一致性,減少了屬性泄露。

漸進(jìn)式訓(xùn)練策略:設(shè)計(jì)了多階段訓(xùn)練流程,成功將視頻生成基礎(chǔ)模型擴(kuò)展為具備多任務(wù)能力的統(tǒng)一生成器,同時(shí)保留了原本高質(zhì)量生成能力。

效果一覽

解決的問(wèn)題

視覺(jué)生成任務(wù)的碎片化:現(xiàn)有的文生圖、文生視頻和視覺(jué)編輯模型通常是獨(dú)立開(kāi)發(fā)和部署的,缺乏統(tǒng)一性。

多模態(tài)信號(hào)的沖突與解耦:當(dāng)同時(shí)提供文本、圖像、視頻等多種引導(dǎo)信號(hào)時(shí),現(xiàn)有模型難以可靠地解耦并確立信號(hào)的優(yōu)先級(jí),導(dǎo)致語(yǔ)義沖突或條件控制效果不一致。

長(zhǎng)短文本指令的適應(yīng)性差異:生成任務(wù)通常依賴長(zhǎng)描述,而編輯任務(wù)使用短指令,模型難以同時(shí)適應(yīng)這兩種格式。

提出的方案 / 應(yīng)用的技術(shù)

VLM + MMDiT 架構(gòu):使用凍結(jié)的 Qwen3-VL 作為前端編碼器處理所有語(yǔ)言和視覺(jué)條件,配合 HunyuanVideo(基于 MMDiT)作為擴(kuò)散骨干網(wǎng)絡(luò)。

可學(xué)習(xí)的查詢 Token(Learnable Query Tokens):在 VLM 輸入端引入可學(xué)習(xí) Token,作為高層指令與底層擴(kuò)散特征之間的靈活接口,與生成器聯(lián)合優(yōu)化,提升了多模態(tài)條件的對(duì)齊和優(yōu)化穩(wěn)定性。

共享邊界標(biāo)記的隱變量注入:為了彌補(bǔ) VLM 特征丟失細(xì)節(jié)的問(wèn)題,將參考圖像/視頻的 VAE 隱變量注入 MMDiT。關(guān)鍵技術(shù)在于復(fù)用 VLM 的 <|vision_start|> 和 <|vision_end|> Token 來(lái)標(biāo)記 VAE 隱變量的邊界,確保語(yǔ)義特征與隱變量特征的對(duì)應(yīng)關(guān)系。

3D RoPE 策略:在時(shí)間軸上應(yīng)用統(tǒng)一的 3D 旋轉(zhuǎn)位置編碼,以交錯(cuò)方式處理不同的視覺(jué)模態(tài)。

達(dá)到的效果

多任務(wù)全能表現(xiàn):在 Geneval 和 VBench 等基準(zhǔn)測(cè)試中,VINO 展現(xiàn)了強(qiáng)大的圖像/視頻生成及編輯能力。

指令遵循與一致性:相比基線模型,VINO 在遵循復(fù)雜指令、保持參考圖像/視頻的身份特征(ID preservation)方面表現(xiàn)更優(yōu),尤其是在多身份編輯場(chǎng)景下。

高效的能力擴(kuò)展:通過(guò)漸進(jìn)式訓(xùn)練,僅需少量編輯數(shù)據(jù)的微調(diào)(Stage 3),模型即展現(xiàn)出優(yōu)于大多數(shù)開(kāi)源基線的編輯能力。

架構(gòu)方法

本章節(jié)介紹了用于多模態(tài)圖像和視頻生成/編輯的統(tǒng)一框架。本工作的目標(biāo)是設(shè)計(jì)一個(gè)系統(tǒng),該系統(tǒng)能夠接受異構(gòu)的控制信號(hào)——文本指令、參考圖像或視頻以及可學(xué)習(xí) Token,并利用它們來(lái)引導(dǎo)基于擴(kuò)散的視覺(jué)生成器。遵循高層模型流程(如圖 3 所示),本節(jié)圍繞三個(gè)核心組件展開(kāi):首先在 2.1 節(jié)描述如何通過(guò)視覺(jué)-語(yǔ)言模型(VLM)處理多模態(tài)條件以獲得連貫的特征表示;接著在 2.2 節(jié)解釋如何將這些編碼后的條件注入到多模態(tài)擴(kuò)散 Transformer(MMDiT)中,且不引起歧義或錯(cuò)誤的跨模態(tài)定位;最后在 2.3 節(jié)詳細(xì)介紹使整個(gè)架構(gòu)成為支持廣泛編輯和生成任務(wù)的統(tǒng)一多任務(wù)視覺(jué)生成器的訓(xùn)練策略。

圖3 |VINO pipeline概述。我們的統(tǒng)一框架將生成條件設(shè)在交錯(cuò)的全模態(tài)上下文上,該上下文共同編碼系統(tǒng)提示、提示/指令、參考圖片/視頻和可學(xué)習(xí)的標(biāo)記。凍結(jié)的VLM會(huì)處理文本指令和視覺(jué)引用,生成多模態(tài)嵌入,這些嵌入通過(guò)可學(xué)習(xí)的符號(hào)(紫色)補(bǔ)充,并用特殊符號(hào)(視覺(jué)開(kāi)始符號(hào)和視覺(jué)結(jié)束符號(hào))分隔。這些交錯(cuò)的多模表示被輸入到MMDiT模塊中,模塊還接收來(lái)自參考圖像或視頻的VAE潛數(shù)。MMDiT模型基于完整的多模態(tài)上下文進(jìn)行降噪,使VINO能夠在單一統(tǒng)一架構(gòu)內(nèi)執(zhí)行圖像和視頻生成以及基于指令的編輯。

圖3 |VINO pipeline概述。我們的統(tǒng)一框架將生成條件設(shè)在交錯(cuò)的全模態(tài)上下文上,該上下文共同編碼系統(tǒng)提示、提示/指令、參考圖片/視頻和可學(xué)習(xí)的標(biāo)記。凍結(jié)的VLM會(huì)處理文本指令和視覺(jué)引用,生成多模態(tài)嵌入,這些嵌入通過(guò)可學(xué)習(xí)的符號(hào)(紫色)補(bǔ)充,并用特殊符號(hào)(視覺(jué)開(kāi)始符號(hào)和視覺(jué)結(jié)束符號(hào))分隔。這些交錯(cuò)的多模表示被輸入到MMDiT模塊中,模塊還接收來(lái)自參考圖像或視頻的VAE潛數(shù)。MMDiT模型基于完整的多模態(tài)上下文進(jìn)行降噪,使VINO能夠在單一統(tǒng)一架構(gòu)內(nèi)執(zhí)行圖像和視頻生成以及基于指令的編輯。

多模態(tài)條件

為了處理多種形式的輸入,本工作采用凍結(jié)的 VLM 模型作為所有語(yǔ)言和視覺(jué)條件的前端編碼器。如圖 4 所示,系統(tǒng)提示詞(System Prompt)會(huì)根據(jù)輸入模態(tài)的存在與數(shù)量而變化。當(dāng)沒(méi)有提供視覺(jué)模態(tài)時(shí),用戶僅提供文本輸入,這作為文生圖或文生視頻生成的唯一條件。當(dāng)存在視覺(jué)輸入時(shí),它們首先按類型(先圖像,后視頻)排序并放置在提示詞的開(kāi)頭,每個(gè)輸入被分配一個(gè)唯一的標(biāo)識(shí)符,如 Image 1 或 Video 1。用戶隨后可以在文本輸入中引用這些標(biāo)識(shí)符來(lái)指定不同的視覺(jué)條件,從而實(shí)現(xiàn)復(fù)雜的多模態(tài)控制。此外,本工作在提示詞末尾附加了一組可學(xué)習(xí) Token(Learnable Tokens),將跨模態(tài)特征提取到一個(gè)共享空間中。這些 Token 同樣使用因果掩碼(Causal Masking)處理,而非給予全雙向注意力。最后,使用 VLM 倒數(shù)第二層的隱藏狀態(tài)作為編碼后的條件,應(yīng)用兩層多層感知機(jī)(MLP)進(jìn)行特征投影,然后輸入到后續(xù)的 MMDiT 中。

交錯(cuò)全模態(tài)上下文

盡管 VLM 提供了魯棒的高層多模態(tài)語(yǔ)義,但它顯著壓縮了視覺(jué)信息,導(dǎo)致缺乏細(xì)粒度的空間細(xì)節(jié)和紋理保真度。因此,它無(wú)法充分處理需要精確結(jié)構(gòu)控制的任務(wù),如局部編輯。為了補(bǔ)償這一信息瓶頸,本工作通過(guò)所有視覺(jué)模態(tài)的 VAE 編碼隱變量(Latents)來(lái)補(bǔ)充 VLM 嵌入。如圖 5 所示,這些 VAE 隱變量按照 VLM 中使用的相同順序排列,并將加噪的圖像/視頻隱變量放置在末尾。然而,簡(jiǎn)單地拼接圖像和視頻隱變量會(huì)引入歧義。為了唯一地區(qū)分不同的視覺(jué)條件,并將每個(gè) VAE 隱變量與其對(duì)應(yīng)的 VLM 特征對(duì)齊,本工作復(fù)用了 VLM 的 <|vision_start|> 和 <|vision_end|> 嵌入向量。在通過(guò)一個(gè) MLP 將這些嵌入投影以匹配 MMDiT 輸入維度后,它們被用于標(biāo)記每個(gè)視覺(jué)隱變量塊的邊界。這種顯式的邊界標(biāo)記作為一種強(qiáng)位置線索,允許注意力機(jī)制正確有效地劃分并解釋序列中不同的視覺(jué)條件輸入。

訓(xùn)練統(tǒng)一多任務(wù)視覺(jué)生成器

為了構(gòu)建支持多模態(tài)條件的統(tǒng)一視覺(jué)生成器,本工作從一個(gè)文生視頻擴(kuò)散模型開(kāi)始,因?yàn)樗呀?jīng)提供了強(qiáng)大的時(shí)間動(dòng)態(tài)先驗(yàn)。為了替換原始的文本編碼器,首先將 VLM 的輸出空間與模型原生的文本編碼器對(duì)齊。在這一初始階段,僅訓(xùn)練一個(gè)兩層 MLP 連接器以在兩個(gè)嵌入空間之間進(jìn)行映射,F(xiàn)代文生視頻模型通常依賴長(zhǎng)且結(jié)構(gòu)良好的文本提示詞,而編輯任務(wù)通常涉及簡(jiǎn)短的指令,這產(chǎn)生了分布差距。為了彌補(bǔ)這一差距,本工作采用了漸進(jìn)式訓(xùn)練策略,逐步轉(zhuǎn)變輸入條件的分布。具體而言,將短提示詞視為長(zhǎng)提示詞與簡(jiǎn)練編輯指令之間的中間形式。在第二階段,使用長(zhǎng)短提示詞混合訓(xùn)練模型,以確保對(duì)兩種形式的魯棒性,并在該階段開(kāi)始更新 MMDiT 參數(shù)。一旦模型適應(yīng)了短提示詞輸入,便進(jìn)入最后階段,進(jìn)行全多任務(wù)混合訓(xùn)練。各階段的數(shù)據(jù)混合比例如圖 6 所示。這使得模型能夠平滑地從結(jié)構(gòu)化文本視頻條件過(guò)渡到基于指令的多模態(tài)生成和編輯。

實(shí)驗(yàn)

實(shí)驗(yàn)設(shè)置

基礎(chǔ)模型:采用 Qwen3VL-4B-Instruction 作為多模態(tài)編碼器,HunyuanVideo 作為視覺(jué)生成器初始化。數(shù)據(jù)策略:結(jié)合了大規(guī)模開(kāi)源圖像/視頻集合與高質(zhì)量的蒸餾數(shù)據(jù)。采用動(dòng)態(tài)分辨率分桶策略(Dynamic resolution bucketing),在保持原始長(zhǎng)寬比的同時(shí)平衡計(jì)算負(fù)載。訓(xùn)練細(xì)節(jié):分為三個(gè)階段,使用 DeepSpeed ZeRO-2 進(jìn)行訓(xùn)練。根據(jù)任務(wù)動(dòng)態(tài)調(diào)整視頻幀數(shù)和參考圖像數(shù)量。

視覺(jué)生成表現(xiàn)

基礎(chǔ)能力保持:盡管在 Stage 3 中標(biāo)準(zhǔn)的文生圖/文生視頻數(shù)據(jù)占比很小,但在 Geneval 和 VBench 基準(zhǔn)測(cè)試中,VINO 的性能指標(biāo)與 HunyuanVideo 骨干網(wǎng)絡(luò)高度相當(dāng)。證明了訓(xùn)練策略有效避免了災(zāi)難性遺忘。

參考生成能力:在 OpenS2V 基準(zhǔn)測(cè)試(針對(duì)特定主體的視頻生成)中,VINO 表現(xiàn)出明顯的優(yōu)勢(shì),能夠有效地根據(jù)參考圖像生成定制化視頻。

視覺(jué)編輯表現(xiàn)

圖像編輯:在 ImgEdit 和 GEdit 基準(zhǔn)測(cè)試中,VINO 在僅經(jīng)過(guò) Stage 3 的少量訓(xùn)練后(1k 步),其編輯能力就迅速超越了大多數(shù)開(kāi)源基線。這得益于漸進(jìn)式訓(xùn)練帶來(lái)的強(qiáng)大指令遵循能力。

視頻編輯:與 VACE-Ditto 等方法相比,VINO 在相同輸入下展現(xiàn)了更強(qiáng)的指令遵循性和視覺(jué)質(zhì)量,能夠準(zhǔn)確執(zhí)行如“移除物體”、“風(fēng)格轉(zhuǎn)換”等復(fù)雜操作。

消融實(shí)驗(yàn)

可學(xué)習(xí) Token 的作用:引入可學(xué)習(xí) Token 顯著提升了訓(xùn)練的穩(wěn)定性(優(yōu)化曲線更平滑),并增強(qiáng)了多模態(tài)條件的保真度。去除這些 Token 會(huì)導(dǎo)致梯度噪聲變大,且在物體移除/替換等任務(wù)中表現(xiàn)下降。

Image CFG 的影響:增加圖像分類器自由引導(dǎo)(Image CFG)的權(quán)重可以增強(qiáng)對(duì)參考圖像視覺(jué)身份的保持,但過(guò)大的權(quán)重會(huì)抑制動(dòng)作的多樣性。

特殊 Token(邊界標(biāo)記)的作用:如果在 VAE 隱變量序列中不使用特殊的邊界 Token,模型會(huì)錯(cuò)誤地糾纏視頻的時(shí)間結(jié)構(gòu)與靜態(tài)圖像隱變量,導(dǎo)致生成的首幀出現(xiàn)明顯偽影。

結(jié)論

VINO,這是一個(gè)能夠在單一框架下執(zhí)行圖像和視頻生成及編輯的統(tǒng)一視覺(jué)生成器。通過(guò)精心設(shè)計(jì)的模型組件以及接受交錯(cuò)全模態(tài)上下文的條件管線,VINO 能夠無(wú)縫集成異構(gòu)輸入并處理廣泛的視覺(jué)任務(wù)。廣泛的對(duì)比實(shí)驗(yàn)證明了本方法的有效性和強(qiáng)大性能。此外,本工作的漸進(jìn)式訓(xùn)練策略使得模型在獲得魯棒的多任務(wù)能力的同時(shí),保留了基礎(chǔ)視頻骨干網(wǎng)絡(luò)的生成優(yōu)勢(shì),最終產(chǎn)出了一個(gè)連貫且統(tǒng)一的視覺(jué)生成器。VINO 為多對(duì)多(many-to-many)視覺(jué)生成提供了一個(gè)靈活、可擴(kuò)展的基礎(chǔ),并為更通用的多模態(tài)生成系統(tǒng)鋪平了道路。

局限性與未來(lái)工作:

文本渲染能力:基礎(chǔ)模型缺乏文本渲染能力,使得 VINO 在涉及文本編輯的基準(zhǔn)測(cè)試中處于劣勢(shì)。編輯數(shù)據(jù)質(zhì)量:現(xiàn)有的指令編輯數(shù)據(jù)集質(zhì)量通常低于大規(guī)模生成數(shù)據(jù)集,包含的運(yùn)動(dòng)有限且結(jié)構(gòu)簡(jiǎn)單,這可能導(dǎo)致模型在引入編輯任務(wù)后,視覺(jué)保真度或動(dòng)作豐富度略有下降。計(jì)算成本:在 MMDiT 中,全注意力機(jī)制的復(fù)雜度呈二次方增長(zhǎng)。因此,當(dāng)提供參考視頻和大量參考圖像時(shí),推理延遲會(huì)顯著增加。模態(tài)限制:目前支持的模態(tài)受限于 VLM。探索更強(qiáng)大、更全面的 VLM 是未來(lái)的研究方向。參考文獻(xiàn)

[1] VInO: A Unified Visual Generator with Interleaved OmniModal Context

       原文標(biāo)題 : 全棧視覺(jué)生成器殺到!上交&快手&南洋理工最新VINO:圖像視頻生成+編輯一網(wǎng)打盡

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)