123,123,123

全棧視覺(jué)生成器殺到！上交&快手&南洋理工最新VINO：圖像視頻生成+編輯一網(wǎng)打盡

2026-01-07 15:38

作者：Junyi Chen等

解讀：AI生成未來(lái)

亮點(diǎn)直擊

統(tǒng)一視覺(jué)生成框架VINO：一個(gè)將圖像/視頻生成與編輯任務(wù)統(tǒng)一在單一框架下的模型，無(wú)需針對(duì)特定任務(wù)設(shè)計(jì)獨(dú)立模塊。

交錯(cuò)全模態(tài)上下文：通過(guò)耦合視覺(jué)-語(yǔ)言模型與多模態(tài)擴(kuò)散 Transformer（MMDiT），將多模態(tài)輸入編碼為交錯(cuò)的條件Token，實(shí)現(xiàn)了對(duì)文本、圖像和視頻信號(hào)的統(tǒng)一處理。

Token 邊界機(jī)制：一種重用VLM特殊Token（start/end tokens）來(lái)包裹MMDiT中VAE隱變量的機(jī)制，有效保持了跨語(yǔ)義和隱變量表示的身份一致性，減少了屬性泄露。

漸進(jìn)式訓(xùn)練策略：設(shè)計(jì)了多階段訓(xùn)練流程，成功將視頻生成基礎(chǔ)模型擴(kuò)展為具備多任務(wù)能力的統(tǒng)一生成器，同時(shí)保留了原本高質(zhì)量生成能力。

效果一覽

解決的問(wèn)題

視覺(jué)生成任務(wù)的碎片化：現(xiàn)有的文生圖、文生視頻和視覺(jué)編輯模型通常是獨(dú)立開(kāi)發(fā)和部署的，缺乏統(tǒng)一性。

多模態(tài)信號(hào)的沖突與解耦：當(dāng)同時(shí)提供文本、圖像、視頻等多種引導(dǎo)信號(hào)時(shí)，現(xiàn)有模型難以可靠地解耦并確立信號(hào)的優(yōu)先級(jí)，導(dǎo)致語(yǔ)義沖突或條件控制效果不一致。

長(zhǎng)短文本指令的適應(yīng)性差異：生成任務(wù)通常依賴長(zhǎng)描述，而編輯任務(wù)使用短指令，模型難以同時(shí)適應(yīng)這兩種格式。

提出的方案 / 應(yīng)用的技術(shù)

VLM + MMDiT 架構(gòu)：使用凍結(jié)的 Qwen3-VL 作為前端編碼器處理所有語(yǔ)言和視覺(jué)條件，配合 HunyuanVideo（基于 MMDiT）作為擴(kuò)散骨干網(wǎng)絡(luò)。

可學(xué)習(xí)的查詢 Token（Learnable Query Tokens）：在 VLM 輸入端引入可學(xué)習(xí) Token，作為高層指令與底層擴(kuò)散特征之間的靈活接口，與生成器聯(lián)合優(yōu)化，提升了多模態(tài)條件的對(duì)齊和優(yōu)化穩(wěn)定性。

共享邊界標(biāo)記的隱變量注入：為了彌補(bǔ) VLM 特征丟失細(xì)節(jié)的問(wèn)題，將參考圖像/視頻的 VAE 隱變量注入 MMDiT。關(guān)鍵技術(shù)在于復(fù)用 VLM 的 <|vision_start|> 和 <|vision_end|> Token 來(lái)標(biāo)記 VAE 隱變量的邊界，確保語(yǔ)義特征與隱變量特征的對(duì)應(yīng)關(guān)系。

3D RoPE 策略：在時(shí)間軸上應(yīng)用統(tǒng)一的 3D 旋轉(zhuǎn)位置編碼，以交錯(cuò)方式處理不同的視覺(jué)模態(tài)。

達(dá)到的效果

多任務(wù)全能表現(xiàn)：在 Geneval 和 VBench 等基準(zhǔn)測(cè)試中，VINO 展現(xiàn)了強(qiáng)大的圖像/視頻生成及編輯能力。

指令遵循與一致性：相比基線模型，VINO 在遵循復(fù)雜指令、保持參考圖像/視頻的身份特征（ID preservation）方面表現(xiàn)更優(yōu)，尤其是在多身份編輯場(chǎng)景下。

高效的能力擴(kuò)展：通過(guò)漸進(jìn)式訓(xùn)練，僅需少量編輯數(shù)據(jù)的微調(diào)（Stage 3），模型即展現(xiàn)出優(yōu)于大多數(shù)開(kāi)源基線的編輯能力。

架構(gòu)方法

本章節(jié)介紹了用于多模態(tài)圖像和視頻生成/編輯的統(tǒng)一框架。本工作的目標(biāo)是設(shè)計(jì)一個(gè)系統(tǒng)，該系統(tǒng)能夠接受異構(gòu)的控制信號(hào)——文本指令、參考圖像或視頻以及可學(xué)習(xí) Token，并利用它們來(lái)引導(dǎo)基于擴(kuò)散的視覺(jué)生成器。遵循高層模型流程（如圖 3 所示），本節(jié)圍繞三個(gè)核心組件展開(kāi)：首先在 2.1 節(jié)描述如何通過(guò)視覺(jué)-語(yǔ)言模型（VLM）處理多模態(tài)條件以獲得連貫的特征表示；接著在 2.2 節(jié)解釋如何將這些編碼后的條件注入到多模態(tài)擴(kuò)散 Transformer（MMDiT）中，且不引起歧義或錯(cuò)誤的跨模態(tài)定位；最后在 2.3 節(jié)詳細(xì)介紹使整個(gè)架構(gòu)成為支持廣泛編輯和生成任務(wù)的統(tǒng)一多任務(wù)視覺(jué)生成器的訓(xùn)練策略。

圖3 |VINO pipeline概述。我們的統(tǒng)一框架將生成條件設(shè)在交錯(cuò)的全模態(tài)上下文上，該上下文共同編碼系統(tǒng)提示、提示/指令、參考圖片/視頻和可學(xué)習(xí)的標(biāo)記。凍結(jié)的VLM會(huì)處理文本指令和視覺(jué)引用，生成多模態(tài)嵌入，這些嵌入通過(guò)可學(xué)習(xí)的符號(hào)（紫色）補(bǔ)充，并用特殊符號(hào)（視覺(jué)開(kāi)始符號(hào)和視覺(jué)結(jié)束符號(hào)）分隔。這些交錯(cuò)的多模表示被輸入到MMDiT模塊中，模塊還接收來(lái)自參考圖像或視頻的VAE潛數(shù)。MMDiT模型基于完整的多模態(tài)上下文進(jìn)行降噪，使VINO能夠在單一統(tǒng)一架構(gòu)內(nèi)執(zhí)行圖像和視頻生成以及基于指令的編輯。

多模態(tài)條件

為了處理多種形式的輸入，本工作采用凍結(jié)的 VLM 模型作為所有語(yǔ)言和視覺(jué)條件的前端編碼器。如圖 4 所示，系統(tǒng)提示詞（System Prompt）會(huì)根據(jù)輸入模態(tài)的存在與數(shù)量而變化。當(dāng)沒(méi)有提供視覺(jué)模態(tài)時(shí)，用戶僅提供文本輸入，這作為文生圖或文生視頻生成的唯一條件。當(dāng)存在視覺(jué)輸入時(shí)，它們首先按類型（先圖像，后視頻）排序并放置在提示詞的開(kāi)頭，每個(gè)輸入被分配一個(gè)唯一的標(biāo)識(shí)符，如 Image 1 或 Video 1。用戶隨后可以在文本輸入中引用這些標(biāo)識(shí)符來(lái)指定不同的視覺(jué)條件，從而實(shí)現(xiàn)復(fù)雜的多模態(tài)控制。此外，本工作在提示詞末尾附加了一組可學(xué)習(xí) Token（Learnable Tokens），將跨模態(tài)特征提取到一個(gè)共享空間中。這些 Token 同樣使用因果掩碼（Causal Masking）處理，而非給予全雙向注意力。最后，使用 VLM 倒數(shù)第二層的隱藏狀態(tài)作為編碼后的條件，應(yīng)用兩層多層感知機(jī)（MLP）進(jìn)行特征投影，然后輸入到后續(xù)的 MMDiT 中。

交錯(cuò)全模態(tài)上下文

盡管 VLM 提供了魯棒的高層多模態(tài)語(yǔ)義，但它顯著壓縮了視覺(jué)信息，導(dǎo)致缺乏細(xì)粒度的空間細(xì)節(jié)和紋理保真度。因此，它無(wú)法充分處理需要精確結(jié)構(gòu)控制的任務(wù)，如局部編輯。為了補(bǔ)償這一信息瓶頸，本工作通過(guò)所有視覺(jué)模態(tài)的 VAE 編碼隱變量（Latents）來(lái)補(bǔ)充 VLM 嵌入。如圖 5 所示，這些 VAE 隱變量按照 VLM 中使用的相同順序排列，并將加噪的圖像/視頻隱變量放置在末尾。然而，簡(jiǎn)單地拼接圖像和視頻隱變量會(huì)引入歧義。為了唯一地區(qū)分不同的視覺(jué)條件，并將每個(gè) VAE 隱變量與其對(duì)應(yīng)的 VLM 特征對(duì)齊，本工作復(fù)用了 VLM 的 <|vision_start|> 和 <|vision_end|> 嵌入向量。在通過(guò)一個(gè) MLP 將這些嵌入投影以匹配 MMDiT 輸入維度后，它們被用于標(biāo)記每個(gè)視覺(jué)隱變量塊的邊界。這種顯式的邊界標(biāo)記作為一種強(qiáng)位置線索，允許注意力機(jī)制正確有效地劃分并解釋序列中不同的視覺(jué)條件輸入。

訓(xùn)練統(tǒng)一多任務(wù)視覺(jué)生成器

為了構(gòu)建支持多模態(tài)條件的統(tǒng)一視覺(jué)生成器，本工作從一個(gè)文生視頻擴(kuò)散模型開(kāi)始，因?yàn)樗呀?jīng)提供了強(qiáng)大的時(shí)間動(dòng)態(tài)先驗(yàn)。為了替換原始的文本編碼器，首先將 VLM 的輸出空間與模型原生的文本編碼器對(duì)齊。在這一初始階段，僅訓(xùn)練一個(gè)兩層 MLP 連接器以在兩個(gè)嵌入空間之間進(jìn)行映射�，F(xiàn)代文生視頻模型通常依賴長(zhǎng)且結(jié)構(gòu)良好的文本提示詞，而編輯任務(wù)通常涉及簡(jiǎn)短的指令，這產(chǎn)生了分布差距。為了彌補(bǔ)這一差距，本工作采用了漸進(jìn)式訓(xùn)練策略，逐步轉(zhuǎn)變輸入條件的分布。具體而言，將短提示詞視為長(zhǎng)提示詞與簡(jiǎn)練編輯指令之間的中間形式。在第二階段，使用長(zhǎng)短提示詞混合訓(xùn)練模型，以確保對(duì)兩種形式的魯棒性，并在該階段開(kāi)始更新 MMDiT 參數(shù)。一旦模型適應(yīng)了短提示詞輸入，便進(jìn)入最后階段，進(jìn)行全多任務(wù)混合訓(xùn)練。各階段的數(shù)據(jù)混合比例如圖 6 所示。這使得模型能夠平滑地從結(jié)構(gòu)化文本視頻條件過(guò)渡到基于指令的多模態(tài)生成和編輯。

實(shí)驗(yàn)

實(shí)驗(yàn)設(shè)置

基礎(chǔ)模型：采用 Qwen3VL-4B-Instruction 作為多模態(tài)編碼器，HunyuanVideo 作為視覺(jué)生成器初始化。數(shù)據(jù)策略：結(jié)合了大規(guī)模開(kāi)源圖像/視頻集合與高質(zhì)量的蒸餾數(shù)據(jù)。采用動(dòng)態(tài)分辨率分桶策略（Dynamic resolution bucketing），在保持原始長(zhǎng)寬比的同時(shí)平衡計(jì)算負(fù)載。訓(xùn)練細(xì)節(jié)：分為三個(gè)階段，使用 DeepSpeed ZeRO-2 進(jìn)行訓(xùn)練。根據(jù)任務(wù)動(dòng)態(tài)調(diào)整視頻幀數(shù)和參考圖像數(shù)量。

視覺(jué)生成表現(xiàn)

基礎(chǔ)能力保持：盡管在 Stage 3 中標(biāo)準(zhǔn)的文生圖/文生視頻數(shù)據(jù)占比很小，但在 Geneval 和 VBench 基準(zhǔn)測(cè)試中，VINO 的性能指標(biāo)與 HunyuanVideo 骨干網(wǎng)絡(luò)高度相當(dāng)。證明了訓(xùn)練策略有效避免了災(zāi)難性遺忘。

參考生成能力：在 OpenS2V 基準(zhǔn)測(cè)試（針對(duì)特定主體的視頻生成）中，VINO 表現(xiàn)出明顯的優(yōu)勢(shì)，能夠有效地根據(jù)參考圖像生成定制化視頻。

視覺(jué)編輯表現(xiàn)

圖像編輯：在 ImgEdit 和 GEdit 基準(zhǔn)測(cè)試中，VINO 在僅經(jīng)過(guò) Stage 3 的少量訓(xùn)練后（1k 步），其編輯能力就迅速超越了大多數(shù)開(kāi)源基線。這得益于漸進(jìn)式訓(xùn)練帶來(lái)的強(qiáng)大指令遵循能力。

視頻編輯：與 VACE-Ditto 等方法相比，VINO 在相同輸入下展現(xiàn)了更強(qiáng)的指令遵循性和視覺(jué)質(zhì)量，能夠準(zhǔn)確執(zhí)行如“移除物體”、“風(fēng)格轉(zhuǎn)換”等復(fù)雜操作。

消融實(shí)驗(yàn)

可學(xué)習(xí) Token 的作用：引入可學(xué)習(xí) Token 顯著提升了訓(xùn)練的穩(wěn)定性（優(yōu)化曲線更平滑），并增強(qiáng)了多模態(tài)條件的保真度。去除這些 Token 會(huì)導(dǎo)致梯度噪聲變大，且在物體移除/替換等任務(wù)中表現(xiàn)下降。

Image CFG 的影響：增加圖像分類器自由引導(dǎo)（Image CFG）的權(quán)重可以增強(qiáng)對(duì)參考圖像視覺(jué)身份的保持，但過(guò)大的權(quán)重會(huì)抑制動(dòng)作的多樣性。

特殊 Token（邊界標(biāo)記）的作用：如果在 VAE 隱變量序列中不使用特殊的邊界 Token，模型會(huì)錯(cuò)誤地糾纏視頻的時(shí)間結(jié)構(gòu)與靜態(tài)圖像隱變量，導(dǎo)致生成的首幀出現(xiàn)明顯偽影。

結(jié)論

VINO，這是一個(gè)能夠在單一框架下執(zhí)行圖像和視頻生成及編輯的統(tǒng)一視覺(jué)生成器。通過(guò)精心設(shè)計(jì)的模型組件以及接受交錯(cuò)全模態(tài)上下文的條件管線，VINO 能夠無(wú)縫集成異構(gòu)輸入并處理廣泛的視覺(jué)任務(wù)。廣泛的對(duì)比實(shí)驗(yàn)證明了本方法的有效性和強(qiáng)大性能。此外，本工作的漸進(jìn)式訓(xùn)練策略使得模型在獲得魯棒的多任務(wù)能力的同時(shí)，保留了基礎(chǔ)視頻骨干網(wǎng)絡(luò)的生成優(yōu)勢(shì)，最終產(chǎn)出了一個(gè)連貫且統(tǒng)一的視覺(jué)生成器。VINO 為多對(duì)多（many-to-many）視覺(jué)生成提供了一個(gè)靈活、可擴(kuò)展的基礎(chǔ)，并為更通用的多模態(tài)生成系統(tǒng)鋪平了道路。

局限性與未來(lái)工作：

文本渲染能力：基礎(chǔ)模型缺乏文本渲染能力，使得 VINO 在涉及文本編輯的基準(zhǔn)測(cè)試中處于劣勢(shì)。編輯數(shù)據(jù)質(zhì)量：現(xiàn)有的指令編輯數(shù)據(jù)集質(zhì)量通常低于大規(guī)模生成數(shù)據(jù)集，包含的運(yùn)動(dòng)有限且結(jié)構(gòu)簡(jiǎn)單，這可能導(dǎo)致模型在引入編輯任務(wù)后，視覺(jué)保真度或動(dòng)作豐富度略有下降。計(jì)算成本：在 MMDiT 中，全注意力機(jī)制的復(fù)雜度呈二次方增長(zhǎng)。因此，當(dāng)提供參考視頻和大量參考圖像時(shí)，推理延遲會(huì)顯著增加。模態(tài)限制：目前支持的模態(tài)受限于 VLM。探索更強(qiáng)大、更全面的 VLM 是未來(lái)的研究方向。參考文獻(xiàn)

[1] VInO: A Unified Visual Generator with Interleaved OmniModal Context

原文標(biāo)題 : 全棧視覺(jué)生成器殺到！上交&快手&南洋理工最新VINO：圖像視頻生成+編輯一網(wǎng)打盡