訂閱
糾錯(cuò)
加入自媒體

多任務(wù)多模態(tài)全統(tǒng)一!港科大&快手可靈等最新UnityVideo:生成、理解、控制多項(xiàng)SOTA!

作者:Jiehui Huang等

解讀:AI生成未來(lái)

亮點(diǎn)直擊

統(tǒng)一框架UnityVideo,一個(gè)統(tǒng)一的多模態(tài)、多任務(wù)視頻生成與理解框架。在基于DiT的架構(gòu)中,實(shí)現(xiàn)了文本到視頻生成、可控視頻生成以及視頻模態(tài)估計(jì)(如深度、光流、骨骼等)的聯(lián)合學(xué)習(xí)。

雙向互促:通過(guò)聯(lián)合訓(xùn)練,驗(yàn)證了多模態(tài)學(xué)習(xí)不僅能實(shí)現(xiàn)任務(wù)的大一統(tǒng),還能加速模型收斂,并增強(qiáng)模型對(duì)物理世界的理解能力(如物體折射、碰撞動(dòng)力學(xué))。

零樣本泛化:模型展現(xiàn)了強(qiáng)大的零樣本(Zero-shot)泛化能力,能夠處理訓(xùn)練數(shù)據(jù)中未見(jiàn)過(guò)的物體和風(fēng)格。

貢獻(xiàn)了大規(guī)模統(tǒng)一數(shù)據(jù)集 OpenUni(130萬(wàn)對(duì)多模態(tài)樣本)和高質(zhì)量評(píng)測(cè)基準(zhǔn) UniBench(包含Unreal Engine渲染的真值數(shù)據(jù))。

解決的問(wèn)題

單一模態(tài)的局限性:現(xiàn)有的視頻生成模型大多局限于單一模態(tài)(主要是 RGB),缺乏全面的世界理解能力(World-Awareness)。

物理常識(shí)的缺失:僅靠 RGB 視頻訓(xùn)練,模型傾向于擬合分布而非進(jìn)行物理推理,難以捕捉復(fù)雜的物理動(dòng)態(tài)(如深度關(guān)系、運(yùn)動(dòng)規(guī)律)。

訓(xùn)練范式的割裂:以往的研究通常將視頻生成、可控生成和模態(tài)估計(jì)作為獨(dú)立任務(wù)處理,或者僅進(jìn)行單向交互,缺乏統(tǒng)一訓(xùn)練帶來(lái)的協(xié)同效應(yīng)。

提出的方案

全能型 DiT 架構(gòu):UnityVideo 將視頻生成(Video Generation)和視覺(jué)模態(tài)估計(jì)(Video Estimation)整合進(jìn)同一個(gè)流匹配(Flow Matching)框架中。

動(dòng)態(tài)噪聲調(diào)度:設(shè)計(jì)了一種動(dòng)態(tài)噪聲注入策略,使得模型可以在單次訓(xùn)練循環(huán)中同時(shí)處理?xiàng)l件生成、模態(tài)估計(jì)和聯(lián)合生成這三種不同的訓(xùn)練目標(biāo)。

模態(tài)自適應(yīng)學(xué)習(xí):引入了上下文學(xué)習(xí)器(In-Context Learner)和模態(tài)切換器(Modality Switcher),使模型能夠區(qū)分并處理多種異構(gòu)模態(tài)信號(hào)。

應(yīng)用的技術(shù)

動(dòng)態(tài)任務(wù)路由 :根據(jù)學(xué)習(xí)難度為不同任務(wù)(條件生成、估計(jì)、聯(lián)合生成)分配不同的采樣概率 ,并對(duì)應(yīng)不同的噪聲調(diào)度策略。

上下文學(xué)習(xí)器 :利用文本提示(如 "depth map", "human skeleton")來(lái)引導(dǎo)模型識(shí)別模態(tài)類型,而非僅描述視頻內(nèi)容,從而激活模型的上下文推理能力。

模態(tài)自適應(yīng)切換器:在 DiT 塊中引入可學(xué)習(xí)的模態(tài)嵌入列表 ,通過(guò) AdaLN-Zero 機(jī)制生成模態(tài)特定的調(diào)制參數(shù)(scale , shift , gate )。

課程學(xué)習(xí):將模態(tài)分為像素對(duì)齊(如深度、光流)和非像素對(duì)齊(如分割、骨骼)兩組,分階段進(jìn)行混合訓(xùn)練以確保穩(wěn)定收斂。

達(dá)到的效果

性能優(yōu)越:在 Text-to-Video 生成、可控生成和視頻深度/光流估計(jì)任務(wù)上,均達(dá)到或超越了現(xiàn)有 SOTA 方法(如 Kling1.6, HunyuanVideo, Aether 等)。

收斂速度提升:相比于單模態(tài)微調(diào),聯(lián)合多模態(tài)訓(xùn)練顯著降低了訓(xùn)練損失,加速了收斂。

物理一致性增強(qiáng):定性實(shí)驗(yàn)顯示,UnityVideo 在生成涉及物理規(guī)律(如玻璃折射、水流)的視頻時(shí),比現(xiàn)有商業(yè)模型更符合物理邏輯。

方法

UnityVideo 在單個(gè) Diffusion Transformer 中統(tǒng)一了視頻生成和多模態(tài)理解。如圖 3 所示,該模型通過(guò)共享的 DiT 主干網(wǎng)絡(luò)  處理 RGB 視頻 、文本條件  和輔助模態(tài) 。在訓(xùn)練過(guò)程中,本文動(dòng)態(tài)采樣任務(wù)類型并應(yīng)用相應(yīng)的噪聲調(diào)度。為了在這個(gè)統(tǒng)一架構(gòu)中處理多種模態(tài),本文引入了上下文學(xué)習(xí)器 和 模態(tài)自適應(yīng)切換器。通過(guò)漸進(jìn)式課程訓(xùn)練,模型在所有任務(wù)和模態(tài)上實(shí)現(xiàn)了同步收斂。

圖 3.UnityVideo 概述。 UnityVideo 通過(guò)應(yīng)用于輸入標(biāo)記的動(dòng)態(tài)噪聲注入策略(左)實(shí)現(xiàn)任務(wù)統(tǒng)一,并通過(guò)提出的模態(tài)感知 AdaLN 表(中)實(shí)現(xiàn)模態(tài)統(tǒng)一。 具體來(lái)說(shuō), 分別表示 RGB 模態(tài)和輔助視頻相關(guān)模態(tài)(例如深度、光流、DensePose、骨架)的可學(xué)習(xí)參數(shù)表。  表示 RGB 視頻內(nèi)容和上下文模態(tài)學(xué)習(xí)提示的提示條件,而  分別對(duì)應(yīng)于 RGB 和輔助模態(tài)的標(biāo)記序列。圖 3.UnityVideo 概述。 UnityVideo 通過(guò)應(yīng)用于輸入標(biāo)記的動(dòng)態(tài)噪聲注入策略(左)實(shí)現(xiàn)任務(wù)統(tǒng)一,并通過(guò)提出的模態(tài)感知 AdaLN 表(中)實(shí)現(xiàn)模態(tài)統(tǒng)一。 具體來(lái)說(shuō),和 分別表示 RGB 模態(tài)和輔助視頻相關(guān)模態(tài)(例如深度、光流、DensePose、骨架)的可學(xué)習(xí)參數(shù)表。 和 表示 RGB 視頻內(nèi)容和上下文模態(tài)學(xué)習(xí)提示的提示條件,而 和 分別對(duì)應(yīng)于 RGB 和輔助模態(tài)的標(biāo)記序列。

統(tǒng)一多任務(wù)

傳統(tǒng)的視頻生成模型通常孤立地針對(duì)特定任務(wù)進(jìn)行訓(xùn)練,限制了它們利用跨任務(wù)知識(shí)的能力。本文擴(kuò)展了流匹配(flow matching)框架,以在單一架構(gòu)中支持三種互補(bǔ)的訓(xùn)練范式。UnityVideo 同時(shí)處理三個(gè)目標(biāo):從輔助模態(tài)生成 RGB 視頻 (),從 RGB 視頻估計(jì)輔助模態(tài) (),以及從噪聲聯(lián)合生成兩者 ()。 和  token 沿寬度維度拼接,并通過(guò)自注意力模塊進(jìn)行交互。遵循文獻(xiàn) [18, 38],本文在 DiT 主干的自注意力中結(jié)合了 3D RoPE,以有效區(qū)分跨模態(tài)的時(shí)空位置。

動(dòng)態(tài)任務(wù)路由 。為了實(shí)現(xiàn)這三種范式的并發(fā)優(yōu)化,本文在訓(xùn)練期間引入了概率任務(wù)選擇。在每次迭代中,以概率 、 和 (其中 )采樣一種任務(wù)類型,這決定了在時(shí)間步  應(yīng)用于 RGB 和模態(tài) token 的噪聲調(diào)度。對(duì)于條件生成(如圖 3 右側(cè)所示),RGB token 從噪聲逐漸去噪 (),而模態(tài) token 保持干凈 ()。對(duì)于模態(tài)估計(jì),RGB token 保持干凈,而模態(tài) token 被加噪。對(duì)于聯(lián)合生成,兩種類型的 token 都獨(dú)立地被噪聲破壞。本文分配的任務(wù)概率與其學(xué)習(xí)難度成反比:。這種策略防止了順序階段式訓(xùn)練中常見(jiàn)的災(zāi)難性遺忘,允許模型并發(fā)地學(xué)習(xí)所有三種分布。

統(tǒng)一多模態(tài)

不同模態(tài)的聯(lián)合訓(xùn)練可以顯著提升單個(gè)任務(wù)的性能,如圖 2 所示。然而,使用共享參數(shù)處理不同模態(tài)需要顯式的機(jī)制來(lái)區(qū)分它們。本文引入了兩種互補(bǔ)的設(shè)計(jì):用于語(yǔ)義級(jí)模態(tài)感知的上下文學(xué)習(xí)器,和用于架構(gòu)級(jí)調(diào)制的模態(tài)自適應(yīng)切換器。

圖 2.統(tǒng)一模式的培訓(xùn)有利于視頻生成。 統(tǒng)一的多模態(tài)和多任務(wù)聯(lián)合訓(xùn)練在 RGB 視頻生成上實(shí)現(xiàn)了最低的最終損失,優(yōu)于單模態(tài)聯(lián)合訓(xùn)練和 RGB 微調(diào)基線。圖 2.統(tǒng)一模式的培訓(xùn)有利于視頻生成。 統(tǒng)一的多模態(tài)和多任務(wù)聯(lián)合訓(xùn)練在 RGB 視頻生成上實(shí)現(xiàn)了最低的最終損失,優(yōu)于單模態(tài)聯(lián)合訓(xùn)練和 RGB 微調(diào)基線。

上下文學(xué)習(xí)器 。為了利用模型固有的上下文推理能力,本文注入了描述模態(tài)類型(例如,“深度圖 (depth map)”、“人體骨骼 (human skeleton)”)而非視頻內(nèi)容的模態(tài)特定文本提示 。這一設(shè)計(jì)與描述內(nèi)容的標(biāo)題  有根本區(qū)別。給定拼接的 RGB token  和模態(tài) token ,本文分別執(zhí)行雙分支交叉注意力: 用于帶有內(nèi)容標(biāo)題的 RGB 特征,以及  用于帶有類型描述的模態(tài)特征,然后再將它們重新組合以進(jìn)行后續(xù)處理。這種輕量級(jí)機(jī)制引入的計(jì)算開(kāi)銷可以忽略不計(jì),同時(shí)實(shí)現(xiàn)了組合泛化。例如,使用短語(yǔ)“兩個(gè)人”進(jìn)行訓(xùn)練允許模型在分割任務(wù)期間泛化到“兩個(gè)物體”,因?yàn)槟P蛯W(xué)會(huì)了解釋模態(tài)級(jí)的語(yǔ)義,而不是記憶特定內(nèi)容的模式。詳細(xì)分析在實(shí)驗(yàn)部分提供。

模態(tài)自適應(yīng)切換器 。雖然基于文本的區(qū)分提供了語(yǔ)義感知,但隨著模態(tài)數(shù)量的擴(kuò)展,這種方式可能變得不足。因此,本文為  種模態(tài)引入了一個(gè)可學(xué)習(xí)的嵌入列表 ,以實(shí)現(xiàn)顯式的架構(gòu)級(jí)調(diào)制。在每個(gè) DiT 塊內(nèi),AdaLN-Zero基于時(shí)間步嵌入為 RGB 特征生成調(diào)制參數(shù)(縮放 ,平移 ,門控 )。本文通過(guò)學(xué)習(xí)模態(tài)特定參數(shù)來(lái)擴(kuò)展這一機(jī)制:,其中  是模態(tài)嵌入, 是時(shí)間步嵌入。這一設(shè)計(jì)實(shí)現(xiàn)了推理過(guò)程中的即插即用模態(tài)選擇。為了進(jìn)一步減少模態(tài)混淆并穩(wěn)定輸出,本文初始化了模態(tài)專家輸入-輸出層,作為每種模態(tài)的專用編碼和預(yù)測(cè)頭。

訓(xùn)練策略

多模態(tài)課程學(xué)習(xí)簡(jiǎn)單地從頭開(kāi)始聯(lián)合訓(xùn)練所有模態(tài)會(huì)導(dǎo)致收斂緩慢和性能次優(yōu)。我們將模態(tài)根據(jù)其空間對(duì)齊屬性分為兩組。像素對(duì)齊模態(tài)(光流、深度、DensePose)允許與 RGB 幀建立直接的像素到像素對(duì)應(yīng)關(guān)系,而像素非對(duì)齊模態(tài)(分割掩碼、骨骼)則包含更抽象的幾何表示且需要額外的視覺(jué)渲染步驟。

采用兩階段課程策略:第一階段(Stage 1) 僅在經(jīng)過(guò)篩選的單人數(shù)據(jù)上訓(xùn)練 RGB 視頻和像素對(duì)齊模態(tài),為空間對(duì)應(yīng)關(guān)系的學(xué)習(xí)建立堅(jiān)實(shí)基礎(chǔ)。第二階段(Stage 2) 引入所有模態(tài)以及多樣化的場(chǎng)景數(shù)據(jù)集,涵蓋以人為中心和通用的場(chǎng)景。這種漸進(jìn)式策略使得模型能夠理解所有五種模態(tài),同時(shí)支持對(duì)未見(jiàn)模態(tài)組合的魯棒零樣本(zero-shot)推理。

OpenUni 數(shù)據(jù)集我們的訓(xùn)練數(shù)據(jù)包含 130 萬(wàn)個(gè)視頻片段,涵蓋五種模態(tài):光流、深度、DensePose、骨骼和分割。如圖 4 所示,我們從多個(gè)來(lái)源收集真實(shí)世界的視頻,并使用預(yù)訓(xùn)練模型提取模態(tài)標(biāo)注。數(shù)據(jù)集包括 370,358 個(gè)單人片段、97,468 個(gè)雙人片段、489,445 個(gè)來(lái)自 Koala36M的片段,以及 343,558 個(gè)來(lái)自 OpenS2V 的片段,共計(jì) 130 萬(wàn)個(gè)樣本用于訓(xùn)練。為了防止對(duì)特定數(shù)據(jù)集或模態(tài)的過(guò)擬合,我們將每個(gè)批次(batch)劃分為四個(gè)平衡的組,確保在所有模態(tài)和來(lái)源中進(jìn)行均勻采樣。

圖4。OpenUni數(shù)據(jù)集。OpenUni包含130萬(wàn)對(duì)統(tǒng)一的多模態(tài)數(shù)據(jù),旨在豐富視頻模態(tài),賦予更全面的世界感知圖4。OpenUni數(shù)據(jù)集。OpenUni包含130萬(wàn)對(duì)統(tǒng)一的多模態(tài)數(shù)據(jù),旨在豐富視頻模態(tài),賦予更全面的世界感知

訓(xùn)練目標(biāo)

遵循條件流匹配(Conditional Flow Matching),本文框架采用一種動(dòng)態(tài)訓(xùn)練策略,通過(guò)選擇性地對(duì)不同模態(tài)添加噪聲,在三種模式之間自適應(yīng)切換。特定模式的損失函數(shù)如下:

條件生成損失 (Conditional Generation Loss):

模態(tài)估計(jì)損失 (Modality Estimation Loss):

聯(lián)合生成損失 (Joint Generation Loss):

其中  和  表示在時(shí)間步  的插值潛變量(latents), 和  分別代表 RGB 視頻和輔助模態(tài)(如光流、深度)。速度場(chǎng)定義為  和 ,其中  是從真實(shí)數(shù)據(jù)編碼的純凈潛變量,而  是獨(dú)立的分布高斯噪聲。文本條件  從預(yù)訓(xùn)練的文本編碼器獲得。

公式 (1) 實(shí)現(xiàn)了從輔助模態(tài)條件生成 RGB 視頻,公式 (2) 執(zhí)行從 RGB 視頻進(jìn)行模態(tài)估計(jì),而公式 (3) 則從文本聯(lián)合生成兩種模態(tài)。

在訓(xùn)練過(guò)程中,批次中的每個(gè)樣本被隨機(jī)分配到這三種模式之一,使得所有任務(wù)都能在單個(gè)優(yōu)化步驟中貢獻(xiàn)梯度。這種統(tǒng)一的公式允許在單個(gè)架構(gòu)內(nèi)進(jìn)行無(wú)縫的多任務(wù)學(xué)習(xí)。

實(shí)驗(yàn)

為了驗(yàn)證 UnityVideo 的有效性,本文在多個(gè)基準(zhǔn)上進(jìn)行了廣泛的實(shí)驗(yàn)。

實(shí)驗(yàn)設(shè)置

數(shù)據(jù)集:使用了本文提出的 OpenUni 數(shù)據(jù)集,包含 130 萬(wàn)對(duì)多模態(tài)視頻數(shù)據(jù)。

評(píng)測(cè)指標(biāo)

視頻生成:使用 VBench 評(píng)估,包括主觀一致性、背景一致性、美學(xué)質(zhì)量、時(shí)間閃爍等指標(biāo)。

深度估計(jì):在 UniBench 數(shù)據(jù)集上評(píng)估,報(bào)告絕對(duì)相對(duì)誤差 (AbsRel) 和閾值準(zhǔn)確率 ()。

視頻分割:報(bào)告平均精度 (mAP) 和平均交并比 (mIoU)。

主要結(jié)果

定量比較:如表 1 所示,UnityVideo 在文本生成視頻、可控生成和視頻估計(jì)任務(wù)上均取得了優(yōu)異成績(jī)。

在 T2V 任務(wù)中,UnityVideo 在所有指標(biāo)上均優(yōu)于 Kling1.6、OpenSora2、HunyuanVideo-13B 等模型。

在可控生成方面,相比 ControlNet 類方法(如 VACE),在一致性和動(dòng)態(tài)程度上表現(xiàn)更好。

在視頻估計(jì)方面,其深度估計(jì)和分割精度超越了專用模型(如 DepthCrafter, SAMWISE)。

定性比較

物理感知:相比其他模型,UnityVideo 能更準(zhǔn)確地反映物理現(xiàn)象(如水的折射)。

細(xì)節(jié)與一致性:在深度引導(dǎo)生成中,UnityVideo 既忠實(shí)于深度信息,又保持了高視頻質(zhì)量,避免了背景閃爍。具體見(jiàn)下圖5.圖5。與不同任務(wù)中SOTA方法的比較。UnityVideo展現(xiàn)出更優(yōu)越的物理推理能力,更好地遵守控制條件,并對(duì)輔助模態(tài)有更深入的理解。圖5。與不同任務(wù)中SOTA方法的比較。UnityVideo展現(xiàn)出更優(yōu)越的物理推理能力,更好地遵守控制條件,并對(duì)輔助模態(tài)有更深入的理解。

消融實(shí)驗(yàn)

多模態(tài)的影響:表 2 顯示,聯(lián)合訓(xùn)練多種模態(tài)(如深度+光流)比單獨(dú)訓(xùn)練單一模態(tài)帶來(lái)了一致的性能提升,特別是在圖像質(zhì)量和整體一致性上。

多任務(wù)訓(xùn)練的影響:表 3 表明,如果僅訓(xùn)練“可控生成”任務(wù),性能會(huì)下降;而引入“聯(lián)合生成”的多任務(wù)訓(xùn)練可以恢復(fù)甚至超越基線性能。

架構(gòu)設(shè)計(jì)的影響:表 4 和圖 6 證明,上下文學(xué)習(xí)器模態(tài)切換器各自都能提升性能,而兩者結(jié)合使用效果最佳。

模型分析與用戶研究

泛化能力:圖 7 展示了上下文學(xué)習(xí)器使得模型能夠?qū)⑨槍?duì)“人”的訓(xùn)練泛化到未見(jiàn)過(guò)的“物體”分割上。

用戶研究:在包含 70 個(gè)樣本的人工評(píng)估中,UnityVideo 在物理質(zhì)量、語(yǔ)義質(zhì)量和整體偏好上均獲得了最高評(píng)分(表 5)。

總結(jié)

UnityVideo,這是一個(gè)在單一 Diffusion Transformer 中對(duì)多種視覺(jué)模態(tài)和任務(wù)進(jìn)行建模的統(tǒng)一框架。通過(guò)利用模態(tài)自適應(yīng)學(xué)習(xí),UnityVideo 實(shí)現(xiàn)了 RGB 視頻與輔助模態(tài)(深度、光流、分割、骨骼和 DensePose)之間的雙向?qū)W習(xí),從而在兩類任務(wù)上都實(shí)現(xiàn)了相互增強(qiáng)。本文的實(shí)驗(yàn)展示了其在不同基準(zhǔn)上的最先進(jìn)性能,以及對(duì)未見(jiàn)模態(tài)組合的強(qiáng)大零樣本泛化能力。為了支持這項(xiàng)研究,本文貢獻(xiàn)了 OpenUni,這是一個(gè)包含 130 萬(wàn)同步樣本的大型多模態(tài)數(shù)據(jù)集,以及 UniBench,這是一個(gè)帶有真值標(biāo)注的高質(zhì)量評(píng)估基準(zhǔn)。UnityVideo 為統(tǒng)一多模態(tài)建模鋪平了道路,是邁向下一代世界模型的重要一步。

參考文獻(xiàn)

[1] UnityVideo: Unified Multi-Modal Multi-Task Learning for Enhancing World-Aware Video Generation

       原文標(biāo)題 : 多任務(wù)多模態(tài)全統(tǒng)一!港科大&快手可靈等最新UnityVideo:生成、理解、控制多項(xiàng)SOTA!

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)