123,123

多任務(wù)多模態(tài)全統(tǒng)一！港科大&快手可靈等最新UnityVideo:生成、理解、控制多項SOTA！

2025-12-12 14:45

作者：Jiehui Huang等

解讀：AI生成未來

亮點直擊

統(tǒng)一框架：UnityVideo，一個統(tǒng)一的多模態(tài)、多任務(wù)視頻生成與理解框架。在基于DiT的架構(gòu)中，實現(xiàn)了文本到視頻生成、可控視頻生成以及視頻模態(tài)估計（如深度、光流、骨骼等）的聯(lián)合學習。

雙向互促：通過聯(lián)合訓練，驗證了多模態(tài)學習不僅能實現(xiàn)任務(wù)的大一統(tǒng)，還能加速模型收斂，并增強模型對物理世界的理解能力（如物體折射、碰撞動力學）。

零樣本泛化：模型展現(xiàn)了強大的零樣本（Zero-shot）泛化能力，能夠處理訓練數(shù)據(jù)中未見過的物體和風格。

貢獻了大規(guī)模統(tǒng)一數(shù)據(jù)集 OpenUni（130萬對多模態(tài)樣本）和高質(zhì)量評測基準 UniBench（包含Unreal Engine渲染的真值數(shù)據(jù)）。

解決的問題

單一模態(tài)的局限性：現(xiàn)有的視頻生成模型大多局限于單一模態(tài)（主要是 RGB），缺乏全面的世界理解能力（World-Awareness）。

物理常識的缺失：僅靠 RGB 視頻訓練，模型傾向于擬合分布而非進行物理推理，難以捕捉復雜的物理動態(tài)（如深度關(guān)系、運動規(guī)律）。

訓練范式的割裂：以往的研究通常將視頻生成、可控生成和模態(tài)估計作為獨立任務(wù)處理，或者僅進行單向交互，缺乏統(tǒng)一訓練帶來的協(xié)同效應(yīng)。

提出的方案

全能型 DiT 架構(gòu)：UnityVideo 將視頻生成（Video Generation）和視覺模態(tài)估計（Video Estimation）整合進同一個流匹配（Flow Matching）框架中。

動態(tài)噪聲調(diào)度：設(shè)計了一種動態(tài)噪聲注入策略，使得模型可以在單次訓練循環(huán)中同時處理條件生成、模態(tài)估計和聯(lián)合生成這三種不同的訓練目標。

模態(tài)自適應(yīng)學習：引入了上下文學習器（In-Context Learner）和模態(tài)切換器（Modality Switcher），使模型能夠區(qū)分并處理多種異構(gòu)模態(tài)信號。

應(yīng)用的技術(shù)

動態(tài)任務(wù)路由 ：根據(jù)學習難度為不同任務(wù)（條件生成、估計、聯(lián)合生成）分配不同的采樣概率，并對應(yīng)不同的噪聲調(diào)度策略。

上下文學習器 ：利用文本提示（如 "depth map", "human skeleton"）來引導模型識別模態(tài)類型，而非僅描述視頻內(nèi)容，從而激活模型的上下文推理能力。

模態(tài)自適應(yīng)切換器：在 DiT 塊中引入可學習的模態(tài)嵌入列表，通過 AdaLN-Zero 機制生成模態(tài)特定的調(diào)制參數(shù)（scale , shift , gate ）。

課程學習：將模態(tài)分為像素對齊（如深度、光流）和非像素對齊（如分割、骨骼）兩組，分階段進行混合訓練以確保穩(wěn)定收斂。

達到的效果

性能優(yōu)越：在 Text-to-Video 生成、可控生成和視頻深度/光流估計任務(wù)上，均達到或超越了現(xiàn)有 SOTA 方法（如 Kling1.6, HunyuanVideo, Aether 等）。

收斂速度提升：相比于單模態(tài)微調(diào)，聯(lián)合多模態(tài)訓練顯著降低了訓練損失，加速了收斂。

物理一致性增強：定性實驗顯示，UnityVideo 在生成涉及物理規(guī)律（如玻璃折射、水流）的視頻時，比現(xiàn)有商業(yè)模型更符合物理邏輯。

方法

UnityVideo 在單個 Diffusion Transformer 中統(tǒng)一了視頻生成和多模態(tài)理解。如圖 3 所示，該模型通過共享的 DiT 主干網(wǎng)絡(luò) 處理 RGB 視頻、文本條件和輔助模態(tài) 。在訓練過程中，本文動態(tài)采樣任務(wù)類型并應(yīng)用相應(yīng)的噪聲調(diào)度。為了在這個統(tǒng)一架構(gòu)中處理多種模態(tài)，本文引入了上下文學習器 和 模態(tài)自適應(yīng)切換器。通過漸進式課程訓練，模型在所有任務(wù)和模態(tài)上實現(xiàn)了同步收斂。

圖 3.UnityVideo 概述。 UnityVideo 通過應(yīng)用于輸入標記的動態(tài)噪聲注入策略（左）實現(xiàn)任務(wù)統(tǒng)一，并通過提出的模態(tài)感知 AdaLN 表（中）實現(xiàn)模態(tài)統(tǒng)一。具體來說，和分別表示 RGB 模態(tài)和輔助視頻相關(guān)模態(tài)（例如深度、光流、DensePose、骨架）的可學習參數(shù)表。和表示 RGB 視頻內(nèi)容和上下文模態(tài)學習提示的提示條件，而和分別對應(yīng)于 RGB 和輔助模態(tài)的標記序列。

統(tǒng)一多任務(wù)

傳統(tǒng)的視頻生成模型通常孤立地針對特定任務(wù)進行訓練，限制了它們利用跨任務(wù)知識的能力。本文擴展了流匹配（flow matching）框架，以在單一架構(gòu)中支持三種互補的訓練范式。UnityVideo 同時處理三個目標：從輔助模態(tài)生成 RGB 視頻 ()，從 RGB 視頻估計輔助模態(tài) ()，以及從噪聲聯(lián)合生成兩者 ()。和 token 沿寬度維度拼接，并通過自注意力模塊進行交互。遵循文獻 [18, 38]，本文在 DiT 主干的自注意力中結(jié)合了 3D RoPE，以有效區(qū)分跨模態(tài)的時空位置。

動態(tài)任務(wù)路由 。為了實現(xiàn)這三種范式的并發(fā)優(yōu)化，本文在訓練期間引入了概率任務(wù)選擇。在每次迭代中，以概率、和（其中）采樣一種任務(wù)類型，這決定了在時間步應(yīng)用于 RGB 和模態(tài) token 的噪聲調(diào)度。對于條件生成（如圖 3 右側(cè)所示），RGB token 從噪聲逐漸去噪 ()，而模態(tài) token 保持干凈 ()。對于模態(tài)估計，RGB token 保持干凈，而模態(tài) token 被加噪。對于聯(lián)合生成，兩種類型的 token 都獨立地被噪聲破壞。本文分配的任務(wù)概率與其學習難度成反比：。這種策略防止了順序階段式訓練中常見的災難性遺忘，允許模型并發(fā)地學習所有三種分布。

統(tǒng)一多模態(tài)

不同模態(tài)的聯(lián)合訓練可以顯著提升單個任務(wù)的性能，如圖 2 所示。然而，使用共享參數(shù)處理不同模態(tài)需要顯式的機制來區(qū)分它們。本文引入了兩種互補的設(shè)計：用于語義級模態(tài)感知的上下文學習器，和用于架構(gòu)級調(diào)制的模態(tài)自適應(yīng)切換器。

圖 2.統(tǒng)一模式的培訓有利于視頻生成。統(tǒng)一的多模態(tài)和多任務(wù)聯(lián)合訓練在 RGB 視頻生成上實現(xiàn)了最低的最終損失，優(yōu)于單模態(tài)聯(lián)合訓練和 RGB 微調(diào)基線。圖 2.統(tǒng)一模式的培訓有利于視頻生成。統(tǒng)一的多模態(tài)和多任務(wù)聯(lián)合訓練在 RGB 視頻生成上實現(xiàn)了最低的最終損失，優(yōu)于單模態(tài)聯(lián)合訓練和 RGB 微調(diào)基線。

上下文學習器 。為了利用模型固有的上下文推理能力，本文注入了描述模態(tài)類型（例如，“深度圖 (depth map)”、“人體骨骼 (human skeleton)”）而非視頻內(nèi)容的模態(tài)特定文本提示。這一設(shè)計與描述內(nèi)容的標題有根本區(qū)別。給定拼接的 RGB token 和模態(tài) token ，本文分別執(zhí)行雙分支交叉注意力：用于帶有內(nèi)容標題的 RGB 特征，以及用于帶有類型描述的模態(tài)特征，然后再將它們重新組合以進行后續(xù)處理。這種輕量級機制引入的計算開銷可以忽略不計，同時實現(xiàn)了組合泛化。例如，使用短語“兩個人”進行訓練允許模型在分割任務(wù)期間泛化到“兩個物體”，因為模型學會了解釋模態(tài)級的語義，而不是記憶特定內(nèi)容的模式。詳細分析在實驗部分提供。

模態(tài)自適應(yīng)切換器。雖然基于文本的區(qū)分提供了語義感知，但隨著模態(tài)數(shù)量的擴展，這種方式可能變得不足。因此，本文為種模態(tài)引入了一個可學習的嵌入列表，以實現(xiàn)顯式的架構(gòu)級調(diào)制。在每個 DiT 塊內(nèi)，AdaLN-Zero基于時間步嵌入為 RGB 特征生成調(diào)制參數(shù)（縮放，平移，門控）。本文通過學習模態(tài)特定參數(shù)來擴展這一機制：，其中是模態(tài)嵌入，是時間步嵌入。這一設(shè)計實現(xiàn)了推理過程中的即插即用模態(tài)選擇。為了進一步減少模態(tài)混淆并穩(wěn)定輸出，本文初始化了模態(tài)專家輸入-輸出層，作為每種模態(tài)的專用編碼和預測頭。

訓練策略

多模態(tài)課程學習簡單地從頭開始聯(lián)合訓練所有模態(tài)會導致收斂緩慢和性能次優(yōu)。我們將模態(tài)根據(jù)其空間對齊屬性分為兩組。像素對齊模態(tài)（光流、深度、DensePose）允許與 RGB 幀建立直接的像素到像素對應(yīng)關(guān)系，而像素非對齊模態(tài)（分割掩碼、骨骼）則包含更抽象的幾何表示且需要額外的視覺渲染步驟。

采用兩階段課程策略：第一階段（Stage 1） 僅在經(jīng)過篩選的單人數(shù)據(jù)上訓練 RGB 視頻和像素對齊模態(tài)，為空間對應(yīng)關(guān)系的學習建立堅實基礎(chǔ)。第二階段（Stage 2） 引入所有模態(tài)以及多樣化的場景數(shù)據(jù)集，涵蓋以人為中心和通用的場景。這種漸進式策略使得模型能夠理解所有五種模態(tài)，同時支持對未見模態(tài)組合的魯棒零樣本（zero-shot）推理。

OpenUni 數(shù)據(jù)集我們的訓練數(shù)據(jù)包含 130 萬個視頻片段，涵蓋五種模態(tài)：光流、深度、DensePose、骨骼和分割。如圖 4 所示，我們從多個來源收集真實世界的視頻，并使用預訓練模型提取模態(tài)標注。數(shù)據(jù)集包括 370,358 個單人片段、97,468 個雙人片段、489,445 個來自 Koala36M的片段，以及 343,558 個來自 OpenS2V 的片段，共計 130 萬個樣本用于訓練。為了防止對特定數(shù)據(jù)集或模態(tài)的過擬合，我們將每個批次（batch）劃分為四個平衡的組，確保在所有模態(tài)和來源中進行均勻采樣。

圖4。OpenUni數(shù)據(jù)集。OpenUni包含130萬對統(tǒng)一的多模態(tài)數(shù)據(jù)，旨在豐富視頻模態(tài)，賦予更全面的世界感知圖4。OpenUni數(shù)據(jù)集。OpenUni包含130萬對統(tǒng)一的多模態(tài)數(shù)據(jù)，旨在豐富視頻模態(tài)，賦予更全面的世界感知

訓練目標

遵循條件流匹配（Conditional Flow Matching），本文框架采用一種動態(tài)訓練策略，通過選擇性地對不同模態(tài)添加噪聲，在三種模式之間自適應(yīng)切換。特定模式的損失函數(shù)如下：

條件生成損失 (Conditional Generation Loss):

模態(tài)估計損失 (Modality Estimation Loss):

聯(lián)合生成損失 (Joint Generation Loss):

其中和表示在時間步的插值潛變量（latents），和分別代表 RGB 視頻和輔助模態(tài)（如光流、深度）。速度場定義為和，其中是從真實數(shù)據(jù)編碼的純凈潛變量，而是獨立的分布高斯噪聲。文本條件從預訓練的文本編碼器獲得。

公式 (1) 實現(xiàn)了從輔助模態(tài)條件生成 RGB 視頻，公式 (2) 執(zhí)行從 RGB 視頻進行模態(tài)估計，而公式 (3) 則從文本聯(lián)合生成兩種模態(tài)。

在訓練過程中，批次中的每個樣本被隨機分配到這三種模式之一，使得所有任務(wù)都能在單個優(yōu)化步驟中貢獻梯度。這種統(tǒng)一的公式允許在單個架構(gòu)內(nèi)進行無縫的多任務(wù)學習。

實驗

為了驗證 UnityVideo 的有效性，本文在多個基準上進行了廣泛的實驗。

實驗設(shè)置

數(shù)據(jù)集：使用了本文提出的 OpenUni 數(shù)據(jù)集，包含 130 萬對多模態(tài)視頻數(shù)據(jù)。

評測指標：

視頻生成：使用 VBench 評估，包括主觀一致性、背景一致性、美學質(zhì)量、時間閃爍等指標。

深度估計：在 UniBench 數(shù)據(jù)集上評估，報告絕對相對誤差 (AbsRel) 和閾值準確率 ()。

視頻分割：報告平均精度 (mAP) 和平均交并比 (mIoU)。

主要結(jié)果

定量比較：如表 1 所示，UnityVideo 在文本生成視頻、可控生成和視頻估計任務(wù)上均取得了優(yōu)異成績。

在 T2V 任務(wù)中，UnityVideo 在所有指標上均優(yōu)于 Kling1.6、OpenSora2、HunyuanVideo-13B 等模型。

在可控生成方面，相比 ControlNet 類方法（如 VACE），在一致性和動態(tài)程度上表現(xiàn)更好。

在視頻估計方面，其深度估計和分割精度超越了專用模型（如 DepthCrafter, SAMWISE）。

定性比較：

物理感知：相比其他模型，UnityVideo 能更準確地反映物理現(xiàn)象（如水的折射）。

細節(jié)與一致性：在深度引導生成中，UnityVideo 既忠實于深度信息，又保持了高視頻質(zhì)量，避免了背景閃爍。具體見下圖5. 圖5。與不同任務(wù)中SOTA方法的比較。UnityVideo展現(xiàn)出更優(yōu)越的物理推理能力，更好地遵守控制條件，并對輔助模態(tài)有更深入的理解。圖5。與不同任務(wù)中SOTA方法的比較。UnityVideo展現(xiàn)出更優(yōu)越的物理推理能力，更好地遵守控制條件，并對輔助模態(tài)有更深入的理解。

消融實驗

多模態(tài)的影響：表 2 顯示，聯(lián)合訓練多種模態(tài)（如深度+光流）比單獨訓練單一模態(tài)帶來了一致的性能提升，特別是在圖像質(zhì)量和整體一致性上。

多任務(wù)訓練的影響：表 3 表明，如果僅訓練“可控生成”任務(wù)，性能會下降；而引入“聯(lián)合生成”的多任務(wù)訓練可以恢復甚至超越基線性能。

架構(gòu)設(shè)計的影響：表 4 和圖 6 證明，上下文學習器和模態(tài)切換器各自都能提升性能，而兩者結(jié)合使用效果最佳。

模型分析與用戶研究

泛化能力：圖 7 展示了上下文學習器使得模型能夠?qū)⑨槍?ldquo;人”的訓練泛化到未見過的“物體”分割上。

用戶研究：在包含 70 個樣本的人工評估中，UnityVideo 在物理質(zhì)量、語義質(zhì)量和整體偏好上均獲得了最高評分（表 5）。

總結(jié)

UnityVideo，這是一個在單一 Diffusion Transformer 中對多種視覺模態(tài)和任務(wù)進行建模的統(tǒng)一框架。通過利用模態(tài)自適應(yīng)學習，UnityVideo 實現(xiàn)了 RGB 視頻與輔助模態(tài)（深度、光流、分割、骨骼和 DensePose）之間的雙向?qū)W習，從而在兩類任務(wù)上都實現(xiàn)了相互增強。本文的實驗展示了其在不同基準上的最先進性能，以及對未見模態(tài)組合的強大零樣本泛化能力。為了支持這項研究，本文貢獻了 OpenUni，這是一個包含 130 萬同步樣本的大型多模態(tài)數(shù)據(jù)集，以及 UniBench，這是一個帶有真值標注的高質(zhì)量評估基準。UnityVideo 為統(tǒng)一多模態(tài)建模鋪平了道路，是邁向下一代世界模型的重要一步。

參考文獻

[1] UnityVideo: Unified Multi-Modal Multi-Task Learning for Enhancing World-Aware Video Generation

原文標題 : 多任務(wù)多模態(tài)全統(tǒng)一！港科大&快手可靈等最新UnityVideo:生成、理解、控制多項SOTA！