123,123

超越Wan-2.1 和 MatrixGame！Yume1.5：交互式世界生成模型，單卡12 FPS實(shí)時(shí)交互渲染

2025-12-30 14:33

AI生成未來(lái)

關(guān)注

作者：Xiaofeng Mao等

解讀：AI生成未來(lái)

亮點(diǎn)直擊

聯(lián)合時(shí)空通道建模（TSCM）：用于無(wú)限上下文生成，盡管上下文長(zhǎng)度不斷增加，該方法仍能保持穩(wěn)定的采樣速度。

將 Self-Forcing 與 TSCM 集成：旨在加速 Yume1.5 的推理過(guò)程，同時(shí)減少（長(zhǎng)序列生成中的）誤差累積。

實(shí)現(xiàn)了卓越的生成與編輯性能：通過(guò)精細(xì)的數(shù)據(jù)集構(gòu)建和模型架構(gòu)設(shè)計(jì)，Yume1.5 在世界生成（World Generation）和編輯（Editing）任務(wù)上均取得了優(yōu)異的表現(xiàn)。

解決的問(wèn)題

現(xiàn)有的視頻生成和世界模擬模型主要面臨三大挑戰(zhàn)：

通用性有限：大多基于游戲數(shù)據(jù)訓(xùn)練，難以生成逼真的動(dòng)態(tài)城市場(chǎng)景。

生成延遲高：擴(kuò)散模型的高計(jì)算成本限制了實(shí)時(shí)連續(xù)生成，難以實(shí)現(xiàn)流暢的無(wú)限探索。

文本控制能力不足：現(xiàn)有方法通常僅支持鍵盤/鼠標(biāo)控制，缺乏通過(guò)文本指令生成隨機(jī)事件（如“出現(xiàn)幽靈”）的能力。

提出的方案

Yume1.5 通過(guò)三個(gè)核心維度的系統(tǒng)優(yōu)化來(lái)解決上述問(wèn)題：

長(zhǎng)視頻生成架構(gòu)：采用聯(lián)合時(shí)空通道建模（TSCM），有效壓縮歷史上下文。

實(shí)時(shí)加速策略：結(jié)合雙向注意力蒸餾（Self-Forcing）與增強(qiáng)的文本嵌入方案，大幅提升推理速度并減少誤差積累。

文本控制事件生成：通過(guò)混合數(shù)據(jù)集訓(xùn)練策略和特定的架構(gòu)設(shè)計(jì)，實(shí)現(xiàn)了基于文本的事件觸發(fā)。

應(yīng)用的技術(shù)

聯(lián)合時(shí)空通道建模 (TSCM)：針對(duì)長(zhǎng)視頻生成，分別在時(shí)空維度和通道維度對(duì)歷史幀進(jìn)行壓縮，減少顯存占用并保持推理速度。

線性注意力 (Linear Attention)：在 DiT 塊中處理通道壓縮后的特征，提升計(jì)算效率。

Self-Forcing 蒸餾：訓(xùn)練模型使用自己生成的（含誤差的）歷史幀作為條件進(jìn)行預(yù)測(cè)，從而提高對(duì)推理過(guò)程中誤差累積的魯棒性。

雙流文本編碼：將文本提示分解為“事件描述”和“動(dòng)作描述”，分別處理以降低計(jì)算開(kāi)銷。

達(dá)到的效果

性能提升：在 Yume-Bench 基準(zhǔn)測(cè)試中，指令跟隨能力（Instruction Following）得分達(dá)到 0.836，顯著優(yōu)于 Wan-2.1 和 MatrixGame。

實(shí)時(shí)性：在單張 A100 GPU 上，以 540p 分辨率實(shí)現(xiàn)了 12 FPS 的生成速度。

長(zhǎng)時(shí)一致性：通過(guò) TSCM 和 Self-Forcing，模型在長(zhǎng)序列生成中保持了更穩(wěn)定的美學(xué)質(zhì)量和圖像質(zhì)量，避免了傳統(tǒng)滑動(dòng)窗口方法的劇烈衰減。

方法

本文提出了一個(gè)綜合框架，通過(guò)多維度的系統(tǒng)性創(chuàng)新，生成交互式、逼真且時(shí)間連貫的視頻世界。該方法為聯(lián)合文本生成視頻（Text-to-Video, T2V）和圖像生成視頻（Image-to-Video, I2V）建立了統(tǒng)一的基礎(chǔ)，同時(shí)解決了長(zhǎng)期一致性和實(shí)時(shí)性能的關(guān)鍵挑戰(zhàn)。

核心貢獻(xiàn)包括：（1）用于高效長(zhǎng)視頻生成的聯(lián)合 TSCM 策略；（2）結(jié)合 TSCM 和 Self-Forcing 的實(shí)時(shí)加速框架；（3）一種交替訓(xùn)練范式，同時(shí)實(shí)現(xiàn)世界生成和探索能力�？偟膩�(lái)說(shuō)，這些進(jìn)展促進(jìn)了適用于復(fù)雜現(xiàn)實(shí)場(chǎng)景探索的動(dòng)態(tài)交互式環(huán)境的創(chuàng)建。

圖1。Yume1.5框架支持三種交互式生成模式：從描述生成文本到世界、從靜態(tài)圖像生成到世界，以及基于文本的事件編輯。所有模式均通過(guò)連續(xù)鍵盤輸入控制，用于人物和攝像機(jī)移動(dòng)，實(shí)現(xiàn)自回歸生成可探索且持久的虛擬世界。我們?cè)谘a(bǔ)充材料中包含了演示視頻。

架構(gòu)初步

本文采用 Wan提出的方法論，建立了一個(gè)用于聯(lián)合 T2V 和 I2V 生成的基礎(chǔ)模型。該方法使用噪聲初始化視頻生成過(guò)程。對(duì)于文本生成視頻訓(xùn)練，文本嵌入和被輸入到 DiT 主干網(wǎng)絡(luò)中。

對(duì)于圖像生成視頻模型，給定圖像或視頻條件，將其補(bǔ)零以匹配維度。構(gòu)建一個(gè)二進(jìn)制掩碼（其中 1 表示保留區(qū)域，0 表示待生成區(qū)域）。條件輸入通過(guò) 進(jìn)行融合，隨后由 Wan DiT 主干網(wǎng)絡(luò)處理。此時(shí)，可以被視為由歷史幀和預(yù)測(cè)幀組成。

本文的文本編碼策略不同于 Wan 的方法。Wan 直接通過(guò) T5 處理整個(gè)標(biāo)題，而本文如圖 3(b) 所示，將標(biāo)題分解為事件描述 (Event Description) 和動(dòng)作描述 (Action Description)，并將它們分別輸入 T5。隨后將得到的嵌入表示進(jìn)行拼接。事件描述指定要生成的目標(biāo)場(chǎng)景或事件，而動(dòng)作描述定義鍵盤和鼠標(biāo)控制。這種方法具有顯著優(yōu)勢(shì)：由于可能的動(dòng)作描述集合是有限的，它們可以被高效地預(yù)計(jì)算和緩存。同時(shí)，事件描述僅在初始生成階段處理。結(jié)果是，該方法大幅降低了后續(xù)視頻推理步驟中的 T5 計(jì)算開(kāi)銷。模型使用 Rectified Flow 損失進(jìn)行訓(xùn)練。

圖 3.Yume1.5 的核心組件。 (a) 具有線性注意力的 DiT 塊，可實(shí)現(xiàn)有效的特征融合。 (b) 具有分解的事件和動(dòng)作描述的訓(xùn)練管道。 (c) 基于時(shí)間距離以不同壓縮率進(jìn)行自適應(yīng)歷史標(biāo)記下采樣。 (d) 具有雙壓縮內(nèi)存管理的基于塊的自回歸推理。通過(guò)聯(lián)合時(shí)空通道建模 (TSCM) 實(shí)現(xiàn)長(zhǎng)視頻生成

鑒于視頻推理持續(xù)時(shí)間的延長(zhǎng)，視頻條件的幀數(shù) 逐漸增加，導(dǎo)致巨大的計(jì)算開(kāi)銷。將所有上下文幀包含在計(jì)算中是不切實(shí)際的。現(xiàn)有的幾種方法旨在緩解這個(gè)問(wèn)題：

滑動(dòng)窗口：一種廣泛采用的方法，選擇當(dāng)前預(yù)測(cè)幀附近的窗口內(nèi)的連續(xù)最近幀。然而，這種方法往往導(dǎo)致歷史幀信息的丟失。

歷史幀壓縮：諸如 FramePack和 Yume等方法對(duì)歷史幀進(jìn)行壓縮，對(duì)接近預(yù)測(cè)幀的幀應(yīng)用較少的壓縮，對(duì)較遠(yuǎn)的幀應(yīng)用較大的壓縮。這同樣導(dǎo)致更遠(yuǎn)的歷史幀信息丟失增加。

基于相機(jī)軌跡的搜索：像 World Memory這樣的方法利用已知的相機(jī)軌跡來(lái)計(jì)算歷史幀與待預(yù)測(cè)當(dāng)前幀之間的視場(chǎng)重疊，選擇重疊度最高的幀。這種方法與通過(guò)鍵盤輸入控制的視頻模型不兼容。即使有預(yù)測(cè)的相機(jī)軌跡，在動(dòng)態(tài)視點(diǎn)變化下準(zhǔn)確估計(jì)軌跡仍然很困難，通常會(huì)導(dǎo)致顯著誤差。

為了解決這些局限性，本文提出了聯(lián)合時(shí)空-通道建模 (Joint Temporal–Spatial–Channel Modeling) 方法，分兩步實(shí)施。本文考慮分別對(duì)歷史幀應(yīng)用時(shí)空壓縮和通道級(jí)壓縮。

時(shí)空壓縮

對(duì)于歷史幀，本文首先應(yīng)用時(shí)間和空間壓縮：以 1/32 的比率執(zhí)行隨機(jī)幀采樣，隨后使用高壓縮比的 Patchify。壓縮方案運(yùn)作如下：

在此，表示分別沿的時(shí)間、高度和寬度維度進(jìn)行、和的下采樣。類似地，對(duì)應(yīng)于沿相同維度的、和下采樣率，依此類推。本文通過(guò)在 DiT 內(nèi)部插值 Patchify 權(quán)重來(lái)實(shí)現(xiàn)這些變化的下采樣率。與 YUME 相比，本文執(zhí)行時(shí)間隨機(jī)幀采樣的方法減少了 Patchify 的參數(shù)量和模型的計(jì)算負(fù)載。本文獲得壓縮表示，并通過(guò)具有下采樣率的原始 Patchify 處理預(yù)測(cè)幀。壓縮表示隨后與處理后的預(yù)測(cè)幀拼接，組合后的張量被輸入到 DiT 塊中。

通道壓縮

本文對(duì)歷史幀應(yīng)用進(jìn)一步的下采樣，將通過(guò)一個(gè)壓縮率為的 Patchify，并將通道維度降至 96，得到。如圖 3(a) 所示，這些壓縮的歷史 Token 被輸入到 DiT 塊中。在視頻 Token 通過(guò) DiT 塊中的交叉注意力層后，它們首先通過(guò)全連接 (FC) 層進(jìn)行通道縮減，在提取預(yù)測(cè)幀后，將其與拼接。組合后的 Token 通過(guò)線性注意力層融合產(chǎn)生。最后，通過(guò)另一個(gè) FC 層以恢復(fù)通道維度，然后逐元素加到上進(jìn)行特征融合：，其中表示中的 Token 數(shù)量。

線性注意力。本文的設(shè)計(jì)如圖 3(a) 所示。該方法從線性注意力中汲取靈感，易于實(shí)現(xiàn)。本文通過(guò)全連接層投影以獲得查詢、鍵和值表示，然后用點(diǎn)積替換指數(shù)核函數(shù) ，其中是 ReLU 激活函數(shù)。計(jì)算定義如下：

其中表示中的 Token 數(shù)量。然后本文計(jì)算，隨后將 ROPE 應(yīng)用于和，同時(shí)結(jié)合歸一化層以防止梯度不穩(wěn)定。通常，注意力輸出會(huì)通過(guò)線性層，因此本文在此計(jì)算之前應(yīng)用歸一化層：

小結(jié)。由于標(biāo)準(zhǔn)注意力的計(jì)算成本對(duì)輸入 Token 的數(shù)量敏感，通過(guò)時(shí)空壓縮來(lái)壓縮歷史幀，并在 DiT 塊中使用標(biāo)準(zhǔn)注意力將其與預(yù)測(cè)幀一起處理。相反，由于線性注意力對(duì)通道維度敏感，對(duì)歷史幀應(yīng)用通道級(jí)壓縮，并在 DiT 塊的線性注意力層中將其與預(yù)測(cè)幀融合。通過(guò)這種方法，本文實(shí)現(xiàn)了聯(lián)合時(shí)空通道壓縮，同時(shí)保持了生成質(zhì)量。

實(shí)時(shí)加速

本文首先在混合數(shù)據(jù)集上訓(xùn)練預(yù)訓(xùn)練的擴(kuò)散模型。本文對(duì) T2V 和 I2V 任務(wù)采用交替訓(xùn)練策略。具體來(lái)說(shuō)，模型在當(dāng)前步驟在 T2V 數(shù)據(jù)集上訓(xùn)練，在下一步切換到 I2V 數(shù)據(jù)集。這種方法使模型具備了世界生成、編輯和探索的綜合能力。由此產(chǎn)生的模型稱為基礎(chǔ)模型。

如圖 4 所示，本文首先使用基礎(chǔ)模型的權(quán)重初始化生成器、假模型和真模型。生成器從其自身的分布中采樣先前的幀，并將其用作生成新預(yù)測(cè)幀的上下文。這個(gè)過(guò)程迭代進(jìn)行，按順序生成并組裝幀以形成清晰的視頻序列。然后，本文通過(guò)最小化跨噪聲水平的擴(kuò)散真實(shí)數(shù)據(jù)分布與生成數(shù)據(jù)分布之間的預(yù)期 KL 散度，將多步擴(kuò)散模型轉(zhuǎn)換為少步生成器：

其中是步驟的前向擴(kuò)散。與 DMD 的關(guān)鍵區(qū)別在于使用模型預(yù)測(cè)的數(shù)據(jù)而不是真實(shí)數(shù)據(jù)作為視頻條件，從而減輕了訓(xùn)練-推理差異及相關(guān)的誤差累積。

本文的方法與 Self-Forcing 的不同之處在于消除了 KV 緩存并引入了時(shí)空通道建模 (TSCM)，從而能夠利用更長(zhǎng)的上下文信息。

實(shí)驗(yàn)

實(shí)驗(yàn)設(shè)置：

基礎(chǔ)模型：使用 Wan2.2-5B 作為預(yù)訓(xùn)練模型。訓(xùn)練參數(shù)：分辨率 704x1280，16 FPS，使用 NVIDIA A100 GPU。先進(jìn)行 10,000 次迭代的基礎(chǔ)訓(xùn)練，再進(jìn)行 600 次迭代的 Self-Forcing + TSCM 訓(xùn)練。評(píng)估指標(biāo)：使用 Yume-Bench，包含指令跟隨（Instruction Following）、主體/背景一致性、運(yùn)動(dòng)平滑度、美學(xué)質(zhì)量和成像質(zhì)量。

定量結(jié)果：

I2V 生成對(duì)比：Yume1.5 在指令跟隨能力上得分 0.836，遠(yuǎn)超 Yume (0.657)、MatrixGame (0.271) 和 Wan-2.1 (0.057)。推理速度極快：生成一個(gè) block 僅需 8 秒，而 Wan-2.1 需 611 秒。長(zhǎng)視頻生成驗(yàn)證：對(duì)比了是否使用 Self-Forcing + TSCM 的模型。結(jié)果顯示，隨著視頻片段數(shù)量增加（時(shí)間推移），使用該技術(shù)的模型在第 4-6 個(gè)片段的美學(xué)得分和圖像質(zhì)量得分保持穩(wěn)定，而未使用的模型則出現(xiàn)明顯下降。

消融研究：

TSCM 的有效性：移除 TSCM 改用簡(jiǎn)單的空間壓縮后，指令跟隨能力從 0.836 降至 0.767。此外，TSCM 使得自回歸推理時(shí)間隨上下文增加保持穩(wěn)定（在 8 個(gè) block 后每步推理時(shí)間恒定），而全上下文輸入方法的速度則急劇下降。

結(jié)論

Yume1.5，這是一個(gè)交互式世界生成模型，能夠通過(guò)自回歸合成從單張輸入圖像生成無(wú)限視頻，同時(shí)支持直觀的基于鍵盤的相機(jī)控制。本文的框架解決了動(dòng)態(tài)世界生成中的三個(gè)基本挑戰(zhàn)：跨領(lǐng)域的通用性有限、高計(jì)算延遲以及文本控制能力不足。

Yume1.5 的關(guān)鍵創(chuàng)新包括：（1）一種聯(lián)合時(shí)空通道建模 (TSCM) 方法，在保持時(shí)間連貫性的同時(shí)實(shí)現(xiàn)高效的長(zhǎng)視頻生成；（2）一種減輕推理過(guò)程中誤差累積的加速方法；（3）通過(guò)精心的架構(gòu)設(shè)計(jì)和混合數(shù)據(jù)集訓(xùn)練實(shí)現(xiàn)的文本控制世界事件生成能力。

展望將 Yume1.5 擴(kuò)展以支持更復(fù)雜的世界交互，并在虛擬環(huán)境和模擬系統(tǒng)中擁有更廣泛的應(yīng)用場(chǎng)景。

參考文獻(xiàn)

[1] Yume1.5: A Text-Controlled Interactive World Generation Model

原文標(biāo)題 : 超越Wan-2.1 和 MatrixGame！Yume1.5：交互式世界生成模型，單卡12 FPS實(shí)時(shí)交互渲染