訂閱
糾錯
加入自媒體

超越Wan-2.1 和 MatrixGame!Yume1.5:交互式世界生成模型,單卡12 FPS實時交互渲染

作者:Xiaofeng Mao等

解讀:AI生成未來

亮點直擊

聯(lián)合時空通道建模(TSCM):用于無限上下文生成,盡管上下文長度不斷增加,該方法仍能保持穩(wěn)定的采樣速度。

將 Self-Forcing 與 TSCM 集成:旨在加速 Yume1.5 的推理過程,同時減少(長序列生成中的)誤差累積。

實現(xiàn)了卓越的生成與編輯性能:通過精細的數(shù)據(jù)集構(gòu)建和模型架構(gòu)設(shè)計,Yume1.5 在世界生成(World Generation)和編輯(Editing)任務(wù)上均取得了優(yōu)異的表現(xiàn)。

解決的問題

現(xiàn)有的視頻生成和世界模擬模型主要面臨三大挑戰(zhàn):

通用性有限:大多基于游戲數(shù)據(jù)訓(xùn)練,難以生成逼真的動態(tài)城市場景。

生成延遲高:擴散模型的高計算成本限制了實時連續(xù)生成,難以實現(xiàn)流暢的無限探索。

文本控制能力不足:現(xiàn)有方法通常僅支持鍵盤/鼠標控制,缺乏通過文本指令生成隨機事件(如“出現(xiàn)幽靈”)的能力。

提出的方案

Yume1.5 通過三個核心維度的系統(tǒng)優(yōu)化來解決上述問題:

長視頻生成架構(gòu):采用聯(lián)合時空通道建模(TSCM),有效壓縮歷史上下文。

實時加速策略:結(jié)合雙向注意力蒸餾(Self-Forcing)與增強的文本嵌入方案,大幅提升推理速度并減少誤差積累。

文本控制事件生成:通過混合數(shù)據(jù)集訓(xùn)練策略和特定的架構(gòu)設(shè)計,實現(xiàn)了基于文本的事件觸發(fā)。

應(yīng)用的技術(shù)

聯(lián)合時空通道建模 (TSCM):針對長視頻生成,分別在時空維度和通道維度對歷史幀進行壓縮,減少顯存占用并保持推理速度。

線性注意力 (Linear Attention):在 DiT 塊中處理通道壓縮后的特征,提升計算效率。

Self-Forcing 蒸餾:訓(xùn)練模型使用自己生成的(含誤差的)歷史幀作為條件進行預(yù)測,從而提高對推理過程中誤差累積的魯棒性。

雙流文本編碼:將文本提示分解為“事件描述”和“動作描述”,分別處理以降低計算開銷。

達到的效果

性能提升:在 Yume-Bench 基準測試中,指令跟隨能力(Instruction Following)得分達到 0.836,顯著優(yōu)于 Wan-2.1 和 MatrixGame。

實時性:在單張 A100 GPU 上,以 540p 分辨率實現(xiàn)了 12 FPS 的生成速度。

長時一致性:通過 TSCM 和 Self-Forcing,模型在長序列生成中保持了更穩(wěn)定的美學(xué)質(zhì)量和圖像質(zhì)量,避免了傳統(tǒng)滑動窗口方法的劇烈衰減。

方法

本文提出了一個綜合框架,通過多維度的系統(tǒng)性創(chuàng)新,生成交互式、逼真且時間連貫的視頻世界。該方法為聯(lián)合文本生成視頻(Text-to-Video, T2V)和圖像生成視頻(Image-to-Video, I2V)建立了統(tǒng)一的基礎(chǔ),同時解決了長期一致性和實時性能的關(guān)鍵挑戰(zhàn)。

核心貢獻包括:(1)用于高效長視頻生成的聯(lián)合 TSCM 策略;(2)結(jié)合 TSCM 和 Self-Forcing 的實時加速框架;(3)一種交替訓(xùn)練范式,同時實現(xiàn)世界生成和探索能力?偟膩碚f,這些進展促進了適用于復(fù)雜現(xiàn)實場景探索的動態(tài)交互式環(huán)境的創(chuàng)建。

圖1。Yume1.5框架支持三種交互式生成模式:從描述生成文本到世界、從靜態(tài)圖像生成到世界,以及基于文本的事件編輯。所有模式均通過連續(xù)鍵盤輸入控制,用于人物和攝像機移動,實現(xiàn)自回歸生成可探索且持久的虛擬世界。我們在補充材料中包含了演示視頻。

圖1。Yume1.5框架支持三種交互式生成模式:從描述生成文本到世界、從靜態(tài)圖像生成到世界,以及基于文本的事件編輯。所有模式均通過連續(xù)鍵盤輸入控制,用于人物和攝像機移動,實現(xiàn)自回歸生成可探索且持久的虛擬世界。我們在補充材料中包含了演示視頻。

架構(gòu)初步

本文采用 Wan提出的方法論,建立了一個用于聯(lián)合 T2V 和 I2V 生成的基礎(chǔ)模型。該方法使用噪聲  初始化視頻生成過程。對于文本生成視頻訓(xùn)練,文本嵌入  和  被輸入到 DiT 主干網(wǎng)絡(luò)中。

對于圖像生成視頻模型,給定圖像或視頻條件 ,將其補零以匹配維度 。構(gòu)建一個二進制掩碼 (其中 1 表示保留區(qū)域,0 表示待生成區(qū)域)。條件輸入通過  進行融合,隨后由 Wan DiT 主干網(wǎng)絡(luò)處理。此時, 可以被視為由歷史幀  和預(yù)測幀  組成。

本文的文本編碼策略不同于 Wan 的方法。Wan 直接通過 T5 處理整個標題,而本文如圖 3(b) 所示,將標題分解為 事件描述 (Event Description) 和 動作描述 (Action Description),并將它們分別輸入 T5。隨后將得到的嵌入表示進行拼接。事件描述指定要生成的目標場景或事件,而動作描述定義鍵盤和鼠標控制。這種方法具有顯著優(yōu)勢:由于可能的動作描述集合是有限的,它們可以被高效地預(yù)計算和緩存。同時,事件描述僅在初始生成階段處理。結(jié)果是,該方法大幅降低了后續(xù)視頻推理步驟中的 T5 計算開銷。模型使用 Rectified Flow 損失進行訓(xùn)練。

圖 3.Yume1.5 的核心組件。 (a) 具有線性注意力的 DiT 塊,可實現(xiàn)有效的特征融合。 (b) 具有分解的事件和動作描述的訓(xùn)練管道。 (c) 基于時間距離以不同壓縮率進行自適應(yīng)歷史標記下采樣。 (d) 具有雙壓縮內(nèi)存管理的基于塊的自回歸推理。圖 3.Yume1.5 的核心組件。 (a) 具有線性注意力的 DiT 塊,可實現(xiàn)有效的特征融合。 (b) 具有分解的事件和動作描述的訓(xùn)練管道。 (c) 基于時間距離以不同壓縮率進行自適應(yīng)歷史標記下采樣。 (d) 具有雙壓縮內(nèi)存管理的基于塊的自回歸推理。通過聯(lián)合時空通道建模 (TSCM) 實現(xiàn)長視頻生成

鑒于視頻推理持續(xù)時間的延長,視頻條件  的幀數(shù)  逐漸增加,導(dǎo)致巨大的計算開銷。將所有上下文幀包含在計算中是不切實際的。現(xiàn)有的幾種方法旨在緩解這個問題:

滑動窗口:一種廣泛采用的方法,選擇當前預(yù)測幀附近的窗口內(nèi)的連續(xù)最近幀。然而,這種方法往往導(dǎo)致歷史幀信息的丟失。

歷史幀壓縮:諸如 FramePack和 Yume等方法對歷史幀進行壓縮,對接近預(yù)測幀的幀應(yīng)用較少的壓縮,對較遠的幀應(yīng)用較大的壓縮。這同樣導(dǎo)致更遠的歷史幀信息丟失增加。

基于相機軌跡的搜索:像 World Memory這樣的方法利用已知的相機軌跡來計算歷史幀與待預(yù)測當前幀之間的視場重疊,選擇重疊度最高的幀。這種方法與通過鍵盤輸入控制的視頻模型不兼容。即使有預(yù)測的相機軌跡,在動態(tài)視點變化下準確估計軌跡仍然很困難,通常會導(dǎo)致顯著誤差。

為了解決這些局限性,本文提出了 聯(lián)合時空-通道建模 (Joint Temporal–Spatial–Channel Modeling) 方法,分兩步實施。本文考慮分別對歷史幀  應(yīng)用時空壓縮和通道級壓縮。

時空壓縮

對于歷史幀 ,本文首先應(yīng)用時間和空間壓縮:以 1/32 的比率執(zhí)行隨機幀采樣,隨后使用高壓縮比的 Patchify。壓縮方案運作如下:

在此, 表示分別沿  的時間、高度和寬度維度進行 、 和  的下采樣。類似地, 對應(yīng)于沿相同維度的 、 和  下采樣率,依此類推。本文通過在 DiT 內(nèi)部插值 Patchify 權(quán)重來實現(xiàn)這些變化的下采樣率。與 YUME 相比,本文執(zhí)行時間隨機幀采樣的方法減少了 Patchify 的參數(shù)量和模型的計算負載。本文獲得壓縮表示 ,并通過具有  下采樣率的原始 Patchify 處理預(yù)測幀。壓縮表示  隨后與處理后的預(yù)測幀  拼接,組合后的張量被輸入到 DiT 塊中。

通道壓縮

本文對歷史幀  應(yīng)用進一步的下采樣,將  通過一個壓縮率為  的 Patchify,并將通道維度降至 96,得到 。如圖 3(a) 所示,這些壓縮的歷史 Token 被輸入到 DiT 塊中。在視頻 Token  通過 DiT 塊中的交叉注意力層后,它們首先通過全連接 (FC) 層進行通道縮減,在提取預(yù)測幀  后,將其與  拼接。組合后的 Token  通過線性注意力層融合產(chǎn)生 。最后,通過另一個 FC 層以恢復(fù)通道維度,然后逐元素加到  上進行特征融合:,其中  表示  中的 Token 數(shù)量。

線性注意力。本文的設(shè)計如圖 3(a) 所示。該方法從線性注意力中汲取靈感,易于實現(xiàn)。本文通過全連接層投影  以獲得查詢 、鍵  和值  表示,然后用點積  替換指數(shù)核函數(shù) ,其中  是 ReLU 激活函數(shù)。計算定義如下:

其中  表示  中的 Token 數(shù)量。然后本文計算 ,隨后將 ROPE 應(yīng)用于  和 ,同時結(jié)合歸一化層  以防止梯度不穩(wěn)定。通常,注意力輸出  會通過線性層,因此本文在此計算之前應(yīng)用歸一化層:

小結(jié)。由于標準注意力的計算成本對輸入 Token 的數(shù)量敏感,通過時空壓縮來壓縮歷史幀,并在 DiT 塊中使用標準注意力將其與預(yù)測幀一起處理。相反,由于線性注意力對通道維度敏感,對歷史幀應(yīng)用通道級壓縮,并在 DiT 塊的線性注意力層中將其與預(yù)測幀融合。通過這種方法,本文實現(xiàn)了聯(lián)合時空通道壓縮,同時保持了生成質(zhì)量。

實時加速

本文首先在混合數(shù)據(jù)集上訓(xùn)練預(yù)訓(xùn)練的擴散模型。本文對 T2V 和 I2V 任務(wù)采用交替訓(xùn)練策略。具體來說,模型在當前步驟在 T2V 數(shù)據(jù)集上訓(xùn)練,在下一步切換到 I2V 數(shù)據(jù)集。這種方法使模型具備了世界生成、編輯和探索的綜合能力。由此產(chǎn)生的模型稱為基礎(chǔ)模型。

如圖 4 所示,本文首先使用基礎(chǔ)模型的權(quán)重初始化生成器 、假模型  和真模型 。生成器從其自身的分布中采樣先前的幀,并將其用作生成新預(yù)測幀的上下文。這個過程迭代進行,按順序生成并組裝幀以形成清晰的視頻序列 。然后,本文通過最小化跨噪聲水平  的擴散真實數(shù)據(jù)分布與生成數(shù)據(jù)分布之間的預(yù)期 KL 散度,將多步擴散模型轉(zhuǎn)換為少步生成器 :

其中  是步驟 的前向擴散。與 DMD 的關(guān)鍵區(qū)別在于使用模型預(yù)測的數(shù)據(jù)而不是真實數(shù)據(jù)作為視頻條件,從而減輕了訓(xùn)練-推理差異及相關(guān)的誤差累積。

本文的方法與 Self-Forcing 的不同之處在于消除了 KV 緩存并引入了 時空通道建模 (TSCM),從而能夠利用更長的上下文信息。

實驗

實驗設(shè)置:

基礎(chǔ)模型:使用 Wan2.2-5B 作為預(yù)訓(xùn)練模型。訓(xùn)練參數(shù):分辨率 704x1280,16 FPS,使用 NVIDIA A100 GPU。先進行 10,000 次迭代的基礎(chǔ)訓(xùn)練,再進行 600 次迭代的 Self-Forcing + TSCM 訓(xùn)練。評估指標:使用 Yume-Bench,包含指令跟隨(Instruction Following)、主體/背景一致性、運動平滑度、美學(xué)質(zhì)量和成像質(zhì)量。

定量結(jié)果:

I2V 生成對比:Yume1.5 在指令跟隨能力上得分 0.836,遠超 Yume (0.657)、MatrixGame (0.271) 和 Wan-2.1 (0.057)。推理速度極快:生成一個 block 僅需 8 秒,而 Wan-2.1 需 611 秒。長視頻生成驗證:對比了是否使用 Self-Forcing + TSCM 的模型。結(jié)果顯示,隨著視頻片段數(shù)量增加(時間推移),使用該技術(shù)的模型在第 4-6 個片段的美學(xué)得分和圖像質(zhì)量得分保持穩(wěn)定,而未使用的模型則出現(xiàn)明顯下降。

消融研究:

TSCM 的有效性:移除 TSCM 改用簡單的空間壓縮后,指令跟隨能力從 0.836 降至 0.767。此外,TSCM 使得自回歸推理時間隨上下文增加保持穩(wěn)定(在 8 個 block 后每步推理時間恒定),而全上下文輸入方法的速度則急劇下降。

結(jié)論

Yume1.5,這是一個交互式世界生成模型,能夠通過自回歸合成從單張輸入圖像生成無限視頻,同時支持直觀的基于鍵盤的相機控制。本文的框架解決了動態(tài)世界生成中的三個基本挑戰(zhàn):跨領(lǐng)域的通用性有限、高計算延遲以及文本控制能力不足。

Yume1.5 的關(guān)鍵創(chuàng)新包括:(1)一種聯(lián)合時空通道建模 (TSCM) 方法,在保持時間連貫性的同時實現(xiàn)高效的長視頻生成;(2)一種減輕推理過程中誤差累積的加速方法;(3)通過精心的架構(gòu)設(shè)計和混合數(shù)據(jù)集訓(xùn)練實現(xiàn)的文本控制世界事件生成能力。

展望將 Yume1.5 擴展以支持更復(fù)雜的世界交互,并在虛擬環(huán)境和模擬系統(tǒng)中擁有更廣泛的應(yīng)用場景。

參考文獻

[1] Yume1.5: A Text-Controlled Interactive World Generation Model

       原文標題 : 超越Wan-2.1 和 MatrixGame!Yume1.5:交互式世界生成模型,單卡12 FPS實時交互渲染

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號