訂閱
糾錯(cuò)
加入自媒體

超越Wan-2.1 和 MatrixGame!Yume1.5:交互式世界生成模型,單卡12 FPS實(shí)時(shí)交互渲染

作者:Xiaofeng Mao等

解讀:AI生成未來(lái)

亮點(diǎn)直擊

聯(lián)合時(shí)空通道建模(TSCM):用于無(wú)限上下文生成,盡管上下文長(zhǎng)度不斷增加,該方法仍能保持穩(wěn)定的采樣速度。

將 Self-Forcing 與 TSCM 集成:旨在加速 Yume1.5 的推理過(guò)程,同時(shí)減少(長(zhǎng)序列生成中的)誤差累積。

實(shí)現(xiàn)了卓越的生成與編輯性能:通過(guò)精細(xì)的數(shù)據(jù)集構(gòu)建和模型架構(gòu)設(shè)計(jì),Yume1.5 在世界生成(World Generation)和編輯(Editing)任務(wù)上均取得了優(yōu)異的表現(xiàn)。

解決的問(wèn)題

現(xiàn)有的視頻生成和世界模擬模型主要面臨三大挑戰(zhàn):

通用性有限:大多基于游戲數(shù)據(jù)訓(xùn)練,難以生成逼真的動(dòng)態(tài)城市場(chǎng)景。

生成延遲高:擴(kuò)散模型的高計(jì)算成本限制了實(shí)時(shí)連續(xù)生成,難以實(shí)現(xiàn)流暢的無(wú)限探索。

文本控制能力不足:現(xiàn)有方法通常僅支持鍵盤/鼠標(biāo)控制,缺乏通過(guò)文本指令生成隨機(jī)事件(如“出現(xiàn)幽靈”)的能力。

提出的方案

Yume1.5 通過(guò)三個(gè)核心維度的系統(tǒng)優(yōu)化來(lái)解決上述問(wèn)題:

長(zhǎng)視頻生成架構(gòu):采用聯(lián)合時(shí)空通道建模(TSCM),有效壓縮歷史上下文。

實(shí)時(shí)加速策略:結(jié)合雙向注意力蒸餾(Self-Forcing)與增強(qiáng)的文本嵌入方案,大幅提升推理速度并減少誤差積累。

文本控制事件生成:通過(guò)混合數(shù)據(jù)集訓(xùn)練策略和特定的架構(gòu)設(shè)計(jì),實(shí)現(xiàn)了基于文本的事件觸發(fā)。

應(yīng)用的技術(shù)

聯(lián)合時(shí)空通道建模 (TSCM):針對(duì)長(zhǎng)視頻生成,分別在時(shí)空維度和通道維度對(duì)歷史幀進(jìn)行壓縮,減少顯存占用并保持推理速度。

線性注意力 (Linear Attention):在 DiT 塊中處理通道壓縮后的特征,提升計(jì)算效率。

Self-Forcing 蒸餾:訓(xùn)練模型使用自己生成的(含誤差的)歷史幀作為條件進(jìn)行預(yù)測(cè),從而提高對(duì)推理過(guò)程中誤差累積的魯棒性。

雙流文本編碼:將文本提示分解為“事件描述”和“動(dòng)作描述”,分別處理以降低計(jì)算開(kāi)銷。

達(dá)到的效果

性能提升:在 Yume-Bench 基準(zhǔn)測(cè)試中,指令跟隨能力(Instruction Following)得分達(dá)到 0.836,顯著優(yōu)于 Wan-2.1 和 MatrixGame。

實(shí)時(shí)性:在單張 A100 GPU 上,以 540p 分辨率實(shí)現(xiàn)了 12 FPS 的生成速度。

長(zhǎng)時(shí)一致性:通過(guò) TSCM 和 Self-Forcing,模型在長(zhǎng)序列生成中保持了更穩(wěn)定的美學(xué)質(zhì)量和圖像質(zhì)量,避免了傳統(tǒng)滑動(dòng)窗口方法的劇烈衰減。

方法

本文提出了一個(gè)綜合框架,通過(guò)多維度的系統(tǒng)性創(chuàng)新,生成交互式、逼真且時(shí)間連貫的視頻世界。該方法為聯(lián)合文本生成視頻(Text-to-Video, T2V)和圖像生成視頻(Image-to-Video, I2V)建立了統(tǒng)一的基礎(chǔ),同時(shí)解決了長(zhǎng)期一致性和實(shí)時(shí)性能的關(guān)鍵挑戰(zhàn)。

核心貢獻(xiàn)包括:(1)用于高效長(zhǎng)視頻生成的聯(lián)合 TSCM 策略;(2)結(jié)合 TSCM 和 Self-Forcing 的實(shí)時(shí)加速框架;(3)一種交替訓(xùn)練范式,同時(shí)實(shí)現(xiàn)世界生成和探索能力?偟膩(lái)說(shuō),這些進(jìn)展促進(jìn)了適用于復(fù)雜現(xiàn)實(shí)場(chǎng)景探索的動(dòng)態(tài)交互式環(huán)境的創(chuàng)建。

圖1。Yume1.5框架支持三種交互式生成模式:從描述生成文本到世界、從靜態(tài)圖像生成到世界,以及基于文本的事件編輯。所有模式均通過(guò)連續(xù)鍵盤輸入控制,用于人物和攝像機(jī)移動(dòng),實(shí)現(xiàn)自回歸生成可探索且持久的虛擬世界。我們?cè)谘a(bǔ)充材料中包含了演示視頻。

圖1。Yume1.5框架支持三種交互式生成模式:從描述生成文本到世界、從靜態(tài)圖像生成到世界,以及基于文本的事件編輯。所有模式均通過(guò)連續(xù)鍵盤輸入控制,用于人物和攝像機(jī)移動(dòng),實(shí)現(xiàn)自回歸生成可探索且持久的虛擬世界。我們?cè)谘a(bǔ)充材料中包含了演示視頻。

架構(gòu)初步

本文采用 Wan提出的方法論,建立了一個(gè)用于聯(lián)合 T2V 和 I2V 生成的基礎(chǔ)模型。該方法使用噪聲  初始化視頻生成過(guò)程。對(duì)于文本生成視頻訓(xùn)練,文本嵌入  和  被輸入到 DiT 主干網(wǎng)絡(luò)中。

對(duì)于圖像生成視頻模型,給定圖像或視頻條件 ,將其補(bǔ)零以匹配維度 。構(gòu)建一個(gè)二進(jìn)制掩碼 (其中 1 表示保留區(qū)域,0 表示待生成區(qū)域)。條件輸入通過(guò)  進(jìn)行融合,隨后由 Wan DiT 主干網(wǎng)絡(luò)處理。此時(shí), 可以被視為由歷史幀  和預(yù)測(cè)幀  組成。

本文的文本編碼策略不同于 Wan 的方法。Wan 直接通過(guò) T5 處理整個(gè)標(biāo)題,而本文如圖 3(b) 所示,將標(biāo)題分解為 事件描述 (Event Description) 和 動(dòng)作描述 (Action Description),并將它們分別輸入 T5。隨后將得到的嵌入表示進(jìn)行拼接。事件描述指定要生成的目標(biāo)場(chǎng)景或事件,而動(dòng)作描述定義鍵盤和鼠標(biāo)控制。這種方法具有顯著優(yōu)勢(shì):由于可能的動(dòng)作描述集合是有限的,它們可以被高效地預(yù)計(jì)算和緩存。同時(shí),事件描述僅在初始生成階段處理。結(jié)果是,該方法大幅降低了后續(xù)視頻推理步驟中的 T5 計(jì)算開(kāi)銷。模型使用 Rectified Flow 損失進(jìn)行訓(xùn)練。

圖 3.Yume1.5 的核心組件。 (a) 具有線性注意力的 DiT 塊,可實(shí)現(xiàn)有效的特征融合。 (b) 具有分解的事件和動(dòng)作描述的訓(xùn)練管道。 (c) 基于時(shí)間距離以不同壓縮率進(jìn)行自適應(yīng)歷史標(biāo)記下采樣。 (d) 具有雙壓縮內(nèi)存管理的基于塊的自回歸推理。圖 3.Yume1.5 的核心組件。 (a) 具有線性注意力的 DiT 塊,可實(shí)現(xiàn)有效的特征融合。 (b) 具有分解的事件和動(dòng)作描述的訓(xùn)練管道。 (c) 基于時(shí)間距離以不同壓縮率進(jìn)行自適應(yīng)歷史標(biāo)記下采樣。 (d) 具有雙壓縮內(nèi)存管理的基于塊的自回歸推理。通過(guò)聯(lián)合時(shí)空通道建模 (TSCM) 實(shí)現(xiàn)長(zhǎng)視頻生成

鑒于視頻推理持續(xù)時(shí)間的延長(zhǎng),視頻條件  的幀數(shù)  逐漸增加,導(dǎo)致巨大的計(jì)算開(kāi)銷。將所有上下文幀包含在計(jì)算中是不切實(shí)際的。現(xiàn)有的幾種方法旨在緩解這個(gè)問(wèn)題:

滑動(dòng)窗口:一種廣泛采用的方法,選擇當(dāng)前預(yù)測(cè)幀附近的窗口內(nèi)的連續(xù)最近幀。然而,這種方法往往導(dǎo)致歷史幀信息的丟失。

歷史幀壓縮:諸如 FramePack和 Yume等方法對(duì)歷史幀進(jìn)行壓縮,對(duì)接近預(yù)測(cè)幀的幀應(yīng)用較少的壓縮,對(duì)較遠(yuǎn)的幀應(yīng)用較大的壓縮。這同樣導(dǎo)致更遠(yuǎn)的歷史幀信息丟失增加。

基于相機(jī)軌跡的搜索:像 World Memory這樣的方法利用已知的相機(jī)軌跡來(lái)計(jì)算歷史幀與待預(yù)測(cè)當(dāng)前幀之間的視場(chǎng)重疊,選擇重疊度最高的幀。這種方法與通過(guò)鍵盤輸入控制的視頻模型不兼容。即使有預(yù)測(cè)的相機(jī)軌跡,在動(dòng)態(tài)視點(diǎn)變化下準(zhǔn)確估計(jì)軌跡仍然很困難,通常會(huì)導(dǎo)致顯著誤差。

為了解決這些局限性,本文提出了 聯(lián)合時(shí)空-通道建模 (Joint Temporal–Spatial–Channel Modeling) 方法,分兩步實(shí)施。本文考慮分別對(duì)歷史幀  應(yīng)用時(shí)空壓縮和通道級(jí)壓縮。

時(shí)空壓縮

對(duì)于歷史幀 ,本文首先應(yīng)用時(shí)間和空間壓縮:以 1/32 的比率執(zhí)行隨機(jī)幀采樣,隨后使用高壓縮比的 Patchify。壓縮方案運(yùn)作如下:

在此, 表示分別沿  的時(shí)間、高度和寬度維度進(jìn)行 、 和  的下采樣。類似地, 對(duì)應(yīng)于沿相同維度的 、 和  下采樣率,依此類推。本文通過(guò)在 DiT 內(nèi)部插值 Patchify 權(quán)重來(lái)實(shí)現(xiàn)這些變化的下采樣率。與 YUME 相比,本文執(zhí)行時(shí)間隨機(jī)幀采樣的方法減少了 Patchify 的參數(shù)量和模型的計(jì)算負(fù)載。本文獲得壓縮表示 ,并通過(guò)具有  下采樣率的原始 Patchify 處理預(yù)測(cè)幀。壓縮表示  隨后與處理后的預(yù)測(cè)幀  拼接,組合后的張量被輸入到 DiT 塊中。

通道壓縮

本文對(duì)歷史幀  應(yīng)用進(jìn)一步的下采樣,將  通過(guò)一個(gè)壓縮率為  的 Patchify,并將通道維度降至 96,得到 。如圖 3(a) 所示,這些壓縮的歷史 Token 被輸入到 DiT 塊中。在視頻 Token  通過(guò) DiT 塊中的交叉注意力層后,它們首先通過(guò)全連接 (FC) 層進(jìn)行通道縮減,在提取預(yù)測(cè)幀  后,將其與  拼接。組合后的 Token  通過(guò)線性注意力層融合產(chǎn)生 。最后,通過(guò)另一個(gè) FC 層以恢復(fù)通道維度,然后逐元素加到  上進(jìn)行特征融合:,其中  表示  中的 Token 數(shù)量。

線性注意力。本文的設(shè)計(jì)如圖 3(a) 所示。該方法從線性注意力中汲取靈感,易于實(shí)現(xiàn)。本文通過(guò)全連接層投影  以獲得查詢 、鍵  和值  表示,然后用點(diǎn)積  替換指數(shù)核函數(shù) ,其中  是 ReLU 激活函數(shù)。計(jì)算定義如下:

其中  表示  中的 Token 數(shù)量。然后本文計(jì)算 ,隨后將 ROPE 應(yīng)用于  和 ,同時(shí)結(jié)合歸一化層  以防止梯度不穩(wěn)定。通常,注意力輸出  會(huì)通過(guò)線性層,因此本文在此計(jì)算之前應(yīng)用歸一化層:

小結(jié)。由于標(biāo)準(zhǔn)注意力的計(jì)算成本對(duì)輸入 Token 的數(shù)量敏感,通過(guò)時(shí)空壓縮來(lái)壓縮歷史幀,并在 DiT 塊中使用標(biāo)準(zhǔn)注意力將其與預(yù)測(cè)幀一起處理。相反,由于線性注意力對(duì)通道維度敏感,對(duì)歷史幀應(yīng)用通道級(jí)壓縮,并在 DiT 塊的線性注意力層中將其與預(yù)測(cè)幀融合。通過(guò)這種方法,本文實(shí)現(xiàn)了聯(lián)合時(shí)空通道壓縮,同時(shí)保持了生成質(zhì)量。

實(shí)時(shí)加速

本文首先在混合數(shù)據(jù)集上訓(xùn)練預(yù)訓(xùn)練的擴(kuò)散模型。本文對(duì) T2V 和 I2V 任務(wù)采用交替訓(xùn)練策略。具體來(lái)說(shuō),模型在當(dāng)前步驟在 T2V 數(shù)據(jù)集上訓(xùn)練,在下一步切換到 I2V 數(shù)據(jù)集。這種方法使模型具備了世界生成、編輯和探索的綜合能力。由此產(chǎn)生的模型稱為基礎(chǔ)模型。

如圖 4 所示,本文首先使用基礎(chǔ)模型的權(quán)重初始化生成器 、假模型  和真模型 。生成器從其自身的分布中采樣先前的幀,并將其用作生成新預(yù)測(cè)幀的上下文。這個(gè)過(guò)程迭代進(jìn)行,按順序生成并組裝幀以形成清晰的視頻序列 。然后,本文通過(guò)最小化跨噪聲水平  的擴(kuò)散真實(shí)數(shù)據(jù)分布與生成數(shù)據(jù)分布之間的預(yù)期 KL 散度,將多步擴(kuò)散模型轉(zhuǎn)換為少步生成器 :

其中  是步驟 的前向擴(kuò)散。與 DMD 的關(guān)鍵區(qū)別在于使用模型預(yù)測(cè)的數(shù)據(jù)而不是真實(shí)數(shù)據(jù)作為視頻條件,從而減輕了訓(xùn)練-推理差異及相關(guān)的誤差累積。

本文的方法與 Self-Forcing 的不同之處在于消除了 KV 緩存并引入了 時(shí)空通道建模 (TSCM),從而能夠利用更長(zhǎng)的上下文信息。

實(shí)驗(yàn)

實(shí)驗(yàn)設(shè)置:

基礎(chǔ)模型:使用 Wan2.2-5B 作為預(yù)訓(xùn)練模型。訓(xùn)練參數(shù):分辨率 704x1280,16 FPS,使用 NVIDIA A100 GPU。先進(jìn)行 10,000 次迭代的基礎(chǔ)訓(xùn)練,再進(jìn)行 600 次迭代的 Self-Forcing + TSCM 訓(xùn)練。評(píng)估指標(biāo):使用 Yume-Bench,包含指令跟隨(Instruction Following)、主體/背景一致性、運(yùn)動(dòng)平滑度、美學(xué)質(zhì)量和成像質(zhì)量。

定量結(jié)果:

I2V 生成對(duì)比:Yume1.5 在指令跟隨能力上得分 0.836,遠(yuǎn)超 Yume (0.657)、MatrixGame (0.271) 和 Wan-2.1 (0.057)。推理速度極快:生成一個(gè) block 僅需 8 秒,而 Wan-2.1 需 611 秒。長(zhǎng)視頻生成驗(yàn)證:對(duì)比了是否使用 Self-Forcing + TSCM 的模型。結(jié)果顯示,隨著視頻片段數(shù)量增加(時(shí)間推移),使用該技術(shù)的模型在第 4-6 個(gè)片段的美學(xué)得分和圖像質(zhì)量得分保持穩(wěn)定,而未使用的模型則出現(xiàn)明顯下降。

消融研究:

TSCM 的有效性:移除 TSCM 改用簡(jiǎn)單的空間壓縮后,指令跟隨能力從 0.836 降至 0.767。此外,TSCM 使得自回歸推理時(shí)間隨上下文增加保持穩(wěn)定(在 8 個(gè) block 后每步推理時(shí)間恒定),而全上下文輸入方法的速度則急劇下降。

結(jié)論

Yume1.5,這是一個(gè)交互式世界生成模型,能夠通過(guò)自回歸合成從單張輸入圖像生成無(wú)限視頻,同時(shí)支持直觀的基于鍵盤的相機(jī)控制。本文的框架解決了動(dòng)態(tài)世界生成中的三個(gè)基本挑戰(zhàn):跨領(lǐng)域的通用性有限、高計(jì)算延遲以及文本控制能力不足。

Yume1.5 的關(guān)鍵創(chuàng)新包括:(1)一種聯(lián)合時(shí)空通道建模 (TSCM) 方法,在保持時(shí)間連貫性的同時(shí)實(shí)現(xiàn)高效的長(zhǎng)視頻生成;(2)一種減輕推理過(guò)程中誤差累積的加速方法;(3)通過(guò)精心的架構(gòu)設(shè)計(jì)和混合數(shù)據(jù)集訓(xùn)練實(shí)現(xiàn)的文本控制世界事件生成能力。

展望將 Yume1.5 擴(kuò)展以支持更復(fù)雜的世界交互,并在虛擬環(huán)境和模擬系統(tǒng)中擁有更廣泛的應(yīng)用場(chǎng)景。

參考文獻(xiàn)

[1] Yume1.5: A Text-Controlled Interactive World Generation Model

       原文標(biāo)題 : 超越Wan-2.1 和 MatrixGame!Yume1.5:交互式世界生成模型,單卡12 FPS實(shí)時(shí)交互渲染

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)