訂閱
糾錯(cuò)
加入自媒體

告別時(shí)空崩壞,生成式游戲迎來“穩(wěn)態(tài)”時(shí)刻!南大等StableWorld:打造無限續(xù)航虛擬世界

作者:Ying Yang等

解讀:AI生成未來

亮點(diǎn)直擊

識(shí)別了長時(shí)交互式世界建模中不穩(wěn)定性的根本原因:同一場景內(nèi)的微小漂移會(huì)不斷累積,最終導(dǎo)致整體場景崩潰。

一種簡單而有效的方法 StableWorld,通過一種動(dòng)態(tài)幀剔除機(jī)制(dynamic frame eviction),從源頭上有效防止誤差累積,同時(shí)保持運(yùn)動(dòng)的連續(xù)性。

在多種交互式世界模型上驗(yàn)證了該方法的有效性,包括 Matrix-Game 2.0、Open Oasis 以及 Hunyuan-GameCraft 1.0,并覆蓋了多種場景條件(靜態(tài)場景、小/大幅運(yùn)動(dòng)以及顯著視角變化)。大量實(shí)驗(yàn)結(jié)果表明,該方法在穩(wěn)定性、長期一致性以及跨交互場景的泛化能力方面均取得了持續(xù)而顯著的提升。

圖 1.StableWorld:在自然景觀和游戲世界等不同環(huán)境中生成穩(wěn)定且視覺一致的交互式視頻,同時(shí)保持連續(xù)運(yùn)動(dòng)控制并防止長期場景漂移圖 1.StableWorld:在自然景觀和游戲世界等不同環(huán)境中生成穩(wěn)定且視覺一致的交互式視頻,同時(shí)保持連續(xù)運(yùn)動(dòng)控制并防止長期場景漂移

總結(jié)速覽

解決的問題

當(dāng)前交互式視頻生成模型(如世界模型)在生成長時(shí)間序列時(shí),存在嚴(yán)重的穩(wěn)定性不足與時(shí)間不一致性問題,表現(xiàn)為空間漂移和場景崩塌。

即使在沒有交互或靜態(tài)場景下,模型也會(huì)因誤差累積導(dǎo)致生成幀逐漸偏離初始狀態(tài),破壞時(shí)間一致性。

提出的方案

提出 StableWorld 框架,其核心是 動(dòng)態(tài)幀淘汰機(jī)制。

在滑動(dòng)窗口生成過程中,動(dòng)態(tài)評估并保留幾何一致性的關(guān)鍵幀(尤其是早期較“干凈”的幀),淘汰退化或冗余的中間幀,從而從源頭抑制誤差累積。

應(yīng)用的技術(shù)

使用 ORB + RANSAC 算法計(jì)算視角重疊度,以評估幀間幾何一致性。

采用 KV-cache 窗口擴(kuò)展 分析作為技術(shù)依據(jù),驗(yàn)證引入更早、更干凈的參考幀能有效穩(wěn)定生成。

通過 幀間均方誤差(MSE) 量化漂移積累,用于現(xiàn)象分析與驗(yàn)證。

達(dá)到的效果

顯著提升穩(wěn)定性與時(shí)間一致性:有效緩解長序列生成中的場景崩塌和空間漂移問題。

模型無關(guān)性:在多個(gè)交互式視頻生成框架(如 Matrix-Game, Open-Oasis, Hunyuan-GameCraft)上均驗(yàn)證有效,具備良好泛化能力。

保持適應(yīng)性:在抑制累積誤差的同時(shí),不影響模型對大幅運(yùn)動(dòng)和場景轉(zhuǎn)換的響應(yīng)能力。

方法

預(yù)備知識(shí)

視頻生成模型。視頻生成模型通常采用全序列生成方法,即在給定條件  下一次性從噪聲生成所有幀。形式上,生成過程可以定義為:

其中  表示第  幀在第  個(gè)去噪步的狀態(tài),,  為生成的總幀數(shù)。在每個(gè)時(shí)間步 ,所有幀共享相同的噪聲方差  ,遵循統(tǒng)一的噪聲調(diào)度。盡管這種方法能獲得高質(zhì)量的結(jié)果,但單次前向傳遞對整個(gè)序列建模會(huì)產(chǎn)生高昂的計(jì)算成本,并不適用于實(shí)時(shí)交互場景。

交互式視頻生成。與全序列模型不同,交互式視頻生成采用自回歸范式,每一幀  的生成都以部分歷史幀和當(dāng)前動(dòng)作  為條件。這種條件生成表示為 ,其中  表示保存在記憶緩沖區(qū)中的選定參考幀, 代表在第  步用戶發(fā)出或代理驅(qū)動(dòng)的動(dòng)作。這種范式允許模型根據(jù)用戶動(dòng)作按順序生成幀,從而實(shí)現(xiàn)實(shí)時(shí)交互和動(dòng)態(tài)場景控制。

大多數(shù)近期的方法進(jìn)一步結(jié)合了擴(kuò)散和自回歸范式:擴(kuò)散模型用于幀內(nèi)去噪,而自回歸用于捕捉幀間的時(shí)間依賴性。形式上,整體生成過程可以表示為:

其中  表示擴(kuò)散時(shí)間步  下的第  幀。在每個(gè)擴(kuò)散步 ,模型以先前生成的幀  和當(dāng)前動(dòng)作  為條件,將  去噪為 。該公式融合了每幀內(nèi)的空間去噪和跨幀的時(shí)間依賴性,實(shí)現(xiàn)了高質(zhì)量且實(shí)時(shí)的交互式視頻生成。

場景崩塌的原因

盡管交互式視頻生成模型可以產(chǎn)生連貫的短期序列,但在長時(shí)間生成過程中,它們?nèi)詢A向于出現(xiàn)漸進(jìn)式的場景崩塌,特別是當(dāng)場景在很長一段時(shí)間內(nèi)保持高度相似時(shí)(如下圖2 所示)。相比之下,當(dāng)場景頻繁切換、模型不斷遇到新的視覺條件時(shí),這種崩塌很少發(fā)生(如下圖6 所示)。這種對比表明,崩塌在很大程度上并非由動(dòng)作控制或運(yùn)動(dòng)復(fù)雜性引起,而是與視覺信息如何在同一場景隨時(shí)間推移的保存和傳播有關(guān)。

為了理解這一行為,本工作測量了幀間均方誤差(MSE)距離,以量化幀差異如何在單個(gè)靜態(tài)場景的序列推進(jìn)中變化,如下圖3所示。左側(cè)兩圖展示了在潛在空間中不同間隔(1, 5, 10, 20)下的幀間漂移。觀察發(fā)現(xiàn),雖然相鄰幀僅表現(xiàn)出微小的差異,但這些小漂移隨著序列的延長逐漸累積。在較大間隔(如 10 或 20)上比較的幀顯示出顯著更大的漂移。由于這種偏差已存在于潛在空間中,像素空間也表現(xiàn)出類似的漂移模式(如右側(cè)兩圖所示),最終表現(xiàn)為視覺不一致和場景崩塌(上圖2)。這些觀察表明,同一場景內(nèi)的漂移隨時(shí)間累積并傳播,最終導(dǎo)致全局場景崩塌。

基于這一觀察,本工作假設(shè)使用累積漂移較小的幀作為參考,可以為后續(xù)幀的生成提供更可靠的基礎(chǔ)。為了驗(yàn)證這一假設(shè),本工作擴(kuò)大了 KV-cache 的窗口大小,允許模型訪問更清晰的幀,如下圖4所示。檢查了在不同歷史窗口大小下,每個(gè)目標(biāo)幀與第一幀之間的頻率幅度差異如何變化。在默認(rèn)設(shè)置下(窗口大小=9,圖 (a)),所有頻段都出現(xiàn)了巨大的波動(dòng)。隨著窗口大小增加到 36(圖 (b))和 90(圖 (c)),整體波動(dòng)減緩,表明誤差累積部分減少。然而,這種改進(jìn)是以更高的計(jì)算開銷和更慢的生成速度為代價(jià)的,這限制了其實(shí)用性。

進(jìn)一步的分析表明,從較大窗口觀察到的穩(wěn)定性主要源于在參考緩沖區(qū)中保留了若干清晰的早期幀。例如,在圖 (d) 中,在固定大小的窗口內(nèi)保留少量可靠的早期幀會(huì)導(dǎo)致顯著更穩(wěn)定的生成,后期幀相對于第一幀表現(xiàn)出極小的漂移。這一發(fā)現(xiàn)強(qiáng)調(diào)了早期清晰幀的質(zhì)量和保存對于緩解累積誤差起著至關(guān)重要的作用。然而,當(dāng)發(fā)生大幅度運(yùn)動(dòng)或劇烈的場景轉(zhuǎn)換時(shí),始終保留初始幀會(huì)變得具有局限性。如下圖7 所示,盡管兩種設(shè)置遵循相同的動(dòng)作指令,但嚴(yán)格保留早期幀的設(shè)置無法切換到新場景,這表明過度的保留阻礙了場景轉(zhuǎn)換。為了同時(shí)緩解累積漂移并保持生成新場景的靈活性,引入了 StableWorld,這是一個(gè)基于動(dòng)態(tài)幀剔除機(jī)制(見下圖5)的簡單而有效的框架。

基于 ORB 幾何相似度的動(dòng)態(tài)幀剔除

為了確定是否發(fā)生場景轉(zhuǎn)換,本工作采用 ORB 特征匹配結(jié)合基于 RANSAC 的幾何驗(yàn)證來測量幀間相似度。當(dāng)推理階段沒有顯式的相機(jī)外參時(shí),ORB 提供了一種替代方案,可以生成快速且旋轉(zhuǎn)不變的局部特征,使其非常適合檢測小幅相機(jī)運(yùn)動(dòng)下的幾何一致性。通過將這種相似度估計(jì)與動(dòng)態(tài)幀剔除策略相結(jié)合,本工作持續(xù)過濾掉退化的幀,同時(shí)保留幾何一致的幀,從而有效地防止跨動(dòng)態(tài)場景的誤差累積。

當(dāng)窗口需要滑動(dòng)時(shí),必須剔除一些幀。為簡單起見,假設(shè)每一幀對應(yīng)一個(gè) token,并且每次迭代生成一個(gè) token。設(shè)  表示窗口內(nèi)的潛在空間 token, 表示它們對應(yīng)的像素空間幀,其中  是窗口大小。窗口中較早的幀定義為 ,其中 。這里, 被視為參考幀,而  被稱為中間幀。在每個(gè)更新步驟中,生成一個(gè)新幀,并相應(yīng)地剔除一個(gè)舊幀。

本工作使用以下策略確定應(yīng)剔除哪一幀。首先,通過從參考幀  和中間幀  中提取 ORB 特征來測量幾何相似度。設(shè)  和  分別表示從  和  提取的 ORB 描述符集,其中  和  是每幀中檢測到的特征數(shù)量。候選對應(yīng)關(guān)系  通過描述符空間中的最近鄰匹配獲得,隨后進(jìn)行 Lowe 比率測試:

其中  是用于過濾模糊匹配的比率測試閾值, 表示幸存的對應(yīng)關(guān)系數(shù)量。

然后使用 RANSAC 結(jié)合單應(yīng)性矩陣 (H) 和基礎(chǔ)矩陣 (F) 模型來驗(yàn)證  中的匹配,以強(qiáng)制執(zhí)行幾何一致性:

其中  和  分別表示在估計(jì)的單應(yīng)性矩陣  和基礎(chǔ)矩陣  下評估的 Sampson 幾何誤差, 和  表示相應(yīng)的內(nèi)點(diǎn)對應(yīng)集。 是用于內(nèi)點(diǎn)確定的預(yù)定義容差,誤差越小表示幾何對齊越好。本工作計(jì)算內(nèi)點(diǎn)比率:

其中  和  表示兩種模型下的內(nèi)點(diǎn)對應(yīng)數(shù)量。最終相似度分?jǐn)?shù)定義為:

如果相似度分?jǐn)?shù)  超過預(yù)定義閾值 ,則繼續(xù)對更遠(yuǎn)的幀  進(jìn)行檢查。一旦幾何相似度低于 ,過程停止。最后,如果所有中間幀都滿足閾值,則剔除最遠(yuǎn)的幀 。否則,剔除第一次失敗之前的幀(例如 )。詳細(xì)過程和實(shí)現(xiàn)設(shè)置在附錄 A 中提供。

實(shí)驗(yàn)

全面的實(shí)驗(yàn)驗(yàn)證了 StableWorld 在不同模型和場景下的有效性。

評估指標(biāo)與設(shè)置

本工作在三個(gè)主要模型上進(jìn)行了驗(yàn)證:Matrix-Game 2.0、Open-Oasis 和 Hunyuan-GameCraft 1.0。

數(shù)據(jù)集:涵蓋了自然場景、游戲場景以及包含小幅運(yùn)動(dòng)和大幅運(yùn)動(dòng)的多樣化視頻序列。

指標(biāo):

VBench-Long:用于評估視頻質(zhì)量、美學(xué)質(zhì)量、動(dòng)態(tài)程度和時(shí)間一致性等多維度指標(biāo)。

用戶研究 (User Study):邀請 20 位參與者對視頻質(zhì)量、時(shí)間一致性和運(yùn)動(dòng)平滑度進(jìn)行投票。

實(shí)現(xiàn)細(xì)節(jié):對于不同的模型,設(shè)置了相應(yīng)的 KV-cache 窗口大小和關(guān)鍵幀比較策略。ORB 相似度閾值統(tǒng)一設(shè)置為 0.75。

定量結(jié)果 (Quantitative Results)

VBench-Long 評分:如下表1所示,StableWorld 在所有三個(gè)模型上均顯著提升了圖像質(zhì)量和美學(xué)質(zhì)量。

在 Matrix-Game 2.0 上,美學(xué)質(zhì)量提升了 14.61%。

在 Open-Oasis 上,圖像質(zhì)量提升了 7.38%。

在 Hunyuan-GameCraft 1.0 上,美學(xué)質(zhì)量提升了 9.06%。

雖然時(shí)間質(zhì)量和物理理解指標(biāo)變化不大(因?yàn)樵婺P偷谋浪鶎?dǎo)致靜態(tài)畫面,從而誤導(dǎo)了這些指標(biāo)),但 StableWorld 在大多數(shù)指標(biāo)上仍有一致提升,且計(jì)算延遲僅增加 1.00–1.02倍。

用戶研究:如下表2所示,StableWorld 在視頻質(zhì)量、時(shí)間一致性和運(yùn)動(dòng)平滑度方面均獲得了絕大多數(shù)用戶的偏好(例如在 Open-Oasis 上,96.4% 的用戶認(rèn)為 StableWorld 視頻質(zhì)量更好)。

定性結(jié)果 (Qualitative Results)

下圖8展示了三個(gè)模型在加入 StableWorld 前后的對比。

結(jié)果顯示:

原版模型(Vanilla)在長序列生成中會(huì)出現(xiàn)嚴(yán)重的場景崩塌和漂移。

StableWorld 有效保持了場景的穩(wěn)定性,減少了隨時(shí)間推移的漂移,同時(shí)保持了運(yùn)動(dòng)的連續(xù)性。

更多定性比較在附錄 C 中提供,證明了該方法在長序列(數(shù)千幀)和小/大運(yùn)動(dòng)場景下的魯棒性。

消融實(shí)驗(yàn)

窗口大小 (Window Sizes):下圖9顯示,窗口過大(如 18 或 36)會(huì)引入舊場景的殘留偽影,干擾新場景生成;窗口適中(如 9)效果最佳。

相似度度量 (Similarity Metrics):圖10 和 圖11對比了 SSIM、余弦相似度和 ORB。

SSIM 對視角變化過于敏感,導(dǎo)致過早剔除清晰幀。

余弦相似度對空間變換不敏感,容易遺漏場景變化,導(dǎo)致舊幀殘留。

ORB 在兩者之間取得了最佳平衡。

ORB 相似度閾值:下圖12顯示,閾值設(shè)為 0.75 時(shí)效果最佳。過低會(huì)導(dǎo)致舊幀保留太久阻礙新場景生成,過高則導(dǎo)致清晰幀過早被剔除從而引入累積誤差。

結(jié)論

本文指出了當(dāng)前交互式視頻生成模型面臨的一個(gè)普遍問題:場景崩塌。通過深入分析發(fā)現(xiàn)這種崩塌源于同一場景內(nèi)相鄰幀之間發(fā)生的幀間漂移,這種漂移隨時(shí)間逐漸累積,最終導(dǎo)致與原始場景的巨大偏差。受此觀察啟發(fā),本工作提出了一個(gè)簡單而有效的方法——StableWorld,這是一種動(dòng)態(tài)幀剔除機(jī)制,能在保持運(yùn)動(dòng)一致性的同時(shí)顯著減少誤差累積。本工作在多個(gè)交互式視頻生成模型(包括 Matrix-Game 2.0、Open-Oasis 和 Hunyuan-GameCraft 1.0)上評估了該方法。大量實(shí)驗(yàn)表明,本工作提出的方法大幅提高了長時(shí)生成的視覺質(zhì)量,并顯示出與未來世界模型集成的巨大潛力。

參考文獻(xiàn)

[1] StableWorld: Towards Stable and Consistent Long Interactive Video Generatio

       原文標(biāo)題 : 告別時(shí)空崩壞,生成式游戲迎來“穩(wěn)態(tài)”時(shí)刻!南大等StableWorld:打造無限續(xù)航虛擬世界

聲明: 本文由入駐維科號的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報(bào)。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個(gè)字

您提交的評論過于頻繁,請輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號