訂閱
糾錯
加入自媒體

復刻“黑客帝國”子彈時間!SpaceTimePilot:視頻變可操控4D游戲,倒放/變速/運鏡隨你掌控

2026-01-06 14:21
AI生成未來
關注

作者:Zhening Huang等

解讀:AI生成未來

亮點直擊

首次實現(xiàn)了聯(lián)合空間和時間控制的視頻擴散模型: SpaceTimePilot 是首個能夠從單個單目視頻實現(xiàn)對動態(tài)場景進行聯(lián)合空間(攝像機視角)和時間(運動序列)控制的視頻擴散模型。

引入動畫時間嵌入機制: 提出了一種有效的動畫時間嵌入機制,能夠顯式控制輸出視頻的運動序列,實現(xiàn)對時間進程的精細操控,例如慢動作、反向播放和子彈時間。

提出時間扭曲訓練方案: 針對缺乏具有連續(xù)時間變化的配對視頻數(shù)據(jù)集的問題,本文設計了一種簡單有效的時間扭曲訓練方案,通過增強現(xiàn)有多視角數(shù)據(jù)集來模擬多樣化的時間差異,從而幫助模型學習時間控制并實現(xiàn)時空解耦。

構建 Cam×Time 合成數(shù)據(jù)集: 構建了第一個合成的時空全覆蓋渲染數(shù)據(jù)集 Cam×Time,該數(shù)據(jù)集提供了場景中完全自由的時空視頻軌跡,通過密集的時空采樣為模型學習解耦的 4D 表示提供了關鍵監(jiān)督。

改進攝像機條件機制: 提出了一種改進的攝像機條件機制,允許從第一幀開始改變攝像機,并引入源感知攝像機控制,將源視頻和目標視頻的攝像機姿態(tài)聯(lián)合注入擴散模型,顯著提高了攝像機控制的精度和魯棒性。

支持更長的視頻生成: 通過采用簡單的自回歸視頻生成策略,SpaceTimePilot 能夠生成任意長的連續(xù)視頻片段,實現(xiàn)靈活的多輪生成,并支持跨越擴展時空軌跡的探索。

總結速覽

解決的問題

缺乏對動態(tài)場景中空間變化(攝像機視角)和時間演變(場景運動)的完全解耦控制。

在 novel viewpoints 下進行 4D 重建通常會出現(xiàn)偽影,且渲染質(zhì)量受限。當前的視頻擴散模型盡管在空間視點控制方面有所進展,但無法在空間和時間上自由導航場景,即缺乏完整的 4D 探索能力。訓練能夠同時處理多種時間播放形式和攝像機運動的模型,在現(xiàn)有數(shù)據(jù)集上是困難的,因為它們?nèi)狈ψ銐虻臅r間變化覆蓋或無法提供具有連續(xù)時間變化的相同動態(tài)場景的配對視頻。

提出的方案

本文提出了 SpaceTimePilot,一個視頻擴散模型,旨在通過以下方式解決上述問題:

引入一種新的“動畫時間”概念,將場景動態(tài)的時間狀態(tài)獨立于攝像機控制,從而實現(xiàn)空間和時間控制的自然解耦。設計了一種有效的動畫時間嵌入機制,用于在擴散過程中顯式控制輸出視頻的運動序列。

提出了一種簡單而有效的時間扭曲訓練方案,通過重新利用現(xiàn)有的多視角數(shù)據(jù)集來模擬時間差異,以解決缺乏合適訓練數(shù)據(jù)的問題。

引入了一個名為 Cam×Time 的合成時空全覆蓋渲染數(shù)據(jù)集,它在一個場景中提供了完全自由的時空視頻軌跡,以增強控制的精確性。

改進了攝像機條件機制,允許從第一幀開始改變攝像機,并使用源感知攝像機條件化,將源視頻和目標視頻的攝像機姿態(tài)聯(lián)合注入擴散模型,以提供明確的幾何上下文。

采用自回歸視頻生成策略,通過以先前生成的片段和源視頻為條件,生成更長的視頻片段,從而支持更長的視頻序列。

應用的技術

潛在視頻擴散骨干:采用類似于現(xiàn)代文本到視頻基礎模型的架構,包含用于潛在壓縮的 3D 變分自編碼器(VAE)和在多模態(tài)令牌上操作的基于 Transformer 的去噪模型(DiT)。

動畫時間嵌入機制:通過正弦時間嵌入和 1D 卷積層將時間控制參數(shù)  編碼并注入到擴散模型中,從而實現(xiàn)對視頻運動序列的顯式控制。

改進的攝像機條件化:借鑒 ReCamMaster,并在此基礎上進行改進,通過 E_cam(c) 編碼攝像機軌跡,并進一步結合源感知攝像機條件化,將源視頻  和目標視頻  的攝像機姿態(tài)聯(lián)合注入模型。

時間扭曲訓練方案:通過對現(xiàn)有多視角視頻數(shù)據(jù)集應用反向、加速、凍結、分段慢動作和之字形運動等時間扭曲操作,來模擬多樣化的時間變化。

合成數(shù)據(jù)集 Cam×Time:在 Blender 中渲染,通過詳盡采樣攝像機-時間網(wǎng)格來提供密集且系統(tǒng)覆蓋的訓練數(shù)據(jù)。

達到的效果

統(tǒng)一的時空控制:在單個擴散模型中對攝像機和時間進行統(tǒng)一控制,能夠沿任意時空軌跡生成連續(xù)且連貫的視頻。

解耦的空間和時間探索:能夠獨立改變攝像機視角和運動序列,實現(xiàn)對動態(tài)場景在空間和時間上的連續(xù)任意探索。

靈活的運動序列重定時:能夠生成具有重新計時運動序列的新視頻,包括慢動作、反向運動和子彈時間。

精確的攝像機軌跡控制:能夠根據(jù)給定的攝像機軌跡精確控制攝像機運動。

強大的性能:在真實世界和合成數(shù)據(jù)上均表現(xiàn)出清晰的時空解耦,并與現(xiàn)有工作相比取得了強大的結果。

支持更長的視頻生成:通過自回歸推理方案,能夠生成更長、更連貫的視頻,實現(xiàn)超出輸入視頻的視點變化,例如旋轉(zhuǎn)到物體后方或從低角度切換到高空鳥瞰視角,同時保持視覺和運動的連貫性。

架構方法

本文的方法 SpaceTimePilot 通過在生成過程中解耦空間和時間因素,實現(xiàn)了子彈時間(bullet-time)和從新視點重新計時播放等效果,如上圖 1 所示。

解耦空間和時間

本文通過雙重方法實現(xiàn)空間和時間解耦:專用的時間表示和專門的數(shù)據(jù)集。

時間表示

最近的視頻擴散模型包括用于潛在幀索引  的位置嵌入,例如 RoPE(). 然而,本文發(fā)現(xiàn)使用 RoPE() 進行時間控制是無效的,因為它會干擾攝像機信號:RoPE() 通常同時限制時間和攝像機運動。為了解決空間和時間解耦問題,本文引入了一個專用的時間控制參數(shù) 。通過操縱 ,本文可以控制合成視頻  的時間進程。例如,將  設置為常數(shù)會將  鎖定到  中的特定時間戳,而反轉(zhuǎn)幀索引會以反向播放 。

時間嵌入。 為了將時間控制注入擴散模型,本文分析了幾種方法。首先,本文可以像使用幀索引一樣編碼時間,使用 RoPE 嵌入。然而,本文發(fā)現(xiàn)它不太適合時間控制。相反,本文采用應用于潛在幀  級別的正弦時間嵌入,它提供了每個幀時間位置的穩(wěn)定連續(xù)表示,并在精度和穩(wěn)定性之間提供了有利的權衡。本文進一步觀察到每個潛在幀對應一個連續(xù)的時間塊,并提出使用原始幀索引  的嵌入來支持更精細的時間控制粒度。為了實現(xiàn)這一點,本文引入了一種時間編碼方法 ,其中 。本文首先計算正弦時間嵌入來表示時間序列,,,其中 。接下來,本文應用兩個 1D 卷積層逐步將這些嵌入投影到潛在幀空間,。最后,本文將這些時間特征添加到攝像機特征和視頻令牌嵌入中,更新等式 (1) 如下:

在下文中,本文將本文的方法與替代條件策略進行比較,例如使用正弦嵌入,其中  直接定義在  中,以及使用 MLP 而不是 1D 卷積進行壓縮。本文定性和定量地展示了本文提出的方法的優(yōu)勢。

數(shù)據(jù)集

為了在本文的方法中實現(xiàn)時間操作,本文需要包含時間重映射示例的配對訓練數(shù)據(jù)。實現(xiàn)時空解耦進一步需要包含攝像機和時間控制示例的數(shù)據(jù)。據(jù)本文所知,目前沒有公開可用的數(shù)據(jù)集滿足這些要求。只有少數(shù)先前的工作,例如 4DiM和 CAT4D,嘗試解決時空解耦問題。一種常見的策略是在靜態(tài)場景數(shù)據(jù)集和多視圖視頻數(shù)據(jù)集上聯(lián)合訓練。這些數(shù)據(jù)集中有限的控制可變性導致時間演變和空間運動之間的混淆,從而導致糾纏或不穩(wěn)定的行為。本文通過使用時間扭曲增強現(xiàn)有多視圖視頻數(shù)據(jù)并提出新的合成數(shù)據(jù)集來解決這一限制。

時間扭曲增強。 本文引入了簡單的增強功能,為多視圖視頻數(shù)據(jù)集添加可控的時間變化。在訓練期間,給定源視頻  和目標視頻 ,本文將時間扭曲函數(shù)  應用于目標序列,生成扭曲視頻 。源動畫時間戳均勻采樣,。扭曲時間戳  引入非線性時間效應(參見下圖 3 頂部 b-e):(i) 反向,(ii) 加速,(iii) 凍結,(iv) 分段慢動作,和 (v) 之字形運動,其中動畫重復反向。在這些增強之后,配對視頻序列  在攝像機軌跡和時間動態(tài)方面都存在差異,為模型提供了學習解耦時空表示的清晰信號。

用于精確時空控制的合成 Cam×Time 數(shù)據(jù)集。雖然本文的時間扭曲增強鼓勵空間和時間因素之間強烈的解耦,但實現(xiàn)細粒度和連續(xù)控制——即平滑精確地調(diào)整時間動態(tài)——受益于系統(tǒng)覆蓋這兩個維度的數(shù)據(jù)集。為此,本文構建了 Cam×Time,一個新的在 Blender 中渲染的合成時空數(shù)據(jù)集。給定攝像機軌跡和一個動畫主題,Cam×Time 詳盡地采樣攝像機-時間網(wǎng)格,捕獲跨越不同攝像機視角和時間狀態(tài)組合  的每個動態(tài)場景,如下圖 4 所示。源視頻通過采樣密集網(wǎng)格的對角線幀(下圖 4(底部))獲得,而目標視頻通過更自由形式的連續(xù)序列采樣獲得。本文將 Cam×Time 與現(xiàn)有數(shù)據(jù)集進行比較,如下表 1 所示。雖然如[23, 32, 53]等是具有復雜攝像機路徑注釋的真實視頻,但它們要么不提供時間同步的視頻對,要么只提供靜態(tài)場景對。合成多視圖視頻數(shù)據(jù)集提供動態(tài)視頻對,但不允許訓練時間控制。相比之下,Cam×Time 能夠?qū)z像機運動和時間動態(tài)進行細粒度操作,從而實現(xiàn)子彈時間效果、運動穩(wěn)定和靈活的控制組合。本文將 Cam×Time 的一部分指定為測試集,旨在將其用作可控視頻生成的基準。本文將發(fā)布它以支持未來對細粒度時空建模的研究。

精確的攝像機條件化

本文的目標是實現(xiàn)目標視頻中的完整攝像機軌跡控制。相比之下,先前的 Novel View Synthesis 方法假設源視頻和目標視頻的第一幀是相同的,并且目標攝像機軌跡是相對于它定義的。這源于兩個限制。首先,現(xiàn)有方法忽略了源視頻軌跡,導致使用目標軌跡計算的源特征不佳,以保持一致性:

其次,它在數(shù)據(jù)集上進行訓練,其中源視頻和目標視頻的第一幀總是相同的。后一個限制在本文的訓練數(shù)據(jù)集設計中得到了解決。為了克服前者,本文設計了一種源感知攝像機條件化。本文使用預訓練的姿態(tài)估計器估計源視頻和目標視頻的攝像機姿態(tài),并將它們聯(lián)合注入擴散模型以提供明確的幾何上下文。因此,等式 (2) 擴展為:

其中  表示 DiT 模型的輸入,它是目標和源令牌沿幀維度的連接。這種公式化為模型提供了源和目標攝像機上下文,從而實現(xiàn)了空間一致的生成和對攝像機軌跡的精確控制。

支持更長的視頻片段

最后,為了展示本文攝像機和時間控制的全部潛力,本文采用了一種簡單的自回歸視頻生成策略,生成每個新片段 ,以先前生成的片段  和源視頻  為條件,以生成更長的視頻。

為了在推理過程中實現(xiàn)此功能,本文需要擴展本文的訓練場景以支持以兩個視頻為條件,其中一個作為 ,另一個作為 。源視頻  直接取自多視圖數(shù)據(jù)集或本文的合成數(shù)據(jù)集,如前所述。 的構建方式與  類似——使用時間扭曲增強或從本文合成數(shù)據(jù)集的密集時空網(wǎng)格中采樣。當應用時間扭曲時, 和  可能來自代表相同時間間隔的相同或不同的多視圖序列。為了保持完全的控制靈活性,本文不強制  和  之間有任何其他明確的關聯(lián),除了指定相對于選定源視頻幀的攝像機參數(shù)。

請注意,不約束源視頻和目標視頻共享相同的起始幀(如前文所述)對于在更長序列中實現(xiàn)靈活的攝像機控制至關重要。例如,這種設計可以實現(xiàn)擴展的子彈時間效果:本文可以首先圍繞選定點生成高達 45° 的旋轉(zhuǎn)(),然后從 45° 繼續(xù)到 90°()。以兩個連續(xù)的源片段為條件允許模型利用新生成視點的信息。在子彈時間示例中,以先前生成的視頻為條件允許模型整合所有新合成視點的信息,而不是僅僅依賴于源視頻中相應時刻的視點。

實驗與最先進基線的比較時間控制評估

首先,本文評估了模型的時間重排能力。為了排除攝像機控制引起的誤差,本文在固定攝像機姿態(tài)下對 SpaceTimePilot 進行條件化,僅改變時間控制信號。實驗在未公開的 Cam×Time 測試集上進行,該測試集包含 50 個場景,這些場景以密集的全網(wǎng)格軌跡渲染,可以重新計時為任意時間序列。對于每個測試用例,本文使用一個移動攝像機的源視頻,但將目標攝像機軌跡設置為第一幀姿態(tài)。然后,本文應用一系列時間控制信號,包括反向、子彈時間、之字形、慢動作和正常播放,以合成相應的重定時輸出。由于本文擁有所有時間配置的地面真實幀,因此本文報告了感知損失:PSNR、SSIM 和 LPIPS。

本文考慮了兩個基線:(1)ReCamM+preshuffled:原始 ReCamMaster 結合輸入重新排序;(2)ReCamM+jointdata:遵循 [41, 43],本文使用額外的靜態(tài)場景數(shù)據(jù)集,如 [18, 53] 來訓練 ReCamMaster,這些數(shù)據(jù)集僅提供單一的時間模式。

雖然幀混洗在簡單場景中可能成功,但它無法解耦攝像機和時間控制。如下表 2 所示,這種方法表現(xiàn)出最弱的時間可控性。盡管結合靜態(tài)場景數(shù)據(jù)集提高了性能,尤其是在子彈時間類別中,但依賴單一時間控制模式仍然不足以實現(xiàn)魯棒的時間一致性。相比之下,SpaceTimePilot 在所有時間配置中始終優(yōu)于所有基線。

視覺質(zhì)量評估

接下來,本文使用 VBench評估了本文 1800 個生成視頻的感知真實感。本文報告了所有標準視覺質(zhì)量指標,以提供對生成保真度的全面評估。如下表 3 所示,本文模型實現(xiàn)了與基線相當?shù)囊曈X質(zhì)量。

攝像機控制評估

最后,本文評估了前文中詳述的攝像機控制機制的有效性。與上述依賴合成地面真實視頻的時間重排評估不同,本文構建了一個由 OpenVideoHD組成的真實世界 90 視頻評估集,涵蓋了各種動態(tài)人類和物體運動。每種方法在 20 種攝像機軌跡下進行評估:10 種從與源視頻相同的初始姿態(tài)開始,10 種從不同的初始姿態(tài)開始,總共生成 1800 個視頻。本文應用 SpatialTracker-v2從生成的視頻中恢復攝像機姿態(tài),并將其與相應的輸入攝像機姿態(tài)進行比較。為了確保一致的比例,本文對齊了前兩個攝像機位置的幅度。軌跡精度使用 RotErr 和 TransErr 根據(jù) [8] 進行量化,采用兩種協(xié)議:(1)評估相對于第一幀定義的原始軌跡(相對協(xié)議,RelRot,RelTrans),以及(2)在與第一幀的估計姿態(tài)對齊后進行評估(絕對協(xié)議,AbsRot,AbsTrans)。具體來說,本文通過乘以由 DUSt3R估計的生成幀和源第一幀之間的相對姿態(tài)來變換恢復的原始軌跡。本文還將此 DUSt3R 姿態(tài)與目標軌跡的初始姿態(tài)進行比較,并報告 RotErr、RTA@15 和 RTA@30,因為平移幅度是尺度模糊的。

為了僅測量源攝像機條件化的影響,本文考慮了原始 ReCamMaster(ReCamM) 和兩種變體。由于 ReCamMaster 最初是在源視頻和目標視頻的第一幀相同的數(shù)據(jù)集上訓練的,因此模型總是復制第一幀,而不管輸入攝像機姿態(tài)如何。為了公平起見,本文使用更多數(shù)據(jù)增強功能重新訓練 ReCamMaster,以包括不相同的起始幀,表示為 ReCamM+Aug。接下來,本文根據(jù)等式 3 額外使用源攝像機  對模型進行條件化,表示為 ReCamM+Aug+。最后,本文還報告了 TrajectoryCrafter的結果。

在下表 4 中,本文觀察到絕對協(xié)議始終產(chǎn)生更高的誤差,因為軌跡不僅必須匹配整體形狀(相對協(xié)議),而且還必須在位置和方向上正確對齊。有趣的是,ReCamM+Aug 產(chǎn)生的誤差高于原始 ReCamM,而結合源攝像機  產(chǎn)生了最佳的整體性能。這表明,如果沒有明確參考 ,暴露于更多具有不同起始幀的增強視頻反而會混淆模型。新引入的源視頻軌跡  條件信號在所有指標上實現(xiàn)了顯著更好的攝像機控制精度、更可靠的第一幀對齊,以及比所有基線更忠實地遵循完整軌跡。

定性結果

除了定量評估,本文還通過視覺示例展示了 SpaceTimePilot 的優(yōu)勢。如下圖 6 所示,只有本文的方法正確合成攝像機運動(紅色框)和動畫時間狀態(tài)(綠色框)。ReCamMaster 雖然能很好地處理攝像機控制,但無法修改時間狀態(tài),例如實現(xiàn)反向播放。相比之下,TrajectoryCrafter 被反向幀混洗所迷惑,導致最后一個源幀的攝像機姿態(tài)(藍色框)錯誤地出現(xiàn)在生成視頻的第一幀中。更多視覺結果可見下圖 5。

消融研究

為了驗證所提出的時間嵌入模塊的有效性,如下表 5 所示,本文遵循上文中的時間控制評估設置,并將本文的 1D 卷積時間嵌入與上文中討論的幾種變體和替代方案進行比較:(1)均勻采樣:將 81 幀嵌入均勻采樣到 21 幀序列,這等效于在潛在幀  級別采用正弦嵌入;(2)1D-Conv:使用 1D 卷積層從  壓縮到 ,并使用 ReCamMaster 和 SynCamMaster 數(shù)據(jù)集進行訓練。(3)1D-Conv+jointdata:第 2 行,但額外包含靜態(tài)場景數(shù)據(jù)集。(4)1D-Conv(本文):第 2 行,但包含所提出的 Cam×Time。本文觀察到,通過將細粒度  維嵌入壓縮到  維空間來學習緊湊表示的 1D 卷積方法明顯優(yōu)于直接在粗略  級別構建正弦嵌入。結合靜態(tài)場景數(shù)據(jù)集僅帶來了有限的改進,這可能是由于其有限的時間控制模式。相比之下,使用所提出的 Cam×Time 始終在所有三個指標上帶來最大的收益,證實了本文新引入的數(shù)據(jù)集的有效性。此外,如下圖 7 所示,本文展示了使用均勻采樣和 MLP 代替 1D 卷積壓縮時間控制信號的子彈時間結果的視覺比較。均勻采樣產(chǎn)生了明顯的偽影,MLP 壓縮器導致攝像機運動突然,而 1D 卷積有效地鎖定了動畫時間并實現(xiàn)了平滑的攝像機運動。

結論

SpaceTimePilot,這是第一個提供完全解耦空間和時間控制的視頻擴散模型,能夠從單個單目視頻進行 4D 時空探索。本文方法引入了一種新的“動畫時間”表示,并結合了利用源姿態(tài)和目標姿態(tài)的源感知攝像機控制機制。這得到了合成 Cam×Time 和時間扭曲訓練方案的支持,這些方案提供了密集的時空監(jiān)督。這些組件允許精確的攝像機和時間操作、任意初始姿態(tài)以及靈活的多輪生成。在廣泛的實驗中,SpaceTimePilot 始終超越最先進的基線,顯著提高了攝像機控制精度,并可靠地執(zhí)行復雜的重新計時效果,例如反向播放、慢動作和子彈時間。

參考文獻

[1] SpaceTimePilot: Generative Rendering of Dynamic Scenes Across Space and Time

       原文標題 : 復刻“黑客帝國”子彈時間!SpaceTimePilot:視頻變可操控4D游戲,倒放/變速/運鏡隨你掌控

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號