123,123

復刻“黑客帝國”子彈時間！SpaceTimePilot:視頻變可操控4D游戲,倒放/變速/運鏡隨你掌控

2026-01-06 14:21

作者：Zhening Huang等

解讀：AI生成未來

亮點直擊

首次實現(xiàn)了聯(lián)合空間和時間控制的視頻擴散模型： SpaceTimePilot 是首個能夠從單個單目視頻實現(xiàn)對動態(tài)場景進行聯(lián)合空間（攝像機視角）和時間（運動序列）控制的視頻擴散模型。

引入動畫時間嵌入機制： 提出了一種有效的動畫時間嵌入機制，能夠顯式控制輸出視頻的運動序列，實現(xiàn)對時間進程的精細操控，例如慢動作、反向播放和子彈時間。

提出時間扭曲訓練方案： 針對缺乏具有連續(xù)時間變化的配對視頻數(shù)據(jù)集的問題，本文設計了一種簡單有效的時間扭曲訓練方案，通過增強現(xiàn)有多視角數(shù)據(jù)集來模擬多樣化的時間差異，從而幫助模型學習時間控制并實現(xiàn)時空解耦。

構建 Cam×Time 合成數(shù)據(jù)集： 構建了第一個合成的時空全覆蓋渲染數(shù)據(jù)集 Cam×Time，該數(shù)據(jù)集提供了場景中完全自由的時空視頻軌跡，通過密集的時空采樣為模型學習解耦的 4D 表示提供了關鍵監(jiān)督。

改進攝像機條件機制： 提出了一種改進的攝像機條件機制，允許從第一幀開始改變攝像機，并引入源感知攝像機控制，將源視頻和目標視頻的攝像機姿態(tài)聯(lián)合注入擴散模型，顯著提高了攝像機控制的精度和魯棒性。

支持更長的視頻生成： 通過采用簡單的自回歸視頻生成策略，SpaceTimePilot 能夠生成任意長的連續(xù)視頻片段，實現(xiàn)靈活的多輪生成，并支持跨越擴展時空軌跡的探索。

總結速覽

解決的問題

缺乏對動態(tài)場景中空間變化（攝像機視角）和時間演變（場景運動）的完全解耦控制。

在 novel viewpoints 下進行 4D 重建通常會出現(xiàn)偽影，且渲染質(zhì)量受限。當前的視頻擴散模型盡管在空間視點控制方面有所進展，但無法在空間和時間上自由導航場景，即缺乏完整的 4D 探索能力。訓練能夠同時處理多種時間播放形式和攝像機運動的模型，在現(xiàn)有數(shù)據(jù)集上是困難的，因為它們?nèi)狈ψ銐虻臅r間變化覆蓋或無法提供具有連續(xù)時間變化的相同動態(tài)場景的配對視頻。

提出的方案

本文提出了 SpaceTimePilot，一個視頻擴散模型，旨在通過以下方式解決上述問題：

引入一種新的“動畫時間”概念，將場景動態(tài)的時間狀態(tài)獨立于攝像機控制，從而實現(xiàn)空間和時間控制的自然解耦。設計了一種有效的動畫時間嵌入機制，用于在擴散過程中顯式控制輸出視頻的運動序列。

提出了一種簡單而有效的時間扭曲訓練方案，通過重新利用現(xiàn)有的多視角數(shù)據(jù)集來模擬時間差異，以解決缺乏合適訓練數(shù)據(jù)的問題。

引入了一個名為 Cam×Time 的合成時空全覆蓋渲染數(shù)據(jù)集，它在一個場景中提供了完全自由的時空視頻軌跡，以增強控制的精確性。

改進了攝像機條件機制，允許從第一幀開始改變攝像機，并使用源感知攝像機條件化，將源視頻和目標視頻的攝像機姿態(tài)聯(lián)合注入擴散模型，以提供明確的幾何上下文。

采用自回歸視頻生成策略，通過以先前生成的片段和源視頻為條件，生成更長的視頻片段，從而支持更長的視頻序列。

應用的技術

潛在視頻擴散骨干：采用類似于現(xiàn)代文本到視頻基礎模型的架構，包含用于潛在壓縮的 3D 變分自編碼器（VAE）和在多模態(tài)令牌上操作的基于 Transformer 的去噪模型（DiT）。

動畫時間嵌入機制：通過正弦時間嵌入和 1D 卷積層將時間控制參數(shù) 編碼并注入到擴散模型中，從而實現(xiàn)對視頻運動序列的顯式控制。

改進的攝像機條件化：借鑒 ReCamMaster，并在此基礎上進行改進，通過 E_cam(c) 編碼攝像機軌跡，并進一步結合源感知攝像機條件化，將源視頻和目標視頻的攝像機姿態(tài)聯(lián)合注入模型。

時間扭曲訓練方案：通過對現(xiàn)有多視角視頻數(shù)據(jù)集應用反向、加速、凍結、分段慢動作和之字形運動等時間扭曲操作，來模擬多樣化的時間變化。

合成數(shù)據(jù)集 Cam×Time：在 Blender 中渲染，通過詳盡采樣攝像機-時間網(wǎng)格來提供密集且系統(tǒng)覆蓋的訓練數(shù)據(jù)。

達到的效果

統(tǒng)一的時空控制：在單個擴散模型中對攝像機和時間進行統(tǒng)一控制，能夠沿任意時空軌跡生成連續(xù)且連貫的視頻。

解耦的空間和時間探索：能夠獨立改變攝像機視角和運動序列，實現(xiàn)對動態(tài)場景在空間和時間上的連續(xù)任意探索。

靈活的運動序列重定時：能夠生成具有重新計時運動序列的新視頻，包括慢動作、反向運動和子彈時間。

精確的攝像機軌跡控制：能夠根據(jù)給定的攝像機軌跡精確控制攝像機運動。

強大的性能：在真實世界和合成數(shù)據(jù)上均表現(xiàn)出清晰的時空解耦，并與現(xiàn)有工作相比取得了強大的結果。

支持更長的視頻生成：通過自回歸推理方案，能夠生成更長、更連貫的視頻，實現(xiàn)超出輸入視頻的視點變化，例如旋轉(zhuǎn)到物體后方或從低角度切換到高空鳥瞰視角，同時保持視覺和運動的連貫性。

架構方法

本文的方法 SpaceTimePilot 通過在生成過程中解耦空間和時間因素，實現(xiàn)了子彈時間（bullet-time）和從新視點重新計時播放等效果，如上圖 1 所示。

解耦空間和時間

本文通過雙重方法實現(xiàn)空間和時間解耦：專用的時間表示和專門的數(shù)據(jù)集。

時間表示

最近的視頻擴散模型包括用于潛在幀索引的位置嵌入，例如 RoPE(). 然而，本文發(fā)現(xiàn)使用 RoPE() 進行時間控制是無效的，因為它會干擾攝像機信號：RoPE() 通常同時限制時間和攝像機運動。為了解決空間和時間解耦問題，本文引入了一個專用的時間控制參數(shù) 。通過操縱，本文可以控制合成視頻的時間進程。例如，將設置為常數(shù)會將鎖定到中的特定時間戳，而反轉(zhuǎn)幀索引會以反向播放。

時間嵌入。 為了將時間控制注入擴散模型，本文分析了幾種方法。首先，本文可以像使用幀索引一樣編碼時間，使用 RoPE 嵌入。然而，本文發(fā)現(xiàn)它不太適合時間控制。相反，本文采用應用于潛在幀級別的正弦時間嵌入，它提供了每個幀時間位置的穩(wěn)定連續(xù)表示，并在精度和穩(wěn)定性之間提供了有利的權衡。本文進一步觀察到每個潛在幀對應一個連續(xù)的時間塊，并提出使用原始幀索引的嵌入來支持更精細的時間控制粒度。為了實現(xiàn)這一點，本文引入了一種時間編碼方法，其中。本文首先計算正弦時間嵌入來表示時間序列，，，其中。接下來，本文應用兩個 1D 卷積層逐步將這些嵌入投影到潛在幀空間，。最后，本文將這些時間特征添加到攝像機特征和視頻令牌嵌入中，更新等式 (1) 如下：

在下文中，本文將本文的方法與替代條件策略進行比較，例如使用正弦嵌入，其中直接定義在中，以及使用 MLP 而不是 1D 卷積進行壓縮。本文定性和定量地展示了本文提出的方法的優(yōu)勢。

數(shù)據(jù)集

為了在本文的方法中實現(xiàn)時間操作，本文需要包含時間重映射示例的配對訓練數(shù)據(jù)。實現(xiàn)時空解耦進一步需要包含攝像機和時間控制示例的數(shù)據(jù)。據(jù)本文所知，目前沒有公開可用的數(shù)據(jù)集滿足這些要求。只有少數(shù)先前的工作，例如 4DiM和 CAT4D，嘗試解決時空解耦問題。一種常見的策略是在靜態(tài)場景數(shù)據(jù)集和多視圖視頻數(shù)據(jù)集上聯(lián)合訓練。這些數(shù)據(jù)集中有限的控制可變性導致時間演變和空間運動之間的混淆，從而導致糾纏或不穩(wěn)定的行為。本文通過使用時間扭曲增強現(xiàn)有多視圖視頻數(shù)據(jù)并提出新的合成數(shù)據(jù)集來解決這一限制。

時間扭曲增強。 本文引入了簡單的增強功能，為多視圖視頻數(shù)據(jù)集添加可控的時間變化。在訓練期間，給定源視頻和目標視頻，本文將時間扭曲函數(shù) 應用于目標序列，生成扭曲視頻。源動畫時間戳均勻采樣，。扭曲時間戳引入非線性時間效應（參見下圖 3 頂部 b-e）：(i) 反向，(ii) 加速，(iii) 凍結，(iv) 分段慢動作，和 (v) 之字形運動，其中動畫重復反向。在這些增強之后，配對視頻序列在攝像機軌跡和時間動態(tài)方面都存在差異，為模型提供了學習解耦時空表示的清晰信號。

用于精確時空控制的合成 Cam×Time 數(shù)據(jù)集。雖然本文的時間扭曲增強鼓勵空間和時間因素之間強烈的解耦，但實現(xiàn)細粒度和連續(xù)控制——即平滑精確地調(diào)整時間動態(tài)——受益于系統(tǒng)覆蓋這兩個維度的數(shù)據(jù)集。為此，本文構建了 Cam×Time，一個新的在 Blender 中渲染的合成時空數(shù)據(jù)集。給定攝像機軌跡和一個動畫主題，Cam×Time 詳盡地采樣攝像機-時間網(wǎng)格，捕獲跨越不同攝像機視角和時間狀態(tài)組合的每個動態(tài)場景，如下圖 4 所示。源視頻通過采樣密集網(wǎng)格的對角線幀（下圖 4（底部））獲得，而目標視頻通過更自由形式的連續(xù)序列采樣獲得。本文將 Cam×Time 與現(xiàn)有數(shù)據(jù)集進行比較，如下表 1 所示。雖然如[23, 32, 53]等是具有復雜攝像機路徑注釋的真實視頻，但它們要么不提供時間同步的視頻對，要么只提供靜態(tài)場景對。合成多視圖視頻數(shù)據(jù)集提供動態(tài)視頻對，但不允許訓練時間控制。相比之下，Cam×Time 能夠?qū)z像機運動和時間動態(tài)進行細粒度操作，從而實現(xiàn)子彈時間效果、運動穩(wěn)定和靈活的控制組合。本文將 Cam×Time 的一部分指定為測試集，旨在將其用作可控視頻生成的基準。本文將發(fā)布它以支持未來對細粒度時空建模的研究。

精確的攝像機條件化

本文的目標是實現(xiàn)目標視頻中的完整攝像機軌跡控制。相比之下，先前的 Novel View Synthesis 方法假設源視頻和目標視頻的第一幀是相同的，并且目標攝像機軌跡是相對于它定義的。這源于兩個限制。首先，現(xiàn)有方法忽略了源視頻軌跡，導致使用目標軌跡計算的源特征不佳，以保持一致性：

其次，它在數(shù)據(jù)集上進行訓練，其中源視頻和目標視頻的第一幀總是相同的。后一個限制在本文的訓練數(shù)據(jù)集設計中得到了解決。為了克服前者，本文設計了一種源感知攝像機條件化。本文使用預訓練的姿態(tài)估計器估計源視頻和目標視頻的攝像機姿態(tài)，并將它們聯(lián)合注入擴散模型以提供明確的幾何上下文。因此，等式 (2) 擴展為：

其中表示 DiT 模型的輸入，它是目標和源令牌沿幀維度的連接。這種公式化為模型提供了源和目標攝像機上下文，從而實現(xiàn)了空間一致的生成和對攝像機軌跡的精確控制。

支持更長的視頻片段

最后，為了展示本文攝像機和時間控制的全部潛力，本文采用了一種簡單的自回歸視頻生成策略，生成每個新片段，以先前生成的片段和源視頻為條件，以生成更長的視頻。

為了在推理過程中實現(xiàn)此功能，本文需要擴展本文的訓練場景以支持以兩個視頻為條件，其中一個作為，另一個作為。源視頻直接取自多視圖數(shù)據(jù)集或本文的合成數(shù)據(jù)集，如前所述。的構建方式與類似——使用時間扭曲增強或從本文合成數(shù)據(jù)集的密集時空網(wǎng)格中采樣。當應用時間扭曲時，和可能來自代表相同時間間隔的相同或不同的多視圖序列。為了保持完全的控制靈活性，本文不強制和之間有任何其他明確的關聯(lián)，除了指定相對于選定源視頻幀的攝像機參數(shù)。

請注意，不約束源視頻和目標視頻共享相同的起始幀（如前文所述）對于在更長序列中實現(xiàn)靈活的攝像機控制至關重要。例如，這種設計可以實現(xiàn)擴展的子彈時間效果：本文可以首先圍繞選定點生成高達 45° 的旋轉(zhuǎn)（），然后從 45° 繼續(xù)到 90°（）。以兩個連續(xù)的源片段為條件允許模型利用新生成視點的信息。在子彈時間示例中，以先前生成的視頻為條件允許模型整合所有新合成視點的信息，而不是僅僅依賴于源視頻中相應時刻的視點。

實驗與最先進基線的比較時間控制評估

首先，本文評估了模型的時間重排能力。為了排除攝像機控制引起的誤差，本文在固定攝像機姿態(tài)下對 SpaceTimePilot 進行條件化，僅改變時間控制信號。實驗在未公開的 Cam×Time 測試集上進行，該測試集包含 50 個場景，這些場景以密集的全網(wǎng)格軌跡渲染，可以重新計時為任意時間序列。對于每個測試用例，本文使用一個移動攝像機的源視頻，但將目標攝像機軌跡設置為第一幀姿態(tài)。然后，本文應用一系列時間控制信號，包括反向、子彈時間、之字形、慢動作和正常播放，以合成相應的重定時輸出。由于本文擁有所有時間配置的地面真實幀，因此本文報告了感知損失：PSNR、SSIM 和 LPIPS。

本文考慮了兩個基線：（1）ReCamM+preshuffled：原始 ReCamMaster 結合輸入重新排序；（2）ReCamM+jointdata：遵循 [41, 43]，本文使用額外的靜態(tài)場景數(shù)據(jù)集，如 [18, 53] 來訓練 ReCamMaster，這些數(shù)據(jù)集僅提供單一的時間模式。

雖然幀混洗在簡單場景中可能成功，但它無法解耦攝像機和時間控制。如下表 2 所示，這種方法表現(xiàn)出最弱的時間可控性。盡管結合靜態(tài)場景數(shù)據(jù)集提高了性能，尤其是在子彈時間類別中，但依賴單一時間控制模式仍然不足以實現(xiàn)魯棒的時間一致性。相比之下，SpaceTimePilot 在所有時間配置中始終優(yōu)于所有基線。

視覺質(zhì)量評估

接下來，本文使用 VBench評估了本文 1800 個生成視頻的感知真實感。本文報告了所有標準視覺質(zhì)量指標，以提供對生成保真度的全面評估。如下表 3 所示，本文模型實現(xiàn)了與基線相當?shù)囊曈X質(zhì)量。

攝像機控制評估

最后，本文評估了前文中詳述的攝像機控制機制的有效性。與上述依賴合成地面真實視頻的時間重排評估不同，本文構建了一個由 OpenVideoHD組成的真實世界 90 視頻評估集，涵蓋了各種動態(tài)人類和物體運動。每種方法在 20 種攝像機軌跡下進行評估：10 種從與源視頻相同的初始姿態(tài)開始，10 種從不同的初始姿態(tài)開始，總共生成 1800 個視頻。本文應用 SpatialTracker-v2從生成的視頻中恢復攝像機姿態(tài)，并將其與相應的輸入攝像機姿態(tài)進行比較。為了確保一致的比例，本文對齊了前兩個攝像機位置的幅度。軌跡精度使用 RotErr 和 TransErr 根據(jù) [8] 進行量化，采用兩種協(xié)議：（1）評估相對于第一幀定義的原始軌跡（相對協(xié)議，RelRot，RelTrans），以及（2）在與第一幀的估計姿態(tài)對齊后進行評估（絕對協(xié)議，AbsRot，AbsTrans）。具體來說，本文通過乘以由 DUSt3R估計的生成幀和源第一幀之間的相對姿態(tài)來變換恢復的原始軌跡。本文還將此 DUSt3R 姿態(tài)與目標軌跡的初始姿態(tài)進行比較，并報告 RotErr、RTA@15 和 RTA@30，因為平移幅度是尺度模糊的。

為了僅測量源攝像機條件化的影響，本文考慮了原始 ReCamMaster(ReCamM) 和兩種變體。由于 ReCamMaster 最初是在源視頻和目標視頻的第一幀相同的數(shù)據(jù)集上訓練的，因此模型總是復制第一幀，而不管輸入攝像機姿態(tài)如何。為了公平起見，本文使用更多數(shù)據(jù)增強功能重新訓練 ReCamMaster，以包括不相同的起始幀，表示為 ReCamM+Aug。接下來，本文根據(jù)等式 3 額外使用源攝像機對模型進行條件化，表示為 ReCamM+Aug+。最后，本文還報告了 TrajectoryCrafter的結果。

在下表 4 中，本文觀察到絕對協(xié)議始終產(chǎn)生更高的誤差，因為軌跡不僅必須匹配整體形狀（相對協(xié)議），而且還必須在位置和方向上正確對齊。有趣的是，ReCamM+Aug 產(chǎn)生的誤差高于原始 ReCamM，而結合源攝像機產(chǎn)生了最佳的整體性能。這表明，如果沒有明確參考，暴露于更多具有不同起始幀的增強視頻反而會混淆模型。新引入的源視頻軌跡條件信號在所有指標上實現(xiàn)了顯著更好的攝像機控制精度、更可靠的第一幀對齊，以及比所有基線更忠實地遵循完整軌跡。

定性結果

除了定量評估，本文還通過視覺示例展示了 SpaceTimePilot 的優(yōu)勢。如下圖 6 所示，只有本文的方法正確合成攝像機運動（紅色框）和動畫時間狀態(tài)（綠色框）。ReCamMaster 雖然能很好地處理攝像機控制，但無法修改時間狀態(tài)，例如實現(xiàn)反向播放。相比之下，TrajectoryCrafter 被反向幀混洗所迷惑，導致最后一個源幀的攝像機姿態(tài)（藍色框）錯誤地出現(xiàn)在生成視頻的第一幀中。更多視覺結果可見下圖 5。

消融研究

為了驗證所提出的時間嵌入模塊的有效性，如下表 5 所示，本文遵循上文中的時間控制評估設置，并將本文的 1D 卷積時間嵌入與上文中討論的幾種變體和替代方案進行比較：（1）均勻采樣：將 81 幀嵌入均勻采樣到 21 幀序列，這等效于在潛在幀級別采用正弦嵌入；（2）1D-Conv：使用 1D 卷積層從壓縮到，并使用 ReCamMaster 和 SynCamMaster 數(shù)據(jù)集進行訓練。（3）1D-Conv+jointdata：第 2 行，但額外包含靜態(tài)場景數(shù)據(jù)集。（4）1D-Conv（本文）：第 2 行，但包含所提出的 Cam×Time。本文觀察到，通過將細粒度維嵌入壓縮到維空間來學習緊湊表示的 1D 卷積方法明顯優(yōu)于直接在粗略級別構建正弦嵌入。結合靜態(tài)場景數(shù)據(jù)集僅帶來了有限的改進，這可能是由于其有限的時間控制模式。相比之下，使用所提出的 Cam×Time 始終在所有三個指標上帶來最大的收益，證實了本文新引入的數(shù)據(jù)集的有效性。此外，如下圖 7 所示，本文展示了使用均勻采樣和 MLP 代替 1D 卷積壓縮時間控制信號的子彈時間結果的視覺比較。均勻采樣產(chǎn)生了明顯的偽影，MLP 壓縮器導致攝像機運動突然，而 1D 卷積有效地鎖定了動畫時間并實現(xiàn)了平滑的攝像機運動。

結論

SpaceTimePilot，這是第一個提供完全解耦空間和時間控制的視頻擴散模型，能夠從單個單目視頻進行 4D 時空探索。本文方法引入了一種新的“動畫時間”表示，并結合了利用源姿態(tài)和目標姿態(tài)的源感知攝像機控制機制。這得到了合成 Cam×Time 和時間扭曲訓練方案的支持，這些方案提供了密集的時空監(jiān)督。這些組件允許精確的攝像機和時間操作、任意初始姿態(tài)以及靈活的多輪生成。在廣泛的實驗中，SpaceTimePilot 始終超越最先進的基線，顯著提高了攝像機控制精度，并可靠地執(zhí)行復雜的重新計時效果，例如反向播放、慢動作和子彈時間。

參考文獻

[1] SpaceTimePilot: Generative Rendering of Dynamic Scenes Across Space and Time

原文標題 : 復刻“黑客帝國”子彈時間！SpaceTimePilot:視頻變可操控4D游戲,倒放/變速/運鏡隨你掌控