訂閱
糾錯
加入自媒體

自回歸最新SOTA!百度VideoAR:首個視頻VAR框架,推理步數(shù)減少10倍,比肩擴(kuò)散模型

作者:Longbin Ji等

解讀:AI生成未來
圖1 VideoAR通過文本提示生成高保真且時間一致的視頻圖1 VideoAR通過文本提示生成高保真且時間一致的視頻

亮點(diǎn)直擊

首個視頻 VAR 框架: VideoAR,首個將視覺自回歸建模應(yīng)用于視頻生成的大規(guī)?蚣,結(jié)合了多尺度下一幀預(yù)測與自回歸建模。

時空解耦建模: 成功將空間和依賴關(guān)系解耦,利用幀內(nèi) VAR 建模處理空間內(nèi)容,利用因果下一幀預(yù)測處理時間依賴。

創(chuàng)新的一致性機(jī)制: 多尺度時間 RoPE、跨幀誤差修正 和 隨機(jī)幀掩碼,有效緩解了長序列生成中的誤差傳播,穩(wěn)定了時間一致性。

SOTA 性能: 自回歸模型新 SOTA。在 UCF-101 上將 FVD 從 99.5降低至 88.6,推理步數(shù)減少 10 倍以上。

比肩擴(kuò)散模型: VBench 得分達(dá)到 81.74,與參數(shù)量大一個數(shù)量級的擴(kuò)散模型極具競爭力。

解決的問題

擴(kuò)散模型的低效性: 現(xiàn)有的主流視頻生成模型(擴(kuò)散和流匹配)計(jì)算量大且難以擴(kuò)展,因?yàn)樗鼈円蕾囉趯φ麄時間序列的雙向去噪。

現(xiàn)有 AR 模型的局限性:

建模不匹配: 簡單的“下一 Token 預(yù)測”無法很好地對齊視頻數(shù)據(jù)的內(nèi)在結(jié)構(gòu)(空間 vs 時間)。

誤差傳播: 長序列的自回歸建模會導(dǎo)致嚴(yán)重的誤差累積,造成畫質(zhì)崩塌。

可控性差: 現(xiàn)有的采樣策略缺乏對視頻動態(tài)和持續(xù)時間的細(xì)粒度控制。

提出的方案

新范式: 采用“下一尺度預(yù)測(Next-Scale Prediction)”進(jìn)行幀內(nèi)生成,結(jié)合“下一幀預(yù)測”處理幀間依賴。

3D 多尺度 Tokenizer: 將 2D VAR 編碼器-解碼器擴(kuò)展為 3D 架構(gòu),并利用預(yù)訓(xùn)練的 2D-VAR 權(quán)重初始化,高效捕捉時空動態(tài)。

訓(xùn)練策略: 采用多階段預(yù)訓(xùn)練流程,在不斷增加的分辨率和持續(xù)時間上逐步對齊空間和時間學(xué)習(xí)。

應(yīng)用的技術(shù)

3D-VAR 編碼器/解碼器: 將時空動態(tài)編碼為多尺度 Token。

多尺度時間 RoPE (Multi-scale Temporal RoPE): 替代標(biāo)準(zhǔn)位置編碼,增強(qiáng)時間感知和比特級預(yù)測精度。

跨幀誤差修正 (Cross-Frame Error Correction): 隨時間推移增加翻轉(zhuǎn)率(Flip Ratio),并在跨幀轉(zhuǎn)換時繼承誤差,訓(xùn)練模型從擾動中恢復(fù)。

隨機(jī)幀掩碼 (Random Frame Mask): 削弱對前一幀的過度依賴,緩解過度記憶(Over-memorization)問題。

時空自適應(yīng)無分類器引導(dǎo) (CFG): 沿尺度和時間步調(diào)整引導(dǎo)系數(shù),以平衡語義保真度和運(yùn)動動態(tài)。

達(dá)到的效果

UCF-101: 實(shí)現(xiàn)了 88.6 的 gFVD (VideoAR-XL),顯著優(yōu)于之前的最佳 AR 模型 (PAR-4×, 99.5 gFVD)。

VBench: 大規(guī)模模型 (VideoAR-4B) 獲得了 81.74 的總分,在語義評分 (Semantic Score) 上更是達(dá)到 SOTA,與 CogVideo 和 Step-Video 等領(lǐng)先擴(kuò)散模型相當(dāng)。

效率: 推理速度比現(xiàn)有 AR 基線快 13倍(僅需 30 步)。

能力: 能夠生成高保真、時間連貫的視頻(如  分辨率的 4 秒視頻),并支持圖生視頻和視頻續(xù)寫。

方法

圖2 視頻增強(qiáng)現(xiàn)實(shí)的整體框架。給定文本提示時,視頻幀首先通過多尺度因果3D分詞器壓縮成一系列時空標(biāo)記。每個幀由多尺度的殘差映射表示,這些映射通過帶有分塊因果掩蔽的變換器進(jìn)行自回歸預(yù)測。輸入嵌入結(jié)合了文本符號、累積的視頻特征和尺度嵌入,而提出的多尺度時間RoPE編碼時間、空間和尺度感知的位置信息。在訓(xùn)練過程中應(yīng)用隨機(jī)幀掩蔽以減輕暴露偏差并提升長期一致性。最后,多尺度視頻解碼器根據(jù)預(yù)測殘差重建視頻幀。圖2 視頻增強(qiáng)現(xiàn)實(shí)的整體框架。給定文本提示時,視頻幀首先通過多尺度因果3D分詞器壓縮成一系列時空標(biāo)記。每個幀由多尺度的殘差映射表示,這些映射通過帶有分塊因果掩蔽的變換器進(jìn)行自回歸預(yù)測。輸入嵌入結(jié)合了文本符號、累積的視頻特征和尺度嵌入,而提出的多尺度時間RoPE編碼時間、空間和尺度感知的位置信息。在訓(xùn)練過程中應(yīng)用隨機(jī)幀掩蔽以減輕暴露偏差并提升長期一致性。最后,多尺度視頻解碼器根據(jù)預(yù)測殘差重建視頻幀。

VideoAR 框架結(jié)合了視覺自回歸 (VAR) 建模與下一幀預(yù)測的優(yōu)勢,旨在實(shí)現(xiàn)高效且高質(zhì)量的視頻生成。該流程主要由兩個部分組成。首先,介紹了一種 **3D 視頻分詞器 (3D Video Tokenizer)**,它將原始視頻壓縮為緊湊的離散表示,同時保留空間和時間結(jié)構(gòu)。該分詞器是實(shí)現(xiàn)可擴(kuò)展和高效建模的基礎(chǔ)。其次,設(shè)計(jì)了一個基于多尺度殘差預(yù)測的 自回歸視頻模型,其中時間一致性通過本工作提出的訓(xùn)練策略得到進(jìn)一步增強(qiáng)。

視覺分詞器 (Visual Tokenizer)

3D 架構(gòu)為了更好地捕捉時空相關(guān)性,本工作采用因果 3D 卷積架構(gòu),這使得分詞器能夠在統(tǒng)一的框架內(nèi)處理圖像和視頻。具體而言,帶有時間下采樣的 3D 卷積編碼器將輸入視頻  壓縮為緊湊的時空潛在表示 ,其中  表示時間壓縮因子。這種設(shè)計(jì)利用了相鄰幀之間固有的冗余,在保持保真度的同時實(shí)現(xiàn)了高效的視頻建模。

為了進(jìn)一步擴(kuò)展到長視頻生成,本工作從編碼器和解碼器中移除了所有非因果時間操作(例如時間歸一化),確保每個潛在特征僅依賴于過去的幀。這種因果設(shè)計(jì)使得極長視頻的推理能夠以分塊(chunk-by-chunk)的方式進(jìn)行,而與全序列推理相比沒有任何性能損失。

量化 (Quantization)考慮到本工作的時間因果建模,本工作利用了時間獨(dú)立的量化方法,其中每一幀都通過獨(dú)立的多尺度量化器進(jìn)行處理。

訓(xùn)練 (Training)為了實(shí)現(xiàn)視頻分詞器的高效且穩(wěn)定訓(xùn)練,本工作采用 3D 膨脹 (Inflation) 策略,即從訓(xùn)練良好的圖像分詞器初始化模型。這種初始化提供了強(qiáng)大的空間先驗(yàn),大幅穩(wěn)定了優(yōu)化過程并加速了收斂。具體而言,遵循 [34] 中的膨脹過程,本工作使用圖像分詞器的權(quán)重填充 3D CNN 在時間維度上的最后一個切片,而其余的時間參數(shù)和判別器則隨機(jī)初始化。

分詞器通過一組標(biāo)準(zhǔn)的互補(bǔ)目標(biāo)函數(shù)進(jìn)行訓(xùn)練。本工作在每一幀上應(yīng)用重構(gòu)損失、感知損失和承諾損失 (commitment loss)。遵循 [33],本工作使用 LeCAM 正則化以提高穩(wěn)定性,并使用熵懲罰以鼓勵碼本的利用率。

整體訓(xùn)練目標(biāo)公式如下:

其中  為不同目標(biāo)的平衡權(quán)重。這種訓(xùn)練方案確保分詞器學(xué)習(xí)到緊湊且富有表現(xiàn)力的時空表示,有利于重構(gòu)保真度和下游的自回歸視頻生成。

自回歸視頻建模

擴(kuò)展至 3D 架構(gòu)基于本工作 3D 分詞器提取的時空特征,本工作將視覺自回歸 (VAR) 范式從圖像擴(kuò)展到視頻。具體來說,Transformer 基于所有先前生成的幀、當(dāng)前幀的較粗尺度以及文本提示,自回歸地預(yù)測第  幀的殘差:

其中  表示所有過去幀的多尺度殘差圖, 表示第  幀已經(jīng)生成的較粗尺度的殘差。第  幀在尺度  處的輸入特征構(gòu)建如下:

其中  和  分別表示空間上采樣和下采樣。

為了初始化生成,第一幀第一尺度的特征(圖2中的 )被設(shè)置為一個特殊的  token 嵌入,從而實(shí)現(xiàn)文本條件生成。對于隨后的幀 (),第一尺度的特征 () 從前一幀的累積特征初始化,將時間上下文注入到下一幀的生成中。

多尺度時間 RoPE為了更好地捕捉時空依賴性,本工作引入了 多尺度時間 RoPE,這是旋轉(zhuǎn)位置嵌入 (RoPE) 的擴(kuò)展,通過將嵌入空間分解為三個軸——時間、高度和寬度。多尺度時間 RoPE 的設(shè)計(jì)原則有三點(diǎn):(1) 與文本 token 的原生 RoPE 公式兼容;(2) 顯式的時間感知;(3) 跨幀多尺度輸入的空間一致性。

給定包含文本提示  和視頻 token 的多模態(tài)輸入,本工作為文本 token 分配相同的時間、高度和寬度索引以保持與 RoPE 的兼容性。令  表示第  幀在尺度  且空間位置  處的 token,其中  且 。位置編碼定義為:

其中空間索引  在各幀之間保持一致,而時間索引隨  增加以保持順序。此外,添加了一個可學(xué)習(xí)的尺度嵌入  以區(qū)分自回歸生成過程中的從粗到細(xì)的尺度。

時間一致性增強(qiáng)自回歸視頻生成遭受誤差累積的影響:隨著  的增長,由于訓(xùn)練-測試差異,質(zhì)量會下降。本工作采用兩種互補(bǔ)策略來緩解這一問題:帶有時間爬坡調(diào)度(time-ramped schedule)的 跨幀誤差修正,以及帶有因果滑動窗口的 隨機(jī)幀掩碼。

跨幀誤差修正遵循 Infinity 中的按位(bitwise)公式,本工作將  中的每個 token 表示為  個比特 。 為了應(yīng)對沿?cái)U(kuò)展幀序列的誤差傳播累積,本工作引入了 **時間依賴性破壞 (time-dependent corruption)**,通過注入翻轉(zhuǎn)率(flip ratios)逐漸增加的擾動,從而模擬推理時的情況(見圖 3)。

圖3 本文提出的跨幀錯誤更正圖3 本文提出的跨幀錯誤更正

此外,由于每一幀最終尺度的誤差不可避免地會傳播到下一幀的第一尺度,本工作提出了 跨幀誤差繼承 (cross-frame error inheritance) 機(jī)制。具體而言,每一幀第一尺度的翻轉(zhuǎn)率被初始化為前一幀最終尺度翻轉(zhuǎn)率之上的一個范圍內(nèi)。通過強(qiáng)制模型在第一尺度即修正這些繼承的擾動,本工作的訓(xùn)練過程增強(qiáng)了時間魯棒性,并顯著減輕了前一幀誤差對后續(xù)生成的影響。

其中  表示異或, 表示增加翻轉(zhuǎn)范圍的因子。模型以被破壞的歷史為條件,并由帶有重新量化誤差的自校正目標(biāo)進(jìn)行監(jiān)督,從而提高了對復(fù)合錯誤的魯棒性。

隨機(jī)幀掩碼設(shè)注意力窗口大小為 。對于每一步 ,本工作構(gòu)建一個隨機(jī)因果上下文 ,其中獨(dú)立同分布 。用  表示文本鍵/值,用  表示來自  中幀的視頻鍵/值。第  幀的注意力輸出為:

這在保留必要的時間上下文的同時,抑制了對遠(yuǎn)距離幀的過度依賴。

多階段訓(xùn)練流程 (Multi-Stage Training Pipeline)遵循 Infinity,本工作的訓(xùn)練目標(biāo)定義為預(yù)測殘差圖  與真實(shí)值  之間的按位交叉熵?fù)p失。為了在長視頻、高分辨率視頻中實(shí)現(xiàn)穩(wěn)健的時間一致性和高質(zhì)量合成,本工作采用漸進(jìn)式多階段訓(xùn)練策略。

第一階段 (Stage I): 聯(lián)合預(yù)訓(xùn)練大規(guī)模圖像和低分辨率視頻數(shù)據(jù)集,使模型能夠獲取基本的時空表示,同時受益于高效的收斂。

第二階段 (Stage II): 繼續(xù)在更高分辨率的圖像和視頻數(shù)據(jù)上訓(xùn)練,以增強(qiáng)細(xì)粒度的視覺保真度和時間連貫性。

第三階段 (Stage III): 僅使用高分辨率視頻數(shù)據(jù)集進(jìn)行長視頻微調(diào),使模型能夠捕捉擴(kuò)展的運(yùn)動動態(tài)和長程時間依賴。 這種分層訓(xùn)練方案有效地平衡了不同視頻領(lǐng)域的訓(xùn)練穩(wěn)定性、可擴(kuò)展性和生成質(zhì)量。

時空自適應(yīng)無分類器引導(dǎo) (Temporal-Spatial Adaptive Classifier-free Guidance)在測試階段,本工作利用緩存狀態(tài)在  上執(zhí)行因果解碼以確保效率。為了平衡語義保真度和時間一致性,本工作引入了一種應(yīng)用于邏輯 (logits) 的 **時空自適應(yīng)無分類器引導(dǎo) (CFG)**,從而能夠在不同的模型設(shè)置下靈活控制文本對齊和時間動態(tài)。 經(jīng)驗(yàn)上,本工作觀察到較大的引導(dǎo)系數(shù)會導(dǎo)致生成的視覺質(zhì)量提高以及幀間的動態(tài)性增強(qiáng),而較小的系數(shù)則產(chǎn)生更穩(wěn)定的時間過渡和更大的采樣多樣性。因此,本工作不僅沿尺度調(diào)整空間 CFG (spatial-CFG),還在預(yù)選的調(diào)度器中設(shè)定了第一尺度的 CFG 時間起始點(diǎn)。

實(shí)驗(yàn)

實(shí)驗(yàn)設(shè)置

數(shù)據(jù)集本工作在多樣化的基準(zhǔn)測試集上進(jìn)行了實(shí)驗(yàn),涵蓋了低分辨率的玩具數(shù)據(jù)集和高分辨率的真實(shí)世界長視頻生成。對于短視頻生成,本工作使用 UCF-101(包含 8K 個視頻片段,101 個動作類別)作為人類動作建模的標(biāo)準(zhǔn)基準(zhǔn)。對于長視頻和開放域場景,本工作在專有的內(nèi)部數(shù)據(jù)集上進(jìn)行了大規(guī)模預(yù)訓(xùn)練和評估。所有視頻均被統(tǒng)一調(diào)整大小至 ,并根據(jù)數(shù)據(jù)集在時間上采樣至  幀。

評估指標(biāo)本工作從兩個維度評估模型:重構(gòu)質(zhì)量和生成質(zhì)量。對于重構(gòu),本工作報(bào)告 Fréchet Video Distance (rFVD),它直接反映了所學(xué)習(xí)到的視頻分詞器(tokenizer)的保真度。對于生成質(zhì)量,本工作測量 UCF-101 的留出(held-out)以人為中心的測試集上的 gFVD。此外,為了評估真實(shí)世界的生成性能,本工作在標(biāo)準(zhǔn)的 VBench上進(jìn)行評估,該基準(zhǔn)提供了一套專門為視頻生成模型設(shè)計(jì)的綜合感知和時間指標(biāo)。

實(shí)驗(yàn)結(jié)果

視頻重構(gòu)自回歸視頻生成模型的有效性在很大程度上取決于其底層視頻分詞器(Tokenizer)的質(zhì)量和緊湊性。本工作通過報(bào)告重構(gòu) Fréchet Video Distance (rFVD) 來評估這一方面。表 2 展示了在 UCF-101 數(shù)據(jù)集上的對比分析,證明了本模型在壓縮效率和重構(gòu)保真度之間取得了卓越的平衡。

本工作的 VideoAR-L 分詞器采用了激進(jìn)的 16 倍空間壓縮,將視頻片段編碼為緊湊的  潛在 token 網(wǎng)格。與 MAGVIT和 OmniTokenizer等最近的最先進(jìn)視頻分詞器(均僅以 8 倍壓縮運(yùn)行)相比,這種設(shè)計(jì)使序列長度減少了 4 倍。盡管 token 密度大幅降低,本工作的分詞器仍保持了出色的重構(gòu)質(zhì)量,實(shí)現(xiàn)了 ,與 MAGVIT (58) 持平。這一結(jié)果突顯了本工作分詞器在保留細(xì)粒度空間和時間結(jié)構(gòu)方面的有效性,為下游自回歸視頻生成奠定了強(qiáng)大而高效的表示基礎(chǔ)。

UCF-101 上的視頻生成本工作的 VideoAR 框架在 UCF-101 數(shù)據(jù)集上建立了新的技術(shù)水平(State-of-the-Art),標(biāo)志著在實(shí)現(xiàn)卓越生成質(zhì)量和前所未有的推理效率方面的范式轉(zhuǎn)變。如表 3 所示,本工作的 20 億參數(shù)模型 VideoAR-XL 實(shí)現(xiàn)了新的最佳 ,超過了之前領(lǐng)先的自回歸模型 PAR-4x()達(dá) 11%。即使是本工作較小的 926M 模型 VideoAR-L,也以 90.3 的 FVD 優(yōu)于它。然而,最顯著的進(jìn)步在于推理速度:僅需 30 個解碼步驟(減少了超過 10 倍),VideoAR-L 僅需 0.86 秒即可生成視頻,實(shí)現(xiàn)了比 PAR-4x 快 13 倍以上的推理速度。

這種雙重進(jìn)步直接源于本工作的架構(gòu)創(chuàng)新。通過幀內(nèi)視覺自回歸保留了高保真的空間細(xì)節(jié),同時保證了穩(wěn)健的時間一致性。

真實(shí)世界視頻生成為了進(jìn)一步驗(yàn)證本方法的有效性和可擴(kuò)展性,本工作在具有挑戰(zhàn)性的真實(shí)世界視頻生成任務(wù)上預(yù)訓(xùn)練了一個 4B 參數(shù)的 VideoAR 模型。如表 1 所示,本模型獲得了 81.74 的總體 VBench 分?jǐn)?shù),實(shí)現(xiàn)了與當(dāng)前規(guī)模大得多的最先進(jìn)模型(如 30B 的 Step-Video-T2V 和 13B 的 Hunyuan-Video)相當(dāng)甚至更好的性能。

通過對 VBench 指標(biāo)的細(xì)粒度分析,揭示了本模型的主要優(yōu)勢。特別是,VideoAR 實(shí)現(xiàn)了新的 SOTA 語義評分 (Semantic Score, SS) 77.15,超過了所有競爭對手。這一結(jié)果凸顯了其在保持精確的文本到視頻對齊方面的卓越能力。在保持具有競爭力的通用視覺質(zhì)量指標(biāo)(如美學(xué)質(zhì)量 AQ 和整體一致性 OC)的同時,這些在語義和運(yùn)動方面的優(yōu)異表現(xiàn)清楚地展示了本模型的獨(dú)特優(yōu)勢。

定性結(jié)果(圖 4 和補(bǔ)充材料)進(jìn)一步證實(shí)了定量改進(jìn)。VideoAR 始終如一地生成視覺上引人注目且語義連貫的視頻,涵蓋富有想象力的藝術(shù)風(fēng)格化、高保真自然場景以及具有強(qiáng)時間一致性的動態(tài)人類動作。

至關(guān)重要的是,這些結(jié)果證實(shí)了本工作的 VideoAR 策略為基于擴(kuò)散的范式提供了一個引人注目的替代方案。它達(dá)到了 SOTA 級的性能,特別是在語義控制和運(yùn)動描繪方面,同時提供了提高可擴(kuò)展性和顯著更高推理效率的強(qiáng)大潛力。

圖生視頻與視頻續(xù)寫作為一種自回歸視頻生成模型,本工作提出的 VideoAR 可以直接從前面的內(nèi)容(包括初始圖像和序列幀)擴(kuò)展未來的幀,而無需外部微調(diào)。為了進(jìn)行評估,本工作從 VBench-I2V 中采樣了幾個測試用例。本工作展示了多個圖生視頻 (I2V) 和視頻到視頻 (V2V) 的示例,其中 VideoAR 實(shí)現(xiàn)了單鏡頭或多鏡頭連續(xù)視頻生成。如圖 5 所示,VideoAR-4B 在各種設(shè)置下準(zhǔn)確遵循與輸入圖像對齊的語義提示,包括對象運(yùn)動控制和相機(jī)軌跡調(diào)整。對于視頻連續(xù)性任務(wù),VideoAR 可以在多次迭代中生成自然且一致的內(nèi)容,最終生成持續(xù)時間超過 20 秒的長視頻。

消融實(shí)驗(yàn)

本工作在 UCF-101 數(shù)據(jù)集上進(jìn)行了全面的消融研究。所有模型均訓(xùn)練固定的 1,000 步,這足以揭示模型性能的清晰趨勢。

多尺度時間 RoPE 的影響 (Effect of Multi-scale Temporal RoPE)本工作的第一個增強(qiáng)是將標(biāo)準(zhǔn)位置編碼替換為多尺度時間 RoPE。如表 4 第二行所示,這一單一修改將 FVD 從 96.04 降低到 94.95。這一結(jié)果凸顯了旋轉(zhuǎn)相對位置編碼對于建模視頻數(shù)據(jù)的復(fù)雜時空動態(tài)的重要性,從而提高了幀與幀之間的一致性。

時間一致性增強(qiáng)的影響 (Effect of Temporal-Consistency Enhancement)接下來,本工作評估了提出的跨幀誤差修正機(jī)制,該機(jī)制由兩個協(xié)同組件組成。(1) 本工作首先激活時間依賴性破壞 (Time-dependent Corruption),這是一種在訓(xùn)練期間模擬推理時條件的數(shù)據(jù)增強(qiáng)策略。這一添加進(jìn)一步將 FVD 降低到 93.57。(2) 在此基礎(chǔ)上,本工作結(jié)合了誤差繼承初始化 (Error Inheritance Initialization),它鼓勵模型修正繼承的擾動以改進(jìn)未來的預(yù)測。這最后一步產(chǎn)生了本工作的完整模型,實(shí)現(xiàn)了 92.50 的 SOTA FVD。

隨機(jī)幀掩碼 (Random Frame Mask) 的進(jìn)一步消融是在本工作的大規(guī)模真實(shí)世界數(shù)據(jù)集上進(jìn)行的,因?yàn)閷π?shù)據(jù)集 UCF-101 進(jìn)行強(qiáng)增強(qiáng)可能會阻礙模型收斂。如表 5 所示,在 256px 訓(xùn)練階段結(jié)合此技術(shù)將整體 VBench 分?jǐn)?shù)從 76.22 提高到 77.00。

討論

與同期工作 InfinityStar 的比較本工作強(qiáng)調(diào)了與 InfinityStar相比的幾個關(guān)鍵差異。

(1) 時空建模范式 (Spatio-temporal Modeling Paradigm)。 InfinityStar 采用 3D-VAR 公式,其中每個生成塊都在幀的時間窗口上運(yùn)行。相比之下,本工作的 VideoAR 采用了下一幀預(yù)測范式,并結(jié)合了每一幀內(nèi)的多尺度建模。這種設(shè)計(jì)通過結(jié)構(gòu)化的從粗到細(xì)生成實(shí)現(xiàn)了細(xì)粒度的空間建模,同時通過顯式的逐幀預(yù)測保持了時間一致性。

(2) 訓(xùn)練策略 (Training Strategy)。 InfinityStar 是從完善的 8B 規(guī)模圖像生成基礎(chǔ)模型微調(diào)而來的,受益于強(qiáng)大的預(yù)訓(xùn)練先驗(yàn)。相比之下,本工作的 VideoAR 是使用聯(lián)合低分辨率圖像-視頻數(shù)據(jù)從頭開始訓(xùn)練的,專注于從頭開始學(xué)習(xí)統(tǒng)一的時空表示。

(3) 訓(xùn)練規(guī)模和序列長度 (Training Scale and Sequence Length)。 此外,VideoAR 使用相對適中的序列長度進(jìn)行訓(xùn)練,主要是出于現(xiàn)階段實(shí)際訓(xùn)練的考慮。因此,尚未詳盡探索長視界的時間連貫性。然而,所提出的框架對序列長度沒有固有的限制,并且與更長上下文的訓(xùn)練完全兼容。隨著訓(xùn)練規(guī)模和序列長度的增加,本工作預(yù)計(jì)在長期一致性方面會有進(jìn)一步的收益。

結(jié)論

VideoAR,這是一種基于下一尺度預(yù)測原則的可擴(kuò)展自回歸視頻生成新范式。通過將 VAR 框架擴(kuò)展到視頻領(lǐng)域,VideoAR 通過因果 3D 分詞器和基于 Transformer 的生成器統(tǒng)一了空間和時間建模。所提出的多尺度時間 RoPE 增強(qiáng)了時空表示學(xué)習(xí),而跨幀誤差修正和隨機(jī)幀掩碼有效地緩解了累積誤差并提高了長視頻生成的穩(wěn)定性。廣泛的實(shí)驗(yàn)表明,VideoAR 不僅實(shí)現(xiàn)了最先進(jìn)的 gFVD (88.6) 和 VBench (81.7) 分?jǐn)?shù),而且與現(xiàn)有的 AR 基線模型相比,推理速度提高了 13 倍。這些發(fā)現(xiàn)凸顯了自回歸建模作為基于擴(kuò)散方法的一種實(shí)用且強(qiáng)大的替代方案,為高效、大規(guī)模的視頻生成鋪平了道路。

參考文獻(xiàn)

[1] VideoAR: Autoregressive Video Generation via Next-Frame & Scale Prediction

       原文標(biāo)題 : 自回歸最新SOTA!百度VideoAR:首個視頻VAR框架,推理步數(shù)減少10倍,比肩擴(kuò)散模型

聲明: 本文由入駐維科號的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報(bào)。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號