訂閱
糾錯
加入自媒體

視頻理解大模型覺醒!Video-o3發(fā)布:像偵探一樣主動搜尋關鍵幀,登頂Video-Holmes!

2026-02-05 14:53
AI生成未來
關注

作者:Xiangyu Zeng等

解讀:AI生成未來

亮點直擊

Video-o3,一個創(chuàng)新的框架,它通過迭代地發(fā)現(xiàn)顯著的視覺線索、對關鍵片段進行細致檢查以及在收集到足夠證據(jù)時自適應終止搜索過程,解決了長視頻多跳推理的挑戰(zhàn)。

解決注意力分散: 為了應對推理和工具調用異構性導致的注意力分散問題,本文提出了任務解耦注意力掩蔽,它可以在SFT(監(jiān)督微調)階段隔離每一步的注意力,同時保持共享的全局上下文,從而實現(xiàn)高效的解耦專家訓練。

控制上下文增長和提高效率: 引入了可驗證軌跡引導獎勵,用于控制多輪交互中的上下文長度增長。這個獎勵機制在強化學習(RL)階段平衡了線索探索和推理效率,通過結合中間線索準確性和回合衰減因子,確保了推理過程的規(guī)范性。

大規(guī)模訓練數(shù)據(jù): 為了支持大規(guī)模訓練,開發(fā)了一個數(shù)據(jù)合成流程,并構建了Seer-173K數(shù)據(jù)集,其中包含173K條高質量的工具交互軌跡,從而實現(xiàn)了有效的監(jiān)督學習和強化學習。

卓越的性能: Video-o3在多跳證據(jù)尋找和推理能力方面表現(xiàn)出色,在MLVU上取得了72.1%的準確率,在Video-Holmes上取得了46.5%的準確率,顯著優(yōu)于現(xiàn)有SOTA方法。

總結速覽

解決的問題

現(xiàn)有的多模態(tài)大型語言模型(MLLMs)在長視頻理解方面主要依賴統(tǒng)一采樣和單輪推理,這限制了它們在大量冗余信息中識別稀疏但關鍵證據(jù)的能力。

長視頻中存在豐富的視覺線索和復雜的時序依賴,模型不僅需要精確地定位與查詢相關的時刻,還需要對這些時刻進行推理以實現(xiàn)準確、特定于查詢的理解,而現(xiàn)有方法難以做到這一點。

大多數(shù)現(xiàn)有方法采用統(tǒng)一幀采樣和單輪推理策略,這會稀釋關鍵視覺證據(jù),導致計算開銷大和推理準確性下降。

早期的“線索尋找+答案推理”原型過于依賴手工啟發(fā)式方法,缺乏端到端優(yōu)化,并且將線索尋找與推理解耦,訓練為孤立的單輪模塊,沒有多步上下文共享。

提出的方案

引入Video-o3,一個支持迭代發(fā)現(xiàn)顯著視覺線索、對關鍵片段進行細粒度檢查以及在獲得足夠證據(jù)后自適應終止的新框架。

賦予MLLMs類人探索性線索尋找能力,以實現(xiàn)更高效和準確的長視頻理解。

通過原生多輪工具調用進行端到端訓練,以實現(xiàn)更強的靈活性和聯(lián)合推理。

應用的技術

任務解耦注意力掩蔽 (Task-Decoupled Attention Masking): 用于解決推理和工具調用異構性引起的注意力分散問題,該技術隔離了每一步的注意力,同時保留了共享的全局上下文。

可驗證軌跡引導獎勵 (Verifiable Trajectory-Guided Reward): 用于控制多輪交互中的上下文長度增長,平衡了探索覆蓋率和推理效率。

數(shù)據(jù)合成流程與Seeker-173K數(shù)據(jù)集: 開發(fā)了一個數(shù)據(jù)合成流程并構建了包含173K條高質量工具交互軌跡的Seeker-173K數(shù)據(jù)集,以支持大規(guī)模訓練,實現(xiàn)有效的監(jiān)督學習和強化學習。

達到的效果

Video-o3在MLVU上取得了72.1%的準確率,在Video-Holmes上取得了46.5%的準確率。

這些結果證明了Video-o3強大的多跳證據(jù)尋找和推理能力,并驗證了原生工具調用在長視頻場景中的有效性。

在長視頻理解基準測試中,Video-o3顯著優(yōu)于現(xiàn)有最先進的方法。

方法

Video-o3 的架構概覽如圖 3 所示。在初始交互階段,模型會接收到工具使用說明、用戶查詢以及視頻的全局視圖。在處理這些輸入后,模型進入內部推理過程:它會分解查詢以精準定位視覺證據(jù),并評估當前觀測信息的充分性。這一評估過程驅動模型采取兩種截然不同的策略之一:

(1)線索搜尋(Clue Seeking): 若現(xiàn)有線索模糊或不足,模型會調用工具來審視特定視頻片段的細粒度細節(jié),從而消除不確定性。

(2)答案推理(Answer Reasoning): 若已識別出足以支持答案的清晰視覺證據(jù),模型則直接生成最終響應。

當選擇線索搜尋策略時,模型會生成一個結構化指令,其中包含時間窗口以及當前輪次的視覺 Token 配額(visual token quota),用以指導外部工具提取目標視頻片段。外部工具系統(tǒng)會根據(jù)該視覺配額動態(tài)計算每一幀的 Token 限制(具體計算公式見附錄 A)。隨后,重新采樣的片段將與提示詞一同整合進對話序列中,觸發(fā)下一階段的推理過程。這一反饋循環(huán)將持續(xù)進行,直到模型收斂并得出最終答案。

任務解耦冷啟動

雖然共享上下文架構能夠實現(xiàn)步驟行為與端到端模型優(yōu)化之間的協(xié)同,但它也引入了一個關鍵的注意力分散問題。由于異質的上下文緩沖區(qū)交錯包含了低分辨率的全局視頻 Token、源自工具的細粒度局部片段以及中間推理文本,所有 Token 在不考慮任務相關性的情況下共享完整的感受野。結果導致注意力可能會被無關的上下文所干擾。例如,在線索搜尋步驟中,當需要全局視頻上下文時,注意力可能會被之前剪裁的視頻片段分散。同樣,在回答階段,本工作觀察到了“虛假思考”(fake thinking)現(xiàn)象:盡管成功檢索到了證據(jù),但最終的預測結果卻與中間推理不一致(見附錄 I)。這一現(xiàn)象與純文本大語言模型推理中此前報道的忠實度(faithfulness)問題相呼應。

為了解決這一問題,本研究在監(jiān)督微調(SFT)過程中引入了任務解耦注意力掩碼(Task-Decoupled Attention Masking, TDAM),如圖 4 所示。該策略通過在 SFT 過程中強制執(zhí)行嚴格的可見性約束,顯式地將線索定位與答案推理進行解耦,從而有效地隔離了這兩種模式的訓練。具體而言,在線索搜尋階段,模型被限制為僅關注全局視頻輸入,迫使其學習基于全局上下文的規(guī)劃策略。相反,在答案推理階段,全局視圖被掩蔽,強制模型僅從高分辨率的工具觀測中推導答案。為了平衡這種解耦的專業(yè)能力與整體推理的需求,本工作僅在 10% 的工具使用訓練數(shù)據(jù)中應用此掩碼。這確保了模型在保持強大任務針對性的同時,仍能保留整體推理的能力。

形式上,令  表示代表全局觀測的視覺 Token 集合,令  表示源自后續(xù)工具調用的視覺 Token 集合。令  為當前正在生成的 Token 的索引, 為上下文 Token 的索引。本工作將任務解耦注意力掩碼  定義如下:

其中  指示模型的當前策略。通過這種精確的掩蔽機制,Video-o3 能夠有效避免長視頻理解中的信息過載,確保線索尋找的聚焦性與答案生成的忠實度。

軌跡引導的強化學習

每次工具調用都需要對局部視頻片段進行詳細觀測,這本質上會產(chǎn)生大量的 Token 消耗。這往往導致上下文長度溢出和過度的計算成本。本工作從兩個互補的角度來應對這一挑戰(zhàn)。首先,強調精準的線索定位,要求模型僅準確識別最相關的視頻片段,從而最大限度地減少因檢索無關內容造成的上下文浪費。其次,提倡主動的探索終止,使模型能夠評估積累的證據(jù)對于給定查詢是否充足,并據(jù)此停止進一步探索。這避免了不必要的工具交互,并顯著降低了冗余的計算開銷。

為實現(xiàn)這一目標,本文引入了可驗證軌跡引導獎勵(Verifiable Trajectory-Guided Reward, VTGR)。該機制旨在在無約束的自主探索與效率驅動的軌跡正則化之間取得微妙的平衡。具體而言,我們將獎勵函數(shù)  公式化為答案正確性、結構有效性和探索效率的組合:

其中  代表基礎答案獎勵, 表示格式獎勵,定義為所有輪次中有效格式的歸一化比率。項  是核心的軌跡引導乘數(shù),它根據(jù)定位精度和路徑簡潔性動態(tài)調節(jié)答案獎勵:

這里, 作為基礎附加獎勵, 是由超參數(shù)控制的權重系數(shù)。項 (混合線索分數(shù))激勵精準定位,而 (輪次衰減因子)促進敏捷終止。

混合線索分數(shù)(Hybrid Clue Score): 為減輕因錯誤搜尋導致的上下文浪費,本文采用基于標簽的策略來引導線索搜尋的精度。我們將樣本分類為標簽 。對于“自由探索”樣本(), 被設為常數(shù)  以鼓勵多樣性。相反,對于“軌跡引導”樣本(),分數(shù)源自預測區(qū)間與真值(Ground Truth)之間的對齊程度。這根據(jù)線索定位的精度動態(tài)調整獎勵,阻止模型將上下文窗口浪費在無關片段上。具體而言,混合線索分數(shù)計算如下:

其中 、 和  分別代表交并比(Intersection over Union)、預測交集比(Intersection over Prediction)和真值交集比(Intersection over Ground Truth)。

輪次衰減因子(Turn Decay Factor): 為確保敏捷終止并防止冗余循環(huán),本文應用了超輪次懲罰。令  表示實際的工具調用次數(shù), 為標注的參考限制。衰減因子  對超過必要步驟的軌跡進行懲罰:

其中  是衰減懲罰權重。該機制有效地阻止模型在證據(jù)已充足時進行無意義的工具調用,從而促進簡潔的推理鏈。

優(yōu)化: 一旦建立了獎勵分數(shù),本文利用組相對策略優(yōu)化(Group Relative Policy Optimization, GRPO)通過最大化每個采樣組內的相對優(yōu)勢來迭代優(yōu)化策略。為了進一步穩(wěn)定針對長形式交互的訓練,本文采用了 Mini-o 中引入的超輪次掩碼(over-turn masking)技術。

數(shù)據(jù)集

訓練多模態(tài)大語言模型(MLLMs)掌握原生交錯工具調用的主要障礙在于,缺乏帶有探索軌跡的高質量數(shù)據(jù),F(xiàn)有的長視頻數(shù)據(jù)集主要局限于靜態(tài)的“視頻-問題-答案”三元組,缺乏顯式的、帶有時間戳錨點的中間推理鏈。這種數(shù)據(jù)的缺失使得模型難以通過監(jiān)督范式學習復雜的多步探索行為。為了彌補這一差距,本工作引入了一種可擴展的自動數(shù)據(jù)合成流水線,能夠為監(jiān)督微調(SFT)和強化學習(RL)合成大規(guī)模訓練數(shù)據(jù)。利用該流水線,本工作構建了 Seeker-173K,這是一個由原生多輪工具交互軌跡組成的高質量數(shù)據(jù)集,旨在培養(yǎng)高效且自主的工具使用能力。

數(shù)據(jù)合成流水線 (Data Synthesis Pipeline): 本工作收集了現(xiàn)有的優(yōu)質“視頻-問題-答案”三元組,并利用 Gemini 2.5 Pro 輔助構建的高質量長視頻數(shù)據(jù)進行了補充。作為原始語料庫,這些樣本通過一個嚴謹?shù)乃碾A段流水線處理,以生成可驗證的工具調用軌跡:

(1) 線索定位 (Clue Localization): 首先將原始三元組輸入至視覺語言模型(VLM),以識別所有包含關鍵視覺線索的時間段,并為每個區(qū)間生成詳細描述。

(2) 有效性驗證 (Validity Verification): 為了消除噪聲,本工作提取這些定位片段,并利用 VLM 對照原始查詢進行重新評估。本工作僅保留那些能夠僅憑裁剪片段即可正確推導出真值答案(Ground-truth answer)的樣本,從而保證視覺證據(jù)的充分性。

(3) 軌跡生成 (Trajectory Generation): 隨后將問題、經(jīng)過驗證的片段及其描述輸入至強大的 VLM。模型受命合成包含格式化工具調用的逐步思維鏈(Chain-of-Thought),產(chǎn)出由精確時間戳錨定的顯式中間軌跡。

(4) 邏輯一致性檢查 (Logical Consistency Check): 最后,由一個 LLM 充當驗證器來審查生成的邏輯鏈。本工作嚴格過濾掉有缺陷的實例,僅保留邏輯嚴密、推理嚴謹且有事實視覺證據(jù)強力支撐的樣本。

Seeker-173K 數(shù)據(jù)集 (The Seeker-173K Dataset): 利用上述流水線,本工作策劃了 Seeker-173K,這是一個包含約 17.3 萬條高質量軌跡的大規(guī)模數(shù)據(jù)集,專門設計用于灌輸自適應的智能體行為。Seeker-173K 根據(jù)證據(jù)基數(shù)(evidence cardinality)和視覺顯著性(visual saliency)被嚴格劃分為四象限分類體系。這種結構化的多樣性使模型能夠掌握不同的能力:

(1) 自適應調用 (Adaptive Invocation): 模型學習在全局信息充足時跳過工具使用,僅在線索細微或轉瞬即逝時才部署工具。

(2) 復雜推理 (Complex Reasoning): 模型在跨越不同時間戳的場景下執(zhí)行邏輯鏈式推理。此外,為了增強魯棒性,本工作還加入了補充性的“自我反思”和“自由格式”任務,提供關于錯誤校正和自主規(guī)劃的監(jiān)督。關于數(shù)據(jù)集的完整統(tǒng)計信息和任務定義,請參閱附錄 C。

實驗

Video-o3在視頻問答任務上與現(xiàn)有方法進行了比較,如下表1所示。Video-o3在長視頻理解基準測試中顯著優(yōu)于現(xiàn)有方法,并在多個視頻推理基準測試中表現(xiàn)出色。具體來說,Video-o3的RL-only變體在VideoMME上達到了66.1%的準確率,超過了領先的競爭對手VideoZoomer (65.2%)。在SFT冷啟動初始化后,性能進一步提升至66.5%。值得注意的是,Video-o3在需要精確觀察局部細節(jié)的基準測試中表現(xiàn)出卓越的能力,例如MLVU、LVBench和LongVideoBench。即使沒有SFT,經(jīng)過RL訓練的模型也以顯著優(yōu)勢優(yōu)于現(xiàn)有的原生工具使用方法,分別獲得了71.9%、47.5%和59.3%的準確率。SFT的集成進一步鞏固了這一優(yōu)勢,證明了Video-o3強大的長上下文感知能力。

在視頻推理方面,Video-o3在復雜推理領域表現(xiàn)出卓越的熟練度。在旨在評估多學科推理的VideoMMMU上,RL-only模型取得了50.0%的可喜成績,SFT初始化后進一步提高到51.7%。該模型的能力在Video-Holmes上尤為突出,這是一個需要復雜多跳線索推理的數(shù)據(jù)集。在這里,即使是RL-only基線也達到了穩(wěn)健的46.1%,而SFT增強型變體將其改進為46.5%。這些結果強調了Video-o3在解耦和推導復雜多跳視覺證據(jù)方面的有效性。

除了通用問答外,本工作還在時間定位方面評估了Video-o3的能力。如下表2所示,在Charades-STA基準測試中,LongVT的mIoU為27.2,甚至低于基線Qwen2.5-VL (mIoU: 43.6)。相比之下,Video-o3表現(xiàn)出強大的性能,mIoU為60.7。這一結果證實了本工作方法在精確定位關鍵視頻片段方面的準確性,這是一項有助于實現(xiàn)高效、高精度多輪線索定位和聯(lián)合推理的關鍵元能力。

下表3展示了任務解耦注意力掩蔽 (TDAM) 關鍵組件的消融研究結果。結果表明,完全移除注意力掩蔽機制(表示為Baseline)會導致長視頻理解和推理任務的整體性能下降。此外,僅部分應用答案掩蔽或接地掩蔽時,模型的性能仍無法達到完整掩蔽策略所實現(xiàn)的水平。這表明TDAM有效地分離了線索定位和答案推理任務,防止了不同任務之間的干擾,使模型能夠更有效地收斂到“多輪線索尋找+多跳答案推理”的預期模式。

下表4詳細介紹了可驗證軌跡引導獎勵 (VTGR) 中每個組件的影響。移除獎勵乘數(shù)會導致統(tǒng)一獎勵退化為基本的正確性和格式信號,這無法在早期階段激發(fā)工具使用行為,導致訓練過程不穩(wěn)定且難以收斂。如果沒有混合線索分數(shù),框架將失去對工具調用過程的關鍵約束,無法引導模型走向高效的推理軌跡。此外,缺乏回合衰減因子會導致推理回合的無限制擴展,這通常會導致軌跡長度違反推理時間限制,從而導致模型無法提供最終響應。這些結果表明VTGR對于規(guī)范推理過程至關重要,它鼓勵探索精確的線索片段,同時抑制多余的交互,最終保證了多跳推理的準確性和效率。

為了量化多跳推理對模型性能的貢獻,本工作對最大交互回合數(shù)進行了消融研究,如下表5所示。通過將上限限制為2、4和8回合,模擬了從粗略檢查到全面調查的場景。經(jīng)驗證據(jù)表明,在所有基準測試中,交互深度與推理準確性之間存在持續(xù)的正相關關系。這種趨勢在需要細粒度檢索和復雜邏輯的數(shù)據(jù)集(例如MLVU和VideoMMMU)中最為明顯。這種提升凸顯了復雜的長視頻查詢通常超出淺層推理能力。在8回合時的持續(xù)改進驗證了Video-o3的核心前提:原生交錯工具調用范式使模型能夠將復雜的查詢分解為可管理的子目標。Video-o3利用擴展的預算迭代地解決歧義,通過穩(wěn)健的多跳推理鏈有效地將不確定的初始假設轉化為經(jīng)過驗證的結論,而不是屈服于上下文漂移。

結論

Video-o3,這是一個賦予多模態(tài)大語言模型(MLLM)原生交錯工具調用能力的框架,用于長視頻理解。為了實現(xiàn)穩(wěn)健的端到端訓練,引入了任務解耦注意力掩蔽機制,以解決異構上下文中的注意力分散問題,并在Supervised Fine-Tuning (SFT) 階段實現(xiàn)高效的解耦專家訓練。此外,還設計了可驗證軌跡引導獎勵機制,它結合了中間線索準確性和回合衰減因子,從而在強化學習 (RL) 階段平衡了線索探索和推理效率。為了支持大規(guī)模訓練,本文進一步開發(fā)了一個數(shù)據(jù)合成流程,并構建了包含173K條高質量工具交互軌跡的Seeker-173K數(shù)據(jù)集,以實現(xiàn)有效的監(jiān)督學習和強化學習。通過對MLVU和Video-Holmes等多個長視頻理解和推理基準測試的廣泛實驗,Video-o3的性能顯著優(yōu)于現(xiàn)有最先進的方法,證實了其強大的多跳證據(jù)尋找和推理能力,并驗證了原生工具調用在長視頻場景中的有效性。

參考文獻

[1] Video-o3: Native Interleaved Clue Seeking for Long Video Multi-Hop Reasoning.

       原文標題 : 視頻理解大模型覺醒!Video-o3發(fā)布:像偵探一樣主動搜尋關鍵幀,登頂Video-Holmes!

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號