訂閱
糾錯
加入自媒體

Qwen3-VL-Flash提升13.62%!浙大等首創(chuàng)CoV:多步推理具身問答Agent,通用提點神器

作者:CoV團隊

解讀:AI生成未來

亮點直擊

CoV 框架:首創(chuàng)“視鏈提示”(Chain-of-View, CoV),一個免訓練、測試時(test-time)的具身問答智能體框架。

主動視覺推理:將傳統(tǒng)被動的視覺語言模型(VLM)轉(zhuǎn)變?yōu)?strong>主動的視點搜索者,使其能夠像人類一樣通過移動視角來探索環(huán)境。

驗證測試時擴展性(Test-Time Scaling):通過增加推理時的“行動預算”(即允許模型多走幾步、多看幾次),可以持續(xù)提升模型性能,而無需重新訓練模型。

顯著的通用提升:該方法是模型無關(guān)的(Model-Agnostic),在多個主流 VLM(如 GPT-4o, Gemini, Qwen)上均取得了顯著的性能提升。

從宇樹機器人登上春晚舞臺,到首屆“世界人形機器人運動會”火遍全球,“具身智能”可謂是今年AI領(lǐng)域最出圈的關(guān)鍵詞之一。人工智能正大舉從數(shù)字領(lǐng)域邁向物理現(xiàn)實,在這一背景下,具身問答任務(EQA) 顯得愈發(fā)重要。EQA任務的核心挑戰(zhàn)在于,智能體必須像人類一樣,在復雜的物理空間中定位關(guān)鍵信息,并生成準確答案。

傳統(tǒng)方法往往依賴有限且視角固定的圖像輸入,這使得VLM難以獲取足夠多與問題相關(guān)的視覺線索。在復雜的具身問答場景中,答案并非一目了然,大多數(shù)問題都需要經(jīng)過多步推理才能解決。

例如,面對“哪里可以找到汽水?”這樣的問題,場景中可能并未直接出現(xiàn)汽水。智能體不僅需要調(diào)用“汽水通常存放在冰箱里”這類常識知識,還需自主規(guī)劃路徑,在環(huán)境中搜尋冰箱等關(guān)聯(lián)物體。這類問題的解答,依賴VLM在充分、相關(guān)的上下文信息中進行連續(xù)推理,而無法通過單次的生成步驟來完成。

研究人員提出了一種多步推理的具身問答智能體框架:Chain of View(CoV),旨在實現(xiàn)從被動觀察到迭代式自主探索的轉(zhuǎn)變。應用CoV框架后,模型整體性能在最新的EQA基準測試上平均提升了10.82% 。其中,Qwen3-VL-Flash模型提升達到了13.62% 。

粗粒度篩選,快速確定視角錨點

CoV的整體流程包含兩個階段:粗粒度視角篩選(Coarse-grained View Selection)與細粒度視角調(diào)整(Fine-grained View Adjustment)。

在實際場景中,智能體獲取的視覺輸入通常來源于一段連續(xù)的視頻片段。這些原始幀往往包含大量冗余信息。對于任何一個具體問題,通常只有少數(shù)幾幀圖像與其相關(guān)。而過多的無關(guān)視覺信息,反而會干擾模型的判斷。

為此,CoV引入了視角粗選智能體,其核心任務是從原始可用的視角中,主動篩選出與當前問題最相關(guān)的關(guān)鍵視角,從而為后續(xù)的推理步驟提供與問題強相關(guān)的視角基礎(chǔ)。

細粒度調(diào)整,精確鎖定問題相關(guān)視角

以往的方法通常將智能體置于被動,它只能從一組預先給定的、有限的固定圖像中尋找答案。這種“一步生成”的模式,放棄了進一步搜尋相關(guān)環(huán)境細節(jié)的可能性,也因此限制了模型進行深度、多步思考的能力。

受思維鏈(CoT)啟發(fā),研究人員提出細粒度的視角調(diào)整機制。該方法能為模型動態(tài)補充與問題相關(guān)的環(huán)境信息,讓智能體在持續(xù)的觀察與思考中逐步逼近答案。對粗粒度視角篩選階段得到的視覺錨點,VLM會規(guī)劃并執(zhí)行一系列視角調(diào)整動作,包括平移、旋轉(zhuǎn)以及在不同視角間切換三類操作。

這一系列視角調(diào)整使得智能體能夠主動地、有目的地調(diào)整其觀察位置與朝向,從而獲取對解答問題至關(guān)重要的環(huán)境細節(jié),提升EQA表現(xiàn)。 當智能體認為已經(jīng)獲取到足夠的信息回答問題時,停止視角調(diào)整,并基于精心構(gòu)建的視覺上下文給出最終答案。

刷新EQA基準測試

研究人員在包括OpenEQA、ScanQA、SQA3D等最新的EQA基準測試上進行了大量實驗。在反映生成文本與人類回答相似度的CIDEr指標上,CoV得分達到116;在ScanQA數(shù)據(jù)集上的首次回答準確率(EM@1)也達到31.9%。應用CoV框架后,VLM整體性能在OpenEQA測試基準上平均提升了10.82%。

強大的Test-time Scaling性能

研究人員還發(fā)現(xiàn),智能體自主行動步數(shù)越多,獲取的信息越多,EQA任務的表現(xiàn)也會呈現(xiàn)上升趨勢。在不限制行動步數(shù)的情況下,絕大多數(shù)問題所涉及的行動步數(shù)偏少,集中在1到3步。隨著動作步數(shù)的增加,模型在相應問題上的得分呈現(xiàn)出明顯的上升趨勢。

通過在提示詞中限制VLM的最小行動步數(shù),與僅允許單步行動的設置相比,提升動作步數(shù)上限后VLM性能平均提高了2.51%。這一結(jié)果表明,多步推理能有效增強智能體在具身問答任務中的表現(xiàn)。CoV無需額外訓練,僅通過增加行動步數(shù)即可實現(xiàn)性能增益,展現(xiàn)出顯著的“無需訓練,測試擴展”潛力。

總的來講,CoV是一個多步推理具身問答Agent框架,能允許VLM自主獲取更多和問題相關(guān)的視角。這項工作有效提升了VLM在EQA任務上的表現(xiàn),并且具備test-time scaling的潛力,為通向在復雜空間中行動、適應并探索的具身智能系統(tǒng),提供了新的可能性。

參考文獻

[1] CoV: Chain-of-View Prompting for Spatial Reasoning

       原文標題 : Qwen3-VL-Flash提升13.62%!浙大等首創(chuàng)CoV:多步推理具身問答Agent,通用提點神器

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號