訂閱
糾錯(cuò)
加入自媒體

鐵釘水上漂、子彈穿蘋果不炸?Nano-Banana等17款SOTA模型顫抖迎物理邏輯推理大考!

作者:Tianyang Han等

解讀:AI生成未來(lái)

本文第一作者Tianyang Han是美團(tuán)MeiGen團(tuán)隊(duì)的算法研究科學(xué)家,主要研究方向是圖像生成和多模態(tài)大語(yǔ)言模型。

亮點(diǎn)直擊

PicWorld,一個(gè)旨在評(píng)估文本到圖像模型隱含推理能力的綜合性基準(zhǔn)。據(jù)我們所知,PicWorld是首個(gè)大規(guī)模、系統(tǒng)性的基準(zhǔn),專門用于評(píng)估模型對(duì)隱含世界知識(shí)(如遵循基本物理定律)和邏輯因果推理的理解。

提出了PW-Agent,一種新穎的自動(dòng)化評(píng)估框架,它采用基于智能體分解的層次化評(píng)估。這種多智能體流程系統(tǒng)地將復(fù)雜提示分解為可驗(yàn)證的物理和邏輯組件,從而實(shí)現(xiàn)對(duì)模型在基準(zhǔn)上表現(xiàn)的可復(fù)現(xiàn)和可擴(kuò)展分析。

全面實(shí)驗(yàn)表明,現(xiàn)有的文本到圖像模型,特別是開(kāi)源模型,在物理和邏輯推理能力上表現(xiàn)出局限性,這凸顯了未來(lái)需要改進(jìn)的關(guān)鍵領(lǐng)域。

總結(jié)速覽

解決的問(wèn)題

心能力缺失:當(dāng)前文生圖模型缺乏對(duì)隱含世界知識(shí)物理因果推理的理解。它們能生成逼真且符合指令的圖像,但在需要常識(shí)和邏輯推理的提示詞上經(jīng)常失敗。

評(píng)估體系不完善:現(xiàn)有的評(píng)估方法要么側(cè)重于組合對(duì)齊(即圖像是否包含提示詞中提到的元素),要么依賴單輪視覺(jué)問(wèn)答進(jìn)行打分。這導(dǎo)致對(duì)知識(shí)基礎(chǔ)、多物理交互和可審計(jì)的證據(jù)等關(guān)鍵維度的測(cè)試嚴(yán)重不足。

評(píng)估方法不可靠:依賴多模態(tài)大語(yǔ)言模型進(jìn)行整體評(píng)判的現(xiàn)有方法存在幻覺(jué)(看到不存在的東西)、中心傾向偏差(打分趨于中庸)等問(wèn)題,無(wú)法進(jìn)行精細(xì)、可靠的評(píng)估。

提出的方案

PicWorld基準(zhǔn):提出了第一個(gè)用于系統(tǒng)評(píng)估文生圖模型隱含世界知識(shí)掌握程度物理因果推理能力的綜合基準(zhǔn)。它包含1,100個(gè)提示詞,涵蓋三個(gè)核心類別:

物理世界

抽象知識(shí)

邏輯與常識(shí)推理

PW-Agent評(píng)估框架:設(shè)計(jì)了一個(gè)基于證據(jù)的多智能體評(píng)估管道,以進(jìn)行分層、精細(xì)化的評(píng)估。該框架包含四個(gè)專門化的智能體:

世界知識(shí)提取器:將提示詞分解為原子化的、可圖像驗(yàn)證的期望。

假設(shè)構(gòu)建器:根據(jù)分解出的期望,構(gòu)建可驗(yàn)證的視覺(jué)問(wèn)題。

視覺(jué)感知器:從圖像中尋找視覺(jué)證據(jù)來(lái)回答問(wèn)題。

推理評(píng)判器:通過(guò)基于演繹的連續(xù)評(píng)分方案,結(jié)合檢查清單式的原子性和重要性權(quán)重,匯總答案并給出最終分?jǐn)?shù)。

應(yīng)用的技術(shù)

多模態(tài)大語(yǔ)言模型

基準(zhǔn)構(gòu)建:利用先進(jìn)的MLLM(文中提及Gemini-2.5-Pro)來(lái)生成初始提示詞,并輔以人工嚴(yán)格篩選以確保質(zhì)量。

評(píng)估框架:PW-Agent的核心組件(如WKE, HF, VP, RJ)本質(zhì)上是基于MLLM構(gòu)建的智能體,協(xié)同完成解析、提問(wèn)、感知和推理評(píng)判的任務(wù)。

多智能體系統(tǒng):采用分工協(xié)作的多智能體框架,將復(fù)雜的評(píng)估任務(wù)分解為更專業(yè)、可管理的子任務(wù),以提高評(píng)估的準(zhǔn)確性、可靠性和可解釋性。

分層評(píng)估維度:PW-Agent從三個(gè)層次對(duì)圖像進(jìn)行評(píng)估:指令遵循物理/邏輯真實(shí)性細(xì)節(jié)與細(xì)微差別

達(dá)到的效果

系統(tǒng)性評(píng)估:PicWorld基準(zhǔn)首次系統(tǒng)性地測(cè)試了文生圖模型對(duì)場(chǎng)景隱含后果的理解,而不僅僅是其顯式描述的組件。

精細(xì)化和可解釋的分析:PW-Agent通過(guò)分解提示詞和基于證據(jù)的驗(yàn)證,提供了細(xì)粒度、多層面的分?jǐn)?shù),能夠深入且可解釋地分析模型的推理能力缺陷。

揭示模型根本性局限:對(duì)17個(gè)主流文生圖模型的全面分析表明,它們?cè)?strong>不同程度上普遍存在對(duì)隱含世界知識(shí)和物理因果推理能力的根本性局限

指明未來(lái)方向:該研究強(qiáng)調(diào)了未來(lái)文生圖系統(tǒng)需要集成推理能力和知識(shí)的架構(gòu),而不僅僅是提升圖像質(zhì)量和顯式指令跟隨能力。

PicWorld 基準(zhǔn)測(cè)試

當(dāng)前的評(píng)估方法主要關(guān)注語(yǔ)義的一致性和組合的準(zhǔn)確性,在很大程度上未對(duì)模型理解基本世界動(dòng)態(tài)的能力進(jìn)行評(píng)估。為了填補(bǔ)文本生成圖像(T2I)模型隱性世界認(rèn)知評(píng)估的空白,本工作構(gòu)建了 PicWorld,旨在對(duì) T2I 模型學(xué)習(xí)到的隱性自然規(guī)律進(jìn)行整體且細(xì)粒度的評(píng)估。

PicWorld 基準(zhǔn)構(gòu)建

如下圖 3 所示,PicWorld 包含總共 1,100 個(gè)精心策劃的提示詞(prompts),系統(tǒng)地組織在三個(gè)主要領(lǐng)域中。本工作手動(dòng)設(shè)計(jì)了復(fù)雜的提示詞模板,每個(gè)模板都針對(duì)世界理解的特定方面。隨后,利用 Gemini-2.5-Pro 生成了大量的候選提示詞語(yǔ)料庫(kù),并經(jīng)過(guò)人類專家的嚴(yán)格篩選和完善,以確保清晰度和復(fù)雜性。具體而言,這三個(gè)部分的細(xì)節(jié)如下:

物理世界

PicWorld 的物理世界領(lǐng)域旨在評(píng)估模型理解和視覺(jué)模擬支配現(xiàn)實(shí)的基本規(guī)律的能力。一個(gè)真正理解世界的模型不僅應(yīng)該識(shí)別物體,還應(yīng)該呈現(xiàn)它們?cè)诟鞣N物理約束下的行為。缺乏這種內(nèi)在物理引擎的模型只能是一個(gè)非智能的生成器,只能描繪靜態(tài)物體,無(wú)法捕捉世界的動(dòng)態(tài)因果本質(zhì)。本工作將該領(lǐng)域進(jìn)一步細(xì)分為三個(gè)核心類別:

力學(xué)與動(dòng)力學(xué):評(píng)估模型對(duì)變形、運(yùn)動(dòng)、流體動(dòng)力學(xué)和拋體運(yùn)動(dòng)等概念的理解。

光與電磁學(xué):考察模型對(duì)反射、折射、陰影和電現(xiàn)象等現(xiàn)象的掌握情況。

熱力學(xué):評(píng)估相變和熱傳遞的知識(shí)。 最終,本工作為此方面生成了 550 個(gè)提示詞。

抽象知識(shí)

該領(lǐng)域包含 200 個(gè)提示詞,旨在評(píng)估模型理解并準(zhǔn)確再現(xiàn)純粹存在于人類認(rèn)知和文化空間中的概念的能力。缺乏這種能力的模型只能生成字面描繪,而無(wú)法掌握概念、圖表和文化敘事在世界中扮演的抽象符號(hào)角色。它分為三個(gè)類別:

STEM 概念 :測(cè)試模型作為精確事實(shí)概念的視覺(jué)知識(shí)庫(kù)的能力。例如,“水分子的球棍模型  的干凈、極簡(jiǎn)主義科學(xué)教科書插圖”這一提示詞直接測(cè)量模型的化學(xué)結(jié)構(gòu)知識(shí),其中原子類型、數(shù)量和鍵角的準(zhǔn)確性至關(guān)重要。

文化與歷史 :評(píng)估模型對(duì)文化和歷史意義系統(tǒng)的熟悉程度。

人文符號(hào)系統(tǒng) :要求模型進(jìn)一步分解為理解非敘事符號(hào),如旗幟、圖標(biāo)和樂(lè)譜。

邏輯與常識(shí)推理

該領(lǐng)域評(píng)估需要模型推斷邏輯關(guān)系并構(gòu)建連貫場(chǎng)景的高階認(rèn)知能力。沒(méi)有這種推理能力的模型生成的圖像雖然包含正確的元素,但在邏輯上是有缺陷的、空間不一致的或因果關(guān)系破裂的。本工作將該領(lǐng)域構(gòu)建為三個(gè)類別:

因果性與時(shí)間性:旨在測(cè)試模型對(duì)因果關(guān)系和時(shí)間流逝的理解。例如,“一把濕的、黑色的長(zhǎng)柄傘被帶進(jìn)室內(nèi),打開(kāi)并立在光滑、拋光的木地板上”這樣的提示詞,挑戰(zhàn)模型推斷出傘下有干燥的地板以及周圍有一灘水這一邏輯結(jié)果。

空間關(guān)系:探究模型對(duì)復(fù)雜和精確空間排列的理解。

綜合推理:設(shè)計(jì)為對(duì)最先進(jìn)模型(SOTA)的上限測(cè)試,要求它們同時(shí)模擬和協(xié)調(diào)多個(gè)不同的物理定律。 本工作最終為此方面生成了 350 個(gè)提示詞。

如下圖 2 所示,本工作展示了 PicWorld 的一些數(shù)據(jù)樣本。

通過(guò)代理分解進(jìn)行層次化評(píng)估

與以前直接評(píng)估圖像真實(shí)性或美學(xué)質(zhì)量的方法不同,本工作設(shè)計(jì)了 PW-Agent,這是一個(gè)層次化、分步的分析框架,采用結(jié)構(gòu)化、非線性且感知置信度的評(píng)分機(jī)制。PW-Agent 能夠?qū)?AI 生成圖像的物理世界理解進(jìn)行最終判斷,該判斷既具有高度區(qū)分性又非?煽。PW-Agent 的整體流程如下圖4 所示。

本工作通過(guò)一個(gè)包含四個(gè)模塊的證據(jù)驅(qū)動(dòng)管道來(lái)評(píng)估針對(duì)提示詞  生成的圖像 :世界知識(shí)提取器 (World Knowledge Extractor, WKE)、假設(shè)制定器 (Hypothesis Formulator, HF)、視覺(jué)感知器 (Visual Perceptor, VP) 和 推理評(píng)判器 (Reasoning Judger, RJ) 。這種設(shè)計(jì)是受到單次評(píng)判和粗略代理指標(biāo)失敗的啟發(fā),以及近期在問(wèn)題驅(qū)動(dòng)評(píng)估和以能力為中心的 T2I 基準(zhǔn)測(cè)試(強(qiáng)調(diào)組合性、常識(shí)、物理和世界知識(shí))方面取得的進(jìn)展所驅(qū)動(dòng)。

本工作在補(bǔ)充材料中提供了 PW-Agent 的偽代碼。

世界知識(shí)提取器 (WKE)

給定一個(gè)自然語(yǔ)言提示詞 ,WKE 推斷出一個(gè)結(jié)構(gòu)化的原子級(jí)、圖像可驗(yàn)證的期望清單(checklist)。這些期望必須在  隱含的任何正確單幀描繪中成立,重點(diǎn)關(guān)注文字暗示的內(nèi)容,而不僅僅是重述它們。每個(gè)期望被定義為靜態(tài)圖像中的可見(jiàn)痕跡(例如,“圓潤(rùn)的冰邊緣和周圍的水坑”,而不是“冰正在融化”),復(fù)合主張被系統(tǒng)地分解為最小的、獨(dú)立的項(xiàng)目,以確保全面覆蓋  可能僅隱式包含的潛在物理定律、因果后置條件、空間關(guān)系和事實(shí)知識(shí)。除了期望之外,WKE 還會(huì)輸出一個(gè)數(shù)值重要性值,定義了該期望應(yīng)被強(qiáng)制執(zhí)行的程度。 通常,WKE 生成一個(gè)集合 :

其中  是文本描述, 是重要性權(quán)重(低/中/高)。

假設(shè)制定器 (HF)

HF 將每個(gè)高級(jí)期望  轉(zhuǎn)化為具體的視覺(jué)問(wèn)答(VQA)對(duì),作為可審計(jì)的證據(jù)。這是通過(guò)生成一組二元或描述性問(wèn)題  來(lái)實(shí)現(xiàn)的,如果這些問(wèn)題的回答是肯定的,即確認(rèn)了期望的滿足。這一步彌合了抽象推理與具體像素級(jí)檢測(cè)之間的差距。

視覺(jué)感知器 (VP)

VP 充當(dāng)系統(tǒng)的眼睛。它接收?qǐng)D像  和問(wèn)題集 ,并輸出答案  以及置信度分?jǐn)?shù)  和作為基本原理的邊界框或區(qū)域描述。為了盡量減少幻覺(jué),我們利用具有強(qiáng)大視覺(jué)能力的 MLLM(如 GPT-4o 或 Gemini)來(lái)執(zhí)行此任務(wù),并明確指示僅基于可見(jiàn)像素進(jìn)行回答。 對(duì)于每個(gè)問(wèn)題 ,VP 輸出:

其中  是文本答案, 反映了檢測(cè)的確定性。

推理評(píng)判器 (RJ)

RJ 模塊并不進(jìn)行簡(jiǎn)單的平均,而是應(yīng)用邏輯層次結(jié)構(gòu)來(lái)計(jì)算最終得分。它通過(guò)三個(gè)層次聚合證據(jù):

第 1 層:指令依從性 (Instruction Adherence)該層定量衡量模型遵循提示詞中顯式、字面指令的能力。它作為基礎(chǔ)檢查,用于驗(yàn)證類型為 Existence(存在性)的問(wèn)答對(duì),例如核心主體的存在和指定屬性的準(zhǔn)確性。它在一個(gè)扣分系統(tǒng)上運(yùn)行,其中高重要性指令的嚴(yán)重失敗會(huì)導(dǎo)致最低分。 得分  計(jì)算如下:

其中  是所有失敗的 Existence 類型事實(shí)的集合, 是基于事實(shí)  的重要性的懲罰分?jǐn)?shù)(高:5.0,中:3.0,低:1.0)。

第 2 層:物理/邏輯真實(shí)性 (Physics/Logical Realism)第 2 層評(píng)估生成的圖像在多大程度上符合物理和邏輯的基本定律,這是模型世界知識(shí)和推理能力的主要指標(biāo)。該分?jǐn)?shù)是通過(guò)根據(jù)重要性和相應(yīng)的置信度分?jǐn)?shù)對(duì)每個(gè)正確描述的現(xiàn)象(類型為 State)進(jìn)行加權(quán)來(lái)計(jì)算的。 得分  計(jì)算如下:

其中  是事實(shí)  的重要性權(quán)重, 是相應(yīng)的置信度分?jǐn)?shù), 是實(shí)現(xiàn)情況的指示函數(shù)。

第 3 層:細(xì)節(jié)與綜合細(xì)微差別 (Detail & Synthesis Nuance)第 3 層評(píng)估正確渲染的物理現(xiàn)象的質(zhì)量和復(fù)雜性,旨在區(qū)分合格的輸出和卓越的輸出。它使用加分和扣分規(guī)則:獎(jiǎng)勵(lì)極其詳細(xì)的渲染以加分,同時(shí)懲罰不同效果之間的邏輯不一致。這一層反映了模型以細(xì)微差別模擬世界復(fù)雜性的高級(jí)能力。 得分  計(jì)算如下:

其中  代表基礎(chǔ)分?jǐn)?shù), 代表卓越加分, 代表不一致懲罰。

最終聚合與報(bào)告本工作通過(guò)以下公式計(jì)算名為 PW-Score 的總分:

為了進(jìn)一步利用 MLLM 強(qiáng)大的推理能力,還需要模型記錄一個(gè)人類可讀的思維過(guò)程,枚舉滿足/失敗的期望、應(yīng)用的懲罰/獎(jiǎng)勵(lì)以及上述公式中的中間值。

實(shí)驗(yàn)

實(shí)驗(yàn)設(shè)置

本工作選擇了 17 個(gè)最先進(jìn)的模型進(jìn)行評(píng)估,涵蓋三類架構(gòu):

基于擴(kuò)散的模型:包括 FLUX.1-dev/schnell, Stable Diffusion (SD) 3.5 Large/Medium, SD 3 Medium, HiDream-l1-Full, Lumina-Image-2.0。統(tǒng)一多模態(tài)模型:包括 Emu3, JanusPro-1B/7B, JanusFlow-1.3B, Show-o-512, Bagel (帶/不帶 Thinking)。閉源模型:包括 DALL-E-3, Nano-Banana, SeedDream-4.0。 PW-Agent 使用 Qwen2.5-VL-72B 作為基礎(chǔ)模型。

主要結(jié)果

如下表 1 所示:

T2I 模型在隱性世界邏輯推理方面能力有限:幾乎所有模型在 STEM 和“因果性與時(shí)間性”類別上的得分都持續(xù)較低。即使是表現(xiàn)最好的 SeedDream-4.0,在 Symbol 和 STEM 上的得分也相對(duì)較低。這表明模型擅長(zhǎng)復(fù)制視覺(jué)外觀(如陰影),但難以推斷隱性后果(如熱源附近的冰融化)。

閉源模型顯著優(yōu)于開(kāi)源模型:閉源模型(如 SeedDream-4.0)與大多數(shù)公開(kāi)模型之間存在明顯的性能差距。這部分歸因于閉源系統(tǒng)在推理管道中集成了復(fù)雜的預(yù)處理和提示詞工程(利用 MLLM 重寫提示詞,將隱性挑戰(zhàn)轉(zhuǎn)化為顯性指令)。

模型在基于知識(shí)的任務(wù)上表現(xiàn)優(yōu)于基于推理的任務(wù):模型在 Culture(文化)和 Symbol(符號(hào))類別上的表現(xiàn)普遍優(yōu)于 STEM 和“因果性與時(shí)間性”。這是因?yàn)橛?xùn)練數(shù)據(jù)通常包含豐富的顯性名義知識(shí),但缺乏學(xué)習(xí)隱性因果或時(shí)間關(guān)系所需的結(jié)構(gòu)化信息。

開(kāi)源統(tǒng)一多模態(tài)模型的表現(xiàn)明顯低于領(lǐng)先的擴(kuò)散模型:如 Emu3 和 JanusPro 系列等自回歸模型在 PicWorld 基準(zhǔn)測(cè)試中通常處于較低的性能層級(jí)。這可能表明在模型的通用性與高保真物理模擬的專業(yè)能力之間存在權(quán)衡。

PW-Agent 的評(píng)估 (驗(yàn)證 PW-Agent 的有效性):

與人類評(píng)估者的一致性:如下圖 5 所示,通過(guò)人類研究(3位資深工程師,成對(duì)比較),PW-Agent 與人類偏好的一致率達(dá)到 **90.5%**,表明其能有效辨別圖像質(zhì)量和物理合理性的細(xì)微差別。

消融研究 (PW-Agent vs. 直接評(píng)判) :

將 PW-Agent 與使用 GPT-4o 進(jìn)行零樣本直接評(píng)分的基線進(jìn)行比較。

人類評(píng)估者在 81.5% 的情況下傾向于 PW-Agent 的評(píng)分和推理(如下表 2 所示)。

如下圖 6 所示,直接評(píng)判表現(xiàn)出強(qiáng)烈的集中趨勢(shì)偏差(分?jǐn)?shù)分布?jí)嚎s),而 PW-Agent 利用了完整的評(píng)分范圍,具有更高的方差和區(qū)分度。

結(jié)論

PicWorld,這是一個(gè)以能力為中心的基準(zhǔn)測(cè)試,直接測(cè)試 T2I 模型是否可以利用隱性世界知識(shí)并生成符合物理定律和因果邏輯的圖像。PicWorld 將評(píng)估從粗略的“提示詞-圖像”相關(guān)性轉(zhuǎn)變?yōu)榻?jīng)過(guò)驗(yàn)證的、針對(duì)每個(gè)事實(shí)的證據(jù),揭示了模型在知識(shí)落地、多物理交互以及超出提示詞顯式說(shuō)明的邏輯后果方面的行為。

本工作進(jìn)一步提出了 PW-Agent,這是一個(gè)基于證據(jù)的評(píng)估器,它將提示詞轉(zhuǎn)化為可審計(jì)的檢查項(xiàng),并將像素級(jí)的發(fā)現(xiàn)聚合成透明的、分層的分?jǐn)?shù)。這種方法既保留了基于查詢的評(píng)估的可擴(kuò)展性,又減少了單次(one-shot)評(píng)判的偏差和不可靠性。

在 PicWorld 上的實(shí)驗(yàn)表明,盡管具有強(qiáng)大的提示詞依從能力,最先進(jìn)的系統(tǒng)——尤其是開(kāi)源模型——在物理真實(shí)感和因果推理方面仍然舉步維艱。本工作希望 PicWorld 和 PW-Agent 的結(jié)合使用能為模型比較提供可操作的診斷,從而指導(dǎo)數(shù)據(jù)整理和推動(dòng)方法的進(jìn)一步發(fā)展。

參考文獻(xiàn)

[1] Beyond Words and Pixels: A Benchmark for Implicit World Knowledge Reasoning in Generative Models

       原文標(biāo)題 : 鐵釘水上漂、子彈穿蘋果不炸?Nano-Banana等17款SOTA模型顫抖迎物理邏輯推理大考!

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)