訂閱
糾錯(cuò)
加入自媒體

從谷歌到字節(jié),現(xiàn)階段所有主流多模態(tài)模型,集體不及格

提起多模態(tài)模型這個(gè)概念,人們并不陌生。

從國(guó)內(nèi)的“豆包”,到國(guó)外的“香蕉”,都是人們喜聞樂(lè)見(jiàn)的“圖像創(chuàng)作和PS大師”。

但是,你敢信嗎?最頂尖的AI在“看圖識(shí)物”這件人類幼兒都能輕松做到的事情上,竟然集體不及格。

這個(gè)結(jié)論似乎與我們?nèi)粘?duì)AI的看法背道而馳。它們會(huì)寫詩(shī),會(huì)編程,甚至?xí)砣藗兊氖謾C(jī)和電腦,但在面對(duì)一張清晰的照片時(shí),卻總是無(wú)法回答一個(gè)再簡(jiǎn)單不過(guò)的問(wèn)題:“這是什么?”

把稀有的蘭花認(rèn)成野花,把哥特教堂看成普通樓房,甚至給世界名畫安上一位錯(cuò)誤的作者。這可不是偶然性的小失誤,而是一次系統(tǒng)性的“視覺(jué)失憶”。

今天凌晨,剛剛發(fā)布Kimi 2.5以補(bǔ)全多模態(tài)能力的月之暗面,推出了一個(gè)名為WorldVQA的全新評(píng)測(cè)基準(zhǔn)。它就像一把精確而鋒利的手術(shù)刀,直接切開(kāi)了當(dāng)下多模態(tài)模型華麗能力表象之下的知識(shí)空洞。

評(píng)測(cè)結(jié)果可以說(shuō)是觸目驚心:表現(xiàn)最好的模型,準(zhǔn)確率也只能達(dá)到47.4%,距離及格線都還差得很遠(yuǎn)。

人們不由得思考一個(gè)被長(zhǎng)期忽視的真相:我們每天使用的“高智能”AI,或許壓根沒(méi)能在視覺(jué)領(lǐng)域建立起一個(gè)可靠、真實(shí)的“百科全書”。

AI或許更像一個(gè)擅長(zhǎng)講故事的描述者,而非一個(gè)準(zhǔn)確理解世界的觀察者。WorldVQA的出現(xiàn),正是要掃清幻覺(jué)與事實(shí)交雜的模糊地帶,為衡量多模態(tài)模型的視覺(jué)知識(shí)真實(shí)性樹(shù)立一把精確的標(biāo)尺。

01 現(xiàn)有評(píng)測(cè)的“障眼法”:記憶和推理混為一談

多模態(tài)模型的發(fā)展取決于兩種截然不同的能力:一是推理,即處理邏輯與關(guān)系;二是知識(shí),即將感官輸入映射到事實(shí)現(xiàn)實(shí)。

而目前,評(píng)估多模態(tài)模型的主流方法是視覺(jué)問(wèn)答(Visual Question Answering, VQA),如常見(jiàn)的MMMU、MMStar和SimpleVQA等基準(zhǔn)測(cè)試。

現(xiàn)在我們假想一個(gè)問(wèn)題:給AI一個(gè)公司的Logo,并詢問(wèn)它該公司的名稱和成立時(shí)間。

顯然,回答這個(gè)問(wèn)題需要兩步,先是識(shí)別圖片中的Logo,再去回憶成立時(shí)間。若是模型給出了錯(cuò)誤的回答,我們根本無(wú)法判斷錯(cuò)誤出現(xiàn)在哪一步。

因此,這類基準(zhǔn)測(cè)試看似能全面測(cè)試AI的視覺(jué)能力,實(shí)則存在混淆“知識(shí)記憶”和“邏輯推理”的致命缺陷。

除此之外,別忘了很多模型還可以憑借OCR(光學(xué)字符識(shí)別)這項(xiàng)經(jīng)典技術(shù),在評(píng)測(cè)中蒙混過(guò)關(guān)。模型不必認(rèn)出圖片中的內(nèi)容,直接通過(guò)“讀出”圖片上的文字標(biāo)簽來(lái)抄答案得分。

如果說(shuō)視覺(jué)感知與定位是多模態(tài)模型的眼睛,那么語(yǔ)義記憶和知識(shí)就是多模態(tài)模型的大腦。

人們無(wú)法定位模型視覺(jué)能力的短板究竟在哪,這正是知識(shí)記憶與邏輯推理的耦合所導(dǎo)致的盲區(qū)。

02 WorldVQA設(shè)計(jì)哲學(xué):回歸原子化的視覺(jué)事實(shí)

月之暗面的研究團(tuán)隊(duì)針對(duì)上述困境而設(shè)計(jì)了WorldVQA,其核心思想很簡(jiǎn)單:剝離一切干擾,只測(cè)試最原子化的視覺(jué)知識(shí)。

也就是說(shuō),WorldVQA中的每個(gè)問(wèn)題都只用于測(cè)試一個(gè)最基礎(chǔ)、不可再分的視覺(jué)知識(shí)。為此,該評(píng)測(cè)基準(zhǔn)必須遵循以下四個(gè)技術(shù)原則:

1.原子隔離(Atomic Isolation)

所有問(wèn)題均為單跳(single-hop,即一步完成),模型需要將視覺(jué)信息直接映射到一個(gè)具體的專有或分類學(xué)名稱,明確排除任何涉及OCR、計(jì)算或多跳知識(shí)檢索的任務(wù)。因此,前面例子中需要多個(gè)步驟才能回答的問(wèn)題將不會(huì)出現(xiàn)。

粒度對(duì)齊也是一項(xiàng)關(guān)鍵的技術(shù)約束:模型的回答必須在分類學(xué)上足夠精確。例如,看到一只泰迪卻只回答“狗”也會(huì)被當(dāng)作回答錯(cuò)誤。

2.分類多樣性(Taxonomic Diversity)

WorldVQA總共覆蓋了九種語(yǔ)義類別:自然環(huán)境、地理建筑、文化藝術(shù)、物品產(chǎn)品、交通工具、娛樂(lè)產(chǎn)品、品牌標(biāo)識(shí)、體育運(yùn)動(dòng)和公眾人物。

 

數(shù)據(jù)的分布被刻意設(shè)計(jì)為相對(duì)平衡的狀態(tài),既包含埃菲爾鐵塔等地標(biāo)型建筑,也包含罕見(jiàn)的特定植物品種,以此全面探測(cè)模型知識(shí)庫(kù)的邊界。

3.數(shù)據(jù)完整性(Data Integrity)

為了防止模型在訓(xùn)練數(shù)據(jù)中“背答案”,研究團(tuán)隊(duì)引入了ISC描述符對(duì)候選圖像與LAION和Common Crawl等主流預(yù)訓(xùn)練語(yǔ)料庫(kù)進(jìn)行去重。

這里的ISC(實(shí)例級(jí)語(yǔ)義內(nèi)容)描述符是一種用于視覺(jué)位置識(shí)別領(lǐng)域的算法技術(shù),它能夠?qū)⒁粡垐D像轉(zhuǎn)換為一個(gè)特征向量,可用于判斷一張圖像是否與常用預(yù)訓(xùn)練語(yǔ)料庫(kù)中的圖像高度相似。

在WorldVQA的流程中,首先對(duì)每張候選圖像生成一個(gè)ISC向量,并將之與常用預(yù)訓(xùn)練語(yǔ)料庫(kù)中的所有圖像的ISC向量進(jìn)行比對(duì),計(jì)算余弦相似度。當(dāng)相似度高于95%時(shí),則可認(rèn)為模型在訓(xùn)練時(shí)已經(jīng)見(jiàn)過(guò)這張圖像,該圖像會(huì)因?yàn)槲廴緲颖径粊G棄。

如此一來(lái),WorldVQA中測(cè)試的“圖像-答案對(duì)”都是模型在訓(xùn)練階段從未見(jiàn)過(guò)的,若能答對(duì)問(wèn)題,即可反映真實(shí)的視覺(jué)能力。

此外,候選樣本采用自動(dòng)化模型審核和人工盲審的雙重機(jī)制。其中,自動(dòng)化審核使用了Gemini-3-Pro來(lái)檢查圖像清晰度、語(yǔ)義唯一性和上下文完整性;人工盲審交給不知道標(biāo)準(zhǔn)答案的標(biāo)注員單獨(dú)作答,只要產(chǎn)生分歧則觸發(fā)人工復(fù)核。

4.高飽和度上限(High Saturation Ceiling)

評(píng)測(cè)集在構(gòu)建時(shí)采用基于模型性能的難度分層機(jī)制:研究團(tuán)隊(duì)將五個(gè)前沿多模態(tài)模型集成,并用它對(duì)所有候選圖像樣本進(jìn)行評(píng)估。

為了檢驗(yàn)區(qū)分能力,五個(gè)模型都能回答的正確樣本將被剔除;正確率較高的簡(jiǎn)單樣本也會(huì)被故意降低采樣頻率。因此,最終的評(píng)測(cè)基準(zhǔn)對(duì)頂尖模型也具有相當(dāng)高的挑戰(zhàn)性。

03 評(píng)測(cè)結(jié)果:全員不及格

按照上面的原則,研究人員在WorldVQA中加入了3500個(gè)經(jīng)過(guò)嚴(yán)格篩選的“圖像-答案對(duì)”。但評(píng)測(cè)結(jié)果卻無(wú)情地揭示了當(dāng)前多模態(tài)模型在視覺(jué)知識(shí)領(lǐng)域上嚴(yán)重的能力缺失:

首先是整體準(zhǔn)確率連50%都不到的悲慘事實(shí)。

Gemini-3-Pro作為公認(rèn)的全球頂級(jí)AI模型、Kimi-K2.5憑借“主場(chǎng)優(yōu)勢(shì)”,雖然位列前二,但只能分別取得47.4%和46.3%的正確率;專攻多模態(tài)領(lǐng)域的字節(jié)跳動(dòng)和Anthropic旗下的產(chǎn)品準(zhǔn)確率則未能達(dá)到40%。

數(shù)據(jù)清晰地表明,現(xiàn)階段的多模態(tài)模型距離“視覺(jué)百科全書”還存在巨大差距。

當(dāng)我們將目光轉(zhuǎn)移到表格的右側(cè),就會(huì)發(fā)現(xiàn)不同模型在九大領(lǐng)域中的表現(xiàn)極其不均衡。

從雷達(dá)圖中可以看到,大部分模型很擅長(zhǎng)體育運(yùn)動(dòng)和品牌標(biāo)識(shí)等網(wǎng)絡(luò)數(shù)據(jù)充足的領(lǐng)域。綜合得分第一和第二的Gemini-3-Pro和Kimi-K2.5表現(xiàn)尤為突出。

反觀自然環(huán)境和文化藝術(shù)等需要積累深厚的專業(yè)知識(shí)的領(lǐng)域,各位“職業(yè)選手”的表現(xiàn)都不盡如人意,因?yàn)槟P屯鶗?huì)因?yàn)闊o(wú)法準(zhǔn)確判斷細(xì)分門類而給出籠統(tǒng)的上位詞,比如前面提到的“泰迪與狗”。

最后,更可怕的事實(shí)是:幾乎所有模型都表現(xiàn)出了過(guò)度的自信。

首先來(lái)看可靠性圖表:用于衡量模型對(duì)自己能力的評(píng)估是否準(zhǔn)確。

橫軸(Stated Confidence)代表模型自己聲稱的置信度,也就是模型的信心;

縱軸(Actual Accuracy)是在模型生成的信心水平下,實(shí)際回答正確的概率。

可以看到,所有模型在聲稱自己有95%以上的信心時(shí),實(shí)際準(zhǔn)確率連70%都不到,純屬“一本正經(jīng)地胡說(shuō)八道”。其中Kimi-K2.5在高信心水平下能達(dá)到接近70%的準(zhǔn)確率,自我認(rèn)知相對(duì)最準(zhǔn)確。

然后再看置信度分布:用于展示模型習(xí)慣給出多高的信心分?jǐn)?shù)。

Gemini-3-Pro可謂是一馬當(dāng)先,證明它總是會(huì)說(shuō)自己“非常確定”,即便是它壓根沒(méi)看懂圖里到底有什么,也就是缺乏對(duì)“不確定性”的表達(dá)能力。

從企業(yè)角度來(lái)看,模型給出自信滿滿的回答有助于提升用戶交互體驗(yàn)和留存率,畢竟大多數(shù)用戶提問(wèn)后絕不愿意得到一個(gè)模棱兩可、不一定正確的答案。

但與此同時(shí),過(guò)度的自信也證明現(xiàn)階段多模態(tài)模型缺乏對(duì)自己知識(shí)邊界的可靠?jī)?nèi)部表征,這也是幻覺(jué)產(chǎn)生的根本原因之一。

04 結(jié)語(yǔ):WorldVQA打破“視覺(jué)智能已成熟”的幻覺(jué)

如今,圖像生成、圖像編輯甚至是視頻生成等AI應(yīng)用大行其道,人們很容易就會(huì)產(chǎn)生一種錯(cuò)覺(jué):視覺(jué)領(lǐng)域的智能已經(jīng)成熟,AI已經(jīng)看懂了這個(gè)世界。

常見(jiàn)的文生圖和圖像編輯等功能,與月之暗面團(tuán)隊(duì)測(cè)試的視覺(jué)問(wèn)答,在技術(shù)上高度相關(guān)但方向相反。前者從語(yǔ)義生成視覺(jué),后者從視覺(jué)推斷語(yǔ)義。生成能力強(qiáng)并不代表理解能力強(qiáng),二者雖然共享部分多模態(tài)對(duì)齊機(jī)制,但底層能力卻有天壤之別。

WorldVQA已經(jīng)用冰冷的數(shù)據(jù)告訴我們,多模態(tài)模型在理解側(cè)的能力遠(yuǎn)未達(dá)標(biāo)。

月之暗面的這項(xiàng)研究,沒(méi)有在AI應(yīng)用的熱潮中追尋“AI能做什么”,二是沉入底層探究一個(gè)更本質(zhì)的問(wèn)題:當(dāng)AI充滿自信地給出結(jié)果時(shí),它到底是在回憶、猜測(cè),還是真正的理解?

答案已經(jīng)呼之欲出:模型不僅在自然和文化等長(zhǎng)尾領(lǐng)域的知識(shí)匱乏,還普遍“不知道自己不知道”。即便面對(duì)完全陌生的事物,它也會(huì)自信地編造一個(gè)聽(tīng)起來(lái)十分合理、讓人不會(huì)懷疑的名字。這種來(lái)自于底層機(jī)制的系統(tǒng)性幻覺(jué),正是當(dāng)前多模態(tài)AI不可信任的根源。

向未來(lái)的視角更進(jìn)一步,當(dāng)前的多模態(tài)模型若是連靜態(tài)二維圖像的實(shí)體都無(wú)法準(zhǔn)確判別,人們又怎么能去期待AI在動(dòng)態(tài)且復(fù)雜的三維世界中構(gòu)建世界模型?

WorldVQA已經(jīng)打破技術(shù)樂(lè)觀主義的美夢(mèng),迫使人們必須承認(rèn):通往視覺(jué)智能的道路,才剛剛開(kāi)始。

而任何關(guān)于“AGI即將實(shí)現(xiàn)”的宣言,在頂尖AI連看圖識(shí)物都答不對(duì)的事實(shí)面前,似乎都顯得有些輕率。

       原文標(biāo)題 : 從谷歌到字節(jié),現(xiàn)階段所有主流多模態(tài)模型,集體不及格

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)