訂閱
糾錯
加入自媒體

Google“AI奧運會”:用游戲基準測試模型真實能力

AI新產(chǎn)品每天接連發(fā)布,測試基準和平臺也是層出不窮。

不過,你是否想過,游戲也能用來測試AI?

2026年2月初,Google和Kaggle一起想出了一個新點子:在Kaggle的Game Arena上開展一次前所未有的“AI奧運會”。

比賽項目一共有三個:

在國際象棋的棋盤上,Gemini 3 Pro和Gemini 3 Flash展開了“阿爾法狗”之間的巔峰對決;

在狼人殺的夜晚,Claude、GPT和Grok輪流扮演村民和狼人,用自然語言編織謊言與真相;

在德州撲克的牌桌上,十位世界頂級模型選手在90萬手對局中計算每一分期望值。

這一切,都源自于Google DeepMind團隊和Kaggle平臺的一個深刻洞察:現(xiàn)實世界的決策,從來都沒有為之提供完美信息的棋盤。

為了衡量AI在現(xiàn)實世界中的真實能力,雙方一同構(gòu)建了由三種游戲組成的“認知階梯”,同時也對應AI必須掌握的三種核心能力:戰(zhàn)略規(guī)劃、社會推理和風險決策。

新發(fā)布的狼人殺和德州撲克基準,正在以前所未有的技術(shù)深度和評測復雜度,將AI能力評測推進到社會性與不確定性的全新領(lǐng)域。

01 國際象棋:AI的理性骨架

事實上,這一思路并非突發(fā)奇想。早在去年8月,Google就與Kaggle合作試圖驗證AI模型在戰(zhàn)略游戲中進行競爭的能力,而一切都起源于一項古老的游戲:國際象棋。

作為完美信息博弈(所有參與者決策時都能完全獲得此前所有行動信息)的典范,國際象棋是測試AI戰(zhàn)略推理、動態(tài)適應和長期規(guī)劃能力最理想的沙盒之一。

以一款名為Stockfish的全球頂級開源國際象棋引擎為代表,傳統(tǒng)方法大多選擇暴力搜索的方式進行決策;但Gemini系列的大語言模型則另辟蹊徑,依靠模式識別和“直覺”大幅縮小搜索空間。

顯然,后者的下法與人類的思維更為接近。在大語言模型的內(nèi)部思考過程中,也展現(xiàn)出“子力活躍性(piece mobility)”、“兵結(jié)構(gòu)(pawn structure)”和“王的安全(king safety)”等對于人類概念的理解。

因此,這不僅是性能的提升和技術(shù)的演進,還是范式的轉(zhuǎn)變:它證明了大語言模型可以在不依賴專用算法的情況下,僅依靠訓練階段積累的知識以及推理能力即可達到人類的“大師級”水平。

不過,萬物都有兩面性。國際象棋作為一項完美信息博弈的游戲,機制過于透明,其結(jié)果無法回答一個更加貼近現(xiàn)實的問題:當信息不再透明,當對手能夠欺騙,AI又該如何應對?

Google和Kaggle設計出兩款新的游戲測試基準,正是為了探究這個問題的答案。

02 狼人殺:AI的社交皮膚與安全沙盒

為了讓AI在不完美信息博弈中也能做出最優(yōu)決策,Google和Kaggle在Game Arena中引入了首個多智能體團隊游戲:狼人殺。

由于現(xiàn)有的狼人殺規(guī)則各不相同,身份過于復雜,評測基準選定了經(jīng)典的8人局游戲模式(2狼人+1醫(yī)生+1預言家+4平民),并規(guī)定AI只能通過純自然語言進行溝通與合作、欺騙與反欺騙。這也意味著未來企業(yè)級的AI助理必須具備溝通、談判以及在模糊的信息中達成共識的能力。

盡管游戲規(guī)模已經(jīng)壓縮至8人4身份,但仍顯復雜的游戲面臨根本性的方法論挑戰(zhàn):以現(xiàn)階段比較流行的Elo機制為代表的傳統(tǒng)玩家評級系統(tǒng)都是針對對稱對抗或同質(zhì)化玩家而設計,但無法處理狼人殺中存在的角色互異性和團隊依賴性兩大難題。

角色互異性導致扮演狼人/醫(yī)生/預言家/平民的AI的技能要求截然不同,團隊依賴性則決定了單個玩家的勝敗高度取決于對手和隊友的表現(xiàn)。由此誕生了一個核心問題:在一個8人的團隊游戲中,如何公平地給每個AI玩家打分?一局游戲的勝敗是8個人共同作用的結(jié)果,如何判定誰的貢獻大、誰在拖后腿?

好在,Google DeepMind團隊提出了名為Polarix的評估框架。這個極具創(chuàng)造性的解決方案能夠?qū)⒗侨藲⒌脑u測問題重構(gòu)為三人“元游戲(meta-game)”:

裁判(Judge)負責選定一個特定的身份;

經(jīng)理A(Manager A)負責為這個身份挑選一個AI模型來扮演;

經(jīng)理B(Manager B)負責為剩下的7個身份分配其他AI模型來扮演。

隨后,參與游戲的8個模型就可以進行一局完整的狼人殺游戲,并產(chǎn)生明確的勝負結(jié)果。這個過程將針對每一個角色重復進行大量測試,直至系統(tǒng)達到納什均衡(Nash equilibrium)。在這個均衡狀態(tài)下,任何一位玩家單方面改變自己的策略(即更換模型)都無法提升勝率,由此就能揭示每個模型在每個身份上的真實價值。

例如,Gemini 3 Pro被選作預言家的頻率遠高于其他模型,而且被選中時平民陣營的勝率明顯更高,那么Gemini 3 Pro就會在預言家這個角色上拿到最高的評分。

Polarix避開了直接量化個人貢獻這一指標,轉(zhuǎn)而通過類似市場競爭的機制來間接衡量價值。同時,Polarix既可以給出一個線性的排名,又可以捕捉到非傳遞性的能力循環(huán)。評測結(jié)果顯示,Gemini 3 Pro和Flash分別擅長扮演狼人和預言家,其他模型都只能得到負勝率,GPT-5 mini則非常不適合扮演狼人。

狼人殺測試基準的意義不僅在于游戲?qū)用嫔系谋憩F(xiàn),更在于AI安全研究方面的價值。這個不完美信息博弈的游戲創(chuàng)造了一個“紅隊測試(red-teaming)”環(huán)節(jié)。研究者可以同時直觀測量模型作為村民時識別邏輯矛盾、檢測欺騙行為的能力,以及作為狼人時生成可信謊言、虛構(gòu)敘事、操縱群體共識的能力。

正如Google在博客上說的:我們不能假裝AI不會欺騙,而是必須去評估和衡量它。

03 德州撲克:AI的風險偏好與理性極限

如果狼人殺是在考驗AI的“社會性”人格扮演能力,那么Google和Kaggle設計的下一項測試:德州撲克,則是在試探AI純粹的理性和風險偏好。

在這個撲克牌游戲中,由于只知道自己的兩張底牌,AI必須面臨極致的不完美信息和無限的風險敞口。AI的核心挑戰(zhàn)是在無法獲得對手手牌信息的情況下,通過解讀對手的下注模式來推斷范圍,并以此得出最大化長期期望值的決策。

用撲克牌游戲來測試就不得不直面運氣存在的事實。為了盡可能排除運氣干擾,Game Arena設計了復現(xiàn)式對局。任意兩個模型之間都會進行共計20000手的對局,在正常進行10000手對戰(zhàn)后,交換雙方底牌并完全復現(xiàn)此前的發(fā)牌順序,再進行10000手對戰(zhàn),完美抵消發(fā)牌的隨機性。

與卡內(nèi)基梅隆大學研發(fā)的、專攻1v1無限注德州撲克不完美信息博弈的AI系統(tǒng)Libratus不同,參與此次評測的大語言模型被禁止使用任何外部工具,即無法使用范圍計算器、賠率表或是需要預先計算的博弈論策略。模型只能依靠自身在訓練過程中學習到的撲克牌理論知識和對手的實時行為進行動態(tài)推理。

模型在每次決策時都需要綜合考慮底池賠率、隱含賠率、對手手牌組合、自身打牌風格等因素。而這些復雜的計算和判斷必須于60秒內(nèi)在模型內(nèi)部完成并給出合法的動作。如果模型輸出了非法動作,系統(tǒng)只會允許一次重試機會,此后默認采取最保守的行動。

表面上看是撲克牌游戲,實則是Google與Kaggle對大語言模型內(nèi)生知識儲備和實時概率推理能力的極限壓力測試。

撲克牌測試基準的參賽選手共有十位,其中包括國產(chǎn)模型DeepSeek V3.2以展現(xiàn)評測的開放性和影響力。不過,測試仍在進行中,最終的排行榜將于明日揭曉。

04 認知生態(tài):評測范式的躍遷

Google和Kaggle合作建立Game Arena的革命性意義并非選擇了三個眾所周知的經(jīng)典游戲,而是系統(tǒng)性地構(gòu)建了一個從原子化的能力到認知生態(tài)的評測框架。AI的評測基準必須緊緊追隨AI的能力從實驗室走向現(xiàn)實,完成根本性的范式轉(zhuǎn)移。

對于傳統(tǒng)的AI基準測試來說,無論是經(jīng)典的MMLU知識問答,還是HumanEval代碼生成,盡管都在推陳出新,但本質(zhì)上都是在測量模型的靜態(tài)原子化技能。雖然測試領(lǐng)域各有不同,但基本假設卻幾乎一致:世界是確定的、任務是孤立的、輸入是規(guī)范的。

我們必須承認這些基準測試在大語言模型發(fā)展的早期階段功不可沒,但隨著模型能力日新月異,“跑分沒輸過,實用沒用過”的現(xiàn)象仿佛每天都在發(fā)生。Gemini和GPT的性能每天都在“被超越”,但領(lǐng)先地位卻沒有一絲動搖。

原因很簡單:在面對真實世界的模糊性、對抗性和動態(tài)協(xié)作需求時,靜態(tài)跑分沒有說服力。

Game Arena制定的三重基準雖然看起來有些娛樂化,但卻指向了一個更高維度的目標:測試模型在一個微觀的社會經(jīng)濟生態(tài)系統(tǒng)中是否具備生存和適應能力。

國際象棋構(gòu)成這個微觀生態(tài)系統(tǒng)的邏輯內(nèi)核,它能反映出智能體在規(guī)則清晰、信息透明的理想環(huán)境下進行長期規(guī)劃、因果推理的能力。這是單智能體通往通用人工智能的底層能力基礎(chǔ)。

狼人殺開始向微觀生態(tài)系統(tǒng)中注入社會性,多智能體需要在充斥著信任與欺騙的復雜語言網(wǎng)絡中自主行動。勝利與失敗不僅取決于單智能體的智能程度和邏輯推理能力,還取決于是否能理解其他智能體的意圖、建立有效溝通、在信息不對稱時集體行動。這是多智能體系統(tǒng)和人機協(xié)作的核心挑戰(zhàn)。

德州撲克則進一步將經(jīng)濟性引入微觀生態(tài)系統(tǒng),將決策置于一個以資源為媒介、以風險和回報為核心驅(qū)動力的環(huán)境中。智能體需要具備量化不確定性、管理風險敞口、通過行為建模進行策略博弈的能力。這是在金融、商業(yè)環(huán)境下進行決策的真實寫照。

看似毫不沾邊的三款游戲并非簡單疊加,而是構(gòu)成了一個相互耦合、彼此可驗證的認知閉環(huán)。僅僅精通其中一項的AI,必定會因為缺乏其他能力而在另外兩項游戲中屢屢落敗。

Game Arena要求未來的AI模型不能再是獨立的工具,而是能夠在邏輯、社會和經(jīng)濟三大維度上協(xié)同運作、具備完整認知架構(gòu)的智能體集合。

因此,模型只有在三重壓力測試下展現(xiàn)出可靠且可解釋的行為時,我們才有理由相信它已經(jīng)具備了在現(xiàn)實世界中充當人類伙伴的資格。

       原文標題 : Google“AI奧運會”:用游戲基準測試模型真實能力

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號