訂閱
糾錯(cuò)
加入自媒體

一張圖生成游戲?谷歌Genie體驗(yàn):萬(wàn)物皆可玩,但離“殺死游戲公司”還遠(yuǎn)

2026-02-09 10:24
雷科技
關(guān)注

一張圖生成游戲,真的假的?

在開(kāi)始之前,我想先問(wèn)大家一個(gè)簡(jiǎn)單的問(wèn)題:

你們還在苦苦等待《GTA 6》的發(fā)售嗎?

我是不清楚大家的想法啦,但小雷真的非常期待它的到來(lái)。要知道《GTA 5》發(fā)布至今已經(jīng)過(guò)去十三年了,時(shí)至今日卻依然魅力不減。讓人不得不期待,在漫長(zhǎng)的等待后,R星究竟能夠端出一款怎樣的作品。

不過(guò),雖然現(xiàn)在說(shuō)出來(lái)可能有點(diǎn)潑冷水,但在R星還在為發(fā)售日期遮遮掩掩的時(shí)候,大洋彼岸的谷歌DeepMind團(tuán)隊(duì)卻悄悄搞出了一個(gè)大動(dòng)作。如果不出現(xiàn)意外,這東西可能會(huì)徹底改變我們對(duì)游戲這兩個(gè)字的理解。

近日,谷歌在官方博客正式宣布,已向部分用戶開(kāi)放體驗(yàn)Project Genie原型版本,能讓用戶生成屬于自己的可玩游戲世界。

image.png

(圖源:雷科技)

消息一出,《GTA》開(kāi)發(fā)商R星的母公司Take-Two Interactive股價(jià)縮水10%,在線游戲平臺(tái)Roblox下跌了超過(guò)12%,最慘的是游戲引擎制造商Unity下跌了21%,反而是國(guó)內(nèi)廠商網(wǎng)易、騰訊基本沒(méi)有受到什么影響。

趁這機(jī)會(huì),小雷打算和大伙好好聊聊,這個(gè)敢搶《GTA 6》風(fēng)頭的AI到底是何方神圣,它現(xiàn)在的體驗(yàn)究竟到了什么地步,以及在不遠(yuǎn)的未來(lái),我們的游戲和虛擬世界到底會(huì)變成什么樣。

只要一張圖,萬(wàn)物皆可玩

在介紹技術(shù)之前,我們得先搞清楚它有多離譜。

過(guò)去我們想做一款游戲,流程是怎樣的?你需要策劃寫(xiě)劇本,美術(shù)畫(huà)貼圖,程序員敲代碼,最后還得通過(guò)引擎渲染出來(lái)。

這個(gè)過(guò)程可謂既漫長(zhǎng)又燒錢(qián),即便是育碧、EA這樣的游戲巨頭,也要做到數(shù)十年如一日地投資,最終成品卻沒(méi)有人能夠篤定效果如何。

但Project Genie的誕生,把這個(gè)邏輯完全顛覆了。

image.png

(圖源:谷歌)

它的核心能力可以概括為一句話:生成即交互。

你給它一張照片,或者一張手繪的草圖,甚至是一句簡(jiǎn)單的文字描述,它就能把世界和角色搭出來(lái)。

image.png

(圖源:谷歌)

然后,你可以指定游戲的操作方法,例如走路、騎行、飛行還是開(kāi)車(chē),Project Genie就會(huì)試圖理解物理規(guī)律,然后直接生成一個(gè)可以操控的世界:

image.png

(圖源:谷歌)

沒(méi)錯(cuò),就像上面這個(gè)樣子。

世界一旦生成,我們就可以直接在里面行動(dòng)了。在Project Genie里,你往前走,前方路徑會(huì)實(shí)時(shí)生成,你轉(zhuǎn)視角,鏡頭也會(huì)跟著同步調(diào)整,整個(gè)過(guò)程更像是在一個(gè)持續(xù)展開(kāi)的空間里進(jìn)行探索。

不滿意,那就把這個(gè)世界修改一下。

和其他AIGC內(nèi)容類似,Project Genie生成的世界并不是一次性產(chǎn)品,我們還可以在已有世界的提示詞基礎(chǔ)上繼續(xù)修改,比如把狗換成粉色氣球兔子。

image.png

(圖源:谷歌)

你甚至可以丟一個(gè)真實(shí)世界的圖片進(jìn)去,讓Project Genie幫我們做二創(chuàng)并讓其動(dòng)起來(lái),完成之后,還能直接導(dǎo)出成視頻,方便保存或分享。

也正因?yàn)楣δ苋绱酥畯?qiáng)大,于是乎,腦洞大開(kāi)的網(wǎng)友們很快就把它玩出了花。

在嗶哩嗶哩上,就有UP主上傳了一張主播許昊龍的經(jīng)典照片。在Project Genie的處理下,下一秒,畫(huà)面里的炫狗就變成了可操控的角色,你可以按下鍵盤(pán)的方向鍵,控制他在那個(gè)車(chē)庫(kù)背景里跑動(dòng)、跳躍,甚至能和世界里的物品產(chǎn)生真實(shí)接觸。

IMG_g4sp7g.gif

(圖源:bilibili)

經(jīng)典耄耋梗圖?給我動(dòng)起來(lái)!

IMG_oaunm1.gif

(圖源:bilibili)

給它一張《原神》的圖,它也能自動(dòng)生成風(fēng)之翼的效果,讓角色在空中自由馳騁,甚至能模擬出滑翔的效果。

IMG_whfacb.gif

(圖源:bilibili)

在推特上,甚至有人隨手在紙上畫(huà)了幾個(gè)火柴人,旁邊畫(huà)了幾道波浪線代表水,拍張照上傳給Project Genie。系統(tǒng)就能把這個(gè)涂鴉變成一個(gè)關(guān)卡,火柴人真的能跳過(guò)那些波浪線,甚至如果不小心掉下去,還能模擬出墜落的效果。

而這就是Project Genie最嚇人的地方:

它不需要代碼,也不需要3D建模,它僅僅通過(guò)看圖,就理解了什么是地面、什么是障礙物、角色該怎么動(dòng)。

與之對(duì)比,國(guó)內(nèi)游戲大廠們其實(shí)也沒(méi)閑著,但方向多少有點(diǎn)小家子氣。

你看,網(wǎng)易的《逆水寒》天天吹噓AI NPC有多會(huì)聊天,騰訊忙著讓AI在《王者榮耀》里虐菜。然而這些所謂的黑科技,說(shuō)白了就是在用AI賦能游戲,本質(zhì)還是機(jī)器人,遠(yuǎn)遠(yuǎn)達(dá)不到顛覆游戲創(chuàng)作流程的水平。

只能說(shuō)國(guó)內(nèi)廠商們,還是任重而道遠(yuǎn)啊。

看起來(lái)很美,但是不成熟

誒,有的讀者可能要問(wèn)了,既然這東西說(shuō)得這么神,是不是明天游戲公司都要倒閉了?

嗯...這倒也不至于。

盡管看起來(lái)有些類似,但是Project Genie本質(zhì)上和我們玩的《黑暗之魂》或者《王者榮耀》之類的游戲完全是兩個(gè)物種。

傳統(tǒng)游戲是基于游戲引擎的,你按一下跳躍鍵,程序會(huì)根據(jù)重力參數(shù)計(jì)算你跳多高;你扔出一個(gè)鐵球,程序利用經(jīng)典物理公式來(lái)計(jì)算它的下落速度;你打開(kāi)手電筒,程序則會(huì)模擬光照和物體材質(zhì),來(lái)實(shí)時(shí)渲染光照的效果。

而Project Genie是基于Genie 3、Nano Banana Pro和Gemini的,其核心Genie 3本質(zhì)上是一個(gè)采用自回歸生成機(jī)制的幀生成模型,它會(huì)根據(jù)世界描述和用戶操作,逐幀生成環(huán)境狀態(tài),而不是播放預(yù)先生成好的內(nèi)容。

image.png

(圖源:谷歌)

我知道,在老黃大肆推廣的今天,幀生成已經(jīng)不是什么新鮮玩意了。

它的工作原理,就是看著前幾幀畫(huà)面,然后猜測(cè)下一幀的畫(huà)面。

通過(guò)學(xué)習(xí)谷歌龐大數(shù)據(jù)庫(kù)里超過(guò)20萬(wàn)小時(shí)的游戲視頻,Genie 3記住了每一種“當(dāng)屏幕上有個(gè)小人,且玩家按下右鍵時(shí),下一幀畫(huà)面通常會(huì)發(fā)生什么”的可能性,并會(huì)在玩家做出的操作生成對(duì)應(yīng)的畫(huà)面。

問(wèn)題就在這里,Genie 3根本不懂物理,沒(méi)有可靠的邏輯計(jì)算,而是通過(guò)不斷猜測(cè)來(lái)拓展世界的,這也導(dǎo)致了目前的體驗(yàn)有兩個(gè)非常明顯的硬傷。

首先是缺乏一致性。

盡管谷歌方面聲稱,為了防止AI算力過(guò)載或者邏輯崩壞,玩家只能生成一分鐘的片段。

但在一分鐘的限制下,我們依然能看到嚴(yán)重的記憶丟失。就用上面舉例的許昊龍,明明玩家導(dǎo)入的是一張正面照片,但在實(shí)際操作角色10秒后,再次切到正臉,你會(huì)發(fā)現(xiàn)角色的面部發(fā)生了180°改變——變成了一個(gè)純種白人大叔。

IMG_ixlplw.gif

(圖源:bilibili)

我想,除了玩Roguelike游戲的時(shí)候,應(yīng)該沒(méi)有多少人愿意接受這種在一個(gè)游戲里,同一個(gè)地方每次去都不太一樣的情況吧

其次是沒(méi)什么邏輯。

在傳統(tǒng)游戲里,你撞到墻會(huì)被彈回來(lái),對(duì)吧。

但在Project Genie的世界里,AI是有猜錯(cuò)的時(shí)候。這就導(dǎo)致你控制的角色可能會(huì)突然穿墻而過(guò),或者跳著跳著突然融化進(jìn)了地板里,甚至有時(shí)候走著走著,身后突然長(zhǎng)出一棵樹(shù)來(lái)。

IMG_q85xww.gif

(圖源:bilibili)

這種體驗(yàn)非常詭異,就像我們?cè)谧銮逍褖?mèng),你知道自己在控制著角色,但世界總是在發(fā)生一些毫無(wú)邏輯的形變。

需要明確的是,相比前代以及其他視覺(jué)語(yǔ)言模型/世界模型,Genie 3的一致性、穩(wěn)定性已經(jīng)強(qiáng)出不少,但出戲的情況仍然有相當(dāng)大的概率出現(xiàn),這在追求可玩性的游戲里絕對(duì)是不可接受的。

正因如此,它目前的價(jià)值,更多是給游戲設(shè)計(jì)師提供一個(gè)快速驗(yàn)證靈感的方法。

對(duì)我們普通玩家來(lái)說(shuō),當(dāng)個(gè)新鮮玩具,玩?zhèn)幾分鐘娛樂(lè)一下或許還行。距離真正的沉浸式娛樂(lè),還有很長(zhǎng)一段路要走。

世界模型,才是AI的下一個(gè)戰(zhàn)場(chǎng)

說(shuō)到這里,可能有人會(huì)覺(jué)得,既然畫(huà)質(zhì)這么渣,Bug這么多,那谷歌花這么多錢(qián)搞這個(gè)Project Genie,是不是點(diǎn)錯(cuò)科技樹(shù)了?

在我看來(lái),恰恰相反。

Project Genie的出現(xiàn),其意義遠(yuǎn)不止做個(gè)游戲這么簡(jiǎn)單,它代表了人工智能從“理解靜態(tài)世界”邁向了“模擬真實(shí)世界”的關(guān)鍵一步。

我們現(xiàn)在熟悉的Sora、Runway這些視頻生成模型,雖然能做出好萊塢級(jí)別的畫(huà)面,但它們是被動(dòng)展示的。觀眾只能看,不能互動(dòng)。

og-image.jpg

(圖源:OpenAI)

而Genie 3代表的世界模型,則是要讓AI理解:因?yàn)槲易隽艘粋(gè)動(dòng)作,所以世界發(fā)生了改變,讓AI從被動(dòng)展示到主動(dòng)交互,從靜態(tài)敘事到動(dòng)態(tài)推演,這正是通往通用人工智能(AGI)的必經(jīng)之路。

試想一下,如果未來(lái)的Genie能進(jìn)化到4K畫(huà)質(zhì)、60幀,并且物理邏輯完全準(zhǔn)確,那意味著什么?

舉個(gè)簡(jiǎn)單的例子,這意味著我們不需要在現(xiàn)實(shí)中去訓(xùn)練機(jī)器人了。我們可以讓AI機(jī)器人在Project Genie生成的虛擬世界里,摔倒一萬(wàn)次,學(xué)會(huì)走路,學(xué)會(huì)拿杯子,然后再把這個(gè)算法加載到實(shí)體機(jī)器人身上。

當(dāng)然了,目前盯著這個(gè)賽道的,可不止谷歌一家。

OpenAI明確說(shuō)過(guò)Sora本質(zhì)上也是世界模型,英偉達(dá)剛推出的Cosmos模型號(hào)稱專注于讓AI理解物理定律,國(guó)內(nèi)的眾多大廠也在暗中布局。大家都在賭,誰(shuí)能先造出那個(gè)成熟的世界雛形。

對(duì)這種新生代物種來(lái)說(shuō),好戲才剛剛開(kāi)場(chǎng)。

compressed_c232c8148a918288b1ad94315ba0de83.png

谷歌Genie世界模型

來(lái)源:雷科技

本文圖片來(lái)自:123RF 正版圖庫(kù)       

       原文標(biāo)題 : 一張圖生成游戲?谷歌Genie體驗(yàn):萬(wàn)物皆可玩,但離“殺死游戲公司”還遠(yuǎn)

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)