訂閱
糾錯
加入自媒體

李飛飛的反共識判斷:大語言模型無法通往AGI,空間智能才是最優(yōu)路徑

作者|林易編輯|重點(diǎn)君

2月4日,在思科(Cisco)AI峰會上,李飛飛以World Labs創(chuàng)始人的身份,披露了公司首款空間智能產(chǎn)品Marble的技術(shù)細(xì)節(jié) 。

作為這一輪生成式AI浪潮的核心奠基者之一,李飛飛并未盲目追逐大語言模型的熱潮。相反,她再次拋出了一個鮮明的反共識觀點(diǎn):單純的大語言模型無法通往AGI。

在李飛飛看來,語言在生物進(jìn)化史上只是最近50萬年的產(chǎn)物,而視覺與觸覺所代表的空間智能,早在5億年前的寒武紀(jì)就開啟了神經(jīng)系統(tǒng)的演化競賽。如果AI無法理解三維物理世界、無法具備物理直覺,它就只能被永遠(yuǎn)困在數(shù)字的像素中。

帶著這樣的判斷,李飛飛創(chuàng)辦的World Labs試圖走通一條不同于OpenAI的路徑:通過構(gòu)建具有物理一致性的世界模型,為AI補(bǔ)上感知的短板。

我們梳理了這場訪談的核心信息,以下是重點(diǎn)內(nèi)容:

1. AGI路線之爭:語言并不是智能的全部,甚至不是智能的基石。

李飛飛用生物進(jìn)化的宏觀視角重新審視了AI的發(fā)展路徑:語言在人類進(jìn)化史上只有約50萬年的歷史,是極其晚近的產(chǎn)物。相比之下,視覺、觸覺等感知能力早在5億年前的寒武紀(jì)就開啟了演化競賽。

結(jié)論是:如果AI只有語言能力,它將被永遠(yuǎn)困在數(shù)字世界中。只有補(bǔ)齊了比語言更古老、更基礎(chǔ)的空間智能,讓機(jī)器擁有理解、推理并與三維物理世界互動的能力,AI才能真正通往AGI。

2. 重新定義世界模型:物理一致性(Physical Consistency)是關(guān)鍵。

李飛飛介紹,作為一個前沿空間智能模型,Marble能接收多模態(tài)輸入,無論是句子、圖片、視頻還是簡單的3D輸入,并將這些提示詞轉(zhuǎn)化為一個完全可導(dǎo)航、可交互且具有永久一致性的3D世界。

與Sora等強(qiáng)調(diào)視覺效果的視頻模型不同,Marble生成的環(huán)境具有幾何結(jié)構(gòu)(Geometric Structure)和物理一致性。這意味著生成的不僅僅是一段像素動畫,而是一個擁有物理屬性的虛擬空間,用戶可以在其中自由漫游。

Marble目前已被用于游戲開發(fā)、影視特效(VFX)、機(jī)器人訓(xùn)練、室內(nèi)設(shè)計等領(lǐng)域,臨床研究人員將Marble用于治療強(qiáng)迫癥,通過生成特定的觸發(fā)環(huán)境(如臟亂的洗衣房)來對患者使用暴露療法。

3. 隨著合成數(shù)據(jù)技術(shù)的成熟,世界模型即將迎來類似LLM的Scaling Law爆發(fā)時刻。

為什么物理世界的AI 發(fā)展比語言模型慢?核心瓶頸在于數(shù)據(jù)的信噪比。文本數(shù)據(jù)是清晰、語義明確的,而物理世界的像素(Pixels)和體素(Voxels)充滿了噪音,且難以大規(guī)模獲取 。

為了解決這一難題,World Labs采取了一種混合數(shù)據(jù)策略(Hybrid Data Strategy):利用互聯(lián)網(wǎng)現(xiàn)有的文本、圖像、視頻數(shù)據(jù);結(jié)合仿真模擬數(shù)據(jù)(Synthetic Data);加上真實(shí)世界采集的數(shù)據(jù)。

李飛飛預(yù)判,隨著合成數(shù)據(jù)技術(shù)的成熟,世界模型領(lǐng)域即將迎來類似LLM的Scaling Law爆發(fā)時刻。

4. 通用機(jī)器人才是AI技術(shù)的皇冠,因為自動駕駛與通用機(jī)器人的邏輯完全相反。

大眾往往認(rèn)為自動駕駛是AI技術(shù)的皇冠,但在李飛飛看來,通用機(jī)器人的維度要高得多。

自動駕駛是2D 邏輯:汽車本質(zhì)上是一個在二維平面移動的方塊,它的核心任務(wù)是避障,只要不碰到東西就是勝利。

通用機(jī)器人則是3D 邏輯:機(jī)器人的核心任務(wù)恰恰相反,是接觸,它必須在三維空間中,以不破壞物體的方式進(jìn)行精確操作。

5. AI技術(shù)的終局是成為新的電力,成為賦能文明的基礎(chǔ)設(shè)施。

面對當(dāng)前關(guān)于AI毀滅人類或技術(shù)烏托邦的極化爭論,李飛飛表現(xiàn)出了科學(xué)家的審慎與人文關(guān)懷。

她將AI比作一百多年前的電力。電力的成功,不是因為建立了龐大的電網(wǎng),而是因為它點(diǎn)亮了學(xué)校的燈、驅(qū)動了工廠的機(jī)器、延長了人類的壽命。同理,AI的成功不在于模型參數(shù)有多大,而在于它能否像電力一樣,成為一種賦能文明的基礎(chǔ)設(shè)施,讓每一個體獲得尊嚴(yán)與幸福 。

李飛飛在訪談結(jié)束時透露,World Labs的目標(biāo)是讓空間智能技術(shù)真正進(jìn)入醫(yī)療健康、農(nóng)業(yè)制造等各個垂直行業(yè)。希望在2026年,我們能看到擁有了空間智能的AI,真正走出屏幕,與物理世界產(chǎn)生美妙的交互。

  

以下為李飛飛訪談實(shí)錄:

1、空間智能是AI的下一個前沿領(lǐng)域

主持人:很高興能親眼見證World Labs在過去一年中所取得的進(jìn)展。讓我們先來聊聊你們正在做的事情,以及它為何如此重要。

李飛飛:現(xiàn)在我每天醒來腦子里只思考一件事,那就是空間智能(spatial intelligence)。大約兩年前,我與一群年輕的技術(shù)專家共同創(chuàng)立了World Labs。為什么空間智能如此重要?我認(rèn)為它是AI的下一個前沿領(lǐng)域。如果從進(jìn)化的角度看待智能發(fā)展,這段歷史可以追溯到5億多年前。最先開啟神經(jīng)系統(tǒng)演化競賽的是感知而非語言。相比之下,語言是一種非常新穎的智能形式,歷史大概只有50萬年。但在15億年前,動物就開始感知光線并觸摸環(huán)境,從而產(chǎn)生了觸覺、視覺、本能和知覺。

“本能”這個詞雖然有些模糊,但不可否認(rèn)的是,正是通過觸覺和視覺與物理世界進(jìn)行身體接觸,才開啟了神經(jīng)系統(tǒng)的發(fā)育,引發(fā)了動物進(jìn)化的軍備競賽。這使得生物在與環(huán)境交互中變得越來越活躍,也越來越智能。我想表達(dá)的是,在真實(shí)的3D、4D物理世界中進(jìn)行理解、推理、交互和導(dǎo)航的能力是基礎(chǔ)性的,與語言智能同樣重要。這一核心關(guān)鍵技術(shù)就是空間智能。這就是為什么我認(rèn)為它是AI的下一代前沿領(lǐng)域,也是World Labs一直致力于構(gòu)建的目標(biāo)。

主持人:請跟我們聊聊Marble,這是你們最近剛剛發(fā)布的產(chǎn)品。究竟什么是Marble?

李飛飛:Marble是我們第一代空間智能模型。雖然我們常隨口稱其為世界模型(world model),但鑒于目前關(guān)于世界模型的定義繁多,稱謂其實(shí)并不重要。本質(zhì)上,這是一個前沿的空間智能模型。Marble能接收多模態(tài)輸入,無論是句子、圖片、視頻還是簡單的3D輸入,并將這些提示詞轉(zhuǎn)化為一個完全可導(dǎo)航、可交互且具有永久一致性的3D世界。這與大家現(xiàn)在看到的視頻模型截然不同,Marble生成的環(huán)境擁有幾何結(jié)構(gòu),支持模擬機(jī)器人動作或編寫游戲代碼等操作。

李飛飛:我們大約兩個月前發(fā)布了Marble。雖然它仍處于起步階段,是第一代產(chǎn)品,但作為最先進(jìn)的3D生成式世界模型,我們對開啟這段旅程感到非常激動。

主持人:有一種觀點(diǎn)認(rèn)為,如果僅僅依賴語言模型,我們將無法實(shí)現(xiàn)AGI,必須對自身的物理性進(jìn)行某種增強(qiáng)。您顯然深信這一點(diǎn)。那么請談?wù)勥@個維度,隨著時間推移,未來五年最重要的突破點(diǎn)會是什么?除了機(jī)器人技術(shù)這個顯而易見的用例,還有哪些我們今天無法想象的應(yīng)用?

李飛飛:其實(shí)不需要等五年,我們的用戶和客戶已經(jīng)開始嘗試早期版本的模型了。我們看到用戶利用它開發(fā)游戲;視覺特效(VFX)客戶將其用于商業(yè)化的虛擬制作場景;包括Nvidia在內(nèi)的大公司、初創(chuàng)企業(yè)及學(xué)術(shù)實(shí)驗室等合作伙伴,正在利用Marble作為訓(xùn)練環(huán)境來訓(xùn)練機(jī)器人;建筑師和設(shè)計師則用它進(jìn)行室內(nèi)設(shè)計。

我們還發(fā)現(xiàn)了一些意想不到的用例。例如,臨床研究人員對Marble表現(xiàn)出了極大的熱情。大量的精神病學(xué)和心理健康研究及干預(yù)手段都需要沉浸式環(huán)境,且需針對特定情況進(jìn)行個性化定制。以強(qiáng)迫癥(OCD)為例,患者會被非常具體的場景觸發(fā),比如我個人會被堆積的臟衣服困擾,但每個人的觸發(fā)點(diǎn)各不相同。研究人員發(fā)現(xiàn)搭建實(shí)體環(huán)境非常困難,而Marble只需輸入提示詞,幾分鐘內(nèi)就能生成各種不同類型的環(huán)境。

此外,還有人將其用于健身訓(xùn)練,比如個性化的瑜伽環(huán)境。隨著Marble不斷完善,畢竟我們現(xiàn)在還處于早期階段,我相信未來會看到越來越多橫向的應(yīng)用場景。

2、AI的社會價值

主持人:你進(jìn)入AI行業(yè)已經(jīng)很長時間了。

李飛飛:這是在委婉地討論我的年齡。

主持人:不,我的意思是,你不僅僅是那種跟風(fēng)研究了三年的人,而是將畢生精力都奉獻(xiàn)給了AI。當(dāng)你創(chuàng)立這家公司并著手構(gòu)建空間智能時,最讓你感到驚訝的是什么?

李飛飛:這個問題問得很好。正如我們討論過的,即便到了我們這個年紀(jì),保持求知欲和學(xué)習(xí)能力依然是最重要的事情。我投身AI領(lǐng)域已經(jīng)很多年了,最初是因為強(qiáng)烈的好奇心,我想探索什么是智能以及如何讓機(jī)器變得智能。當(dāng)時AI還是一個無人問津的冷門領(lǐng)域,大家甚至不知道怎么拼寫AI,那段時光非常有趣。但過去十年發(fā)生了翻天覆地的變化,AI對我而言不再僅僅是個人層面的追求,它已經(jīng)上升到了文明層面。這讓我作為教育者和企業(yè)家多了一層責(zé)任感,不僅要在技術(shù)上做出貢獻(xiàn),還要推動其健康發(fā)展。

作為企業(yè)家,最讓我驚訝的有幾點(diǎn)。首先是過去幾年AI的發(fā)展速度令人屏息。無論我們外表如何淡定,內(nèi)心深處都難免焦慮,因為有太多的論文要讀、太多的博客、新聞和模型發(fā)布。這種焦慮感正是我們這個時代的寫照,技術(shù)正以驚人的速度推動我們前進(jìn)。這讓我既興奮又清醒,正如蘇格拉底所言“我一無所知”,我希望大家不要放棄學(xué)習(xí),保持好奇心。

另一點(diǎn)讓我驚訝甚至擔(dān)憂的是關(guān)于AI的極化言論。網(wǎng)絡(luò)上的討論往往是非黑即白的:要么是完全的技術(shù)烏托邦主義,忽略了技術(shù)是一把雙刃劍;要么就是末日論調(diào),仿佛人類時刻面臨生存危機(jī)。對于一項對人類文明如此深遠(yuǎn)的技術(shù),這種討論方式是不負(fù)責(zé)任的。主動權(quán)掌握在每一位企業(yè)家、產(chǎn)品經(jīng)理、工程師和公民手中,我們需要具備能動性來引導(dǎo)技術(shù)的發(fā)展。我真心希望在邁向2026年及未來的過程中,我們能更客觀、細(xì)膩且心懷仁慈地看待AI,既保持樂觀,又肩負(fù)起責(zé)任,而不是為了博取眼球去發(fā)表極端言論。

主持人:在你心中,未來幾年AI取得什么樣的成果才算成功?我很喜歡你提到的這種兩極分化的觀點(diǎn),要么工作全部消失盯著大海發(fā)呆,要么技術(shù)完全沒用。

李飛飛:如果我們把時間回?fù)芤话俣嗄辏胂笠幌庐?dāng)時的人們?nèi)绾味x電力的成功。很難想象那個版本的我們能預(yù)見到今天的景象,但我希望那時的愿景是:學(xué)校燈火通明,家園溫暖如春,機(jī)器被賦予力量實(shí)現(xiàn)工業(yè)化,進(jìn)而延長人類壽命,讓更多孩子接受教育。這就是技術(shù)和AI的意義,是一種永恒的價值。成功的定義應(yīng)該是文明變得更加美好,而文明是由每一個追求幸福、繁榮且擁有尊嚴(yán)的個體組成的。這就是AI以及每一項技術(shù)成功的定義。

3、世界模型與具身智能的技術(shù)難點(diǎn)

主持人:接下來我們談?wù)剳?zhàn)術(shù)層面。Large World Models(大型世界模型)的計算密集度是否與Language Models(語言模型)相當(dāng)?

李飛飛:首先,存在不同種類的大型世界模型。我們致力于創(chuàng)建具有顯式3D表示的世界模型,以賦能機(jī)器人、游戲、娛樂和設(shè)計等領(lǐng)域。還有一類通常被稱為世界模型的其實(shí)是視頻生成模型。目前我們的模型規(guī)模并沒有那么大。從宏觀視角來看,GPT-5的訓(xùn)練量大約在10的26次方flops(每秒浮點(diǎn)計算)左右,而我們的Marble模型在規(guī)模上仍要小幾個數(shù)量級。

主持人:這僅僅是因為沒有足夠的數(shù)據(jù)來喂給這些模型嗎?

李飛飛:我認(rèn)為兩者兼而有之。規(guī);_實(shí)始于數(shù)據(jù)和模型參數(shù),數(shù)據(jù)起到了重要作用。但另一方面,這個領(lǐng)域還處于早期階段。Transformer論文發(fā)表于2016年左右,語言模型的發(fā)展已經(jīng)快十年了,而世界模型是一個新得多的領(lǐng)域。雖然過去兩年我們降低了一些科學(xué)風(fēng)險,但仍處于探索模型架構(gòu)的相對早期階段,所以規(guī)模較小。不過考慮到我們實(shí)驗室以及整個領(lǐng)域的進(jìn)展,接下來的幾年將會非常令人興奮,我們將見證大型世界模型在Scaling Law(規(guī)模定律)曲線上的飛躍。

主持人:這讓我很著迷。語言模型是在互聯(lián)網(wǎng)上免費(fèi)、公開的數(shù)據(jù)上訓(xùn)練的,獲取海量數(shù)據(jù)相對容易。但物理數(shù)據(jù)很難獲取,因此合成數(shù)據(jù)(Synthetic Data)變得至關(guān)重要,同時你也需要以更慢的速度去收集真實(shí)數(shù)據(jù)。這帶來了哪些限制?世界模型的進(jìn)步速度會因此變慢嗎?我們會擁有通用機(jī)器人,還是因為數(shù)據(jù)限制只能擁有專用機(jī)器人?

李飛飛:這是一個信息量很大的問題。在World Labs,我們采取混合數(shù)據(jù)策略。我非常羨慕研究語言的朋友,因為語言數(shù)據(jù)的輸入是完全可觀測的、單一模態(tài)的,且含義清晰。而像素或體素構(gòu)成的3D世界則要混亂得多。為了突破技術(shù)極限創(chuàng)造3D、4D世界,我們必須意識到我們并沒有海量的3D數(shù)據(jù)。因此我們采取分層混合方法:利用互聯(lián)網(wǎng)規(guī)模的文本、圖像和視頻,結(jié)合模擬數(shù)據(jù),再加上真實(shí)世界采集的數(shù)據(jù)。這就像自動駕駛公司花費(fèi)數(shù)十年收集真實(shí)和模擬數(shù)據(jù)一樣。

至于速度,雖然數(shù)據(jù)獲取難,但算力在增強(qiáng),芯片在進(jìn)步,整個生態(tài)系統(tǒng)也在成熟。我們現(xiàn)在合作的數(shù)據(jù)供應(yīng)商在三年前甚至不存在。合成數(shù)據(jù)確實(shí)發(fā)揮了很好的作用,而且我們正在制作的模型也將反過來為模擬世界貢獻(xiàn)數(shù)據(jù),形成飛輪效應(yīng)。

關(guān)于通用機(jī)器人,這幾句話就能概括,但做起來很難。我在斯坦福運(yùn)營機(jī)器人實(shí)驗室十多年,作為科學(xué)家,我必須承認(rèn)這是一個極具挑戰(zhàn)的問題?辞灞睒O星并不意味著旅程會很短;叵2006年,我和同事帶領(lǐng)團(tuán)隊創(chuàng)造了第一輛在沙漠行駛138英里的自動駕駛汽車,當(dāng)時我們預(yù)言20年后會有自動駕駛汽車。直到去年,Waymo才開始在城市街道大規(guī)模運(yùn)行,這確實(shí)是一段漫長的旅程。

汽車與機(jī)器人的區(qū)別在于,汽車可以被視作一個在二維平面上移動的方塊機(jī)器人,它的目標(biāo)是不要碰到任何東西。而機(jī)器人是一個三維實(shí)體,在三維世界中運(yùn)行,通用機(jī)器人的目標(biāo)是必須接觸物體而不破壞它們。這是一個更高維度的問題,加上手部模擬的極高難度、視覺的精準(zhǔn)度以及空間理解的需求,挑戰(zhàn)巨大。這就是我創(chuàng)立World Labs的原因。我不喜歡過度承諾,但這確實(shí)是我們致力于解決的重要問題。

主持人:最后,對于企業(yè)界人士,他們應(yīng)該如何看待世界模型、物理AI以及你正在思考的整個領(lǐng)域?

李飛飛:雖然我的思維方式有時候還像個研究生,總想著要有免費(fèi)食物才行,但對于企業(yè)而言,World Labs非常樂意與合作伙伴交流。世界模型和空間智能是一項橫向技術(shù)。我們談?wù)摍C(jī)器人、模擬和沉浸式交互娛樂,但這不僅僅局限于此。我們還沒有深入探討醫(yī)療保健、教育產(chǎn)品、現(xiàn)場服務(wù)、金融服務(wù)、農(nóng)業(yè)制造、倉儲檢測以及城市規(guī)劃等領(lǐng)域。利用空間智能我們可以做的事情還有很多,這確實(shí)是下一個前沿領(lǐng)域,我邀請大家無論是與我們合作還是獨(dú)立開展研究,都加入到這個進(jìn)程中來。

       原文標(biāo)題 : 李飛飛的反共識判斷:大語言模型無法通往AGI,空間智能才是最優(yōu)路徑

聲明: 本文由入駐維科號的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號