訂閱
糾錯
加入自媒體

NeurIPS 2025 最佳論文詳解:你完全也能看懂

機器學(xué)習(xí)領(lǐng)域的“奧運會” NeurIPS剛剛落下帷幕,你是否好奇研究人員真正認為哪些人工智能突破至關(guān)重要?NeurIPS,即神經(jīng)信息處理系統(tǒng)大會,堪稱人工智能研究領(lǐng)域的奧斯卡。每年12月,數(shù)千名研究人員齊聚一堂,分享最前沿的研究成果。論文被NeurIPS接收已屬不易,而榮獲最佳論文獎?那足以決定職業(yè)生涯的成敗。

NeurIPS剛剛評選出年度最佳人工智能研究,今年的七位獲獎?wù)咛接懥藦娜斯ぶ悄苣P蜑楹温犉饋砬宦傻饺绾螛?gòu)建真正深度神經(jīng)網(wǎng)絡(luò)等各種問題。

但是,這些論文貌似離我們很遠,而且對于我們普通人來講,似乎高深莫測,無法看懂。所以,本文基于論文的解讀,讓你完全可以看懂今年NeurIPS 2025 的最佳論文。

1.獲獎?wù)哒撐模?/strong>

冠軍論文:人工蜂巢思維(華盛頓大學(xué)、卡內(nèi)基梅隆大學(xué)、艾倫研究所):

還記得大家說過只要對模型改變問話語言或使用多個模型就能獲得多樣化的AI輸出嗎?錯!

該團隊測試了 70 多個語言模型,發(fā)現(xiàn)了一些令人不安的事情:它們都產(chǎn)生了驚人相似的響應(yīng)。

如果你問 ChatGPT、Claude 和 Gemini ,甚至國內(nèi)的Deepseek、豆包、千問同一個創(chuàng)意問題,你會得到一些圍繞同一主題的不同版本。

更糟糕的是,單個模型會不斷重復(fù)自身。研究人員稱之為“人工智能群體思維效應(yīng)”;人工智能讓一切聽起來都一樣。

重要性:如果你一直在使用人工智能進行頭腦風暴,并且感覺給出的建議越來越重復(fù),那并非你的錯覺。這個問題比任何人想象的都要復(fù)雜,特別是問DeepSeek,你再看看他的思維鏈內(nèi)容,你就會更有感受。解決它需要對模型的訓(xùn)練和評估方式進行根本性的變革。

面向大型語言模型的門控注意力機制(來自阿里巴巴Qwen團隊):

阿里巴巴千問研究團隊發(fā)現(xiàn),在注意力機制之后添加一個“門”(可以把它想象成一個智能過濾器)——一個小小的調(diào)整——就能讓 LLM 的性能持續(xù)提升。

他們針對 30 多個變體進行了測試,模型參數(shù)高達 150 億。

最棒的是,它已經(jīng)在 Qwen3-Next 中發(fā)布了,而且代碼是開源的。

NeurIPS 評委表示,這將“被廣泛采用”,用學(xué)術(shù)術(shù)語來說就是“每個人都會使用它”。

重要性:預(yù)計在未來 6-12 個月內(nèi),這項技術(shù)將應(yīng)用于 GPT-5、Gemini 2.0 和其他下一代模型。您的 AI 對話將更加連貫,尤其是在較長的聊天中。

用于自監(jiān)督強化學(xué)習(xí)的 1000 層網(wǎng)絡(luò)(來自巴黎文理研究大學(xué)):

大多數(shù)強化學(xué)習(xí)模型使用 2-5 層。這些研究人員提出:如果我們深入更多層呢?

他們構(gòu)建了多達 1024 層的網(wǎng)絡(luò),讓機器人學(xué)習(xí)在沒有任何人為指導(dǎo)的情況下實現(xiàn)目標。

結(jié)果:性能提升 2-50 倍。事實證明,強化學(xué)習(xí)可以像語言模型一樣擴展——你只需要有勇氣去嘗試。

重要性:這為自動駕駛和機器人這類 Physical AI 最終在能力上趕上當前的語言模型打開了大門。我們可以預(yù)見,未來將出現(xiàn)能力更強的機器人和人工智能代理,它們無需人類逐步指導(dǎo)即可學(xué)習(xí)復(fù)雜任務(wù)。

為什么擴散模型Diffusion Models無法記憶(來自普林斯頓大學(xué),華沙理工大學(xué)):

人工智能圖像生成器使用數(shù)百萬張圖像進行訓(xùn)練。那么,為什么它們不能直接生成完全相同的副本呢?這篇論文從數(shù)學(xué)角度解釋了這個問題。

訓(xùn)練過程中有兩個時間尺度:早期階段,模型學(xué)習(xí)創(chuàng)建良好的圖像;后期階段,模型開始記憶。

關(guān)鍵在于,記憶階段隨著數(shù)據(jù)集大小線性增長,從而為在過擬合發(fā)生之前停止訓(xùn)練創(chuàng)造了一個最佳時機。

這就像這個模型內(nèi)置了一個鬧鐘,提醒你“在作弊之前停止學(xué)習(xí)”。

重要性:這解釋了為什么 Midjourney、DALL-E 和 Stable Diffusion 能夠生成全新的圖像,而不是復(fù)制訓(xùn)練數(shù)據(jù)。理解這種動態(tài)過程將有助于構(gòu)建更好、更安全的生成模型。

亞軍論文:

強化學(xué)習(xí)真的能激勵推理嗎(來自leap lab 清華,上海交大):

劇透:其實不然。該團隊測試了強化學(xué)習(xí)訓(xùn)練是否真的在邏輯學(xué)習(xí)模型中創(chuàng)造了新的推理能力,還是僅僅優(yōu)化了基礎(chǔ)模型已經(jīng)知道的路徑。

答案:基礎(chǔ)模型的上限就是訓(xùn)練后模型的上限。強化學(xué)習(xí)使模型更有效地找到好的答案,但并沒有擴展它們從根本上可以推理的內(nèi)容。

這就像教別人應(yīng)試技巧一樣——他們考試成績會更好,但他們實際上并沒有學(xué)到新知識。

重要性:這挑戰(zhàn)了目前圍繞強化學(xué)習(xí)高階思維(RLHF)和推理模型的炒作。如果你想要真正更智能的人工智能,你需要更好的基礎(chǔ)模型和訓(xùn)練數(shù)據(jù),而不僅僅是對現(xiàn)有模型進行更多的強化學(xué)習(xí)。

面向傳遞式在線學(xué)習(xí)的最優(yōu)錯誤界限(肯特,普渡,以色列理工,谷歌):

解決了一個存在了 30 年的理論問題,即當學(xué)習(xí)算法可以訪問未標記數(shù)據(jù)時,它會犯多少錯誤。數(shù)學(xué)原理很復(fù)雜,

但結(jié)論是:未標記數(shù)據(jù)比標準學(xué)習(xí)速度提升了二次方倍(平方根改進)。那在理論上是一個巨大的勝利。

重要性:這為使用大量未標記數(shù)據(jù)提供了理論支持,而這正是當今基礎(chǔ)模型的動力來源。

疊加原理可實現(xiàn)穩(wěn)健的神經(jīng)縮放(MIT麻省理工):

終于解釋了為什么更大的模型效果更好。秘訣在于“疊加”,即模型能夠通過巧妙地打包信息來表示比其維度更多的特征。

當模型強烈地表現(xiàn)出這種特性時,損失與數(shù)據(jù)規(guī)模成反比,幾乎適用于任何數(shù)據(jù)分布。

這印證了金吉拉體型比例定律,并解釋了為什么“越大越好”的趨勢能夠持續(xù)下去。

重要性:這解釋了為什么企業(yè)不斷構(gòu)建更大的模型,并驗證了金吉拉規(guī)模定律。預(yù)計“越大越好”的趨勢在可預(yù)見的未來仍將持續(xù)。

2.NeurIPS 大會上還有:谷歌的內(nèi)存突破

雖然這些獎項占據(jù)了各大媒體的頭條,但谷歌悄悄發(fā)布了可能改變游戲規(guī)則的研究成果:Titans 和 MIRAS,這兩種架構(gòu)賦予了人工智能模型真正的長期記憶。

現(xiàn)有模型在處理上下文長度時會遇到瓶頸。即使你給 Claude 或 GPT 輸入數(shù)百萬個詞元,它們也很難真正記住并有效地利用所有這些信息。還有就是自動駕駛的場景中,其實當前的輔助駕駛的響應(yīng)都是即時響應(yīng),并無法回顧和推理更長的時間,例如15s以上,因為需要更多的內(nèi)存和算力來應(yīng)對。

Titans 通過“驚喜度量”解決了這個問題——本質(zhì)上就是教會人工智能像人類一樣記憶。

它的工作原理是這樣的:人類很容易忘記日,嵤拢瑓s能記住令人驚訝的事件。

Titans 也是如此。在處理文本時,它會不斷地問自己:“這條新信息與我已知的信息相比,是否令人驚訝?” 如果驚訝程度很高,就永久存儲;如果驚訝程度不高,就跳過。

例如:如果你正在閱讀一份財務(wù)報告,突然看到一句關(guān)于香蕉皮的話,這種巨大的意外信號會告訴模型“這很奇怪也很重要——記住它”。

但如果報告第十次提到“季度收益”,模型就會說“知道了,繼續(xù)往下看”。

結(jié)果令人驚嘆:Titans 能夠處理超過 200 萬個詞元上下文,并且在參數(shù)量遠少于 GPT-4 的情況下,在超長上下文任務(wù)上也表現(xiàn)出色。它兼具循環(huán)模型的速度和 Transformer 模型的準確性。

重要性:目前的AI經(jīng)常會忘記上下文。讓Claude分析一份200頁的文檔,并引用第5頁的內(nèi)容?它很可能找不到。而泰坦架構(gòu)可以讓AI真正記住你討論過的所有內(nèi)容、你分享過的每一份文檔、你提到的每一個偏好——即使上下文跨越數(shù)百萬字。

未來 6 到 12 個月內(nèi),預(yù)計這種方法的各種變體將開始出現(xiàn)在生產(chǎn)環(huán)境中。谷歌已經(jīng)在使用“Hope”進行開發(fā),這是一個可以自我修改并優(yōu)化自身內(nèi)存的版本。

3.至于最佳論文……

門控注意力機制已投入生產(chǎn)使用。群體思維問題將促使研究人員開發(fā)出能夠刻意實現(xiàn)輸出多樣化的模型。而強化學(xué)習(xí)的深度擴展有望催生新一代功能強大的自動駕駛、機器人和Physical AI智能體。

如果你每天都在使用人工智能工具,請留意那些明確宣傳輸出多樣性或更深層次推理能力的模型;這些論文只是為未來的發(fā)展方向奠定了基礎(chǔ)。

參考資料以及圖片

Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond) - UOW /CMU等

Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free - Qwen等

1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities

Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

Why Diffusion Models Don’t Memorize: The Role of Implicit Dynamical Regularization in Training

Superposition Yields Robust Neural Scaling

Optimal Mistake Bounds for Transductive Online Learning

*未經(jīng)準許嚴禁轉(zhuǎn)載和摘錄-獲取本文參考資料方式:加入我們的知識星球可以下載公眾號海量參考資料包含以上參考資料。

>>>>

       原文標題 : NeurIPS 2025 最佳論文詳解:你完全也能看懂

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號