訂閱
糾錯
加入自媒體

NeurIPS`25 | 清華提出模型驅(qū)動的生成式探索機制MoGE,助力強化學(xué)習(xí)算法突破性能上限

作者:Likun Wang等

解讀:AI生成未來

本文介紹清華大學(xué)李升波教授課題組(iDLab)在NeurIPS 2025發(fā)表的《Off-policy Reinforcement Learning with Model-based Exploration Augmentation》。

論文題目: Off-policy Reinforcement Learning with Model-based Exploration Augmentation

收錄會議: 39th Conference on Neural Information Processing Systems (NeurIPS 2025)

作者單位: 清華大學(xué)車輛與運載學(xué)院、人工智能學(xué)院

亮點直擊

條件擴散生成器驅(qū)動的高探索潛力狀態(tài)采樣:采用條件擴散生成器采樣具有高探索潛力的關(guān)鍵狀態(tài),并從理論上證明回放緩沖區(qū)中的狀態(tài)分布漸近收斂于最優(yōu)策略的平穩(wěn)占用測度,通過持續(xù)微調(diào)生成器確保其學(xué)習(xí)分布與最優(yōu)策略占用測度共享共同支撐集,從而生成符合狀態(tài)空間約束的可行狀態(tài)。

一步想象世界模型的動態(tài)一致性保障:設(shè)計了一階段想象世界模型來模擬環(huán)境動態(tài),通過監(jiān)督學(xué)習(xí)實現(xiàn)高效預(yù)訓(xùn)練,既支持訓(xùn)練經(jīng)驗構(gòu)建,又為基于條件擴散的關(guān)鍵狀態(tài)生成器提供分類器設(shè)計基礎(chǔ),確保生成樣本在動力學(xué)層面的一致性。

異策略強化學(xué)習(xí)訓(xùn)練框架:提出與現(xiàn)有算法無縫集成的MoGE訓(xùn)練框架,通過重要性采樣混合生成的關(guān)鍵遷移與回放緩沖區(qū)樣本,在保持算法原始結(jié)構(gòu)不變的前提下增強探索能力。在OpenAI Gym和DeepMind Control Suite等標(biāo)準(zhǔn)連續(xù)控制基準(zhǔn)上的實驗表明,MoGE作為探索增強框架能夠持續(xù)提升基線異策略強化學(xué)習(xí)算法的最終性能與樣本效率。

背景:探索與利用——智能體的“選擇困難癥”

在在線強化學(xué)習(xí)中,每個智能體都在做一個看似簡單、卻極其困難的選擇:

“是繼續(xù)走熟悉、安全的老路,還是去嘗試未知、可能更好的新路?” 

這就是著名的“探索與利用”難題。如果總是重復(fù)已經(jīng)學(xué)會的行為,智能體雖然穩(wěn)定,卻可能永遠(yuǎn)發(fā)現(xiàn)不了更優(yōu)的方案;但如果一直盲目嘗試新動作,又會浪費大量時間,甚至頻繁犯錯。如何在“穩(wěn)妥”和“冒險”之間找到平衡,是強化學(xué)習(xí)中最關(guān)鍵的問題之一。

探索與利用難題探索與利用難題

目前,研究者主要通過兩種方式來幫助智能體“探索世界”:

主動探索:靠“試錯”來學(xué)習(xí):主動探索傾向于讓智能體多去嘗試不同選擇。比如,在做決策時加入一點隨機性(SAC, DSAC等),讓智能體勇敢嘗試新動作。就像給機器人一點“好奇心”,鼓勵它多走幾條沒走過的路。這種方法簡單直接,但也有明顯限制:首先,智能體只能在“走過的地方附近”探索,其次,收到初始化的影響,智能體很難跳出原有軌跡,進入真正陌生的區(qū)域,這使得在復(fù)雜環(huán)境中,很多關(guān)鍵狀態(tài)根本探索不到。

被動探索:靠“復(fù)盤”和“補充資料”學(xué)習(xí):被動探索通過整理和擴充學(xué)習(xí)材料來進步。研究者會讓智能體反復(fù)回看重要經(jīng)歷,甚至用生成模型“模擬”新的經(jīng)驗,放進學(xué)習(xí)庫里,“人工地”讓智能體學(xué)習(xí)關(guān)鍵的樣本。這種方法提高了學(xué)習(xí)效率,但問題在于:生成的內(nèi)容大多來自模仿已有經(jīng)驗回放池,很難真正拜托已有數(shù)據(jù)中行為策略的限制,就像刷題時只做同類型題目,很難真正的突破水平瓶頸。

如何讓智能體不只依賴真實經(jīng)歷,而是學(xué)會“提前想象”哪些數(shù)據(jù)是真正重要的?就像人類會在行動前思考:“如果我走這條路,會不會更好?”

動機:從“被動回放”樣本到“主動生成”樣本

現(xiàn)有的被動探索方法往往局限于模仿現(xiàn)有的數(shù)據(jù)分布,無法跳出行為策略(Behavior Policy)的覆蓋范圍 。另一方面,直接使用世界模型生成長軌跡容易因誤差累積導(dǎo)致動力學(xué)失效,產(chǎn)生不符合物理規(guī)律的“幻覺”樣本。 針對上述痛點,清華大學(xué)李升波老師課題組首次提出了世界模型生成式探索(Modelic Generative Exploration, MoGE)框架。其核心在于:與其隨意生成整段數(shù)據(jù),或重復(fù)模仿過去的經(jīng)驗,不如選擇直接尋找那些智能體還沒去過、卻很重要的潛在關(guān)鍵狀態(tài),并用世界模型保證它們真實可信,從而為學(xué)習(xí)提供更有效的訓(xùn)練樣本,從而擺脫行為策略的束縛。

核心亮點:MoGE 框架詳解

MoGE框架MoGE框架

與其他框架不同,MoGE能夠在不修改策略提升的前提下為算法持續(xù)提供關(guān)鍵訓(xùn)練樣本,能夠結(jié)合幾乎所有的異策略(Off-policy)RL 算法(如 SAC, TD3, DSAC)中,主要包含兩大核心組件 :

1. 關(guān)鍵狀態(tài)生成(Critical State Generation)

作為整體模型的重要組成部分,MoGE 不再像以往方法那樣直接生成完整的狀態(tài)轉(zhuǎn)移數(shù)據(jù),而是引入了一種擴散模型的條件生成器,專門用于生成強化學(xué)習(xí)訓(xùn)練中的“初始狀態(tài)”。 與普通生成模型不同,該生成器并非盲目地模仿已有的數(shù)據(jù),而是在人工設(shè)計的探索效用函數(shù)(Utility Function)引導(dǎo)下進行生成。該效用函數(shù)融入了人類先驗知識,用于刻畫哪些狀態(tài)更可能對策略學(xué)習(xí)產(chǎn)生關(guān)鍵作用。通過這種條件引導(dǎo)機制,擴散生成器能夠主動聚焦于高價值區(qū)域,從而生成真正具有探索意義的關(guān)鍵狀態(tài),為智能體提供更高質(zhì)量的訓(xùn)練樣本。 在MoGE中,為了普遍性出發(fā),利用策略熵(Policy Entropy)和 TD 誤差作為引導(dǎo)信號,指導(dǎo)生成器在高維空間中搜索那些包含高信息量或高不確定性的“關(guān)鍵狀態(tài)” 。

2. 一步想象世界模型 (One-step Imagination World Model)

為了確保生成的樣本符合環(huán)境真實的物理規(guī)律,MoGE 設(shè)計了一個確定性的一步想象世界模型,與狀態(tài)生成器共用一個隱空間,保證學(xué)習(xí)一致性和耦合性,該世界模型可以通過預(yù)訓(xùn)練進行學(xué)習(xí),保證局部轉(zhuǎn)移的準(zhǔn)確性。

一步想象世界模型一步想象世界模型

這種“高價值初始狀態(tài)生成 + 一步轉(zhuǎn)移樣本構(gòu)造”的機制,使得 MoGE 既具備了脫離經(jīng)驗回訪池數(shù)據(jù)分布的探索廣度,又保持了物理動力學(xué)的嚴(yán)謹(jǐn)性。在MoGE框架下,不用修改策略函數(shù)和價值函數(shù),就能實現(xiàn)探索的增強。

MoGE框架下的強化學(xué)習(xí)算法更新

實驗結(jié)果:MoGE助力經(jīng)典強化學(xué)習(xí)算法,刷新連續(xù)控制任務(wù)新基準(zhǔn)

實驗結(jié)果實驗結(jié)果

為了驗證MoGE框架對強化學(xué)習(xí)算法的探索增強能力,我們用DSAC和TD3作為基礎(chǔ)方法在 OpenAI Gym 和 DeepMind Control Suite (DMC) 的 10 個高難度連續(xù)控制任務(wù)中進行了廣泛測試,相比于原有的算法,使用MoGE增強探索后的DSAC展現(xiàn)了卓越的樣本效率和最終性能,超越了現(xiàn)有的所有探索增強的方法。

DMC Suite 表現(xiàn): MoGE 在高維任務(wù)中表現(xiàn)驚人。在 Humanoid-walk 任務(wù)中,MoGE 取得了 891.7 的高分,相比基線算法 DSAC (146.5) 提升了 508.6% 。在整個 DMC 基準(zhǔn)測試中,MoGE 平均得分比 DSAC 高出 43.8% 。

OpenAI Gym 表現(xiàn): MoGE 同樣刷新了多項記錄。在復(fù)雜的 Humanoid-v3 任務(wù)中,MoGE 達(dá)到了 12151.1 分,比 DSAC 提升了 16.8%,顯著優(yōu)于傳統(tǒng)的 TD3 和 PER 等方法 。

對比優(yōu)勢: 實驗結(jié)果表明,MoGE 作為探索增強框架,能夠穩(wěn)定地提升隨機策略(DSAC)和確定性策略(TD3)算法的性能,且效果優(yōu)于現(xiàn)有的被動探索方法(如 PGR, PER)。

總結(jié)與展望

MoGE 提出了一種增強強化學(xué)習(xí)探索的新框架。通過將擴散模型的強大生成能力與世界模型的動力學(xué)約束相結(jié)合,MoGE 有效解決了高維空間中“去哪探索”和“如何保證真實性”的難題 。 未來,MoGE 還可以進一步擴展到更多類型的算法中,或結(jié)合更具表達(dá)能力的生成模型,為具身智能(Embodied AI)和復(fù)雜機器人控制任務(wù)提供更強大的探索引擎 。

       原文標(biāo)題 : NeurIPS`25 | 清華提出模型驅(qū)動的生成式探索機制MoGE,助力強化學(xué)習(xí)算法突破性能上限

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號