123,123

NeurIPS`25 | 清華提出模型驅(qū)動的生成式探索機制MoGE，助力強化學(xué)習(xí)算法突破性能上限

2026-02-25 16:32

作者：Likun Wang等

解讀：AI生成未來

本文介紹清華大學(xué)李升波教授課題組（iDLab）在NeurIPS 2025發(fā)表的《Off-policy Reinforcement Learning with Model-based Exploration Augmentation》。

論文題目： Off-policy Reinforcement Learning with Model-based Exploration Augmentation

收錄會議： 39th Conference on Neural Information Processing Systems (NeurIPS 2025)

作者單位：清華大學(xué)車輛與運載學(xué)院、人工智能學(xué)院

亮點直擊

條件擴散生成器驅(qū)動的高探索潛力狀態(tài)采樣：采用條件擴散生成器采樣具有高探索潛力的關(guān)鍵狀態(tài)，并從理論上證明回放緩沖區(qū)中的狀態(tài)分布漸近收斂于最優(yōu)策略的平穩(wěn)占用測度，通過持續(xù)微調(diào)生成器確保其學(xué)習(xí)分布與最優(yōu)策略占用測度共享共同支撐集，從而生成符合狀態(tài)空間約束的可行狀態(tài)。

一步想象世界模型的動態(tài)一致性保障：設(shè)計了一階段想象世界模型來模擬環(huán)境動態(tài)，通過監(jiān)督學(xué)習(xí)實現(xiàn)高效預(yù)訓(xùn)練，既支持訓(xùn)練經(jīng)驗構(gòu)建，又為基于條件擴散的關(guān)鍵狀態(tài)生成器提供分類器設(shè)計基礎(chǔ)，確保生成樣本在動力學(xué)層面的一致性。

異策略強化學(xué)習(xí)訓(xùn)練框架：提出與現(xiàn)有算法無縫集成的MoGE訓(xùn)練框架，通過重要性采樣混合生成的關(guān)鍵遷移與回放緩沖區(qū)樣本，在保持算法原始結(jié)構(gòu)不變的前提下增強探索能力。在OpenAI Gym和DeepMind Control Suite等標(biāo)準(zhǔn)連續(xù)控制基準(zhǔn)上的實驗表明，MoGE作為探索增強框架能夠持續(xù)提升基線異策略強化學(xué)習(xí)算法的最終性能與樣本效率。

背景：探索與利用——智能體的“選擇困難癥”

在在線強化學(xué)習(xí)中，每個智能體都在做一個看似簡單、卻極其困難的選擇：

“是繼續(xù)走熟悉、安全的老路，還是去嘗試未知、可能更好的新路？”

這就是著名的“探索與利用”難題。如果總是重復(fù)已經(jīng)學(xué)會的行為，智能體雖然穩(wěn)定，卻可能永遠(yuǎn)發(fā)現(xiàn)不了更優(yōu)的方案；但如果一直盲目嘗試新動作，又會浪費大量時間，甚至頻繁犯錯。如何在“穩(wěn)妥”和“冒險”之間找到平衡，是強化學(xué)習(xí)中最關(guān)鍵的問題之一。

探索與利用難題

目前，研究者主要通過兩種方式來幫助智能體“探索世界”：

主動探索：靠“試錯”來學(xué)習(xí)：主動探索傾向于讓智能體多去嘗試不同選擇。比如，在做決策時加入一點隨機性（SAC, DSAC等），讓智能體勇敢嘗試新動作。就像給機器人一點“好奇心”，鼓勵它多走幾條沒走過的路。這種方法簡單直接，但也有明顯限制：首先，智能體只能在“走過的地方附近”探索，其次，收到初始化的影響，智能體很難跳出原有軌跡，進入真正陌生的區(qū)域，這使得在復(fù)雜環(huán)境中，很多關(guān)鍵狀態(tài)根本探索不到。

被動探索：靠“復(fù)盤”和“補充資料”學(xué)習(xí)：被動探索通過整理和擴充學(xué)習(xí)材料來進步。研究者會讓智能體反復(fù)回看重要經(jīng)歷，甚至用生成模型“模擬”新的經(jīng)驗，放進學(xué)習(xí)庫里，“人工地”讓智能體學(xué)習(xí)關(guān)鍵的樣本。這種方法提高了學(xué)習(xí)效率，但問題在于：生成的內(nèi)容大多來自模仿已有經(jīng)驗回放池，很難真正拜托已有數(shù)據(jù)中行為策略的限制，就像刷題時只做同類型題目，很難真正的突破水平瓶頸。

如何讓智能體不只依賴真實經(jīng)歷，而是學(xué)會“提前想象”哪些數(shù)據(jù)是真正重要的？就像人類會在行動前思考：“如果我走這條路，會不會更好？”

動機：從“被動回放”樣本到“主動生成”樣本

現(xiàn)有的被動探索方法往往局限于模仿現(xiàn)有的數(shù)據(jù)分布，無法跳出行為策略（Behavior Policy）的覆蓋范圍。另一方面，直接使用世界模型生成長軌跡容易因誤差累積導(dǎo)致動力學(xué)失效，產(chǎn)生不符合物理規(guī)律的“幻覺”樣本。針對上述痛點，清華大學(xué)李升波老師課題組首次提出了世界模型生成式探索（Modelic Generative Exploration, MoGE）框架。其核心在于：與其隨意生成整段數(shù)據(jù)，或重復(fù)模仿過去的經(jīng)驗，不如選擇直接尋找那些智能體還沒去過、卻很重要的潛在關(guān)鍵狀態(tài)，并用世界模型保證它們真實可信，從而為學(xué)習(xí)提供更有效的訓(xùn)練樣本，從而擺脫行為策略的束縛。

核心亮點：MoGE 框架詳解

MoGE框架

與其他框架不同，MoGE能夠在不修改策略提升的前提下為算法持續(xù)提供關(guān)鍵訓(xùn)練樣本，能夠結(jié)合幾乎所有的異策略（Off-policy）RL 算法（如 SAC, TD3, DSAC）中，主要包含兩大核心組件：

1．關(guān)鍵狀態(tài)生成(Critical State Generation)

作為整體模型的重要組成部分，MoGE 不再像以往方法那樣直接生成完整的狀態(tài)轉(zhuǎn)移數(shù)據(jù)，而是引入了一種擴散模型的條件生成器，專門用于生成強化學(xué)習(xí)訓(xùn)練中的“初始狀態(tài)”。與普通生成模型不同，該生成器并非盲目地模仿已有的數(shù)據(jù)，而是在人工設(shè)計的探索效用函數(shù)（Utility Function）引導(dǎo)下進行生成。該效用函數(shù)融入了人類先驗知識，用于刻畫哪些狀態(tài)更可能對策略學(xué)習(xí)產(chǎn)生關(guān)鍵作用。通過這種條件引導(dǎo)機制，擴散生成器能夠主動聚焦于高價值區(qū)域，從而生成真正具有探索意義的關(guān)鍵狀態(tài)，為智能體提供更高質(zhì)量的訓(xùn)練樣本。在MoGE中，為了普遍性出發(fā)，利用策略熵（Policy Entropy）和 TD 誤差作為引導(dǎo)信號，指導(dǎo)生成器在高維空間中搜索那些包含高信息量或高不確定性的“關(guān)鍵狀態(tài)” 。

2．一步想象世界模型 (One-step Imagination World Model)

為了確保生成的樣本符合環(huán)境真實的物理規(guī)律，MoGE 設(shè)計了一個確定性的一步想象世界模型，與狀態(tài)生成器共用一個隱空間，保證學(xué)習(xí)一致性和耦合性，該世界模型可以通過預(yù)訓(xùn)練進行學(xué)習(xí)，保證局部轉(zhuǎn)移的準(zhǔn)確性。

一步想象世界模型

這種“高價值初始狀態(tài)生成 + 一步轉(zhuǎn)移樣本構(gòu)造”的機制，使得 MoGE 既具備了脫離經(jīng)驗回訪池數(shù)據(jù)分布的探索廣度，又保持了物理動力學(xué)的嚴(yán)謹(jǐn)性。在MoGE框架下，不用修改策略函數(shù)和價值函數(shù)，就能實現(xiàn)探索的增強。

MoGE框架下的強化學(xué)習(xí)算法更新

實驗結(jié)果：MoGE助力經(jīng)典強化學(xué)習(xí)算法，刷新連續(xù)控制任務(wù)新基準(zhǔn)

實驗結(jié)果

為了驗證MoGE框架對強化學(xué)習(xí)算法的探索增強能力，我們用DSAC和TD3作為基礎(chǔ)方法在 OpenAI Gym 和 DeepMind Control Suite (DMC) 的 10 個高難度連續(xù)控制任務(wù)中進行了廣泛測試，相比于原有的算法，使用MoGE增強探索后的DSAC展現(xiàn)了卓越的樣本效率和最終性能，超越了現(xiàn)有的所有探索增強的方法。

DMC Suite 表現(xiàn)： MoGE 在高維任務(wù)中表現(xiàn)驚人。在 Humanoid-walk 任務(wù)中，MoGE 取得了 891.7 的高分，相比基線算法 DSAC (146.5) 提升了 508.6% 。在整個 DMC 基準(zhǔn)測試中，MoGE 平均得分比 DSAC 高出 43.8% 。

OpenAI Gym 表現(xiàn)： MoGE 同樣刷新了多項記錄。在復(fù)雜的 Humanoid-v3 任務(wù)中，MoGE 達(dá)到了 12151.1 分，比 DSAC 提升了 16.8%，顯著優(yōu)于傳統(tǒng)的 TD3 和 PER 等方法。

對比優(yōu)勢：實驗結(jié)果表明，MoGE 作為探索增強框架，能夠穩(wěn)定地提升隨機策略（DSAC）和確定性策略（TD3）算法的性能，且效果優(yōu)于現(xiàn)有的被動探索方法（如 PGR, PER）。

總結(jié)與展望

MoGE 提出了一種增強強化學(xué)習(xí)探索的新框架。通過將擴散模型的強大生成能力與世界模型的動力學(xué)約束相結(jié)合，MoGE 有效解決了高維空間中“去哪探索”和“如何保證真實性”的難題。未來，MoGE 還可以進一步擴展到更多類型的算法中，或結(jié)合更具表達(dá)能力的生成模型，為具身智能（Embodied AI）和復(fù)雜機器人控制任務(wù)提供更強大的探索引擎。

原文標(biāo)題 : NeurIPS`25 | 清華提出模型驅(qū)動的生成式探索機制MoGE，助力強化學(xué)習(xí)算法突破性能上限