123,123

北航&美團等最新EditThinker：給AI修圖裝上“大腦”，F(xiàn)lux、OmniGen2瞬間智商暴漲！

2025-12-09 15:32

作者：Hongyu Li等

解讀：AI生成未來

圖1。EditThinker 概述。子圖（a）展示了多輪思考編輯流程，該流程迭代批評、優(yōu)化和重復編輯指令，子圖（b）報告了四個圖像編輯基準測試的結(jié)果，展示了三種現(xiàn)有編輯方法的顯著提升，我們使用了FLUX.1 Kontext開發(fā)版（圖中標示為FLUX.1 Kontext）

亮點直擊

突破單輪指令范式：針對現(xiàn)有單輪指令遵循模式的局限，創(chuàng)新性地提出"邊思考邊編輯"新范式，將圖像編輯任務重構(gòu)為迭代式推理過程。

構(gòu)建推理驅(qū)動模型：EditThinker——一個通過監(jiān)督微調(diào)與強化學習聯(lián)合訓練的推理驅(qū)動多模態(tài)大語言模型，能夠?qū)庉嬛噶钸M行迭代式的批判、優(yōu)化與重規(guī)劃。

創(chuàng)建大規(guī)模數(shù)據(jù)集：推出包含14萬樣本的THINKEDIT-140k多輪對話數(shù)據(jù)集，該數(shù)據(jù)集提供統(tǒng)一的指令優(yōu)化監(jiān)督信號，專為基于推理的訓練流程設計。

驗證廣泛適用性：在四個廣泛使用的基準測試上進行大量實驗，證明方法在多樣化編輯場景與不同編輯模型中均具卓越效果。

總結(jié)速覽

解決的問題

現(xiàn)有基于指令的圖像編輯方法受限于單輪執(zhí)行范式，難以有效應對模型固有的隨機性與缺乏推理機制的問題，導致指令遵循準確率低、編輯結(jié)果與用戶意圖存在偏差，尤其在復雜或多步編輯任務中表現(xiàn)不足。

提出的方案

提出一種“邊思考邊編輯”（Think-while-Edit）的迭代式推理框架，將圖像編輯重構(gòu)為一個可循環(huán)優(yōu)化的認知過程：在每輪編輯后自動評估結(jié)果、批判不足、優(yōu)化原始指令，并重復生成，直至滿足用戶需求。該框架以統(tǒng)一的推理引擎 EditThinker 為核心，實現(xiàn)指令的動態(tài)精煉與再執(zhí)行。

應用的技術(shù)

構(gòu)建并訓練一個多模態(tài)大語言模型（MLLM）EditThinker，聯(lián)合輸出批判評分、自然語言推理過程和改進后的編輯指令；

采用監(jiān)督微調(diào)與強化學習相結(jié)合的訓練策略，使模型的“思考”（推理與批判）與“編輯”行為對齊；

發(fā)布 THINKEDIT-140k 多輪對話數(shù)據(jù)集（含14萬樣本），提供結(jié)構(gòu)化的多輪指令優(yōu)化監(jiān)督信號，支持推理驅(qū)動的模型訓練。

達到的效果

在四個主流圖像編輯基準上的大量實驗表明，該方法顯著且大幅度地提升了各類圖像編輯模型的指令遵循能力，無論編輯任務復雜度或底層模型架構(gòu)如何，均展現(xiàn)出強泛化性與廣泛適用性，為高保真、高語義對齊的指令式圖像編輯提供了新范式。

思考即編輯

為了解決當前編輯模型在單輪指令遵循方面的固有局限性，本文提出了“思考即編輯”框架，模仿人類在創(chuàng)作過程中“批判、反思和編輯”的認知過程。

整體框架

以前的方法主要以單輪方式操作：給定源圖像和原始指令，編輯模型直接生成最終編輯圖像。這個過程缺乏迭代細化輸出或從失敗編輯中恢復的能力。

圖2。邊思考邊編輯的流程。EditThinker 是一個多輪指令迭代優(yōu)化框架。第一輪中，原始圖像Isrc和指令T輸入編輯器，生成初始編輯圖像，進行編輯。這張編輯后的圖片連同原始圖片和指令，隨后被輸入 EditThinker，生成編輯分數(shù) St、精細提示 Tt 以及相應的推理過程 Rt。如果分數(shù)低于閾值，框架將進入下一次迭代，使用精煉后的提示，直到達到滿意結(jié)果。

為了解決這一限制，本文引入了一個基于 MLLM 的思考者，它將單遍編輯轉(zhuǎn)換為迭代的多輪過程。本文的框架將編輯工作流明確地解耦為兩個不同的角色：一個用于判斷和推理的思考者，一個用于執(zhí)行的編輯器，其中思考者通過 SFT 和 RL 進行訓練，編輯器是任何現(xiàn)有的圖像編輯模型（例如，Qwen-Image-Edit，F(xiàn)lux-Kontext）。具體來說，在每次迭代中，思考者評估先前的輸出并同時生成指令遵循分數(shù) 、細化指令和推理過程，如以下公式所示：

然后，編輯器在源圖像上執(zhí)行新指令，生成更新結(jié)果，如以下公式所示：

這個迭代過程，被稱為“批判-改進-重復”循環(huán)，一直持續(xù)到實現(xiàn)編輯目標。

EditThinker 的設計

本文將 EditThinker 建模為一個雙重角色模型，同時進行評估和規(guī)劃。與使用單獨模型進行評估（基于 MLLM 的評分器）和規(guī)劃（基于 LLM 的重寫器）的解耦方法不同，EditThinker 在一次前向傳播中執(zhí)行這兩個任務。

本文的關(guān)鍵見解是，有效的規(guī)劃需要深入評估：模型必須首先批判先前的輸出（生成分數(shù) 和推理），然后才能生成細化指令。通過在生成之前生成，EditThinker 創(chuàng)建了一個明確的思維鏈，將指令細化基于對和的視覺批判。

為了實現(xiàn)這種雙重角色設計，本文定義了一個結(jié)構(gòu)化的輸入-輸出格式，明確編碼了評估然后規(guī)劃的過程。

輸入元組。 EditThinker 在每次迭代接收一個多模態(tài)元組，提供編輯狀態(tài)的完整上下文：和代表原始參考，是當前要批判的結(jié)果，是生成它的先前指令。

結(jié)構(gòu)化輸出格式。 輸出是一個結(jié)構(gòu)化文本字符串，它序列化了 EditThinker 的推理過程：

其中，是的感知質(zhì)量，是與原始指令相對于的語義對齊。兩個分數(shù)范圍都為 0 到 10。

EditThinker 的訓練

訓練 EditThinker 執(zhí)行這種雙重角色任務需要專門的數(shù)據(jù)集和多階段訓練策略。本文采用兩階段方法：首先是監(jiān)督微調(diào) (SFT)，以學習輸出格式和基本推理，然后是強化學習 (RL)，根據(jù)實際編輯反饋優(yōu)化指令細化。

監(jiān)督微調(diào) (冷啟動)

使用專家 (GPT-4.1) 演示數(shù)據(jù)集（詳見第 4 節(jié)），基礎 MLLM 學習采用本文的結(jié)構(gòu)化 I/O 格式（例如，、、），模仿專家的推理風格，并理解批判和細化指令的原則。

強化學習微調(diào) (RLT)

SFT 模型學習專家理想的推理方式，但這種推理并未基于實際編輯器的實際限制。該模型從未觀察到實際的編輯失敗，也未學習哪些類型的指令容易被特定編輯器誤解。因此，對于 SFT 模型來說，一個看似最優(yōu)的指令在由實際編輯器（如 Qwen-Image-Edit）執(zhí)行時仍然可能失敗。這在理想推理和實際執(zhí)行之間造成了差距。

為了彌合這一差距，本文引入了一個 RL 階段，該階段根據(jù)實際編輯反饋優(yōu)化 EditThinker。本文采用標準 GRPO（組相對策略優(yōu)化），并設計了一個精心設計的獎勵函數(shù)。如前文所述，EditThinker 充當雙重角色代理（即，評論者和細化者），本文設計了一個多組件獎勵，為這兩個方面提供學習信號，如下所示：

評論者獎勵。 該組件訓練 EditThinker 成為一個更準確的評論者。模型輸出預測分數(shù) （包括和），這些分數(shù)應與編輯結(jié)果的實際質(zhì)量保持一致。本文使用 GPT-4.1 作為評論專家 (E) 來評估結(jié)果圖像。評論者獎勵懲罰預測誤差，如下所示：

該獎勵鼓勵 EditThinker 校準其自我評估：高估質(zhì)量（實際分數(shù)為 5 時預測為 9）或低估都會受到懲罰。通過這種反饋，模型學會將其內(nèi)部批判與實際編輯結(jié)果保持一致。

編輯獎勵。 這是訓練 EditThinker 成為更好的細化者的主要獎勵。它激勵模型生成一個指令，該指令導致圖像質(zhì)量和指令遵循方面的可衡量改進。本文使用差分獎勵，使用相同的專家 E 比較“之前”狀態(tài) () 和“之后”狀態(tài) ()，如下所示：

僅當生成的指令成功促使編輯器生成比前一步更好的圖像時，該獎勵才為正。這直接將 EditThinker 的規(guī)劃能力基于實際執(zhí)行結(jié)果。

最終獎勵如下：

其中是基本推理格式獎勵，且。

THINKEDIT 數(shù)據(jù)集

為了訓練 EditThinker，本文需要一個高質(zhì)量的數(shù)據(jù)集來捕獲多輪“思考即編輯”循環(huán)。如下圖 3 所示，本文設計了一個自動化數(shù)據(jù)構(gòu)建管道來模擬這個過程，包括四個順序步驟：軌跡生成、軌跡過濾、分步過濾和數(shù)據(jù)劃分。這個管道使本文能夠構(gòu)建 THINKEDIT-140k 數(shù)據(jù)集。下面詳細介紹每個步驟。

軌跡生成

第一階段側(cè)重于模擬多輪“思考即編輯”循環(huán)。該管道從包含各種 (, ) 對的編輯數(shù)據(jù)池開始。在每個步驟，編輯思考者專家 (GPT-4.1) 評估當前狀態(tài)（基于、和）并生成新指令 ()、推理過程 () 和標記。

值得注意的是，專家不輸出分數(shù) ()。相反，它通過發(fā)出標記直接決定何時停止該過程。這種設計選擇源于本文的發(fā)現(xiàn)，即單個專家難以在任務細化和輸出評分方面同時保持高性能。如果未發(fā)出標記，圖像編輯器將使用新的生成。此循環(huán)持續(xù)進行，直到專家觸發(fā) 條件（或達到最大迭代限制 N），從而完成完整軌跡。

軌跡過濾

由于編輯思考者專家只生成精煉指令和標記而不提供質(zhì)量分數(shù)，本文采用一個額外的編輯評分器來評估每個步驟并分配一個分數(shù) 。在對所有步驟 () 進行評分后，本文應用一個兩階段過濾過程：

過濾失敗軌跡。 本文只保留至少一個后續(xù)步驟 () 獲得的分數(shù)高于或等于初始步驟的軌跡（即，）。不符合此條件的軌跡將被丟棄。

截斷保留軌跡。 對于保留的軌跡，本文識別分數(shù)最高的步驟 () 并將軌跡截斷為僅包含從 1 到的步驟。所有后續(xù)步驟 () 都將被丟棄。

分步過濾

最后，本文處理來自軌跡過濾的精心策劃的軌跡，通過兩個步驟創(chuàng)建最終訓練數(shù)據(jù)：

樣本提取。 首先，本文展開截斷的軌跡。軌跡中的每個單獨步驟都轉(zhuǎn)換為一個不同的訓練樣本。此樣本將輸入元組 (, , , ) 與其相應的地面實況專家輸出 (, ) 配對。該步驟的分數(shù) 作為元數(shù)據(jù)保留，用于后續(xù)過濾。

分布平衡。 本文應用最終過濾步驟，沿兩個維度平衡數(shù)據(jù)集：

任務分布： 本文在不同任務類型（例如，對象移除、顏色修改、添加項目）之間平衡樣本，以確保均勻覆蓋。

分數(shù)分布： 本文在分數(shù)級別之間標準化樣本，以確保編輯質(zhì)量的平衡表示。

SFT 和 RL 數(shù)據(jù)劃分

在軌跡過濾之后，本文獲得了大量精選的高質(zhì)量軌跡。從這個集合中，本文為監(jiān)督微調(diào) (SFT) 和強化學習 (RL) 階段創(chuàng)建了兩個不同的數(shù)據(jù)集。劃分原則是 SFT 需要穩(wěn)定、高質(zhì)量的示例，而 RL 最受益于動態(tài)改進示例。

RL 數(shù)據(jù)集。 本文首先識別對強化學習最有價值的軌跡。關(guān)鍵標準是高軌跡內(nèi)分數(shù)方差（即，“高波動”分數(shù)，Var() > ）。這些軌跡代表了模型最初遇到困難但隨后設法改進的挑戰(zhàn)性案例，為學習提供了豐富的獎勵信號。本文篩選了 10k 這樣高方差的軌跡，同時確保該集合在不同任務類型和分數(shù)分布之間保持平衡。展開后，這些軌跡產(chǎn)生了 27k 個分步樣本，構(gòu)成了本文的 RL 數(shù)據(jù)集。

SFT 數(shù)據(jù)集。 SFT 數(shù)據(jù)集旨在教授模型正確、穩(wěn)定的細化行為。因此，本文選擇了具有低分數(shù)方差或持續(xù)高質(zhì)量的樣本。這些“低波動”步驟通常代表更直接、正確和可靠的細化示例。這個過程產(chǎn)生了一個單獨的 140k 個分步樣本數(shù)據(jù)集用于 SFT。

實驗

實驗設置總結(jié)

本節(jié)詳細介紹了 EditThinker 框架的實驗設置。EditThinker 基于 Qwen3-VL-8B-Instruct 構(gòu)建。訓練分為兩個階段：

監(jiān)督微調(diào) (SFT) ：在本文新構(gòu)建的 THINKEDIT-SFT-140k 數(shù)據(jù)集上進行一個 epoch 的訓練。關(guān)鍵超參數(shù)包括學習率為 2 10，批大小為 32。

強化學習 (RL) ：在 THINKEDIT-RL-10k 數(shù)據(jù)集上進行一個 epoch 的訓練。關(guān)鍵超參數(shù)包括學習率為 2 10，全局批大小為 128，生成的回滾數(shù) (N) 為 8，KL 散度懲罰系數(shù)為 1 10。最大像素數(shù)設置為 1024 1024。

整個訓練過程在 8 塊 H800 GPU 上進行，大約需要 48 小時。在推理階段，本文的“思考即編輯”范式與 OmniGen2、Flux Kontext [dev]和 Qwen-Image-Edit結(jié)合使用。

基準和基線：為了全面驗證“思考即編輯”范式的有效性，本文在四個不同的基準上進行了綜合評估：ImgEdit-Bench、GEdit-Bench 、RISEBench和 KRIS-Bench。選擇這套基準是為了進行多方面的評估，其中 RISEBench 和 KRIS-Bench 專門側(cè)重于評估編輯模型的推理能力。

主要結(jié)果總結(jié)

本節(jié)總結(jié)了 EditThinker 框架在通用編輯和推理編輯任務上的評估結(jié)果，如下表 1 和表 2 所示。

通用編輯性能：如上表 1 所示，本文的“思考即編輯”框架在 ImgEdit-Bench 和 GEdit-Bench-EN 數(shù)據(jù)集上，顯著且持續(xù)地提升了所有基礎模型的性能。

在 ImgEdit-Bench 上，EditThinker 將 FLUX.1-Kontext [Dev] 的總體分數(shù)從 3.44 提高到 3.98，OmniGen2 從 3.4 提高到 3.5，Qwen-Image-Edit 從 4.36 提高到 4.37。這些結(jié)果超越了一些最先進的模型。

在 GEdit-Bench-EN 數(shù)據(jù)集上，本文的方法同樣取得了穩(wěn)定的增益，將 FLUX.1-Kontext [Dev] 的分數(shù)從 6.18 提高到 7.05，OmniGen2 從 6.19 提高到 6.28，Qwen-Image-Edit 從 7.49 提高到 7.73。

推理編輯性能：本文的方法在需要深度推理的任務上同樣提供了持續(xù)的改進，如上表 2 所示。

在 RISE-Bench 上，EditThinker 框架為所有模型提供了穩(wěn)定的性能提升。FLUX.1-Kontext [Dev] 從 5.8 提高到 14.4，OmniGen2 從 3.1 提高到 3.4，Qwen-Image-Edit 從 8.9 提高到 17.8。

專家模型能力的影響：本文觀察到框架的性能與 EditThinker (專家模型) 本身的能力呈正相關(guān)。如上表 1 所示，EditThinker-8B 將 FLUX 分數(shù)提高到 3.98，而更強大的 EditThinker (GPT-4.1) 進一步將其提高到 4.13。這種模式在其他模型和基準上也成立，表明使用更強大的專家模型作為“思考者”直接轉(zhuǎn)化為最終編輯結(jié)果的更大性能提升。

消融研究總結(jié)

本節(jié)總結(jié)了對 EditThinker 框架中關(guān)鍵組件的消融研究結(jié)果。以 FLUX.1-Kontext [Dev] 模型為基線，并在 GEdit-Bench-EN 和 ImgEdit-Bench 上進行評估。

思考模式分析：

如下表 3 所示，本文將模型編輯思考范式分為兩種主要方法：“思考再編輯”（Think before Edit）和“思考即編輯”（Think while Edit）。“思考再編輯”僅使用源圖像重寫優(yōu)化后的提示，而“思考即編輯”是本文提出的迭代推理和編輯框架。

“思考再編輯”提供了顯著改進，但始終不如“思考即編輯”。

用“思考再編輯”步驟初始化“思考即編輯”會導致性能下降，這可能是因為首次“思考再編輯”在第一輪推理中引入了偏差，導致信息傳輸不完整。

思考輪次的效果：

如下表 4 所示，基線模型（相當于單次通過，即“Turn 1”）的 G O 分數(shù)為 6.18。

引入“思考即編輯”框架，最大兩輪（Turn 2），立即將 G O 分數(shù)大幅提升至 6.95。

隨著最大允許輪次的增加，G O 分數(shù)持續(xù)攀升，在 4 輪時達到 7.13，在 6 輪時達到 7.16，在 8 輪時達到 7.30。這表明本文的框架有效利用了更深層次的多步推理。

此外，下表 8 顯示了 EditThinker-8B 的多輪推理性能。從基線到 Turn 8，性能持續(xù)改進，從 6.18 提高到 7.03。在 Turn 2 觀察到最大的性能提升，分數(shù)從 6.18 躍升至 6.90。

訓練階段分析：

如下表 5 所示，SFT 階段本身（+ EditThinker-8B-SFT）帶來了顯著的性能提升，將 G O 分數(shù)從 6.18 提高到 6.93，ImgEdit-Bench 的總體分數(shù)從 3.44 提高到 3.57。

隨后的強化學習 (RL) 階段（+ EditThinker-8B-RL）提供了額外且關(guān)鍵的優(yōu)化。雖然在 GEdit-Bench 上取得了適度增益（7.02 G O），但其影響在 ImgEdit-Bench 基準上最為顯著，將總體分數(shù)從 3.57 (SFT) 提高到 3.95 (RL)。這表明 SFT 對于傳授基礎細化能力至關(guān)重要，而 RL 在優(yōu)化專家判斷和微調(diào)決策策略方面非常有效。

不同 EditThinker 專家模型的影響：

如上表 6 所示，本文通過替換訓練好的 EditThinker-8B，探究了框架的可擴展性。

基線 FLUX 模型的 G O 分數(shù)為 6.00。當本文簡單地用像 GPT 4.1 這樣強大的現(xiàn)成專有模型替換專家時，G O 分數(shù)躍升至 7.19。

這證實了兩個關(guān)鍵見解：1) 本文的“思考即編輯”框架是一個通用且高度可擴展的范式，不限于本文特定的訓練專家。2) 框架的性能與所采用的專家模型的底層推理和批判能力直接且呈正相關(guān)。

結(jié)論

本文提出了一個深思熟慮的編輯框架 EditThinker，它使圖像編輯模型能夠在編輯時“思考”，解決了現(xiàn)有單輪方法中由于固有的隨機性和缺乏深思熟慮而導致的指令遵循能力有限的問題。本文的框架通過模擬迭代的“批判-改進-重復”循環(huán)來模仿人類的認知過程，從而實現(xiàn)自我糾正的圖像編輯。通過將 EditThinker 訓練為一個統(tǒng)一的多模態(tài)大語言模型 (MLLM)，它能夠聯(lián)合生成批判分數(shù)、詳細推理過程和改進后的指令。本文還引入了 THINKEDIT-140k，一個用于監(jiān)督微調(diào) (SFT) 和強化學習 (RL) 的大規(guī)模、多輪數(shù)據(jù)集，以將 EditThinker 的規(guī)劃能力與實際編輯器的限制對齊。在 ImgEdit-Bench、GEdit-Bench、RISE-Bench 和 Kris-Bench 等四個廣泛使用的基準上進行的綜合實驗表明，EditThinker 顯著提高了現(xiàn)有圖像編輯模型的指令遵循能力，特別是在需要復雜推理的任務中。消融研究進一步證實了“思考即編輯”范式、迭代推理輪次、兩階段訓練策略和專家模型能力的關(guān)鍵貢獻。本文的研究結(jié)果強調(diào)了將深思熟慮和迭代推理整合到圖像編輯工作流中的重要性，為開發(fā)更智能、更穩(wěn)健的交互式視覺系統(tǒng)鋪平了道路。本文計劃發(fā)布所有數(shù)據(jù)集和模型，以促進該領域的進一步研究。

參考文獻

[1] EditThinker: Unlocking Iterative Reasoning for Any Image Editor

原文標題 : 北航&美團等最新EditThinker：給AI修圖裝上“大腦”，F(xiàn)lux、OmniGen2瞬間智商暴漲！