123,123,123

港中文&字節(jié)聯(lián)合推出DreamOmni3:解鎖“涂鴉+圖文”聯(lián)合輸入，重新定義多模態(tài)生成與編輯

2026-01-05 14:47

作者：Bin Xia等

解讀：AI生成未來

DreamOmni3 的效果展示，具備基于涂鴉的編輯和生成功能

亮點直擊

提出了兩項對統(tǒng)一生成與編輯模型極具實用價值的任務(wù)：基于涂鴉的編輯和基于涂鴉的生成。它們可以與語言指令和圖像指令相結(jié)合，增強統(tǒng)一模型的創(chuàng)作可用性，并為有針對性的優(yōu)化和未來研究提供清晰的任務(wù)定義。

提出了一套流程，用于構(gòu)建一個高質(zhì)量、全面的基于涂鴉編輯與生成的數(shù)據(jù)集。

DreamOmni3，一個支持文本、圖像和涂鴉輸入并能夠處理復(fù)雜邏輯的框架。在保持編輯一致性的同時，能夠準(zhǔn)確理解涂鴉所表達(dá)的意圖。還設(shè)計了位置編碼和索引編碼方案，用于區(qū)分涂鴉與源圖像，從而確保與現(xiàn)有統(tǒng)一生成與編輯架構(gòu)的兼容性。

基于真實世界圖像數(shù)據(jù)構(gòu)建了 DreamOmni3 基準(zhǔn)。其在真實應(yīng)用場景中具有顯著的有效性。

總結(jié)速覽

解決的問題

文本指令的局限性：現(xiàn)有統(tǒng)一生成與編輯模型依賴文本指令，難以準(zhǔn)確描述用戶意圖的編輯位置、細(xì)節(jié)及空間關(guān)系。

交互靈活性不足：缺乏對用戶手繪草圖（如涂鴉、框選等）的理解能力，限制了在圖形界面中進(jìn)行直觀、精細(xì)創(chuàng)作的可能。

數(shù)據(jù)缺失：缺乏結(jié)合草圖、圖像與文本的多模態(tài)編輯與生成訓(xùn)練數(shù)據(jù)。

復(fù)雜編輯處理困難：傳統(tǒng)二值掩碼難以處理多草圖、多圖像與多指令結(jié)合的復(fù)雜編輯任務(wù)。

提出的方案

定義兩類新任務(wù)：

草圖編輯：包括草圖+指令編輯、草圖+多模態(tài)指令編輯、圖像融合、涂鴉編輯。

草圖生成：包括草圖+指令生成、草圖+多模態(tài)指令生成、涂鴉生成。

構(gòu)建數(shù)據(jù)合成流水線：基于 DreamOmni2 數(shù)據(jù)集，通過提取可編輯區(qū)域并疊加手繪圖形（框、圓、涂鴉）或裁剪圖像，自動生成訓(xùn)練數(shù)據(jù)。

設(shè)計 DreamOmni3 框架：

采用聯(lián)合輸入方案，同時輸入原始圖像與帶草圖的圖像，以顏色區(qū)分編輯區(qū)域，避免使用二值掩碼。

共享兩圖像的索引與位置編碼，確保草圖區(qū)域精準(zhǔn)定位與編輯一致性。

建立基準(zhǔn)測試：構(gòu)建涵蓋上述任務(wù)的綜合評測基準(zhǔn)，推動相關(guān)研究。

應(yīng)用的技術(shù)

多模態(tài)數(shù)據(jù)合成：利用 Refseg 服務(wù)定位編輯對象，結(jié)合手繪標(biāo)注、圖像裁剪與草圖生成技術(shù)構(gòu)建數(shù)據(jù)集。

聯(lián)合編碼機制：對原始圖像與草圖圖像使用相同的索引和位置編碼，增強模型對草圖區(qū)域的感知與對齊能力。

統(tǒng)一架構(gòu)設(shè)計：兼容 RGB 圖像輸入，延續(xù) DreamOmni2 的位置偏移與索引編碼方案，支持多圖像輸入?yún)^(qū)分。

草圖理解與編輯：通過顏色區(qū)分的草圖輸入，實現(xiàn)多區(qū)域、多類型編輯意圖的聯(lián)合理解與生成。

達(dá)到的效果

提升交互靈活性：支持用戶通過草圖直觀指定編輯位置與內(nèi)容，降低創(chuàng)作門檻。

增強編輯精度：模型能準(zhǔn)確定位草圖區(qū)域，實現(xiàn)復(fù)雜多模態(tài)指令下的精細(xì)編輯與生成。

數(shù)據(jù)與模型開源：公開合成數(shù)據(jù)、模型與代碼，促進(jìn)相關(guān)領(lǐng)域研究。

實驗性能優(yōu)越：在構(gòu)建的基準(zhǔn)測試中，DreamOmni3 表現(xiàn)出色，驗證了框架的有效性與泛化能力。

方法

合成數(shù)據(jù)

基于涂鴉（Scribble-based）的編輯與生成面臨的最大挑戰(zhàn)在于數(shù)據(jù)的匱乏。本工作需要構(gòu)建一個包含語言、圖像和涂鴉作為指令的數(shù)據(jù)集，并開發(fā)出能夠結(jié)合這三種指令類型進(jìn)行復(fù)雜編輯的能力，從而實現(xiàn)更智能的編輯工具。研究發(fā)現(xiàn) DreamOmni2 有效地統(tǒng)一了語言和圖像指令，并引入了多模態(tài)指令編輯與生成任務(wù)及其相應(yīng)的訓(xùn)練數(shù)據(jù)。因此，本工作直接以 DreamOmni2 的多模態(tài)指令編輯與生成數(shù)據(jù)為基礎(chǔ)，進(jìn)一步將其擴展為包含涂鴉作為指令的數(shù)據(jù)集。

基于涂鴉的編輯任務(wù)：如下圖 2 (a) 所示，本工作將基于涂鴉的編輯細(xì)分為四個任務(wù)：

基于涂鴉和多模態(tài)指令的編輯 (Scribble and multimodal instruction-based editing)： 利用 Refseg 服務(wù)定位參考圖像和目標(biāo)圖像中的編輯對象。由于用戶繪制的形狀通常不完美，本工作手動創(chuàng)建了 30 種不同的方框和圓形作為涂鴉符號模板，通過隨機透視變換模擬人類的繪制習(xí)慣。

基于涂鴉和指令的編輯 (Scribble and instruction-based editing)： 使用與步驟 (1) 相同的數(shù)據(jù)，但移除了參考圖像。

圖像融合 (Image fusion)： 從參考圖像中提取編輯對象，并將其粘貼到源圖像的相應(yīng)位置上。

涂鴉編輯 (Doodle editing)： 從目標(biāo)圖像中裁剪出編輯對象，生成素描（sketches），并將其放回源圖像中。

基于涂鴉的生成任務(wù)：如上圖 2 (b) 所示，本工作將基于涂鴉的生成細(xì)分為三個任務(wù)：

基于涂鴉和多模態(tài)指令的生成 (Scribble and multimodal instruction-based generation)： 使用 Refseg 定位圖像中的編輯對象，并在空白畫布上標(biāo)記圓圈或方框。

基于涂鴉和指令的生成 (Scribble and instruction-based generation)： 移除步驟 (1) 數(shù)據(jù)中的參考圖像。

涂鴉生成 (Doodle generation)： 方法與涂鴉編輯類似，將最終的素描放置在白色畫布上，讓模型根據(jù)素描和指令生成相應(yīng)的對象和背景。

數(shù)據(jù)集規(guī)模：本數(shù)據(jù)基于 DreamOmni2 的多參考圖像生成和編輯訓(xùn)練數(shù)據(jù)集創(chuàng)建。

基于涂鴉的編輯數(shù)據(jù)集： 包含約 32K 訓(xùn)練樣本的涂鴉多模態(tài)指令編輯數(shù)據(jù)，約 14K 的涂鴉指令編輯數(shù)據(jù)，16K 的圖像融合數(shù)據(jù)，以及 8K 的涂鴉編輯數(shù)據(jù)。值得注意的是，前兩類涵蓋了廣泛的編輯類別（如設(shè)計風(fēng)格、配色方案、發(fā)型等抽象屬性，以及添加、刪除或修改各種物體、人物和動物）。后兩類主要側(cè)重于向圖像中添加具體對象。

基于涂鴉的生成數(shù)據(jù)集： 包含 29K 的涂鴉多模態(tài)指令生成樣本，10K 的涂鴉指令生成樣本，以及 8K 的涂鴉生成樣本。前兩類涉及具體對象生成及抽象屬性參考，而涂鴉生成主要專注于具體對象的生成。

框架與訓(xùn)練

目前的統(tǒng)一生成和編輯模型主要關(guān)注基于指令的編輯和主題驅(qū)動的生成。DreamOmni2 雖然將其擴展到了多參考圖像生成和編輯，但對于涂鴉（doodle）指令的輸入格式仍需探索。

在 DreamOmni3 中，本工作考慮了兩種輸入方案：一種是類似于修補（inpainting）的二進(jìn)制掩碼（binary masks），另一種是源圖像與帶有涂鴉的源圖像的聯(lián)合輸入。由于涂鴉不可避免地會改變源圖像的部分內(nèi)容，但編輯要求非編輯區(qū)域保持一致性，因此需要在輸入涂鴉信息的同時保留源圖像的細(xì)節(jié)。

相較于傳統(tǒng)的二進(jìn)制掩碼方法，本工作提出的源圖像與涂鴉修改后的源圖像聯(lián)合輸入方案具有兩個關(guān)鍵優(yōu)勢：

簡單高效： 聯(lián)合輸入更加簡潔。當(dāng)參考圖像或源圖像中存在多個涂鴉時，二進(jìn)制掩碼會變得非常棘手，因為每個涂鴉都需要一個單獨的掩碼，這顯著增加了計算負(fù)載。此外，使用二進(jìn)制掩碼很難通過語言將兩幅圖像中的涂鴉聯(lián)系起來。相比之下，聯(lián)合輸入允許在繪制時使用顏色進(jìn)行區(qū)分，簡單的語言指令即可利用圖像索引和涂鴉顏色建立對應(yīng)關(guān)系。

更好的模型集成： 現(xiàn)有的統(tǒng)一生成和編輯模型是基于 RGB 圖像訓(xùn)練的。聯(lián)合輸入方案在源圖像的原始 RGB 空間中使用掩碼，能夠更好地利用模型現(xiàn)有的圖像-文本理解能力，并與模型的原始能力無縫集成，從而創(chuàng)建一個更統(tǒng)一、更智能的創(chuàng)作工具。

框架設(shè)計：如前面圖 2 (c) 所示，本工作在 DreamOmni2 框架的基礎(chǔ)上進(jìn)行了針對涂鴉指令輸入的適配。聯(lián)合輸入方案是可選的：

當(dāng)編輯任務(wù)中的源圖像包含涂鴉時，將源圖像和帶有涂鴉的源圖像同時輸入到 MM-DIT 模型中。

如果參考圖像包含涂鴉，則不使用聯(lián)合輸入方案，因為參考圖像的非編輯區(qū)域無需保持像素級一致性，增加額外輸入會無謂地增加計算成本。

對于基于涂鴉的生成任務(wù)，由于無需像素級保留，也不使用聯(lián)合輸入方案。

編碼策略：使用聯(lián)合輸入方案引入了兩個挑戰(zhàn)：(1) 增加了一張額外的圖像，會影響后續(xù)輸入圖像的索引；(2) 模型必須正確映射源圖像與涂鴉修改后的源圖像之間的像素關(guān)系。為了解決這些問題，本工作對源圖像和帶有涂鴉的源圖像使用相同的索引編碼（index encoding）和位置編碼（position encoding）。實驗表明，這種編碼方式有效地解決了上述問題，將涂鴉編輯能力無縫集成到了現(xiàn)有的統(tǒng)一框架中。

訓(xùn)練細(xì)節(jié)：訓(xùn)練過程中，使用了 DreamOmni2 的 VLM (Qwen2.5-VL 7B) 和 FLUX Kontext 的聯(lián)合訓(xùn)練方案。采用 Rank 為 256 的 LoRA 進(jìn)行訓(xùn)練。通過利用 LoRA，保留了 Kontext 原始的指令編輯能力。由于 DreamOmni2 中的多參考生成和編輯能力是分別通過兩個 LoRA 訓(xùn)練的，為了確保兼容性，本工作的生成和編輯模型也分別使用了獨立的 LoRA 進(jìn)行訓(xùn)練。整個訓(xùn)練過程大約耗時 400 個 A100 小時。

基準(zhǔn)與評估

本工作提出了整合語言、圖像和涂鴉指令的基于涂鴉的編輯與生成任務(wù)。為了促進(jìn)該方向的發(fā)展，建立了 DreamOmni3 基準(zhǔn)測試（Benchmark）。該基準(zhǔn)測試由真實圖像組成，以準(zhǔn)確評估模型在現(xiàn)實場景中的性能。測試案例涵蓋了本工作提出的四種編輯任務(wù)和三種生成任務(wù)，編輯類別多樣，包含抽象屬性編輯和具體對象編輯。

由于傳統(tǒng)的指標(biāo)（如 DINO 和 CLIP）不足以評估這些復(fù)雜任務(wù)，本工作采用了基于 VLM 的評估標(biāo)準(zhǔn)，重點關(guān)注四個方面：

生成編輯中遵循指令的準(zhǔn)確性。

人物外觀、物體和抽象屬性的一致性。

避免嚴(yán)重的視覺偽影。

生成或編輯的內(nèi)容與指定涂鴉區(qū)域的對齊程度。

只有滿足所有這些標(biāo)準(zhǔn)，任務(wù)才被視為成功。通過將 VLM 評估與人工評估進(jìn)行對比，結(jié)果顯示兩者具有高度一致性。

實驗

本節(jié)通過定量和定性實驗驗證了 DreamOmni3 在基于涂鴉的編輯和生成任務(wù)上的性能。

基于涂鴉的編輯評估

對比模型： 比較了 Omnigen2、Qwen-image-Edit-2509、DreamOmni2、Kontext 等開源模型，以及 GPT-4o 和 Nano Banana 等閉源商業(yè)模型。

定量結(jié)果： 如下表 1 所示，通過 Gemini 2.5、Doubao 1.6 和人工評估計算成功率。DreamOmni3 在人工評估中取得了最佳結(jié)果（0.5750），超過了 GPT-4o（0.5875，但在人工評估中略低）和 Nano Banana。相比之下，其他開源模型表現(xiàn)較差。

定性結(jié)果： 如下圖 3 所示，DreamOmni3 展示了更準(zhǔn)確的編輯結(jié)果和更好的一致性。GPT-4o 常出現(xiàn)圖像泛黃和非編輯區(qū)域像素不匹配的問題，而 Nano Banana 則存在明顯的復(fù)制粘貼痕跡和比例錯誤。

基于涂鴉的生成評估

定量結(jié)果： 如下表 2 所示，DreamOmni3 在人工評估（0.5349）和模型評估中均優(yōu)于 Nano Banana，并與 GPT-4o 性能相當(dāng)�，F(xiàn)有模型（包括 GPT-4o）常無法在生成結(jié)果中去除涂鴉痕跡，且未針對此類任務(wù)優(yōu)化。

定性結(jié)果： 如下圖 4 所示，開源模型常在輸出中保留涂鴉，DreamOmni3 則能生成自然且符合指令的圖像。

消融實驗

聯(lián)合輸入 (Joint Input)： 如下表 3 所示，對比了四種方案。結(jié)果表明，使用本工作的數(shù)據(jù)集訓(xùn)練并結(jié)合聯(lián)合輸入（Scheme 4）對編輯任務(wù)提升顯著，因為涂鴉會遮擋源圖像信息，聯(lián)合輸入確保了像素級一致性。

索引與位置編碼 (Index and Position Encoding)： 如下表 4 所示，對源圖像和涂鴉圖像使用相同的索引和位置編碼效果最佳。這有助于像素級對齊，并保持與后續(xù)參考圖像的索引一致性。

總結(jié)

當(dāng)前的統(tǒng)一生成和編輯模型主要基于文本指令執(zhí)行圖像編輯。然而，語言往往難以準(zhǔn)確描述編輯位置并捕捉用戶意圖中的所有細(xì)節(jié)。為了增強這一能力，本工作提出了兩個任務(wù)：基于涂鴉的編輯和生成 (scribble-based editing and generation) ，允許用戶在圖形用戶界面（GUI）中簡單地使用畫筆進(jìn)行編輯。這種方法能夠結(jié)合語言、圖像和涂鴉指令，提供了更高的靈活性。

在此基礎(chǔ)上介紹了 DreamOmni3，解決了訓(xùn)練數(shù)據(jù)有限的挑戰(zhàn)。利用 DreamOmni2 數(shù)據(jù)，本工作開發(fā)了一套基于 Referseg 的數(shù)據(jù)創(chuàng)建方案，生成了集成了涂鴉、文本和圖像指令的高質(zhì)量、精確數(shù)據(jù)集。

此外，本工作還解決了模型框架的問題，因為二進(jìn)制掩碼（binary masks）無法滿足復(fù)雜的現(xiàn)實需求。當(dāng)存在多個掩碼時，它們很難區(qū)分且難以用語言描述。為了解決這個問題，本工作提出了一種基于涂鴉的方法，通過畫筆顏色輕松區(qū)分不同的掩碼，從而能夠處理任意數(shù)量的掩碼。由于涂鴉可能會遮擋部分圖像細(xì)節(jié)，本工作引入了聯(lián)合輸入方案 (joint input scheme)，將原始圖像和帶有涂鴉的圖像同時輸入模型。本工作進(jìn)一步優(yōu)化了該方案，通過使用相同的索引和位置編碼來保留細(xì)節(jié)，同時保持準(zhǔn)確的編輯能力。

參考文獻(xiàn)

[1] DreamOmni3: Scribble-based Editing and Generation

原文標(biāo)題 : 港中文&字節(jié)聯(lián)合推出DreamOmni3:解鎖“涂鴉+圖文”聯(lián)合輸入，重新定義多模態(tài)生成與編輯