訂閱
糾錯
加入自媒體

港中文&字節(jié)聯(lián)合推出DreamOmni3:解鎖“涂鴉+圖文”聯(lián)合輸入,重新定義多模態(tài)生成與編輯

作者:Bin Xia等

解讀:AI生成未來

DreamOmni3 的效果展示,具備基于涂鴉的編輯和生成功能

DreamOmni3 的效果展示,具備基于涂鴉的編輯和生成功能

亮點直擊

提出了兩項對統(tǒng)一生成與編輯模型極具實用價值的任務(wù):基于涂鴉的編輯和基于涂鴉的生成。它們可以與語言指令和圖像指令相結(jié)合,增強統(tǒng)一模型的創(chuàng)作可用性,并為有針對性的優(yōu)化和未來研究提供清晰的任務(wù)定義。

提出了一套流程,用于構(gòu)建一個高質(zhì)量、全面的基于涂鴉編輯與生成的數(shù)據(jù)集。

DreamOmni3,一個支持文本、圖像和涂鴉輸入并能夠處理復(fù)雜邏輯的框架。在保持編輯一致性的同時,能夠準(zhǔn)確理解涂鴉所表達(dá)的意圖。還設(shè)計了位置編碼和索引編碼方案,用于區(qū)分涂鴉與源圖像,從而確保與現(xiàn)有統(tǒng)一生成與編輯架構(gòu)的兼容性。

基于真實世界圖像數(shù)據(jù)構(gòu)建了 DreamOmni3 基準(zhǔn)。其在真實應(yīng)用場景中具有顯著的有效性。

總結(jié)速覽

解決的問題

文本指令的局限性:現(xiàn)有統(tǒng)一生成與編輯模型依賴文本指令,難以準(zhǔn)確描述用戶意圖的編輯位置、細(xì)節(jié)及空間關(guān)系。

交互靈活性不足:缺乏對用戶手繪草圖(如涂鴉、框選等)的理解能力,限制了在圖形界面中進(jìn)行直觀、精細(xì)創(chuàng)作的可能。

數(shù)據(jù)缺失:缺乏結(jié)合草圖、圖像與文本的多模態(tài)編輯與生成訓(xùn)練數(shù)據(jù)。

復(fù)雜編輯處理困難:傳統(tǒng)二值掩碼難以處理多草圖、多圖像與多指令結(jié)合的復(fù)雜編輯任務(wù)。

提出的方案

定義兩類新任務(wù)

草圖編輯:包括草圖+指令編輯、草圖+多模態(tài)指令編輯、圖像融合、涂鴉編輯。

草圖生成:包括草圖+指令生成、草圖+多模態(tài)指令生成、涂鴉生成。

構(gòu)建數(shù)據(jù)合成流水線:基于 DreamOmni2 數(shù)據(jù)集,通過提取可編輯區(qū)域并疊加手繪圖形(框、圓、涂鴉)或裁剪圖像,自動生成訓(xùn)練數(shù)據(jù)。

設(shè)計 DreamOmni3 框架

采用聯(lián)合輸入方案,同時輸入原始圖像與帶草圖的圖像,以顏色區(qū)分編輯區(qū)域,避免使用二值掩碼。

共享兩圖像的索引與位置編碼,確保草圖區(qū)域精準(zhǔn)定位與編輯一致性。

建立基準(zhǔn)測試:構(gòu)建涵蓋上述任務(wù)的綜合評測基準(zhǔn),推動相關(guān)研究。

應(yīng)用的技術(shù)

多模態(tài)數(shù)據(jù)合成:利用 Refseg 服務(wù)定位編輯對象,結(jié)合手繪標(biāo)注、圖像裁剪與草圖生成技術(shù)構(gòu)建數(shù)據(jù)集。

聯(lián)合編碼機制:對原始圖像與草圖圖像使用相同的索引和位置編碼,增強模型對草圖區(qū)域的感知與對齊能力。

統(tǒng)一架構(gòu)設(shè)計:兼容 RGB 圖像輸入,延續(xù) DreamOmni2 的位置偏移與索引編碼方案,支持多圖像輸入?yún)^(qū)分。

草圖理解與編輯:通過顏色區(qū)分的草圖輸入,實現(xiàn)多區(qū)域、多類型編輯意圖的聯(lián)合理解與生成。

達(dá)到的效果

提升交互靈活性:支持用戶通過草圖直觀指定編輯位置與內(nèi)容,降低創(chuàng)作門檻。

增強編輯精度:模型能準(zhǔn)確定位草圖區(qū)域,實現(xiàn)復(fù)雜多模態(tài)指令下的精細(xì)編輯與生成。

數(shù)據(jù)與模型開源:公開合成數(shù)據(jù)、模型與代碼,促進(jìn)相關(guān)領(lǐng)域研究。

實驗性能優(yōu)越:在構(gòu)建的基準(zhǔn)測試中,DreamOmni3 表現(xiàn)出色,驗證了框架的有效性與泛化能力。

方法

合成數(shù)據(jù)

基于涂鴉(Scribble-based)的編輯與生成面臨的最大挑戰(zhàn)在于數(shù)據(jù)的匱乏。本工作需要構(gòu)建一個包含語言、圖像和涂鴉作為指令的數(shù)據(jù)集,并開發(fā)出能夠結(jié)合這三種指令類型進(jìn)行復(fù)雜編輯的能力,從而實現(xiàn)更智能的編輯工具。研究發(fā)現(xiàn) DreamOmni2 有效地統(tǒng)一了語言和圖像指令,并引入了多模態(tài)指令編輯與生成任務(wù)及其相應(yīng)的訓(xùn)練數(shù)據(jù)。因此,本工作直接以 DreamOmni2 的多模態(tài)指令編輯與生成數(shù)據(jù)為基礎(chǔ),進(jìn)一步將其擴展為包含涂鴉作為指令的數(shù)據(jù)集。

基于涂鴉的編輯任務(wù):如下圖 2 (a) 所示,本工作將基于涂鴉的編輯細(xì)分為四個任務(wù):

基于涂鴉和多模態(tài)指令的編輯 (Scribble and multimodal instruction-based editing): 利用 Refseg 服務(wù)定位參考圖像和目標(biāo)圖像中的編輯對象。由于用戶繪制的形狀通常不完美,本工作手動創(chuàng)建了 30 種不同的方框和圓形作為涂鴉符號模板,通過隨機透視變換模擬人類的繪制習(xí)慣。

基于涂鴉和指令的編輯 (Scribble and instruction-based editing): 使用與步驟 (1) 相同的數(shù)據(jù),但移除了參考圖像。

圖像融合 (Image fusion): 從參考圖像中提取編輯對象,并將其粘貼到源圖像的相應(yīng)位置上。

涂鴉編輯 (Doodle editing): 從目標(biāo)圖像中裁剪出編輯對象,生成素描(sketches),并將其放回源圖像中。

基于涂鴉的生成任務(wù):如上圖 2 (b) 所示,本工作將基于涂鴉的生成細(xì)分為三個任務(wù):

基于涂鴉和多模態(tài)指令的生成 (Scribble and multimodal instruction-based generation): 使用 Refseg 定位圖像中的編輯對象,并在空白畫布上標(biāo)記圓圈或方框。

基于涂鴉和指令的生成 (Scribble and instruction-based generation): 移除步驟 (1) 數(shù)據(jù)中的參考圖像。

涂鴉生成 (Doodle generation): 方法與涂鴉編輯類似,將最終的素描放置在白色畫布上,讓模型根據(jù)素描和指令生成相應(yīng)的對象和背景。

數(shù)據(jù)集規(guī)模:本數(shù)據(jù)基于 DreamOmni2 的多參考圖像生成和編輯訓(xùn)練數(shù)據(jù)集創(chuàng)建。

基于涂鴉的編輯數(shù)據(jù)集: 包含約 32K 訓(xùn)練樣本的涂鴉多模態(tài)指令編輯數(shù)據(jù),約 14K 的涂鴉指令編輯數(shù)據(jù),16K 的圖像融合數(shù)據(jù),以及 8K 的涂鴉編輯數(shù)據(jù)。值得注意的是,前兩類涵蓋了廣泛的編輯類別(如設(shè)計風(fēng)格、配色方案、發(fā)型等抽象屬性,以及添加、刪除或修改各種物體、人物和動物)。后兩類主要側(cè)重于向圖像中添加具體對象。

基于涂鴉的生成數(shù)據(jù)集: 包含 29K 的涂鴉多模態(tài)指令生成樣本,10K 的涂鴉指令生成樣本,以及 8K 的涂鴉生成樣本。前兩類涉及具體對象生成及抽象屬性參考,而涂鴉生成主要專注于具體對象的生成。

框架與訓(xùn)練

目前的統(tǒng)一生成和編輯模型主要關(guān)注基于指令的編輯和主題驅(qū)動的生成。DreamOmni2 雖然將其擴展到了多參考圖像生成和編輯,但對于涂鴉(doodle)指令的輸入格式仍需探索。

在 DreamOmni3 中,本工作考慮了兩種輸入方案:一種是類似于修補(inpainting)的二進(jìn)制掩碼(binary masks),另一種是源圖像與帶有涂鴉的源圖像的聯(lián)合輸入。由于涂鴉不可避免地會改變源圖像的部分內(nèi)容,但編輯要求非編輯區(qū)域保持一致性,因此需要在輸入涂鴉信息的同時保留源圖像的細(xì)節(jié)。

相較于傳統(tǒng)的二進(jìn)制掩碼方法,本工作提出的源圖像與涂鴉修改后的源圖像聯(lián)合輸入方案具有兩個關(guān)鍵優(yōu)勢:

簡單高效: 聯(lián)合輸入更加簡潔。當(dāng)參考圖像或源圖像中存在多個涂鴉時,二進(jìn)制掩碼會變得非常棘手,因為每個涂鴉都需要一個單獨的掩碼,這顯著增加了計算負(fù)載。此外,使用二進(jìn)制掩碼很難通過語言將兩幅圖像中的涂鴉聯(lián)系起來。相比之下,聯(lián)合輸入允許在繪制時使用顏色進(jìn)行區(qū)分,簡單的語言指令即可利用圖像索引和涂鴉顏色建立對應(yīng)關(guān)系。

更好的模型集成: 現(xiàn)有的統(tǒng)一生成和編輯模型是基于 RGB 圖像訓(xùn)練的。聯(lián)合輸入方案在源圖像的原始 RGB 空間中使用掩碼,能夠更好地利用模型現(xiàn)有的圖像-文本理解能力,并與模型的原始能力無縫集成,從而創(chuàng)建一個更統(tǒng)一、更智能的創(chuàng)作工具。

框架設(shè)計:如前面圖 2 (c) 所示,本工作在 DreamOmni2 框架的基礎(chǔ)上進(jìn)行了針對涂鴉指令輸入的適配。聯(lián)合輸入方案是可選的:

當(dāng)編輯任務(wù)中的源圖像包含涂鴉時,將源圖像和帶有涂鴉的源圖像同時輸入到 MM-DIT 模型中。

如果參考圖像包含涂鴉,則不使用聯(lián)合輸入方案,因為參考圖像的非編輯區(qū)域無需保持像素級一致性,增加額外輸入會無謂地增加計算成本。

對于基于涂鴉的生成任務(wù),由于無需像素級保留,也不使用聯(lián)合輸入方案。

編碼策略:使用聯(lián)合輸入方案引入了兩個挑戰(zhàn):(1) 增加了一張額外的圖像,會影響后續(xù)輸入圖像的索引;(2) 模型必須正確映射源圖像與涂鴉修改后的源圖像之間的像素關(guān)系。 為了解決這些問題,本工作對源圖像和帶有涂鴉的源圖像使用相同的索引編碼(index encoding)和位置編碼(position encoding)。實驗表明,這種編碼方式有效地解決了上述問題,將涂鴉編輯能力無縫集成到了現(xiàn)有的統(tǒng)一框架中。

訓(xùn)練細(xì)節(jié):訓(xùn)練過程中,使用了 DreamOmni2 的 VLM (Qwen2.5-VL 7B) 和 FLUX Kontext 的聯(lián)合訓(xùn)練方案。采用 Rank 為 256 的 LoRA 進(jìn)行訓(xùn)練。通過利用 LoRA,保留了 Kontext 原始的指令編輯能力。由于 DreamOmni2 中的多參考生成和編輯能力是分別通過兩個 LoRA 訓(xùn)練的,為了確保兼容性,本工作的生成和編輯模型也分別使用了獨立的 LoRA 進(jìn)行訓(xùn)練。整個訓(xùn)練過程大約耗時 400 個 A100 小時。

基準(zhǔn)與評估

本工作提出了整合語言、圖像和涂鴉指令的基于涂鴉的編輯與生成任務(wù)。為了促進(jìn)該方向的發(fā)展,建立了 DreamOmni3 基準(zhǔn)測試(Benchmark)。該基準(zhǔn)測試由真實圖像組成,以準(zhǔn)確評估模型在現(xiàn)實場景中的性能。測試案例涵蓋了本工作提出的四種編輯任務(wù)和三種生成任務(wù),編輯類別多樣,包含抽象屬性編輯和具體對象編輯。

由于傳統(tǒng)的指標(biāo)(如 DINO 和 CLIP)不足以評估這些復(fù)雜任務(wù),本工作采用了基于 VLM 的評估標(biāo)準(zhǔn),重點關(guān)注四個方面:

生成編輯中遵循指令的準(zhǔn)確性。

人物外觀、物體和抽象屬性的一致性。

避免嚴(yán)重的視覺偽影。

生成或編輯的內(nèi)容與指定涂鴉區(qū)域的對齊程度。

只有滿足所有這些標(biāo)準(zhǔn),任務(wù)才被視為成功。通過將 VLM 評估與人工評估進(jìn)行對比,結(jié)果顯示兩者具有高度一致性。

實驗

本節(jié)通過定量和定性實驗驗證了 DreamOmni3 在基于涂鴉的編輯和生成任務(wù)上的性能。

基于涂鴉的編輯評估

對比模型: 比較了 Omnigen2、Qwen-image-Edit-2509、DreamOmni2、Kontext 等開源模型,以及 GPT-4o 和 Nano Banana 等閉源商業(yè)模型。

定量結(jié)果: 如下表 1 所示,通過 Gemini 2.5、Doubao 1.6 和人工評估計算成功率。DreamOmni3 在人工評估中取得了最佳結(jié)果(0.5750),超過了 GPT-4o(0.5875,但在人工評估中略低)和 Nano Banana。相比之下,其他開源模型表現(xiàn)較差。

定性結(jié)果: 如下圖 3 所示,DreamOmni3 展示了更準(zhǔn)確的編輯結(jié)果和更好的一致性。GPT-4o 常出現(xiàn)圖像泛黃和非編輯區(qū)域像素不匹配的問題,而 Nano Banana 則存在明顯的復(fù)制粘貼痕跡和比例錯誤。

基于涂鴉的生成評估

定量結(jié)果: 如下表 2 所示,DreamOmni3 在人工評估(0.5349)和模型評估中均優(yōu)于 Nano Banana,并與 GPT-4o 性能相當(dāng),F(xiàn)有模型(包括 GPT-4o)常無法在生成結(jié)果中去除涂鴉痕跡,且未針對此類任務(wù)優(yōu)化。

定性結(jié)果: 如下圖 4 所示,開源模型常在輸出中保留涂鴉,DreamOmni3 則能生成自然且符合指令的圖像。

消融實驗

聯(lián)合輸入 (Joint Input): 如下表 3 所示,對比了四種方案。結(jié)果表明,使用本工作的數(shù)據(jù)集訓(xùn)練并結(jié)合聯(lián)合輸入(Scheme 4)對編輯任務(wù)提升顯著,因為涂鴉會遮擋源圖像信息,聯(lián)合輸入確保了像素級一致性。

索引與位置編碼 (Index and Position Encoding): 如下表 4 所示,對源圖像和涂鴉圖像使用相同的索引和位置編碼效果最佳。這有助于像素級對齊,并保持與后續(xù)參考圖像的索引一致性。

總結(jié)

當(dāng)前的統(tǒng)一生成和編輯模型主要基于文本指令執(zhí)行圖像編輯。然而,語言往往難以準(zhǔn)確描述編輯位置并捕捉用戶意圖中的所有細(xì)節(jié)。為了增強這一能力,本工作提出了兩個任務(wù):基于涂鴉的編輯和生成 (scribble-based editing and generation) ,允許用戶在圖形用戶界面(GUI)中簡單地使用畫筆進(jìn)行編輯。這種方法能夠結(jié)合語言、圖像和涂鴉指令,提供了更高的靈活性。

在此基礎(chǔ)上介紹了 DreamOmni3,解決了訓(xùn)練數(shù)據(jù)有限的挑戰(zhàn)。利用 DreamOmni2 數(shù)據(jù),本工作開發(fā)了一套基于 Referseg 的數(shù)據(jù)創(chuàng)建方案,生成了集成了涂鴉、文本和圖像指令的高質(zhì)量、精確數(shù)據(jù)集。

此外,本工作還解決了模型框架的問題,因為二進(jìn)制掩碼(binary masks)無法滿足復(fù)雜的現(xiàn)實需求。當(dāng)存在多個掩碼時,它們很難區(qū)分且難以用語言描述。為了解決這個問題,本工作提出了一種基于涂鴉的方法,通過畫筆顏色輕松區(qū)分不同的掩碼,從而能夠處理任意數(shù)量的掩碼。由于涂鴉可能會遮擋部分圖像細(xì)節(jié),本工作引入了聯(lián)合輸入方案 (joint input scheme),將原始圖像和帶有涂鴉的圖像同時輸入模型。本工作進(jìn)一步優(yōu)化了該方案,通過使用相同的索引和位置編碼來保留細(xì)節(jié),同時保持準(zhǔn)確的編輯能力。

參考文獻(xiàn)

[1] DreamOmni3: Scribble-based Editing and Generation

       原文標(biāo)題 : 港中文&字節(jié)聯(lián)合推出DreamOmni3:解鎖“涂鴉+圖文”聯(lián)合輸入,重新定義多模態(tài)生成與編輯

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號