訂閱
糾錯(cuò)
加入自媒體

港中文&字節(jié)聯(lián)合推出DreamOmni3:解鎖“涂鴉+圖文”聯(lián)合輸入,重新定義多模態(tài)生成與編輯

作者:Bin Xia等

解讀:AI生成未來

DreamOmni3 的效果展示,具備基于涂鴉的編輯和生成功能

DreamOmni3 的效果展示,具備基于涂鴉的編輯和生成功能

亮點(diǎn)直擊

提出了兩項(xiàng)對(duì)統(tǒng)一生成與編輯模型極具實(shí)用價(jià)值的任務(wù):基于涂鴉的編輯和基于涂鴉的生成。它們可以與語言指令和圖像指令相結(jié)合,增強(qiáng)統(tǒng)一模型的創(chuàng)作可用性,并為有針對(duì)性的優(yōu)化和未來研究提供清晰的任務(wù)定義。

提出了一套流程,用于構(gòu)建一個(gè)高質(zhì)量、全面的基于涂鴉編輯與生成的數(shù)據(jù)集。

DreamOmni3,一個(gè)支持文本、圖像和涂鴉輸入并能夠處理復(fù)雜邏輯的框架。在保持編輯一致性的同時(shí),能夠準(zhǔn)確理解涂鴉所表達(dá)的意圖。還設(shè)計(jì)了位置編碼和索引編碼方案,用于區(qū)分涂鴉與源圖像,從而確保與現(xiàn)有統(tǒng)一生成與編輯架構(gòu)的兼容性。

基于真實(shí)世界圖像數(shù)據(jù)構(gòu)建了 DreamOmni3 基準(zhǔn)。其在真實(shí)應(yīng)用場景中具有顯著的有效性。

總結(jié)速覽

解決的問題

文本指令的局限性:現(xiàn)有統(tǒng)一生成與編輯模型依賴文本指令,難以準(zhǔn)確描述用戶意圖的編輯位置、細(xì)節(jié)及空間關(guān)系。

交互靈活性不足:缺乏對(duì)用戶手繪草圖(如涂鴉、框選等)的理解能力,限制了在圖形界面中進(jìn)行直觀、精細(xì)創(chuàng)作的可能。

數(shù)據(jù)缺失:缺乏結(jié)合草圖、圖像與文本的多模態(tài)編輯與生成訓(xùn)練數(shù)據(jù)。

復(fù)雜編輯處理困難:傳統(tǒng)二值掩碼難以處理多草圖、多圖像與多指令結(jié)合的復(fù)雜編輯任務(wù)。

提出的方案

定義兩類新任務(wù)

草圖編輯:包括草圖+指令編輯、草圖+多模態(tài)指令編輯、圖像融合、涂鴉編輯。

草圖生成:包括草圖+指令生成、草圖+多模態(tài)指令生成、涂鴉生成。

構(gòu)建數(shù)據(jù)合成流水線:基于 DreamOmni2 數(shù)據(jù)集,通過提取可編輯區(qū)域并疊加手繪圖形(框、圓、涂鴉)或裁剪圖像,自動(dòng)生成訓(xùn)練數(shù)據(jù)。

設(shè)計(jì) DreamOmni3 框架

采用聯(lián)合輸入方案,同時(shí)輸入原始圖像與帶草圖的圖像,以顏色區(qū)分編輯區(qū)域,避免使用二值掩碼。

共享兩圖像的索引與位置編碼,確保草圖區(qū)域精準(zhǔn)定位與編輯一致性。

建立基準(zhǔn)測(cè)試:構(gòu)建涵蓋上述任務(wù)的綜合評(píng)測(cè)基準(zhǔn),推動(dòng)相關(guān)研究。

應(yīng)用的技術(shù)

多模態(tài)數(shù)據(jù)合成:利用 Refseg 服務(wù)定位編輯對(duì)象,結(jié)合手繪標(biāo)注、圖像裁剪與草圖生成技術(shù)構(gòu)建數(shù)據(jù)集。

聯(lián)合編碼機(jī)制:對(duì)原始圖像與草圖圖像使用相同的索引和位置編碼,增強(qiáng)模型對(duì)草圖區(qū)域的感知與對(duì)齊能力。

統(tǒng)一架構(gòu)設(shè)計(jì):兼容 RGB 圖像輸入,延續(xù) DreamOmni2 的位置偏移與索引編碼方案,支持多圖像輸入?yún)^(qū)分。

草圖理解與編輯:通過顏色區(qū)分的草圖輸入,實(shí)現(xiàn)多區(qū)域、多類型編輯意圖的聯(lián)合理解與生成。

達(dá)到的效果

提升交互靈活性:支持用戶通過草圖直觀指定編輯位置與內(nèi)容,降低創(chuàng)作門檻。

增強(qiáng)編輯精度:模型能準(zhǔn)確定位草圖區(qū)域,實(shí)現(xiàn)復(fù)雜多模態(tài)指令下的精細(xì)編輯與生成。

數(shù)據(jù)與模型開源:公開合成數(shù)據(jù)、模型與代碼,促進(jìn)相關(guān)領(lǐng)域研究。

實(shí)驗(yàn)性能優(yōu)越:在構(gòu)建的基準(zhǔn)測(cè)試中,DreamOmni3 表現(xiàn)出色,驗(yàn)證了框架的有效性與泛化能力。

方法

合成數(shù)據(jù)

基于涂鴉(Scribble-based)的編輯與生成面臨的最大挑戰(zhàn)在于數(shù)據(jù)的匱乏。本工作需要構(gòu)建一個(gè)包含語言、圖像和涂鴉作為指令的數(shù)據(jù)集,并開發(fā)出能夠結(jié)合這三種指令類型進(jìn)行復(fù)雜編輯的能力,從而實(shí)現(xiàn)更智能的編輯工具。研究發(fā)現(xiàn) DreamOmni2 有效地統(tǒng)一了語言和圖像指令,并引入了多模態(tài)指令編輯與生成任務(wù)及其相應(yīng)的訓(xùn)練數(shù)據(jù)。因此,本工作直接以 DreamOmni2 的多模態(tài)指令編輯與生成數(shù)據(jù)為基礎(chǔ),進(jìn)一步將其擴(kuò)展為包含涂鴉作為指令的數(shù)據(jù)集。

基于涂鴉的編輯任務(wù):如下圖 2 (a) 所示,本工作將基于涂鴉的編輯細(xì)分為四個(gè)任務(wù):

基于涂鴉和多模態(tài)指令的編輯 (Scribble and multimodal instruction-based editing): 利用 Refseg 服務(wù)定位參考圖像和目標(biāo)圖像中的編輯對(duì)象。由于用戶繪制的形狀通常不完美,本工作手動(dòng)創(chuàng)建了 30 種不同的方框和圓形作為涂鴉符號(hào)模板,通過隨機(jī)透視變換模擬人類的繪制習(xí)慣。

基于涂鴉和指令的編輯 (Scribble and instruction-based editing): 使用與步驟 (1) 相同的數(shù)據(jù),但移除了參考圖像。

圖像融合 (Image fusion): 從參考圖像中提取編輯對(duì)象,并將其粘貼到源圖像的相應(yīng)位置上。

涂鴉編輯 (Doodle editing): 從目標(biāo)圖像中裁剪出編輯對(duì)象,生成素描(sketches),并將其放回源圖像中。

基于涂鴉的生成任務(wù):如上圖 2 (b) 所示,本工作將基于涂鴉的生成細(xì)分為三個(gè)任務(wù):

基于涂鴉和多模態(tài)指令的生成 (Scribble and multimodal instruction-based generation): 使用 Refseg 定位圖像中的編輯對(duì)象,并在空白畫布上標(biāo)記圓圈或方框。

基于涂鴉和指令的生成 (Scribble and instruction-based generation): 移除步驟 (1) 數(shù)據(jù)中的參考圖像。

涂鴉生成 (Doodle generation): 方法與涂鴉編輯類似,將最終的素描放置在白色畫布上,讓模型根據(jù)素描和指令生成相應(yīng)的對(duì)象和背景。

數(shù)據(jù)集規(guī)模:本數(shù)據(jù)基于 DreamOmni2 的多參考圖像生成和編輯訓(xùn)練數(shù)據(jù)集創(chuàng)建。

基于涂鴉的編輯數(shù)據(jù)集: 包含約 32K 訓(xùn)練樣本的涂鴉多模態(tài)指令編輯數(shù)據(jù),約 14K 的涂鴉指令編輯數(shù)據(jù),16K 的圖像融合數(shù)據(jù),以及 8K 的涂鴉編輯數(shù)據(jù)。值得注意的是,前兩類涵蓋了廣泛的編輯類別(如設(shè)計(jì)風(fēng)格、配色方案、發(fā)型等抽象屬性,以及添加、刪除或修改各種物體、人物和動(dòng)物)。后兩類主要側(cè)重于向圖像中添加具體對(duì)象。

基于涂鴉的生成數(shù)據(jù)集: 包含 29K 的涂鴉多模態(tài)指令生成樣本,10K 的涂鴉指令生成樣本,以及 8K 的涂鴉生成樣本。前兩類涉及具體對(duì)象生成及抽象屬性參考,而涂鴉生成主要專注于具體對(duì)象的生成。

框架與訓(xùn)練

目前的統(tǒng)一生成和編輯模型主要關(guān)注基于指令的編輯和主題驅(qū)動(dòng)的生成。DreamOmni2 雖然將其擴(kuò)展到了多參考圖像生成和編輯,但對(duì)于涂鴉(doodle)指令的輸入格式仍需探索。

在 DreamOmni3 中,本工作考慮了兩種輸入方案:一種是類似于修補(bǔ)(inpainting)的二進(jìn)制掩碼(binary masks),另一種是源圖像與帶有涂鴉的源圖像的聯(lián)合輸入。由于涂鴉不可避免地會(huì)改變?cè)磮D像的部分內(nèi)容,但編輯要求非編輯區(qū)域保持一致性,因此需要在輸入涂鴉信息的同時(shí)保留源圖像的細(xì)節(jié)。

相較于傳統(tǒng)的二進(jìn)制掩碼方法,本工作提出的源圖像與涂鴉修改后的源圖像聯(lián)合輸入方案具有兩個(gè)關(guān)鍵優(yōu)勢(shì):

簡單高效: 聯(lián)合輸入更加簡潔。當(dāng)參考圖像或源圖像中存在多個(gè)涂鴉時(shí),二進(jìn)制掩碼會(huì)變得非常棘手,因?yàn)槊總(gè)涂鴉都需要一個(gè)單獨(dú)的掩碼,這顯著增加了計(jì)算負(fù)載。此外,使用二進(jìn)制掩碼很難通過語言將兩幅圖像中的涂鴉聯(lián)系起來。相比之下,聯(lián)合輸入允許在繪制時(shí)使用顏色進(jìn)行區(qū)分,簡單的語言指令即可利用圖像索引和涂鴉顏色建立對(duì)應(yīng)關(guān)系。

更好的模型集成: 現(xiàn)有的統(tǒng)一生成和編輯模型是基于 RGB 圖像訓(xùn)練的。聯(lián)合輸入方案在源圖像的原始 RGB 空間中使用掩碼,能夠更好地利用模型現(xiàn)有的圖像-文本理解能力,并與模型的原始能力無縫集成,從而創(chuàng)建一個(gè)更統(tǒng)一、更智能的創(chuàng)作工具。

框架設(shè)計(jì):如前面圖 2 (c) 所示,本工作在 DreamOmni2 框架的基礎(chǔ)上進(jìn)行了針對(duì)涂鴉指令輸入的適配。聯(lián)合輸入方案是可選的:

當(dāng)編輯任務(wù)中的源圖像包含涂鴉時(shí),將源圖像和帶有涂鴉的源圖像同時(shí)輸入到 MM-DIT 模型中。

如果參考圖像包含涂鴉,則不使用聯(lián)合輸入方案,因?yàn)閰⒖紙D像的非編輯區(qū)域無需保持像素級(jí)一致性,增加額外輸入會(huì)無謂地增加計(jì)算成本。

對(duì)于基于涂鴉的生成任務(wù),由于無需像素級(jí)保留,也不使用聯(lián)合輸入方案。

編碼策略:使用聯(lián)合輸入方案引入了兩個(gè)挑戰(zhàn):(1) 增加了一張額外的圖像,會(huì)影響后續(xù)輸入圖像的索引;(2) 模型必須正確映射源圖像與涂鴉修改后的源圖像之間的像素關(guān)系。 為了解決這些問題,本工作對(duì)源圖像和帶有涂鴉的源圖像使用相同的索引編碼(index encoding)和位置編碼(position encoding)。實(shí)驗(yàn)表明,這種編碼方式有效地解決了上述問題,將涂鴉編輯能力無縫集成到了現(xiàn)有的統(tǒng)一框架中。

訓(xùn)練細(xì)節(jié):訓(xùn)練過程中,使用了 DreamOmni2 的 VLM (Qwen2.5-VL 7B) 和 FLUX Kontext 的聯(lián)合訓(xùn)練方案。采用 Rank 為 256 的 LoRA 進(jìn)行訓(xùn)練。通過利用 LoRA,保留了 Kontext 原始的指令編輯能力。由于 DreamOmni2 中的多參考生成和編輯能力是分別通過兩個(gè) LoRA 訓(xùn)練的,為了確保兼容性,本工作的生成和編輯模型也分別使用了獨(dú)立的 LoRA 進(jìn)行訓(xùn)練。整個(gè)訓(xùn)練過程大約耗時(shí) 400 個(gè) A100 小時(shí)。

基準(zhǔn)與評(píng)估

本工作提出了整合語言、圖像和涂鴉指令的基于涂鴉的編輯與生成任務(wù)。為了促進(jìn)該方向的發(fā)展,建立了 DreamOmni3 基準(zhǔn)測(cè)試(Benchmark)。該基準(zhǔn)測(cè)試由真實(shí)圖像組成,以準(zhǔn)確評(píng)估模型在現(xiàn)實(shí)場景中的性能。測(cè)試案例涵蓋了本工作提出的四種編輯任務(wù)和三種生成任務(wù),編輯類別多樣,包含抽象屬性編輯和具體對(duì)象編輯。

由于傳統(tǒng)的指標(biāo)(如 DINO 和 CLIP)不足以評(píng)估這些復(fù)雜任務(wù),本工作采用了基于 VLM 的評(píng)估標(biāo)準(zhǔn),重點(diǎn)關(guān)注四個(gè)方面:

生成編輯中遵循指令的準(zhǔn)確性。

人物外觀、物體和抽象屬性的一致性。

避免嚴(yán)重的視覺偽影。

生成或編輯的內(nèi)容與指定涂鴉區(qū)域的對(duì)齊程度。

只有滿足所有這些標(biāo)準(zhǔn),任務(wù)才被視為成功。通過將 VLM 評(píng)估與人工評(píng)估進(jìn)行對(duì)比,結(jié)果顯示兩者具有高度一致性。

實(shí)驗(yàn)

本節(jié)通過定量和定性實(shí)驗(yàn)驗(yàn)證了 DreamOmni3 在基于涂鴉的編輯和生成任務(wù)上的性能。

基于涂鴉的編輯評(píng)估

對(duì)比模型: 比較了 Omnigen2、Qwen-image-Edit-2509、DreamOmni2、Kontext 等開源模型,以及 GPT-4o 和 Nano Banana 等閉源商業(yè)模型。

定量結(jié)果: 如下表 1 所示,通過 Gemini 2.5、Doubao 1.6 和人工評(píng)估計(jì)算成功率。DreamOmni3 在人工評(píng)估中取得了最佳結(jié)果(0.5750),超過了 GPT-4o(0.5875,但在人工評(píng)估中略低)和 Nano Banana。相比之下,其他開源模型表現(xiàn)較差。

定性結(jié)果: 如下圖 3 所示,DreamOmni3 展示了更準(zhǔn)確的編輯結(jié)果和更好的一致性。GPT-4o 常出現(xiàn)圖像泛黃和非編輯區(qū)域像素不匹配的問題,而 Nano Banana 則存在明顯的復(fù)制粘貼痕跡和比例錯(cuò)誤。

基于涂鴉的生成評(píng)估

定量結(jié)果: 如下表 2 所示,DreamOmni3 在人工評(píng)估(0.5349)和模型評(píng)估中均優(yōu)于 Nano Banana,并與 GPT-4o 性能相當(dāng),F(xiàn)有模型(包括 GPT-4o)常無法在生成結(jié)果中去除涂鴉痕跡,且未針對(duì)此類任務(wù)優(yōu)化。

定性結(jié)果: 如下圖 4 所示,開源模型常在輸出中保留涂鴉,DreamOmni3 則能生成自然且符合指令的圖像。

消融實(shí)驗(yàn)

聯(lián)合輸入 (Joint Input): 如下表 3 所示,對(duì)比了四種方案。結(jié)果表明,使用本工作的數(shù)據(jù)集訓(xùn)練并結(jié)合聯(lián)合輸入(Scheme 4)對(duì)編輯任務(wù)提升顯著,因?yàn)橥盔f會(huì)遮擋源圖像信息,聯(lián)合輸入確保了像素級(jí)一致性。

索引與位置編碼 (Index and Position Encoding): 如下表 4 所示,對(duì)源圖像和涂鴉圖像使用相同的索引和位置編碼效果最佳。這有助于像素級(jí)對(duì)齊,并保持與后續(xù)參考圖像的索引一致性。

總結(jié)

當(dāng)前的統(tǒng)一生成和編輯模型主要基于文本指令執(zhí)行圖像編輯。然而,語言往往難以準(zhǔn)確描述編輯位置并捕捉用戶意圖中的所有細(xì)節(jié)。為了增強(qiáng)這一能力,本工作提出了兩個(gè)任務(wù):基于涂鴉的編輯和生成 (scribble-based editing and generation) ,允許用戶在圖形用戶界面(GUI)中簡單地使用畫筆進(jìn)行編輯。這種方法能夠結(jié)合語言、圖像和涂鴉指令,提供了更高的靈活性。

在此基礎(chǔ)上介紹了 DreamOmni3,解決了訓(xùn)練數(shù)據(jù)有限的挑戰(zhàn)。利用 DreamOmni2 數(shù)據(jù),本工作開發(fā)了一套基于 Referseg 的數(shù)據(jù)創(chuàng)建方案,生成了集成了涂鴉、文本和圖像指令的高質(zhì)量、精確數(shù)據(jù)集。

此外,本工作還解決了模型框架的問題,因?yàn)槎M(jìn)制掩碼(binary masks)無法滿足復(fù)雜的現(xiàn)實(shí)需求。當(dāng)存在多個(gè)掩碼時(shí),它們很難區(qū)分且難以用語言描述。為了解決這個(gè)問題,本工作提出了一種基于涂鴉的方法,通過畫筆顏色輕松區(qū)分不同的掩碼,從而能夠處理任意數(shù)量的掩碼。由于涂鴉可能會(huì)遮擋部分圖像細(xì)節(jié),本工作引入了聯(lián)合輸入方案 (joint input scheme),將原始圖像和帶有涂鴉的圖像同時(shí)輸入模型。本工作進(jìn)一步優(yōu)化了該方案,通過使用相同的索引和位置編碼來保留細(xì)節(jié),同時(shí)保持準(zhǔn)確的編輯能力。

參考文獻(xiàn)

[1] DreamOmni3: Scribble-based Editing and Generation

       原文標(biāo)題 : 港中文&字節(jié)聯(lián)合推出DreamOmni3:解鎖“涂鴉+圖文”聯(lián)合輸入,重新定義多模態(tài)生成與編輯

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)