訂閱
糾錯(cuò)
加入自媒體

強(qiáng)勢(shì)斬獲6項(xiàng)SOTA!UniCorn打通理解與生成任督二脈,靠“內(nèi)省”重構(gòu)多模態(tài)認(rèn)知

作者:Ruiyan Han等

解讀:AI生成未來(lái)

亮點(diǎn)直擊

傳導(dǎo)性失語(yǔ)癥:將統(tǒng)一多模態(tài)模型中“理解能力強(qiáng)但生成能力弱”的現(xiàn)象形式化為“傳導(dǎo)性失語(yǔ)癥”。

UniCorn 框架:一種無(wú)需外部數(shù)據(jù)或教師監(jiān)督的自我提升框架。該框架將單個(gè)模型劃分為提議者(Proposer)、求解者(Solver)和裁判(Judge)三個(gè)角色,通過(guò)自我博弈實(shí)現(xiàn)能力提升。全面的 SOTA 性能,UniCorn 始終優(yōu)于先前同類(lèi)方法。在 TIIF (73.8)、DPG (86.8)、CompBench (88.5) 和 UniCycle (46.5) 上均取得了 SOTA。

UniCycle 基準(zhǔn):引入了基于 文本圖像文本 循環(huán)一致性的新基準(zhǔn),用于驗(yàn)證多模態(tài)一致性的恢復(fù)情況。

解決的問(wèn)題

理解與生成的不匹配:現(xiàn)有的統(tǒng)一多模態(tài)模型(UMMs)在跨模態(tài)理解方面表現(xiàn)出色,但難以利用這種內(nèi)部知識(shí)進(jìn)行高質(zhì)量的生成(即“傳導(dǎo)性失語(yǔ)癥”)。

對(duì)外部監(jiān)督的依賴(lài):傳統(tǒng)的提升方法往往依賴(lài)于昂貴的外部標(biāo)注數(shù)據(jù)或強(qiáng)大的教師模型進(jìn)行蒸餾,限制了模型的可擴(kuò)展性和自主進(jìn)化能力。

提出的方案

自我多智能體采樣(Self Multi-Agent Sampling):利用 UMM 的上下文學(xué)習(xí)能力,讓模型分飾三角:

Proposer:生成具有挑戰(zhàn)性的提示(Prompts)。

Solver:根據(jù)提示生成圖像。

Judge:評(píng)估生成質(zhì)量并提供反饋。

認(rèn)知模式重構(gòu):將自我博弈中的交互軌跡轉(zhuǎn)化為訓(xùn)練數(shù)據(jù):

Caption:將生成的圖像映射回文本,穩(wěn)固語(yǔ)義接地。

Judgement:學(xué)習(xí)預(yù)測(cè)評(píng)分,校準(zhǔn)內(nèi)部?jī)r(jià)值體系。

Reflection:學(xué)習(xí)從“失敗”樣本到“成功”樣本的轉(zhuǎn)換,內(nèi)化自我修正機(jī)制。

應(yīng)用的技術(shù)

多角色自我博弈(Multi-role Self-play):在同一參數(shù)空間內(nèi)實(shí)現(xiàn)不同角色的協(xié)作。

拒絕采樣(Rejection Sampling):利用內(nèi)部 Judge 的評(píng)分篩選高質(zhì)量數(shù)據(jù)。

思維鏈(Chain-of-Thought)與反思(Reflexion):在生成和評(píng)估過(guò)程中引入推理步驟,并通過(guò)對(duì)比正負(fù)樣本構(gòu)建反思軌跡。

循環(huán)一致性評(píng)估:通過(guò) T2I2T(文本-圖像-文本)循環(huán)來(lái)量化信息保持度。

達(dá)到的效果

SOTA 性能:UniCorn 在 TIIF (73.8)、DPG (86.8)、CompBench (88.5) 和 UniCycle (46.5) 等六個(gè)通用圖像生成基準(zhǔn)上取得了最先進(jìn)(SOTA)的性能。

顯著提升:相比基礎(chǔ)模型,在 WISE 上提升了 +5.0,在 OneIG 上提升了 +6.5。

數(shù)據(jù)高效性:僅需 5k 自生成數(shù)據(jù)即可超越使用 30k GPT-4o 蒸餾數(shù)據(jù)訓(xùn)練的模型(IRG),證明了全自監(jiān)督改進(jìn)的可擴(kuò)展性。

圖 2:UniCorn 可視化結(jié)果圖 2:UniCorn 可視化結(jié)果方法

先分析 UMM 中生成與理解能力的不匹配來(lái)闡述動(dòng)機(jī);谶@些觀(guān)察,提出了 UniCorn,這是一個(gè)簡(jiǎn)單而優(yōu)雅的后訓(xùn)練框架,無(wú)需任何外部標(biāo)注數(shù)據(jù)或教師模型即可實(shí)現(xiàn)自我提升。

動(dòng)機(jī)

這就好比一個(gè)將“蘋(píng)果”這個(gè)詞與水果聯(lián)系起來(lái)的孩子,看到蘋(píng)果時(shí)能自發(fā)地說(shuō)出它的名字一樣,認(rèn)知對(duì)稱(chēng)性使得內(nèi)部概念與外部表達(dá)之間能夠雙向映射。這種對(duì)齊類(lèi)似于逃離柏拉圖的洞穴:真正的智能必須超越對(duì)表面數(shù)據(jù)的觀(guān)察,掌握表象與其潛在源頭之間的互惠關(guān)系。

圖 1:UniCorn 的動(dòng)機(jī)。 UMM 經(jīng)常表現(xiàn)出理解代溝:它們可以準(zhǔn)確地理解和批評(píng)圖像中的錯(cuò)誤,但無(wú)法正確生成相同的場(chǎng)景。 這種傳導(dǎo)性失語(yǔ)促使我們的框架利用模型卓越的內(nèi)部理解,通過(guò)獨(dú)立的反饋來(lái)加強(qiáng)和完善其生成能力圖 1:UniCorn 的動(dòng)機(jī)。 UMM 經(jīng)常表現(xiàn)出理解代溝:它們可以準(zhǔn)確地理解和批評(píng)圖像中的錯(cuò)誤,但無(wú)法正確生成相同的場(chǎng)景。 這種傳導(dǎo)性失語(yǔ)促使我們的框架利用模型卓越的內(nèi)部理解,通過(guò)獨(dú)立的反饋來(lái)加強(qiáng)和完善其生成能力

然而,當(dāng)前的 UMM 遭受著類(lèi)似于傳導(dǎo)性失語(yǔ)癥(Conduction Aphasia) 的功能缺陷:雖然模型表現(xiàn)出深刻的理解能力,但其生成表現(xiàn)仍然是分裂的,無(wú)法生成它本質(zhì)上能夠理解的內(nèi)容。彌合這一差距至關(guān)重要;如果不協(xié)調(diào)這兩個(gè)過(guò)程,模型仍然是一個(gè)“被動(dòng)的觀(guān)察者”,能夠?qū)⒈粍?dòng)符號(hào)接地(grounding)但無(wú)法利用它們。因此,掌握理解與生成之間的協(xié)同作用不僅是功能升級(jí),也是實(shí)現(xiàn) AGI 所需的認(rèn)知完整性的關(guān)鍵步驟。

一方面,如圖 3 所示,當(dāng)前的 UMM 表現(xiàn)出強(qiáng)大的感知和理解能力。具體而言,當(dāng)作為文本到圖像(T2I)生成的獎(jiǎng)勵(lì)模型時(shí),UMM 展現(xiàn)出對(duì)跨模態(tài)語(yǔ)義的復(fù)雜掌握。這表明模型已經(jīng)內(nèi)化了一個(gè)強(qiáng)大的“世界模型”,并擁有辨別高質(zhì)量視覺(jué)-文本對(duì)齊所需的潛在知識(shí)。

圖 3:BAGEL和 GPT-4o在四個(gè)理解基準(zhǔn)上的結(jié)果。 對(duì)于 Omini-RewardBench和 MMRB2,評(píng)估了 T2I 任務(wù)。 使用 GPT4結(jié)果對(duì)性能進(jìn)行標(biāo)準(zhǔn)化,以獲得更好的可視化效果圖 3:BAGEL和 GPT-4o在四個(gè)理解基準(zhǔn)上的結(jié)果。 對(duì)于 Omini-RewardBench和 MMRB2,評(píng)估了 T2I 任務(wù)。 使用 GPT4結(jié)果對(duì)性能進(jìn)行標(biāo)準(zhǔn)化,以獲得更好的可視化效果

另一方面,模型的生成能力仍然受到顯著限制,主要是因?yàn)樗茨軓浐蟽?nèi)部識(shí)別與主動(dòng)合成之間的差距。這種功能性分離意味著 UMM 自身復(fù)雜的理解能力在生成過(guò)程中仍然是一個(gè)“沉默的乘客”,無(wú)法告知或糾正其輸出;谶@一觀(guān)察,本文的關(guān)鍵見(jiàn)解是:UMM 強(qiáng)大的理解能力可以被重新利用為一種自主監(jiān)督信號(hào),以指導(dǎo)其生成行為。通過(guò)將潛在的解釋深度轉(zhuǎn)化為顯式指導(dǎo),本文促進(jìn)了這兩個(gè)過(guò)程之間更緊密的耦合,最終恢復(fù)了真正集成的多模態(tài)智能所必需的認(rèn)知對(duì)稱(chēng)性。

問(wèn)題定義

本文研究處理交錯(cuò)圖像-文本輸入和輸出的 UMM。UMM 被公式化為一個(gè)策略 ,它將多模態(tài)輸入序列  映射到交錯(cuò)的多模態(tài)輸出序列 。這種統(tǒng)一的輸入-輸出公式支持圖像到文本(I2T)理解和文本到圖像(T2I)生成。本文將理解操作化為 I2T,將生成操作化為 T2I,并利用模型較強(qiáng)的 I2T 理解能力來(lái)監(jiān)督和改進(jìn)其較弱的 T2I 生成能力。

UniCorn

圖 4:UniCorn 框架概述。 (a) 說(shuō)明了高質(zhì)量數(shù)據(jù)采樣的自我多主體協(xié)作。 (b) 詳細(xì)介紹了認(rèn)知模式重建過(guò)程,該過(guò)程重新組織數(shù)據(jù)以促進(jìn)穩(wěn)健和高效的學(xué)習(xí)。 (c) 提出 UniCycle 基準(zhǔn)評(píng)估,驗(yàn)證模型是否能夠從其自身生成的內(nèi)容中準(zhǔn)確地重建關(guān)鍵文本信息。圖 4:UniCorn 框架概述。 (a) 說(shuō)明了高質(zhì)量數(shù)據(jù)采樣的自我多主體協(xié)作。 (b) 詳細(xì)介紹了認(rèn)知模式重建過(guò)程,該過(guò)程重新組織數(shù)據(jù)以促進(jìn)穩(wěn)健和高效的學(xué)習(xí)。 (c) 提出 UniCycle 基準(zhǔn)評(píng)估,驗(yàn)證模型是否能夠從其自身生成的內(nèi)容中準(zhǔn)確地重建關(guān)鍵文本信息。

UniCorn 通過(guò)兩個(gè)核心階段運(yùn)作:自我多智能體采樣(Self Multi-Agent Sampling)認(rèn)知模式重構(gòu)(Cognitive Pattern Reconstruction, CPR)。首先,UMM 同時(shí)擔(dān)任三個(gè)角色:提議者(Proposer)、求解者(Solver)和裁判(Judge),以模擬協(xié)作循環(huán)。然后,CPR 階段將這些原始交互重構(gòu)為三種訓(xùn)練模式:描述(caption)、判斷(judgement)和反思(reflection),這些模式與高質(zhì)量的自我采樣 T2I 生成數(shù)據(jù)相結(jié)合用于后訓(xùn)練。關(guān)鍵是,整個(gè)過(guò)程是完全獨(dú)立的,不需要外部教師模型或人工標(biāo)注數(shù)據(jù)。

第一階段:自我多智能體采樣 (Stage 1: Self Multi-Agent Sampling)

LLM 天然適合多任務(wù)設(shè)置中的自我博弈。對(duì)于 UMM,交錯(cuò)的多模態(tài)輸入和功能多樣性使得提示(prompting)、生成和判斷可以在共享模型中共存,從而在不同提示下實(shí)現(xiàn)條件化的角色行為。本文利用這一屬性將單個(gè) UMM 功能化為協(xié)作角色,通過(guò)內(nèi)部協(xié)同彌合理解與生成之間的差距。

提議者 (Proposer)  :提議者旨在為統(tǒng)一多模態(tài)模型生成一組多樣化且具有挑戰(zhàn)性的提示,隨后用于生成訓(xùn)練圖像。為此,受 LAION-5B 和 COYO-700M 的啟發(fā),本文將所有 T2I 任務(wù)提示分為十個(gè)類(lèi)別,并為每個(gè)類(lèi)別設(shè)計(jì)了細(xì)粒度的生成規(guī)則。接下來(lái),本文提示 UMM 生成初始批次的提示,并充當(dāng)裁判以選擇最佳候選者用于后續(xù)迭代。利用 LLM 強(qiáng)大的上下文學(xué)習(xí)(ICL)能力,初始示例作為少樣本演示(few-shot demonstration)來(lái)指導(dǎo)后續(xù)提示的生成。為了進(jìn)一步增強(qiáng)多樣性,本文引入了一種動(dòng)態(tài)種子機(jī)制。在生成預(yù)定數(shù)量的提示后,從提示庫(kù)中采樣幾個(gè)示例進(jìn)行評(píng)估,然后用于構(gòu)建新的演示以指導(dǎo)下一輪提示生成。與之前直接依賴(lài)訓(xùn)練集或使用外部模型構(gòu)建提示的方法相比,本文的方法不需要外部數(shù)據(jù),并且生成更多樣化的提示,從而提高了泛化能力。

求解者 (Solver)  :求解者負(fù)責(zé)根據(jù)提議者提出的提示生成多樣化的輸出。因此,本文鼓勵(lì) UMM 在隨機(jī)種子和不同超參數(shù)下生成圖像。遵循 DeepSeek-R1 的做法,本文對(duì)每個(gè)提示執(zhí)行 8 次推演(rollouts),以在樣本質(zhì)量、多樣性和計(jì)算效率之間取得有利的權(quán)衡。

裁判 (Judge)  :裁判負(fù)責(zé)對(duì)求解者根據(jù)提議者的提示生成的圖像進(jìn)行打分,這些分?jǐn)?shù)隨后用于訓(xùn)練期間的拒絕采樣。

以前的工作依賴(lài)于基于關(guān)鍵詞的啟發(fā)式獎(jiǎng)勵(lì)函數(shù)或強(qiáng)大的外部模型來(lái)提供密集的獎(jiǎng)勵(lì)圖。這種獎(jiǎng)勵(lì)裁判在很大程度上取決于參數(shù)調(diào)整和外部模型的性能,而外部模型的性能因任務(wù)而異,嚴(yán)重限制了自我提升的泛化能力。如圖 3 所示,UMM 表現(xiàn)出強(qiáng)大的獎(jiǎng)勵(lì)建模能力。因此,本文遵循廣泛采用的“LLM 作為裁判”范式,使用 0 到 10 的離散分?jǐn)?shù)制定所有 T2I 任務(wù)的獎(jiǎng)勵(lì)評(píng)估。為了進(jìn)一步提高判斷質(zhì)量,本文將生成獎(jiǎng)勵(lì)模型(Generation Reward Models)——其在 LLM 中已顯示出巨大潛力——遷移到 T2I 評(píng)估中。具體而言,本文為每個(gè)類(lèi)別設(shè)計(jì)了特定于任務(wù)的評(píng)分標(biāo)準(zhǔn),并鼓勵(lì)模型在生成最終分?jǐn)?shù)之前明確闡述其推理過(guò)程。

第二階段:認(rèn)知模式重構(gòu) (Stage 2: Cognitive Pattern Reconstruction)

通過(guò)使用提議者-求解者-裁判流程的自我多智能體拒絕采樣,本文獲得了一批高質(zhì)量的提示-圖像對(duì)。雖然這些配對(duì)反映了從抽象概念空間到高維視覺(jué)流形的映射,但直接優(yōu)化這種跨域?qū)R仍然是隨機(jī)且低效的,通常導(dǎo)致模式崩潰。為了超越這種“黑盒”優(yōu)化,本文從元認(rèn)知理論中汲取靈感,該理論將監(jiān)控、評(píng)估和調(diào)節(jié)確定為穩(wěn)健學(xué)習(xí)的支柱;谶@一見(jiàn)解,本文提出了一種三方數(shù)據(jù)架構(gòu),回收并結(jié)構(gòu)化自我博弈循環(huán)中被忽視的軌跡。通過(guò)將這些潛在交互回放為顯式的描述(Caption)、判斷(Judgement)反思(Reflection)模式,本文分別將抽象概念接地于視覺(jué)特征,提供評(píng)估信號(hào),并編碼自我糾正過(guò)程。這種設(shè)計(jì)將之前丟棄的內(nèi)部“內(nèi)心獨(dú)白”轉(zhuǎn)化為結(jié)構(gòu)化的監(jiān)督信號(hào),在沒(méi)有外部干預(yù)的情況下促進(jìn)認(rèn)知對(duì)稱(chēng)性。

描述 (CAPTION) :為了建立穩(wěn)健的語(yǔ)義接地,此模式通過(guò)優(yōu)化逆映射  確保模型內(nèi)化其自身創(chuàng)作的概念本質(zhì)。通過(guò)將得分最高的圖像  作為輸入,并將其原始提示  作為基本真值(ground truth),模型學(xué)會(huì)將抽象概念錨定在其能夠合成的特定視覺(jué)流形內(nèi),從而加強(qiáng)內(nèi)部概念與外部表現(xiàn)之間的雙向認(rèn)知對(duì)稱(chēng)性。

判斷 (JUDGEMENT) :此模式側(cè)重于評(píng)估校準(zhǔn),以完善模型的內(nèi)部?jī)r(jià)值體系。本文訓(xùn)練模型預(yù)測(cè)任何生成對(duì)的評(píng)估信號(hào) ,公式化為 。通過(guò)利用裁判提供的特定任務(wù)評(píng)分標(biāo)準(zhǔn)和推理軌跡,模型對(duì)當(dāng)前輸出與理想目標(biāo)之間的潛在差距產(chǎn)生了敏銳的感知,為穩(wěn)定生成過(guò)程提供了關(guān)鍵的診斷信號(hào)。

反思 (REFLECTION) :受 Reflexion 啟發(fā),此模式引入迭代調(diào)節(jié)以增強(qiáng)模型的自我進(jìn)化能力。利用求解者的多次推演 ,本文利用裁判分配的獎(jiǎng)勵(lì)來(lái)識(shí)別質(zhì)量對(duì)比鮮明的配對(duì),特別是從同一提示中選擇高獎(jiǎng)勵(lì)的“獲勝”圖像  和低獎(jiǎng)勵(lì)的“失敗”圖像 。然后,本文構(gòu)建反思軌跡,公式化為 ,顯式編碼從次優(yōu)狀態(tài)到更優(yōu)狀態(tài)的轉(zhuǎn)換。通過(guò)學(xué)習(xí)將低質(zhì)量的表現(xiàn)  轉(zhuǎn)化為優(yōu)化后的對(duì)應(yīng)物 ,模型內(nèi)化了一種自我糾正生成錯(cuò)誤的機(jī)制,在不需要外部監(jiān)督的情況下有效地緩解了模式崩潰。

這三種數(shù)據(jù)類(lèi)型與高質(zhì)量的自我采樣 T2I 生成數(shù)據(jù)相結(jié)合,用于微調(diào) UMM。請(qǐng)注意,整個(gè)重構(gòu)過(guò)程是基于規(guī)則的,不會(huì)引入任何復(fù)雜性。

UniCycle

為了評(píng)估內(nèi)部協(xié)作是否產(chǎn)生真正的多模態(tài)智能而不僅僅是特定任務(wù)的性能提升,本文引入了 UniCycle,這是一個(gè)循環(huán)一致性基準(zhǔn),用于測(cè)量在 文本  圖像  文本 循環(huán)下的信息保存情況。給定一條指令,UniCycle 評(píng)估統(tǒng)一多模態(tài)模型是否可以通過(guò)隨后的視覺(jué)理解從其自身生成的圖像中恢復(fù)指令的關(guān)鍵語(yǔ)義。

基于 TIIF,本文生成 QA 對(duì)以探索基于生成圖像的指令隱含屬性,將原始 TIIF 基準(zhǔn)從 T2I 設(shè)置擴(kuò)展到文本到圖像到文本(T2I2T)設(shè)置。標(biāo)注后,本文獲得了 1,401 個(gè) TIIF 風(fēng)格的實(shí)例,涵蓋十多個(gè)任務(wù)類(lèi)別,并跨越多種問(wèn)題格式,包括多項(xiàng)選擇題、二元(是/否)問(wèn)題和開(kāi)放式問(wèn)題。

為了進(jìn)行評(píng)估,給定提示 ,模型首先生成圖像,然后以生成的圖像為條件獨(dú)立回答每個(gè)問(wèn)題 。外部裁判模型評(píng)估每個(gè)預(yù)測(cè)答案  是否與初始提示  和參考答案  一致,并為每個(gè)問(wèn)題產(chǎn)生一個(gè)分?jǐn)?shù)。

本文定義了一個(gè)統(tǒng)一的指標(biāo)來(lái)量化這種 T2I2T 一致性。令  表示與提示  相關(guān)的問(wèn)題集。本文定義:

其中  表示問(wèn)題  的裁判分?jǐn)?shù),對(duì)于非文本問(wèn)題定義為二元指標(biāo),對(duì)于文本類(lèi)型問(wèn)題定義為正確恢復(fù)關(guān)鍵詞的比例,以實(shí)現(xiàn)更細(xì)粒度和連續(xù)的度量。

最終的 Soft 和 Hard 分?jǐn)?shù)是通過(guò)對(duì)所有提示取平均值獲得的。

實(shí)驗(yàn)

實(shí)驗(yàn)設(shè)置

基礎(chǔ)模型:主要使用 BAGEL 模型進(jìn)行實(shí)驗(yàn),同時(shí)也在 Janus-Pro 上驗(yàn)證了方法的通用性。

基準(zhǔn)測(cè)試:涵蓋 TIIF, WISE, OneIG-EN, CompBench, DPG, Geneval 等六個(gè)圖像生成基準(zhǔn),以及 MME, MMB 等理解基準(zhǔn)。

對(duì)比模型:包括 SD3 Medium, FLUX.1 dev 等生成專(zhuān)用模型,以及 Janus-Pro, Show-o2, T2I-R1 等統(tǒng)一多模態(tài)模型。

圖 5:UniCorn、BAGEL 和 UniCorn 不同數(shù)據(jù)設(shè)置之間的定性比較。 我們的方法共同平衡了視覺(jué)美學(xué)、即時(shí)保真度和生成的真實(shí)性。圖 5:UniCorn、BAGEL 和 UniCorn 不同數(shù)據(jù)設(shè)置之間的定性比較。 我們的方法共同平衡了視覺(jué)美學(xué)、即時(shí)保真度和生成的真實(shí)性。

主要結(jié)果

綜合性能提升:UniCorn 在多個(gè)基準(zhǔn)上超越了基礎(chǔ)模型 BAGEL 和其他強(qiáng)勁對(duì)手。例如,在 TIIF 上達(dá)到 74.7(+3.7 vs BAGEL),在 DPG 上達(dá)到 86.8(超越 GPT-4o 的 86.2)。

UniCycle 表現(xiàn):在本文提出的 UniCycle 基準(zhǔn)中,UniCorn 取得了最高的 Hard score (46.5),遠(yuǎn)超基礎(chǔ)模型(36.6)和其他模型,證明了其在統(tǒng)一多模態(tài)智能方面的優(yōu)勢(shì)。

消融實(shí)驗(yàn)

數(shù)據(jù)模式:移除認(rèn)知模式重構(gòu)(C, J, R)僅保留生成數(shù)據(jù)會(huì)導(dǎo)致嚴(yán)重的模式崩潰(MME-P 分?jǐn)?shù)暴跌)。加入這些模式能穩(wěn)定生成并提升質(zhì)量。

架構(gòu)通用性:在 Janus-Pro 上應(yīng)用 UniCorn 方法同樣帶來(lái)了顯著提升(TIIF +3.2, WISE +7.0)。

擴(kuò)展定律 (Scaling Law) :隨著自生成數(shù)據(jù)量從 1k 增加到 20k,模型性能持續(xù)提升。僅需 5k 數(shù)據(jù),UniCorn 在 TIIF 上的表現(xiàn)就超越了使用 30k GPT-4o 蒸餾數(shù)據(jù)訓(xùn)練的 IRG 模型以及 DALL·E 3,展示了極高的數(shù)據(jù)效率。

圖 7:TIIF 上的數(shù)據(jù)縮放結(jié)果。 當(dāng)數(shù)據(jù)集大小擴(kuò)大時(shí),分?jǐn)?shù)持續(xù)提高。 值得注意的是,UniCorn 僅使用 5k 訓(xùn)練數(shù)據(jù)就超越了許多強(qiáng)大的模型圖 7:TIIF 上的數(shù)據(jù)縮放結(jié)果。 當(dāng)數(shù)據(jù)集大小擴(kuò)大時(shí),分?jǐn)?shù)持續(xù)提高。 值得注意的是,UniCorn 僅使用 5k 訓(xùn)練數(shù)據(jù)就超越了許多強(qiáng)大的模型

分析結(jié)論

自我博弈的必要性:使用更強(qiáng)的外部模型(如 Qwen3-VL)構(gòu)建數(shù)據(jù)(UniCorn*)并未帶來(lái)顯著收益,甚至在 UniCycle 上表現(xiàn)不如完全自監(jiān)督的 UniCorn,說(shuō)明外部監(jiān)督可能帶來(lái)不成比例的成本且缺乏統(tǒng)一協(xié)調(diào)性。

機(jī)制驗(yàn)證:定性分析表明,UniCorn 能夠有效平衡視覺(jué)美感、提示忠實(shí)度和真實(shí)感,通過(guò)將理解轉(zhuǎn)化為生成監(jiān)督,彌合了兩者間的差距。結(jié)論

UniCorn,這是一個(gè)自監(jiān)督的后訓(xùn)練框架,通過(guò)多智能體自我博弈和認(rèn)知模式重構(gòu),將多模態(tài)理解和生成統(tǒng)一在單個(gè)模型中,在沒(méi)有外部監(jiān)督的情況下將內(nèi)部潛在知識(shí)蒸餾為高質(zhì)量的生成信號(hào)。包括 UniCycle 循環(huán)一致性基準(zhǔn)在內(nèi)的廣泛實(shí)驗(yàn)表明,該方法在保持多模態(tài)智能的同時(shí)顯著改進(jìn)了 T2I 生成,突顯了自包含反饋循環(huán)是統(tǒng)一多模態(tài)模型的一條可擴(kuò)展路徑。

局限性

盡管在 T2I 生成和多模態(tài)理解方面都取得了穩(wěn)健的表現(xiàn),UniCorn 仍存在一定的局限性。首先,目前的自我提升框架以單輪方式運(yùn)行,主要增強(qiáng)生成能力,未觀(guān)察到理解指標(biāo)的顯著提升。在未來(lái)的工作中,本文打算探索多輪迭代自我博弈,以促進(jìn)這兩種能力的共同進(jìn)化。其次,自我博弈機(jī)制要求 UMM 處理提示生成、推演和判斷,這不可避免地引入了額外的計(jì)算成本。本文計(jì)劃在后續(xù)研究中調(diào)查更高效的方法來(lái)簡(jiǎn)化這一過(guò)程。

參考文獻(xiàn)

[1] UniCorn: Towards Self-Improving Unified Multimodal Models through Self-Generated Supervision

       原文標(biāo)題 : 強(qiáng)勢(shì)斬獲6項(xiàng)SOTA!UniCorn打通理解與生成任督二脈,靠“內(nèi)省”重構(gòu)多模態(tài)認(rèn)知

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀(guān)點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)