123,123

強(qiáng)勢(shì)斬獲6項(xiàng)SOTA！UniCorn打通理解與生成任督二脈，靠“內(nèi)省”重構(gòu)多模態(tài)認(rèn)知

2026-01-09 16:15

作者：Ruiyan Han等

解讀：AI生成未來(lái)

亮點(diǎn)直擊

傳導(dǎo)性失語(yǔ)癥：將統(tǒng)一多模態(tài)模型中“理解能力強(qiáng)但生成能力弱”的現(xiàn)象形式化為“傳導(dǎo)性失語(yǔ)癥”。

UniCorn 框架：一種無(wú)需外部數(shù)據(jù)或教師監(jiān)督的自我提升框架。該框架將單個(gè)模型劃分為提議者（Proposer）、求解者（Solver）和裁判（Judge）三個(gè)角色，通過(guò)自我博弈實(shí)現(xiàn)能力提升。全面的 SOTA 性能，UniCorn 始終優(yōu)于先前同類(lèi)方法。在 TIIF (73.8)、DPG (86.8)、CompBench (88.5) 和 UniCycle (46.5) 上均取得了 SOTA。

UniCycle 基準(zhǔn)：引入了基于 文本圖像文本 循環(huán)一致性的新基準(zhǔn)，用于驗(yàn)證多模態(tài)一致性的恢復(fù)情況。

解決的問(wèn)題

理解與生成的不匹配：現(xiàn)有的統(tǒng)一多模態(tài)模型（UMMs）在跨模態(tài)理解方面表現(xiàn)出色，但難以利用這種內(nèi)部知識(shí)進(jìn)行高質(zhì)量的生成（即“傳導(dǎo)性失語(yǔ)癥”）。

對(duì)外部監(jiān)督的依賴(lài)：傳統(tǒng)的提升方法往往依賴(lài)于昂貴的外部標(biāo)注數(shù)據(jù)或強(qiáng)大的教師模型進(jìn)行蒸餾，限制了模型的可擴(kuò)展性和自主進(jìn)化能力。

提出的方案

自我多智能體采樣（Self Multi-Agent Sampling）：利用 UMM 的上下文學(xué)習(xí)能力，讓模型分飾三角：

Proposer：生成具有挑戰(zhàn)性的提示（Prompts）。

Solver：根據(jù)提示生成圖像。

Judge：評(píng)估生成質(zhì)量并提供反饋。

認(rèn)知模式重構(gòu)：將自我博弈中的交互軌跡轉(zhuǎn)化為訓(xùn)練數(shù)據(jù)：

Caption：將生成的圖像映射回文本，穩(wěn)固語(yǔ)義接地。

Judgement：學(xué)習(xí)預(yù)測(cè)評(píng)分，校準(zhǔn)內(nèi)部?jī)r(jià)值體系。

Reflection：學(xué)習(xí)從“失敗”樣本到“成功”樣本的轉(zhuǎn)換，內(nèi)化自我修正機(jī)制。

應(yīng)用的技術(shù)

多角色自我博弈（Multi-role Self-play）：在同一參數(shù)空間內(nèi)實(shí)現(xiàn)不同角色的協(xié)作。

拒絕采樣（Rejection Sampling）：利用內(nèi)部 Judge 的評(píng)分篩選高質(zhì)量數(shù)據(jù)。

思維鏈（Chain-of-Thought）與反思（Reflexion）：在生成和評(píng)估過(guò)程中引入推理步驟，并通過(guò)對(duì)比正負(fù)樣本構(gòu)建反思軌跡。

循環(huán)一致性評(píng)估：通過(guò) T2I2T（文本-圖像-文本）循環(huán)來(lái)量化信息保持度。

達(dá)到的效果

SOTA 性能：UniCorn 在 TIIF (73.8)、DPG (86.8)、CompBench (88.5) 和 UniCycle (46.5) 等六個(gè)通用圖像生成基準(zhǔn)上取得了最先進(jìn)（SOTA）的性能。

顯著提升：相比基礎(chǔ)模型，在 WISE 上提升了 +5.0，在 OneIG 上提升了 +6.5。

數(shù)據(jù)高效性：僅需 5k 自生成數(shù)據(jù)即可超越使用 30k GPT-4o 蒸餾數(shù)據(jù)訓(xùn)練的模型（IRG），證明了全自監(jiān)督改進(jìn)的可擴(kuò)展性。

圖 2：UniCorn 可視化結(jié)果方法

先分析 UMM 中生成與理解能力的不匹配來(lái)闡述動(dòng)機(jī)�；谶@些觀(guān)察，提出了 UniCorn，這是一個(gè)簡(jiǎn)單而優(yōu)雅的后訓(xùn)練框架，無(wú)需任何外部標(biāo)注數(shù)據(jù)或教師模型即可實(shí)現(xiàn)自我提升。

動(dòng)機(jī)

這就好比一個(gè)將“蘋(píng)果”這個(gè)詞與水果聯(lián)系起來(lái)的孩子，看到蘋(píng)果時(shí)能自發(fā)地說(shuō)出它的名字一樣，認(rèn)知對(duì)稱(chēng)性使得內(nèi)部概念與外部表達(dá)之間能夠雙向映射。這種對(duì)齊類(lèi)似于逃離柏拉圖的洞穴：真正的智能必須超越對(duì)表面數(shù)據(jù)的觀(guān)察，掌握表象與其潛在源頭之間的互惠關(guān)系。

圖 1：UniCorn 的動(dòng)機(jī)。 UMM 經(jīng)常表現(xiàn)出理解代溝：它們可以準(zhǔn)確地理解和批評(píng)圖像中的錯(cuò)誤，但無(wú)法正確生成相同的場(chǎng)景。這種傳導(dǎo)性失語(yǔ)促使我們的框架利用模型卓越的內(nèi)部理解，通過(guò)獨(dú)立的反饋來(lái)加強(qiáng)和完善其生成能力圖 1：UniCorn 的動(dòng)機(jī)。 UMM 經(jīng)常表現(xiàn)出理解代溝：它們可以準(zhǔn)確地理解和批評(píng)圖像中的錯(cuò)誤，但無(wú)法正確生成相同的場(chǎng)景。這種傳導(dǎo)性失語(yǔ)促使我們的框架利用模型卓越的內(nèi)部理解，通過(guò)獨(dú)立的反饋來(lái)加強(qiáng)和完善其生成能力

然而，當(dāng)前的 UMM 遭受著類(lèi)似于傳導(dǎo)性失語(yǔ)癥（Conduction Aphasia） 的功能缺陷：雖然模型表現(xiàn)出深刻的理解能力，但其生成表現(xiàn)仍然是分裂的，無(wú)法生成它本質(zhì)上能夠理解的內(nèi)容。彌合這一差距至關(guān)重要；如果不協(xié)調(diào)這兩個(gè)過(guò)程，模型仍然是一個(gè)“被動(dòng)的觀(guān)察者”，能夠?qū)⒈粍?dòng)符號(hào)接地（grounding）但無(wú)法利用它們。因此，掌握理解與生成之間的協(xié)同作用不僅是功能升級(jí)，也是實(shí)現(xiàn) AGI 所需的認(rèn)知完整性的關(guān)鍵步驟。

一方面，如圖 3 所示，當(dāng)前的 UMM 表現(xiàn)出強(qiáng)大的感知和理解能力。具體而言，當(dāng)作為文本到圖像（T2I）生成的獎(jiǎng)勵(lì)模型時(shí)，UMM 展現(xiàn)出對(duì)跨模態(tài)語(yǔ)義的復(fù)雜掌握。這表明模型已經(jīng)內(nèi)化了一個(gè)強(qiáng)大的“世界模型”，并擁有辨別高質(zhì)量視覺(jué)-文本對(duì)齊所需的潛在知識(shí)。

圖 3：BAGEL和 GPT-4o在四個(gè)理解基準(zhǔn)上的結(jié)果。對(duì)于 Omini-RewardBench和 MMRB2，評(píng)估了 T2I 任務(wù)。使用 GPT4結(jié)果對(duì)性能進(jìn)行標(biāo)準(zhǔn)化，以獲得更好的可視化效果

另一方面，模型的生成能力仍然受到顯著限制，主要是因?yàn)樗茨軓浐蟽?nèi)部識(shí)別與主動(dòng)合成之間的差距。這種功能性分離意味著 UMM 自身復(fù)雜的理解能力在生成過(guò)程中仍然是一個(gè)“沉默的乘客”，無(wú)法告知或糾正其輸出�；谶@一觀(guān)察，本文的關(guān)鍵見(jiàn)解是：UMM 強(qiáng)大的理解能力可以被重新利用為一種自主監(jiān)督信號(hào)，以指導(dǎo)其生成行為。通過(guò)將潛在的解釋深度轉(zhuǎn)化為顯式指導(dǎo)，本文促進(jìn)了這兩個(gè)過(guò)程之間更緊密的耦合，最終恢復(fù)了真正集成的多模態(tài)智能所必需的認(rèn)知對(duì)稱(chēng)性。

問(wèn)題定義

本文研究處理交錯(cuò)圖像-文本輸入和輸出的 UMM。UMM 被公式化為一個(gè)策略，它將多模態(tài)輸入序列映射到交錯(cuò)的多模態(tài)輸出序列。這種統(tǒng)一的輸入-輸出公式支持圖像到文本（I2T）理解和文本到圖像（T2I）生成。本文將理解操作化為 I2T，將生成操作化為 T2I，并利用模型較強(qiáng)的 I2T 理解能力來(lái)監(jiān)督和改進(jìn)其較弱的 T2I 生成能力。

UniCorn

圖 4：UniCorn 框架概述。 (a) 說(shuō)明了高質(zhì)量數(shù)據(jù)采樣的自我多主體協(xié)作。 (b) 詳細(xì)介紹了認(rèn)知模式重建過(guò)程，該過(guò)程重新組織數(shù)據(jù)以促進(jìn)穩(wěn)健和高效的學(xué)習(xí)。 (c) 提出 UniCycle 基準(zhǔn)評(píng)估，驗(yàn)證模型是否能夠從其自身生成的內(nèi)容中準(zhǔn)確地重建關(guān)鍵文本信息。圖 4：UniCorn 框架概述。 (a) 說(shuō)明了高質(zhì)量數(shù)據(jù)采樣的自我多主體協(xié)作。 (b) 詳細(xì)介紹了認(rèn)知模式重建過(guò)程，該過(guò)程重新組織數(shù)據(jù)以促進(jìn)穩(wěn)健和高效的學(xué)習(xí)。 (c) 提出 UniCycle 基準(zhǔn)評(píng)估，驗(yàn)證模型是否能夠從其自身生成的內(nèi)容中準(zhǔn)確地重建關(guān)鍵文本信息。

UniCorn 通過(guò)兩個(gè)核心階段運(yùn)作：自我多智能體采樣（Self Multi-Agent Sampling）和認(rèn)知模式重構(gòu)（Cognitive Pattern Reconstruction, CPR）。首先，UMM 同時(shí)擔(dān)任三個(gè)角色：提議者（Proposer）、求解者（Solver）和裁判（Judge），以模擬協(xié)作循環(huán)。然后，CPR 階段將這些原始交互重構(gòu)為三種訓(xùn)練模式：描述（caption）、判斷（judgement）和反思（reflection），這些模式與高質(zhì)量的自我采樣 T2I 生成數(shù)據(jù)相結(jié)合用于后訓(xùn)練。關(guān)鍵是，整個(gè)過(guò)程是完全獨(dú)立的，不需要外部教師模型或人工標(biāo)注數(shù)據(jù)。

第一階段：自我多智能體采樣 (Stage 1: Self Multi-Agent Sampling)

LLM 天然適合多任務(wù)設(shè)置中的自我博弈。對(duì)于 UMM，交錯(cuò)的多模態(tài)輸入和功能多樣性使得提示（prompting）、生成和判斷可以在共享模型中共存，從而在不同提示下實(shí)現(xiàn)條件化的角色行為。本文利用這一屬性將單個(gè) UMM 功能化為協(xié)作角色，通過(guò)內(nèi)部協(xié)同彌合理解與生成之間的差距。

提議者 (Proposer) ：提議者旨在為統(tǒng)一多模態(tài)模型生成一組多樣化且具有挑戰(zhàn)性的提示，隨后用于生成訓(xùn)練圖像。為此，受 LAION-5B 和 COYO-700M 的啟發(fā)，本文將所有 T2I 任務(wù)提示分為十個(gè)類(lèi)別，并為每個(gè)類(lèi)別設(shè)計(jì)了細(xì)粒度的生成規(guī)則。接下來(lái)，本文提示 UMM 生成初始批次的提示，并充當(dāng)裁判以選擇最佳候選者用于后續(xù)迭代。利用 LLM 強(qiáng)大的上下文學(xué)習(xí)（ICL）能力，初始示例作為少樣本演示（few-shot demonstration）來(lái)指導(dǎo)后續(xù)提示的生成。為了進(jìn)一步增強(qiáng)多樣性，本文引入了一種動(dòng)態(tài)種子機(jī)制。在生成預(yù)定數(shù)量的提示后，從提示庫(kù)中采樣幾個(gè)示例進(jìn)行評(píng)估，然后用于構(gòu)建新的演示以指導(dǎo)下一輪提示生成。與之前直接依賴(lài)訓(xùn)練集或使用外部模型構(gòu)建提示的方法相比，本文的方法不需要外部數(shù)據(jù)，并且生成更多樣化的提示，從而提高了泛化能力。

求解者 (Solver) ：求解者負(fù)責(zé)根據(jù)提議者提出的提示生成多樣化的輸出。因此，本文鼓勵(lì) UMM 在隨機(jī)種子和不同超參數(shù)下生成圖像。遵循 DeepSeek-R1 的做法，本文對(duì)每個(gè)提示執(zhí)行 8 次推演（rollouts），以在樣本質(zhì)量、多樣性和計(jì)算效率之間取得有利的權(quán)衡。

裁判 (Judge) ：裁判負(fù)責(zé)對(duì)求解者根據(jù)提議者的提示生成的圖像進(jìn)行打分，這些分?jǐn)?shù)隨后用于訓(xùn)練期間的拒絕采樣。

以前的工作依賴(lài)于基于關(guān)鍵詞的啟發(fā)式獎(jiǎng)勵(lì)函數(shù)或強(qiáng)大的外部模型來(lái)提供密集的獎(jiǎng)勵(lì)圖。這種獎(jiǎng)勵(lì)裁判在很大程度上取決于參數(shù)調(diào)整和外部模型的性能，而外部模型的性能因任務(wù)而異，嚴(yán)重限制了自我提升的泛化能力。如圖 3 所示，UMM 表現(xiàn)出強(qiáng)大的獎(jiǎng)勵(lì)建模能力。因此，本文遵循廣泛采用的“LLM 作為裁判”范式，使用 0 到 10 的離散分?jǐn)?shù)制定所有 T2I 任務(wù)的獎(jiǎng)勵(lì)評(píng)估。為了進(jìn)一步提高判斷質(zhì)量，本文將生成獎(jiǎng)勵(lì)模型（Generation Reward Models）——其在 LLM 中已顯示出巨大潛力——遷移到 T2I 評(píng)估中。具體而言，本文為每個(gè)類(lèi)別設(shè)計(jì)了特定于任務(wù)的評(píng)分標(biāo)準(zhǔn)，并鼓勵(lì)模型在生成最終分?jǐn)?shù)之前明確闡述其推理過(guò)程。

第二階段：認(rèn)知模式重構(gòu) (Stage 2: Cognitive Pattern Reconstruction)

通過(guò)使用提議者-求解者-裁判流程的自我多智能體拒絕采樣，本文獲得了一批高質(zhì)量的提示-圖像對(duì)。雖然這些配對(duì)反映了從抽象概念空間到高維視覺(jué)流形的映射，但直接優(yōu)化這種跨域?qū)R仍然是隨機(jī)且低效的，通常導(dǎo)致模式崩潰。為了超越這種“黑盒”優(yōu)化，本文從元認(rèn)知理論中汲取靈感，該理論將監(jiān)控、評(píng)估和調(diào)節(jié)確定為穩(wěn)健學(xué)習(xí)的支柱�；谶@一見(jiàn)解，本文提出了一種三方數(shù)據(jù)架構(gòu)，回收并結(jié)構(gòu)化自我博弈循環(huán)中被忽視的軌跡。通過(guò)將這些潛在交互回放為顯式的描述（Caption）、判斷（Judgement）和反思（Reflection）模式，本文分別將抽象概念接地于視覺(jué)特征，提供評(píng)估信號(hào)，并編碼自我糾正過(guò)程。這種設(shè)計(jì)將之前丟棄的內(nèi)部“內(nèi)心獨(dú)白”轉(zhuǎn)化為結(jié)構(gòu)化的監(jiān)督信號(hào)，在沒(méi)有外部干預(yù)的情況下促進(jìn)認(rèn)知對(duì)稱(chēng)性。

描述 (CAPTION) ：為了建立穩(wěn)健的語(yǔ)義接地，此模式通過(guò)優(yōu)化逆映射確保模型內(nèi)化其自身創(chuàng)作的概念本質(zhì)。通過(guò)將得分最高的圖像作為輸入，并將其原始提示作為基本真值（ground truth），模型學(xué)會(huì)將抽象概念錨定在其能夠合成的特定視覺(jué)流形內(nèi)，從而加強(qiáng)內(nèi)部概念與外部表現(xiàn)之間的雙向認(rèn)知對(duì)稱(chēng)性。

判斷 (JUDGEMENT) ：此模式側(cè)重于評(píng)估校準(zhǔn)，以完善模型的內(nèi)部?jī)r(jià)值體系。本文訓(xùn)練模型預(yù)測(cè)任何生成對(duì)的評(píng)估信號(hào) ，公式化為。通過(guò)利用裁判提供的特定任務(wù)評(píng)分標(biāo)準(zhǔn)和推理軌跡，模型對(duì)當(dāng)前輸出與理想目標(biāo)之間的潛在差距產(chǎn)生了敏銳的感知，為穩(wěn)定生成過(guò)程提供了關(guān)鍵的診斷信號(hào)。

反思 (REFLECTION) ：受 Reflexion 啟發(fā)，此模式引入迭代調(diào)節(jié)以增強(qiáng)模型的自我進(jìn)化能力。利用求解者的多次推演，本文利用裁判分配的獎(jiǎng)勵(lì)來(lái)識(shí)別質(zhì)量對(duì)比鮮明的配對(duì)，特別是從同一提示中選擇高獎(jiǎng)勵(lì)的“獲勝”圖像和低獎(jiǎng)勵(lì)的“失敗”圖像。然后，本文構(gòu)建反思軌跡，公式化為，顯式編碼從次優(yōu)狀態(tài)到更優(yōu)狀態(tài)的轉(zhuǎn)換。通過(guò)學(xué)習(xí)將低質(zhì)量的表現(xiàn) 轉(zhuǎn)化為優(yōu)化后的對(duì)應(yīng)物，模型內(nèi)化了一種自我糾正生成錯(cuò)誤的機(jī)制，在不需要外部監(jiān)督的情況下有效地緩解了模式崩潰。

這三種數(shù)據(jù)類(lèi)型與高質(zhì)量的自我采樣 T2I 生成數(shù)據(jù)相結(jié)合，用于微調(diào) UMM。請(qǐng)注意，整個(gè)重構(gòu)過(guò)程是基于規(guī)則的，不會(huì)引入任何復(fù)雜性。

UniCycle

為了評(píng)估內(nèi)部協(xié)作是否產(chǎn)生真正的多模態(tài)智能而不僅僅是特定任務(wù)的性能提升，本文引入了 UniCycle，這是一個(gè)循環(huán)一致性基準(zhǔn)，用于測(cè)量在 文本圖像文本 循環(huán)下的信息保存情況。給定一條指令，UniCycle 評(píng)估統(tǒng)一多模態(tài)模型是否可以通過(guò)隨后的視覺(jué)理解從其自身生成的圖像中恢復(fù)指令的關(guān)鍵語(yǔ)義。

基于 TIIF，本文生成 QA 對(duì)以探索基于生成圖像的指令隱含屬性，將原始 TIIF 基準(zhǔn)從 T2I 設(shè)置擴(kuò)展到文本到圖像到文本（T2I2T）設(shè)置。標(biāo)注后，本文獲得了 1,401 個(gè) TIIF 風(fēng)格的實(shí)例，涵蓋十多個(gè)任務(wù)類(lèi)別，并跨越多種問(wèn)題格式，包括多項(xiàng)選擇題、二元（是/否）問(wèn)題和開(kāi)放式問(wèn)題。

為了進(jìn)行評(píng)估，給定提示，模型首先生成圖像，然后以生成的圖像為條件獨(dú)立回答每個(gè)問(wèn)題。外部裁判模型評(píng)估每個(gè)預(yù)測(cè)答案是否與初始提示和參考答案一致，并為每個(gè)問(wèn)題產(chǎn)生一個(gè)分?jǐn)?shù)。

本文定義了一個(gè)統(tǒng)一的指標(biāo)來(lái)量化這種 T2I2T 一致性。令表示與提示相關(guān)的問(wèn)題集。本文定義：

其中表示問(wèn)題的裁判分?jǐn)?shù)，對(duì)于非文本問(wèn)題定義為二元指標(biāo)，對(duì)于文本類(lèi)型問(wèn)題定義為正確恢復(fù)關(guān)鍵詞的比例，以實(shí)現(xiàn)更細(xì)粒度和連續(xù)的度量。

最終的 Soft 和 Hard 分?jǐn)?shù)是通過(guò)對(duì)所有提示取平均值獲得的。

實(shí)驗(yàn)

實(shí)驗(yàn)設(shè)置：

基礎(chǔ)模型：主要使用 BAGEL 模型進(jìn)行實(shí)驗(yàn)，同時(shí)也在 Janus-Pro 上驗(yàn)證了方法的通用性。

基準(zhǔn)測(cè)試：涵蓋 TIIF, WISE, OneIG-EN, CompBench, DPG, Geneval 等六個(gè)圖像生成基準(zhǔn)，以及 MME, MMB 等理解基準(zhǔn)。

對(duì)比模型：包括 SD3 Medium, FLUX.1 dev 等生成專(zhuān)用模型，以及 Janus-Pro, Show-o2, T2I-R1 等統(tǒng)一多模態(tài)模型。

圖 5：UniCorn、BAGEL 和 UniCorn 不同數(shù)據(jù)設(shè)置之間的定性比較。我們的方法共同平衡了視覺(jué)美學(xué)、即時(shí)保真度和生成的真實(shí)性。圖 5：UniCorn、BAGEL 和 UniCorn 不同數(shù)據(jù)設(shè)置之間的定性比較。我們的方法共同平衡了視覺(jué)美學(xué)、即時(shí)保真度和生成的真實(shí)性。

主要結(jié)果：

綜合性能提升：UniCorn 在多個(gè)基準(zhǔn)上超越了基礎(chǔ)模型 BAGEL 和其他強(qiáng)勁對(duì)手。例如，在 TIIF 上達(dá)到 74.7（+3.7 vs BAGEL），在 DPG 上達(dá)到 86.8（超越 GPT-4o 的 86.2）。

UniCycle 表現(xiàn)：在本文提出的 UniCycle 基準(zhǔn)中，UniCorn 取得了最高的 Hard score (46.5)，遠(yuǎn)超基礎(chǔ)模型（36.6）和其他模型，證明了其在統(tǒng)一多模態(tài)智能方面的優(yōu)勢(shì)。

消融實(shí)驗(yàn)：

數(shù)據(jù)模式：移除認(rèn)知模式重構(gòu)（C, J, R）僅保留生成數(shù)據(jù)會(huì)導(dǎo)致嚴(yán)重的模式崩潰（MME-P 分?jǐn)?shù)暴跌）。加入這些模式能穩(wěn)定生成并提升質(zhì)量。

架構(gòu)通用性：在 Janus-Pro 上應(yīng)用 UniCorn 方法同樣帶來(lái)了顯著提升（TIIF +3.2, WISE +7.0）。

擴(kuò)展定律 (Scaling Law) ：隨著自生成數(shù)據(jù)量從 1k 增加到 20k，模型性能持續(xù)提升。僅需 5k 數(shù)據(jù)，UniCorn 在 TIIF 上的表現(xiàn)就超越了使用 30k GPT-4o 蒸餾數(shù)據(jù)訓(xùn)練的 IRG 模型以及 DALL·E 3，展示了極高的數(shù)據(jù)效率。

圖 7：TIIF 上的數(shù)據(jù)縮放結(jié)果。當(dāng)數(shù)據(jù)集大小擴(kuò)大時(shí)，分?jǐn)?shù)持續(xù)提高。值得注意的是，UniCorn 僅使用 5k 訓(xùn)練數(shù)據(jù)就超越了許多強(qiáng)大的模型

分析結(jié)論：

自我博弈的必要性：使用更強(qiáng)的外部模型（如 Qwen3-VL）構(gòu)建數(shù)據(jù)（UniCorn*）并未帶來(lái)顯著收益，甚至在 UniCycle 上表現(xiàn)不如完全自監(jiān)督的 UniCorn，說(shuō)明外部監(jiān)督可能帶來(lái)不成比例的成本且缺乏統(tǒng)一協(xié)調(diào)性。

機(jī)制驗(yàn)證：定性分析表明，UniCorn 能夠有效平衡視覺(jué)美感、提示忠實(shí)度和真實(shí)感，通過(guò)將理解轉(zhuǎn)化為生成監(jiān)督，彌合了兩者間的差距。結(jié)論

UniCorn，這是一個(gè)自監(jiān)督的后訓(xùn)練框架，通過(guò)多智能體自我博弈和認(rèn)知模式重構(gòu)，將多模態(tài)理解和生成統(tǒng)一在單個(gè)模型中，在沒(méi)有外部監(jiān)督的情況下將內(nèi)部潛在知識(shí)蒸餾為高質(zhì)量的生成信號(hào)。包括 UniCycle 循環(huán)一致性基準(zhǔn)在內(nèi)的廣泛實(shí)驗(yàn)表明，該方法在保持多模態(tài)智能的同時(shí)顯著改進(jìn)了 T2I 生成，突顯了自包含反饋循環(huán)是統(tǒng)一多模態(tài)模型的一條可擴(kuò)展路徑。

局限性

盡管在 T2I 生成和多模態(tài)理解方面都取得了穩(wěn)健的表現(xiàn)，UniCorn 仍存在一定的局限性。首先，目前的自我提升框架以單輪方式運(yùn)行，主要增強(qiáng)生成能力，未觀(guān)察到理解指標(biāo)的顯著提升。在未來(lái)的工作中，本文打算探索多輪迭代自我博弈，以促進(jìn)這兩種能力的共同進(jìn)化。其次，自我博弈機(jī)制要求 UMM 處理提示生成、推演和判斷，這不可避免地引入了額外的計(jì)算成本。本文計(jì)劃在后續(xù)研究中調(diào)查更高效的方法來(lái)簡(jiǎn)化這一過(guò)程。

參考文獻(xiàn)

[1] UniCorn: Towards Self-Improving Unified Multimodal Models through Self-Generated Supervision

原文標(biāo)題 : 強(qiáng)勢(shì)斬獲6項(xiàng)SOTA！UniCorn打通理解與生成任督二脈，靠“內(nèi)省”重構(gòu)多模態(tài)認(rèn)知