123,123,123

一個(gè)人就是一支整編劇組！首個(gè)“統(tǒng)一導(dǎo)演”模型發(fā)布：字節(jié)UniMAGE，讓腦洞原地變大片

2026-01-08 14:40

作者：Jiaxu Zhang等

解讀：AI生成未來

亮點(diǎn)直擊

概念：UniMAGE體現(xiàn)了“統(tǒng)一導(dǎo)演模型” 的概念，整體協(xié)調(diào)敘事邏輯和視覺構(gòu)圖，將用戶意圖與多模態(tài)劇本聯(lián)系起來，實(shí)現(xiàn)創(chuàng)意音視頻生成。

技術(shù)：UniMAGE 采用交錯(cuò)概念學(xué)習(xí)和解耦專家學(xué)習(xí)，結(jié)合情境中 ID 提示和預(yù)上下文劇本拆分策略，以增強(qiáng)長(zhǎng)上下文序列中的視覺一致性和敘事連貫性。

性能：UniMAGE 在長(zhǎng)篇、多場(chǎng)景劇本創(chuàng)作中展現(xiàn)出強(qiáng)大的能力和泛化性，與現(xiàn)有基于代理和統(tǒng)一模型相比，實(shí)現(xiàn)了卓越的敘事連貫性、角色穩(wěn)定性和圖像一致性。

總結(jié)速覽

解決的問題

現(xiàn)有的 AI 驅(qū)動(dòng)視頻創(chuàng)作系統(tǒng)通常將劇本起草和關(guān)鍵鏡頭設(shè)計(jì)視為兩個(gè)獨(dú)立任務(wù)，前者依賴大型語言模型，后者依賴圖像生成模型，導(dǎo)致敘事邏輯和視覺一致性有限。

當(dāng)前模型主要關(guān)注短單鏡頭視頻的視覺保真度和時(shí)間連貫性，限制了它們傳達(dá)長(zhǎng)篇敘事的能力。

即使是先進(jìn)的商業(yè)系統(tǒng)，如 Veo 3 和 Sora 2，也高度依賴結(jié)構(gòu)化的提示，并且通常局限于短單鏡頭視頻。它們?nèi)狈σ?guī)劃和維護(hù)多鏡頭、敘事驅(qū)動(dòng)序列連貫性的能力。

提出的方案

本文提出了 UniMAGE，一個(gè)統(tǒng)一的導(dǎo)演模型，旨在將劇本起草和關(guān)鍵鏡頭設(shè)計(jì)這兩個(gè)任務(wù)統(tǒng)一在一個(gè)框架內(nèi)，因?yàn)檫壿嬐评砗拖胂罅λ季S都是電影導(dǎo)演的基本素質(zhì)。

UniMAGE 旨在彌合用戶提示與結(jié)構(gòu)化劇本之間的鴻溝，從而使非專業(yè)用戶能夠利用現(xiàn)有的音視頻生成模型，制作出長(zhǎng)文本、多鏡頭影片。

UniMAGE 作為一個(gè)統(tǒng)一的導(dǎo)演模型，通過多模態(tài)劇本生成，將用戶的想象力與長(zhǎng)文本、電影般的音視頻創(chuàng)作聯(lián)系起來。

應(yīng)用的技術(shù)

Mixture-of-Transformers (MoT) 架構(gòu)：UniMAGE 采用 MoT 架構(gòu)來統(tǒng)一文本和圖像生成。

“先交錯(cuò)，后解耦”訓(xùn)練范式：為了增強(qiáng)敘事邏輯和關(guān)鍵幀一致性，本文引入了這種范式。交錯(cuò)概念學(xué)習(xí) (Interleaved Concept Learning)：利用交錯(cuò)的文本-圖像數(shù)據(jù)，促進(jìn)模型對(duì)劇本更深層次的理解和富有想象力的解釋。

解耦專家學(xué)習(xí) (Disentangled Expert Learning)：將劇本編寫與關(guān)鍵幀生成解耦，從而在故事講述中實(shí)現(xiàn)更大的靈活性和創(chuàng)造力。

達(dá)到的效果

UniMAGE 在開源模型中取得了SOTA性能。它能夠生成邏輯連貫的視頻劇本和視覺一致的關(guān)鍵幀圖像。模型能夠處理長(zhǎng)文本、多鏡頭影片的制作。

架構(gòu)方法

UniMAGE 采用了一種新穎的 Mixture-of-Transformers (MoT) 架構(gòu)，它將文本和圖像生成統(tǒng)一在一個(gè)框架中。該模型由兩個(gè) Transformer 專家組成：一個(gè)用于多模態(tài)理解，另一個(gè)用于圖像生成。相應(yīng)地，它使用兩種類型的視覺編碼器，一個(gè)面向理解的編碼器（ViT）和一個(gè)面向生成的編碼器（VAE）。兩個(gè) Transformer 專家通過共享的自注意力層處理相同的 token 序列。對(duì)于文本 token 預(yù)測(cè)，UniMAGE 遵循 Next Token Prediction (NTP) 范式，利用自回歸建模的既定優(yōu)勢(shì)。對(duì)于視覺 token 預(yù)測(cè)，它采用 Rectified Flow，與視覺生成中的主流實(shí)踐保持一致。

劇本結(jié)構(gòu)

如下圖2所示，UniMAGE 中使用的劇本結(jié)構(gòu)由三個(gè)主要組件構(gòu)成：全局描述 G、內(nèi)容描述 C 和關(guān)鍵幀圖像 F，以及用戶提示 ρ。本文設(shè)計(jì)了一組特殊 token 來表示劇本中的每個(gè)元素，包括、、、和，其中 N 表示索引。當(dāng)全局描述中定義的角色或環(huán)境出現(xiàn)在內(nèi)容描述中時(shí)，使用相應(yīng)的特殊 token 來指示主體在場(chǎng)景中的出現(xiàn)。例如，“在豪華郵輪的甲板上，一個(gè)年輕人 . . . ”。這些特殊 token 有助于模型準(zhǔn)確識(shí)別角色和環(huán)境，同時(shí)保持劇本的簡(jiǎn)潔和結(jié)構(gòu)一致性。內(nèi)容描述進(jìn)一步分為兩個(gè)互補(bǔ)的層次。幀描述捕捉關(guān)鍵時(shí)刻的靜態(tài)視覺布局，例如攝像機(jī)位置、燈光和角色布局。視頻描述則側(cè)重于時(shí)間性和敘事性方面，包括對(duì)話、情節(jié)發(fā)展和動(dòng)作。此外，本文引入了指示符 <- -> 來表示角色對(duì)話和環(huán)境音效，使得相應(yīng)的音頻內(nèi)容可以在后續(xù)階段輕松檢索。例如，“<-現(xiàn)在閉上眼睛。繼續(xù)。->”。為了適應(yīng)不同的用戶輸入格式，本文定義了四種不同的用戶提示風(fēng)格，在訓(xùn)練過程中隨機(jī)采樣。

交錯(cuò)概念學(xué)習(xí)

本文使用 Bagel 中預(yù)訓(xùn)練的權(quán)重初始化 UniMAGE 的 MoT 模型，這為統(tǒng)一多模態(tài)理解和生成提供了強(qiáng)大的基礎(chǔ)能力。然而，與 Bagel 側(cè)重于多步圖像編輯的訓(xùn)練格式不同，UniMAGE 需要在理解前置敘事的基礎(chǔ)上生成圖像和劇本文本。此外，劇本數(shù)據(jù)的長(zhǎng)文本特性超出了基礎(chǔ)模型的容量，因此需要交錯(cuò)概念學(xué)習(xí)策略來實(shí)現(xiàn)連貫的敘事和視覺生成。

如下圖3左側(cè)所示，通過上述定義的劇本結(jié)構(gòu)，劇本可以組織為交錯(cuò)的文本-圖像數(shù)據(jù)。首先執(zhí)行交錯(cuò)概念學(xué)習(xí)，使 MoT 模型能夠以交錯(cuò)的方式生成文本和圖像，從而促進(jìn)對(duì)冗長(zhǎng)、上下文豐富的劇本的更深入理解。這個(gè)訓(xùn)練階段在概念上類似于 Chain-of-Thought 策略，其中文本內(nèi)容作為模型的推理過程，隨后根據(jù)前置敘事上下文生成圖像。在此階段，兩個(gè) Transformer 專家的所有參數(shù)都聯(lián)合優(yōu)化，允許生成結(jié)果影響模型的文本理解，反之亦然。

為了解決多角色和多場(chǎng)景的視覺一致性問題，本文提出了情境中 ID 提示 (In-Context ID Prompting) 方法。如下圖4左側(cè)所示，在用于理解的 ViT token 和用于圖像引用的 VAE token 中，插入特殊的文本 token 來指示幀 ID，以及圖像中出現(xiàn)的角色和環(huán)境 ID。在每個(gè)圖像的 ViT 或 VAE token 及其相應(yīng)的特殊 token 之間應(yīng)用完全注意力。這種情境中 ID 提示策略，結(jié)合劇本結(jié)構(gòu)中定義的特殊 token，有效地保留了劇本文本和生成圖像之間的長(zhǎng)程關(guān)聯(lián)，確保了整個(gè)敘事中一致的視覺身份和場(chǎng)景連續(xù)性。

解耦專家學(xué)習(xí)

交錯(cuò)概念學(xué)習(xí)階段賦予了 UniMAGE 對(duì)整體劇本的全面而連貫的理解。然而，這種交錯(cuò)生成策略不可避免地限制了模型在內(nèi)容創(chuàng)作方面的靈活性，特別是對(duì)于劇本擴(kuò)展和續(xù)寫等任務(wù)，模型必須動(dòng)態(tài)適應(yīng)新的用戶提示或無縫擴(kuò)展現(xiàn)有敘事上下文。此外，獲取邏輯一致的多鏡頭文本-圖像數(shù)據(jù)本身就具有挑戰(zhàn)性，這限制了模型從交錯(cuò)數(shù)據(jù)中充分學(xué)習(xí)長(zhǎng)篇敘事邏輯的能力。因此，本文引入了解耦專家學(xué)習(xí)策略。

如上圖3右側(cè)所示，在這個(gè)訓(xùn)練階段，本文將劇本內(nèi)容生成與交錯(cuò)關(guān)鍵幀生成解耦，并使用純文本劇本優(yōu)化理解 Transformer 專家。同時(shí)，生成 Transformer 專家使用交錯(cuò)文本-圖像數(shù)據(jù)進(jìn)一步優(yōu)化，其中理解分支通過停止梯度凍結(jié)。此外，本文將文本-圖像對(duì)納入訓(xùn)練過程，以進(jìn)一步提高視覺保真度。通過這種策略，劇本邏輯和圖像質(zhì)量都得到了有效提升，因?yàn)槟Ｐ涂梢猿浞掷贸浇诲e(cuò)劇本數(shù)據(jù)的異構(gòu)多模態(tài)訓(xùn)練數(shù)據(jù)。最后，為了實(shí)現(xiàn)劇本擴(kuò)展和續(xù)寫，本文引入了預(yù)上下文劇本拆分策略。

預(yù)上下文劇本拆分：基于純文本劇本，本文隨機(jī)插入新的用戶或系統(tǒng)提示來模擬兩種類型的創(chuàng)作需求。第一種是基于提示的劇本擴(kuò)展，如上圖4中間部分所示。具體來說，本文將一個(gè)完整劇本分成兩部分，并在劇本中插入指示 token ，后跟一個(gè)新的用戶提示，讓模型學(xué)習(xí)如何從給定提示中連貫地?cái)U(kuò)展現(xiàn)有敘事。新的用戶提示通過使用 Qwen 2.5 總結(jié)劇本的第二部分生成。第二種是情境中劇本續(xù)寫，如上圖4右側(cè)所示。在這種情況下，本文在劇本的最后一鏡頭之前插入指示 token ，后跟一個(gè)系統(tǒng)提示，使模型能夠在推理過程中無限期地續(xù)寫劇本。

UniMAGE 的推理

在推理過程中，本文保持文本和圖像的解耦生成過程。具體來說，UniMAGE 首先根據(jù)用戶提示生成多鏡頭文本劇本。然后，用戶可以使用新的提示擴(kuò)展敘事，或根據(jù)之前生成的內(nèi)容連續(xù)生成后續(xù)鏡頭。最后，完整的劇本被分割成單獨(dú)的鏡頭，并以交錯(cuò)的方式生成相應(yīng)的關(guān)鍵幀圖像。這種統(tǒng)一而解耦的策略——單個(gè)模型處理兩種模態(tài)，同時(shí)分離文本和圖像的生成過程——有效地確保了劇本的邏輯連貫性和生成圖像的視覺一致性。因此，UniMAGE 可以生成更長(zhǎng)、更連貫的敘事，同時(shí)緩解情節(jié)重復(fù)和圖像失真等問題。

實(shí)驗(yàn)

本文進(jìn)行了廣泛的實(shí)驗(yàn)，以驗(yàn)證 UniMAGE 的有效性，包括定性評(píng)估和定量評(píng)估。

數(shù)據(jù)集

為了支持 UniMAGE 的統(tǒng)一多模態(tài)訓(xùn)練范式，本文構(gòu)建了一個(gè)大規(guī)模且多樣化的數(shù)據(jù)集，其中整合了多鏡頭劇本、長(zhǎng)文本敘事和高質(zhì)量的文本-圖像對(duì)。該數(shù)據(jù)集由三個(gè)互補(bǔ)的子集組成，每個(gè)子集都與 UniMAGE 中的特定學(xué)習(xí)目標(biāo)對(duì)齊：

多鏡頭文本-圖像劇本（450k 序列）：本文從廣泛的開源電影內(nèi)容、短片和紀(jì)錄片中收集了多鏡頭視頻。每個(gè)視頻都使用視覺場(chǎng)景過渡檢測(cè)分割成連貫的鏡頭。對(duì)于每個(gè)鏡頭，本文采用 Gemini 2.5 Pro 來生成詳細(xì)的文本注釋。該子集構(gòu)成了交錯(cuò)概念學(xué)習(xí)的骨干，使 UniMAGE 能夠建模多模態(tài)推理并維護(hù)文本-圖像交錯(cuò)序列的全局一致性。

多鏡頭文本劇本（250k 樣本）：為了進(jìn)一步增強(qiáng)超越視覺基礎(chǔ)數(shù)據(jù)的長(zhǎng)篇敘事能力，本文整理了一個(gè)大型文本劇本語料庫。這些劇本使用 Qwen 2.5 重新組織和結(jié)構(gòu)化，以適應(yīng) UniMAGE 的分層劇本格式。這個(gè)純文本子集對(duì)于解耦專家學(xué)習(xí)至關(guān)重要，使理解專家能夠?qū)W習(xí)豐富的敘事邏輯、鏡頭過渡和對(duì)話慣例。

單鏡頭文本-圖像對(duì)（250k 樣本）：為了提高圖像質(zhì)量和保真度，特別是對(duì)于角色渲染和場(chǎng)景構(gòu)圖，本文整理了一組大型單鏡頭圖像。每張圖像都使用 Gemini 2.5 Pro 重新標(biāo)注，以獲得詳細(xì)的、劇本結(jié)構(gòu)化的描述。該子集在解耦專家學(xué)習(xí)階段用于生成專家的訓(xùn)練，以提高視覺精度、多樣性和可控性。

實(shí)施細(xì)節(jié)

UniMAGE 是基于 BAGEL 的開源框架實(shí)現(xiàn)的，該框架提供了統(tǒng)一的 MoT 架構(gòu)作為多模態(tài)理解和生成的基礎(chǔ)。所有實(shí)驗(yàn)都遵循 BAGEL 的標(biāo)準(zhǔn)化訓(xùn)練流程和并行策略。在交錯(cuò)概念學(xué)習(xí)階段，僅使用多鏡頭文本-圖像劇本數(shù)據(jù)，學(xué)習(xí)率為 1e-5，總訓(xùn)練步數(shù)為 30,000。在隨后的解耦專家學(xué)習(xí)階段，使用整個(gè)數(shù)據(jù)集，學(xué)習(xí)率相同為 1e-5，訓(xùn)練步數(shù)為 10,000。值得注意的是，在此階段，僅使用純文本樣本來優(yōu)化理解分支，而在優(yōu)化生成分支期間，文本 token 與計(jì)算圖分離，以防止梯度傳播并確保解耦學(xué)習(xí)。

評(píng)估指標(biāo)

本文進(jìn)行了定性和定量評(píng)估，以全面評(píng)估 UniMAGE 在敘事連貫性、角色一致性和視覺質(zhì)量方面的性能。定性結(jié)果側(cè)重于長(zhǎng)篇故事講述場(chǎng)景，展示了從不同用戶提示生成的多個(gè)鏡頭劇本和相應(yīng)的關(guān)鍵幀。定量結(jié)果在公共基準(zhǔn) ViStoryBench 上獲得，該基準(zhǔn)評(píng)估了各種敘事結(jié)構(gòu)、視覺風(fēng)格和角色設(shè)置下的故事可視化模型。本文報(bào)告了六項(xiàng)指標(biāo)：風(fēng)格相似性 (CSD)、角色識(shí)別相似性 (CIDS)、提示依從性 (Alignment)、舞臺(tái)角色計(jì)數(shù)匹配 (OCCM)、圖像質(zhì)量 (Inception) 和美學(xué)。

定性結(jié)果

如下圖5所示，本文將 UniMAGE 與最近的劇本可視化方法（包括 StoryDiffusion 和 Story2Board）以及多模態(tài)劇本生成模型 SEED-Story 進(jìn)行了比較。UniMAGE 在多角色劇本生成方面表現(xiàn)出卓越的能力，能夠跨多個(gè)鏡頭保持一致的角色身份和視覺連貫性。相比之下，基線方法在敘事轉(zhuǎn)向新場(chǎng)景或攝像機(jī)角度時(shí)，通常會(huì)在面部結(jié)構(gòu)、發(fā)型或服裝方面產(chǎn)生明顯的差異，導(dǎo)致角色外觀不穩(wěn)定和不匹配。UniMAGE 通過其統(tǒng)一的導(dǎo)演架構(gòu)和提出的情境中 ID 提示，能夠可靠地將圖像中的每個(gè)角色與劇本中定義的相應(yīng)文本身份相關(guān)聯(lián)，從而實(shí)現(xiàn)了穩(wěn)定的身份保持。

如下圖6所示，在長(zhǎng)篇?jiǎng)”旧煞矫�，StoryDiffusion 保持了基本的角色一致性，但場(chǎng)景變化有限，導(dǎo)致視覺模式重復(fù)和跨鏡頭的復(fù)制粘貼偽影。Story2Board 和 SEED-Story 表現(xiàn)出更大的不一致性，并且在保持穩(wěn)定的視覺風(fēng)格或角色身份方面都存在困難，產(chǎn)生了碎片化的過渡并削弱了敘事連貫性。相比之下，UniMAGE 有效地建模了長(zhǎng)程時(shí)間結(jié)構(gòu)，并以更高的保真度遵循了情節(jié)發(fā)展。

定量結(jié)果

如下表1所示，UniMAGE 在 ViStoryBench 上取得了最佳的整體性能，特別是在與一致性相關(guān)的指標(biāo)方面。它獲得了最高的 CIDS（59.2）和 OCCM（88.07），表明跨鏡頭的強(qiáng)大角色身份保留。UniMAGE 在 Alignment（80.8）方面也取得了顯著改進(jìn)，明顯優(yōu)于現(xiàn)有方法，表明其對(duì)敘事提示的依從性顯著提高。雖然一些基線在獨(dú)立指標(biāo)上表現(xiàn)出競(jìng)爭(zhēng)力（例如，SEED-Story 在 CSD 上或 StoryDiffusion 在圖像質(zhì)量和美學(xué)上），但沒有一個(gè)能像 UniMAGE 那樣在一致性、敘事對(duì)齊和視覺質(zhì)量之間提供平衡的性能。

“UniMAGE w/o ID-P”和完整 UniMAGE 之間的比較證實(shí)了情境中 ID 提示策略的重要性。去除 ID-P 會(huì)顯著降低 CSD、CIDS 和 OCCM，表明身份穩(wěn)定性和場(chǎng)景連貫性較弱。這表明明確的 ID 條件對(duì)于在長(zhǎng)篇故事講述中保持一致的多角色表示至關(guān)重要。

用戶研究

如下圖9所示，用戶研究表明，UniMAGE 在所有標(biāo)準(zhǔn)中都獲得了最高的偏好，包括敘事邏輯的 GSB 分?jǐn)?shù)為 0.72，這表明在長(zhǎng)篇故事連貫性方面具有明顯優(yōu)勢(shì)。這些結(jié)果證實(shí)，大多數(shù)參與者更喜歡 UniMAGE 生成的劇本，而不是現(xiàn)有基線生成的劇本。

結(jié)論

UniMAGE，一個(gè)統(tǒng)一的導(dǎo)演模型，它將傳統(tǒng)上分離的劇本起草和關(guān)鍵幀生成過程集成到一個(gè)單一、連貫的框架中。通過利用 Mixture-of-Transformers 架構(gòu)，UniMAGE 彌合了文本推理和視覺想象之間的鴻溝，從而使用戶能夠制作出具有邏輯和視覺連貫性的長(zhǎng)文本、多鏡頭敘事。本文方法的核心是兩個(gè)協(xié)同的訓(xùn)練范式：交錯(cuò)概念學(xué)習(xí)，它通過文本-圖像交錯(cuò)促進(jìn)對(duì)敘事概念的聯(lián)合理解；以及解耦專家學(xué)習(xí)，它將劇本和關(guān)鍵幀生成解耦，以增強(qiáng)創(chuàng)造力和結(jié)構(gòu)一致性。在情境中 ID 提示和預(yù)上下文劇本拆分的進(jìn)一步支持下，UniMAGE 在維護(hù)角色身份、故事情節(jié)連續(xù)性和跨擴(kuò)展序列的視覺對(duì)齊方面表現(xiàn)出強(qiáng)大的能力。實(shí)驗(yàn)評(píng)估證實(shí)，UniMAGE 在開源系統(tǒng)中取得了最先進(jìn)的結(jié)果，為下一代 AI 驅(qū)動(dòng)的電影創(chuàng)作奠定了基礎(chǔ)。

局限性 UniMAGE 主要旨在增強(qiáng)敘事連貫性并保持長(zhǎng)劇本的強(qiáng)大視覺一致性。然而，電影制作的幾個(gè)更高層次的維度——例如情感節(jié)奏、風(fēng)格化電影攝影以及對(duì)導(dǎo)演意圖的細(xì)粒度控制——尚未完全解決。將 UniMAGE 擴(kuò)展到更豐富的電影理解和更具表現(xiàn)力的敘事控制仍然是未來工作的重要方向。

參考文獻(xiàn)

[1] Bridging Your Imagination with Audio-Video Generation via a Unified Director

原文標(biāo)題 : 一個(gè)人就是一支整編劇組！首個(gè)“統(tǒng)一導(dǎo)演”模型發(fā)布：字節(jié)UniMAGE，讓腦洞原地變大片