訂閱
糾錯
加入自媒體

一個人就是一支整編劇組!首個“統(tǒng)一導演”模型發(fā)布:字節(jié)UniMAGE,讓腦洞原地變大片

2026-01-08 14:40
AI生成未來
關注

作者:Jiaxu Zhang等

解讀:AI生成未來

亮點直擊

概念:UniMAGE體現(xiàn)了“統(tǒng)一導演模型” 的概念,整體協(xié)調(diào)敘事邏輯和視覺構圖,將用戶意圖與多模態(tài)劇本聯(lián)系起來,實現(xiàn)創(chuàng)意音視頻生成。

技術:UniMAGE 采用交錯概念學習和解耦專家學習,結合情境中 ID 提示和預上下文劇本拆分策略,以增強長上下文序列中的視覺一致性和敘事連貫性。

性能:UniMAGE 在長篇、多場景劇本創(chuàng)作中展現(xiàn)出強大的能力和泛化性,與現(xiàn)有基于代理和統(tǒng)一模型相比,實現(xiàn)了卓越的敘事連貫性、角色穩(wěn)定性和圖像一致性。

總結速覽

解決的問題

現(xiàn)有的 AI 驅(qū)動視頻創(chuàng)作系統(tǒng)通常將劇本起草和關鍵鏡頭設計視為兩個獨立任務,前者依賴大型語言模型,后者依賴圖像生成模型,導致敘事邏輯和視覺一致性有限。

當前模型主要關注短單鏡頭視頻的視覺保真度和時間連貫性,限制了它們傳達長篇敘事的能力。

即使是先進的商業(yè)系統(tǒng),如 Veo 3 和 Sora 2,也高度依賴結構化的提示,并且通常局限于短單鏡頭視頻。它們?nèi)狈σ?guī)劃和維護多鏡頭、敘事驅(qū)動序列連貫性的能力。

提出的方案

本文提出了 UniMAGE,一個統(tǒng)一的導演模型,旨在將劇本起草和關鍵鏡頭設計這兩個任務統(tǒng)一在一個框架內(nèi),因為邏輯推理和想象力思維都是電影導演的基本素質(zhì)。

UniMAGE 旨在彌合用戶提示與結構化劇本之間的鴻溝,從而使非專業(yè)用戶能夠利用現(xiàn)有的音視頻生成模型,制作出長文本、多鏡頭影片。

UniMAGE 作為一個統(tǒng)一的導演模型,通過多模態(tài)劇本生成,將用戶的想象力與長文本、電影般的音視頻創(chuàng)作聯(lián)系起來。

應用的技術

Mixture-of-Transformers (MoT) 架構:UniMAGE 采用 MoT 架構來統(tǒng)一文本和圖像生成。

“先交錯,后解耦”訓練范式:為了增強敘事邏輯和關鍵幀一致性,本文引入了這種范式。交錯概念學習 (Interleaved Concept Learning):利用交錯的文本-圖像數(shù)據(jù),促進模型對劇本更深層次的理解和富有想象力的解釋。

解耦專家學習 (Disentangled Expert Learning):將劇本編寫與關鍵幀生成解耦,從而在故事講述中實現(xiàn)更大的靈活性和創(chuàng)造力。

達到的效果

UniMAGE 在開源模型中取得了SOTA性能。它能夠生成邏輯連貫的視頻劇本和視覺一致的關鍵幀圖像。模型能夠處理長文本、多鏡頭影片的制作。

架構方法

UniMAGE 采用了一種新穎的 Mixture-of-Transformers (MoT) 架構,它將文本和圖像生成統(tǒng)一在一個框架中。該模型由兩個 Transformer 專家組成:一個用于多模態(tài)理解,另一個用于圖像生成。相應地,它使用兩種類型的視覺編碼器,一個面向理解的編碼器(ViT)和一個面向生成的編碼器(VAE)。兩個 Transformer 專家通過共享的自注意力層處理相同的 token 序列。對于文本 token 預測,UniMAGE 遵循 Next Token Prediction (NTP) 范式,利用自回歸建模的既定優(yōu)勢。對于視覺 token 預測,它采用 Rectified Flow,與視覺生成中的主流實踐保持一致。

劇本結構

如下圖2所示,UniMAGE 中使用的劇本結構由三個主要組件構成:全局描述 G、內(nèi)容描述 C 和關鍵幀圖像 F,以及用戶提示 ρ。本文設計了一組特殊 token 來表示劇本中的每個元素,包括 、、、 和 ,其中 N 表示索引。當全局描述中定義的角色或環(huán)境出現(xiàn)在內(nèi)容描述中時,使用相應的特殊 token 來指示主體在場景中的出現(xiàn)。例如,“在豪華郵輪的甲板上,一個年輕人 . . . ”。這些特殊 token 有助于模型準確識別角色和環(huán)境,同時保持劇本的簡潔和結構一致性。內(nèi)容描述進一步分為兩個互補的層次。幀描述捕捉關鍵時刻的靜態(tài)視覺布局,例如攝像機位置、燈光和角色布局。視頻描述則側(cè)重于時間性和敘事性方面,包括對話、情節(jié)發(fā)展和動作。此外,本文引入了指示符 <- -> 來表示角色對話和環(huán)境音效,使得相應的音頻內(nèi)容可以在后續(xù)階段輕松檢索。例如,“<-現(xiàn)在閉上眼睛。繼續(xù)。->”。為了適應不同的用戶輸入格式,本文定義了四種不同的用戶提示風格,在訓練過程中隨機采樣。

交錯概念學習

本文使用 Bagel 中預訓練的權重初始化 UniMAGE 的 MoT 模型,這為統(tǒng)一多模態(tài)理解和生成提供了強大的基礎能力。然而,與 Bagel 側(cè)重于多步圖像編輯的訓練格式不同,UniMAGE 需要在理解前置敘事的基礎上生成圖像和劇本文本。此外,劇本數(shù)據(jù)的長文本特性超出了基礎模型的容量,因此需要交錯概念學習策略來實現(xiàn)連貫的敘事和視覺生成。

如下圖3左側(cè)所示,通過上述定義的劇本結構,劇本可以組織為交錯的文本-圖像數(shù)據(jù)。首先執(zhí)行交錯概念學習,使 MoT 模型能夠以交錯的方式生成文本和圖像,從而促進對冗長、上下文豐富的劇本的更深入理解。這個訓練階段在概念上類似于 Chain-of-Thought 策略,其中文本內(nèi)容作為模型的推理過程,隨后根據(jù)前置敘事上下文生成圖像。在此階段,兩個 Transformer 專家的所有參數(shù)都聯(lián)合優(yōu)化,允許生成結果影響模型的文本理解,反之亦然。

為了解決多角色和多場景的視覺一致性問題,本文提出了情境中 ID 提示 (In-Context ID Prompting) 方法。如下圖4左側(cè)所示,在用于理解的 ViT token 和用于圖像引用的 VAE token 中,插入特殊的文本 token 來指示幀 ID,以及圖像中出現(xiàn)的角色和環(huán)境 ID。在每個圖像的 ViT 或 VAE token 及其相應的特殊 token 之間應用完全注意力。這種情境中 ID 提示策略,結合劇本結構中定義的特殊 token,有效地保留了劇本文本和生成圖像之間的長程關聯(lián),確保了整個敘事中一致的視覺身份和場景連續(xù)性。

解耦專家學習

交錯概念學習階段賦予了 UniMAGE 對整體劇本的全面而連貫的理解。然而,這種交錯生成策略不可避免地限制了模型在內(nèi)容創(chuàng)作方面的靈活性,特別是對于劇本擴展和續(xù)寫等任務,模型必須動態(tài)適應新的用戶提示或無縫擴展現(xiàn)有敘事上下文。此外,獲取邏輯一致的多鏡頭文本-圖像數(shù)據(jù)本身就具有挑戰(zhàn)性,這限制了模型從交錯數(shù)據(jù)中充分學習長篇敘事邏輯的能力。因此,本文引入了解耦專家學習策略。

如上圖3右側(cè)所示,在這個訓練階段,本文將劇本內(nèi)容生成與交錯關鍵幀生成解耦,并使用純文本劇本優(yōu)化理解 Transformer 專家。同時,生成 Transformer 專家使用交錯文本-圖像數(shù)據(jù)進一步優(yōu)化,其中理解分支通過停止梯度凍結。此外,本文將文本-圖像對納入訓練過程,以進一步提高視覺保真度。通過這種策略,劇本邏輯和圖像質(zhì)量都得到了有效提升,因為模型可以充分利用超越交錯劇本數(shù)據(jù)的異構多模態(tài)訓練數(shù)據(jù)。最后,為了實現(xiàn)劇本擴展和續(xù)寫,本文引入了預上下文劇本拆分策略。

預上下文劇本拆分:基于純文本劇本,本文隨機插入新的用戶或系統(tǒng)提示來模擬兩種類型的創(chuàng)作需求。第一種是基于提示的劇本擴展,如上圖4中間部分所示。具體來說,本文將一個完整劇本分成兩部分,并在劇本中插入指示 token ,后跟一個新的用戶提示,讓模型學習如何從給定提示中連貫地擴展現(xiàn)有敘事。新的用戶提示通過使用 Qwen 2.5 總結劇本的第二部分生成。第二種是情境中劇本續(xù)寫,如上圖4右側(cè)所示。在這種情況下,本文在劇本的最后一鏡頭之前插入指示 token ,后跟一個系統(tǒng)提示,使模型能夠在推理過程中無限期地續(xù)寫劇本。

UniMAGE 的推理

在推理過程中,本文保持文本和圖像的解耦生成過程。具體來說,UniMAGE 首先根據(jù)用戶提示生成多鏡頭文本劇本。然后,用戶可以使用新的提示擴展敘事,或根據(jù)之前生成的內(nèi)容連續(xù)生成后續(xù)鏡頭。最后,完整的劇本被分割成單獨的鏡頭,并以交錯的方式生成相應的關鍵幀圖像。這種統(tǒng)一而解耦的策略——單個模型處理兩種模態(tài),同時分離文本和圖像的生成過程——有效地確保了劇本的邏輯連貫性和生成圖像的視覺一致性。因此,UniMAGE 可以生成更長、更連貫的敘事,同時緩解情節(jié)重復和圖像失真等問題。

實驗

本文進行了廣泛的實驗,以驗證 UniMAGE 的有效性,包括定性評估和定量評估。

數(shù)據(jù)集

為了支持 UniMAGE 的統(tǒng)一多模態(tài)訓練范式,本文構建了一個大規(guī)模且多樣化的數(shù)據(jù)集,其中整合了多鏡頭劇本、長文本敘事和高質(zhì)量的文本-圖像對。該數(shù)據(jù)集由三個互補的子集組成,每個子集都與 UniMAGE 中的特定學習目標對齊:

多鏡頭文本-圖像劇本(450k 序列):本文從廣泛的開源電影內(nèi)容、短片和紀錄片中收集了多鏡頭視頻。每個視頻都使用視覺場景過渡檢測分割成連貫的鏡頭。對于每個鏡頭,本文采用 Gemini 2.5 Pro 來生成詳細的文本注釋。該子集構成了交錯概念學習的骨干,使 UniMAGE 能夠建模多模態(tài)推理并維護文本-圖像交錯序列的全局一致性。

多鏡頭文本劇本(250k 樣本):為了進一步增強超越視覺基礎數(shù)據(jù)的長篇敘事能力,本文整理了一個大型文本劇本語料庫。這些劇本使用 Qwen 2.5 重新組織和結構化,以適應 UniMAGE 的分層劇本格式。這個純文本子集對于解耦專家學習至關重要,使理解專家能夠?qū)W習豐富的敘事邏輯、鏡頭過渡和對話慣例。

單鏡頭文本-圖像對(250k 樣本):為了提高圖像質(zhì)量和保真度,特別是對于角色渲染和場景構圖,本文整理了一組大型單鏡頭圖像。每張圖像都使用 Gemini 2.5 Pro 重新標注,以獲得詳細的、劇本結構化的描述。該子集在解耦專家學習階段用于生成專家的訓練,以提高視覺精度、多樣性和可控性。

實施細節(jié)

UniMAGE 是基于 BAGEL 的開源框架實現(xiàn)的,該框架提供了統(tǒng)一的 MoT 架構作為多模態(tài)理解和生成的基礎。所有實驗都遵循 BAGEL 的標準化訓練流程和并行策略。在交錯概念學習階段,僅使用多鏡頭文本-圖像劇本數(shù)據(jù),學習率為 1e-5,總訓練步數(shù)為 30,000。在隨后的解耦專家學習階段,使用整個數(shù)據(jù)集,學習率相同為 1e-5,訓練步數(shù)為 10,000。值得注意的是,在此階段,僅使用純文本樣本來優(yōu)化理解分支,而在優(yōu)化生成分支期間,文本 token 與計算圖分離,以防止梯度傳播并確保解耦學習。

評估指標

本文進行了定性和定量評估,以全面評估 UniMAGE 在敘事連貫性、角色一致性和視覺質(zhì)量方面的性能。定性結果側(cè)重于長篇故事講述場景,展示了從不同用戶提示生成的多個鏡頭劇本和相應的關鍵幀。定量結果在公共基準 ViStoryBench 上獲得,該基準評估了各種敘事結構、視覺風格和角色設置下的故事可視化模型。本文報告了六項指標:風格相似性 (CSD)、角色識別相似性 (CIDS)、提示依從性 (Alignment)、舞臺角色計數(shù)匹配 (OCCM)、圖像質(zhì)量 (Inception) 和美學。

定性結果

如下圖5所示,本文將 UniMAGE 與最近的劇本可視化方法(包括 StoryDiffusion 和 Story2Board)以及多模態(tài)劇本生成模型 SEED-Story 進行了比較。UniMAGE 在多角色劇本生成方面表現(xiàn)出卓越的能力,能夠跨多個鏡頭保持一致的角色身份和視覺連貫性。相比之下,基線方法在敘事轉(zhuǎn)向新場景或攝像機角度時,通常會在面部結構、發(fā)型或服裝方面產(chǎn)生明顯的差異,導致角色外觀不穩(wěn)定和不匹配。UniMAGE 通過其統(tǒng)一的導演架構和提出的情境中 ID 提示,能夠可靠地將圖像中的每個角色與劇本中定義的相應文本身份相關聯(lián),從而實現(xiàn)了穩(wěn)定的身份保持。

如下圖6所示,在長篇劇本生成方面,StoryDiffusion 保持了基本的角色一致性,但場景變化有限,導致視覺模式重復和跨鏡頭的復制粘貼偽影。Story2Board 和 SEED-Story 表現(xiàn)出更大的不一致性,并且在保持穩(wěn)定的視覺風格或角色身份方面都存在困難,產(chǎn)生了碎片化的過渡并削弱了敘事連貫性。相比之下,UniMAGE 有效地建模了長程時間結構,并以更高的保真度遵循了情節(jié)發(fā)展。

定量結果

如下表1所示,UniMAGE 在 ViStoryBench 上取得了最佳的整體性能,特別是在與一致性相關的指標方面。它獲得了最高的 CIDS(59.2)和 OCCM(88.07),表明跨鏡頭的強大角色身份保留。UniMAGE 在 Alignment(80.8)方面也取得了顯著改進,明顯優(yōu)于現(xiàn)有方法,表明其對敘事提示的依從性顯著提高。雖然一些基線在獨立指標上表現(xiàn)出競爭力(例如,SEED-Story 在 CSD 上或 StoryDiffusion 在圖像質(zhì)量和美學上),但沒有一個能像 UniMAGE 那樣在一致性、敘事對齊和視覺質(zhì)量之間提供平衡的性能。

“UniMAGE w/o ID-P”和完整 UniMAGE 之間的比較證實了情境中 ID 提示策略的重要性。去除 ID-P 會顯著降低 CSD、CIDS 和 OCCM,表明身份穩(wěn)定性和場景連貫性較弱。這表明明確的 ID 條件對于在長篇故事講述中保持一致的多角色表示至關重要。

用戶研究

如下圖9所示,用戶研究表明,UniMAGE 在所有標準中都獲得了最高的偏好,包括敘事邏輯的 GSB 分數(shù)為 0.72,這表明在長篇故事連貫性方面具有明顯優(yōu)勢。這些結果證實,大多數(shù)參與者更喜歡 UniMAGE 生成的劇本,而不是現(xiàn)有基線生成的劇本。

結論

UniMAGE,一個統(tǒng)一的導演模型,它將傳統(tǒng)上分離的劇本起草和關鍵幀生成過程集成到一個單一、連貫的框架中。通過利用 Mixture-of-Transformers 架構,UniMAGE 彌合了文本推理和視覺想象之間的鴻溝,從而使用戶能夠制作出具有邏輯和視覺連貫性的長文本、多鏡頭敘事。本文方法的核心是兩個協(xié)同的訓練范式:交錯概念學習,它通過文本-圖像交錯促進對敘事概念的聯(lián)合理解;以及解耦專家學習,它將劇本和關鍵幀生成解耦,以增強創(chuàng)造力和結構一致性。在情境中 ID 提示和預上下文劇本拆分的進一步支持下,UniMAGE 在維護角色身份、故事情節(jié)連續(xù)性和跨擴展序列的視覺對齊方面表現(xiàn)出強大的能力。實驗評估證實,UniMAGE 在開源系統(tǒng)中取得了最先進的結果,為下一代 AI 驅(qū)動的電影創(chuàng)作奠定了基礎。

局限性 UniMAGE 主要旨在增強敘事連貫性并保持長劇本的強大視覺一致性。然而,電影制作的幾個更高層次的維度——例如情感節(jié)奏、風格化電影攝影以及對導演意圖的細粒度控制——尚未完全解決。將 UniMAGE 擴展到更豐富的電影理解和更具表現(xiàn)力的敘事控制仍然是未來工作的重要方向。

參考文獻

[1] Bridging Your Imagination with Audio-Video Generation via a Unified Director

       原文標題 : 一個人就是一支整編劇組!首個“統(tǒng)一導演”模型發(fā)布:字節(jié)UniMAGE,讓腦洞原地變大片

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號