訂閱
糾錯(cuò)
加入自媒體

一個(gè)人就是一支整編劇組!首個(gè)“統(tǒng)一導(dǎo)演”模型發(fā)布:字節(jié)UniMAGE,讓腦洞原地變大片

作者:Jiaxu Zhang等

解讀:AI生成未來

亮點(diǎn)直擊

概念:UniMAGE體現(xiàn)了“統(tǒng)一導(dǎo)演模型” 的概念,整體協(xié)調(diào)敘事邏輯和視覺構(gòu)圖,將用戶意圖與多模態(tài)劇本聯(lián)系起來,實(shí)現(xiàn)創(chuàng)意音視頻生成。

技術(shù):UniMAGE 采用交錯(cuò)概念學(xué)習(xí)和解耦專家學(xué)習(xí),結(jié)合情境中 ID 提示和預(yù)上下文劇本拆分策略,以增強(qiáng)長(zhǎng)上下文序列中的視覺一致性和敘事連貫性。

性能:UniMAGE 在長(zhǎng)篇、多場(chǎng)景劇本創(chuàng)作中展現(xiàn)出強(qiáng)大的能力和泛化性,與現(xiàn)有基于代理和統(tǒng)一模型相比,實(shí)現(xiàn)了卓越的敘事連貫性、角色穩(wěn)定性和圖像一致性。

總結(jié)速覽

解決的問題

現(xiàn)有的 AI 驅(qū)動(dòng)視頻創(chuàng)作系統(tǒng)通常將劇本起草和關(guān)鍵鏡頭設(shè)計(jì)視為兩個(gè)獨(dú)立任務(wù),前者依賴大型語言模型,后者依賴圖像生成模型,導(dǎo)致敘事邏輯和視覺一致性有限。

當(dāng)前模型主要關(guān)注短單鏡頭視頻的視覺保真度和時(shí)間連貫性,限制了它們傳達(dá)長(zhǎng)篇敘事的能力。

即使是先進(jìn)的商業(yè)系統(tǒng),如 Veo 3 和 Sora 2,也高度依賴結(jié)構(gòu)化的提示,并且通常局限于短單鏡頭視頻。它們?nèi)狈σ?guī)劃和維護(hù)多鏡頭、敘事驅(qū)動(dòng)序列連貫性的能力。

提出的方案

本文提出了 UniMAGE,一個(gè)統(tǒng)一的導(dǎo)演模型,旨在將劇本起草和關(guān)鍵鏡頭設(shè)計(jì)這兩個(gè)任務(wù)統(tǒng)一在一個(gè)框架內(nèi),因?yàn)檫壿嬐评砗拖胂罅λ季S都是電影導(dǎo)演的基本素質(zhì)。

UniMAGE 旨在彌合用戶提示與結(jié)構(gòu)化劇本之間的鴻溝,從而使非專業(yè)用戶能夠利用現(xiàn)有的音視頻生成模型,制作出長(zhǎng)文本、多鏡頭影片。

UniMAGE 作為一個(gè)統(tǒng)一的導(dǎo)演模型,通過多模態(tài)劇本生成,將用戶的想象力與長(zhǎng)文本、電影般的音視頻創(chuàng)作聯(lián)系起來。

應(yīng)用的技術(shù)

Mixture-of-Transformers (MoT) 架構(gòu):UniMAGE 采用 MoT 架構(gòu)來統(tǒng)一文本和圖像生成。

“先交錯(cuò),后解耦”訓(xùn)練范式:為了增強(qiáng)敘事邏輯和關(guān)鍵幀一致性,本文引入了這種范式。交錯(cuò)概念學(xué)習(xí) (Interleaved Concept Learning):利用交錯(cuò)的文本-圖像數(shù)據(jù),促進(jìn)模型對(duì)劇本更深層次的理解和富有想象力的解釋。

解耦專家學(xué)習(xí) (Disentangled Expert Learning):將劇本編寫與關(guān)鍵幀生成解耦,從而在故事講述中實(shí)現(xiàn)更大的靈活性和創(chuàng)造力。

達(dá)到的效果

UniMAGE 在開源模型中取得了SOTA性能。它能夠生成邏輯連貫的視頻劇本和視覺一致的關(guān)鍵幀圖像。模型能夠處理長(zhǎng)文本、多鏡頭影片的制作。

架構(gòu)方法

UniMAGE 采用了一種新穎的 Mixture-of-Transformers (MoT) 架構(gòu),它將文本和圖像生成統(tǒng)一在一個(gè)框架中。該模型由兩個(gè) Transformer 專家組成:一個(gè)用于多模態(tài)理解,另一個(gè)用于圖像生成。相應(yīng)地,它使用兩種類型的視覺編碼器,一個(gè)面向理解的編碼器(ViT)和一個(gè)面向生成的編碼器(VAE)。兩個(gè) Transformer 專家通過共享的自注意力層處理相同的 token 序列。對(duì)于文本 token 預(yù)測(cè),UniMAGE 遵循 Next Token Prediction (NTP) 范式,利用自回歸建模的既定優(yōu)勢(shì)。對(duì)于視覺 token 預(yù)測(cè),它采用 Rectified Flow,與視覺生成中的主流實(shí)踐保持一致。

劇本結(jié)構(gòu)

如下圖2所示,UniMAGE 中使用的劇本結(jié)構(gòu)由三個(gè)主要組件構(gòu)成:全局描述 G、內(nèi)容描述 C 和關(guān)鍵幀圖像 F,以及用戶提示 ρ。本文設(shè)計(jì)了一組特殊 token 來表示劇本中的每個(gè)元素,包括 、、、 和 ,其中 N 表示索引。當(dāng)全局描述中定義的角色或環(huán)境出現(xiàn)在內(nèi)容描述中時(shí),使用相應(yīng)的特殊 token 來指示主體在場(chǎng)景中的出現(xiàn)。例如,“在豪華郵輪的甲板上,一個(gè)年輕人 . . . ”。這些特殊 token 有助于模型準(zhǔn)確識(shí)別角色和環(huán)境,同時(shí)保持劇本的簡(jiǎn)潔和結(jié)構(gòu)一致性。內(nèi)容描述進(jìn)一步分為兩個(gè)互補(bǔ)的層次。幀描述捕捉關(guān)鍵時(shí)刻的靜態(tài)視覺布局,例如攝像機(jī)位置、燈光和角色布局。視頻描述則側(cè)重于時(shí)間性和敘事性方面,包括對(duì)話、情節(jié)發(fā)展和動(dòng)作。此外,本文引入了指示符 <- -> 來表示角色對(duì)話和環(huán)境音效,使得相應(yīng)的音頻內(nèi)容可以在后續(xù)階段輕松檢索。例如,“<-現(xiàn)在閉上眼睛。繼續(xù)。->”。為了適應(yīng)不同的用戶輸入格式,本文定義了四種不同的用戶提示風(fēng)格,在訓(xùn)練過程中隨機(jī)采樣。

交錯(cuò)概念學(xué)習(xí)

本文使用 Bagel 中預(yù)訓(xùn)練的權(quán)重初始化 UniMAGE 的 MoT 模型,這為統(tǒng)一多模態(tài)理解和生成提供了強(qiáng)大的基礎(chǔ)能力。然而,與 Bagel 側(cè)重于多步圖像編輯的訓(xùn)練格式不同,UniMAGE 需要在理解前置敘事的基礎(chǔ)上生成圖像和劇本文本。此外,劇本數(shù)據(jù)的長(zhǎng)文本特性超出了基礎(chǔ)模型的容量,因此需要交錯(cuò)概念學(xué)習(xí)策略來實(shí)現(xiàn)連貫的敘事和視覺生成。

如下圖3左側(cè)所示,通過上述定義的劇本結(jié)構(gòu),劇本可以組織為交錯(cuò)的文本-圖像數(shù)據(jù)。首先執(zhí)行交錯(cuò)概念學(xué)習(xí),使 MoT 模型能夠以交錯(cuò)的方式生成文本和圖像,從而促進(jìn)對(duì)冗長(zhǎng)、上下文豐富的劇本的更深入理解。這個(gè)訓(xùn)練階段在概念上類似于 Chain-of-Thought 策略,其中文本內(nèi)容作為模型的推理過程,隨后根據(jù)前置敘事上下文生成圖像。在此階段,兩個(gè) Transformer 專家的所有參數(shù)都聯(lián)合優(yōu)化,允許生成結(jié)果影響模型的文本理解,反之亦然。

為了解決多角色和多場(chǎng)景的視覺一致性問題,本文提出了情境中 ID 提示 (In-Context ID Prompting) 方法。如下圖4左側(cè)所示,在用于理解的 ViT token 和用于圖像引用的 VAE token 中,插入特殊的文本 token 來指示幀 ID,以及圖像中出現(xiàn)的角色和環(huán)境 ID。在每個(gè)圖像的 ViT 或 VAE token 及其相應(yīng)的特殊 token 之間應(yīng)用完全注意力。這種情境中 ID 提示策略,結(jié)合劇本結(jié)構(gòu)中定義的特殊 token,有效地保留了劇本文本和生成圖像之間的長(zhǎng)程關(guān)聯(lián),確保了整個(gè)敘事中一致的視覺身份和場(chǎng)景連續(xù)性。

解耦專家學(xué)習(xí)

交錯(cuò)概念學(xué)習(xí)階段賦予了 UniMAGE 對(duì)整體劇本的全面而連貫的理解。然而,這種交錯(cuò)生成策略不可避免地限制了模型在內(nèi)容創(chuàng)作方面的靈活性,特別是對(duì)于劇本擴(kuò)展和續(xù)寫等任務(wù),模型必須動(dòng)態(tài)適應(yīng)新的用戶提示或無縫擴(kuò)展現(xiàn)有敘事上下文。此外,獲取邏輯一致的多鏡頭文本-圖像數(shù)據(jù)本身就具有挑戰(zhàn)性,這限制了模型從交錯(cuò)數(shù)據(jù)中充分學(xué)習(xí)長(zhǎng)篇敘事邏輯的能力。因此,本文引入了解耦專家學(xué)習(xí)策略。

如上圖3右側(cè)所示,在這個(gè)訓(xùn)練階段,本文將劇本內(nèi)容生成與交錯(cuò)關(guān)鍵幀生成解耦,并使用純文本劇本優(yōu)化理解 Transformer 專家。同時(shí),生成 Transformer 專家使用交錯(cuò)文本-圖像數(shù)據(jù)進(jìn)一步優(yōu)化,其中理解分支通過停止梯度凍結(jié)。此外,本文將文本-圖像對(duì)納入訓(xùn)練過程,以進(jìn)一步提高視覺保真度。通過這種策略,劇本邏輯和圖像質(zhì)量都得到了有效提升,因?yàn)槟P涂梢猿浞掷贸浇诲e(cuò)劇本數(shù)據(jù)的異構(gòu)多模態(tài)訓(xùn)練數(shù)據(jù)。最后,為了實(shí)現(xiàn)劇本擴(kuò)展和續(xù)寫,本文引入了預(yù)上下文劇本拆分策略。

預(yù)上下文劇本拆分:基于純文本劇本,本文隨機(jī)插入新的用戶或系統(tǒng)提示來模擬兩種類型的創(chuàng)作需求。第一種是基于提示的劇本擴(kuò)展,如上圖4中間部分所示。具體來說,本文將一個(gè)完整劇本分成兩部分,并在劇本中插入指示 token ,后跟一個(gè)新的用戶提示,讓模型學(xué)習(xí)如何從給定提示中連貫地?cái)U(kuò)展現(xiàn)有敘事。新的用戶提示通過使用 Qwen 2.5 總結(jié)劇本的第二部分生成。第二種是情境中劇本續(xù)寫,如上圖4右側(cè)所示。在這種情況下,本文在劇本的最后一鏡頭之前插入指示 token ,后跟一個(gè)系統(tǒng)提示,使模型能夠在推理過程中無限期地續(xù)寫劇本。

UniMAGE 的推理

在推理過程中,本文保持文本和圖像的解耦生成過程。具體來說,UniMAGE 首先根據(jù)用戶提示生成多鏡頭文本劇本。然后,用戶可以使用新的提示擴(kuò)展敘事,或根據(jù)之前生成的內(nèi)容連續(xù)生成后續(xù)鏡頭。最后,完整的劇本被分割成單獨(dú)的鏡頭,并以交錯(cuò)的方式生成相應(yīng)的關(guān)鍵幀圖像。這種統(tǒng)一而解耦的策略——單個(gè)模型處理兩種模態(tài),同時(shí)分離文本和圖像的生成過程——有效地確保了劇本的邏輯連貫性和生成圖像的視覺一致性。因此,UniMAGE 可以生成更長(zhǎng)、更連貫的敘事,同時(shí)緩解情節(jié)重復(fù)和圖像失真等問題。

實(shí)驗(yàn)

本文進(jìn)行了廣泛的實(shí)驗(yàn),以驗(yàn)證 UniMAGE 的有效性,包括定性評(píng)估和定量評(píng)估。

數(shù)據(jù)集

為了支持 UniMAGE 的統(tǒng)一多模態(tài)訓(xùn)練范式,本文構(gòu)建了一個(gè)大規(guī)模且多樣化的數(shù)據(jù)集,其中整合了多鏡頭劇本、長(zhǎng)文本敘事和高質(zhì)量的文本-圖像對(duì)。該數(shù)據(jù)集由三個(gè)互補(bǔ)的子集組成,每個(gè)子集都與 UniMAGE 中的特定學(xué)習(xí)目標(biāo)對(duì)齊:

多鏡頭文本-圖像劇本(450k 序列):本文從廣泛的開源電影內(nèi)容、短片和紀(jì)錄片中收集了多鏡頭視頻。每個(gè)視頻都使用視覺場(chǎng)景過渡檢測(cè)分割成連貫的鏡頭。對(duì)于每個(gè)鏡頭,本文采用 Gemini 2.5 Pro 來生成詳細(xì)的文本注釋。該子集構(gòu)成了交錯(cuò)概念學(xué)習(xí)的骨干,使 UniMAGE 能夠建模多模態(tài)推理并維護(hù)文本-圖像交錯(cuò)序列的全局一致性。

多鏡頭文本劇本(250k 樣本):為了進(jìn)一步增強(qiáng)超越視覺基礎(chǔ)數(shù)據(jù)的長(zhǎng)篇敘事能力,本文整理了一個(gè)大型文本劇本語料庫。這些劇本使用 Qwen 2.5 重新組織和結(jié)構(gòu)化,以適應(yīng) UniMAGE 的分層劇本格式。這個(gè)純文本子集對(duì)于解耦專家學(xué)習(xí)至關(guān)重要,使理解專家能夠?qū)W習(xí)豐富的敘事邏輯、鏡頭過渡和對(duì)話慣例。

單鏡頭文本-圖像對(duì)(250k 樣本):為了提高圖像質(zhì)量和保真度,特別是對(duì)于角色渲染和場(chǎng)景構(gòu)圖,本文整理了一組大型單鏡頭圖像。每張圖像都使用 Gemini 2.5 Pro 重新標(biāo)注,以獲得詳細(xì)的、劇本結(jié)構(gòu)化的描述。該子集在解耦專家學(xué)習(xí)階段用于生成專家的訓(xùn)練,以提高視覺精度、多樣性和可控性。

實(shí)施細(xì)節(jié)

UniMAGE 是基于 BAGEL 的開源框架實(shí)現(xiàn)的,該框架提供了統(tǒng)一的 MoT 架構(gòu)作為多模態(tài)理解和生成的基礎(chǔ)。所有實(shí)驗(yàn)都遵循 BAGEL 的標(biāo)準(zhǔn)化訓(xùn)練流程和并行策略。在交錯(cuò)概念學(xué)習(xí)階段,僅使用多鏡頭文本-圖像劇本數(shù)據(jù),學(xué)習(xí)率為 1e-5,總訓(xùn)練步數(shù)為 30,000。在隨后的解耦專家學(xué)習(xí)階段,使用整個(gè)數(shù)據(jù)集,學(xué)習(xí)率相同為 1e-5,訓(xùn)練步數(shù)為 10,000。值得注意的是,在此階段,僅使用純文本樣本來優(yōu)化理解分支,而在優(yōu)化生成分支期間,文本 token 與計(jì)算圖分離,以防止梯度傳播并確保解耦學(xué)習(xí)。

評(píng)估指標(biāo)

本文進(jìn)行了定性和定量評(píng)估,以全面評(píng)估 UniMAGE 在敘事連貫性、角色一致性和視覺質(zhì)量方面的性能。定性結(jié)果側(cè)重于長(zhǎng)篇故事講述場(chǎng)景,展示了從不同用戶提示生成的多個(gè)鏡頭劇本和相應(yīng)的關(guān)鍵幀。定量結(jié)果在公共基準(zhǔn) ViStoryBench 上獲得,該基準(zhǔn)評(píng)估了各種敘事結(jié)構(gòu)、視覺風(fēng)格和角色設(shè)置下的故事可視化模型。本文報(bào)告了六項(xiàng)指標(biāo):風(fēng)格相似性 (CSD)、角色識(shí)別相似性 (CIDS)、提示依從性 (Alignment)、舞臺(tái)角色計(jì)數(shù)匹配 (OCCM)、圖像質(zhì)量 (Inception) 和美學(xué)。

定性結(jié)果

如下圖5所示,本文將 UniMAGE 與最近的劇本可視化方法(包括 StoryDiffusion 和 Story2Board)以及多模態(tài)劇本生成模型 SEED-Story 進(jìn)行了比較。UniMAGE 在多角色劇本生成方面表現(xiàn)出卓越的能力,能夠跨多個(gè)鏡頭保持一致的角色身份和視覺連貫性。相比之下,基線方法在敘事轉(zhuǎn)向新場(chǎng)景或攝像機(jī)角度時(shí),通常會(huì)在面部結(jié)構(gòu)、發(fā)型或服裝方面產(chǎn)生明顯的差異,導(dǎo)致角色外觀不穩(wěn)定和不匹配。UniMAGE 通過其統(tǒng)一的導(dǎo)演架構(gòu)和提出的情境中 ID 提示,能夠可靠地將圖像中的每個(gè)角色與劇本中定義的相應(yīng)文本身份相關(guān)聯(lián),從而實(shí)現(xiàn)了穩(wěn)定的身份保持。

如下圖6所示,在長(zhǎng)篇?jiǎng)”旧煞矫,StoryDiffusion 保持了基本的角色一致性,但場(chǎng)景變化有限,導(dǎo)致視覺模式重復(fù)和跨鏡頭的復(fù)制粘貼偽影。Story2Board 和 SEED-Story 表現(xiàn)出更大的不一致性,并且在保持穩(wěn)定的視覺風(fēng)格或角色身份方面都存在困難,產(chǎn)生了碎片化的過渡并削弱了敘事連貫性。相比之下,UniMAGE 有效地建模了長(zhǎng)程時(shí)間結(jié)構(gòu),并以更高的保真度遵循了情節(jié)發(fā)展。

定量結(jié)果

如下表1所示,UniMAGE 在 ViStoryBench 上取得了最佳的整體性能,特別是在與一致性相關(guān)的指標(biāo)方面。它獲得了最高的 CIDS(59.2)和 OCCM(88.07),表明跨鏡頭的強(qiáng)大角色身份保留。UniMAGE 在 Alignment(80.8)方面也取得了顯著改進(jìn),明顯優(yōu)于現(xiàn)有方法,表明其對(duì)敘事提示的依從性顯著提高。雖然一些基線在獨(dú)立指標(biāo)上表現(xiàn)出競(jìng)爭(zhēng)力(例如,SEED-Story 在 CSD 上或 StoryDiffusion 在圖像質(zhì)量和美學(xué)上),但沒有一個(gè)能像 UniMAGE 那樣在一致性、敘事對(duì)齊和視覺質(zhì)量之間提供平衡的性能。

“UniMAGE w/o ID-P”和完整 UniMAGE 之間的比較證實(shí)了情境中 ID 提示策略的重要性。去除 ID-P 會(huì)顯著降低 CSD、CIDS 和 OCCM,表明身份穩(wěn)定性和場(chǎng)景連貫性較弱。這表明明確的 ID 條件對(duì)于在長(zhǎng)篇故事講述中保持一致的多角色表示至關(guān)重要。

用戶研究

如下圖9所示,用戶研究表明,UniMAGE 在所有標(biāo)準(zhǔn)中都獲得了最高的偏好,包括敘事邏輯的 GSB 分?jǐn)?shù)為 0.72,這表明在長(zhǎng)篇故事連貫性方面具有明顯優(yōu)勢(shì)。這些結(jié)果證實(shí),大多數(shù)參與者更喜歡 UniMAGE 生成的劇本,而不是現(xiàn)有基線生成的劇本。

結(jié)論

UniMAGE,一個(gè)統(tǒng)一的導(dǎo)演模型,它將傳統(tǒng)上分離的劇本起草和關(guān)鍵幀生成過程集成到一個(gè)單一、連貫的框架中。通過利用 Mixture-of-Transformers 架構(gòu),UniMAGE 彌合了文本推理和視覺想象之間的鴻溝,從而使用戶能夠制作出具有邏輯和視覺連貫性的長(zhǎng)文本、多鏡頭敘事。本文方法的核心是兩個(gè)協(xié)同的訓(xùn)練范式:交錯(cuò)概念學(xué)習(xí),它通過文本-圖像交錯(cuò)促進(jìn)對(duì)敘事概念的聯(lián)合理解;以及解耦專家學(xué)習(xí),它將劇本和關(guān)鍵幀生成解耦,以增強(qiáng)創(chuàng)造力和結(jié)構(gòu)一致性。在情境中 ID 提示和預(yù)上下文劇本拆分的進(jìn)一步支持下,UniMAGE 在維護(hù)角色身份、故事情節(jié)連續(xù)性和跨擴(kuò)展序列的視覺對(duì)齊方面表現(xiàn)出強(qiáng)大的能力。實(shí)驗(yàn)評(píng)估證實(shí),UniMAGE 在開源系統(tǒng)中取得了最先進(jìn)的結(jié)果,為下一代 AI 驅(qū)動(dòng)的電影創(chuàng)作奠定了基礎(chǔ)。

局限性 UniMAGE 主要旨在增強(qiáng)敘事連貫性并保持長(zhǎng)劇本的強(qiáng)大視覺一致性。然而,電影制作的幾個(gè)更高層次的維度——例如情感節(jié)奏、風(fēng)格化電影攝影以及對(duì)導(dǎo)演意圖的細(xì)粒度控制——尚未完全解決。將 UniMAGE 擴(kuò)展到更豐富的電影理解和更具表現(xiàn)力的敘事控制仍然是未來工作的重要方向。

參考文獻(xiàn)

[1] Bridging Your Imagination with Audio-Video Generation via a Unified Director

       原文標(biāo)題 : 一個(gè)人就是一支整編劇組!首個(gè)“統(tǒng)一導(dǎo)演”模型發(fā)布:字節(jié)UniMAGE,讓腦洞原地變大片

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)