訂閱
糾錯
加入自媒體

硬剛谷歌Veo3!快手Klear統(tǒng)一多任務(wù)音視頻聯(lián)合生成:創(chuàng)新單塔架構(gòu),口型語音完美同步

作者:Jun Wang、Chunyu Qiang等

解讀:AI生成未來

亮點直擊

Klear 框架:提出了一個統(tǒng)一的音頻-視頻生成框架,能夠同時處理聯(lián)合生成(Joint Generation)和單模態(tài)生成任務(wù)。

單塔架構(gòu) (Single-Tower) :采用了統(tǒng)一的 DiT (Diffusion Transformer) 模塊和 Omni-Full Attention 機(jī)制,實現(xiàn)了音頻和視頻的緊密對齊。

漸進(jìn)式多任務(wù)訓(xùn)練:引入了從隨機(jī)模態(tài)掩碼到聯(lián)合優(yōu)化的訓(xùn)練策略,以及多階段課程學(xué)習(xí),增強(qiáng)了模型的魯棒性和對物理世界的理解。

大規(guī)模稠密標(biāo)注數(shù)據(jù)集:構(gòu)建了首個帶有稠密描述(Dense Captions)的大規(guī)模音頻-視頻數(shù)據(jù)集,并引入了自動化數(shù)據(jù)構(gòu)建管道。

圖 1 Klear,這是一個統(tǒng)一的音視頻生成框架,它可以在聯(lián)合和單模態(tài)設(shè)置中提供高保真度、強(qiáng)大的語義和時間對齊以及可靠的指令遵循,并具有強(qiáng)大的 OOD 泛化能力。 跨任務(wù)(T2AV/TI2AV/TI2V/T2V/T2A),它的性能可與開源模型中的 Veo-3 相媲美。圖 1 Klear,這是一個統(tǒng)一的音視頻生成框架,它可以在聯(lián)合和單模態(tài)設(shè)置中提供高保真度、強(qiáng)大的語義和時間對齊以及可靠的指令遵循,并具有強(qiáng)大的 OOD 泛化能力。 跨任務(wù)(T2AV/TI2AV/TI2V/T2V/T2A),它的性能可與開源模型中的 Veo-3 相媲美。

解決的問題

視聽不同步:現(xiàn)有非商業(yè)模型常出現(xiàn)聲音與畫面(如嘴型)不同步的問題。

單模態(tài)退化:在進(jìn)行聯(lián)合生成時,往往犧牲了單個模態(tài)(僅視頻或僅音頻)的質(zhì)量。

數(shù)據(jù)匱乏:缺乏高質(zhì)量、經(jīng)過嚴(yán)格對齊且?guī)в性敿?xì)描述的音頻-視頻配對數(shù)據(jù)。

指令跟隨能力弱:現(xiàn)有模型在處理復(fù)雜指令時靈活性不足。

提出的方案

架構(gòu)設(shè)計:放棄傳統(tǒng)的級聯(lián)(Cascade)或雙塔(Dual Tower)設(shè)計,采用全統(tǒng)一的單塔 Transformer 結(jié)構(gòu),讓音頻和視頻 Token 在所有層級進(jìn)行交互。

數(shù)據(jù)工程:開發(fā)了一套自動化管道,包括視頻/音頻質(zhì)量過濾、場景分割、人聲/非人聲分類以及多模型協(xié)作的稠密標(biāo)注(使用 Whisper, SenseVoice, Qwen2.5-Omni 等工具)。

應(yīng)用的技術(shù)

**Flow Matching (流匹配)**:作為去噪目標(biāo),用于訓(xùn)練生成模型。

Omni-Full Attention:一種全注意機(jī)制,允許音頻和視頻 Token 在序列中完全可見,促進(jìn)深度融合。

3D VAE & Audio VAE:使用 3D 變分自編碼器壓縮視頻(3Hz),使用 Audio-VAE 壓縮音頻(43Hz)。

Multimodal RoPE:多模態(tài)旋轉(zhuǎn)位置編碼,用于處理不同模態(tài)的位置信息。

達(dá)到的效果

SOTA 級性能:在 T2AV(文本生音視頻)、TI2AV(圖生音視頻)等多個任務(wù)上,性能大幅優(yōu)于現(xiàn)有方法(如 Universe-1, Ovi)。

媲美商業(yè)模型:在開源模型中,其表現(xiàn)可與 Veo 3 等閉源商業(yè)模型相媲美。

高質(zhì)量對齊:實現(xiàn)了高保真的唇形同步(Lip-sync)和與其動作匹配的音效生成(如樂器演奏、唱歌)。

Klear預(yù)備知識

問題定義本工作的目標(biāo)是在給定各種先驗條件的情況下,通過單個模型實現(xiàn)音頻和視頻的生成。將去噪網(wǎng)絡(luò)表示為 ,文本條件表示為 。令  和  分別表示在時間步  時的音頻和視頻隱變量(latent variables)。這里, 表示純高斯噪聲的最終時間步。在推理過程中, 遞歸地執(zhí)行去噪操作,從  到 ,以產(chǎn)生最終的生成結(jié)果 ,如下所示:

條件流匹配本工作采用流匹配(Flow Matching)作為去噪目標(biāo)。模型需要學(xué)習(xí)將純噪聲  變換為潛在數(shù)據(jù)分布  的速度場。在實踐中,我們執(zhí)行線性插值  來構(gòu)建時間步  處的分布。給定條件 ,模型  被訓(xùn)練以預(yù)測目標(biāo)速度 :

其中 ,,。

潛在編碼該模型接受四種輸入:視頻、視頻相關(guān)文本、音頻相關(guān)文本和音頻。其中,視頻相關(guān)文本代表視頻描述(video caption),音頻相關(guān)文本代表音頻描述(audio caption)和語音文本。視頻由來自 CogVideoX 的 3D 因果視覺編碼器進(jìn)行編碼。我們使用 Qwen3-8B Embedding 作為音頻和視頻描述的編碼器。

具有全注意力的單塔架構(gòu)

圖 2 Klear 概述。 該模型接受四個輸入:視頻、視頻相關(guān)文本、音頻相關(guān)文本和音頻。 每個輸入均由各自的編碼器單獨編碼,然后饋入 MM-DiT。 MM-DiT模塊輸出視頻和音頻的隱變量,然后分別解碼為視頻和音頻。圖 2 Klear 概述。 該模型接受四個輸入:視頻、視頻相關(guān)文本、音頻相關(guān)文本和音頻。 每個輸入均由各自的編碼器單獨編碼,然后饋入 MM-DiT。 MM-DiT模塊輸出視頻和音頻的隱變量,然后分別解碼為視頻和音頻。

單塔 DiT (Single Tower DiT)為了確保徹底的音頻-視頻融合,我們采用了單塔架構(gòu)。如圖 2 所示,遵循 Stable Diffusion 3 的設(shè)計,我們采用了多模態(tài)擴(kuò)散 Transformer(MM-DiT),將所有模態(tài)的序列作為輸入并執(zhí)行全注意力(Full Attention)機(jī)制。具體而言,有四種輸入:視頻、視頻相關(guān)文本、音頻相關(guān)文本和音頻。每種類型的輸入分別由各自的編碼器編碼為隱變量,然后輸入到 MM-DiT 中。MM-DiT 模塊在兩個流中輸出視頻和音頻的隱變量,隨后分別進(jìn)行解碼以完成視頻和音頻的生成。

混合維度旋轉(zhuǎn)位置編碼 (MixD-RoPE)另一個關(guān)鍵的架構(gòu)創(chuàng)新是混合維度旋轉(zhuǎn)位置編碼(Mixed Dimension Rotary Position Embedding, MixD-RoPE)。如圖 2(d) 所示,為了增強(qiáng)視頻中由各種縱橫比和持續(xù)時間引入的位置信息,我們在三個維度(即時間、寬度和高度)上對視頻嵌入應(yīng)用了 3D RoPE 編碼。這種 3D RoPE 結(jié)合了視頻中的絕對和相對位置依賴性。對于音頻模態(tài),我們采用了兼容的時間 1D 位置編碼,而其位置編號通過將視頻模態(tài)的最大時間位置 ID 加一來初始化。因此,我們構(gòu)建了一個在視頻和音頻模態(tài)之間共享時間位置 ID 的 MixD-RoPE。

全方位全注意力 (Omni-Full Attention)以前的工作可能會采用分離的空間和時間注意力來降低計算復(fù)雜度,如 UniForm。然而,正如 CogVideoX 中所述,這種分離的注意力機(jī)制需要大量的隱式信息傳輸,顯著增加了學(xué)習(xí)的復(fù)雜性。其他工作為音頻和視頻生成分別定制了兩個 Transformer 塔(例如 AV-DiT, SyncFlow, JavisDiT, TAVGBench)。但是,它們通常采用多階段訓(xùn)練方法,既復(fù)雜又消耗資源。這兩個塔必須首先分別進(jìn)行預(yù)訓(xùn)練,然后一起微調(diào),增加了訓(xùn)練時間和資源消耗。為了實現(xiàn)更高效的訓(xùn)練和更有效的模態(tài)融合,我們采用了 3D 文本-視頻-音頻混合全注意力機(jī)制。如圖 2 所示,在 MM-DiT 模塊內(nèi),視頻、視頻相關(guān)文本、音頻相關(guān)文本和音頻的隱藏狀態(tài)首先被縮放和歸一化,然后拼接在一起進(jìn)行注意力計算:

注意力值隨后被分割成獨立的隱藏狀態(tài),經(jīng)過縮放和歸一化、殘差連接和前饋網(wǎng)絡(luò)處理,隨后輸入到下一個 MM-DiT 模塊。結(jié)果,在聯(lián)合全注意力中實現(xiàn)了所有輸入模態(tài)的統(tǒng)一。

多任務(wù)漸進(jìn)式訓(xùn)練策略

隨機(jī)模態(tài)掩碼 (Random Modality Masking)為了學(xué)習(xí)用于聯(lián)合生成的通用且魯棒的音頻-視頻表示,我們在廣泛的任務(wù)譜系上訓(xùn)練生成模型。因此,建議有選擇地調(diào)整音頻和視頻模態(tài)的查詢(Query)和鍵(Key)的掩碼。如果我們限制查詢和鍵僅針對視頻嵌入和視頻描述嵌入,模型將退化為 T2V(文本生成視頻)模型。同樣,將查詢和鍵限制為音頻嵌入和音頻文本嵌入會導(dǎo)致 T2A(文本生成音頻)模型。通過這種方式,模型不僅可以處理聯(lián)合生成,還可以保持單模態(tài)生成的能力?紤]到高質(zhì)量音頻-視頻配對數(shù)據(jù)的稀缺性,我們的方法為訓(xùn)練 T2VA 模型提供了一種替代方案。首先在 T2V 和 T2A 任務(wù)上預(yù)訓(xùn)練 Klear,然后在音頻-視頻配對數(shù)據(jù)上微調(diào)我們的模型,最終構(gòu)建一個 T2VA 模型。音頻和視頻生成的學(xué)習(xí)目標(biāo)分別如方程 (7) 和方程 (8) 所示:

其中  用于從組合的噪聲表示中提取音頻 token,而  用于提取視覺 token?傊, 和  表示 T2A 和 T2V 的單模態(tài)任務(wù)。為了學(xué)習(xí)可泛化且魯棒的音頻-視覺相關(guān)性世界知識,我們還結(jié)合了 T2AV、I2V 和 I2AV 的多個任務(wù)。因此,整體多任務(wù)學(xué)習(xí)目標(biāo)如下:

漸進(jìn)式訓(xùn)練策略 (Progressive Training Strategy)為了高效地訓(xùn)練 AV 聯(lián)合生成,我們采用了漸進(jìn)式多任務(wù)學(xué)習(xí)框架,并在所有階段應(yīng)用隨機(jī)模態(tài)掩碼:

第一階段:預(yù)訓(xùn)練 (Stage-I: Pre-training) 。在大規(guī)模、多場景的數(shù)據(jù)語料庫上預(yù)訓(xùn)練模型,以獲得跨所有任務(wù)的原子生成能力,包括跨模態(tài)語義對齊、時間同步、高保真音頻合成和精確的視覺特征構(gòu)建。這確保了單模態(tài)生成和聯(lián)合生成的基本能力,并為后續(xù)的后訓(xùn)練提供了堅實的基礎(chǔ)。

第二階段:專項后訓(xùn)練 (Stage-II: Specialized Post-training) 。然后,針對模型較弱的能力和任務(wù)進(jìn)行專門訓(xùn)練。在評估指標(biāo)的指導(dǎo)下,我們自適應(yīng)地重新平衡跨場景和任務(wù)的數(shù)據(jù)分布,以加強(qiáng)表現(xiàn)不佳的能力,同時保持整體能力。

第三階段:質(zhì)量精煉后訓(xùn)練 (Stage-III: Quality-Refined Post-training) 。最后,在人工精選的高質(zhì)量數(shù)據(jù)集上微調(diào)模型,以精煉生成保真度并增強(qiáng)復(fù)雜場景中的魯棒性,從而提高感知真實感和整體生成質(zhì)量。

數(shù)據(jù)集構(gòu)建

本文數(shù)據(jù)集包含自動標(biāo)注的樣本。 該數(shù)據(jù)集包含單人語音、多人語音、唱歌和自然聲音片段,總體過濾后保留率為 27%。

數(shù)據(jù)集過濾

視頻過濾和場景分割 首先通過建模動態(tài)質(zhì)量(主體運動比率、相機(jī)穩(wěn)定性)、靜態(tài)質(zhì)量(清晰度、美觀度、色彩飽和度)、內(nèi)容自然度(無過多效果/水印)和安全性來過濾視頻質(zhì)量。我們丟棄那些低分辨率、低 SNR/MOS 或超過 20% 靜音的視頻。 然后,我們應(yīng)用場景分割以確保每個樣本僅包含一個場景。

音頻過濾和后處理 通過刪除低 SNR、MOS、異常削波、失真或噪聲的樣本來過濾音頻數(shù)據(jù),確保低于 20% 的靜音、高保真度和一致的格式。 然后,我們評估視聽一致性,使用 Synchformer 進(jìn)行時間對齊,使用 ImageBind 進(jìn)行語義對齊,確保時間和語義維度的高度同步。

音頻引導(dǎo)數(shù)據(jù)分割

按音頻類型對數(shù)據(jù)集進(jìn)行分區(qū),將人聲與非人聲片段分開以形成聲音分割。 從聲音子集中,我們創(chuàng)建歌唱、單說話者語音和多說話者語音分割,然后對每個語音應(yīng)用密集的字幕。

密集標(biāo)注和集成

使用語音轉(zhuǎn)錄本、音頻字幕和視頻字幕的專用模型來標(biāo)注每個分割,包括元信息和詳細(xì)內(nèi)容。 對于語音和唱歌,提取說話者屬性(例如性別、年齡),而聲音分割僅接收音頻字幕。 使用 Whisper-Large-v3、SenseVoice 和 Qwen2.5-Omni 進(jìn)行轉(zhuǎn)錄,使用 Qwen2.5-Omni 和 Gemini 2.5-Pro 進(jìn)行音頻字幕,并使用視頻專家模型進(jìn)行詳細(xì)視頻標(biāo)簽。 所有標(biāo)注都合并為統(tǒng)一的密集標(biāo)題。

實驗

實驗設(shè)置

模型規(guī)模:Klear 包含 260 億 (26B) 參數(shù),流匹配的前饋維度為 4096。

網(wǎng)絡(luò)結(jié)構(gòu):包含 32 層聯(lián)合擴(kuò)散 Transformer (Joint Diffusion Transformer) 層,結(jié)合了多模態(tài) RoPE。

編碼器:文本編碼器使用 1024 維的 TTS 文本編碼器,Caption 編碼器使用 Qwen2.5-7B。

VAE 設(shè)置Audio-VAE:處理 44.1 kHz 輸入波形,生成 43 Hz 的 Embeddings(相對于輸入采樣率下采樣 1024 倍)。

Video-VAE:處理不同分辨率和幀率的視頻,生成 3 Hz 的 Embeddings(時空壓縮),在高度和寬度維度上均進(jìn)行了 16 倍壓縮。

訓(xùn)練細(xì)節(jié):使用 Adam 優(yōu)化器,初始學(xué)習(xí)率為 。

結(jié)果對比與定性分析

本部分通過定性和定量分析展示了 Klear 在多個維度的優(yōu)勢:

唇形同步 (Lip-Sync Accuracy) :Klear 能夠生成與語音緊密同步的唇形運動,包括呼吸模式和面部表情的自然匹配。

情感表達(dá) (Emotional Expressiveness) :生成的視頻不僅口型對齊,還能展現(xiàn)出與語音語調(diào)一致的情感(如興奮、深思)。相比之下,Universe-1 和 Ovi 等基線模型常出現(xiàn)表情扭曲。

**歌唱與說唱 (Singing and Rap)**:在歌唱和說唱場景中,Klear 精確控制了音高、節(jié)奏與呼吸的對齊。例如顫音(Vibrato)和轉(zhuǎn)音(Melisma)能自然地與面部表情匹配。

音視頻同步 (AV Synchronization) :背景音樂和音效(如樂器演奏)與視頻內(nèi)容在時間上嚴(yán)格對齊,提升了沉浸感。

圖生音視頻 (Image to Audio-Video) :在 TI2AV 任務(wù)中,Klear 保持了輸入圖像的高身份一致性(Identity Consistency),同時生成合理的攝像機(jī)運動,而基線模型常出現(xiàn)身份漂移。

定量對比

雖然無法完全展示表格數(shù)據(jù),但文中提到 Single Tower(本工作)在 ID 保持 (0.80 vs 0.62)、MOS 評分 (93.11 vs 62.02) 和音視頻一致性 (Sync-conf 6.787 vs 3.762) 等指標(biāo)上均顯著優(yōu)于 Dual Tower 架構(gòu)。

消融實驗

架構(gòu)有效性:通過對比單塔(Single Tower)和雙塔(Dual Tower)架構(gòu),驗證了將音頻和視頻特征輸入統(tǒng)一的 mm-DiT 分支并配合 Omni-Full Attention 的設(shè)計,能顯著提升模態(tài)間的對齊效果。

總結(jié)

Klear,一種新穎的用于高保真音視頻聯(lián)合生成的統(tǒng)一 Transformer 架構(gòu)。通過引入 Omni-Full Attention(全方位全注意力機(jī)制),Klear 在單個流內(nèi)無縫集成了視頻、音頻及其對應(yīng)的文本條件,從而實現(xiàn)了卓越的音視頻同步和細(xì)粒度的語義對齊。為了促進(jìn)穩(wěn)健的多任務(wù)學(xué)習(xí),我們設(shè)計了一種包含隨機(jī)模態(tài)掩碼(random modality masking)的漸進(jìn)式訓(xùn)練策略,使模型能夠在聯(lián)合生成和單模態(tài)生成(如 T2V、T2A、TI2AV 等)之間靈活切換,同時保持高質(zhì)量的輸出。此外,我們構(gòu)建了第一個帶有詳細(xì)且嚴(yán)格時間對齊的描述的大規(guī)模音視頻數(shù)據(jù)集,解決了該領(lǐng)域高質(zhì)量配對數(shù)據(jù)稀缺的關(guān)鍵問題。大量的實驗表明,Klear 在生成質(zhì)量、指令遵循能力和跨模態(tài)一致性方面顯著優(yōu)于現(xiàn)有的開源方法,并取得了與最先進(jìn)的閉源模型(如 Veo 3)相當(dāng)?shù)男阅。我們的工作為更加統(tǒng)一、可擴(kuò)展且語義一致的多模態(tài)生成系統(tǒng)鋪平了道路。

參考文獻(xiàn)

[1] Klear : Unified Multi-Task Audio-Video Joint Generation

       原文標(biāo)題 : 硬剛谷歌Veo3!快手Klear統(tǒng)一多任務(wù)音視頻聯(lián)合生成:創(chuàng)新單塔架構(gòu),口型語音完美同步

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號