訂閱
糾錯
加入自媒體

口型匹配、身份保持全面SOTA!清華&可靈X-Dub:拋棄修復思維,用“編輯”實現(xiàn)精準同步!

2026-01-04 16:03
AI生成未來
關注

作者:Xu He等

解讀:AI生成未來

亮點直擊

范式轉變:本文將視覺配音從一個病態(tài)的“掩碼修復”任務重新定義為一個條件良好的“視頻到視頻編輯”任務。

自引導框架(X-Dub) :提出了一個自我引導框架,利用一個基于DiT的生成器來創(chuàng)建“理想的”成對訓練數(shù)據(jù)(即除了嘴型不同外,其他視覺條件完全相同的視頻對),從而允許獨立的編輯器模型在完整的視覺上下文下學習魯棒的配音。

時間步自適應學習:引入了一種多階段訓練策略,將特定的擴散噪聲水平與不同的學習目標(全局結構、嘴部運動、紋理細節(jié))對齊。

新基準測試:發(fā)布了ContextDubBench,這是一個包含真實世界復雜場景(如遮擋、動態(tài)光照等)的綜合基準,用于評估配音模型的魯棒性。

圖1:超越了mask-inpainting,X-Dub將視覺配音重新定義為豐富的上下文、全參照的視頻對視頻剪輯,即使在有遮擋和動態(tài)光照的挑戰(zhàn)場景中,也能實現(xiàn)精準的口型同步和忠實的身份保護圖1:超越了mask-inpainting,X-Dub將視覺配音重新定義為豐富的上下文、全參照的視頻對視頻剪輯,即使在有遮擋和動態(tài)光照的挑戰(zhàn)場景中,也能實現(xiàn)精準的口型同步和忠實的身份保護

解決的問題

音頻驅動的視覺配音面臨一個根本的數(shù)據(jù)瓶頸:

缺乏成對的訓練數(shù)據(jù),即受試者的嘴部運動不同,但所有其他視覺條件(姿勢、光照、表情)完全相同的視頻對。

此前的局限:現(xiàn)有方法通常通過遮擋下半張臉并使用修復(Inpainting)技術來規(guī)避這一問題。這剝離了關鍵的視覺上下文,迫使模型去“幻覺”出缺失的內容(如遮擋物),并從可能未對齊的參考幀中提取身份信息。這導致了視覺偽影、身份漂移和同步性差的問題。

提出的方案

本文提出了 X-Dub,一個自我引導框架:

生成器(數(shù)據(jù)構建者):一個通過自重建訓練的DiT模型,用于為每個真實訓練視頻生成一個“伴侶視頻”。這個伴侶視頻具有改變后的嘴部運動(由不同的音頻驅動),但保留了原始身份和場景,從而構成了合成的“對齊視頻對”。

編輯器(富上下文配音者):第二個DiT模型在這些視頻對上進行訓練。因為它接收完整的(未被遮擋的)伴侶視頻作為輸入,所以它執(zhí)行的是“編輯”而非“修復”,能夠利用完整的視覺上下文進行精確的嘴部修改和身份保持。

應用的技術

擴散Transformer (DiT):作為生成器和編輯器的骨干網(wǎng)絡,采用流匹配(Flow Matching)進行訓練。

上下文條件化:編輯器將參考視頻和目標視頻沿幀維度(Token序列)而非通道維度進行拼接,允許通過3D自注意力機制進行交互。

時間步自適應多階段學習

高噪聲階段:全參數(shù)微調,針對全局結構和姿勢。

中噪聲階段:使用LoRA專家配合SyncNet損失,針對嘴部清晰度。

低噪聲階段:使用LoRA專家,針對高頻紋理和身份細節(jié)。

遮擋與光照增強:在數(shù)據(jù)構建階段采用特定策略以確保模型的魯棒性。

達到的效果

SOTA性能:在HDTF數(shù)據(jù)集和新的ContextDubBench上,超越了現(xiàn)有方法(如Wav2Lip, MuseTalk, LatentSync等)。

卓越的魯棒性:在動態(tài)光照、面部遮擋和大姿態(tài)變化等掩碼基方法容易失敗的場景中表現(xiàn)出色。

高保真度:與基線相比,實現(xiàn)了更好的身份保持(CSIM)和唇形同步準確性(Sync-C)。

用戶偏好:人類評估者在真實感和同步性方面顯著更偏好X-Dub的結果。

方法論

圖 2:我們的自引導配音框架 X-Dub 概述。 范例的核心是使用 DiT 生成器為每個視頻創(chuàng)建一個經(jīng)過口型修改的對應視頻,與原始視頻(左)形成上下文豐富的對。 然后,DiT 編輯人員直接從這些理想配對中學習無掩模、視頻到視頻的配音,利用完整的視覺上下文來確保準確的口型同步和身份保留(中)。 這種情境學習通過我們的時間步長自適應多階段學習(右)進一步完善,該學習將不同的擴散階段與學習不同的信息(分別是全局結構、嘴唇運動和紋理細節(jié))結合起來。圖 2:我們的自引導配音框架 X-Dub 概述。 范例的核心是使用 DiT 生成器為每個視頻創(chuàng)建一個經(jīng)過口型修改的對應視頻,與原始視頻(左)形成上下文豐富的對。 然后,DiT 編輯人員直接從這些理想配對中學習無掩模、視頻到視頻的配音,利用完整的視覺上下文來確保準確的口型同步和身份保留(中)。 這種情境學習通過我們的時間步長自適應多階段學習(右)進一步完善,該學習將不同的擴散階段與學習不同的信息(分別是全局結構、嘴唇運動和紋理細節(jié))結合起來。

如圖2所示,本文建立了一個自引導配音框架,其中一個DiT模型首先生成具有不同嘴部運動的視覺對齊視頻對,然后從這些視頻對中學習配音任務,從而將配音從一個病態(tài)的修復問題重新構建為一個條件良好的視頻到視頻編輯任務。

首先介紹基于DiT的生成器。它使用掩碼修復自重建目標進行訓練,以合成嘴型變化的伴侶視頻,這些視頻純粹作為上下文輸入。為了確保這些合成伴侶充當可靠的視覺條件,本文引入了原則性的構建策略。這些策略優(yōu)先考慮身份保持和魯棒性,而非次要的嘴型準確性和泛化能力,并采用嚴格的質量過濾和增強措施來最小化偽影并最大化視覺對齊。

在這些精心策劃的視頻對之上,基于DiT的編輯器將無掩碼配音作為富上下文驅動的編輯進行學習,實現(xiàn)了精確的唇形同步、忠實的身份保留以及對姿勢和遮擋變化的魯棒性。最后,提出了一種時間步自適應多階段學習方案。該方案將擴散階段與互補的目標(結構、嘴唇和紋理)對齊,以促進該編輯范式內的穩(wěn)定訓練收斂,并進一步提高配音質量。

DiT骨干網(wǎng)絡:骨干網(wǎng)絡遵循隱空間擴散范式,使用3D VAE進行視頻壓縮,使用DiT進行序列建模。每個DiT塊結合了2D空間和3D時空自注意力,以及用于外部條件的交叉注意力。

生成器:上下文條件構建者

樸素掩碼配音

基于DiT的生成器是在掩碼自重建方案下實現(xiàn)的,遵循先前的配音方法。給定目標視頻  和音頻 ,應用面部掩碼 ,并在條件  和參考幀  下重建被掩蓋的區(qū)域 。

雖然這種設置產生的配音輸出并不完美,但生成器的設計初衷并非直接解決配音問題,而僅僅是為了合成伴侶視頻作為編輯器的上下文輸入。通過在其他方面一致的幀內改變嘴部運動,生成器將稀疏的修復上下文轉換為對齊的視頻對,這比靜態(tài)參考幀要強大得多。

圖 3:基于 DiT 的框架的調節(jié)機制。 參考條件(用于編輯器的完整上下文視頻幀;用于生成器的單個參考幀)和目標視頻連接成一個統(tǒng)一的序列以進行 3D 自注意力。 音頻通過交叉注意力注入圖 3:基于 DiT 的框架的調節(jié)機制。 參考條件(用于編輯器的完整上下文視頻幀;用于生成器的單個參考幀)和目標視頻連接成一個統(tǒng)一的序列以進行 3D 自注意力。 音頻通過交叉注意力注入

條件機制:如圖3所示,掩碼幀和目標幀由VAE編碼為 ,參考幀編碼為 。 與加噪的  在通道維度上拼接, 進行零填充以對齊通道?鐜唇赢a生了統(tǒng)一的DiT輸入 ,這使得視頻和參考Token之間可以通過3D自注意力進行交互。Whisper特征通過交叉注意力作為音頻條件注入。為了將生成擴展到長視頻,使用了運動幀:每個片段都以基于前一片段的最后幾幀為條件。在訓練期間, 的前  幀保持不加噪作為運動指導。條件Dropout(50%)用于處理初始片段中先驗幀缺失的情況。

訓練目標:采用流匹配損失 ,并通過DWPose提取的面部和嘴唇掩碼  進行加權(表示逐元素乘法):

以這種方式訓練后,生成器通過用替代音頻  替換原始音頻 ,為每個真實剪輯  生成一個合成伴侶視頻 ,從而產生幀對齊但嘴型變化的視頻對 。在這里, 僅作為編輯器的條件輸入。

原則性的配對構建策略

普通的掩碼配音不可避免地會產生不完美的結果。因此,本文在生成器的數(shù)據(jù)構建過程中設計了明確的權衡策略,以確保合成的伴侶視頻雖然不完美,但能作為可靠的上下文輸入。

確立了三個指導原則:

域內質量優(yōu)于泛化:關注訓練分布內的保真度。

變化下的視覺一致性:伴侶視頻必須保持身份,并在姿勢、遮擋和光照變化下保持魯棒。

嘴型變化優(yōu)于準確性: 中的嘴型應與  不同以避免泄漏,同時容忍適度的唇形同步不準確。

據(jù)此,實施了若干策略。利用短時視覺平穩(wěn)性,生成器以25幀的短片段處理視頻,此時姿勢和場景相對穩(wěn)定。運動幀隨后將這些片段連接成完整的77幀視頻,用于后續(xù)的編輯器訓練。替代音頻  從與  相同的說話人中采樣,以減少跨身份沖突。

為了增強魯棒性,結合了互補技術。通過標注并將面部遮擋物排除在修復區(qū)域之外來處理遮擋。對于光照增強,對  和  應用相同的重光照處理,以構建具有一致光照動態(tài)的視頻對。使用地標距離、身份相似度和整體視覺質量評分進行質量過濾。此外,補充了3D渲染數(shù)據(jù)以獲得完美對齊的視頻對。

編輯器:上下文驅動的視頻到視頻配音

給定精心策劃的視頻對 ,訓練一個基于DiT的編輯器進行無掩碼配音。與生成器不同,編輯器直接處理配音任務:給定音頻  和伴侶視頻 ,它學習生成  作為目標,從而將配音從稀疏的修復問題轉變?yōu)樯舷挛尿寗拥木庉媶栴}。在實踐中,得益于視頻對提供的豐富上下文輸入,編輯器在嘴型準確性、身份保持和魯棒性方面均超越了生成器。

上下文條件機制:如圖3所示,配對的參考視頻和目標視頻被編碼為潛變量 。擴散后的  隨后與干凈的  跨幀拼接,形成 。對該序列進行Patch化處理使得上下文可以通過3D自注意力進行交互,在最小化改動DiT骨干的同時充分利用其上下文建模能力。音頻特征和運動幀的集成方式與3.1節(jié)相同。

基于LoRA專家的時間步自適應多階段學習

雖然嘴型變化的視頻對顯著簡化了配音任務,但編輯器的訓練仍需平衡繼承全局結構、編輯嘴部運動和保留細粒度身份細節(jié)這三個目標。擴散模型在時間步上表現(xiàn)出階段性的專業(yè)化。受此啟發(fā),本文引入了一種時間步自適應多階段方案,不同的噪聲區(qū)域針對互補的目標。

階段劃分:遵循Esser等人的方法,移動時間步采樣分布以集中在每個訓練階段的不同噪聲水平上:

其中  是對數(shù)正態(tài)分布, 設定偏移強度。這產生了:

高噪聲步驟:用于全局結構和運動(背景、姿勢、粗略身份)。

中噪聲步驟:用于嘴部運動。

低噪聲步驟:用于涉及身份細節(jié)的紋理細化。

高噪聲全參數(shù)訓練:首先,編輯器在高噪聲分布下進行全參數(shù)優(yōu)化訓練。這促進了收斂,并使得模型能夠從參考上下文中無縫遷移全局結構,同時實現(xiàn)初步的唇形同步。目標函數(shù)是相同的掩碼加權流匹配損失 。

中低噪聲的LoRA專家微調:隨后為中噪聲和低噪聲階段附加輕量級的LoRA模塊。由于需要像素級約束,設計了一種單步去噪策略以避免計算開銷:

其中  確保在高噪聲水平下的去噪穩(wěn)定性。

嘴唇專家(Lip Expert) 在中噪聲階段工作,由額外的唇形同步損失 (使用SyncNet進行視聽對齊)監(jiān)督。

紋理專家(Texture Expert) 在低噪聲階段工作,由重建損失 (結合L1、CLIP和ArcFace身份損失)監(jiān)督以恢復高頻細節(jié)。為保障唇形同步質量,在紋理微調階段我們以0.5的概率隨機禁用音頻交叉注意力機制,僅在靜音條件下計算紋理監(jiān)督信號。

在推理階段,各LoRA模塊在其最優(yōu)時間步范圍內被激活:紋理專家作用于t∈[0, 0.3]區(qū)間,唇部專家作用于t∈[0.4, 0.8]區(qū)間,從而確保二者在各自最有效的生成階段發(fā)揮作用。

實驗總結

本文在 HDTF(高清數(shù)據(jù)集)和新提出的 ContextDubBench 上評估了所提出的編輯器。對比了Wav2Lip, VideoReTalking, TalkLip, IP-LAP, Diff2Lip, MuseTalk 和 LatentSync 等最先進的方法。

定量結果

HDTF:編輯器實現(xiàn)了最低的 FID (7.03) 和 FVD,以及最高的 Sync-C (8.56) 和 CSIM (0.883),大幅優(yōu)于之前的最佳方法(例如,F(xiàn)ID降低了12.6%,Sync-C提高了4.9%)。

ContextDubBench:在這個具有挑戰(zhàn)性的基準上,優(yōu)勢更加明顯。該方法實現(xiàn)了 96.4% 的成功率(次優(yōu)方法僅約72%),并具有卓越的唇音一致性(Sync-C +16.0%)和身份保持能力(CSIM +6.1%)。

定性結果

可視化結果顯示,X-Dub 能夠產生精確的唇形同步,即使在側面視圖或有遮擋(如手遮擋部分面部)的情況下也能保持身份,而基于掩碼的方法通常會在這些情況下失敗或產生偽影。

圖4:跨多種情景的定性比較。對口型錯誤用yel-low標記,視覺偽影用藍色標記,靜音時嘴唇漏用紅色。“ERROR”表示運行時因未找到3DMM或地標而失敗,盡管已盡最大努力。我們的方法展現(xiàn)出強有力的牙齦,唇部準確度和身份一致性都更佳圖4:跨多種情景的定性比較。對口型錯誤用yel-low標記,視覺偽影用藍色標記,靜音時嘴唇漏用紅色。“ERROR”表示運行時因未找到3DMM或地標而失敗,盡管已盡最大努力。我們的方法展現(xiàn)出強有力的牙齦,唇部準確度和身份一致性都更佳

消融研究

條件化:使用Token拼接(跨幀)優(yōu)于通道拼接,后者會損害唇形同步。

多階段學習:移除嘴唇微調階段會降低 Sync-C 分數(shù);移除紋理階段會損害身份指標。均勻的時間步采樣會導致發(fā)散或質量低下。

用戶研究:在包含30名參與者的研究中,該方法在真實感、唇形同步和身份保持方面獲得了最高的平均意見得分(MOS)。

結論

本工作引入了一種新穎的自引導范式來解決視覺配音中的核心挑戰(zhàn):缺乏成對的真實世界訓練數(shù)據(jù)。我們認為,視覺配音不應依賴于掩碼修復,而應被重構為一個條件良好的視頻到視頻編輯任務

基于這一范式,提出了 X-Dub,一個富上下文的配音框架。它利用一個DiT模型首先作為生成器,創(chuàng)建具有完整視覺上下文的理想訓練對,然后作為編輯器從這些精心策劃的數(shù)據(jù)中學習。這一過程通過時間步自適應多階段學習策略得到進一步完善,該策略解耦了結構、嘴唇和紋理的學習,從而提高了最終輸出的質量。

在標準數(shù)據(jù)集和我們要新提出的高難度基準 ContextDubBench 上的廣泛實驗表明,本文方法取得了SOTA結果。X-Dub 在復雜的野外場景中表現(xiàn)出卓越的魯棒性,顯著優(yōu)于先前的工作。相信這項工作不僅為視覺配音樹立了新標準,也為其他缺乏成對數(shù)據(jù)的條件視頻編輯任務提供了寶貴的見解。

參考文獻

[1] FROM INPAINTING TO EDITING: A SELF-BOOTSTRAPPING FRAMEWORK FOR CONTEXT-RICH VISUAL DUBBING

       原文標題 : 口型匹配、身份保持全面SOTA!清華&可靈X-Dub:拋棄修復思維,用“編輯”實現(xiàn)精準同步!

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號