訂閱
糾錯
加入自媒體

港科大等提出音頻驅(qū)動多人視頻生成新范式 AnyTalker,解鎖任意數(shù)量角色間的自然互動!

作者:Zhizhou Zhong等

解讀:AI生成未來

亮點直擊

可擴展的多人驅(qū)動結(jié)構(gòu):本文提出了一種可擴展的多流處理結(jié)構(gòu) Audio-Face Cross Attention Layer,能夠以循環(huán)調(diào)用的方式驅(qū)動任意數(shù)量的角色,并確保各個角色之間自然的互動。

低成本多人說話模式訓(xùn)練方法:提出了一種新穎的兩階段訓(xùn)練流程,使模型先利用水平拼接的單人數(shù)據(jù)學(xué)習(xí)多人說話模式,再通過多人數(shù)據(jù)精調(diào),以優(yōu)化生成視頻人物之間的互動性。

首個交互性評價新指標:首次提出用于量化評估多人物交互性的全新度量指標,并構(gòu)建配套的基準數(shù)據(jù)集以進行系統(tǒng)評估。

總結(jié)速覽

解決的問題

可擴展性:部分方法在訓(xùn)練階段即為同一視頻中的人物分配固定標記或路由順序,因而難以突破“雙人”的限制,生成超越兩個身份的自然交互視頻。

高訓(xùn)練成本:現(xiàn)有方法普遍依賴成本高昂的多人場景數(shù)據(jù)集開展訓(xùn)練;而多人場景因涵蓋話輪轉(zhuǎn)換、角色更替以及目光注視等非言語的復(fù)雜因素,導(dǎo)致數(shù)據(jù)采集與標注成本高。

缺乏交互性的定量評估方法:多人視頻作為較新的領(lǐng)域,既往用于單人口型同步或視頻質(zhì)量的指標,難以充分衡量多人場景下的多個角色之間互動自然度。

提出的方案/應(yīng)用的技術(shù):

構(gòu)建可擴展的多流處理結(jié)構(gòu):為每對音頻與身份量身定制的交叉注意力模塊。將每對臉部 clip 圖像特征與Wav2Vec2 音頻特征在 sequence維度拼接,共同作為 K/V;計算后的注意力結(jié)果按展開成sequence的 face mask token進行局部激活,僅修改對應(yīng)臉部區(qū)域。該運算可每個“角色-音頻”對循環(huán)執(zhí)行,以支持任意人數(shù)。

提出低成本多人對話學(xué)習(xí)策略:一階段訓(xùn)練時,僅使用單人數(shù)據(jù),以 50% 概率將兩條單人視頻水平拼接成“雙人對話”偽樣本,充分利用海量單人數(shù)據(jù),讓模型快速習(xí)得多人說話范式。二階段利用少量的的真實多人數(shù)據(jù)優(yōu)化互動性。

首創(chuàng)交互性量化指標:在沉默時段追蹤傾聽者眼部關(guān)鍵點位移幅度,以此衡量生成視頻的交互強度,實現(xiàn)多人互動效果的客觀評估。圖 1:AnyTalker是一個強大的音頻驅(qū)動多人視頻生成框架,它可以生成富含手勢、生動情感和交互性的視頻,并且可以自由地推廣到任數(shù)量的ID甚至非真人輸入。

圖 1:AnyTalker是一個強大的音頻驅(qū)動多人視頻生成框架,它可以生成富含手勢、生動情感和交互性的視頻,并且可以自由地推廣到任數(shù)量的ID甚至非真人輸入。

達到的效果:

突破可驅(qū)動人數(shù)的限制:無論輸入的是單段獨白還是多人對話,AnyTalker 都能自適應(yīng)匹配音頻與角色數(shù)量,一鍵生成自然流暢的多人說話視頻。

交互真實細膩:生成視頻中人物對視,挑眉、點頭等非語言動作自然流暢,面部表情隨語音節(jié)奏精準呼應(yīng),呈現(xiàn)高度逼真的多人互動場景,并在新提出的互動性 Benchmark 上表現(xiàn)遠超過去所有方法。

準確的口型同步:在 HDTF、VFHQ 兩大單說話人視頻 Benchmark上,AnyTalker 的 Sync-C 指標領(lǐng)先;于本文新建的多人數(shù)據(jù)集,同樣保持優(yōu)勢。

方法圖2:(a)AnyTalker的架構(gòu)采用了一種新穎的多流音頻處理層Audio-Face Cross Attention Layer,能夠處理多個面部和音頻輸入。(b)AnyTalker的訓(xùn)練分為兩個階段:第一階段使用由單人數(shù)據(jù)和其混合而成的級聯(lián)多人數(shù)據(jù)來學(xué)習(xí)嘴唇動作;第二階段采用真實的多人數(shù)據(jù)來增強生成視頻中的交互性。(c)音頻人臉交叉注意的詳細實現(xiàn),這是一種可循環(huán)調(diào)用的結(jié)構(gòu),使用人臉掩碼對輸出應(yīng)用掩碼。圖2:(a)AnyTalker的架構(gòu)采用了一種新穎的多流音頻處理層Audio-Face Cross Attention Layer,能夠處理多個面部和音頻輸入。(b)AnyTalker的訓(xùn)練分為兩個階段:第一階段使用由單人數(shù)據(jù)和其混合而成的級聯(lián)多人數(shù)據(jù)來學(xué)習(xí)嘴唇動作;第二階段采用真實的多人數(shù)據(jù)來增強生成視頻中的交互性。(c)音頻人臉交叉注意的詳細實現(xiàn),這是一種可循環(huán)調(diào)用的結(jié)構(gòu),使用人臉掩碼對輸出應(yīng)用掩碼。

總覽

本文提出的 AnyTalker 整體框架如上圖所示。AnyTalker 繼承了 Wan I2V 模型的部分架構(gòu)組件。為了處理多音頻和身份輸入,引入了一種專門的多流處理結(jié)構(gòu),稱為 Audio-Face Cross Attention(AFCA),并把整體的訓(xùn)練流程分為兩個階段。

作為一個基于 DiT 的模型,AnyTalker 通過 patchify 和 flatten 操作將3D VAE特征 轉(zhuǎn)換為 token,而文本特征 則由 T5 編碼器生成。此外,AnyTalker 繼承了 Reference Attention Layer,這是一種交叉注意力機制,利用 CLIP 圖像編碼器   從視頻的第一幀提取特征 。Wav2Vec2也被用于提取音頻特征 。整體輸入特征 可表示為:

Audio-Face Cross Attention

為了實現(xiàn)多人對話,模型必須能夠處理多路音頻輸入。潛在的解決方案可能包括 MultiTalk 中使用的 L-RoPE 技術(shù),該技術(shù)為不同的音頻特征分配唯一的標簽和偏置。然而,這些標簽的范圍需要顯式定義,限制了其可擴展性。因此,我們設(shè)計了一種更具可擴展性的結(jié)構(gòu),以可擴展的方式驅(qū)動多個身份并實現(xiàn)精確控制。

如圖2(a)和(c)所示,我們引入了一種名為 Audio-Face Cross Attention(AFCA)的專用結(jié)構(gòu),該結(jié)構(gòu)可以根據(jù)輸入的 face-audio 對數(shù)量循環(huán)執(zhí)行多次。如圖2(c)和公式(4)所示,它能夠靈活處理的多個不同的音頻和身份輸入,每次迭代的輸出相加得到最終的注意力輸出。

圖3:(a)通過定制的注意力mask建議視頻token到映射音頻token 的映射。每4個音頻 token綁定到1個視頻 token,第一個 token除外。(b)用于Audio-Face Cross Attention中輸出mask的token。圖3:(a)通過定制的注意力mask建議視頻token到映射音頻token 的映射。每4個音頻 token綁定到1個視頻 token,第一個 token除外。(b)用于Audio-Face Cross Attention中輸出mask的token。

音頻 token 建模。我們使用 Wav2Vec2 對音頻特征進行編碼。第一個潛在幀關(guān)注所有音頻 token,而每個后續(xù)潛在幀僅關(guān)注對應(yīng)于四個音頻 token 的局部時間窗口。視頻和音頻流之間的結(jié)構(gòu)化對齊通過施加時間注意力掩碼 實現(xiàn),如圖3(a)所示。此外,為了實現(xiàn)全面的信息整合,每個音頻 token 在 AFCA 計算中與由  編碼的人臉 token 拼接。這種拼接使得所有視頻查詢 token  能夠有效關(guān)注不同的音頻和人臉信息對,計算如下:

其中,MHCA 表示多頭交叉注意力,W_K和 W_V分別表示鍵矩陣和值矩陣。注意力輸出 Attn_out將隨后由人臉掩碼 token 進行調(diào)整,如公式(3)所述。

人臉 token 建模。人臉圖像通過在訓(xùn)練時在線裁剪所選視頻片段的第一幀并使用 InsightFace 獲得,而人臉掩碼 則預(yù)先計算,覆蓋整個視頻中人臉的最大區(qū)域,即全局人臉邊界框。該掩碼確保面部動作不會超出此區(qū)域,防止在重塑和展平操作后錯誤激活視頻 token,特別是對于面部位移較大的視頻。該掩碼與 具有相同的尺寸,可直接用于逐元素乘法計算 Audio-Face Cross Attention 輸出,公式如下:

因此,每個 I2V DiT 塊的隱藏狀態(tài) ,可表示為:

其中,i 表示注意力層的層索引,n  表示身份數(shù)量。注意,所有 項都由具有共享參數(shù)的同一 AFCA 層產(chǎn)生。AFCA 計算被迭代應(yīng)用 n 次,每次對應(yīng)一個角色,該架構(gòu)可以任意擴展可驅(qū)動身份的數(shù)量。

訓(xùn)練策略

AnyTalker 探索了利用單人數(shù)據(jù)學(xué)習(xí)多人說話模式的潛力,其中低成本單人數(shù)據(jù)構(gòu)成了訓(xùn)練數(shù)據(jù)的大部分。

單人數(shù)據(jù)預(yù)訓(xùn)練。我們使用標準單人數(shù)據(jù)和通過水平拼接生成的合成雙人數(shù)據(jù)訓(xùn)練模型。每個批次的數(shù)據(jù)以50%的概率隨機配置為雙人或單人模式,如圖2(b)所示。在雙人模式下,批次中的每個樣本與其下一個索引的數(shù)據(jù)及其對應(yīng)音頻進行水平拼接。這種方法使得每個批次在兩種模式下的批量大小保持一致。此外,我們預(yù)定義了一些通用文本提示,用于描述雙人對話場景。

多人數(shù)據(jù)互動性優(yōu)化。在第二階段,我們使用少量真實多人數(shù)據(jù)對模型進行微調(diào),以增強不同身份之間的交互性。盡管我們的訓(xùn)練數(shù)據(jù)僅包含兩個身份之間的交互,但我們驚訝地發(fā)現(xiàn),配備 AFCA 模塊的模型能夠自然地泛化到超過兩個身份的場景,如圖1所示。我們推測,這是因為 AFCA 機制使得模型能夠?qū)W習(xí)人類交互的通用模式,包括不僅準確地對音頻進行唇同步,還包括對其他身份說話行為的傾聽和響應(yīng)。

為了構(gòu)建高質(zhì)量的多人訓(xùn)練數(shù)據(jù),我們構(gòu)建了一個嚴格的質(zhì)量控制流程,使用 InsightFace 確保大多數(shù)幀中出現(xiàn)兩張人臉,使用音頻分離分離音頻并確保只有一兩個說話者,使用光流過濾過度運動,并使用 Sync-C 分數(shù)將音頻與人臉配對。該流程最終產(chǎn)生了總共12小時的高質(zhì)量雙人數(shù)據(jù),與之前的方法相比數(shù)量較少。由于AnyTalker 的 AFCA 設(shè)計本身支持多身份輸入,雙人數(shù)據(jù)以與第一階段拼接數(shù)據(jù)相同的格式輸入模型,無需額外處理。

總結(jié)來說,單人數(shù)據(jù)訓(xùn)練過程增強了模型的唇同步能力和生成質(zhì)量,同時也學(xué)習(xí)了多人說話模式。隨后,輕量級的多人數(shù)據(jù)微調(diào)彌補了單人數(shù)據(jù)無法完全覆蓋的多人之間的真實交互。

交互性評估

但現(xiàn)有的單人說話頭生成評估基準不足以評估角色之間的自然交互。盡管 InterActHuman 引入了一個相關(guān)Benchmark,但其測試集僅限于單個說話者的場景,不利于評估多個角色之間的交互。為了填補這一空白,我們精心構(gòu)建了一組包含兩個不同說話者的視頻用于評估互動性。

圖4: 來自InteractiveEyes的兩個視頻片段,帶有運動分數(shù)(單位為像素):左顯示原始視頻,右顯示裁剪后的面部和眼部關(guān)鍵點。將頭轉(zhuǎn)向演講者或揚起眉毛將增加運動和交互性;持續(xù)的靜止使兩個分數(shù)都保持低水平。圖4: 來自InteractiveEyes的兩個視頻片段,帶有運動分數(shù)(單位為像素):左顯示原始視頻,右顯示裁剪后的面部和眼部關(guān)鍵點。將頭轉(zhuǎn)向演講者或揚起眉毛將增加運動和交互性;持續(xù)的靜止使兩個分數(shù)都保持低水平。

數(shù)據(jù)集構(gòu)建

我們選擇具有交互性的雙人視頻構(gòu)建視頻數(shù)據(jù)集,命名為 InteractiveEyes。圖4展示了其中的兩個片段。每個視頻時長約為10秒,整個片段中始終包含兩個角色。此外,通過細致的人工處理,我們對每個視頻的音頻進行分段,確保大多數(shù)視頻同時囊括兩人說話和傾聽的場景,如圖5所示。我們還確保每個視頻包含相互凝視和頭部動作的實例,以提供真實的參考。

圖5: 每個角色的傾聽和說話時間段圖5: 每個角色的傾聽和說話時間段

提出的交互性指標

除了數(shù)據(jù)集,我們還引入了一種新的指標,即 eye-focused Interactivity,用于評估說話者和傾聽者之間的自然交互。由于眼神交流是對話情境中的基本且自發(fā)的行為,我們將其作為交互性的關(guān)鍵參考。受 CyberHost中使用的 Hand Keypoint Variance(HKV)指標啟發(fā),我們通過跟蹤眼關(guān)鍵點的運動幅度來提出一種定量評估交互性的方法。為此,我們在生成幀中提取人臉對齊的眼關(guān)鍵點序列,其中 S  表示幀序列,E  表示眼關(guān)鍵點。運動(Motion)計算如下:

其中,i  和 j 分別表示眼關(guān)鍵點索引和幀索引,,j表示每幀中的眼關(guān)鍵點。該公式直觀地計算了眼區(qū)域的位移和旋轉(zhuǎn)。我們隨后在傾聽期間計算運動。原因是,大多數(shù)生成方法在激活說話者時表現(xiàn)良好,但傾聽者往往顯得僵硬。因此,在傾聽期間進行評估更具針對性和價值。每個人說話和傾聽的時段長度如圖5所示,分別記為 。為了量化傾聽者的響應(yīng)積極性,我們計算傾聽階段 和 的平均運動強度:

該指標有效衡量了生成的多角色視頻中的交互性。如圖4所示,所提出的指標與人類感知高度一致:靜態(tài)或緩慢的眼部運動會得到較低的運動分數(shù),而頭部轉(zhuǎn)動和眉毛上揚會提高分數(shù),從而表示更高的交互性。

實驗

數(shù)據(jù)集。我們擴展了常用單人訓(xùn)練數(shù)據(jù)集并加入了網(wǎng)絡(luò)收集的數(shù)據(jù),第一階段訓(xùn)練總共約1,000小時,第二階段訓(xùn)練收集雙人對話片段,過濾后僅保留約12小時。評估在兩個基準上進行:(i)標準說話頭基準 HDTF 和 VFHQ,以及(ii)我們自行收集的多人對話數(shù)據(jù)集(包含頭部和身體,兩個角色都說話)。我們從每個基準中隨機選擇20個視頻,嚴格確保其身份未出現(xiàn)在訓(xùn)練集中。

實現(xiàn)細節(jié)。為了全面評估我們的方法,我們訓(xùn)練了兩種不同規(guī)模的模型:Wan2.1-1.3B-Inp 和 Wan2.1-I2V-14B,它們作為我們實驗的基礎(chǔ)視頻擴散模型。在所有階段,文本、音頻和圖像編碼器以及3D VAE 保持凍結(jié),DiT 主網(wǎng)絡(luò)(包括新增的 AFCA 層)的所有參數(shù)均開放訓(xùn)練。第一階段以 2×10−5的學(xué)習(xí)率進行預(yù)訓(xùn)練;第二階段以 5×10−6的學(xué)習(xí)率進行微調(diào),使用 AdamW 優(yōu)化器,在32塊 NVIDIA H200 GPU 上進行訓(xùn)練。

評估指標。對于單人 Benchmark,我們采用多種常用指標:Fréchet Inception Distance(FID)和 Fréchet Video Distance(FVD)用于評估生成數(shù)據(jù)的質(zhì)量,Sync-C 用于衡量音頻與唇動的同步性,以及第一幀與剩余幀之間的身份相似度。對于多人 Benchmark,我們從不同維度進行評估。新引入的指標 Interactivity 作為主要評估指標。對于 FVD 指標,計算方式與單人基準類似。對于 Sync-C 指標,我們將其細化為 Sync-C*,僅關(guān)注每個角色說話期間的唇同步,從而避免長時間傾聽段落對最終唇同步得分的影響,具體公式為:

其中,和 表示圖5中展示的說話時間段。

對比方法。我們與幾種最先進的說話視頻生成方法進行比較。對于單人生成,我們與 AniPortrait、EchoMimic 、Hallo3、Sonic、FantasyTalking、StableAvatar、OmniHuman-1.5 和 MultiTalk進行比較。對于多人生成,我們選擇 Bind-Your-Avatar和 MultiTalk進行定量和定性比較。

與 SOTA 方法對比

定量對比。首先,我們與幾種單人生成方法進行比較,以驗證其出色的單人驅(qū)動能力。定量結(jié)果如表1所示。盡管 AnyTalker 并非專門為驅(qū)動說話面孔而設(shè)計,但它在所有指標上均取得了最佳或具有競爭力的結(jié)果。此外,AnyTalker 的1.3B模型在唇同步方面顯著優(yōu)于 AniPortrait、EchoMimic 和 StableAvatar,盡管它們具有相似數(shù)量的參數(shù)。這些結(jié)果證明了 AnyTalker 框架出色且全面的驅(qū)動能力。

隨后,我們使用多人數(shù)據(jù)集 InteractiveEyes 及相關(guān)指標評估 AnyTalker 在驅(qū)動多個身份時保持準確唇同步和自然交互性的能力。在此對比中,我們將 AnyTalker 與現(xiàn)有的開源多人驅(qū)動方法 MultiTalk 和 Bind-Your-Avatar 進行對比。表2中的結(jié)果顯示,AnyTalker 的1.3B和14B模型在 Interactivity 指標上均取得了最佳性能。此外,14B模型在所有指標上均取得了最佳結(jié)果,從而驗證了我們提出的訓(xùn)練流程的有效性。我們還通過定量評估展示了 AnyTalker 生成富含交互性的視頻的能力。

定性對比。我們從 InteractiveEyes 數(shù)據(jù)集中選擇一個真實人類輸入,并使用一個由 AIGC 模型生成的輸入,兩者均附帶相應(yīng)的文本提示和雙音頻流,使用 Bind-Your-Avatar、MultiTalk 和 AnyTalker 進行定量評估對比。如圖6所示,AnyTalker 相比其他方法生成了更自然的視頻,具有眼神和頭部互動。MultiTalk 表現(xiàn)出較弱的眼神互動,而 Bind-Your-Avatar 往往產(chǎn)生更僵硬的表情。這一趨勢進一步驗證了我們提出的 Interactivity 指標的有效性。AnyTalker 不僅能生成自然的雙人互動說話場景,還能很好地擴展到多個身份,如圖1所示,它能有效處理四個身份之間的互動。

圖 6: 多種多人驅(qū)動方法的定性比較。使用相同的文本提示、參考圖像和多個音頻流作為輸入,我們比較了 Bind-Your-Avatar、MultiTalk和AnyTalker的生成結(jié)果。左側(cè)案例使用輸入圖像來自InteractiveEyes數(shù)據(jù)集,而右邊使用文生圖模型生成的圖像自作為輸入。圖 6: 多種多人驅(qū)動方法的定性比較。使用相同的文本提示、參考圖像和多個音頻流作為輸入,我們比較了 Bind-Your-Avatar、MultiTalk和AnyTalker的生成結(jié)果。左側(cè)案例使用輸入圖像來自InteractiveEyes數(shù)據(jù)集,而右邊使用文生圖模型生成的圖像自作為輸入。圖 7: 更多由AnyTalker生成的視頻結(jié)果圖 7: 更多由AnyTalker生成的視頻結(jié)果

結(jié)論

在本文中,我們介紹了 AnyTalker,一個用于生成多人說話視頻的音頻驅(qū)動框架。它提出了一種可擴展的多流處理結(jié)構(gòu),稱為 Audio-Face Cross Attention,能夠在保證跨身份無縫交互的同時實現(xiàn)身份擴展。我們進一步提出了一種可泛化的訓(xùn)練策略,通過基于拼接的增強最大化地利用單人數(shù)據(jù)來學(xué)習(xí)多人說話模式。此外,我們提出了第一個交互性評估指標和一個專門的數(shù)據(jù)集,用于全面評估交互性。大量實驗表明,AnyTalker 在唇形同步、身份可擴展性和交互性之間取得了良好的平衡。

參考文獻

[1] AnyTalker: Scaling Multi-Person Talking Video Generation with Interactivity Refinement

       原文標題 : 港科大等提出音頻驅(qū)動多人視頻生成新范式 AnyTalker,解鎖任意數(shù)量角色間的自然互動!

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號