訂閱
糾錯
加入自媒體

首個亞秒啟動的14B“數(shù)字人”開源!效率飆23倍!SoulX-LiveTalk:32FPS讓對話絲滑如真人

作者:Le Shen等

解讀:AI生成未來

亮點直擊

SoulX-LiveTalk框架: 一個低延遲、實時、音頻驅(qū)動的虛擬形象框架,其核心是14B參數(shù)的DiT模型?朔笠(guī)模擴散模型在實時、無限流媒體應用中面臨的計算成本高和延遲要求嚴格的挑戰(zhàn)。

改進模型架構(gòu)和生成質(zhì)量及提升訓練效率: 摒棄了嚴格的單向范式,轉(zhuǎn)而采用雙向教師到雙向?qū)W生的蒸餾策略。

構(gòu)建全棧推理加速方案: 為了滿足大型DiT模型在嚴格實時流媒體下的性能要求,構(gòu)建了一個全棧推理加速解決方案。

實現(xiàn)卓越的性能: 以僅200個蒸餾步驟收斂到卓越性能,與LiveAvatar所需的27,500個步驟相比,效率提升了大約23倍。實現(xiàn)了0.87秒的啟動延遲,比現(xiàn)有基線的2.89秒快了約3倍。

總結(jié)速覽

解決的問題

將大規(guī)模擴散模型應用于實時、無限時長的音頻驅(qū)動虛擬形象生成,存在計算負載與嚴格的延遲限制之間的沖突。現(xiàn)有方法通常通過強制單向注意力機制或降低模型容量來犧牲視覺保真度,導致運動連貫性不足、視覺細節(jié)丟失和誤差累積。

提出的方案

本文引入了SoulX-LiveTalk,一個14B參數(shù)的框架,通過以下幾個關(guān)鍵創(chuàng)新來解決上述問題:

自校正雙向蒸餾策略: 與傳統(tǒng)單向范式不同,本文在視頻塊內(nèi)保留了雙向注意力機制,以保持關(guān)鍵的時空關(guān)聯(lián),顯著增強運動連貫性和視覺細節(jié)。

多步回顧性自校正機制: 為了確保無限生成過程中的穩(wěn)定性,該機制使模型能夠自主地從累積誤差中恢復并防止生成崩潰。

全棧推理加速套件: 整合了混合序列并行、并行VAE和內(nèi)核級優(yōu)化,以優(yōu)化推理性能。

應用的技術(shù)

14B參數(shù)的Diffusion Transformers (DiTs): 作為高保真生成建模的可擴展骨干網(wǎng)絡(luò)。

自校正雙向蒸餾: 一種訓練策略,在視頻塊內(nèi)保留雙向注意力,并引入多步回顧性自校正機制來模擬和解決長周期生成中的誤差傳播。

混合序列并行 (Ulysses和Ring Attention): 用于DiT的注意力操作加速。

并行VAE (LightX2V的切片并行策略): 用于加速3D VAE的編碼/解碼過程。

FlashAttention3: 針對NVIDIA Hopper架構(gòu)定制的內(nèi)核級優(yōu)化。

torch.compile: 用于統(tǒng)一和優(yōu)化整個推理流水線。

延遲感知時空適應: 一個訓練階段,使模型適應在降低的空間分辨率和更短的幀序列下有效運行。

達到的效果

SoulX-LiveTalk是首個實現(xiàn)亞秒級啟動延遲(0.87秒)的14B規(guī)模系統(tǒng)。達到了32 FPS的實時吞吐量,為高保真交互式數(shù)字人合成設(shè)定了新標準。模型收斂速度顯著加快,僅需1.2k步即可達到卓越性能,比LiveAvatar減少了約23倍的訓練步驟(LiveAvatar需要27.5k步)。通過雙向流媒體蒸餾,有效減輕了長周期生成中的誤差累積、背景紋理模糊和細節(jié)丟失問題。實現(xiàn)了細粒度的唇音同步精度,生成的唇部幾何形狀與真實值嚴格對齊,最大限度地減少了唇音漂移和僵硬。

架構(gòu)方法

本文詳細介紹了SoulX-LiveTalk的核心方法。如下圖2所示,該框架建立在14B參數(shù)的DiT模型之上,并集成了兩階段訓練流水線與全棧推理加速引擎。訓練過程包括“延遲感知時空適應”階段和“自校正雙向蒸餾”階段,旨在同時滿足高保真生成和低延遲流媒體的要求。

模型架構(gòu)

該架構(gòu)源自WAN2.1-I2V-14B和InfiniteTalk,包含四個主要組件:

3D VAE: 本文利用WAN2.1 VAE進行隱空間壓縮,以實現(xiàn)高效的高分辨率視頻生成。該模塊將視頻幀編碼為緊湊的潛在表示,在時間、高度和寬度維度上實現(xiàn)4x8x8的時空下采樣因子。

基于DiT的生成器: 核心生成器采用DiT架構(gòu)。如下圖2(a)所示,每個DiT塊都包含一個3D注意力機制,用于建模時空依賴性。統(tǒng)一的交叉注意力層根據(jù)參考圖像和文本輸入來條件化生成,以保持視覺保真度并提供語義指導。此外,本文集成了一個專用的音頻交叉注意力層,將語音驅(qū)動信號直接注入生成過程。

條件編碼器: 該模型根據(jù)音頻、文本和參考圖像進行條件化生成。本文采用為中文語音定制的Wav2Vec模型,將連續(xù)音頻信號轉(zhuǎn)換為序列嵌入。為確保身份一致性,本文使用CLIP和VAE編碼器從參考圖像中提取語義表示和視覺特征 。對于文本條件,本文采用umT5以支持雙語字幕。這些身份和文本條件通過交叉注意力層注入。

潛在輸入公式: 對于給定的源視頻,本文采樣一個長度為  的視頻片段 。初始的  幀作為運動幀  以捕獲歷史上下文,而隨后的幀作為生成目標。參考幀  從片段邊界之外隨機采樣。所有輸入均由3D VAE編碼并組合形成DiT輸入 :

其中  表示幀級拼接, 表示通道級拼接。 代表3D VAE編碼器。流  結(jié)合了歷史隱變量和通過在時間步  對  應用前向擴散過程  得到的噪聲隱變量。流  注入?yún)⒖贾笇,?nbsp; 使用二元指示符識別參考幀。這種復合輸入結(jié)構(gòu)促進了歷史運動上下文與當前生成目標之間的雙向交互,使模型能夠利用參考信息糾正累積誤差。

模型訓練

為了在嚴格的延遲約束下滿足實時推理,本文采用兩階段訓練策略。“延遲感知時空適應”階段使模型適應降低的空間分辨率和更短的幀序列,而“自校正雙向蒸餾”階段進一步減少采樣步驟并消除無分類器指導。這個兩階段過程能夠?qū)崿F(xiàn)快速模型響應,同時保持高生成質(zhì)量。

階段1:延遲感知時空適應

14B參數(shù)DiT骨干網(wǎng)絡(luò)的高計算成本對實時應用構(gòu)成了重大挑戰(zhàn)。盡管原始的InfiniteTalk模型提供了高質(zhì)量的結(jié)果,但其在標準硬件上的推理延遲對于交互式流媒體來說太高了。因此,本文使模型適應在降低的空間分辨率和更短的幀序列下運行。

在這些受限設(shè)置下直接部署預訓練模型會導致特征對齊不良和生成質(zhì)量下降。本文通過執(zhí)行一個專門的微調(diào)階段來解決這個問題,該階段針對目標分辨率和幀數(shù)進行優(yōu)化。在此階段,本文采用動態(tài)寬高比分桶策略高效組織訓練樣本,減少了因填充或裁剪造成的數(shù)據(jù)損失。此過程使14B模型即使在較低分辨率下也能恢復精細細節(jié)并保持身份一致性。

階段2:自校正雙向蒸餾

多步采樣和無分類器指導會產(chǎn)生顯著的計算開銷。本文采用DMD框架來壓縮采樣步驟并消除對指導的需求,從而實現(xiàn)實時流媒體。

該框架旨在通過使用Kullback–Leibler (KL) 散度作為優(yōu)化標準,最小化每個時間步  原始教師模型和蒸餾學生模型之間的分布差異。由此產(chǎn)生的訓練目標公式為:

其中, 被凍結(jié)以建模教師分布,而  是可訓練的,并跟蹤不斷演變的學生分布。學生生成器  通過少量步驟推理生成樣本,無需分類器指導。所有組件均從階段1 SFT模型初始化。

標準DMD無法解決長視頻中誤差累積或身份漂移的問題。受Self-Forcing++的啟發(fā),本文引入了自校正雙向蒸餾,其中包含一個多步回顧性自校正機制,以明確模擬長周期生成過程中的誤差傳播。具體來說,生成器需要自回歸地合成K個連續(xù)塊,其中每個塊都以先前生成的運動幀而不是真實值作為條件。

為了平衡計算效率和訓練穩(wěn)定性,本文進一步提出了一種隨機截斷策略。本文隨機采樣一個小于K的較小值 ,并僅生成前  個塊,而不是合成所有K個塊。在反向傳播過程中,從T個縮減采樣步驟中隨機采樣一個去噪步驟 ,并且僅保留第  個塊的第  個去噪步驟的梯度,而所有其他步驟都從計算圖中分離。這種隨機截斷提供了內(nèi)存高效且無偏的全訓練目標近似,可以表示為:

其中  表示模型在第  個塊的第  個去噪步驟的輸出,并且在反向傳播過程中,所有先前的塊和去噪步驟都從計算圖中分離。

遵循這種兩階段訓練策略,SoulX-LiveTalk在推理速度和生成質(zhì)量方面均優(yōu)于現(xiàn)有音頻驅(qū)動視頻生成模型,達到了最先進的性能。

實時推理加速

僅僅單獨優(yōu)化訓練和推理不足以完全滿足嚴格的低延遲要求。為了實現(xiàn)14B參數(shù)模型的亞秒級延遲,本文實現(xiàn)了一個專門為8個H800節(jié)點設(shè)計的全棧加速套件。

核心計算瓶頸在于DiT的大規(guī)模注意力操作。為了消除這一障礙,本文部署了由xDiT驅(qū)動的混合序列并行。通過協(xié)同Ulysses和Ring Attention機制,本文有效地分配了注意力工作負載,與標準實現(xiàn)相比,單步推理速度提高了約5倍。此外,本文通過采用FlashAttention3在內(nèi)核級別優(yōu)化了DiT,F(xiàn)lashAttention3專門設(shè)計用于利用NVIDIA Hopper架構(gòu),包括其異步執(zhí)行流水線。這改進了數(shù)據(jù)移動和計算之間的重疊,使得注意力延遲比FlashAttention2額外減少了20%。

隨著DiT推理的充分加速,高分辨率VAE解碼器的計算開銷成為主要的延遲因素。為了解決這種范式轉(zhuǎn)變,本文引入了3D VAE并行以減輕解碼負擔。通過采用基于切片策略將空間解碼工作負載分布到多個GPU上,本文實現(xiàn)了VAE處理速度的約5倍加速,確保它不會成為流水線瓶頸。

最后,為了消除Python運行時和碎片化內(nèi)核執(zhí)行帶來的開銷,整個推理流水線通過torch.compile進行統(tǒng)一和優(yōu)化。這使得激進的圖級融合和內(nèi)存優(yōu)化成為可能,最大限度地利用了H800節(jié)點的硬件能力。

架構(gòu)分析:為什么選擇雙向?

盡管自回歸模型在流媒體視頻生成中占據(jù)主導地位,但其固有的單向依賴性從根本上限制了全局時間結(jié)構(gòu)的建模。在這種范式下,模型主要以歷史幀為條件,并通常避免嚴格的逐幀合成。相反,生成以最小的塊進行以提高局部一致性,其中在每個塊內(nèi)應用雙向注意力,而在塊之間強制執(zhí)行單向依賴性。然而,這種折衷仍不足以防止時間不一致、誤差累積和身份漂移,特別是在長周期生成中。

本文認為,對于目標任務(wù)而言,整合長歷史并非主要瓶頸。相反,有效抑制時間漂移和累積誤差更為重要。受此觀察的啟發(fā),本文完全保留了原始模型的雙向注意力機制,始終允許幀之間進行全對全的信息交換。這種設(shè)計使模型能夠在每一步共同利用過去和隱式未來上下文,從而實現(xiàn)更準確和連貫的生成,同時與教師架構(gòu)完全對齊,從而顯著加速模型訓練。

這種雙向建模不僅大大提高了單個塊內(nèi)的時空連貫性,而且還為流媒體生成提供了更強大、更高質(zhì)量的基本單元,從而有效地緩解了整個長序列視頻生成中的漂移和崩潰問題。

實驗總結(jié)

本節(jié)介紹了SoulX-LiveTalk的實現(xiàn)細節(jié)、所用數(shù)據(jù)集和評估指標,并對其性能、蒸餾策略的消融研究以及推理延遲進行了分析。

實現(xiàn)細節(jié): 模型基于InfiniteTalk架構(gòu),并針對實時約束進行了優(yōu)化。訓練包括1000步的輕量級SFT階段和200步的蒸餾階段。學習率設(shè)置為生成器 ,F(xiàn)ake Score Network ,更新比為1:5。為模擬長周期生成中的誤差累積,生成器在蒸餾過程中合成多達  個連續(xù)塊。實驗使用32個NVIDIA H20 GPU,每GPU批處理大小為1,并采用FSDP、梯度檢查點和混合精度訓練來提高效率。

數(shù)據(jù)集: 訓練和評估數(shù)據(jù)來源于公開的SpeakerVid-5M和TalkVid數(shù)據(jù)集,確保訓練集和測試集無重疊。構(gòu)建了一個名為TalkBench的專用基準,包含TalkBench-Short(100個樣本,時長小于10秒)和TalkBench-Long(20個樣本,時長超過5分鐘)兩個子集。

評估指標: 使用Q-Align視覺語言模型進行圖像質(zhì)量評估(IQA)和美學得分評估(ASE)。唇音同步通過Sync-C和Sync-D指標衡量。此外,采用VBench評估時間質(zhì)量,包括主體一致性(Subject-C)、背景一致性(BG-C)、運動平滑度(Motion-S)和時間閃爍(Temporal-F)。

SoulX-LiveTalk的性能

本文將SoulX-LiveTalk與Ditto、EchoMimic-V3、StableAvatar、OmniAvatar、InfiniteTalk和LiveAvatar等最先進的音頻驅(qū)動生成模型進行了比較。

定量分析

如下表1所示,在TalkBench-Short和TalkBench-Long數(shù)據(jù)集上,SoulX-LiveTalk在視覺質(zhì)量和同步方面表現(xiàn)出色。在短視頻基準測試中,ASE達到3.51,IQA達到4.79,均超過Echomimic-V3。唇音同步方面,Sync-C得分為1.47,優(yōu)于OmniAvatar。在推理速度方面,14B參數(shù)模型吞吐量達到32 FPS,超過實時要求的25 FPS,并顯著優(yōu)于LiveAvatar的20.88 FPS。

在時間一致性指標方面,Ditto在Subject-C和BG-C上表現(xiàn)最佳,但其生成范式限制了全身動態(tài)。SoulX-LiveTalk在生成全身運動的同時,Subject-C仍達到99.22,實現(xiàn)了運動表現(xiàn)力和時間穩(wěn)定性之間的平衡。

在長周期生成方面,SoulX-LiveTalk的Sync-C達到1.61,Sync-D為12.25,優(yōu)于InfiniteTalk和LiveAvatar,并保持32 FPS的吞吐量。這些結(jié)果證實了雙向蒸餾策略能有效減少單向流媒體模型中常見的不同步和漂移問題。

定性分析

本節(jié)對SoulX-LiveTalk的生成保真度、長期穩(wěn)定性和唇音同步精度進行了定性評估。

視覺保真度和細節(jié)保留: 如下圖3所示,在5秒視頻生成中,基線模型在大幅肢體運動時存在困難。Ditto無法合成有意義的手部動作(如橙色框所示),EchoMimic-v3和StableAvatar在手部區(qū)域存在結(jié)構(gòu)變形和偽影(如藍色框所示)。InfiniteTalk在快速手勢時出現(xiàn)手部過曝和運動模糊。相比之下,SoulX-LiveTalk利用其14B DiT架構(gòu)和雙向注意力機制消除了這些偽影,合成了清晰、結(jié)構(gòu)完整、紋理銳利的手部動作,并超越LiveAvatar在背景一致性和身份保真度方面表現(xiàn)更優(yōu)。

無限生成中的穩(wěn)定性: 如下圖4所示,在連續(xù)生成長達1000秒時,基線模型(LiveAvatar、StableAvatar、InfiniteTalk)存在顯著的誤差累積,背景區(qū)域出現(xiàn)嚴重的紋理模糊和細節(jié)丟失(如藍色框所示)。SoulX-LiveTalk通過雙向流媒體蒸餾和自校正機制減輕了誤差傳播(如橙色框所示),即使在1000秒標記處仍保持一致的面部幾何形狀和清晰的背景細節(jié),驗證了其在無限流媒體中的魯棒性。

細粒度唇音同步精度: 如下圖5所示,在特定中文發(fā)音時,基線模型在復雜音素上存在結(jié)構(gòu)錯位,例如在發(fā)音“上”、“突”時,其嘴部張開度和形狀與真實值(GT)不匹配(如黃色虛線框所示)。相反,SoulX-LiveTalk捕捉了這些細粒度音素動態(tài),生成的唇部幾何形狀與GT嚴格對齊,從而最大限度地減少了唇音漂移和僵硬,確保了跨不同語言的視覺真實性。

蒸餾消融多步回顧性自校正的影響

本部分分析了生成塊數(shù)  和調(diào)度策略對長期穩(wěn)定性的影響。比較了  固定為1、3或5的策略與訓練期間  在1到5之間隨機采樣的隨機策略。

如下表2所示,單塊  訓練的訓練成本最低(2.33小時),但無法保持長期穩(wěn)定性,長視頻上的Sync-C得分僅為1.12,證實了誤差累積問題。將  增加到3顯著提高了穩(wěn)定性。然而,將  進一步增加到5會將訓練成本提高到6.40小時,但同步性能沒有相應提升。隨機策略達到了最佳的整體平衡,實現(xiàn)了最高的長Sync-C得分1.61和最佳的視覺質(zhì)量指標,同時將訓練成本保持在適度的4.40小時。這表明在蒸餾過程中使模型接觸不同自回歸長度可有效提高對累積誤差的魯棒性。

運動隱變量條件對DMD的影響

本部分從運動隱變量來源、噪聲注入和損失計算三個維度考察了Real Score網(wǎng)絡(luò)的條件設(shè)置。如下表3所示,使用學生預測的運動隱變量比使用真實值(GT)隱變量能產(chǎn)生更好的視覺質(zhì)量。具體而言,帶有噪聲的預測策略的ASE為3.51,IQA為4.79,超過了GT配置(3.48和4.77)。這表明使用預測隱變量有助于減少訓練和推理之間的差異。

關(guān)于噪聲和損失,將噪聲注入預測隱變量可提高性能,使ASE從3.46提高到3.51。相反,將運動隱變量包含在損失計算中會將ASE降至3.48。這表明要求模型重建條件幀會分散對主要去噪任務(wù)的關(guān)注。因此,帶有噪聲注入和無損失的預測隱變量配置可提供最佳結(jié)果。

推理延遲分析

分析了在不同數(shù)量的NVIDIA H800 GPU的單節(jié)點系統(tǒng)上組件級延遲。實驗設(shè)置目標為720x416分辨率和4步去噪的高保真流媒體。每個片段包含33幀,包括28個生成幀和5個運動幀。在此配置下,流水線吞吐量可達32 FPS。

首先檢查VAE和DiT的延遲,以突出多GPU并行化的必要性,如下表4所示。在單個GPU上,DiT推理本身每步產(chǎn)生1070毫秒的延遲,而VAE推理編碼運動幀需要97毫秒,解碼生成幀需要988毫秒。

當擴展到8個GPU時,DiT和VAE分別使用xDiT的混合序列并行和LightX2V的基于切片的并行策略進行并行化。由于GPU間通信開銷,加速略微低于線性,整體加速接近5倍。具體而言,DiT延遲從1070毫秒減少到193毫秒,VAE編碼從97毫秒減少到21毫秒,解碼從988毫秒減少到192毫秒。通過啟用torch.compile實現(xiàn)了額外的延遲降低。

在核心組件優(yōu)化基礎(chǔ)上,本文報告了8個H800 GPU集群上端到端流水線延遲,如下圖6所示。在穩(wěn)態(tài)生成循環(huán)期間,每個周期的總延遲為876毫秒,其中音頻處理耗時33毫秒,核心4步DiT去噪耗時616毫秒,幀解碼耗時187毫秒,運動幀編碼耗時14毫秒。其余延遲歸因于其他開銷。通過實現(xiàn)亞秒級的端到端延遲,所提出的流水線滿足了實時流媒體嚴格的吞吐量要求。

結(jié)論和未來工作

SoulX-LiveTalk,一個旨在滿足實時要求同時保持高質(zhì)量視頻合成的框架。該框架將雙向流媒體蒸餾與多步自校正機制相結(jié)合,使本文的14B參數(shù)DiT模型能夠在8個H800集群上維持穩(wěn)定、無限長的流媒體。本文的方法還簡化了訓練,證明了不需要復雜的多階段預訓練。簡短的SFT階段后進行分布匹配蒸餾就足以實現(xiàn)最先進的性能。

未來的工作將優(yōu)先考慮模型效率而非系統(tǒng)擴展。本文計劃探索剪枝、量化和優(yōu)化的注意力機制。目標是在消費級硬件上部署這些模型,消除對昂貴計算集群的依賴。

參考文獻

[1] SoulX-LiveTalk Technical Report

       原文標題 : 首個亞秒啟動的14B“數(shù)字人”開源!效率飆23倍!SoulX-LiveTalk:32FPS讓對話絲滑如真人

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號