123,123

首個(gè)亞秒啟動(dòng)的14B“數(shù)字人”開源！效率飆23倍！SoulX-LiveTalk：32FPS讓對(duì)話絲滑如真人

2026-01-04 16:06

作者：Le Shen等

解讀：AI生成未來

亮點(diǎn)直擊

SoulX-LiveTalk框架： 一個(gè)低延遲、實(shí)時(shí)、音頻驅(qū)動(dòng)的虛擬形象框架，其核心是14B參數(shù)的DiT模型。克服大規(guī)模擴(kuò)散模型在實(shí)時(shí)、無限流媒體應(yīng)用中面臨的計(jì)算成本高和延遲要求嚴(yán)格的挑戰(zhàn)。

改進(jìn)模型架構(gòu)和生成質(zhì)量及提升訓(xùn)練效率： 摒棄了嚴(yán)格的單向范式，轉(zhuǎn)而采用雙向教師到雙向?qū)W生的蒸餾策略。

構(gòu)建全棧推理加速方案： 為了滿足大型DiT模型在嚴(yán)格實(shí)時(shí)流媒體下的性能要求，構(gòu)建了一個(gè)全棧推理加速解決方案。

實(shí)現(xiàn)卓越的性能： 以僅200個(gè)蒸餾步驟收斂到卓越性能，與LiveAvatar所需的27,500個(gè)步驟相比，效率提升了大約23倍。實(shí)現(xiàn)了0.87秒的啟動(dòng)延遲，比現(xiàn)有基線的2.89秒快了約3倍。

總結(jié)速覽

解決的問題

將大規(guī)模擴(kuò)散模型應(yīng)用于實(shí)時(shí)、無限時(shí)長(zhǎng)的音頻驅(qū)動(dòng)虛擬形象生成，存在計(jì)算負(fù)載與嚴(yán)格的延遲限制之間的沖突。現(xiàn)有方法通常通過強(qiáng)制單向注意力機(jī)制或降低模型容量來犧牲視覺保真度，導(dǎo)致運(yùn)動(dòng)連貫性不足、視覺細(xì)節(jié)丟失和誤差累積。

提出的方案

本文引入了SoulX-LiveTalk，一個(gè)14B參數(shù)的框架，通過以下幾個(gè)關(guān)鍵創(chuàng)新來解決上述問題：

自校正雙向蒸餾策略： 與傳統(tǒng)單向范式不同，本文在視頻塊內(nèi)保留了雙向注意力機(jī)制，以保持關(guān)鍵的時(shí)空關(guān)聯(lián)，顯著增強(qiáng)運(yùn)動(dòng)連貫性和視覺細(xì)節(jié)。

多步回顧性自校正機(jī)制： 為了確保無限生成過程中的穩(wěn)定性，該機(jī)制使模型能夠自主地從累積誤差中恢復(fù)并防止生成崩潰。

全棧推理加速套件： 整合了混合序列并行、并行VAE和內(nèi)核級(jí)優(yōu)化，以優(yōu)化推理性能。

應(yīng)用的技術(shù)

14B參數(shù)的Diffusion Transformers (DiTs)： 作為高保真生成建模的可擴(kuò)展骨干網(wǎng)絡(luò)。

自校正雙向蒸餾： 一種訓(xùn)練策略，在視頻塊內(nèi)保留雙向注意力，并引入多步回顧性自校正機(jī)制來模擬和解決長(zhǎng)周期生成中的誤差傳播。

混合序列并行 (Ulysses和Ring Attention)： 用于DiT的注意力操作加速。

并行VAE (LightX2V的切片并行策略)： 用于加速3D VAE的編碼/解碼過程。

FlashAttention3： 針對(duì)NVIDIA Hopper架構(gòu)定制的內(nèi)核級(jí)優(yōu)化。

torch.compile： 用于統(tǒng)一和優(yōu)化整個(gè)推理流水線。

延遲感知時(shí)空適應(yīng)： 一個(gè)訓(xùn)練階段，使模型適應(yīng)在降低的空間分辨率和更短的幀序列下有效運(yùn)行。

達(dá)到的效果

SoulX-LiveTalk是首個(gè)實(shí)現(xiàn)亞秒級(jí)啟動(dòng)延遲（0.87秒）的14B規(guī)模系統(tǒng)。達(dá)到了32 FPS的實(shí)時(shí)吞吐量，為高保真交互式數(shù)字人合成設(shè)定了新標(biāo)準(zhǔn)。模型收斂速度顯著加快，僅需1.2k步即可達(dá)到卓越性能，比LiveAvatar減少了約23倍的訓(xùn)練步驟（LiveAvatar需要27.5k步）。通過雙向流媒體蒸餾，有效減輕了長(zhǎng)周期生成中的誤差累積、背景紋理模糊和細(xì)節(jié)丟失問題。實(shí)現(xiàn)了細(xì)粒度的唇音同步精度，生成的唇部幾何形狀與真實(shí)值嚴(yán)格對(duì)齊，最大限度地減少了唇音漂移和僵硬。

架構(gòu)方法

本文詳細(xì)介紹了SoulX-LiveTalk的核心方法。如下圖2所示，該框架建立在14B參數(shù)的DiT模型之上，并集成了兩階段訓(xùn)練流水線與全棧推理加速引擎。訓(xùn)練過程包括“延遲感知時(shí)空適應(yīng)”階段和“自校正雙向蒸餾”階段，旨在同時(shí)滿足高保真生成和低延遲流媒體的要求。

模型架構(gòu)

該架構(gòu)源自WAN2.1-I2V-14B和InfiniteTalk，包含四個(gè)主要組件：

3D VAE： 本文利用WAN2.1 VAE進(jìn)行隱空間壓縮，以實(shí)現(xiàn)高效的高分辨率視頻生成。該模塊將視頻幀編碼為緊湊的潛在表示，在時(shí)間、高度和寬度維度上實(shí)現(xiàn)4x8x8的時(shí)空下采樣因子。

基于DiT的生成器： 核心生成器采用DiT架構(gòu)。如下圖2(a)所示，每個(gè)DiT塊都包含一個(gè)3D注意力機(jī)制，用于建模時(shí)空依賴性。統(tǒng)一的交叉注意力層根據(jù)參考圖像和文本輸入來?xiàng)l件化生成，以保持視覺保真度并提供語義指導(dǎo)。此外，本文集成了一個(gè)專用的音頻交叉注意力層，將語音驅(qū)動(dòng)信號(hào)直接注入生成過程。

條件編碼器： 該模型根據(jù)音頻、文本和參考圖像進(jìn)行條件化生成。本文采用為中文語音定制的Wav2Vec模型，將連續(xù)音頻信號(hào)轉(zhuǎn)換為序列嵌入。為確保身份一致性，本文使用CLIP和VAE編碼器從參考圖像中提取語義表示和視覺特征。對(duì)于文本條件，本文采用umT5以支持雙語字幕。這些身份和文本條件通過交叉注意力層注入。

潛在輸入公式： 對(duì)于給定的源視頻，本文采樣一個(gè)長(zhǎng)度為的視頻片段。初始的幀作為運(yùn)動(dòng)幀以捕獲歷史上下文，而隨后的幀作為生成目標(biāo)。參考幀從片段邊界之外隨機(jī)采樣。所有輸入均由3D VAE編碼并組合形成DiT輸入：

其中表示幀級(jí)拼接，表示通道級(jí)拼接。代表3D VAE編碼器。流結(jié)合了歷史隱變量和通過在時(shí)間步對(duì) 應(yīng)用前向擴(kuò)散過程得到的噪聲隱變量。流注入?yún)⒖贾笇?dǎo)，而使用二元指示符識(shí)別參考幀。這種復(fù)合輸入結(jié)構(gòu)促進(jìn)了歷史運(yùn)動(dòng)上下文與當(dāng)前生成目標(biāo)之間的雙向交互，使模型能夠利用參考信息糾正累積誤差。

模型訓(xùn)練

為了在嚴(yán)格的延遲約束下滿足實(shí)時(shí)推理，本文采用兩階段訓(xùn)練策略。“延遲感知時(shí)空適應(yīng)”階段使模型適應(yīng)降低的空間分辨率和更短的幀序列，而“自校正雙向蒸餾”階段進(jìn)一步減少采樣步驟并消除無分類器指導(dǎo)。這個(gè)兩階段過程能夠?qū)崿F(xiàn)快速模型響應(yīng)，同時(shí)保持高生成質(zhì)量。

階段1：延遲感知時(shí)空適應(yīng)

14B參數(shù)DiT骨干網(wǎng)絡(luò)的高計(jì)算成本對(duì)實(shí)時(shí)應(yīng)用構(gòu)成了重大挑戰(zhàn)。盡管原始的InfiniteTalk模型提供了高質(zhì)量的結(jié)果，但其在標(biāo)準(zhǔn)硬件上的推理延遲對(duì)于交互式流媒體來說太高了。因此，本文使模型適應(yīng)在降低的空間分辨率和更短的幀序列下運(yùn)行。

在這些受限設(shè)置下直接部署預(yù)訓(xùn)練模型會(huì)導(dǎo)致特征對(duì)齊不良和生成質(zhì)量下降。本文通過執(zhí)行一個(gè)專門的微調(diào)階段來解決這個(gè)問題，該階段針對(duì)目標(biāo)分辨率和幀數(shù)進(jìn)行優(yōu)化。在此階段，本文采用動(dòng)態(tài)寬高比分桶策略高效組織訓(xùn)練樣本，減少了因填充或裁剪造成的數(shù)據(jù)損失。此過程使14B模型即使在較低分辨率下也能恢復(fù)精細(xì)細(xì)節(jié)并保持身份一致性。

階段2：自校正雙向蒸餾

多步采樣和無分類器指導(dǎo)會(huì)產(chǎn)生顯著的計(jì)算開銷。本文采用DMD框架來壓縮采樣步驟并消除對(duì)指導(dǎo)的需求，從而實(shí)現(xiàn)實(shí)時(shí)流媒體。

該框架旨在通過使用Kullback–Leibler (KL) 散度作為優(yōu)化標(biāo)準(zhǔn)，最小化每個(gè)時(shí)間步原始教師模型和蒸餾學(xué)生模型之間的分布差異。由此產(chǎn)生的訓(xùn)練目標(biāo)公式為：

其中，被凍結(jié)以建模教師分布，而是可訓(xùn)練的，并跟蹤不斷演變的學(xué)生分布。學(xué)生生成器通過少量步驟推理生成樣本，無需分類器指導(dǎo)。所有組件均從階段1 SFT模型初始化。

標(biāo)準(zhǔn)DMD無法解決長(zhǎng)視頻中誤差累積或身份漂移的問題。受Self-Forcing++的啟發(fā)，本文引入了自校正雙向蒸餾，其中包含一個(gè)多步回顧性自校正機(jī)制，以明確模擬長(zhǎng)周期生成過程中的誤差傳播。具體來說，生成器需要自回歸地合成K個(gè)連續(xù)塊，其中每個(gè)塊都以先前生成的運(yùn)動(dòng)幀而不是真實(shí)值作為條件。

為了平衡計(jì)算效率和訓(xùn)練穩(wěn)定性，本文進(jìn)一步提出了一種隨機(jī)截?cái)嗖呗�。本文隨機(jī)采樣一個(gè)小于K的較小值，并僅生成前個(gè)塊，而不是合成所有K個(gè)塊。在反向傳播過程中，從T個(gè)縮減采樣步驟中隨機(jī)采樣一個(gè)去噪步驟，并且僅保留第個(gè)塊的第個(gè)去噪步驟的梯度，而所有其他步驟都從計(jì)算圖中分離。這種隨機(jī)截?cái)嗵峁┝藘?nèi)存高效且無偏的全訓(xùn)練目標(biāo)近似，可以表示為：

其中表示模型在第個(gè)塊的第個(gè)去噪步驟的輸出，并且在反向傳播過程中，所有先前的塊和去噪步驟都從計(jì)算圖中分離。

遵循這種兩階段訓(xùn)練策略，SoulX-LiveTalk在推理速度和生成質(zhì)量方面均優(yōu)于現(xiàn)有音頻驅(qū)動(dòng)視頻生成模型，達(dá)到了最先進(jìn)的性能。

實(shí)時(shí)推理加速

僅僅單獨(dú)優(yōu)化訓(xùn)練和推理不足以完全滿足嚴(yán)格的低延遲要求。為了實(shí)現(xiàn)14B參數(shù)模型的亞秒級(jí)延遲，本文實(shí)現(xiàn)了一個(gè)專門為8個(gè)H800節(jié)點(diǎn)設(shè)計(jì)的全棧加速套件。

核心計(jì)算瓶頸在于DiT的大規(guī)模注意力操作。為了消除這一障礙，本文部署了由xDiT驅(qū)動(dòng)的混合序列并行。通過協(xié)同Ulysses和Ring Attention機(jī)制，本文有效地分配了注意力工作負(fù)載，與標(biāo)準(zhǔn)實(shí)現(xiàn)相比，單步推理速度提高了約5倍。此外，本文通過采用FlashAttention3在內(nèi)核級(jí)別優(yōu)化了DiT，F(xiàn)lashAttention3專門設(shè)計(jì)用于利用NVIDIA Hopper架構(gòu)，包括其異步執(zhí)行流水線。這改進(jìn)了數(shù)據(jù)移動(dòng)和計(jì)算之間的重疊，使得注意力延遲比FlashAttention2額外減少了20%。

隨著DiT推理的充分加速，高分辨率VAE解碼器的計(jì)算開銷成為主要的延遲因素。為了解決這種范式轉(zhuǎn)變，本文引入了3D VAE并行以減輕解碼負(fù)擔(dān)。通過采用基于切片策略將空間解碼工作負(fù)載分布到多個(gè)GPU上，本文實(shí)現(xiàn)了VAE處理速度的約5倍加速，確保它不會(huì)成為流水線瓶頸。

最后，為了消除Python運(yùn)行時(shí)和碎片化內(nèi)核執(zhí)行帶來的開銷，整個(gè)推理流水線通過torch.compile進(jìn)行統(tǒng)一和優(yōu)化。這使得激進(jìn)的圖級(jí)融合和內(nèi)存優(yōu)化成為可能，最大限度地利用了H800節(jié)點(diǎn)的硬件能力。

架構(gòu)分析：為什么選擇雙向？

盡管自回歸模型在流媒體視頻生成中占據(jù)主導(dǎo)地位，但其固有的單向依賴性從根本上限制了全局時(shí)間結(jié)構(gòu)的建模。在這種范式下，模型主要以歷史幀為條件，并通常避免嚴(yán)格的逐幀合成。相反，生成以最小的塊進(jìn)行以提高局部一致性，其中在每個(gè)塊內(nèi)應(yīng)用雙向注意力，而在塊之間強(qiáng)制執(zhí)行單向依賴性。然而，這種折衷仍不足以防止時(shí)間不一致、誤差累積和身份漂移，特別是在長(zhǎng)周期生成中。

本文認(rèn)為，對(duì)于目標(biāo)任務(wù)而言，整合長(zhǎng)歷史并非主要瓶頸。相反，有效抑制時(shí)間漂移和累積誤差更為重要。受此觀察的啟發(fā)，本文完全保留了原始模型的雙向注意力機(jī)制，始終允許幀之間進(jìn)行全對(duì)全的信息交換。這種設(shè)計(jì)使模型能夠在每一步共同利用過去和隱式未來上下文，從而實(shí)現(xiàn)更準(zhǔn)確和連貫的生成，同時(shí)與教師架構(gòu)完全對(duì)齊，從而顯著加速模型訓(xùn)練。

這種雙向建模不僅大大提高了單個(gè)塊內(nèi)的時(shí)空連貫性，而且還為流媒體生成提供了更強(qiáng)大、更高質(zhì)量的基本單元，從而有效地緩解了整個(gè)長(zhǎng)序列視頻生成中的漂移和崩潰問題。

實(shí)驗(yàn)總結(jié)

本節(jié)介紹了SoulX-LiveTalk的實(shí)現(xiàn)細(xì)節(jié)、所用數(shù)據(jù)集和評(píng)估指標(biāo)，并對(duì)其性能、蒸餾策略的消融研究以及推理延遲進(jìn)行了分析。

實(shí)現(xiàn)細(xì)節(jié)： 模型基于InfiniteTalk架構(gòu)，并針對(duì)實(shí)時(shí)約束進(jìn)行了優(yōu)化。訓(xùn)練包括1000步的輕量級(jí)SFT階段和200步的蒸餾階段。學(xué)習(xí)率設(shè)置為生成器，F(xiàn)ake Score Network ，更新比為1:5。為模擬長(zhǎng)周期生成中的誤差累積，生成器在蒸餾過程中合成多達(dá) 個(gè)連續(xù)塊。實(shí)驗(yàn)使用32個(gè)NVIDIA H20 GPU，每GPU批處理大小為1，并采用FSDP、梯度檢查點(diǎn)和混合精度訓(xùn)練來提高效率。

數(shù)據(jù)集： 訓(xùn)練和評(píng)估數(shù)據(jù)來源于公開的SpeakerVid-5M和TalkVid數(shù)據(jù)集，確保訓(xùn)練集和測(cè)試集無重疊。構(gòu)建了一個(gè)名為TalkBench的專用基準(zhǔn)，包含TalkBench-Short（100個(gè)樣本，時(shí)長(zhǎng)小于10秒）和TalkBench-Long（20個(gè)樣本，時(shí)長(zhǎng)超過5分鐘）兩個(gè)子集。

評(píng)估指標(biāo)： 使用Q-Align視覺語言模型進(jìn)行圖像質(zhì)量評(píng)估（IQA）和美學(xué)得分評(píng)估（ASE）。唇音同步通過Sync-C和Sync-D指標(biāo)衡量。此外，采用VBench評(píng)估時(shí)間質(zhì)量，包括主體一致性（Subject-C）、背景一致性（BG-C）、運(yùn)動(dòng)平滑度（Motion-S）和時(shí)間閃爍（Temporal-F）。

SoulX-LiveTalk的性能

本文將SoulX-LiveTalk與Ditto、EchoMimic-V3、StableAvatar、OmniAvatar、InfiniteTalk和LiveAvatar等最先進(jìn)的音頻驅(qū)動(dòng)生成模型進(jìn)行了比較。

定量分析

如下表1所示，在TalkBench-Short和TalkBench-Long數(shù)據(jù)集上，SoulX-LiveTalk在視覺質(zhì)量和同步方面表現(xiàn)出色。在短視頻基準(zhǔn)測(cè)試中，ASE達(dá)到3.51，IQA達(dá)到4.79，均超過Echomimic-V3。唇音同步方面，Sync-C得分為1.47，優(yōu)于OmniAvatar。在推理速度方面，14B參數(shù)模型吞吐量達(dá)到32 FPS，超過實(shí)時(shí)要求的25 FPS，并顯著優(yōu)于LiveAvatar的20.88 FPS。

在時(shí)間一致性指標(biāo)方面，Ditto在Subject-C和BG-C上表現(xiàn)最佳，但其生成范式限制了全身動(dòng)態(tài)。SoulX-LiveTalk在生成全身運(yùn)動(dòng)的同時(shí)，Subject-C仍達(dá)到99.22，實(shí)現(xiàn)了運(yùn)動(dòng)表現(xiàn)力和時(shí)間穩(wěn)定性之間的平衡。

在長(zhǎng)周期生成方面，SoulX-LiveTalk的Sync-C達(dá)到1.61，Sync-D為12.25，優(yōu)于InfiniteTalk和LiveAvatar，并保持32 FPS的吞吐量。這些結(jié)果證實(shí)了雙向蒸餾策略能有效減少單向流媒體模型中常見的不同步和漂移問題。

定性分析

本節(jié)對(duì)SoulX-LiveTalk的生成保真度、長(zhǎng)期穩(wěn)定性和唇音同步精度進(jìn)行了定性評(píng)估。

視覺保真度和細(xì)節(jié)保留： 如下圖3所示，在5秒視頻生成中，基線模型在大幅肢體運(yùn)動(dòng)時(shí)存在困難。Ditto無法合成有意義的手部動(dòng)作（如橙色框所示），EchoMimic-v3和StableAvatar在手部區(qū)域存在結(jié)構(gòu)變形和偽影（如藍(lán)色框所示）。InfiniteTalk在快速手勢(shì)時(shí)出現(xiàn)手部過曝和運(yùn)動(dòng)模糊。相比之下，SoulX-LiveTalk利用其14B DiT架構(gòu)和雙向注意力機(jī)制消除了這些偽影，合成了清晰、結(jié)構(gòu)完整、紋理銳利的手部動(dòng)作，并超越LiveAvatar在背景一致性和身份保真度方面表現(xiàn)更優(yōu)。

無限生成中的穩(wěn)定性： 如下圖4所示，在連續(xù)生成長(zhǎng)達(dá)1000秒時(shí)，基線模型（LiveAvatar、StableAvatar、InfiniteTalk）存在顯著的誤差累積，背景區(qū)域出現(xiàn)嚴(yán)重的紋理模糊和細(xì)節(jié)丟失（如藍(lán)色框所示）。SoulX-LiveTalk通過雙向流媒體蒸餾和自校正機(jī)制減輕了誤差傳播（如橙色框所示），即使在1000秒標(biāo)記處仍保持一致的面部幾何形狀和清晰的背景細(xì)節(jié)，驗(yàn)證了其在無限流媒體中的魯棒性。

細(xì)粒度唇音同步精度： 如下圖5所示，在特定中文發(fā)音時(shí)，基線模型在復(fù)雜音素上存在結(jié)構(gòu)錯(cuò)位，例如在發(fā)音“上”、“突”時(shí)，其嘴部張開度和形狀與真實(shí)值（GT）不匹配（如黃色虛線框所示）。相反，SoulX-LiveTalk捕捉了這些細(xì)粒度音素動(dòng)態(tài)，生成的唇部幾何形狀與GT嚴(yán)格對(duì)齊，從而最大限度地減少了唇音漂移和僵硬，確保了跨不同語言的視覺真實(shí)性。

蒸餾消融多步回顧性自校正的影響

本部分分析了生成塊數(shù) 和調(diào)度策略對(duì)長(zhǎng)期穩(wěn)定性的影響。比較了固定為1、3或5的策略與訓(xùn)練期間在1到5之間隨機(jī)采樣的隨機(jī)策略。

如下表2所示，單塊訓(xùn)練的訓(xùn)練成本最低（2.33小時(shí)），但無法保持長(zhǎng)期穩(wěn)定性，長(zhǎng)視頻上的Sync-C得分僅為1.12，證實(shí)了誤差累積問題。將增加到3顯著提高了穩(wěn)定性。然而，將進(jìn)一步增加到5會(huì)將訓(xùn)練成本提高到6.40小時(shí)，但同步性能沒有相應(yīng)提升。隨機(jī)策略達(dá)到了最佳的整體平衡，實(shí)現(xiàn)了最高的長(zhǎng)Sync-C得分1.61和最佳的視覺質(zhì)量指標(biāo)，同時(shí)將訓(xùn)練成本保持在適度的4.40小時(shí)。這表明在蒸餾過程中使模型接觸不同自回歸長(zhǎng)度可有效提高對(duì)累積誤差的魯棒性。

運(yùn)動(dòng)隱變量條件對(duì)DMD的影響

本部分從運(yùn)動(dòng)隱變量來源、噪聲注入和損失計(jì)算三個(gè)維度考察了Real Score網(wǎng)絡(luò)的條件設(shè)置。如下表3所示，使用學(xué)生預(yù)測(cè)的運(yùn)動(dòng)隱變量比使用真實(shí)值（GT）隱變量能產(chǎn)生更好的視覺質(zhì)量。具體而言，帶有噪聲的預(yù)測(cè)策略的ASE為3.51，IQA為4.79，超過了GT配置（3.48和4.77）。這表明使用預(yù)測(cè)隱變量有助于減少訓(xùn)練和推理之間的差異。

關(guān)于噪聲和損失，將噪聲注入預(yù)測(cè)隱變量可提高性能，使ASE從3.46提高到3.51。相反，將運(yùn)動(dòng)隱變量包含在損失計(jì)算中會(huì)將ASE降至3.48。這表明要求模型重建條件幀會(huì)分散對(duì)主要去噪任務(wù)的關(guān)注。因此，帶有噪聲注入和無損失的預(yù)測(cè)隱變量配置可提供最佳結(jié)果。

推理延遲分析

分析了在不同數(shù)量的NVIDIA H800 GPU的單節(jié)點(diǎn)系統(tǒng)上組件級(jí)延遲。實(shí)驗(yàn)設(shè)置目標(biāo)為720x416分辨率和4步去噪的高保真流媒體。每個(gè)片段包含33幀，包括28個(gè)生成幀和5個(gè)運(yùn)動(dòng)幀。在此配置下，流水線吞吐量可達(dá)32 FPS。

首先檢查VAE和DiT的延遲，以突出多GPU并行化的必要性，如下表4所示。在單個(gè)GPU上，DiT推理本身每步產(chǎn)生1070毫秒的延遲，而VAE推理編碼運(yùn)動(dòng)幀需要97毫秒，解碼生成幀需要988毫秒。

當(dāng)擴(kuò)展到8個(gè)GPU時(shí)，DiT和VAE分別使用xDiT的混合序列并行和LightX2V的基于切片的并行策略進(jìn)行并行化。由于GPU間通信開銷，加速略微低于線性，整體加速接近5倍。具體而言，DiT延遲從1070毫秒減少到193毫秒，VAE編碼從97毫秒減少到21毫秒，解碼從988毫秒減少到192毫秒。通過啟用torch.compile實(shí)現(xiàn)了額外的延遲降低。

在核心組件優(yōu)化基礎(chǔ)上，本文報(bào)告了8個(gè)H800 GPU集群上端到端流水線延遲，如下圖6所示。在穩(wěn)態(tài)生成循環(huán)期間，每個(gè)周期的總延遲為876毫秒，其中音頻處理耗時(shí)33毫秒，核心4步DiT去噪耗時(shí)616毫秒，幀解碼耗時(shí)187毫秒，運(yùn)動(dòng)幀編碼耗時(shí)14毫秒。其余延遲歸因于其他開銷。通過實(shí)現(xiàn)亞秒級(jí)的端到端延遲，所提出的流水線滿足了實(shí)時(shí)流媒體嚴(yán)格的吞吐量要求。

結(jié)論和未來工作

SoulX-LiveTalk，一個(gè)旨在滿足實(shí)時(shí)要求同時(shí)保持高質(zhì)量視頻合成的框架。該框架將雙向流媒體蒸餾與多步自校正機(jī)制相結(jié)合，使本文的14B參數(shù)DiT模型能夠在8個(gè)H800集群上維持穩(wěn)定、無限長(zhǎng)的流媒體。本文的方法還簡(jiǎn)化了訓(xùn)練，證明了不需要復(fù)雜的多階段預(yù)訓(xùn)練。簡(jiǎn)短的SFT階段后進(jìn)行分布匹配蒸餾就足以實(shí)現(xiàn)最先進(jìn)的性能。

未來的工作將優(yōu)先考慮模型效率而非系統(tǒng)擴(kuò)展。本文計(jì)劃探索剪枝、量化和優(yōu)化的注意力機(jī)制。目標(biāo)是在消費(fèi)級(jí)硬件上部署這些模型，消除對(duì)昂貴計(jì)算集群的依賴。

參考文獻(xiàn)

[1] SoulX-LiveTalk Technical Report

原文標(biāo)題 : 首個(gè)亞秒啟動(dòng)的14B“數(shù)字人”開源！效率飆23倍！SoulX-LiveTalk：32FPS讓對(duì)話絲滑如真人