訂閱
糾錯(cuò)
加入自媒體

加速近200倍!RTX 5090生成高質(zhì)量視頻只要1.9秒!清華&生數(shù)等重磅開源TurboDiffusion

作者:Jintao Zhang等

解讀:AI生成未來

亮點(diǎn)直擊

提出了一種端到端的視頻生成加速框架,在保持視頻質(zhì)量的同時(shí),將擴(kuò)散模型的生成速度提升了  。

單張 RTX 5090 GPU 上,該框架能將原本耗時(shí)數(shù)分鐘甚至數(shù)小時(shí)的視頻生成過程縮短至幾秒鐘(例如從 184 秒縮短至 1.9 秒),實(shí)現(xiàn)了實(shí)時(shí)級別的視頻生成體驗(yàn)。圖1 由Wan2.1-T2V-1.3B-480P在單個(gè)RTX 5090上生成的5秒視頻示例。

圖1 由Wan2.1-T2V-1.3B-480P在單個(gè)RTX 5090上生成的5秒視頻示例。圖2 使用單個(gè)RTX 5090在Wan2.2-I2V-A14B-720P上5秒視頻生成示例圖2 使用單個(gè)RTX 5090在Wan2.2-I2V-A14B-720P上5秒視頻生成示例

解決的問題

現(xiàn)有的高質(zhì)量視頻擴(kuò)散模型(如 Wan2.1/2.2)雖然生成效果出色,但推斷延遲極高(Latency),通常需要巨大的計(jì)算資源和較長的時(shí)間,限制了其實(shí)際應(yīng)用和部署。

提出的方案

本工作提出了 TurboDiffusion 框架,這是一種算法與系統(tǒng)協(xié)同優(yōu)化的解決方案。它通過結(jié)合低比特注意力機(jī)制、稀疏注意力、步數(shù)蒸餾和模型量化,在大幅減少計(jì)算量的同時(shí),最大程度地保留了模型的生成能力。

應(yīng)用的技術(shù)

注意力加速 (Attention Acceleration) :采用低比特的 SageAttention (SageAttention2++) 和可訓(xùn)練的稀疏線性注意力 (Sparse-Linear Attention, SLA) 來加速注意力計(jì)算。

步數(shù)蒸餾 (Step Distillation) :采用 rCM (Regularized Consistency Model) 方法進(jìn)行高效的步數(shù)蒸餾,將采樣步數(shù)減少至 3-4 步。

W8A8 量化 (W8A8 Quantization) :將模型參數(shù)和激活值量化為 8-bit (INT8),以加速線性層(Linear Layers)計(jì)算并壓縮模型體積。

工程優(yōu)化:使用 Triton 和 CUDA 重寫了 LayerNorm 和 RMSNorm 等操作。

達(dá)到的效果

在 Wan2.2-I2V 和 Wan2.1-T2V 系列模型上的實(shí)驗(yàn)表明:

在單張 RTX 5090 上實(shí)現(xiàn)了  的端到端加速。

Wan2.1-T2V-1.3B-480P 生成 5 秒視頻僅需 1.9 秒(原為 184 秒)。

Wan2.1-T2V-14B-720P 生成 5 秒視頻僅需 24 秒(原為 4767 秒)。

視頻質(zhì)量在視覺上與原始模型相當(dāng),且優(yōu)于現(xiàn)有的加速方案(如 FastVideo)。

圖 3 TurboDiffusion 在單個(gè) RTX 5090 上的各種視頻生成模型上的加速。對于 Wan2.2-I2V-A14B-720P,延遲包括高噪聲和低噪聲模型之間的切換開銷,導(dǎo)致與 Wan2.1-T2V-14B-720P 相比,測得的加速較低。 理論上,可實(shí)現(xiàn)的加速比是相同的圖 3 TurboDiffusion 在單個(gè) RTX 5090 上的各種視頻生成模型上的加速。對于 Wan2.2-I2V-A14B-720P,延遲包括高噪聲和低噪聲模型之間的切換開銷,導(dǎo)致與 Wan2.1-T2V-14B-720P 相比,測得的加速較低。 理論上,可實(shí)現(xiàn)的加速比是相同的圖4 通過算法和系統(tǒng)協(xié)同優(yōu)化,TurboDiffusion將單個(gè)RTX 5090上Wan2.1-T2V-14B-720P的擴(kuò)散推斷延遲降低了約200×。圖4 通過算法和系統(tǒng)協(xié)同優(yōu)化,TurboDiffusion將單個(gè)RTX 5090上Wan2.1-T2V-14B-720P的擴(kuò)散推斷延遲降低了約200×。

方法

首先介紹TurboDiffusion 中使用的主要技術(shù)。隨后分別介紹 TurboDiffusion 的訓(xùn)練過程和推理時(shí)的加速細(xì)節(jié)。

主要技術(shù)

TurboDiffusion 主要利用四種技術(shù)來加速擴(kuò)散模型。首先,TurboDiffusion 使用 SageAttention進(jìn)行低比特量化注意力加速;具體而言,使用了 SageAttention2++變體。其次,TurboDiffusion 使用稀疏線性注意力 (Sparse-Linear Attention, SLA)進(jìn)行稀疏注意力加速。由于稀疏計(jì)算與低比特 Tensor Core 加速是正交的,SLA 可以構(gòu)建在 SageAttention 之上以提供累積加速比。第三,TurboDiffusion 使用 rCM來減少采樣步數(shù),這是目前最先進(jìn)的擴(kuò)散蒸餾方法之一。通過模型權(quán)重合并,rCM 自然繼承了注意力層面的加速效果。最后,TurboDiffusion 使用 W8A8 量化進(jìn)行線性層 (Linear layer) 加速。具體來說,數(shù)據(jù)類型為 INT8,量化粒度為塊狀 (block-wise),塊大小為 。

訓(xùn)練

給定一個(gè)預(yù)訓(xùn)練的視頻擴(kuò)散模型,TurboDiffusion 執(zhí)行以下訓(xùn)練過程。首先,本工作將全注意力 (full attention) 替換為稀疏線性注意力 (SLA),并微調(diào)預(yù)訓(xùn)練模型以適應(yīng)稀疏性。并行地,本工作使用 rCM將預(yù)訓(xùn)練模型蒸餾為一個(gè)采樣步數(shù)更少的學(xué)生模型。其次,本工作將 SLA 微調(diào)和 rCM 訓(xùn)練的參數(shù)更新合并到一個(gè)模型中。所有訓(xùn)練均可使用真實(shí)數(shù)據(jù)或合成數(shù)據(jù)。 更多細(xì)節(jié)請參閱本工作的 GitHub 代碼。

推理

給定如上一節(jié)所述經(jīng)過稀疏線性注意力 (SLA)和 rCM訓(xùn)練的視頻生成模型,本工作按如下方式部署推理時(shí)加速。

注意力加速:本工作將 SLA 替換為 SageSLA,這是建立在 SageAttention 之上的 SLA 的 CUDA 實(shí)現(xiàn)。

步數(shù)蒸餾:本工作將采樣步數(shù)從 100 步減少到一個(gè)小得多的數(shù)值,例如 4 步或 3 步。

線性層量化:首先,本工作將線性層參數(shù)量化為 INT8,塊狀粒度為 。其次,在推理過程中,本工作還將線性層中的激活值 (activations) 量化為 INT8(使用相同的塊狀粒度),并使用 INT8 Tensor Cores 執(zhí)行線性層計(jì)算。通過這種方式,本工作將模型大小壓縮了大約一半,并實(shí)現(xiàn)了更快的線性層計(jì)算。

其他優(yōu)化:本工作使用 Triton 或 CUDA 重新實(shí)現(xiàn)了其他幾個(gè)操作,例如 LayerNorm 和 RMSNorm,以獲得更高的效率。

更多細(xì)節(jié)請參閱本工作的 GitHub 代碼。

評估

本節(jié)評估 TurboDiffusion 的效率和視頻質(zhì)量。

設(shè)置

模型與基線:本工作在 Wan2.2-I2V-A14B-720P、Wan2.1-T2V-1.3B-480P、Wan2.1-T2V-14B-720P 和 Wan2.1-T2V-14B-480P 視頻擴(kuò)散模型上評估 TurboDiffusion。本工作使用 Wan的官方實(shí)現(xiàn)(記為 Original)和 FastVideo作為主要基線。

超參數(shù):本工作將 Top-K 比率設(shè)置為 0.1,對應(yīng) 90% 的注意力稀疏度,并使用 3 個(gè)采樣步數(shù)。在實(shí)踐中,本工作建議使用范圍在  內(nèi)的 Top-K 值,并將步數(shù)設(shè)置為 4,以穩(wěn)定地獲得最佳視頻質(zhì)量。對于 FastVideo,本工作使用官方實(shí)現(xiàn)中的默認(rèn)參數(shù)(3 個(gè)采樣步數(shù)和 0.8 的注意力稀疏度)。

GPU:本工作的主要推理實(shí)驗(yàn)是在單張 RTX 5090 GPU 上進(jìn)行的。此外,盡管加速比沒有在 RTX 5090 上那么大,但本工作在其他 GPU(如 RTX 4090 和 H100)上也觀察到了顯著的加速效果。

效率與質(zhì)量

本工作比較了 Original、FastVideo 和 TurboDiffusion 的視頻生成質(zhì)量和效率。 對于效率評估,本工作報(bào)告端到端的擴(kuò)散生成延遲,不包括文本編碼和 VAE 解碼階段。下圖分別展示了在 Wan2.2-I2V-A14B-720P、Wan2.1-T2V-1.3B-480P、Wan2.1-T2V-14B-720P 和 Wan2.1-T2V-14B-480P 上的視覺對比。由于 FastVideo 沒有提供加速版的 Wan2.2-A14B-I2V-720P,本工作僅在 Wan2.2-A14B-I2V-720P 上比較 TurboDiffusion 和 Original。 從下圖中可以看出,TurboDiffusion 不僅實(shí)現(xiàn)了最高的效率,還保持了視頻質(zhì)量,證明了其明顯優(yōu)于 FastVideo。

結(jié)論與未來工作

本工作提出了 TurboDiffusion,這是一個(gè)視頻生成加速框架,實(shí)現(xiàn)了  的端到端擴(kuò)散加速,且質(zhì)量下降可忽略不計(jì)。TurboDiffusion 結(jié)合了低比特注意力 (SageAttention)、稀疏線性注意力 (SLA)、通過 rCM 進(jìn)行的步數(shù)蒸餾以及 W8A8 量化,并輔以若干額外的工程優(yōu)化。在 Wan2.2-I2V-A14B-720P、Wan2.1-T2V-1.3B-480P、Wan2.1-T2V-14B-720P 和 Wan2.1-T2V-14B-480P 上的實(shí)驗(yàn)表明,TurboDiffusion 將單個(gè)視頻的生成時(shí)間在單張 RTX 5090 GPU 上減少到了  分鐘,使得高質(zhì)量視頻生成變得更加高效和實(shí)用。

對于未來的工作,本工作計(jì)劃擴(kuò)展該框架以支持更多的視頻生成范式,例如自回歸視頻擴(kuò)散 (autoregressive video diffusion)。

參考文獻(xiàn)

[1] TurboDiffusion: Accelerating Video Diffusion Models by 100–200 Times

       原文標(biāo)題 : 加速近200倍!RTX 5090生成高質(zhì)量視頻只要1.9秒!清華&生數(shù)等重磅開源TurboDiffusion

聲明: 本文由入駐維科號的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報(bào)。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個(gè)字

您提交的評論過于頻繁,請輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號