訂閱
糾錯(cuò)
加入自媒體

角色動(dòng)畫最新SOTA!港大&螞蟻等CoDance:解綁-重綁實(shí)現(xiàn)任意數(shù)量、位置角色同屏起舞

作者:Shuai Tan等

解讀:AI生成未來(lái)


圖1。由CoDance生成的多主體動(dòng)畫。給定一個(gè)(可能錯(cuò)位的)驅(qū)動(dòng)姿勢(shì)序列和一張多主體參考圖像,CoDance生成協(xié)調(diào)且可姿勢(shì)控制的群舞,無(wú)需每個(gè)主體的空間對(duì)齊。圖1。由CoDance生成的多主體動(dòng)畫。給定一個(gè)(可能錯(cuò)位的)驅(qū)動(dòng)姿勢(shì)序列和一張多主體參考圖像,CoDance生成協(xié)調(diào)且可姿勢(shì)控制的群舞,無(wú)需每個(gè)主體的空間對(duì)齊。

亮點(diǎn)直擊

首創(chuàng)性框架:CoDance,這是首個(gè)能夠基于單一且可能未對(duì)齊的姿態(tài)序列,同時(shí)實(shí)現(xiàn)角色圖像動(dòng)畫化中“四個(gè)任意”屬性的方法:任意主體類型、任意數(shù)量、任意空間位置和任意姿態(tài)。

Unbind-Rebind 范式:設(shè)計(jì)了一種新穎的“解綁-重綁”(Unbind-Rebind)策略,系統(tǒng)性地將姿態(tài)與參考圖像中過(guò)硬的空間綁定解耦,并通過(guò)語(yǔ)義和空間線索重新建立控制。構(gòu)建了全新的多主體動(dòng)畫基準(zhǔn) CoDanceBench,填補(bǔ)了該領(lǐng)域評(píng)估標(biāo)準(zhǔn)的空白。

SOTA:在 CoDanceBench 和現(xiàn)有的Follow-Your-Pose-V2 基準(zhǔn)上,該方法在各項(xiàng)指標(biāo)上均取得了SOTA性能,展現(xiàn)了強(qiáng)大的泛化能力。

解決的問(wèn)題

多主體生成的局限性:現(xiàn)有的角色動(dòng)畫方法(如 Animate Anyone, MagicAnimate 等)主要針對(duì)單人動(dòng)畫設(shè)計(jì),難以處理任意數(shù)量的主體。

空間未對(duì)齊難題:現(xiàn)有方法依賴于姿態(tài)與參考圖像之間嚴(yán)格的像素級(jí)空間綁定(rigid spatial binding)。當(dāng)參考圖像與驅(qū)動(dòng)姿態(tài)在空間上不一致(misalignment)時(shí)(例如參考圖中有兩個(gè)角色,而姿態(tài)只有一個(gè),或者位置不對(duì)應(yīng)),模型容易失效,產(chǎn)生偽影或錯(cuò)誤的身份綁定。

目標(biāo)重定向失。在嘗試解耦空間位置后,模型往往無(wú)法將動(dòng)作準(zhǔn)確地重新綁定(rebind)到預(yù)期的特定主體上,導(dǎo)致背景被錯(cuò)誤驅(qū)動(dòng)或主體丟失。

圖2。CoDance動(dòng)機(jī)。雖然在單人動(dòng)畫方面表現(xiàn)出色,但以往方法在處理多主體時(shí)因參考姿勢(shì)與目標(biāo)姿勢(shì)綁定僵硬導(dǎo)致輸出不匹配而失效。相比之下,我們的解綁-再綁定方法成功將運(yùn)動(dòng)與外觀脫鉤,產(chǎn)生了令人信服的結(jié)果。圖2。CoDance動(dòng)機(jī)。雖然在單人動(dòng)畫方面表現(xiàn)出色,但以往方法在處理多主體時(shí)因參考姿勢(shì)與目標(biāo)姿勢(shì)綁定僵硬導(dǎo)致輸出不匹配而失效。相比之下,我們的解綁-再綁定方法成功將運(yùn)動(dòng)與外觀脫鉤,產(chǎn)生了令人信服的結(jié)果。

提出的方案

核心架構(gòu):基于 Diffusion Transformer (DiT) 的 Unbind-Rebind 框架。

Unbind(解綁)模塊:

引入姿態(tài)偏移編碼器(Pose Shift Encoder)。

Pose Unbind:在輸入層面,對(duì)骨架位置/大小進(jìn)行隨機(jī)變換 ,打破物理對(duì)齊。

Feature Unbind:在特征層面,對(duì)姿態(tài)特征進(jìn)行隨機(jī)復(fù)制和疊加,迫使模型學(xué)習(xí)位置無(wú)關(guān)的動(dòng)作語(yǔ)義。

Rebind(重綁)模塊:

語(yǔ)義重綁:引入文本分支,利用混合數(shù)據(jù)訓(xùn)練策略(聯(lián)合訓(xùn)練動(dòng)畫數(shù)據(jù)  和大規(guī)模文生視頻數(shù)據(jù) ),通過(guò)文本提示明確指定動(dòng)畫的主體身份和數(shù)量。

空間重綁:利用離線分割模型(如 SAM)獲取參考圖像的主體掩碼(Mask),作為外部條件將動(dòng)作精確限制在目標(biāo)區(qū)域內(nèi)。

應(yīng)用的技術(shù)

主干網(wǎng)絡(luò):采用 DiT (Diffusion Transformer) 作為基礎(chǔ)生成模型,利用其可擴(kuò)展性處理視頻生成。

數(shù)據(jù)增強(qiáng)與訓(xùn)練策略:

隨機(jī)平移與縮放增強(qiáng)。

特征層面的 Region Duplication(區(qū)域復(fù)制)。

混合訓(xùn)練(Mixed-data training):以概率  訓(xùn)練動(dòng)畫任務(wù),以  訓(xùn)練通用文生視頻(T2V)任務(wù)。

多模態(tài)條件注入:

umT5 Encoder:處理文本提示,通過(guò) Cross-Attention 注入。

Mask Encoder:處理 SAM 生成的主體掩碼,通過(guò)卷積提取特征并與噪聲潛在變量逐元素相加(Element-wise Summation)。

VAE Encoder:提取參考圖像  的潛在特征 。

LoRA:用于微調(diào)預(yù)訓(xùn)練的 T2V 模型。

達(dá)到的效果

定量指標(biāo)提升:在視頻質(zhì)量、身份保持(Identity Preservation)和時(shí)序一致性(Temporal Consistency)等指標(biāo)上,顯著優(yōu)于 MagicAnimate, Animate Anyone, UniAnimate 等 SOTA 方法。

定性表現(xiàn)優(yōu)異:能夠生成協(xié)調(diào)的群舞,支持從單人到多人的泛化,且不需要針對(duì)每個(gè)主體進(jìn)行空間預(yù)對(duì)齊。即使在參考圖像復(fù)雜、主體數(shù)量多變的情況下,也能保持主體身份特征和動(dòng)作的準(zhǔn)確性。用戶調(diào)研顯示其偏好率大幅領(lǐng)先。

方法

如圖 3 所示,CoDance 的流程主要包含以下步驟。給定參考圖像 、驅(qū)動(dòng)姿態(tài)序列  和文本提示 ,本工作首先獲得參考圖像的主體掩碼 ,并將驅(qū)動(dòng)動(dòng)作傳播到任意數(shù)量、不同類型的主體上,同時(shí)保持與參考圖像的身份一致性。與以往關(guān)注近乎對(duì)齊輸入的工作不同,本文明確處理了  與  之間的未對(duì)齊、非人類/擬人化角色以及多主體場(chǎng)景。

圖3。CoDance流程圖3。CoDance流程

預(yù)備知識(shí)

擴(kuò)散模型。擴(kuò)散模型是生成模型,通過(guò)反轉(zhuǎn)加噪過(guò)程來(lái)生成數(shù)據(jù)。這涉及兩個(gè)階段:逐漸向干凈數(shù)據(jù)  添加高斯噪聲的前向過(guò)程,以及學(xué)習(xí)去除噪聲的反向過(guò)程。一個(gè)關(guān)鍵屬性是任何噪聲樣本  都可以直接從  獲得。生成任務(wù)通過(guò)訓(xùn)練一個(gè)網(wǎng)絡(luò)  來(lái)完成,該網(wǎng)絡(luò)在給定時(shí)間步  和可選條件  的情況下,從噪聲輸入  中預(yù)測(cè)噪聲 。模型通過(guò)以下目標(biāo)函數(shù)進(jìn)行優(yōu)化:

對(duì)于條件生成,通常使用無(wú)分類器引導(dǎo)(classifier-free guidance)來(lái)增強(qiáng)條件  的影響。

擴(kuò)散 Transformer (DiT) 。雖然早期的擴(kuò)散模型使用 U-Net 架構(gòu),但 Diffusion Transformer (DiT)證明了標(biāo)準(zhǔn) Transformer 可以作為一個(gè)高效且可擴(kuò)展的主干網(wǎng)絡(luò)。在 DiT 框架中,輸入圖像首先被劃分為不重疊的補(bǔ)。╬atches),類似于 Vision Transformer (ViT)。這些補(bǔ)丁與時(shí)間步  和條件 (例如姿態(tài)骨架)的嵌入一起被轉(zhuǎn)換為標(biāo)記(tokens)序列。然后,該標(biāo)記序列由 Transformer 塊處理以預(yù)測(cè)輸出噪聲。

解綁-重綁

如圖 2 所示,以前的方法通常強(qiáng)制參考圖像與目標(biāo)姿態(tài)之間存在剛性的空間綁定。只要類人參考圖像與目標(biāo)姿態(tài)在空間上對(duì)齊,這種范式在單人動(dòng)畫中就能生成正確的結(jié)果。然而,它們受限于不匹配的情況,例如參考圖像中的主體數(shù)量與目標(biāo)姿態(tài)不同。由于依賴剛性空間對(duì)齊,模型無(wú)法正確動(dòng)畫化參考圖像中的主體。相反,它會(huì)在相應(yīng)的空間區(qū)域幻覺(jué)出一個(gè)新的、與姿態(tài)對(duì)齊的人。為了克服這一根本限制,本文提出了一種新范式:Unbind-Rebind(解綁-重綁),它打破了因輸入不匹配導(dǎo)致的強(qiáng)制空間對(duì)齊,并重新建立動(dòng)作與身份之間的正確對(duì)應(yīng)關(guān)系。

Unbind(解綁)。Unbind 模塊旨在拆除參考圖像與姿態(tài)之間這種僵化的空間約束。本文不再依賴簡(jiǎn)單的空間映射,而是迫使模型(特別是姿態(tài)編碼器和擴(kuò)散網(wǎng)絡(luò))去學(xué)習(xí)動(dòng)作本身的抽象語(yǔ)義理解。為此,本文提出了新穎的姿態(tài)偏移編碼器(Pose Shift Encoder),它由 Pose Unbind(姿態(tài)解綁) 和 Feature Unbind(特征解綁) 模塊組成,分別在輸入層級(jí)和特征層級(jí)增強(qiáng)模型的理解能力。其核心洞察在于,在每個(gè)訓(xùn)練步驟中,有意且隨機(jī)地破壞參考圖像  與目標(biāo)姿態(tài)  之間的自然對(duì)齊,從而確保模型無(wú)法依賴僵化的空間對(duì)應(yīng)關(guān)系。具體而言,Pose Unbind 模塊作用于輸入層級(jí)。在每個(gè)訓(xùn)練步驟中,本文首先按照先前的方法采樣參考圖像  及其對(duì)應(yīng)的驅(qū)動(dòng)姿態(tài) 。然而,本文并不直接將這對(duì)數(shù)據(jù)輸入模型,而是對(duì)驅(qū)動(dòng)姿態(tài)  應(yīng)用一系列變換。打破空間關(guān)聯(lián)最直觀的方法是改變姿態(tài)的位置和比例。因此,在每一步中,本文隨機(jī)平移骨架的位置,即 ,并隨機(jī)縮放其大小,進(jìn)一步將其與原始空間位置解耦。

然而,僅靠 Pose Unbind 主要增強(qiáng)的是姿態(tài)編碼器解釋姿態(tài)變化的能力。核心的生成過(guò)程嚴(yán)重依賴于擴(kuò)散網(wǎng)絡(luò)。為此,本文引入了 Feature Unbind 模塊,它作用于特征層級(jí)。在變換后的姿態(tài)通過(guò)姿態(tài)編碼器后,本文對(duì)生成的姿態(tài)特征應(yīng)用進(jìn)一步的增強(qiáng)。首先,應(yīng)用類似的隨機(jī)平移。此外,為了迫使擴(kuò)散模型適應(yīng)特征空間內(nèi)的各種姿態(tài)配置,本文提取對(duì)應(yīng)于姿態(tài)的特征區(qū)域,將其隨機(jī)復(fù)制,并將這些副本疊加到原始特征圖上。這一過(guò)程迫使擴(kuò)散模型發(fā)展出對(duì)姿態(tài)更魯棒的語(yǔ)義理解,并增強(qiáng)其在復(fù)雜條件下的生成能力。

Rebind(重綁)。經(jīng)過(guò) Unbind 操作后,雖然模型能夠從姿態(tài)圖像中掌握動(dòng)作的語(yǔ)義含義,但它缺少了指定動(dòng)畫目標(biāo)主體的關(guān)鍵信息,因?yàn)樵嫉目臻g對(duì)齊已被特意打破。為了解決這個(gè)問(wèn)題,本文引入了 Rebind 模塊,它可以智能地將理解到的動(dòng)作與參考圖像中的正確主體重新關(guān)聯(lián)起來(lái)。具體來(lái)說(shuō),本文通過(guò)兩個(gè)互補(bǔ)的層面來(lái)執(zhí)行 Rebind:語(yǔ)義(Semantic) 和 空間(Spatial)。

從語(yǔ)義角度來(lái)看,本文引入了一個(gè)文本驅(qū)動(dòng)的引導(dǎo)分支,利用輸入文本提示  明確指定參考圖像中需要?jiǎng)赢嫽闹黧w身份和數(shù)量。如圖 3 所示,參考圖像包含多個(gè)元素,其中包括五個(gè)擬人化角色作為動(dòng)畫目標(biāo)。相應(yīng)的提示詞(如“五個(gè)氣泡在跳舞”)經(jīng)過(guò)文本編碼器處理后,輸入到 DiT 模塊中以提供語(yǔ)義指導(dǎo)。然而,僅在具有統(tǒng)一文本提示的動(dòng)畫數(shù)據(jù)集()上進(jìn)行訓(xùn)練會(huì)帶來(lái)一個(gè)重大挑戰(zhàn):模型傾向于過(guò)擬合提示詞,學(xué)習(xí)到虛假的相關(guān)性并忽略文本指導(dǎo),這嚴(yán)重?fù)p害了推理時(shí)的泛化能力。為了抵消這一點(diǎn),本文提出了一種混合數(shù)據(jù)訓(xùn)練策略(mixed-data training strategy)。本文加入了一個(gè)輔助的、多樣化的“文本-圖像-視頻”(TI2V)數(shù)據(jù)集(),并分別以概率  和  在角色動(dòng)畫任務(wù)和 T2V 任務(wù)之間交替訓(xùn)練。這種雙目標(biāo)訓(xùn)練迫使模型超越簡(jiǎn)單的模式匹配,發(fā)展出對(duì)文本條件的魯棒理解。反過(guò)來(lái),這也使其能夠在推理過(guò)程中根據(jù)任意文本提示,準(zhǔn)確地從參考圖像中重新綁定指定的主體。

雖然語(yǔ)義指導(dǎo)很強(qiáng)大,但它不能解決“圖-底”模糊(figure-ground ambiguity)的挑戰(zhàn),特別是對(duì)于具有復(fù)雜或非常規(guī)形態(tài)的主體。這種模糊可能導(dǎo)致模型無(wú)法準(zhǔn)確分割主體,導(dǎo)致背景被錯(cuò)誤動(dòng)畫化或主體部分缺失。為了強(qiáng)制精確的空間控制,本文引入了空間重綁機(jī)制,提供一個(gè)參考掩碼  來(lái)明確定義動(dòng)畫區(qū)域。這種直接的空間重綁確保動(dòng)畫嚴(yán)格限制在指定的邊界內(nèi),有效地減輕分割錯(cuò)誤并保持主體的結(jié)構(gòu)完整性。

框架與實(shí)現(xiàn)細(xì)節(jié)

鑒于先前工作的成功,CoDance 建立在常用的 Diffusion Transformer (DiT)之上。如圖 3 所示,給定一個(gè)參考圖像 ,本文采用 VAE 編碼器提取其潛在表示 。遵循文獻(xiàn)[64]的方法,該潛在表示隨后直接作為去噪網(wǎng)絡(luò)  輸入的一部分。為了促進(jìn)精確的外觀重綁(appearance rebind),本文利用預(yù)訓(xùn)練的分割模型(例如 SAM)從  中提取對(duì)應(yīng)的主體掩碼 。該掩碼隨后被輸入到一個(gè)由堆疊的 2D 卷積層組成的掩碼編碼器(Mask Encoder)中。生成的掩碼特征隨后通過(guò)逐元素求和的方式融入到噪聲潛在向量中。同時(shí),本文引入 umT5 Encoder進(jìn)行語(yǔ)義理解。文本特征通過(guò) DiT 塊內(nèi)的交叉注意力層整合到生成過(guò)程中。對(duì)于驅(qū)動(dòng)視頻 ,本文采用前述的姿態(tài)偏移編碼器。模型初始化自預(yù)訓(xùn)練的 T2V 模型,并使用 LoRA 進(jìn)行微調(diào)。最后,VAE 解碼器重建視頻。注意,Unbind 模塊和混合數(shù)據(jù)訓(xùn)練僅應(yīng)用于訓(xùn)練階段。

實(shí)驗(yàn)

用戶調(diào)研

為了量化感知質(zhì)量,本文進(jìn)行了一項(xiàng)全面的用戶調(diào)研。該調(diào)研涉及向 10 名參與者進(jìn)行的成對(duì) A/B 偏好測(cè)試。本文使用了 20 個(gè)不同的身份和 20 個(gè)驅(qū)動(dòng)視頻,從 9 種評(píng)估方法中分別生成了 20 個(gè)動(dòng)畫。在每次試驗(yàn)中,參與者會(huì)看到兩個(gè)由不同方法生成的并排視頻,并被要求根據(jù)三個(gè)標(biāo)準(zhǔn)選擇更好的結(jié)果:(1)視頻質(zhì)量,(2)身份保持 ,以及 (3)時(shí)序一致性。如表 3 總結(jié)所示,CoDance 在所有三個(gè)標(biāo)準(zhǔn)上都取得了最高的偏好率,證明了其明顯的感知優(yōu)勢(shì)。具體數(shù)據(jù)如下:

Video Quality: 0.90 (CoDance) vs 0.79 (UniAnimateDiT)

Identity Preservation: 0.88 (CoDance) vs 0.50 (UniAnimateDiT)

Temporal Consistency: 0.83 (CoDance) vs 0.78 (UniAnimateDiT)

消融實(shí)驗(yàn)

本節(jié)展示了消融研究,旨在分離 CoDance 中 Unbind 和 Rebind 模塊的貢獻(xiàn)與必要性。實(shí)驗(yàn)設(shè)計(jì)為漸進(jìn)式消融:

Baseline (基線):移除 Unbind 和 Rebind 模塊。模型按照剛性對(duì)齊范式(遵循[64])訓(xùn)練,以動(dòng)畫化參考圖像。

B + Unbind:在基線之上,添加 Unbind 模塊以打破參考圖像與驅(qū)動(dòng)姿態(tài)之間的剛性對(duì)齊。

B + Unbind + Spatial Rebind:在 (2) 的基礎(chǔ)上,結(jié)合掩碼條件進(jìn)行空間重綁。

Full Model (完整模型):包含所有模塊。

如圖 5 所示:

Baseline:受限于剛性對(duì)齊,合成了一個(gè)與驅(qū)動(dòng)姿態(tài)在空間上對(duì)齊的新角色,從而丟失了參考身份。

B + Unbind:引入 Unbind 模塊修正了身份問(wèn)題,保留了參考身份并展示了成功的解耦。然而,它無(wú)法生成連貫的動(dòng)作,表明無(wú)法定位動(dòng)畫的目標(biāo)區(qū)域。

B + Unbind + Spatial Rebind:添加空間重綁解決了定位問(wèn)題,動(dòng)畫化了正確的區(qū)域。然而,它將多個(gè)主體視為單一的復(fù)合實(shí)體,導(dǎo)致碎片化的動(dòng)畫(例如,動(dòng)畫化每個(gè)角色的一只手,而不是一個(gè)角色的全身)。

Full Model:集成了 Unbind 和完整的 Rebind 機(jī)制(包含語(yǔ)義重綁),取得了優(yōu)異的結(jié)果。

這一遞進(jìn)過(guò)程驗(yàn)證了框架中每個(gè)提議模塊的關(guān)鍵性和互補(bǔ)作用。

圖4。與SOTA方法的定性比較。圖4。與SOTA方法的定性比較。

總結(jié)

CoDance,一種為跨越任意主體數(shù)量、類型和空間布局的魯棒動(dòng)畫而設(shè)計(jì)的新穎框架。我們識(shí)別出,在多主體場(chǎng)景中普遍存在的身份退化和動(dòng)作分配錯(cuò)誤源于現(xiàn)有方法中的剛性空間綁定。為了克服這一點(diǎn),我們提出了 Unbind-Rebind(解綁-重綁)范式,該范式首先將動(dòng)作從其嚴(yán)格的空間上下文中解綁,然后使用互補(bǔ)的語(yǔ)義和空間指導(dǎo)將此動(dòng)作重新綁定到正確的主體上。通過(guò)這種方式,CoDance 展示了強(qiáng)大的泛化能力和魯棒性,實(shí)現(xiàn)了靈活的多主體動(dòng)畫。在 Follow-Your-Pose-V2 基準(zhǔn)和我們新引入的 CoDanceBench 上的廣泛實(shí)驗(yàn)證明,我們提出的方法優(yōu)于 SOTA 方法。

參考文獻(xiàn)

[1] CoDance: An Unbind-Rebind Paradigm for Robust Multi-Subject Animation

       原文標(biāo)題 : 角色動(dòng)畫最新SOTA!港大&螞蟻等CoDance:解綁-重綁實(shí)現(xiàn)任意數(shù)量、位置角色同屏起舞

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)