訂閱
糾錯(cuò)
加入自媒體

NanobananaPro/GPT-4o/Sora2/國(guó)產(chǎn)模型誰(shuí)最強(qiáng)?ViStoryBench:全能故事可視化基準(zhǔn)首發(fā)!

作者:Cailin Zhuang, Ailin Huang,Yaoqi Hu等

解讀:AI生成未來(lái)

亮點(diǎn)直擊

如果把“故事可視化”理解成一次跨媒介的“編碼—傳輸—解碼”:文本劇本(編碼)→ 模型生成圖像/分鏡(傳輸)→ 觀眾在多鏡頭中讀出人物與情節(jié)(解碼)。那么,難點(diǎn)從來(lái)不只是“畫得好看”,而是敘事信息能否穩(wěn)定、可控、可驗(yàn)證地被傳遞。ViStoryBench 的價(jià)值就在于:第一次把這套“傳播鏈路”拆開來(lái)測(cè)。

首個(gè)全能故事可視化基準(zhǔn):ViStoryBench 是一個(gè)全面的基準(zhǔn)測(cè)試套件,涵蓋80個(gè)多鏡頭故事、10種視覺(jué)風(fēng)格和1300+個(gè)分鏡,旨在評(píng)估模型在復(fù)雜敘事結(jié)構(gòu)、視覺(jué)風(fēng)格和角色設(shè)定下的生成能力。

12維硬核評(píng)測(cè)指標(biāo):引入包括角色I(xiàn)D一致性(CIDS)、同屏角色計(jì)數(shù)(OCCM)、復(fù)制粘貼檢測(cè)(Copy-Paste)等在內(nèi)的12項(xiàng)自動(dòng)化指標(biāo),并通過(guò)人類評(píng)估驗(yàn)證了其可靠性。

30+主流模型大考:評(píng)估對(duì)象涵蓋開源圖像生成(StoryDiffusion, OmniGen2)、商業(yè)閉源模型(MOKI, Doubao, MorphicStudio)、多模態(tài)大模型(GPT-4o, Gemini)及視頻生成模型(Sora2, Vlogger),揭示不同技術(shù)路線的結(jié)構(gòu)性優(yōu)勢(shì)與短板。

ViStoryBench-Lite:針對(duì)評(píng)估成本高的問(wèn)題推出 Lite 版本,在保持統(tǒng)計(jì)分布一致性的前提下,用更低成本實(shí)現(xiàn)“可代表性”的能力測(cè)評(píng)。

解決的問(wèn)題

1)現(xiàn)有基準(zhǔn)“只測(cè)畫面,不測(cè)敘事鏈路”當(dāng)前故事可視化(Story Visualization)基準(zhǔn)往往范圍狹窄:要么局限于短提示詞、要么缺乏角色參考圖(Character Reference),要么只關(guān)注單張圖像。結(jié)果是:它們很難覆蓋真實(shí)創(chuàng)作里最關(guān)鍵的傳播目標(biāo)——多鏡頭連續(xù)敘事中的信息一致性(角色、場(chǎng)景、動(dòng)作、鏡頭語(yǔ)言)。

2)缺乏統(tǒng)一標(biāo)準(zhǔn),導(dǎo)致“各說(shuō)各話”不少工作只用少量指標(biāo)評(píng)估,缺少衡量敘事對(duì)齊度、風(fēng)格一致性、角色交互的共同標(biāo)尺。傳播學(xué)上這會(huì)造成一個(gè)后果:你無(wú)法區(qū)分模型到底是“理解了故事”,還是“碰巧生成得像”。

3)“復(fù)制粘貼”作弊:一致性被刷出來(lái)了很多模型為了維持角色一致性,直接把參考圖“貼”到生成結(jié)果里(或高度復(fù)用其局部特征),犧牲了劇情所需要的動(dòng)作、表情變化。更麻煩的是:傳統(tǒng)指標(biāo)往往會(huì)把這種“作弊式一致性”當(dāng)作能力提升,從而讓評(píng)測(cè)結(jié)論失真。

提出的方案

多面數(shù)據(jù)集構(gòu)建(Multifaceted Dataset Creation)ViStoryBench 精選80個(gè)故事片段,來(lái)源覆蓋電影劇本、文學(xué)經(jīng)典、民間傳說(shuō)等,LLM 輔助摘要與劇本生成并經(jīng)人工校驗(yàn)。它用結(jié)構(gòu)化提示工程把 LLM 變成“可控的分鏡劇本生成器”,劇本由五個(gè)維度構(gòu)成:

場(chǎng)景描述(Setting)

情節(jié)對(duì)應(yīng)(Plot)

登場(chǎng)角色(Onstage Characters)

靜態(tài)鏡頭描述(Static Shot)

鏡頭視角設(shè)計(jì)(Shot Perspective Design)

數(shù)據(jù)集包含344個(gè)角色、509張參考圖,覆蓋10種視覺(jué)風(fēng)格(如日系動(dòng)漫、寫實(shí)電影、繪本風(fēng)等)。這相當(dāng)于把“敘事傳播”拆成可標(biāo)注、可復(fù)核的單位,讓評(píng)測(cè)不再停留在“感覺(jué)像不像”。

全方位評(píng)估指標(biāo)(Comprehensive Evaluation Metrics)為了把“講故事能力”落到可量化的維度,ViStoryBench 設(shè)計(jì)了12項(xiàng)自動(dòng)指標(biāo),核心是把模型的輸出拆成幾類傳播失真:身份失真、數(shù)量失真、對(duì)齊失真、風(fēng)格失真、以及投機(jī)失真。例如:

角色識(shí)別相似度(CIDS):檢測(cè)角色并提取特征,計(jì)算生成圖與參考圖(Cross)及生成圖之間(Self)的余弦相似度。

同屏角色計(jì)數(shù)匹配(OCCM):針對(duì)“幻覺(jué)加人/漏畫人”,量化生成角色數(shù)量的準(zhǔn)確性。

復(fù)制-粘貼檢測(cè)(Copy-Paste Detection):通過(guò)幾何歸一化特征比對(duì),檢測(cè)過(guò)度復(fù)用參考圖的投機(jī)行為。

提示詞對(duì)齊(Prompt Alignment):利用專家模型與 VLM,對(duì)場(chǎng)景、運(yùn)鏡、角色交互、個(gè)體動(dòng)作進(jìn)行細(xì)粒度打分。

應(yīng)用的技術(shù)

LLM-driven Script Creation:用大語(yǔ)言模型做劇本的結(jié)構(gòu)化拆解與分鏡化表達(dá)。

Hybrid Evaluation Framework:結(jié)合專家模型(ArcFace, Grounding DINO)與多模態(tài)大模型(GPT-4o, Qwen-VL)的混合評(píng)估框架。

Character Identification Similarity(CIDS):基于特征提取與二分圖匹配的角色一致性計(jì)算。

Copy-Paste Rate:基于 Softmax 概率分布,衡量生成特征對(duì)某張參考圖的“過(guò)擬合式貼圖”。

國(guó)內(nèi)外各個(gè)模型的表現(xiàn)

對(duì)30+方法的大規(guī)模評(píng)測(cè)給出了幾條很“現(xiàn)實(shí)”的結(jié)論——不同路線在傳播鏈路的不同環(huán)節(jié)各有強(qiáng)項(xiàng):

GPT-4o 的雙面性

GPT-4o 在 敘事對(duì)齊(Alignment Score: 3.67) 和 角色計(jì)數(shù)(OCCM: 93.5) 上非常強(qiáng),說(shuō)明它在“理解劇本并按指令組織信息”方面優(yōu)勢(shì)明顯;但在視覺(jué)質(zhì)量(Inception Score)與風(fēng)格多樣性上略遜,體現(xiàn)出“會(huì)講”未必“會(huì)畫”。

商業(yè)軟件的優(yōu)勢(shì)

MorphicStudio、Doubao 等商業(yè)工具在 美學(xué)質(zhì)量(Aesthetics) 和 風(fēng)格一致性上更穩(wěn),更像面向生產(chǎn)的“視覺(jué)呈現(xiàn)優(yōu)化”;但細(xì)粒度敘事控制弱一些,對(duì)鏡頭語(yǔ)言的精準(zhǔn)響應(yīng)也不如 LLM 路線穩(wěn)定。

Sora2 的多鏡頭能力

作為原生視頻模型,Sora2 在 跨鏡頭一致性(Self-Sim: 0.813) 表現(xiàn)突出,背后是對(duì)電影數(shù)據(jù)的學(xué)習(xí)紅利;但在遵循特定視覺(jué)參考(Image Ref Cross-Sim)上仍有提升空間——更“像電影”,但未必更“像你指定的角色”。

視頻 vs 圖像

目前視頻生成模型(Vl ogger、MovieAgent)在單幀質(zhì)量與角色一致性上,普遍不如專門的故事圖像方法(OmniGen2、UNO)。時(shí)間維度帶來(lái)連貫性紅利,也帶來(lái)每幀細(xì)節(jié)的損耗。

權(quán)衡(Trade-off)

一致性(Consistency)與多樣性(Diversity)存在明顯權(quán)衡:越一致越可能“復(fù)制粘貼”,越多樣越可能“跑角色”。Copy-Paste 指標(biāo)把這個(gè)隱性矛盾顯性化,避免被“刷分式一致性”誤導(dǎo)。

結(jié)論與局限性

ViStoryBench 是目前評(píng)估故事可視化任務(wù)最全面、最嚴(yán)格的基準(zhǔn):它不僅提供高質(zhì)量多鏡頭數(shù)據(jù)集,還把“講故事”拆成可自動(dòng)化度量的能力結(jié)構(gòu)。實(shí)驗(yàn)結(jié)果也很直觀:沒(méi)有任何單一模型能在所有維度通吃——LLM 更擅長(zhǎng)敘事組織,商業(yè)工具更擅長(zhǎng)視覺(jué)呈現(xiàn),視頻模型更擅長(zhǎng)跨鏡頭連貫。

局限性:目前主要聚焦多圖一致性評(píng)估,尚未納入音頻對(duì)齊或更復(fù)雜的時(shí)序動(dòng)態(tài)指標(biāo);混合評(píng)估中使用的 VLM 仍可能存在少量幻覺(jué)(已做穩(wěn)定性測(cè)試)。未來(lái)工作將補(bǔ)齊背景一致性評(píng)估,并向長(zhǎng)視頻敘事基準(zhǔn)邁

參考文獻(xiàn)

[1] ViStoryBench: Comprehensive Benchmark Suite for Story Visualization

       原文標(biāo)題 : NanobananaPro/GPT-4o/Sora2/國(guó)產(chǎn)模型誰(shuí)最強(qiáng)?ViStoryBench:全能故事可視化基準(zhǔn)首發(fā)!

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)