訂閱
糾錯
加入自媒體

NanobananaPro/GPT-4o/Sora2/國產(chǎn)模型誰最強?ViStoryBench:全能故事可視化基準首發(fā)!

2025-12-22 16:22
AI生成未來
關注

作者:Cailin Zhuang, Ailin Huang,Yaoqi Hu等

解讀:AI生成未來

亮點直擊

如果把“故事可視化”理解成一次跨媒介的“編碼—傳輸—解碼”:文本劇本(編碼)→ 模型生成圖像/分鏡(傳輸)→ 觀眾在多鏡頭中讀出人物與情節(jié)(解碼)。那么,難點從來不只是“畫得好看”,而是敘事信息能否穩(wěn)定、可控、可驗證地被傳遞。ViStoryBench 的價值就在于:第一次把這套“傳播鏈路”拆開來測。

首個全能故事可視化基準:ViStoryBench 是一個全面的基準測試套件,涵蓋80個多鏡頭故事、10種視覺風格和1300+個分鏡,旨在評估模型在復雜敘事結構、視覺風格和角色設定下的生成能力。

12維硬核評測指標:引入包括角色ID一致性(CIDS)、同屏角色計數(shù)(OCCM)、復制粘貼檢測(Copy-Paste)等在內(nèi)的12項自動化指標,并通過人類評估驗證了其可靠性。

30+主流模型大考:評估對象涵蓋開源圖像生成(StoryDiffusion, OmniGen2)、商業(yè)閉源模型(MOKI, Doubao, MorphicStudio)、多模態(tài)大模型(GPT-4o, Gemini)及視頻生成模型(Sora2, Vlogger),揭示不同技術路線的結構性優(yōu)勢與短板。

ViStoryBench-Lite:針對評估成本高的問題推出 Lite 版本,在保持統(tǒng)計分布一致性的前提下,用更低成本實現(xiàn)“可代表性”的能力測評。

解決的問題

1)現(xiàn)有基準“只測畫面,不測敘事鏈路”當前故事可視化(Story Visualization)基準往往范圍狹窄:要么局限于短提示詞、要么缺乏角色參考圖(Character Reference),要么只關注單張圖像。結果是:它們很難覆蓋真實創(chuàng)作里最關鍵的傳播目標——多鏡頭連續(xù)敘事中的信息一致性(角色、場景、動作、鏡頭語言)。

2)缺乏統(tǒng)一標準,導致“各說各話”不少工作只用少量指標評估,缺少衡量敘事對齊度、風格一致性、角色交互的共同標尺。傳播學上這會造成一個后果:你無法區(qū)分模型到底是“理解了故事”,還是“碰巧生成得像”。

3)“復制粘貼”作弊:一致性被刷出來了很多模型為了維持角色一致性,直接把參考圖“貼”到生成結果里(或高度復用其局部特征),犧牲了劇情所需要的動作、表情變化。更麻煩的是:傳統(tǒng)指標往往會把這種“作弊式一致性”當作能力提升,從而讓評測結論失真。

提出的方案

多面數(shù)據(jù)集構建(Multifaceted Dataset Creation)ViStoryBench 精選80個故事片段,來源覆蓋電影劇本、文學經(jīng)典、民間傳說等,LLM 輔助摘要與劇本生成并經(jīng)人工校驗。它用結構化提示工程把 LLM 變成“可控的分鏡劇本生成器”,劇本由五個維度構成:

場景描述(Setting)

情節(jié)對應(Plot)

登場角色(Onstage Characters)

靜態(tài)鏡頭描述(Static Shot)

鏡頭視角設計(Shot Perspective Design)

數(shù)據(jù)集包含344個角色、509張參考圖,覆蓋10種視覺風格(如日系動漫、寫實電影、繪本風等)。這相當于把“敘事傳播”拆成可標注、可復核的單位,讓評測不再停留在“感覺像不像”。

全方位評估指標(Comprehensive Evaluation Metrics)為了把“講故事能力”落到可量化的維度,ViStoryBench 設計了12項自動指標,核心是把模型的輸出拆成幾類傳播失真:身份失真、數(shù)量失真、對齊失真、風格失真、以及投機失真。例如:

角色識別相似度(CIDS):檢測角色并提取特征,計算生成圖與參考圖(Cross)及生成圖之間(Self)的余弦相似度。

同屏角色計數(shù)匹配(OCCM):針對“幻覺加人/漏畫人”,量化生成角色數(shù)量的準確性。

復制-粘貼檢測(Copy-Paste Detection):通過幾何歸一化特征比對,檢測過度復用參考圖的投機行為。

提示詞對齊(Prompt Alignment):利用專家模型與 VLM,對場景、運鏡、角色交互、個體動作進行細粒度打分。

應用的技術

LLM-driven Script Creation:用大語言模型做劇本的結構化拆解與分鏡化表達。

Hybrid Evaluation Framework:結合專家模型(ArcFace, Grounding DINO)與多模態(tài)大模型(GPT-4o, Qwen-VL)的混合評估框架。

Character Identification Similarity(CIDS):基于特征提取與二分圖匹配的角色一致性計算。

Copy-Paste Rate:基于 Softmax 概率分布,衡量生成特征對某張參考圖的“過擬合式貼圖”。

國內(nèi)外各個模型的表現(xiàn)

對30+方法的大規(guī)模評測給出了幾條很“現(xiàn)實”的結論——不同路線在傳播鏈路的不同環(huán)節(jié)各有強項:

GPT-4o 的雙面性

GPT-4o 在 敘事對齊(Alignment Score: 3.67) 和 角色計數(shù)(OCCM: 93.5) 上非常強,說明它在“理解劇本并按指令組織信息”方面優(yōu)勢明顯;但在視覺質(zhì)量(Inception Score)與風格多樣性上略遜,體現(xiàn)出“會講”未必“會畫”。

商業(yè)軟件的優(yōu)勢

MorphicStudio、Doubao 等商業(yè)工具在 美學質(zhì)量(Aesthetics) 和 風格一致性上更穩(wěn),更像面向生產(chǎn)的“視覺呈現(xiàn)優(yōu)化”;但細粒度敘事控制弱一些,對鏡頭語言的精準響應也不如 LLM 路線穩(wěn)定。

Sora2 的多鏡頭能力

作為原生視頻模型,Sora2 在 跨鏡頭一致性(Self-Sim: 0.813) 表現(xiàn)突出,背后是對電影數(shù)據(jù)的學習紅利;但在遵循特定視覺參考(Image Ref Cross-Sim)上仍有提升空間——更“像電影”,但未必更“像你指定的角色”。

視頻 vs 圖像

目前視頻生成模型(Vl ogger、MovieAgent)在單幀質(zhì)量與角色一致性上,普遍不如專門的故事圖像方法(OmniGen2、UNO)。時間維度帶來連貫性紅利,也帶來每幀細節(jié)的損耗。

權衡(Trade-off)

一致性(Consistency)與多樣性(Diversity)存在明顯權衡:越一致越可能“復制粘貼”,越多樣越可能“跑角色”。Copy-Paste 指標把這個隱性矛盾顯性化,避免被“刷分式一致性”誤導。

結論與局限性

ViStoryBench 是目前評估故事可視化任務最全面、最嚴格的基準:它不僅提供高質(zhì)量多鏡頭數(shù)據(jù)集,還把“講故事”拆成可自動化度量的能力結構。實驗結果也很直觀:沒有任何單一模型能在所有維度通吃——LLM 更擅長敘事組織,商業(yè)工具更擅長視覺呈現(xiàn),視頻模型更擅長跨鏡頭連貫。

局限性:目前主要聚焦多圖一致性評估,尚未納入音頻對齊或更復雜的時序動態(tài)指標;混合評估中使用的 VLM 仍可能存在少量幻覺(已做穩(wěn)定性測試)。未來工作將補齊背景一致性評估,并向長視頻敘事基準邁

參考文獻

[1] ViStoryBench: Comprehensive Benchmark Suite for Story Visualization

       原文標題 : NanobananaPro/GPT-4o/Sora2/國產(chǎn)模型誰最強?ViStoryBench:全能故事可視化基準首發(fā)!

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號