當(dāng)前位置:

OFweek 人工智能網(wǎng)

評(píng)測(cè)

Qwen3-VL-Flash提升13.62%!浙大等首創(chuàng)CoV:多步推理具身問(wèn)答Agent,通用提點(diǎn)神器

作者:CoV團(tuán)隊(duì) 解讀:AI生成未來(lái) 亮點(diǎn)直擊 CoV 框架:首創(chuàng)“視鏈提示”(Chain-of-View, CoV),一個(gè)免訓(xùn)練、測(cè)試時(shí)(test-time)的具身問(wèn)答智能體框架。 主動(dòng)視覺(jué)推理:將

2026-01-14 14:06 評(píng)論

自回歸最新SOTA!百度VideoAR:首個(gè)視頻VAR框架,推理步數(shù)減少10倍,比肩擴(kuò)散模型

作者:Longbin Ji等 解讀:AI生成未來(lái) 圖1 VideoAR通過(guò)文本提示生成高保真且時(shí)間一致的視頻 亮點(diǎn)直擊 首個(gè)視頻 VAR 框架:?VideoAR,首個(gè)將視覺(jué)自回歸建模應(yīng)用于視頻生成的大

2026-01-13 11:53 評(píng)論

國(guó)產(chǎn)多模態(tài)搜索史詩(shī)級(jí)突破!Qwen3-VL登頂MMEB:支持30+語(yǔ)言,一套模型搞定圖文視頻

作者:Mingxin Li等 解讀:AI生成未來(lái) 亮點(diǎn)直擊 推出了基于 Qwen3-VL 基礎(chǔ)模型的?Qwen3-VL-Embedding?和?Qwen3-VL-Reranker?系列模型。 一套端到

2026-01-12 16:51 評(píng)論

硬剛谷歌Veo3!快手Klear統(tǒng)一多任務(wù)音視頻聯(lián)合生成:創(chuàng)新單塔架構(gòu),口型語(yǔ)音完美同步

作者:Jun Wang、Chunyu Qiang等 解讀:AI生成未來(lái) 亮點(diǎn)直擊 Klear 框架:提出了一個(gè)統(tǒng)一的音頻-視頻生成框架,能夠同時(shí)處理聯(lián)合生成(Joint Generation)和單模態(tài)

2026-01-12 16:42 評(píng)論

強(qiáng)勢(shì)斬獲6項(xiàng)SOTA!UniCorn打通理解與生成任督二脈,靠“內(nèi)省”重構(gòu)多模態(tài)認(rèn)知

作者:Ruiyan Han等 解讀:AI生成未來(lái) 亮點(diǎn)直擊 傳導(dǎo)性失語(yǔ)癥:將統(tǒng)一多模態(tài)模型中“理解能力強(qiáng)但生成能力弱”的現(xiàn)象形式化為“傳導(dǎo)性失語(yǔ)癥”。 UniCorn 框架:一種無(wú)需外部數(shù)據(jù)或教師監(jiān)督

2026-01-09 16:15 評(píng)論

一個(gè)人就是一支整編劇組!首個(gè)“統(tǒng)一導(dǎo)演”模型發(fā)布:字節(jié)UniMAGE,讓腦洞原地變大片

作者:Jiaxu Zhang等 解讀:AI生成未來(lái) 亮點(diǎn)直擊 概念:UniMAGE體現(xiàn)了“統(tǒng)一導(dǎo)演模型” 的概念,整體協(xié)調(diào)敘事邏輯和視覺(jué)構(gòu)圖,將用戶意圖與多模態(tài)劇本聯(lián)系起來(lái),實(shí)現(xiàn)創(chuàng)意音視頻生成。 技術(shù)

2026-01-08 14:40 評(píng)論

全棧視覺(jué)生成器殺到!上交&快手&南洋理工最新VINO:圖像視頻生成+編輯一網(wǎng)打盡

作者:Junyi Chen等 解讀:AI生成未來(lái) 亮點(diǎn)直擊 統(tǒng)一視覺(jué)生成框架VINO:一個(gè)將圖像/視頻生成與編輯任務(wù)統(tǒng)一在單一框架下的模型,無(wú)需針對(duì)特定任務(wù)設(shè)計(jì)獨(dú)立模塊。 交錯(cuò)全模態(tài)上下文:通過(guò)耦合視

2026-01-07 15:38 評(píng)論

復(fù)刻“黑客帝國(guó)”子彈時(shí)間!SpaceTimePilot:視頻變可操控4D游戲,倒放/變速/運(yùn)鏡隨你掌控

作者:Zhening Huang等 解讀:AI生成未來(lái) 亮點(diǎn)直擊 首次實(shí)現(xiàn)了聯(lián)合空間和時(shí)間控制的視頻擴(kuò)散模型:?SpaceTimePilot 是首個(gè)能夠從單個(gè)單目視頻實(shí)現(xiàn)對(duì)動(dòng)態(tài)場(chǎng)景進(jìn)行聯(lián)合空間(攝像機(jī)

2026-01-06 14:21 評(píng)論

港中文&字節(jié)聯(lián)合推出DreamOmni3:解鎖“涂鴉+圖文”聯(lián)合輸入,重新定義多模態(tài)生成與編輯

作者:Bin Xia等 解讀:AI生成未來(lái) DreamOmni3 的效果展示,具備基于涂鴉的編輯和生成功能 亮點(diǎn)直擊 提出了兩項(xiàng)對(duì)統(tǒng)一生成與編輯模型極具實(shí)用價(jià)值的任務(wù):基于涂鴉的編輯和基于涂鴉的生成。

2026-01-05 14:47 評(píng)論

首個(gè)亞秒啟動(dòng)的14B“數(shù)字人”開(kāi)源!效率飆23倍!SoulX-LiveTalk:32FPS讓對(duì)話絲滑如真人

作者:Le Shen等 解讀:AI生成未來(lái) 亮點(diǎn)直擊 SoulX-LiveTalk框架:?一個(gè)低延遲、實(shí)時(shí)、音頻驅(qū)動(dòng)的虛擬形象框架,其核心是14B參數(shù)的DiT模型?朔笠(guī)模擴(kuò)散模型在實(shí)時(shí)、無(wú)限流媒體

2026-01-04 16:06 評(píng)論

口型匹配、身份保持全面SOTA!清華&可靈X-Dub:拋棄修復(fù)思維,用“編輯”實(shí)現(xiàn)精準(zhǔn)同步!

作者:Xu He等 解讀:AI生成未來(lái) 亮點(diǎn)直擊 范式轉(zhuǎn)變:本文將視覺(jué)配音從一個(gè)病態(tài)的“掩碼修復(fù)”任務(wù)重新定義為一個(gè)條件良好的“視頻到視頻編輯”任務(wù)。 自引導(dǎo)框架(X-Dub)?:提出了一個(gè)自我引導(dǎo)框

2026-01-04 16:03 評(píng)論

北交&字節(jié)最新開(kāi)源ThinkGen:首次顯式利用多模態(tài)CoT處理生成任務(wù),多項(xiàng)任務(wù)性能SOTA

作者:Siyu Jiao等 解讀:AI生成未來(lái) 亮點(diǎn)直擊 首次提出思考驅(qū)動(dòng)的視覺(jué)生成框架:?ThinkGen 是第一個(gè)顯式利用 MLLM 的思維鏈(CoT)推理來(lái)處理各種生成場(chǎng)景的思考驅(qū)動(dòng)視覺(jué)生成框架

2025-12-31 15:31 評(píng)論

超越Wan-2.1 和 MatrixGame!Yume1.5:交互式世界生成模型,單卡12 FPS實(shí)時(shí)交互渲染

作者:Xiaofeng Mao等 解讀:AI生成未來(lái) 亮點(diǎn)直擊 聯(lián)合時(shí)空通道建模(TSCM):用于無(wú)限上下文生成,盡管上下文長(zhǎng)度不斷增加,該方法仍能保持穩(wěn)定的采樣速度。 將 Self-Forcing

2025-12-30 14:33 評(píng)論

AI自己當(dāng)導(dǎo)演?KlingAvatar 2.0“聯(lián)合推理”黑科技:讓數(shù)字人不僅會(huì)演,更懂劇本!新SOTA!

作者:快手Kling團(tuán)隊(duì) 解讀:AI生成未來(lái) 圖1 KlingAvatar 2.0生成生動(dòng)、保持身份的數(shù)字人類,具備精準(zhǔn)的攝像頭控制、豐富的情感表達(dá)、高質(zhì)量的動(dòng)作以及精準(zhǔn)的面部-唇部和音頻同步。它實(shí)現(xiàn)

2025-12-29 15:57 評(píng)論

僅960M參數(shù),不僅干翻百億大模型,速度還快了6倍!字節(jié)最新圖像編輯模型EditMGT開(kāi)源啦

作者:Wei Chow,Linfeng Li等 解讀:AI生成未來(lái) 亮點(diǎn)直擊 提出了EditMGT,這是首個(gè)基于MGT的圖像編輯模型,它通過(guò)利用MGT的令牌翻轉(zhuǎn)特性來(lái)顯式地保留與編輯無(wú)關(guān)的區(qū)域,從而從

2025-12-26 14:45 評(píng)論

為國(guó)爭(zhēng)光!智譜GLM-4.7橫掃全球開(kāi)源模型,超越GPT5.2

智譜又為國(guó)爭(zhēng)光了!智譜正準(zhǔn)備在港交所上市,即將成為全球大模型第一股。同時(shí),發(fā)布了「GLM-4.7」模型。GLM-4.7最驚艷的是編程能力,在國(guó)產(chǎn)模型中排名第一。放眼全球,也是橫掃所有開(kāi)源模型,甚至評(píng)分

2025-12-25 16:01 評(píng)論

6倍極速生成無(wú)限時(shí)長(zhǎng)人像視頻!復(fù)旦&微軟最新FlashPortrait:讓你成為數(shù)字人面具背后的TA

作者:Shuyuan Tu、Zhen Xing等 解讀:AI生成未來(lái) 亮點(diǎn)直擊 提出了一種基于滑動(dòng)窗口的自適應(yīng)潛變量預(yù)測(cè)加速機(jī)制。該方法無(wú)需額外訓(xùn)練,僅在推理階段激活,可在保持無(wú)限長(zhǎng)度人像動(dòng)畫(huà)身份一致

2025-12-25 14:57 評(píng)論

超越Veo和Runway!可靈開(kāi)源Kling-Omni:一個(gè)模型通吃視頻生成、剪輯和多模態(tài)推理!

作者:Kling 團(tuán)隊(duì) 解讀:AI生成未來(lái) 亮點(diǎn)直擊 統(tǒng)一的通用框架:Kling-Omni將多樣化的視頻生成、編輯和智能推理任務(wù)整合到一個(gè)端到端的通用生成框架中,打破了傳統(tǒng)碎片化的處理模式。 創(chuàng)新性的

2025-12-23 13:36 評(píng)論

加速近200倍!RTX 5090生成高質(zhì)量視頻只要1.9秒!清華&生數(shù)等重磅開(kāi)源TurboDiffusion

作者:Jintao Zhang等 解讀:AI生成未來(lái) 亮點(diǎn)直擊 提出了一種端到端的視頻生成加速框架,在保持視頻質(zhì)量的同時(shí),將擴(kuò)散模型的生成速度提升了??。 單張 RTX 5090 GPU 上,該框架能

2025-12-22 18:00 評(píng)論
上一頁(yè)   1  2 3 4 5 6 7 ... 9   下一頁(yè)

資訊訂閱

粵公網(wǎng)安備 44030502002758號(hào)