123,123,123

Google“AI奧運(yùn)會”：用游戲基準(zhǔn)測試模型真實(shí)能力

AI新產(chǎn)品每天接連發(fā)布，測試基準(zhǔn)和平臺也是層出不窮。不過，你是否想過，游戲也能用來測試AI？ 2026年2月初，Google和Kaggle一起想出了一個新點(diǎn)子：在Kaggle的Game Arena上

2026-02-04 10:56 評論

擴(kuò)散模型迎來“終極簡化”！何愷明團(tuán)隊新作：像素級一步生成，速度質(zhì)量雙巔峰

作者：Yiyang Lu等解讀：AI生成未來亮點(diǎn)直擊 Pixel MeanFlow (pMF)?，這是一種針對一步生成（one-step generation）的創(chuàng)新圖像生成模型。pMF 的核心突

2026-02-02 15:51 評論

擴(kuò)散模型對齊迎來“最強(qiáng)解”！HyperAlign屠榜評測：超網(wǎng)絡(luò)動態(tài)適配，畫質(zhì)、語義雙巔峰

作者：Xin Xie等解讀：AI生成未來亮點(diǎn)直擊 HyperAlign，一種通過超網(wǎng)絡(luò)自適應(yīng)調(diào)整去噪操作的框架，能夠高效且有效地實(shí)現(xiàn)擴(kuò)散模型的測試時對齊，確保生成的圖像更好地反映用戶意圖的文本語義

2026-01-27 16:14 評論

一統(tǒng)視覺江湖！OpenVision 3發(fā)布：一個編碼器實(shí)現(xiàn)理解與生成完美統(tǒng)一，性能雙殺CLIP

作者：Letian Zhang等解讀：AI生成未來亮點(diǎn)直擊統(tǒng)一架構(gòu)：OpenVision 3是一種先進(jìn)的視覺編碼器，能夠?qū)W習(xí)單一、統(tǒng)一的視覺表示，同時服務(wù)于圖像理解和圖像生成任務(wù)。簡潔設(shè)計：核

2026-01-26 16:27 評論

告別時空崩壞，生成式游戲迎來“穩(wěn)態(tài)”時刻！南大等StableWorld：打造無限續(xù)航虛擬世界

作者：Ying Yang等解讀：AI生成未來亮點(diǎn)直擊識別了長時交互式世界建模中不穩(wěn)定性的根本原因：同一場景內(nèi)的微小漂移會不斷累積，最終導(dǎo)致整體場景崩潰。一種簡單而有效的方法?StableWor

2026-01-26 16:22 評論

角色動畫最新SOTA！港大&螞蟻等CoDance：解綁-重綁實(shí)現(xiàn)任意數(shù)量、位置角色同屏起舞

作者：Shuai Tan等解讀：AI生成未來圖1。由CoDance生成的多主體動畫。給定一個（可能錯位的）驅(qū)動姿勢序列和一張多主體參考圖像，CoDance生成協(xié)調(diào)且可姿勢控制的群舞，無需每個主體的

2026-01-20 13:48 評論

視頻生成效率革命！英偉達(dá)TMD蒸餾框架：Wan2.1模型實(shí)時化，速度和質(zhì)量最佳均衡！

作者：Weili Nie等解讀：AI生成未來亮點(diǎn)直擊一種新穎的視頻擴(kuò)散蒸餾框架：?轉(zhuǎn)移匹配蒸餾（TMD），它將長去噪軌跡蒸餾成緊湊的少步概率轉(zhuǎn)移過程。解耦的擴(kuò)散主干設(shè)計：?將教師模型分解為語義

2026-01-19 15:31 評論

Qwen3-VL-Flash提升13.62%！浙大等首創(chuàng)CoV:多步推理具身問答Agent，通用提點(diǎn)神器

作者：CoV團(tuán)隊解讀：AI生成未來亮點(diǎn)直擊 CoV 框架：首創(chuàng)“視鏈提示”（Chain-of-View, CoV），一個免訓(xùn)練、測試時（test-time）的具身問答智能體框架。主動視覺推理：將

2026-01-14 14:06 評論

自回歸最新SOTA！百度VideoAR：首個視頻VAR框架，推理步數(shù)減少10倍，比肩擴(kuò)散模型

作者：Longbin Ji等解讀：AI生成未來圖1 VideoAR通過文本提示生成高保真且時間一致的視頻亮點(diǎn)直擊首個視頻 VAR 框架：?VideoAR，首個將視覺自回歸建模應(yīng)用于視頻生成的大

2026-01-13 11:53 評論

國產(chǎn)多模態(tài)搜索史詩級突破！Qwen3-VL登頂MMEB：支持30+語言,一套模型搞定圖文視頻

作者：Mingxin Li等解讀：AI生成未來亮點(diǎn)直擊推出了基于 Qwen3-VL 基礎(chǔ)模型的?Qwen3-VL-Embedding?和?Qwen3-VL-Reranker?系列模型。一套端到

2026-01-12 16:51 評論

硬剛谷歌Veo3！快手Klear統(tǒng)一多任務(wù)音視頻聯(lián)合生成：創(chuàng)新單塔架構(gòu)，口型語音完美同步

作者：Jun Wang、Chunyu Qiang等解讀：AI生成未來亮點(diǎn)直擊 Klear 框架：提出了一個統(tǒng)一的音頻-視頻生成框架，能夠同時處理聯(lián)合生成（Joint Generation）和單模態(tài)

2026-01-12 16:42 評論

強(qiáng)勢斬獲6項SOTA！UniCorn打通理解與生成任督二脈，靠“內(nèi)省”重構(gòu)多模態(tài)認(rèn)知

作者：Ruiyan Han等解讀：AI生成未來亮點(diǎn)直擊傳導(dǎo)性失語癥：將統(tǒng)一多模態(tài)模型中“理解能力強(qiáng)但生成能力弱”的現(xiàn)象形式化為“傳導(dǎo)性失語癥”。 UniCorn 框架：一種無需外部數(shù)據(jù)或教師監(jiān)督

2026-01-09 16:15 評論

一個人就是一支整編劇組！首個“統(tǒng)一導(dǎo)演”模型發(fā)布：字節(jié)UniMAGE，讓腦洞原地變大片

作者：Jiaxu Zhang等解讀：AI生成未來亮點(diǎn)直擊概念：UniMAGE體現(xiàn)了“統(tǒng)一導(dǎo)演模型” 的概念，整體協(xié)調(diào)敘事邏輯和視覺構(gòu)圖，將用戶意圖與多模態(tài)劇本聯(lián)系起來，實(shí)現(xiàn)創(chuàng)意音視頻生成。技術(shù)

2026-01-08 14:40 評論

全棧視覺生成器殺到！上交&快手&南洋理工最新VINO：圖像視頻生成+編輯一網(wǎng)打盡

作者：Junyi Chen等解讀：AI生成未來亮點(diǎn)直擊統(tǒng)一視覺生成框架VINO：一個將圖像/視頻生成與編輯任務(wù)統(tǒng)一在單一框架下的模型，無需針對特定任務(wù)設(shè)計獨(dú)立模塊。交錯全模態(tài)上下文：通過耦合視

2026-01-07 15:38 評論

復(fù)刻“黑客帝國”子彈時間！SpaceTimePilot:視頻變可操控4D游戲,倒放/變速/運(yùn)鏡隨你掌控

作者：Zhening Huang等解讀：AI生成未來亮點(diǎn)直擊首次實(shí)現(xiàn)了聯(lián)合空間和時間控制的視頻擴(kuò)散模型：?SpaceTimePilot 是首個能夠從單個單目視頻實(shí)現(xiàn)對動態(tài)場景進(jìn)行聯(lián)合空間（攝像機(jī)

2026-01-06 14:21 評論

港中文&字節(jié)聯(lián)合推出DreamOmni3:解鎖“涂鴉+圖文”聯(lián)合輸入，重新定義多模態(tài)生成與編輯

作者：Bin Xia等解讀：AI生成未來 DreamOmni3 的效果展示，具備基于涂鴉的編輯和生成功能亮點(diǎn)直擊提出了兩項對統(tǒng)一生成與編輯模型極具實(shí)用價值的任務(wù)：基于涂鴉的編輯和基于涂鴉的生成。

2026-01-05 14:47 評論

DJI Neo 2 兩個月實(shí)測：跟拍靠譜、畫質(zhì)夠用，無人機(jī)“玩具化”的方向?qū)α耍?/a>

用兩個月后，我上癮了。兩個月前，小雷拿到 DJI Neo 2 ，第一反應(yīng)其實(shí)很普通：這么小一臺無人機(jī)，能有多大本事？ 151g 的機(jī)身、包著槳保的“安全外殼”、機(jī)身上那塊小小的屏幕……它看起來更像一

計算機(jī)視覺 | 2026-01-05 10:25 評論

首個亞秒啟動的14B“數(shù)字人”開源！效率飆23倍！SoulX-LiveTalk：32FPS讓對話絲滑如真人

作者：Le Shen等解讀：AI生成未來亮點(diǎn)直擊 SoulX-LiveTalk框架：?一個低延遲、實(shí)時、音頻驅(qū)動的虛擬形象框架，其核心是14B參數(shù)的DiT模型�？朔笠�(guī)模擴(kuò)散模型在實(shí)時、無限流媒體

2026-01-04 16:06 評論

口型匹配、身份保持全面SOTA！清華&可靈X-Dub：拋棄修復(fù)思維，用“編輯”實(shí)現(xiàn)精準(zhǔn)同步！

作者：Xu He等解讀：AI生成未來亮點(diǎn)直擊范式轉(zhuǎn)變：本文將視覺配音從一個病態(tài)的“掩碼修復(fù)”任務(wù)重新定義為一個條件良好的“視頻到視頻編輯”任務(wù)。自引導(dǎo)框架(X-Dub)?：提出了一個自我引導(dǎo)框

2026-01-04 16:03 評論

北交&字節(jié)最新開源ThinkGen：首次顯式利用多模態(tài)CoT處理生成任務(wù)，多項任務(wù)性能SOTA

作者：Siyu Jiao等解讀：AI生成未來亮點(diǎn)直擊首次提出思考驅(qū)動的視覺生成框架：?ThinkGen 是第一個顯式利用 MLLM 的思維鏈（CoT）推理來處理各種生成場景的思考驅(qū)動視覺生成框架

2025-12-31 15:31 評論

資訊訂閱

最新活動 更多 >>

精彩回顧《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書》查看回顧
精彩回顧 OFweek 2025（第十四屆）中國機(jī)器人產(chǎn)業(yè)大會查看回顧
精彩回顧 Ansys Motion薄膜卷曲卷對卷工藝仿真解決方案查看回顧
精彩回顧 STM32全球線上峰會查看回顧
精彩回顧 2024視覺感知技術(shù)在半導(dǎo)體與印刷包裝創(chuàng)新大會查看回顧
精彩回顧全數(shù)會2024中國人形機(jī)器人技術(shù)創(chuàng)新發(fā)展大會查看回顧

一周熱點(diǎn)

技術(shù)文庫 更多 >>

加密芯片筑牢工業(yè)設(shè)備防抄板防線
2025-11-14
LKT4202UGM、LKT4305GM國密芯片
2025-10-31
金融級安全加密芯片-LKT4304
2025-04-10
ATSHA204A國產(chǎn)全兼容芯片LCSHA204
2025-02-27
耗材保護(hù)芯片-LKT4304解決方案
2025-02-13
LKT4304新一代算法移植加密芯片
2025-01-16