訂閱
糾錯
加入自媒體

大模型日報| 字節(jié)跳動對多模態(tài)又有了新創(chuàng)意,HBM刻蝕需求爆發(fā)

01

重大發(fā)布(新模型/產(chǎn)品/開源)

①阿里千問開源持續(xù)進行中:Embedding與Reranker系列登場

阿里通義千問團隊于1月8日再度開源兩款名為模型Qwen3-VL-Embedding和Qwen3-VL-Reranker的模型。

上述模型是業(yè)內(nèi)首批基于Qwen3-VL架構(gòu)打造的開源多模態(tài)嵌入與重排序模型,主要用于將多模態(tài)和混合模態(tài)內(nèi)容(包括但不限于文本、圖像、音頻和視頻)統(tǒng)一映射至同一個高維語義空間,以此實現(xiàn)“看圖找文”、“看文搜視頻”等跨模態(tài)檢索能。

1

兩款模型分別有2B和8B兩種參數(shù)規(guī)格的版本,支持32K上下文窗口和任務(wù)指令定制。目前,上述模型已經(jīng)在Hugging Face、ModelScope和GitHub全面開源。

690b464dc98f85ab3339fb1b2e40b72d

短評:

目前AI的多模態(tài)能力仍然存在一定局限性,對于復(fù)雜內(nèi)容的識別,哪怕是Gemini 3 Pro的效果都談不上有多理想。阿里千問團隊延續(xù)了開源的技術(shù)路線,為跨模態(tài)識別領(lǐng)域提供了兩款重要的基座模型。

它們未必能立刻解決所有的識別難題,但仍然為行業(yè)提供了新的思路。在閉源模型的“黑箱”問題越來越嚴重的情況下,開源策略反而可能成為多模態(tài)領(lǐng)域?qū)崿F(xiàn)突破的關(guān)鍵方法。

②OpenAI深入醫(yī)療行業(yè):OpenAI for Healthcare已落地多家頂級醫(yī)院

OpenAI昨日推出了新產(chǎn)品OpenAI for Healthcare,這是一套專門為醫(yī)療行業(yè)打造、支持HIPAA(健康保險攜帶和責任法案)合規(guī)的AI產(chǎn)品組合。兩款產(chǎn)品的相繼發(fā)布,證明OpenAI已經(jīng)開始系統(tǒng)性地進入醫(yī)療領(lǐng)域的核心場景。

這一產(chǎn)品組合主要包含兩部分:

一是ChatGPT for Healthcare:基于GPT-5.2模型設(shè)計,目標是優(yōu)化臨床、科研和運營工作流。它能夠引用數(shù)百萬篇同行評審文獻、臨床指南和公共衛(wèi)生建議,并附帶完整出處,同時也支持對接醫(yī)院內(nèi)部的政策數(shù)據(jù)庫,確保其回答與機構(gòu)標準保持一致;

二是OpenAI API for Healthcare:面向開發(fā)者設(shè)計,支持構(gòu)建病歷摘要、隨訪調(diào)度、環(huán)境聽診等定制化工具,已有Abridge、Ambience等公司基于這一產(chǎn)品開始打造臨床輔助應(yīng)用。

目前,波士頓兒童醫(yī)院、Cedars-Sinai、斯坦福醫(yī)學兒童健康、UCSF和HCA醫(yī)療集團等頂尖機構(gòu)已開始部署。早期試點結(jié)果顯示,AI輔助有助于降低診療錯誤率。

短評:

相比之前的ChatGPT Health,OpenAI的這款新產(chǎn)品進一步涉足了醫(yī)療行業(yè)更深層的領(lǐng)域,需求擴展也會帶來更高的風險。

但是,OpenAI仍然讓醫(yī)生作為決策者,明確強調(diào)“Clinicians stay in charge”,不代替醫(yī)生做出診斷,也不輕易回答醫(yī)學問題,其功能聚焦于輔助整合、文檔生成、結(jié)合患者情況提供機構(gòu)指南和最新文獻等,最大程度避免了信任與合規(guī)相關(guān)問題。

如果這一產(chǎn)品組合能夠?qū)崿F(xiàn)規(guī);瘧(yīng)用,各大醫(yī)院接入OpenAI生態(tài)后就會形成平臺依賴,GPT-5也將成為智能醫(yī)療的底層基礎(chǔ)設(shè)施。

③智譜GLM-5即將發(fā)布,目標AGI底層突破

在智譜完成上市的同時,清華大學計算機系教授也正式宣布:智譜的新一代大模型GLM-5即將問世。

在2025年,智譜模型的高速迭代領(lǐng)跑國內(nèi)AI行業(yè),從年初試探性地發(fā)布GLM-4.1,到7月GLM-4.5的正式發(fā)布,再到9月的GLM-4.6和12月的GLM-4.7,這家國內(nèi)AI初創(chuàng)企業(yè)的模型能力已經(jīng)能夠和國際頂尖模型同臺競技。

兩周前發(fā)布的GLM-4.7在代碼、Agent和多語言任務(wù)中拿下多項開源與國產(chǎn)模型SOTA,目前在Aritificial Analysis新版本的智能程度排行榜上位居全球第7,國內(nèi)第1。

唐杰表示,智譜的新模型GLM-5將繼續(xù)以實現(xiàn)AGI為目標,在以下三方面實現(xiàn)技術(shù)突破:

一是超越Transformer的全新架構(gòu):隨著AI能力的增強和應(yīng)用場景的擴大,Transformer架構(gòu)存在的長上下文計算開銷過大、記憶機制僵化等弊端正在被逐步擴大,智譜需要研發(fā)新的模型架構(gòu),并推進“芯片-算法協(xié)同設(shè)計”以提升能效;

二是更加通用的強化學習范式:模型訓(xùn)練不再局限于代碼等可驗證環(huán)境,而是支持數(shù)十個小時的復(fù)雜任務(wù)執(zhí)行;

三是持續(xù)學習和自主進化:目前的模型在完成訓(xùn)練后,其智能程度就已經(jīng)被確定,智譜將布局在線學習能力,使AI在推理階段仍能提升智能。

短評:

GLM-5提出的三大技術(shù)突破方向均屬于AI學術(shù)領(lǐng)域內(nèi)公認的硬核難題,短期內(nèi)難以在產(chǎn)品上實現(xiàn)落實,模型在真實任務(wù)中的可靠性和成本效益更加值得關(guān)注。

④Grok Code即將迎來重大升級

馬斯克昨日發(fā)布消息稱xAI將在下一個月對旗下編程推理模型Grok Code系列產(chǎn)品進行一次重量級更新,新版本的模型將顯著提升在復(fù)雜場景中的編程能力。

對于較大的程序項目,過去的模型需要開發(fā)者進行分步引導(dǎo)和多輪調(diào)試以完成編碼任務(wù),未來有望通過單次提示直接完成。

短評:

Vibe Coding(氛圍編程)的應(yīng)用場景越來越豐富,面對Claude Code在編程領(lǐng)域一家獨大,Google、OpenAI和xAI都紛紛出手開始進入市場競爭。

目前,在Artificial Analysis的編程排行榜上,Grok 4與其他三家相比稍顯落后,本次更新預(yù)計能達到同一水平。未來,上述幾款產(chǎn)品的能力差距將進一步被壓縮,token價格將成為短期競爭的關(guān)鍵指標。

⑤阿里云發(fā)布多模態(tài)交互開發(fā)套件

在阿里云的通義智能硬件展上,其最新開發(fā)的多模態(tài)交互開發(fā)套件首次亮相。

這一套件的主要亮點如下:

一是低成本快速接入:適配30款以上的主流終端芯片,未來將與玄鐵協(xié)同實現(xiàn)軟硬件一體優(yōu)化;

二是超低交互時延:端到端語音響應(yīng)只需1秒,視頻交互只需1.5秒,支持全雙工對話與實時視覺理解;

三是開箱即用的生態(tài):預(yù)置多種常用Agent,接入阿里云百煉生態(tài),可通過A2A協(xié)議兼容第三方Agent,靈活擴展業(yè)務(wù)場景。

短評:

新套件的發(fā)布是阿里注重AI應(yīng)用層和Agent落地的又一重大舉措。阿里將通義系列大模型的能力深度封裝到硬件開發(fā)套件中,這些具備感知、規(guī)劃和執(zhí)行能力的智能體就可以真正融入用戶的生活并解決問題。在下一代人機交互入口的競爭中,掌握終端交互的體驗才能定義AI的形態(tài)。

02

技術(shù)進展(論文/SOTA/算法)

①字節(jié)跳動DreamStyle:三模態(tài)引導(dǎo)的視頻風格化框架

字節(jié)跳動對于多模態(tài)又有了新的創(chuàng)意。近日,字節(jié)在Github上上傳了一個名為DreamStyle的統(tǒng)一、高效的視頻風格化框架,支持文本描述、風格參考圖、首幀引導(dǎo)三種輸入方式生成特定風格的視頻,并通過自研的數(shù)據(jù)管道和token級的LoRA微調(diào)技術(shù),顯著提升了長視頻風格的一致性和畫面質(zhì)量,在真實的評測中超越了現(xiàn)有的方法。

framework

傳統(tǒng)的視頻風格化工具大多只能處理單一樣式的輸入(如文生視頻和圖生視頻),導(dǎo)致視頻時間一旦延長,就會導(dǎo)致效果不穩(wěn)定、時序閃爍嚴重等問題。

DreamStyle采用了自建的高質(zhì)量訓(xùn)練數(shù)據(jù)集,結(jié)合SDXL(Stability AI團隊開發(fā)的開源文生圖框架)、Seedream 4.0和ControlNet(可控圖像生成技術(shù))以確保風格遷移的準確性和運動的連貫性。同時,該框架基于阿里開源的Wan14B-I2V模型架構(gòu),引入Token-specific LoRA技術(shù),有效區(qū)分不同條件的信號以減少語義混亂。

短評:

該框架聚焦于風格遷移這一明確任務(wù)而設(shè)計,對于短視頻平臺和廣告公司來說具備一定商業(yè)價值。不過,部署門檻可能較高,是否支持輕量化或邊緣設(shè)備有待觀察。

03

 算力與基礎(chǔ)設(shè)施(芯片/云/數(shù)據(jù)中心)

①東京電子提升48%資本開支押注HBM驅(qū)動的蝕刻設(shè)備需求

根據(jù)日經(jīng)新聞消息,全球半導(dǎo)體設(shè)備巨頭東京電子(Tokyo Electron)即將加大AI算力基建的相關(guān)投入,公司預(yù)計在2026財年將資本支出提升48%至2400億日元,創(chuàng)下歷史新高,同時,研發(fā)投入增長16%達到2900億日元。

這一激進投資的核心邏輯,是押注HBM(高帶寬內(nèi)存)擴產(chǎn)帶來的先進蝕刻設(shè)備需求爆發(fā)。

由于英偉達等高端AI廠商的芯片產(chǎn)品廣泛采取多層堆疊HBM,各大DRAM制造商都在加速擴產(chǎn)。HBM三巨頭中的三星和海力士都已經(jīng)宣布投入數(shù)十億美元新建HBM產(chǎn)線,預(yù)計于2027年至2028年投產(chǎn)。為了提升AI芯片的性能,每增加一層HBM堆疊,就需要更多的精密蝕刻設(shè)備用以構(gòu)建芯片之間的精密互連結(jié)構(gòu),而這正是東京電子的核心業(yè)務(wù)之一。

2025財年,東京電子的DRAM互連蝕刻系統(tǒng)銷售額已經(jīng)突破千億,預(yù)計到2030年,累計銷售額將達到5000億日元。為迎合這一需求爆發(fā)的周期,東京電子于日本多地擴建研發(fā)、生產(chǎn)與物流中心。

短評:

目前看來,AI的浪潮不會衰退,HBM的供給不足問題已經(jīng)對算力增長造成阻礙,因此這一投資伴隨的風險幾乎可以忽略。AI硬件的競爭,已經(jīng)從GPU擴展到HBM,并進一步向上游制造設(shè)備延伸。

       原文標題 : 大模型日報| 字節(jié)跳動對多模態(tài)又有了新創(chuàng)意,HBM刻蝕需求爆發(fā)

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號