訂閱
糾錯
加入自媒體

GLM-5架構(gòu)細節(jié)浮出水面:DeepSeek仍是繞不開的門檻

離春節(jié)不到一周,過去兩年的經(jīng)驗告訴我們,國產(chǎn)AI新產(chǎn)品的爆發(fā)期又要來了。

Kimi K2.5在OpenRouter上一騎絕塵,Minimax也在官網(wǎng)上隱隱約約透露出M2.2的版本代號。

大家等得很焦急,智譜和DeepSeek年前是不是也得來點大動作?

這不,短短48小時內(nèi),三個獨立的技術(shù)平臺接連出現(xiàn)了與智譜新模型GLM-5相關(guān)的線索,形成了一條完整的信息鏈。

01 線索浮現(xiàn):三平臺齊曝 GLM-5 蹤跡

2月7日,OpenRouter平臺悄悄上線了一款代號為“pony-alpha”的模型。

根據(jù)實際測試的結(jié)果,它的思維鏈風(fēng)格與智譜的GLM系列高度吻合,比如:

遇到常規(guī)回答,它會以“嗯,......”為開頭進行思考;

遇到知識檢索任務(wù),就分點列出“1.分析請求:...”;

遇到代碼任務(wù),則會明確標(biāo)注“用戶要求......”。

而技術(shù)社區(qū)在把這個模型投入實際開發(fā)后,發(fā)現(xiàn)它在貪吃蛇、Minecraft等復(fù)雜的代碼生成任務(wù)中表現(xiàn)相當(dāng)穩(wěn)健,但缺乏圖像等多模態(tài)輸入支持。

接下來的2月9日,vLLM推理框架倉庫出現(xiàn)了編號為34124的pull request,在代碼中首次明確出現(xiàn)了“GLM-5”標(biāo)識。

更重要的是,代碼表明其實現(xiàn)邏輯直接復(fù)用了DeepSeek-V3系列模型采用的DSA(DeepSeek Sparse Attention,稀疏注意力)機制,并集成了MTP(Multi-Token Prediction,多標(biāo)記預(yù)測)技術(shù)。

幾乎同時,Hugging Face transformers倉庫合并了編號為43858的pull request,正式引入了智譜的GlmMoeDsa架構(gòu)。

代碼顯示,GLM-5采用了78層Transformer解碼器,前三層為稠密(Dense)結(jié)構(gòu),第四層及以后采用混合專家(MoE)架構(gòu),共配置256個專家網(wǎng)絡(luò),處理單個token激活其中8個,并輔以1個共享專家以保證基礎(chǔ)能力穩(wěn)定。

GLM-5的上下文窗口進一步擴展到了202K,詞表規(guī)模為154880,相比前代GLM-4.7提升有限。

02 架構(gòu)解析:效率與規(guī)模的平衡

在過去兩年里,規(guī)模化法則(Scaling Law)的正確性已經(jīng)得到充分驗證。

前段時間廣受好評的Kimi-K2.5也憑借國產(chǎn)模型中少見的1T參數(shù)量證明了“大就是好”。

不過,智譜創(chuàng)始人唐杰卻在2026年的AGI Next峰會上提出了一個不同的看法:

單純的模型擴展雖然是提升智能的有效路徑,但本質(zhì)上是“人類最輕松的偷懶方式”。

回過頭來看即將誕生的GLM-5,若是按照社區(qū)揭曉的現(xiàn)有信息來看,其技術(shù)路線已經(jīng)呈現(xiàn)出明顯的“效率優(yōu)先”導(dǎo)向,而非繼續(xù)堆砌參數(shù)。

首先是混合專家(MoE)架構(gòu),這個詞在如今的AI時代應(yīng)該已經(jīng)不再陌生,它將模型參數(shù)分散至多個專業(yè)化的子網(wǎng)絡(luò),也就是我們所說的“專家”,推理時可以只調(diào)用與任務(wù)最相關(guān)的少數(shù)專家。

GLM-5采用“256專家+8激活”的配置,在維持更大規(guī)模參數(shù)總量的同時,單次推理只需調(diào)用約3%的參數(shù),對計算成本和響應(yīng)延遲都實現(xiàn)了有效控制。

前3層保留稠密結(jié)構(gòu)則是為了確保模型具備基礎(chǔ)語言理解能力的穩(wěn)定性,以避免稀疏化帶來的表征斷裂風(fēng)險。

然后是智譜選擇了已被DeepSeek驗證的稀疏注意力機制(DSA),而非自行研發(fā)同類機制。

前面已經(jīng)提過,GLM-5對DSA的集成屬于架構(gòu)復(fù)用,代碼中明確顯示GLM-5中的“GlmMoeDsaForCausalLM”類直接繼承自“DeepseekV2ForCausalLM”。

論文地址:

DSA機制是DeepSeek在五個月前開源的算法。

傳統(tǒng)大模型在處理長文本時,自注意力機制決定了每個詞都要與前面的所有詞計算一次注意力關(guān)系,計算量隨文本長度呈平方級增長,這就導(dǎo)致長文本的推理成本居高不下。

DSA提出了用精準(zhǔn)篩選來代替全文掃描的新思路:對于每個詞,篩選出與之最相關(guān)的一部分詞并進行深度計算。

模型需要為每一個當(dāng)前詞配備一個輕量級的索引器,用極簡的計算方式來快速評估當(dāng)前詞與歷史詞之間的相關(guān)性,并輸出一個相關(guān)性分數(shù)。

由于使用ReLU代替Softmax作為激活函數(shù)能夠避免指數(shù)運算開銷,這個流程只需要消耗自注意力機制約5%的計算資源。

在得到相關(guān)性分數(shù)后,模型就可以僅選取最相關(guān)的k個歷史詞進行自注意力計算。論文中以128K上下文場景為例,取k=2048,計算量可以足足減少98%。

為了確保篩選詞匯的質(zhì)量,DeepSeek當(dāng)時就采用了分兩階段的訓(xùn)練策略:先讓索引器在稠密注意力模式下學(xué)習(xí)“哪些詞更值得被關(guān)注”,等到輸出分布與自注意力對齊后再切換到稀疏注意力模式。

實際測試下來,在H800 GPU上處理長文本時使用DSA能夠降低約40%至50%的推理成本,而核心任務(wù)上的性能損失還不到1%。

因此,DSA機制不是簡單的跳過信息,而是用低成本的路由實現(xiàn)了計算資源的精準(zhǔn)“按需分配”,使模型兼顧長上下文場景下的能力和效率。

最后則是多標(biāo)記預(yù)測(MTP)技術(shù),又是DeepSeek的經(jīng)典代表技術(shù)之一。

這項推理加速機制從根本上改變了大模型token生成的模式。標(biāo)準(zhǔn)Transformer架構(gòu)采用嚴格的自回歸方式:模型每次前向計算只會預(yù)測下一個詞,長文本場景下所需的計算次數(shù)可想而知。

MTP則允許模型在前向計算中一次預(yù)測多個連續(xù)的詞,以此減少迭代次數(shù)并提升計算效率。

單純把預(yù)測目標(biāo)從一個詞變成多個詞肯定會提高出錯的概率,因此MTP的實現(xiàn)依賴于訓(xùn)練階段的特殊設(shè)計:模型同時預(yù)測當(dāng)前詞和后續(xù)多個詞的聯(lián)合分布,損失函數(shù)也被調(diào)整為覆蓋多個未來位置的預(yù)測目標(biāo),讓模型學(xué)會局部詞序列的生成規(guī)律。

聽起來有些抽象,用一個簡單的例子來說明:

在Python編程時,模型識別到用戶輸入了函數(shù)定義關(guān)鍵字“def”,傳統(tǒng)方式需要逐個字符預(yù)測后續(xù)的內(nèi)容。

若是使用MTP,模型可能直接輸出“ calculate_sum(a, b)”這個完整代碼語句。

原因很簡單:代碼具有強語法規(guī)律性,函數(shù)名后必然跟隨括號和參數(shù)。模型在訓(xùn)練中早已學(xué)會這種語法結(jié)構(gòu),所以才能安全地一次預(yù)測多個token。

實際測試結(jié)果顯示,在代碼、JSON、SQL等結(jié)構(gòu)化文本生成任務(wù)中,MTP能夠?qū)oken生成速度提升2-3倍。

03 產(chǎn)業(yè)洞察:技術(shù)復(fù)用的趨勢不可阻擋

基于社區(qū)測試和技術(shù)架構(gòu)推演的結(jié)果,我們大致可以確認:

GLM-5在代碼生成和邏輯推理兩個場景具有優(yōu)勢和競爭力。

pony-alpha在Minecraft這個復(fù)雜項目中展現(xiàn)出的代碼能力,再加上對DSA等DeepSeek經(jīng)典技術(shù)的復(fù)用實現(xiàn)了對長序列的高效處理,GLM-5有望在軟件開發(fā)輔助、算法設(shè)計等垂直領(lǐng)域形成差異化價值。

但短板也不容忽視。社區(qū)測試已經(jīng)明確指出GLM-5暫無多模態(tài)能力,無法處理圖像、音頻等非文本輸入。

在當(dāng)前國內(nèi)主流大模型普遍向視覺語言聯(lián)合理解演進的背景下,這一缺失必然會限制GLM-5在AIGC創(chuàng)作場景中的適用性,并在春節(jié)期間進一步被放大。

更有趣的是,現(xiàn)有的幾條消息表面上是關(guān)注GLM-5帶來的新突破,實則句句離不開DeepSeek的經(jīng)典技術(shù)。

希望幾天之后智譜能給我們帶來新的驚喜。

智譜AI選擇直接集成開源技術(shù)體現(xiàn)對研發(fā)效率重視的同時,也反映出國產(chǎn)大模型研發(fā)路徑的轉(zhuǎn)變:“開源+優(yōu)化”比“閉源+自研”更務(wù)實。

AI行業(yè)即將告別參數(shù)規(guī)模的軍備競賽,專注于推理效率上的精細化運營。在控制計算成本的前提下,如何提升垂直表現(xiàn)將成為下一階段競爭的關(guān)鍵維度。

       原文標(biāo)題 : GLM-5架構(gòu)細節(jié)浮出水面:DeepSeek仍是繞不開的門檻

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號