訂閱
糾錯
加入自媒體

展望2026:DeepSeek梁文峰的mHC架構(gòu)會改變芯片設(shè)計方向嗎?

編者按:

DeepSeek發(fā)布的mHC(流形約束超連接)新架構(gòu),不僅會改變芯片設(shè)計,而且標(biāo)志著AI硬件設(shè)計將從“適配通用計算”轉(zhuǎn)向“為特定高效架構(gòu)深度優(yōu)化”的新范式。

簡單來說,mHC是一種讓AI模型在參數(shù)規(guī)模變大時,訓(xùn)練更穩(wěn)定、效率更高的新方法。它的核心影響在于,它通過算法創(chuàng)新顯著降低了對算力和內(nèi)存的粗暴依賴,這將倒逼芯片設(shè)計追求更高的“有效計算效率”,而不僅僅是峰值算力。

2026年元旦,AI圈被一篇來自DeepSeek的論文打破了跨年的寧靜。這篇題為《mHC: Manifold-Constrained Hyper-Connections》的研究成果,以流形約束超連接架構(gòu)(mHC)為核心,直指當(dāng)前大模型訓(xùn)練與芯片設(shè)計的核心痛點。論文作者名單中,DeepSeek創(chuàng)始人兼CEO梁文峰的署名尤為引人注目,這也暗示著這項技術(shù)并非單純的學(xué)術(shù)探索,而是承載著產(chǎn)業(yè)落地的明確訴求。

過去幾年,AI行業(yè)的競爭焦點始終圍繞“更大參數(shù)、更多算力”展開,從百億到萬億參數(shù)的模型迭代,倒逼GPU等AI芯片不斷堆砌計算單元。但繁榮背后,一個致命的矛盾逐漸凸顯:芯片算力的增長速度遠(yuǎn)超內(nèi)存帶寬的提升速度,導(dǎo)致大量計算資源浪費在無效的數(shù)據(jù)搬運上。行業(yè)將這一困境稱為“存儲墻”,它就像AI芯片的阿喀琉斯之踵,成為制約AI算力釋放的核心瓶頸。美光的研究數(shù)據(jù)顯示,近五年GPU算力增長37.5倍,而PCIe帶寬僅提升8倍,這種嚴(yán)重失衡讓即便是最先進(jìn)的AI芯片,實際利用率也常不足30%。

梁文峰團(tuán)隊提出的mHC架構(gòu),并未局限于算法層面的優(yōu)化,而是通過流形約束重構(gòu)了神經(jīng)網(wǎng)絡(luò)的連接邏輯,從根源上降低了對內(nèi)存帶寬的需求。這一跨越算法與硬件的創(chuàng)新嘗試,讓業(yè)界開始重新思考:當(dāng)軟件架構(gòu)能夠主動適配硬件瓶頸,是否會顛覆當(dāng)前“硬件先行、軟件適配”的芯片設(shè)計邏輯?2026年的這場技術(shù)突破,或許正站在AI軟硬件協(xié)同進(jìn)化的新起點上。

從失控到可控 

mHC架構(gòu)的核心突破邏輯

要理解mHC架構(gòu)為何能觸動芯片設(shè)計的敏感神經(jīng),首先需要回溯其解決的核心問題——超連接(HC)架構(gòu)的“失控困境”。在Transformer模型的發(fā)展歷程中,殘差連接是支撐深層網(wǎng)絡(luò)穩(wěn)定訓(xùn)練的關(guān)鍵基石,其“x + F(x)”的恒等映射結(jié)構(gòu),確保了信號在傳播過程中不會出現(xiàn)系統(tǒng)性的放大或衰減。但隨著模型規(guī)模擴大,單一殘差流的表達(dá)能力逐漸不足,超連接架構(gòu)應(yīng)運而生。它通過拓寬殘差流通道、構(gòu)建多路徑連接,顯著提升了模型的表達(dá)能力,卻也埋下了穩(wěn)定性的隱患。

傳統(tǒng)超連接架構(gòu)的致命缺陷,在于其無約束的連接矩陣破壞了殘差連接的恒等映射特性。在大規(guī)模模型訓(xùn)練中,這種無約束設(shè)計極易導(dǎo)致信號爆炸或梯度異常,論文數(shù)據(jù)顯示,某些場景下傳統(tǒng)超連接的信號放大倍數(shù)可達(dá)3000倍,直接導(dǎo)致訓(xùn)練崩潰。更嚴(yán)重的是,多路徑連接帶來的不僅是穩(wěn)定性問題,還有內(nèi)存開銷的激增——更多的殘差流意味著更多的中間激活值需要存儲和搬運,進(jìn)一步加劇了“存儲墻”問題,讓本就捉襟見肘的內(nèi)存帶寬雪上加霜。梁文峰在團(tuán)隊內(nèi)部技術(shù)分享中曾提到,超連接的這種“性能與穩(wěn)定不可兼得”的困境,是當(dāng)前大模型訓(xùn)練成本居高不下的重要原因。

mHC架構(gòu)的核心創(chuàng)新,在于為超連接加上了“幾何約束的韁繩”。其核心思路是將超連接的連接矩陣投影到雙隨機矩陣構(gòu)成的流形(Birkhoff多胞形)上,通過數(shù)學(xué)約束確保矩陣每行、每列元素之和均為1且非負(fù)。這一約束看似簡單,卻從根源上解決了信號失控問題:雙隨機矩陣的最大特征值為1,意味著它只能在不同殘差流之間重新分配權(quán)重,而不會系統(tǒng)性放大信號范數(shù)。實驗數(shù)據(jù)顯示,mHC將信號放大倍數(shù)嚴(yán)格控制在1.6倍以內(nèi),徹底擺脫了傳統(tǒng)超連接的穩(wěn)定性困擾。

在實現(xiàn)層面,mHC采用了工程上成熟的Sinkhorn-Knopp算法完成流形投影,既保證了約束的有效性,又控制了額外開銷。訓(xùn)練過程中,模型先學(xué)習(xí)普通實值矩陣,再通過有限步的Sinkhorn歸一化將其投影為近似雙隨機矩陣,這種可微的投影方式確保了訓(xùn)練的連續(xù)性。更關(guān)鍵的是,DeepSeek團(tuán)隊并未止步于算法創(chuàng)新,而是通過三大工程優(yōu)化手段將內(nèi)存開銷降到最低:內(nèi)核融合將RMSNorm、矩陣乘法等多個算子打包執(zhí)行,減少中間數(shù)據(jù)的讀寫次數(shù);選擇性重計算通過丟棄非關(guān)鍵中間激活值,在反向傳播時重新計算,使顯存占用減少70%以上;DualPipe通信計算重疊則讓梯度傳輸與模型計算并行進(jìn)行,消除了計算單元的空閑等待時間。

實驗驗證了這套方案的有效性。在3B、9B乃至27B參數(shù)規(guī)模的模型訓(xùn)練中,mHC不僅完全避免了傳統(tǒng)超連接的不收斂問題,還在BBH、DROP等八個下游任務(wù)中全面超越基線模型,其中BBH任務(wù)性能提升2.1%,DROP任務(wù)提升2.3%。更值得關(guān)注的是,當(dāng)擴展率為4時,mHC帶來的額外訓(xùn)練時間開銷僅為6.7%,這種“低代價、高性能”的平衡,使其具備了大規(guī)模產(chǎn)業(yè)應(yīng)用的基礎(chǔ)。梁文峰團(tuán)隊在論文中強調(diào),mHC的價值不在于取代Transformer,而在于為復(fù)雜殘差拓?fù)涞奶剿魈峁┝?ldquo;可控可訓(xùn)”的理論與工程框架,這一框架的通用性,為其與各類芯片架構(gòu)的適配埋下了伏筆。

軟硬件協(xié)同革命

mHC對芯片設(shè)計的潛在重塑

長期以來,AI芯片設(shè)計陷入了“算力競賽”的路徑依賴。從NVIDIA的H100到Blackwell架構(gòu),再到各類國產(chǎn)AI芯片,核心創(chuàng)新方向始終圍繞提升計算單元密度、擴大顯存容量展開。但mHC架構(gòu)的出現(xiàn),讓業(yè)界開始反思:當(dāng)軟件能夠主動降低對內(nèi)存帶寬的需求,芯片設(shè)計是否需要跳出“堆硬件”的慣性思維?這種反思背后,是mHC架構(gòu)帶來的軟硬件協(xié)同邏輯的根本性轉(zhuǎn)變。

首先,mHC有望打破“算力-帶寬”的錯配困局,推動芯片設(shè)計從“算力優(yōu)先”轉(zhuǎn)向“效率優(yōu)先”。當(dāng)前AI芯片的核心矛盾是算力過剩而帶寬不足,大量時鐘周期浪費在數(shù)據(jù)搬運上。mHC通過內(nèi)核融合、選擇性重計算等優(yōu)化,將原本分散的多次內(nèi)存訪問整合為單次訪問,大幅降低了對帶寬的需求。這種軟件層面的“帶寬節(jié)約”,讓芯片設(shè)計可以不必一味追求高帶寬的HBM顯存。例如,對于中低端AI芯片而言,原本因帶寬不足無法支撐的大規(guī)模模型訓(xùn)練,在mHC架構(gòu)的適配下,有望通過優(yōu)化內(nèi)存訪問效率實現(xiàn)可行性。這意味著未來芯片設(shè)計可能會出現(xiàn)差異化路線:高端芯片繼續(xù)追求算力與帶寬的極致匹配,而中低端芯片則可通過適配mHC等高效架構(gòu),以更低的硬件成本實現(xiàn)相近的訓(xùn)練效果。

其次,mHC的流形約束邏輯,可能推動芯片專用計算單元的創(chuàng)新。當(dāng)前AI芯片的計算單元主要針對矩陣乘法等通用算子優(yōu)化,但mHC中的Sinkhorn-Knopp投影算子具有獨特的計算特性。雖然目前DeepSeek通過軟件優(yōu)化將其與現(xiàn)有算子融合,但隨著mHC架構(gòu)的普及,芯片設(shè)計可能會加入專門的投影算子加速單元。這種專用單元的出現(xiàn),將打破當(dāng)前AI芯片“通用計算單元”的壟斷格局,推動芯片向“通用+專用”的異構(gòu)架構(gòu)演進(jìn)。更重要的是,mHC的約束邏輯可以與芯片的存儲層次設(shè)計深度協(xié)同——例如,芯片可以根據(jù)mHC的激活值重計算策略,動態(tài)調(diào)整緩存的存儲策略,優(yōu)先緩存關(guān)鍵層輸入,釋放緩存空間用于其他計算任務(wù),進(jìn)一步提升內(nèi)存利用率。

再者,mHC架構(gòu)可能降低大模型訓(xùn)練的硬件門檻,改變芯片市場的競爭格局。當(dāng)前大模型訓(xùn)練被少數(shù)擁有超大規(guī)模GPU集群的科技巨頭壟斷,核心原因在于中小廠商難以承擔(dān)高端AI芯片的成本。mHC架構(gòu)在保證訓(xùn)練穩(wěn)定性的同時,大幅降低了顯存占用和帶寬需求,使得中小廠商可以利用更少的中端芯片完成大規(guī)模模型訓(xùn)練。這種門檻的降低,將帶動中端AI芯片市場的需求增長,倒逼芯片廠商在中端市場投入更多創(chuàng)新資源。例如,針對mHC架構(gòu)優(yōu)化的中端芯片,可能會重點提升緩存效率和算子融合能力,而非盲目堆砌計算單元。這種市場需求的變化,將引導(dǎo)芯片設(shè)計資源從“高端內(nèi)卷”向“中端普惠”擴散,推動AI芯片市場的多元化發(fā)展。

不過,mHC要真正重塑芯片設(shè)計方向,仍需跨越一系列挑戰(zhàn)。一方面,架構(gòu)適配的生態(tài)建設(shè)需要時間。當(dāng)前主流AI芯片的軟件棧均針對傳統(tǒng)Transformer架構(gòu)優(yōu)化,要讓芯片廠商主動適配mHC,需要形成足夠的產(chǎn)業(yè)共識。DeepSeek的開源策略或許能加速這一進(jìn)程——此前其開源的DeepSeek-V3模型已積累了大量開發(fā)者,mHC架構(gòu)若持續(xù)開源,有望吸引更多芯片廠商參與適配。另一方面,mHC的優(yōu)化效果仍需在更大規(guī)模模型中驗證。雖然目前在27B參數(shù)模型中表現(xiàn)優(yōu)異,但在千億、萬億參數(shù)模型中,其對內(nèi)存帶寬的節(jié)約效果是否依然顯著,仍需更多實驗數(shù)據(jù)支撐。梁文峰在接受媒體采訪時表示,團(tuán)隊正在推進(jìn)更大規(guī)模的mHC模型訓(xùn)練,相關(guān)數(shù)據(jù)將在2026年逐步公布,這一數(shù)據(jù)將直接影響芯片廠商的適配信心。

值得注意的是,mHC帶來的軟硬件協(xié)同思路,已開始引發(fā)行業(yè)共鳴。美光等存儲廠商在近期的技術(shù)分享中提到,未來存儲產(chǎn)品的設(shè)計需要更緊密地結(jié)合AI架構(gòu)的內(nèi)存訪問特性,而mHC的出現(xiàn)為這種協(xié)同提供了絕佳范例。NVIDIA相關(guān)技術(shù)負(fù)責(zé)人也表示,正在關(guān)注mHC等高效架構(gòu)對芯片設(shè)計的影響,不排除在未來的芯片架構(gòu)中加入針對性優(yōu)化。這些信號表明,mHC架構(gòu)正在推動AI行業(yè)從“軟件適配硬件”的被動模式,向“軟硬件協(xié)同設(shè)計”的主動模式轉(zhuǎn)變。

結(jié)   語

2026年初梁文峰團(tuán)隊mHC架構(gòu)的發(fā)布,不僅是算法層面的突破,更像是一聲打破AI行業(yè)“算力競賽”慣性的號角。在“存儲墻”成為制約AI發(fā)展核心瓶頸的當(dāng)下,mHC通過流形約束與工程優(yōu)化的結(jié)合,為解決算力與帶寬的錯配問題提供了全新思路。它所倡導(dǎo)的“軟件主動適配硬件瓶頸”的邏輯,正在挑戰(zhàn)傳統(tǒng)的芯片設(shè)計范式,推動行業(yè)向“效率優(yōu)先”的軟硬件協(xié)同方向演進(jìn)。

客觀來看,mHC架構(gòu)要徹底改變芯片設(shè)計方向,仍需跨越生態(tài)建設(shè)、大規(guī)模驗證等多重障礙,短期內(nèi)難以完全顛覆現(xiàn)有格局。但不可否認(rèn)的是,它已經(jīng)為芯片設(shè)計提供了新的思考維度:芯片的核心價值不在于堆砌多少算力,而在于如何讓每一份算力都得到高效利用。這種思路的轉(zhuǎn)變,或許會成為未來幾年AI芯片創(chuàng)新的核心主線。

對于行業(yè)而言,mHC的出現(xiàn)更像是一個重要的轉(zhuǎn)折點。它提醒著從業(yè)者,AI的發(fā)展不能只追求“規(guī)模”的增長,更要關(guān)注“效率”的提升。當(dāng)越來越多的團(tuán)隊開始探索算法與硬件的深度協(xié)同,或許就能突破當(dāng)前的技術(shù)瓶頸,推動AI行業(yè)進(jìn)入更可持續(xù)的發(fā)展階段。2026年的這場技術(shù)探索,無論最終是否能完全重塑芯片設(shè)計方向,都已為AI行業(yè)的創(chuàng)新注入了新的活力——而這,或許正是梁文峰團(tuán)隊發(fā)布mHC架構(gòu)的深層意義所在。

       原文標(biāo)題 : 展望2026:DeepSeek梁文峰的mHC架構(gòu)會改變芯片設(shè)計方向嗎?

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號