訂閱
糾錯(cuò)
加入自媒體

展望2026:DeepSeek梁文峰的mHC架構(gòu)會(huì)改變芯片設(shè)計(jì)方向嗎?

編者按:

DeepSeek發(fā)布的mHC(流形約束超連接)新架構(gòu),不僅會(huì)改變芯片設(shè)計(jì),而且標(biāo)志著AI硬件設(shè)計(jì)將從“適配通用計(jì)算”轉(zhuǎn)向“為特定高效架構(gòu)深度優(yōu)化”的新范式。

簡(jiǎn)單來(lái)說(shuō),mHC是一種讓AI模型在參數(shù)規(guī)模變大時(shí),訓(xùn)練更穩(wěn)定、效率更高的新方法。它的核心影響在于,它通過(guò)算法創(chuàng)新顯著降低了對(duì)算力和內(nèi)存的粗暴依賴,這將倒逼芯片設(shè)計(jì)追求更高的“有效計(jì)算效率”,而不僅僅是峰值算力。

2026年元旦,AI圈被一篇來(lái)自DeepSeek的論文打破了跨年的寧?kù)o。這篇題為《mHC: Manifold-Constrained Hyper-Connections》的研究成果,以流形約束超連接架構(gòu)(mHC)為核心,直指當(dāng)前大模型訓(xùn)練與芯片設(shè)計(jì)的核心痛點(diǎn)。論文作者名單中,DeepSeek創(chuàng)始人兼CEO梁文峰的署名尤為引人注目,這也暗示著這項(xiàng)技術(shù)并非單純的學(xué)術(shù)探索,而是承載著產(chǎn)業(yè)落地的明確訴求。

過(guò)去幾年,AI行業(yè)的競(jìng)爭(zhēng)焦點(diǎn)始終圍繞“更大參數(shù)、更多算力”展開,從百億到萬(wàn)億參數(shù)的模型迭代,倒逼GPU等AI芯片不斷堆砌計(jì)算單元。但繁榮背后,一個(gè)致命的矛盾逐漸凸顯:芯片算力的增長(zhǎng)速度遠(yuǎn)超內(nèi)存帶寬的提升速度,導(dǎo)致大量計(jì)算資源浪費(fèi)在無(wú)效的數(shù)據(jù)搬運(yùn)上。行業(yè)將這一困境稱為“存儲(chǔ)墻”,它就像AI芯片的阿喀琉斯之踵,成為制約AI算力釋放的核心瓶頸。美光的研究數(shù)據(jù)顯示,近五年GPU算力增長(zhǎng)37.5倍,而PCIe帶寬僅提升8倍,這種嚴(yán)重失衡讓即便是最先進(jìn)的AI芯片,實(shí)際利用率也常不足30%。

梁文峰團(tuán)隊(duì)提出的mHC架構(gòu),并未局限于算法層面的優(yōu)化,而是通過(guò)流形約束重構(gòu)了神經(jīng)網(wǎng)絡(luò)的連接邏輯,從根源上降低了對(duì)內(nèi)存帶寬的需求。這一跨越算法與硬件的創(chuàng)新嘗試,讓業(yè)界開始重新思考:當(dāng)軟件架構(gòu)能夠主動(dòng)適配硬件瓶頸,是否會(huì)顛覆當(dāng)前“硬件先行、軟件適配”的芯片設(shè)計(jì)邏輯?2026年的這場(chǎng)技術(shù)突破,或許正站在AI軟硬件協(xié)同進(jìn)化的新起點(diǎn)上。

從失控到可控 

mHC架構(gòu)的核心突破邏輯

要理解mHC架構(gòu)為何能觸動(dòng)芯片設(shè)計(jì)的敏感神經(jīng),首先需要回溯其解決的核心問(wèn)題——超連接(HC)架構(gòu)的“失控困境”。在Transformer模型的發(fā)展歷程中,殘差連接是支撐深層網(wǎng)絡(luò)穩(wěn)定訓(xùn)練的關(guān)鍵基石,其“x + F(x)”的恒等映射結(jié)構(gòu),確保了信號(hào)在傳播過(guò)程中不會(huì)出現(xiàn)系統(tǒng)性的放大或衰減。但隨著模型規(guī)模擴(kuò)大,單一殘差流的表達(dá)能力逐漸不足,超連接架構(gòu)應(yīng)運(yùn)而生。它通過(guò)拓寬殘差流通道、構(gòu)建多路徑連接,顯著提升了模型的表達(dá)能力,卻也埋下了穩(wěn)定性的隱患。

傳統(tǒng)超連接架構(gòu)的致命缺陷,在于其無(wú)約束的連接矩陣破壞了殘差連接的恒等映射特性。在大規(guī)模模型訓(xùn)練中,這種無(wú)約束設(shè)計(jì)極易導(dǎo)致信號(hào)爆炸或梯度異常,論文數(shù)據(jù)顯示,某些場(chǎng)景下傳統(tǒng)超連接的信號(hào)放大倍數(shù)可達(dá)3000倍,直接導(dǎo)致訓(xùn)練崩潰。更嚴(yán)重的是,多路徑連接帶來(lái)的不僅是穩(wěn)定性問(wèn)題,還有內(nèi)存開銷的激增——更多的殘差流意味著更多的中間激活值需要存儲(chǔ)和搬運(yùn),進(jìn)一步加劇了“存儲(chǔ)墻”問(wèn)題,讓本就捉襟見肘的內(nèi)存帶寬雪上加霜。梁文峰在團(tuán)隊(duì)內(nèi)部技術(shù)分享中曾提到,超連接的這種“性能與穩(wěn)定不可兼得”的困境,是當(dāng)前大模型訓(xùn)練成本居高不下的重要原因。

mHC架構(gòu)的核心創(chuàng)新,在于為超連接加上了“幾何約束的韁繩”。其核心思路是將超連接的連接矩陣投影到雙隨機(jī)矩陣構(gòu)成的流形(Birkhoff多胞形)上,通過(guò)數(shù)學(xué)約束確保矩陣每行、每列元素之和均為1且非負(fù)。這一約束看似簡(jiǎn)單,卻從根源上解決了信號(hào)失控問(wèn)題:雙隨機(jī)矩陣的最大特征值為1,意味著它只能在不同殘差流之間重新分配權(quán)重,而不會(huì)系統(tǒng)性放大信號(hào)范數(shù)。實(shí)驗(yàn)數(shù)據(jù)顯示,mHC將信號(hào)放大倍數(shù)嚴(yán)格控制在1.6倍以內(nèi),徹底擺脫了傳統(tǒng)超連接的穩(wěn)定性困擾。

在實(shí)現(xiàn)層面,mHC采用了工程上成熟的Sinkhorn-Knopp算法完成流形投影,既保證了約束的有效性,又控制了額外開銷。訓(xùn)練過(guò)程中,模型先學(xué)習(xí)普通實(shí)值矩陣,再通過(guò)有限步的Sinkhorn歸一化將其投影為近似雙隨機(jī)矩陣,這種可微的投影方式確保了訓(xùn)練的連續(xù)性。更關(guān)鍵的是,DeepSeek團(tuán)隊(duì)并未止步于算法創(chuàng)新,而是通過(guò)三大工程優(yōu)化手段將內(nèi)存開銷降到最低:內(nèi)核融合將RMSNorm、矩陣乘法等多個(gè)算子打包執(zhí)行,減少中間數(shù)據(jù)的讀寫次數(shù);選擇性重計(jì)算通過(guò)丟棄非關(guān)鍵中間激活值,在反向傳播時(shí)重新計(jì)算,使顯存占用減少70%以上;DualPipe通信計(jì)算重疊則讓梯度傳輸與模型計(jì)算并行進(jìn)行,消除了計(jì)算單元的空閑等待時(shí)間。

實(shí)驗(yàn)驗(yàn)證了這套方案的有效性。在3B、9B乃至27B參數(shù)規(guī)模的模型訓(xùn)練中,mHC不僅完全避免了傳統(tǒng)超連接的不收斂問(wèn)題,還在BBH、DROP等八個(gè)下游任務(wù)中全面超越基線模型,其中BBH任務(wù)性能提升2.1%,DROP任務(wù)提升2.3%。更值得關(guān)注的是,當(dāng)擴(kuò)展率為4時(shí),mHC帶來(lái)的額外訓(xùn)練時(shí)間開銷僅為6.7%,這種“低代價(jià)、高性能”的平衡,使其具備了大規(guī)模產(chǎn)業(yè)應(yīng)用的基礎(chǔ)。梁文峰團(tuán)隊(duì)在論文中強(qiáng)調(diào),mHC的價(jià)值不在于取代Transformer,而在于為復(fù)雜殘差拓?fù)涞奶剿魈峁┝?ldquo;可控可訓(xùn)”的理論與工程框架,這一框架的通用性,為其與各類芯片架構(gòu)的適配埋下了伏筆。

軟硬件協(xié)同革命

mHC對(duì)芯片設(shè)計(jì)的潛在重塑

長(zhǎng)期以來(lái),AI芯片設(shè)計(jì)陷入了“算力競(jìng)賽”的路徑依賴。從NVIDIA的H100到Blackwell架構(gòu),再到各類國(guó)產(chǎn)AI芯片,核心創(chuàng)新方向始終圍繞提升計(jì)算單元密度、擴(kuò)大顯存容量展開。但mHC架構(gòu)的出現(xiàn),讓業(yè)界開始反思:當(dāng)軟件能夠主動(dòng)降低對(duì)內(nèi)存帶寬的需求,芯片設(shè)計(jì)是否需要跳出“堆硬件”的慣性思維?這種反思背后,是mHC架構(gòu)帶來(lái)的軟硬件協(xié)同邏輯的根本性轉(zhuǎn)變。

首先,mHC有望打破“算力-帶寬”的錯(cuò)配困局,推動(dòng)芯片設(shè)計(jì)從“算力優(yōu)先”轉(zhuǎn)向“效率優(yōu)先”。當(dāng)前AI芯片的核心矛盾是算力過(guò)剩而帶寬不足,大量時(shí)鐘周期浪費(fèi)在數(shù)據(jù)搬運(yùn)上。mHC通過(guò)內(nèi)核融合、選擇性重計(jì)算等優(yōu)化,將原本分散的多次內(nèi)存訪問(wèn)整合為單次訪問(wèn),大幅降低了對(duì)帶寬的需求。這種軟件層面的“帶寬節(jié)約”,讓芯片設(shè)計(jì)可以不必一味追求高帶寬的HBM顯存。例如,對(duì)于中低端AI芯片而言,原本因帶寬不足無(wú)法支撐的大規(guī)模模型訓(xùn)練,在mHC架構(gòu)的適配下,有望通過(guò)優(yōu)化內(nèi)存訪問(wèn)效率實(shí)現(xiàn)可行性。這意味著未來(lái)芯片設(shè)計(jì)可能會(huì)出現(xiàn)差異化路線:高端芯片繼續(xù)追求算力與帶寬的極致匹配,而中低端芯片則可通過(guò)適配mHC等高效架構(gòu),以更低的硬件成本實(shí)現(xiàn)相近的訓(xùn)練效果。

其次,mHC的流形約束邏輯,可能推動(dòng)芯片專用計(jì)算單元的創(chuàng)新。當(dāng)前AI芯片的計(jì)算單元主要針對(duì)矩陣乘法等通用算子優(yōu)化,但mHC中的Sinkhorn-Knopp投影算子具有獨(dú)特的計(jì)算特性。雖然目前DeepSeek通過(guò)軟件優(yōu)化將其與現(xiàn)有算子融合,但隨著mHC架構(gòu)的普及,芯片設(shè)計(jì)可能會(huì)加入專門的投影算子加速單元。這種專用單元的出現(xiàn),將打破當(dāng)前AI芯片“通用計(jì)算單元”的壟斷格局,推動(dòng)芯片向“通用+專用”的異構(gòu)架構(gòu)演進(jìn)。更重要的是,mHC的約束邏輯可以與芯片的存儲(chǔ)層次設(shè)計(jì)深度協(xié)同——例如,芯片可以根據(jù)mHC的激活值重計(jì)算策略,動(dòng)態(tài)調(diào)整緩存的存儲(chǔ)策略,優(yōu)先緩存關(guān)鍵層輸入,釋放緩存空間用于其他計(jì)算任務(wù),進(jìn)一步提升內(nèi)存利用率。

再者,mHC架構(gòu)可能降低大模型訓(xùn)練的硬件門檻,改變芯片市場(chǎng)的競(jìng)爭(zhēng)格局。當(dāng)前大模型訓(xùn)練被少數(shù)擁有超大規(guī)模GPU集群的科技巨頭壟斷,核心原因在于中小廠商難以承擔(dān)高端AI芯片的成本。mHC架構(gòu)在保證訓(xùn)練穩(wěn)定性的同時(shí),大幅降低了顯存占用和帶寬需求,使得中小廠商可以利用更少的中端芯片完成大規(guī)模模型訓(xùn)練。這種門檻的降低,將帶動(dòng)中端AI芯片市場(chǎng)的需求增長(zhǎng),倒逼芯片廠商在中端市場(chǎng)投入更多創(chuàng)新資源。例如,針對(duì)mHC架構(gòu)優(yōu)化的中端芯片,可能會(huì)重點(diǎn)提升緩存效率和算子融合能力,而非盲目堆砌計(jì)算單元。這種市場(chǎng)需求的變化,將引導(dǎo)芯片設(shè)計(jì)資源從“高端內(nèi)卷”向“中端普惠”擴(kuò)散,推動(dòng)AI芯片市場(chǎng)的多元化發(fā)展。

不過(guò),mHC要真正重塑芯片設(shè)計(jì)方向,仍需跨越一系列挑戰(zhàn)。一方面,架構(gòu)適配的生態(tài)建設(shè)需要時(shí)間。當(dāng)前主流AI芯片的軟件棧均針對(duì)傳統(tǒng)Transformer架構(gòu)優(yōu)化,要讓芯片廠商主動(dòng)適配mHC,需要形成足夠的產(chǎn)業(yè)共識(shí)。DeepSeek的開源策略或許能加速這一進(jìn)程——此前其開源的DeepSeek-V3模型已積累了大量開發(fā)者,mHC架構(gòu)若持續(xù)開源,有望吸引更多芯片廠商參與適配。另一方面,mHC的優(yōu)化效果仍需在更大規(guī)模模型中驗(yàn)證。雖然目前在27B參數(shù)模型中表現(xiàn)優(yōu)異,但在千億、萬(wàn)億參數(shù)模型中,其對(duì)內(nèi)存帶寬的節(jié)約效果是否依然顯著,仍需更多實(shí)驗(yàn)數(shù)據(jù)支撐。梁文峰在接受媒體采訪時(shí)表示,團(tuán)隊(duì)正在推進(jìn)更大規(guī)模的mHC模型訓(xùn)練,相關(guān)數(shù)據(jù)將在2026年逐步公布,這一數(shù)據(jù)將直接影響芯片廠商的適配信心。

值得注意的是,mHC帶來(lái)的軟硬件協(xié)同思路,已開始引發(fā)行業(yè)共鳴。美光等存儲(chǔ)廠商在近期的技術(shù)分享中提到,未來(lái)存儲(chǔ)產(chǎn)品的設(shè)計(jì)需要更緊密地結(jié)合AI架構(gòu)的內(nèi)存訪問(wèn)特性,而mHC的出現(xiàn)為這種協(xié)同提供了絕佳范例。NVIDIA相關(guān)技術(shù)負(fù)責(zé)人也表示,正在關(guān)注mHC等高效架構(gòu)對(duì)芯片設(shè)計(jì)的影響,不排除在未來(lái)的芯片架構(gòu)中加入針對(duì)性優(yōu)化。這些信號(hào)表明,mHC架構(gòu)正在推動(dòng)AI行業(yè)從“軟件適配硬件”的被動(dòng)模式,向“軟硬件協(xié)同設(shè)計(jì)”的主動(dòng)模式轉(zhuǎn)變。

結(jié)   語(yǔ)

2026年初梁文峰團(tuán)隊(duì)mHC架構(gòu)的發(fā)布,不僅是算法層面的突破,更像是一聲打破AI行業(yè)“算力競(jìng)賽”慣性的號(hào)角。在“存儲(chǔ)墻”成為制約AI發(fā)展核心瓶頸的當(dāng)下,mHC通過(guò)流形約束與工程優(yōu)化的結(jié)合,為解決算力與帶寬的錯(cuò)配問(wèn)題提供了全新思路。它所倡導(dǎo)的“軟件主動(dòng)適配硬件瓶頸”的邏輯,正在挑戰(zhàn)傳統(tǒng)的芯片設(shè)計(jì)范式,推動(dòng)行業(yè)向“效率優(yōu)先”的軟硬件協(xié)同方向演進(jìn)。

客觀來(lái)看,mHC架構(gòu)要徹底改變芯片設(shè)計(jì)方向,仍需跨越生態(tài)建設(shè)、大規(guī)模驗(yàn)證等多重障礙,短期內(nèi)難以完全顛覆現(xiàn)有格局。但不可否認(rèn)的是,它已經(jīng)為芯片設(shè)計(jì)提供了新的思考維度:芯片的核心價(jià)值不在于堆砌多少算力,而在于如何讓每一份算力都得到高效利用。這種思路的轉(zhuǎn)變,或許會(huì)成為未來(lái)幾年AI芯片創(chuàng)新的核心主線。

對(duì)于行業(yè)而言,mHC的出現(xiàn)更像是一個(gè)重要的轉(zhuǎn)折點(diǎn)。它提醒著從業(yè)者,AI的發(fā)展不能只追求“規(guī)模”的增長(zhǎng),更要關(guān)注“效率”的提升。當(dāng)越來(lái)越多的團(tuán)隊(duì)開始探索算法與硬件的深度協(xié)同,或許就能突破當(dāng)前的技術(shù)瓶頸,推動(dòng)AI行業(yè)進(jìn)入更可持續(xù)的發(fā)展階段。2026年的這場(chǎng)技術(shù)探索,無(wú)論最終是否能完全重塑芯片設(shè)計(jì)方向,都已為AI行業(yè)的創(chuàng)新注入了新的活力——而這,或許正是梁文峰團(tuán)隊(duì)發(fā)布mHC架構(gòu)的深層意義所在。

       原文標(biāo)題 : 展望2026:DeepSeek梁文峰的mHC架構(gòu)會(huì)改變芯片設(shè)計(jì)方向嗎?

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)