123,123,123

展望2026:DeepSeek梁文峰的mHC架構(gòu)會(huì)改變芯片設(shè)計(jì)方向嗎？

2026-01-04 15:37

編者按：

DeepSeek發(fā)布的mHC（流形約束超連接）新架構(gòu)，不僅會(huì)改變芯片設(shè)計(jì)，而且標(biāo)志著AI硬件設(shè)計(jì)將從“適配通用計(jì)算”轉(zhuǎn)向“為特定高效架構(gòu)深度優(yōu)化”的新范式。

簡(jiǎn)單來(lái)說(shuō)，mHC是一種讓AI模型在參數(shù)規(guī)模變大時(shí)，訓(xùn)練更穩(wěn)定、效率更高的新方法。它的核心影響在于，它通過(guò)算法創(chuàng)新顯著降低了對(duì)算力和內(nèi)存的粗暴依賴，這將倒逼芯片設(shè)計(jì)追求更高的“有效計(jì)算效率”，而不僅僅是峰值算力。

2026年元旦，AI圈被一篇來(lái)自DeepSeek的論文打破了跨年的寧?kù)o。這篇題為《mHC: Manifold-Constrained Hyper-Connections》的研究成果，以流形約束超連接架構(gòu)（mHC）為核心，直指當(dāng)前大模型訓(xùn)練與芯片設(shè)計(jì)的核心痛點(diǎn)。論文作者名單中，DeepSeek創(chuàng)始人兼CEO梁文峰的署名尤為引人注目，這也暗示著這項(xiàng)技術(shù)并非單純的學(xué)術(shù)探索，而是承載著產(chǎn)業(yè)落地的明確訴求。

過(guò)去幾年，AI行業(yè)的競(jìng)爭(zhēng)焦點(diǎn)始終圍繞“更大參數(shù)、更多算力”展開，從百億到萬(wàn)億參數(shù)的模型迭代，倒逼GPU等AI芯片不斷堆砌計(jì)算單元。但繁榮背后，一個(gè)致命的矛盾逐漸凸顯：芯片算力的增長(zhǎng)速度遠(yuǎn)超內(nèi)存帶寬的提升速度，導(dǎo)致大量計(jì)算資源浪費(fèi)在無(wú)效的數(shù)據(jù)搬運(yùn)上。行業(yè)將這一困境稱為“存儲(chǔ)墻”，它就像AI芯片的阿喀琉斯之踵，成為制約AI算力釋放的核心瓶頸。美光的研究數(shù)據(jù)顯示，近五年GPU算力增長(zhǎng)37.5倍，而PCIe帶寬僅提升8倍，這種嚴(yán)重失衡讓即便是最先進(jìn)的AI芯片，實(shí)際利用率也常不足30%。

梁文峰團(tuán)隊(duì)提出的mHC架構(gòu)，并未局限于算法層面的優(yōu)化，而是通過(guò)流形約束重構(gòu)了神經(jīng)網(wǎng)絡(luò)的連接邏輯，從根源上降低了對(duì)內(nèi)存帶寬的需求。這一跨越算法與硬件的創(chuàng)新嘗試，讓業(yè)界開始重新思考：當(dāng)軟件架構(gòu)能夠主動(dòng)適配硬件瓶頸，是否會(huì)顛覆當(dāng)前“硬件先行、軟件適配”的芯片設(shè)計(jì)邏輯？2026年的這場(chǎng)技術(shù)突破，或許正站在AI軟硬件協(xié)同進(jìn)化的新起點(diǎn)上。

從失控到可控

mHC架構(gòu)的核心突破邏輯

要理解mHC架構(gòu)為何能觸動(dòng)芯片設(shè)計(jì)的敏感神經(jīng)，首先需要回溯其解決的核心問(wèn)題——超連接（HC）架構(gòu)的“失控困境”。在Transformer模型的發(fā)展歷程中，殘差連接是支撐深層網(wǎng)絡(luò)穩(wěn)定訓(xùn)練的關(guān)鍵基石，其“x + F(x)”的恒等映射結(jié)構(gòu)，確保了信號(hào)在傳播過(guò)程中不會(huì)出現(xiàn)系統(tǒng)性的放大或衰減。但隨著模型規(guī)模擴(kuò)大，單一殘差流的表達(dá)能力逐漸不足，超連接架構(gòu)應(yīng)運(yùn)而生。它通過(guò)拓寬殘差流通道、構(gòu)建多路徑連接，顯著提升了模型的表達(dá)能力，卻也埋下了穩(wěn)定性的隱患。

傳統(tǒng)超連接架構(gòu)的致命缺陷，在于其無(wú)約束的連接矩陣破壞了殘差連接的恒等映射特性。在大規(guī)模模型訓(xùn)練中，這種無(wú)約束設(shè)計(jì)極易導(dǎo)致信號(hào)爆炸或梯度異常，論文數(shù)據(jù)顯示，某些場(chǎng)景下傳統(tǒng)超連接的信號(hào)放大倍數(shù)可達(dá)3000倍，直接導(dǎo)致訓(xùn)練崩潰。更嚴(yán)重的是，多路徑連接帶來(lái)的不僅是穩(wěn)定性問(wèn)題，還有內(nèi)存開銷的激增——更多的殘差流意味著更多的中間激活值需要存儲(chǔ)和搬運(yùn)，進(jìn)一步加劇了“存儲(chǔ)墻”問(wèn)題，讓本就捉襟見肘的內(nèi)存帶寬雪上加霜。梁文峰在團(tuán)隊(duì)內(nèi)部技術(shù)分享中曾提到，超連接的這種“性能與穩(wěn)定不可兼得”的困境，是當(dāng)前大模型訓(xùn)練成本居高不下的重要原因。

mHC架構(gòu)的核心創(chuàng)新，在于為超連接加上了“幾何約束的韁繩”。其核心思路是將超連接的連接矩陣投影到雙隨機(jī)矩陣構(gòu)成的流形（Birkhoff多胞形）上，通過(guò)數(shù)學(xué)約束確保矩陣每行、每列元素之和均為1且非負(fù)。這一約束看似簡(jiǎn)單，卻從根源上解決了信號(hào)失控問(wèn)題：雙隨機(jī)矩陣的最大特征值為1，意味著它只能在不同殘差流之間重新分配權(quán)重，而不會(huì)系統(tǒng)性放大信號(hào)范數(shù)。實(shí)驗(yàn)數(shù)據(jù)顯示，mHC將信號(hào)放大倍數(shù)嚴(yán)格控制在1.6倍以內(nèi)，徹底擺脫了傳統(tǒng)超連接的穩(wěn)定性困擾。

在實(shí)現(xiàn)層面，mHC采用了工程上成熟的Sinkhorn-Knopp算法完成流形投影，既保證了約束的有效性，又控制了額外開銷。訓(xùn)練過(guò)程中，模型先學(xué)習(xí)普通實(shí)值矩陣，再通過(guò)有限步的Sinkhorn歸一化將其投影為近似雙隨機(jī)矩陣，這種可微的投影方式確保了訓(xùn)練的連續(xù)性。更關(guān)鍵的是，DeepSeek團(tuán)隊(duì)并未止步于算法創(chuàng)新，而是通過(guò)三大工程優(yōu)化手段將內(nèi)存開銷降到最低：內(nèi)核融合將RMSNorm、矩陣乘法等多個(gè)算子打包執(zhí)行，減少中間數(shù)據(jù)的讀寫次數(shù)；選擇性重計(jì)算通過(guò)丟棄非關(guān)鍵中間激活值，在反向傳播時(shí)重新計(jì)算，使顯存占用減少70%以上；DualPipe通信計(jì)算重疊則讓梯度傳輸與模型計(jì)算并行進(jìn)行，消除了計(jì)算單元的空閑等待時(shí)間。

實(shí)驗(yàn)驗(yàn)證了這套方案的有效性。在3B、9B乃至27B參數(shù)規(guī)模的模型訓(xùn)練中，mHC不僅完全避免了傳統(tǒng)超連接的不收斂問(wèn)題，還在BBH、DROP等八個(gè)下游任務(wù)中全面超越基線模型，其中BBH任務(wù)性能提升2.1%，DROP任務(wù)提升2.3%。更值得關(guān)注的是，當(dāng)擴(kuò)展率為4時(shí)，mHC帶來(lái)的額外訓(xùn)練時(shí)間開銷僅為6.7%，這種“低代價(jià)、高性能”的平衡，使其具備了大規(guī)模產(chǎn)業(yè)應(yīng)用的基礎(chǔ)。梁文峰團(tuán)隊(duì)在論文中強(qiáng)調(diào)，mHC的價(jià)值不在于取代Transformer，而在于為復(fù)雜殘差拓?fù)涞奶剿魈峁┝?ldquo;可控可訓(xùn)”的理論與工程框架，這一框架的通用性，為其與各類芯片架構(gòu)的適配埋下了伏筆。

軟硬件協(xié)同革命

mHC對(duì)芯片設(shè)計(jì)的潛在重塑

長(zhǎng)期以來(lái)，AI芯片設(shè)計(jì)陷入了“算力競(jìng)賽”的路徑依賴。從NVIDIA的H100到Blackwell架構(gòu)，再到各類國(guó)產(chǎn)AI芯片，核心創(chuàng)新方向始終圍繞提升計(jì)算單元密度、擴(kuò)大顯存容量展開。但mHC架構(gòu)的出現(xiàn)，讓業(yè)界開始反思：當(dāng)軟件能夠主動(dòng)降低對(duì)內(nèi)存帶寬的需求，芯片設(shè)計(jì)是否需要跳出“堆硬件”的慣性思維？這種反思背后，是mHC架構(gòu)帶來(lái)的軟硬件協(xié)同邏輯的根本性轉(zhuǎn)變。

首先，mHC有望打破“算力-帶寬”的錯(cuò)配困局，推動(dòng)芯片設(shè)計(jì)從“算力優(yōu)先”轉(zhuǎn)向“效率優(yōu)先”。當(dāng)前AI芯片的核心矛盾是算力過(guò)剩而帶寬不足，大量時(shí)鐘周期浪費(fèi)在數(shù)據(jù)搬運(yùn)上。mHC通過(guò)內(nèi)核融合、選擇性重計(jì)算等優(yōu)化，將原本分散的多次內(nèi)存訪問(wèn)整合為單次訪問(wèn)，大幅降低了對(duì)帶寬的需求。這種軟件層面的“帶寬節(jié)約”，讓芯片設(shè)計(jì)可以不必一味追求高帶寬的HBM顯存。例如，對(duì)于中低端AI芯片而言，原本因帶寬不足無(wú)法支撐的大規(guī)模模型訓(xùn)練，在mHC架構(gòu)的適配下，有望通過(guò)優(yōu)化內(nèi)存訪問(wèn)效率實(shí)現(xiàn)可行性。這意味著未來(lái)芯片設(shè)計(jì)可能會(huì)出現(xiàn)差異化路線：高端芯片繼續(xù)追求算力與帶寬的極致匹配，而中低端芯片則可通過(guò)適配mHC等高效架構(gòu)，以更低的硬件成本實(shí)現(xiàn)相近的訓(xùn)練效果。

其次，mHC的流形約束邏輯，可能推動(dòng)芯片專用計(jì)算單元的創(chuàng)新。當(dāng)前AI芯片的計(jì)算單元主要針對(duì)矩陣乘法等通用算子優(yōu)化，但mHC中的Sinkhorn-Knopp投影算子具有獨(dú)特的計(jì)算特性。雖然目前DeepSeek通過(guò)軟件優(yōu)化將其與現(xiàn)有算子融合，但隨著mHC架構(gòu)的普及，芯片設(shè)計(jì)可能會(huì)加入專門的投影算子加速單元。這種專用單元的出現(xiàn)，將打破當(dāng)前AI芯片“通用計(jì)算單元”的壟斷格局，推動(dòng)芯片向“通用+專用”的異構(gòu)架構(gòu)演進(jìn)。更重要的是，mHC的約束邏輯可以與芯片的存儲(chǔ)層次設(shè)計(jì)深度協(xié)同——例如，芯片可以根據(jù)mHC的激活值重計(jì)算策略，動(dòng)態(tài)調(diào)整緩存的存儲(chǔ)策略，優(yōu)先緩存關(guān)鍵層輸入，釋放緩存空間用于其他計(jì)算任務(wù)，進(jìn)一步提升內(nèi)存利用率。

再者，mHC架構(gòu)可能降低大模型訓(xùn)練的硬件門檻，改變芯片市場(chǎng)的競(jìng)爭(zhēng)格局。當(dāng)前大模型訓(xùn)練被少數(shù)擁有超大規(guī)模GPU集群的科技巨頭壟斷，核心原因在于中小廠商難以承擔(dān)高端AI芯片的成本。mHC架構(gòu)在保證訓(xùn)練穩(wěn)定性的同時(shí)，大幅降低了顯存占用和帶寬需求，使得中小廠商可以利用更少的中端芯片完成大規(guī)模模型訓(xùn)練。這種門檻的降低，將帶動(dòng)中端AI芯片市場(chǎng)的需求增長(zhǎng)，倒逼芯片廠商在中端市場(chǎng)投入更多創(chuàng)新資源。例如，針對(duì)mHC架構(gòu)優(yōu)化的中端芯片，可能會(huì)重點(diǎn)提升緩存效率和算子融合能力，而非盲目堆砌計(jì)算單元。這種市場(chǎng)需求的變化，將引導(dǎo)芯片設(shè)計(jì)資源從“高端內(nèi)卷”向“中端普惠”擴(kuò)散，推動(dòng)AI芯片市場(chǎng)的多元化發(fā)展。

不過(guò)，mHC要真正重塑芯片設(shè)計(jì)方向，仍需跨越一系列挑戰(zhàn)。一方面，架構(gòu)適配的生態(tài)建設(shè)需要時(shí)間。當(dāng)前主流AI芯片的軟件棧均針對(duì)傳統(tǒng)Transformer架構(gòu)優(yōu)化，要讓芯片廠商主動(dòng)適配mHC，需要形成足夠的產(chǎn)業(yè)共識(shí)。DeepSeek的開源策略或許能加速這一進(jìn)程——此前其開源的DeepSeek-V3模型已積累了大量開發(fā)者，mHC架構(gòu)若持續(xù)開源，有望吸引更多芯片廠商參與適配。另一方面，mHC的優(yōu)化效果仍需在更大規(guī)模模型中驗(yàn)證。雖然目前在27B參數(shù)模型中表現(xiàn)優(yōu)異，但在千億、萬(wàn)億參數(shù)模型中，其對(duì)內(nèi)存帶寬的節(jié)約效果是否依然顯著，仍需更多實(shí)驗(yàn)數(shù)據(jù)支撐。梁文峰在接受媒體采訪時(shí)表示，團(tuán)隊(duì)正在推進(jìn)更大規(guī)模的mHC模型訓(xùn)練，相關(guān)數(shù)據(jù)將在2026年逐步公布，這一數(shù)據(jù)將直接影響芯片廠商的適配信心。

值得注意的是，mHC帶來(lái)的軟硬件協(xié)同思路，已開始引發(fā)行業(yè)共鳴。美光等存儲(chǔ)廠商在近期的技術(shù)分享中提到，未來(lái)存儲(chǔ)產(chǎn)品的設(shè)計(jì)需要更緊密地結(jié)合AI架構(gòu)的內(nèi)存訪問(wèn)特性，而mHC的出現(xiàn)為這種協(xié)同提供了絕佳范例。NVIDIA相關(guān)技術(shù)負(fù)責(zé)人也表示，正在關(guān)注mHC等高效架構(gòu)對(duì)芯片設(shè)計(jì)的影響，不排除在未來(lái)的芯片架構(gòu)中加入針對(duì)性優(yōu)化。這些信號(hào)表明，mHC架構(gòu)正在推動(dòng)AI行業(yè)從“軟件適配硬件”的被動(dòng)模式，向“軟硬件協(xié)同設(shè)計(jì)”的主動(dòng)模式轉(zhuǎn)變。

結(jié) 語(yǔ)

2026年初梁文峰團(tuán)隊(duì)mHC架構(gòu)的發(fā)布，不僅是算法層面的突破，更像是一聲打破AI行業(yè)“算力競(jìng)賽”慣性的號(hào)角。在“存儲(chǔ)墻”成為制約AI發(fā)展核心瓶頸的當(dāng)下，mHC通過(guò)流形約束與工程優(yōu)化的結(jié)合，為解決算力與帶寬的錯(cuò)配問(wèn)題提供了全新思路。它所倡導(dǎo)的“軟件主動(dòng)適配硬件瓶頸”的邏輯，正在挑戰(zhàn)傳統(tǒng)的芯片設(shè)計(jì)范式，推動(dòng)行業(yè)向“效率優(yōu)先”的軟硬件協(xié)同方向演進(jìn)。

客觀來(lái)看，mHC架構(gòu)要徹底改變芯片設(shè)計(jì)方向，仍需跨越生態(tài)建設(shè)、大規(guī)模驗(yàn)證等多重障礙，短期內(nèi)難以完全顛覆現(xiàn)有格局。但不可否認(rèn)的是，它已經(jīng)為芯片設(shè)計(jì)提供了新的思考維度：芯片的核心價(jià)值不在于堆砌多少算力，而在于如何讓每一份算力都得到高效利用。這種思路的轉(zhuǎn)變，或許會(huì)成為未來(lái)幾年AI芯片創(chuàng)新的核心主線。

對(duì)于行業(yè)而言，mHC的出現(xiàn)更像是一個(gè)重要的轉(zhuǎn)折點(diǎn)。它提醒著從業(yè)者，AI的發(fā)展不能只追求“規(guī)模”的增長(zhǎng)，更要關(guān)注“效率”的提升。當(dāng)越來(lái)越多的團(tuán)隊(duì)開始探索算法與硬件的深度協(xié)同，或許就能突破當(dāng)前的技術(shù)瓶頸，推動(dòng)AI行業(yè)進(jìn)入更可持續(xù)的發(fā)展階段。2026年的這場(chǎng)技術(shù)探索，無(wú)論最終是否能完全重塑芯片設(shè)計(jì)方向，都已為AI行業(yè)的創(chuàng)新注入了新的活力——而這，或許正是梁文峰團(tuán)隊(duì)發(fā)布mHC架構(gòu)的深層意義所在。

原文標(biāo)題 : 展望2026:DeepSeek梁文峰的mHC架構(gòu)會(huì)改變芯片設(shè)計(jì)方向嗎？