123,123

深度丨梁文鋒署名論文發(fā)布，DeepSeek用mHC新架構(gòu)“秀肌肉”

2026-01-07 16:39

Ai芯天下

關(guān)注

前言：

2026年新年第一天，arXiv上一篇題為《mHC:Manifold-ConstrainedHyper-Connections（流形約束超連接）》的論文。

與以往技術(shù)發(fā)布不同，這篇論文不僅提出一種新的神經(jīng)網(wǎng)絡(luò)架構(gòu)，而且特別有意思的是其創(chuàng)始人兼CEO梁文鋒親自出現(xiàn)在作者名單之中。

十年基石：殘差連接如何成為AI的[定海神針]

要理解mHC的革命性意義，必須先回溯深度學(xué)習(xí)的一段關(guān)鍵歷史。

2015年之前，神經(jīng)網(wǎng)絡(luò)領(lǐng)域存在一個致命悖論。理論上模型層數(shù)越深，擬合復(fù)雜函數(shù)的能力越強，但實際訓(xùn)練中，層數(shù)超過幾十層就會出現(xiàn)梯度消失或爆炸，導(dǎo)致模型完全無法收斂。

當(dāng)時在微軟亞洲研究院的何愷明、張祥雨團隊，用殘差連接（Residual Connection）打破了僵局，其核心公式簡單到令人驚嘆：y=x+F(x)。

就是這短短一個公式，讓訓(xùn)練上千層的深度網(wǎng)絡(luò)成為可能，也為后來的Transformer架構(gòu)奠定了基礎(chǔ)，那篇殘差論文至今仍是AI史上引用量最高的成果之一。

殘差連接的智慧，在于它為信息傳遞開辟了一條[應(yīng)急車道]。

如果把深度神經(jīng)網(wǎng)絡(luò)比作一座層層加工的工廠，傳統(tǒng)架構(gòu)中，輸入信息x必須經(jīng)過每一層的復(fù)雜變換f(x)才能到達輸出端。

就像所有物料都要經(jīng)過每條生產(chǎn)線的加工，一旦某道工序出現(xiàn)偏差，后續(xù)就會[差之毫厘，失之千里]。

而殘差連接的x項，相當(dāng)于在工廠里修了一條直達傳送帶，讓部分信息不經(jīng)過任何加工直接傳遞到下游。

這種設(shè)計的本質(zhì)是嵌入了[恒等映射]（Identity Mapping），哪怕中間的變換函數(shù)F(x)學(xué)得一塌糊涂，x這條直通路徑也能把信號和梯度完整地送到深層，確保網(wǎng)絡(luò)不會[越算越跑偏]。

就像雕塑大師把創(chuàng)作從[直接塑形]變成[去除多余石料]，殘差網(wǎng)絡(luò)讓每一層只需要學(xué)習(xí)增量變化，剩下的交給恒等映射兜底。

這一設(shè)計成為了深度學(xué)習(xí)的[定海神針]，從2017年Transformer問世，到GPT、Llama、DeepSeek等主流大模型，幾乎所有深度神經(jīng)網(wǎng)絡(luò)都把殘差連接當(dāng)作標(biāo)配。

十年間，模型參數(shù)從百萬級增長到萬億級，層數(shù)從幾十層堆疊到上千層，但殘差連接的核心邏輯始終未變。

它證明了：讓網(wǎng)絡(luò)[可以很深]的關(guān)鍵，不是每層轉(zhuǎn)換多聰明，而是永遠留一條[不作妖]的直達通路。

單車道不夠用了：HC的革新與失控

隨著大模型規(guī)模持續(xù)擴張，研究者們開始不滿足于殘差連接的[單車道]設(shè)計。

如果把殘差流比作高速公路的主干線，當(dāng)車流量（信息吞吐量）越來越大，單車道的通行能力早晚會觸達瓶頸。

2024年9月，字節(jié)跳動發(fā)表的Hyper-Connections（超連接，簡稱HC）論文，正是這一思路的落地。

HC的核心設(shè)計堪稱大膽，將原本的殘差流寬度從C擴展到n×C，相當(dāng)于把單車道擴建成n條并行車道，同時引入可學(xué)習(xí)的混合矩陣，讓各車道的信息在每一層重新路由、融合。

實驗結(jié)果令人振奮，多車道設(shè)計讓信息交互更充分，模型表達力顯著提升，在混合專家（MoE）模型上甚至實現(xiàn)了1.8倍的收斂加速。

就像把單股線織毛衣改成多股線，織出的[毛衣]（模型）不僅更結(jié)實，還能呈現(xiàn)更復(fù)雜的[花紋]（特征表達）。

但狂歡之下，隱患悄然滋生。HC看似完美的設(shè)計，隱藏著一個致命缺陷：它拆掉了殘差連接中恒等映射的守恒特性。

殘差連接之所以穩(wěn)定，是因為x項的恒等映射天然具備[能量守恒]，輸入信號不會被隨意放大或衰減。

而HC的混合矩陣是完全自由學(xué)習(xí)的，沒有任何約束，跨多層之后就變成了一串矩陣連乘。

這種無約束設(shè)計，在大規(guī)模訓(xùn)練中會引發(fā)災(zāi)難性的[放大器效應(yīng)]，如果某幾層學(xué)到的[殘差]在某些方向上略大于1，經(jīng)過幾十層、上百層的復(fù)合后，增長會呈指數(shù)級積累。

DeepSeek的實驗數(shù)據(jù)顯示，HC架構(gòu)中，信號最大放大倍數(shù)能逼近3000倍，直接導(dǎo)致兩種訓(xùn)練災(zāi)難：要么信號爆炸、梯度爆炸，要么梯度消失，最終模型訓(xùn)練崩盤。

更棘手的是，HC的多車道設(shè)計還帶來了巨大的工程開銷，并行通道的增加讓GPU內(nèi)存占用和通信帶寬需求急劇上升，進一步限制了其在更大規(guī)模模型中的應(yīng)用。

這就像把單車道擴建成多車道后，沒有制定任何交通規(guī)則，結(jié)果不僅車流量沒提升，反而引發(fā)了連環(huán)車禍，還讓道路維護成本飆升。

HC的困境揭示了一個深刻矛盾，大模型要提升表達力，就需要更復(fù)雜的拓撲結(jié)構(gòu)和更多的連接通道；但連接越多、自由度越高，就越難維持訓(xùn)練的穩(wěn)定性。

這道穩(wěn)定性與表達力的選擇題，成為了大模型架構(gòu)演進的核心瓶頸。

mHC破局：給自由的連接套上[數(shù)學(xué)護欄]

面對HC的困境，DeepSeek團隊給出的解決方案是mHC（流形約束超連接），其核心思想可以用一句話概括：你可以修立交橋、擴多車道，但必須給交通流制定嚴(yán)格的守恒規(guī)則。

這個規(guī)則的數(shù)學(xué)載體，就是[雙隨機矩陣]（Doubly Stochastic Matrix）。

簡單來說，雙隨機矩陣需要滿足兩個硬性條件：一是所有元素非負；二是每一行的元素和為1，每一列的元素和也為1。正是這兩個約束，讓失控的HC重新找回了穩(wěn)定性。

①雙隨機矩陣：重塑恒等映射的守恒性

雙隨機矩陣的魔力，在于它為信息傳遞建立了[能量守恒]機制。當(dāng)殘差映射矩陣被約束為雙隨機矩陣時，輸出信號本質(zhì)上是輸入特征的[加權(quán)混合]。

權(quán)重總和始終為1，就像把一杯水倒入多個杯子再重新混合，總水量不會憑空增加或減少，這種設(shè)計帶來了關(guān)鍵保障。

用通俗的比喻來說，mHC就像給多車道高速公路制定了完善的交通規(guī)則：車輛可以自由換道，但總車流不能憑空增減，車速不能超過上限，從而避免了擁堵和事故。

更巧妙的是，mHC還對前后殘差引入了非負約束（通過sigmoid函數(shù)實現(xiàn)），避免了正負系數(shù)復(fù)合導(dǎo)致的數(shù)值抵消，進一步保障了信號傳遞的完整性。

②Sinkhorn-Knopp算法：把[野矩陣]馴化成[乖矩陣]

要將自由學(xué)習(xí)的混合矩陣約束為雙隨機矩陣，需要[流形約束]這個關(guān)鍵的實現(xiàn)步驟。

DeepSeek采用了經(jīng)典的Sinkhorn-Knopp算法，這個過程就像一個[訓(xùn)練營]，無論原始矩陣多么[放飛自我]，經(jīng)過訓(xùn)練后都必須遵守[行列守恒]的硬紀(jì)律。

算法的核心流程十分簡潔：先讓矩陣所有元素變成嚴(yán)格正數(shù)；反復(fù)交替進行行歸一化（讓每一行和為1）和列歸一化（讓每一列和為1）；迭代幾次后，矩陣會收斂到雙隨機結(jié)構(gòu)。

論文實驗表明，僅需3次迭代就能達到足夠精度，而且整個過程完全可微分，支持端到端訓(xùn)練，不會給模型優(yōu)化帶來額外負擔(dān)。

這里的[流形]（manifold）可以理解為一個特定形狀的光滑空間，DeepSeek沒有讓參數(shù)在整個歐氏空間亂跑，而是把它限制在一個有幾何結(jié)構(gòu)的可行集合里，確保每一步更新都不偏離守恒軌道。

這種設(shè)計的優(yōu)雅之處在于，它沒有引入任何新的超參數(shù)，也沒有降低模型的表達能力，只是給原本自由的權(quán)重矩陣套上了一個數(shù)學(xué)上可證明的[安全邊界]。

這種設(shè)計從理論上解決了一個長期困擾產(chǎn)業(yè)界與學(xué)術(shù)界的問題：如何讓更復(fù)雜的信息通路在不犧牲訓(xùn)練穩(wěn)定性和可擴展性的前提下發(fā)揮效能？

傳統(tǒng)方法往往在性能與穩(wěn)定性之間做取舍，而mHC嘗試通過數(shù)學(xué)約束實現(xiàn)雙贏。

硬核工程：6.7%開銷的背后，是重寫底層的勇氣

mHC的多車道設(shè)計和雙隨機矩陣計算，涉及大量分散的矩陣運算和歸一化操作。

如果按常規(guī)方式執(zhí)行，會產(chǎn)生頻繁的內(nèi)存訪問，嚴(yán)重拖慢訓(xùn)練速度。

DeepSeek團隊沒有調(diào)用現(xiàn)成的庫，而是基于TileLang框架手寫了底層CUDA內(nèi)核代碼，將多個分散的操作合并成一個融合內(nèi)核。

這種優(yōu)化就像把原本需要多次往返的快遞，合并成一次批量配送。減少了內(nèi)存訪問次數(shù)，提升了數(shù)據(jù)locality，僅這一項優(yōu)化就帶來了22%的帶寬提升。

針對Sinkhorn-Knopp算法，團隊還設(shè)計了專門的前向和反向內(nèi)核，在芯片上重新計算中間結(jié)果，避免了額外的存儲開銷。

大模型訓(xùn)練中，激活值的存儲是內(nèi)存占用的主要來源之一。

mHC的多車道設(shè)計會讓激活值規(guī)模成倍增加，為了解決這個問題，DeepSeek采用了選擇性重計算策略。在反向傳播時，不存儲所有中間激活值，而是選擇性地重新計算部分結(jié)果。

這種策略看似增加了少量計算量，但大幅降低了內(nèi)存占用，實驗顯示內(nèi)存消耗降低了40%。

在多卡并行訓(xùn)練中，設(shè)備間的通信延遲往往是性能瓶頸。

DeepSeek擴展了DualPipe調(diào)度策略，通過將MLP層的特定內(nèi)核放在高優(yōu)先級計算流上執(zhí)行，讓計算任務(wù)與設(shè)備間的通信任務(wù)并行進行。

當(dāng)一張GPU在發(fā)送數(shù)據(jù)時，另一張GPU已經(jīng)在執(zhí)行計算，不會出現(xiàn)[閑等]的情況。

這套組合拳下來，mHC在擴展系數(shù)n=4（即4條并行殘差流）時，內(nèi)部實測的額外訓(xùn)練時間開銷僅為6.7%。

mHC作為擴展性設(shè)計，有望在以下多個層面帶來影響：

①大規(guī)模LLM訓(xùn)練穩(wěn)定性：可以提升深層網(wǎng)絡(luò)擴展規(guī)模的可控性。

②低成本訓(xùn)練策略：通過架構(gòu)優(yōu)化減少訓(xùn)練失敗和資源浪費。

③生態(tài)共享：若該架構(gòu)開源并被主流框架采納，將推動整個社區(qū)對新連接機制的探索。

十年基石：殘差連接如何成為AI的[定海神針]

DeepSeek過去通過開源策略成功將自己置于全球技術(shù)對話中；這一次通過架構(gòu)創(chuàng)新進一步強化其技術(shù)品牌。

mHC既是一個具體的架構(gòu)創(chuàng)新，也代表著DeepSeek在人工智能基礎(chǔ)架構(gòu)領(lǐng)域的更高目標(biāo)，推動整個行業(yè)對于訓(xùn)練穩(wěn)定性與可擴展性問題的重新思考。

未來幾個月，這種思想能否轉(zhuǎn)化為即將發(fā)布的R2模型甚至更大規(guī)模的實際產(chǎn)品性能優(yōu)勢，將是真正的檢驗。

但在AI競爭愈發(fā)激烈的今天，每一個早期且可能改變游戲規(guī)則的架構(gòu)創(chuàng)新，都值得我們?nèi)ド钊虢庾x與持續(xù)關(guān)注。

部分資料參考：騰訊科技：《梁文鋒帶隊DeepSeek，重置深度神經(jīng)網(wǎng)絡(luò)最底層的“定海神針”》，頭部科技：《下一代模型呼之欲出？！DeepSeek的新年禮物mHC是個啥？》，硅星人Pro：《梁文鋒DeepSeek新論文！接棒何愷明和字節(jié)，又穩(wěn)了穩(wěn)AI的“地基”》，科技最前線：《一篇論文，解決大模型“越聰明越容易崩”的死結(jié)》

原文標(biāo)題 : 深度丨梁文鋒署名論文發(fā)布，DeepSeek用mHC新架構(gòu)“秀肌肉”