訂閱
糾錯
加入自媒體

深度丨梁文鋒署名論文發(fā)布,DeepSeek用mHC新架構(gòu)“秀肌肉”

前言

2026年新年第一天,arXiv上一篇題為《mHC:Manifold-ConstrainedHyper-Connections流形約束超連接)》的論文。

與以往技術(shù)發(fā)布不同,這篇論文不僅提出一種新的神經(jīng)網(wǎng)絡(luò)架構(gòu),而且特別有意思的是其創(chuàng)始人兼CEO梁文鋒親自出現(xiàn)在作者名單之中。

十年基石:殘差連接如何成為AI的[定海神針]

要理解mHC的革命性意義,必須先回溯深度學(xué)習(xí)的一段關(guān)鍵歷史。

2015年之前,神經(jīng)網(wǎng)絡(luò)領(lǐng)域存在一個致命悖論。理論上模型層數(shù)越深,擬合復(fù)雜函數(shù)的能力越強,但實際訓(xùn)練中,層數(shù)超過幾十層就會出現(xiàn)梯度消失或爆炸,導(dǎo)致模型完全無法收斂。

當(dāng)時在微軟亞洲研究院的何愷明、張祥雨團隊,用殘差連接(Residual Connection)打破了僵局其核心公式簡單到令人驚嘆:y=x+F(x)。

就是這短短一個公式,讓訓(xùn)練上千層的深度網(wǎng)絡(luò)成為可能,也為后來的Transformer架構(gòu)奠定了基礎(chǔ),那篇殘差論文至今仍是AI史上引用量最高的成果之一。

殘差連接的智慧,在于它為信息傳遞開辟了一條[應(yīng)急車道]

如果把深度神經(jīng)網(wǎng)絡(luò)比作一座層層加工的工廠,傳統(tǒng)架構(gòu)中,輸入信息x必須經(jīng)過每一層的復(fù)雜變換f(x)才能到達輸出端。

就像所有物料都要經(jīng)過每條生產(chǎn)線的加工,一旦某道工序出現(xiàn)偏差,后續(xù)就會[差之毫厘,失之千里]。

而殘差連接的x項,相當(dāng)于在工廠里修了一條直達傳送帶,讓部分信息不經(jīng)過任何加工直接傳遞到下游。

這種設(shè)計的本質(zhì)是嵌入了[恒等映射](Identity Mapping),哪怕中間的變換函數(shù)F(x)學(xué)得一塌糊涂,x這條直通路徑也能把信號和梯度完整地送到深層,確保網(wǎng)絡(luò)不會[越算越跑偏]。

就像雕塑大師把創(chuàng)作從[直接塑形]變成[去除多余石料],殘差網(wǎng)絡(luò)讓每一層只需要學(xué)習(xí)增量變化,剩下的交給恒等映射兜底。

這一設(shè)計成為了深度學(xué)習(xí)的[定海神針],從2017年Transformer問世,到GPT、Llama、DeepSeek等主流大模型,幾乎所有深度神經(jīng)網(wǎng)絡(luò)都把殘差連接當(dāng)作標(biāo)配。

十年間,模型參數(shù)從百萬級增長到萬億級,層數(shù)從幾十層堆疊到上千層,但殘差連接的核心邏輯始終未變。

它證明了:讓網(wǎng)絡(luò)[可以很深]的關(guān)鍵,不是每層轉(zhuǎn)換多聰明,而是永遠留一條[不作妖]的直達通路。

單車道不夠用了:HC的革新與失控

隨著大模型規(guī)模持續(xù)擴張,研究者們開始不滿足于殘差連接的[單車道]設(shè)計。

如果把殘差流比作高速公路的主干線,當(dāng)車流量(信息吞吐量)越來越大,單車道的通行能力早晚會觸達瓶頸。

2024年9月,字節(jié)跳動發(fā)表的Hyper-Connections(超連接,簡稱HC)論文,正是這一思路的落地。

HC的核心設(shè)計堪稱大膽,將原本的殘差流寬度從C擴展到n×C,相當(dāng)于把單車道擴建成n條并行車道,同時引入可學(xué)習(xí)的混合矩陣,讓各車道的信息在每一層重新路由、融合。

實驗結(jié)果令人振奮多車道設(shè)計讓信息交互更充分,模型表達力顯著提升,在混合專家(MoE)模型上甚至實現(xiàn)了1.8倍的收斂加速。

就像把單股線織毛衣改成多股線,織出的[毛衣](模型)不僅更結(jié)實,還能呈現(xiàn)更復(fù)雜的[花紋](特征表達)。

但狂歡之下,隱患悄然滋生。HC看似完美的設(shè)計,隱藏著一個致命缺陷:它拆掉了殘差連接恒等映射的守恒特性。

殘差連接之所以穩(wěn)定,是因為x項的恒等映射天然具備[能量守恒],輸入信號不會被隨意放大或衰減。

而HC的混合矩陣是完全自由學(xué)習(xí)的,沒有任何約束,跨多層之后就變成了一串矩陣連乘。

這種無約束設(shè)計,在大規(guī)模訓(xùn)練中會引發(fā)災(zāi)難性的[放大器效應(yīng)],如果某幾層學(xué)到的[殘差]在某些方向上略大于1,經(jīng)過幾十層、上百層的復(fù)合后,增長會呈指數(shù)級積累。

DeepSeek的實驗數(shù)據(jù)顯示,HC架構(gòu)中,信號最大放大倍數(shù)能逼近3000倍,直接導(dǎo)致兩種訓(xùn)練災(zāi)難:要么信號爆炸、梯度爆炸,要么梯度消失,最終模型訓(xùn)練崩盤。

更棘手的是,HC的多車道設(shè)計還帶來了巨大的工程開銷,并行通道的增加讓GPU內(nèi)存占用和通信帶寬需求急劇上升,進一步限制了其在更大規(guī)模模型中的應(yīng)用。

這就像把單車道擴建成多車道后,沒有制定任何交通規(guī)則,結(jié)果不僅車流量沒提升,反而引發(fā)了連環(huán)車禍,還讓道路維護成本飆升。

HC的困境揭示了一個深刻矛盾大模型要提升表達力,就需要更復(fù)雜的拓撲結(jié)構(gòu)和更多的連接通道;但連接越多、自由度越高,就越難維持訓(xùn)練的穩(wěn)定性。

這道穩(wěn)定性與表達力的選擇題,成為了大模型架構(gòu)演進的核心瓶頸。

mHC破局:給自由的連接套上[數(shù)學(xué)護欄]

面對HC的困境,DeepSeek團隊給出的解決方案mHC(流形約束超連接),其核心思想可以用一句話概括:你可以修立交橋、擴多車道,但必須給交通流制定嚴(yán)格的守恒規(guī)則。

這個規(guī)則的數(shù)學(xué)載體,就是[雙隨機矩陣](Doubly Stochastic Matrix)。

簡單來說,雙隨機矩陣需要滿足兩個硬性條件:一是所有元素非負;二是每一行的元素和為1,每一列的元素和也為1。正是這兩個約束,讓失控的HC重新找回了穩(wěn)定性。

雙隨機矩陣:重塑恒等映射的守恒性

雙隨機矩陣的魔力,在于它為信息傳遞建立了[能量守恒]機制。當(dāng)殘差映射矩陣被約束為雙隨機矩陣時,輸出信號本質(zhì)上是輸入特征的[加權(quán)混合]。

權(quán)重總和始終為1,就像把一杯水倒入多個杯子再重新混合,總水量不會憑空增加或減少,這種設(shè)計帶來了關(guān)鍵保障。

用通俗的比喻來說,mHC就像給多車道高速公路制定了完善的交通規(guī)則:車輛可以自由換道,但總車流不能憑空增減,車速不能超過上限,從而避免了擁堵和事故。

更巧妙的是,mHC還對前后殘差引入了非負約束(通過sigmoid函數(shù)實現(xiàn)),避免了正負系數(shù)復(fù)合導(dǎo)致的數(shù)值抵消,進一步保障了信號傳遞的完整性。

Sinkhorn-Knopp算法:把[野矩陣]馴化成[乖矩陣]

要將自由學(xué)習(xí)的混合矩陣約束為雙隨機矩陣,需要[流形約束]這個關(guān)鍵的實現(xiàn)步驟。

DeepSeek采用了經(jīng)典的Sinkhorn-Knopp算法,這個過程就像一個[訓(xùn)練營],無論原始矩陣多么[放飛自我],經(jīng)過訓(xùn)練后都必須遵守[行列守恒]的硬紀(jì)律。

算法的核心流程十分簡潔:先讓矩陣所有元素變成嚴(yán)格正數(shù);反復(fù)交替進行行歸一化(讓每一行和為1)和列歸一化(讓每一列和為1);迭代幾次后,矩陣會收斂到雙隨機結(jié)構(gòu)。

論文實驗表明,僅需3次迭代就能達到足夠精度,而且整個過程完全可微分,支持端到端訓(xùn)練,不會給模型優(yōu)化帶來額外負擔(dān)。

這里的[流形](manifold)可以理解為一個特定形狀的光滑空間,DeepSeek沒有讓參數(shù)在整個歐氏空間亂跑,而是把它限制在一個有幾何結(jié)構(gòu)的可行集合里,確保每一步更新都不偏離守恒軌道。

這種設(shè)計的優(yōu)雅之處在于,它沒有引入任何新的超參數(shù),也沒有降低模型的表達能力,只是給原本自由的權(quán)重矩陣套上了一個數(shù)學(xué)上可證明的[安全邊界]

這種設(shè)計從理論上解決了一個長期困擾產(chǎn)業(yè)界與學(xué)術(shù)界的問題:如何讓更復(fù)雜的信息通路在不犧牲訓(xùn)練穩(wěn)定性和可擴展性的前提下發(fā)揮效能?

傳統(tǒng)方法往往在性能與穩(wěn)定性之間做取舍,而mHC嘗試通過數(shù)學(xué)約束實現(xiàn)雙贏。

硬核工程:6.7%開銷的背后,是重寫底層的勇氣

mHC的多車道設(shè)計和雙隨機矩陣計算,涉及大量分散的矩陣運算和歸一化操作。

如果按常規(guī)方式執(zhí)行,會產(chǎn)生頻繁的內(nèi)存訪問,嚴(yán)重拖慢訓(xùn)練速度。

DeepSeek團隊沒有調(diào)用現(xiàn)成的庫,而是基于TileLang框架手寫了底層CUDA內(nèi)核代碼,將多個分散的操作合并成一個融合內(nèi)核。

這種優(yōu)化就像把原本需要多次往返的快遞,合并成一次批量配送。減少了內(nèi)存訪問次數(shù),提升了數(shù)據(jù)locality,僅這一項優(yōu)化就帶來了22%的帶寬提升。

針對Sinkhorn-Knopp算法,團隊還設(shè)計了專門的前向和反向內(nèi)核,在芯片上重新計算中間結(jié)果,避免了額外的存儲開銷。

大模型訓(xùn)練中,激活值的存儲是內(nèi)存占用的主要來源之一。

mHC的多車道設(shè)計會讓激活值規(guī)模成倍增加,為了解決這個問題,DeepSeek采用了選擇性重計算策略。在反向傳播時,不存儲所有中間激活值,而是選擇性地重新計算部分結(jié)果。

這種策略看似增加了少量計算量,但大幅降低了內(nèi)存占用,實驗顯示內(nèi)存消耗降低了40%。

在多卡并行訓(xùn)練中,設(shè)備間的通信延遲往往是性能瓶頸。

DeepSeek擴展了DualPipe調(diào)度策略,通過將MLP層的特定內(nèi)核放在高優(yōu)先級計算流上執(zhí)行,讓計算任務(wù)與設(shè)備間的通信任務(wù)并行進行

當(dāng)一張GPU在發(fā)送數(shù)據(jù)時,另一張GPU已經(jīng)在執(zhí)行計算,不會出現(xiàn)[閑等]的情況。

這套組合拳下來,mHC在擴展系數(shù)n=4(即4條并行殘差流)時,內(nèi)部實測的額外訓(xùn)練時間開銷僅為6.7%。

mHC作為擴展性設(shè)計,有望在以下多個層面帶來影響:

大規(guī)模LLM訓(xùn)練穩(wěn)定性:可以提升深層網(wǎng)絡(luò)擴展規(guī)模的可控性

低成本訓(xùn)練策略:通過架構(gòu)優(yōu)化減少訓(xùn)練失敗和資源浪費。

生態(tài)共享:若該架構(gòu)開源并被主流框架采納,將推動整個社區(qū)對新連接機制的探索。

十年基石:殘差連接如何成為AI的[定海神針]

DeepSeek過去通過開源策略成功將自己置于全球技術(shù)對話中;這一次通過架構(gòu)創(chuàng)新進一步強化其技術(shù)品牌。

mHC既是一個具體的架構(gòu)創(chuàng)新,也代表著DeepSeek在人工智能基礎(chǔ)架構(gòu)領(lǐng)域的更高目標(biāo)推動整個行業(yè)對于訓(xùn)練穩(wěn)定性與可擴展性問題的重新思考。

未來幾個月,這種思想能否轉(zhuǎn)化為即將發(fā)布的R2模型甚至更大規(guī)模的實際產(chǎn)品性能優(yōu)勢,將是真正的檢驗。

但在AI競爭愈發(fā)激烈的今天,每一個早期且可能改變游戲規(guī)則的架構(gòu)創(chuàng)新,都值得我們?nèi)ド钊虢庾x與持續(xù)關(guān)注。

部分資料參考:騰訊科技:《梁文鋒帶隊DeepSeek,重置深度神經(jīng)網(wǎng)絡(luò)最底層的“定海神針”》,頭部科技:《下一代模型呼之欲出?!DeepSeek的新年禮物mHC是個啥?》,硅星人Pro:《梁文鋒DeepSeek新論文!接棒何愷明和字節(jié),又穩(wěn)了穩(wěn)AI的“地基”》,科技最前線:《一篇論文,解決大模型“越聰明越容易崩”的死結(jié)》

       原文標(biāo)題 : 深度丨梁文鋒署名論文發(fā)布,DeepSeek用mHC新架構(gòu)“秀肌肉”

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號