訂閱
糾錯
加入自媒體

2026,國產(chǎn)AI芯片,跨越天塹:從“推理”走向“訓練”

圖片

過去幾年,國產(chǎn)AI芯片始終活躍在一個相對安全、也相對邊緣的位置——推理側(cè)。

在政務、金融、安防、工業(yè)質(zhì)檢等場景中,國產(chǎn)芯片憑借成本可控、供應穩(wěn)定等優(yōu)勢,逐步完成了從“可用”到“好用”的過程。但在AI訓練這一算力金字塔頂端,國產(chǎn)芯片長期缺席,或者只能參與邊緣性任務。

這一格局,正在發(fā)生改變。2026年,將成為“國產(chǎn)AI芯片訓練落地元年”。但這一步,絕非簡單升級,而是一場系統(tǒng)工程級別的跨越。

01

訓練與推理有何區(qū)別?

在大眾語境中,“AI算力”往往被視作一個整體,但在工程實踐中,訓練與推理幾乎是兩種完全不同的工作負載。

訓練的核心是讓AI模型“學會知識”,具體而言,是通過海量帶標簽樣本,經(jīng)過特定算法迭代,求解出機器學習模型最優(yōu)參數(shù)的過程。這一階段需要海量數(shù)據(jù)的持續(xù)投喂、數(shù)十億至萬億級參數(shù)的動態(tài)更新,以及數(shù)周乃至數(shù)月的不間斷運行,追求的是吞吐量與規(guī)模化運算效率。

這意味著訓練芯片不僅要具備強悍的算力,還需配備極高的顯存帶寬、高效的分布式通信能力,以及萬卡級集群規(guī)模下的穩(wěn)定性。訓練過程可進一步細分為預訓練與后訓練兩個階段:預訓練依托海量無標注或弱標注數(shù)據(jù),通過大規(guī)模反復迭代計算優(yōu)化模型參數(shù),最小化預測誤差,最終形成具備通用生成能力的基礎大模型,對芯片的計算性能、互連通信能力及通用性提出極高要求;后訓練又稱微調(diào)、優(yōu)化階段,基于通用大模型,借助標注專業(yè)數(shù)據(jù)集對輸出層參數(shù)進行量化、剪枝等優(yōu)化,通過強化學習強化特定領域適配能力,雖計算量不及預訓練,但隨著行業(yè)化需求提升,其在全流程中的權重正持續(xù)增加。

與訓練形成鮮明對比,推理是模型“運用知識”的階段,需要依托已訓練完成的模型參數(shù),對新輸入數(shù)據(jù)進行預測、生成響應,是AI技術落地解決實際問題的核心環(huán)節(jié)。相較于訓練,推理更側(cè)重速度、能效比、響應延遲與成本控制,其部署場景覆蓋云服務、邊緣節(jié)點乃至終端設備,對穩(wěn)定性與能效比的訴求遠高于峰值算力。這種特性使得推理過程無需經(jīng)歷漫長的迭代訓練,可直接調(diào)用成熟模型完成分析預測,在海量數(shù)據(jù)處理與實時響應場景中具備顯著高效性。

大模型的發(fā)展遵循Scaling Law的經(jīng)驗公式,即模型參數(shù)量、數(shù)據(jù)量以及計算資源的增長能得到更好的模型智能。在通用基礎大模型發(fā)展階段,大模型向更大參數(shù)方向不斷演化,預訓練階段的數(shù)據(jù)量呈指數(shù)級增長,GPU作為算力硬件的核心在預訓練市場經(jīng)歷了爆發(fā)增長。根據(jù)中國信通院《中國算力發(fā)展白皮書(2023)》,GPT-3的模型參數(shù)約為1,746億個,而GPT-4的模型參數(shù)約達到了約1.8萬億個,訓練算力需求上升了68倍。此外,xAI發(fā)布的Grok-3使用20萬卡訓練芯片集群帶來模型性能提升亦證明了預訓練Scaling Law將長期成為人工智能發(fā)展的基石。

更值得關注的是,訓練算力存在“邊際效益遞減”的天花板。對于稠密架構大模型,當參數(shù)從千億級向萬億級跨越時,算力需求呈超線性增長,指數(shù)級攀升的成本壓力,讓從頭訓練大模型成為少數(shù)科技巨頭的“專屬游戲”。

憑借高算力門檻,國際領先廠商英偉達的產(chǎn)品一直以來都是人工智能訓練端的首選,占據(jù)了AI訓練市場90%以上份額,其Blackwell架構支持1.8萬億參數(shù)模型訓練,且NVLink 6技術實現(xiàn)72卡集群無縫互聯(lián)。而推理端(尤其是邊緣端、終端推理)對芯片性能要求較訓練端低,因此推理芯片市場百花齊放,各類芯片均占有一席之地。

由于中國AI芯片市場起步較晚,國產(chǎn)廠商通常從門檻相對較低的推理端切入市場,目前已取得階段性成果;而訓練端的國產(chǎn)化率仍相對較低。在海外高性能芯片出口管制不斷升級的背景下,擁有高性能計算能力、產(chǎn)品可有效應用于訓練端的國產(chǎn)廠商將充分受益。

02

國產(chǎn)算力走向訓練,難在那里?

從“能推理”到“能訓練”,表面看是性能維度的小幅提升,實則是跨越全技術棧的深度重構,核心面臨技術突破與商業(yè)閉環(huán)兩大挑戰(zhàn),考驗的是企業(yè)的綜合攻堅能力。

技術層面,核心矛盾已從單一芯片的紙面參數(shù)競爭,轉(zhuǎn)向萬卡級集群的互聯(lián)瓶頸突破,最終目標是提升模型算力利用率(MFU)。硬件端,單卡性能的提升已無法滿足大規(guī)模訓練需求,分布式并行成為必由之路——Scale Up通過增加單服務器GPU數(shù)量構建超節(jié)點,Scale Out通過擴容服務器規(guī)模搭建分布式集群,谷歌、Meta、微軟等海外大廠已率先布局,如谷歌A3虛擬機搭載2.6萬塊英偉達H100 GPU,同時基于自研芯片搭建8960卡TPUv5p集群,通過規(guī)模化集群優(yōu)勢優(yōu)化服務架構。而國產(chǎn)廠商雖在單卡性能上實現(xiàn)突破,但在集群協(xié)同能力上仍與海外存在差距。

軟件端,單純兼容CUDA生態(tài)的路徑在高強度訓練場景中已暴露瓶頸,構建原生、高效的自主軟件生態(tài)成為必然選擇。隨著大模型參數(shù)量與算法復雜度提升,訓練任務對計算系統(tǒng)的通信能力要求持續(xù)升級,千卡、萬卡級智算集群成為標配,而國內(nèi)具備完整訓練芯片部署能力的廠商寥寥無幾。其中,華為海思憑借長期技術積淀、全棧協(xié)同優(yōu)勢及豐富的人才與客戶儲備,在國產(chǎn)訓練芯片領域建立了顯著領先地位。

技術之外,市場用最樸素的邏輯投票:穩(wěn)定性與總擁有成本(TCO),這兩大維度構成了對國產(chǎn)訓練芯片的核心拷問:

其一為應用穩(wěn)定性,長達數(shù)月的訓練任務對芯片平均無故障時間(MTBF)提出極致要求,一次意外中斷就可能造成數(shù)百萬沉沒成本。這也是當前智算中心普遍采用“異構部署”策略的核心原因——通過英偉達芯片保障核心基座模型的穩(wěn)定運行,同時用國產(chǎn)芯片在垂類模型微調(diào)、推理等場景中迭代優(yōu)化、積累信任,推動國產(chǎn)算力從“敢用”向“愿用”跨越,而實戰(zhàn)落地是唯一的破局路徑。

其二為產(chǎn)業(yè)體系升維。客戶最終采購的并非PetaFLOPS這類冰冷的性能參數(shù),而是穩(wěn)定高效的AI生產(chǎn)力。這要求國產(chǎn)廠商完成從“單一芯片供應商”到“全棧算力解決方案服務商”的轉(zhuǎn)型,具備從供電、液冷等基礎設施到軟件調(diào)優(yōu)、運維支持的全鏈條服務能力,交付一套高性能、高可靠的“算力動力總成”。

03

國產(chǎn)AI芯片從推理走向訓練

國產(chǎn)芯片在訓練場景的落地,并非一蹴而就的爆發(fā),而是政策驅(qū)動與技術迭代共同作用的結(jié)果,早在去年就已顯現(xiàn)端倪。2025年8月21日,DeepSeek曾表示,新版本采用了一項針對國產(chǎn)芯片而設計的技術,能夠?qū)崿F(xiàn)性能優(yōu)化,并加快處理速度。

政策層面的支撐更為明確:2025年5月,美國BIS發(fā)布《關于可能適用于先進計算芯片及其他用于訓練AI模型商品的管制的政策聲明》《關于通用禁令10(GP10)對中華人民共和國(PRC)先進計算芯片適用的指南》《關于防止先進計算芯片轉(zhuǎn)移的行業(yè)指南》,從AI芯片的使用范圍、供應鏈制裁等角度進一步加強了對先進AI芯片和相關技術的出口管制,將出口管制風險進一步延伸至產(chǎn)業(yè)鏈的各個參與方。地緣政治倒逼相關國內(nèi)客戶使用國產(chǎn)GPU產(chǎn)品,在一定程度上幫助國產(chǎn)GPU廠商與國內(nèi)客戶和供應商建立密切聯(lián)系,進而快速實現(xiàn)技術和產(chǎn)品迭代升級。

而且近期,工信部聯(lián)合7部門出臺《“人工智能+制造”專項行動實施意見》明確提出,支持突破高端訓練芯片、端側(cè)推理芯片、人工智能服務器、高速互聯(lián)、智算云操作系統(tǒng)等關鍵技術。

多重因素疊加下,2026年成為國產(chǎn)AI芯片訓練落地的關鍵元年。

圖片

今年以來,一批基于國產(chǎn)芯片訓練的AI大模型密集落地,標志著國產(chǎn)算力在訓練場景的實戰(zhàn)能力得到驗證。

2026年1月14日,智譜聯(lián)合華為開源新一代圖像生成模型GLM-Image,開源后24小時內(nèi)登頂全球AI開源社區(qū)Hugging Face Trending榜單榜首。該模型基于華為昇騰Atlas 800T A2設備與昇思MindSpore AI框架,完成從數(shù)據(jù)處理到模型訓練的全流程閉環(huán),是首個依托國產(chǎn)芯片實現(xiàn)全程訓練的SOTA(當前最高水平)多模態(tài)模型,首次讓國產(chǎn)芯片訓練的模型站上國際頂端舞臺,印證了我國AI模型端到端自主研發(fā)能力的突破,引發(fā)全球AI圈、產(chǎn)業(yè)界與資本市場的廣泛關注。

1月13日,摩爾線程與北京智源人工智能研究院達成突破,依托MTT S5000千卡智算集群與FlagOS-Robo框架,成功完成智源自研具身大腦模型RoboBrain 2.5的全流程訓練。這一成果首次驗證了國產(chǎn)算力集群在具身智能大模型訓練中的可用性與高效性,標志著國產(chǎn)AI基礎設施已具備應對復雜多模態(tài)任務的能力。此外,摩爾線程還與小馬智行正式宣布達成戰(zhàn)略合作。雙方將聚焦L4級自動駕駛技術落地與規(guī);瘧茫瑖@小馬智行技術核心——世界模型及虛擬司機系統(tǒng)的訓練與優(yōu)化展開深度協(xié)同,共同探索“AI算法+AI算力”深度融合的合作新范式,以安全可靠的AI算力,賦能自動駕駛技術迭代和商業(yè)落地。雙方將基于摩爾線程MTT S5000訓推一體智算卡及夸娥智算集群,共同推進小馬智行世界模型及車端模型訓練的適配與驗證。

中國電信近期開源的千億級星辰大模型,實現(xiàn)了國產(chǎn)AI全棧生態(tài)的關鍵突破。此次發(fā)布的TeleChat3系列包含兩大核心模型——混合專家架構的TeleChat3-105B-A4.7B-Thinking與稠密架構的TeleChat3-36B-Thinking,其訓練全程依托上海臨港國產(chǎn)萬卡算力池完成,累計消耗15萬億tokens訓練數(shù)據(jù),成為國產(chǎn)AI發(fā)展史上的里程碑事件。技術層面,該系列模型實現(xiàn)從硬件到軟件的全鏈路國產(chǎn)化適配,深度整合華為昇騰生態(tài),包括Atlas800T A2訓練服務器的硬件支持、昇思MindSpore框架的開發(fā)環(huán)境,以及完整的國產(chǎn)AI算力基礎設施支撐。

客觀來看,英偉達A100/H100/H800系列GPU仍是全球超大規(guī)模前沿模型(如DeepSeek-V3)訓練的首選,但國產(chǎn)算力平臺已逐步實現(xiàn)突破,可穩(wěn)定支撐數(shù)十億至千億參數(shù)級模型的全流程訓練任務。此前主流大模型高度依賴海外GPU的格局正在改變,供應鏈安全風險得到有效緩解,國產(chǎn)AI芯片正從推理側(cè)的“單點突破”,邁向訓練側(cè)的“體系化崛起”。

       原文標題 : 2026,國產(chǎn)AI芯片,跨越天塹:從“推理”走向“訓練”

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號