訂閱
糾錯
加入自媒體

AI應(yīng)用時代,CPU有望成為下一個“存儲”機(jī)遇嗎?

在算力需求暴增的今天,CPU是否會重演PC時代崛起神話?這是一個值得思考的問題。如今,大模型推理、端側(cè)AI、智能物聯(lián)網(wǎng)正將計算壓力推向新的臨界點。英特爾、AMD股價悄然攀升,Arm架構(gòu)異軍突起,甚至連蘋果、小米都在自研芯片中加大CPU投入。

這究竟是短暫的風(fēng)口,還是結(jié)構(gòu)性機(jī)遇的開始?當(dāng)云端集群的CPU利用率逼近紅線,當(dāng)每臺終端設(shè)備都需要獨立的AI推理能力,傳統(tǒng)處理器是否已經(jīng)站在爆發(fā)的邊緣?

01. 推理有望成為重要方向

隨著AI應(yīng)用從實驗室走向千行百業(yè),推理計算正取代訓(xùn)練成為AI算力的主戰(zhàn)場。據(jù)IDC與浪潮信息聯(lián)合預(yù)測,2023年中國AI服務(wù)器工作負(fù)載中訓(xùn)練端占比58.7%,而到2027年推理端算力需求將飆升至72.6%。當(dāng)大模型逐漸成熟,企業(yè)對算力的需求不再是砸錢堆疊訓(xùn)練集群,而是如何將模型高效、經(jīng)濟(jì)地部署到真實業(yè)務(wù)場景中。這種轉(zhuǎn)變,讓CPU這一傳統(tǒng)通用處理器重新站在了舞臺中央。

在推理場景中,CPU的性價比優(yōu)勢正被重新發(fā)現(xiàn)。與動輒數(shù)十萬、功耗驚人的GPU相比,CPU在成本、可用性和總擁有成本(TCO)上展現(xiàn)出無可比擬的競爭力。英特爾數(shù)據(jù)顯示,使用CPU進(jìn)行AI推理無需構(gòu)建新的IT基礎(chǔ)設(shè)施,可復(fù)用既有平臺空閑算力,避免異構(gòu)硬件帶來的管理復(fù)雜度。更重要的是,通過AMX加速、INT8量化優(yōu)化等技術(shù),現(xiàn)代CPU的推理性能已實現(xiàn)質(zhì)的飛躍。實測表明,經(jīng)過優(yōu)化的至強(qiáng)處理器在ResNet-50等模型上推理速度提升可達(dá)8.24倍,精度損失不足0.17%。這種模式,正中中小企業(yè)下懷——它們不需要GPT-4級別的算力,但需要能跑通32B參數(shù)模型的經(jīng)濟(jì)型方案。

CPU的用武之地,恰恰集中在AI推理的"長尾市場"。第一類是小語言模型(SLM)部署,如DeepSeek-R1 32B、Qwen-32B等模型,它們在企業(yè)級場景中文能力突出,參數(shù)規(guī)模適中,CPU完全能夠勝任。第二類是數(shù)據(jù)預(yù)處理與向量化環(huán)節(jié),這類任務(wù)涉及文本清洗、特征提取、嵌入生成等,天然適合CPU的串行處理能力。第三類是并發(fā)量高但單次計算簡單的"長尾"推理任務(wù),如客服問答、內(nèi)容審核等,CPU可通過多核心并行處理數(shù)百個輕量級請求,實現(xiàn)更高的吞吐率。這些場景的共同點是:對延遲要求相對寬松,但對成本極度敏感,正是CPU大顯身手的舞臺。

2025年以來的許多上市公司已經(jīng)將相關(guān)產(chǎn)品推向市場。浪潮信息(000977) 在3月率先推出元腦CPU推理服務(wù)器NF8260G7,搭載4顆英特爾至強(qiáng)處理器,通過張量并行和AMX加速技術(shù),單機(jī)可高效運行DeepSeek-R1 32B模型,單用戶性能超20 tokens/s,同時處理20個并發(fā)請求。神州數(shù)碼(000034) 則在7月的WAIC大會上發(fā)布KunTai R622 K2推理服務(wù)器,基于鯤鵬CPU架構(gòu),在2U空間內(nèi)支持4張加速卡,主打"高性能、低成本"路線,瞄準(zhǔn)金融、運營商等預(yù)算敏感型行業(yè)。這些廠商的布局揭示了一個明確信號:CPU推理不是退而求其次,而是主動戰(zhàn)略選擇。

更深層的邏輯在于,AI算力正在走向"去中心化"和"場景化"。當(dāng)每個工廠、每家醫(yī)院甚至每個手機(jī)都需要嵌入式推理能力時,不可能也不必要全部依賴GPU集群。CPU作為通用算力底座,能夠?qū)I能力無縫融入現(xiàn)有IT架構(gòu),實現(xiàn)"計算即服務(wù)"的平滑過渡。在這個意義上,CPU的確正在成為AI時代的"新存儲":它不是最閃耀的,但卻是不可或缺的算力基礎(chǔ)設(shè)施。

02. CPU可能比GPU更早成為瓶頸

在Agent驅(qū)動的強(qiáng)化學(xué)習(xí)(RL)時代,CPU的瓶頸效應(yīng)正以比GPU短缺更隱蔽卻更致命的方式浮現(xiàn)。與傳統(tǒng)單任務(wù)RL不同,現(xiàn)代Agent系統(tǒng)需要同時運行成百上千個獨立環(huán)境實例來生成訓(xùn)練數(shù)據(jù),這種"環(huán)境并行化"需求讓CPU成為事實上的第一塊短板。

2025年9月,螞蟻集團(tuán)開源的AWORLD框架將Agent訓(xùn)練解耦為推理/執(zhí)行端與訓(xùn)練端后,被迫采用CPU集群承載海量環(huán)境實例,而GPU僅負(fù)責(zé)模型更新。這種架構(gòu)選擇并非設(shè)計偏好,而是環(huán)境計算密集型的必然結(jié)果——每個Agent在與操作系統(tǒng)、代碼解釋器或GUI界面交互時,都需要獨立的CPU進(jìn)程進(jìn)行狀態(tài)管理、動作解析和獎勵計算,導(dǎo)致核心數(shù)直接決定了可同時探索的軌跡數(shù)量。

更深層的矛盾在于CPU-GPU pipeline的異步失衡。當(dāng)CPU側(cè)的環(huán)境模擬速度無法匹配GPU的推理吞吐量時,policy lag(策略滯后)急劇惡化——GPU被迫空轉(zhuǎn)等待經(jīng)驗數(shù)據(jù),而Agent正在學(xué)習(xí)的策略與采集數(shù)據(jù)時的舊策略之間產(chǎn)生致命時差。這種滯后不僅降低樣本效率,更在PPO等on-policy算法中引發(fā)訓(xùn)練震蕩,甚至導(dǎo)致策略發(fā)散。智元機(jī)器人2025年3月開源的VideoDataset項目印證了這一點:其CPU軟件解碼方案成為訓(xùn)練瓶頸,切換到GPU硬件解碼后吞吐量提升3-4倍,CPU利用率才從飽和狀態(tài)回落。

2025年的工業(yè)級實踐進(jìn)一步暴露了CPU瓶頸對收斂穩(wěn)定性的系統(tǒng)性破壞。騰訊的AtlasTraining RL框架在萬億參數(shù)模型訓(xùn)練中,不得不專門設(shè)計異構(gòu)計算架構(gòu)來協(xié)調(diào)CPU與GPU的協(xié)作,因其發(fā)現(xiàn)環(huán)境交互的隨機(jī)種子、CPU核心調(diào)度策略的微小差異,會通過早期學(xué)習(xí)軌跡的蝴蝶效應(yīng)影響最終策略性能。更嚴(yán)峻的是,多智能體強(qiáng)化學(xué)習(xí)(MARL)的非平穩(wěn)性加劇了這一問題——當(dāng)數(shù)百個Agent策略同步更新時,CPU不僅要模擬環(huán)境,還需實時計算聯(lián)合獎勵、協(xié)調(diào)通信,這直接導(dǎo)致狀態(tài)空間復(fù)雜度呈指數(shù)級增長。

本質(zhì)上,Agent RL將計算范式從"模型密集"轉(zhuǎn)向"環(huán)境密集",而CPU正是環(huán)境模擬的物理載體。當(dāng)Agent需要探索工具使用、長鏈推理等復(fù)雜行為時,每個環(huán)境實例都是一個小型操作系統(tǒng),消耗1-2個CPU核心。此時,投入再多的A100或H200,若CPU核心數(shù)不足,GPU利用率仍會在30%以下徘徊,收斂時間從數(shù)周延長至數(shù)月。

2025年,這種瓶頸已從學(xué)術(shù)研究蔓延至產(chǎn)業(yè)實踐,解決CPU瓶頸已成為RL infra的核心戰(zhàn)場。Agent時代的算力競賽,勝負(fù)手或許不在GPU的峰值算力,而在于能否用足夠的CPU核心喂飽那些饑餓的智能體。

- End -

       原文標(biāo)題 : AI應(yīng)用時代,CPU有望成為下一個“存儲”機(jī)遇嗎?

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號