訂閱
糾錯
加入自媒體

持續(xù)燒錢的大模型,阻擋不了AI行業(yè)的熱情

貝克街探案官

大模型不掙錢,還是不是好生意?

作者丨魯鎮(zhèn)西

48小時內(nèi),智譜AI和MiniMax先后通過港交所上市聆訊,有人說這是大模型第一股之爭,也有人說這是研制大模型的公司資金告急,無法形成盈利亟需二級市場輸血。

根據(jù)財報,智譜2022年至2025年上半年,累計虧損超62億元;MiniMax2023年、2024年分別虧損2.69億美元、4.65億美元,2025年前9個月虧損5.12億美元,累計虧損超87億元。

由此可見,“不掙錢”確實是大模型行業(yè)內(nèi)玩家暫時無法逾越的鴻溝,這個行業(yè)內(nèi)的頭部玩家們,一邊在刷新人類智能的上限,一邊在以驚人的速度燒錢,頗有一絲參數(shù)越大,虧損越深;能力越強,賬越難算。

當市場還在討論“誰的模型更聰明”時,一個更殘酷的問題,如果連最聰明的機器,都算不清這筆賬,這還是一門好生意嗎?一個長期虧損、短期看不到盈利的行業(yè),是否仍然值得投入?

01 真正的科技浪潮,都曾長期虧損

每一次科技變革的風(fēng)口來臨之前,沒人能預(yù)見風(fēng)往哪吹,只有堅持長期主義,并且持續(xù)穩(wěn)定投入的玩家,才能迎來那陣風(fēng)。

比如亞馬遜,在1997–2001年,亞馬遜連續(xù)5年凈虧損,2000年互聯(lián)網(wǎng)泡沫期間,股價從113美元跌到6美元,至2003年才首次實現(xiàn)全年盈利,公司成立10年,累計虧損超過210億元。

華爾街在亞馬遜盈利之前,認為亞馬遜的物流資產(chǎn)太重,毛利率太低,無限擴張也沒有盈利紀律,所以斷言亞馬遜不可能賺錢,它賣得越多,虧得越多。

但在2019年開始,無論華爾街的精英們是因為換了一代人,還是因為看到了亞馬遜的增長空間,開始合力將亞馬遜的股價推至2萬億美元,超越微軟,一度成為全球市值最高的上市公司,雖然目前再度被蘋果、英偉達和微軟反超,但亞馬遜的價值已經(jīng)被市場承認,目前市值穩(wěn)定在2.5萬億左右。

亞馬遜不是個例,另一家長期虧損且差點破產(chǎn)的代表公司,就是現(xiàn)在網(wǎng)友熟知的特斯拉。2003–2019 年,特斯拉累計虧損超420億元,尤其是2017年至2018年,特斯拉CEO埃隆·馬斯克(Elon Musk)在接受采訪時表示,今年在實現(xiàn)Model3產(chǎn)量目標前,特斯拉距離“破產(chǎn)不足10周”。

2018年的特斯拉,飽受“電動車不可能規(guī)模化”“智駕是PPT”等質(zhì)疑,而且當時電動車產(chǎn)業(yè)鏈也不成熟,電池成本居高不下,軟件決定車輛等級的宣傳也顛覆了大量消費者對汽車的認知。但隨著電池成本下降,智駕軟件(FSD)帶來收益,特斯拉終于成為市場認可的焦點。

除這兩家公司外,云計算不僅曾長期虧損,還在2006年至2010年期間被市場“無視”,一度被定義為“IT外包2.0”,包括從業(yè)人員在內(nèi)的大多數(shù)人,認為企業(yè)不會把核心系統(tǒng)放云上,時至今日,云計算成為全球最賺錢的云平臺,A股上市公司中,傳統(tǒng)企業(yè)轉(zhuǎn)型最多的就是云計算公司,長期毛利率30%+。當行業(yè)站上風(fēng)口時,又有業(yè)內(nèi)人士公開表示:“前期虧損是入場門檻”。

或許有人認為,無論是亞馬遜、特斯拉,還是云計算以及移動互聯(lián)網(wǎng),這些曾經(jīng)長期虧損,如今實現(xiàn)盈利的公司或行業(yè)已經(jīng)跑出來了,隨便世人如何謳歌其篳路藍縷的奮斗過程,并非所有長期虧損的公司或行業(yè),最終都能等來盈利拐點。

事實是,科技浪潮涌來前期的普遍性虧損,其共同特征并非“忽視盈利”,而是將資源持續(xù)投入到難以復(fù)制的系統(tǒng)性能力建設(shè)中。一旦基礎(chǔ)設(shè)施成型,盈利拐點往往以非線性方式出現(xiàn)。

亞馬遜虧了十年,卻把錢砸進了倉儲、物流和云計算,最終變成了全球最重的電商與云基礎(chǔ)設(shè)施;特斯拉多年燒錢,是在賭電池成本曲線和規(guī);圃欤坏┛邕^臨界點,利潤瞬間釋放;云計算早期長期不被看好,卻用虧損換來了數(shù)據(jù)中心和調(diào)度系統(tǒng),最終成為高毛利的現(xiàn)金牛。

對于一個新興行業(yè)而言,真正危險的,從來不是虧損本身,而是虧損沒有換來任何不可替代的東西。

02 大模型的廣泛應(yīng)用場景和不可替代性

恰巧,現(xiàn)在虧損的大模型行業(yè),就具有顯著的不可替代性。

大模型,是通過海量數(shù)據(jù)訓(xùn)練、具備通用認知與生成能力、可以跨任務(wù)遷移使用的人工智能模型。通常指參數(shù)規(guī)模達到數(shù)十億乃至萬億級,通過大規(guī)模數(shù)據(jù)與算力訓(xùn)練而成,具備跨任務(wù)泛化能力的人工智能模型, 核心特征在于:模型不再針對單一任務(wù)設(shè)計,而是通過統(tǒng)一的模型結(jié)構(gòu),在多種復(fù)雜任務(wù)中表現(xiàn)出通用智能能力。大模型可以賦能多個行業(yè),上到航天、航空,下到港口、保潔、采礦。

以前文的特斯拉為例,2021年,特斯拉推出BEV+Transformer智能駕駛解決方案,解決了2D到3D轉(zhuǎn)換、多傳感器融合以及復(fù)雜場景感知的難題。

在感知階段,BEV(鳥瞰圖)通過將純視覺傳感器的多模態(tài)數(shù)據(jù)融合在同一平面上的方法,將2D平面圖像升級至BEV視角,以全局視角解決數(shù)據(jù)之間的遮擋和重疊問題,提高物體檢測和跟蹤的精度,從而擺脫對高精地圖的依賴。

深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型(Transformer)的自注意力機制能夠分析BEV特征圖中的不同位置特征,實現(xiàn)從二維圖像特征到三維向量空間的轉(zhuǎn)換,幫助系統(tǒng)理解物體之間的空間關(guān)系,進而提升感知能力。

除此之外,Transformer能夠輸出環(huán)境的高層次語義信息,包括物體類別、位置、運動趨勢等,在決策模塊中,通過結(jié)合高層信息與其他預(yù)測結(jié)果,可生成更加準確的駕駛策略。BEV+Transformer架構(gòu)顯著提升了系統(tǒng)的感知和決策能力,增強了系統(tǒng)對于“長尾場景”的適應(yīng)性,逐漸具備應(yīng)對城市道路的復(fù)雜環(huán)境的能力,打破了智能駕駛只適用于高速場景的局限,開始向城市 NOA 逐步探索。 

2022年,特斯拉進一步引入占用網(wǎng)絡(luò)技術(shù)(OCC)以提高智能駕駛的動態(tài)障礙物識別和復(fù)雜場景泛化能力;2023 年,特斯拉端推出將“感知-決策-控制”全流程整合為端到端一體化架構(gòu)的智能駕駛解決方案。

在特斯拉的擾動下,智駕行業(yè)紛紛引入大模型,并演進出“模塊化端到端”與“一體化端到端”的技術(shù)路徑之爭。

模塊化端到端方面,2024年4月華為發(fā)布設(shè)計為“GOD感知網(wǎng)絡(luò)+PDP決策網(wǎng)絡(luò)+本能安全網(wǎng)絡(luò)”的乾崑ADS3.0架構(gòu),采用三網(wǎng)協(xié)同的端到端大模型,通過GOD提供無損感知數(shù)據(jù)、PDP進行擬人決策、本能安全網(wǎng)絡(luò)兜底應(yīng)急的策略,形成“感知-決策-安全”閉環(huán)。

2024年5月小鵬發(fā)布國內(nèi)首個量產(chǎn)端到端大模型XNGP+,整合神經(jīng)網(wǎng)絡(luò)XNet、規(guī)控大模型XPlanner和大語言模型XBrain三大板塊,XBrain由感知模塊XNet2.0和規(guī)劃控制模塊XPlanner構(gòu)成,二者通過神經(jīng)網(wǎng)絡(luò)直接連接實現(xiàn)模塊間的深度耦合,通過三網(wǎng)融合形成了小鵬自己的端到端智駕大模型。

一體化端到端方面,2024年10月理想推出OneModel端到端+VLM雙系統(tǒng)架構(gòu),通過單一模型端到端架構(gòu)(One Model)實現(xiàn)從傳感器輸入到行駛軌跡輸出的全鏈條直接映射,同時引入視覺語言模型(VLM)構(gòu)建雙系統(tǒng)并行框架,利用VLM的認知推理能力規(guī)范端到端模型的行為下限,從而在擬人化駕駛、復(fù)雜場景處理和安全冗余層面實現(xiàn)突破。

端到端架構(gòu)下,模型從海量數(shù)據(jù)中學(xué)習(xí)規(guī)律,不再依賴人工迭代規(guī)則庫以新駕駛場景,具備了全局優(yōu)化能力和數(shù)據(jù)驅(qū)動的泛化特性,真正實現(xiàn)了從“規(guī)則驅(qū)動”向“數(shù)據(jù)驅(qū)動”的跨越,進一步解決部分長尾場景與擬人化決策,顯著提升了智能駕駛系統(tǒng)的性能,推動智能駕駛向L3級別過渡。

進入L3時代后,端到端模型依舊存在明顯的數(shù)據(jù)瓶頸和泛化缺陷。在端到端架構(gòu)下,模型觀看大量的駕駛視頻片段,學(xué)習(xí)場景的時空特征與駕駛策略的映射關(guān)系,直接生成車輛控制指令。

端到端技術(shù)具備無損傳遞、全局優(yōu)化和一定的泛化能力,能夠達到L2級別部分自動駕駛的要求,但是該技術(shù)自身的局限性制約著L3級別下全動態(tài)駕駛?cè)蝿?wù)自主執(zhí)行的實現(xiàn)。

此時就要進一步引入VLA 大模型,即Vision(視覺)、Language(語言)、Action(動作),可以從能夠輸出動作指令,升級到能夠思考為什么要輸出相應(yīng)的動作指令。國內(nèi)企業(yè)理想、小鵬均布局了該技術(shù)領(lǐng)域,并積累了一定技術(shù)儲備。

大模型在智駕領(lǐng)域取得的成就,再次推動算力領(lǐng)域的投入,包括車載算力芯片研發(fā)和云計算儲備,這也是大模型行業(yè)內(nèi)玩家一直虧損,卻一直有投資的主要原因之一,就是可以推進多行業(yè)融合,實現(xiàn)多行業(yè)共同迭代。

03 大模型迭代路徑和終局猜想

能幫助其他行業(yè)更好發(fā)展的大模型,沒有理由被市場淘汰,更不會等不到屬于行業(yè)拐點,F(xiàn)在唯一需要擔(dān)心的,是在這個行業(yè)里,誰能活到不需要講故事的那一天。

當前主流大模型集中于中美,基于Artificial Analysis的數(shù)據(jù)與模型智能指標觀察,當前頭部模型整體由美國陣營領(lǐng)跑,海外最具代表性者為OpenAI、xAI、Anthropic與Google;曾在開源方向表現(xiàn)突出的Meta,受Llama4系列推進不順等因素影響,模型性能階段性落后。

國內(nèi)方面,從模型性能維度評估,DeepSeek、Qwen(阿里系)、智譜模型位居前列,Kimi與MiniMax等亦處于國內(nèi)較為領(lǐng)先的行列。騰訊、百度的模型沒有被納入排行榜單,但其模型依然各有特色,上述格局反映了中美在基礎(chǔ)模型與工程化推進上的綜合優(yōu)勢。

從現(xiàn)階段表現(xiàn)看,Google在上述各維度的能力布局相對均衡且覆蓋面廣,體現(xiàn)為底層自研硬件(TPU系列)到應(yīng)用的端到端一體化優(yōu)勢。相對而言,其他玩家也在逐步補齊短板,如OpenAI在底層定制化硬件方面暫處于落后位置,但是據(jù)路透社信息,OpenAI已宣布與博通合作開發(fā)新一代ASIC芯片,以期強化算力與成本控制的基礎(chǔ)能力;國內(nèi)DeepSeekV3.1及之后系列、智譜GLM4.6在Day0即適配了國產(chǎn)芯片。

梳理上述模型不難發(fā)現(xiàn),當前全球大模型仍以Transformer的decoder-only架構(gòu)為核心主流。盡管近年來陸續(xù)出現(xiàn)如Mamba、KAN等新型網(wǎng)絡(luò)結(jié)構(gòu),但尚未在工程實踐中形成主導(dǎo)地位,Transformer體系依舊占據(jù)核心位置,短期內(nèi),Transformer仍將是大模型研發(fā)與優(yōu)化的基礎(chǔ)框架,其生態(tài)與工具鏈優(yōu)勢將繼續(xù)鞏固主導(dǎo)地位。

目前有可能挑戰(zhàn)Transformer架構(gòu)的,就是Sora搭載的Diffusion架構(gòu),只不過該架構(gòu)主要用于圖像與視頻生成。

2024年初Sora的發(fā)布,展現(xiàn)了Diffusion與Transformer結(jié)合的潛力,顯著提升了視頻生成的一致性、分辨率及時長表現(xiàn)。25年5月,Google首次嘗試將Diffusion算法用于文本生成,發(fā)布Gemini Diffusion預(yù)覽版,字節(jié)隨后也推出Seed Diffusion以跟進相關(guān)方向。目前有觀點認為,字節(jié)Seed Diffusion Preview性能超過Google Gemini Diffusion。

Transformer體系下,Scaling Law是核心邏輯,Scaling Law2.0以“后訓(xùn)練+強化學(xué)習(xí)”為核心路徑,Grok迭代驗證該方向。

圍繞xAI的發(fā)布節(jié)奏可見Scaling Law側(cè)重的遷移。在Scaling Law1.0階段,對應(yīng)xAI自Grok2到Grok3的迭代,主要通過將預(yù)訓(xùn)練算力擴大約10倍帶來性能躍升;Grok3的推理模型標志著Grok模型進入后訓(xùn)練階段;至Grok4發(fā)布,其后訓(xùn)練(Reasoning)相較Grok3再度將算力放大約10倍,使得后訓(xùn)練算力需求接近預(yù)訓(xùn)練。

從目前頭部模型迭代進度看,后訓(xùn)練的算力需求還有可能繼續(xù)增加。據(jù)xAI官網(wǎng),Grok4依托20萬卡級別的Colossus大規(guī)模集群進行訓(xùn)練,因此,持續(xù)擴大后訓(xùn)練的模式與海外更高密度算力核集群稟賦相匹配。

Scaling Law2.0體現(xiàn)出算力重心由預(yù)訓(xùn)練向后訓(xùn)練與推理環(huán)節(jié)遷移,并對高密度集群供給提出更高要求。Grok 4.1又在強化學(xué)習(xí)獎勵范式上引入 Agent 模型獎勵,并繼續(xù)在后訓(xùn)練算力上有數(shù)量級提升。

值得注意的是,在大模型迅速迭代下,各家公司除了追求技術(shù)外,還紛紛涌入算力擴張之路,尤其以O(shè)penAI最為迅猛。

而國內(nèi)企業(yè)由于算力受限,不得不進行創(chuàng)新性架構(gòu)優(yōu)化,抓住Attention本質(zhì),以阿里、DeepSeek最具代表性。

從當前技術(shù)演進看,Transformer架構(gòu)在中短期內(nèi)仍將是主流,其核心算法Attention機制(通過計算Tokens間相關(guān)性以預(yù)測最優(yōu)輸出),構(gòu)成了模型性能的關(guān)鍵環(huán)節(jié)。因此,國內(nèi)頭部廠商普遍聚焦于Attention層面的優(yōu)化與創(chuàng)新,其中以阿里的Qwen系列與DeepSeek的模型為典型代表。在算力約束難以短期突破的情況下,架構(gòu)創(chuàng)新與算法精煉將成為國內(nèi)基礎(chǔ)模型競爭的主要方向。

以DeepSeek V3.2為例,DeepSeek V3.2-Exp 在性能上與上一版 V3.1-Terminus 差距不大,并將 V3.2 定位為“邁向新一代架構(gòu)”的中間步驟。V3.2最大的進步體現(xiàn)在DSA(Dynamic Sparse Attention)的引入,模型訓(xùn)練與推理效率顯著提升,相比上一代模型API輸入與輸出成本分別下降約50%與75%以上(推理成本)。

DSA的核心優(yōu)化集中在Attention機制層,通過算子級與內(nèi)核級的工程化重構(gòu),在長上下文任務(wù)中顯著壓縮訓(xùn)練與推理開銷,同時盡量保持模型性能穩(wěn)定,延續(xù)了以架構(gòu)精修換取綜合效率提升的技術(shù)路線,該版本體現(xiàn)出在算力約束下的務(wù)實取舍,既為后續(xù)架構(gòu)演進奠定技術(shù)基礎(chǔ),也展示出國產(chǎn)模型在底層優(yōu)化方面的持續(xù)積累。

DSV3框架的成功,令很多模型在DeepSeek V3框架引入針對性架構(gòu)優(yōu)化,如Kimi K2,K2主要改進包括驗證在激活參數(shù)不變的條件下,單純提升MoE總參數(shù)量依然符合Scaling規(guī)律,訓(xùn)練與驗證loss持續(xù)下降且無過擬合跡象;適度減少Attentionhead數(shù)量,在保持性能穩(wěn)定的同時顯著降低算力開銷;僅保留首層dense層,其余全部采用MoE結(jié)構(gòu),以改善首層router負載不均并提升專家利用效率;引入無分組的簡化router,優(yōu)化計算路徑與參數(shù)調(diào)度;將模型參數(shù)從V3的671B提升到1T;引入MuonClip優(yōu)化器,顯著提升訓(xùn)練穩(wěn)定性與收斂一致性。

得益于上述改進,K2在維持與DeepSeekv3相當?shù)挠?xùn)練與推理成本下,實現(xiàn)了更低loss 與更高參數(shù)效率。K2的路徑體現(xiàn)了國內(nèi)團隊在算力約束下通過結(jié)構(gòu)精修延展Scaling規(guī)律、提升模型性價比的工程化思路。

在頭部玩家的合力推動下,推理/非推理模型統(tǒng)一后,模型應(yīng)用轉(zhuǎn)折點或?qū)⒌絹,比如GPT-5以統(tǒng)一架構(gòu)實現(xiàn)快思與深思的自適應(yīng)協(xié)同,并以路由器按任務(wù)動態(tài)分配資源,GPT-5.1以自適應(yīng)推理與細化模型分工提升智能表現(xiàn)與交互體驗;DeepSeek V3.1以混合推理架構(gòu)落地統(tǒng)一模型,實現(xiàn)單體兼容快思與深思。

在統(tǒng)一系統(tǒng)落地之后,頭部大模型廠商的研發(fā)重心正逐步由底層模型優(yōu)化轉(zhuǎn)向上層應(yīng)用與商業(yè)化探索,技術(shù)競爭正從模型理論創(chuàng)新轉(zhuǎn)向產(chǎn)品體驗與生態(tài)建設(shè)。

04 結(jié)語

當大模型的“底座”逐漸統(tǒng)一,真正的競爭才剛剛開始。

現(xiàn)階段,大模型行業(yè)就像高速公路已經(jīng)修好,接下來拼的就不再是誰會鋪路,而是誰能造出更多跑得起來的車。

當大模型的底層系統(tǒng)逐步統(tǒng)一,廠商的競爭自然從“模型有多強”,轉(zhuǎn)向“產(chǎn)品好不好用、生態(tài)能不能跑起來”。技術(shù)優(yōu)勢開始讓位于商業(yè)能力,真正的考驗才剛剛開始。

行業(yè)內(nèi)的頭部廠商,早已不再糾結(jié)模型再大一點、參數(shù)再多一點,而是把重心轉(zhuǎn)向:誰的產(chǎn)品更好用,誰能先把智能賣出去。這意味著,大模型之爭正在從實驗室里的理論創(chuàng)新,轉(zhuǎn)移到真實世界的產(chǎn)品體驗和生態(tài)爭奪,今天正在虧損的企業(yè),誰敢斷言不會迎風(fēng)起飛,成為下一個亞馬遜或者特斯拉?

© THE END

素材皆來自官方公開資料

本文不構(gòu)成任何投資建議。

本文由貝克街探案官原創(chuàng),未經(jīng)許可,請勿轉(zhuǎn)載。

圖片源自公開資料如有侵權(quán)聯(lián)系刪除

       原文標題 : 持續(xù)燒錢的大模型,阻擋不了AI行業(yè)的熱情

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號