123,123

挑戰(zhàn)英偉達(dá)算力霸權(quán)？多倫多一家創(chuàng)企將大模型“刻進(jìn)”芯片

2026-02-27 13:48

是破局突圍，還是刻舟求劍？

在硅谷當(dāng)下的宏大敘事中，算力即權(quán)力。

英偉達(dá)的 GPU 似乎成了通往AGI唯一且昂貴的門票。當(dāng)整個行業(yè)都在狂熱地堆疊“更大、更貴、更耗電”的 GPU 集群時，一種極具顛覆性的底層技術(shù)叛逆卻在暗處悄然發(fā)生。

公司官宣.png

近日，一家成立不到三年、位于多倫多的初創(chuàng)公司 Taalas 拋出了一個讓半導(dǎo)體與 AI 業(yè)界側(cè)目的方案：他們將 Meta 的 Llama 大模型直接“硬連線”（Hardwired）進(jìn)了 ASIC（專用集成電路）芯片。這并非一次常規(guī)的硬件制程升級，而是一場物理層面的暴力重構(gòu)。

由Tenstorrent前聯(lián)合創(chuàng)始人Ljubisa Bajic帶隊的這群工程師，不再依賴昂貴的HBM顯存，拋棄了液冷：模型不再是以軟件代碼的形式運(yùn)行在通用硬件上，也不再需要頻繁地從高帶寬顯存（HBM）中吞吐成百上千 GB 的權(quán)重數(shù)據(jù)。Llama 龐大的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和數(shù)十億參數(shù)，被直接固化進(jìn)物理電路，成為了芯片本身——芯片即模型，模型即芯片。

在這塊采用臺積電6納米工藝、面積達(dá)815平方毫米的芯片上，單用戶運(yùn)行Llama 3.1 8B的推理吞吐達(dá)到了令人瞠目的17,000 tokens/秒。作為對比，這個速度是英偉達(dá)最頂尖GPU的數(shù)十倍，是人類閱讀或思考速度的成百上千倍。生成一部詳盡的二戰(zhàn)逐月編年史，僅需0.138秒。

這一反常識的技術(shù)路線，究竟是打破算力瓶頸的終極突破，還是無視模型迭代規(guī)律的“刻舟求劍”？

一、歷史的鐘擺

天下苦“內(nèi)存墻”久矣

Taalas 之所以做如此激進(jìn)的嘗試，是因?yàn)楫?dāng)前 AI 產(chǎn)業(yè)有一個隱疾：內(nèi)存墻（Memory Wall）。

自計算機(jī)誕生以來，統(tǒng)治整個行業(yè)的基石是“馮·諾依曼架構(gòu)”，其設(shè)計中就存在計算與存儲分離的特點(diǎn)：需要計算時，就從后臺把數(shù)據(jù)搬運(yùn)到舞臺上，算完再搬回去。

在模型只有幾兆、幾十兆的時代，這個架構(gòu)運(yùn)轉(zhuǎn)良好。但是，當(dāng)大語言模型膨脹到幾百億、上千億參數(shù)時，這一經(jīng)典架構(gòu)正在成為最大的絆腳石。GPU 運(yùn)行大模型進(jìn)行推理時，它并沒有把大部分精力花在計算上，而是被迫變成了一個疲于奔命的“搬運(yùn)工”——海量的模型權(quán)重數(shù)據(jù)需要在顯存和計算單元之間來回穿梭，高達(dá) 80% 的功耗和延遲都浪費(fèi)在了這種數(shù)據(jù)的物理搬運(yùn)上。這不僅造就了英偉達(dá)龐大的護(hù)城河，也直接捧紅了價格極其昂貴的 HBM 存儲芯片。AI行業(yè)苦“內(nèi)存墻”久矣，它讓 AI 推理的成本居高不下，讓數(shù)據(jù)中心變成了吞噬電力的巨獸。

Taalas 的 ASIC 路線，本質(zhì)上是對這筆“算力稅”的徹底逃避。當(dāng)模型權(quán)重不再是以數(shù)據(jù)的形式存在于內(nèi)存中，而是變成了固化的晶體管開閉狀態(tài)，數(shù)據(jù)搬運(yùn)的動作就在物理層面上被抹除了。

二、絕對速度與“電子牛馬”

商業(yè)落地的場景價值

Taalas打破內(nèi)存墻帶來的最直接后果，是成本和能效比的恐怖斷層。

傳統(tǒng)的GPU數(shù)據(jù)中心是名副其實(shí)的“電老虎”，動輒需要液冷伺候。而Taalas的HC1芯片，單顆功耗僅約250W。即使部署10顆芯片，總功耗不過2.5千瓦，僅靠常規(guī)的空氣冷卻就能穩(wěn)定運(yùn)行。根據(jù)Taalas官方及業(yè)界測算，其百萬Token的推理成本僅為0.0075美元左右，是傳統(tǒng)GPU方案的二十分之一甚至更低。在“唯快不破”和“降本增效”成為行業(yè)鐵律的今天，這組數(shù)據(jù)的沖擊力毋庸多言。

從工程學(xué)的角度來看，這顯然是一次驚人的效率躍升；而在模型快速迭代的今天，一個不能更新、不能運(yùn)行其他模型的芯片，聽起來顯然又像個笑話。但是，如果我們跳出“打造全知全能AGI”的宏大敘事，將目光投向海量的商業(yè)垂直場景，也許會發(fā)現(xiàn)，這種“固化”非但不是缺陷，反而可能是某些場景下的最優(yōu)解。

在真實(shí)的商業(yè)世界里，并非所有場景都需要一個通曉量子力學(xué)、能寫莎士比亞十四行詩的GPT5甚至更新的模型。大部分場景需要的，是一個極其穩(wěn)定、便宜、速度極快且不需要休息的“電子牛馬”。

想象一下工業(yè)流水線上的毫秒級殘次品視覺識別、智能汽車?yán)镄枰^對零延遲響應(yīng)的端側(cè)語音中樞、數(shù)以億計的家用陪伴機(jī)器人或兒童玩偶……在這些場景中，企業(yè)根本不在乎你能否兼容最新的大模型框架，他們在乎的是：能不能用幾美分的成本，把手頭這件特定的任務(wù)做到光速？

Taalas的HC1，正好可以解決這種“規(guī)�；瘑我蝗蝿�(wù)”。當(dāng)17,000 tokens/秒的速度應(yīng)用在語音助手上，AI的回答將比人類的神經(jīng)反射還要快，“等待LLM思考”的轉(zhuǎn)圈動畫將徹底成為歷史。一個原本需要幾百瓦功率、必須插在液冷服務(wù)器上的大模型，未來也許只需幾瓦的電量，就能被輕易塞進(jìn)一臺掃地機(jī)器人、一部智能手機(jī)，甚至是一副輕薄的AI眼鏡中。真正的“萬物皆 AI”，也只有在算力和功耗被極度壓縮后才可能實(shí)現(xiàn)。

三、刻舟求劍的隱憂

被“凍結(jié)”在芯片里的智慧

盡管如此，鑒于當(dāng)前 AI 算法一日千里的演進(jìn)速度，Taalas 的路線極具風(fēng)險的另一面也是不容忽視的。將流動的軟件代碼固化為冰冷的物理電路，意味著犧牲了靈活性。這里有兩個極其尖銳的現(xiàn)實(shí)錯位。

首先是迭代周期的錯位。如今，開源大模型的進(jìn)化是以“月”甚至“周”為單位的。但一顆先進(jìn)制程的芯片，從架構(gòu)設(shè)計、流片到最終量產(chǎn)，通常需要 18 到 24 個月。而當(dāng)它走下產(chǎn)線時，它所“凍結(jié)”的 Llama 模型，在日新月異的算法世界里，是否已經(jīng)淪為一個落后的“古董”？

再者是容錯率的錯位。大模型如果出現(xiàn)嚴(yán)重的幻覺或安全漏洞，可以通過微調(diào)或推送 OTA 補(bǔ)丁來迅速修復(fù)。但是，一塊已經(jīng)刻好物理電路的芯片該怎么打補(bǔ)丁呢？一旦芯片內(nèi)固化的模型存在致命缺陷，整批昂貴的芯片大概率只能淪為硅垃圾。

對于這些致命的商業(yè)風(fēng)險，Taalas也給出了他們的防守策略。首先是微調(diào)的保留， HC1雖然鎖死了基礎(chǔ)權(quán)重，但依然保留了對低秩自適應(yīng)（LoRA）微調(diào)的支持。這意味著企業(yè)可以在物理大模型的外部，外掛小型的“知識補(bǔ)丁”來調(diào)整特定任務(wù)的表現(xiàn)。其次是極速的物理迭代，Taalas CEO 透露，改變模型并不需要重新設(shè)計整個底層硅片，而只需更改芯片最上層的兩層金屬層。這種制造工藝的創(chuàng)新，將新模型的硬件化周期壓縮到了驚人的兩個月，從而幫助模型實(shí)現(xiàn)小幅迭代。

縱然如此，這依然是一場與時間賽跑的豪賭。在這場博弈中，Taalas試圖用硬件的極致靜態(tài)，去捕捉 AI 算法的極致動態(tài)，不可避免地帶有一些“刻舟求劍”的悲壯色彩。

四、蝴蝶效應(yīng)

誰在戰(zhàn)栗，誰在狂歡？

盡管局限性很明顯，但Taalas這種“模型即芯片”的路線的面世，依然撕開了英偉達(dá)絕對壟斷帝國的一道裂痕。

英偉達(dá)的地位，很大程度上歸功于其CUDA軟件生態(tài)。全世界的開發(fā)者都在用CUDA寫程序，這使得硬件的壁壘變成了堅不可摧的軟件生態(tài)壁壘。但是，如果AI的盡頭不再需要軟件呢？

Taalas的路線意味著，在推理這個占據(jù)未來AI算力90%以上份額的市場中，CUDA的護(hù)城河被徹底繞過了。模型訓(xùn)練依然離不開英偉達(dá)的GPU，但在最終落地應(yīng)用的端側(cè)和專業(yè)推理數(shù)據(jù)中心，ASIC專有芯片正在掀起一場“去英偉達(dá)化”的起義。

另外，隨著生成式AI加速進(jìn)入商業(yè)落地，Taalas之外，Groq、Cerebras、Etched等公司也分別在極速響應(yīng)、海量吞吐、特定算法加速方面進(jìn)行著不同的探索，都有可能一點(diǎn)點(diǎn)蠶食推理市場，撼動曾經(jīng)固若金湯的英偉達(dá)帝國。

同時，存儲巨頭的狂歡也極可能降溫。目前，HBM芯片是存儲行業(yè)的超級印鈔機(jī)。但如果模型權(quán)重被內(nèi)化于電路，對龐大顯存的依賴將大幅降低。無存算分離架構(gòu)一旦普及，存儲廠商在 AI 時代的暴利預(yù)期將被大幅擠壓。

正因如此，Taalas將大模型刻進(jìn)硅片，絕不是AI算力的終點(diǎn)，在不遠(yuǎn)的未來，我們也許會看到算力市場的明顯分化：

云端與訓(xùn)練場依然是英偉達(dá)GPU和通用加速器的天下，用于探索AGI的智力邊界，處理那些最復(fù)雜、最多變的未知任務(wù)。

端側(cè)與流水線則是Taalas這類“物理硬化”芯片的汪洋大海，它們?nèi)缟匙影惚阋�，如光速般敏捷，滲透進(jìn)每一個路燈、每一臺家電、每一個工業(yè)機(jī)器人中。

甚至，當(dāng)我們把目光放得更長遠(yuǎn)一些，當(dāng)量子計算真正走向?qū)嵱�，或者類腦計算實(shí)現(xiàn)突破時，今天我們?yōu)榱送黄岂T·諾依曼架構(gòu)所做的所有努力，可能都會成為技術(shù)史上一次次充滿勇氣而又略顯笨拙的嘗試。

結(jié)語

從“全能大腦”到“硬件本能”

計算架構(gòu)的演進(jìn)從來不是單向的直線，而是螺旋上升的復(fù)調(diào)。從早期的專用打孔機(jī)，到通用CPU，到專為圖形處理誕生的GPU，再到如今的AI ASIC，計算的歷史，就是在“通用靈活性”與“專用極致效率”之間不斷搖擺的過程。

Taalas的探索，或許在今天看來略顯激進(jìn)，甚至面臨“出廠即落后”的窘境，但它向我們拋出了一個極具哲學(xué)意味的產(chǎn)業(yè)命題：

AI的終極演化形態(tài)究竟是什么？

它是否必須永遠(yuǎn)保持像水一樣可以隨意重塑的“通用軟件大腦”？

還是說，就像生物歷經(jīng)億萬年進(jìn)化一樣，AI 也會將其最基礎(chǔ)、最成熟的智能（比如基礎(chǔ)的視覺識別、語言邏輯解析），內(nèi)化為無需思考、極低功耗運(yùn)行的“硅基硬件本能”？