123,123,123

Lex Fridman硬核訪談，5萬字2026 AI全景報告

2026-02-03 14:28

作者｜林易

編輯｜重點君

2月1日，知名科技播客博主Lex Fridman與兩位機器學習領域的重量級嘉賓開展了一場深度對話。Sebastian Raschka是知名機器學習研究員與教育家，Nathan Lambert是艾倫人工智能研究所（AI2）的后訓練負責人，同時也是RLHF領域的權威專家。兩位嘉賓恰好代表了當前AI領域的兩大核心關切：原理與技術路線。

這場長達數小時的硬核訪談信息密度極高，既是對過去一年AI技術突破的復盤，更是對2026年技術風向的深度預判。我們給你劃下重點：

第一，關于中美AI競爭：2025年的最大變量是DeepSeek時刻，中國公司在開源權重模型上已占據主導地位。

2025年1月發(fā)布的DeepSeek R1被視為中美AI競爭的分水嶺，該模型以更低的算力成本達到了接近最先進（SOTA）的性能，震驚了業(yè)界。Nathan Lamber說，在開源模型方面表現強勢。DeepSeek、阿里Qwen、MiniMax、Kimi等公司發(fā)布了大量高性能開源模型，贏得了開源社區(qū)的青睞。

相比之下，美國曾經的開源標桿Llama卻在這一年迷失了方向。Sebastian Raschka說，Meta試圖通過構建巨大的Llama 4模型在基準測試中擊敗ChatGPT，但陷入刷榜陷阱，忽略了AI領域真正需要的是輕量級、可用的模型。這導致Llama留下的生態(tài)空白正在被中國的開源模型迅速填補。

第二，主要AI實驗室與模型現狀：Anthropic最有序，OpenAI內部混亂，Meta開源策略可能動搖。

Anthropic：Claude Opus4.5是當前頂流，特別是在編程方面表現出色，深受開發(fā)者喜愛。Anthropic組織最有序、最不混亂。

Google：Gemini 3 雖發(fā)布時營銷聲量不如對手，但性能極其強大。Google的優(yōu)勢在于擁有完整的全棧垂直整合能力（TPU芯片、云計算、模型、應用），利潤率極高，不依賴英偉達的高價GPU芯片。

OpenAI：盡管內部混亂，但仍具有極強的交付能力。GPT-5系列（包括o1/o3推理模型）通過推理時計算節(jié)省了大量成本，并定義了新范式。

Meta：LLaMA系列似乎面臨內部政治和激勵問題，未來是否會有開源的LLaMA5存疑，Meta的開源策略可能在動搖。

第三，關于技術范式轉移：預訓練的紅利正在消退，AI技術戰(zhàn)場轉向后訓練和RLVR。

Nathan Lamber認為，預訓練已經變得極其昂貴且邊際效益遞減，而現在的模型能力提升重點源自后訓練階段的創(chuàng)新。2025年最大的技術突破是帶有可驗證獎勵的強化學習（RLVR）。這徹底改變了模型的訓練方式。

傳統(tǒng)的基于人類反饋的強化學習（RLHF）更多是調整模型的語氣和風格，屬于微調偏好，容易觸及天花板。RLVR則是讓模型在數學、代碼等有客觀答案的領域進行大規(guī)模試錯。通過“生成-評分”的迭代循環(huán)，模型能像人類學生一樣，在數萬次的練習中自我修正，從而解鎖預訓練中已有的知識。

預訓練是計算密集型（算力受限），而后訓練階段的RLVR則更像是內存密集型（內存受限），更看重GPU的運行時間而非單純的算力堆疊。

第四，關于AI編程：AI催生Vibe Coding，軟件工程正從寫代碼轉向系統(tǒng)設計。

AI對編程領域的重塑遠超預期。Vibe Coding讓開發(fā)者不再糾結于具體的代碼細節(jié)，而是通過自然語言描述需求，快速生成并修改代碼Diffs。在這種模式下，人類的角色從代碼編寫者轉變?yōu)橄到y(tǒng)設計師和審查者。

Nathan Lambert預測，隨著AI能力的提升，軟件開發(fā)將變得高度工業(yè)化。雖然完全自動化的超級智能編程因數據分布的參差不齊而難以在短期內完美實現，但工具的門檻正在急劇降低。未來，一個不懂底層代碼的人，只要擁有清晰的系統(tǒng)設計思維，利用Claude Code或Cursor等工具，就能構建出復雜的軟件系統(tǒng)。

第五，關于Scaling Laws：規(guī)模定律并沒有失效，但維度變得更加豐富了。

針對AI發(fā)展是否遇到瓶頸的質疑，嘉賓們給出了否定的回答。Nathan Lambert認為，Scaling Laws依然是技術發(fā)展的基石，但現在的擴展已從單一的預訓練規(guī)模分裂為三個維度：

傳統(tǒng)規(guī)模定律：繼續(xù)堆疊模型參數和數據集。

強化學習規(guī)模：可以進行多長時間的試錯學習。

推理側算力：讓模型在回答前思考更久，生成更多的思維鏈Token。

這種多維度的擴展策略，使得科技巨頭們在2026年依然敢于投入數百億美元建設吉瓦級規(guī)模的算力集群。Sebastian Raschka形象地比喻：在一個擁有無限算力的理想世界里，你會把這三個維度的旋鈕全部拉滿；但在現實中，這變成了一場關于性價比的權衡游戲，大公司需要考慮是花1億美元訓練更大的模型，還是花200萬美元做推理側擴展。

第六，關于AGI的終局：單一通用模型的夢想已經破滅，未來屬于多智能體與專業(yè)化模型。

對于未來，嘉賓們打破了一個全能模型統(tǒng)治世界的幻想。Nathan Lambert認為，未來的AI生態(tài)不會是贏家通吃，而是一個分工明確的系統(tǒng)。

未來不會依賴一個單一的ChatGPT去處理所有事務，而是會有專門負責法律、醫(yī)療、編程的垂直模型�，F實正在演變?yōu)槿藗冡槍Σ煌蝿照{用不同的Agent。未來的數據中心里，將是許多專門的AGI在相互交流、管理和執(zhí)行任務。

以下為Lex Fridman播客訪談實錄：

1、中國 vs 美國：誰將贏得 AI 競賽？

Lex Fridman：以下是一場關于人工智能前沿動態(tài)的對話，涵蓋了過去一年AI領域激動人心的突破，以及我們對未來一年的展望。雖然內容有時會涉及深度的專業(yè)技術，但我們力求讓非專業(yè)人士也能聽懂，同時絕不降低內容的專業(yè)深度。我很榮幸能邀請到AI社區(qū)中我最喜歡的兩位嘉賓：Sebastian Raschka 和 Nathan Lambert。他們都是備受尊敬的機器學習研究員、工程師，同時也是優(yōu)秀的傳播者、教育者和作家。Sebastian著有兩本我強烈推薦給初學者和專家的書：第一本是《從零開始構建大語言模型》（Build a Large Language Model From Scratch），另一本是《從零開始構建推理模型》（Build a Reasoning Model From Scratch）。我堅信在機器學習和計算機科學領域，學習并理解某項事物的最佳方式就是親手從零開始構建它。Nathan是艾倫人工智能研究所的后訓練負責人，也是關于人類反饋強化學習（RLHF）權威著作的作者。

Lex Fridman：讓我們從“DeepSeek時刻”這個視角切入。這大約發(fā)生在一年前的2025年1月，當時中國公司DeepSeek發(fā)布了開放權重的DeepSeek R1。我認為可以公平地說，它以更少的算力和更低廉的價格，達到了接近或持平SOTA（最先進）的性能，驚艷了所有人。從那時起到今天，AI領域的競爭在研究和產品層面都變得異常激烈，這種趨勢一直在加速。讓我們今天探討所有這些話題。首先我想問一個尖銳的問題：在國際層面上誰處于領先地位？是中國的一系列公司，還是美國的公司？Sebastian，你認為誰是贏家？

Sebastian Raschka：“贏”這個詞涵蓋面很廣。既然你提到了DeepSeek時刻，我確實認為DeepSeek通過分享開源模型，絕對贏得了那些致力于開放權重模型（open weight models）的人們的心。我認為“贏”包含多個時間尺度：當下、明年，還有十年后。我唯一可以肯定的是，我不認為到了2026年的今天，還會存在哪家公司能掌握其他公司無法觸及的獨占技術。主要原因是研究人員頻繁地更換工作和實驗室，人才在不斷流動。因此，我不認為在技術獲取層面會有明顯的贏家。然而，差異化因素將體現在預算和硬件限制上。這些創(chuàng)意本身并非專利，實現這些創(chuàng)意的方式和資源才是關鍵。所以，目前我看不到一個“贏家通吃”的局面。

Lex Fridman：Nathan，你怎么看？

Nathan Lambert：你可以看到各個實驗室在目標投入上存在差異。為了標記我們錄制的時間點，目前針對Anthropic的Claude Opus 4.5模型的炒作簡直瘋狂。我在過去幾周一直用它構建東西，它的熱度甚至有點像個“梗”了。這很有趣，因為這種熱度非常自然。如果我們回到幾個月前，Google發(fā)布Gemini 3時的營銷手段和驚艷程度都非常高。但隨后11月底Claude Opus 4.5發(fā)布，熱度一路攀升，感覺大家對Gemini 3的討論反而沒那么多了，盡管它剛推出時被視為Google奪回AI架構優(yōu)勢的時機。Gemini 3依然是一款出色的模型，我目前仍在使用它，只是其差異化程度較低。

我同意Sebastian的觀點，創(chuàng)意空間是非常流動的。但在文化層面上，Anthropic以敢于在代碼能力（即Claude Code）上重注而聞名，目前效果很不錯。所以我認為，即使想法可以自由流動，但很大程度上仍然受限于人力投入以及組織的文化氛圍。Anthropic目前看起來是表現得最不混亂的，這算是一個小小的優(yōu)勢。另一方面，在技術層面，中國有很多令人驚嘆的技術。除了DeepSeek之外，還有更多的實驗室。DeepSeek在中國引發(fā)了一場運動，類似于ChatGPT在美國引發(fā)的浪潮，當時所有產品都加上了聊天機器人�，F在中國有大量科技公司正在發(fā)布實力強勁的前沿開源權重模型，以至于我會說DeepSeek在某種程度上正在失去其作為中國卓越開源模型制作者的桂冠，像智譜AI的GLM模型、MiniMax的模型以及月之暗面（Kimi），尤其是在過去幾個月里，表現得更加出色。

Lex Fridman：所以像DeepSeek這樣的一些模型因為開源權重而受到了大眾的喜愛。你認為中國公司發(fā)布開放權重模型的策略會堅持多久？

Nathan Lambert：我認為會持續(xù)幾年。就像在美國一樣，目前還沒有一個清晰的商業(yè)模式。我寫關于開放模型的文章有一段時間了，中國公司也意識到了這一點。他們很聰明，也看到了同樣的限制：許多美國頂尖科技公司出于安全擔憂，不會購買中國公司的API訂閱服務。這在技術領域是長期存在的習慣。因此，這些公司的從業(yè)者將開放權重模型視為一種能力，以此來通過這種方式參與到美國巨大且不斷增長的AI支出市場中。他們對此有著非常務實的認識，而且這對他們很有效。但是開發(fā)這些模型非常昂貴，所以我預計在某個時間點會出現整合，但我不認為這會發(fā)生在2026年。2026年開放模型構建者的數量將比2025年更多，而且其中許多著名的構建者將來自中國。

Lex Fridman：Sebastian，你剛才想補充什么嗎？

Sebastian Raschka：是的。你提到DeepSeek失去領先地位，我在某種程度上認同，但也必須考慮到，我認為他們仍然處于微弱的領先地位。其他模型的情況并非是DeepSeek變差了，而是其他模型正在借鑒DeepSeek的思路。例如你提到的Kimi，采用了相同的架構進行訓練。我們再次看到了這種“跳躍式領先”的情況：一個人發(fā)布了某個東西，另一個緊隨其后。最新的模型往往就是最好的模型。我認為這又回到了那個事實，不會有一個絕對的贏家。

Nathan Lambert：是的。我們還會看到中國公司有著不同的激勵機制。比如DeepSeek非常神秘，而其他一些初創(chuàng)公司則不同，像MiniMax和零一萬物（01.AI）這類公司已經提交了IPO文件，正努力爭取西方市場的關注，并在那里進行了大量推廣。DeepSeek是由幻方量化（Highflyer Capital）這家對沖基金創(chuàng)立的，我們并不確切知道他們將這些模型用于什么，或者他們是否在意商業(yè)化。

Lex Fridman：他們在溝通方面很神秘，但在描述模型工作原理的技術報告方面并不保守，在這方面他們仍然保持開放。我們還應該談談對Claude Opus 4.5的炒作。這其中包含了一些層面，即它作為X（原Twitter）信息繭房里的寵兒的熱度，與實際使用該模型的人數之間存在差距。我認為可以公平地說，ChatGPT和Gemini專注于那些僅僅想使用工具解決日常問題的廣泛用戶群體，那個群體非常龐大。所以關于編程能力的炒作可能并不能完全代表實際的大眾使用情況。

Sebastian Raschka：很多使用模式也是出于知名度和品牌，同時也形成了一種肌肉記憶。ChatGPT已經存在很長時間了，人們習慣了使用它，這像一種飛輪效應。還有一個有趣的觀點是LLM的定制化。例如ChatGPT有記憶功能，你可能有一個訂閱用于處理個人事務，但你不一定想在工作中使用同一個賬號。因為私人生活和工作之間存在界限。我認為這也是一個有趣的切入點，你可能會擁有多個訂閱：一個只用于編寫純凈的代碼，不包含任何個人照片或愛好；另一個則是你個人的東西。我認為未來會是多個并存的。

2、ChatGPT vs Claude vs Gemini vs Grok：誰正在領先？

Lex Fridman：你認為哪個模型贏得了2025年？又有哪些模型將贏得2026年？

Nathan Lambert：在消費級聊天機器人的語境下，問題在于你是否愿意押注Gemini而非ChatGPT。直覺告訴我，這似乎是一個有點冒險的賭注，因為OpenAI一直是該領域的領先者，這在科技行業(yè)會帶來諸多優(yōu)勢�；仡�2025年，勢頭似乎在Gemini這邊，但我認為他們當時的起點太低了。愿Bard以及那些早期的嘗試安息吧。他們能克服組織內部的混亂并實現這一目標，確實值得稱贊。但與此同時，也很難去賭OpenAI會輸。因為他們雖然表面上顯得混亂，但非常擅長讓項目落地。就我個人而言，我對GPT-5的評價褒貶不一，但它肯定通過高端線路功能的路由機制為他們節(jié)省了大量資金，即大多數用戶不再像以前那樣消耗昂貴的GPU資源了。

Lex Fridman：你對2026年怎么看？誰會勝出？

Nathan Lambert：盡管有風險，我還是要說，我認為Gemini將繼續(xù)追趕ChatGPT的進展。當兩者都以如此極端的規(guī)模運行時，Google的規(guī)模優(yōu)勢在于它能夠更好地將研究與產品分開。而OpenAI在運營上常被傳非�；靵y，一直在追求高影響力的事物，這是典型的創(chuàng)業(yè)公司文化。在軟件和企業(yè)端，我認為Anthropic將會延續(xù)他們的成功。Google Cloud擁有豐富的產品線，Gemini這個品牌對他們的建設至關重要。Google Cloud將繼續(xù)保持良好的發(fā)展勢頭，但在生態(tài)系統(tǒng)中解釋清楚這一點會更加復雜，因為那是與Azure和AWS的競爭。

Lex Fridman：所以在基礎設施方面，你認為TPU帶來了優(yōu)勢？

Nathan Lambert：很大程度上是因為NVIDIA芯片的利潤率高得離譜，而Google可以從上到下開發(fā)一切來適配他們的技術棧，不需要支付這部分利潤空間。而且他們在建設數據中心方面擁有先發(fā)優(yōu)勢。因此，在這些既需要漫長前置時間，又有著極高利潤門檻的領域，Google擁有一種歷史性的優(yōu)勢。如果將出現新的范式，它最有可能來自OpenAI，因為他們的研究部門一次又一次地證明了這一點，比如Deep Research、Sora、o1推理模型。這種落地全新研究理念或產品的能力是OpenAI的核心特質。很難賭他們會輸，但我認為今年的重點將很大程度上圍繞規(guī)模化（Scaling）和優(yōu)化模型中那些“垂手可得的果實”。

Lex Fridman：顯然，在智能與速度之間存在權衡。這就是ChatGPT-5在幕后試圖解決的問題。廣大公眾到底是想要智能，還是想要速度？

Sebastian Raschka：我覺得這實際上是一個很棒的多樣化選擇。就我個人的使用習慣而言，大多數時候當我查閱某些內容時，我會用ChatGPT問一個簡單的問題，快速獲取信息。對于大多數日常任務，我會使用快速模型�，F在自動模式已經做得相當不錯了。但有時我也想要Pro模式。例如當我寫好東西后，我會把它放入ChatGPT并說：“做一個非常徹底的檢查。我的所有引用、想法、格式都正確嗎？”這種情況下我不需要立即得到答案，可以讓它運行著，回頭再看。這就是擁有這種選項的重要性。如果每個查詢都要讓我等30分鐘甚至10分鐘，我一定會瘋掉的。

Nathan Lambert：那就是我。我坐在這兒簡直要瘋了，你居然還在用路由模式和非思考模型（non-thinking models）。我心想：“你是怎么受得了那種東西的？”我已經重度使用ChatGPT很長時間了，從來沒碰過非思考模型。我覺得它的語氣和出錯的概率似乎更高。這可以追溯到OpenAI發(fā)布o3的時候，那是第一個能夠進行深度搜索、整合多個來源的模型。我已經習慣了那樣。所以在處理工作信息查詢時，我只會使用GPT-5.2 Thinking或Pro版本。我經常會同時進行五個Pro查詢，尋找特定的論文或代碼參考。

Sebastian Raschka：我有一個有趣的例子，當時我只需要盡快得到答案。在這次旅行之前的播客中，我家里運行著一個本地GPU，我想運行一個長時間的RL（強化學習）實驗。通常我會拔掉電源，但我如果不小心拔掉了GPU電源，當時我妻子已經在車里等著了，我心想：“噢，糟了。”我想要以最快的速度寫出一個Bash腳本，用來運行不同的實驗和評估。我知道怎么用Bash終端，但在那一刻我只需要大概10秒鐘把命令給我。所以我用了不帶思考過程的最快模型。它給了我Bash命令，我需要將不同的腳本串聯在一起，這就解決了問題。

Nathan Lambert：我用Gemini處理這類需求。我會用思考模型處理所有信息類事務，然后用Gemini處理追求速度的任務，或者那些通過Google搜索能更好解釋的內容。Gemini應用也變得好多了。對于代碼和任何形式的哲學討論，我會使用Claude Opus 4.5，而且總是開啟擴展思考（extended thinking）。擴展思考和推理時間擴展（inference time scaling）只是讓模型變得稍微更聰明一點的方式。然后有時我會使用Grok來獲取實時信息，或者在AI Twitter上尋找內容。Grok-4 Super Heavy發(fā)布時表現非常出色，但我后來因為習慣用ChatGPT App就慢慢把它忘了。

Lex Fridman：是的，我確實也在用Grok-4 Heavy用于調試。對于那些其他模型無法解決的硬核調試問題，我發(fā)現它是最擅長的。這很有趣，因為你說ChatGPT是最好的界面，對我來說Gemini是更好的界面。我想是因為我愛上了它們最出色的“大海撈針”（needle in the haystack）能力。如果我放入包含大量上下文的內容并尋找非常具體的信息，Gemini一直表現最好。這就像有一種閾值效應：你會堅持使用一個模型，直到它做了一件蠢事，然后你就會換個工具。

Sebastian Raschka：沒錯，你會一直使用它直到它出故障。就像我們使用瀏覽器一樣，你不會在不同瀏覽器中輸入同一個網址對比，除非網頁無法渲染。關于長上下文，我之前也是為了這個功能使用Gemini，但GPT-4o發(fā)布時展示了驚人的長上下文評分提升�，F在我更看好GPT-5.2的長上下文。

3、最適合編程的AI

Lex Fridman：我們還沒怎么提到編程。那是另一個很多人非常關注的使用場景。所以我基本上是一半一半地在使用Cursor和Claude Code。你們呢？

Sebastian Raschka：我用的是VSCode的Codex插件。它非常方便，就像一個可以訪問你代碼庫的聊天界面。我知道Claude Code似乎有點不同，它更具智能體（agentic）特征，能為你完成整個項目。我目前還沒到能完全放心使用它的程度，也許是因為我有控制欲，我希望能看到具體發(fā)生了什么。Cursor對我來說目前處于一個恰到好處的平衡點，它在幫助我，但沒有完全取代我的工作。

Lex Fridman：我使用Claude寫代碼的原因之一是為了培養(yǎng)用英語編程的能力。這種體驗從根本上是不同的。你不再是微觀管理代碼生成的細節(jié)，而是查看diff。如果你使用Cursor這種IDE，你可以看到修改和變更代碼時的差異。去觀察、閱讀并深入理解代碼，而不是僅僅停留在設計層面進行宏觀引導，這是思考編程過程的另一種方式。Claude Code似乎更好地利用了Claude 3.5 Opus。

Nathan Lambert：這對人們來說是一個很好的并排對比。你可以同時打開Claude Code、Cursor和VSCode，選擇相同的模型并提出問題。Claude在代碼能力那個領域要出色得多。

Lex Fridman：好的，我們應該說明你們兩位在多個領域都是名副其實的專家，包括研究員、程序員、教育者以及作家。Nathan，希望你能很快出一本關于RLHF的書。

Nathan Lambert：已經可以預訂了，而且有完整的數字預印本。我只是在為實體書做美化和更好的排版。

Lex Fridman：Sebastian Raschka是一位機器學習研究員和作家，出版了多本具有影響力的書籍。其中有兩本我想特別提一下：一本是我強烈推薦的《從零開始構建大語言模型》，以及新書《從零開始構建推理模型》。我感到非常興奮，因為從頭開始構建東西是學習最有效的方式之一。

Sebastian Raschka：說實話，從頭開始構建一個LLM非常有趣。這也是一個學習很多東西的過程。正如你所說，這可能是了解事物真實運作機制的最佳方式。你可以看圖表，但圖表可能會有錯誤；你可以看概念，但可能會誤解。但如果你看到代碼并且能運行，你就知道它是正確的，它是精確的。這就是編程背后的魅力，它不會撒謊。即使是數學，我認為書里也可能存在你永遠察覺不到的錯誤。因為你在讀書時并沒有實際運行那些數學計算，所以無法去驗證它。而代碼的優(yōu)勢就在于，你可以動手驗證。

Lex Fridman：沒錯，我同意你關于《LLM From Scratch》這本書的看法。屏蔽掉互聯網等一切干擾，全身心投入到書本中，這種感覺確實很好。但是，我也讀過一些書，比如歷史書。某種程度上，讀書讓你不再感到孤獨，這真的更有趣。不過在編程方面，我認為與LLM一起編程確實更有意思。其實我認為與LLM一起閱讀也更有趣。你說得對。不過這種干擾應該被降到最低。也就是說，你是利用LLM來從根本上豐富體驗，通過它增加更多的上下文。也許吧。我只是覺得，在小規(guī)模應用上，LLM帶給我的“頓悟時刻”頻率真的很高。

Sebastian Raschka：確實如此。我也想修正一下我的觀點，我并不是建議完全不使用LLM。我建議的是分階段進行：先進行一輪離線、專注模式的學習，這時候雖然我會記筆記，但我會努力克制住立即查閱資料的沖動；之后我會進行第二輪。對我來說，以這種方式組織學習更有效。有時候問題在后續(xù)章節(jié)中自然會得到解答，而有時候，讓問題沉淀一下、多思考一會兒也會有所幫助。當然，每個人的偏好不同。我強烈建議在閱讀書籍時使用LLM，只是對我而言，它不是首選步驟，更像是第二輪的復習工具。

Lex Fridman：作為一個建議，我的做法恰恰相反。我喜歡在開始時就使用LLM。我想先理清整個背景，比如了解我正要踏入的是一個什么樣的世界。但我會盡量避免從LLM的界面跳轉到Twitter或博客之類的網頁，因為那樣你就真的會陷入無底洞。你會讀到某人的觀點，或者看到關于某個特定話題的激烈爭論，突然間你就脫離了學習狀態(tài)，進入了互聯網和Reddit的領域。但如果你純粹是讓LLM為你提供“這件事為什么重要”的背景，以及大局觀是什么，這會非常有幫助。雖然有些書本身也很擅長搭建背景，但并不總是如此。

Nathan Lambert：這就是為什么我喜歡ChatGPT的桌面應用，因為它把AI整合到了你的電腦工作中，你可以全身心投入其中，而不只是把它當作雜亂無章的瀏覽器標簽頁中的一個。我認為Claude Code以及類似的特定工具在營造這種愉悅感方面做得很好。作為一種產品設計，它非常吸引人，充當了一個讓你的AI走向世界的界面。Claude與OpenAI的Codex之間有一種難以言表的區(qū)別：Claude給人一種溫暖且引人入勝的感覺；而Codex雖然通常也同樣出色，但總讓人覺得在細節(jié)處理上稍微有點粗糙。相比之下，Claude Code讓構建東西變得很有趣，尤其是從零開始的時候，你完全不用操心，因為你相信它一定能做出來。

這對搭建網站和類似的數據刷新工具非常有用。我用它來進行數據分析。比如我的博客需要爬取Hugging Face的數據，以便持續(xù)保存每個數據集和模型的下載量�，F在我們有了這些數據，Claude就像是說：“沒問題，我已經利用這些數據做好了分析。”我當時心想，這原本得花掉我好幾天的時間。我有足夠的局勢感知能力去判斷它生成的趨勢是合理的，并且可以去核查。這確實是一種美妙的交互界面，你擁有了一個中間層，而不必親自去處理那些維護Web項目時必須面對的底層繁瑣工作。

4、開源 vs 閉源 LLMs

Lex Fridman：好的。剛才我們討論了一系列關于閉源模型的話題。讓我們聊聊開源模型。跟我說說開源LLM的格局。哪些模型比較有趣？哪些讓你印象深刻，為什么？我們已經提到了DeepSeek。

Nathan Lambert：你想看看我們憑記憶能說出多少個嗎？

Lex Fridman：來吧，不用看筆記。

Nathan Lambert：DeepSeek、Kimi、MiniMax、智譜AI（Zhipu AI）、面壁智能（ModelBest）。這就已經是不少中國模型了。然后我們把Mistral AI、Gemma也加進來。還有GPT-OSS，也就是ChatGPT相關的開源模型。實際上，NVIDIA也有一個非�？岬哪Ｐ徒蠳emotron 3。特別是在年底這段時間，涌現了很多東西。Qwen（通義千問）也是一個顯而易見的名字。你至少可以列出10個中國的和10個西方的模型。

OpenAI實際上也發(fā)布了他們的第一個開源模型——隔了很久，自GPT-2以來。這就是我當時寫關于“OpenAI發(fā)布開源模型”的文章時所指的。當時人們都說“別忘了GPT-2”，我覺得這很有趣，因為那完全是不同的時代了。但GPT-OSS實際上是一個非常強大的模型，并且能做到其他模型做得不太好的一些事情。

出于私心，我也想推介一些西方公司。在美國和歐洲都有完全開放的模型。我在艾倫人工智能研究所工作，我們一直在構建OLMo，并發(fā)布了數據、代碼以及所有相關內容�，F在我們面臨著真正的競爭，人們正致力于發(fā)布所有內容以便他人訓練模型。例如基礎模型研究所（Institute for Foundation Models）推出的LM360，他們發(fā)布了K2模型。Apertus是一個瑞士的研究聯盟。Hugging Face推出了SmallLM，非常受歡迎。此外，NVIDIA的Nemotron也已經開始發(fā)布數據。還有斯坦福大學的Marin社區(qū)項目，它建立了一套流程，讓人們可以通過提交GitHub issue來實現新想法，并使其在穩(wěn)定的語言建模棧中運行。所以在2024年，這個領域的名單要比以前豐富得多。我認為這對于更多人參與進來并理解語言模型是一件好事。

目前還沒有一家中國公司有類似的對應機構。我要指出的是，中國的開源語言模型往往規(guī)模大得多，這使得它們作為混合專家模型（MoE）具有更高的峰值性能。而許多我們非常喜歡的西方模型，無論是Gemma還是Nemotron，往往是來自美國的較小模型。不過這種情況正開始改變。Mistral Large 3在12月發(fā)布了，它是一個巨大的MoE模型，架構與DeepSeek非常相似。還有一家名為Reka的初創(chuàng)公司。Nemotron和NVIDIA已經預告了參數量遠超1000億甚至達到4000億級別的MoE模型，將在2026年第一季度左右推出。所以我認為，在“人們使用中國還是美國的開源模型”這一問題上的平衡狀態(tài)，今年將會發(fā)生改變。這是我個人非常期待看到的。

Lex Fridman：首先，非常佩服你能叫出這么多名字。LLaMA是你命名的嗎？

Nathan Lambert：不是我。

Lex Fridman：好的。你能提到有哪些表現突出的有趣模型嗎？你剛才提到了Qwen3顯然是一個佼佼者。

Sebastian Raschka：這一年幾乎是以DeepSeek的兩個動作作為開端和結尾的：DeepSeek V3和R1。DeepSeek V3是在2024年12月發(fā)布的，R1緊隨其后。我喜歡它們的地方在于，它們總是在架構上有一些有趣的微調，這是其他公司所不具備的。

除此之外，如果你想選擇熟悉但性能非常出色的模型，Qwen3是個好選擇。另外我還提到了GPT-OSS。我認為GPT-OSS的有趣之處在于，它算是第一個在訓練時就充分考慮到“工具調用（Tool Use）”的公開權重模型。我確實認為這在某種程度上是一種范式轉移，之前的生態(tài)系統(tǒng)尚未完全準備好。

所謂“工具調用”，是指LLM能夠進行網頁搜索，或者調用Python解釋器。我認為這是一個巨大的突破。因為關于LLM最常見的抱怨之一就是“幻覺（Hallucinations）”。在我看來，解決幻覺問題的最佳方法之一，就是不要試圖讓模型總是去記憶信息或憑空捏造。對于數學問題，為什么不直接讓它使用計算器應用或Python呢？如果我問LLM“誰贏得了1998年的世界杯？”，與其讓它去死記硬背，不如讓它完全通過搜索來回答。它會進行工具調用來訪問Google，也許會找到FIFA官網，然后告訴你“哦，是法國隊”。它能可靠地為你獲取信息。

所以我認為這是一個巨大的突破，目前尚未被開源、開放權重生態(tài)系統(tǒng)充分利用。很多人不使用工具調用模式，首先是因為信任問題。你不想在自己的電腦上運行一個擁有訪問工具權限的模型，因為它可能會抹掉你的硬盤。所以你可能需要將其容器化。但我確實認為，擁有這種能力是未來幾年非常重要的一步。

Lex Fridman：有幾件事簡要說一下。首先，謝謝你定義了你所說的“工具調用”的具體含義。在討論這些概念時，這樣做非常好。即使是像MoE這樣已經非常成熟的概念，你也得說明那代表“混合專家模型（Mixture of Experts）”，建立起直覺，讓人們理解那意味著什么，它是如何被實際應用的，以及有哪些不同的變體。那么，開放模型如此爆發(fā)式增長意味著什么？你的直覺是怎么樣的？

Nathan Lambert：如果你發(fā)布一個開放模型，首要目的就是希望人們去使用它。緊隨其后的是透明度和信任等因素。當你觀察中國時，最大的原因在于他們希望全球用戶都能使用這些模型。如果你觀察美國以外的地區(qū)，很多人不會為軟件付費，但他們可能擁有計算資源，可以把模型部署在本地運行。此外，還有一些數據是你不想發(fā)送到云端的。因此，首要任務是讓人們開始使用AI，或者使用你的AI，因為如果沒有模型訪問權限，他們無法做到這一點。

Lex Fridman：我想我們應該明確說明，我們一直在討論這些中國模型和權重開放模型，通常情況下，它們的運行方式是在本地運行。所以這并不是說你把數據發(fā)送到了中國，或者發(fā)送給了硅谷的任何開發(fā)者。

Nathan Lambert：沒錯。許多美國初創(chuàng)公司通過托管這些來自中國的模型并進行銷售來賺錢，這被稱為賣Token，意味著有人會調用該模型來完成工作。

我認為另一個原因是，像OpenAI這樣的美國公司非常缺乏GPU。他們已經達到了GPU的極限。每當他們發(fā)布新產品時，總是在說GPU資源非常緊張。在GPT-4o的發(fā)布環(huán)節(jié)中，Sam Altman曾暗示過，發(fā)布這個是因為可以利用用戶的GPU，他們不必動用自己的資源，卻仍然可以獲得分發(fā)渠道。這對他們來說沒有任何成本，是一個非�，F實的考量。

Sebastian Raschka：對于用戶來說，有些用戶只是像使用ChatGPT那樣在本地使用模型。但對于公司而言，擁有這些模型是一個巨大的突破，因為你可以定制它們，可以通過后期訓練添加更多數據。比如將它們專門化為法律、醫(yī)療模型等。

此外，中國權重開放模型的吸引力在于，它們的許可協(xié)議往往更加友好，通常是無限制的開源許可（如Apache 2.0）。而如果我們使用像LLaMA或Gemma這樣的模型，其實是附帶條件的。比如在用戶數量方面有一個上限，如果你超過了幾百萬用戶，就必須向Meta之類的公司報告財務狀況。雖然它是免費模型，但確實存在束縛。人們更喜歡沒有束縛的東西。除了性能之外，這也是為什么來自中國的開源權重模型如此受歡迎的原因之一：你可以直接使用它們，沒有任何陷阱。

Nathan Lambert：在這方面，生態(tài)系統(tǒng)已經變得更好了。當你打開Perplexity并看到它顯示“在美國托管的Kimi-K2 Thinking”時，這真的很有趣。這正是我們所討論的現象。Kimi-K2是一款非常受歡迎的模型，人們評價它在創(chuàng)意寫作以及處理軟件方面表現出色。這些就是人們在不同模型中發(fā)現并喜愛的細微特質。

Lex Fridman：那么，在這些模型探索過的想法中，有哪些是你覺得特別有趣、值得聊聊的嗎？也許我們可以按時間順序來談。

Sebastian Raschka：首先當然是DeepSeek。如果我們聚焦2025年，R1其實是基于前一年（2024年12月）發(fā)布的DeepSeek V3。

在架構方面，令人著迷的是，你仍然可以像我在《從零開始構建LLM》項目中做的那樣，從GPT-2開始，通過添加組件將其轉化為另一個模型。它們之間有著非常緊密的血脈聯系。DeepSeek的獨特之處在于混合專家模型（MoE）——當然，并不是他們發(fā)明了MoE，我們稍后可以詳細聊聊MoE具體意味著什么。除了MoE，他們還采用了多頭潛在注意力（Multi-head Latent Attention, MLA），這是對注意力機制的一種改進。

我想說，在2025年，這些權重開放模型之間的主要區(qū)別因素在于針對推理或KV緩存（KV cache）大小所做的各種微調。其目的主要是為了讓長上下文的成本更低，通過縮小KV緩存的體積來實現。

我們可以做哪些調整？大部分集中在注意力機制上。DeepSeek使用了多頭潛在注意力。還有一種“分組查詢注意力（Group Query Attention, GQA）”，目前仍然非常流行，這也不是新發(fā)明的。OLMo-3使用了滑動窗口注意力（Sliding Window Attention）。這些不同的微調使得模型各不相同。但我曾把它們全部放在一篇文章里進行過對比，發(fā)現它們驚人地相似。只是在中間層有多少次Transformer塊的重復等數字上有所不同。這就像是微調了一些小旋鈕，但無論如何它都能奏效。你可以移動歸一化層來獲得性能提升。OLMo在消融實驗（Ablation Studies）中展示了移動組件對模型的具體影響。

實現Transformer并使其保持運行的方法有很多。目前盛行的大思路包括MoE、MLA、滑動窗口注意力以及GQA。到了年底，研究重點轉向了使注意力機制能夠隨推理Token數量線性擴展。例如Qwen2.5-1M增加了一個門控Delta網絡（Gated Delta Net），有點像受到了狀態(tài)空間模型（SSM）的啟發(fā)，本質上是用一種更廉價的操作取代了昂貴的注意力機制。

5、Transformers：2019 年以來 LLMs 的演進

Lex Fridman：也許退一步來談談Transformer架構的總體情況會很有幫助。

Sebastian Raschka：好的，也許我們應該從GPT-2架構開始。Transformer源自《Attention Is All You Need》這篇論文，原始架構包含編碼器（Encoder）和解碼器（Decoder）。而GPT只專注于解碼器部分。它本質上仍然是一個神經網絡，內部包含注意力機制。你一次預測一個Token。將其通過一個嵌入層（Embedding Layer），接著是Transformer塊（包含注意力模塊和全連接層），中間還有一些歸一化層。

從GPT-2發(fā)展到現在，出現了例如混合專家（MoE）層。MoE并不是新發(fā)明的，其核心思想是在不增加每次前向傳播算力消耗的情況下，使模型參數總量變大。

在Transformer內部有一個全連接層（可以想象成微型多層感知器MLP），它非常昂貴，因為它是全連接的。如果你有一千個輸入、一千個輸出，那就是一百萬個連接。MoE的想法是將這個全連接層擴展為多個前饋網絡。假設你有256個這樣的網絡（專家），但你不會同時使用所有的。你有一個路由器（Router），它會根據輸入Token決定：“好的，使用這個專家網絡會很有用。”

這就叫混合專家。根據輸入內容，比如是數學密集型任務，還是英譯西任務，它可能會咨詢不同的專家。當然，這種分工并不像“數學專家”或“語言專家”那樣界限分明，它是一個更模糊的概念。但其核心思想是你把更多知識封裝進了網絡，但并非所有知識都會被時刻調用，因為那樣太浪費了。在Token生成過程中，路由器會有選擇性地分配任務。這增加了復雜性和訓練難度，有很多環(huán)節(jié)可能出錯。這可能也是為什么OLMo-3仍然使用稠密（Dense）模型的原因。稠密是指只有一個全連接模塊，并且始終被利用；而MoE被稱為稀疏（Sparse），因為只有部分專家是活躍的。

Lex Fridman：從根本上說，從GPT-2到現在，有多少新想法被實現了？比如，這些架構之間到底有多大區(qū)別？

Sebastian Raschka：想象一下GPT-OSS中的分組查詢注意力（GQA），它只是從多頭注意力（MHA）微調而來的�；蛘咚麄儼袻ayerNorm換成了RMSNorm，但這只是一種不同的歸一化方式。非線性激活函數從Sigmoid換成ReLU，這也并沒有從根本上改變網絡。

這只是微調，做了一點點調整。我會說，它在本質上并沒有那么大的不同，仍然是相同的架構。你可以通過添加這些改動，從一個模型演進到另一個。例如，我那本書里用的是GPT-2模型（約1.2億參數），但在獎勵材料中，我?guī)缀鯊牧汩_始構建了Gemma 3.0。我總是從GPT-2模型開始，然后調整組件，就能從一個模型演進到另一個。從某種意義上說，這是一種傳承。

Lex Fridman：這真的很有意思。當你退一步審視，你會發(fā)現AI領域的發(fā)展如此迅猛，但與此同時，從根本上講，架構并沒有發(fā)生翻天覆地的改變。那么，這種劇烈變革和進步的動能究竟源自何處？收益究竟在哪里？

Sebastian Raschka：在開發(fā)或訓練網絡的過程中存在不同的階段。在過去GPT-2的時代，只有預訓練（Pre-training）。而現在，我們有了預訓練、中訓（Mid-training）和后訓練（Post-training）。所以我認為，我們目前正處于“后訓練聚焦”階段。當然，如果你能利用更好、更高質量的數據進行擴展，預訓練仍然會帶來優(yōu)勢。

但是，我們現在擁有了GPT-2所不具備的能力解鎖。例如ChatGPT，它本質上是一個GPT-3模型。就架構而言，GPT-3與GPT-2是相同的。新的突破在于增加了有監(jiān)督微調（SFT）以及人類反饋強化學習（RLHF）。所以這更多是算法層面的改進，而非架構層面的變革。

Nathan Lambert：我認為系統(tǒng)層面也發(fā)生了很大變化。如果你關注過Nvidia的發(fā)布會，他們會提到諸如“現在支持FP8，支持FP4”之類的技術。這些實驗室正在研究如何將更多的算力投入到單個模型中，這讓他們能夠訓練得更快，從而輸入更多數據。通過這種方式，你可以更快地找到更優(yōu)的配置。

沒錯，本質上“每GPU每秒處理的Token數”是你進行大規(guī)模訓練時關注的核心指標。通過開啟FP8訓練，性能可以從10K提升到13K左右。這意味著模型中每個參數占用的內存更少，通信開銷降低，從而實現更快的訓練速度。所有這些系統(tǒng)層面的優(yōu)化，支撐了數據和算法上更快速的實驗迭代。

這就是一個不斷循環(huán)的過程。當你觀察它們的架構時，很難描述清楚，因為它們看起來幾乎一樣，但訓練這些模型的代碼庫卻截然不同。比如訓練GPT-OSS 20B的實際用時比當年訓練GPT-2要快得多。在混合專家模型（MoE）中，他們采用了FP4優(yōu)化，從而獲得了更高的吞吐量。但這并沒有賦予模型新的“能力”，這僅僅關乎我們能在多大程度上使計算變得更粗粒度，而不導致模型性能下降。

目前Transformer架構的替代方案正在涌現，比如文本擴散模型（Text Diffusion Models）或Mamba這種狀態(tài)空間模型（SSM）。但它們都存在權衡，事實是目前還沒有任何東西能取代自回歸Transformer作為SOTA（最先進）模型的地位。所以對于追求最先進性能而言，你仍然會選擇它。

6、AI Scaling Laws：它們已經失效還是依然成立？

Lex Fridman：我想這里的大問題是，規(guī)模定律（Scaling Laws）在預訓練、后訓練、推理、上下文長度、數據以及合成數據方面是否依然穩(wěn)固？

Nathan Lambert：我想先從規(guī)模定律的技術定義開始。它本質上是一種冪律關系，你可以將X軸視為算力和數據的結合，而Y軸是對下一個Token的留出預測準確率。人們發(fā)現這是一種非�？深A測的關系，我認為這一技術趨勢仍在繼續(xù)。

現在的維度更加豐富了。OpenAI的o1引入了推理時擴展（Inference Time Scaling）。此外，你還可以通過擴展強化學習（RL）訓練來獲得性能提升。所以目前存在三個維度：

傳統(tǒng)規(guī)模定律：即模型規(guī)模和數據集規(guī)模。

強化學習規(guī)模：即你可以進行多長時間的試錯學習。

推理側算力：即讓模型針對特定問題生成更多的思維鏈Token。

我對這三者都持看好態(tài)度。過去一年在強化學習方面（特別是可驗證獎勵學習，即RLVR）以及推理側擴展方面已經達成了很多容易實現的目標。這就是為什么現在的模型使用起來感覺如此不同：以前你會立即得到第一個Token，而現在它們在給出回答前會思考幾秒鐘甚至幾小時，生成隱藏的思維鏈。這在模型能力變化方面簡直是一種美妙的階躍函數。

這種能力幾乎完全源自于通過可驗證獎勵進行的強化學習訓練。當你觀察模型生成大量Token時的推理過程，你會發(fā)現它經常在嘗試：調用一個工具，查看結果；再嘗試另一個API，查看結果。模型很快就能學會執(zhí)行這些操作，這為模型在代碼庫中使用CLI命令、處理Git、整理文件等提供了通用基礎。

Lex Fridman：你提到你基本上看好每一種形式的Scaling。那么關于預訓練，我們是否在暗示預訓練規(guī)�；心切�“唾手可得的果實”已經被采摘殆盡了？預訓練是否遇到了瓶頸，還是你依然看好它？

Nathan Lambert：預訓練已經變得極其昂貴。要擴大預訓練規(guī)模，意味著你要提供一個非常龐大的模型。目前業(yè)內共識是，像GPT-4這一代模型的大小大約在萬億參數量級。其實隨著訓練效率的提高，你會希望把模型做小，因為這樣提供服務的成本會成比例下降。

相對于向數億用戶提供服務的成本來說，訓練成本其實是非常低的。DeepSeek有一個著名的數據，按云市場價格計算，預訓練費用約為500萬美元。在我們剛剛發(fā)布的OLMo 3論文中詳細說明了，包括工程調試、實驗和集群閑置在內，訓練一個模型大約花費了200萬美元。很多人都能籌到幾百萬美元來訓練模型，但為數百萬用戶提供服務的持續(xù)成本需要耗費價值數十億美元的算力。

問題在于，如果擴展規(guī)模確實能帶來更好的模型，它在財務上是否值得？我認為隨著AI解決更多引人注目的任務，市場會推動這一點。比如Claude 3.5 Opus與之前的模型相比，徹底解決了我在七月份構建項目時遇到的問題。所以進步仍在繼續(xù)。

Lex Fridman：所以你的直覺是，如果不考慮財務可行性，僅僅從定律的角度來看，如果擴展計算規(guī)模，模型會變得更聰明嗎？

Nathan Lambert：是的。雖然這聽起來像是對AI公司領導層的盲目信任，但這一規(guī)律已經支撐了13個數量級的算力增長，不太可能突然停止。只是最終我們可能無法測試更大的規(guī)模，因為規(guī)模越大帶來的算力問題越多。

現在大家都在討論2026年，屆時超大規(guī)模云服務商將投入運營吉瓦（Gigawatt）級規(guī)模的Blackwell算力集群。這些電力和數據中心合同都是在ChatGPT發(fā)布前后簽署的，建設周期需要兩三年。實驗室將擁有更多的算力用于訓練，這是一個既定事實。我預計我們會看到訂閱服務價格上漲，比如出現2000美元的訂閱服務，這都源于更大一點的模型所提供的技術優(yōu)勢。

Lex Fridman：據報道xAI將在2026年初達到1吉瓦規(guī)模，并在年底達到2吉瓦。你認為他們會在規(guī)模定律的背景下如何利用這些資源？很大一部分是推理嗎？還是訓練？

Nathan Lambert：結果證明是“以上所有”。你在訓練模型時做出的所有決策最終都會回到預訓練。即使你打算擴展RL，你也需要決定能夠實現這一點的架構。比如我們討論的混合專家模型（MoE），其稀疏特性使得生成效率大大提高，這已成為后訓練的重要組成部分。

但我認為大多數算力仍然正投入到預訓練階段，因為你仍然希望擁有盡可能最好的基礎模型。幾年后這可能會達到飽和，屆時RL算力投入的比例將會變大。

Lex Fridman：是否有人不同意你的觀點，認為預訓練基本上已經過時了？認為現在的重點全在于推理擴展、后訓練擴展、上下文擴展以及合成數據？

Nathan Lambert：人們普遍有這種感覺，但我認為實際情況并非如此。那種“預訓練已死”的論調只是因為興奮點轉移到了別處。

以我們在11月發(fā)布的模型為例，如果不算預訓練，僅僅做后訓練就花了五天時間，這對于一個300億參數的模型來說是很長的。到了12月，我們又讓強化學習運行了三周半，模型變得顯著更好。把這么長的時間分配給后訓練是前所未有的。

但這并不意味著預訓練被遺棄了。這是一種循環(huán)：你重新進行預訓練，然后進行一個月的后訓練，接著進行安全性測試發(fā)布給用戶�？傆锌梢愿倪M的地方。當你使用10萬塊GPU進行大規(guī)模預訓練時，你會遇到截然不同的故障，幾乎肯定隨時至少有一塊GPU是宕機的。你需要讓訓練代碼能夠處理這種冗余，這完全是另一回事。

當我們轉向強化學習時，它非常適合異構計算。簡要介紹一下語言模型的強化學習：你需要準備兩組GPU。一組是Actor（執(zhí)行者），負責生成內容；另一組是Learner（學習者），負責實際的策略梯度更新（如PPO或GRPO算法）。你可以讓分布在世界各地的許多不同Actor處理問題，將結果發(fā)回給Learner進行評分和學習。

至于推理側擴展，問題變成了：你如何向1億用戶提供一個需要思考一小時的模型服務？這背后存在巨大的系統(tǒng)性挑戰(zhàn)。

Lex Fridman：但我聽下來，你對所有這些維度的擴展都持樂觀態(tài)度。無論是推理、邏輯推理，還是預訓練？

Sebastian Raschka：是的。在一個假設擁有無限計算資源的世界里，你會想要全面發(fā)力：預訓練、中訓、后訓練、推理擴展全部拉滿。更大的模型會賦予模型更多的知識。

但是正如Nathan所說，預訓練變得太昂貴了。我們沒有無限的算力，所以必須進行權衡。如果你把錢花在預訓練上，這是一項固定成本，模型訓練好后就永久擁有了這種能力。而對于推理側擴展，你是為單次查詢付費。

這就變成了一筆賬：如果我的模型半年后就會被替換，也許花1億美元去訓練更大的模型并不值得，不如花200萬美元做推理側擴展來獲得同等的性能提升。這就是ChatGPT現在的策略，他們擁有海量用戶，所以選擇了一條更具性價比的路線，可能使用了一個稍微小一點的GPT-5模型配合推理擴展。

但在某些特定任務（如奧數）中，你可能需要巔峰性能�？偠灾�，我認為預訓練、中訓、后訓練以及推理側擴展都是必須做的，關鍵在于找到合適的比例以獲得最高的性價比。

原文標題 : Lex Fridman硬核訪談，5萬字2026 AI全景報告