訂閱
糾錯
加入自媒體

已有VLM,自動駕駛為什么還要探索VLA?

2026-02-03 10:20
智駕最前沿
關注

自動駕駛技術正處于發(fā)展的轉折點。過去十幾年間,行業(yè)長期依賴模塊化的技術路徑,即將駕駛任務拆解為感知、預測、規(guī)劃和控制四個獨立環(huán)節(jié)。這種結構雖然清晰,但在面對突發(fā)狀況時(長尾場景),會因規(guī)則覆蓋不足而表現(xiàn)僵化。

隨著大語言模型和視覺語言模型(VLM)的爆發(fā),開發(fā)者們意識到,如果車輛能像人類一樣擁有常識,理解什么是“潮汐車道”,知道“救護車在后方鳴笛需要避讓”,那么自動駕駛的上限將得到極大提升。

然而,當真正將視覺語言模型引入座艙和駕駛系統(tǒng)后,一個新的問題出現(xiàn)了,模型雖然能言善辯,能解釋復雜的路況,卻無法精準地轉動方向盤。這種從“腦子懂了”到“手腳協(xié)調”的跨越,正是視覺-語言-動作模型(VLA)被推向臺前的主要原因。

視覺語言模型的語義底座與行動短板

視覺語言模型(VLM)在自動駕駛領域打破了感知的天花板。傳統(tǒng)的感知算法只能識別如汽車、行人或交通燈等預定義的標簽,而對于路邊一個形態(tài)奇特的充氣廣告人,或者地面上一攤反光的水漬,傳統(tǒng)模型將無法給出合理的解釋。

視覺語言模型通過在互聯(lián)網(wǎng)數(shù)據(jù)上進行預訓練,獲得了一種近乎于人類的常識推理能力。它不再僅將像素點分類,而是能夠理解場景中的深層邏輯。比如,它能識別出前方車輛開啟的雙閃燈意味著故障,并建議后車進行繞行,這種基于語義的推理能力是傳統(tǒng)規(guī)則算法難以企及的。

雖然視覺語言模型在環(huán)境建模和交互決策建議方面表現(xiàn)優(yōu)異,但它在直接驅動車輛運行上依舊存在著先天不足,這主要體現(xiàn)在其輸出邏輯與物理世界控制指令之間的脫節(jié)上。目前的視覺語言模型大多是為文本生成而設計的,其輸出結果一般是自然語言,比如“我看到前方有行人,我應該減速”。

然而,對于車輛底盤而言,它需要的是具體的制動壓力、轉向扭矩或者是精確到分米的行駛軌跡點。這種從文本描述到物理操作的轉換過程,需要一個額外的翻譯模塊。這個模塊一旦出現(xiàn)理解偏差,或者因為模型之間無法進行聯(lián)合優(yōu)化,就會導致信息在傳遞中丟失。這將造成了一個尷尬的現(xiàn)象,模型可能在語言層面正確識別了危險,但在實際操作中卻未能及時做出反應,這種現(xiàn)象被稱為行動鴻溝。

此外,視覺語言模型的實時性也是一大硬傷。在高速行駛的自動駕駛場景中,毫秒級的延遲就可能決定安全與否。主流的視覺語言模型通常擁有極大的參數(shù)量,在處理高分辨率圖像并生成連貫文本時,其推理延遲將達到數(shù)百毫秒甚至秒級,這遠遠無法滿足每秒需要進行數(shù)十次計算的實時控制需求。

由于視覺語言模型架構本身并不是為了輸出高頻、精確的控制信號而優(yōu)化的,因此在很長一段時間里,其只能作為一種慢思考的插件,掛載在現(xiàn)有的自動駕駛系統(tǒng)旁提供參考,而無法真正主導駕駛過程。這種被動性限制了它在復雜動態(tài)環(huán)境下的應用潛力,從而促使研究者們尋求一種能夠將理解與行動深度耦合的新技術路徑。

視覺語言動作模型的一體化升級

視覺-語言-動作模型(VLA)的出現(xiàn),本質上是將車輛的認知系統(tǒng)與執(zhí)行系統(tǒng)進行了一次徹底的物理融合。它不再把駕駛看作是先理解場景再執(zhí)行動作的兩個獨立步驟,而是將其視為一個統(tǒng)一的、從傳感器輸入到執(zhí)行器輸出的端到端學習過程。

VLA框架示意圖,圖片源自:網(wǎng)絡

在這種技術框架下,視覺特征、語言指令和駕駛動作被編碼到同一個高維特征空間中進行交互。這意味著模型在學習如何識別紅綠燈的同時,也在學習遇到紅燈時應該如何調節(jié)剎車踏板。這種深度的耦合使得模型能夠從海量的數(shù)據(jù)中提取出超越簡單規(guī)則的駕駛技巧,從而表現(xiàn)出更加類人的駕駛行為。

想實現(xiàn)這一融合,關鍵技術之一是動作的標記化處理。受谷歌機器人模型RT-2的啟發(fā),自動駕駛領域的VLA模型嘗試將車輛的如轉向、加速、制動等駕駛動作轉化為一種特殊的詞匯表。在這種設定下,生成一段平滑的變道軌跡,在模型看來與寫出一個句子并無本質區(qū)別。

通過將連續(xù)的物理空間離散化為一系列動作標記,VLA模型能夠直接利用大型語言模型的自回歸特性來預測接下來的駕駛行為。這種方法的精妙之處在于,它讓模型在做出動作預測的同時,還能附帶輸出這一動作背后的邏輯理由,極大地提升了系統(tǒng)的可解釋性。舉個例子,當車輛突然剎車時,它不僅能執(zhí)行動作,還能同步反饋是因為看到了盲區(qū)內(nèi)竄出的外賣車,這種透明度對于建立用戶對自動駕駛的信任至關重要。

在VLA的驅動下,自動駕駛車輛表現(xiàn)出了前所未有的泛化能力。傳統(tǒng)的系統(tǒng)在進入一個從未見過的陌生城市或遇到罕見的特殊路障時,由于缺乏預設規(guī)則,會表現(xiàn)得不知所措甚至原地停滯。而VLA模型憑借其預訓練階段習得的通用世界知識,可以根據(jù)環(huán)境中的語義線索進行即時推理。

例如,當它在路邊看到一個寫著臨時施工的告示牌時,即便系統(tǒng)沒有預裝該路段的地圖信息,它也能通過閱讀牌子上的文字并結合視覺觀察,自主規(guī)劃出一條繞行路徑。這種對未知環(huán)境的強適應性,被視為從輔助駕駛向全自動駕駛跨越的關鍵一步。

動作標記化與物理一致性的技術平衡

盡管將動作轉化為語言標記為模型的一體化掃清了障礙,但在自動駕駛這種對精度要求極高的場景中,如何確保生成的標記能夠轉化為平滑且符合車輛動力學的軌跡,依然是一個巨大挑戰(zhàn)。

如果僅僅是簡單地離散化,模型輸出的動作可能會出現(xiàn)抖動,導致車輛行駛不順暢。為了解決這一問題,行業(yè)內(nèi)涌現(xiàn)出了多種軌跡生成的技術方案。其中一種典型做法是利用動作碼本,將車輛可能行駛的二維空間劃分為精細的網(wǎng)格。

例如,在ReflectDrive等研究中,開發(fā)者將駕駛空間設定為以車輛為中心的一個矩形區(qū)域,并以固定分辨率進行切分,從而生成數(shù)以百計的備選標記。通過這種方式,模型輸出的每一個標記都對應著物理空間中一個真實的坐標點,從而保證了動作生成的物理落地。

然而,離散標記無法捕捉到復雜交通場景中的細微連續(xù)變化。因此,另一種更為先進的技術是將擴散模型引入VLA的動作生成中。擴散模型的強項在于它能夠通過迭代去噪的過程,從概率分布中提取出最符合當前上下文的連續(xù)軌跡。

在這種架構下,大型語言模型骨干負責定性,即決定車輛應該左轉還是右轉,而擴散模型負責定量,即計算出具體的行駛路徑曲線。理想汽車在MindVLA架構中就應用了這種組合,其模型先生成語義層面的動作標記,再通過擴散解碼器將其轉化為經(jīng)過優(yōu)化的軌跡,這使得車輛在擁堵路口博弈或狹窄車位泊車時,能夠展現(xiàn)出極其絲滑的操作。

為了進一步確保安全性,還有技術開發(fā)了針對動作標記的反射修正機制。在模型輸出初步的動作序列后,系統(tǒng)會引入一個專門的安全評分模塊,利用車輛動力學約束和障礙物預測信息對該序列進行快速質檢。

如果發(fā)現(xiàn)預測的軌跡點有碰撞風險,模型會基于離散化的動作碼本在局部范圍內(nèi)進行高效搜索,尋找安全的替代錨點,并要求擴散模型以此為基準重新生成周邊軌跡。這種循環(huán)往復的自我審視過程,模擬了人類駕駛員在做出決定后發(fā)現(xiàn)不妥并迅速修正的心理過程,極大增強了系統(tǒng)在極端情況下的生存能力。

認知雙系統(tǒng)理論在量產(chǎn)中的實踐

在將龐大的VLA模型推向車載平臺的過程中,將面臨一個殘酷的現(xiàn)實,那就是車載芯片的算力和功耗預算是極為有限的。盡管英偉達推出了Thor這樣算力高達2000 TOPS的芯片,但要流暢運行一個擁有數(shù)十億參數(shù)且需要高頻響應的VLA模型,依然捉襟見肘。

為了解決這個問題,業(yè)界引入了心理學中的認知雙系統(tǒng)理論。這一理論認為人類的大腦存在兩個系統(tǒng),系統(tǒng)1是快系統(tǒng),負責本能、直覺和下意識的快速反應;系統(tǒng)2是慢系統(tǒng),負責邏輯、分析和復雜的決策推理。在自動駕駛的VLA架構中,開發(fā)者們通過巧妙的設計重構了這一模型。

具體的實現(xiàn)方式是構建一個異構的推理模型。系統(tǒng)2由完整的大語言模型組成,它像一個資深的教官,負責觀察全局路況、解析復雜的交通規(guī)則以及制定長期的駕駛策略。由于它非常重,通常以較低的頻率運行(例如每秒運行一兩次)。

而系統(tǒng)1則是一個輕量級的動作執(zhí)行模塊,它實時接收系統(tǒng)2輸出的深層特征作為指導,并結合最新的傳感器數(shù)據(jù),以極高的頻率(如100Hz)輸出具體的控制指令。這種快慢結合的模式,既保留了大模型的智慧,又確保了車輛在遭遇緊急切入或行人橫穿時,能像人類本能一樣迅速制動,而不必等待大模型漫長的思考時間。

為了進一步提升效率,混合專家架構(MoE)被證明是VLA走向實用的利器。在MindVLA等先進模型中,并非所有的神經(jīng)元在駕駛時都同時工作,而是將模型拆分為多個領域的專家模塊。比如有的專家擅長處理高速巡航,有的擅長處理雨天感知,有的則專精于狹窄路口的博弈。

在實際運行時,路由算法會根據(jù)當前路況,動態(tài)激活最相關的少數(shù)專家模塊。這種稀疏激活的技術,使得模型在擁有巨大知識容量的同時,實際計算消耗可以維持在較低水平。結合稀疏注意力機制和并行解碼技術,目前的VLA模型已經(jīng)能夠實現(xiàn)在車載端的毫秒級響應,這標志著認知驅動的自動駕駛正正式從學術研究轉向量產(chǎn)工程。

視覺語言動作模型在真實世界的演進邏輯

在實際部署中,VLA模型的訓練數(shù)據(jù)不再局限于簡單的駕駛視頻。為了讓模型真正理解語言與動作之間的因果關系,研究者們開發(fā)了諸如Action Dreaming(動作夢境)這樣的創(chuàng)新方法。

在傳統(tǒng)的訓練中,模型看到的是“司機看到紅燈于是停車”的單一結果。然而,為了讓模型理解指令的邊界,開發(fā)者會在模擬器中創(chuàng)造出各種虛假的未來。如對于同一個視覺場景,給模型輸入“直行”和“左轉”兩種指令,并讓它預測兩種不同的物理后果。通過這種反事實推理的訓練,VLA模型能夠建立起深層的語言-動作對齊,從而在現(xiàn)實中更準確地執(zhí)行人類的自然語言指令。

這種對齊能力的提升,催生了一批具有代表性的工業(yè)界項目。Wayve推出的LINGO-2是首個在公共道路上測試的閉環(huán)VLA模型,它能夠邊開車邊解說,通過實時語音反饋其為何減速、為何繞行,從而讓車內(nèi)乘客能夠實時洞察車輛的思維邏輯。

而理想汽車推出的MindVLA,則更進一步地強調了空間智能的整合。通過自主研發(fā)的3D Gaussian(3D高斯)表征技術,MindVLA能夠將復雜的城市街道轉化為一種可計算的、具備幾何精確度的三維語義空間。在這種空間內(nèi),動作的生成不再是盲目的黑盒預測,而是基于對障礙物物理邊界的深刻理解。這使得它即便在無圖的陌生車庫內(nèi),也能憑借純粹的視覺和語義推理,像老司機一樣找到車位并完成停放。

VLA模型在自動駕駛領域的意義遠不止于駕駛任務本身。它實際上是在構建一個通用的物理世界代理。隨著這一技術的日趨成熟,車輛將從一個單純的代步工具進化為一個具備理解和執(zhí)行能力的智能體。

未來,用戶可能不再需要設置復雜的導航點,只需隨口一句“去最近的超市買點面包”,VLA驅動的車輛便能通過搜索興趣點、理解交通流、規(guī)劃路線、規(guī)避風險,并最終準確地停在超市門口。這種從規(guī)則驅動到語義認知,再到物理行動的閉環(huán),不僅解決了自動駕駛的長尾問題,更開啟了物理人工智能的新時代。

總結與未來展望

視覺語言動作模型(VLA)在自動駕駛中的崛起,標志著人工智能從純粹的信息處理向物理實體交互的質變。相比于視覺語言模型(VLM),VLA的核心價值在于它消除了語義理解與物理執(zhí)行之間的斷層,通過統(tǒng)一的端到端框架,實現(xiàn)了感知、決策與控制的深度集成。這一跨越使得自動駕駛車輛能夠擺脫對高精地圖和繁瑣手工規(guī)則的依賴,轉而依靠通用的常識和實時推理來處理復雜多變的現(xiàn)實環(huán)境。

-- END --

       原文標題 : 已有VLM,自動駕駛為什么還要探索VLA?

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號