訂閱
糾錯
加入自媒體

一文帶你厘清自動駕駛端到端架構(gòu)差異

隨著自動駕駛技術(shù)飛速發(fā)展,智能駕駛系統(tǒng)的設(shè)計(jì)思路也經(jīng)歷了從傳統(tǒng)模塊化架構(gòu)到端到端大模型轉(zhuǎn)變。傳統(tǒng)模塊化架構(gòu)將感知、預(yù)測、規(guī)劃和控制等子任務(wù)拆分開,分別由不同模塊完成;而端到端大模型則嘗試直接將傳感器輸入映射到車輛控制指令上,實(shí)現(xiàn)聯(lián)合優(yōu)化。雖同為端到端,在各車企在設(shè)計(jì)時卻提出了模塊化端到端、雙系統(tǒng)端到端、單模型端到端等各種技術(shù)架構(gòu),這些端到端架構(gòu)到底有何區(qū)別,相較于基于模塊化的架構(gòu),他們又有何優(yōu)勢?

傳統(tǒng)模塊化系統(tǒng)架構(gòu)與決策機(jī)制

在聊端到端大模型前,我們還是要先了解下基于模塊化的自動駕駛架構(gòu),到底是如何實(shí)現(xiàn)智駕的。基于模塊化的自動駕駛架構(gòu)通常采用模塊化的流水線結(jié)構(gòu),將環(huán)境感知、行為決策和運(yùn)動控制等功能串聯(lián)起來。在感知階段,系統(tǒng)通過攝像頭、雷達(dá)、激光雷達(dá)等傳感器進(jìn)行目標(biāo)檢測、分割和跟蹤;在決策規(guī)劃階段,基于感知結(jié)果和高精度地圖進(jìn)行路徑規(guī)劃與行為決策;最后在控制階段生成具體的加減速、轉(zhuǎn)向等控制指令。

自動駕駛系統(tǒng)架構(gòu)

基于模塊化的自動駕駛架構(gòu)優(yōu)勢在于各部分職責(zé)明確,可利用豐富的先驗(yàn)知識和規(guī)則進(jìn)行設(shè)計(jì),且易于逐一調(diào)試和驗(yàn)證。這一技術(shù)方案會先利用地圖和規(guī)則規(guī)劃期望路徑,再基于動態(tài)窗口法或采樣優(yōu)化等技術(shù)生成軌跡,最后由PID或模型預(yù)測控制算法輸出執(zhí)行指令,以實(shí)現(xiàn)高速NOA等功能。但這一技術(shù)對環(huán)境建模和規(guī)則依賴較強(qiáng),在應(yīng)對復(fù)雜多變的交通場景和長尾異常情況時容易出現(xiàn)性能瓶頸。

端到端系統(tǒng)架構(gòu)與決策機(jī)制

與模塊化方法不同,端到端(End-to-End, E2E)架構(gòu)是將傳感器數(shù)據(jù)直接映射到車輛操控輸出,從而實(shí)現(xiàn)聯(lián)合優(yōu)化。其實(shí)端到端概念并不是近幾年才出現(xiàn)的,如1989年的ALVINN和2016年的NVIDIA DAVE-2等,使用前置攝像頭圖像輸入,通過神經(jīng)網(wǎng)絡(luò)直接輸出轉(zhuǎn)向角,以驗(yàn)證了端到端架構(gòu)的可行性。

 

端到端架構(gòu)

近年來,隨著大規(guī)模數(shù)據(jù)集和深度學(xué)習(xí)技術(shù)的發(fā)展,端到端自動駕駛方法不斷涌現(xiàn)。典型的端到端決策機(jī)制包括基于模仿學(xué)習(xí)(將駕駛員操作作為監(jiān)督信號)以及強(qiáng)化學(xué)習(xí)(以安全舒適為目標(biāo)優(yōu)化獎勵)等策略,驅(qū)動模型直接學(xué)習(xí)從傳感器到規(guī)劃軌跡或控制命令的映射。端到端系統(tǒng)可以簡化結(jié)構(gòu),將感知、預(yù)測和規(guī)劃任務(wù)合并到一個聯(lián)合可訓(xùn)練的模型中,從而能對駕駛性能進(jìn)行直接優(yōu)化。

端到端架構(gòu)看似極具優(yōu)勢,但由于缺乏明確的中間輸出,端到端系統(tǒng)往往被視為“黑箱”,難以解釋其決策過程,且在極端或罕見場景下的可靠性尚未充分驗(yàn)證。此外,端到端模型需要海量多樣化的訓(xùn)練數(shù)據(jù)和強(qiáng)大的計(jì)算資源,訓(xùn)練優(yōu)化難度較大。為了兼顧性能與安全,有些方法在端到端架構(gòu)中仍保留了一定的模塊化結(jié)構(gòu)(如使用語義分割或目標(biāo)檢測作為中間表示)。近年來,還出現(xiàn)了將視覺數(shù)據(jù)與語言模型(如大規(guī)模視覺語言模型)結(jié)合的嘗試,以提升對場景語義和因果關(guān)系的理解能力,但這也進(jìn)一步增加了系統(tǒng)復(fù)雜度和實(shí)時性的挑戰(zhàn)。智駕最前沿曾簡單圖解了模塊化架構(gòu)到端到端大模型,以故事的方式將這兩個技術(shù)給大家厘清楚了(相關(guān)閱讀:自動駕駛中基于規(guī)則的決策和端到端大模型有何區(qū)別?)。

三種端到端架構(gòu)詳細(xì)解析

3.1 模塊化端到端架構(gòu)

模塊化端到端架構(gòu)(Modular End-to-End)將整體規(guī)劃任務(wù)分解為可微分的子模塊,但在訓(xùn)練和推理時聯(lián)合優(yōu)化以最終規(guī)劃目標(biāo)為準(zhǔn)。該架構(gòu)既保留了模塊化結(jié)構(gòu)的可解釋性,又能享受端到端訓(xùn)練的優(yōu)勢。近年來已有不少研究和工業(yè)解決方案采用類似思路,如Wayve等公司訓(xùn)練多任務(wù)神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)端到端規(guī)劃,并在CARLA等仿真平臺上取得優(yōu)異成績。特斯拉最新的FSD V12方案也采用了這種模塊化端到端理念,使用鳥瞰(BEV)空間的占據(jù)網(wǎng)格(Occupancy Grid)網(wǎng)絡(luò)進(jìn)行路徑規(guī)劃。特斯拉將多目攝像頭的特征映射到俯視圖空間,通過端到端學(xué)習(xí)得到占據(jù)概率圖,然后從中生成安全可行的行駛軌跡。該方法弱化了對高精度地圖的依賴,使車輛能更靈活地應(yīng)對多傳感器融合后的環(huán)境感知。簡單理解,模塊化端到端架構(gòu)在設(shè)計(jì)上仍保留了感知、預(yù)測、規(guī)劃等模塊,只是各模塊參數(shù)可以聯(lián)合訓(xùn)練,因此能夠在一定程度上兼顧模型的可解釋性和任務(wù)級優(yōu)化性能。

3.2 雙系統(tǒng)端到端架構(gòu)(端到端+視覺語言模型)

雙系統(tǒng)端到端架構(gòu)在單一的端到端模型之外,增加了一個視覺語言輔助系統(tǒng),以提升對復(fù)雜場景的理解和推理能力。這一架構(gòu)采用了“快慢雙系統(tǒng)”理念,快速系統(tǒng)(Fast System)采用端到端學(xué)習(xí)處理即時的軌跡規(guī)劃與控制,慢速系統(tǒng)(Slow System)則借助大規(guī)模視覺語言模型(VLM)進(jìn)行高層次的語義推理和決策支持,雙系統(tǒng)相互協(xié)同,保障了智駕系統(tǒng)的安全性。

理想汽車的最新研發(fā)方案就采用了這一思路,一個端到端神經(jīng)網(wǎng)絡(luò)負(fù)責(zé)實(shí)時駕駛控制,另一個視覺語言模型則對當(dāng)前場景進(jìn)行語義化解析,提供補(bǔ)充信息和決策建議。長安汽車的“天樞”大模型架構(gòu)也采用了“大腦小腦”結(jié)構(gòu),其中“大腦”部分即是基于大模型的慢速系統(tǒng),用于復(fù)雜推理,而“小腦”則負(fù)責(zé)具體規(guī)劃和控制。雙系統(tǒng)架構(gòu)的決策機(jī)制通常是端到端模型快速生成初步路徑,而視覺語言模型則分析環(huán)境上下文(如交通標(biāo)志含義、行人意圖等),在必要時修正或豐富規(guī)劃結(jié)果。但這種方案需要同時運(yùn)行兩個大模型,占用大量算力,而且模型間的協(xié)同效率和一致性需要專門設(shè)計(jì)和優(yōu)化。

3.3 單模型端到端架構(gòu)

單模型端到端架構(gòu)(One Model E2E)旨在用一個統(tǒng)一的多模態(tài)大模型完成所有自動駕駛?cè)蝿?wù),包括感知、預(yù)測與規(guī)劃。這一思路受到大規(guī)模語言模型和視覺語言模型的啟發(fā),力圖構(gòu)建一個“駕駛領(lǐng)域的通用基礎(chǔ)模型”。近期行業(yè)內(nèi)就有相關(guān)嘗試,比如DriveMM是一種全新的大規(guī)模多模態(tài)模型,可以處理圖像和多視角視頻等多種輸入,并執(zhí)行感知、預(yù)測和規(guī)劃等廣泛的駕駛?cè)蝿?wù)。該模型先在各類視覺和語言數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,再利用駕駛數(shù)據(jù)集微調(diào),在多個公開數(shù)據(jù)集上實(shí)現(xiàn)了全任務(wù)的最先進(jìn)性能。

在決策機(jī)制上,單模型架構(gòu)可以將駕駛問題轉(zhuǎn)化為類似語言問答或生成的形式,由模型直接給出安全規(guī)劃或控制輸出,甚至可以通過自然語言交互進(jìn)行意圖控制。這種“全能型”模型的優(yōu)勢在于統(tǒng)一了數(shù)據(jù)表示和優(yōu)化目標(biāo),可挖掘跨任務(wù)協(xié)同效應(yīng);但代價是模型規(guī)模巨大,對算力和數(shù)據(jù)的需求極高,而且目前缺乏實(shí)車部署的成熟方案。除了DriveMM之外,還有如DriveGPT4等嘗試將駕駛?cè)蝿?wù)映射為文本問題,利用大型語言模型直接生成軌跡或控制指令。這些單模型方法代表著未來自動駕駛大模型的發(fā)展方向,但在安全可控性和實(shí)時性上仍需突破。

模塊化與端到端方案的優(yōu)劣勢分析

4.1 系統(tǒng)復(fù)雜度

模塊化架構(gòu)涉及眾多專業(yè)模塊,系統(tǒng)設(shè)計(jì)和集成相對復(fù)雜,需要人工調(diào)試和維護(hù)多個組件(感知、定位、規(guī)劃、控制等)。相比之下,純粹的單模型端到端方案將整體流程壓縮為一個網(wǎng)絡(luò),減少了傳統(tǒng)模塊的數(shù)量,從架構(gòu)上更加簡潔。但模塊化端到端架構(gòu)需要設(shè)計(jì)多個可微分的子網(wǎng)絡(luò),并管理它們之間的數(shù)據(jù)流;雙系統(tǒng)架構(gòu)則需同步運(yùn)行兩個大模型,協(xié)調(diào)“快速端到端模型”和“慢速語言模型”的輸出,反而增添了額外的子模塊或并行網(wǎng)絡(luò),系統(tǒng)層次稍顯復(fù)雜?傮w來看,純粹的單一大模型在系統(tǒng)構(gòu)成上最為簡單,但模型本身規(guī)模龐大;傳統(tǒng)模塊化則模塊眾多但各自相對簡單。

4.2 訓(xùn)練與優(yōu)化難度

模塊化方案可分別針對各個子任務(wù)訓(xùn)練(如目標(biāo)檢測、車道線分割、軌跡規(guī)劃),每個模塊使用結(jié)構(gòu)化標(biāo)注數(shù)據(jù),通過監(jiān)督學(xué)習(xí)容易收斂。但這也需要針對每個模塊收集和標(biāo)注大量數(shù)據(jù)。端到端模型則需要更大規(guī)模的駕駛數(shù)據(jù)(包括傳感器輸入與人類駕駛輸出)來進(jìn)行聯(lián)合訓(xùn)練。由于決策輸出高度依賴真實(shí)駕駛表現(xiàn),端到端系統(tǒng)往往需要大量路測和仿真數(shù)據(jù)來覆蓋各類場景。雙系統(tǒng)架構(gòu)在此基礎(chǔ)上還需準(zhǔn)備適配視覺語言模型的數(shù)據(jù)集以及專門的對話或問答訓(xùn)練。單一大模型的訓(xùn)練難度最高,它不僅需要融合多模態(tài)(視覺、地圖、語言等)數(shù)據(jù),還要在單一模型中學(xué)習(xí)多任務(wù),因此訓(xùn)練過程極其復(fù)雜,對算力和數(shù)據(jù)的需求遠(yuǎn)超其他方案?偟膩碚f,端到端方案在優(yōu)化時缺少顯式的中間監(jiān)督信號,容易陷入收斂困難或性能不穩(wěn)定的問題,需要更多的探索和調(diào)參。

4.3 決策透明性

模塊化系統(tǒng)的一個重要優(yōu)勢是可解釋性強(qiáng),每個模塊有明確的功能邊界,設(shè)計(jì)者可以查看感知輸出、中間地圖和規(guī)劃軌跡等結(jié)果,清楚地定位問題所在。相比之下,全端到端模型由于決策過程高度融合,往往是“黑箱”式的,難以直接解釋為何做出某個操控決策。不過端到端范式并不一定完全封閉黑箱,采用模塊化端到端策略的系統(tǒng)可以保留如目標(biāo)檢測或語義分割等中間輸出,使得系統(tǒng)仍然可以獲得部分透明度。如特斯拉的BEV占據(jù)圖在一定程度上提供了環(huán)境語義信息,而Wayve等系統(tǒng)也會輸出熱力圖供可視化。

雙系統(tǒng)架構(gòu)引入的視覺語言模型本質(zhì)上也作為輔助推理,但這種模型自身通常缺乏明確的決策解釋性。單模型架構(gòu)盡管功能最強(qiáng)大,但幾乎沒有可見中間層供審查,其決策過程難以監(jiān)督或理解,反而需要依賴后續(xù)的解釋性AI技術(shù)去分析網(wǎng)絡(luò)關(guān)注區(qū)域。因此,就透明性而言,傳統(tǒng)模塊化和模塊化端到端方案較優(yōu);而純端到端或大規(guī)模大模型系統(tǒng)的決策往往更不透明。

4.4 靈活性

在功能拓展和算法迭代方面,模塊化架構(gòu)具有較好的靈活性,當(dāng)需要應(yīng)對新場景或添加新功能時,可以針對性地替換或升級某個模塊(如換用更好的感知算法或優(yōu)化規(guī)劃策略),而無需重訓(xùn)整個系統(tǒng)。

端到端方案則不易插入外部知識或規(guī)則,任何改變往往要通過重新訓(xùn)練網(wǎng)絡(luò)來實(shí)現(xiàn)。雙系統(tǒng)架構(gòu)在這方面介于兩者之間,雖然端到端模型需要重訓(xùn),但通過語義模塊(VLM)可以靈活地添加解釋層面能力,如通過修改提示詞或微調(diào)語言模型來適應(yīng)新需求。單模型架構(gòu)的拓展性最弱,因?yàn)槠鋬?nèi)部結(jié)構(gòu)緊耦合,任何微調(diào)都會影響整個模型性能。此外,外部策略調(diào)整(如應(yīng)急接管邏輯)也更難融入端到端模型。綜合來看,模塊化設(shè)計(jì)在靈活性上占優(yōu),而高度集成的端到端模型需要付出更大代價才能適應(yīng)變化。

-- END --

       原文標(biāo)題 : 一文帶你厘清自動駕駛端到端架構(gòu)差異

聲明: 本文由入駐維科號的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報(bào)。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評論

暫無評論

    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號