123,123

一文帶你厘清自動(dòng)駕駛端到端架構(gòu)差異

2025-05-08 09:44

隨著自動(dòng)駕駛技術(shù)飛速發(fā)展，智能駕駛系統(tǒng)的設(shè)計(jì)思路也經(jīng)歷了從傳統(tǒng)模塊化架構(gòu)到端到端大模型轉(zhuǎn)變。傳統(tǒng)模塊化架構(gòu)將感知、預(yù)測(cè)、規(guī)劃和控制等子任務(wù)拆分開，分別由不同模塊完成；而端到端大模型則嘗試直接將傳感器輸入映射到車輛控制指令上，實(shí)現(xiàn)聯(lián)合優(yōu)化。雖同為端到端，在各車企在設(shè)計(jì)時(shí)卻提出了模塊化端到端、雙系統(tǒng)端到端、單模型端到端等各種技術(shù)架構(gòu)，這些端到端架構(gòu)到底有何區(qū)別，相較于基于模塊化的架構(gòu)，他們又有何優(yōu)勢(shì)？

傳統(tǒng)模塊化系統(tǒng)架構(gòu)與決策機(jī)制

在聊端到端大模型前，我們還是要先了解下基于模塊化的自動(dòng)駕駛架構(gòu)，到底是如何實(shí)現(xiàn)智駕的。基于模塊化的自動(dòng)駕駛架構(gòu)通常采用模塊化的流水線結(jié)構(gòu)，將環(huán)境感知、行為決策和運(yùn)動(dòng)控制等功能串聯(lián)起來。在感知階段，系統(tǒng)通過攝像頭、雷達(dá)、激光雷達(dá)等傳感器進(jìn)行目標(biāo)檢測(cè)、分割和跟蹤；在決策規(guī)劃階段，基于感知結(jié)果和高精度地圖進(jìn)行路徑規(guī)劃與行為決策；最后在控制階段生成具體的加減速、轉(zhuǎn)向等控制指令。

自動(dòng)駕駛系統(tǒng)架構(gòu)

基于模塊化的自動(dòng)駕駛架構(gòu)優(yōu)勢(shì)在于各部分職責(zé)明確，可利用豐富的先驗(yàn)知識(shí)和規(guī)則進(jìn)行設(shè)計(jì)，且易于逐一調(diào)試和驗(yàn)證。這一技術(shù)方案會(huì)先利用地圖和規(guī)則規(guī)劃期望路徑，再基于動(dòng)態(tài)窗口法或采樣優(yōu)化等技術(shù)生成軌跡，最后由PID或模型預(yù)測(cè)控制算法輸出執(zhí)行指令，以實(shí)現(xiàn)高速NOA等功能。但這一技術(shù)對(duì)環(huán)境建模和規(guī)則依賴較強(qiáng)，在應(yīng)對(duì)復(fù)雜多變的交通場(chǎng)景和長(zhǎng)尾異常情況時(shí)容易出現(xiàn)性能瓶頸。

端到端系統(tǒng)架構(gòu)與決策機(jī)制

與模塊化方法不同，端到端（End-to-End, E2E）架構(gòu)是將傳感器數(shù)據(jù)直接映射到車輛操控輸出，從而實(shí)現(xiàn)聯(lián)合優(yōu)化。其實(shí)端到端概念并不是近幾年才出現(xiàn)的，如1989年的ALVINN和2016年的NVIDIA DAVE-2等，使用前置攝像頭圖像輸入，通過神經(jīng)網(wǎng)絡(luò)直接輸出轉(zhuǎn)向角，以驗(yàn)證了端到端架構(gòu)的可行性。

端到端架構(gòu)

近年來，隨著大規(guī)模數(shù)據(jù)集和深度學(xué)習(xí)技術(shù)的發(fā)展，端到端自動(dòng)駕駛方法不斷涌現(xiàn)。典型的端到端決策機(jī)制包括基于模仿學(xué)習(xí)（將駕駛員操作作為監(jiān)督信號(hào)）以及強(qiáng)化學(xué)習(xí)（以安全舒適為目標(biāo)優(yōu)化獎(jiǎng)勵(lì)）等策略，驅(qū)動(dòng)模型直接學(xué)習(xí)從傳感器到規(guī)劃軌跡或控制命令的映射。端到端系統(tǒng)可以簡(jiǎn)化結(jié)構(gòu)，將感知、預(yù)測(cè)和規(guī)劃任務(wù)合并到一個(gè)聯(lián)合可訓(xùn)練的模型中，從而能對(duì)駕駛性能進(jìn)行直接優(yōu)化。

端到端架構(gòu)看似極具優(yōu)勢(shì)，但由于缺乏明確的中間輸出，端到端系統(tǒng)往往被視為“黑箱”，難以解釋其決策過程，且在極端或罕見場(chǎng)景下的可靠性尚未充分驗(yàn)證。此外，端到端模型需要海量多樣化的訓(xùn)練數(shù)據(jù)和強(qiáng)大的計(jì)算資源，訓(xùn)練優(yōu)化難度較大。為了兼顧性能與安全，有些方法在端到端架構(gòu)中仍保留了一定的模塊化結(jié)構(gòu)（如使用語(yǔ)義分割或目標(biāo)檢測(cè)作為中間表示）。近年來，還出現(xiàn)了將視覺數(shù)據(jù)與語(yǔ)言模型（如大規(guī)模視覺語(yǔ)言模型）結(jié)合的嘗試，以提升對(duì)場(chǎng)景語(yǔ)義和因果關(guān)系的理解能力，但這也進(jìn)一步增加了系統(tǒng)復(fù)雜度和實(shí)時(shí)性的挑戰(zhàn)。智駕最前沿曾簡(jiǎn)單圖解了模塊化架構(gòu)到端到端大模型，以故事的方式將這兩個(gè)技術(shù)給大家厘清楚了（相關(guān)閱讀：自動(dòng)駕駛中基于規(guī)則的決策和端到端大模型有何區(qū)別？）。

三種端到端架構(gòu)詳細(xì)解析

3.1 模塊化端到端架構(gòu)

模塊化端到端架構(gòu)（Modular End-to-End）將整體規(guī)劃任務(wù)分解為可微分的子模塊，但在訓(xùn)練和推理時(shí)聯(lián)合優(yōu)化以最終規(guī)劃目標(biāo)為準(zhǔn)。該架構(gòu)既保留了模塊化結(jié)構(gòu)的可解釋性，又能享受端到端訓(xùn)練的優(yōu)勢(shì)。近年來已有不少研究和工業(yè)解決方案采用類似思路，如Wayve等公司訓(xùn)練多任務(wù)神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)端到端規(guī)劃，并在CARLA等仿真平臺(tái)上取得優(yōu)異成績(jī)。特斯拉最新的FSD V12方案也采用了這種模塊化端到端理念，使用鳥瞰（BEV）空間的占據(jù)網(wǎng)格（Occupancy Grid）網(wǎng)絡(luò)進(jìn)行路徑規(guī)劃。特斯拉將多目攝像頭的特征映射到俯視圖空間，通過端到端學(xué)習(xí)得到占據(jù)概率圖，然后從中生成安全可行的行駛軌跡。該方法弱化了對(duì)高精度地圖的依賴，使車輛能更靈活地應(yīng)對(duì)多傳感器融合后的環(huán)境感知。簡(jiǎn)單理解，模塊化端到端架構(gòu)在設(shè)計(jì)上仍保留了感知、預(yù)測(cè)、規(guī)劃等模塊，只是各模塊參數(shù)可以聯(lián)合訓(xùn)練，因此能夠在一定程度上兼顧模型的可解釋性和任務(wù)級(jí)優(yōu)化性能。

3.2 雙系統(tǒng)端到端架構(gòu)（端到端+視覺語(yǔ)言模型）

雙系統(tǒng)端到端架構(gòu)在單一的端到端模型之外，增加了一個(gè)視覺語(yǔ)言輔助系統(tǒng)，以提升對(duì)復(fù)雜場(chǎng)景的理解和推理能力。這一架構(gòu)采用了“快慢雙系統(tǒng)”理念，快速系統(tǒng)（Fast System）采用端到端學(xué)習(xí)處理即時(shí)的軌跡規(guī)劃與控制，慢速系統(tǒng)（Slow System）則借助大規(guī)模視覺語(yǔ)言模型（VLM）進(jìn)行高層次的語(yǔ)義推理和決策支持，雙系統(tǒng)相互協(xié)同，保障了智駕系統(tǒng)的安全性。

理想汽車的最新研發(fā)方案就采用了這一思路，一個(gè)端到端神經(jīng)網(wǎng)絡(luò)負(fù)責(zé)實(shí)時(shí)駕駛控制，另一個(gè)視覺語(yǔ)言模型則對(duì)當(dāng)前場(chǎng)景進(jìn)行語(yǔ)義化解析，提供補(bǔ)充信息和決策建議。長(zhǎng)安汽車的“天樞”大模型架構(gòu)也采用了“大腦小腦”結(jié)構(gòu)，其中“大腦”部分即是基于大模型的慢速系統(tǒng)，用于復(fù)雜推理，而“小腦”則負(fù)責(zé)具體規(guī)劃和控制。雙系統(tǒng)架構(gòu)的決策機(jī)制通常是端到端模型快速生成初步路徑，而視覺語(yǔ)言模型則分析環(huán)境上下文（如交通標(biāo)志含義、行人意圖等），在必要時(shí)修正或豐富規(guī)劃結(jié)果。但這種方案需要同時(shí)運(yùn)行兩個(gè)大模型，占用大量算力，而且模型間的協(xié)同效率和一致性需要專門設(shè)計(jì)和優(yōu)化。

3.3 單模型端到端架構(gòu)

單模型端到端架構(gòu)（One Model E2E）旨在用一個(gè)統(tǒng)一的多模態(tài)大模型完成所有自動(dòng)駕駛?cè)蝿?wù)，包括感知、預(yù)測(cè)與規(guī)劃。這一思路受到大規(guī)模語(yǔ)言模型和視覺語(yǔ)言模型的啟發(fā)，力圖構(gòu)建一個(gè)“駕駛領(lǐng)域的通用基礎(chǔ)模型”。近期行業(yè)內(nèi)就有相關(guān)嘗試，比如DriveMM是一種全新的大規(guī)模多模態(tài)模型，可以處理圖像和多視角視頻等多種輸入，并執(zhí)行感知、預(yù)測(cè)和規(guī)劃等廣泛的駕駛?cè)蝿?wù)。該模型先在各類視覺和語(yǔ)言數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練，再利用駕駛數(shù)據(jù)集微調(diào)，在多個(gè)公開數(shù)據(jù)集上實(shí)現(xiàn)了全任務(wù)的最先進(jìn)性能。

在決策機(jī)制上，單模型架構(gòu)可以將駕駛問題轉(zhuǎn)化為類似語(yǔ)言問答或生成的形式，由模型直接給出安全規(guī)劃或控制輸出，甚至可以通過自然語(yǔ)言交互進(jìn)行意圖控制。這種“全能型”模型的優(yōu)勢(shì)在于統(tǒng)一了數(shù)據(jù)表示和優(yōu)化目標(biāo)，可挖掘跨任務(wù)協(xié)同效應(yīng)；但代價(jià)是模型規(guī)模巨大，對(duì)算力和數(shù)據(jù)的需求極高，而且目前缺乏實(shí)車部署的成熟方案。除了DriveMM之外，還有如DriveGPT4等嘗試將駕駛?cè)蝿?wù)映射為文本問題，利用大型語(yǔ)言模型直接生成軌跡或控制指令。這些單模型方法代表著未來自動(dòng)駕駛大模型的發(fā)展方向，但在安全可控性和實(shí)時(shí)性上仍需突破。

模塊化與端到端方案的優(yōu)劣勢(shì)分析

4.1 系統(tǒng)復(fù)雜度

模塊化架構(gòu)涉及眾多專業(yè)模塊，系統(tǒng)設(shè)計(jì)和集成相對(duì)復(fù)雜，需要人工調(diào)試和維護(hù)多個(gè)組件（感知、定位、規(guī)劃、控制等）。相比之下，純粹的單模型端到端方案將整體流程壓縮為一個(gè)網(wǎng)絡(luò)，減少了傳統(tǒng)模塊的數(shù)量，從架構(gòu)上更加簡(jiǎn)潔。但模塊化端到端架構(gòu)需要設(shè)計(jì)多個(gè)可微分的子網(wǎng)絡(luò)，并管理它們之間的數(shù)據(jù)流；雙系統(tǒng)架構(gòu)則需同步運(yùn)行兩個(gè)大模型，協(xié)調(diào)“快速端到端模型”和“慢速語(yǔ)言模型”的輸出，反而增添了額外的子模塊或并行網(wǎng)絡(luò)，系統(tǒng)層次稍顯復(fù)雜�？傮w來看，純粹的單一大模型在系統(tǒng)構(gòu)成上最為簡(jiǎn)單，但模型本身規(guī)模龐大；傳統(tǒng)模塊化則模塊眾多但各自相對(duì)簡(jiǎn)單。

4.2 訓(xùn)練與優(yōu)化難度

模塊化方案可分別針對(duì)各個(gè)子任務(wù)訓(xùn)練（如目標(biāo)檢測(cè)、車道線分割、軌跡規(guī)劃），每個(gè)模塊使用結(jié)構(gòu)化標(biāo)注數(shù)據(jù)，通過監(jiān)督學(xué)習(xí)容易收斂。但這也需要針對(duì)每個(gè)模塊收集和標(biāo)注大量數(shù)據(jù)。端到端模型則需要更大規(guī)模的駕駛數(shù)據(jù)（包括傳感器輸入與人類駕駛輸出）來進(jìn)行聯(lián)合訓(xùn)練。由于決策輸出高度依賴真實(shí)駕駛表現(xiàn)，端到端系統(tǒng)往往需要大量路測(cè)和仿真數(shù)據(jù)來覆蓋各類場(chǎng)景。雙系統(tǒng)架構(gòu)在此基礎(chǔ)上還需準(zhǔn)備適配視覺語(yǔ)言模型的數(shù)據(jù)集以及專門的對(duì)話或問答訓(xùn)練。單一大模型的訓(xùn)練難度最高，它不僅需要融合多模態(tài)（視覺、地圖、語(yǔ)言等）數(shù)據(jù)，還要在單一模型中學(xué)習(xí)多任務(wù)，因此訓(xùn)練過程極其復(fù)雜，對(duì)算力和數(shù)據(jù)的需求遠(yuǎn)超其他方案�？偟膩碚f，端到端方案在優(yōu)化時(shí)缺少顯式的中間監(jiān)督信號(hào)，容易陷入收斂困難或性能不穩(wěn)定的問題，需要更多的探索和調(diào)參。

4.3 決策透明性

模塊化系統(tǒng)的一個(gè)重要優(yōu)勢(shì)是可解釋性強(qiáng)，每個(gè)模塊有明確的功能邊界，設(shè)計(jì)者可以查看感知輸出、中間地圖和規(guī)劃軌跡等結(jié)果，清楚地定位問題所在。相比之下，全端到端模型由于決策過程高度融合，往往是“黑箱”式的，難以直接解釋為何做出某個(gè)操控決策。不過端到端范式并不一定完全封閉黑箱，采用模塊化端到端策略的系統(tǒng)可以保留如目標(biāo)檢測(cè)或語(yǔ)義分割等中間輸出，使得系統(tǒng)仍然可以獲得部分透明度。如特斯拉的BEV占據(jù)圖在一定程度上提供了環(huán)境語(yǔ)義信息，而Wayve等系統(tǒng)也會(huì)輸出熱力圖供可視化。

雙系統(tǒng)架構(gòu)引入的視覺語(yǔ)言模型本質(zhì)上也作為輔助推理，但這種模型自身通常缺乏明確的決策解釋性。單模型架構(gòu)盡管功能最強(qiáng)大，但幾乎沒有可見中間層供審查，其決策過程難以監(jiān)督或理解，反而需要依賴后續(xù)的解釋性AI技術(shù)去分析網(wǎng)絡(luò)關(guān)注區(qū)域。因此，就透明性而言，傳統(tǒng)模塊化和模塊化端到端方案較優(yōu)；而純端到端或大規(guī)模大模型系統(tǒng)的決策往往更不透明。

4.4 靈活性

在功能拓展和算法迭代方面，模塊化架構(gòu)具有較好的靈活性，當(dāng)需要應(yīng)對(duì)新場(chǎng)景或添加新功能時(shí)，可以針對(duì)性地替換或升級(jí)某個(gè)模塊（如換用更好的感知算法或優(yōu)化規(guī)劃策略），而無(wú)需重訓(xùn)整個(gè)系統(tǒng)。

端到端方案則不易插入外部知識(shí)或規(guī)則，任何改變往往要通過重新訓(xùn)練網(wǎng)絡(luò)來實(shí)現(xiàn)。雙系統(tǒng)架構(gòu)在這方面介于兩者之間，雖然端到端模型需要重訓(xùn)，但通過語(yǔ)義模塊（VLM）可以靈活地添加解釋層面能力，如通過修改提示詞或微調(diào)語(yǔ)言模型來適應(yīng)新需求。單模型架構(gòu)的拓展性最弱，因?yàn)槠鋬?nèi)部結(jié)構(gòu)緊耦合，任何微調(diào)都會(huì)影響整個(gè)模型性能。此外，外部策略調(diào)整（如應(yīng)急接管邏輯）也更難融入端到端模型。綜合來看，模塊化設(shè)計(jì)在靈活性上占優(yōu)，而高度集成的端到端模型需要付出更大代價(jià)才能適應(yīng)變化。

-- END --

原文標(biāo)題 : 一文帶你厘清自動(dòng)駕駛端到端架構(gòu)差異