訂閱
糾錯(cuò)
加入自媒體

占用網(wǎng)絡(luò)為什么讓自動(dòng)駕駛感知更精準(zhǔn)?

自動(dòng)駕駛技術(shù)的演進(jìn)過程,本質(zhì)上是人類試圖賦予機(jī)器“理解物理世界幾何結(jié)構(gòu)”能力的過程。在過去很長(zhǎng)一段時(shí)間里,感知系統(tǒng)高度依賴于對(duì)特定目標(biāo)的“分類與識(shí)別”。如果系統(tǒng)在訓(xùn)練集中見過某種車輛或行人,它就能在道路上通過拉出二維或三維的邊界框(Bounding Box)對(duì)其進(jìn)行定位。然而,這種基于目標(biāo)識(shí)別的方法在面對(duì)真實(shí)世界無(wú)窮無(wú)盡的“奇葩”障礙物時(shí),逐漸顯露出疲態(tài)。

為了打破這一瓶頸,感知算法開始從識(shí)別目標(biāo)轉(zhuǎn)向感知空間,占用網(wǎng)絡(luò)(Occupancy Network)便是在這種背景下應(yīng)運(yùn)而生的一種算法。它不再糾結(jié)于物體“是什么”,而是直接回答空間“是否被占用”,這種視角的轉(zhuǎn)變不僅將感知維度從2D升維至3D,更極大地提升了自動(dòng)駕駛系統(tǒng)的泛化能力和安全性

為什么自動(dòng)駕駛需要理解“空間”

在自動(dòng)駕駛感知的早期階段,主要使用“HydraNet”的架構(gòu),利用多攝像頭融合以及Transformer技術(shù)將二維圖像轉(zhuǎn)化為對(duì)周圍環(huán)境的3D感知。雖然這種方式已經(jīng)能夠生成鳥瞰圖(BEV)視角的感知結(jié)果,但它依然深受“方盒子”模型的束縛。

傳統(tǒng)的感知系統(tǒng)傾向于用規(guī)則的長(zhǎng)方體包裹目標(biāo),但現(xiàn)實(shí)世界中的物體形狀極不規(guī)則,像是帶有細(xì)長(zhǎng)吊臂的起重機(jī)、滿載貨物且形狀奇特的板車,或者是道路上散落的紙箱和破碎輪胎皮等非常常見。如果模型僅僅被訓(xùn)練識(shí)別轎車和卡車,那么對(duì)于這些從未見過的異形障礙物,它很可能會(huì)因?yàn)闊o(wú)法分類而選擇視而不見,這就是行業(yè)內(nèi)常說的感知漏檢問題。

此外,早期的BEV視角主要關(guān)注地面的橫向和縱向空間,卻在Z軸方向上缺失關(guān)鍵的高度信息。這導(dǎo)致車輛在面對(duì)如立交橋的邊緣、限高桿或者是傾斜的電線桿等半空中的物體時(shí),難以做出精準(zhǔn)的判斷。

占用網(wǎng)絡(luò)通過將世界劃分為微小的體素(Voxel),即三維空間里的像素點(diǎn),徹底解決了這一痛點(diǎn)。系統(tǒng)會(huì)預(yù)測(cè)每一個(gè)微小體素是“空閑”狀態(tài)還是“被占用”狀態(tài),這種基于體積感知的方式不僅能精準(zhǔn)識(shí)別物體的運(yùn)動(dòng)狀態(tài)差異,還能捕捉到物體極其細(xì)微的幾何結(jié)構(gòu)。可以說,占用網(wǎng)絡(luò)讓自動(dòng)駕駛車輛擁有了一種“空間直覺”,即便它不認(rèn)識(shí)眼前的物體到底是什么,但只要它占據(jù)了空間,系統(tǒng)就能感知到它的物理存在并進(jìn)行避讓。

占用網(wǎng)絡(luò)與傳統(tǒng)邊界框感知方案優(yōu)勢(shì)對(duì)比

這種從“目標(biāo)導(dǎo)向”到“空間導(dǎo)向”的轉(zhuǎn)變,實(shí)際上是機(jī)器人學(xué)中占用網(wǎng)格映射(Occupancy Grid Mapping)思想在深度學(xué)習(xí)時(shí)代的體現(xiàn)。它不再追求對(duì)物體語(yǔ)義的完美解讀,而是確保對(duì)物理世界幾何連續(xù)性的準(zhǔn)確把握。這種策略在處理“長(zhǎng)尾場(chǎng)景”(Edge Cases)時(shí)可以表現(xiàn)出極強(qiáng)的韌性,因?yàn)闊o(wú)論外界環(huán)境如何變化,物理法則是不變的,即任何實(shí)體都必須占據(jù)一定的空間。

占用網(wǎng)絡(luò)的底層架構(gòu)

要支撐起如此龐大的實(shí)時(shí)三維感知任務(wù),占用網(wǎng)絡(luò)背后的神經(jīng)網(wǎng)絡(luò)架構(gòu)極其復(fù)雜。以特斯拉在AI Day 2022上公開的技術(shù)方案為例,其流程始于高效的骨干網(wǎng)絡(luò)(如RegNet)和特征融合模塊(如BiFPN),其從多個(gè)環(huán)視攝像頭中提取高維的二維圖像特征。隨后,模型通過引入空間注意力機(jī)制(Spatial Attention),利用帶有3D空間位置信息的空間查詢(Spatial Query)在多相機(jī)生成的圖像特征中進(jìn)行跨相機(jī)融合。這個(gè)過程可以被視為一種數(shù)學(xué)上的升維操作,能將離散的、存在畸變的二維圖像數(shù)據(jù)重構(gòu)到統(tǒng)一的三維向量空間中。

在這個(gè)3D向量空間內(nèi),系統(tǒng)引入了時(shí)序融合(Temporal Fusion)來(lái)處理動(dòng)態(tài)環(huán)境。特斯拉的方案設(shè)計(jì)了兩套特征隊(duì)列,時(shí)序特征隊(duì)列每27毫秒更新一次特征,用于捕捉快速運(yùn)動(dòng)目標(biāo)的連貫性;而空間特征隊(duì)列則根據(jù)車輛行駛的固定距離來(lái)更新,這在車輛停止(如等紅綠燈)時(shí)尤為重要,能防止模型因?yàn)殪o止而“忘記”之前的空間信息。為了整合這些時(shí)序信息,通過使用空間RNN(Spatial RNN)模塊,將隱狀態(tài)(Hidden State)組織成一個(gè)二維或三維網(wǎng)格,隨著車輛的移動(dòng)不斷更新周圍環(huán)境的“記憶”。

在解碼階段,占用網(wǎng)絡(luò)并不只是輸出一張?bào)w格化的地圖。為了打破固定分辨率的限制,模型引入了隱式坐標(biāo)查詢(Implicit Queryable MLP Decoder)。這意味著,對(duì)于空間中的任意坐標(biāo)(x, y, z),模型都能解碼出該點(diǎn)的多種信息。這種設(shè)計(jì)賦予了感知系統(tǒng)極高的靈活性,它既能提供粗略的全景感知,也能在關(guān)鍵區(qū)域進(jìn)行高密度的細(xì)粒度采樣。

除了特斯拉的路徑,還衍生出了如OccNet和TPVFormer等不同的變體。OccNet采用了級(jí)聯(lián)體素解碼器(Cascade Voxel Decoder),這種架構(gòu)不再是一次性生成高分辨率的3D體積,而是通過多級(jí)細(xì)化的方式逐步豐富高度信息和體素細(xì)節(jié),從而在計(jì)算效率和感知精度之間找到了平衡。它還使用了專門為3D空間優(yōu)化的三維可變形注意力機(jī)制(3D Deformable Attention),這使得系統(tǒng)在處理行人、交通錐等細(xì)小障礙物時(shí)的mIoU(平均交并比)表現(xiàn)顯著優(yōu)于傳統(tǒng)的BEV方法。

為了進(jìn)一步提升感知的準(zhǔn)確性,像是理想、華為等國(guó)內(nèi)廠商則選擇了視覺與激光雷達(dá)的深度融合。理想的BEV融合算法在攝像頭采集的豐富語(yǔ)義基礎(chǔ)上,加入了激光雷達(dá)的高精度測(cè)距數(shù)據(jù)。激光雷達(dá)能夠在200米外提前探測(cè)到危險(xiǎn)目標(biāo),并利用智能濾噪算法識(shí)別雨霧、前車尾氣等環(huán)境噪點(diǎn),其反應(yīng)速度通常僅為0.1秒,遠(yuǎn)超人類駕駛員的0.6 秒。在這種融合架構(gòu)下,占用網(wǎng)絡(luò)被賦予了更強(qiáng)的魯棒性,即便在黑夜、隧道煙霧或極端天氣下攝像頭失效時(shí),基于激光雷達(dá)點(diǎn)云生成的空間占用信息依然能確保AEB等安全功能的正常觸發(fā)。

下表對(duì)比了主流占用網(wǎng)絡(luò)技術(shù)實(shí)現(xiàn)路徑的差異:

這些算法演進(jìn)的背后,其實(shí)是在“計(jì)算成本”與“信息密度”之間進(jìn)行取舍。雖然三維體素能提供最豐富的信息,但如果將空間劃分得太細(xì),計(jì)算量會(huì)呈指數(shù)級(jí)爆炸。隱式查詢和級(jí)聯(lián)解碼等技術(shù)的出現(xiàn),正是為了在有限的車載算力下,實(shí)現(xiàn)對(duì)三維世界的高質(zhì)量重構(gòu)。

占用網(wǎng)絡(luò)如何改變車輛的“大腦決策”

如果說感知是自動(dòng)駕駛的“眼睛”,那么規(guī)劃與控制(PnC)就是車輛的“大腦”。在過去,感知與規(guī)控之間存在一條很深的鴻溝,感知輸出的是一堆帶有噪聲的標(biāo)簽,而規(guī)控則基于一套硬編碼的邏輯規(guī)則。占用網(wǎng)絡(luò)的引入,正在通過一種“統(tǒng)一表征”的方式填補(bǔ)這一鴻溝。由于占用網(wǎng)絡(luò)直接輸出物理世界的幾何占用狀態(tài),規(guī)劃模型可以利用這些數(shù)據(jù)生成代價(jià)地圖(Cost Map),而不再需要復(fù)雜的中間轉(zhuǎn)換層。

在局部路徑規(guī)劃中,系統(tǒng)需要評(píng)估成千上萬(wàn)條候選軌跡的安全性。傳統(tǒng)的做法是針對(duì)每個(gè)識(shí)別出的物體進(jìn)行碰撞檢測(cè),這在物體數(shù)量眾多的擁堵路口將非常耗時(shí)。而基于占用網(wǎng)絡(luò),規(guī)劃器可以使用時(shí)空占用網(wǎng)格圖(SOGM)來(lái)預(yù)測(cè)周圍空間在未來(lái)短時(shí)間內(nèi)的狀態(tài)演變。這種預(yù)測(cè)不再是簡(jiǎn)單的線性外推,而是結(jié)合了物體的運(yùn)動(dòng)流信息(Flow),能準(zhǔn)確預(yù)判行人的走位或車輛的加塞。通過在Frenet坐標(biāo)系中進(jìn)行軌跡采樣,并結(jié)合動(dòng)態(tài)占用地圖進(jìn)行實(shí)時(shí)評(píng)估,車輛通過這種方式可以選出一條既舒適又安全的最佳路徑。

占用網(wǎng)絡(luò)帶來(lái)的更深層次的變革在于規(guī)劃算法的“物理化”。一些技術(shù)方案提出將人工勢(shì)場(chǎng)法(APF)作為物理啟發(fā)引導(dǎo)嵌入到神經(jīng)網(wǎng)絡(luò)的訓(xùn)練中。這意味著預(yù)測(cè)出的占用圖不僅要符合視覺特征,還要符合物理規(guī)律。例如,物體不能瞬間位移,兩個(gè)實(shí)體不能在同一時(shí)間占據(jù)同一空間。這種物理約束的加入,使得規(guī)劃生成的軌跡更加平滑且符合人類駕駛直覺。在復(fù)雜的城市環(huán)境中,系統(tǒng)甚至可以利用軟行為博弈(Soft Actor-Critic,SAC)算法,通過多頻道代價(jià)地圖觀察(M-COST)來(lái)學(xué)習(xí)處理不可預(yù)見的障礙物行為,從而實(shí)現(xiàn)在動(dòng)態(tài)環(huán)境中的實(shí)時(shí)自適應(yīng)規(guī)劃。

此外,占用網(wǎng)絡(luò)產(chǎn)生的連續(xù)幾何表示(如神經(jīng)帶符號(hào)距離場(chǎng)ONDP)為避障提供了毫米級(jí)的精度。這種高精度的幾何反饋對(duì)于狹窄空間的穿行至關(guān)重要。規(guī)劃器通過差異化距離查詢,可以快速計(jì)算車輛邊緣與最近障礙物之間的梯度信息,引導(dǎo)控制系統(tǒng)做出微小的轉(zhuǎn)向修正,這在自動(dòng)泊車或在狹窄巷道通行中具有巨大的應(yīng)用價(jià)值。

占用網(wǎng)絡(luò)對(duì)規(guī)控系統(tǒng)的賦能主要體現(xiàn)在以下幾個(gè)環(huán)節(jié):

統(tǒng)一的輸入源:將靜態(tài)道路結(jié)構(gòu)(如護(hù)欄、馬路牙子)與動(dòng)態(tài)障礙物(行人、車輛)統(tǒng)一在同一個(gè)體素空間中,消除了跨模塊處理產(chǎn)生的誤差累積。

預(yù)測(cè)與感知的解耦:感知模塊輸出的Flow信息直接包含了物體的速度和運(yùn)動(dòng)趨勢(shì),使得規(guī)劃模塊在做短時(shí)預(yù)測(cè)(通常為2秒時(shí)域)時(shí)更加精準(zhǔn)。

安全性閉環(huán):通過物理啟發(fā)式學(xué)習(xí),系統(tǒng)能識(shí)別出“不可通行區(qū)域”的邊界,即便這些區(qū)域是由未分類的異形物體構(gòu)成的,也能確保車輛維持足夠的安全余量。

這種感知與規(guī)控的融合,正是端到端(End-to-End)自動(dòng)駕駛的必經(jīng)之路。在特斯拉的FSD V12架構(gòu)中,占用網(wǎng)絡(luò)提供的3D空間理解作為底層基礎(chǔ),支撐起了一個(gè)單一的深度學(xué)習(xí)模型,實(shí)現(xiàn)了從原始圖像輸入到駕駛指令輸出的直接映射。這種架構(gòu)不再依賴于數(shù)百萬(wàn)行的人寫規(guī)則,而是通過學(xué)習(xí)海量?jī)?yōu)秀人類駕駛員的行為數(shù)據(jù),自動(dòng)習(xí)得在復(fù)雜空間環(huán)境下的駕駛策略。

產(chǎn)業(yè)落地與未來(lái)圖景

占用網(wǎng)絡(luò)雖然在理論上極具吸引力,但在實(shí)際的大規(guī)模產(chǎn)業(yè)落地中,卻面臨著數(shù)據(jù)標(biāo)注和實(shí)時(shí)算力的雙重挑戰(zhàn)。在傳統(tǒng)感知時(shí)代,人工拉框標(biāo)注障礙物還是可行的,但對(duì)于三維空間的每一個(gè)體素進(jìn)行分類標(biāo)注,顯然超出了人工的極限。為此,行業(yè)開發(fā)出了4D自動(dòng)標(biāo)注技術(shù)。特斯拉利用Dojo超級(jí)計(jì)算機(jī)和定制的D1芯片,通過離線重構(gòu)技術(shù)(如NeRF)對(duì)行駛過的歷史路徑進(jìn)行全量3D重建,可以生成極高精度的真值(Ground Truth)來(lái)監(jiān)督在線網(wǎng)絡(luò)的訓(xùn)練。這種自動(dòng)標(biāo)注系統(tǒng)只需12小時(shí)就能處理10,000次駕駛行程的數(shù)據(jù),其效率相當(dāng)于500萬(wàn)小時(shí)的人工勞動(dòng)。

在硬件層面,運(yùn)行高幀率的占用網(wǎng)絡(luò)需要極其強(qiáng)大的計(jì)算底座。特斯拉的FSD芯片通過分布式并行計(jì)算,將神經(jīng)網(wǎng)絡(luò)執(zhí)行分配到獨(dú)立的系統(tǒng)上,從而保證了實(shí)時(shí)性。而像理想等廠商采用的雙英偉達(dá)Orin-X平臺(tái),則提供了高達(dá)508TOPS的總算力,為復(fù)雜的BEV融合算法和舒適度COST預(yù)測(cè)模型提供了充足的余量。這種“算力換空間理解”的邏輯,正是當(dāng)前智能汽車硬件競(jìng)賽的核心驅(qū)動(dòng)力。

未來(lái),自動(dòng)駕駛的感知將進(jìn)一步細(xì)粒度化與通用化。隨著OpenOcc等高質(zhì)量3D占用基準(zhǔn)測(cè)試集的發(fā)布,算法模型對(duì)細(xì)小物體的捕捉能力將持續(xù)提升。同時(shí),占用網(wǎng)絡(luò)將不再局限于感知障礙物,而是會(huì)朝著語(yǔ)義占據(jù)(Semantic Occupancy)方向演進(jìn),即不僅可以知道車輛前方有東西,還知道那是草地、水坑還是堅(jiān)硬的巖石,從而指導(dǎo)車輛在非鋪裝路面上進(jìn)行決策。

最后的話

回望自動(dòng)駕駛的發(fā)展史,我們正在經(jīng)歷一個(gè)從“看圖識(shí)字”到“空間感知”的變革期。占用網(wǎng)絡(luò)不僅是一項(xiàng)技術(shù)的發(fā)明,更是一種人工智能解決物理世界問題方式的最新解法。其實(shí)想讓機(jī)器像人一樣駕駛,要做的就是要讓機(jī)器建立起對(duì)“存在”與“虛空”最直觀、最準(zhǔn)確的把握。而在這一進(jìn)程中,占用網(wǎng)絡(luò)無(wú)疑是那顆點(diǎn)亮3D世界感知的燈泡,讓自動(dòng)駕駛普及成為可能。

-- END --

       原文標(biāo)題 : 占用網(wǎng)絡(luò)為什么讓自動(dòng)駕駛感知更精準(zhǔn)?

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)