推進 AI 打造最值得信賴的駕駛員:Waymo 在自動駕駛模型算法方面的實踐

04/21 10:50
706
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

NVIDIA GTC 2025 上,Waymo 副總裁兼研究主管 Drago Anguelov 發(fā)表了題為“推進 AI 打造最值得信賴的駕駛員”的演講。他演講的核心思想是,要成為世界上最值得信賴的駕駛員,需要將先進的 AI 模型與實際駕駛經(jīng)驗相結合,打造一個安全、可靠且具有社會意識的自動駕駛系統(tǒng)。在會上,Drago具體分享了,Waymo在“構建駕駛員”(Building the Driver)和“驗證駕駛員”(Validating the Driver)等自動駕駛算法方面的實踐。

當然此演講,也被外網(wǎng)不少技術大拿評價為2025GTC最值得看的自動駕駛內容。本文根據(jù)相關內容整理,Waymo自動駕駛主要是基于AI算法方面實踐內容,希望帶來一些信息和前沿AI自動駕駛算法關鍵詞的理解。構建駕駛員”(Building the Driver)-從人類駕駛到AI駕駛的躍遷人類駕駛其實是一項復雜的技術,一般的法律都需要滿16歲,然后通過交通規(guī)則的考試和實際操作考試,最后才允許上路駕駛。

那么換成機器去駕駛,同樣會有人類駕駛難題的挑戰(zhàn):

復雜的物理環(huán)境,現(xiàn)實的駕駛環(huán)境包括不同的天氣,光照,灰塵;道路上其他人的駕駛危險和違章等等,而人類駕駛的眼睛等能夠處理高維多模態(tài)輸入,每秒可讀取1億個傳感器讀數(shù)。高性能計算的需求,汽車駕駛需要在安全相關領域操作,如果出錯,可能導致嚴重后果。而且,各種事故的出現(xiàn),大概率都是罕見的長尾案例。實時性的計算,所有安全關鍵計算必須使用汽車的車載計算機實時執(zhí)行,必須遵守嚴格的延遲要求。

Waymo駕駛員構建的法則是,利用AI技術,采用Waymo基礎模型(Foundation Model)的方式。Waymo基礎模型(Foundation Model)Waymo基礎模型(Waymo Foundation Model)的核心目標是結合專有的自動駕駛機器學習技術(AV-specific ML)與通用視覺語言模型(VLMs)的世界知識,以解決自動駕駛中的關鍵挑戰(zhàn)。

感知輸入數(shù)據(jù):整合攝像頭(Camera)、激光雷達(Lidar)、雷達(Radar)等多傳感器數(shù)據(jù)。Token和Decoder:通過Tokenizer(分詞器)和Decoder(解碼器)處理,生成統(tǒng)一的場景表示,形成類似于語言結構,方便LLM類的大模型處理。中間任務:利用Intermediate Tasks(如目標檢測、語義分割)提取場景特征,并通過Language Aligned Encoders(語言對齊編碼器)將感知結果與地圖先驗(Map Prior)結合,增強空間推理能力。以上為Waymo駕駛的基礎模型框架,在這個框架里面,Waymo做了更細節(jié)的實踐。MotionLM架構擴展上文講到,駕駛中最難的是交互,Waymo推出MotionLM模型,它將多智能體也就是其他交通參與者的行為建模為“對話”,使用類似LLM的架構預測軌跡(類似語言中的句子),支持長尾場景的交互決策。通過大規(guī)模計算(FLOPs)驗證模型性能隨規(guī)模提升的規(guī)律。

端到端多模態(tài)模型(EMMA)這個我們之前文章《采用 ChatGPT 類似大模型作為自動駕駛算法核心的 - Waymo 的端到端多模態(tài)算法 EMMA》分享過,他是基于Gemini架構,支持多任務(如3D目標檢測、可行駛區(qū)域估計、路徑規(guī)劃)的統(tǒng)一模型。在Waymo Open Motion和nuScenes數(shù)據(jù)集上達到SOTA性能(如EMMA+的L2誤差僅0.29m)。

而可以看到,國內模型方面例如地平線的UniAD;理想汽車和清華做的Drive VLM誤差都比Waymo的EMMA大。

以上就是為Waymo在自動駕駛方面“構建駕駛員”的一些探索;那么如何確保構建的駕駛員是正確的,安全的?這個時候就需要驗證駕駛員”(Validating the Driver)了。驗證駕駛員”(Validating the Driver)-應對視覺語言模型的局限性為什么要驗證構建的駕駛員?方法論上是可實施的,但是當前自動駕駛主要依賴的核心技術是視覺AI,而當前的視覺語言模型也是有他的局限性的。獨立視覺語言模型(Standalone Vision-Language Model)的局限性主要包括以下四點:

1. 多模態(tài)傳感器支持不足(Multi-modal Sensor Support)其實,現(xiàn)有模型難以有效整合激光雷達(Lidar)、視覺(Camera)、雷達(Radar)等多模態(tài)傳感器的數(shù)據(jù)。但是,當前的自動駕駛需要融合不同傳感器的互補信息(如激光雷達的精確3D定位與視覺的語義理解),獨立模型在此類跨模態(tài)對齊與聯(lián)合推理中存在性能瓶頸。

2. 空間推理精度有限(Accurate Spatial Reasoning)當前的模型對三維物理空間的動態(tài)感知和推理能力不足,例如在復雜交通場景中準確預測車輛、行人的運動軌跡(如ADE指標中的誤差積累)。例如,演講中提到EMMA+模型在8秒預測窗口的ADE誤差仍達1.553米(Waymo Open Motion數(shù)據(jù)集),表明長時空間推理仍需提升。

3. 長期記憶能力欠缺(Long Term Memory)當前的大模型缺乏對歷史場景的持續(xù)記憶能力,難以在長時間駕駛任務中保持上下文一致性(如跟蹤持續(xù)移動的目標或應對周期性事件)。例如,在復雜城市道路中(如多次變道、路口連續(xù)交互),短期記憶可能導致決策片段化,增加風險。

4. 魯棒推理與幻覺抑制不足(Robust Reasoning without Hallucinations)當前大模型在噪聲數(shù)據(jù)或模糊場景下易產(chǎn)生錯誤推斷(如誤判障礙物位置)或“幻覺”(如虛構不存在的交通參與者)。當前類似的與Deepseek或者ChatGPT有這種幻覺,頂多讓你信息錯誤,而駕駛在公共道路上,任何的事故風險都是人命,所以比較要驗證“自動駕駛的駕駛員”。

驗證的主要內容是應對不同場景下,不同駕駛參與者的博弈和交互;驗證感知的內容是準確的。Waymo的驗證駕駛員”(Validating the Driver)實踐有:

1,可擴展的仿真驗證平臺。開發(fā)了基于AI的交通仿真器Scene Diffuser++,通過生成式世界模型實現(xiàn)城市級多智能體交通流模擬。該模型采用多模態(tài)張量擴散技術,聯(lián)合預測未來時間步中所有交通參與者(車輛/信號燈)的運動軌跡和狀態(tài)有效性。使用Block-NeRF技術,通過車輛自有傳感器數(shù)據(jù)重建城市街區(qū)的三維環(huán)境,實現(xiàn)高保真度的傳感器模擬(如激光雷達、攝像頭)?,F(xiàn)在采用3D高斯?jié)姙R(3DGS)來取代NeRF技術。NeRF:依賴神經(jīng)網(wǎng)絡隱式建模場景的輻射場,通過體積渲染生成圖像,需復雜的光線追蹤計算。3DGS:使用顯式的各向異性3D高斯模型(帶有外觀信息的幾何體素),直接渲染場景,兼容傳統(tǒng)圖形引擎,無需復雜的光線追蹤。

這樣,采用3D高斯?jié)姙R(3DGS)實時渲染技術,比NeRF快57倍,提升模擬真實性和效率。

2.真實場景生成與泛化驗證基于大規(guī)模真實駕駛數(shù)據(jù)學習仿真器(Real2Sim),Controllable Editing,支持多視角場景重建與全局編輯(如天氣、時間變化),重點解決系統(tǒng)在未見過場景中的泛化能力挑戰(zhàn)。

通過隨機化車輛動態(tài)參數(shù)(如加速度限制、轉向響應)和道路使用者行為(如模擬注意力缺失駕駛員),生成多樣化測試場景,驗證系統(tǒng)在極端情況下的魯棒性。寫在最后Waymo還是非常合規(guī)和謹慎的企業(yè),Waymo剛開始是Google于2009年1月開啟的一項自動駕駛汽車計劃,之后于2016年12月才由Google獨立出來,然而到現(xiàn)在算是在自動駕駛摸爬滾打了16年,依然只是在美國的4個城市實踐,即將拓展另外2個城市。

相關推薦