【觀點:全局端到端除了太消耗運算和存儲資源外,還很難添加輔助模塊,如應(yīng)對交通規(guī)則的地圖模塊,特斯拉就是因此幾乎完全無法適應(yīng)中國的交通規(guī)則。模塊化端到端將是主流,至少在違反交通規(guī)則處罰力度和廣度都很強的中國如此,某種意義上講還是快慢雙系統(tǒng),快系統(tǒng)是diffusion planner或policy,慢系統(tǒng)是LLM或VLM?!?/p>
經(jīng)典VLA流程
輸入前視視頻序列,VLM大模型對視頻理解、分析、提出駕駛建議,生成waypoint軌跡規(guī)劃,基本上一個VLM完成了所有任務(wù)。
端到端自動駕駛技術(shù)演進快速,從最初UniAD的模塊化分段端到端,半年后就演變?yōu)榛赩LA的全局式端到端和快慢雙系統(tǒng)端到端。而近期端到端再演進,VLA與特征提取模塊結(jié)合,與傳統(tǒng)的LLM而非VLM對齊,LLM做推理。軌跡規(guī)劃或者說路徑規(guī)劃階段采用DiT即擴散與Transformer結(jié)合,呈現(xiàn)三段式模塊化端到端。
地平線的SENNA
SENNA是目前開環(huán)測試端到端智能駕駛全球第一名,多模態(tài)大模型即VLM在大規(guī)模駕駛數(shù)據(jù)上微調(diào),以提升其對駕駛場景的理解能力,并采用自然語言輸出高維決策指令,然后端到端模型基于大模型提供的決策指令,生成具體的規(guī)劃軌跡。VLM消耗運算資源驚人,難以做到高頻率響應(yīng),應(yīng)該使用VLM的決策指令,可以最大利用其在語言任務(wù)上預(yù)訓(xùn)練的知識和常識,生成合理的決策,并且避免預(yù)測精確數(shù)字效果欠佳的缺陷;另一方面,傳統(tǒng)模塊化端到端和傳統(tǒng)算法模型更擅長精確的軌跡預(yù)測,將高維決策的任務(wù)解耦,可以降低端到端模型學(xué)習(xí)的難度,提升其軌跡規(guī)劃的精確度。
一般VLA直接將前視圖像token化之后輸入VLA模型,如果是高分辨率圖像的話,token數(shù)量太多,即使用英偉達H100也難以做到最低10Hz的下限。如果將圖像提取特征,token數(shù)量會大幅度減少,但這樣會增加一個特征提取模塊,通常就是BEVFormer,這樣就又回到了模塊化分段端到端。
世界模型和Diffusion Planner出現(xiàn)了,Diffusion Planner參數(shù)規(guī)模小,結(jié)構(gòu)簡單能夠做到高頻響應(yīng),與世界模型或者強化學(xué)習(xí)結(jié)合訓(xùn)練也更為容易。目前,單純Diffusion Planner基本上能做到90分,有些強化學(xué)習(xí),如蘋果的自我博弈接近滿分,于是人們想到結(jié)合LLM和Diffusion Planner或者Diffusion Policy,既有高性能又有高效率,典型代表就是理想汽車的MindVLA。小米的Orion也類似,軌跡規(guī)劃模型用了GRU生成式。
理想汽車MindVLA
理想汽車的VLA與傳統(tǒng)意義的VLA完全不同。傳統(tǒng)VLA即Vision Language Action,可以看做是多模態(tài)大模型即VLM的延伸,VLM主要做VQA任務(wù),基本就是看圖分析回答問題,加入針對自動駕駛監(jiān)督微調(diào)后增加一個輸出waypoint的任務(wù),即Action,也就成了VLA,是一個整體。理想汽車的MindVLA這里顯然不是,它分為三個模塊。
第一個模塊是感知模塊,或者說世界建?;蛘哒f環(huán)境特征提取。
理想汽車環(huán)境感知模塊
理想汽車采用了高斯中心的4D稀疏表示,目前自動駕駛感知領(lǐng)域現(xiàn)有方法采用密集表示(例如,BEV鳥瞰圖)或稀疏表示(例如,實例框instance bounding box)進行決策,這些方法在全面性和效率之間存在權(quán)衡。理想汽車探索了一個以高斯為中心的端到端自動駕駛(GaussianAD)框架,并利用3D語義高斯來廣泛但稀疏地描述場景,也就是token數(shù)量很少。用均勻的3D高斯初始化場景,并使用周圍視圖圖像逐步完善它們以獲得3D高斯場景表示。然后使用稀疏卷積來高效執(zhí)行3D感知(例如,3D檢測,語義地圖構(gòu)建)。
高斯分布類似語言在LLM領(lǐng)域的token分布,兩者可以比較容易對齊,因此不使用VLM。
小米汽車用QT-Former取得與理想汽車近似的效果,引入一個輕量級的Querying Transformer(Q-Former),在凍結(jié)的圖像編碼器和LLM語言模型之間架起橋梁,也不需要用VLM。
理想汽車的Diffusion Planner與RLHF(人類反饋強化學(xué)習(xí))聯(lián)合訓(xùn)練,擴散模型(Diffusion Model)通過利用大規(guī)模離線數(shù)據(jù)對軌跡分布進行建模,能夠生成復(fù)雜的軌跡。與傳統(tǒng)的自回歸transformer規(guī)劃方法不同,基于擴散的規(guī)劃器通過一系列去噪步驟可以整體生成完整軌跡,無需依賴前向動力學(xué)模型,有效解決了前向模型的關(guān)鍵局限性,特別適用于具有自動駕駛長周期或稀疏獎勵的規(guī)劃任務(wù)。擴散模式最早出現(xiàn)在視頻生成領(lǐng)域,即用文本生成視頻。》
擴散模型在強化學(xué)習(xí)中的角色
強化學(xué)習(xí)中的規(guī)劃是指通過使用動態(tài)模型在想象中做決策,再選擇最大化累積獎勵的適當動作。規(guī)劃的過程通常會探索各種動作和狀態(tài)的序列,從而提升決策的長期效果。在基于模型的強化學(xué)習(xí)(MBRL,就是世界模型)框架中,規(guī)劃序列通常以自回歸方式進行模擬,導(dǎo)致累積誤差。擴散模型可以同時生成多步規(guī)劃序列?,F(xiàn)有論文用擴散模型生成的目標非常多樣,包括 (s,a,r)、(s,a)、僅有 s、僅有 a 等等。為了在在線評估時生成高獎勵的軌跡,許多工作使用了有分類器或無分類器的引導(dǎo)采樣技術(shù)。
在擴散策略領(lǐng)域,更類似于無模型強化學(xué)習(xí)。Diffusion-QL 首先將擴散策略與 Q 學(xué)習(xí)框架結(jié)合。由于擴散模型擬合多模態(tài)分布的能力遠超傳統(tǒng)模型,擴散策略在由多個行為策略采樣的多模態(tài)數(shù)據(jù)集中表現(xiàn)良好。擴散策略與普通策略相同,通常以狀態(tài)作為條件生成動作,同時考慮最大化 Q (s,a) 函數(shù)。Diffusion-QL 等方法在擴散模型訓(xùn)練時加上加權(quán)的價值函數(shù)項,而 CEP 從能量的視角構(gòu)造加權(quán)回歸目標,用價值函數(shù)作為因子,調(diào)整擴散模型學(xué)到的動作分布。
擴散模型的引入有助于離線強化學(xué)習(xí)策略擬合多模態(tài)數(shù)據(jù)分布并擴展了策略的表征能力。Diffuser 首先提出了基于分類器指導(dǎo)的高獎勵軌跡生成算法并啟發(fā)了大量的后續(xù)工作。同時,擴散模型也能應(yīng)用在多任務(wù)與多智能體Collective Modeling強化學(xué)習(xí)場景。
清華大學(xué)聯(lián)合毫末智行、中科院自動化所、港中文、上海交大、上海人工智能實驗室的發(fā)表于ICLR 2025的論文《Diffusion-based Planning for Autonomous Driving with Flexible Guidance》,也是diffusion做路徑軌跡規(guī)劃的一個例子。
Diffusion Planner架構(gòu)
Diffusion Planner架構(gòu)考慮了周圍車輛的歷史信息、道路信息和靜態(tài)障礙物,設(shè)計了簡潔的編碼器結(jié)構(gòu)用于信息提取,并通過交叉注意力機制與加噪后的自車和周車軌跡進行信息交互。此外還引入了額外的導(dǎo)航信息以及擴散模型特有的加噪步數(shù)信息。為了避免模型重復(fù)自車歷史行為導(dǎo)致閉環(huán)性能下降,僅考慮自車當前時刻的位置和朝向,并與周車的當前狀態(tài)一起拼接到加噪軌跡中。通過這種方式,起始狀態(tài)的引導(dǎo)還能進一步降低模型對未來軌跡生成的難度。
2025年3月,地平線和華中科技大學(xué)聯(lián)合發(fā)表論文《DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving》,與清華大學(xué)Diffusion planner思路差不多,地平線還考慮了前端感知。
數(shù)據(jù)來源:論文《DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving》
參數(shù)只有6千萬,在RTX4090上能夠做到45Hz,用雙Orin的話估計可以做到5-10Hz,已基本可以落地了。
英偉達的機器人通用VLA大模型GR00T-N1架構(gòu)
和理想的MindVLA類似,不過英偉達把Action部分單獨算一個系統(tǒng),且與VLM是并行的,采用的是DiT模式,即Diffusion,不過骨干網(wǎng)用Transformer取代了U-NET。英偉達稱其為快慢雙系統(tǒng),快系統(tǒng)就是Diffusion Action,最高可到200Hz,慢系統(tǒng)就是VLM(用阿里的Qwen2.5做基礎(chǔ)模型),用英偉達的L40顯卡(加上CPU大概5萬人民幣),運行頻率10Hz。
全局端到端除了太消耗運算和存儲資源外,還很難添加輔助模塊,如應(yīng)對交通規(guī)則的地圖模塊,特斯拉就是因此幾乎完全無法適應(yīng)中國的交通規(guī)則。模塊化端到端將是主流,至少在違反交通規(guī)則處罰力度和廣度都很強的中國如此,某種意義上講還是快慢雙系統(tǒng),快系統(tǒng)是diffusion planner或policy,慢系統(tǒng)是LLM或VLM。