從時間維度上看,BEVFormer已是歷史產(chǎn)物,或許幾個月、最多一兩年后,一個真正的“王炸”會出現(xiàn)。
2021年7月,特斯拉展示了基于BEV+Transformer(BEVFormer)的自動駕駛感知新范式,在取得了驚艷的效果后,國內(nèi)也掀起“跟風(fēng)潮”。
近期,理想、蔚來、小鵬、小馬智行、百度等多家主流車企、自動駕駛方案解決商推出相關(guān)量產(chǎn)方案。
一時間,BEV越發(fā)“火”了起來。
這背后邏輯也很好理解。一方面,BEV技術(shù)已經(jīng)日漸成熟,從預(yù)研階段基本走到了量產(chǎn)落地階段;另外一方面,今年可能會是從高速NOA走向城區(qū)NOA量產(chǎn)的元年,在更加復(fù)雜的智駕場景下,BEV所帶來的優(yōu)勢能更好地得到體現(xiàn)。
與此同時,在智能駕駛商業(yè)化進展不及預(yù)期的大背景下,BEV也可以作為相關(guān)企業(yè)難得的“技術(shù)賣點”。
因此,在這個時間節(jié)點,我們試圖按照What-Why-Who-How的邏輯,對BEV+Transformer技術(shù)本身,以及背后的商業(yè)價值可能性進行探討。
What:什么是BEV+Transformer
首先解決技術(shù)概念問題。
BEV(Bird's-eye-view),即鳥瞰圖視角,是自動駕駛跨攝像頭和多模態(tài)融合背景下的一種視角表達形式。
它的核心思想,是將傳統(tǒng)自動駕駛2D圖像視角(Image View)加測距的感知方式,轉(zhuǎn)換為在鳥瞰圖視角下的3D感知。
從實現(xiàn)任務(wù)來說,BEV的核心是將2D圖像作為輸入,最終輸出一個3D的框架,在這個過程中,如何將不同傳感器的特征(feature)實現(xiàn)最優(yōu)表達是難點。
目前行業(yè)有兩種常見的方式,一種是正向思維,采用自底向上、從2D到3D的方式,先在2D視角去每個像素的深度,再通過內(nèi)外參投影到BEV空間,通過多視角的融合生成BEV特征,但對深度的估計一直都是難點。
另一種方法是逆向思維,采用自頂向下、從3D到2D的方式,先在BEV空間初始化特征,在通過多層transformer與每個圖像特征進行交互融合,最終再得到BEV特征。
在第二種方法中,因為Transformer的存在,使得“逆向思維”成為了可能。
Transformer是一種基于注意力機制(Attention)的神經(jīng)網(wǎng)絡(luò)模型,由Google在2017年提出。與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)RNN和CNN不同,Transformer不會按照串行順序來處理數(shù)據(jù),而是通過注意力機制,去挖掘序列中不同元素的聯(lián)系及相關(guān)性,這種機制背后,使得Transformer可以適應(yīng)不同長度和不同結(jié)構(gòu)的輸入。
Transformer問世后,先在自然語言處理NLP領(lǐng)域大放異彩,之后被逐步移植到計算機視覺任務(wù)上,也取得了驚人的效果,實現(xiàn)了NLP和CV在建模結(jié)構(gòu)上的大一統(tǒng),使視覺和語言的聯(lián)合建模更容易,兩個領(lǐng)域的建模和學(xué)習(xí)經(jīng)驗可以通過深度共享,也加快各自領(lǐng)域進展。
Why:為什么需要基于Transformer的BEV
在厘清技術(shù)原理后,其實也就理解了“為什么需要”的問題:識別準,精度高,方便和激光、毫米波雷達做前融合等。
具體延展來看,BEV可以帶來四大優(yōu)勢。
第一,BEV視角下的物體,不會出現(xiàn)圖像視角下的尺度(scale)和遮擋(occlusion)問題。由于視覺的透視效應(yīng),物理世界物體在2D圖像中很容易受到其他物體遮擋,2D感知只能感知可見的目標,而在BEV空間內(nèi),算法可以基于先驗知識,對被遮擋的區(qū)域進行預(yù)測。
第二,將不同視角在BEV下進行統(tǒng)一表達,能極大方便后續(xù)規(guī)劃和控制任務(wù)。主流規(guī)劃和控制算法,不論上游傳感器信息來自什么視角,經(jīng)過融合之后,都會轉(zhuǎn)換到以自車為中心坐標系中(Vehicle Coordinate System,VCS),對VCS來說,最適合的其實就是BEV視角,也就是BEV感知結(jié)果輸出的空間是規(guī)劃和控制任務(wù)的標準輸入。
第三,BEV能夠給系統(tǒng)帶來巨大的提升。攝像頭感知算法工作在2D空間,而雷達感知算法工作在3D空間,在對2D與3D幾何關(guān)系融合過程中,會丟失大量的原始信息,采用BEV感知系統(tǒng)中,攝像頭、激光雷達、毫米波雷達感知均在BEV空間中進行,融合過程提前。BEV還可以引入過去時間片段中的數(shù)據(jù),實現(xiàn)時序融合,最終使感知效果更加穩(wěn)定、準確。
第四,BEV能夠?qū)崿F(xiàn)端到端優(yōu)化。感知任務(wù)中的識別、跟蹤和預(yù)測本質(zhì)是一個串行系統(tǒng),系統(tǒng)上游誤差會傳遞在下游誤差,在BEV空間內(nèi),感知和預(yù)測都在同一個空間進行,可以通過神經(jīng)網(wǎng)絡(luò)做到端到端的優(yōu)化,輸出“并行”結(jié)果,而整個感知網(wǎng)絡(luò)可以以數(shù)據(jù)驅(qū)動方式來自學(xué)習(xí),實現(xiàn)快速迭代。
可以理解為,BEV可以實現(xiàn)將360度環(huán)視的時間、空間融合,再加上Transformer架構(gòu)可以輸出靜態(tài)的車道線、紅綠燈、道路邊緣信息等,以及動態(tài)的有行人、兩輪車、汽車等,同時還應(yīng)用了端到端的預(yù)測能力,結(jié)合時序幀能對周邊的車輛做未來3-6秒的軌跡預(yù)測。
這也意味著,端到端的算法有了閉環(huán)的希望。
Who: 行業(yè)最佳實踐是特斯拉
特斯拉是第一個在工業(yè)界采用BEV+Transformer進行視覺感知任務(wù)的企業(yè)。
在其感知任務(wù)中,首先利用主干網(wǎng)絡(luò)對各個攝像機進行特征提取,再利用Transformer將多攝像機數(shù)據(jù)從圖像空間轉(zhuǎn)化為BEV空間。
在這個空間里面,通過深度學(xué)習(xí)去完成一個特征的融合,然后再通過一個3D的解碼器,直接端到端輸出最后的一個3D檢測和道路結(jié)構(gòu)信息,這樣下游的規(guī)劃與控制直接可以在BEV的空間上去進行。
這一次革命,讓馬斯克可以自信地對外宣稱,特斯拉感知不依賴激光雷達和毫米波雷達,依靠純視覺,也可以得到準確三維世界信息。
基于以上實踐,眾多車企以及智駕供應(yīng)商都開始嘗試BEV+transformer,車企里的代表蔚來、理想、小鵬;智駕供應(yīng)商里面的百度、毫末、地平線、小馬、輕舟等等,在具體使用方法上每一家有“微調(diào)”,但是整體還是跟隨特斯拉的節(jié)奏在走。
How:自動駕駛感知的主流范式
未來,BEV+Transformer很有可能會替代之前的2D+CNN,逐步成為自動駕駛感知的主流范式。
這意味著,從硬件芯片開始,到傳感器攝像頭、軟件算法、模型部署、數(shù)據(jù)采集標定等,都需要有相應(yīng)的適配和變化。
第一,為了確保視覺感知重疊,對汽車攝像頭數(shù)量的要求會有所提升,相應(yīng)地,激光雷達的數(shù)量以及在感知中的作用會減少,也就是純視覺技術(shù)路線會受到更多的青睞。
第二,Transformer是暴力美學(xué),模型體量驚人,其運算還會消耗大量的存儲及帶寬空間,對芯片來說,除了需要進行相應(yīng)算子適配以及底層軟件優(yōu)化外,在SOC層面需要對緩存和帶寬要求進行增加。
第三,Transformer需要海量數(shù)據(jù),會使得汽車數(shù)據(jù)采集、訓(xùn)練、標注的成本大幅度上升。
這些一定程度上,也會使得芯片、攝像頭、標注等相關(guān)產(chǎn)業(yè)廠商受益。
總結(jié)
通過對BEV+Transformer的梳理,我主要有以下兩點感受。
第一, 為什么BEV+Transformer會成為主流范式,我覺得背后核心還是第一性原理,就是智能駕駛要越來越近“人一樣去駕駛”,映射到感知模型本身,BEV是一種更加自然的表達方式,而Transformer實現(xiàn)了CV和NLP的統(tǒng)一。
第二, 隨著工業(yè)和學(xué)術(shù)界的研究推進,近段時間BEV+Transformer從普及到走向量產(chǎn),在當前智能駕駛商業(yè)受阻的背景下,或許是一個難得的亮點。但從時間維度上看,BEV+Transformer已是歷史產(chǎn)物,占用網(wǎng)絡(luò)已經(jīng)來了,大模型也在路上,或許幾個月、最多一兩年之后,一個真正的“王炸”會出現(xiàn),會讓之前的積累全部推倒重來,我們要對每一波的迭代懷有敬畏之心,先從技術(shù)開始,之后就是商業(yè)模式的大變革。
有關(guān)算法迭代、大模型、Mapless、GPT等是我們近期持續(xù)跟進的重點,有興趣歡迎隨時與我溝通交流。
作者 | 汽車人參考