• 正文
  • 推薦器件
  • 相關(guān)推薦
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

特斯拉的Occupancy Network占用網(wǎng)絡(luò)真能解決無(wú)法識(shí)別物體難題?

2024/04/17
5056
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

Occupancy Network并非特斯拉發(fā)明,最先提出Occupancy Network的是2018年的論文《Occupancy Networks: Learning 3D Reconstruction in Function Space》,主要作者是Tubingen大學(xué)和博世旗下軟件公司ETAS。更早可以追溯至2012年的論文《Indoor Segmentation and Support Inference from RGBD Images》,主要作者是紐約大學(xué)。而最早可以追溯到1986年的論文《A computational approach to edge detection》。Occupancy Network源自語(yǔ)義分割,語(yǔ)義分割需要連續(xù)邊界而不是傳統(tǒng)的Bounding Box(一般會(huì)縮寫(xiě)為BBox),語(yǔ)義分割再加上2D或3D重建,就是Occupancy Network。不過(guò)讓Occupancy Network揚(yáng)名天下的是特斯拉。

目前,傳統(tǒng)的3D目標(biāo)感知算法缺點(diǎn)是過(guò)于依賴數(shù)據(jù)集,但數(shù)據(jù)集的分類有限,通常不超過(guò)30類,總有不常見(jiàn)的物體類別沒(méi)被標(biāo)注,這些未被標(biāo)注的物體再次出現(xiàn)在實(shí)際場(chǎng)景中,會(huì)因?yàn)閿?shù)據(jù)集中沒(méi)有標(biāo)注,無(wú)法識(shí)別而被感知系統(tǒng)忽略掉,導(dǎo)致車輛不減速直接撞向物體。這種事故經(jīng)常發(fā)生,最典型的是當(dāng)車輛有故障,駕駛員下車站在車尾,打開(kāi)后備箱找維修工具,對(duì)于計(jì)算機(jī)視覺(jué)來(lái)說(shuō)就是一個(gè)難題,這是個(gè)打開(kāi)的后備箱加人的影像,或者人推著電動(dòng)車或自行車過(guò)馬路,人眼可以一眼看出,但機(jī)器就徹底傻眼,復(fù)合目標(biāo),從未被標(biāo)注的物體或從未出現(xiàn)在數(shù)據(jù)集的物體,要探測(cè)目標(biāo)距離,必須先識(shí)別目標(biāo),探測(cè)和識(shí)別是一體的,無(wú)法分割,畫(huà)出BBox,機(jī)器無(wú)法識(shí)別,畫(huà)不出BBox,會(huì)認(rèn)為前方?jīng)]有物體,自然不會(huì)減速,直接撞上去。

BBox的致命缺陷,一是無(wú)法忽略掉物體的幾何細(xì)節(jié),二是探測(cè)和識(shí)別一體,遇到未被標(biāo)注的物體就會(huì)視而不見(jiàn)。Occupancy Network就是為了解決BBox的缺陷而產(chǎn)生的,Occupancy Network學(xué)術(shù)上講就是建模物體詳細(xì)幾何和語(yǔ)義的通用且連貫的表征。一個(gè)需要從輸入圖像中聯(lián)合估計(jì)場(chǎng)景中每個(gè)voxel的占據(jù)狀態(tài)和語(yǔ)義標(biāo)簽的模型,其中占據(jù)狀態(tài)分為free,occupied和unobserved三種,對(duì)于occupied的voxel,還需要分配其語(yǔ)義標(biāo)簽。而對(duì)于沒(méi)有標(biāo)注的物體類別,統(tǒng)一劃分為General Objects(GOs),GOs少見(jiàn)但為了安全起見(jiàn)是必須的,否則檢測(cè)時(shí)經(jīng)常檢測(cè)不到。Occupancy Network理論上能解決無(wú)法識(shí)別物體的難題,但實(shí)際中不能。很簡(jiǎn)單,Occupancy Network是一種預(yù)測(cè)性質(zhì)的神經(jīng)網(wǎng)絡(luò),它不可能達(dá)到100%的準(zhǔn)確度,自然也就有漏網(wǎng)之魚(yú),還是有無(wú)法識(shí)別的物體無(wú)法探測(cè)。

占用網(wǎng)絡(luò)算法排名,第一名是英偉達(dá)的FB-OCC,小米和北大聯(lián)合的UniOcc排名第三,華為僅排名第六。目前基于BEV的解決方案很多。這些解決方案在經(jīng)過(guò)一定的修改后都可以適用于 3D occupancy 預(yù)測(cè),門(mén)檻不高。

目前Occupancy Network準(zhǔn)確度有多少呢?目前最頂級(jí)的Occupancy Network的mIoU是54.19%。mIoU是預(yù)測(cè)值與真值的交并比,某種意義上可以看做是準(zhǔn)確度。這和傳統(tǒng)激光雷達(dá)語(yǔ)義分割差距極大,2021年的激光雷達(dá)語(yǔ)義分割就能達(dá)到80%以上。

另一份資料,OctreeOcc論文中提到,目前得分最高的是上??萍即髮W(xué)的OctreeOcc,也就是上表中的“Ours”。排名第二的是英偉達(dá)的FB-OCC,與OctreeOcc差距很小。

KITTI數(shù)據(jù)集3D語(yǔ)義場(chǎng)景完成的mIoU上得分最高的是鑒智機(jī)器人的OccFormer。

我們就來(lái)深入了解一下這OctreeOcc、FB-OCC和OccFormer三個(gè)模型。

先來(lái)看英偉達(dá)的FB-OCC,論文《FB-OCC: 3D Occupancy Prediction based on Forward-Backward View Transformation》,論文很簡(jiǎn)短,只有5頁(yè)。

英偉達(dá)的FB-OCC非常簡(jiǎn)潔,基本上就是BEVFormer加了一個(gè)占用網(wǎng)絡(luò)head。純視覺(jué)的3D感知模型的核心模塊是 view transformation 模塊。這個(gè)模塊包括兩個(gè)主要的視圖轉(zhuǎn)換方式:正向投影(LSS)和反向投影(BEVFormer)。FB-BEV 提供了一個(gè)統(tǒng)一的設(shè)計(jì),利用這兩種方法,揚(yáng)長(zhǎng)避短。在FB-OCC中,使用前向投影來(lái)生成初始的3D體素表征,然后將其壓縮為一個(gè)扁平的 BEV 特征圖。BEV特征圖被視為BEV空間內(nèi)的queries,并與圖像編碼器特征一起獲得密集的幾何信息。然后將3D體素表征和優(yōu)化后的BEV表征的融合特征輸入到后續(xù)的任務(wù)頭中。

英偉達(dá)采用了預(yù)訓(xùn)練,通過(guò)深度估計(jì)任務(wù)增強(qiáng)模型的幾何意識(shí)。英偉達(dá)對(duì)nuScenes數(shù)據(jù)集進(jìn)行了廣泛的預(yù)訓(xùn)練,主要集中在深度估計(jì)上。值得注意的是,深度預(yù)訓(xùn)練缺乏語(yǔ)義層面的監(jiān)督。為了減輕模型過(guò)度偏向深度信息的風(fēng)險(xiǎn),可能導(dǎo)致語(yǔ)義先驗(yàn)的損失(特別是考慮到模型的大規(guī)模特性,容易出現(xiàn)過(guò)擬合),在進(jìn)行深度預(yù)測(cè)任務(wù)的同時(shí),也要致力于預(yù)測(cè)二維語(yǔ)義分割標(biāo)簽,如上圖3所示。

OccFormer以單目圖像或環(huán)視圖像作為輸入,首先由圖像編碼器提取多尺度特征,然后基于深度預(yù)測(cè)和體素Voxel池化得到三維場(chǎng)景特征。隨后,該三維特征首先經(jīng)過(guò)dual-path transformer encoder進(jìn)行三維視角下的特征提取,得到多尺度體素特征。最終transformer occupancy decoder融合多尺度特征,預(yù)測(cè)不同類別的binary mask并結(jié)合得到最終的occupancy預(yù)測(cè)。

圖像編碼器的輸出為輸入分辨率的 1/16 的融合特征圖:? 來(lái)表示提取的特征。

然后是英偉達(dá)提出的LSS BEV算法,編碼后的圖像特征被處理以生成 context feature

N 是相機(jī)視角的數(shù)量,C是通道數(shù),(H,W) 代表分辨率。

離散的深度分布是

二者相乘得到點(diǎn)云的表示:

最終進(jìn)行體素池化以創(chuàng)建三維特征 3D feature volume

其中(X, Y, Z) 表示三維體的分辨率。

由于駕駛場(chǎng)景中沿著水平方向的信息變化最劇烈,而高度方向上信息密度相對(duì)較低,因此三維特征編碼的重點(diǎn)應(yīng)該放在水平方向上。但由于occupancy需要三維的細(xì)粒度信息,將三維特征完全壓平進(jìn)行處理是不可取的。輸入的三維特征會(huì)經(jīng)過(guò)局部和全局兩條路徑、沿著水平方向進(jìn)行語(yǔ)義特征提取,兩條路徑的輸出會(huì)通過(guò)自適應(yīng)融合得到輸出的三維場(chǎng)景特征。對(duì)于輸入的三維特征,局部 local 和全局 global 路徑首先沿水平方向并行地聚集語(yǔ)義信息。接下來(lái),雙路徑輸出通過(guò) sigmoid-weighted 進(jìn)行融合。局部路徑主要針對(duì)提取細(xì)粒度的語(yǔ)義結(jié)構(gòu)。由于水平方向包含最多的變化,通過(guò)一個(gè)共享編碼器并行處理所有BEV切片能夠保留大部分語(yǔ)義信息。將高度維度合并到批處理維度,并使用窗口化自注意力作為局部特征提取器,它可以利用較小的計(jì)算量動(dòng)態(tài)地關(guān)注遠(yuǎn)距離區(qū)域;另一方面,全局路徑旨在高效捕獲場(chǎng)景級(jí)語(yǔ)義布局。為此,全局路徑首先通過(guò)沿高度維度進(jìn)行平均池化來(lái)獲取BEV特征,并采用相同的窗口化自注意力實(shí)現(xiàn)特征提取,為了進(jìn)一步增大全局感受野,還使用了ASPP結(jié)構(gòu)來(lái)捕獲全局上下文。

W指的是沿高度維度生成聚合權(quán)重的 FFN;σ(·) 是 sigmoid 函數(shù);“unsqueeze” 是沿高度方向擴(kuò)展全局 2D 特征。

語(yǔ)義分割方面采用了META提出的Mask2Former ,Mask2Former建立在一個(gè)簡(jiǎn)單的元框架 (MaskFormer)和一個(gè)新的 Transformer 解碼器上,其關(guān)鍵組成部分為掩碼注意力(Masked-attention),通過(guò)將交叉注意力限制在預(yù)測(cè)的掩碼區(qū)域內(nèi)來(lái)提取局部特征。與為每個(gè)任務(wù)(全景、實(shí)例或語(yǔ)義)設(shè)計(jì)專門(mén)模型相比,Mask2Former 節(jié)省了3倍的研究工作,并且有效節(jié)省計(jì)算資源。Mask2Former 在全景分割(COCO上的 57.8 PQ)、實(shí)例分割(COCO 上的 50.1 AP)和語(yǔ)義分割(ADE20K 上的 57.7 mIoU)上都實(shí)現(xiàn)了SOTA。

利用輸入的多尺度體素特征 (multi-scale voxel features) 和參數(shù)化的查詢特征 (parameterized query features) ,transformer decoder 對(duì)查詢特征進(jìn)行迭代更新,以達(dá)到預(yù)期的類別語(yǔ)義。在每個(gè)迭代內(nèi),查詢特征 (queries features)Q1, 通過(guò) masked attention 來(lái)關(guān)注它們相對(duì)應(yīng)前景區(qū)域。

然后進(jìn)行 self-attention,以交換上下文信息,然后用FFN進(jìn)行特征投影。在每個(gè)迭代結(jié)束時(shí),每個(gè)Q1被投影來(lái)預(yù)測(cè)它的語(yǔ)義分對(duì)數(shù) (semantic logits)Pi,和掩膜嵌入 (mask embedding)εmask,后者通過(guò) 一個(gè) per-voxel 嵌入εvoxel和 sigmoid 函數(shù)的點(diǎn)積進(jìn)一步轉(zhuǎn)化為二進(jìn)制的三維掩膜Mi。

OctreeOcc框架

OctreeOcc框架如上圖, 實(shí)際就是用傳統(tǒng)的八叉數(shù)空間表示法取代了傳統(tǒng)的BEV或Voxel。

不過(guò)目前這些前沿試驗(yàn)性質(zhì)的論文都無(wú)法落地。

左邊的是Occ3D-nuScenes,專為占用網(wǎng)絡(luò)測(cè)試搞的數(shù)據(jù)集,右邊的是KITTI的語(yǔ)義分割測(cè)試數(shù)據(jù)集,占用網(wǎng)絡(luò)模型消耗內(nèi)存驚人,最少都需要25GB,對(duì)運(yùn)算資源消耗驚人,即便是用英偉達(dá)8張A100,最快的也要386毫秒,自動(dòng)駕駛最低門(mén)檻10Hz都達(dá)不到。這個(gè)每幀都需要讀出模型一次,也就說(shuō)需要容量至少超過(guò)48GB的高寬帶存儲(chǔ),最好是HBM3,GDDR6都非常勉強(qiáng),而HBM價(jià)格驚人,英偉達(dá)H100的HBM內(nèi)存容量也不過(guò)80GB。

無(wú)人駕駛,前路漫漫,任重而道遠(yuǎn)。

推薦器件

更多器件
器件型號(hào) 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊(cè) ECAD模型 風(fēng)險(xiǎn)等級(jí) 參考價(jià)格 更多信息
HMC1060LP3ETR 1 Analog Devices Inc Quad Low Noise High PSRR Linear Voltage Regulator

ECAD模型

下載ECAD模型
$4.95 查看
TLE2426ID 1 Texas Instruments The ''Rail Splitter'' Precision Virtual Ground 8-SOIC

ECAD模型

下載ECAD模型
$3.41 查看
IVC102U 1 Burr-Brown Corp Analog Circuit, 1 Func, PDSO14,
$13.01 查看
特斯拉

特斯拉

Tesla 致力于通過(guò)電動(dòng)汽車、太陽(yáng)能產(chǎn)品以及適用于家庭和企業(yè)的綜合型可再生能源解決方案,加速世界向可持續(xù)能源的轉(zhuǎn)變。

Tesla 致力于通過(guò)電動(dòng)汽車、太陽(yáng)能產(chǎn)品以及適用于家庭和企業(yè)的綜合型可再生能源解決方案,加速世界向可持續(xù)能源的轉(zhuǎn)變。收起

查看更多

相關(guān)推薦

登錄即可解鎖
  • 海量技術(shù)文章
  • 設(shè)計(jì)資源下載
  • 產(chǎn)業(yè)鏈客戶資源
  • 寫(xiě)文章/發(fā)需求
立即登錄