特斯拉CEO埃隆·馬斯克認為,在復(fù)雜的道路駕駛環(huán)境中,模擬生物神經(jīng)網(wǎng)絡(luò)和眼睛的視覺系統(tǒng)才是最為有效的方式。他也曾在在多個場合批評激光雷達技術(shù)為“錯誤的解決方案”,并多次強調(diào)視覺系統(tǒng)的先進性。純視覺自動駕駛是指在車輛自動駕駛系統(tǒng)中僅依賴攝像頭而不使用激光雷達或毫米波雷達等主動傳感器。特斯拉率先倡導(dǎo)這一路線,宣稱模擬人類駕駛完全可以依靠視覺。
在國內(nèi),也有一段車企瘋狂追捧純視覺方案的時期,但進入2025年,純視覺的口號逐漸減弱,尤其是隨著“智駕安全第一”呼聲熱烈的當(dāng)下,純視覺的優(yōu)勢性似乎不再明顯。那純視覺的自動駕駛會帶來哪些安全問題?今天智駕最前沿就和大家來聊聊這個話題。
感知局限性
攝像頭作為被動傳感器,其感知能力受光照和氣象條件影響極大。在雨雪、霧霾等復(fù)雜天氣下,攝像頭捕捉到的圖像易出現(xiàn)模糊或?qū)Ρ榷冉档?,?dǎo)致感知性能明顯下降;夜間或逆光場景下光線不足,也會嚴重限制攝像頭獲取信息的能力。這些問題容易產(chǎn)生感知盲區(qū)或誤檢。特斯拉Autopilot曾有多次事故就是因為系統(tǒng)將白色貨車誤判為天空背景而沒有識別導(dǎo)致的。
此外,純視覺系統(tǒng)需要通過二維圖像推斷三維空間信息。這意味著車輛必須通過多路攝像頭和復(fù)雜算法來估計距離和形狀,但這種“2D轉(zhuǎn)3D”的過程存在先天局限。算法需要從圖像中提取深度和速度等特征,其延時和誤差難以徹底消除。此外,純視覺方案在將二維圖像轉(zhuǎn)換為三維信息、理解復(fù)雜場景細節(jié)方面等難度也很大。以特斯拉為例,攝像頭本身無法直接測量物體的深度與速度,為了安全起見,特斯拉在取消毫米波雷達后曾將自動轉(zhuǎn)向(Autosteer)最高速度限制為120公里/小時并拉大跟車距離,后來才稍作放寬??梢?,依賴單一攝像頭感知的方案在距離、深度和速度檢測方面存在不足,難以與激光雷達或毫米波雷達提供的直接測量相匹敵。
環(huán)境適應(yīng)性
純視覺方案需要依賴大量且多樣化的圖像數(shù)據(jù)來適應(yīng)不同環(huán)境,而實際道路環(huán)境千差萬別。在駕乘體驗和安全要求面前,視覺系統(tǒng)面臨復(fù)雜度極高的環(huán)境適配挑戰(zhàn)。不同國家的交通環(huán)境也會對識別效果產(chǎn)生影響,在中國,高速公路曲折蜿蜒、路網(wǎng)立交交錯復(fù)雜,環(huán)島、多層互通的道路更多;城市道路上行人、電動車通行習(xí)慣與西方也有顯著差異。有統(tǒng)計顯示,自動駕駛在美國路口通過要比在中國簡單近十倍,這也使得在中國實現(xiàn)純視覺方案更具挑戰(zhàn)。
由于純視覺系統(tǒng)僅靠攝像頭的實時感知,缺乏超視距的先驗信息和高精地圖的輔助,其“視野”往往局限在攝像頭直接能看到的范圍。在今年年初特斯拉FSD在中國剛推送時,也有很多博主進行了測試,卻發(fā)現(xiàn)其有明顯的“水土不服”,在未經(jīng)中國本地數(shù)據(jù)訓(xùn)練情況下難以流暢行駛,而其他廠商通過激光雷達、高精地圖和定位系統(tǒng)提供的先驗信息,則能更好地應(yīng)對復(fù)雜路況。總之,環(huán)境差異導(dǎo)致純視覺系統(tǒng)泛化能力受限,一旦遇到訓(xùn)練數(shù)據(jù)中未覆蓋的道路標(biāo)記、交通標(biāo)志或行駛習(xí)慣,車輛就可能出現(xiàn)判斷失誤。
系統(tǒng)魯棒性不足
高度可靠的自動駕駛要求系統(tǒng)具備多重冗余和故障容錯能力。純視覺方案由于僅依賴攝像頭,天然缺乏其他傳感器的互補與冗余。一旦攝像頭受損(如鏡頭被雨滴、污物遮擋)或誤判(光暈、眩光等),整個感知鏈會陷入癱瘓狀態(tài),系統(tǒng)沒有備用數(shù)據(jù)源來糾正錯誤。這也導(dǎo)致“幽靈剎車”成為純視覺系統(tǒng)難以根治的問題,在純視覺方案中無法直接測量前車速度和加速度,車輛有時會無故急踩剎車以避免預(yù)測的碰撞。據(jù)中國證券報,美國國家公路交通安全管理局(簡稱“NHTSA”)在一份監(jiān)管文件中表示,特斯拉在2021年取消毫米波雷達后,幽靈制動投訴數(shù)量在一個月內(nèi)由354起驟增至758起,引發(fā)美國監(jiān)管機構(gòu)的大規(guī)模調(diào)查。
純視覺系統(tǒng)的安全設(shè)計幾乎沒有多傳感器的功能安全保障。為了達到高級別自動駕駛的安全要求,必須防止單一系統(tǒng)失效帶來風(fēng)險;但純視覺方案很難滿足這一點。如特斯拉Autopilot被定位為L2級輔助駕駛,需要駕駛員時刻監(jiān)控駕駛環(huán)境;即使如此,美國國家公路交通安全管理局也發(fā)現(xiàn)數(shù)百起Autopilot相關(guān)事故,引發(fā)對其安全性的質(zhì)疑。由此可見,由于缺乏多傳感器的冗余設(shè)計,純視覺自動駕駛系統(tǒng)在容錯性和魯棒性方面存在明顯短板,其安全性難以與多傳感器融合方案相比。
模型泛化能力與長尾問題
純視覺方案的感知能力主要依賴深度學(xué)習(xí)模型,而模型性能高度依賴訓(xùn)練數(shù)據(jù)的覆蓋度。由于現(xiàn)實駕駛場景具有極大的多樣性,模型難以通過常規(guī)訓(xùn)練囊括所有可能出現(xiàn)的場景。那些在數(shù)據(jù)集中出現(xiàn)頻率很低的“長尾”場景(如罕見交通標(biāo)志、非常規(guī)障礙物、突發(fā)意外等)往往無法得到充分訓(xùn)練。結(jié)果是模型可能在這類場景下預(yù)測失誤,無法做出正確反應(yīng)。為應(yīng)對長尾問題,需通過大規(guī)模數(shù)據(jù)采集、數(shù)據(jù)增強、仿真模擬等方法擴展訓(xùn)練樣本,但仍無法保證覆蓋所有極端情況。
域外數(shù)據(jù)與本地應(yīng)用的差異也會導(dǎo)致泛化不足。例如特斯拉的FSD系統(tǒng)主要訓(xùn)練于北美路況,對于中國復(fù)雜的高速公路環(huán)境并不匹配。中國對自動駕駛數(shù)據(jù)安全監(jiān)管嚴格,特斯拉在中國采集的數(shù)據(jù)也難以外傳,這進一步限制了本地化的模型訓(xùn)練。總之,純視覺系統(tǒng)需要海量高質(zhì)量的多樣化訓(xùn)練數(shù)據(jù)才能提高泛化能力,但在實際應(yīng)用中獲取和標(biāo)注這樣的數(shù)據(jù)既昂貴又耗時,難以迅速彌補模型在新環(huán)境下的缺口。
未來趨勢與技術(shù)演進
盡管純視覺方案在成本和算法創(chuàng)新上具有獨到之處,業(yè)界普遍認為真正的大規(guī)模落地仍需要傳感器融合與更先進的AI技術(shù)相結(jié)合。僅用一種傳感器難以覆蓋所有場景,中短期內(nèi)要實現(xiàn)高度可靠的環(huán)境感知必然依賴多種傳感器融合,尤其是在在L4級自動駕駛中,激光雷達和攝像頭從安全性考慮具備相同的重要性和不可替代性,他們?nèi)币徊豢伞?/p>
智駕最前沿以為,今后的智駕路線可能是繼續(xù)發(fā)展端到端大模型和視覺算法優(yōu)化,同時保留毫米波雷達或激光雷達等輔助傳感,以兼顧精度與魯棒性。如特斯拉最新發(fā)布的FSDV12.5.1版本據(jù)稱已引入端到端神經(jīng)網(wǎng)絡(luò)架構(gòu),大幅重構(gòu)了底層代碼,試圖進一步提升純視覺系統(tǒng)的決策表現(xiàn)。此外,傳統(tǒng)自動駕駛公司和供應(yīng)鏈正在加大對低成本固態(tài)雷達、激光雷達和高精地圖的投入,為車載感知增加多樣化的安全冗余。
總之,純視覺自動駕駛在成本與市場落地潛力上具有優(yōu)勢,但它對感知系統(tǒng)的算法能力和數(shù)據(jù)支撐提出了極高要求?,F(xiàn)實案例表明,依靠攝像頭的方案仍存在可靠性隱患,需要謹慎評估和補強。未來的發(fā)展可能會更加平衡,既利用人工智能與視覺算法的進步,也利用多傳感器融合來保證復(fù)雜環(huán)境下的安全性。