• 正文
  • 相關(guān)推薦
申請入駐 產(chǎn)業(yè)圖譜

自動駕駛中視覺感知ISP調(diào)參綜述及實證分析

01/06 10:11
2169
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

本文作者為Valeo Vision Systems相關(guān)研發(fā)團隊?Lucie Yahiaoui?Jonathan Horgan?Brian Deegan?Senthil Yogamani?Ciarán Hughes 和Patrick Denny,小明師兄翻譯

摘要

圖像質(zhì)量在供人類觀看的應(yīng)用中是一個廣為人知的概念,尤其在多媒體領(lǐng)域,而且在汽車領(lǐng)域其重要性也日益凸顯。自動駕駛計算機視覺的興起,使得圖像質(zhì)量對攝像頭感知中諸如識別、定位及重建等任務(wù)的影響方面的研究備受關(guān)注。盡管計算機視覺中 “圖像質(zhì)量” 的定義可能并不明確,但明確的是圖像信號處理流水線的配置是控制計算機視覺圖像質(zhì)量的關(guān)鍵因素。

本文兼具綜述和觀點闡述性質(zhì),并展示了一些有望助力未來研究的初步成果。因此,我們概述了圖像信號處理器ISP)流水線是什么,描述了一些典型的汽車計算機視覺問題,并通過一些實驗結(jié)果簡要介紹了圖像信號處理參數(shù)對計算機視覺性能的影響。

本文探討了利用計算機視覺性能指標作為成本度量來自動調(diào)整 ISP 參數(shù)的優(yōu)點,從而避開了明確界定計算機視覺中 “圖像質(zhì)量” 含義的必要。由于缺乏用于開展 ISP 調(diào)優(yōu)實驗的數(shù)據(jù)集,我們在視覺算法處理前應(yīng)用了諸如銳化之類的代理算法。

我們使用經(jīng)典算法(AKAZE 算法)以及一種用于行人檢測的機器學(xué)習(xí)算法進行了這些實驗。我們獲得了令人鼓舞的結(jié)果,例如通過調(diào)整銳化技術(shù)參數(shù),行人檢測準確率提高了 14%。我們希望這能鼓勵創(chuàng)建此類數(shù)據(jù)集,以便對這些主題進行更系統(tǒng)的評估。

引言

圖像和視頻質(zhì)量的基本概念在消費電子產(chǎn)品中已被充分理解,尤其在多媒體領(lǐng)域 [1],并且是標準化的主題 [2,3]。傳統(tǒng)上,圖像質(zhì)量等同于 “感知質(zhì)量” 和 “自然度”,或者說現(xiàn)實世界的再現(xiàn)忠實程度如何滿足觀看者的期望。多媒體內(nèi)容壓縮算法的發(fā)展推動了定義和測量感知圖像及視頻質(zhì)量方面的諸多進展。在汽車領(lǐng)域,“高質(zhì)量” 的含義并非那么簡單明了,目前尚無單一明確的定義 [4,5]。而且視頻對于兩種截然不同的應(yīng)用是必需的:向駕駛員展示(例如,后視和多攝像頭環(huán)視監(jiān)控)以及用于高級駕駛輔助系統(tǒng)的計算機視覺。在邁向自動駕駛平臺的過程中,這一點尤為重要,因為攝像頭系統(tǒng)是一種多樣且關(guān)鍵的感知傳感器,能夠提供車輛周圍環(huán)境的結(jié)構(gòu)、語義和導(dǎo)航信息。因此,包括深度學(xué)習(xí)在內(nèi)的計算機視覺算法性能有望較以往系統(tǒng)有顯著提升。

最初,汽車環(huán)視魚眼攝像頭是輔助駕駛員的視覺系統(tǒng)的一部分。在自動駕駛應(yīng)用中,此類攝像頭對于近場監(jiān)控正變得非常重要 [6]。這些不同的應(yīng)用需要不同的場景特征以實現(xiàn)最佳性能。對一種應(yīng)用而言構(gòu)成 “高質(zhì)量” 的概念不一定等同于對另一種應(yīng)用的 “高質(zhì)量” 概念。因此,盡管針對單色系統(tǒng)基于檢測 / 定向 / 識別 / 辨認的約翰遜準則已有一些基礎(chǔ)工作被提出 [7],并由 [8] 進一步闡述,但專門針對計算機視覺的圖像質(zhì)量方面的現(xiàn)有文獻相較于針對人類視覺圖像質(zhì)量的文獻較為稀少,這一點已被例如 [9,10] 所強調(diào)。這促使人們?nèi)ヌ綄z像頭及處理系統(tǒng)中提升計算機視覺效率和性能的機會。

將來自圖像傳感器的原始信號轉(zhuǎn)換為可觀看的格式涉及多個步驟,如去馬賽克、去噪和伽馬控制等,這些統(tǒng)稱為圖像信號處理(ISP)。ISP 通常由硬件引擎完成,這些硬件引擎要么位于傳感器內(nèi)部,要么作為獨立芯片,要么集成在主片上系統(tǒng)(SoC)內(nèi)。由于圖像分辨率、位深、幀率、曝光次數(shù)(高動態(tài)范圍,HDR)以及處理步驟數(shù)量等因素驅(qū)動的處理任務(wù)量巨大,專用硬件是必需的。例如,大多數(shù)彩色圖像傳感器采用拜耳彩色濾光片,為了獲得可用 / 可觀看的圖像(例如全 RGB 或 YUV 圖像),在去馬賽克這一過程中進行去拜耳處理是必要的。然而,ISP 的若干步驟旨在為觀看應(yīng)用的終端用戶提供高度靜態(tài)的視覺性能,例如在傳統(tǒng)的環(huán)視應(yīng)用中。對于基于計算機視覺的應(yīng)用而言,這可能是不必要的,甚至?xí)m得其反。

計算機視覺研究人員,尤其是學(xué)術(shù)界的人員,通常使用公開可用的數(shù)據(jù)進行開發(fā)、訓(xùn)練和驗證,因為定制數(shù)據(jù)獲取難度大且成本高。硬件設(shè)置通常由現(xiàn)成的成像系統(tǒng)構(gòu)成,其板載 ISP 可重新配置性很低甚至沒有,并且通過 USB 或以太網(wǎng)接口來捕獲 YUV 或 RGB 圖像。因此,并不總是能夠捕獲到原始的 ISP 處理前的圖像數(shù)據(jù)。這通常使得計算機視覺研究人員無奈地忽略了 ISP 的影響。然而,ISP 很可能對計算機視覺算法性能有著非常重大的影響。這對于自動駕駛應(yīng)用尤為關(guān)鍵,因為在這類應(yīng)用中必須使傳感器和算法的性能最大化。

在本文中,通過對 ISP 領(lǐng)域、汽車計算機視覺以及自動調(diào)優(yōu)方面進行綜述,我們旨在探討使用計算機視覺性能成本度量來自動調(diào)整 ISP 參數(shù)的優(yōu)點。通過在視覺算法處理前使用諸如銳化之類的 ISP 代理算法,我們提供了一些證據(jù)來支持這是一個重要主題的觀點。除了解釋該主題的重要性之外,另一個目標是鼓勵研究界創(chuàng)建數(shù)據(jù)集,以便對這些主題進行更系統(tǒng)的評估,這樣就能徹底研究 ISP 鏈條中每個組件對計算機視覺的影響的所有細節(jié)。本文其余部分結(jié)構(gòu)如下:第 2 節(jié)簡要概述 ISP 處理模塊、ISP 調(diào)優(yōu)以及計算機視覺算法。由于它們屬于跨學(xué)科主題,這將為這些領(lǐng)域之一的專業(yè)人員提供必要的背景知識。第 3 節(jié)展示初步結(jié)果并進行分析,同時使用了經(jīng)典計算機視覺算法(AKAZE 算法)以及一種用于行人檢測的機器學(xué)習(xí)算法。第 4 節(jié)討論調(diào)優(yōu)算法和雙 ISP 流水線,這是一種硬件選項,能夠在不沖突的情況下針對計算機視覺和人類觀看應(yīng)用對 ISP 進行特定的調(diào)優(yōu)。最后,第 5 節(jié)對本文進行總結(jié)并得出結(jié)論。本文在作者之前的會議論文 基礎(chǔ)上進行了大幅擴展。

背景

在此我們提供一些關(guān)于 ISP 架構(gòu)和計算機視覺的背景知識,目的是讓讀者具備足夠的背景知識來理解本文的其余部分。

2.1. ISP 影響及調(diào)優(yōu)的相關(guān)工作

現(xiàn)代汽車機器視覺系統(tǒng)的發(fā)展并非一帆風(fēng)順。從本質(zhì)上講,汽車攝像頭走了兩條截然不同的路線,一條是向用戶提供圖像,另一條是為諸如高級駕駛輔助系統(tǒng)(ADAS)之類的應(yīng)用提供機器視覺輸入。原始設(shè)備制造商(OEM)的需求導(dǎo)致這兩條路徑融合,因為他們期望同一攝像頭系統(tǒng)能夠兼顧這兩方面。這意味著不同系統(tǒng)的關(guān)鍵性能指標(KPI)匯聚到了一個通用平臺上。這帶來了諸多挑戰(zhàn),因為這將屬于心理物理學(xué)領(lǐng)域的視覺圖像質(zhì)量性能指標與傳統(tǒng)的計算機視覺關(guān)鍵性能指標結(jié)合在了一起。

汽車領(lǐng)域視覺關(guān)鍵性能指標的作用及發(fā)展在其他文獻中已有闡述,但視覺感知的語義并不容易簡單闡釋,于是就有了 “圖像質(zhì)量應(yīng)該是 FUN” 這一準則,其中 FUN 是保真度(Fidelity)、實用性(Utility)和自然度(Naturalness)的首字母縮寫,因為在與人類用戶打交道時,這三類是最常被提及的。保真度通常通過測量成像系統(tǒng)的調(diào)制傳遞函數(shù)(MTF)來體現(xiàn),實用性通過分辨與觀看者相關(guān)物體的能力來體現(xiàn),自然度則通過向觀看者提供直觀的世界視覺呈現(xiàn)的能力來體現(xiàn)。

視覺關(guān)鍵性能指標經(jīng)歷了三個不同步驟的循環(huán)發(fā)展。首先,傳統(tǒng)的組件級指標被應(yīng)用于相應(yīng)組件的信號;本質(zhì)上是借鑒了傳統(tǒng)光學(xué)和電子學(xué)中的測量方法。這些指標包括鏡頭系統(tǒng)的調(diào)制傳遞函數(shù)(MTF)以及傳感器信號的信噪比。然而,這些指標僅能針對極端值提供關(guān)于圖像質(zhì)量的直觀判斷(例如,高 MTF50 意味著圖像很清晰,低 MTF50 意味著圖像模糊);它們在組件選擇方面表現(xiàn)良好,但在中期視覺評估中作用不佳(例如)。第二種方法是創(chuàng)建復(fù)合關(guān)鍵性能指標,它們是輸入圖像中簡單特征的多元函數(shù)。這些指標借鑒了傳統(tǒng)特征檢測或圖像壓縮指標方面的研究成果 。它們包括通用質(zhì)量指數(shù) 、結(jié)構(gòu)相似性(SSIM)、多尺度結(jié)構(gòu)相似性(MS-SSIM)、信息保真度準則(IFC)、視覺信息保真度(VIF)、視覺信噪比(VSNR)、特征相似性(FSIM以及顯著加權(quán)質(zhì)量指標?!盁o參考” 技術(shù)在評估圖像時無需無畸變的參考圖像,在實時系統(tǒng)中更受青睞,但也面臨著許多與參考技術(shù)相同的問題,這些問題阻礙了對指標測量結(jié)果的通用解釋。

第三種方法是以科學(xué)實施的評審團測試形式進行視覺心理物理學(xué)測試 。出現(xiàn)這種情況有諸多原因。傳統(tǒng)的組件關(guān)鍵性能指標和多元函數(shù)未能充分解決場景的多樣性問題,也未能妥善處理平衡 ISP 各效應(yīng)時固有的權(quán)衡問題,所以再次有必要讓人類來查看圖像并做出判斷。為了減少或消除潛在干擾變量的影響,傳統(tǒng)的視覺心理物理學(xué)測試特意設(shè)置了嚴格受限的測試環(huán)境,而更通用的自動化視覺心理物理學(xué)測量嘗試同樣受到高度人為限制,即便如此,相關(guān)性也很差 。然而,這與汽車成像系統(tǒng)的普遍期望恰恰相反,汽車成像系統(tǒng)所經(jīng)歷的場景內(nèi)容多樣性在所有成像應(yīng)用中是最高的,因此必須考慮利用汽車場景中物體對觀察者預(yù)期顯著性的自動化方法 。

計算機視覺算法對圖像質(zhì)量關(guān)鍵性能指標的敏感性最近得到了凸顯,在汽車場景中 “性能會因幾乎難以察覺的變化而急劇下降”,而且即使故意改變單個像素也可能引發(fā)分類問題 。

與我們打算開展的工作最接近的論文是。該論文的目的是研究 ISP 流水線在計算機視覺(傳統(tǒng)計算機視覺和卷積神經(jīng)網(wǎng)絡(luò))中的作用,以尋找減少計算量和節(jié)能的機會(創(chuàng)建計算機視覺 ISP 模式)。然而,他們的調(diào)優(yōu)方法是通過禁用流水線的某些階段,而非調(diào)整參數(shù)。他們提出了一些相當(dāng)重要的觀點:(1)對于他們所選用的算法,在針對計算機視覺時,大多數(shù)傳統(tǒng) ISP 階段是不必要的。

在他們測試的所有應(yīng)用中,除了一個應(yīng)用外,只有兩個階段對視覺精度有顯著影響,即去馬賽克和伽馬壓縮。(2)他們的圖像傳感器可以通過用對數(shù)量化取代線性模數(shù)轉(zhuǎn)換(ADC)量化,將位寬從 12 位降低到 5 位,同時保持相同的任務(wù)性能水平。然而,這項工作存在一些局限性。他們對為經(jīng)過 ISP 處理的圖像而設(shè)計的計算機視覺算法進行黑箱比較。如果圖像未經(jīng) ISP 處理,算法就必須進行適當(dāng)調(diào)整。例如,對于像尺度不變特征變換(SIFT)[34] 這樣的拓撲算子,在有無去馬賽克處理的情況下運行是并非最優(yōu)選擇。標準算子并不適用于拜耳模式圖像。同樣,在沒有伽馬壓縮的情況下,算子也可以進行調(diào)整以應(yīng)對這種情況。

最近,論文 ?展示了如何利用模擬來理解不同攝像頭架構(gòu)的影響。他們分析了攝像頭 ISP 對神經(jīng)網(wǎng)絡(luò)性能及其對曝光變化的適應(yīng)能力的影響。他們比較了兩種卷積神經(jīng)網(wǎng)絡(luò)(SSD 和 RFCN)在檢測方面的性能。每種網(wǎng)絡(luò)都使用以下類型的數(shù)據(jù)之一進行訓(xùn)練和測試:原始數(shù)據(jù)、線性數(shù)據(jù)或 sRGB 數(shù)據(jù)。他們的結(jié)果表明,使用一種類型圖像對網(wǎng)絡(luò)進行訓(xùn)練,在其他攝像頭設(shè)置下不會產(chǎn)生相同的結(jié)果。他們得出的結(jié)論是,最佳方法是共同設(shè)計攝像頭和網(wǎng)絡(luò)。

2.2. ISP 架構(gòu)概述

ISP 是一個處理模塊,它將原始數(shù)字圖像轉(zhuǎn)換為適用于給定應(yīng)用的可用圖像(通常是用于觀看的彩色圖像)。這種轉(zhuǎn)換相當(dāng)復(fù)雜,包含多個離散的處理模塊,這些模塊根據(jù) ISP 的不同可以按不同順序排列。圖 1 展示了一個示例圖像處理模塊。每個 ISP 都有其自身獨特的特點,但幾乎所有的 ISP 都具備相同的基本模塊和處理流水線。以下是從對計算機視覺算法影響的角度對圖 1 中所標識的每個功能模塊的簡要描述。

圖 1. 典型的圖像信號處理器(ISP)流水線

鏡頭陰影校正 —— 校正圖像邊緣處亮度和色彩的不均勻性。對于魚眼鏡頭而言,這一點尤為關(guān)鍵,因為鏡頭透光率的特性會使光線強度在圖像邊緣處出現(xiàn)明顯衰減。鏡頭陰影校正還用于校正色彩陰影效應(yīng)。當(dāng)白光穿過鏡頭時,折射程度會因光的波長不同而變化。其結(jié)果是,如果不進行校正,魚眼圖像的中心通常會呈現(xiàn)偏紅的色調(diào),而圖像邊緣則會呈現(xiàn)青色調(diào)。若不加以校正,整個圖像就會出現(xiàn)不同程度的色調(diào)變化。這也會影響自動白平衡(AWB)算法的性能。任何以色彩作為輸入的檢測算法都會受到更嚴重的負面影響。鏡頭陰影校正通過對鏡頭光學(xué)特性進行表征,并應(yīng)用空間變化的數(shù)字校正來實現(xiàn)。但這可能會產(chǎn)生增加圖像邊緣噪聲的副作用,進而影響機器視覺性能。

自動白平衡 —— 校正環(huán)境光照條件下的色溫,以保持色彩恒常性(即無論照亮場景的光的光譜如何,灰色物體都呈現(xiàn)灰色。自動白平衡統(tǒng)計數(shù)據(jù)根據(jù)輸入圖像進行計算,然后對紅、綠、藍色彩通道應(yīng)用數(shù)字增益,以校正因環(huán)境光照導(dǎo)致的偏色。對于任何以色彩作為輸入的機器視覺算法來說,準確的自動白平衡都至關(guān)重要。車道標線檢測尤其容易受到自動白平衡不準確的影響。例如,在鈉蒸汽路燈照明下區(qū)分黃色和白色車道標線就是一個極具挑戰(zhàn)性的應(yīng)用場景。其他算法,包括交通標志和交通信號燈識別,也會受到自動白平衡性能的影響。自動白平衡就是圖像自然度和實用性之間可能需要權(quán)衡的一個例子。

以鈉蒸汽燈照明的夜景為例,鈉蒸汽燈有多種類型,但其色溫都相當(dāng)?shù)?,在人類觀察者看來呈現(xiàn)橙色或紅色。通常,對于供人類觀看的應(yīng)用而言,理想的做法是調(diào)整相機的自動白平衡響應(yīng),使其盡可能符合人類觀察者的期望。然而,對于機器視覺來說,這可能并非必要,甚至可能對機器視覺性能產(chǎn)生負面影響。針對機器視覺的白平衡的另一種方法可能是針對鈉蒸汽燈照明進行校正,使圖像 “呈現(xiàn)中性”,就好像是由 D65(標準光源)或類似光源照亮的一樣。在這種情況下,圖像可能看起來不自然,但顯著物體,包括黃色道路標線,可能會更加突出。這甚至可能減少訓(xùn)練集的要求,即可能不再需要訓(xùn)練算法去檢測車燈光下場景中的道路標線。據(jù)作者所知,目前還沒有詳細研究過這個問題的相關(guān)文獻。

自動曝光控制 / 自動增益控制(AEC/AGC)—— 自動曝光控制 、自動增益控制 。自動曝光控制 / 自動增益控制模塊控制圖像傳感器的曝光量和增益。下一幀圖像的曝光量和增益是根據(jù)當(dāng)前曝光量的加權(quán)平均值來計算的。這是 ISP 內(nèi)唯一真正的反饋回路。準確的自動曝光控制 / 自動增益控制性能對機器視覺性能至關(guān)重要。曝光不足的圖像會有較差的信噪比和對比度區(qū)分度,而曝光過度的圖像則會在場景高光部分丟失信息。此外,根據(jù)應(yīng)用的不同,可能需要考慮不同的曝光加權(quán)方案。例如,對于前照燈檢測算法來說,讓圖像曝光不足以確保前照燈不會出現(xiàn)光暈可能是可以接受的。相反,如果主要關(guān)注陰影中物體的檢測,那么讓圖像的大部分區(qū)域曝光過度以確保捕捉到陰影中的細節(jié)可能是可以接受的。高動態(tài)范圍(HDR)成像的目標是確保同時捕捉到高光和陰影部分。鑒于汽車應(yīng)用場景,運動模糊也是需要考慮的一個因素。根據(jù)感知任務(wù)的不同,讓圖像曝光不足并通過數(shù)字方式提升亮度水平以避免運動模糊偽影可能是可以接受的。

壞點校正 —— 校正圖像傳感器上的壞點。圖像傳感器中的壞點數(shù)量會隨著傳感器的使用時長增加而增多。正是因為有壞點校正算法,所以這些壞點通常在數(shù)字圖像中是看不到的。壞點有可能影響機器視覺算法的性能。蘇等人的研究表明,僅通過對單個像素進行對抗性擾動,平均有 97.47% 的置信度能將所測試的 70.97% 的自然場景擾動到至少一個目標類別。誠然,這個極端的例子展示了壞點影響機器視覺性能的可能性,類似的脆弱性在其他文獻中也有闡述。

降噪 —— 降低圖像中的噪聲表現(xiàn)。這通常是通過使用二維噪聲濾波來實現(xiàn)的。在大多數(shù) ISP 中,在去除噪聲和保留紋理之間存在權(quán)衡。過度降噪可能會顯著提高信噪比,但會犧牲高頻信息。二維低通濾波是許多計算機視覺算法流水線中的預(yù)處理步驟,但過度降噪導(dǎo)致有效高頻數(shù)據(jù)被去除,會影響圖像梯度的檢測。圖像梯度是特征檢測器、線條檢測以及光流等操作的關(guān)鍵要求,是大多數(shù)計算機視覺算法流水線的重要組成部分。

色彩插值 —— 將傳感器通常使用拜耳彩色濾光片陣列(CFA)采集到的原始色彩數(shù)據(jù)轉(zhuǎn)換為彩色 RGB 圖像。這個過程也被稱為去馬賽克 。去馬賽克是任何 ISP 中最關(guān)鍵的操作之一。調(diào)制傳遞函數(shù)(MTF)和圖像噪聲都會直接受到去馬賽克操作的影響。去馬賽克還可能引入許多圖像偽影。例如,邊緣處的拉鏈 / 階梯狀偽影以及高頻圖案中的混疊 / 假色現(xiàn)象。通過使用更復(fù)雜的去馬賽克濾波器,許多這類影響可以得到緩解。通常在計算負荷和圖像質(zhì)量之間存在權(quán)衡。噪聲的引入,特別是水平和垂直邊緣噪聲,可能導(dǎo)致基于強垂直和水平圖像梯度的特征提取出現(xiàn)錯誤。重復(fù)的邊緣效應(yīng),如階梯狀偽影,可能導(dǎo)致錯誤的特征提取和匹配,以及沿邊緣而不是沿運動方向產(chǎn)生錯誤的光流。

邊緣增強 —— 這一處理模塊用于增強邊緣,通常是為了讓圖像在人類觀察者看來更加清晰。然而,過度的邊緣增強可能會引入諸如高對比度邊緣周圍出現(xiàn)光暈之類的偽影,還會加重噪聲。過度的邊緣增強會通過增強噪聲以及在銳化邊緣的過沖和下沖處人為制造重復(fù)邊緣,對基于梯度的算法產(chǎn)生負面影響。

色彩校正矩陣 —— 校正相鄰傳感器像素之間的串?dāng)_。串?dāng)_是一種像素級現(xiàn)象,即一個像素的色彩信息會污染相鄰像素。它本質(zhì)上可以是光學(xué)或電學(xué)方面的問題。需要進行色彩校正來修正與串?dāng)_相關(guān)的色彩不準確問題。在某些情況下,色彩校正也可能引入或加劇色彩噪聲。當(dāng)色調(diào)之間存在明顯不匹配,需要進行高強度數(shù)字校正時,就會出現(xiàn)這種情況。噪聲增加以及色彩不準確都有可能對機器視覺性能產(chǎn)生負面影響。

亮度 / 對比度調(diào)整 —— 該模塊的具體實現(xiàn)細節(jié)差異很大,但關(guān)鍵目標是增強圖像對比度并對圖像亮度進行數(shù)字調(diào)整。典型的對比度增強算法包括直方圖拉伸、直方圖均衡化、局部和全局對比度調(diào)整算法(例如,對比度受限的自適應(yīng)直方圖均衡化,CLAHE)等。對比度增強可以改善不同灰度級之間的對比度區(qū)分度。這對機器視覺性能可能是有利的。然而,過度的對比度增強會加重噪聲并降低信噪比,從而對計算機視覺性能產(chǎn)生負面影響。針對人類視覺和機器視覺目的的亮度和對比度調(diào)節(jié)可能是相互對立的。

伽馬校正?—— 伽馬校正模塊對不同光照水平下的對比度進行不同的調(diào)整,以增強特征的顯著性。伽馬校正對于觀看應(yīng)用至關(guān)重要。如果沒有伽馬校正,就需要更高的圖像位深度來避免可見的色調(diào)分離現(xiàn)象。對于機器視覺應(yīng)用而言,其影響不太明確。陰影細節(jié)的對比度會被增強,但高光部分的對比度會被壓縮。例如,這可能會對交通標志識別或前照燈檢測算法產(chǎn)生潛在的不利影響。

2.3. 用于汽車應(yīng)用的計算機視覺算法

2.3.1. 經(jīng)典計算機視覺

當(dāng)我們提及經(jīng)典計算機視覺(CV)時,指的是在不使用深度學(xué)習(xí)方法的情況下,實現(xiàn)人類視覺系統(tǒng)通常能夠執(zhí)行的任務(wù)自動化的過程。深度學(xué)習(xí)(將在下一節(jié)介紹)可被視為現(xiàn)代計算機視覺中的一個子領(lǐng)域,因為它正迅速成為幾乎所有計算機視覺任務(wù)的前沿技術(shù)。

在自動駕駛的情況下,計算機視覺的多個子領(lǐng)域被用于提取車輛周圍環(huán)境的信息,包括重建、物體識別、三維姿態(tài)估計、機器學(xué)習(xí)以及運動估計。以下部分簡要介紹兩種常用于自動駕駛功能的傳統(tǒng)計算機視覺技術(shù),即三維重建和道路標線檢測,這些是計算機視覺用于自動駕駛功能的示例,旨在說明可靠且準確的計算機視覺輸出的重要性,進而體現(xiàn)所處理圖像的重要性。關(guān)于用于汽車應(yīng)用的計算機視覺算法的更詳細綜述見文獻 。

三維重建 —— 三維重建是指旨在獲取傳感器視場內(nèi)環(huán)境空間結(jié)構(gòu)表示的一組算法。在自動駕駛背景下,它是計算機視覺用于創(chuàng)建車輛周圍環(huán)境度量地圖的主要機制。相機的深度感知技術(shù)主要有兩種類型:即立體視覺和單目視覺 ,立體相機相對于單目系統(tǒng)的主要優(yōu)勢在于即使相機不移動也能感知深度,而單目視覺因成本較低而頗具吸引力。立體視覺通過解決每個像素的對應(yīng)問題來工作,從而實現(xiàn)從左相機圖像到右相機圖像的像素位置視差映射。距離與對應(yīng)世界點距相機的實際距離成正比。利用已知的相機校準參數(shù)和基線,可以確定每個像素在現(xiàn)實世界中的三維位置。圖 2 展示了一個稀疏三維重建的示例。

單目系統(tǒng)也具備感知深度的能力,不過,需要相機運動來為場景重建創(chuàng)建基線。這種場景重建方法被稱為運動恢復(fù)結(jié)構(gòu)(SFM)。圖像中的像素通過稀疏或密集光流或者特征提取與匹配技術(shù),從一幀追蹤或匹配到下一幀。這是發(fā)生在圖像域的主要步驟,通常由諸如尺度不變特征變換(SIFT)、加速魯棒特征(AKAZE)等特征匹配算法來完成 ,而這些算法將是我們評估其對圖像信號處理器(ISP)影響的主要算法之一。經(jīng)過處理的幀之間相機的計算運動以及相機校準,被用于對對應(yīng)點的世界位置進行投影和三角測量。光束法平差是一種常用的方法,它根據(jù)一個最優(yōu)性準則,同時對場景中估計出的三維位置以及相機的相對運動進行優(yōu)化,該準則涉及所有點的相應(yīng)圖像投影。單目深度問題已經(jīng)在教科書里被討論很長時間了 。

道路標線檢測 —— 在自動駕駛中,道路標線檢測自然是任何傳感系統(tǒng)的一個關(guān)鍵組成部分。車道邊界檢測(示例見圖 3)在汽車計算機視覺行業(yè)已被充分理解,它屬于最早出現(xiàn)的汽車計算機視覺產(chǎn)品之一,不過,鑒于近期自動駕駛的發(fā)展背景,它仍是活躍的研究課題 。或許不那么明顯但同樣重要的是自動泊車系統(tǒng)中停車標線的檢測。在視覺方面,車道標線檢測可以通過圖像俯視圖校正、邊緣提取以及霍夫空間分析來檢測標線及標線對。圖 4 給出了采用類似方法得出的結(jié)果示例,該示例是使用水平視場角為 190° 的停車攝像頭采集的數(shù)據(jù)。同一批作者還提出了一種不同的方法,該方法基于手動確定的種子點輸入,隨后應(yīng)用結(jié)構(gòu)分析技術(shù)來提取停車位。或者,文獻中提出了一種基于預(yù)訓(xùn)練模型的方法,該方法基于方向梯度直方圖(HOG)和局部二值模式(LBP)特征,并應(yīng)用線性支持向量機(SVM)來構(gòu)建分類模型。無論采用何種具體方法,很明確的一點是,從高速公路駕駛到泊車,道路標線檢測對于一個完整的自動駕駛系統(tǒng)來說都是必不可少的。

2.3.2.深度學(xué)習(xí)

在過去的5年里,計算機視覺技術(shù)迅速發(fā)展,以深度學(xué)習(xí),特別是卷積神經(jīng)網(wǎng)絡(luò)(CNN)是其核心。cnn已經(jīng)大幅提高了目標檢測的準確性,從而提高了對自動駕駛的感知能力。它還通過語義分割實現(xiàn)了密集的像素分類,這在之前是不可行的。此外,cnn在幾何視覺算法如光流、移動目標檢測、運動結(jié)構(gòu)、重新定位、污染檢測[61]和聯(lián)合多任務(wù)模型等方面取得了最先進的結(jié)果。CNN的快速進展使得硬件制造商包括了一個定制的硬件,以提供超過每秒10個Tera操作的高吞吐量(TOPS)。此外,下一代硬件將有密集的光流和立體聲硬件加速器,以實現(xiàn)對移動和靜態(tài)物體的通用檢測。

語義圖像分割在深度學(xué)習(xí)方面取得了巨大的進展。語義分割的目標是將圖像分割成有意義的部分。它已被用于機器人技術(shù)、醫(yī)療應(yīng)用、增強現(xiàn)實和最顯著的自動駕駛。圖5展示了在自動駕駛設(shè)置中的語義分割輸出的一個示例。所開發(fā)的工作主要有三個子類別。第一個使用補丁式訓(xùn)練來產(chǎn)生最終的分類。第二個子類主要關(guān)注像素級分類的端到端學(xué)習(xí)。它始于在中開發(fā)完全卷積網(wǎng)絡(luò)的工作。最后,在中的工作主要集中在多尺度語義分割上。

如前文所述,幾何計算機視覺任務(wù)是自動駕駛(AD)系統(tǒng)的重要組成部分。具體而言,我們指的是多視圖幾何算法,它能從多幅圖像中估算相對運動和深度。自動駕駛的視覺感知深受這些幾何應(yīng)用(如光流 ]、運動恢復(fù)結(jié)構(gòu) 、視覺里程計、同時定位與地圖構(gòu)建(SLAM))精度的影響。幾十年來,計算機視覺領(lǐng)域一直在深入研究使用經(jīng)典方法來實現(xiàn)這些算法。然而,基于深度學(xué)習(xí)的方法在這些算法中開始嶄露頭角。深度學(xué)習(xí)在目標檢測和分割方面發(fā)揮了重要作用,并且已成為自動駕駛的一種成熟解決方案。近來,僅通過使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型而不結(jié)合幾何結(jié)構(gòu),深度學(xué)習(xí)就已成為諸如光流和深度估算等特定任務(wù)的前沿方法。也有人嘗試將 CNN 用于視覺 SLAM、視覺里程計和校準。運動估計涵蓋了密集光流估計和運動物體分割。圖 6 展示了一種用于計算密集光流的幾何深度學(xué)習(xí)算法。深度估計是自動駕駛中的一項關(guān)鍵算法,用于相對于車輛對汽車周圍識別出的物體進行定位,我們會研究有監(jiān)督、無監(jiān)督或半監(jiān)督的方法。原則上,CNN 學(xué)習(xí)算法應(yīng)該能夠?qū)W習(xí)對算法關(guān)鍵性能指標(KPI)而言最優(yōu)的必要變換。然而在實踐中,有大量的經(jīng)驗證據(jù)表明,納入已知的變換作為歸納偏置能提升性能。

2.4. 討論

計算機視覺在車輛自動化中起著非常重要的作用,它為車輛提供大量環(huán)境信息,以便車輛做出至關(guān)重要的輔助決策,更重要的是做出關(guān)乎安全的關(guān)鍵決策。顯然,對于基于傳統(tǒng)方法和基于深度學(xué)習(xí)的功能而言,圖像本身作為這些功能唯一的原始傳感器輸入,對于達到更高自動化水平所要求的魯棒性、可用性和準確性至關(guān)重要。邁向更高車輛自動化水平的趨勢正推動著所有計算機視覺功能的性能要求提升。無論是基于傳統(tǒng)方法還是基于深度學(xué)習(xí)的計算機視覺功能,其像素級處理階段都依賴于圖像輸入的保真度。無論采用何種方法從圖像中提取特征級數(shù)據(jù),無論是傳統(tǒng)的特征提取還是編解碼器神經(jīng)網(wǎng)絡(luò)中的編碼器,只有當(dāng)所提供的圖像能準確呈現(xiàn)所拍攝的場景時,提取出的諸如點、邊緣、角點、斑點或紋理等特征才是可靠的。如前文所述,圖像生成的這種準確性可能與人類觀察者所感知的視覺質(zhì)量不一致。計算機視覺理想的圖像表示形式是,能為所有場景結(jié)構(gòu)(幾何結(jié)構(gòu)、紋理、顏色、反射率等)提供充足、一致且可重復(fù)的對比度,且不受光照、溫度、環(huán)境條件以及場景結(jié)構(gòu)的影響,然而,由于存在大量無法測量、難以建模或在當(dāng)今成像硬件上無法準確重現(xiàn)的系統(tǒng)及場景變量,這一目標無法實現(xiàn)。一些在像素層面影響特征提取的重要圖像特性包括圖像壓縮、模糊 / 銳化、對比度、噪聲、色彩壓縮,本研究對其中部分特性進行了探究。雖然這些圖像特性并非完全由圖像信號處理器(ISP)控制,但它卻對這些特性在生成圖像中的存在情況、權(quán)重以及影響有著重大影響。盡管近期有研究探討了其中部分圖像特性對計算機視覺性能的影響 ,也有其他研究提出了針對移動應(yīng)用進行圖像信號處理器調(diào)優(yōu)或適配的可能性 ,但針對汽車應(yīng)用的影響及相關(guān)問題的研究卻寥寥無幾(如果有的話)。

圖像處理參數(shù)對計算機視覺算法影響的實證分析

在典型的高級駕駛輔助系統(tǒng)(ADAS)或使用環(huán)視高視場角攝像頭的自動駕駛應(yīng)用中,單個圖像信號處理器(ISP)會同時用于人類視覺(HV)和計算機視覺(CV)功能。所生成原始圖像的信號處理主要是由環(huán)視系統(tǒng)的人類視覺質(zhì)量驅(qū)動的。在計算機視覺或深度學(xué)習(xí)應(yīng)用開發(fā)完成后對圖像信號處理器(ISP)流水線進行調(diào)優(yōu),很可能會對算法性能產(chǎn)生不利影響,因為算法性能并非優(yōu)化循環(huán)的一部分。例如,所有算法都可能會受到因調(diào)整而導(dǎo)致的信噪比下降的影響。幾何視覺算法本身對圖像信號處理器(ISP)的預(yù)處理變化較為敏感,因為像特征提取這類像素級操作通常依賴于固定的、靜態(tài)調(diào)優(yōu)的核尺寸和參數(shù)以及固定的顯著度閾值。對于深度學(xué)習(xí)算法而言,只要其模型是通過大量不同的訓(xùn)練樣本進行訓(xùn)練的,它們就會更具魯棒性。例如,在文獻 [84] 中,作者觀察到不同深度神經(jīng)網(wǎng)絡(luò)架構(gòu)在模糊和噪聲條件下性能會下降,而對對比度和 JPEG 壓縮則具有一定的抗性。隨著為輔助自動駕駛而推動視覺感知改進以及集成圖像信號處理器(ISP)的片上系統(tǒng)(SoC)的推出,現(xiàn)在已經(jīng)可以實現(xiàn)用于人類視覺和計算機視覺的雙圖像信號處理器(ISP)流水線了。如前文所述,原始圖像由圖像傳感器生成。為了能被設(shè)備查看,原始數(shù)據(jù)必須經(jīng)過圖像信號處理器(ISP)處理(見圖 7)。

圖 7. 流水線概述。影響計算機視覺(CV)性能的關(guān)鍵圖像信號處理器(ISP)模塊已用粗體標記。

3.1. 總體方法與測試設(shè)置

3.1.1. 測試設(shè)置

本文收集并拓展了作者先前在出版物 [11,86] 中呈現(xiàn)的研究結(jié)果。它主要聚焦于從像素級處理角度獲得的有關(guān)銳化和對比度方面的結(jié)果,并展示了對一個行人檢測(PD)算法流水線關(guān)鍵性能指標(KPI)影響的初步結(jié)果,該流水線先通過 AdaBoost 算法生成候選對象,隨后利用一個小型的基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的方法對候選對象進行驗證。

銳化和對比度是典型的圖像信號處理器(ISP)處理模塊,相較于其他參數(shù),它們更多地受主觀經(jīng)驗驅(qū)動,而非基于應(yīng)用的客觀適配性。由于目前針對計算機視覺的圖像信號處理器(ISP)調(diào)優(yōu)是一個被忽視的主題,所以沒有附帶視覺關(guān)鍵性能指標(KPI)的原始圖像數(shù)據(jù)集可用。本研究中使用的數(shù)據(jù)是通過安裝在汽車上的魚眼攝像頭在內(nèi)部進行記錄的。視頻 / 圖像是在街道上的駕駛場景或停車狀況下錄制的,其中包含行人、汽車、交通及道路標志、標線等物體。需要注意的是,這些魚眼圖像并非原始圖像,因此在測試前已經(jīng)應(yīng)用了基本的圖像信號處理器(ISP)處理。由于缺乏圖像信號處理器(ISP)處理前的圖像,我們只能進行最基本的代理測試來 “模擬” 圖像信號處理器(ISP)的某些模塊(銳化和對比度)。

未來,我們將通過對圖像信號處理器(ISP)進行調(diào)優(yōu),使用原始圖像重新運行這些測試。像素級研究針對以下方面對原始圖像和處理后的圖像進行了比較:邊緣檢測(使用索貝爾濾波器)[87]、二值化及閉運算(形態(tài)學(xué)操作)[88]。通過查找 100 個最顯著匹配點(依據(jù)其距離)上的內(nèi)點,對特征提取的影響進行了研究。利用隨機抽樣一致性算法(RANSAC)計算兩幅圖像之間的單應(yīng)性矩陣。該研究分別考察了圖像信號處理器(ISP)對每個特征提取器的影響。這項像素級研究是在 100 多幅圖像上進行的。在計算機視覺中,特征是圖像中顯著的部分(點、斑點、邊緣等),它能減少待處理的數(shù)據(jù)量,聚焦于圖像的相關(guān)部分,可能在時間維度上具有魯棒性,并會由計算機視覺算法流水線的下一階段做進一步處理。本研究中使用的特征描述符 / 檢測器對均勻縮放、方向及光照具有不變性 [47]:尺度不變特征變換(SIFT)[34]、加速穩(wěn)健特征(SURF)[89]、定向 FAST 和旋轉(zhuǎn) BRIEF(ORB)[90] 以及加速魯棒特征(AKAZE)[91,92]。總共在 6 幀圖像(第 n 幀…… 第 n + 5 幀)中提取特征,并在第 n 幀與序列中后續(xù)各幀(第 n + 1 幀到第 n + 5 幀)之間進行特征匹配(見圖 8)。之所以選擇前面提到的這些算法(邊緣檢測、二值化、閉運算以及特征描述符 / 檢測器),是因為它們在計算機視覺和深度學(xué)習(xí)算法中被廣泛使用。

對于關(guān)鍵性能指標(KPI)影響的分析,我們使用了一個包含 20 個視頻的樣本集進行測試。在所有視頻上都運行了一個典型的行人檢測(PD)算法。該算法依據(jù)光照水平、姿態(tài)、對比度等因素,可檢測出 8 米范圍內(nèi)的行人,并在檢測到的行人周圍繪制邊界框。用于量化影響的指標是行業(yè)內(nèi)常用的一個關(guān)鍵性能指標(KPI)。我們的關(guān)鍵性能指標(KPI)度量標準是標注的邊界框與檢測到的邊界框之間的交并比(IOU)。交并比(IOU)越大,表明準確率越高,當(dāng)交并比(IOU)高于針對特定物體實例設(shè)定的閾值時,則判定為真陽性。

圖 8. 基于定向 FAST 和旋轉(zhuǎn) BRIEF(ORB)的特征匹配示意圖

3.1.2. 銳化

為什么在觀看應(yīng)用中要使用銳化呢?人類視覺系統(tǒng)對圖像中的邊緣和精細細節(jié)高度敏感,并且善于通過調(diào)整來區(qū)分對比度不同的線條。邊緣和細節(jié)主要存在于高頻部分。然而,相機是由有限數(shù)量的像素構(gòu)成的,這意味著在一幅圖像中,只有有限頻率的數(shù)據(jù)能夠被充分捕獲并呈現(xiàn)出來。在圖像中,物體之間的邊界之所以能被察覺,是因為存在強度變化(強度變化越劇烈,圖像就越清晰)。相鄰像素之間的強度變化與圖像的導(dǎo)數(shù)(空間微分)有關(guān)。銳化被廣泛用于對模糊圖像進行后處理,通過增強強度變化的幅度來實現(xiàn)。增大暗區(qū)和亮區(qū)之間的差異能夠突出邊緣。在廣角視場(FOV)鏡頭圖像中,銳化可能是有益的,因為它可以對光學(xué)傳遞函數(shù)(OTF)起到補償作用。在這種情況下,圖像邊緣部分分辨率會降低,而銳化可以改善這一情況。

所采用的技術(shù):使用了兩種技術(shù)來銳化圖像。這兩種技術(shù)都應(yīng)用了不同的參數(shù)。第一種技術(shù)是使用拉普拉斯濾波器來增強高頻區(qū)域中包含的精細細節(jié)。這些濾波器核的設(shè)計目的是相對于原始像素提高中心像素的亮度。拉普拉斯算子(L4 和 L8)是對圖像二階空間導(dǎo)數(shù)的二維等距度量:

使用的第二種技術(shù)是透明掩蔽(USM)。它使用原始圖像的一個未銳化(模糊的)負圖像掩模,通過每像素加權(quán)和與正原始圖像相結(jié)合,以創(chuàng)建一個銳化版本。在這里,我們使用一組不同大小的高斯核(3×3,9×9和19×19)來創(chuàng)建模糊圖像,并對模糊圖像使用0.5的權(quán)重。圖9(左圖:拉普拉斯式,右圖USM)顯示了過濾器的應(yīng)用。

圖9.銳化方法|左:使用拉普拉斯濾波器/右:使用USM

視覺分析:這兩種技術(shù)已經(jīng)應(yīng)用于圖像。所有輸出更清晰,真空度增強,因為原始模糊似乎被刪除。從視覺的角度來看,可以觀察到用拉普拉斯濾波器銳化的圖像比用USM銳化的圖像噪聲更大。每次處理后出現(xiàn),但在拉普拉斯圖像中更明顯。在邊緣檢測方面,用拉普拉斯算子銳化的圖像中的噪聲在某些情況下被檢測為邊緣,這與USM產(chǎn)生的“暈”偽影相反,因為它們不夠強,不能被檢測為邊緣。通過二值化得到的結(jié)果與之前的觀察結(jié)果相似,因為原始的二值化圖像與超二值化圖像的銳化圖像之間沒有很大的差異。用拉普拉斯濾波器銳化的圖像的噪聲是明顯的。由于對二值化圖像進行形態(tài)學(xué)閉合操作,也得出了類似的結(jié)論。(視覺差異:圖10)。

圖 10. 采用不同參數(shù)設(shè)置銳化后的圖像示例

通過觀察特征檢測器給出的結(jié)果可以發(fā)現(xiàn),銳化對特征檢測有影響。將原始圖像與經(jīng)拉普拉斯濾波生成的圖像進行匹配,內(nèi)點的占比總是更低。我們的測試結(jié)果表明,高反差保留(USM)方法對性能可能會產(chǎn)生正向或負向的影響(見圖 11)。

定量分析:如前文所述,已針對 20 個視頻樣本集計算了關(guān)鍵性能指標(KPI)值。表 1 以及圖 12 中的受試者工作特征(ROC)曲線展示了兩種銳化技術(shù)所獲得的結(jié)果。通過對比未處理視頻和經(jīng)過銳化處理的視頻之間的關(guān)鍵性能指標(KPI)值,可以觀察到拉普拉斯濾波器提升了關(guān)鍵性能指標(KPI)值:在每幀誤報數(shù)(FP)與原始測試值大致相同的情況下,拉普拉斯 8(Lap8)提升了 14.43%,拉普拉斯 4(Lap4)提升了 7.35%。用于高反差保留的三種配置則得出了相反的結(jié)果(真陽性百分比更低)。從視覺上看,與會出現(xiàn)大量噪聲和光暈偽影的拉普拉斯濾波相比,高反差保留技術(shù)生成的圖像效果更好。這凸顯了在視覺上對人類視覺有吸引力的東西,對計算機視覺算法而言未必是好的(見圖 13)。

圖11.根據(jù)SIFT、SURF、ORB和AKAZE的幀和銳化技術(shù)的傾斜百分比

表1。在使用拉普拉斯濾波器或非銳化掩蔽(USM)或無濾波器(原始)進行銳化后,由PD算法給出的KPI(%)。TP =真陽性,F(xiàn)P =假陽性

圖 12. 受試者工作特征(ROC)曲線,展示了所測試的 5 種配置以及對原始圖像進行測試時每幀的真陽性率(TP 率)與誤報數(shù)(FP)情況

圖 13. 銳化后的圖像:(左:拉普拉斯 8(Lap8);右:高反差保留 9(USM9))。當(dāng)行人檢測(PD)算法檢測到行人時,會繪制一個綠色的邊界框(其他所有線條均用于調(diào)試)

3.1.3. 對比度

為什么在觀看應(yīng)用中要使用對比度呢?在對現(xiàn)實世界的視覺感知中,對比度是由同一視野內(nèi)物體的亮度和顏色差異所決定的。人類視覺系統(tǒng)能夠在光照變化的情況下以相似的方式感知世界,因為它對對比度變化比對絕對亮度更為敏感。對比度增強在攝影中是一個重要工具,因為它可用于創(chuàng)建引人注目的圖像,并將觀看者的注意力引導(dǎo)到某個物體上。

所采用的技術(shù):使用了兩種技術(shù)來調(diào)整圖像對比度,即直方圖均衡化(HE)和對比度受限的自適應(yīng)直方圖均衡化(CLAHE)。直方圖均衡化技術(shù)會影響圖像的全局對比度,并使強度均勻分布,對于背景和前景中都有明暗區(qū)域的圖像很有用。對比度受限的自適應(yīng)直方圖均衡化(CLAHE)技術(shù)是對自適應(yīng)直方圖均衡化(AHE)技術(shù)的一種改進,用于提高圖像對比度。會針對圖像的各個部分計算若干個直方圖,然后對強度值進行重新分配。

結(jié)果:

視覺分析:可以觀察到,所測試的這兩種技術(shù)產(chǎn)生了不同的輸出結(jié)果。直方圖均衡化會使圖像的強度發(fā)生變化。其結(jié)果是,一些高強度的細節(jié)(如云彩、某些邊界等)會從圖像中消失,而其他強度較低的區(qū)域則變得更易于分辨。

由于對比度受限的自適應(yīng)直方圖均衡化(CLAHE)是一種自適應(yīng)方法,生成的圖像顯示原始圖像中的暗區(qū)變得更暗,亮區(qū)變得更亮。圖像似乎包含了更多細節(jié)。在邊緣處會產(chǎn)生光暈偽影,并且噪聲會隨著分塊大小以及所應(yīng)用的裁剪限制值的增大而增加??雌饋碓肼暸c裁剪限制值大小成正比(裁剪限制值越大,圖像中的噪聲就越多)。通過觀察邊緣檢測后的圖像,可以發(fā)現(xiàn)直方圖均衡化圖像的索貝爾圖像與原始圖像非常相似,而在對比度受限的自適應(yīng)直方圖均衡化(CLAHE)圖像中,噪聲會被檢測為邊緣。原始圖像和處理后圖像之間的差異在二值化后會更加明顯。直方圖均衡化后的圖像丟失了大量信息。然而,由于圖像變亮了,現(xiàn)在有可能分辨并識別出源圖像上不可見的特征。對比度受限的自適應(yīng)直方圖均衡化(CLAHE)方法產(chǎn)生的光暈偽影在二值化圖像上清晰可見。閉運算圖像會因所使用的對比度技術(shù)不同而受到不同影響。直方圖均衡化圖像在所有區(qū)域都變亮的情況下,信息丟失嚴重。當(dāng)裁剪限制值和分塊大小更大時,對比度受限的自適應(yīng)直方圖均衡化(CLAHE)圖像會呈現(xiàn)出更多細節(jié)(見圖 14)。

圖14特征匹配測試得出了與銳化類似的結(jié)果

圖 15 表明,對比度在大多數(shù)情況下對不同的特征檢測器都有負面影響。只有使用尺度不變特征變換(SIFT)時的第 10 幀圖像在調(diào)整對比度后內(nèi)點占比更高。我們從該圖中能得出的另一個結(jié)論是,在對比度調(diào)整后,加速魯棒特征(AKAZE)測試中的部分內(nèi)點占比與原始內(nèi)點占比相等(取決于對比度算法的參數(shù),其影響可能是負面的,也可能沒有影響)。這些針對少量幀的初步結(jié)果表明,對比度增強對計算機視覺的影響并不像對人類視覺那樣是積極的。必須在擁有目前尚不可得的原始標注數(shù)據(jù)的更大數(shù)據(jù)集上重復(fù)進行實驗。在測試未處理的原始圖像和處理后圖像之間的特征匹配時,大多數(shù)情況下內(nèi)點占比都會下降。圖 15 展示了所獲得的結(jié)果。

定量分析:表 2 以及圖 16 中的受試者工作特征(ROC)曲線表明,對比度調(diào)整確實會對關(guān)鍵性能指標(KPI)值產(chǎn)生實際影響。這種影響對計算機視覺(CV)性能而言可能是正向的,也可能是負向的。使用 3 組參數(shù)進行的對比度受限的自適應(yīng)直方圖均衡化(CLAHE)測試得出了更高的真陽性百分比:對比度受限的自適應(yīng)直方圖均衡化(CLAHE)2_8 的為 +6.63%,對比度受限的自適應(yīng)直方圖均衡化(CLAHE)2_16 的為 +10.01%,對比度受限的自適應(yīng)直方圖均衡化(CLAHE)10_16 的為 +1.8%。關(guān)于每幀誤報數(shù)(FP),可以觀察到對比度受限的自適應(yīng)直方圖均衡化(CLAHE)2_8 和對比度受限的自適應(yīng)直方圖均衡化(CLAHE)2_16 與原始測試非常相似,而對比度受限的自適應(yīng)直方圖均衡化(CLAHE)10_16 的情況要好得多(每幀誤報數(shù)越低越好)。

圖 15. 取決于幀數(shù)以及所使用的對比度方法(使用尺度不變特征變換(SIFT)、加速穩(wěn)健特征(SURF)、定向 FAST 和旋轉(zhuǎn) BRIEF(ORB)以及加速魯棒特征(AKAZE))的內(nèi)點百分比

表 2. 使用對比度受限的自適應(yīng)直方圖均衡化(CLAHE)濾波器進行對比度增強后行人檢測(PD)算法給出的關(guān)鍵性能指標(KPI)百分比(CLAHE 2_8:裁剪限制值 = 2 且分塊大小 = 8×8 的對比度受限的自適應(yīng)直方圖均衡化(CLAHE))。TP = 真陽性,F(xiàn)P = 誤報數(shù)。

圖16. ROC曲線顯示TP率與。每幀的6個配置測試和測試原始圖像

3.2. 銳光和對比度的過濾器調(diào)整

本節(jié)將介紹在[11]電子成像會議上展示的結(jié)果。在本實驗中,我們使用了93個視頻的目錄進行測試,并在行人檢測(PD)算法之前應(yīng)用了銳化和對比度。為了得到地面真實結(jié)果,對整個目錄運行了行人檢測算法。為了限制配置空間,已經(jīng)測試了每種技術(shù)的一個濾波器:拉普拉斯濾波器,它有一個參數(shù),有兩種可能性,CLAHE技術(shù),有兩個參數(shù):剪輯限制:[1,15]和時間大小:8×8或16×16。這里的目標是優(yōu)化PDkpi:最大化TP率,同時保持盡可能低的FP率。為了實現(xiàn)這一目標,我們建議計算一個折衷值(G),以聯(lián)合優(yōu)化TP率(rTP)和FP率(rFP)值:

G = rFP (1 - rFP)

圖17的圖表顯示了每個配置的三個度量值(TPrate、每幀的FP和折衷值)??梢杂^察到,TP速率值從0.68到0.83不等。每幀的FP變化也很大,從0.039到0.101。

圖17:TP率(%)與。每幀的FP作為對比度

在表3中,我們根據(jù)TP率和折衷值建立了最佳配置。

表3:原始目錄的TP率、FP率和折衷值,TP率的最佳配置和折衷值的最佳配置

在配置中發(fā)現(xiàn)的最佳TP為0.83,比原來的增加了約0.045。通過觀察每幀的FP值,可以看到它幾乎是原始值的兩倍(0.095)。然而,折衷值考慮了TP速率和每幀的FP,這可能是一個更好的度量方法。最后一列顯示了kpi值,如果按折衷值排序,最佳TP率為0.81,它大于0.025。在這種情況下,每一幀的FP仍然很低(0.069)。

表4顯示了在按TP率或每個折衷值進行排序時找到的最佳配置的參數(shù)值。圖18顯示了由配置按折扣值排序時找到的最佳配置給出的參數(shù)值處理的圖像。如果我們考慮人類視覺應(yīng)用,這幅圖像的“圖像質(zhì)量”將遠遠被認為是一個“好看”的圖像。

表4.最佳配置的參數(shù)

圖 18. 使用按折衷值排序時找到的最佳配置(拉普拉斯 8(Lap8),裁剪限制值 = 2 且分塊大小 = 8×8)所給定的參數(shù)進行銳化和對比度調(diào)整后的圖像

3.3. 討論

本次像素級研究獲得的結(jié)果表明,對圖像信號處理器(ISP)流水線的兩個模塊進行調(diào)整會對計算機視覺算法性能產(chǎn)生直觀可見且可量化的影響。首先,在應(yīng)用索貝爾算子(邊緣檢測)、二值化以及形態(tài)學(xué)操作之后,可以觀察到視覺上的差異。通過計算每種方法的內(nèi)點百分比,凸顯了對特征提取(如尺度不變特征變換(SIFT)、加速穩(wěn)健特征(SURF)、定向 FAST 和旋轉(zhuǎn) BRIEF(ORB)以及加速魯棒特征(AKAZE))性能的影響。

對行人檢測算法關(guān)鍵性能指標(KPI)的測試表明,僅通過使用后處理濾波器,算法性能就會出現(xiàn)顯著的提升或下降。在逐個應(yīng)用濾波器的實驗中,可以觀察到原始圖像和處理后圖像之間的真陽性(TP)百分比在銳化操作時從 +14.43% 到 -3.2% 不等,在對比度調(diào)整時從 +10% 到 -10% 不等。

在針對更大視頻樣本集所做的最后一項實驗中,結(jié)果證實了之前得出的結(jié)論:“圖像質(zhì)量” 對計算機視覺有著可量化且顯著的影響。通過調(diào)整這兩個濾波器,我們能夠在將誤報率(FP)維持在較低水平的同時提高真陽性率。這有力地表明,為使計算機視覺算法(包括傳統(tǒng)特征提取算法和機器學(xué)習(xí)算法)獲得最佳性能,針對計算機視覺進行圖像信號處理器(ISP)調(diào)優(yōu)是一個極具潛力的重要研究領(lǐng)域。

4. 未來工作:面向計算機視覺的專用圖像信號處理器(ISP)

4.1. 調(diào)優(yōu)算法

調(diào)優(yōu)算法通常需要一個可優(yōu)化的標量度量指標。度量指標既可以在圖像層面定義,也可以在計算機視覺算法層面定義。針對人類觀看需求進行的圖像信號處理器(ISP)調(diào)優(yōu)傳統(tǒng)上是基于各測試對象偏好分數(shù)的匯總,以主觀方式完成的。也存在客觀的圖像質(zhì)量度量指標,如均方誤差(MSE)、結(jié)構(gòu)相似性(SSIM)等,但它們通常與感知相似性并不對應(yīng)。對于計算機視覺算法的調(diào)優(yōu)而言,直接對算法的關(guān)鍵性能指標(KPI)進行調(diào)優(yōu)效果更好。通常會有多個應(yīng)用,如深度學(xué)習(xí)、運動恢復(fù)結(jié)構(gòu)、視覺同時定位與地圖構(gòu)建(SLAM)等,各個算法的不同精度需要通過加權(quán)求和來進行衡量。在對多個算法關(guān)鍵性能指標(KPI)進行調(diào)優(yōu)時,主要挑戰(zhàn)在于每次迭代的時間復(fù)雜度,對于參數(shù)搜索空間較大的情況,這可能變得不切實際。因此,必須采用一些高效的策略??梢韵葘D像質(zhì)量度量指標進行調(diào)優(yōu),以便為計算機視覺算法調(diào)優(yōu)方法提供良好的初始值。值得注意的是,就深度學(xué)習(xí)算法而言,可能根本不需要圖像信號處理器(ISP)組件,因為深度學(xué)習(xí)網(wǎng)絡(luò)能夠隱式地學(xué)習(xí)必要的變換。不過,在深度學(xué)習(xí)網(wǎng)絡(luò)中顯式地對其進行建模以利用成像方面的先驗知識,或許效果會更好。戴蒙德等人 利用這一思路對一個可微的圖像信號處理器(ISP)模塊進行建模,該模塊可與識別網(wǎng)絡(luò)一起進行端到端的訓(xùn)練。

一旦確定了調(diào)優(yōu)度量指標和策略,優(yōu)化算法就會找出最佳參數(shù)集。最簡單的方法是手動試錯,即由開發(fā)算法的專家根據(jù)經(jīng)驗對參數(shù)集進行調(diào)整。通常,會將計算機視覺領(lǐng)域常用的標準參數(shù)集作為起點,再進一步細化。一般來說,這是一個繁瑣的手動過程,無法系統(tǒng)地得出最優(yōu)參數(shù)集。對于具有數(shù)百個參數(shù)的圖像信號處理器(ISP)的大型搜索空間而言,手動調(diào)優(yōu)尤其困難。最簡單的優(yōu)化算法是網(wǎng)格搜索和隨機搜索。在網(wǎng)格搜索中,會基于所有可能的組合在網(wǎng)格上定義參數(shù)范圍,然后使用暴力搜索的方式對其進行評估。對于參數(shù)組合較多的情況,這種方法并不實用。一種改進的方法是隨機搜索,即采用一種巧妙的采樣策略隨機選擇參數(shù)。在 [95] 中,針對大型搜索空間已成功展示了這種方法。然而,它并不能保證收斂到最優(yōu)參數(shù)集。

近來,出現(xiàn)了許多更智能的、適用于大型搜索空間問題的優(yōu)化方法。貝葉斯優(yōu)化 [96] 是一種常用于優(yōu)化大規(guī)模問題(特別是評估函數(shù)計算成本較高的情況)的形式化方法。原則上,它有可能將其他搜索啟發(fā)式方法(如遺傳算法或群優(yōu)化技術(shù))融入先驗?zāi)P椭小R虼耍且环N更通用且更強大的方法。從形式上講,問題可定義如下:一個算法有一個參數(shù)空間 P = {p1, p2, …, pn },它是由所有可能的參數(shù)配置組成的集合。參數(shù)通常是數(shù)值型的,也可以是類別型的,如啟用 / 禁用某個模塊。每個參數(shù)的分辨率和范圍將是關(guān)鍵的設(shè)計選擇。對于具有數(shù)百個參數(shù)的圖像信號處理器(ISP)配置,集合 P 的基數(shù)可能會超過 102?,暴力搜索是不可行的。

算法調(diào)優(yōu)問題可定義如下:popt = argmax (pi∈P)(Faccuracy (p)),其中 popt 是使精度成本函數(shù) Faccuracy (p) 最大化的最優(yōu)參數(shù)配置。通常,會有多個算法,其精度需要聯(lián)合優(yōu)化。標準方法是通過加權(quán)求和將不同的精度標量化。也有多目標優(yōu)化方法,其目的是在多維空間中同時優(yōu)化關(guān)鍵性能指標(KPI)。通常,這種方法相對復(fù)雜,也需要大量的人工干預(yù)。基于序列模型的算法配置(SMAC3)(是一款用于優(yōu)化配置的熱門工具,它結(jié)合了貝葉斯優(yōu)化、梯度下降以及其他啟發(fā)式方法。

單圖像信號處理器(ISP)與雙圖像信號處理器(ISP)

人類視覺(HV)和計算機視覺(CV)的需求可能不同。傳統(tǒng)上,出于成本考慮,在處理片上系統(tǒng)(SOC)板載或配套芯片上只有一個圖像信號處理器(ISP),而且通常是針對人類視覺進行調(diào)優(yōu)的。來自同一流水線的圖像被用于機器視覺應(yīng)用。已有研究表明,針對人類視覺(HV)和計算機視覺(CV)優(yōu)化的圖像信號處理器(ISP)是不同的 [94,97]。我們也將在下一節(jié)展示更多這方面的實證證據(jù)。將圖像信號處理器(ISP)拆分為分別用于人類視覺(HV)和計算機視覺(CV)的獨立流水線,能夠?qū)Χ叻謩e進行獨立調(diào)優(yōu),以便各自實現(xiàn)性能最大化。這對于機器學(xué)習(xí)算法尤其重要,因為機器學(xué)習(xí)算法理想情況下是基于特定的圖像信號處理器(ISP)設(shè)置進行訓(xùn)練的。雙圖像信號處理器(ISP)流水線如圖 19 所示。人們對獨立圖像信號處理器(ISP)的重要性有了更深入的理解,而且現(xiàn)在大多數(shù)汽車片上系統(tǒng)(SOC)都具備了支持雙圖像信號處理器(ISP)流水線的計算能力和內(nèi)存帶寬。盡管采用了多個圖像信號處理器(ISP)的實現(xiàn)方式,但存在一個關(guān)鍵限制,即動態(tài)反饋回路算法必須由一個主控制器來控制。相應(yīng)圖像傳感器的底層行為,例如特定曝光下某個像素的曝光時間,必須進行唯一控制。

圖 19. 雙圖像信號處理器(ISP)示意圖

結(jié)論

汽車系統(tǒng)的一個關(guān)鍵趨勢是朝著全自動駕駛車輛發(fā)展,計算機視覺也不例外。所有主要的汽車制造商都在研究并推廣某種形式的車輛自動駕駛,而且都在計算機視覺領(lǐng)域進行投資,近期尤其側(cè)重于神經(jīng)網(wǎng)絡(luò)方面。這一趨勢始于市場上已有的較低自動化水平的應(yīng)用,并且在未來幾十年隨著全自動駕駛車輛的出現(xiàn)必然會全面開花結(jié)果。因此,攝像頭過去是、將來也仍會是此類系統(tǒng)中的關(guān)鍵要素。

圖像信號處理器(ISP)在計算機視覺中起著至關(guān)重要的作用,因為它從根本上控制著傳遞給計算機視覺算法的信號質(zhì)量。然而,正如我們所討論的那樣,計算機視覺中的 “質(zhì)量” 未必是一個定義明確的概念,特別是考慮到計算機視覺中能夠設(shè)計出各種各樣的算法和應(yīng)用。正如我們所闡述的,很明確的一點是,在自動駕駛車輛的背景下,使計算機視覺性能最大化至關(guān)重要,而且對圖像信號處理器(ISP)進行調(diào)整會對計算機視覺算法的性能產(chǎn)生重大影響。鑒于該主題的重要性和復(fù)雜性,我們圍繞以計算機視覺性能作為成本度量來自動調(diào)整圖像信號處理器(ISP)流水線參數(shù)的幾種可能性進行了討論,例如貝葉斯超參數(shù)搜索,從而避開了為傳遞給算法的圖像數(shù)據(jù)定義計算機視覺質(zhì)量度量的必要。

在本文中,我們主要闡述了對圖像信號處理進行自動調(diào)優(yōu)以最大化計算機視覺算法性能的重要性這一論點,展示了一些結(jié)果來強化我們的論點,但并未呈現(xiàn)自動調(diào)優(yōu)本身的相關(guān)結(jié)果。這顯然是朝著這個方向開展工作的下一步內(nèi)容。與本研究中呈現(xiàn)的結(jié)果相關(guān),后續(xù)研究將會拓展至其他圖像信號處理器(ISP)處理過程,如高動態(tài)范圍(HDR)、色調(diào)映射、低光敏感度、調(diào)制傳遞函數(shù)(MTF)以及位深等方面,并研究對其他計算機視覺(更具體地說是深度學(xué)習(xí),DL)算法關(guān)鍵性能指標(KPI)的影響,以便按照所述方式通過自動化對圖像信號處理器(ISP)進行最優(yōu)調(diào)優(yōu)。

相關(guān)推薦

登錄即可解鎖
  • 海量技術(shù)文章
  • 設(shè)計資源下載
  • 產(chǎn)業(yè)鏈客戶資源
  • 寫文章/發(fā)需求
立即登錄