AI時(shí)代,什么樣的數(shù)據(jù)才是MLOPS需要的數(shù)據(jù)?用什么方法來(lái)標(biāo)注數(shù)據(jù)?智能駕駛數(shù)據(jù)解決方案如何研發(fā)迭代?
時(shí)下,道路上搭載L2級(jí)以上智能駕駛系統(tǒng)的車輛逐漸增多,安全問(wèn)題備受關(guān)注。為了在競(jìng)爭(zhēng)中脫穎而出,加速智能駕駛應(yīng)用安全落地,智能駕駛企業(yè)必須依靠海量的高質(zhì)量標(biāo)注數(shù)據(jù)來(lái)訓(xùn)練優(yōu)化算法模型。
伴隨人工智能(AI)大模型應(yīng)用的快速進(jìn)展,作為AI技術(shù)底層基礎(chǔ)的數(shù)據(jù),既需要高質(zhì)量、大規(guī)模,也需要多樣性。特別是相比其他應(yīng)用場(chǎng)景,智能駕駛的落地場(chǎng)景更加復(fù)雜,需要有大量場(chǎng)景化的高質(zhì)量數(shù)據(jù)做支撐。
從感知到數(shù)據(jù)標(biāo)注
智能駕駛車輛通過(guò)雷達(dá)、激光雷達(dá)、攝像頭、超聲波等各種傳感器收集數(shù)據(jù),實(shí)時(shí)感知周圍環(huán)境,為實(shí)現(xiàn)行車安全提供最基礎(chǔ)的數(shù)據(jù)。隨著環(huán)境感知、智能決策、控制與執(zhí)行系統(tǒng)等核心技術(shù)的快速發(fā)展與日漸成熟,智能駕駛汽車已經(jīng)開(kāi)始從實(shí)驗(yàn)室走向道路實(shí)地測(cè)試及商業(yè)化落地應(yīng)用。
6月,梅賽德斯-奔馳擊敗特斯拉,L3級(jí)有條件智能駕駛技術(shù)獲得美國(guó)加州機(jī)動(dòng)車輛管理局(DMV)認(rèn)證,成為首個(gè)被授權(quán)在美國(guó)人口最多的州銷售搭載上述系統(tǒng)量產(chǎn)車的車企;接著又宣布將在年內(nèi)培訓(xùn)超過(guò)600名全球數(shù)據(jù)和AI專家。8月,美國(guó)加州公用事業(yè)委員會(huì)(CPUC)批準(zhǔn)Cruise和Waymo在舊金山提供7×24小時(shí)、區(qū)域不限、全無(wú)人、可收費(fèi)服務(wù)。一夜之間,對(duì)Robotaxi的所有限制全面解禁。
作為智能駕駛領(lǐng)頭羊,Waymo L4級(jí)實(shí)際路測(cè)里程已超過(guò)2000萬(wàn)英里(3218.6萬(wàn)公里)。國(guó)內(nèi)智能駕駛同步企業(yè)百度實(shí)際路測(cè)里程也已超過(guò)1000萬(wàn)公里。由此可見(jiàn),智能駕駛技術(shù)不斷突破的一個(gè)關(guān)鍵支撐是背后龐大的數(shù)據(jù)量,更少不了數(shù)據(jù)標(biāo)注的“用心陪伴”。
數(shù)據(jù)標(biāo)注既要質(zhì)量、效率又要顧及成本
基于深度學(xué)習(xí)算法的智能駕駛技術(shù)離不開(kāi)數(shù)據(jù)標(biāo)注和訓(xùn)練。數(shù)據(jù)標(biāo)注的精度決定算法的準(zhǔn)確率,訓(xùn)練的廣度決定算法的適應(yīng)性和魯棒性。路測(cè)數(shù)據(jù)均為非結(jié)構(gòu)化數(shù)據(jù)集,未經(jīng)驗(yàn)證的原始數(shù)據(jù)中存在數(shù)據(jù)重復(fù)、矛盾、錯(cuò)誤、缺乏分類等問(wèn)題,都可能影響算法的訓(xùn)練與調(diào)優(yōu)。
特別是開(kāi)放道路智能駕駛對(duì)感知系統(tǒng)的實(shí)時(shí)性和安全性要求極高,相關(guān)算法的準(zhǔn)確度與場(chǎng)景適配度需要達(dá)到很高的水準(zhǔn),這對(duì)數(shù)據(jù)標(biāo)注的規(guī)模與數(shù)據(jù)產(chǎn)出質(zhì)量提出了更高的要求。
現(xiàn)在,用數(shù)據(jù)閉環(huán)來(lái)提升智能駕駛能力已成為大多數(shù)智能駕駛公司的共識(shí)。不過(guò),現(xiàn)實(shí)中駕駛場(chǎng)景難以窮盡、極其復(fù)雜且不可預(yù)測(cè),這就需要AI模型的快速迭代升級(jí)。
事實(shí)上,智能駕駛的成熟不僅是數(shù)量和效率的問(wèn)題,質(zhì)量和成本也不容忽視。特別是標(biāo)注成本將決定智能駕駛能否早日走進(jìn)人們?nèi)粘I睢?/strong>
有人調(diào)侃說(shuō):“人工智能有多少智能,就有多少人工”,數(shù)據(jù)標(biāo)注也差不多。只有用“智能”替代“人工”,讓標(biāo)注自動(dòng)化,才能提高數(shù)據(jù)標(biāo)注效率,并降低成本。
顯而易見(jiàn),要想提高數(shù)據(jù)標(biāo)注效率,就要有高效的數(shù)據(jù)標(biāo)注工具和平臺(tái),通過(guò)高效的預(yù)標(biāo)注、輔助標(biāo)注等相關(guān)算法,打通數(shù)據(jù)閉環(huán),真正滿足算法側(cè)的需求。
AI大模型無(wú)疑是提升標(biāo)注質(zhì)量和效率、降低成本的一把“金鑰匙”,替代人工標(biāo)注并大幅提升效率,縮減標(biāo)注時(shí)間和成本。
從AI工程化解決方案到大模型
2015年,云測(cè)數(shù)據(jù)總經(jīng)理賈宇航還在美國(guó)舊金山,彼時(shí)街道上已有不少Robotaxi在試驗(yàn)路測(cè),無(wú)人化趨勢(shì)就此展開(kāi)。2017年前后,AI及數(shù)據(jù)行業(yè)機(jī)遇顯現(xiàn),云測(cè)數(shù)據(jù)正式對(duì)外商業(yè)化,希望通過(guò)提供高質(zhì)量數(shù)據(jù)為AI應(yīng)用場(chǎng)景提供支撐,成為場(chǎng)景化數(shù)據(jù)服務(wù)專家,發(fā)力智能駕駛、智慧家居、智慧金融和智慧城市四大領(lǐng)域。
面向智能駕駛,云測(cè)數(shù)據(jù)率先推出了激光雷達(dá)點(diǎn)云標(biāo)注工具,實(shí)現(xiàn)了多模態(tài)3D融合標(biāo)注。一路走來(lái),云測(cè)數(shù)據(jù)一直將場(chǎng)景化、高質(zhì)量數(shù)據(jù)概念貫徹始終。
在AI商業(yè)化落地過(guò)程中,云測(cè)數(shù)據(jù)從研發(fā)、預(yù)研到持續(xù)在線優(yōu)化,推出了智能駕駛數(shù)據(jù)服務(wù)解決方案,利用行業(yè)基礎(chǔ)數(shù)據(jù)集覆蓋預(yù)研階段數(shù)據(jù)需求,以場(chǎng)景化數(shù)據(jù)服務(wù)覆蓋各種傳感器,通過(guò)定點(diǎn)開(kāi)發(fā)和使用閉環(huán)數(shù)據(jù)滿足客戶實(shí)際標(biāo)注需求。在持續(xù)優(yōu)化迭代中,云測(cè)數(shù)據(jù)以數(shù)據(jù)閉環(huán)工具鏈集成為抓手,用數(shù)據(jù)服務(wù)幫助客戶持續(xù)優(yōu)化迭代算法,有效獲取智能駕駛需要的數(shù)據(jù)。
2021年,云測(cè)數(shù)據(jù)推出智能駕駛AI數(shù)據(jù)解決方案1.0,進(jìn)一步彰顯了數(shù)據(jù)閉環(huán)系統(tǒng)集成的重要性。今年,AI高速發(fā)展,BEV Transformer等大模型浮出水面,引入了激光雷達(dá),攝像頭數(shù)量也在增加,需要處理的數(shù)據(jù)維度更多,數(shù)據(jù)量和文件尺寸更大,復(fù)雜性非常高。
此時(shí),云測(cè)數(shù)據(jù)的數(shù)據(jù)閉環(huán)能力、自動(dòng)標(biāo)注能力、數(shù)據(jù)管理工具鏈、人工效能評(píng)估等方面能力也羽翼漸豐。圍繞更擅長(zhǎng)的場(chǎng)景,云測(cè)數(shù)據(jù)對(duì)1.0進(jìn)行了全面升級(jí),通過(guò)系統(tǒng)集成將大模型預(yù)標(biāo)注能力與人工標(biāo)注完美結(jié)合,提升了數(shù)據(jù)集和場(chǎng)景化數(shù)據(jù)服務(wù)能力,尤其是全面提升了數(shù)據(jù)標(biāo)注、流轉(zhuǎn)效率。
事實(shí)上,目前國(guó)內(nèi)有100多家公司推出了大模型,呈現(xiàn)一種“亂戰(zhàn)”局面。一些入局大模型的公司也在加快布局?jǐn)?shù)據(jù)標(biāo)注團(tuán)隊(duì),打造全鏈條AI服務(wù)商。作為第三方數(shù)據(jù)服務(wù)公司的云測(cè)數(shù)據(jù)又有何優(yōu)勢(shì)可言呢?
賈宇航自信地表示:“獨(dú)立的第三方數(shù)據(jù)標(biāo)注服務(wù)公司態(tài)度中立,以領(lǐng)域劃分推動(dòng)行業(yè)發(fā)展,而不是基于某個(gè)企業(yè)的某種應(yīng)用;憑借對(duì)前沿趨勢(shì)的研判,數(shù)據(jù)標(biāo)注布局方面投入也更大?!?/strong>
AI領(lǐng)域研發(fā)包括很多內(nèi)容,從算法、框架、算力或傳感器到數(shù)據(jù)標(biāo)注。這么多排列組合帶來(lái)了一個(gè)痛點(diǎn),因?yàn)闃?biāo)準(zhǔn)不同,每個(gè)to B或研發(fā)企業(yè)都會(huì)遇到大量遷移的問(wèn)題。只有硬件標(biāo)準(zhǔn)、算法框架和數(shù)據(jù)標(biāo)注規(guī)則統(tǒng)一,才有助于企業(yè)充分積累經(jīng)驗(yàn)。現(xiàn)在,大家對(duì)數(shù)據(jù)標(biāo)注標(biāo)準(zhǔn)中的標(biāo)注流程、方法和正確率很少提及。為此,云測(cè)數(shù)據(jù)正在與行業(yè)協(xié)會(huì)和許多車企推進(jìn)行業(yè)標(biāo)準(zhǔn)的制定。
他說(shuō):“AI技術(shù)正處于規(guī)?;逃秒A段,標(biāo)準(zhǔn)不統(tǒng)一會(huì)影響行業(yè)發(fā)展。只有標(biāo)準(zhǔn)化的東西越來(lái)越多,定制化的內(nèi)容才能越來(lái)越少;才能挖掘一個(gè)企業(yè)真正的實(shí)力,讓時(shí)間產(chǎn)生‘復(fù)利’?!?/strong>
數(shù)據(jù)服務(wù)直面挑戰(zhàn)和機(jī)遇
在智能駕駛快速發(fā)展和應(yīng)用落地進(jìn)程中,AI數(shù)據(jù)服務(wù)面臨著怎樣的挑戰(zhàn)?在賈宇航看來(lái),隨著技術(shù)的不斷發(fā)展,AI數(shù)據(jù)的高要求既是挑戰(zhàn)更是機(jī)遇。如:自動(dòng)駕駛中所面臨場(chǎng)景是開(kāi)放道路,需要的數(shù)據(jù)是海量的;針對(duì)不同場(chǎng)景的Corner case如何識(shí)別和判斷,從而保障覆蓋更多場(chǎng)景下的數(shù)據(jù)質(zhì)量;以及通過(guò)數(shù)據(jù)閉環(huán)體系,提升數(shù)據(jù)處理、流轉(zhuǎn)效率,加速推動(dòng)算法研發(fā)發(fā)展等等。
回顧過(guò)去,在數(shù)據(jù)標(biāo)注質(zhì)量方面,現(xiàn)階段數(shù)據(jù)標(biāo)注處理難度與幾年前比有本質(zhì)的區(qū)別,需要結(jié)合3D點(diǎn)云加圖像及時(shí)序在3D空間進(jìn)行3D框標(biāo)注可行駛區(qū)域。有鑒于此,如何確保數(shù)據(jù)標(biāo)注的質(zhì)量和準(zhǔn)確性,考驗(yàn)的是數(shù)據(jù)公司的服務(wù)經(jīng)驗(yàn)、標(biāo)注員的能力及工具鏈的支撐。
時(shí)效性要求也是車企的剛性需求,數(shù)據(jù)服務(wù)公司需要通過(guò)工具鏈、服務(wù)解決方案的持續(xù)迭代和人員培養(yǎng)來(lái)適應(yīng)新的需求。
從車企角度看,產(chǎn)品研發(fā)要經(jīng)歷預(yù)研、研發(fā)和持續(xù)迭代期。預(yù)研階段主要是利用行業(yè)基礎(chǔ)數(shù)據(jù)集,如特定目標(biāo)檢測(cè)或可行駛區(qū)域、智能駕艙的人臉、姿態(tài)等;研發(fā)階段是將證明可行的方案放在特定車型上完成傳感器定點(diǎn)和算法驗(yàn)證。之后,需要用專門的傳感器完成數(shù)據(jù)采集、清洗和標(biāo)注。在這個(gè)過(guò)程中,云測(cè)數(shù)據(jù)主要承擔(dān)訓(xùn)練數(shù)據(jù)全生命周期的AI數(shù)據(jù)處理工作。
進(jìn)入持續(xù)迭代階段,車企要在灰度發(fā)布和實(shí)際投產(chǎn)中搭建自己的數(shù)據(jù)閉環(huán),將不同的bad case持續(xù)回流到系統(tǒng)中,然后進(jìn)行數(shù)據(jù)清洗和人工標(biāo)注。在這個(gè)階段,云測(cè)數(shù)據(jù)可以提供系統(tǒng)集成、數(shù)據(jù)處理平臺(tái)工具能力,以持續(xù)優(yōu)化并迭代算法。
升級(jí)賦能 彰顯效率、質(zhì)量和成本優(yōu)勢(shì)
2021年云測(cè)數(shù)據(jù)發(fā)布的智能駕駛數(shù)據(jù)解決方案1.0基于產(chǎn)品、服務(wù)、工具三駕馬車,以時(shí)間延續(xù)為主線一站式滿足了智能駕駛研發(fā)初期到落地的數(shù)據(jù)訓(xùn)練需求。在智能駕駛規(guī)?;慨a(chǎn)階段,其中很多技術(shù)已經(jīng)商用,數(shù)據(jù)閉環(huán)系統(tǒng)已在搭建和完善中。
云測(cè)數(shù)據(jù)智能駕駛數(shù)據(jù)解決方案2.0以系統(tǒng)集成能力為核心,創(chuàng)建了新一代AI工程化數(shù)據(jù)處理工作臺(tái),在質(zhì)量、效率和成本等方面具有明顯的優(yōu)勢(shì)。
2.0集成了不同模型的預(yù)標(biāo)注能力,包括圖像整幀、自選物體、區(qū)域、點(diǎn)云批次識(shí)別和文本識(shí)別等,重新定義了基于預(yù)標(biāo)注的人工標(biāo)注效能,如能效看板、綜合看版等。
針對(duì)特定算法類型的數(shù)據(jù)持續(xù)優(yōu)化迭代,涵蓋點(diǎn)云4D疊幀、語(yǔ)義分割聯(lián)合標(biāo)注和智能ID軌跡預(yù)測(cè)。數(shù)據(jù)集也更加豐富,納入了更多場(chǎng)景數(shù)據(jù),標(biāo)注方法也從原來(lái)以點(diǎn)線面體為主進(jìn)化到融合4D標(biāo)注規(guī)則和標(biāo)注工藝。在服務(wù)方面,數(shù)據(jù)標(biāo)注精度、反饋給企業(yè)的時(shí)效性有了大幅提升。
在數(shù)據(jù)標(biāo)注效率方面,與人工標(biāo)注相比,BEV空間標(biāo)注效率約提升1.5倍以上。例如,人工標(biāo)注3D點(diǎn)云拉框需要先選擇屬性,再選擇車頭朝向?,F(xiàn)在,人工只需大致框選一個(gè)區(qū)域,就完成了自動(dòng)貼合,基于一些特定標(biāo)簽類別就能實(shí)現(xiàn)自動(dòng)選擇。其效率比人工拉框至少快了1.5倍到兩倍。又如4D標(biāo)注地面箭頭,原來(lái)需要每幀標(biāo)注,現(xiàn)在基于4D標(biāo)注加空間坐標(biāo),只要標(biāo)注對(duì)應(yīng)一幀,通過(guò)映射即可將30幀結(jié)果疊在一起,完成多傳感器融合4D標(biāo)注,效率更高。
至于2.0為什么要支持人工和自動(dòng)標(biāo)注交互,賈宇航解釋說(shuō),現(xiàn)在算法還不很完善,還需要人工標(biāo)注。區(qū)域內(nèi)算法識(shí)別相對(duì)精準(zhǔn),而區(qū)域框線邊界還需要人工微調(diào)個(gè)幾像素?,F(xiàn)在,人工標(biāo)注的應(yīng)用主要是算法完全沒(méi)見(jiàn)過(guò)的一些場(chǎng)景,或更換傳感器時(shí)算法不能很好識(shí)別的情況。而當(dāng)算法逐漸具備了更強(qiáng)能力,就可以實(shí)現(xiàn)自動(dòng)標(biāo)注,但這個(gè)自動(dòng)標(biāo)注結(jié)果還不足以用于算法訓(xùn)練,還需要人工進(jìn)行一些校驗(yàn),以確保識(shí)別結(jié)果的準(zhǔn)確性。
從趨勢(shì)看,伴隨自動(dòng)標(biāo)注能力提升,標(biāo)注將逐步從手工衍化為算法自動(dòng)標(biāo)注、人工校驗(yàn)和人工標(biāo)注。隨著算法的實(shí)際量產(chǎn),數(shù)據(jù)閉環(huán)能力增強(qiáng),整體標(biāo)注數(shù)據(jù)量和手工數(shù)據(jù)標(biāo)注量依然在逐年上升。以往是百分之百人工標(biāo)注,現(xiàn)在是人工標(biāo)注、自動(dòng)標(biāo)注、人工校驗(yàn)各有一定占比。未來(lái)可能自動(dòng)標(biāo)注占比會(huì)越來(lái)越大。不過(guò),雖然人工標(biāo)注的占比在減小,但伴隨人工智能行業(yè)的逐步發(fā)展數(shù)據(jù)量日漸增加,人工標(biāo)注的量仍會(huì)持續(xù)增加。
賈宇航說(shuō):“2.0和1.0相比,在保證數(shù)據(jù)標(biāo)注質(zhì)量的前提下,最重要的是在效率提升的同時(shí)依然保持了高質(zhì)量的輸出,AI數(shù)據(jù)訓(xùn)練過(guò)程綜合效率提升200%。”之前3D點(diǎn)云標(biāo)注對(duì)工具鏈的性能要求就很高,持續(xù)優(yōu)化和提升的4D標(biāo)注性能可確保BEV標(biāo)注有足夠的性能和效率提升。效率的提升主要體現(xiàn)在改變了原來(lái)的異步操作,如數(shù)據(jù)傳到工具,標(biāo)注后導(dǎo)出結(jié)果,再遷移到企業(yè)服務(wù)器上進(jìn)行訓(xùn)練。現(xiàn)在,完全通過(guò)API流程接口實(shí)時(shí)流轉(zhuǎn),效率更高。
2.0在支持了更多智能駕駛標(biāo)注類型,如現(xiàn)在諸多企業(yè)基于BEV+Transformer算法研發(fā),對(duì)BEV視角環(huán)視拼接加點(diǎn)云融標(biāo)注成為了主流。支持特定類型也使云測(cè)數(shù)據(jù)能更快速響應(yīng)客戶數(shù)據(jù)標(biāo)注需求。
技術(shù)迭代將使智能駕駛數(shù)據(jù)數(shù)據(jù)應(yīng)用呈現(xiàn)多元化。在成本方面,通過(guò)對(duì)線上回流數(shù)據(jù)進(jìn)行標(biāo)注,不斷迭代模型,數(shù)據(jù)將越用越智能;將標(biāo)注數(shù)據(jù)流轉(zhuǎn)至仿真平臺(tái)用于評(píng)測(cè),往復(fù)使用可高效利用數(shù)據(jù)價(jià)值;人工檢查糾正算法結(jié)果,輸出業(yè)務(wù)信息閉環(huán),可以通過(guò)人機(jī)交互實(shí)現(xiàn)降本增效。
利用數(shù)據(jù)服務(wù) 推進(jìn)智能駕駛商用落地
綜上所述,針對(duì)當(dāng)下智能駕駛應(yīng)用場(chǎng)景更加豐富、數(shù)據(jù)閉環(huán)已成為智能駕駛量產(chǎn)落地核心飛輪的發(fā)展趨勢(shì),云測(cè)數(shù)據(jù)以集成數(shù)據(jù)底座為核心,全面升級(jí)了數(shù)據(jù)標(biāo)注及數(shù)據(jù)管理工具鏈;還結(jié)合數(shù)據(jù)應(yīng)用開(kāi)發(fā)基于數(shù)據(jù)流轉(zhuǎn)的數(shù)據(jù)應(yīng)用接口,從數(shù)據(jù)維度支持客當(dāng)前主流模型開(kāi)發(fā)所需任務(wù)類型;人工標(biāo)注與自動(dòng)標(biāo)注算法的交互能力升級(jí),全面提升了數(shù)據(jù)標(biāo)注效率。
與此同時(shí),云測(cè)數(shù)據(jù)還在參編行業(yè)標(biāo)準(zhǔn),與國(guó)內(nèi)外主流車企、Tier1、頭部激光雷達(dá)和算力芯片公司以及一些Robotaxi公司精誠(chéng)合作,利用數(shù)據(jù)服務(wù)幫助客戶提效提質(zhì)。
數(shù)據(jù)標(biāo)注恰似沙里淘金,難度之大可想而知,既要堅(jiān)持,又要有獨(dú)門絕技。賈宇航表示,云測(cè)數(shù)據(jù)將圍繞智能駕駛領(lǐng)域,結(jié)合企業(yè)算法研發(fā)優(yōu)勢(shì)持續(xù)迭代產(chǎn)品,同時(shí)不斷提升人員標(biāo)注能力,從數(shù)據(jù)維度支持客戶大模型應(yīng)用;在人工智能數(shù)據(jù)服務(wù)方面,將推出面向垂直行業(yè)大模型產(chǎn)業(yè)化部署數(shù)據(jù)解決方案。未來(lái),云測(cè)數(shù)據(jù)將立足企業(yè)的長(zhǎng)久發(fā)展,釋放企業(yè)創(chuàng)新力量,全方位推進(jìn)智能駕駛的商用落地進(jìn)程。