• 正文
  • 相關(guān)推薦
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

Waymo幡然悔悟,做自動(dòng)駕駛必須自研芯片

2022/08/11
1252
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

Waymo早在2008年就開(kāi)始投入自動(dòng)駕駛,當(dāng)時(shí)還屬于谷歌X事業(yè)部,不過(guò)14年過(guò)去,Waymo幾乎一事無(wú)成,聲音也越來(lái)越小,根本的原因就是Waymo對(duì)軟件算法過(guò)分重視,忽視了硬件平臺(tái)。這幾年英偉達(dá)、高通自動(dòng)駕駛芯片的崛起與Waymo的沒(méi)落形成鮮明對(duì)比。自動(dòng)駕駛的軟件和硬件是硬幣的兩面,無(wú)法分割,整套解決方案必然包括軟件和硬件。單獨(dú)提供軟件或硬件都沒(méi)有出路,因?yàn)樽詣?dòng)駕駛軟硬件配合度要求太高,很難移植。這主要是深度學(xué)習(xí)算法模型與硬件高度捆綁,兩者不匹配很容易導(dǎo)致效率低下,硬件的利用率低到10%以下是經(jīng)常遇到的。

Waymo早期是采用英特爾芯片做計(jì)算平臺(tái)的,主要是基于服務(wù)器CPU至強(qiáng)和FPGA加速卡。

圖片來(lái)源:互聯(lián)網(wǎng)

Waymo計(jì)算平臺(tái),其中以太網(wǎng)交換機(jī)應(yīng)該也是用FPGA搭建的,因?yàn)檫@么高帶寬的以太網(wǎng)交換機(jī)現(xiàn)在還沒(méi)有量產(chǎn),幾年前更不可能有了。只有FPGA能做到如此高的帶寬,代價(jià)是價(jià)格很高,至少在1000美元以上。還有兩個(gè)至強(qiáng)CPU之間應(yīng)該還需要PCIe交換機(jī)。

FPGA可能是Arria 10 1150GX,目前售價(jià)大約2000美元,2013年時(shí)可能要4000美元以上。Altera的FPGA共有四大系列,分別是頂配的Stratix系列、成本與性能平衡的Arria系列、廉價(jià)的Cyclone系列、帶NVM的MAX系列。Stratix系列多在近萬(wàn)美元以上,Arria系列大約在2000-5000美元之間,Cyclone系列多在10-20美元之間。Arria系列再細(xì)分10、V、II、GX四個(gè)系列,10系列為最新產(chǎn)品,于2013年推出,采用20納米工藝,GX為第一代產(chǎn)品,2007年推出,采用90納米工藝,II系列為2009年產(chǎn)品,采用40納米工藝,V系列為2011年產(chǎn)品,采用28納米工藝。10系列再分為帶ARM內(nèi)核和不帶ARM內(nèi)核兩大類(lèi)。ARM內(nèi)核為雙A9內(nèi)核。

1150GX擁有標(biāo)準(zhǔn)FPGA的1150K個(gè)邏輯元素外,還擁有1518個(gè)硬核單精度浮點(diǎn)運(yùn)算乘法器/加法器,3036個(gè)18*19乘法器。最終能夠獲得3340GMACS(等于每秒百萬(wàn)次的定點(diǎn)乘累加運(yùn)算),還有1366 GFLOPS的浮點(diǎn)運(yùn)算能力。AI算力最高是26TOPS@Int8。在2013年這個(gè)算力可以算是非常驚人的,價(jià)格當(dāng)然也很驚人。

FPGA是效率最高的運(yùn)算單元,F(xiàn)PGA之所以比CPU甚至GPU能效高,本質(zhì)上是無(wú)指令、無(wú)需共享內(nèi)存的體系結(jié)構(gòu)帶來(lái)的福利。馮氏結(jié)構(gòu)中,由于執(zhí)行單元(如CPU核)可能執(zhí)行任意指令,就需要有指令存儲(chǔ)器、譯碼器、各種指令的運(yùn)算器、分支跳轉(zhuǎn)處理邏輯。由于指令流的控制邏輯復(fù)雜,不可能有太多條獨(dú)立的指令流,因此GPU使用SIMD(單指令流多數(shù)據(jù)流)來(lái)讓多個(gè)執(zhí)行單元以同樣的步調(diào)處理不同的數(shù)據(jù),CPU也支持SIMD指令。而FPGA每個(gè)邏輯單元的功能在重編程(燒寫(xiě))時(shí)就已經(jīng)確定,不需要指令。

FPGA中的寄存器和片上內(nèi)存(BRAM)是屬于各自的控制邏輯的,無(wú)需不必要的仲裁和緩存。對(duì)于通信的需求,F(xiàn)PGA每個(gè)邏輯單元與周?chē)壿媶卧倪B接在重編程(燒寫(xiě))時(shí)就已經(jīng)確定,并不需要通過(guò)共享內(nèi)存來(lái)通信。FPGA實(shí)際就像是一片SRAM,它沒(méi)有AI芯片難以克服的內(nèi)存墻問(wèn)題,有點(diǎn)像存內(nèi)計(jì)算,但要比存內(nèi)計(jì)算規(guī)模大太多了。FPGA的硬件利用率可輕松做到80%以上,因此FPGA的頻率都比較低。

但FPGA的布線沒(méi)有優(yōu)化,有大面積的硅片資源閑置,浪費(fèi)了,這導(dǎo)致其成本飛速上升,小規(guī)模的FPGA價(jià)格很低,一旦越過(guò)30-50萬(wàn)邏輯單元,價(jià)格直線飛升。

Waymo的計(jì)算平臺(tái)單芯片成本就已超過(guò)4000美元,并且都是非車(chē)規(guī)的,顯然這無(wú)法量產(chǎn)。2019年以后,Waymo的聲音就慢慢沉寂,而軟硬一體的高通和英偉達(dá)發(fā)展越來(lái)越順利。

眼看英偉達(dá)和高通一飛沖天,Waymo也幡然悔悟,2021年就開(kāi)始籌劃與三星推出自動(dòng)駕駛芯片,正式推出可能在2023年底。和英偉達(dá)、高通相比,Waymo的劣勢(shì)在于英偉達(dá)和高通都是芯片巨頭,兩者出貨量巨大,特別是高通,能夠大幅度降低芯片成本。Waymo訂制芯片,出貨量必然是很低的,谷歌的TPU用在數(shù)據(jù)中心,成本敏感度不高,但汽車(chē)不行。同時(shí)谷歌的TPU出貨量相對(duì)自動(dòng)駕駛汽車(chē)還是不低的。

要做到商業(yè)化,成本是必須考慮的。Waymo找到了三星做合作伙伴,三星每年手機(jī)CPU芯片上億,足以和高通抗衡,足以攤薄成本。三星與谷歌合作是從谷歌第一代手機(jī)芯片Tensor開(kāi)始。高通的Snapdragon Ride平臺(tái)目前是SA8540p+SA9000。SA8540p近似于高通手機(jī)5納米芯片888,只不過(guò)SA8540p可能采用4大核4小核的設(shè)計(jì),即4個(gè)Cortex-X1加4個(gè)A78。去掉了強(qiáng)調(diào)A55小核。高通以此還衍生出針對(duì)筆記本電腦的8cx gen3,與SA8540p非常近似,但去掉了5G modem。

能做手機(jī)SoC,就能做自動(dòng)駕駛芯片,三星、蘋(píng)果、聯(lián)發(fā)科都可以。

圖片來(lái)源:互聯(lián)網(wǎng)

谷歌第一代Tensor芯片,用于谷歌Pixel 6系列手機(jī)上,實(shí)際就是基于三星Exynos 2100的修改版。

第一代Tensor與三星Exynos 2100對(duì)比

圖片來(lái)源:互聯(lián)網(wǎng)

在NPU方面,Exynos 2100是壓倒性?xún)?yōu)勢(shì)的26TOPS,谷歌是5.7TOPS。不過(guò)在實(shí)際測(cè)試中,Exynos 2100優(yōu)勢(shì)不明顯。

圖片來(lái)源:互聯(lián)網(wǎng)

驍龍888、谷歌Tensor與Exynos 2100的NNAPI神經(jīng)網(wǎng)絡(luò)測(cè)試跑分,谷歌Tensor優(yōu)勢(shì)明顯。

NLP自然語(yǔ)言處理方面,谷歌Tensor優(yōu)勢(shì)非常明顯。

圖片來(lái)源:互聯(lián)網(wǎng)

離線圖像分類(lèi)跑分測(cè)試,Tensor差距也不算大。

圖片來(lái)源:互聯(lián)網(wǎng)

Waymo的自動(dòng)駕駛芯片不大可能基于第一代Tensor,因?yàn)榈诙鶷ensor已于2022年7月底量產(chǎn)了。Waymo的自動(dòng)駕駛芯片很有可能基于第二代Tensor,目前未有基于第二代Tensor的消息,但很顯然,三星不會(huì)給谷歌做太多工作,應(yīng)該就是Exynos 2200的修改版,畢竟第一代Tensor的具體型號(hào)就是Samsung Exynos Tensor GS101,從型號(hào)就能看出,這是Exynos2100的修改版。

圖片來(lái)源:互聯(lián)網(wǎng)

Waymo的自動(dòng)駕駛芯片芯片應(yīng)該會(huì)基于三星4納米工藝。超大核應(yīng)該還是兩個(gè)Cortex-x2,而不是Exynos的1個(gè)。兩個(gè)Cortex-710的中核,四個(gè)A510的小核。GPU方面估計(jì)也是基于AMD RNDA2代的GPU,足以和高通的Adreno 730一爭(zhēng)高下。

CPU和GPU沒(méi)有太多操作空間,NPU應(yīng)該是谷歌擅長(zhǎng)的。

谷歌歷代TPU對(duì)比

圖片來(lái)源:互聯(lián)網(wǎng)

谷歌從2016年推出第一代TPU,2021年推出第四代,第四代TPU的算力沒(méi)有公開(kāi)數(shù)據(jù),只說(shuō)比第三代的兩倍。第三代TPU的算力是360TOPS@Int8,那么第四代應(yīng)該是720TOPS@Int8。不過(guò)TPU是針對(duì)數(shù)據(jù)中心的。針對(duì)邊緣計(jì)算,谷歌還有TPU EDGE,價(jià)格非常低廉,應(yīng)該不超過(guò)10美元。

谷歌沒(méi)有公布TPU V4的算力,但給出了下表,用在各種算法模型上的消耗時(shí)間,完全可以超越頂級(jí)英偉達(dá)系統(tǒng)。

備注:這是在2021年中期測(cè)試的數(shù)據(jù)。

圖片來(lái)源:互聯(lián)網(wǎng)

Waymo的策略應(yīng)該與高通一樣,也是一片SoC加一片加速器。SoC基于二代Tensor也就是基于三星Exynos 2200,其內(nèi)部的NPU算力至少能到30TOPS。加速器應(yīng)該基于4代TPU或5代TPU做修改而來(lái),算力估計(jì)360TOPS。這樣一來(lái),成本大大降低,應(yīng)該不高于英偉達(dá)系統(tǒng)的成本。此外4代或5代TPU都應(yīng)該委托三星而非臺(tái)積電代工,臺(tái)積電代工當(dāng)然更好,但價(jià)格會(huì)遠(yuǎn)高于三星,且谷歌的訂單數(shù)量太少,在產(chǎn)能緊張大客戶(hù)云集的臺(tái)積電那里肯定要排隊(duì)等待,因此谷歌一直選弱勢(shì)的三星做合作伙伴。

自谷歌開(kāi)始搞自動(dòng)駕駛以來(lái),其定位就比較模糊,戰(zhàn)略經(jīng)常變化,最初似乎是想提供全套軟件解決方案,然后是自己制造無(wú)人駕駛小車(chē),再后是做無(wú)人出租車(chē)運(yùn)營(yíng),現(xiàn)在似乎是回歸最初,提供包括硬件計(jì)算平臺(tái)在內(nèi)的全套解決方案。主要是自動(dòng)駕駛算法的門(mén)檻極低,單獨(dú)的算法沒(méi)多少價(jià)值,自動(dòng)駕駛軟件里最有價(jià)值的應(yīng)該是經(jīng)過(guò)人工標(biāo)注的數(shù)據(jù)集,這沒(méi)什么技術(shù)含量,完全靠人力和資金。如今Waymo試圖和英偉達(dá)或高通競(jìng)爭(zhēng),顯然已經(jīng)晚了,Waymo的最終結(jié)局想必大家都已經(jīng)能預(yù)測(cè)到。

Waymo

Waymo

Waycom,第一家替代電信運(yùn)營(yíng)商IDF中的云,新阿基坦。電信、主機(jī)和信息管理器。100%云電話(huà)。

Waycom,第一家替代電信運(yùn)營(yíng)商IDF中的云,新阿基坦。電信、主機(jī)和信息管理器。100%云電話(huà)。收起

查看更多

相關(guān)推薦

登錄即可解鎖
  • 海量技術(shù)文章
  • 設(shè)計(jì)資源下載
  • 產(chǎn)業(yè)鏈客戶(hù)資源
  • 寫(xiě)文章/發(fā)需求
立即登錄

佐思汽車(chē)研究:致力于汽車(chē)、TMT、新能源(特別是新能源汽車(chē)、智能汽車(chē)、車(chē)聯(lián)網(wǎng))領(lǐng)域的產(chǎn)業(yè)研究、專(zhuān)項(xiàng)調(diào)研、戰(zhàn)略規(guī)劃和投資咨詢(xún)服務(wù)。