• 正文
  • 推薦器件
  • 相關(guān)推薦
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

蔚來(lái)5納米自動(dòng)駕駛芯片分析

2024/01/02
5860
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

2023年12月23日,NIO DAY上,蔚來(lái)推出了新旗艦車型ET9,同時(shí)也介紹了蔚來(lái)自主研發(fā)的自動(dòng)駕駛芯片神璣NX9031,并宣布2025年ET9將量產(chǎn),搭載這款NX9031。

目前對(duì)于這款芯片,蔚來(lái)僅公布了如上圖中的信息,不過(guò)這已經(jīng)足夠做深度分析了。關(guān)鍵點(diǎn)包括5納米工藝,超過(guò)500億晶體管,使用LPDDR5X存儲(chǔ),32核心CPU配置,且是大小核配置,高動(dòng)態(tài)ISP,位寬26比特,像素處理能力6.5GPixel/s,支持ASIL-D級(jí)安全。

現(xiàn)在芯片行業(yè)是IP時(shí)代,只要舍得花錢,自動(dòng)駕駛SoC需要的IP都可以買得到,蔚來(lái)能做出來(lái)5納米芯片并不令人驚訝。能做5納米芯片代工的只有臺(tái)積電和三星,蔚來(lái)找三星代工的可能性更高,一來(lái)臺(tái)積電代工價(jià)格至少是三星的兩倍,二來(lái)三星的5納米客戶稀缺,車規(guī)級(jí)更是稀缺,臺(tái)積電有大量高通5納米車規(guī)芯片訂單,產(chǎn)能可能還比較緊張,三星僅有安霸一家,產(chǎn)能肯定非常充裕。

智能駕駛芯片排名并不簡(jiǎn)單只看AI算力,存儲(chǔ)帶寬和AI算力數(shù)值一樣重要,CPU算力也很重要,智能駕駛系統(tǒng)軟件異常復(fù)雜,會(huì)消耗大量的CPU運(yùn)算資源,軟件系統(tǒng)包含眾多中間件諸如SOME/IP、自適應(yīng)AUTOSAR、DDS、ROS等,基礎(chǔ)軟件包括訂制的Linux BSP、OS抽象層、虛擬機(jī),還有與底層硬件關(guān)聯(lián)的內(nèi)存管理、各種驅(qū)動(dòng)、各種通訊協(xié)議等等。除此之外,應(yīng)用層中的路徑規(guī)劃、高精度地圖、行為決策等也大量消耗CPU資源,同時(shí)CPU也管理AI運(yùn)算時(shí)的任務(wù)調(diào)度、存儲(chǔ)搬運(yùn)指令等,整體的任務(wù)調(diào)度,決策自然也是CPU的任務(wù)。CPU是絕對(duì)的核心,AI是CPU的附屬功能,只是在做圖像特征提取、分類、BEV變換、矢量地圖映射或空間分布占有時(shí)才用到AI。

排名的權(quán)重依次是AI算力、存儲(chǔ)帶寬、CPU算力、GPU算力、制造工藝。存儲(chǔ)帶寬和AI算力同等權(quán)重,GPU也是錦上添花,大部分車載AI處理部分只能對(duì)應(yīng)INT8位數(shù)據(jù),而GPU可以對(duì)應(yīng)FP32數(shù)據(jù),有些時(shí)候可能有很大作用。實(shí)際AI算力數(shù)字完全是個(gè)黑箱,有些廠家寫的是等效于多少算力,這里面操作空間極大,參考意義不大。最能準(zhǔn)確衡量算力的是MAC陣列數(shù)量,谷歌的TPU V1是65000個(gè)FP16 MAC,運(yùn)行頻率0.7GHz,那么算力就是65000*0.7G*2=91TOPS。特斯拉第一代FSD兩個(gè)NPU,每個(gè)NPU是9216個(gè)INT8 MAC,運(yùn)行頻率是2GHz,算力就是2*2*2G*9216=73.7TOPS。制造工藝方面,自然還是越先進(jìn),功耗越低。

圖片來(lái)源:Synopsys

上圖是SYNOPSYS推出的一款I(lǐng)P,最高支持8個(gè)NPU,達(dá)到3500TOPS的算力,單個(gè)NPU有高達(dá)96000個(gè)MAC,運(yùn)行頻率1.3GHz,2*1.3G*96000=249.6TOPS的算力,這個(gè)顯然是稠密值,如果是稀疏EDSR模式,那么算力會(huì)增加大約76%,即440TOPS。

蔚來(lái)NX9031未公布算力,有人認(rèn)為NX9031是代替4片英偉達(dá)Orin的,算力自然是4*254=1008TOPS。這就大錯(cuò)特錯(cuò)了,4片英偉達(dá)Orin如果是用以太網(wǎng)交換機(jī)連接,那么算力頂多增加20%,4片也就是大約300TOPS。想要算力增加4倍付出的成本遠(yuǎn)超4片Orin。

通過(guò)英偉達(dá)DGX級(jí)聯(lián)8個(gè)GPU的例子來(lái)看看如何級(jí)聯(lián)芯片。

英偉達(dá)DGX系統(tǒng)的示意圖

英偉達(dá)DGX系統(tǒng)有8個(gè)GPU也就是8張顯卡級(jí)聯(lián),首先GPU是無(wú)法單獨(dú)工作的,必須配合CPU才能工作。GPU之間是通過(guò)NVLink連接的,CPU與GPU之間是通過(guò)PCIe交換機(jī)連接的。

圖片來(lái)源:NVIDIA

目前第四代NVLink的帶寬是900GB/s,那么以太網(wǎng)交換機(jī)帶寬是多少?以目前量產(chǎn)最頂級(jí)以太網(wǎng)交換機(jī)88Q5192來(lái)說(shuō),下行端口帶寬一般是1Gb/s,也就是0.125GB/s,與NVLink有天壤之別,即便不看上行或下行,目前主流的以太網(wǎng)交換最高也就1.25GB/s,通常這種帶寬的端口不超過(guò)兩個(gè)。

想要媲美NVLink,讓4個(gè)Orin就是4倍算力,可以考慮博通的Qumran3D的路由交換芯片,它的上行帶寬高達(dá)3200GB/s,也就是25.6Tb/s,價(jià)格驚人,超過(guò)1萬(wàn)美元。不過(guò)Orin芯片最高也只支持1.25GB/s的以太網(wǎng),Qumran3D是無(wú)法使用的。

再來(lái)看存儲(chǔ),蔚來(lái)把LPDDR5X特別點(diǎn)出來(lái),但沒(méi)說(shuō)芯片存儲(chǔ)位寬,也就無(wú)法得知存儲(chǔ)帶寬了。

歷代LPDDR的參數(shù)

圖片來(lái)源:公開(kāi)資料整理

目前業(yè)內(nèi)大多數(shù)是采用LPDDR5或LPDDR4,LPDDR5X畢竟是2021年才有標(biāo)準(zhǔn)的(實(shí)際2020年就有產(chǎn)品了),最高帶寬8533MT/s,不過(guò)比LPDDR5X高的GDDR6已經(jīng)有百度和特斯拉在用了,還有更高的HBM。

蔚來(lái)未給出位寬,估計(jì)位寬是128-256比特,存儲(chǔ)帶寬也就是136-273GB/s。那廠家為何不把位寬做高一點(diǎn),很簡(jiǎn)單,會(huì)增加成本,芯片的成本就是die size,位寬越高,對(duì)應(yīng)的內(nèi)存控制器die size就增加越多,成本就增加越多。

蘋果M3系列芯片

蘋果M3的位寬僅128比特,M3 Pro是192比特,M3 Max是512比特,從上圖不難看出M3 Max的內(nèi)存控制器占的die size遠(yuǎn)比M3和M3 Pro大十幾倍乃至幾十倍以上,也就是存儲(chǔ)位寬的增加會(huì)導(dǎo)致成本暴增,也是大多數(shù)廠家寧肯多放一些cache,也不愿意增加存儲(chǔ)位寬的原因。

2023年初LPDDR進(jìn)一步升級(jí),出現(xiàn)了LPDDR5T,聯(lián)發(fā)科的天璣9300第一個(gè)使用。

接下來(lái)看ISP(Image Signal Processor),早期有不少獨(dú)立的外置ISP芯片,近期大多集成在SoC內(nèi),因?yàn)殡S著AI應(yīng)用的大量出現(xiàn)和像素的飛速增加,外置ISP芯片延遲會(huì)比較明顯。典型的ISP通常會(huì)對(duì)攝像頭輸出的RAW數(shù)據(jù)先做黑電平矯正(BLC)、壞點(diǎn)矯正(DPC)、數(shù)字增益(Dgain)、鏡頭陰影矯正(LSC)等必要處理。然后通過(guò)去馬賽克(DM)插值恢復(fù)出全彩色圖像,在RGB域完成色彩矩陣矯正(CMC)、伽馬矯正(GMA)。最后轉(zhuǎn)到Y(jié)UV域,進(jìn)行銳度(SHP)、對(duì)比度(CON)、顏色飽和度(SAT)等調(diào)整后輸出。在整個(gè)ISP pipeline中間會(huì)插入若干降噪(NR)模塊。

ISP流程

Orin內(nèi)部也是有ISP的,處理像素的速度是1.85Gpixel/s,蔚來(lái)的NX9031達(dá)到了6.5Gpixel/s,是Orin的3倍還多。不過(guò)這不算什么,手機(jī)領(lǐng)域的ISP更高。

聯(lián)發(fā)科天璣9000的ISP

上圖是聯(lián)發(fā)科天璣9000的ISP,高達(dá)9Gpixel/s,高通的一般會(huì)低一點(diǎn)。pixel/s越高意味著對(duì)應(yīng)的攝像頭像素可以越高,基本上1.3Gpixel/s就可對(duì)應(yīng)1億像素?cái)z像頭,但圖像會(huì)有壓縮,完全不壓縮的話,3.2Gpixel/s可以對(duì)應(yīng)1億像素。蔚來(lái)可以對(duì)應(yīng)2億像素。

至于ISP的位寬,很少人提及,天璣9000的位寬是18比特,蔚來(lái)是26比特,高出不少,不過(guò)大部分圖像傳感器的位寬也只有10或12比特。位寬主要是ADC的動(dòng)態(tài)范圍決定,以索尼IMX490為例,當(dāng)ADC是10比特時(shí),幀率40fps,12比特時(shí),幀率30fps。ISP的位寬越高意味著幀率可以越高。

最后來(lái)看CPU,CPU被蔚來(lái)重點(diǎn)標(biāo)明,高達(dá)615kDMIPS的算力的確是無(wú)敵的。Orin的CPU算力是228kDMIPS,Orin是用了12個(gè)ARM Cortex-A78AE核心,ARM目前為汽車行業(yè)設(shè)計(jì)的大核心只有Cortex-A78AE,蔚來(lái)極有可能也是用Cortex-A78AE,Orin的L2緩存是3MB,L3緩存是6MB,運(yùn)行頻率是2.0-2.2GHz之間,也就是每個(gè)核心貢獻(xiàn)19kDMIPS的算力。蔚來(lái)是5納米工藝,運(yùn)行頻率和緩存都可以更高一點(diǎn),估計(jì)最高可以達(dá)到每核心24kDMIPS的算力,估計(jì)大核心是20個(gè),小核心還是常見(jiàn)的Cortex-A55,有12個(gè)。合起來(lái)算力就是615kDMIPS。

至于ASIL-D級(jí)功能安全,添加一個(gè)MCU核心島即可,一般是2到4個(gè)Cortex-R52做鎖步,高通SA8255、SA8755就是這種設(shè)計(jì)。

蔚來(lái)第一次做芯片就達(dá)到全球第三的水平,難能可貴。

免責(zé)說(shuō)明:本文觀點(diǎn)和數(shù)據(jù)僅供參考,和實(shí)際情況可能存在偏差。本文不構(gòu)成投資建議,文中所有觀點(diǎn)、數(shù)據(jù)僅代表筆者立場(chǎng),不具有任何指導(dǎo)、投資和決策意見(jiàn)。

推薦器件

更多器件
器件型號(hào) 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊(cè) ECAD模型 風(fēng)險(xiǎn)等級(jí) 參考價(jià)格 更多信息
MPU-9250 1 InvenSense Inc Analog Circuit, 1 Func, QFN-24
$10.86 查看
EM4095HMSO16B+ 1 EM Microelectronic-Marin SA Analog Circuit, 1 Func, CMOS, PDSO16, ROHS COMPLIANT, PLASTIC, SOIC-16
$5.15 查看
A3981KLPTR-T 1 Allegro MicroSystems LLC Stepper Motor Controller, PDSO28, 9.70 X 4.40 MM, 1.20 MM HEIGHT, LEAD FREE, MO-153AET, TSSOP-28

ECAD模型

下載ECAD模型
$3.2 查看
蔚來(lái)汽車

蔚來(lái)汽車

蔚來(lái)是一家全球化的智能電動(dòng)汽車公司,于2014年11月成立。蔚來(lái)致力于通過(guò)提供高性能的智能電動(dòng)汽車與極致用戶體驗(yàn),為用戶創(chuàng)造愉悅的生活方式。

蔚來(lái)是一家全球化的智能電動(dòng)汽車公司,于2014年11月成立。蔚來(lái)致力于通過(guò)提供高性能的智能電動(dòng)汽車與極致用戶體驗(yàn),為用戶創(chuàng)造愉悅的生活方式。收起

查看更多

相關(guān)推薦

登錄即可解鎖
  • 海量技術(shù)文章
  • 設(shè)計(jì)資源下載
  • 產(chǎn)業(yè)鏈客戶資源
  • 寫文章/發(fā)需求
立即登錄