久久久久夜,一级视频在线观看完整版

2023年12月23日，NIO DAY上，蔚來(lái)推出了新旗艦車型ET9，同時(shí)也介紹了蔚來(lái)自主研發(fā)的自動(dòng)駕駛芯片神璣NX9031，并宣布2025年ET9將量產(chǎn)，搭載這款NX9031。

目前對(duì)于這款芯片，蔚來(lái)僅公布了如上圖中的信息，不過(guò)這已經(jīng)足夠做深度分析了。關(guān)鍵點(diǎn)包括5納米工藝，超過(guò)500億晶體管，使用LPDDR5X存儲(chǔ)，32核心CPU配置，且是大小核配置，高動(dòng)態(tài)ISP，位寬26比特，像素處理能力6.5GPixel/s，支持ASIL-D級(jí)安全。

現(xiàn)在芯片行業(yè)是IP時(shí)代，只要舍得花錢，自動(dòng)駕駛SoC需要的IP都可以買得到，蔚來(lái)能做出來(lái)5納米芯片并不令人驚訝。能做5納米芯片代工的只有臺(tái)積電和三星，蔚來(lái)找三星代工的可能性更高，一來(lái)臺(tái)積電代工價(jià)格至少是三星的兩倍，二來(lái)三星的5納米客戶稀缺，車規(guī)級(jí)更是稀缺，臺(tái)積電有大量高通5納米車規(guī)芯片訂單，產(chǎn)能可能還比較緊張，三星僅有安霸一家，產(chǎn)能肯定非常充裕。

智能駕駛芯片排名并不簡(jiǎn)單只看AI算力，存儲(chǔ)帶寬和AI算力數(shù)值一樣重要，CPU算力也很重要，智能駕駛系統(tǒng)軟件異常復(fù)雜，會(huì)消耗大量的CPU運(yùn)算資源，軟件系統(tǒng)包含眾多中間件諸如SOME/IP、自適應(yīng)AUTOSAR、DDS、ROS等，基礎(chǔ)軟件包括訂制的Linux BSP、OS抽象層、虛擬機(jī)，還有與底層硬件關(guān)聯(lián)的內(nèi)存管理、各種驅(qū)動(dòng)、各種通訊協(xié)議等等。除此之外，應(yīng)用層中的路徑規(guī)劃、高精度地圖、行為決策等也大量消耗CPU資源，同時(shí)CPU也管理AI運(yùn)算時(shí)的任務(wù)調(diào)度、存儲(chǔ)搬運(yùn)指令等，整體的任務(wù)調(diào)度，決策自然也是CPU的任務(wù)。CPU是絕對(duì)的核心，AI是CPU的附屬功能，只是在做圖像特征提取、分類、BEV變換、矢量地圖映射或空間分布占有時(shí)才用到AI。

排名的權(quán)重依次是AI算力、存儲(chǔ)帶寬、CPU算力、GPU算力、制造工藝。存儲(chǔ)帶寬和AI算力同等權(quán)重，GPU也是錦上添花，大部分車載AI處理部分只能對(duì)應(yīng)INT8位數(shù)據(jù)，而GPU可以對(duì)應(yīng)FP32數(shù)據(jù)，有些時(shí)候可能有很大作用。實(shí)際AI算力數(shù)字完全是個(gè)黑箱，有些廠家寫的是等效于多少算力，這里面操作空間極大，參考意義不大。最能準(zhǔn)確衡量算力的是MAC陣列數(shù)量，谷歌的TPU V1是65000個(gè)FP16 MAC，運(yùn)行頻率0.7GHz，那么算力就是65000*0.7G*2=91TOPS。特斯拉第一代FSD兩個(gè)NPU，每個(gè)NPU是9216個(gè)INT8 MAC，運(yùn)行頻率是2GHz，算力就是2*2*2G*9216=73.7TOPS。制造工藝方面，自然還是越先進(jìn)，功耗越低。

圖片來(lái)源：Synopsys

上圖是SYNOPSYS推出的一款I(lǐng)P，最高支持8個(gè)NPU，達(dá)到3500TOPS的算力，單個(gè)NPU有高達(dá)96000個(gè)MAC，運(yùn)行頻率1.3GHz，2*1.3G*96000=249.6TOPS的算力，這個(gè)顯然是稠密值，如果是稀疏EDSR模式，那么算力會(huì)增加大約76%，即440TOPS。

蔚來(lái)NX9031未公布算力，有人認(rèn)為NX9031是代替4片英偉達(dá)Orin的，算力自然是4*254=1008TOPS。這就大錯(cuò)特錯(cuò)了，4片英偉達(dá)Orin如果是用以太網(wǎng)交換機(jī)連接，那么算力頂多增加20%，4片也就是大約300TOPS。想要算力增加4倍付出的成本遠(yuǎn)超4片Orin。

通過(guò)英偉達(dá)DGX級(jí)聯(lián)8個(gè)GPU的例子來(lái)看看如何級(jí)聯(lián)芯片。

英偉達(dá)DGX系統(tǒng)的示意圖

英偉達(dá)DGX系統(tǒng)有8個(gè)GPU也就是8張顯卡級(jí)聯(lián)，首先GPU是無(wú)法單獨(dú)工作的，必須配合CPU才能工作。GPU之間是通過(guò)NVLink連接的，CPU與GPU之間是通過(guò)PCIe交換機(jī)連接的。

圖片來(lái)源：NVIDIA

目前第四代NVLink的帶寬是900GB/s，那么以太網(wǎng)交換機(jī)帶寬是多少？以目前量產(chǎn)最頂級(jí)以太網(wǎng)交換機(jī)88Q5192來(lái)說(shuō)，下行端口帶寬一般是1Gb/s，也就是0.125GB/s，與NVLink有天壤之別，即便不看上行或下行，目前主流的以太網(wǎng)交換最高也就1.25GB/s，通常這種帶寬的端口不超過(guò)兩個(gè)。

想要媲美NVLink，讓4個(gè)Orin就是4倍算力，可以考慮博通的Qumran3D的路由交換芯片，它的上行帶寬高達(dá)3200GB/s，也就是25.6Tb/s，價(jià)格驚人，超過(guò)1萬(wàn)美元。不過(guò)Orin芯片最高也只支持1.25GB/s的以太網(wǎng)，Qumran3D是無(wú)法使用的。

再來(lái)看存儲(chǔ)，蔚來(lái)把LPDDR5X特別點(diǎn)出來(lái)，但沒(méi)說(shuō)芯片存儲(chǔ)位寬，也就無(wú)法得知存儲(chǔ)帶寬了。

歷代LPDDR的參數(shù)

圖片來(lái)源：公開資料整理

目前業(yè)內(nèi)大多數(shù)是采用LPDDR5或LPDDR4，LPDDR5X畢竟是2021年才有標(biāo)準(zhǔn)的（實(shí)際2020年就有產(chǎn)品了），最高帶寬8533MT/s，不過(guò)比LPDDR5X高的GDDR6已經(jīng)有百度和特斯拉在用了，還有更高的HBM。

蔚來(lái)未給出位寬，估計(jì)位寬是128-256比特，存儲(chǔ)帶寬也就是136-273GB/s。那廠家為何不把位寬做高一點(diǎn)，很簡(jiǎn)單，會(huì)增加成本，芯片的成本就是die size，位寬越高，對(duì)應(yīng)的內(nèi)存控制器die size就增加越多，成本就增加越多。

蘋果M3系列芯片

蘋果M3的位寬僅128比特，M3 Pro是192比特，M3 Max是512比特，從上圖不難看出M3 Max的內(nèi)存控制器占的die size遠(yuǎn)比M3和M3 Pro大十幾倍乃至幾十倍以上，也就是存儲(chǔ)位寬的增加會(huì)導(dǎo)致成本暴增，也是大多數(shù)廠家寧肯多放一些cache，也不愿意增加存儲(chǔ)位寬的原因。

2023年初LPDDR進(jìn)一步升級(jí)，出現(xiàn)了LPDDR5T，聯(lián)發(fā)科的天璣9300第一個(gè)使用。

接下來(lái)看ISP（Image Signal Processor），早期有不少獨(dú)立的外置ISP芯片，近期大多集成在SoC內(nèi)，因?yàn)殡S著AI應(yīng)用的大量出現(xiàn)和像素的飛速增加，外置ISP芯片延遲會(huì)比較明顯。典型的ISP通常會(huì)對(duì)攝像頭輸出的RAW數(shù)據(jù)先做黑電平矯正（BLC）、壞點(diǎn)矯正（DPC）、數(shù)字增益（Dgain）、鏡頭陰影矯正（LSC）等必要處理。然后通過(guò)去馬賽克（DM）插值恢復(fù)出全彩色圖像，在RGB域完成色彩矩陣矯正（CMC）、伽馬矯正（GMA）。最后轉(zhuǎn)到Y(jié)UV域，進(jìn)行銳度（SHP）、對(duì)比度（CON）、顏色飽和度（SAT）等調(diào)整后輸出。在整個(gè)ISP pipeline中間會(huì)插入若干降噪（NR）模塊。

ISP流程

Orin內(nèi)部也是有ISP的，處理像素的速度是1.85Gpixel/s，蔚來(lái)的NX9031達(dá)到了6.5Gpixel/s，是Orin的3倍還多。不過(guò)這不算什么，手機(jī)領(lǐng)域的ISP更高。

聯(lián)發(fā)科天璣9000的ISP

上圖是聯(lián)發(fā)科天璣9000的ISP，高達(dá)9Gpixel/s，高通的一般會(huì)低一點(diǎn)。pixel/s越高意味著對(duì)應(yīng)的攝像頭像素可以越高，基本上1.3Gpixel/s就可對(duì)應(yīng)1億像素?cái)z像頭，但圖像會(huì)有壓縮，完全不壓縮的話，3.2Gpixel/s可以對(duì)應(yīng)1億像素。蔚來(lái)可以對(duì)應(yīng)2億像素。

至于ISP的位寬，很少人提及，天璣9000的位寬是18比特，蔚來(lái)是26比特，高出不少，不過(guò)大部分圖像傳感器的位寬也只有10或12比特。位寬主要是ADC的動(dòng)態(tài)范圍決定，以索尼IMX490為例，當(dāng)ADC是10比特時(shí)，幀率40fps，12比特時(shí)，幀率30fps。ISP的位寬越高意味著幀率可以越高。

最后來(lái)看CPU，CPU被蔚來(lái)重點(diǎn)標(biāo)明，高達(dá)615kDMIPS的算力的確是無(wú)敵的。Orin的CPU算力是228kDMIPS，Orin是用了12個(gè)ARM Cortex-A78AE核心，ARM目前為汽車行業(yè)設(shè)計(jì)的大核心只有Cortex-A78AE，蔚來(lái)極有可能也是用Cortex-A78AE，Orin的L2緩存是3MB，L3緩存是6MB，運(yùn)行頻率是2.0-2.2GHz之間，也就是每個(gè)核心貢獻(xiàn)19kDMIPS的算力。蔚來(lái)是5納米工藝，運(yùn)行頻率和緩存都可以更高一點(diǎn)，估計(jì)最高可以達(dá)到每核心24kDMIPS的算力，估計(jì)大核心是20個(gè)，小核心還是常見(jiàn)的Cortex-A55，有12個(gè)。合起來(lái)算力就是615kDMIPS。

至于ASIL-D級(jí)功能安全，添加一個(gè)MCU核心島即可，一般是2到4個(gè)Cortex-R52做鎖步，高通SA8255、SA8755就是這種設(shè)計(jì)。

蔚來(lái)第一次做芯片就達(dá)到全球第三的水平，難能可貴。

免責(zé)說(shuō)明：本文觀點(diǎn)和數(shù)據(jù)僅供參考，和實(shí)際情況可能存在偏差。本文不構(gòu)成投資建議，文中所有觀點(diǎn)、數(shù)據(jù)僅代表筆者立場(chǎng)，不具有任何指導(dǎo)、投資和決策意見(jiàn)。

器件型號(hào)	數(shù)量	器件廠商	器件描述	參考價(jià)格	更多信息
CD4051BE	1	RCA	Single-Ended Multiplexer, 1 Func, 8 Channel, CMOS, PDIP16,	$0.52	查看
KTY81/210,112	1	NXP Semiconductors	KTY81_SER - Silicon temperature sensors BCY 2-Pin	$1.49	查看
ADUM1201ARZ	1	Rochester Electronics LLC	SPECIALTY ANALOG CIRCUIT, PDSO8, ROHS COMPLIANT, MS-012AA, SOIC-8	$4.63	查看

器件型號(hào)

數(shù)量

器件廠商

器件描述

數(shù)據(jù)手冊(cè)

ECAD模型

風(fēng)險(xiǎn)等級(jí)

參考價(jià)格

更多信息

CD4051BE

RCA

Single-Ended Multiplexer, 1 Func, 8 Channel, CMOS, PDIP16,