• 正文
  • 推薦器件
  • 相關(guān)推薦
申請入駐 產(chǎn)業(yè)圖譜

Chiplet車載應(yīng)用領(lǐng)域在何處?

2023/08/20
2592
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

Chiplet中文叫小芯片、芯?;蚓Я?。目前,能量產(chǎn)Chiplet的廠商僅有四家,分別是英特爾、AMD、英偉達(dá)和亞馬遜。華為的鯤鵬920號稱全球第一個(gè)采用Chiplet的AI芯片,實(shí)際上是ARM的N1核心并聯(lián)服務(wù)器,所以只有四家。

目前的Chiplet設(shè)計(jì)中絕大部分是用于CPU的,英特爾、AMD和亞馬遜都是如此。Chiplet有兩種,一種是簡單的單一邏輯(monolithic)die+HBM或DDR型,另一種是復(fù)雜的多個(gè)邏輯die+I/O+存儲。前一種筆者認(rèn)為不能算是嚴(yán)格意義上的Chiplet,因?yàn)檫@種設(shè)計(jì)只是用硅互聯(lián)層代替了PCB板,把HBM與邏輯單元做到物理距離最近,以此提高數(shù)據(jù)搬運(yùn)效率,它不會降低邏輯die的成本。Chiplet最早的出發(fā)點(diǎn)是靠分散的die來降低超大尺寸die帶來的高成本,這與Chiplet的初衷完全背離了,后一種才是真正的Chiplet。

真正的Chiplet的地位比較尷尬,那就是低不成高不就。目前,在車載座艙和智能駕駛領(lǐng)域,monolithic芯片已完全占據(jù)市場,高通幾乎壟斷高端座艙,而英偉達(dá)則壟斷智能駕駛高端,沒有Chiplet的需求,低端更沒有Chiplet的需求。很多人寄希望于高算力市場,但Chiplet需要Die to Die傳輸數(shù)據(jù),在高算力領(lǐng)域,目前都是單一邏輯(monolithic)die+HBM或DDR型,真正的Chiplet目前只有AMD的MI300X,僅此一個(gè)特例。而HBM本身價(jià)格就很高,還需要2.5D封裝,也就必須用臺積電昂貴的CoWoS工藝,價(jià)格基本都在3000美元以上,顯然無法用在汽車領(lǐng)域。

英偉達(dá)H100:售價(jià)超過3萬美元的英偉達(dá)H100,外圍的六片就是HBM內(nèi)存。

AMD MI300A芯片:????? AMD在2023年CES大展上推出的MI300A芯片,包含13個(gè)Chiplet。

AMD MI300的die shot:AMD MI300的die shot,不僅有6個(gè)HBM,還有GPU(即XCD),CPU(即CCD),I/O和AID。

為何高算力領(lǐng)域沒有真正的Chiplet?

Chiplet大放異彩都源自AMD,AMD也靠Chiplet翻身,在服務(wù)器CPU領(lǐng)域幾乎與英特爾平分秋色。

芯片Die尺寸與良率對比

很多人引用這張圖,芯片Die尺寸750平方毫米的良率只有35.7%,50平方毫米是94.2%,實(shí)際沒有這么夸張。英偉達(dá)的A100的die尺寸高達(dá)826平方毫米,H100的die尺寸也有814平方毫米,遠(yuǎn)超750平方毫米。英偉達(dá)不知道Chiplet的優(yōu)勢么?英偉達(dá)當(dāng)然知道,但英偉達(dá)也只在HBM部分用Chiplet,在GPU部分從未使用Chiplet,一直堅(jiān)持monolithic,并且將來也不用。原因可以看英偉達(dá)發(fā)表的一篇論文《GPU Domain Specialization via Composable On-Package Architecture》(https://arxiv.org/pdf/2104.02188.pdf)。

Chiplet自2018年就開始推廣,不過到目前反而超大Die尺寸的GPU正大行其道,真正的Chiplet卻乏人問津。此外,英偉達(dá)Orin的Die尺寸大約是455平方毫米,而高通SA8295P的Die尺寸大約110平方毫米,單論硬件成本,英偉達(dá)Orin是高通SA8295P的4倍。

Chiplet必然牽涉到Die to Die(以下簡寫D2D)的標(biāo)準(zhǔn),目前的Die-to-Die互連接口協(xié)議多達(dá)十幾種,主要分為串行接口協(xié)議和并行接口協(xié)議。其中:

串行接口及協(xié)議有LR、MR、VSR、XSR、USR、PCIe、NVLink(NVIDIA),用于Cache一致性的CXL、CCIX、TileLink、OpenCAPI等;

并行接口及協(xié)議有AIB/MDIO(Intel)、LIPINCON(TSMC)、Infinity Fabric(AMD)、OpenHBI(Xilinx)、BoW(OCP ODSA)、INNOLINK(Innosilicon)等;

商業(yè)化的主要有NVLink、AID和Infinity Fabric,還有目前火熱的UCIe。

串行接口一般延遲比較大,而并行接口可以做到更低延遲,但也會消耗更多的Die-to-Die互連管腳;而且因?yàn)橐M量保證多組管腳之間延遲的一致,所以每個(gè)管腳不易做到高速率。以目前的水準(zhǔn),NVLink可以做到900GB/s,Infinity Fabric也能達(dá)到896GB/s。

回過頭來說UCIe,這其實(shí)是英特爾的陽謀。如果UCIe標(biāo)準(zhǔn)大規(guī)模推廣,英特爾毫無疑問會是最大受益者,UCIe的物理層幾乎不用想,肯定是PCIe,PCIe已經(jīng)是高速互聯(lián)事實(shí)標(biāo)準(zhǔn)了,而PCIe正是英特爾提出的;考慮到互通互聯(lián),推翻重來幾乎不可能,協(xié)議層毫無疑問也是英特爾主導(dǎo)的CXL,基本上PCIe決定了最高不超過800GB/s,比現(xiàn)行的NVLink還低。

最致命的是UCIe的 pitch項(xiàng)目,從25-55um,從100-130um,都可以!某種意義上還是各做各的,die與die之間的pitch不盡相同,好比制訂了鐵軌的標(biāo)準(zhǔn),但每條鐵軌的寬度都不相同,就讓兩輛火車通行,毫無通行的可能。

Monolithic Die內(nèi)部的通訊帶寬遠(yuǎn)比D2D要好,D2D是要通過7層通訊協(xié)議的,無論是解串行還是物理層都影響效率,Die內(nèi)部的帶寬輕易可以做到10TB/s以上,是D2D的10到20倍。

這是英偉達(dá)堅(jiān)持不用Chiplet的原因,也是英偉達(dá)成功的原因之一。UCIe聯(lián)盟里自然也不會有英偉達(dá)的身影,不過英偉達(dá)的die可以支持UCIe,你要買英偉達(dá)的die做Chiplet也是可以的,不過嘛,那與買英偉達(dá)的芯片沒區(qū)別。UCIe是英特爾下的一步大棋局,英特爾的EMIB封裝工藝是做Chiplet的最佳選擇,UCIe標(biāo)準(zhǔn)可以從臺積電搶不少客戶,目前來看,亞馬遜已經(jīng)是第一個(gè)客戶,不過亞馬遜做的也是CPU,即Graviton。估計(jì)微軟是第二個(gè)客戶。

雖然Chiplet不適合高密度計(jì)算,但微軟獨(dú)辟蹊徑,提出了Chiplet Cloud。

微軟的Chiplet Cloud架構(gòu)

來源:微軟

微軟腦洞大開,將Chiplet不是放在有機(jī)基板上,更不用硅互聯(lián)層,而是直接放在PCB上,大大降低成本,最少降低50%成本。

微軟的設(shè)計(jì)也不用昂貴的HBM,而是用SRAM,這一點(diǎn)類似特斯拉的DojoD1。特斯拉用臺積電最昂貴的SOIC 3D封裝,有354個(gè)核心,440MB的SRAM,而微軟的想法是將這354個(gè)節(jié)點(diǎn)獨(dú)立為一個(gè)個(gè)Chiplet,直接封裝在PCB板上,比特斯拉的SOIC成本估計(jì)能降低90%。SRAM將存儲所有訓(xùn)練產(chǎn)生的權(quán)重和中間激活值以及KV緩存,這種設(shè)計(jì)有個(gè)缺點(diǎn),那就是只能用于訓(xùn)練,訓(xùn)練階段是為了產(chǎn)生權(quán)重模型的,無需一次性存儲全部權(quán)重模型參數(shù),可以分散到多個(gè)核心上,幾百M(fèi)B的SRAM就夠;但在推理階段則不同,它需要每次都導(dǎo)入完整的權(quán)重模型參數(shù),需要幾十到幾百GB的SRAM,這么大的SRAM一整張12英寸晶圓都無法容納。而車載領(lǐng)域顯然是不需要訓(xùn)練的,只需要推理。這個(gè)Chiplet與其說是Chiplet不如叫多核心SRAM。

當(dāng)然有人會說AMD最新的MI300X是8個(gè)GPU做的Chiplet,用于LLM領(lǐng)域,證明Chiplet可以用于高密度計(jì)算領(lǐng)域。不過,很少人注意到AMD的MI300系列都有至少2個(gè)AID,這正是秘密所在。

MI300配置情況

來源:semianalysis

MI300X也不例外,有4個(gè)AID。AID是臺積電與AMD聯(lián)合開發(fā)的,這個(gè)AID包含2個(gè)HBM內(nèi)存控制器、64MB內(nèi)存附加末級(MALL)緩存、3個(gè)最新一代視頻解碼引擎、36個(gè)xGMI/PCIe/CXL通道,以及AMD的片上網(wǎng)絡(luò)(NoC)。在4個(gè)小芯片的配置中,擁有256MB的MALL緩存,達(dá)到了英偉達(dá)H100的50MB的MALL緩存的5倍。它采用HBM領(lǐng)域用的TSV技術(shù),也就是混合鍵合(hybrid bonding)技術(shù)將AID連接到其他小芯片,可以達(dá)到4.3TB/s的帶寬(平均到每個(gè)AID上接近1TB/s),這是TSV+Chiplet技術(shù),可不是D2D。這算是臺積電獨(dú)家技術(shù),價(jià)格肯定非常高昂。AMD的GPU也有用到此技術(shù),AMD稱之為超短物理距離(USR)。不過和單一芯片比肯定還是要差點(diǎn)。

AMD用Chiplet主要是在CPU領(lǐng)域,車內(nèi)對CPU算力的需求很不明確,AI算力因?yàn)門ransformer倒是需求很旺。車載CPU用上Chiplet的可能性極小。

Chiplet另一個(gè)麻煩是成本太高。

幾種Chiplet技術(shù)對比

如果需要高算力密度的Chiplet設(shè)計(jì),就必須用2.5D或3D封裝,盡管英特爾的EMIB價(jià)格遠(yuǎn)低于臺積電的CoWoS,但除了英特爾自己,沒有第三方客戶使用,主要原因是英特爾做晶圓代工剛起步,經(jīng)驗(yàn)不夠豐富,英特爾的晶圓代工工藝也明顯落后臺積電。此外,EMIB性能也略低CoWoS?;宸庋b的InFo雖然成本低,但AI性能也低,用在CPU領(lǐng)域才比較合適。

用CoWoS的芯片價(jià)格基本都在3000美元以上,一方面是CoWoS產(chǎn)能緊張,臺積電幾乎壟斷2.5D封裝領(lǐng)域,沒有競爭壓力。雖然臺積電說會擴(kuò)展產(chǎn)能,但是維持產(chǎn)能緊張意味著更高的利潤。另一方面CoWoS一般都有HBM內(nèi)存,而HBM內(nèi)存因?yàn)锳I需求暴增,SK Hynix近乎壟斷,三星和美光產(chǎn)量很低,HBM持續(xù)漲價(jià)。

Chiplet和英偉達(dá)Orin比還有些競爭力,但要到上千TOPS的Transformer時(shí)代,Chiplet競爭力還是不如英偉達(dá)的GPU。在座艙領(lǐng)域,高通的Die尺寸本身就很小,Chiplet毫無勝算。因?yàn)榕_積電的CoWoS產(chǎn)能緊張,連英偉達(dá)都未能獲得足夠產(chǎn)能;高性能Chiplet必須用英特爾的EMIB,也就必須讓英特爾代工,因?yàn)镋MIB可不是封測代工廠(OSAT)能做的。一般性能的Chiplet基本上就是臺積電的InFo,OSAT也能做封裝。

免責(zé)說明:本文觀點(diǎn)和數(shù)據(jù)僅供參考,和實(shí)際情況可能存在偏差。本文不構(gòu)成投資建議,文中所有觀點(diǎn)、數(shù)據(jù)僅代表筆者立場,不具有任何指導(dǎo)、投資和決策意見。

推薦器件

更多器件
器件型號 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊 ECAD模型 風(fēng)險(xiǎn)等級 參考價(jià)格 更多信息
ADG1636BRUZ 1 Rochester Electronics LLC DUAL 1-CHANNEL, SGL POLE SGL THROW SWITCH, PDSO16, ROHS COMPLIANT, MO-153AB, TSSOP-16
$5.2 查看
L6205PD 1 STMicroelectronics DMOS DUAL FULL BRIDGE DRIVER

ECAD模型

下載ECAD模型
$11.17 查看
INA240A2D 1 Texas Instruments -4 to 80V, bidirectional, ultra-precise current sense amplifier with enhanced PWM rejection 8-SOIC -40 to 125

ECAD模型

下載ECAD模型
$3.91 查看

相關(guān)推薦

登錄即可解鎖
  • 海量技術(shù)文章
  • 設(shè)計(jì)資源下載
  • 產(chǎn)業(yè)鏈客戶資源
  • 寫文章/發(fā)需求
立即登錄

佐思汽車研究:致力于汽車、TMT、新能源(特別是新能源汽車、智能汽車、車聯(lián)網(wǎng))領(lǐng)域的產(chǎn)業(yè)研究、專項(xiàng)調(diào)研、戰(zhàn)略規(guī)劃和投資咨詢服務(wù)。