七次郎在线视频,2023国产精品啪啪视频,一二三四成人影片在线播放最新影片

Chiplet中文叫小芯片、芯?；蚓Я?。目前，能量產(chǎn)Chiplet的廠商僅有四家，分別是英特爾、AMD、英偉達(dá)和亞馬遜。華為的鯤鵬920號稱全球第一個(gè)采用Chiplet的AI芯片，實(shí)際上是ARM的N1核心并聯(lián)做服務(wù)器，所以只有四家。

目前的Chiplet設(shè)計(jì)中絕大部分是用于CPU的，英特爾、AMD和亞馬遜都是如此。Chiplet有兩種，一種是簡單的單一邏輯（monolithic）die+HBM或DDR型，另一種是復(fù)雜的多個(gè)邏輯die+I/O+存儲。前一種筆者認(rèn)為不能算是嚴(yán)格意義上的Chiplet，因?yàn)檫@種設(shè)計(jì)只是用硅互聯(lián)層代替了PCB板，把HBM與邏輯單元做到物理距離最近，以此提高數(shù)據(jù)搬運(yùn)效率，它不會降低邏輯die的成本。Chiplet最早的出發(fā)點(diǎn)是靠分散的die來降低超大尺寸die帶來的高成本，這與Chiplet的初衷完全背離了，后一種才是真正的Chiplet。

真正的Chiplet的地位比較尷尬，那就是低不成高不就。目前，在車載座艙和智能駕駛領(lǐng)域，monolithic芯片已完全占據(jù)市場，高通幾乎壟斷高端座艙，而英偉達(dá)則壟斷智能駕駛高端，沒有Chiplet的需求，低端更沒有Chiplet的需求。很多人寄希望于高算力市場，但Chiplet需要Die to Die傳輸數(shù)據(jù)，在高算力領(lǐng)域，目前都是單一邏輯（monolithic）die+HBM或DDR型，真正的Chiplet目前只有AMD的MI300X，僅此一個(gè)特例。而HBM本身價(jià)格就很高，還需要2.5D封裝，也就必須用臺積電昂貴的CoWoS工藝，價(jià)格基本都在3000美元以上，顯然無法用在汽車領(lǐng)域。

英偉達(dá)H100：售價(jià)超過3萬美元的英偉達(dá)H100，外圍的六片就是HBM內(nèi)存。

AMD MI300A芯片：????? AMD在2023年CES大展上推出的MI300A芯片，包含13個(gè)Chiplet。

AMD MI300的die shot：AMD MI300的die shot，不僅有6個(gè)HBM，還有GPU（即XCD），CPU（即CCD），I/O和AID。

為何高算力領(lǐng)域沒有真正的Chiplet？

Chiplet大放異彩都源自AMD，AMD也靠Chiplet翻身，在服務(wù)器CPU領(lǐng)域幾乎與英特爾平分秋色。

芯片Die尺寸與良率對比

很多人引用這張圖，芯片Die尺寸750平方毫米的良率只有35.7%，50平方毫米是94.2%，實(shí)際沒有這么夸張。英偉達(dá)的A100的die尺寸高達(dá)826平方毫米，H100的die尺寸也有814平方毫米，遠(yuǎn)超750平方毫米。英偉達(dá)不知道Chiplet的優(yōu)勢么？英偉達(dá)當(dāng)然知道，但英偉達(dá)也只在HBM部分用Chiplet，在GPU部分從未使用Chiplet，一直堅(jiān)持monolithic，并且將來也不用。原因可以看英偉達(dá)發(fā)表的一篇論文《GPU Domain Specialization via Composable On-Package Architecture》（https://arxiv.org/pdf/2104.02188.pdf）。

Chiplet自2018年就開始推廣，不過到目前反而超大Die尺寸的GPU正大行其道，真正的Chiplet卻乏人問津。此外，英偉達(dá)Orin的Die尺寸大約是455平方毫米，而高通SA8295P的Die尺寸大約110平方毫米，單論硬件成本，英偉達(dá)Orin是高通SA8295P的4倍。

Chiplet必然牽涉到Die to Die（以下簡寫D2D）的標(biāo)準(zhǔn)，目前的Die-to-Die互連接口協(xié)議多達(dá)十幾種，主要分為串行接口協(xié)議和并行接口協(xié)議。其中：

串行接口及協(xié)議有LR、MR、VSR、XSR、USR、PCIe、NVLink（NVIDIA），用于Cache一致性的CXL、CCIX、TileLink、OpenCAPI等；

并行接口及協(xié)議有AIB/MDIO（Intel）、LIPINCON（TSMC）、Infinity Fabric（AMD）、OpenHBI（Xilinx）、BoW（OCP ODSA）、INNOLINK（Innosilicon）等；

商業(yè)化的主要有NVLink、AID和Infinity Fabric，還有目前火熱的UCIe。

串行接口一般延遲比較大，而并行接口可以做到更低延遲，但也會消耗更多的Die-to-Die互連管腳；而且因?yàn)橐M量保證多組管腳之間延遲的一致，所以每個(gè)管腳不易做到高速率。以目前的水準(zhǔn)，NVLink可以做到900GB/s，Infinity Fabric也能達(dá)到896GB/s。

回過頭來說UCIe，這其實(shí)是英特爾的陽謀。如果UCIe標(biāo)準(zhǔn)大規(guī)模推廣，英特爾毫無疑問會是最大受益者，UCIe的物理層幾乎不用想，肯定是PCIe，PCIe已經(jīng)是高速互聯(lián)事實(shí)標(biāo)準(zhǔn)了，而PCIe正是英特爾提出的；考慮到互通互聯(lián)，推翻重來幾乎不可能，協(xié)議層毫無疑問也是英特爾主導(dǎo)的CXL，基本上PCIe決定了最高不超過800GB/s，比現(xiàn)行的NVLink還低。

最致命的是UCIe的 pitch項(xiàng)目，從25-55um，從100-130um，都可以！某種意義上還是各做各的，die與die之間的pitch不盡相同，好比制訂了鐵軌的標(biāo)準(zhǔn)，但每條鐵軌的寬度都不相同，就讓兩輛火車通行，毫無通行的可能。

Monolithic Die內(nèi)部的通訊帶寬遠(yuǎn)比D2D要好，D2D是要通過7層通訊協(xié)議的，無論是解串行還是物理層都影響效率，Die內(nèi)部的帶寬輕易可以做到10TB/s以上，是D2D的10到20倍。

這是英偉達(dá)堅(jiān)持不用Chiplet的原因，也是英偉達(dá)成功的原因之一。UCIe聯(lián)盟里自然也不會有英偉達(dá)的身影，不過英偉達(dá)的die可以支持UCIe，你要買英偉達(dá)的die做Chiplet也是可以的，不過嘛，那與買英偉達(dá)的芯片沒區(qū)別。UCIe是英特爾下的一步大棋局，英特爾的EMIB封裝工藝是做Chiplet的最佳選擇，UCIe標(biāo)準(zhǔn)可以從臺積電搶不少客戶，目前來看，亞馬遜已經(jīng)是第一個(gè)客戶，不過亞馬遜做的也是CPU，即Graviton。估計(jì)微軟是第二個(gè)客戶。

雖然Chiplet不適合高密度計(jì)算，但微軟獨(dú)辟蹊徑，提出了Chiplet Cloud。

微軟的Chiplet Cloud架構(gòu)

來源：微軟

微軟腦洞大開，將Chiplet不是放在有機(jī)基板上，更不用硅互聯(lián)層，而是直接放在PCB上，大大降低成本，最少降低50%成本。

微軟的設(shè)計(jì)也不用昂貴的HBM，而是用SRAM，這一點(diǎn)類似特斯拉的DojoD1。特斯拉用臺積電最昂貴的SOIC 3D封裝，有354個(gè)核心，440MB的SRAM，而微軟的想法是將這354個(gè)節(jié)點(diǎn)獨(dú)立為一個(gè)個(gè)Chiplet，直接封裝在PCB板上，比特斯拉的SOIC成本估計(jì)能降低90%。SRAM將存儲所有訓(xùn)練產(chǎn)生的權(quán)重和中間激活值以及KV緩存，這種設(shè)計(jì)有個(gè)缺點(diǎn)，那就是只能用于訓(xùn)練，訓(xùn)練階段是為了產(chǎn)生權(quán)重模型的，無需一次性存儲全部權(quán)重模型參數(shù)，可以分散到多個(gè)核心上，幾百M(fèi)B的SRAM就夠；但在推理階段則不同，它需要每次都導(dǎo)入完整的權(quán)重模型參數(shù)，需要幾十到幾百GB的SRAM，這么大的SRAM一整張12英寸晶圓都無法容納。而車載領(lǐng)域顯然是不需要訓(xùn)練的，只需要推理。這個(gè)Chiplet與其說是Chiplet不如叫多核心SRAM。

當(dāng)然有人會說AMD最新的MI300X是8個(gè)GPU做的Chiplet，用于LLM領(lǐng)域，證明Chiplet可以用于高密度計(jì)算領(lǐng)域。不過，很少人注意到AMD的MI300系列都有至少2個(gè)AID，這正是秘密所在。

MI300配置情況

來源：semianalysis

MI300X也不例外，有4個(gè)AID。AID是臺積電與AMD聯(lián)合開發(fā)的，這個(gè)AID包含2個(gè)HBM內(nèi)存控制器、64MB內(nèi)存附加末級（MALL）緩存、3個(gè)最新一代視頻解碼引擎、36個(gè)xGMI/PCIe/CXL通道，以及AMD的片上網(wǎng)絡(luò)（NoC）。在4個(gè)小芯片的配置中，擁有256MB的MALL緩存，達(dá)到了英偉達(dá)H100的50MB的MALL緩存的5倍。它采用HBM領(lǐng)域用的TSV技術(shù)，也就是混合鍵合（hybrid bonding）技術(shù)將AID連接到其他小芯片，可以達(dá)到4.3TB/s的帶寬（平均到每個(gè)AID上接近1TB/s），這是TSV+Chiplet技術(shù)，可不是D2D。這算是臺積電獨(dú)家技術(shù)，價(jià)格肯定非常高昂。AMD的GPU也有用到此技術(shù)，AMD稱之為超短物理距離（USR）。不過和單一芯片比肯定還是要差點(diǎn)。

AMD用Chiplet主要是在CPU領(lǐng)域，車內(nèi)對CPU算力的需求很不明確，AI算力因?yàn)門ransformer倒是需求很旺。車載CPU用上Chiplet的可能性極小。

Chiplet另一個(gè)麻煩是成本太高。

幾種Chiplet技術(shù)對比

如果需要高算力密度的Chiplet設(shè)計(jì)，就必須用2.5D或3D封裝，盡管英特爾的EMIB價(jià)格遠(yuǎn)低于臺積電的CoWoS，但除了英特爾自己，沒有第三方客戶使用，主要原因是英特爾做晶圓代工剛起步，經(jīng)驗(yàn)不夠豐富，英特爾的晶圓代工工藝也明顯落后臺積電。此外，EMIB性能也略低CoWoS?；宸庋b的InFo雖然成本低，但AI性能也低，用在CPU領(lǐng)域才比較合適。

用CoWoS的芯片價(jià)格基本都在3000美元以上，一方面是CoWoS產(chǎn)能緊張，臺積電幾乎壟斷2.5D封裝領(lǐng)域，沒有競爭壓力。雖然臺積電說會擴(kuò)展產(chǎn)能，但是維持產(chǎn)能緊張意味著更高的利潤。另一方面CoWoS一般都有HBM內(nèi)存，而HBM內(nèi)存因?yàn)锳I需求暴增，SK Hynix近乎壟斷，三星和美光產(chǎn)量很低，HBM持續(xù)漲價(jià)。

Chiplet和英偉達(dá)Orin比還有些競爭力，但要到上千TOPS的Transformer時(shí)代，Chiplet競爭力還是不如英偉達(dá)的GPU。在座艙領(lǐng)域，高通的Die尺寸本身就很小，Chiplet毫無勝算。因?yàn)榕_積電的CoWoS產(chǎn)能緊張，連英偉達(dá)都未能獲得足夠產(chǎn)能；高性能Chiplet必須用英特爾的EMIB，也就必須讓英特爾代工，因?yàn)镋MIB可不是封測代工廠（OSAT）能做的。一般性能的Chiplet基本上就是臺積電的InFo，OSAT也能做封裝。

免責(zé)說明：本文觀點(diǎn)和數(shù)據(jù)僅供參考，和實(shí)際情況可能存在偏差。本文不構(gòu)成投資建議，文中所有觀點(diǎn)、數(shù)據(jù)僅代表筆者立場，不具有任何指導(dǎo)、投資和決策意見。

器件型號	數(shù)量	器件廠商	器件描述	ECAD模型	參考價(jià)格	更多信息
ADG1636BRUZ	1	Rochester Electronics LLC	DUAL 1-CHANNEL, SGL POLE SGL THROW SWITCH, PDSO16, ROHS COMPLIANT, MO-153AB, TSSOP-16		$5.2	查看
L6205PD	1	STMicroelectronics	DMOS DUAL FULL BRIDGE DRIVER	ECAD模型下載ECAD模型	$11.17	查看
INA240A2D	1	Texas Instruments	-4 to 80V, bidirectional, ultra-precise current sense amplifier with enhanced PWM rejection 8-SOIC -40 to 125	ECAD模型下載ECAD模型	$3.91	查看

器件型號

數(shù)量

器件廠商

器件描述

數(shù)據(jù)手冊

ECAD模型

風(fēng)險(xiǎn)等級

參考價(jià)格

更多信息

ADG1636BRUZ

Rochester Electronics LLC

DUAL 1-CHANNEL, SGL POLE SGL THROW SWITCH, PDSO16, ROHS COMPLIANT, MO-153AB, TSSOP-16