從1964年第一臺計算機系統(tǒng)IBM 360引入CPU,迄今約60年,不論是PC、臺式電腦主機,還是大型商用主機,CPU一直是計算機工業(yè)發(fā)展史上的主角。然而,隨著AI應(yīng)用來臨,加速計算盛行,GPU和各類AI計算芯片崛起,CPU遭遇前所未有的挑戰(zhàn)。
在加速計算的世界,CPU落伍了嗎?特別是隨著生成式AI席卷業(yè)界,算力需求暴增,CPU中央處理器的地位是否還如其名?
“CPU擴張的時代已結(jié)束”
黃仁勛就明確表達過,加速計算和人工智能重塑了計算機行業(yè),CPU擴張的時代已經(jīng)結(jié)束了。當(dāng)下需持續(xù)提升運算能力的數(shù)據(jù)中心需要的CPU越來越少,需要的GPU越來越多,我們已經(jīng)到達了生成式AI的引爆點。
在他看來,全球價值1萬億美元的數(shù)據(jù)中心基本上都在使用60年前發(fā)明的計算模式,而現(xiàn)在,計算已經(jīng)從根本上改變,如果你明年再買一大堆CPU,計算吞吐量仍難以增加,必須使用加速計算平臺去處理。
他指出了CPU通用計算和加速計算的根本區(qū)別:盡管CPU如此靈活,基于高級編程語言和編譯器,幾乎任何人都能寫出相當(dāng)好的程序,但是它的持續(xù)擴展能力和性能提升已經(jīng)結(jié)束。加速計算則是個全棧問題,必須從上到下和從下到上重新設(shè)計一切,包括芯片、系統(tǒng)、系統(tǒng)軟件、新的算法優(yōu)化以及新的應(yīng)用等,還需要針對不同領(lǐng)域進行不同的堆棧,而這些堆棧一旦建立起來,就會彰顯出加速計算的驚人之處。
不過,換一個角度來看, GPU盡管性能強悍,但通常只能執(zhí)行深度學(xué)習(xí)這樣的特定應(yīng)用,它還需要CPU的協(xié)助,來進行數(shù)據(jù)的搬運、控制,以及一系列的預(yù)處理和后處理任務(wù)。而CPU具有獨立運算能力,可以獨立運行操作系統(tǒng)和應(yīng)用程序。如果說絕對點,一臺計算機可以只有一個CPU,但是不能只有一個GPU。
也正是由于CPU的不可替代性,黃仁勛雖然預(yù)判了CPU暴力擴張的時代結(jié)束,但另一方面,卻曾試圖斥巨資收購Arm,以補齊生態(tài)短板。并且,英偉達專門面向數(shù)據(jù)中心推出基于Arm Neoverse內(nèi)核的Grace CPU,來滿足新時代數(shù)據(jù)中心的性能和效率需求。
CPU不會被完全取代,我們只是來到了新計算時代的臨界點。
“始終相信CPU跑AI推理有價值,也是極其普遍的”
數(shù)據(jù)中心在AI時代的重要性不言而喻,多年來,英特爾至強處理器在數(shù)據(jù)中心一直扮演著重要角色。當(dāng)前,英特爾至強處理器該如何應(yīng)對AI的趨勢和挑戰(zhàn)?如何應(yīng)對加速計算的沖擊?
英特爾資深院士、至強首席架構(gòu)師Ronak Singhal告訴<與非網(wǎng)>,“AI的發(fā)生不僅在各類加速器上,更在我們‘老生常談’的CPU上。實際上,眼下大部分的推理工作都是在CPU上運行的。我們始終相信CPU上的推理是非常有價值的,也是極其普遍的。為了讓其在CPU上運行,我們需要繼續(xù)討論‘加速’。我們一直在探索,如何去提高CPU的能力,使它始終是運行這些推理工作負載的最佳載體?!?/p>
他補充,根據(jù)當(dāng)前所觀察到的算法方向以及實際案例來看,在CPU上運行AI工作負載擁有顯著優(yōu)勢,包括更低的延遲以及更高的能效,比如避免在CPU和加速器之間來回移動數(shù)據(jù),可以極大地降低能源消耗,這也是CPU的一個顯著優(yōu)勢。
根據(jù)英特爾方面提供的數(shù)據(jù),目前25%在售的至強被用于AI工作負載。其中,很大一部分用于推理,一小部分用于訓(xùn)練。此外,許多至強產(chǎn)品還用于在訓(xùn)練或推理之前的一些工作,如數(shù)據(jù)準備(包括為至強和GPU提供數(shù)據(jù))。
英特爾副總裁、至強產(chǎn)品和解決方案事業(yè)部總經(jīng)理Lisa Spelman表示,為滿足AI工作負載的需求,至強已經(jīng)具備諸多加速器和專業(yè)功能,且這些日漸成為至強越來越重要的方向。在海量數(shù)據(jù)、復(fù)雜數(shù)據(jù)處理等需求下,能源效率成為至強轉(zhuǎn)變設(shè)計的關(guān)鍵因素。將于明年推出的第六代至強就引入了新的體系結(jié)構(gòu):Granite Rapids(性能核/P-core產(chǎn)品)和Sierra Forest(能效核/E-core產(chǎn)品),有望進一步提升算力和效率。
Granite Rapids的產(chǎn)品升級有兩個要點:一是如何增強算力。其中最重要的是在第四代至強基礎(chǔ)上增加了核數(shù),以及繼續(xù)提高能效。因為進行大量AI矩陣計算時,耗電量會大幅提升,Granite Rapids通過內(nèi)置的加速器能夠為目標工作負載提供顯著的性能和效率提升。二是內(nèi)存帶寬。部分AI工作負載以計算為核心,因此將受到核數(shù)和能效的影響。還有部分大語言模型,需要處理包括計算、存儲等AI工作負載,因此對內(nèi)存帶寬提出了要求。
與Granite Rapids相比,Sierra Forest的核心則更節(jié)能,且面積較小,因此,可以在相同功耗下進行擴展、并增加核數(shù),最高可達288核。
對于云服務(wù)提供商來說,將盡可能多的用戶整合到一個系統(tǒng)上,能夠幫助他們減少所需的系統(tǒng)數(shù)量,從而降低TCO,這時就可以選擇大核數(shù)的CPU(Sierra Forest);如果他們需要每個核心擁有最佳性能,他們則可以選擇Granite Rapids。
值得注意的是,chiplet、先進封裝、最新的內(nèi)存技術(shù)等,在這兩款產(chǎn)品中都發(fā)揮了重要作用。從下圖可知,頂部和底部的I/O chiplet設(shè)計,包括 PCIe、CXL 等。這些功能在 Sierra Forest 和 Granite Rapids 之中都很常見??梢愿鶕?jù)實際需求,采用更多或更少的chiplet,來擴大或減少核心數(shù)量。chiplet的方式既實現(xiàn)了構(gòu)建芯片的靈活性,同時也有助于提升制造能力。
此外,EmiB封裝(英特爾的2.5D先進封裝技術(shù))也發(fā)揮了重大作用。通過EmiB封裝,多個獨立的計算chiplet和I/O chiplet,在單一芯片中進行了集成,使得芯片結(jié)構(gòu)更為靈活,實現(xiàn)了通用IP、固件、操作系統(tǒng)、平臺的有機整體。
除了數(shù)據(jù)中心,客戶端處理器AI方面,英特爾的酷睿Ultra處理器也將首次集成NPU,用于在PC上實現(xiàn)AI加速和推理體驗。
“AI處于早期快速發(fā)展階段,不相信護城河”
面對AI的沖擊,蘇姿豐表示,“對于人工智能,尤其是生成式人工智能如何進入市場,我們還處于起步階段。我認為我們談?wù)摰氖且粋€10年的周期,而不是‘未來兩到四個季度你能生產(chǎn)多少GPU’”。她表示,人工智能發(fā)展太快,不相信護城河。
數(shù)據(jù)中心被AMD作為首要的戰(zhàn)略重點。
由于數(shù)據(jù)中心應(yīng)用端的算力需求仍在不斷增加,而chiplet設(shè)計有利于堆算力。AMD在chiplet 技術(shù)已經(jīng)享有先發(fā)優(yōu)勢,在 2019 年推出的 Zen2 架構(gòu)中,AMD就采用了chiplet 設(shè)計,使用 8 塊CPU芯片實現(xiàn)64核,是當(dāng)時英特爾性能最佳處理器的兩倍。
去年發(fā)布的基于Zen4架構(gòu)的霄龍?zhí)幚砥?,具?6個核心192個線程。而最新的代號為Bergamo的霄龍?zhí)幚砥鳎捎肸en4c架構(gòu),將會搭載128個核心256個線程。Zen4c是AMD專門為云計算場景打造的一款CPU核心,與Zen4架構(gòu)保持相同的IPC性能和ISA指令集,通過設(shè)計優(yōu)化,使得核心面積縮小,功耗效率提升。這也意味著最新霄龍?zhí)幚砥鞯暮诵拿芏葍?yōu)勢,將可以使云服務(wù)提供商能夠支持超過兩倍的服務(wù)器實例數(shù)量。
在 前不久的AMD 數(shù)據(jù)中心和 AI 首映式中,AMD 對比了霄龍EPYC 9654 和 Intel 至強Xeon 8490H的性能,EPYC 9654比Xeon 8490H高80%,Java 編譯性能高 70%,云計算性能(整數(shù))高 80%。蘇姿豐稱,AMD 的 Epyc在前 10 名最快的超級計算機中的占據(jù)了 5 臺, 包括 Frontier,這是第一臺使用惠普企業(yè)硬件構(gòu)建的百億億次計算計算機。
目前,AMD 的服務(wù)器 CPU 份額也不斷提高,從 2017 年第四季度的0.8%到2023 年第一季度的 18%。預(yù)計 2024 年份額達到 20%,2027 年份額達到 25%。
除了服務(wù)器CPU,AMD在筆記本電腦CPU也在大刀闊斧地引入AI,銳龍7040系列通過集成AI引擎,能夠幫助用戶加速多任務(wù)處理,提高生產(chǎn)力和效率。據(jù)AMD官方說明,銳龍AI引擎的峰值算力可以達到10 TOPS,能夠應(yīng)對日常的AI推理負載設(shè)計,相較于外置 AI 運算芯片,可實現(xiàn)毫瓦級的低功耗AI運算,助力實現(xiàn)本地化的AI運算。
CPU加速AI,尚能戰(zhàn)否?
提到 AI 加速,第一反應(yīng)通常是強大的GPU或?qū)S玫腁I加速芯片,但CPU通過內(nèi)置AI計算,優(yōu)化底層指令集、矩陣運算加速庫、神經(jīng)網(wǎng)絡(luò)加速庫等方式,在AI推理領(lǐng)域表現(xiàn)出了當(dāng)仁不讓的態(tài)勢。那么,CPU加速AI推理具體有哪些優(yōu)勢?
英特爾方面表示,經(jīng)過多年的發(fā)展,CPU加速推理過程性價比更高。例如至強可擴展處理器的強大算力可以極大提高AI推理效率,并兼顧成本與安全性。在指令集方面,CPU 指令集是計算機能力的核心部分,英特爾的AVX-512 指令集通過提升單條指令的計算數(shù)量,從而可提升CPU的矩陣運算效率。并且在加速訓(xùn)練環(huán)節(jié), DL Boost 把對低精度數(shù)據(jù)格式的操作指令融入到了 AVX-512 指令集中,即 AVX-512_VNNI (矢量神經(jīng)網(wǎng)絡(luò)指令) 和 AVX-512_BF16(bfloat16),分別提供對 INT8(主要用于量化推理)和 BF16(兼顧推理和訓(xùn)練)的支持。
例如在企業(yè)落地AI模型的場景中,CPU服務(wù)器部署已經(jīng)非常普遍,而大多數(shù) AI 實際要求的是并發(fā)量,對推理速度沒有特別高的要求,并且在制造業(yè)、圖像等行業(yè),模型也不會太龐大,這種情況就適合使用 CPU 作為計算設(shè)備。
此外,學(xué)術(shù)界正在研究輕量級神經(jīng)網(wǎng)絡(luò),目標是使用較少的參數(shù)和較低的算力達到同樣性能與效果。在這一情況下,用CPU訓(xùn)練輕量級神經(jīng)網(wǎng)絡(luò)被認為可能是一個性價比較高的選項,因為相對GPU,CPU一方面減少了數(shù)據(jù)的反復(fù)轉(zhuǎn)移,訓(xùn)練更高效;并且面對輕量神經(jīng)網(wǎng)絡(luò)的訓(xùn)練工作,CPU性能已足夠,且成本比GPU大幅降低。
寫在最后
傳統(tǒng)CPU在處理大規(guī)模數(shù)據(jù)和復(fù)雜算法時顯現(xiàn)出了性能瓶頸,隨著AI發(fā)展和應(yīng)用場景的繼續(xù)擴大,需要更強大的計算能力和存儲能力等支持。因此,傳統(tǒng)CPU架構(gòu)不得不引入AI,以適應(yīng)市場需求。
兩大CPU巨頭激戰(zhàn)正酣,已經(jīng)面向云邊端場景全面引入AI,通過優(yōu)化架構(gòu)、提高能效等措施,提高CPU性能和效率。就連GPU巨頭英偉達,也開始面向AI數(shù)據(jù)中心,推出專有的CPU。
AI時代,CPU作為計算機的核心部件,在計算機系統(tǒng)中的地位仍有其不可替代性,也有巨大的想象空間。試想,隨著AI的普及,如果未來每個工作負載都嵌入AI,那么是否意味著每次運行AI工作負載時,都離不開CPU?選擇AI,擁抱AI,成為AI,是CPU在新時代的宿命。