AI算力在2023年呈現(xiàn)出快速增長態(tài)勢。一方面,千行百業(yè)的AI應(yīng)用推動(dòng)了算力的結(jié)構(gòu)性增長機(jī)會,AI芯片繼續(xù)多樣化演進(jìn)趨勢;另一方面,從大模型到AIGC,算力需求激增,且隨著模型規(guī)模和參數(shù)量的增長,算力需求仍在暴漲。
這也引發(fā)了業(yè)界的持續(xù)討論:在競逐更強(qiáng)、更快的未來算力時(shí),還有哪些焦點(diǎn)問題不容忽視?面向更大規(guī)模的數(shù)據(jù)密集型AI應(yīng)用中,居高不下的功耗問題如何解決?
國產(chǎn)存算一體,重大進(jìn)展
在新一輪算力攻堅(jiān)賽中,突破傳統(tǒng)馮·諾依曼架構(gòu)的范式探索成為主要方向之一。存算一體架構(gòu)打破了存算分離的壁壘,減少了數(shù)據(jù)的搬運(yùn),它就如同“在家辦公”的新型工作模式,消除了數(shù)據(jù)“往返通勤“的能量消耗、時(shí)間延遲,并且節(jié)約了“辦公場所”的運(yùn)營成本,因而具備高能效比,成為AI算力的重要發(fā)展方向。
近來,存算一體領(lǐng)域有一個(gè)標(biāo)志性事件值得關(guān)注:
清華大學(xué)團(tuán)隊(duì)研制出全球首款全系統(tǒng)集成、支持高效片上學(xué)習(xí)(機(jī)器學(xué)習(xí)能在硬件端直接完成)的憶阻器存算一體芯片,相關(guān)研究成果已發(fā)表在《科學(xué)》(Science)上。
憶阻器(Memristor)是繼電阻、電容、電感之后的第四種電路基本元件。它可以在斷電之后,仍能“記憶”通過的電荷,因此被當(dāng)做新型納米電子突觸器件。相同任務(wù)下,該芯片實(shí)現(xiàn)片上學(xué)習(xí)的能耗僅為先進(jìn)工藝下專用集成電路(ASIC)系統(tǒng)的1/35,同時(shí)有望實(shí)現(xiàn)75倍的能效提升。
圖:憶阻器存算一體學(xué)習(xí)芯片及測試系統(tǒng)(來源:清華大學(xué)官方微信)
據(jù)了解,國際上當(dāng)前在該領(lǐng)域的研究仍停留在憶阻器陣列層面的學(xué)習(xí)功能演示,而全系統(tǒng)集成的憶阻器片上學(xué)習(xí)芯片仍未實(shí)現(xiàn)。清華大學(xué)這一突破已經(jīng)走在了全球前列,展示了存算一體技術(shù)突破傳統(tǒng)計(jì)算架構(gòu)的能效潛力和算力潛力。此外,由于具備高效的片上學(xué)習(xí)能力,可以實(shí)現(xiàn)數(shù)據(jù)的本地處理和動(dòng)態(tài)更新,某種程度上可以降低對云端算力和網(wǎng)絡(luò)帶寬的依賴。
存算一體,大不相同
全球的存算一體玩家,主要可以劃分為兩大陣營:一類是國際巨頭,比如英特爾、IBM、特斯拉、三星、阿里等,巨頭對存算技術(shù)布局較早,代表存儲器未來趨勢的磁性存儲器(MRAM)、憶阻器(RRAM)等產(chǎn)品也相繼在頭部代工廠傳出量產(chǎn)消息。另一類是國內(nèi)外的初創(chuàng)企業(yè),比如Mythic、Tenstorrent、知存科技、后摩智能、千芯科技、億鑄科技、九天睿芯、蘋芯科技等。
由于積淀不同、優(yōu)勢不同、目標(biāo)場景不同,各家的存算一體方案也不盡相同,主要體現(xiàn)在三大差異上:技術(shù)路徑、存儲介質(zhì)、以及采用的是模擬還是數(shù)字技術(shù)。
差異一:近存or存內(nèi)?
先來看技術(shù)路徑的選擇。根據(jù)存儲單元與計(jì)算單元融合的程度,可以分為近存計(jì)算和存內(nèi)計(jì)算兩類:
近存計(jì)算,本質(zhì)上仍是存算分離架構(gòu),只不過計(jì)算模塊通常安放在存儲陣列(memory cell array)附近,數(shù)據(jù)更靠近計(jì)算單元,從而縮小了數(shù)據(jù)移動(dòng)的延遲和功耗。但它依然保留了經(jīng)典的馮·諾依曼架構(gòu)的數(shù)據(jù)處理特點(diǎn),存儲陣列通常無需改動(dòng),仍舊只提供數(shù)據(jù)的訪存功能。
近存計(jì)算的典型代表有AMD Zen系列CPU、特斯拉 Dojo、阿里達(dá)摩院使用混合鍵合3D堆疊技術(shù)實(shí)現(xiàn)的存算一體芯片等,還有國外創(chuàng)業(yè)公司Graphcore、芯片大神Jim Keller加入的創(chuàng)業(yè)公司Tenstorrent等,他們目前推出的存算一體芯片都屬于近存計(jì)算的范疇。
而在存內(nèi)計(jì)算設(shè)計(jì)中,存儲器件參與計(jì)算操作,這通常意味著存儲陣列需要改動(dòng)來支持計(jì)算。狹義上講,這才是真正的存算一體,或者說,基于器件層面實(shí)現(xiàn)的存算一體才真正打破了存算分離架構(gòu)的壁壘。在該架構(gòu)下,存儲單元和計(jì)算單元完全融合,沒有獨(dú)立的計(jì)算單元:直接在存儲器顆粒上嵌入算法,由存儲器芯片內(nèi)部的存儲單元完成計(jì)算操作。
巨頭對存算一體產(chǎn)品的考量多是快速攻破算力和功耗瓶頸,開發(fā)出符合客戶未來需求的技術(shù);或是利用已有成熟生態(tài),在豐富的應(yīng)用場景中快速落地。也就是說,他們除了戰(zhàn)略布局之外,對存算一體的一大預(yù)期是“實(shí)用、落地快”,因此,近存計(jì)算成為巨頭首選。
而初創(chuàng)企業(yè)由于成立時(shí)間短、技術(shù)選擇不存在路徑依賴和歷史包袱,他們反而可以另辟蹊徑,直接選擇將存儲單元和計(jì)算單元完全融合的存內(nèi)計(jì)算,實(shí)現(xiàn)更大的突破,進(jìn)一步降低對先進(jìn)制程、先進(jìn)封裝的依賴。例如國內(nèi)的知存科技、九天睿芯、千芯科技、后摩智能等創(chuàng)業(yè)公司,選擇的就是存內(nèi)計(jì)算路線,以期向更高性能、更通用的算力場景進(jìn)行突圍。
差異二:存儲介質(zhì)
存算一體依托的存儲介質(zhì)呈現(xiàn)多樣化,比如以SRAM、DRAM為代表的易失性存儲器、以Flash為代表的非易失性存儲器等。綜合來看,不同存儲介質(zhì)各有各的優(yōu)點(diǎn)和短板。
發(fā)展較為成熟的有NOR Flash、DRAM、 SRAM等。NOR FLASH屬于非易失性存儲介質(zhì),具有低成本、高可靠性優(yōu)勢,但工藝制程有瓶頸;DRAM成本低、容量大,但是速度慢,且需要電力不斷刷新;SRAM在速度方面有優(yōu)勢,但容量密度小,價(jià)格高,在大陣列運(yùn)算的同時(shí)保證運(yùn)算精度具有挑戰(zhàn)。
根據(jù)<與非網(wǎng)>對國內(nèi)多家存算一體廠商的調(diào)查來看,多數(shù)廠商當(dāng)前傾向于技術(shù)成熟的SRAM設(shè)計(jì)存算一體芯片,后摩智能、千芯科技等都首先選擇SRAM啟動(dòng)芯片開發(fā)。主要原因有四點(diǎn):首先,SRAM的設(shè)計(jì)技術(shù)成熟,隨著當(dāng)前工藝節(jié)點(diǎn)的快速發(fā)展(從90nm到3nm),SRAM位單元尺寸減小超過了35倍,最小工作電源電壓減小了超過1.25倍。第二,跟新型非易失性存儲器相比,SRAM的制作工藝、研發(fā)工具和CMOS集成的電路模型都更加成熟穩(wěn)定,同時(shí)SRAM具有更快的操作速度和耐久性,可以實(shí)時(shí)在存算單元中刷新計(jì)算數(shù)據(jù),為大算力提供重要保障。第三,SRAM是目前唯一一種跟先進(jìn)CMOS工藝完全兼容且能大規(guī)模量產(chǎn)的存儲介質(zhì),這也是支持大算力的關(guān)鍵所在:從單獨(dú)存算一體宏單元的角度,SRAM跟先進(jìn)工藝的兼容性使其外圍邏輯接口最能滿足當(dāng)前宏單元高效利用需求。第四,SRAM存算一體的實(shí)現(xiàn)途徑可以達(dá)到跟傳統(tǒng)馮·諾依曼架構(gòu)中數(shù)字計(jì)算一致的運(yùn)算精度,不需要復(fù)雜的重訓(xùn)練過程,可以有效降低上層編譯器的開發(fā)難度,并提升AI模型的適用度。
不過,SRAM也有其固有瓶頸,例如較大的單元面積會導(dǎo)致隨著工藝發(fā)展,CMOS擴(kuò)展難度相應(yīng)增大,芯片計(jì)算密度增長會逐漸放緩。因此,相關(guān)企業(yè)除了考慮量產(chǎn)能力和落地所需,也會采用“多駕馬車”并驅(qū)的發(fā)展路線布局未來,靈汐科技、后摩智能、蘋芯科技等正在對功耗較低、存儲密度較高的新興存儲介質(zhì)(比如MRAM、RRAM等)進(jìn)行投入,以期隨著工藝和商業(yè)化成熟獲得更大的競爭優(yōu)勢。
差異三:數(shù)字or模擬?
按照電路技術(shù)路徑分類,存算一體計(jì)算有數(shù)字存算和模擬存算的區(qū)分。近年來,學(xué)術(shù)界和工業(yè)界對二者的優(yōu)缺點(diǎn)也有非常多的討論??傮w而言,數(shù)字存算和模擬存算有其各自優(yōu)缺點(diǎn):
首先,數(shù)字存算保留了傳統(tǒng)數(shù)字電路的高抗噪性,對于不同制造工藝、電源電壓和溫度的變化呈現(xiàn)很強(qiáng)的魯棒性,因而更適合大規(guī)模高計(jì)算精度芯片的實(shí)現(xiàn)。而模擬存算由于模擬計(jì)算電路本身的低功耗特點(diǎn),在計(jì)算精度比較固定且較低的條件下,它可以獲得更高的能量效率。
其次,數(shù)字存算要求存儲單元內(nèi)容必須以數(shù)字信號形式呈現(xiàn),而模擬存算可以根據(jù)存儲單元存儲機(jī)理的不同,實(shí)現(xiàn)不同模擬域的運(yùn)算,這就意味著模擬計(jì)算可以搭載任意存儲單元來實(shí)現(xiàn)。
第三,相比模擬存算,數(shù)字存算實(shí)現(xiàn)運(yùn)算靈活性較好,更適合通用性場景。模擬存算為了達(dá)到更好的能量效率,通常其關(guān)鍵模擬模塊(如A/D轉(zhuǎn)換器)的轉(zhuǎn)換精度要求相對固定,且由于不同模擬計(jì)算方式可能具有不同的計(jì)算誤差,因而這種技術(shù)路徑的擴(kuò)展性略顯不足。
第四,相比數(shù)字存算,模擬計(jì)算減少了大量乘法器和加法器的面積開銷,因而在面積開銷上具有一定優(yōu)勢,同時(shí)各種不同的低功耗模擬計(jì)算電路的探索,也可以進(jìn)一步提升其能量效率。
技術(shù)突破疊加市場需求,存算一體來到產(chǎn)業(yè)化拐點(diǎn)
近年來,我國存算一體初創(chuàng)企業(yè)不斷涌現(xiàn),投融資進(jìn)入活躍期,迎來產(chǎn)業(yè)化的重要轉(zhuǎn)折點(diǎn)。<與非網(wǎng)>統(tǒng)計(jì),進(jìn)入2017年以來,國產(chǎn)存算一體芯片企業(yè)開始“扎堆”入場,并在2021年后逐步實(shí)現(xiàn)量產(chǎn)和產(chǎn)業(yè)化。較早成立的公司傾向于采用較為成熟的技術(shù),主要布局低功耗、高能效需求的端側(cè)場景。隨著相關(guān)技術(shù)和應(yīng)用的不斷成熟,近年來成立的初創(chuàng)企業(yè)藍(lán)圖更為前瞻,在大算力布局和新技術(shù)應(yīng)用方面更勇于嘗新。
與非網(wǎng)據(jù)公開資料整理(2023.10.24)
2023年,存算一體的產(chǎn)業(yè)化進(jìn)程有了質(zhì)的突破:
小算力方面,知存科技去年量產(chǎn)的全球首顆基于模擬Flash存算一體的芯片WTM2101,可使用sub-mW級功耗完成大規(guī)模深度學(xué)習(xí)運(yùn)算,適用于可穿戴設(shè)備中的智能語音和智能健康服務(wù)等場景,今年,該芯片出貨已經(jīng)達(dá)到kk級別。
落地和產(chǎn)業(yè)合作方面,除了在眾多智能終端產(chǎn)品上的推進(jìn),知存科技聯(lián)合中國移動(dòng)研究院,完成了基于 NOR Flash存算一體芯片的視頻超分技術(shù)驗(yàn)證,為存算一體芯片在算力機(jī)頂盒、AR/VR 終端、邊緣視頻解碼器等場景支撐高效視覺AI應(yīng)用奠定基礎(chǔ)。這也是存算一體芯片進(jìn)一步落地廣泛終端和邊緣場景的重要基礎(chǔ)。
大算力方面也迎來重要的商業(yè)化轉(zhuǎn)折點(diǎn)。后摩智能今年上半年發(fā)布了首款存算一體智駕芯片后摩鴻途H30,最高物理算力256TOPS,典型功耗35W,成為國內(nèi)率先落地存算一體大算力AI芯片的公司。據(jù)了解,H30已開始給Alpha客戶送測,第二代H50 已在研發(fā)中,將于2024年推出,支持2025年的量產(chǎn)車型。
放眼未來,隨著云邊端智能應(yīng)用的持續(xù)增長、場景的多樣性也將繼續(xù)快速拓展,存算一體產(chǎn)品如何走入更廣泛應(yīng)用中?相關(guān)企業(yè)仍有兩大核心挑戰(zhàn)需要持續(xù)攻克:
首先在存算一體AI核和SoC的架構(gòu)設(shè)計(jì)和實(shí)現(xiàn)方面,存內(nèi)計(jì)算IP雖然提供了高能效的并行計(jì)算模式,但受限于所支持運(yùn)算類型的局限性,因而對架構(gòu)設(shè)計(jì)的難度和復(fù)雜度要求急劇上升,既要充分利用存內(nèi)計(jì)算IP本身運(yùn)算的高效性,又要減少存內(nèi)計(jì)算IP之間的數(shù)據(jù)傳輸,同時(shí)還要兼顧支持網(wǎng)絡(luò)算子的通用性和物理實(shí)現(xiàn)的可行性。
其次是存算一體軟件編譯器的快速部署和實(shí)現(xiàn)。軟件工具鏈對于發(fā)揮存算芯片的效率至關(guān)重要,軟件需要將模型切分成合適的Tensor算子,然后生成相應(yīng)的指令調(diào)用底層硬件來處理。例如針對自動(dòng)駕駛等場景,通過算子融合來提升計(jì)算和訪存效率是非常關(guān)鍵的一個(gè)優(yōu)化目標(biāo),需要工具鏈自動(dòng)化完成算子的融合、調(diào)度及對大容量存算的高效管理,以同時(shí)提升芯片的利用率和應(yīng)用的開發(fā)效率等。
寫在最后
在算力越來越成為“緊俏貨”的今天,存算一體作為后摩爾時(shí)代突破芯片性能瓶頸的主流技術(shù)方向之一,開始在產(chǎn)業(yè)中得到越來越多的關(guān)注。國產(chǎn)存算一體芯片如何順流而上,早日迎來產(chǎn)業(yè)大發(fā)展?
短期來看,行業(yè)玩家的競爭主要集中在不同的存儲介質(zhì)和技術(shù)路線。長期來看,設(shè)計(jì)方法論、測試、量產(chǎn)、軟件、場景的選擇等全方位競爭才是長期發(fā)展和落地的關(guān)鍵,創(chuàng)業(yè)公司既需要掌握從存儲器到AI芯片再到編譯器和算法的一系列技術(shù)能力,也要構(gòu)建強(qiáng)大的生態(tài)能力。
此外,存算一體技術(shù)若能進(jìn)一步融合新型憶阻器、存算一體架構(gòu)、Chiplet、3D封裝等技術(shù),將有望實(shí)現(xiàn)更大的有效算力、更高的能效比、實(shí)現(xiàn)更好的軟件兼容性,從而進(jìn)一步構(gòu)筑國產(chǎn)AI芯片的發(fā)展階梯。