• 正文
    • 為什么需要存算一體?
    • 基于NOR Flash的存算一體
    • NOR Flash如何實(shí)現(xiàn)存算一體?
    • NOR Flash相比其他存算結(jié)構(gòu)的優(yōu)勢
    • NOR Flash學(xué)術(shù)研究及產(chǎn)業(yè)應(yīng)用進(jìn)展
  • 相關(guān)推薦
申請入駐 產(chǎn)業(yè)圖譜

?存算一體:NOR Flash沖向新巔峰

2022/07/11
1745
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

特邀作者: 滕正如東南大學(xué) 微電子學(xué)院

基于 NOR Flash 的存算一體芯片優(yōu)點(diǎn)出眾,我們相信該類芯片有更美好的未來。

近年來,在算力急速增長的推動下,以神經(jīng)網(wǎng)絡(luò)為代表的人工智能迎來了新一輪的發(fā)展,并迅速在圖像視頻應(yīng)用、自然語言處理及其他諸多領(lǐng)域取得了驚人的成就。尤其是邊緣計(jì)算在終端設(shè)備推理的興起為人工智能提供了大量的計(jì)算設(shè)備和數(shù)據(jù),使得人工智能具有了無限的可能。但是,神經(jīng)網(wǎng)絡(luò)對于龐大算力的需求和邊緣及終端側(cè)對于低功耗的需求之間難以調(diào)和的矛盾,嚴(yán)重阻礙了神經(jīng)網(wǎng)絡(luò)的進(jìn)一步發(fā)展和應(yīng)用,因此低功耗、高能效神經(jīng)網(wǎng)絡(luò)加速器成為了眾多企業(yè)、研究機(jī)構(gòu)的研究重點(diǎn)。

在這樣的基礎(chǔ)上,存算一體孕育而生。

為什么需要存算一體?

2018 年,美國DARPA“電子復(fù)興計(jì)劃”明確提出不再依賴摩爾定律的等比例微縮道路,旨在尋求超越傳統(tǒng)馮·諾依曼計(jì)算架構(gòu)的創(chuàng)新,利用新材料、新器件特性和集成技術(shù),減少數(shù)據(jù)處理電路中移動數(shù)據(jù)的需求,研究新的計(jì)算拓?fù)浼軜?gòu)用于數(shù)據(jù)存儲與處理,帶來計(jì)算性能的顯著提高。

與傳統(tǒng)的計(jì)算單元和存儲單元分離的馮諾依曼架構(gòu)不同,存算一體技術(shù)可以把存儲單元同時用于計(jì)算和存儲,這樣就可以避免數(shù)據(jù)和計(jì)算結(jié)果在計(jì)算單元和存儲單元之間來回搬運(yùn)引起的功耗和帶寬瓶頸,從而實(shí)現(xiàn)功耗的大大降低。

 

基于NOR Flash的存算一體

而基于 NOR Flash 的存算一體方案正是受到多方關(guān)注的一條技術(shù)路線。英特爾博世美光、Lam Research、應(yīng)用材料、微軟、亞馬遜、軟銀都投資了基于NOR Flash的存內(nèi)計(jì)算芯片。

NOR Flash的起源和技術(shù)發(fā)展

Nor是Flash一種架構(gòu)方式。Flash存儲技術(shù)是在它之前的E2PROM (Electrically Erasable Programmable Read OnlyMemory)基礎(chǔ)上發(fā)展起來的存儲器,它跟E2PROM一樣,也是使用電學(xué)方法來存儲電荷的器件,只是E2PROM是使用兩個晶體管來構(gòu)成,而Flash存儲陣列中的存儲單元是由一個晶體管組成的。所以Flash存儲器在器件集成度、數(shù)據(jù)容量和功耗低等性能上都比之前的器件有明顯的提高。

目前性價比最高的存儲器首推閃存,閃存主要有NOR和NAND兩種類型。NOR Flash 由英特爾公司于1988年最初推出。為了提高容量/價格比,東芝公司于1989年推出NAND Flash。但相比NOR Flash來說,兩種Flash技術(shù)各有優(yōu)、缺點(diǎn)以及各自適用的場合。NOR結(jié)構(gòu)的特點(diǎn)是芯片內(nèi)執(zhí)行(XIP, eXecute In Place),這樣應(yīng)用程序可以直接在Flash閃存內(nèi)運(yùn)行,不必再把代碼讀到系統(tǒng)RAM中,節(jié)省了時間。NAND結(jié)構(gòu)的特點(diǎn)能提供極高的單元密度,可以達(dá)到高存儲密度,并且增加寫入和擦除的速度。

NOR Flash的原理

浮柵晶體管的橫截面

 

NOR Flash的存儲單元是浮柵晶體管,在作為存儲使用的時候每個浮柵晶體管可以存儲1bit數(shù)據(jù)。它是在金屬-氧化物半導(dǎo)體場效應(yīng)晶體管(MOSFET)的基礎(chǔ)上引入浮置柵極來存儲電荷而實(shí)現(xiàn)的。一個浮柵晶體管,由P型的襯底和在其上重?fù)诫s的N型源極和漏極、控制柵極、由氧化物包圍的多晶硅浮柵組成。浮柵是由絕緣介質(zhì)層包裹起來的,浮柵和溝道之間的很薄的氧化物層被稱為隧道氧化層,兩個多晶硅柵之間的氧化物層被稱為柵氧化層,一般是氧化物-氮化物-氧化物層組成的多晶桂層間絕緣介質(zhì)。因此,其上的電荷會輕易地流失,因而浮柵晶體管能夠應(yīng)用于NVM。

浮柵和控制柵可以用來控制源極和漏極之間溝道的形成:當(dāng)浮柵處于無電荷狀態(tài)時,浮柵晶體管會如MOSFET—樣,當(dāng)控制柵加高于閾值電壓(Threshold Voltage)的電壓時,溝道形成,浮柵晶體管處于導(dǎo)通狀態(tài),而控制柵上加的電壓低于閾值電壓時,浮柵晶體管處于截止?fàn)顟B(tài);當(dāng)浮柵上存儲一定量的電子后,由于浮柵的影響,會升高,浮柵晶體管更加難以導(dǎo)通。這樣,就可以通過這兩種狀態(tài)來存儲數(shù)據(jù),分別表示“1”和“0”,并且可以通過在柵極上加一個在兩種之間的電壓,根據(jù)流過的電流來讀取存儲在浮柵晶體管中的狀態(tài)。

浮柵上的電子則可以使用溝道熱電子注入(Channek Hot Electronic Injection, CHEI)FN隧穿(Fowler-NORdheim Tunneling)兩種方式來增加和移除。CHEI通過在柵極加電壓使得溝道反型,并在源極和漏極之間加高電壓使電子向漏極加速。其中有部分電子在整個過程中僥幸因?yàn)榘l(fā)生碰撞而獲得了足夠越過隧道氧化層勢壘的動能并到達(dá)浮柵,這樣,就使得浮柵中有了多余的電子。而FN隧穿則在控制柵和襯底之間加很高的負(fù)電壓,使得它們之間形成強(qiáng)電場以降低氧化層的勢壘寬度,增加電子隧穿的幾率,使得電子從浮柵回到襯底。使用CHEI增加浮柵電子的操作稱為“編程”,而使用FN隧穿移除電子的操作稱為“擦除”。

可見,浮柵晶體管可以近似等效于一個N溝道MOSFET在柵極連接一個電容,其電學(xué)特性就像閾值電壓可調(diào)的MOSFET,也具有截止(Cut-Off)、 弱反型( Weak-Inversion,亦稱Sub-threshold,亞閾值)、線性(Linear, 亦稱Triode,三極管,亦稱Ohmic,可變電阻)和飽和等工作模式,每種模式具有不同的特征。

NOR Flash陣列結(jié)構(gòu)

 

NOR Flash中程序和數(shù)據(jù)可存放在同一芯片上,擁有獨(dú)立的數(shù)據(jù)總線和地址總線,能夠快速隨機(jī)讀取數(shù)據(jù),也允許系統(tǒng)直接從Flash中讀取代碼執(zhí)行,而不需要先將代碼下載至RAM中再執(zhí)行;可以單字節(jié)或單字編程,但不能單字節(jié)擦除,必須以塊為單位或?qū)φ瑘?zhí)行擦除操作,在對存儲器進(jìn)行重新編程之前需要對塊或整片進(jìn)行預(yù)編程和。

NOR Flash 以并行的方式連接存儲單元,具有分離的控制線、地址線和數(shù)據(jù)線、較快的讀速度、能夠提供片上執(zhí)行的功能,但寫操作和擦除操作的時間較長,且容量低、價格高。因此NOR Flash 多被用于手機(jī)、BIOS 芯片以及嵌入式系統(tǒng)中進(jìn)行代碼存儲。

 

NOR Flash如何實(shí)現(xiàn)存算一體?

基于NOR Flash的存算一體基本原理是利用存儲單元的多值特性,通過器件本征的物理電氣行為(例如基爾霍夫定律歐姆定律)來實(shí)現(xiàn)多值MAC 運(yùn)算。每個存儲單元可以看作一個可變電導(dǎo)/電阻,用來存儲網(wǎng)絡(luò)權(quán)重,當(dāng)在每一行施加電流/電壓(激勵)時,每一列即可得到MAC 運(yùn)算的電壓/電流值。

基于Flash的MAC運(yùn)算基本原理

 

我們以基于Flash單元的電壓式模擬乘法器為例。模擬乘法器由兩個Flash單元構(gòu)成,這兩個Flash管柵極(G)相連并接固定電壓,漏極(D)相連接電壓VDS,源極(S)的電流相減為輸出電流ID。外部輸入數(shù)據(jù)X經(jīng)過DAC(Digital to Analog Converter,數(shù)模轉(zhuǎn)換器)轉(zhuǎn)換為模擬電壓VDS,得到的輸出電流經(jīng)過ADC (Analog to Digital Converter,模數(shù)轉(zhuǎn)換器)轉(zhuǎn)換為數(shù)字信號輸出??梢允褂脙蓚€工作在線性區(qū)的Flash管實(shí)現(xiàn)模擬乘法。

電壓式模擬乘法器結(jié)構(gòu)圖

 

NOR Flash相比其他存算結(jié)構(gòu)的優(yōu)勢

Flash器件于1967年被施敏發(fā)明,在MOS管的柵極增加一個浮柵,通過改變浮柵中的電荷達(dá)到存儲數(shù)據(jù)的目的。經(jīng)過50多年的發(fā)展,浮柵器件的制造工藝已經(jīng)非常成熟,成品質(zhì)量穩(wěn)定。浮柵單元具有密度大,效率高的特點(diǎn),適合作為實(shí)現(xiàn)存算一體架構(gòu)的介質(zhì)。

存算結(jié)構(gòu)特點(diǎn)對比

 

相比其他存算結(jié)構(gòu),NOR Flash有兩大突出優(yōu)勢。

其一,因?yàn)槠溟L期的應(yīng)用和發(fā)展,閃存技術(shù)已經(jīng)非常成熟,NOR Flash 已被大量應(yīng)用于手機(jī)、BIOS 芯片以及嵌入式系統(tǒng)中進(jìn)行代碼存儲。美光(Micron) NOR Flash 產(chǎn)品線總監(jiān) Richard De Caro 曾表示,在傳統(tǒng)的精密電子產(chǎn) 品的生產(chǎn)中,NORFlash的作用舉足輕重,涵蓋了各個細(xì)分市場。根據(jù) Richard De Caro 的估算,每年 NOR Flash 的出貨量超過 60 億顆。NOR Flash成本低于其他存算結(jié)構(gòu),技術(shù)成熟,已有量產(chǎn)芯片出現(xiàn)在市場。

其二,NOR Flash屬于非易失性存儲器,可以直接存儲網(wǎng)絡(luò)權(quán)重,因此不需要片外存儲器,減小芯片成本。例如Mythic的產(chǎn)品 MP10304 PCIe并不需要額外的片外存儲;同時,非易失性可以保證數(shù)據(jù)掉電不丟失,從而實(shí)現(xiàn)即時開機(jī)/關(guān)機(jī)操作,減小靜態(tài)功耗,延長待機(jī)時間,非常適用于功耗受限的邊緣終端設(shè)備,例如國內(nèi)企業(yè)知存科技量產(chǎn)的芯片WTM2101專注于可穿戴設(shè)備,和現(xiàn)有芯片在AI算力上有數(shù)十倍到百倍的提升。

 

NOR Flash學(xué)術(shù)研究及產(chǎn)業(yè)應(yīng)用進(jìn)展

在學(xué)術(shù)方面,國內(nèi)外高校都有研究。美國加州大學(xué)圣塔芭芭拉分校的研究團(tuán)隊(duì)通過修改NOR Flash陣列結(jié)構(gòu)實(shí)現(xiàn)了對單個Flashcell的編程擦除操作,并在此基礎(chǔ)上構(gòu)建了一個包含兩層全連接層的神經(jīng)網(wǎng)絡(luò),該計(jì)算陣列識別一張圖片能耗低于20nJ。并且該團(tuán)隊(duì)還進(jìn)一步設(shè)計(jì)了計(jì)算精度為5Bit,大小為400X400的由Flash構(gòu)成的乘累加單元。北京大學(xué)的研究團(tuán)隊(duì)提出了針對大尺寸圖像卷積的分塊計(jì)算方式,實(shí)現(xiàn)了對大尺寸圖像的二維卷積操作。

在產(chǎn)業(yè)方面,國內(nèi)外企業(yè)中基于NOR Flash的存算一體都正飛速發(fā)展,且有量產(chǎn)芯片出現(xiàn)在市場。目前存算一體技術(shù)處于多種存儲介質(zhì)百花齊放的格局,如Flash、SRAM、MRAM等等。如今選擇SRAM介質(zhì)陣營的主要有蘋芯科技、后摩智能、九天睿芯;MRAM方面,三星電子于2022完成世界上第一個基于 MRAM的內(nèi)存計(jì)算流片,并發(fā)表在《nature》,而Flash陣營的代表玩家則有美國的Mythic,與國內(nèi)知存科技、合肥恒爍。

國外相關(guān)領(lǐng)域的佼佼者是美國公司Mythic,該公司于2012年成立,專注于研發(fā)深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)芯片的公司,其推出的新型的芯片和軟件,無需通過云端就能在本地設(shè)備中實(shí)現(xiàn)語音控制、計(jì)算機(jī)視覺和其他的AI技術(shù)。在2019年推出基于Flash 的神經(jīng)網(wǎng)絡(luò)處理單元IPU。IPU的性能達(dá)到4TPOS/W。Mythic于2020 年 11 月推出業(yè)界首款模擬矩陣處理器 (Mythic AMP™)。并于2021年推出 MP10304 PCIe 卡,該卡具有四個 M1076 Mythic 模擬矩陣處理器 (AMP),提供高達(dá) 100 TOP 的 AI 性能,且不需要片外存儲器,減小芯片成本,并在不到 25W 的功率下支持多達(dá) 3.2 億個權(quán)重,用于復(fù)雜的 AI 工作負(fù)載。Mythic著重在較小的功耗下實(shí)現(xiàn)高性能的神經(jīng)計(jì)算。

Mythic MP10304 Quad-Amp PCIE

 

國內(nèi)企業(yè)也在發(fā)力基于NOR Flash的存算一體。其中的領(lǐng)先者是知存科技。知存科技公司與科大訊飛合作,于2016年發(fā)布了基于Flash的MemCore001芯片,支持智能語言識別、語音降噪等多種智能語音應(yīng)用。2018年,知存科技即針對智能語音應(yīng)用場景設(shè)計(jì)了國際領(lǐng)先的高精度、低功耗Flash存算一體芯片架構(gòu),并首次應(yīng)用MemCore001/MemCore001P系列芯片。并于2022年3月宣布其WTM2101芯片正式量產(chǎn)并推向市場,WTM2101的AI算力高達(dá)50Gops,相較于可穿戴設(shè)備現(xiàn)有芯片在AI算力上有數(shù)十倍到百倍的提升。

知存科技的存算一體模塊基于高密度非易失性存儲器,8-bit量化的深度學(xué)習(xí)算法參數(shù)量支持高達(dá)1.8M個,可同時運(yùn)行2-3個高性能模型。知存科技著重在可穿戴設(shè)備方向,且已于今年實(shí)現(xiàn)量產(chǎn)芯片。

國內(nèi)的另一家企業(yè)是來自合肥的恒爍半導(dǎo)體科技公司,其于2019 年底宣布公司第一款CiNOR V1版在武漢新芯65nm NOR Flash制程上已經(jīng)完成芯片設(shè)計(jì)并流片,成功驗(yàn)證了CiNOR芯片原理和可行性,并實(shí)現(xiàn)了包括手寫識別、ECG檢測和人臉檢測等幾項(xiàng)應(yīng)用。

基于 NOR Flash 的存算一體芯片避免了傳統(tǒng) AI 架構(gòu)芯片碰到的“存儲墻”和“功率墻”瓶頸,顯著提高了運(yùn)算效率,并且大幅降低功耗,同時 NOR Flash 帶來制造成本上的競爭優(yōu)勢,成本低于其他存算結(jié)構(gòu),技術(shù)成熟,已有量產(chǎn)芯片出現(xiàn)在市場,且Flash屬于非易失性存儲器,可以直接存儲網(wǎng)絡(luò)權(quán)重,因此不需要片外存儲器,減小芯片成本。我們相信該類芯片會有更好的未來。

相關(guān)推薦

登錄即可解鎖
  • 海量技術(shù)文章
  • 設(shè)計(jì)資源下載
  • 產(chǎn)業(yè)鏈客戶資源
  • 寫文章/發(fā)需求
立即登錄

公眾號:半導(dǎo)體產(chǎn)業(yè)縱橫。立足產(chǎn)業(yè)視角,提供及時、專業(yè)、深度的前沿洞見、技術(shù)速遞、趨勢解析,鏈接產(chǎn)業(yè)資源,構(gòu)建IC生態(tài)圈,賦能中國半導(dǎo)體產(chǎn)業(yè),我們一直在路上。