黄色麻豆国产视频,荔枝视频男人的最爱

特邀作者：滕正如東南大學(xué) 微電子學(xué)院

基于 NOR Flash 的存算一體芯片優(yōu)點(diǎn)出眾，我們相信該類芯片有更美好的未來。

近年來，在算力急速增長的推動下，以神經(jīng)網(wǎng)絡(luò)為代表的人工智能迎來了新一輪的發(fā)展，并迅速在圖像視頻應(yīng)用、自然語言處理及其他諸多領(lǐng)域取得了驚人的成就。尤其是邊緣計(jì)算在終端設(shè)備推理的興起為人工智能提供了大量的計(jì)算設(shè)備和數(shù)據(jù)，使得人工智能具有了無限的可能。但是，神經(jīng)網(wǎng)絡(luò)對于龐大算力的需求和邊緣及終端側(cè)對于低功耗的需求之間難以調(diào)和的矛盾，嚴(yán)重阻礙了神經(jīng)網(wǎng)絡(luò)的進(jìn)一步發(fā)展和應(yīng)用，因此低功耗、高能效神經(jīng)網(wǎng)絡(luò)加速器成為了眾多企業(yè)、研究機(jī)構(gòu)的研究重點(diǎn)。

在這樣的基礎(chǔ)上，存算一體孕育而生。

為什么需要存算一體？

2018 年，美國DARPA“電子復(fù)興計(jì)劃”明確提出不再依賴摩爾定律的等比例微縮道路，旨在尋求超越傳統(tǒng)馮·諾依曼計(jì)算架構(gòu)的創(chuàng)新，利用新材料、新器件特性和集成技術(shù)，減少數(shù)據(jù)處理電路中移動數(shù)據(jù)的需求，研究新的計(jì)算拓?fù)浼軜?gòu)用于數(shù)據(jù)存儲與處理，帶來計(jì)算性能的顯著提高。

與傳統(tǒng)的計(jì)算單元和存儲單元分離的馮諾依曼架構(gòu)不同，存算一體技術(shù)可以把存儲單元同時用于計(jì)算和存儲，這樣就可以避免數(shù)據(jù)和計(jì)算結(jié)果在計(jì)算單元和存儲單元之間來回搬運(yùn)引起的功耗和帶寬瓶頸，從而實(shí)現(xiàn)功耗的大大降低。

基于NOR Flash的存算一體

而基于 NOR Flash 的存算一體方案正是受到多方關(guān)注的一條技術(shù)路線。英特爾、博世、美光、Lam Research、應(yīng)用材料、微軟、亞馬遜、軟銀都投資了基于NOR Flash的存內(nèi)計(jì)算芯片。

NOR Flash的起源和技術(shù)發(fā)展

Nor是Flash一種架構(gòu)方式。Flash存儲技術(shù)是在它之前的E2PROM (Electrically Erasable Programmable Read OnlyMemory)基礎(chǔ)上發(fā)展起來的存儲器,它跟E2PROM一樣,也是使用電學(xué)方法來存儲電荷的器件,只是E2PROM是使用兩個晶體管來構(gòu)成，而Flash存儲陣列中的存儲單元是由一個晶體管組成的。所以Flash存儲器在器件集成度、數(shù)據(jù)容量和功耗低等性能上都比之前的器件有明顯的提高。

目前性價比最高的存儲器首推閃存,閃存主要有NOR和NAND兩種類型。NOR Flash 由英特爾公司于1988年最初推出。為了提高容量/價格比，東芝公司于1989年推出NAND Flash。但相比NOR Flash來說，兩種Flash技術(shù)各有優(yōu)、缺點(diǎn)以及各自適用的場合。NOR結(jié)構(gòu)的特點(diǎn)是芯片內(nèi)執(zhí)行(XIP, eXecute In Place),這樣應(yīng)用程序可以直接在Flash閃存內(nèi)運(yùn)行,不必再把代碼讀到系統(tǒng)RAM中，節(jié)省了時間。NAND結(jié)構(gòu)的特點(diǎn)能提供極高的單元密度,可以達(dá)到高存儲密度,并且增加寫入和擦除的速度。

NOR Flash的原理

浮柵晶體管的橫截面

NOR Flash的存儲單元是浮柵晶體管，在作為存儲使用的時候每個浮柵晶體管可以存儲1bit數(shù)據(jù)。它是在金屬－氧化物半導(dǎo)體場效應(yīng)晶體管（MOSFET）的基礎(chǔ)上引入浮置柵極來存儲電荷而實(shí)現(xiàn)的。一個浮柵晶體管，由Ｐ型的襯底和在其上重?fù)诫s的Ｎ型源極和漏極、控制柵極、由氧化物包圍的多晶硅浮柵組成。浮柵是由絕緣介質(zhì)層包裹起來的，浮柵和溝道之間的很薄的氧化物層被稱為隧道氧化層，兩個多晶硅柵之間的氧化物層被稱為柵氧化層，一般是氧化物－氮化物－氧化物層組成的多晶桂層間絕緣介質(zhì)。因此，其上的電荷會輕易地流失，因而浮柵晶體管能夠應(yīng)用于NVM。

浮柵和控制柵可以用來控制源極和漏極之間溝道的形成：當(dāng)浮柵處于無電荷狀態(tài)時，浮柵晶體管會如MOSFET—樣，當(dāng)控制柵加高于閾值電壓（Threshold Voltage)的電壓時，溝道形成，浮柵晶體管處于導(dǎo)通狀態(tài)，而控制柵上加的電壓低于閾值電壓時，浮柵晶體管處于截止?fàn)顟B(tài)；當(dāng)浮柵上存儲一定量的電子后，由于浮柵的影響，會升高，浮柵晶體管更加難以導(dǎo)通。這樣，就可以通過這兩種狀態(tài)來存儲數(shù)據(jù)，分別表示“１”和“０”，并且可以通過在柵極上加一個在兩種之間的電壓，根據(jù)流過的電流來讀取存儲在浮柵晶體管中的狀態(tài)。

浮柵上的電子則可以使用溝道熱電子注入（Channek Hot Electronic Injection, CHEI）FN隧穿（Fowler-NORdheim Tunneling）兩種方式來增加和移除。CHEI通過在柵極加電壓使得溝道反型，并在源極和漏極之間加高電壓使電子向漏極加速。其中有部分電子在整個過程中僥幸因?yàn)榘l(fā)生碰撞而獲得了足夠越過隧道氧化層勢壘的動能并到達(dá)浮柵，這樣，就使得浮柵中有了多余的電子。而FN隧穿則在控制柵和襯底之間加很高的負(fù)電壓，使得它們之間形成強(qiáng)電場以降低氧化層的勢壘寬度，增加電子隧穿的幾率，使得電子從浮柵回到襯底。使用CHEI增加浮柵電子的操作稱為“編程”，而使用FN隧穿移除電子的操作稱為“擦除”。

可見，浮柵晶體管可以近似等效于一個Ｎ溝道MOSFET在柵極連接一個電容，其電學(xué)特性就像閾值電壓可調(diào)的MOSFET,也具有截止(Cut-Off)、弱反型( Weak-Inversion，亦稱Sub-threshold，亞閾值)、線性(Linear, 亦稱Triode，三極管，亦稱Ohmic，可變電阻)和飽和等工作模式，每種模式具有不同的特征。

NOR Flash陣列結(jié)構(gòu)

NOR Flash中程序和數(shù)據(jù)可存放在同一芯片上,擁有獨(dú)立的數(shù)據(jù)總線和地址總線,能夠快速隨機(jī)讀取數(shù)據(jù),也允許系統(tǒng)直接從Flash中讀取代碼執(zhí)行,而不需要先將代碼下載至RAM中再執(zhí)行;可以單字節(jié)或單字編程,但不能單字節(jié)擦除,必須以塊為單位或?qū)φ瑘?zhí)行擦除操作,在對存儲器進(jìn)行重新編程之前需要對塊或整片進(jìn)行預(yù)編程和。

NOR Flash 以并行的方式連接存儲單元，具有分離的控制線、地址線和數(shù)據(jù)線、較快的讀速度、能夠提供片上執(zhí)行的功能，但寫操作和擦除操作的時間較長，且容量低、價格高。因此NOR Flash 多被用于手機(jī)、BIOS 芯片以及嵌入式系統(tǒng)中進(jìn)行代碼存儲。

NOR Flash如何實(shí)現(xiàn)存算一體？

基于NOR Flash的存算一體基本原理是利用存儲單元的多值特性，通過器件本征的物理電氣行為（例如基爾霍夫定律與歐姆定律）來實(shí)現(xiàn)多值MAC 運(yùn)算。每個存儲單元可以看作一個可變電導(dǎo)/電阻，用來存儲網(wǎng)絡(luò)權(quán)重，當(dāng)在每一行施加電流/電壓（激勵）時，每一列即可得到MAC 運(yùn)算的電壓/電流值。

基于Flash的MAC運(yùn)算基本原理

我們以基于Flash單元的電壓式模擬乘法器為例。模擬乘法器由兩個Flash單元構(gòu)成，這兩個Flash管柵極(G)相連并接固定電壓，漏極(D)相連接電壓VDS，源極(S)的電流相減為輸出電流ID。外部輸入數(shù)據(jù)X經(jīng)過DAC(Digital to Analog Converter，數(shù)模轉(zhuǎn)換器)轉(zhuǎn)換為模擬電壓VDS，得到的輸出電流經(jīng)過ADC (Analog to Digital Converter,模數(shù)轉(zhuǎn)換器)轉(zhuǎn)換為數(shù)字信號輸出?？梢允褂脙蓚€工作在線性區(qū)的Flash管實(shí)現(xiàn)模擬乘法。

電壓式模擬乘法器結(jié)構(gòu)圖

NOR Flash相比其他存算結(jié)構(gòu)的優(yōu)勢

Flash器件于1967年被施敏發(fā)明，在MOS管的柵極增加一個浮柵，通過改變浮柵中的電荷達(dá)到存儲數(shù)據(jù)的目的。經(jīng)過50多年的發(fā)展,浮柵器件的制造工藝已經(jīng)非常成熟，成品質(zhì)量穩(wěn)定。浮柵單元具有密度大，效率高的特點(diǎn)，適合作為實(shí)現(xiàn)存算一體架構(gòu)的介質(zhì)。

存算結(jié)構(gòu)特點(diǎn)對比

相比其他存算結(jié)構(gòu)，NOR Flash有兩大突出優(yōu)勢。

其一，因?yàn)槠溟L期的應(yīng)用和發(fā)展，閃存技術(shù)已經(jīng)非常成熟，NOR Flash 已被大量應(yīng)用于手機(jī)、BIOS 芯片以及嵌入式系統(tǒng)中進(jìn)行代碼存儲。美光（Micron) NOR Flash 產(chǎn)品線總監(jiān) Richard De Caro 曾表示，在傳統(tǒng)的精密電子產(chǎn) 品的生產(chǎn)中，NORFlash的作用舉足輕重，涵蓋了各個細(xì)分市場。根據(jù) Richard De Caro 的估算，每年 NOR Flash 的出貨量超過 60 億顆。NOR Flash成本低于其他存算結(jié)構(gòu)，技術(shù)成熟，已有量產(chǎn)芯片出現(xiàn)在市場。

其二，NOR Flash屬于非易失性存儲器，可以直接存儲網(wǎng)絡(luò)權(quán)重，因此不需要片外存儲器，減小芯片成本。例如Mythic的產(chǎn)品 MP10304 PCIe并不需要額外的片外存儲；同時，非易失性可以保證數(shù)據(jù)掉電不丟失，從而實(shí)現(xiàn)即時開機(jī)/關(guān)機(jī)操作，減小靜態(tài)功耗，延長待機(jī)時間，非常適用于功耗受限的邊緣終端設(shè)備，例如國內(nèi)企業(yè)知存科技量產(chǎn)的芯片WTM2101專注于可穿戴設(shè)備，和現(xiàn)有芯片在AI算力上有數(shù)十倍到百倍的提升。

NOR Flash學(xué)術(shù)研究及產(chǎn)業(yè)應(yīng)用進(jìn)展

在學(xué)術(shù)方面，國內(nèi)外高校都有研究。美國加州大學(xué)圣塔芭芭拉分校的研究團(tuán)隊(duì)通過修改NOR Flash陣列結(jié)構(gòu)實(shí)現(xiàn)了對單個Flashcell的編程擦除操作,并在此基礎(chǔ)上構(gòu)建了一個包含兩層全連接層的神經(jīng)網(wǎng)絡(luò)，該計(jì)算陣列識別一張圖片能耗低于20nJ。并且該團(tuán)隊(duì)還進(jìn)一步設(shè)計(jì)了計(jì)算精度為5Bit,大小為400X400的由Flash構(gòu)成的乘累加單元。北京大學(xué)的研究團(tuán)隊(duì)提出了針對大尺寸圖像卷積的分塊計(jì)算方式，實(shí)現(xiàn)了對大尺寸圖像的二維卷積操作。

在產(chǎn)業(yè)方面，國內(nèi)外企業(yè)中基于NOR Flash的存算一體都正飛速發(fā)展，且有量產(chǎn)芯片出現(xiàn)在市場。目前存算一體技術(shù)處于多種存儲介質(zhì)百花齊放的格局,如Flash、SRAM、MRAM等等。如今選擇SRAM介質(zhì)陣營的主要有蘋芯科技、后摩智能、九天睿芯；MRAM方面，三星電子于2022完成世界上第一個基于 MRAM的內(nèi)存計(jì)算流片，并發(fā)表在《nature》，而Flash陣營的代表玩家則有美國的Mythic，與國內(nèi)知存科技、合肥恒爍。

國外相關(guān)領(lǐng)域的佼佼者是美國公司Mythic，該公司于2012年成立，專注于研發(fā)深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)芯片的公司，其推出的新型的芯片和軟件，無需通過云端就能在本地設(shè)備中實(shí)現(xiàn)語音控制、計(jì)算機(jī)視覺和其他的AI技術(shù)。在2019年推出基于Flash 的神經(jīng)網(wǎng)絡(luò)處理單元IPU。IPU的性能達(dá)到4TPOS/W。Mythic于2020 年 11 月推出業(yè)界首款模擬矩陣處理器（Mythic AMP™）。并于2021年推出 MP10304 PCIe 卡，該卡具有四個 M1076 Mythic 模擬矩陣處理器 (AMP)，提供高達(dá) 100 TOP 的 AI 性能，且不需要片外存儲器，減小芯片成本，并在不到 25W 的功率下支持多達(dá) 3.2 億個權(quán)重，用于復(fù)雜的 AI 工作負(fù)載。Mythic著重在較小的功耗下實(shí)現(xiàn)高性能的神經(jīng)計(jì)算。

Mythic MP10304 Quad-Amp PCIE卡

國內(nèi)企業(yè)也在發(fā)力基于NOR Flash的存算一體。其中的領(lǐng)先者是知存科技。知存科技公司與科大訊飛合作，于2016年發(fā)布了基于Flash的MemCore001芯片，支持智能語言識別、語音降噪等多種智能語音應(yīng)用。2018年，知存科技即針對智能語音應(yīng)用場景設(shè)計(jì)了國際領(lǐng)先的高精度、低功耗Flash存算一體芯片架構(gòu)，并首次應(yīng)用MemCore001/MemCore001P系列芯片。并于2022年3月宣布其WTM2101芯片正式量產(chǎn)并推向市場，WTM2101的AI算力高達(dá)50Gops，相較于可穿戴設(shè)備現(xiàn)有芯片在AI算力上有數(shù)十倍到百倍的提升。

知存科技的存算一體模塊基于高密度非易失性存儲器，8-bit量化的深度學(xué)習(xí)算法參數(shù)量支持高達(dá)1.8M個，可同時運(yùn)行2-3個高性能模型。知存科技著重在可穿戴設(shè)備方向，且已于今年實(shí)現(xiàn)量產(chǎn)芯片。

國內(nèi)的另一家企業(yè)是來自合肥的恒爍半導(dǎo)體科技公司，其于2019 年底宣布公司第一款CiNOR V1版在武漢新芯65nm NOR Flash制程上已經(jīng)完成芯片設(shè)計(jì)并流片，成功驗(yàn)證了CiNOR芯片原理和可行性，并實(shí)現(xiàn)了包括手寫識別、ECG檢測和人臉檢測等幾項(xiàng)應(yīng)用。

基于 NOR Flash 的存算一體芯片避免了傳統(tǒng) AI 架構(gòu)芯片碰到的“存儲墻”和“功率墻”瓶頸，顯著提高了運(yùn)算效率，并且大幅降低功耗，同時 NOR Flash 帶來制造成本上的競爭優(yōu)勢，成本低于其他存算結(jié)構(gòu)，技術(shù)成熟，已有量產(chǎn)芯片出現(xiàn)在市場，且Flash屬于非易失性存儲器，可以直接存儲網(wǎng)絡(luò)權(quán)重，因此不需要片外存儲器，減小芯片成本。我們相信該類芯片會有更好的未來。

?存算一體：NOR Flash沖向新巔峰

為什么需要存算一體？

基于NOR Flash的存算一體

NOR Flash的起源和技術(shù)發(fā)展

NOR Flash的原理

NOR Flash如何實(shí)現(xiàn)存算一體？

NOR Flash相比其他存算結(jié)構(gòu)的優(yōu)勢

NOR Flash學(xué)術(shù)研究及產(chǎn)業(yè)應(yīng)用進(jìn)展

相關(guān)推薦

?存算一體：NOR Flash沖向新巔峰

為什么需要存算一體？

基于NOR Flash的存算一體

NOR Flash的起源和技術(shù)發(fā)展

NOR Flash的原理

NOR Flash如何實(shí)現(xiàn)存算一體？

NOR Flash相比其他存算結(jié)構(gòu)的優(yōu)勢

NOR Flash學(xué)術(shù)研究及產(chǎn)業(yè)應(yīng)用進(jìn)展

相關(guān)推薦

為什么需要存算一體？

NOR Flash如何實(shí)現(xiàn)存算一體？