• 正文
    • ChatGPT,企圖榨干算力
    • 存算一體承載和釋放ChatGPT
    • 大算力芯片需扎好馬步
  • 相關(guān)推薦
申請入駐 產(chǎn)業(yè)圖譜

榨取能源、削弱人口紅利,ChatGPT的野心不止十萬億算力

2023/03/09
1719
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

史上用戶增速最快消費級應(yīng)用ChatGPT,自去年11月底發(fā)布以來,讓全球為其狂歡,各方勢力仍持續(xù)為此“上火”:用戶急著試探ChatGPT是否真的有那么聰明,每天有超過2億的人都在瘋狂拋出各式各樣的問題“刁難”ChatGPT,并展現(xiàn)自己的“調(diào)教”成果;

(ChatGPT每日點擊訪問量統(tǒng)計 圖源:國盛證券研究所)

國內(nèi)互聯(lián)網(wǎng)大廠們基于要“活下去”的心愿和講更動聽的AI故事,急著與ChatGPT扯上關(guān)系:一時間百度騰訊、阿里等紛紛拿出相關(guān)技術(shù)布局以及底層設(shè)施儲備,為中國的ChatGPT奮力一戰(zhàn);

近3個月過去,ChatGPT熱度絲毫未減,政府也開始“急了”:

2月24日,東數(shù)西算一體化算力服務(wù)平臺在寧夏銀川正式上線發(fā)布。據(jù)悉,東數(shù)西算一體化算力服務(wù)平臺將瞄準(zhǔn)目前最稀缺、剛需迫切的ChatGPT運算能力,以支撐中國人工智能運算平臺急需的大算力服務(wù)。

目前,該平臺已吸引曙光、中國電子云、天翼云、阿里云、華為、中興等大算力頭部企業(yè),以及國家信息中心、北京大數(shù)據(jù)研究院等中國主要大數(shù)據(jù)機(jī)構(gòu)入駐。

新概念才火熱三個月,便讓政府下場彌補缺口,此等盛況實屬難見。

各方勢力蜂擁而至,足以見得,目前的算力怕是填補不了ChatGPT們的肚子,眾志成城,才能打贏ChatGPT算力攻堅戰(zhàn)。

本文試圖探究,ChatGPT到底需要多大的算力?升級算力的路子是什么?

ChatGPT,企圖榨干算力

通用AI時代來臨,人類對于算力的需求正逐漸失控。

伴隨著摩爾定律失效,大模型時代來臨,算力不再“淡定”,每5-6個月就要翻倍,以困獸沖破牢籠之勢飛速增長:

(模型發(fā)布時間及算力變化 圖源:浙商證券)

2018年,谷歌帶著3億參數(shù)BERT模型,闖進(jìn)大眾視野,開啟大規(guī)模預(yù)訓(xùn)練模型時代;在這之后,OpenAI英偉達(dá)、微軟先后推出15億參數(shù)的GPT-2、83億參數(shù)的Megatron-LM、170億參數(shù)的圖靈Turing-NLG,各個大廠暗自較勁,參數(shù)規(guī)模從十億級別競爭到了百億級別。

2020年6月,OpenAI又將算力“戰(zhàn)場”拔高了一個層級:推出1750億參數(shù)的GPT-3,把參數(shù)規(guī)模提高到千億級別。隨后一山更比一山高:微軟和英偉達(dá)在2020年10月聯(lián)手發(fā)布了5300億參數(shù)的Megatron-Turing自然語言生成模型(MT-NLG)。

2021年,國內(nèi)迎來預(yù)訓(xùn)練大模型元年。在這一年里,華為、百度、阿里等中國企業(yè)開始發(fā)力:

  • 華為云聯(lián)合北京大學(xué)發(fā)布盤古α超大規(guī)模預(yù)訓(xùn)練模型,參數(shù)規(guī)模達(dá)2000億;
  • 百度推出ERNIE 3.0 Titan模型,參數(shù)規(guī)模達(dá)2600億;
  • 阿里達(dá)摩院的M6模型參數(shù)達(dá)到10萬億,又將大模型參數(shù)帶到新的高度

······

在這之中表現(xiàn)最為亮眼的,莫過于從GPT-3迭代而來的ChatGPT,2022年底一出世就博得全球目光,無論是在模型預(yù)訓(xùn)練階段,還是模型被訪問階段,ChatGPT都對算力提出“史無前例”的要求。

在模型預(yù)訓(xùn)練階段,從GPT-1到GPT-3 ,從GPT-3 Small到GPT-3 175B,對算力的需求呈指數(shù)型增長。

在大模型的框架下,每一代 GPT 模型的參數(shù)量均高速擴(kuò)張,參數(shù)量從GPT-1的1.17億個,翻了1029倍至GPT-3 的1750 億個;

具體來看,在GPT-3歷代模型中,短短2年,參數(shù)量便從GPT-3 Small的1.25億個,翻了1399倍至GPT-3的1750億個,未來GPT-4還要翻倍:根據(jù) Altman 的介紹,預(yù)計GPT-4的參數(shù)將會達(dá)到2800億個。

與此同時,在模型被訪問階段,ChatGPT對算力同樣有著“狂熱”需求:

根據(jù)Similarweb數(shù)據(jù),ChatGPT官網(wǎng)在2023年1月27日-2月3日一周內(nèi)吸引的每日訪客數(shù)量高達(dá)2500萬。假設(shè)以目前的穩(wěn)定狀態(tài),每日每用戶提問約10個問題,則每日約有2.5億次咨詢量。

如果想要“消化”掉這2.5億次咨詢量,根據(jù)國盛證券測算,需要大量的A100 GPU芯片“連夜趕工”:

假設(shè)每個問題平均30字,單個字在A100 GPU上約消耗350ms,則一天共需消耗729,167個A100 GPU運行小時,對應(yīng)每天需要729,167/24=30,382片英偉達(dá)A100 GPU。
也就是說,目前每天2.5億次咨詢量,需要30,382片英偉達(dá)A100 GPU同時計算,才能把ChatGPT“喂飽”,以下是ChatGPT部分耗費(電費以0.08美元/kwh計算):

而以上圖表所顯示的,僅僅是2.5億咨詢量需求下,使用英偉達(dá)A100 GPU相關(guān)設(shè)備,ChatGPT所需要的算力成本。

其背后對能源的消耗,更是“觸目驚心”。

環(huán)球零碳研究中心曾粗略合計了ChatGPT全生命周期的碳足跡:自2022年11月30日運行以來,其制造設(shè)備的碳排放量超過了33.41噸,模型訓(xùn)練碳排放超過552噸,運行60天碳排放約為229.2噸。

也就是說上線兩個月的ChatGPT,全過程碳排放超過了814.61噸,而這,相當(dāng)于186個丹麥家庭每年消耗的能量。

現(xiàn)階段ChatGPT背后的大模型仍在迭代,每日訪問量仍在遞增,未來還會有更多的ChatGPT們涌現(xiàn)。彼時,算力以及其背后的功耗還能顧得過來嗎?

對此,蘇媽表示了擔(dān)憂:在ISSCC 2023上,蘇媽表示根據(jù)目前計算效率每兩年提升2.2倍的規(guī)律,預(yù)計到2035年,如果想要算力達(dá)到十萬億億級,則需要的功率可達(dá)500MW,相當(dāng)于半個核電站能產(chǎn)生的功率,“這是極為離譜、不切合實際的”。

(2010-2040功率發(fā)展情況 圖源:2023 IEEE international Solid-State Circuits Conference)

為了達(dá)到這樣的效果,我們的計算效率起碼要每兩年提升2.2倍,才能匹配上2035年的算力需求。蘇媽坦言,盡管用上目前最先進(jìn)的計算技術(shù)、最先進(jìn)的芯片,也滿足不了ChatGPT們。

而當(dāng)ChatGPT吞噬完大量算力、能源,“吃飽喝足”之后,各國打的不再是算力之爭,而是“國運之爭”:一旦搭載ChatGPT的人形機(jī)器人能夠大批量地上崗時,吃人口紅利的國家不再有顯著的優(yōu)勢。

ChatGPT們,包括未來的人形機(jī)器人們,正對算力、能源“虎視眈眈”,同時對人類的威脅也不容小覷:往小了看,影響到個人職業(yè)發(fā)展,往大了看,牽扯到國家競爭力。

存算一體承載和釋放ChatGPT

而一切的一切,都得從打好算力之爭開始。

傳統(tǒng)的AI1.0時代的代表企業(yè),例如AMD已經(jīng)開始探尋新的出路:依靠系統(tǒng)級創(chuàng)新實現(xiàn)更大的突破。系統(tǒng)級創(chuàng)新,即從整體設(shè)計的上下游多個環(huán)節(jié)協(xié)同設(shè)計來完成性能的提升。

一個經(jīng)典案例是,在對模型算法層面使用創(chuàng)新數(shù)制(例如8位浮點數(shù)FP8)的同時,在電路層對算法層面進(jìn)行優(yōu)化支持,最終實現(xiàn)計算層面數(shù)量級的效率提升:相比傳統(tǒng)的32位浮點數(shù)(FP32),進(jìn)行系統(tǒng)級創(chuàng)新的FP8則可以將計算效率提升30倍之多。而如果僅僅是優(yōu)化FP32計算單元的效率,無論如何也難以實現(xiàn)數(shù)量級的效率提升。

于是,為解決“如何用更少的電,輸出更高的算力”這一終極命題,業(yè)內(nèi)給出不少技術(shù)及方案:量子計算(量子芯片)、光機(jī)芯片、芯粒(Chiplet)、3D封裝、存算一體……。同時也有團(tuán)隊將這些技術(shù)進(jìn)行結(jié)合,以期達(dá)到系統(tǒng)級創(chuàng)新。

在這之中,現(xiàn)在能夠兼容CMOS工藝又能盡快量產(chǎn)的有芯粒、3D封裝、存算一體。而芯粒、存算一體是目前業(yè)內(nèi)普遍認(rèn)為,能夠突破 AI 算力困境,進(jìn)行架構(gòu)創(chuàng)新的兩條清晰路線。

浙商證券指出,面對未來潛在的算力指數(shù)增長,短期使用芯粒異構(gòu)技術(shù)加速各類應(yīng)用算法落地,長期來看,打造存算一體芯片,或?qū)⒊蔀槲磥硭懔ι壍臐撛诜绞健?/p>

(架構(gòu)創(chuàng)新路線 圖源:浙商證券)

芯粒異構(gòu)技術(shù)成為“種子”選手的原因是,該技術(shù)能夠突破先進(jìn)制程的封鎖,且大幅提升大型芯片的良率、降低設(shè)計成本、芯片制造成本。

而之所以說是短期,是因為該技術(shù)路徑需要犧牲一定的體積和功耗,導(dǎo)致其目前只能在基站、服務(wù)器、智能電車等領(lǐng)域廣泛使用。

為解決這一“小缺陷”,目前在學(xué)術(shù)界,已有團(tuán)隊選擇將芯粒異構(gòu)技術(shù)與存算一體架構(gòu)相融合,以期達(dá)到1+1>2的效果:

在ISSCC 2022上,復(fù)旦大學(xué)芯片與系統(tǒng)前沿技術(shù)研究院劉明院士團(tuán)隊提出多芯粒的存算一體集成芯片——COMB-MCM。

據(jù)團(tuán)隊表示,電路上COMB-MCM采用存算一體設(shè)計,能夠降低功耗、提高系統(tǒng)算力。在存算一體的加持下,該芯片具有精度無損且支持非結(jié)構(gòu)化稀疏的自適應(yīng)能效調(diào)節(jié)特點,也就補足了芯粒異構(gòu)技術(shù)的短板。

既是芯粒異構(gòu)技術(shù)的最佳拍檔之一,同時也是未來架構(gòu)創(chuàng)新路徑之一,存算一體為何能博得多方“歡心”?

這是因為存算一體成功打破了“三堵墻”:

在傳統(tǒng)馮·諾伊曼架構(gòu)之下,芯片的存儲、計算區(qū)域是分離的。計算時,數(shù)據(jù)需要在兩個區(qū)域之間來回搬運,而隨著神經(jīng)網(wǎng)絡(luò)模型層數(shù)、規(guī)模以及數(shù)據(jù)處理量的不斷增長,數(shù)據(jù)已經(jīng)面臨“跑不過來”的境況,成為高效能計算性能和功耗的瓶頸,也就是業(yè)內(nèi)俗稱的“存儲墻”。

(存儲墻限制具體表現(xiàn) 圖源:浙商證券)

存儲墻相應(yīng)地也帶來了能耗墻、編譯墻(生態(tài)墻)的問題。例如編譯墻問題,是由于大量的數(shù)據(jù)搬運容易發(fā)生擁塞,編譯器無法在靜態(tài)可預(yù)測的情況下對算子、函數(shù)、程序或者網(wǎng)絡(luò)做整體的優(yōu)化,只能手動、一個個或者一層層對程序進(jìn)行優(yōu)化,耗費了大量時間。

這“三堵墻”會導(dǎo)致算力無謂浪費:據(jù)統(tǒng)計,在大算力的AI應(yīng)用中,數(shù)據(jù)搬運操作消耗90%的時間和功耗,數(shù)據(jù)搬運的功耗是運算的650倍。

而存算一體能夠?qū)⒋鎯陀嬎闳诤?,徹底消除了訪存延遲,并極大降低了功耗?;诖耍闵套C券報告指出,存算一體的優(yōu)勢包括但不限于:具有更大算力(1000TOPS以上)、具有更高能效(超過10-100TOPS/W)、降

本增效(可超過一個數(shù)量級)······

存算一體,正在沖破三堵墻“解救”ChatGPT,加速算力升級。

大算力芯片需扎好馬步

除了架構(gòu)創(chuàng)新,芯片本身的升級迭代也非常重要。作為基石的底層芯片,需要足夠“大”,AI大算力應(yīng)用才能高樓平地起。

(ChatGPT研究框架 圖源:浙商證券)

那么AI大算力說的“大”到底是多大?

以2020年發(fā)布的GPT3預(yù)訓(xùn)練語言模型為例,采用的是2020年最先進(jìn)的英偉達(dá)A100 GPU,算力達(dá)到624 TOPS。2023年,隨著模型預(yù)訓(xùn)練階段模型迭代,又新增訪問階段井噴的需求,未來模型對于芯片算力的需求起碼要破千。

再例如自動駕駛領(lǐng)域,根據(jù)財通證券研究所表明,自動駕駛所需單個芯片的算力未來起碼1000+TOPS。

目前巨頭已開始卷上1000+TOPS的SoC,主要用于自動駕駛領(lǐng)域:在2021年4月,英偉達(dá)就已經(jīng)發(fā)布了算力為1000TOPS的DRIVE Atlan芯片。到了今年,英偉達(dá)直接推出芯片Thor達(dá)到2000TOPS。

(自動駕駛所需算力圖譜 圖源:財通證券研究所)

故,大算力背景下,大算力芯片起碼得是1000+TOPS選手。

而在符合大算力條件下,也需要考慮到“用料”的功耗、造價問題。

目前,在存算一體架構(gòu)優(yōu)勢下,億鑄科技為當(dāng)前的算力、能耗困局,給出一條解題思路:選擇有著面積更小、微縮性好等特性的RRAM實現(xiàn)“同等能耗,更大算力;同等算力,更低能耗”,為各大數(shù)據(jù)中心、自動駕駛等應(yīng)用領(lǐng)域“排憂解難”,在數(shù)字經(jīng)濟(jì)時代,實現(xiàn)綠色算力。

而在存算一體架構(gòu)下,傳統(tǒng)SRAM、閃存(Flash ) 均有著致命的缺陷,無法實現(xiàn)在大算力賽道的降本增效:

SRAM面積較大,占據(jù)了英偉達(dá)數(shù)據(jù)中心級GPU總邏輯面積的約50%。而一個A100 GPU的成本就在1萬美元以上,根據(jù)測算,成熟產(chǎn)品每GB SRAM內(nèi)存的成本將在100美元左右,最貴的存儲器當(dāng)屬SRAM。

除了成本難壓之外,SRAM也存在著不穩(wěn)定的問題。新型非易失性存儲架構(gòu)研究領(lǐng)域的專家李博士認(rèn)為,SRAM 的問題在于它的靜態(tài)電流大,當(dāng)大量的 SRAM 堆積在芯片上時,會產(chǎn)生一種被稱為 DI/DT 的工程性問題(也就是電流在短時間內(nèi)大量變化),應(yīng)用落地極具挑戰(zhàn)性。

基于這兩點考慮,SRAM 并不適合做大算力場景。李博士補充道:" 正因如此,采用 SRAM 的這些公司都在基于邊緣端做小算力的場景,比如語音識別、智能家居的喚醒、關(guān)鍵命令詞的識別等。"

同時,F(xiàn)lash也面臨著因微縮性差導(dǎo)致不穩(wěn)定的問題。傳統(tǒng)存儲器的局限性讓行業(yè)逐漸將目光逐漸轉(zhuǎn)向了新型存儲器:

  • 比如近期英飛凌宣布其下一代 AURIX ?微控制器 ( MCU ) 將采用新型非易失性存儲器 ( NVM ) RRAM ( ReRAM ) ;
  • 億鑄科技自2020成立以來,就專注于研發(fā)基于RRAM的全數(shù)字存算一體大算力AI芯片。

······

ChatGPT,需要存算一體的“解救”,也需要該架構(gòu)下,更物美價廉(微縮性好、單位面積小、成本低)的新型存儲器RRAM的大力支持。

據(jù)了解,國內(nèi)目前已公開的能夠?qū)崿F(xiàn)存算一體AI大算力的芯片公司僅有億鑄科技,該公司基于RRAM的存算一體AI大算力芯片將在今年回片。期待國內(nèi)更多玩家加入存算一體AI大算力芯片的賽道,滿足未來的“ChatGPT們”以及下游應(yīng)用場景的算力需求,同時響應(yīng)國家綠色算力號召,在“雙碳”政策下,更快實現(xiàn)AI“智力”升維。

 

相關(guān)推薦