沐曦集成電路(上海)有限公司 CEO陳維良
近日,在蘇州高新區(qū)舉辦的中國(guó)集成電路設(shè)計(jì)創(chuàng)新大會(huì)暨 IC 應(yīng)用博覽會(huì)(ICDIA 2021)上,沐曦集成電路(上海)有限公司 CEO陳維良帶來(lái)主題為《高性能GPU的性能與挑戰(zhàn)》的精彩分享,以下為報(bào)告全文:
我在GPU行業(yè)20年,GPU架構(gòu)IP、產(chǎn)品化各方面都做過(guò),也見(jiàn)證了GPU的發(fā)展歷史。換句話說(shuō)其實(shí)我以前挺不喜歡GPU的,GPU最開(kāi)始的應(yīng)用做游戲場(chǎng)景的繪制,做家長(zhǎng)特別狠游戲,所以我是在后來(lái)看到GPU發(fā)展到另外一個(gè)方向的時(shí)候就更深深喜歡上了GPU。
GPU從游戲場(chǎng)景的繪制發(fā)展到現(xiàn)在一個(gè)通用計(jì)算的處理器,所以它的重要性大大的提高了,非常榮幸今天有機(jī)會(huì)和大家分享一下我20來(lái)年對(duì)GPU的理解。報(bào)告分成三個(gè)部分,第一個(gè)部分談?wù)劯咝阅蹽PU的機(jī)遇,介紹一下我理解的高性能GPU的挑戰(zhàn),然后在匯報(bào)一下我個(gè)人的思考。
機(jī)遇來(lái)自于需求,我們先建立起一個(gè)共識(shí)。我們今天是處于大數(shù)據(jù)時(shí)代,一個(gè)智能計(jì)算的時(shí)代,很重要的理念就是算力很重要,算力是生產(chǎn)力。有一張圖簡(jiǎn)單的表述算力的重要性,可以看到很強(qiáng)的相關(guān)性,就是人均算力和人均GDP的相關(guān)性,發(fā)達(dá)國(guó)家如美國(guó)人均GDP非常高我們都知道,人均算力非常高。
換句話說(shuō)在未來(lái)進(jìn)入大數(shù)據(jù)時(shí)代提高人均算力對(duì)我們國(guó)家非常重要,所以我想總結(jié)三句話:
第一,高性能計(jì)算加上機(jī)器學(xué)習(xí)是我們?nèi)祟愓J(rèn)知世界的望遠(yuǎn)鏡。
第二,高性能計(jì)算加機(jī)器學(xué)習(xí)是我們數(shù)字經(jīng)濟(jì)發(fā)展的發(fā)動(dòng)機(jī)。
第三,GPU的重要性,GPU最適合做高性能計(jì)算和機(jī)器學(xué)習(xí)的。
我稍微展開(kāi)一下,我們?nèi)祟愄剿鬟@個(gè)世界經(jīng)過(guò)了不同時(shí)代,不同時(shí)代科學(xué)技術(shù)發(fā)展的不同程度有不同的方式。以前靠觀察,我們提出很多理論,到今天或者說(shuō)近十來(lái)年我們很重要的一件事情就是積累了大量的數(shù)據(jù),我們需要通過(guò)大量的計(jì)算讓這些數(shù)據(jù)產(chǎn)生它的價(jià)值。
計(jì)算這件事情從左邊這張圖看得到,我們實(shí)際上對(duì)于很多理論的構(gòu)建都已經(jīng)非常完整了,但是在應(yīng)用到實(shí)踐的時(shí)候解決真正的實(shí)際問(wèn)題的時(shí)候,你會(huì)發(fā)現(xiàn)計(jì)算量非常龐大,這里有個(gè)概念叫維數(shù)災(zāi)難,變量太多,計(jì)算的情況特別復(fù)雜,就算我們用現(xiàn)在最強(qiáng)的超級(jí)計(jì)算機(jī)都要花無(wú)法忍受的工程上的結(jié)果解決工程上的問(wèn)題,右邊這張圖給我們提出一個(gè),換句話說(shuō)到今天我們利用機(jī)器學(xué)習(xí),利用大數(shù)據(jù),我們通過(guò)學(xué)習(xí)建模更容易的去降維,去解決實(shí)際的問(wèn)題,所以說(shuō)今天我們得出一個(gè)關(guān)鍵性的結(jié)論就是大數(shù)據(jù)計(jì)算或者說(shuō)AI對(duì)我們研究實(shí)際問(wèn)題,解決實(shí)際問(wèn)題提供了一個(gè)很大的幫助。
剛剛回到前面講,高性能計(jì)算加AI為什么是望遠(yuǎn)鏡,我們可以通過(guò)這種方式解決更多的問(wèn)題看得更遠(yuǎn)。舉個(gè)例子,比較復(fù)雜計(jì)算過(guò)去的收斂,下來(lái)可以通過(guò)我們構(gòu)建一種神經(jīng)網(wǎng)絡(luò)去做相應(yīng)的網(wǎng)絡(luò)的訓(xùn)練,解決一些方程式的解法,比較笨的方法達(dá)不到的效果,所以在大數(shù)據(jù)時(shí)代,數(shù)據(jù)暴爭(zhēng)的時(shí)代,怎么樣讓數(shù)據(jù)變的有價(jià)值,很重要的一點(diǎn)我們需要強(qiáng)大的算力,所以算力是可以比喻成發(fā)動(dòng)機(jī),讓我們的數(shù)據(jù)作為燃料產(chǎn)生它的價(jià)值,解決我們實(shí)際的問(wèn)題,從右邊的兩張圖上看得出來(lái),我們過(guò)去這十來(lái)年數(shù)據(jù)的增長(zhǎng)速度,基本上呈指數(shù)的增長(zhǎng)。
算力只考慮傳統(tǒng)的處理器GPU,算力按照摩爾的定律是呈線性增長(zhǎng)的,這張圖上表現(xiàn)出來(lái)的算力右邊其實(shí)是GPU,左邊是CPU。
所以GPU在算力上面具有巨大的優(yōu)勢(shì),為什么?主要體現(xiàn)在GPU發(fā)展歷史上面,過(guò)去GPU是專用的處理器后來(lái)變的通用,通用以后通用可編程,通過(guò)編程的問(wèn)題解決問(wèn)題,GPU和CPU差別上可以明顯的看出來(lái),左邊是CPU的體系結(jié)構(gòu),里面的計(jì)算的運(yùn)算單元非常少的,只有少數(shù)并行跑幾個(gè)線程,主要的優(yōu)勢(shì)體現(xiàn)在非??斓姆磻?yīng),低延時(shí)。
右邊是代表的GPU的架構(gòu),左邊基本上看不到的那些小方塊橙色的,就是指令的派遣,右邊一大堆的藍(lán)色的方塊組合在一起,這些小藍(lán)色的方塊都是運(yùn)算單元,換句話說(shuō)里面有上千的線程可以跑,非常多的數(shù)據(jù)。
所以當(dāng)算力受到功耗限制的時(shí)候,是單位功耗能夠產(chǎn)生算力非常重要的,GPU的并行性這方面有巨大的優(yōu)勢(shì)。
可以看得到,比較流行的,大家用得最多的,不管是分子建模還是高性能計(jì)算,流體力學(xué)很多方面重要的應(yīng)用程序或者說(shuō)工業(yè)軟件,排前20的,基本上支持GPU的計(jì)算,所以這個(gè)是比較重大的異構(gòu)計(jì)算的趨勢(shì)。
同時(shí),AI現(xiàn)在是一個(gè)很火的概念,那GPU對(duì)AI架構(gòu)的支持現(xiàn)在非常成熟了,可以說(shuō)目前AI的應(yīng)用里面不管是訓(xùn)練還是推理,絕大部分還是GDP在支持它的運(yùn)算力。
從全球的超級(jí)計(jì)算機(jī)的結(jié)構(gòu)上看,我們國(guó)家在超級(jí)計(jì)算機(jī)上面的投入非常大,但我們國(guó)家的超級(jí)計(jì)算機(jī)有一個(gè)特點(diǎn),這張圖看得出來(lái),排名前五的超級(jí)計(jì)算及能效高的美國(guó)的超算異構(gòu)的結(jié)構(gòu),CPU加上GPU,CPU提供一個(gè)控制的作用,任務(wù)分配的作用,協(xié)調(diào)的作用,而95%以上的算力按高性能的GPU提供的,我們國(guó)家的太湖之光全市CPU,從功耗用的核心數(shù)大家看得出來(lái)非常明顯,異構(gòu)的優(yōu)勢(shì)。
不信的是高性能的GDP到目前為止還是被國(guó)外的兩家公司壟斷,所以在核心算力受制于人的情況下其實(shí)產(chǎn)生了很多的風(fēng)險(xiǎn)和問(wèn)題,這也是我們要解決的問(wèn)題。這個(gè)是基于挑戰(zhàn)在哪里,是需要帶來(lái)的機(jī)遇,挑戰(zhàn)是經(jīng)過(guò)簡(jiǎn)單的總結(jié)把它歸納成三句話:
第一它難度非常大,
第二它的周期非常長(zhǎng),
第三投入非常大。
難度為什么大?左邊這個(gè)圖是非常簡(jiǎn)單的一種框圖,GPU里面綠色的這些框框就是我們成為的子系統(tǒng),一個(gè)GPU里面的行業(yè)IP這個(gè)和占了GPU80%以上的面積,也是里面最復(fù)雜的,里面很多子系統(tǒng),每個(gè)子系統(tǒng)也是超級(jí)復(fù)雜的,架構(gòu)的復(fù)雜度需要長(zhǎng)期的經(jīng)驗(yàn)積累,GPU的架構(gòu)加上復(fù)雜的IP設(shè)計(jì)最后變成高性能GPU的SOC。
可見(jiàn)這里面堆積的數(shù)目500多億,它提供的算力,消耗的功耗,這個(gè)里面的設(shè)計(jì)復(fù)雜度非常高的,既有系統(tǒng)性的,又有復(fù)雜的IP和算法,做成芯片以后,一塊GPU的算力就算這樣在雙精度浮點(diǎn)的情況下也就是十來(lái)個(gè)T的算力。
要達(dá)到超算的水平,P級(jí)E級(jí)的水平需要很多的互聯(lián),所以多卡的互聯(lián)也是一個(gè)巨復(fù)雜的事情,再加上GPU本身,軟件站非常深,提供的靈活性很大程度上來(lái)自于功夫,來(lái)自于軟件站的復(fù)雜程度,GPU從上到下的軟件,不光有驅(qū)動(dòng),還有編譯器有豐富的庫(kù),這樣巨復(fù)雜的軟硬件系統(tǒng)到了不同的落地場(chǎng)景,針對(duì)不同的落地場(chǎng)景進(jìn)行優(yōu)化,整個(gè)大的系統(tǒng)難度非常大的,周期非常長(zhǎng)了。
一塊GPU從立項(xiàng)到上市最少需要3-5年,IP設(shè)計(jì)、芯片的設(shè)計(jì)、測(cè)試、軟件的成熟,診斷不同的應(yīng)用場(chǎng)景和生態(tài),需要構(gòu)建這么復(fù)雜的軟件系統(tǒng),所以周期非常長(zhǎng)的。
當(dāng)然需要巨大的投入,這張圖只是從一個(gè)本身硬件芯片設(shè)計(jì)和溜片帶來(lái)的成本,一次性投入再加上現(xiàn)在要最好的工藝能效比這樣的紅線非常陡峭的。換句話說(shuō)整個(gè)的成本不管是一次性成本還是生產(chǎn)出來(lái)之后上量以后的成本都是增長(zhǎng)非常的快的,這張圖是從研發(fā)成本角度看,尤其是右邊這個(gè)圖特別有意義,不同的制成的情況下,對(duì)大一型芯片的投入,可以看到納米以后,一顆芯片幾十億人民幣的投入。
在這么好的機(jī)會(huì)的情況下有這么大的需求,尤其是國(guó)家戰(zhàn)略性的產(chǎn)品,面對(duì)這樣的挑戰(zhàn)我們?cè)趺赐黄坪蛣?chuàng)新,最重要的一點(diǎn)突破非常好的時(shí)代和非常好的機(jī)會(huì)去從零到一的進(jìn)行突破。
強(qiáng)烈國(guó)產(chǎn)替代的需求尤其是供應(yīng)鏈不安全,這次從國(guó)家戰(zhàn)略的層面是一個(gè)巨大的風(fēng)險(xiǎn),所以給了我們很多的機(jī)會(huì)去尋找一定的市場(chǎng),從0-1突破,0-1以后怎么從0-100。
我們可以看到GPU整個(gè)發(fā)展過(guò)程當(dāng)中架構(gòu)一直都在變,所以從最開(kāi)始的時(shí)候渲染游戲只是一個(gè)所謂的固定流水線,不具有編程性,到它繪制非常復(fù)雜的場(chǎng)景,渲染真實(shí)感的場(chǎng)景,所以進(jìn)行編程,編的靈活,到后來(lái)進(jìn)行大數(shù)據(jù)計(jì)算,我們必須著名的,英偉達(dá)加入制成的情況下,對(duì)里面的這個(gè),專門對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行處理,不斷跟自己的架構(gòu),不斷引入自己的算力,從這個(gè)角度來(lái)講不同的計(jì)算,不同的指令能效比不一樣的,基于應(yīng)用的一種可重構(gòu)的GPU架構(gòu)比較有希望的方向或者可以創(chuàng)新的點(diǎn)。
從這個(gè)角度來(lái)講重構(gòu)這件事情本身也是有不同的顆粒度,而且有很多地方可以重構(gòu)不管是運(yùn)算單元還是里面的數(shù)據(jù)流向還是里面的分配很多地方都是可以重構(gòu)的,這個(gè)也是我們創(chuàng)新的一個(gè)點(diǎn)。
另外可以看得到,如果說(shuō)不對(duì)制成的情況下,對(duì)進(jìn)行相應(yīng)基于應(yīng)用的優(yōu)化實(shí)際上能效比不好的,一旦加入一定架構(gòu)上的創(chuàng)新變的更靈活以后,能效比非常接近。同時(shí)有一個(gè)巨大的優(yōu)勢(shì)就是它的可編程性,通用性,它能解決的問(wèn)題非常寬泛的,任何需要大量的數(shù)據(jù)計(jì)算的地方都可以使用GPU。
另外一個(gè)我們今天很多的嘉賓談到這一點(diǎn),在后摩爾時(shí)代,先進(jìn)封裝,系統(tǒng)集成這些方面也是新的機(jī)會(huì),是在單芯片創(chuàng)新的基礎(chǔ)之上,系統(tǒng)級(jí)在互聯(lián)級(jí)甚至在數(shù)據(jù)中心處理整個(gè)大的數(shù)據(jù)中心的角度有更多創(chuàng)新的機(jī)會(huì)。
所以我們處于非常好的時(shí)代有非常好的機(jī)會(huì),面臨巨大的挑戰(zhàn),所以需要有智之士,需要有恒心毅力的,在半導(dǎo)體行業(yè)里沉得下心來(lái),真正的打磨做事情的這樣的團(tuán)隊(duì)去解決這樣的實(shí)際的困難。我們集成電路去年9月份才成立,正是基于這樣的時(shí)代責(zé)任感,我們有一個(gè)非常讓人驕傲的團(tuán)隊(duì)。