剛剛,商湯又多了一項(xiàng)“亞洲第一”。
就在上海臨港,商湯自建的人工智能計(jì)算中心(AIDC)交付使用,一舉成為亞洲最大的AI超算中心(至少是之一)。這也是“亞洲營(yíng)收第一”,“亞洲AI軟件第一股”之后,商湯開啟的新標(biāo)簽。
不同的是,這次,很硬。
單從算力來(lái)看,商湯AIDC總算力達(dá)到3740 Petaflops,相當(dāng)于每秒進(jìn)行374億億次浮點(diǎn)運(yùn)算,374后面16個(gè)“0”,可完整訓(xùn)練萬(wàn)億參數(shù)大模型。
這個(gè)規(guī)模,放在全國(guó)、甚至全亞洲已投產(chǎn)的計(jì)算中心里都是第一梯隊(duì)。
在剛剛過去的2021年,各大城市建設(shè)AIDC你爭(zhēng)我趕,好不熱鬧。北上廣深自不必說、南京武漢合肥西安AIDC項(xiàng)目也紛紛上馬。
根據(jù)國(guó)家工信安全智庫(kù)發(fā)布的《新一代人工智能算力基礎(chǔ)設(shè)施發(fā)展研究》,國(guó)內(nèi)AIDC建設(shè)整體思路是政企合作。建設(shè)模式多為政府出資招標(biāo)、政企合資,承建方也多為傳統(tǒng)IT基礎(chǔ)設(shè)施服務(wù)商、云服務(wù)商。
商湯AI算法起家,僅一期就自投56億元研發(fā)建設(shè)一個(gè)如此重資產(chǎn)的項(xiàng)目屬實(shí)少見,開了國(guó)內(nèi)先例。
這家AI公司的基礎(chǔ)設(shè)施建成了什么樣子?有什么特別之處?又為何選擇自建?這一系列問題自商湯AIDC項(xiàng)目自2020年3月首次宣布以來(lái)都是外界好奇所在。
今天借著正式落成的機(jī)會(huì),我們就來(lái)一一解答。
耗資56億元打造出大裝置的“基石”
據(jù)了解,商湯AIDC占地面積80畝,建筑面積13萬(wàn)平方米,是亞洲最大的超算中心之一。
其中,光是投入運(yùn)營(yíng)的一期機(jī)柜數(shù)量就達(dá)到5000個(gè),國(guó)產(chǎn)硬件占了50%;后續(xù)二期“完成體”建成后,算力會(huì)比現(xiàn)在的3740P至少翻一番。
作為AI算法和平臺(tái)的底層基礎(chǔ)設(shè)施,商湯AIDC并非僅僅是一個(gè)堆疊大量服務(wù)器、AI專用處理器、聯(lián)網(wǎng)設(shè)備等硬件的“物理倉(cāng)庫(kù)”,相反自研了不少技術(shù)來(lái)提升算力:
高性能計(jì)算引擎。這個(gè)引擎介于硬件和平臺(tái)之間,專門用來(lái)“壓榨”各種芯片,提升它們的計(jì)算能力。結(jié)合全圖優(yōu)化技術(shù),還能將引擎能力延展到AI模型計(jì)算、預(yù)處理和后處理階段。
分布式任務(wù)調(diào)度系統(tǒng)。單一芯片以外,多芯片的協(xié)同計(jì)算能力同樣重要,商湯的這一系統(tǒng)便是為此研發(fā),目前在已投入使用的集群中每年調(diào)度超過2000萬(wàn)個(gè)任務(wù),進(jìn)一步降低成本。
除了這兩大硬件技術(shù)以外,商湯還針對(duì)數(shù)據(jù)交換(輸入/輸出)、軟硬件協(xié)同設(shè)計(jì)和系統(tǒng)安全進(jìn)行了設(shè)計(jì),在提升模型生產(chǎn)效率、拔高算力的同時(shí),確保用戶使用的安全性。
問題來(lái)了,一度以AI算法出名的商湯,為何要投入56億元自建一個(gè)智算中心?
這就要提到AIDC在商湯版圖中的定位了——它是整個(gè)商湯大裝置的“基石”。
商湯大裝置,類似于AI版“發(fā)電廠”,包含計(jì)算基礎(chǔ)設(shè)施、深度學(xué)習(xí)平臺(tái)和模型層,能夠像大規(guī)模發(fā)電一樣,批量化地生產(chǎn)各種AI算法模型(還能部署、迭代和升級(jí))。
AIDC上運(yùn)行著商湯大裝置中的所有AI算法和平臺(tái),此次投入使用,相當(dāng)于將整個(gè)大裝置的能力完全開放了出來(lái),即整個(gè)商湯這些年儲(chǔ)備的“AI能力”。
這個(gè)能力,本質(zhì)上是從0到1半自動(dòng)、自適應(yīng)化生產(chǎn)AI模型的能力:
一個(gè)人無(wú)需擁有AI知識(shí),只需要給定模型的輸入和輸出條件(端到端,例如輸入一段話,輸出一幅畫),商湯大裝置就能快速DIY一個(gè)AI模型。
因此,AIDC既能獨(dú)立作為智算中心、也能作為大裝置的基石運(yùn)行。
從智算中心角度而言,商湯AIDC最近加入了國(guó)家(上海)新型互聯(lián)網(wǎng)交換中心,不僅能提供網(wǎng)絡(luò)服務(wù),本身也能作為算力云平臺(tái)進(jìn)行使用。
事實(shí)上,在AIDC正式對(duì)外開放之前,商湯內(nèi)部就已經(jīng)在它基礎(chǔ)上,訓(xùn)練出了不少成功的算法案例。
例如,最近剛發(fā)布的“書生”模型(INTERN),覆蓋了分類、目標(biāo)檢測(cè)、語(yǔ)義分割、深度估計(jì)四大視覺核心任務(wù),就是在AIDC上訓(xùn)練出來(lái)的。
相較于OpenAI的CLIP,“書生”只需要10%的下游數(shù)據(jù),就能超過CLIP基于完整下游數(shù)據(jù)的任務(wù)準(zhǔn)確率,很好地hold住了數(shù)據(jù)量不足的長(zhǎng)尾場(chǎng)景、以及通用大模型的需求場(chǎng)景這兩大問題。
而作為大裝置的一部分,商湯AIDC在面對(duì)產(chǎn)業(yè)、科研和政府的“AI+”需求時(shí),又能很好地作為一個(gè)物理平臺(tái)去生產(chǎn)和運(yùn)行AI模型。
其中,產(chǎn)業(yè)中的大量傳統(tǒng)行業(yè),就能借助大裝置更快地完成數(shù)字化轉(zhuǎn)型;政府則能利用AI進(jìn)行城市治理、打造智慧鄉(xiāng)村;而針對(duì)如今AI for Science場(chǎng)景,像生物方向的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)、或是理化方向的公式推導(dǎo)等,大裝置同樣能幫助科研機(jī)構(gòu)實(shí)現(xiàn)一整套用AI算法完成理論實(shí)驗(yàn)的流程。
當(dāng)然,這些還都只是從定義上來(lái)看,AIDC所能實(shí)現(xiàn)的基礎(chǔ)能力。
從商湯角度來(lái)說,這一整套自建的AIDC,相對(duì)于其他的智算中心究竟有什么優(yōu)勢(shì)?
“商湯版”AIDC,有何優(yōu)勢(shì)?
主要有五大核心競(jìng)爭(zhēng)力。
其一,高彈性算力。作為一年AI頂會(huì)發(fā)表五十余篇論文、有“算法工廠”之稱的商湯,從算法角度對(duì)于各種模型的硬件訓(xùn)練和需求有自己的話語(yǔ)權(quán)。
小到某一特定任務(wù)的算法模型,大到百億參數(shù)的通用模型,研究人員都需要在AIDC上運(yùn)行,這方面的經(jīng)驗(yàn)商湯已經(jīng)積累成了一個(gè)算法平臺(tái),也因此能讓AIDC的算力在最大程度上被充分利用。
用商湯副總裁楊帆的話來(lái)說就是:“我們的AI算法科學(xué)家會(huì)對(duì)硬件算力提出需求,所以知道這個(gè)智算中心最好要做成什么樣子。”
其二,低算力成本。一方面,商湯通過提升軟件平臺(tái)的兼容性,來(lái)適配各種國(guó)產(chǎn)硬件,從而實(shí)現(xiàn)成本降低。也就是無(wú)論模型在哪個(gè)牌子的硬件上訓(xùn)練或推理,商湯的平臺(tái)都能兼容,這就使得在供應(yīng)鏈上能取得話語(yǔ)權(quán),從而降低硬件成本。
另一方面,商湯對(duì)于AI數(shù)據(jù)的存儲(chǔ)進(jìn)行了一個(gè)針對(duì)性的設(shè)計(jì),相比于過去的結(jié)構(gòu)化數(shù)據(jù),商湯自研的存儲(chǔ)系統(tǒng)能針對(duì)性地根據(jù)特定類型的任務(wù),提速AI數(shù)據(jù)的存取。
其三,高安全性。商湯AIDC針對(duì)隱私計(jì)算做了大量工作,包括沙箱和多方安全計(jì)算等,不僅能做到數(shù)據(jù)的網(wǎng)絡(luò)隔離,而且能做到物理隔離。
同時(shí),針對(duì)數(shù)據(jù)使用權(quán)進(jìn)行了一個(gè)界定,最大程度上確??蛻舻臄?shù)據(jù)不被泄露、或是在確保隱私的情況下被合理使用。
其四,低網(wǎng)絡(luò)時(shí)延。對(duì)于AIDC本身而言,接入國(guó)家(上海)新型互聯(lián)網(wǎng)交換中心不僅讓訪問時(shí)延更低,而且意味著整體網(wǎng)絡(luò)服務(wù)成本更低,質(zhì)量更高;
同時(shí),對(duì)于大裝置而言,AIDC的集群網(wǎng)絡(luò)設(shè)計(jì)基于RDMA(高速通信網(wǎng)絡(luò))技術(shù),又能進(jìn)一步提升模型訓(xùn)練的速度。
其五,低碳性。除了性能以外,商湯AIDC的能耗也控制得不錯(cuò),PUE做到了1.28,這意味著相對(duì)于運(yùn)行服務(wù)器等硬件的能耗,支撐數(shù)據(jù)中心運(yùn)行的燈光和空調(diào)等費(fèi)用是非常低的。
具體來(lái)說,AIDC功耗比國(guó)內(nèi)其他數(shù)據(jù)中心低10%,相當(dāng)于每年都能節(jié)省約4500萬(wàn)度電(一臺(tái)普通手機(jī)使用一年,功耗總量也不到10度電)。
這也使得商湯AIDC雖然不是最早做的,但卻能在行業(yè)中站到一個(gè)相對(duì)領(lǐng)先的位置。
回望過去的計(jì)算中心發(fā)展史,這大約并不是一個(gè)“偶發(fā)性事件”。
誕生于AI時(shí)代洪流之中
聽上去,AIDC或者叫人工智能計(jì)算中心,似乎是一個(gè)頗為新鮮的概念。但其實(shí)在它之前,DC(數(shù)據(jù)中心)、IDC(互聯(lián)網(wǎng)數(shù)據(jù)中心)、甚至是超級(jí)計(jì)算中心,就已經(jīng)出現(xiàn)在人們的視野中。
被稱作“人工智能”計(jì)算中心的AIDC,究竟為何會(huì)在時(shí)代的洪流中脫穎而出?
在新一輪深度學(xué)習(xí)熱潮之前,大數(shù)據(jù)首先在互聯(lián)網(wǎng)行業(yè)得到發(fā)展。由此催生的IT基礎(chǔ)設(shè)施便是互聯(lián)網(wǎng)數(shù)據(jù)中心 (IDC),若再往前追溯,則是大企業(yè)內(nèi)部的數(shù)據(jù)中心 (DC)。
從DC到IDC,表面上看只是給數(shù)據(jù)中心“拉了根網(wǎng)線”,實(shí)際上是服務(wù)對(duì)象的變化、價(jià)值的升級(jí)。
硬件設(shè)施集中在一起,帶來(lái)數(shù)據(jù)存儲(chǔ)和處理能力增強(qiáng)和邊際成本下降,超出企業(yè)內(nèi)部需要的能力后,就可以打包成資源輸出給外部客戶。
隨著互聯(lián)網(wǎng)行業(yè)的崛起、成為過去數(shù)年間發(fā)展最快的行業(yè)之一,行業(yè)分工也由此發(fā)生細(xì)化,出現(xiàn)了專門的數(shù)據(jù)中心,專門給互聯(lián)網(wǎng)廠商提供基礎(chǔ)設(shè)施服務(wù)。
然而,在IDC中吃了一波時(shí)代紅利的人可能沒想到,AI的到來(lái)會(huì)再度催生出名為AIDC的產(chǎn)物。
隨著AI大模型的出現(xiàn),算法對(duì)算力的要求越來(lái)越高,人們對(duì)數(shù)據(jù)中心的要求不再是只提供基礎(chǔ)設(shè)施服務(wù),還希望它能夠更高速地運(yùn)行各種AI算法,并落地成各種智能應(yīng)用。
服務(wù)對(duì)象也不再限于互聯(lián)網(wǎng)行業(yè),還擴(kuò)展到了更多希望通過“AI+”實(shí)現(xiàn)轉(zhuǎn)型的傳統(tǒng)領(lǐng)域。
智慧制造、智慧能源、智慧城市都是近一段時(shí)間的突出代表。
靠傳統(tǒng)IT技術(shù)沒能做到的產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型,終于在AI的作用下成了一股不可阻擋的趨勢(shì)。
根據(jù)權(quán)威咨詢機(jī)構(gòu)國(guó)際數(shù)據(jù)公司(縮寫也是IDC)預(yù)測(cè),算力指數(shù)平均每提高1個(gè)點(diǎn),數(shù)字經(jīng)濟(jì)和GDP將分別增長(zhǎng)3.3‰和1.8‰——
AI除了技術(shù)的發(fā)展,也正在成為拉升經(jīng)濟(jì)的重要“戰(zhàn)力”。
但除了數(shù)據(jù)中心以外,領(lǐng)域內(nèi)已經(jīng)有很多現(xiàn)成的超算中心,人工智能計(jì)算中心的出現(xiàn),是否并非必然?
事實(shí)上,二者仍然有很大不同。超級(jí)計(jì)算機(jī)主要面對(duì)尖端科技發(fā)展需要,如天氣預(yù)測(cè)、能源勘探、衛(wèi)星遙感。
科學(xué)和工程計(jì)算主要處理結(jié)構(gòu)化的數(shù)值數(shù)據(jù),對(duì)計(jì)算精度的要求最高,往往需要使用64位雙精度計(jì)算,由CPU提供。
而AI面對(duì)的,則是大量文本、圖像、視頻這樣的非結(jié)構(gòu)化數(shù)據(jù),對(duì)精度要求沒那么高,對(duì)速度和效率更看重,更多靠GPU提供高并行的低精度算力。
AI在訓(xùn)練階段主要用到32位單精度和16位半精度,在實(shí)際應(yīng)用時(shí)的推理階段,則經(jīng)常只用16位甚至更低精度來(lái)保證運(yùn)行效率。
顯然,從服務(wù)對(duì)象和技術(shù)自身兩方面來(lái)看,AI都要求有專門的基礎(chǔ)設(shè)施,AIDC本身其實(shí)是“洪流之下”的一大趨勢(shì)。
然而要說商湯這次在上海建的AIDC全是順應(yīng)時(shí)代所然,仍舊不免讓人產(chǎn)生疑問:投入成本上,他們選擇承擔(dān)自建自投的風(fēng)險(xiǎn),一出手就是56億元;建設(shè)方案上,他們沒有照搬已有的智算中心“作業(yè)”,而是針對(duì)人工智能計(jì)算的特點(diǎn)對(duì)傳統(tǒng)IT基礎(chǔ)設(shè)施服務(wù)能力做了優(yōu)化和升級(jí)。
這背后有些什么考量?
帶著這些問題,我們與商湯聯(lián)合創(chuàng)始人、副總裁楊帆聊了聊。他說建設(shè)AIDC這事,還要從2018年說起……
“降低重復(fù)成本是永遠(yuǎn)的追求”
2018年后來(lái)被稱為“人工智能商業(yè)化落地元年”。
那一年,商湯正處于業(yè)務(wù)拓展期。
大眾容易感知到的,是AI雙攝、AI美顏落地到OV、小米等各品牌手機(jī)上;不容易感知到的,還有智慧園區(qū)、智慧城市上更多項(xiàng)目開始起步。
楊帆回憶道,從那時(shí)起他們就隱約感到AI需要大算力基礎(chǔ)設(shè)施這個(gè)趨勢(shì)。
這個(gè)感覺來(lái)自技術(shù)研發(fā),也來(lái)自產(chǎn)業(yè)發(fā)展。
技術(shù)方面,從ELMo到BERT,預(yù)訓(xùn)練模型的規(guī)模越來(lái)越大,對(duì)更大算力提出要求;產(chǎn)業(yè)方面,隨著AI在更多場(chǎng)景落地、滲透到更多領(lǐng)域,產(chǎn)業(yè)分工開始細(xì)化,規(guī)模化的基礎(chǔ)設(shè)施會(huì)成為需求。
這種變化,在過去很多行業(yè)都曾見過,比如大數(shù)據(jù)中心、云計(jì)算中心。
剛開始,商湯對(duì)這個(gè)基礎(chǔ)設(shè)施的輪廓沒有勾勒得很明確,是在后面的探索中才逐漸清晰。
從互聯(lián)網(wǎng)公司、科技數(shù)碼產(chǎn)品公司到傳統(tǒng)工廠、物流、園區(qū)、政府,AI開始服務(wù)于離技術(shù)更遠(yuǎn)的客戶,在這之中,商湯比較看重為客戶提供端到端的服務(wù),提供完整解決方案。
楊帆覺得AI開發(fā)平臺(tái)應(yīng)該像是操作系統(tǒng),需要主動(dòng)去對(duì)硬件和應(yīng)用都搞好兼容,硬件基礎(chǔ)設(shè)施也不能只是提供一個(gè)物理的環(huán)境,還要具備提供相應(yīng)服務(wù)的能力:
與IDC的“租地皮”模式不同,AIDC更像“開餐館”模式。
而決定自投自建,則主要有兩方面原因。
一是是商湯看好AIDC未來(lái)的前景,希望以“自己吃螃蟹”來(lái)表明決心,向外界傳遞明確的信號(hào);
二是作為一個(gè)探索性的項(xiàng)目,完全由自己出資有更大的自主決策權(quán)。
建設(shè)節(jié)奏也能把控得更快,2020年3月,商湯與上海臨港簽署合作協(xié)議,7月拿地開工,22年初就已經(jīng)投入使用。
商湯AIDC建成后,對(duì)不同類型的客戶可以提供不同層次的服務(wù):
最基礎(chǔ)的就是提供算力和AI算法生產(chǎn)工具體系,也就是深度學(xué)習(xí)平臺(tái);對(duì)于希望拿到應(yīng)用級(jí)解決方案的用戶,商湯可以提供端到端服務(wù);甚至對(duì)于有科研需要的客戶,商湯“連科學(xué)家也可以作為服務(wù)的一種,一并提供”。
商湯最不缺的就是科學(xué)家。按截至去年6月末的數(shù)據(jù),商湯擁有40位教授,250多位博士,3500多位科學(xué)家和工程師,研發(fā)人員占比超過三分之二。
研發(fā)人員普遍信奉一個(gè)格言:
如果一件事需要重復(fù)做的次數(shù)超過3次,就要?jiǎng)?chuàng)造一個(gè)工具來(lái)做。
對(duì)于科技企業(yè),用工具去提升效率,降低重復(fù)性的成本是永遠(yuǎn)的追求。
商湯把這個(gè)工具的概念放大,就成了AI大裝置。
AI的三大要素,都能在大裝置中得到進(jìn)化。
先是數(shù)據(jù)。楊帆認(rèn)為數(shù)據(jù)作為智能時(shí)代最重要的生產(chǎn)要素,與農(nóng)業(yè)時(shí)代、工業(yè)時(shí)代的土地、能源有本質(zhì)不同。數(shù)據(jù)是越用越多的,且可以低成本共享,越多數(shù)據(jù)放在一起產(chǎn)生的價(jià)值是非線性增長(zhǎng)。
再說算力。提供算力的AI芯片,特別是國(guó)產(chǎn)GPU芯片在大裝置中與算法平臺(tái)和應(yīng)用得到適配。建設(shè)大裝置所下的大量訂單也能幫助國(guó)產(chǎn)GPU形成規(guī)?;慨a(chǎn)能力,攤薄流片成本,加速國(guó)產(chǎn)芯片商業(yè)化進(jìn)程。
然后是算法。算法創(chuàng)新的成本正在因算力和工具的發(fā)展急劇下降。商湯研發(fā)人員每年人年均生產(chǎn)商用模型的數(shù)量,從2019年0.44個(gè),2020年3.45個(gè),2021年上半年到了5.24個(gè),效率提升11.9倍。
在2021年上半年,商湯擁有的總算力是每秒1.17百億億次浮點(diǎn)運(yùn)算;上海臨港AIDC投產(chǎn)之后,這個(gè)數(shù)值超過每秒4.91百億億次浮點(diǎn)運(yùn)算……算法的生產(chǎn)效率還將進(jìn)一步提高。
AI算法生產(chǎn)的邊際成本降低后,一方面可以降低AI現(xiàn)有服務(wù)對(duì)象所要付出的成本,另一方面則可以覆蓋更多中長(zhǎng)尾客戶和場(chǎng)景提供定制化的AI能力。
目前,商湯AIDC已經(jīng)被上海市經(jīng)濟(jì)和信息化委員會(huì)授予“上海人工智能融合賦能中心”稱號(hào)。
楊帆透露稱,現(xiàn)在已投產(chǎn)的部分只是第一期,后續(xù)還會(huì)擴(kuò)建,以及隨著試運(yùn)營(yíng)經(jīng)驗(yàn)的積累持續(xù)改善節(jié)能減排,而在上海之外,對(duì)更多有AI產(chǎn)業(yè)需求的地區(qū),商湯未來(lái)也會(huì)逐步去覆蓋。
今天落成的上海臨港AIDC,還只是商湯AI大裝置中基礎(chǔ)設(shè)施部分的起點(diǎn)。
夢(mèng)晨 蕭簫 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI