• 正文
    • 什么是智算中心?
    • 智算中心三要素及網(wǎng)絡(luò)互連技術(shù)
    • 智算中心組網(wǎng)
    • 寫在最后
  • 相關(guān)推薦
申請入駐 產(chǎn)業(yè)圖譜

智算中心需要怎樣的網(wǎng)絡(luò)架構(gòu)技術(shù)?

2024/10/16
2384
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

人工智能技術(shù)以及大語言模型(LLM)應(yīng)用的普及,對于算力的需求激增,也推動了各國對于數(shù)據(jù)中心的建設(shè)。其中,作為數(shù)據(jù)中心的一種,智算中心由于其具有的強大數(shù)據(jù)處理能力和智能計算能力,正成為最受關(guān)注的數(shù)字基礎(chǔ)設(shè)施。

什么是智算中心?

那什么是智算中心呢?根據(jù)工信部印發(fā)的《算力基礎(chǔ)設(shè)施高質(zhì)量發(fā)展行動計劃》,智算中心是指通過使用大規(guī)模異構(gòu)算力資源,包括通用算力(CPU)和智能算力(GPU、FPGA、ASIC等),主要為人工智能應(yīng)用(如人工智能深度學(xué)習(xí)模型開發(fā)、模型訓(xùn)練和模型推理等場景)提供所需算力、數(shù)據(jù)和算法的設(shè)施。

康普企業(yè)網(wǎng)絡(luò)大中華區(qū)技術(shù)總監(jiān)吳健則認為,從國際角度來講,智算中心(即所謂的AI DC)還沒有一個專門的定義。在中國市場則被定義為一個新的品類,它是數(shù)據(jù)中心的一類,即在數(shù)據(jù)中心中為了完成大模型的訓(xùn)練和推理,部署了GPU的服務(wù)器,這樣的數(shù)據(jù)中心就稱之為智算中心。而且,數(shù)據(jù)中心中GPU服務(wù)器的占比將越來越高,在2027-2028年前后,GPU服務(wù)器數(shù)量將超過CPU服務(wù)器的數(shù)量。

據(jù)悉,目前已經(jīng)建成或正在建的智算中心普遍擁有約100PFLOPS左右的智能計算能力,可為各類應(yīng)用場景提供強大的支持。據(jù)IDC的不完全統(tǒng)計,到2024年5月下旬,我國共建設(shè)了283座智算中心,其中超過一半處于開工/在建狀態(tài),已投產(chǎn)/運營的達到89座,占比31.45%。

智算中心三要素及網(wǎng)絡(luò)互連技術(shù)

算力、網(wǎng)絡(luò)和數(shù)據(jù)是完成智算的三個要素。其中,數(shù)據(jù)是智算需要處理的對象;算力是指處理計算的芯片(如CPU和GPU等)的能力。CPU和GPU它們處理數(shù)據(jù)的方式是不同的,CPU一次只能處理一個復(fù)雜的任務(wù),而GPU則采用并行計算,一次可以處理多個簡單的任務(wù)。如上所述,在智算中心中,GPU的數(shù)量大幅增長,而其采用的并行計算方式,也大幅提高了算力。算力提高了,也就需要配套的傳輸網(wǎng)絡(luò)與之相匹配。

吳健表示:“GPU算力每年翻兩倍,10年就要翻1000倍。那也就預(yù)示著,網(wǎng)絡(luò)也應(yīng)該10年翻1000倍才能與之相匹配。所以,目前的網(wǎng)路已經(jīng)滯后于算力。智算中心隨著GPU的應(yīng)用,它需要一個高可靠、高帶寬、低延時的無損網(wǎng)絡(luò)。”

所以,隨著智算的快速推進,400G以上網(wǎng)絡(luò)的占比將占主導(dǎo)地位,包括400G、800G和1.6T。

目前,智算中心采用的網(wǎng)絡(luò)互連技術(shù)主要為InfiniBand(IB)和以太網(wǎng)。吳健表示:“AI需要IB和以太網(wǎng)兩種網(wǎng)路設(shè)備來支撐。目前,這兩種技術(shù)的速率發(fā)展較為同步,都會快速進入到800G、1.6T。但IB在整個智算中的效率、穩(wěn)定性要比以太網(wǎng)好一些?!?/p>

物理層而言,IB和以太網(wǎng)是一樣的,但IB和以太網(wǎng)使用的交換機則是不同的。很多人認為,以太網(wǎng)可能無法跟上IB的演進速度,因為IB是一個無損網(wǎng)絡(luò),而以太網(wǎng)則不是一個專用網(wǎng)絡(luò),很難做到無損。吳健表示:“目前,從協(xié)議層和硬件層面進行一些技術(shù)的優(yōu)化,以太網(wǎng)也可以做到無損了。”

所以,未來,吳健認為,至少在中國市場,以太網(wǎng)取代IB是勢在必行的。

智算中心組網(wǎng)

智算中心的組網(wǎng)主要分為前端網(wǎng)絡(luò)和后端網(wǎng)絡(luò)。前端網(wǎng)絡(luò)是指智算中心和外部的互連,即將智算中心計算的結(jié)果通過前端網(wǎng)絡(luò)傳輸出去;而后端網(wǎng)絡(luò)則是指GPU之間的互連。

與傳統(tǒng)網(wǎng)絡(luò)相比,智算中心的前端網(wǎng)絡(luò)沒有多大變化,但后端網(wǎng)絡(luò)變得特別的龐大,涉及AI集群內(nèi)的互連以及AI集群間的互連。智算中心中的網(wǎng)絡(luò)需要高帶寬、低損耗、低延時以及高密度的連接,可以未來還將需要更小尺寸的連接器進行連接,并解決回波損耗等問題。

這些網(wǎng)絡(luò)都是由線纜連接而成,未來,隨著網(wǎng)絡(luò)速率的提高,光線的數(shù)量將會提高。在整個AI集群中,除了光纖布線,還有線槽,以及銅纜連接等。

吳健表示:“康普在AI布線市場已經(jīng)布局多年,已取得了非常大的成功,包括一些萬卡集群以及一些高性能的布線系統(tǒng),康普都能提供對應(yīng)的解決方案?!?/p>

康普的布線解決方案不僅滿足客戶當(dāng)下的需求,也能幫助他們實現(xiàn)長期規(guī)劃。吳健表示:“目前國內(nèi)數(shù)據(jù)中心的設(shè)計相對來說還比較缺乏前瞻性,只進行一兩年的規(guī)劃,而不考慮長遠使用,這其實很浪費材料,不環(huán)保?!?/p>

康普企業(yè)網(wǎng)絡(luò)大中華區(qū)總經(jīng)理兼副總裁陳嵐表示:“現(xiàn)在很多數(shù)據(jù)中心的項目將布線做成了次拋型,這是很不環(huán)保的。網(wǎng)絡(luò)基礎(chǔ)架構(gòu)采用結(jié)構(gòu)化布線,雖然初次成本可能稍微高一點,但后續(xù)升級、擴展以及維護的成本很低,且使用的生命周期很長,從長遠來看反而節(jié)省了成本?!?/p>

寫在最后

隨著人工智能以及大語言模型等技術(shù)的飛速發(fā)展,對于算力的需求大幅增長,而網(wǎng)絡(luò)作為支撐這些技術(shù)的傳輸“骨干”,也需要齊頭并進。而在整個網(wǎng)絡(luò)基礎(chǔ)設(shè)備的構(gòu)建中,布線雖然是不太起眼的一部分,但它可以說是智算中心的“血管”,起著舉足輕重的作用。而隨著對更環(huán)?;⒏鼡?jù)經(jīng)濟效益的布線方式需求的增長,結(jié)構(gòu)化布線或許會是未來智算中心布線的主流方式。對于布線供應(yīng)商來說,著眼現(xiàn)在,布局未來,才能在這一波AI浪潮中立于潮頭。

相關(guān)推薦

登錄即可解鎖
  • 海量技術(shù)文章
  • 設(shè)計資源下載
  • 產(chǎn)業(yè)鏈客戶資源
  • 寫文章/發(fā)需求
立即登錄