只需幾個關(guān)鍵詞,一張靜態(tài)照片也能跟著音樂節(jié)奏跳科目三;投喂幾段文章之后,可根據(jù)要求生成文筆優(yōu)美、邏輯嚴密的佳作;只需要10秒鐘的聲音,就能逼真地實現(xiàn)音色克隆,讓跑調(diào)大王的歌聲媲美專業(yè)歌手,讓相聲演員開口飆英語......
在過去,提及這些應用場景,人們或許會認為它們是遙不可及的幻想。然而,在AI時代,得益于人工智能的三駕馬車——數(shù)據(jù)、算法、算力的強力支撐,這些曾經(jīng)的幻想已經(jīng)逐一變?yōu)楝F(xiàn)實。
在這三大支柱中,算力扮演著尤為關(guān)鍵的角色。它不僅是數(shù)據(jù)和算法能夠發(fā)揮效用的基礎(chǔ)底座,更是推動人工智能高質(zhì)量發(fā)展的核心驅(qū)動力??梢哉f,沒有強大的算力作為支撐,人工智能的進步和發(fā)展將受到極大的限制。
隨著生成式AI等人工智能應用的興起,以及大模型訓練等新需求的不斷涌現(xiàn),算力規(guī)模正在經(jīng)歷前所未有的快速增長。在這一背景下,AI服務器已然成為智能算力的核心載體。相較于傳統(tǒng)服務器,AI服務器在計算、存儲及網(wǎng)絡(luò)傳輸能力上均展現(xiàn)出顯著優(yōu)勢,能夠滿足日益增長的智能算力需求。
然而,智能算力需求的指數(shù)級增長,導致IT基礎(chǔ)設(shè)施支出也在不斷攀升。如何在確保企業(yè)業(yè)務連續(xù)性和穩(wěn)定性的同時,最大限度地提高服務器利用率以實現(xiàn)成本優(yōu)化和效益最大化,已成為眾多企業(yè)面臨的共同挑戰(zhàn)。
本期的《數(shù)智QA》,我們將通過問答的形式,從硬件配置、軟件優(yōu)化、產(chǎn)品設(shè)計等多個維度,深入探討構(gòu)建高效、穩(wěn)定、可靠的AI服務器所需的關(guān)鍵能力。
Q、AI浪潮之下,算力發(fā)展呈現(xiàn)哪些趨勢?
未來算力發(fā)展將呈現(xiàn)以下趨勢:
異構(gòu)計算成為主流:傳統(tǒng)堆CPU的模式已無法滿足日益增長的AI計算需求。搭載GPU、NPU、ASIC等芯片的異構(gòu)計算正逐漸成為主流。異構(gòu)模式能夠大幅提升AI計算效率,滿足各種復雜應用場景的需求。
邊緣計算成為重要補充:邊緣計算將算力資源部署在離終端設(shè)備更近的位置,滿足AI應用實時性、安全性等業(yè)務需求。
機架密度不斷提高:鑒于數(shù)據(jù)中心的空間限制,提高機架密度成為數(shù)據(jù)中心設(shè)計的一個重要趨勢。
智能算力重要性日益凸顯:為了適應這一趨勢,智算中心的建設(shè)已經(jīng)轉(zhuǎn)向混合架構(gòu)模式,成為行業(yè)發(fā)展的必然趨勢。
Q、AI服務器和普通服務器有何不同?
AI服務器,是專門為人工智能應用場景設(shè)計的服務器。AI服務器主要用于處理大規(guī)模、復雜計算任務,如AI深度學習訓練、推理等,以滿足各種AI應用的需求。
AI服務器與普通服務器的不同之處主要表現(xiàn)在:
處理能力:得益于高性能處理器和專用加速器加持,AI服務器的處理能力更高,可滿足AI大模型訓練等需要大量算力計算的應用場合。而普通服務器則主要針對一般性的網(wǎng)絡(luò)應用進行優(yōu)化,對于處理大規(guī)模數(shù)據(jù)和復雜計算任務會有一定的瓶頸。
存儲容量:AI服務器通常擁有龐大的存儲集群配合,以滿足處理大規(guī)模數(shù)據(jù)需求。而普通服務器則根據(jù)應用場景進行不同的存儲配置,存儲容量相對有限。
高速網(wǎng)絡(luò):AI服務器對網(wǎng)絡(luò)帶寬、時延、抖動、丟包等有更高的要求。通常,AI服務器需要采用InfiniBand、RoCE等形式的高速網(wǎng)絡(luò),以滿足AI大規(guī)模并行計算要求。而普通服務器一般采用TCP/IP網(wǎng)絡(luò)即可滿足業(yè)務需求。
能源消耗:由于AI服務器需要處理大量的計算任務,因此其能源消耗相對較高,目前主流AI服務器滿載時功耗甚至可達10kW。而普通服務器在處理一般網(wǎng)絡(luò)應用時,能源消耗相對較低,功耗大約只有0.5kW左右。
應用場景:AI服務器主要用于處理人工智能應用場景下的計算任務,如深度學習訓練、推理等。而普通服務器則廣泛應用于各種網(wǎng)絡(luò)應用,如Web應用、數(shù)據(jù)庫應用等。
Q、適配不同場景,AI服務器有哪些類型?
AI應用可分為AI訓練和AI推理兩大應用場景。針對這兩大應用場景對算力的不同需求,AI服務器分為訓練服務器、訓推一體服務器、推理服務器和邊緣服務器等。
AI訓練服務器:主要用于訓練機器學習模型,需要提供強大的智能算力來滿足大模型的訓練需求。
AI推理服務器:主要用于運行已經(jīng)訓練好的AI模型,對新的輸入數(shù)據(jù)進行預測或分類等任務。聯(lián)想ThinkSystem SR645 V3服務器就是其中的典型代表。該服務器可承接復雜的AI推理負載,兩顆4代AMD EPYC處理器提供最多256核。多個PCIE4.0及PCIE5.0插槽使得用戶可根據(jù)業(yè)務需求靈活擴展配置。設(shè)備支持最多4個單寬GPU,充分滿足用戶AI推理應用需求。
AI訓推一體服務器:結(jié)合了訓練和推理的功能,旨在提供一站式的AI智能算力解決方案。以聯(lián)想問天WA5480 G3 AI訓推一體服務器為例,該服務器可支持多元算力,豐富的PCIE5.0接口至多可支持10張雙寬GPU,支持推理,訓練,渲染,科學計算等多種場景以及多種拓撲,進一步拓展了在不同應用中的適用性。
AI邊緣服務器:主要用于在邊緣計算場景中進行推理任務,即在離用戶更近的地方進行計算,以減少數(shù)據(jù)傳輸延遲和提高響應速度。邊緣服務器通常具有較小的體積和功耗,以適應邊緣環(huán)境的限制。最近,聯(lián)想推出了全新的ThinkEdge SE455 V3邊緣服務器,進一步豐富了聯(lián)想AI邊緣服務器產(chǎn)品線。該產(chǎn)品搭載AMD EPYC 8004系列系列處理器,性能提升34%,可大幅提升多任務處理效率。得益于聯(lián)想技術(shù)創(chuàng)新和設(shè)計優(yōu)化,SE455 V3至高可節(jié)省50%能源。豐富的擴展特性可滿足存儲、網(wǎng)絡(luò)及GPU擴展需求。
Q、如何保證AI服務器高效、穩(wěn)定和可靠?
通過合理的硬件配置、優(yōu)秀的散熱和能源管理、系統(tǒng)優(yōu)化和調(diào)優(yōu)、高可用性和容錯設(shè)計、高標準的品控等措施,可以有效地保證AI服務器的高效、穩(wěn)定和可靠運行。
合理的硬件配置:通過選擇高性能的處理器及GPU等加速設(shè)備、內(nèi)存和存儲設(shè)備,可滿足AI應用的高計算量、高內(nèi)存和高存儲需求,顯著提升AI大模型訓練及推理效率。比如,聯(lián)想問天WR5220 G3服務器就采用了英特爾最新發(fā)布的第五代至強?可擴展處理器,最多可支持兩顆64核、385W TDP熱功耗設(shè)計。新一代平臺搭載5600MT/s高性能DDR5內(nèi)存、低延遲高帶寬的NVMe和PCIe 5.0擴展插槽、最新的GPU性能,可充分發(fā)揮系統(tǒng)性能。
優(yōu)秀的散熱和能源管理:設(shè)計合理的散熱系統(tǒng),保證服務器在高負載運行時也能保持高效性能輸出。同時,有效的能源管理策略,可顯著降低能耗并提高能源利用效率。面對不斷提升的CPU、GPU TDP熱功耗值,液冷被認為是突破風冷散熱瓶頸的關(guān)鍵技術(shù)。廣受贊譽的聯(lián)想海神(Neptune?)溫水水冷技術(shù)可實現(xiàn)整機柜全水冷無風扇設(shè)計,服務器散熱效率可達98%,并支持余熱回收,能耗降低42%,數(shù)據(jù)中心PUE可降至1.1。同時,并行水路設(shè)計可降低CPU等設(shè)備的性能抖動,Linpack性能相比風冷散熱方式提升5-10%。聯(lián)想海神溫水水冷技術(shù)全球部署已經(jīng)超過7萬套,再次夯實服務器水冷技術(shù)領(lǐng)域領(lǐng)跑者地位,持續(xù)助力企業(yè)綠色可持續(xù)發(fā)展。在能源管理方面,聯(lián)想LiCO管理平臺可以監(jiān)控集群的能耗情況,并提供能源管理策略。LiCO能夠動態(tài)調(diào)整CPU的運行頻率,并根據(jù)系統(tǒng)運行情況,動態(tài)調(diào)整風扇的運行速度,進而降低整個集群的能耗。
系統(tǒng)優(yōu)化和調(diào)優(yōu):對操作系統(tǒng)、AI框架和算法庫等進行優(yōu)化和調(diào)優(yōu),以提高服務器的整體性能和穩(wěn)定性。比如,在作業(yè)調(diào)度優(yōu)化方面,聯(lián)想LiCO可以通過智能作業(yè)調(diào)度算法以及集群管理軟件的使用,將并行計算任務合理地分配到計算節(jié)點上,減少任務之間的資源競爭和排隊等待時間,提高集群的效率并降低能耗。
高標準品控:為了追求更高品質(zhì),提高服務器的可靠性和穩(wěn)定性,每一臺服務器都應該執(zhí)行嚴苛的品控標準。嚴格的品控措施貫穿了聯(lián)想服務器從設(shè)計、研發(fā)、生產(chǎn)和測試的每一個階段。比如在出廠前,聯(lián)想服務器會做百分百1000V DC Hipot測試(高電壓耐壓測試),保證每一片板卡的超高耐壓質(zhì)量均超越業(yè)界的測試標準。截止2023年12月14日,聯(lián)想服務器共斬獲536項性能測試世界紀錄,通過87項NCTC檢測認證。
Q、怎樣提高服務器運維效率,保證業(yè)務連續(xù)性?
一個易于維護的服務器能夠顯著降低企業(yè)的運維成本、縮短停機時間,并確保IT系統(tǒng)的持續(xù)穩(wěn)定運行,幫助企業(yè)告別運維煩惱。
以聯(lián)想AI服務器為例。聯(lián)想在服務器中采用了創(chuàng)新的無工具安裝設(shè)計,能夠快速、輕松更換故障組件,使得內(nèi)部核心部件的安裝部署更加便捷。同時,服務器內(nèi)部的可更換組件統(tǒng)一使用藍色標識,運維人員可以快速準確分辨,自行更換組件,從而降低因操作不當導致?lián)p壞的風險。得益于采用通用部件,聯(lián)想服務器簡化了對所有架構(gòu)平臺的支持,極大方便了后期維護。
此外,聯(lián)想服務器還提供了其他易于維護的設(shè)計。例如光通路診斷,使用LED標識出現(xiàn)故障的內(nèi)存插槽及硬盤,可顯著縮短維護和停機時間。依賴于熱插拔部件,在不切斷電源的情況下即可輕松更換服務器部件,從而縮短了停機時間,并避免因更換硬件設(shè)備可能導致的數(shù)據(jù)丟失或損壞風險。
聯(lián)想服務器還支持一鍵秒維護功能。比如,通過專利設(shè)計的兩個塑膠部件,即可將Internal Raid卡一鍵固定在服務器主板上,代替以往需要通過鎖螺絲的繁瑣方式,降低了操作難度。此外,一鍵式固定方式極大提升了部件裝配效率,開啟秒級維護。
機構(gòu)預測,2024年全球AI服務器有望突破160萬臺,年增長率達40%,業(yè)界對包括AI服務器在內(nèi)的智能基礎(chǔ)設(shè)施爆發(fā)出強勁的需求。作為全球領(lǐng)先的算力基礎(chǔ)設(shè)施和服務提供商,聯(lián)想將依托全棧智能的產(chǎn)品、方案及服務,推動AI技術(shù)的持續(xù)發(fā)展和應用,賦能千行百業(yè)加速智能化轉(zhuǎn)型,共同把握AI時代新機遇。