摩爾線程首個全國產(chǎn)千卡千億模型訓練平臺——摩爾線程KUAE智算中心揭幕儀式在北京成功舉辦,宣告國內首個以國產(chǎn)全功能GPU為底座的大規(guī)模算力集群正式落地。與此同時,摩爾線程聯(lián)合國內眾多合作伙伴發(fā)起并成立了摩爾線程PES -KUAE智算聯(lián)盟和摩爾線程PES-大模型生態(tài)聯(lián)盟,共同夯實從智算基礎設施到大模型訓練與推理的國產(chǎn)大模型一體化生態(tài),持續(xù)為我國大模型產(chǎn)業(yè)發(fā)展加速。
摩爾線程CEO張建中在主題演講中帶來重磅發(fā)布,包括大模型智算加速卡MTT S4000,以及專為千億參數(shù)大模型訓練和推理提供強大支持的摩爾線程KUAE平臺,他表示:“摩爾線程KUAE智算中心的正式啟用,是公司發(fā)展的重要里程碑。摩爾線程構建了從芯片到顯卡到集群的智算產(chǎn)品線,依托全功能GPU的多元計算優(yōu)勢,旨在滿足不斷增長的大模型訓練和推理需求,以綠色、安全的智能算力,大力推動AIGC、數(shù)字孿生、物理仿真、元宇宙等多模態(tài)應用的落地和千行百業(yè)的高質量發(fā)展?!?/p>
全新智算加速卡MTT S4000:訓推兼顧,專為大模型打造
摩爾線程大模型智算加速卡MTT S4000,采用第三代MUSA內核,單卡支持48GB顯存和768GB/s的顯存帶寬。基于摩爾線程自研MTLink1.0技術,MTT S4000可以支持多卡互聯(lián),助力千億大模型的分布式計算加速。同時,MTT S4000提供先進的圖形渲染能力、視頻編解碼能力和超高清8K HDR顯示能力,助力AI計算、圖形渲染、多媒體等綜合應用場景的落地。尤為重要的是,借助摩爾線程自研MUSIFY開發(fā)工具,MTT S4000計算卡可以充分利用現(xiàn)有CUDA軟件生態(tài),實現(xiàn)CUDA代碼零成本遷移到MUSA平臺。
摩爾線程KUAE智算中心解決方案:軟硬一體,開箱即用
摩爾線程KUAE智算中心解決方案以全功能GPU為底座,是軟硬一體化的全棧解決方案,包括以KUAE計算集群為核心的基礎設施、KUAE Platform集群管理平臺以及KUAE ModelStudio模型服務,旨在以一體化交付的方式解決大規(guī)模GPU算力的建設和運營管理問題。該方案可實現(xiàn)開箱即用,大大降低傳統(tǒng)算力建設、應用開發(fā)和運維運營平臺搭建的時間成本,實現(xiàn)快速投放市場開展商業(yè)化運營。
- 基礎設施:包含KUAE計算集群、RDMA網(wǎng)絡與分布式存儲。此次發(fā)布的摩爾線程KUAE千卡模型訓練平臺,建設周期只需30天,支持千億參數(shù)模型的預訓練、微調和推理,可實現(xiàn)高達91%的千卡集群性能擴展系數(shù)?;贛TT S4000和雙路8卡GPU服務器MCCX D800,摩爾線程KUAE集群支持從單機多卡到多機多卡,從單卡到千卡集群的無縫擴展,未來將推出更大規(guī)模的集群,以滿足更大規(guī)模的大模型訓練需求。
- KUAE Platform集群管理平臺:用于AI大模型訓練、分布式圖形渲染、流媒體處理和科學計算的軟硬件一體化平臺,深度集成全功能GPU計算、網(wǎng)絡和存儲,提供高可靠、高算力服務。通過該平臺,用戶可靈活管理多數(shù)據(jù)中心、多集群算力資源,集成多維度運維監(jiān)控、告警和日志系統(tǒng),幫助智算中心實現(xiàn)運維自動化。
- KUAE ModelStudio模型服務:覆蓋大模型預訓練、微調和推理全流程,支持所有主流開源大模型。通過摩爾線程MUSIFY開發(fā)工具,可以輕松復用CUDA應用生態(tài),內置的容器化解決方案,則可實現(xiàn)API一鍵部署。該平臺意在提供大模型生命周期管理,通過簡潔、易操作的交互界面,用戶可按需組織工作流,大幅降低大模型的使用門檻。
摩爾線程KUAE千卡集群:多重優(yōu)勢,助力大模型高效訓練
分布式并行計算是實現(xiàn)AI大模型訓練的關鍵手段。摩爾線程KUAE支持包括DeepSpeed、Megatron-DeepSpeed、Colossal-AI、FlagScale在內的業(yè)界主流分布式框架,并融合了多種并行算法策略,包括數(shù)據(jù)并行、張量并行、流水線并行和ZeRO,且針對高效通信計算并行和Flash Attention做了額外優(yōu)化。
目前,摩爾線程支持包括LLaMA、GLM、Aquila、Baichuan、GPT、Bloom、玉言等各類主流大模型的訓練和微調?;谀柧€程KUAE千卡集群,70B到130B參數(shù)的大模型訓練,線性加速比均可達到91%,算力利用率基本保持不變。以2000億訓練數(shù)據(jù)量為例,智源研究院700億參數(shù)Aquila2可在33天完成訓練;1300億參數(shù)規(guī)模的模型可在56天完成訓練。此外,摩爾線程KUAE千卡集群支持長時間連續(xù)穩(wěn)定運行,支持斷點續(xù)訓,異步Checkpoint少于2分鐘。
摩爾線程KUAE千卡計算集群憑借高兼容性、高穩(wěn)定性、高擴展性和高算力利用率等綜合優(yōu)勢,將成為大模型訓練堅實可靠的先進基礎設施。
智算和大模型生態(tài)聯(lián)盟:多方協(xié)作,促進生態(tài)融合
大模型時代,以GPU為代表的智能算力是基石,也是生成式AI世界的中心。摩爾線程聯(lián)合中國移動北京公司、中國電信北京分公司、聯(lián)想、世紀互聯(lián)、光環(huán)新網(wǎng)、中聯(lián)數(shù)據(jù)、數(shù)道智算、中發(fā)展智源、企商在線、北電數(shù)智北京數(shù)字經(jīng)濟算力中心、紫光恒越、瑞華產(chǎn)業(yè)控股(山東)、賽爾網(wǎng)絡、中科金財、中耘智算、金舟遠航(排名不分先后)等十余家企業(yè),共同宣布“摩爾線程PES - KUAE智算聯(lián)盟”成立。聯(lián)盟將大力建設和推廣從底層硬件到軟件、工具到應用的全國產(chǎn)智算平臺,旨在實現(xiàn)集群的高利用率,以好用、易用的全棧智算解決方案成為大模型訓練首選。
活動現(xiàn)場,摩爾線程分別與中聯(lián)數(shù)據(jù)和數(shù)道智算進行了現(xiàn)場簽約,并共同為摩爾線程KUAE智算中心揭牌?,F(xiàn)場200多名與會嘉賓一同見證了這一重要時刻。
人工智能應用的突破,生態(tài)是關鍵。為此,摩爾線程攜手360、飛槳、京東言犀、智譜AI、超對稱、無問芯穹、滴普科技、網(wǎng)易、清華大學、復旦大學、浙江大學、北京理工大學、凌云光、瑞萊智慧、南威軟件(排名不分先后)等多家大模型生態(tài)伙伴,發(fā)起并成立“摩爾線程PES - 大模型生態(tài)聯(lián)盟”。摩爾線程將以MUSA為中心的軟硬一體化大模型解決方案,積極與廣泛的生態(tài)伙伴開展兼容適配及技術調優(yōu)等工作,共同推動國產(chǎn)大模型生態(tài)的全面繁榮。
在最后的圓桌對話環(huán)節(jié),摩爾線程副總裁董龍飛與中能建綠色數(shù)字科技(中衛(wèi))有限公司董事長墻虎、智譜AI CEO張鵬、京東云首席AI科學家裴積全、中金資本董事總經(jīng)理翟贏、超對稱創(chuàng)始人吳恒魁、數(shù)道智算董事長甄鑒等重磅嘉賓,就當前大模型的算力需求和智算中心的建設與運營等話題展開了深入探討。嘉賓一致認為,智算中心不應只是硬件的堆積,更是對軟硬一體化的GPU智算系統(tǒng)整合能力的考驗,GPU分布式計算系統(tǒng)的適配、算力集群的管理和高效推理引擎的應用等,都是提高算力中心可用性的重要因素。國產(chǎn)智算中心的發(fā)展,更是依托于將各方需求和優(yōu)勢充分融合,產(chǎn)業(yè)聚力才能實現(xiàn)整個生態(tài)的協(xié)同,推動國產(chǎn)事業(yè)往前發(fā)展。