作者:曉旭
人工智能的極限就是拼卡的極限。頂級AI公司為這場“暴力美學”競賽設(shè)定了單點集群萬卡的門檻。
OpenAI的單點集群5萬張卡,谷歌2.6萬張卡,Meta2.45萬張卡。摩爾線程創(chuàng)始人兼CEO張建中曾在發(fā)布會上表示,“AI主戰(zhàn)場,萬卡是最低標配。”而隨著DeepSeek的橫空出世,一場關(guān)于AI規(guī)則重寫的大戲正在上演。
?01、萬卡集群還是AI入場券嗎?
2020年,微軟率先構(gòu)建了萬卡智算中心用來其AI布局,隨后各大科技巨頭競相投入萬卡集群的智算中心建設(shè),例如亞馬遜、谷歌、Meta、特斯拉、xAI,國內(nèi)科技公司字節(jié)跳動、百度、螞蟻、華為、科大訊飛、小米都建設(shè)了萬卡集群,騰訊、阿里已經(jīng)卷向十萬卡集群。
搭建萬卡集群的智算中心需要耗費巨大的財力,單是GPU的采購成本就高達幾十億元。盡管造價高昂,但“萬卡集群”智算中心使得訓練復雜的大模型成為可能,因此被業(yè)界視作AI競賽的“入場券”。長江證券在其研報中指出,“模型大小和訓練數(shù)據(jù)量大小成為決定模型能力的關(guān)鍵因素。
在同等模型參數(shù)和數(shù)據(jù)集下,集群訓練時間有望顯著縮短。更大、更先進的集群能及時對市場趨勢作出反應,快速進行迭代訓練。整體上超萬卡的集群將有助于壓縮大模型訓練時間,實現(xiàn)模型能力的快速迭代,并及時對市場趨勢作出應對,實現(xiàn)大模型技術(shù)上的追趕和領(lǐng)先?!倍鳧eepSeek-V3在訓練時僅僅使用了2048個H800 GPU,但是在多個標準測試中卻獲得了很不錯的消息,在數(shù)學基準測試GSM8K和MATH、算法類代碼LiveCodeBench等測試中超越此前的大模型拔得頭籌。這不由引發(fā)了一個思考,DeepSeek支持千卡級集群訓練,那么萬卡智算中心還是AI入場券嗎?首先,我們必須要承認萬卡集群在大模型訓練端仍有必要性,其次,大模型私有化部署已成業(yè)內(nèi)共識,企業(yè)私有部署小型數(shù)據(jù)中心市場將會爆發(fā)。DeepSeek出現(xiàn)之后,眾多公司都在爭相接入,做自己的本地部署。
企業(yè)建設(shè)“自己的小型智算中心”,部署1~10臺服務器(百卡之內(nèi)),或10來20臺服務器(百卡規(guī)模),也可以實現(xiàn)高效的AI業(yè)務。這無疑讓AI入場券發(fā)生了變化,“暴力堆卡”不再是唯一進場方式,更多的企業(yè)可以通過算法優(yōu)化參與到這場AI熱潮中。以華為和瑞金醫(yī)院合作發(fā)布的臨床級多模態(tài)互動式病理大模型RuiPath為例,僅僅使用了16張算力卡,就學習了300余本病理診斷書籍,在病理醫(yī)生整理的常用問題測試中問答準確率可到90%。高通技術(shù)認為,當前先進的AI小模型已具有卓越性能。模型蒸餾和新穎的AI網(wǎng)絡(luò)架構(gòu)等新技術(shù)能夠在不影響質(zhì)量的情況下簡化開發(fā)流程,讓新模型的表現(xiàn)超越一年前推出的僅能在云端運行的更大模型。
除此之外,企業(yè)部署小型智算中心也為四大運營商和鐵塔公司帶來了新的機遇。小型數(shù)據(jù)中心的部署需要穩(wěn)定的場地、電力、網(wǎng)絡(luò)等基礎(chǔ)設(shè)施,而運營商和鐵塔公司的物理機房資源是現(xiàn)成的,以中國鐵塔為例,目前擁有210萬站址資源、能源設(shè)施和近百萬處機房,并有22萬“通信塔”已升級為“數(shù)字塔”。另外,小型數(shù)據(jù)中心靠近數(shù)據(jù)產(chǎn)生源頭,可實現(xiàn)數(shù)據(jù)的快速處理和分析,對于邊緣算力的需求增加,目前中國鐵塔算力正從集中式向“云邊端”分布式范式轉(zhuǎn)變,每個數(shù)據(jù)中心每日新增數(shù)據(jù)量數(shù)十T,預計2025年每數(shù)據(jù)中心接入約二十萬站,未來數(shù)據(jù)規(guī)模將達數(shù)十PB級別。根據(jù)Gartner預測,2025年75%的企業(yè)數(shù)據(jù)將在邊緣側(cè)處理,邊緣數(shù)據(jù)中心數(shù)量將超過傳統(tǒng)數(shù)據(jù)中心的3倍。
?02、數(shù)據(jù)中心芯片變革:訓練降速,推理崛起
DeepSeek 采用純強化學習訓練路徑,擺脫了對監(jiān)督學習微調(diào)階段的依賴,同時采用全新的 GRPO 算法讓模型群體相互學習,將內(nèi)存消耗降低至傳統(tǒng) PPO 算法的三分之一,可在更少硬件資源下完成訓練;FP8 混合精度訓練,內(nèi)存占用減少 50%,計算吞吐量提升 30%;其數(shù)據(jù)蒸餾技術(shù),將無效數(shù)據(jù)比例從行業(yè)平均 15% 降至 3% 以下;NVLink+InfiniBand 雙通道傳輸技術(shù)使得集群內(nèi)部的GPU通信效率提升了 65%。
DeepSeek這些創(chuàng)新性的方法降低了訓練成本,使得數(shù)據(jù)中心芯片發(fā)生變革,未來訓練端的高端GPU需求增速可能放緩,而推理端的算力需求將長期呈增長趨勢。
對此,各大研究機構(gòu)的判斷不謀而合。其中,Gartner 預測2025年推理的集群算力規(guī)模將超過訓練,IDC預測到 2025 年用于推理的工作負載的芯片將達到60.8%。TrendForce集邦咨詢分析師龔明德指出:“DeepSeek的驅(qū)動將促使云服務商更積極投入低成本的自有ASIC方案,并從AI訓練重心轉(zhuǎn)向AI推理。預計到2028年,推理芯片占比將提升至五成。”
顧名思義,訓練芯片是應用在AI模型的訓練階段,需要通過大量標記過的數(shù)據(jù)來訓練系統(tǒng)以適應特定功能,因此更強調(diào)計算性能和存儲能力,而推理芯片在模型訓練完成后,負責使用新數(shù)據(jù)進行預測和推斷,更注重單位能耗算力、時延和成本的綜合指標。
與英偉達市占率98%的訓練芯片市場不同,推理芯片市場還未成熟,更加百花齊放。此前在網(wǎng)上掀起一陣熱潮的美國人工智能芯片公司Groq,其成立于2016年,到目前為止已經(jīng)獲得了5輪融資,2024年8月Groq完成6.4億美元的最新一輪融資后,估值達到28億美元。Groq專為大語言量身定制的新型AI加速芯片LPU,性能表現(xiàn)比常規(guī)的GPU和TPU提升10到100倍,推理速度達到了英偉達GPU的10倍。在國外市場,博通和Marvell是主要的推理芯片供應商。其中,博通與谷歌合作設(shè)計了六代 TPU,預計將在 2026、2027年推出的第七代 TPU,同時其與Meta在AI基礎(chǔ)設(shè)施方面的合作可能會達到數(shù)十億美元;Marvell則是與亞馬遜、谷歌和微軟合作,目前正在生產(chǎn)亞馬遜5nm Tranium 芯片和谷歌5nm Axion Arm CPU 芯片,同時預計在2025年啟動亞馬遜 Inferentia芯片項目,2026年啟動微軟Maia芯片項目。
在國內(nèi)市場,各大科技公司也在積極布局AI推理芯片市場。
- 達摩院推出的含光800 AI芯片,單芯片性能是谷歌TPU v3的8.5 倍、英偉達T4的12倍。百度昆侖系列AI芯片,率先支持8bit推理,百舸DeepSeek一體機搭載昆侖芯 P800,推理延遲低,平均50毫秒以內(nèi),其中昆侖3A超越英偉達A800。寒武紀的思元590智能芯片,幾乎支持所有主流模型,單卡算力超過英偉達A100,集群算力接近A100水平,千卡互聯(lián)的集群會再損失一些性能。
目前,大模型推理階段面臨很多優(yōu)化挑戰(zhàn),首先就是KV Cache管理,推理過程會產(chǎn)生大量中間結(jié)果用于降低計算量。如何管理這些數(shù)據(jù)很關(guān)鍵,例如采用頁面式管理,但頁面大小是固定還是根據(jù)負載特征動態(tài)調(diào)整,都需要仔細設(shè)計。
其次是多卡協(xié)同:當模型較大時需要多 GPU 配合,例如在8個GPU上進行大模型推理,如何優(yōu)化卡間并行也是一大挑戰(zhàn)。最重要的就是算法優(yōu)化:如何從量化等角度進行優(yōu)化,充分發(fā)揮底層算力性能。
?03、算法補性能:芯片競爭開始卷“軟硬協(xié)同”
DeepSeek之所以能夠以2048個H800芯片驚艷世界,其中的重要原因之一是其對硬件進行了極致工程化改造,通過自定義 CUDA 內(nèi)核和算子融合技術(shù),將 H800 GPU 的 MFU(模型 FLOP 利用率)提升至 23%,遠超行業(yè)平均 15% 的水平,在相同硬件條件下可完成更多計算任務,提升訓練效率,并且在GPU集群上實現(xiàn)了98.7%的持續(xù)利用率。
這種創(chuàng)新性的用算法補性能方式,被復旦大學復雜體系多尺度研究院院長、上海人工智能實驗室領(lǐng)軍科學家、國際著名計算生物學家馬劍鵬教授稱為“中國AI的換道超車”。同時,這種方式也將倒逼芯片廠商從“拼制程”轉(zhuǎn)向“算法適配性”設(shè)計,預留更多接口支持動態(tài)算法迭代,如可編程NPU架構(gòu)。
眾所周知,AI用例正在不斷演進,要在功能完全固定的硬件上部署這些用例顯然是不切實際的。而可編程 NPU 架構(gòu)提供豐富編程接口和開發(fā)工具,支持多種編程語言和框架,開發(fā)者可方便地根據(jù)新算法需求進行編程和配置。同時,支持根據(jù)不同算法需求動態(tài)重構(gòu)計算資源,如計算單元、存儲單元等等。
最重要的是,芯片研發(fā)成本高,預留接口支持動態(tài)算法迭代可使芯片在較長時間內(nèi)保持競爭力,面對新算法無需重新設(shè)計硬件,而是通過軟件升級等方式來適配新算法,再也不懼算法更新迭代。
DeepSeek V3中使用了相比CUDA更底層的PTX來優(yōu)化硬件算法,繞過了CUDA的高層 API,直接操作PTX指令集進行更細粒度的硬件優(yōu)化,能在一定程度上擺脫對 CUDA 高層框架的依賴,為開發(fā)者提供了不依賴 CUDA 進行 GPU 資源優(yōu)化的途徑。同時,DeepSeek GPU代碼使用了OpenAI 提出的Triton編程語言來編寫,而Triton 的底層可調(diào)用 CUDA,也可調(diào)用其他 GPU 語言,為適配更多類型的算力芯片奠定了基礎(chǔ)。
因而,我們會看到很多報道中都寫道,“DeepSeek突破英偉達CUDA技術(shù)壁壘”。事實上,DeepSeek的這一舉動證明芯片競爭從一開始的粗暴卷硬件進入到更新的“軟硬協(xié)同”內(nèi)卷之中。而開源框架與國產(chǎn)芯片結(jié)合會是突破口,DeepSeek既能在英偉達芯片上運行,也能在華為昇騰、AMD等非主流芯片上高效運行。更為深遠的影響是AI芯片領(lǐng)域不再是英偉達“一家獨大”,更多的芯片公司可以參與進來。而處在英偉達上游的存儲芯片公司,例如三星電子、SK海力士等可能也要被迫進行轉(zhuǎn)型。
此前,三星電子、SK海力士等半導體巨頭的發(fā)展戰(zhàn)略一直是采用以通用存儲器為重點的量產(chǎn)模式,其業(yè)務也很大程度上依賴于對英特爾、英偉達和AMD 等主要客戶的批量供應,此前美銀分析預測SK海力士可能獲得2025年英偉達Blackwell GPU的60%以上訂單。DeepSeek發(fā)布使得科技公司對英偉達高端芯片需求會減少,但是市場對于AI芯片的總需求卻不一定會減少。
正如經(jīng)濟學家杰文斯所言:技術(shù)進步雖然提高了資源的使用效率,但需求的增加常常會導致總消耗量反而增加。亞馬遜首席執(zhí)行官安迪?賈西曾表示,DeepSeek技術(shù)突破反而會推動人工智能整體需求的增長。人工智能推理等技術(shù)成本的下降,并不意味著企業(yè)會減少在技術(shù)上的投入。
相反,成本降低讓企業(yè)能夠開發(fā)此前因預算受限而擱置的創(chuàng)新項目,最終反而加大了整體技術(shù)支出。這無疑是三星電子、SK海力士轉(zhuǎn)型的巨大機會,擺脫對英偉達的依賴,擁抱更廣闊的市場。HBM需求從高端GPU轉(zhuǎn)向定制化存儲方案,為 AI 服務提供多樣化的產(chǎn)品陣容。