一个人免费视频播放的,95后国产对白影音先锋,久久精品国产亚洲欧美

作者：曉旭

人工智能的極限就是拼卡的極限。頂級AI公司為這場“暴力美學”競賽設(shè)定了單點集群萬卡的門檻。

OpenAI的單點集群5萬張卡，谷歌2.6萬張卡，Meta2.45萬張卡。摩爾線程創(chuàng)始人兼CEO張建中曾在發(fā)布會上表示，“AI主戰(zhàn)場，萬卡是最低標配?！?/strong>而隨著DeepSeek的橫空出世，一場關(guān)于AI規(guī)則重寫的大戲正在上演。

?01、萬卡集群還是AI入場券嗎？

2020年，微軟率先構(gòu)建了萬卡智算中心用來其AI布局，隨后各大科技巨頭競相投入萬卡集群的智算中心建設(shè)，例如亞馬遜、谷歌、Meta、特斯拉、xAI，國內(nèi)科技公司字節(jié)跳動、百度、螞蟻、華為、科大訊飛、小米都建設(shè)了萬卡集群，騰訊、阿里已經(jīng)卷向十萬卡集群。

搭建萬卡集群的智算中心需要耗費巨大的財力，單是GPU的采購成本就高達幾十億元。盡管造價高昂，但“萬卡集群”智算中心使得訓練復(fù)雜的大模型成為可能，因此被業(yè)界視作AI競賽的“入場券”。長江證券在其研報中指出，“模型大小和訓練數(shù)據(jù)量大小成為決定模型能力的關(guān)鍵因素。

在同等模型參數(shù)和數(shù)據(jù)集下，集群訓練時間有望顯著縮短。更大、更先進的集群能及時對市場趨勢作出反應(yīng)，快速進行迭代訓練。整體上超萬卡的集群將有助于壓縮大模型訓練時間，實現(xiàn)模型能力的快速迭代，并及時對市場趨勢作出應(yīng)對，實現(xiàn)大模型技術(shù)上的追趕和領(lǐng)先?！倍鳧eepSeek-V3在訓練時僅僅使用了2048個H800 GPU，但是在多個標準測試中卻獲得了很不錯的消息，在數(shù)學基準測試GSM8K和MATH、算法類代碼LiveCodeBench等測試中超越此前的大模型拔得頭籌。這不由引發(fā)了一個思考，DeepSeek支持千卡級集群訓練，那么萬卡智算中心還是AI入場券嗎？首先，我們必須要承認萬卡集群在大模型訓練端仍有必要性，其次，大模型私有化部署已成業(yè)內(nèi)共識，企業(yè)私有部署小型數(shù)據(jù)中心市場將會爆發(fā)。DeepSeek出現(xiàn)之后，眾多公司都在爭相接入，做自己的本地部署。

企業(yè)建設(shè)“自己的小型智算中心”，部署1~10臺服務(wù)器（百卡之內(nèi)），或10來20臺服務(wù)器（百卡規(guī)模），也可以實現(xiàn)高效的AI業(yè)務(wù)。這無疑讓AI入場券發(fā)生了變化，“暴力堆卡”不再是唯一進場方式，更多的企業(yè)可以通過算法優(yōu)化參與到這場AI熱潮中。以華為和瑞金醫(yī)院合作發(fā)布的臨床級多模態(tài)互動式病理大模型RuiPath為例，僅僅使用了16張算力卡，就學習了300余本病理診斷書籍，在病理醫(yī)生整理的常用問題測試中問答準確率可到90%。高通技術(shù)認為，當前先進的AI小模型已具有卓越性能。模型蒸餾和新穎的AI網(wǎng)絡(luò)架構(gòu)等新技術(shù)能夠在不影響質(zhì)量的情況下簡化開發(fā)流程，讓新模型的表現(xiàn)超越一年前推出的僅能在云端運行的更大模型。

除此之外，企業(yè)部署小型智算中心也為四大運營商和鐵塔公司帶來了新的機遇。小型數(shù)據(jù)中心的部署需要穩(wěn)定的場地、電力、網(wǎng)絡(luò)等基礎(chǔ)設(shè)施，而運營商和鐵塔公司的物理機房資源是現(xiàn)成的，以中國鐵塔為例，目前擁有210萬站址資源、能源設(shè)施和近百萬處機房，并有22萬“通信塔”已升級為“數(shù)字塔”。另外，小型數(shù)據(jù)中心靠近數(shù)據(jù)產(chǎn)生源頭，可實現(xiàn)數(shù)據(jù)的快速處理和分析，對于邊緣算力的需求增加，目前中國鐵塔算力正從集中式向“云邊端”分布式范式轉(zhuǎn)變，每個數(shù)據(jù)中心每日新增數(shù)據(jù)量數(shù)十T，預(yù)計2025年每數(shù)據(jù)中心接入約二十萬站，未來數(shù)據(jù)規(guī)模將達數(shù)十PB級別。根據(jù)Gartner預(yù)測，2025年75%的企業(yè)數(shù)據(jù)將在邊緣側(cè)處理，邊緣數(shù)據(jù)中心數(shù)量將超過傳統(tǒng)數(shù)據(jù)中心的3倍。

?02、數(shù)據(jù)中心芯片變革：訓練降速，推理崛起

DeepSeek 采用純強化學習訓練路徑，擺脫了對監(jiān)督學習微調(diào)階段的依賴，同時采用全新的 GRPO 算法讓模型群體相互學習，將內(nèi)存消耗降低至傳統(tǒng) PPO 算法的三分之一，可在更少硬件資源下完成訓練；FP8 混合精度訓練，內(nèi)存占用減少 50%，計算吞吐量提升 30%；其數(shù)據(jù)蒸餾技術(shù)，將無效數(shù)據(jù)比例從行業(yè)平均 15% 降至 3% 以下；NVLink+InfiniBand 雙通道傳輸技術(shù)使得集群內(nèi)部的GPU通信效率提升了 65%。

DeepSeek這些創(chuàng)新性的方法降低了訓練成本，使得數(shù)據(jù)中心芯片發(fā)生變革，未來訓練端的高端GPU需求增速可能放緩，而推理端的算力需求將長期呈增長趨勢。

對此，各大研究機構(gòu)的判斷不謀而合。其中，Gartner 預(yù)測2025年推理的集群算力規(guī)模將超過訓練，IDC預(yù)測到 2025 年用于推理的工作負載的芯片將達到60.8%。TrendForce集邦咨詢分析師龔明德指出：“DeepSeek的驅(qū)動將促使云服務(wù)商更積極投入低成本的自有ASIC方案，并從AI訓練重心轉(zhuǎn)向AI推理。預(yù)計到2028年，推理芯片占比將提升至五成?！?/p>
顧名思義，訓練芯片是應(yīng)用在AI模型的訓練階段，需要通過大量標記過的數(shù)據(jù)來訓練系統(tǒng)以適應(yīng)特定功能，因此更強調(diào)計算性能和存儲能力，而推理芯片在模型訓練完成后，負責使用新數(shù)據(jù)進行預(yù)測和推斷，更注重單位能耗算力、時延和成本的綜合指標。

與英偉達市占率98%的訓練芯片市場不同，推理芯片市場還未成熟，更加百花齊放。此前在網(wǎng)上掀起一陣熱潮的美國人工智能芯片公司Groq，其成立于2016年，到目前為止已經(jīng)獲得了5輪融資，2024年8月Groq完成6.4億美元的最新一輪融資后，估值達到28億美元。Groq專為大語言量身定制的新型AI加速芯片LPU，性能表現(xiàn)比常規(guī)的GPU和TPU提升10到100倍，推理速度達到了英偉達GPU的10倍。在國外市場，博通和Marvell是主要的推理芯片供應(yīng)商。其中，博通與谷歌合作設(shè)計了六代 TPU，預(yù)計將在 2026、2027年推出的第七代 TPU，同時其與Meta在AI基礎(chǔ)設(shè)施方面的合作可能會達到數(shù)十億美元；Marvell則是與亞馬遜、谷歌和微軟合作，目前正在生產(chǎn)亞馬遜5nm Tranium 芯片和谷歌5nm Axion Arm CPU 芯片，同時預(yù)計在2025年啟動亞馬遜 Inferentia芯片項目，2026年啟動微軟Maia芯片項目。

在國內(nèi)市場，各大科技公司也在積極布局AI推理芯片市場。

達摩院推出的含光800 AI芯片，單芯片性能是谷歌TPU v3的8.5 倍、英偉達T4的12倍。百度昆侖系列AI芯片，率先支持8bit推理，百舸DeepSeek一體機搭載昆侖芯 P800，推理延遲低，平均50毫秒以內(nèi)，其中昆侖3A超越英偉達A800。寒武紀的思元590智能芯片，幾乎支持所有主流模型，單卡算力超過英偉達A100，集群算力接近A100水平，千卡互聯(lián)的集群會再損失一些性能。

目前，大模型推理階段面臨很多優(yōu)化挑戰(zhàn)，首先就是KV Cache管理，推理過程會產(chǎn)生大量中間結(jié)果用于降低計算量。如何管理這些數(shù)據(jù)很關(guān)鍵，例如采用頁面式管理，但頁面大小是固定還是根據(jù)負載特征動態(tài)調(diào)整，都需要仔細設(shè)計。

其次是多卡協(xié)同：當模型較大時需要多 GPU 配合，例如在8個GPU上進行大模型推理，如何優(yōu)化卡間并行也是一大挑戰(zhàn)。最重要的就是算法優(yōu)化：如何從量化等角度進行優(yōu)化，充分發(fā)揮底層算力性能。

?03、算法補性能：芯片競爭開始卷“軟硬協(xié)同”

DeepSeek之所以能夠以2048個H800芯片驚艷世界，其中的重要原因之一是其對硬件進行了極致工程化改造，通過自定義 CUDA 內(nèi)核和算子融合技術(shù)，將 H800 GPU 的 MFU（模型 FLOP 利用率）提升至 23%，遠超行業(yè)平均 15% 的水平，在相同硬件條件下可完成更多計算任務(wù)，提升訓練效率，并且在GPU集群上實現(xiàn)了98.7%的持續(xù)利用率。

這種創(chuàng)新性的用算法補性能方式，被復(fù)旦大學復(fù)雜體系多尺度研究院院長、上海人工智能實驗室領(lǐng)軍科學家、國際著名計算生物學家馬劍鵬教授稱為“中國AI的換道超車”。同時，這種方式也將倒逼芯片廠商從“拼制程”轉(zhuǎn)向“算法適配性”設(shè)計，預(yù)留更多接口支持動態(tài)算法迭代，如可編程NPU架構(gòu)。

眾所周知，AI用例正在不斷演進，要在功能完全固定的硬件上部署這些用例顯然是不切實際的。而可編程 NPU 架構(gòu)提供豐富編程接口和開發(fā)工具，支持多種編程語言和框架，開發(fā)者可方便地根據(jù)新算法需求進行編程和配置。同時，支持根據(jù)不同算法需求動態(tài)重構(gòu)計算資源，如計算單元、存儲單元等等。

最重要的是，芯片研發(fā)成本高，預(yù)留接口支持動態(tài)算法迭代可使芯片在較長時間內(nèi)保持競爭力，面對新算法無需重新設(shè)計硬件，而是通過軟件升級等方式來適配新算法，再也不懼算法更新迭代。

DeepSeek V3中使用了相比CUDA更底層的PTX來優(yōu)化硬件算法，繞過了CUDA的高層 API，直接操作PTX指令集進行更細粒度的硬件優(yōu)化，能在一定程度上擺脫對 CUDA 高層框架的依賴，為開發(fā)者提供了不依賴 CUDA 進行 GPU 資源優(yōu)化的途徑。同時，DeepSeek GPU代碼使用了OpenAI 提出的Triton編程語言來編寫，而Triton 的底層可調(diào)用 CUDA，也可調(diào)用其他 GPU 語言，為適配更多類型的算力芯片奠定了基礎(chǔ)。

因而，我們會看到很多報道中都寫道，“DeepSeek突破英偉達CUDA技術(shù)壁壘”。事實上，DeepSeek的這一舉動證明芯片競爭從一開始的粗暴卷硬件進入到更新的“軟硬協(xié)同”內(nèi)卷之中。而開源框架與國產(chǎn)芯片結(jié)合會是突破口，DeepSeek既能在英偉達芯片上運行，也能在華為昇騰、AMD等非主流芯片上高效運行。更為深遠的影響是AI芯片領(lǐng)域不再是英偉達“一家獨大”，更多的芯片公司可以參與進來。而處在英偉達上游的存儲芯片公司，例如三星電子、SK海力士等可能也要被迫進行轉(zhuǎn)型。

此前，三星電子、SK海力士等半導(dǎo)體巨頭的發(fā)展戰(zhàn)略一直是采用以通用存儲器為重點的量產(chǎn)模式，其業(yè)務(wù)也很大程度上依賴于對英特爾、英偉達和AMD 等主要客戶的批量供應(yīng)，此前美銀分析預(yù)測SK海力士可能獲得2025年英偉達Blackwell GPU的60%以上訂單。DeepSeek發(fā)布使得科技公司對英偉達高端芯片需求會減少，但是市場對于AI芯片的總需求卻不一定會減少。

正如經(jīng)濟學家杰文斯所言：技術(shù)進步雖然提高了資源的使用效率，但需求的增加常常會導(dǎo)致總消耗量反而增加。亞馬遜首席執(zhí)行官安迪?賈西曾表示，DeepSeek技術(shù)突破反而會推動人工智能整體需求的增長。人工智能推理等技術(shù)成本的下降，并不意味著企業(yè)會減少在技術(shù)上的投入。

相反，成本降低讓企業(yè)能夠開發(fā)此前因預(yù)算受限而擱置的創(chuàng)新項目，最終反而加大了整體技術(shù)支出。這無疑是三星電子、SK海力士轉(zhuǎn)型的巨大機會，擺脫對英偉達的依賴，擁抱更廣闊的市場。HBM需求從高端GPU轉(zhuǎn)向定制化存儲方案，為 AI 服務(wù)提供多樣化的產(chǎn)品陣容。

DeepSeek來了，萬卡還是AI入場券嗎？

?01、萬卡集群還是AI入場券嗎？

?02、數(shù)據(jù)中心芯片變革：訓練降速，推理崛起

?03、算法補性能：芯片競爭開始卷“軟硬協(xié)同”

相關(guān)推薦

DeepSeek來了，萬卡還是AI入場券嗎？

?01、萬卡集群還是AI入場券嗎？

?02、數(shù)據(jù)中心芯片變革：訓練降速，推理崛起

?03、算法補性能：芯片競爭開始卷“軟硬協(xié)同”

相關(guān)推薦

DeepSeek來了，萬卡還是AI入場券嗎？

?01、萬卡集群還是AI入場券嗎？

?02、數(shù)據(jù)中心芯片變革：訓練降速，推理崛起

?03、算法補性能：芯片競爭開始卷“軟硬協(xié)同”