開年以來,國產(chǎn)AI大模型DeepSeek以出色的性價比和高效的模型技術(shù),迅速成為全球AI關(guān)注的焦點。這一熱潮不僅引發(fā)了國際科技巨頭的關(guān)注,更帶動了國產(chǎn)芯片廠商的集體行動。近期,華為昇騰、海光、沐曦、天數(shù)智芯、摩爾線程、壁仞、燧原、昆侖芯、云天勵飛、靈汐科技、鯤云等多家國產(chǎn)芯片廠商紛紛宣布完成對DeepSeek系列模型的適配,涵蓋從1.5B到70B的多參數(shù)版本,實現(xiàn)了推理服務(wù)的高效部署。
與此同時,國產(chǎn)芯片廠商通過與DeepSeek合作,加速了深度學習框架優(yōu)化和分布式訓練適配,推動“國產(chǎn)算力+國產(chǎn)大模型”閉環(huán)生態(tài)的構(gòu)建。這一系列動作不僅標志著國產(chǎn)AI芯片生態(tài)的快速成熟,也為中國AI產(chǎn)業(yè)的發(fā)展注入了強勁動力。從技術(shù)分野到產(chǎn)業(yè)突圍,國產(chǎn)大模型開啟新敘事。
DeepSeek為何掀起國產(chǎn)GPU適配潮?
國產(chǎn)AI芯片當前面臨的核心挑戰(zhàn)之一在于英偉達GPU的強勢地位。英偉達憑借高端GPU和CUDA生態(tài)積累,幾乎壟斷了全球AI訓練市場,尤其是在大模型訓練領(lǐng)域,其A100、H100等高端GPU一度成為行業(yè)標配。然而,隨著美國對高端GPU出口的限制,國產(chǎn)AI芯片在訓練端的短板愈發(fā)凸顯,亟需找到一條“非對稱超越”的路徑。
DeepSeek為國產(chǎn)AI芯片提供了新的突破口。它通過模型蒸餾技術(shù)和高效的算法優(yōu)化,顯著降低了對硬件算力的需求。DeepSeek-R1系列模型在推理任務(wù)中表現(xiàn)出色,AME2024測試成績甚至略高于OpenAI的同類產(chǎn)品,但API服務(wù)定價卻更具優(yōu)勢。這種“高效能、低成本”的特性,使得國產(chǎn)AI芯片能夠在推理端快速實現(xiàn)商業(yè)化落地,而無需在訓練端與英偉達正面競爭。例如,華為云發(fā)布的DeepSeek R1/V3推理服務(wù),通過昇騰云的異構(gòu)算力優(yōu)勢,在推理性能上“與全球高端GPU部署模型效果持平”,能夠滿足大規(guī)模生產(chǎn)環(huán)境的商用部署需求。
同時,DeepSeek的開源策略和輕量化設(shè)計,大幅降低了開發(fā)者和企業(yè)的使用門檻。國產(chǎn)芯片廠商通過與DeepSeek的適配,能夠快速構(gòu)建從硬件到軟件的完整技術(shù)棧,滿足不同規(guī)模企業(yè)的需求。例如,優(yōu)刻得基于壁仞芯片,僅用數(shù)小時即完成了對DeepSeek全系列模型的適配,覆蓋從1.5B到70B的參數(shù)版本,展現(xiàn)了國產(chǎn)算力的高效兼容性。
此外,DeepSeek技術(shù)路線對顯存占用和計算資源的優(yōu)化,使得國產(chǎn)GPU能夠在有限的硬件條件下實現(xiàn)高性能推理。DeepSeek MoE架構(gòu)通過融合專家混合系統(tǒng)(MoE)、多頭潛在注意力機制(MLA)和RMSNorm三個核心組件,并采用專家共享機制、動態(tài)路由算法和潛在變量緩存技術(shù),能夠在保持性能水平的同時顯著降低計算開銷,從而能夠在資源受限的環(huán)境中高效運行。這種技術(shù)適配不僅提升了國產(chǎn)芯片的市場競爭力,也為開發(fā)者提供了更多選擇,進一步推動了國產(chǎn)AI生態(tài)的繁榮。
國產(chǎn)AI芯片適配DeepSeek,三大流派分野
國產(chǎn)AI芯片密集宣布適配DeepSeek,包括:華為昇騰、海光、沐曦、天數(shù)智芯、摩爾線程、壁仞、云天勵飛、燧原、昆侖芯、靈汐科技、鯤云等。從技術(shù)路線來看,可大致劃分為三大派系:算力派、能效派以及場景派。
1、算力派
算力派追求通用算力對標國際,其核心邏輯在于通過提升FP32/FP16通用算力密度,縮小與國際主流GPU的性能差距,從而適配大規(guī)模模型訓練與推理需求。代表廠商如下:
海光信息
技術(shù)細節(jié):海光DCU(深度計算單元)基于高性能GPGPU架構(gòu),支持FP32/FP16高精度計算,已在金融、醫(yī)療、政務(wù)等領(lǐng)域?qū)崿F(xiàn)規(guī)模化應(yīng)用。
案例:海光信息成功完成DeepSeek V3和R1模型與海光DCU的適配,并正式上線,推動AI技術(shù)在更多行業(yè)的落地。
壁仞科技
技術(shù)細節(jié):壁仞AI算力平臺上線 DeepSeek R1 蒸餾模型推理服務(wù),涵蓋從1.5B到70B的參數(shù)版本??擅馊ビ布少徟c環(huán)境搭建,實現(xiàn)“開箱即用”的云端推理體驗;針對LLM等不同任務(wù)預置優(yōu)化配置方案,實現(xiàn)多場景覆蓋。
案例:壁仞聯(lián)合上海智能算力科技有限公司、中興通訊、科華數(shù)據(jù)、無問芯穹、開源中國(Gitee AI)、優(yōu)刻得、一驀科技等戰(zhàn)略伙伴,基于壁礪系列訓推產(chǎn)品106M、106B、106E、110E,開展包括R1在內(nèi)的DeepSeek全系列模型的適配與上線,以滿足不同規(guī)模參數(shù)量模型的部署需求。
沐曦
技術(shù)細節(jié):沐曦曦云C系列通用GPU(GPGPU)芯片針對智算及通用計算,可廣泛應(yīng)用于智算以及通用計算、教育和科研等場景。曦思N系列是面向云端應(yīng)用的智算推理產(chǎn)品,采用高帶寬內(nèi)存,提供強大算力和視頻編解碼能力,可廣泛應(yīng)用于智慧城市、公有云計算、智能視頻處理、云游戲等場景。
案例:沐曦與聯(lián)想合作推出基于DeepSeek的一體機解決方案,搭載曦思N260 GPU,在Qwen2.5-14B模型推理中性能達到英偉達L20 GPU的110%-130%。此外,Gitee AI平臺聯(lián)合沐曦首發(fā)全套DeepSeek R1千問蒸餾模型,部署在曦云GPU上,實現(xiàn)從芯片到平臺的全國產(chǎn)化。
昆侖芯
技術(shù)細節(jié):昆侖芯P800推理芯片采用自主研發(fā)的AI芯片架構(gòu),支持多種數(shù)據(jù)精度(FP32、FP16、INT8等)混合計算,具備高吞吐量和低延遲特性,支持高帶寬內(nèi)存(HBM)和DDR4內(nèi)存,提供強大的數(shù)據(jù)處理能力。此外,兼容PyTorch生態(tài),支持大模型訓練場景。百度智能云近期點亮的昆侖芯三代萬卡集群,采用的核心硬件就是昆侖芯P800。
案例:DeepSeek-V3/R1上線后不久,昆侖芯完成了全版本模型的適配,包括DeepSeek MoE模型及其蒸餾的Llama、Qwen等小規(guī)模dense模型。昆侖芯P800在支撐Deepseek系列MoE模型大規(guī)模訓練任務(wù)方面表現(xiàn)較為出色,它全面支持MLA、多專家并行等特性,僅需32臺即可支持模型全參訓練,高效完成模型的持續(xù)訓練和微調(diào)。P800的顯存規(guī)格優(yōu)于同類主流GPU 20-50%,對MoE架構(gòu)友好。它率先支持8bit推理,單機8卡即可運行671B模型。
2. 能效派
能效派通過芯片架構(gòu)創(chuàng)新,以及與框架的優(yōu)化適配,能夠在同等制程下實現(xiàn)高效算力。代表廠商如下:
華為昇騰
技術(shù)細節(jié):昇騰芯片與MindSpore框架的深度綁定,為DeepSeek提供了優(yōu)化空間。通過動態(tài)形狀編譯技術(shù),模型可自動適應(yīng)不同輸入尺寸,減少30%以上的內(nèi)存碎片;混合精度流水線設(shè)計則使FP16/INT8的轉(zhuǎn)換損耗從行業(yè)平均的2.1%降至0.7%。
案例:華為云發(fā)布的DeepSeek R1/V3推理服務(wù),在昇騰云的異構(gòu)算力支持下,推理性能與英偉達A100持平,但功耗降低40%。華為云與硅基流動聯(lián)合發(fā)布基于昇騰云服務(wù)的DeepSeek R1/V3推理服務(wù),性能與高端GPU部署效果持平,支持大規(guī)模生產(chǎn)環(huán)境商用部署。潞晨科技基于昇騰910B推出DeepSeek R1推理API,性能媲美英偉達H800,支持私有化部署。
天數(shù)智芯
技術(shù)細節(jié):天數(shù)智芯算力支持三個不同參數(shù)的 DeepSeek R1千問蒸餾模型:1.5B、7B和14B,這三種版本在保證推理效率的同時,提供靈活算力選擇,能夠滿足不同規(guī)模和需求的應(yīng)用場景。
案例:算力互聯(lián)和天數(shù)智芯合作,上線了基于天數(shù)智芯GPU芯片的DeepSeek-R1模型服務(wù),是國產(chǎn)GPU技術(shù)創(chuàng)新與生態(tài)建設(shè)的重要突破。
燧原科技
技術(shù)細節(jié):搭載于燧原加速卡中的新一代AI芯片,通過升級其自研架構(gòu)GCU-CARA(通用計算單元和全域計算架構(gòu)),提高了單位面積的晶體管效率,采用12nm工藝實現(xiàn)與7nm GPU匹敵的計算能力。
案例:燧原科技完成了對DeepSeek全量模型的高效適配,包括DeepSeek-R1/V3 671B原生模型、DeepSeek-R1-Distill-Qwen-1.5B/7B/14B/32B、DeepSeek R1-Distill-Llama-8B/70B等蒸餾模型。
DeepSeek全量模型已在慶陽、無錫、成都等智算中心完成了數(shù)萬卡的快速部署,提供高性能計算資源,提升模型推理效率,同時降低使用門檻,節(jié)省硬件成本。
摩爾線程
技術(shù)細節(jié):摩爾線程MTT S4000 GPU通過動態(tài)張量核心設(shè)計,將DeepSeek蒸餾模型的稀疏化率(70%)轉(zhuǎn)化為實際能效增益。測試數(shù)據(jù)顯示,在自然語言推理任務(wù)中,其Tokens/Watt指標達到A100的83%,超同類國產(chǎn)GPU的37%水平。采用FP16-INT8混合量化引擎,結(jié)合模型蒸餾后的權(quán)重分布特性,使ResNet-50推理延遲降至3.2ms,較未優(yōu)化前提升4.3倍。
基于Ollama開源框架,摩爾線程完成了DeepSeek-R1-Distill-Qwen-7B蒸餾模型的部署,并在多種中文任務(wù)中展現(xiàn)了良好性能。
案例:摩爾線程計劃開放夸娥(KUAE)GPU智算集群,全面支持DeepSeek V3、R1模型及新一代蒸餾模型的分布式部署,進一步驗證自研全功能GPU的通用性與CUDA兼容性。
3. 場景派
場景派聚焦細分領(lǐng)域垂直需求,針對特定場景(如類腦計算、生物計算、視頻應(yīng)用等)優(yōu)化硬件設(shè)計,形成差異化競爭優(yōu)勢。代表廠商如下:
靈汐科技
技術(shù)細節(jié):靈汐科技類腦芯片領(lǐng)啟KA200(-S) 基于存算一體、眾核并行、異構(gòu)融合架構(gòu),能高效支持深度學習神經(jīng)網(wǎng)絡(luò)、生物神經(jīng)網(wǎng)絡(luò)和大規(guī)模腦仿真。單芯片集成 25 萬神經(jīng)元和 2500 萬突觸(稠密模式),可擴展支持 200 萬神經(jīng)元和 20 億突觸的集成計算(稀疏模式),支持混合精度計算(48TOPS@INT8 和 24TFLOPS@FP16)。有強大的視頻圖像處理和算法支持能力,也具有對各類LLM語言大模型及多模態(tài)模型的支撐能力。
案例:靈汐科技團隊聯(lián)合類腦技術(shù)社區(qū)(“腦啟社區(qū)“)的開發(fā)者,用半天時間完成了DeepSeek-R1系列模型在靈汐KA200芯片及相關(guān)智算卡的適配。 “腦啟社區(qū)“開發(fā)者反饋,在DeepSeek-R1-Distill-Qwen的1.5B、7B等系列模型測試中,模型在4K上下文情形下體驗順暢,具備交付客戶使用的能力。
云天勵飛
技術(shù)細節(jié):云天勵飛DeepEdge10 “算力積木”芯片平臺已經(jīng)與DeepSeek-R1-Distill-Qwen-1.5B、DeepSeek-R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Llama-8B大模型完成適配,可以交付使用。DeepSeek-R1-Distill-Qwen-32B、DeepSeek-R1-Distill-Llama-70B大模型、DeepSeek V3/R1 671B MoE大模型也在有序適配中。
案例:邊緣推理芯片DeepEdge10專注視頻結(jié)構(gòu)化分析,支持DeepSeek視覺模型的低延時部署。適配完成后,DeepEdge10芯片平臺將在端、邊、云全面支持DeepSeek全系列模型。
鯤云科技
技術(shù)細節(jié):鯤云科技CAISA 430采用自研定制數(shù)據(jù)流架構(gòu)(CAISA 3.0),通過數(shù)據(jù)流動控制計算順序,提升了芯片的實測性能和利用率。數(shù)據(jù)流架構(gòu)通過消除計算單元的空閑時間,實現(xiàn)了95.4%的芯片利用率,較傳統(tǒng)GPU架構(gòu)提升了3倍以上的實測算力。鑒于CAISA 430的通用性,原生支持 DeepSeek R1 蒸餾模型的開源基礎(chǔ)模型,DeepSeek R1 的QWen和 Llama 模型可直接在 CAISA 430 上運行,不需要復雜的適配工作。
案例:基于可重構(gòu)數(shù)據(jù)流架構(gòu)底層優(yōu)勢,適配后的CAISA 430芯片優(yōu)勢主要體現(xiàn)在,支持邊緣盒子、一體機、AI 服務(wù)器、算力中心服務(wù)器集群等邊緣至中心不同產(chǎn)品形態(tài),適配不同場景的AI推理需求。
國產(chǎn)AI芯片生態(tài)是否迎來結(jié)構(gòu)性突破?
DeepSeek的普及和國產(chǎn)芯片的快速適配,為國產(chǎn)AI生態(tài)注入了新的活力。隨著技術(shù)的不斷迭代和生態(tài)的逐步完善,國產(chǎn)AI芯片有望率先在推理端實現(xiàn)規(guī)?;涞?,生態(tài)迎來結(jié)構(gòu)性突破的可能性。
從技術(shù)層面來看,DeepSeek的蒸餾模型和高效算法優(yōu)化,使得國產(chǎn)芯片能夠在推理任務(wù)中實現(xiàn)與高端GPU相當?shù)男阅鼙憩F(xiàn)。例如,海光信息、沐曦等國產(chǎn)GPU已成功完成DeepSeek-V3和R1模型的適配,并在實際應(yīng)用中展現(xiàn)了優(yōu)異的推理效率。這種技術(shù)突破不僅降低了算力成本,也為國產(chǎn)芯片在邊緣計算、智能終端等場景的普及奠定了基礎(chǔ)。
從生態(tài)層面來看,DeepSeek的開源屬性和低成本特性,吸引了大量開發(fā)者和企業(yè)加入國產(chǎn)AI生態(tài)。優(yōu)刻得、華為云、騰訊云等云計算廠商紛紛支持DeepSeek模型的部署,形成了從底層硬件到上層應(yīng)用的完整技術(shù)棧。這種“國產(chǎn)算力+國產(chǎn)模型”的閉環(huán)生態(tài),不僅增強了國產(chǎn)AI產(chǎn)業(yè)鏈的自主可控能力,也提供了更具性價比的解決方案。
不過要看到的是,國產(chǎn)AI芯片生態(tài)的結(jié)構(gòu)性突破仍面臨挑戰(zhàn)。例如,在訓練端,國產(chǎn)芯片與英偉達GPU的性能差距依然顯著,尤其是在大規(guī)模模型訓練場景中,國產(chǎn)芯片的算力密度和軟件棧成熟度仍需提升。此外,生態(tài)碎片化問題也亟待解決,各家芯片廠商自研編譯器和框架可能導致開發(fā)者適配成本增加,影響生態(tài)的整體效率。只有這些問題逐步得到解決,國產(chǎn)AI芯片才能迎來真正的結(jié)構(gòu)性突破。
寫在最后
DeepSeek憑借其高效能、低成本的技術(shù)優(yōu)勢,當前已經(jīng)成為國產(chǎn)AI芯片適配的焦點,為國產(chǎn)AI生態(tài)帶來了新的發(fā)展機遇。盡管在訓練端仍面臨挑戰(zhàn),但國產(chǎn)芯片在推理端的快速突破和生態(tài)閉環(huán)的初步形成,標志著國產(chǎn)AI芯片生態(tài)正迎來關(guān)鍵突破節(jié)點。未來,隨著技術(shù)的進一步優(yōu)化和生態(tài)的持續(xù)完善,國產(chǎn)AI芯片將進一步推動我國AI產(chǎn)業(yè)的升級和發(fā)展。