DeepSeek 引發(fā)的洶涌浪潮,正推動(dòng)人工智能以前所未有的速度落地。而在此關(guān)鍵時(shí)刻,埃隆·馬斯克旗下的 xAI 公司又重磅推出了新一代Grok 3,并宣稱為目前“地球上最聰明的AI”。這一消息猶如在本就沸騰的水面上投下巨石,掀起了巨大波瀾。
從當(dāng)前的市場(chǎng)情況來看,通用大模型正呈現(xiàn)降價(jià)趨勢(shì)。經(jīng)歷了過去一整年的狂飆式突進(jìn),在算力和能耗資源有限的條件下,實(shí)現(xiàn)算力消耗更低、推理和訓(xùn)練效果更優(yōu)的大模型開發(fā),已經(jīng)成為產(chǎn)業(yè)當(dāng)前的重點(diǎn)方向,提升“模算效率”對(duì)大模型產(chǎn)業(yè)落地至關(guān)重要,這也是為什么DeepSeek“出道即巔峰”的重要原因。
而隨著Grok 3的推出,AI大模型似乎迎來巔峰對(duì)決的時(shí)刻。Grok 3和DeepSeek不僅在技術(shù)上各具特色,更在應(yīng)用場(chǎng)景和算力需求等方面展現(xiàn)出了各自的特色和潛力。一個(gè)是偏向于大算力的通用巨模型,一個(gè)是算法優(yōu)化主導(dǎo)的高效模型范式,它們的發(fā)展和應(yīng)用亦將深刻影響著未來的算力趨勢(shì)和AI芯片的走向。
技術(shù)路線對(duì)決:千億參數(shù)怪獸 vs. 算法優(yōu)化大師
馬斯克高調(diào)宣稱Grok 3的測(cè)試表現(xiàn)“優(yōu)于任何已發(fā)布的模型”,其具有高達(dá)千億參數(shù)規(guī)模、高效的推理能力和多模態(tài)交互潛力。在標(biāo)準(zhǔn)AI基準(zhǔn)測(cè)試中,它在數(shù)學(xué)(AIME)、科學(xué)(GPOA)和編程(LCB)測(cè)試中穩(wěn)居榜首,盲測(cè)表現(xiàn)也非常出色。此前代號(hào)為“Chocolate”的測(cè)試版曾在LLM Arena平臺(tái)上獲得最高ELO評(píng)分。
對(duì)標(biāo)OpenAI和DeepSeek,Grok 3的差異化能力可以主要從兩方面來看:首先是推理能力,Grok 3引入的“思維鏈”技術(shù)使其能夠模擬人類逐步拆解復(fù)雜問題的邏輯過程,例如在數(shù)學(xué)、編程和科學(xué)知識(shí)測(cè)試中,表現(xiàn)顯著優(yōu)于DeepSeek和OpenAI的模型(如AIME24測(cè)試中Grok 3得52分,DeepSeek-V3為39分)。其次是多模態(tài)功能的應(yīng)用擴(kuò)展,Grok 3支持文本、圖像、代碼等多模態(tài)輸入,例如從衛(wèi)星圖像推斷氣候變化影響或生成融合游戲設(shè)計(jì)的代碼,進(jìn)一步拓寬了AI的應(yīng)用場(chǎng)景。
強(qiáng)大的性能背后,Grok-3的訓(xùn)練成本也引起了關(guān)注。據(jù)披露,Grok-3訓(xùn)練過程中累計(jì)消耗了20萬塊英偉達(dá)GPU,這個(gè)系統(tǒng)分兩個(gè)階段訓(xùn)練:先在10萬塊GPU上訓(xùn)練了122天,然后又花了92天擴(kuò)展到20萬塊。xAI團(tuán)隊(duì)直言,搭建這個(gè)集群比開發(fā)模型本身還難。為了支持如此龐大的訓(xùn)練規(guī)模,xAI 公司新建了名為 “Colossus” 的超級(jí)計(jì)算數(shù)據(jù)中心,堪稱全球最強(qiáng)的AI訓(xùn)練設(shè)施之一。
相比之下,DeepSeek采取的是不同的技術(shù)路線,是以算法優(yōu)化主導(dǎo)的高效模型。其技術(shù)路線主要包括:側(cè)重算法級(jí)優(yōu)化,例如通過稀疏注意力減少冗余計(jì)算,提升長(zhǎng)文本處理效率;采用動(dòng)態(tài)模型壓縮,在訓(xùn)練過程中自適應(yīng)調(diào)整模型結(jié)構(gòu)(如權(quán)重剪枝、知識(shí)蒸餾)。在訓(xùn)練策略方面,DeepSeek的創(chuàng)新主要體現(xiàn)在采用課程學(xué)習(xí)(Curriculum Learning)、漸進(jìn)式訓(xùn)練(Progressive Training)等方法提升收斂速度??傊珼eepSeek的實(shí)現(xiàn),追求的是“單位算力下的性能最大化”,通過算法改進(jìn)降低對(duì)硬件資源的依賴,使其適合中小規(guī)模算力環(huán)境。
生態(tài)布局暗戰(zhàn):馬斯克AI帝國 vs 中國開源生態(tài)
AI大模型近期的一系列動(dòng)作表明,行業(yè)競(jìng)爭(zhēng)已從單純的技術(shù)比拼轉(zhuǎn)向生態(tài)構(gòu)建與資源整合,這也恰恰是一個(gè)行業(yè)走向成熟的標(biāo)志。Grok 3 和 DeepSeek 的競(jìng)爭(zhēng)體現(xiàn)了大模型在尖端性能與經(jīng)濟(jì)學(xué)方面的路線之爭(zhēng),兩種路線在性能、成本和應(yīng)用領(lǐng)域的競(jìng)爭(zhēng)值得繼續(xù)觀望下去。
目前看來,Grok-3的發(fā)布并非只是單純的技術(shù)迭代,更是馬斯克對(duì)AI生態(tài)的系統(tǒng)性布局。其核心點(diǎn)在于:通過稀疏化架構(gòu)與動(dòng)態(tài)計(jì)算優(yōu)化實(shí)現(xiàn)成本革命,同等性能下訓(xùn)練成本降低30%-40%;與X平臺(tái)(原Twitter)深度綁定,實(shí)時(shí)抓取社交數(shù)據(jù)優(yōu)化模型,瞄準(zhǔn)個(gè)性化內(nèi)容生成與輿情分析賽道;通過開源策略與特斯拉的軟硬件生態(tài)深度融合,例如接入車載系統(tǒng)和人形機(jī)器人Optimus,構(gòu)建從芯片到應(yīng)用的全鏈條壁壘。
DeepSeek的生態(tài)策略則主要是通過開源和算法優(yōu)化推動(dòng)普惠化,在應(yīng)用場(chǎng)景方面,DeepSeek 覆蓋了客戶服務(wù)、教育、醫(yī)療等數(shù)十億用戶入口,吸引了全球超過 20 萬開發(fā)者參與。盡管在一些基準(zhǔn)測(cè)試中,DeepSeek 的表現(xiàn)略遜于 Grok 3,但其低成本和開源生態(tài)使其在市場(chǎng)中具有強(qiáng)大的競(jìng)爭(zhēng)力。根據(jù)測(cè)算,Grok-3的算力消耗是DeepSeek-v3的263倍。
摩根士丹利的一份AI產(chǎn)業(yè)報(bào)告指出,Grok-3是“富人的玩具”,而DeepSeek可能成為“平民AI”的基礎(chǔ)設(shè)施。長(zhǎng)期來看,后者更具備滲透全球市場(chǎng)的潛力。
不管怎樣,Grok 3的發(fā)布或?qū)⒊蔀锳I發(fā)展史上的一個(gè)重要分水嶺。它標(biāo)志著行業(yè)從“大參數(shù)模型”向“強(qiáng)推理能力”的轉(zhuǎn)型,也揭示了未來競(jìng)爭(zhēng)的核心——如何在技術(shù)突破與應(yīng)用普惠之間找到平衡。
迄今為止,業(yè)界對(duì)于大模型的關(guān)注,已經(jīng)呈現(xiàn)兩種截然的分層,一種是追求更大更好的Grok 3,另一種則是注重提效的DeepSeek,這兩種路線未來必然會(huì)有新的經(jīng)典之作陸續(xù)問世,但“效能”可能會(huì)是它們隔空握手的一個(gè)契機(jī),因?yàn)榇竽P捅仨毻ㄟ^“提效”來實(shí)現(xiàn)真正的價(jià)值轉(zhuǎn)化。在技術(shù)路徑上,二者未來也有望實(shí)現(xiàn)融合,通過MoE架構(gòu)或模型協(xié)作(如LLM Cascading)等實(shí)現(xiàn)互補(bǔ)。
芯片分化革命:訓(xùn)練巨獸專用芯片 vs 邊緣效能加速器
不同的大模型路線,對(duì)算力和芯片的需求也不相同。Grok 3和DeepSeek所代表的兩類大模型,將會(huì)把芯片需求分化為“高算力通用芯片”與“高效能專用芯片”兩條路線,推動(dòng)訓(xùn)練與推理技術(shù)進(jìn)一步解耦,兩者的競(jìng)合也將共同塑造AI芯片未來的方向。
也就是說,Grok 3所代表的大模型將始終對(duì)大算力產(chǎn)生強(qiáng)需求:訓(xùn)練方面,Grok 3在推動(dòng)“超參數(shù)化模型”訓(xùn)練方法,如通過重計(jì)算(Gradient Checkpointing)降低顯存占用,或使用ZeRO-3優(yōu)化數(shù)據(jù)并行;推理技術(shù)方面,Grok 3依賴模型切分(Model Sharding)和流水線并行,需要專用的推理服務(wù)器。
但不論是訓(xùn)練還是推理階段,Grok 3都需要更強(qiáng)大的GPU集群,或是更強(qiáng)大的AI加速芯片和更高效的分布式計(jì)算,這將持續(xù)推動(dòng)訓(xùn)練基礎(chǔ)設(shè)施的擴(kuò)展,比如超大規(guī)模集群和更高效的訓(xùn)練框架,加速高帶寬內(nèi)存、高速互聯(lián)和液冷技術(shù)的發(fā)展,促進(jìn)訓(xùn)練框架優(yōu)化技術(shù)的進(jìn)一步升級(jí)。
DeepSeek的典型特征則是通過算法優(yōu)化最大可能減少算力需求。訓(xùn)練技術(shù)方面,它在促進(jìn)高效訓(xùn)練范式,如“一次訓(xùn)練多版本模型”(One-Shot NAS)或元學(xué)習(xí)(Meta-Learning),減少重復(fù)訓(xùn)練成本;推理技術(shù)方面,它在力推輕量化推理技術(shù)、以及端云協(xié)同推理的方式。預(yù)測(cè)下一步,DeepSeek所代表的能效派,將會(huì)持續(xù)優(yōu)化推理效率,推動(dòng)“算法和硬件協(xié)同”的設(shè)計(jì)路線,使得在邊緣和本地設(shè)備的部署更可行。
這也將會(huì)給芯片設(shè)計(jì)帶來影響:一方面,它會(huì)更注重推理優(yōu)化,這將給更為高效靈活的邊緣AI芯片帶來更多機(jī)會(huì),通過定制化芯片來支持更靈活的運(yùn)算,比如支持稀疏計(jì)算、低精度運(yùn)算的專用芯片。在這一導(dǎo)向下,芯片不再是一個(gè)由離散模塊或組件的簡(jiǎn)單集合,而是需要從整體解決方案的角度進(jìn)行設(shè)計(jì),也需要更深度的集成,實(shí)現(xiàn)更多功能的協(xié)作共存,以實(shí)現(xiàn)更低的延遲、更高的帶寬和能效。
另一方面,更為高效的芯片架構(gòu)、新型的專用的AI加速器將會(huì)在邊緣和本地部署時(shí)迎來更多機(jī)會(huì),因?yàn)樗鼈冇兄谶M(jìn)一步降低功耗和成本,并支持特定的算法優(yōu)化。例如通過CPU與GPU、NPU或多樣化的AI加速器等異構(gòu)單元協(xié)同工作,來平衡推理性能、成本和功耗。
寫在最后
Grok 3 和 DeepSeek 的競(jìng)爭(zhēng)與發(fā)展,不僅代表了 AI 大模型領(lǐng)域的兩種不同技術(shù)路線,也反映了整個(gè) AI 行業(yè)在追求性能突破與成本效益平衡之間的探索與努力。它們的對(duì)決也將對(duì)AI芯片的設(shè)計(jì)應(yīng)用產(chǎn)生深刻影響。
短期來看,是“暴力算力”與“極致能效”陣營(yíng)的對(duì)壘,這不只是單純劃分為通用GPU和ASIC加速芯片的競(jìng)爭(zhēng),其中更是包括多種復(fù)雜芯片技術(shù)的演進(jìn),比如通過3D堆疊、硅光互聯(lián)等突破算力極限,或是通過算法和硬件協(xié)同設(shè)計(jì)實(shí)現(xiàn)在已有成熟工藝制程下的性能逆襲等等。
再進(jìn)一步來看,未來是算力和能耗的物理極限在倒逼顛覆性技術(shù)進(jìn)行破局,不論是大模型還是AI芯片,最終需要在物理極限面前找到適合的技術(shù)路徑。不論是Grok路線倒逼芯片物理創(chuàng)新,還是DeepSeek路徑驅(qū)動(dòng)架構(gòu)革命,二者最終可能會(huì)在能效成本方面殊途同歸。這場(chǎng)競(jìng)爭(zhēng),不僅是技術(shù)路線的變革,更是AI找到產(chǎn)業(yè)轉(zhuǎn)化價(jià)值的終極博弈。