這兩天的加州圣何塞,綠意濃濃。當(dāng)愛爾蘭人的圣帕特里克節(jié),遇上英偉達(dá)的GTC大會(huì),街頭隨處可見身著綠色服飾、慶祝節(jié)日的愛爾蘭人,還有掛滿城區(qū)的GTC海報(bào),大大地寫著:What’s Next in AI Starts Here,昭示著AI發(fā)展的新起點(diǎn)。
當(dāng)?shù)貢r(shí)間3月18日上午10點(diǎn),黃仁勛在SAP中心發(fā)表主題演講。一早乘車過去,就看到SAP幾公里開外,候場(chǎng)人群已經(jīng)排起長(zhǎng)長(zhǎng)的隊(duì)伍,一路綿延好幾個(gè)街區(qū)。你無法準(zhǔn)確說出這是AI的熱度所致,還是英偉達(dá)和黃仁勛本人的感召力。
波動(dòng)下,Token撬動(dòng)AI商業(yè)版圖快速成形
受推理模型DeepSeek重創(chuàng)、股價(jià)經(jīng)歷了戲劇性波動(dòng)的英偉達(dá),本次GTC生動(dòng)演繹了“在哪跌倒,就在哪爬起來”。黃仁勛在2個(gè)多小時(shí)的演講中,重點(diǎn)圍繞推理機(jī)遇,講述了通過Token(信息單元)撬動(dòng)新AI商業(yè)版圖的三層邏輯:
技術(shù)層面,當(dāng)前仍以Blackwell架構(gòu)為核心,未來三代GPU架構(gòu)都在開發(fā)中,分別是Rubin、Rubin Ultra、Feynman。并且,通過軟件將硬件潛力轉(zhuǎn)化為用戶可感知的Token效率,這包括開源的推理軟件工具、加速庫、套件等。
戰(zhàn)略層面,強(qiáng)化“AI基礎(chǔ)設(shè)施企業(yè)”定位,覆蓋AI訓(xùn)練、推理,搶占云端、邊緣的多樣化場(chǎng)景,牢牢鞏固護(hù)城河。
商業(yè)層面則蘊(yùn)含了黃仁勛對(duì)Token經(jīng)濟(jì)的深刻洞察,全棧生態(tài)層層鋪就,通過Agentic AI和Physical AI兩個(gè)大招,幾乎覆蓋了大部分行業(yè)和需求,有望加速AI普及。
事實(shí)上,在AI云端訓(xùn)練最為炙手可熱的時(shí)候,黃仁勛已經(jīng)預(yù)測(cè)了推理需求的爆發(fā)。在Keynote中,他進(jìn)一步解釋,推理的本質(zhì)就是Token生成,這對(duì)企業(yè)至關(guān)重要。隨著最新一代推理模型能夠思考和解決日益復(fù)雜的問題,業(yè)界對(duì)Token的需求將會(huì)持續(xù)增長(zhǎng)。
AI的發(fā)展其實(shí)也是具備“逐步推理”能力的成長(zhǎng)歷程,而推理和強(qiáng)化學(xué)習(xí)需求等等,正在持續(xù)推動(dòng)AI計(jì)算需求的增長(zhǎng)。黃仁勛透露,全球前四大云服務(wù)商去年采購了超130萬片Hopper架構(gòu)GPU,今年或?qū)⒉少?60萬片Blackwell架構(gòu)GPU。
“計(jì)算正處在拐點(diǎn)”,黃仁勛表示,拐點(diǎn)可能出現(xiàn)在2024至2025年間,預(yù)計(jì)數(shù)據(jù)中心建設(shè)的市場(chǎng)價(jià)值將達(dá)到 1 萬億美元。
第一層邏輯:Blackwell為核心,軟件提升Token效率
目前,Blackwell 已進(jìn)入全面量產(chǎn)階段,“增長(zhǎng)非常迅猛,客戶需求也非常強(qiáng)勁,”黃仁勛表示,“這是有道理的,因?yàn)?AI 到達(dá)了一個(gè)拐點(diǎn),推理AI的出現(xiàn)使我們需要的計(jì)算量大大增加,同時(shí)推理AI系統(tǒng)和代理式系統(tǒng)的訓(xùn)練也在推動(dòng)這一變化。”
他詳細(xì)介紹了 Blackwell 如何支持極限擴(kuò)展。最新發(fā)布的Blackwell Ultra GPU架構(gòu)更擅長(zhǎng)滿足AI推理需求,它是全球首個(gè)288GB HBM3e GPU,通過先進(jìn)封裝技術(shù)將2塊GPU拼裝在一起,可實(shí)現(xiàn)多達(dá)1.5倍的FP4推理性能,最高15PFLOPS。該GPU增強(qiáng)了訓(xùn)練和測(cè)試時(shí)推理擴(kuò)展,可輕松有效地進(jìn)行預(yù)訓(xùn)練、后訓(xùn)練以及深度思考(推理)模型的AI推理,構(gòu)建于Blackwell架構(gòu)基礎(chǔ)之上,還包括GB300 NVL72機(jī)架級(jí)解決方案和HGX B300 NVL16系統(tǒng)。
要幫助客戶擴(kuò)展到更大規(guī)模的系統(tǒng),下一步的關(guān)鍵還在于Photonics 技術(shù)——這是一種依賴于光而非電信號(hào)傳輸數(shù)據(jù)的網(wǎng)絡(luò)技術(shù),它將緊密集成到加速計(jì)算基礎(chǔ)設(shè)施中。
NVIDIA Spectrum-X和NVIDIA Quantum-X 硅光網(wǎng)絡(luò)交換機(jī)通過融合電子電路和光通信技術(shù),支持AI工廠能夠在多個(gè)站點(diǎn)之間連接數(shù)百萬個(gè) GPU,同時(shí)降低能耗和運(yùn)營(yíng)成本。
與傳統(tǒng)方法相比,英偉達(dá)硅光交換機(jī)創(chuàng)新地集成了光器件,減少了4倍的激光器數(shù)量,能源效率提高到3.5倍,信號(hào)完整性提高到63倍,大規(guī)模組網(wǎng)可靠性提高到10倍,部署速度提高到1.3倍。
黃仁勛表示,之所以要做到大量的工作,就是為了應(yīng)對(duì)一個(gè)極端挑戰(zhàn)——推理。而為了充分發(fā)揮硬件的潛力,實(shí)現(xiàn)更高效的推理,英偉達(dá)在軟件方面也進(jìn)行了更為全面的布局。
最新推出的開源軟件NVIDIA Dynamo,是一個(gè)用于大規(guī)模服務(wù)推理模型的AI推理軟件,旨在為部署推理模型的AI工廠實(shí)現(xiàn)Token收入最大化。它能夠跨數(shù)千個(gè)GPU編排和加速推理通信,并使用分區(qū)分服務(wù)來分離不同GPU上大語言模型的處理和生成階段,使每個(gè)階段可根據(jù)特定需求獨(dú)立優(yōu)化,并確保GPU資源的最大利用率。
在GPU數(shù)量相同的情況下,Dynamo可將Hopper平臺(tái)上運(yùn)行Llama模型的AI工廠性能和收益翻倍。在由GB200 NVL72機(jī)架組成的大型集群上運(yùn)行DeepSeek-R1模型時(shí),Dynamo的智能推理優(yōu)化也可將每個(gè)GPU生成的token數(shù)量提高30倍以上。
基于Dynamo,Blackwell比Hopper在性能方面提升25倍,可以基于均勻可互換的可編程架構(gòu)。在推理模型中,Blackwell性能是Hopper的40倍。
第二層邏輯:戰(zhàn)略上強(qiáng)化“AI基礎(chǔ)設(shè)施公司”定位
近年來,英偉達(dá)逐漸將自身定位于產(chǎn)業(yè)的 “AI工廠”,能夠幫助客戶賺錢、轉(zhuǎn)化為客戶收入。
當(dāng)前,業(yè)界正站在計(jì)算范式的轉(zhuǎn)折點(diǎn),即將從檢索式計(jì)算轉(zhuǎn)向生成式計(jì)算 。而下一步,要從ChatGPT這樣的生成式AI,邁向Deep Research、Manus這樣的Agentic AI應(yīng)用,屆時(shí),每一層計(jì)算都將不同,所需要的Token比想象中多100倍。這是因?yàn)樵贏gentic AI應(yīng)用中,上一個(gè)Token是下一個(gè)Token生成時(shí)輸入的上下文、是感知、規(guī)劃、行動(dòng)的一步步推理。
而AI 工廠就是要高效地處理這些Tokens,通過軟硬協(xié)同優(yōu)化,以更低的計(jì)算成本處理更多Token。如此一來,當(dāng)更復(fù)雜、智能的推理模型,需要更快、更多地吞吐Token時(shí)——如何能夠有一套更高效的系統(tǒng),就成為AI應(yīng)用能不能賺錢的關(guān)鍵。
這也從另一方面論證了AI工廠的重要性:客戶公司所能實(shí)現(xiàn)的最大收入其實(shí)取決于AI工廠是否以最佳目標(biāo)運(yùn)行,因?yàn)槠湫阅軐⒅苯愚D(zhuǎn)化為Token百分比。
“我們現(xiàn)在的AI工廠業(yè)務(wù),競(jìng)爭(zhēng)門檻遠(yuǎn)高于以往,客戶的風(fēng)險(xiǎn)容忍度也遠(yuǎn)低于以往。因?yàn)檫@可能是一個(gè)涉及數(shù)千億美元的多年周期的投資,這是一項(xiàng)基礎(chǔ)設(shè)施業(yè)務(wù)”,黃仁勛強(qiáng)調(diào),“英偉達(dá)其實(shí)是基礎(chǔ)設(shè)施公司,是全世界的工廠,也是無數(shù)企業(yè)的基石。
在進(jìn)一步加速大規(guī)模推理方面,NVIDIA Dynamo,本質(zhì)上就相當(dāng)于是AI工廠的操作系統(tǒng)。他表示,商業(yè)門檻越來越高,競(jìng)爭(zhēng)門檻越來越高,但應(yīng)用AI的門檻在降低,英偉達(dá)要通過軟件來降低使用門檻,讓AI更易用、更普及。
目前,NVIDIA CUDA-X GPU 加速庫和微服務(wù)現(xiàn)在服務(wù)于各行各業(yè)。CUDA的安裝基礎(chǔ)“無處不在”,他認(rèn)為,“我們已經(jīng)到達(dá)了加速計(jì)算的臨界點(diǎn)——CUDA 讓這一切成為可能?!?/p>
迄今為止,AI已經(jīng)歷了三代技術(shù)范式的轉(zhuǎn)移。最早是判別式AI(語音識(shí)別、圖像識(shí)別),接著是生成式AI,然后就是當(dāng)下身處的Agentic AI,未來會(huì)是影響物理世界的Physical AI。
而每一代AI技術(shù)遷移,計(jì)算的方式都會(huì)發(fā)生改變。從AlexNet到ChatGPT,是從檢索的計(jì)算方式轉(zhuǎn)變?yōu)樯傻挠?jì)算方式,也需要更多的算力來提供支持。
黃仁勛強(qiáng)調(diào),除了預(yù)訓(xùn)練和后訓(xùn)練(微調(diào)),測(cè)試時(shí)的Scaling Law才剛剛開始。也就是說,模型的推理階段,動(dòng)態(tài)分配計(jì)算資源以提升性能。例如,根據(jù)問題復(fù)雜度自動(dòng)延長(zhǎng)“思考時(shí)間”,或通過多次推理生成多個(gè)候選答案并擇優(yōu)輸出。
特別是對(duì)于長(zhǎng)思考任務(wù)(如復(fù)雜決策)需處理百萬級(jí)token/查詢,算力需求呈指數(shù)增長(zhǎng)。這些復(fù)雜的推理場(chǎng)景(如客服、醫(yī)療診斷)等,將成為企業(yè)AI落地的關(guān)鍵場(chǎng)景。
上述趨勢(shì)之下,英偉達(dá)將繼續(xù)進(jìn)行全棧優(yōu)化。黃仁勛強(qiáng)調(diào),一方面,英偉達(dá)通過CUDA-X工具鏈、Megatron框架等,實(shí)現(xiàn)從數(shù)據(jù)預(yù)處理到推理的全流程加速,降低單位token成本;另一方面,將繼續(xù)推動(dòng)可擴(kuò)展的算力基礎(chǔ)設(shè)施,服務(wù)好企業(yè)級(jí)客戶。
第三層邏輯:Agentic AI和Physical AI擴(kuò)大商業(yè)版圖,加速AI普及
黃仁勛提到,當(dāng)AI基于思維鏈進(jìn)行一步步推理、進(jìn)行不同的路徑規(guī)劃時(shí),它不是生成一個(gè)Token或一個(gè)單詞,而是生成一個(gè)表示推理步驟的單詞序列,因此生成的Token數(shù)量會(huì)更多,甚至增加100倍以上。而這對(duì)計(jì)算提出指數(shù)級(jí)需求,隨著計(jì)算成本增加,就需要全棧創(chuàng)新來降低成本/Tokens。
Agentic AI方面,英偉達(dá)推出了具有推理功能的開放Llama Nemotron 模型系列,希望為開發(fā)者和企業(yè)提供業(yè)務(wù)就緒型基礎(chǔ),從而構(gòu)建能夠獨(dú)立工作或以團(tuán)隊(duì)形式完成復(fù)雜任務(wù)的高級(jí)AI智能體。
這一推理模型系列是基于Llama模型構(gòu)建的,能夠提供按需AI推理功能。NVIDIA 在后訓(xùn)練期間對(duì)該推理模型系列進(jìn)行了增強(qiáng),以提升多步數(shù)學(xué)運(yùn)算、編碼、推理和復(fù)雜決策能力。
此外,他認(rèn)為機(jī)器人是下一個(gè)10萬億美元的產(chǎn)業(yè)。預(yù)測(cè)到2030年年底,全球?qū)⒚媾R至少5000萬勞動(dòng)力短缺的問題。為此,英偉達(dá)提供了一整套技術(shù),用于訓(xùn)練、部署、仿真和測(cè)試下一代機(jī)器人技術(shù)。并且,英偉達(dá)還最新宣布推出全球首個(gè)開源且完全可定制的基礎(chǔ)模型 NVIDIA Isaac GR00T N1,該模型可賦能通用人形機(jī)器人實(shí)現(xiàn)推理及各項(xiàng)技能。
針對(duì)企業(yè)級(jí)AI這個(gè)超大規(guī)模的市場(chǎng),英偉達(dá)正為全球企業(yè)提供構(gòu)建Agentic AI的核心模塊。英偉達(dá)的Llama Nemotron可以在任何地方運(yùn)行,包括DGX Spark、DGX Station以及OEM制造的服務(wù)器上,甚至可以將其集成到任何Agentic AI框架中。
此外還有新一代 NVIDIA Cosmos 世界基礎(chǔ)模型的重大更新,為Physical AI開發(fā)引入了一個(gè)開放式和可完全定制的推理模型,并為開發(fā)者提供了前所未有的世界生成控制能力。
黃仁勛表示:“使用Omniverse來調(diào)節(jié)Cosmos,并通過Cosmos生成無限數(shù)量的環(huán)境,從而支持我們能夠創(chuàng)建既扎根于現(xiàn)實(shí)、由我們掌控,同時(shí)又在系統(tǒng)上可以實(shí)現(xiàn)無限的數(shù)據(jù)?!?/p>
他補(bǔ)充,這其實(shí)也是為了解決Agentic AI和Physical AI的核心問題:數(shù)據(jù)問題、訓(xùn)練問題、以及如何通過大規(guī)模擴(kuò)展讓AI更聰明。顯然,英偉達(dá)一直在不遺余力推動(dòng)將先進(jìn)的模型開源,再加上完整的合成數(shù)據(jù)生成與仿真、訓(xùn)練等進(jìn)行融合,試圖推動(dòng)AI更大范圍的鋪開。
寫在最后
某種意義上,今年的GTC大會(huì)不僅對(duì)于英偉達(dá)自身發(fā)展路線具有重要意義,也是AI真正開啟商用時(shí)代的風(fēng)向標(biāo)。本次GTC不僅展示了英偉達(dá)從計(jì)算機(jī)技術(shù)公司向AI基礎(chǔ)設(shè)施公司的轉(zhuǎn)型,展示了數(shù)據(jù)中心從單純存儲(chǔ)數(shù)據(jù)、托管應(yīng)用的角色向AI工廠的轉(zhuǎn)型,同時(shí)也證明了Token經(jīng)濟(jì)帶動(dòng)的一個(gè)全新產(chǎn)業(yè)的誕生。
“買得越多理論”也被黃仁勛再次提及,只不過現(xiàn)在的版本是“The more your buy, the more you make”。Token經(jīng)濟(jì)的未來,應(yīng)該是買得越多,賺得越多,這是黃仁勛最大的期望。