作者:鵬程
明日,英偉達創(chuàng)始人CEO黃仁勛將迎來重振該公司股價的重要契機。在英偉達年度技術峰會GTC上,黃仁勛將闡述他如何帶領英偉達探索AI下一個前沿的方向。
據摩根大通此前預計,英偉達將在大會上推出Blackwell Ultra芯片(GB300),并可能披露Rubin平臺的部分細節(jié)。此次大會還將聚焦AI硬件的全面升級,包括更高性能的GPU、HBM內存、更強的散熱和電源管理,以及CPO(共封裝光學)技術路線圖。
在黃仁勛的演講到來前,我們來看看這些年中英偉達推出的系列架構,和他們背后的故事。
1999年底,英偉達推出了第一款GPU(Graphic Process Unit,圖形處理單元)Geforce 256,將完整的渲染管線集成進硬件,提供了不錯的加速效果。但這款產品還很難稱之為處理器,因為它尚不具備任何可編程能力。2001年隨著DX8引入可編程頂點著色器的概念,英偉達才在Geforce 3中添加了Vertex Processor,使GPU可以編程了。隨后,越來越多的可編程著色器被DX和OpenGL引入,以滿足渲染開發(fā)者的算法需求。
在GPU設計之初,并非針對深度學習,而是圖形加速,在英偉達推出CUDA架構之前,GPU并無太強對深度學習運算能力的支持。真正用來作為人工智能算力支持的GPU,不是普通的顯卡,而是GPGPU(General-Purpose Computing on Graphics Processing Units)即通用計算圖形處理器,這是一種用于處理非特定需求(通用類型)計算目的的算力單元(芯片)。
?01革命的開始,CUDA架構的誕生
隨著GPU具備了可編程能力,其用于并行計算的天賦被發(fā)掘出來。當時,很多大學和研究機構都在嘗試用GPU做一些科學計算。
2003年的SIGGRAPH大會上,許多業(yè)界泰斗級人物發(fā)表了關于利用GPU進行各種運算的設想和實驗模型。SIGGRAPH會議還特地安排了時間進行GPGPU的研討交流。但當時的開發(fā)者只能利用著色器編程語言開發(fā)程序,必須將計算資源映射為渲染概念才能使用,非常麻煩。因此亟需一種針對GPU并行計算的編程語言。此時,正在斯坦福讀博的Ian Bark看到這一需求,投身到Brook(一套用于并行計算的編程語言,后被AMD收購)的研發(fā)中,成為GPU并行計算軟件棧的先行者。2004年,他以實習生的身份加入英偉達,并于兩年后開發(fā)出CUDA。
渲染需求變得越來越多樣化,并行計算業(yè)務正含苞待放,Tesla G80架構正是在這樣的歷史背景下被設計出來,成為英偉達改變自身命運的重要轉折點。
2006年,英偉達推出了Tesla架構的第一代(G80),開啟了GPU通用計算探索。Tesla架構之前的顯卡也經歷了幾代的發(fā)展,但基本上是圖形顯卡。而它采用全新的CUDA架構,支持使用C語言進行GPU編程,可以用于通用數據并行計算。這成為英偉達改變自身命運的重要轉折點。
Tesla G80是第一款實現CUDA架構的GPGPU,開啟了一個并行加速的時代。G80是有史以來最偉大的GPU變革產物之一,首批產品GeForce 8800 GTX/GTS于2006年11月發(fā)布。之后,英偉達又在第一代基礎上推出了Tesla架構的第二代(GT200),其雙精度的FMA運算速度30FMA ops/ clock,提升了8倍多。就在G80-G200這兩代產品上,英偉達花了大約三年時間積累了大量的用戶體驗反饋,招募了Bill Dally作為首席科學家,最終推出了Fermi這個劃時代的產品,這是第一款帶有L1 Cache、ECC糾錯,面向超級計算機的架構,從這一代開始,英偉達涉足超級計算機的野心開始暴露無遺,在發(fā)布的時候拉來了多位超級計算機行業(yè)的重要人物站臺。
2010年,英偉達公司正式推出了Fermi全新架構。這款架構不僅僅是一個簡單的硬件更新,而是被英偉達定義為首款專門為計算任務而設計的GPU。換句話說,英偉達通過Fermi架構重新定義了GPU的概念,旨在加速并行計算的性能。與此同時,這款架構還具備了強大的圖形渲染能力,使其在圖形處理方面同樣表現出色。而GF100是第一款基于Fermi架構的GPU,集成32億個晶體管,專為下一代游戲與通用計算應用程序而優(yōu)化的全新架構,實現了所有DirectX 11硬件功能,包括曲面細分和計算著色器等。
G80是對統(tǒng)一圖形與計算處理器應有面貌的最初愿景。隨后的GT200擴展了G80的性能與功能。而GF100,這是一個專為下一代游戲與通用計算應用程序而優(yōu)化的全新架構的GPU。Fermi這一代架構展現了英偉達全力押注通用并行計算的決心。倘若說Tesla G80僅僅是小試身手,那么Fermi則正式吹響了全面進軍計算產業(yè)的號角。
?02英偉達布局高性能計算
之后,英偉達大致保持了兩年更新一次架構的頻率,不斷推陳出新。
2012年,英偉達推出Kepler架構。這是首個支持超級計算和雙精度計算的GPU架構。得益于28nm的先進制程技術,Kepler在性能和功耗方面實現了質的提升。Kepler GK110具有2880個流處理器和高達288GB/s的帶寬,計算能力比Fermi架構提高3-4倍。Kepler架構的出現使GPU開始成為高性能計算的關注點。
2014年,英偉達發(fā)布的Maxwell架構是先前Kepler架構的升級版,采用臺積電28nm工藝制程。彼時移動設備興起,對低功耗、高性能GPU需求大增,同時需要優(yōu)化GPU在不同應用場景的適應性,Maxwell架構應運而生。首款基于Maxwell架構的GPU為GM107,專為筆記本和小型(SFF)PC等功率受限的使用場合而設計,采用臺積電28nm工藝制程,芯片尺寸148平方毫米,集成18.7億個晶體管。針對流式多處理器采用全新設計稱為SMM,GM107核心的每核心效能提升了35%,每瓦功耗比提升了一倍,支持DirectX 12。首款基于GM107GPU的顯卡是GeForce GTX750Ti。
2016年,Pascal架構推出,用于接替上一代的Maxwell架構?;赑ascal架構的GPU使用16nm FinFET工藝、HBM2、NVLink等新技術。這是首個為了深度學習而設計的GPU,支持所有主流的深度學習計算框架。Pascal架構核心陣容強大,包括GP100(3840個CUDA Core和60組SM單元)和GP102(3584個CUDA Core和28組SM單元)兩大核心。Pascal GP100具有3840個CUDA核心和732GB/s的顯存帶寬,但功耗只有300W,比Maxwell架構提高50%以上。Pascal架構剛剛推出之際,深度學習正發(fā)展的如火如荼。業(yè)界出現了很多針對神經網絡的專用加速器,無論在能效和面效上都碾壓GPU,這讓英偉達倍感壓力。為了應對競爭,英偉達一反之前兩年一代架構的迭代節(jié)奏,次年就推出了專門針對神經網絡加速的GPU架構Volta。
Volta架構引入了Tensor Core(張量核心)專門加速矩陣運算,提升深度學習計算效率;支持NVlink 2.0,提高了數據傳輸速度,增強了多GPU協(xié)作能力,提升系統(tǒng)整體性能。Volta GV100具有5120個CUDA 核心和900GB/s的帶寬,加上640個張量核心,AI計算能力達到112 TFLOPS,比Pascal架構提高了近3倍。Volta的出現標志著AI成為GPU發(fā)展的新方向。緊隨其后,在一年后的2018年,英偉達發(fā)布了Turing架構,進一步增強了Tensor Core的功能。Turing架構不僅延續(xù)了對浮點運算的優(yōu)化,還新增了對INT8、INT4、甚至是Binary(INT1)等整數格式的支持。這一舉措不僅使大范圍混合精度訓練成為可能,更將GPU的性能吞吐量推向了新的高度,較Pascal GPU提升了驚人的32倍。
此外,Turing架構還引入了先進的光線追蹤技術,新增了Ray Tracing核心(RT Core)。Turing TU102具有4608個CUDA核心、576個張量核心和72個RT核心,支持GPU光線追蹤,代表了圖形技術的新突破。2020年,Ampere架構的推出再次刷新了人們對Tensor Core的認知。Ampere架構新增了對TF32和BF16兩種數據格式的支持,進一步提高了深度學習訓練和推理的效率。
同時,Ampere架構引入了對稀疏矩陣計算的支持,在處理深度學習等現代計算任務時,稀疏矩陣是一種常見的數據類型,其特點是矩陣中包含大量零值元素。傳統(tǒng)的計算方法在處理這類數據時往往效率低下,而Ampere架構通過專門的稀疏矩陣計算優(yōu)化,實現了對這類數據的高效處理,從而大幅提升了計算效率并降低了能耗。Ampere GA100 GPU具有6912個CUDA核心、108個張量核心和hr個RT核心,比Turing架構提高約50%。Ampere架構在人工智能、光線追蹤和圖形渲染等方面性能大幅躍升。
?03英偉達全面引領AI時代
2016年,黃仁勛親手將第一臺DGX-1超級計算機送給了OpenAI。而在2022年年底,OpenAI發(fā)布了ChatGPT生成式大語言模型,其驚艷的自然語言處理能力成為深度學習發(fā)展歷程中劃時代的里程碑。而在這波AI革命中,英偉達作為“賣鏟人”,發(fā)布了H100 GPU,憑借著最新的Hopper架構,H100成為地表最強并行處理器。
H100是英偉達第九代數據中心GPU,集成了800億個晶體管,專為大規(guī)模AI和HPC計算而生。Hopper架構標志性的變化是新一代流式多處理器的FP8張量核心(Tensor Core),這一創(chuàng)新進一步加速了AI訓練和推理過程。值得注意的是,Hopper架構去除了RT Core,以便為深度學習計算騰出更多空間。此外,Hopper架構還引入了Transformer引擎,這使得它在處理如今廣泛應用的Transformer模型時表現出色,進一步鞏固了英偉達在深度學習硬件領域的領導地位。
同時,NVIDIA Grace Hopper超級芯片將NVIDIA Hopper GPU的突破性性能與NVIDIA Grace CPU的多功能性結合在一起,在單個超級芯片中與高帶寬和內存一致的NVIDIA NVLink Chip-2-Chip(C2C)互連,并且支持新的NVIDIA NVLink切換系統(tǒng),CPU和GPU、GPU和GPU之間通過NVLink進行連接,數據的傳輸速率高達900 GB/s,解決了CPU和GPU之間數據的時延問題,跨機之間通過PCIe 5.0進行連接。
NVIDIA Grace Hopper超級芯片架構是高性能計算(HPC)和AI工作負載的第一個真正的異構加速平臺。2024年,英偉達推出的Blackwell架構為生成式AI帶來了顯著的飛躍。相較于H100 GPU,GB200超級芯片在處理LLM推理任務時,性能實現了高達30倍的驚人提升,同時在能耗方面也實現了高達25倍的優(yōu)化。其中GB200超級芯片能夠組合兩個Blackwell GPU,并與英偉達的Grace中央處理單元配對,支持NVLink-C2C互聯(lián)。Blackwell還引入了第二代Transformer引擎,增強了對FP4和FP6精度的兼容性,顯著降低了模型運行時的內存占用和帶寬需求。
此外,還引入了第五代NVLink技術,使每個GPU的帶寬從900 GB/s增加到1800 GB/s。英偉達的GPU架構經歷了一系列針對深度學習優(yōu)化的重大創(chuàng)新和升級,每一次進步都在推動深度學習技術的邊界。這些架構的發(fā)展不僅體現了英偉達在硬件設計方面的前瞻性,也為深度學習的研究和應用提供了強大的計算支持,促進了AI技術的快速發(fā)展。值得注意的是,去年英偉達CEO黃仁勛在接受采訪時表示,英偉達工程師正在開發(fā)接下來的兩代產品,“將按照一年一代的節(jié)奏完成”。此前,英偉達按照平均兩年一次的更新頻率升級GPU架構,對產品性能進行大幅提升。
明日,英偉達會如何刷新人們的想象,令人期待。