NVIDIA在MLPerf測試中將推理帶到新高度

2023/04/07
2204
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

在最新MLPerf基準測試中,NVIDIA H100和L4 GPU將生成式AI和所有其他工作負載帶到了新的水平,Jetson AGX Orin則在性能和效率方面都有所提升。

作為獨立的第三方基準測試,MLPerf仍是衡量AI性能的權威標準。自MLPerf誕生以來,NVIDIA的AI平臺在訓練和推理這兩個方面一直展現(xiàn)出領先優(yōu)勢,包括最新發(fā)布的MLPerf Inference 3.0基準測試。

NVIDIA創(chuàng)始人兼首席執(zhí)行官黃仁勛表示:“三年前我們推出A100時,AI世界由計算機視覺主導。如今,生成式AI已經(jīng)到來。”

“這正是我們打造Hopper的原因,其通過Transformer 引擎專為GPT進行了優(yōu)化。最新的MLPerf 3.0凸顯了Hopper的性能比A100高出4倍。”

“下一階段的生成式AI需要高能效的新的AI基礎設施,以訓練大型語言模型。客戶正在大規(guī)模采用Hopper,以構建由數(shù)萬顆通過NVIDIA NVLink和InfiniBand連接的Hopper GPU組成的AI基礎設施。”

“業(yè)界正努力推動安全、可信的生成式AI取得新的進展。而Hopper正在推動這項重要的工作?!?/p>

最新MLPerf結果顯示,NVIDIA將從云到邊緣的AI推理性能和效率帶到了一個新的水平。

具體而言,在DGX H100系統(tǒng)中運行的NVIDIA H100 Tensor Core GPU在每項AI推理測試(即在生產(chǎn)中運行神經(jīng)網(wǎng)絡)中均展現(xiàn)出最高的性能。得益于軟件優(yōu)化,該GPU在9月首次亮相時就實現(xiàn)了高達54%的性能提升。

針對醫(yī)療領域,H100 GPU在3D-UNet(MLPerf醫(yī)學影像基準測試)中的性能相比9月提高了31%。

在Transformer引擎的加持下,基于Hopper架構的H100 GPU在BERT上的表現(xiàn)十分優(yōu)異。BERT是一個基于transformer的大型語言模型,它為如今已經(jīng)得到廣泛應用的生成式AI奠定了基礎。

生成式AI使用戶可以快速創(chuàng)建文本、圖像、3D模型等。從初創(chuàng)公司到云服務提供商,企業(yè)都在迅速采用這一能力,以實現(xiàn)新的業(yè)務模式和加速現(xiàn)有業(yè)務。

數(shù)億人現(xiàn)在正在使用ChatGPT(同樣是一個transformer模型)等生成式AI工具,以期得到即時響應。

在這個AI的iPhone時刻,推理性能至關重要。深度學習的部署幾乎無處不在,這推動了從工廠車間到在線推薦系統(tǒng)等對推理性能的無盡需求。

L4 GPU精彩亮相

NVIDIA L4 Tensor Core GPU在本次MLPerf測試中首次亮相,其速度是上一代T4 GPU的3倍以上。這些加速器具有扁平的外形,可在幾乎所有的服務器中提供高吞吐量和低延遲。

L4 GPU運行了所有MLPerf工作負載。憑借對關鍵的FP8格式的支持,其在對性能要求很高的BERT模型上取得了非常驚人的結果。

除了出色的AI性能外,L4 GPU的圖像解碼速度快了10倍,視頻處理速度快了3.2倍,同時圖形和實時渲染性能提高了4倍以上。

這些加速器兩周前在GTC上發(fā)布并已通過各大系統(tǒng)制造商和云服務提供商提供。L4 GPU是NVIDIA在GTC上發(fā)布的AI推理平臺產(chǎn)品組合中的最新成員。

軟件和網(wǎng)絡在系統(tǒng)測試中大放異彩

NVIDIA的全棧式AI平臺在一項全新MLPerf測試中展現(xiàn)了其領先優(yōu)勢。

被稱之為網(wǎng)絡劃分(network-division)的基準測試將數(shù)據(jù)傳輸至一個遠程推理服務器。它反映了企業(yè)用戶將數(shù)據(jù)存儲在企業(yè)防火墻后面、在云上運行AI作業(yè)的熱門場景。

在BERT測試中,遠程NVIDIA DGX A100系統(tǒng)提供高達96%的最大本地性能,其性能下降的原因之一是因為它們需要等待CPU完成部分任務。在單純依靠GPU進行處理的ResNet-50計算機視覺測試中,它們達到了100%的性能。

這兩個結果在很大程度上要歸功于NVIDIA Quantum Infiniband網(wǎng)絡、NVIDIA ConnectX SmartNIC以及NVIDIA GPUDirect等軟件。

Orin在邊緣的性能提升3.2倍
另外,相較于一年前的結果,NVIDIA Jetson AGX Orin模塊化系統(tǒng)的能效提高了63%,性能提高了81%。Jetson AGX Orin可在需要AI的狹小空間內(nèi)以低功率進行推理,包括在由電池供電的系統(tǒng)上。

專為需要更小模塊、更低功耗的應用而開發(fā)的Jetson Orin NX 16G在本次基準測試中首次亮相便大放異彩。其性能是上一代Jetson Xavier NX處理器的3.2倍。

廣泛的NVIDIA AI生態(tài)

MLPerf結果顯示,NVIDIA AI得到了業(yè)內(nèi)最廣泛的機器學習生態(tài)系統(tǒng)的支持。

在這一輪測試中,有十家公司在NVIDIA平臺上提交了結果,包括華碩、戴爾科技、技嘉、新華三、聯(lián)想、寧暢、超微和超聚變等系統(tǒng)制造商和微軟Azure云服務。

他們所提交的結果表明,無論是在云端還是在自己的數(shù)據(jù)中心運行的服務器中,用戶都可以通過NVIDIA AI獲得出色的性能。

NVIDIA的眾多合作伙伴也參與了MLPerf,因為他們知道這是一個幫助客戶評估AI平臺和廠商的很有價值的工具。最新一輪結果表明,他們今天所提供的性能將隨著NVIDIA平臺的發(fā)展而不斷提升。

用戶需要的是“多面手”

NVIDIA AI是唯一能夠在數(shù)據(jù)中心和邊緣計算中運行所有MLPerf推理工作負載和場景的平臺。其全面的性能和效率讓用戶能夠成為真正的贏家。

用戶在實際應用中通常會采用許多不同類型的神經(jīng)網(wǎng)絡,這些網(wǎng)絡往往需要實時提供答案。

例如,一個AI應用可能需要先理解用戶的語音請求,對圖像進行分類、提出建議,然后以人聲作為語音來回答用戶。每個步驟都需要用到不同類型的AI模型。

MLPerf基準測試涵蓋了這些以及其他流行的AI工作負載,所以這些測試能夠確保IT決策者獲得可靠且可以靈活部署的性能。

用戶可以根據(jù)MLPerf的結果做出明智的購買決定,因為這些測試是透明的、客觀的。該基準測試得到了包括Arm百度、Facebook AI、谷歌、哈佛大學、英特爾、微軟、斯坦福大學和多倫多大學在內(nèi)的廣泛支持。

可以使用的軟件

NVIDIA AI平臺的軟件層NVIDIA AI Enterprise確保用戶能夠從他們的基礎設施投資中獲得最佳的性能以及在企業(yè)數(shù)據(jù)中心運行AI所需的企業(yè)級支持、安全性和可靠性。

這些測試所使用的所有軟件都可以從MLPerf庫中獲得,因此任何人都可以獲得這些領先的結果。

各項優(yōu)化措施不斷地被整合到NGC(NVIDIA的GPU加速軟件目錄)上的容器中。本輪測試中提交的每項工作均使用了該目錄中的NVIDIA TensorRT優(yōu)化AI推理性能。

英偉達

英偉達

NVIDIA(中國大陸譯名:英偉達,港臺譯名:輝達),成立于1993年,是一家美國跨國科技公司,總部位于加利福尼亞州圣克拉拉市,由黃仁勛、克里斯·馬拉科夫斯基(Chris Malachowsky)和柯蒂斯·普里姆(Curtis Priem)共同創(chuàng)立。公司早期專注于圖形芯片設計業(yè)務,隨著公司技術與業(yè)務發(fā)展,已成長為一家提供全棧計算的人工智能公司,致力于開發(fā)CPU、DPU、GPU和AI軟件,為建筑工程、金融服務、科學研究、制造業(yè)、汽車等領域的計算解決方案提供支持。

NVIDIA(中國大陸譯名:英偉達,港臺譯名:輝達),成立于1993年,是一家美國跨國科技公司,總部位于加利福尼亞州圣克拉拉市,由黃仁勛、克里斯·馬拉科夫斯基(Chris Malachowsky)和柯蒂斯·普里姆(Curtis Priem)共同創(chuàng)立。公司早期專注于圖形芯片設計業(yè)務,隨著公司技術與業(yè)務發(fā)展,已成長為一家提供全棧計算的人工智能公司,致力于開發(fā)CPU、DPU、GPU和AI軟件,為建筑工程、金融服務、科學研究、制造業(yè)、汽車等領域的計算解決方案提供支持。收起

查看更多

相關推薦