NVIDIA Dynamo 開源庫加速并擴展 AI 推理模型

03/19 08:19
653
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

NVIDIA Dynamo 提高了推理性能,同時降低了擴展測試時計算 (Scaling Test-Time Compute) 的成本;在 NVIDIA Blackwell 上的推理優(yōu)化將 DeepSeek-R1 上的吞吐量提高了 30 倍

NVIDIA 發(fā)布了開源推理軟件 NVIDIA Dynamo,旨在以高效率、低成本加速并擴展 AI 工廠中的 AI 推理模型。

高效地編排和協(xié)調(diào)大量 GPU 上的 AI 推理請求,對確保 AI 工廠實現(xiàn)運行成本最小化、token 收益最大化來說至關重要。

隨著 AI 推理逐漸變?yōu)橹髁?,AI 模型在處理每個提示時都會生成數(shù)以萬計的 token 用于“思考”。提高推理性能的同時不斷降低推理成本,可加速服務提供商的增長并增加收入機會。

作為 NVIDIA Triton? 推理服務器的后續(xù)產(chǎn)品,NVIDIA Dynamo 是一款全新的 AI 推理服務軟件,旨在為部署推理 AI 模型的 AI 工廠最大化其 token 收益。它協(xié)調(diào)并加速數(shù)千個 GPU 之間的推理通信,并使用分離服務將大語言模型 (LLM) 的處理階段和生成階段在不同 GPU 上分離開來。這使得每個階段的特定需求可以進行單獨優(yōu)化,并確保更大程度地利用 GPU 資源。

“全世界各行業(yè)都在訓練 AI 模型以不同的方式進行思考和學習,從而使模型復雜度持續(xù)升級。”NVIDIA 創(chuàng)始人兼首席執(zhí)行官黃仁勛表示,“為了實現(xiàn)自定義推理 AI 的未來,NVIDIA Dynamo 可以在這些模型上進行規(guī)模化部署,從而為 AI 工廠實現(xiàn)降本增效”。

在 GPU 數(shù)量相同的情況下,Dynamo 可將 NVIDIA Hopper? 平臺上運行 Llama 模型的 AI 工廠性能和收益翻倍。在由 GB200 NVL72 機架組成的大型集群上運行 DeepSeek-R1 模型時,NVIDIA Dynamo 的智能推理優(yōu)化也可將每個 GPU 生成的 token 數(shù)量提高 30 倍以上。

為了提升這些推理性能,NVIDIA Dynamo 加入了一些功能,使其能夠提高吞吐量的同時降低成本。它可以根據(jù)不斷變化的請求數(shù)量和類型,動態(tài)添加、移除和重新分配 GPU,并精確定位大型集群中的特定 GPU,從而更大限度地減少響應計算和路由查詢。此外,它還可以將推理數(shù)據(jù)卸載到成本更低的顯存和存儲設備上,并在需要時快速檢索這些數(shù)據(jù),最大程度地降低推理成本。

NVIDIA Dynamo 完全開源并支持 PyTorch、SGLang、NVIDIA TensorRT?-LLM 和 vLLM,使企業(yè)、初創(chuàng)公司和研究人員能夠開發(fā)和優(yōu)化在分離推理時部署 AI 模型的方法。這將使用戶加速采用 AI 推理,包括亞馬遜云科技、Cohere、CoreWeave、戴爾科技、Fireworks、谷歌云、Lambda、Meta、微軟 Azure、Nebius、NetApp、OCI、Perplexity、Together AI 和 VAST。

推理性能提升

NVIDIA Dynamo 可將推理系統(tǒng)在處理過往請求時于顯存中保存的知識(稱為 KV 緩存),映射到潛在的數(shù)千個 GPU 中。

然后,它會將新的推理請求路由到與所需信息匹配度最高的 GPU 上,從而避免昂貴的重新計算,并釋放 GPU 來響應新的請求。

Perplexity AI 首席技術官 Denis Yarats 表示:“為了處理每月數(shù)以億計的請求,我們依靠 NVIDIA GPU 及推理軟件來提供業(yè)務和用戶所需的性能、可靠性和拓展性。我們期待通過 NVIDIA Dynamo 及其增強的分布式服務能力,進一步提高推理服務效率,滿足全新 AI 推理模型的計算需求?!?/p>

代理式 AI

AI 提供商 Cohere 計劃使用 NVIDIA Dynamo 為其 Command 系列模型中的代理式 AI 功能提供支持。

Cohere 工程部門高級副總裁 Saurabh Baji 表示:“擴展先進的 AI 模型需要復雜的多 GPU 調(diào)度、無縫協(xié)調(diào)和低延遲通信庫,以便在顯存和存儲中無縫傳輸推理上下文。我們期待 NVIDIA Dynamo 能幫助我們?yōu)槠髽I(yè)客戶提供卓越的用戶體驗?!?/p>

分離服務

NVIDIA Dynamo 推理平臺還支持分離服務,將 LLM 的不同計算階段(包括建立對用戶查詢的理解,然后生成最佳響應)分配給不同的 GPU。這種方法非常適合推理模型,例如全新的 NVIDIA Llama Nemotron 模型系列,它們使用高級推理技術來改進上下文理解和響應生成。分離服務使得每個階段可以進行單獨的微調(diào)和資源調(diào)配,從而提高吞吐量并更快地響應用戶。

Together AI (AI Acceleration Cloud) 正在尋求將其專有的 Together Inference Engine 與 NVIDIA Dynamo 集成,以便推理工作負載實現(xiàn)跨 GPU 節(jié)點的無縫擴展。這也讓 Together AI 能夠動態(tài)地解決模型管線各個階段的流量瓶頸。

Together AI 首席技術官 Ce Zhang 表示:“經(jīng)濟高效地擴展推理模型需要新的先進推理技術,包括分離服務和上下文感知路由。借助我們專有的推理引擎,Together AI 可提供行業(yè)領先的性能。NVIDIA Dynamo 的開放性和模塊化使我們能夠?qū)⑵浣M件無縫嵌入引擎,以滿足更多請求,同時優(yōu)化資源利用率,從而最大化我們在加速計算方面的投資。我們很高興能夠利用該平臺的突破性功能,經(jīng)濟高效地為用戶提供開源推理模型。”

NVIDIA Dynamo 組成結(jié)構(gòu)

NVIDIA Dynamo 包含四項關鍵創(chuàng)新,可降低推理服務成本并改善用戶體驗:

  • GPU 規(guī)劃器 (GPU Planner):一種規(guī)劃引擎,可動態(tài)地添加和移除 GPU,以適應不斷變化的用戶需求,從而避免 GPU 配置過度或不足。
  • 智能路由器 (Smart Router):一個具備大語言模型 (LLM) 感知能力的路由器,它可以在大型 GPU 集群中引導請求的流向,從而最大程度減少因重復或重疊請求而導致的代價高昂的 GPU 重復計算,釋放出 GPU 資源以響應新的請求。
  • 低延遲通信庫 (Low-Latency Communication Library):推理優(yōu)化庫,支持先進的 GPU 到 GPU 通信,并簡化異構(gòu)設備之間的復雜數(shù)據(jù)交換,從而加速數(shù)據(jù)傳輸。
  • 顯存管理器 (Memory Manager):一種可在不影響用戶體驗的情況下,以智能的方式在低成本顯存和存儲設備上卸載及重新加載推理數(shù)據(jù)的引擎。

NVIDIA Dynamo 將作為 NVIDIA NIM? 微服務推出,并在未來版本中由 NVIDIA AI Enterprise 軟件平臺提供支持,具有生產(chǎn)級的安全性、支持和穩(wěn)定性。

相關推薦