作者 |??ZeR0,編輯?|??漠影
RTX 50系列即將開售,刀法如何?
今年一開年,NVIDIA GeForce RTX 50系列GPU終于猛獸出籠,能玩頂配游戲,能做AI開發(fā)。趕上春節(jié)期間上市,估計會成為不少消費者的硬核新年禮物。國內(nèi)外有區(qū)別的是旗艦卡RTX 5090,RTX 5090起售價1999美元,中國合規(guī)版RTX 5090 D起售價16499元。其他非旗艦產(chǎn)品的價格則至少減半。
關(guān)注新顯卡的朋友們可能還有很多疑問,比如RTX 5090和RTX 5090D有什么區(qū)別?除去AI外,其他設(shè)計的變化和性能提升有多少?AI和顯卡的深度融合到底是噱頭還是真有用?在CES 2025期間,芯東西受邀參加了NVIDIA閉門編輯日,聽多位NVIDIA副總裁連講一整天的大師課,涉及很多GPU性能提升、基準(zhǔn)測試和技術(shù)原理的細(xì)節(jié)。在此將一些干貨整理分享給大家。先說結(jié)論,如果你不關(guān)注AI,只想看傳統(tǒng)顯卡性能提升,可能50系列顯卡會讓你略感失望,因為從架構(gòu)來看,RTX Blackwell和上一代Ada架構(gòu)相差不大,硬實力升級幅度比較收斂,但是圍繞AI的軟實力提升可以稱得上十分驚艷。這也是NVIDIA迄今最大膽的一次將AI和游戲顯卡高度融合,并讓AI成為提升性能的頭號主角。RTX 5090的TDP是575W,比上一代高125W。這么高的功耗,怎么快速冷卻呢?以前的設(shè)計是空氣進來后撞到PCB板拐彎,從一個較小的排氣口排出,風(fēng)扇轉(zhuǎn)得越快噪聲越大。NVIDIA則把原來的PCB拿掉,中間做了個更小更緊湊的PCB板,讓氣流可以從兩邊風(fēng)扇的散熱鰭片直接順滑通過,效率更高,還大降噪音。
我們將從以下8個方面,詳細(xì)解析RTX 50系列消費級GPU的特點:1、RTX 50系列的基礎(chǔ)規(guī)格與基準(zhǔn)測試表現(xiàn);2、Blackwell架構(gòu)的設(shè)計目標(biāo)、主要變化;3、DLSS 4多幀生成的效果及用途;4、多幀生成的技術(shù)原理與難點;5、圖形業(yè)首個實時Transformer模型應(yīng)用;6、首次將AI引入可編程著色器;7、給游戲世界構(gòu)建AI隊友、AI助手、AI敵人;8、AI PC本地部署生成式AI模型,優(yōu)化直播和3D創(chuàng)意工作。注:本文信息量偏大,讀者朋友可直接跳至感興趣的章節(jié)閱讀。
01.游戲+AI性能猛獸出籠:全系顯存換新,暢玩超250幀4K游戲
RTX 5090仍然采用臺積電NVIDIA 4N定制工藝,面積變得更大。上一代4090的GPU芯片面積是608mm2,RTX 5090系列的面積則增加到744mm2。RTX 5090擁有920億個晶體管、21760個CUDA核心(比上一代多50%),AI峰值算力是3352TOPS。RTX 5090 D硬件配置是一樣的,AI算力受合規(guī)限制到2375TOPS,也就是比5080高了約32%。
▲RTX 50系列顯卡規(guī)格
目前公開的RTX 50系列GPU,顯存都升級到GDDR7,位寬、容量做了分級:5090是512bit、32GB,5080和5070 Ti是256bit、16GB,5070是192bit、12GB。GeForce RTX 50系列筆記本電腦GPU規(guī)格也同步更新,相比上一代,能效更高、能跑2倍大的AI模型、視頻編輯速度快40%,電池壽命延長40%。
▲RTX 50系列筆記本電腦GPU規(guī)格
令人印象深刻的依然是AI技術(shù),性能最多暴漲至8倍。尤其是DLSS 4,在跑《黑神話:悟空》、《賽博朋克 2077》等硬件密集型光線追蹤游戲時,4K分辨率下幀率超過200FPS,而且顯著減少延遲。
RTX 5090 / 5090 D無疑是性能猛獸,開DLSS 4和全景光追時升級幅度非??捎^。NVIDIA官方公布的游戲及渲染測試顯示,4K分辨率、最高游戲設(shè)置的情況下,在開DLSS 4時,RTX 5090 / 5090 D / 5080基本上都表現(xiàn)出至少翻倍的性能提升。
RTX 5070 Ti / 5070也借助DLSS 4實現(xiàn)了超過翻倍的性能提升,在采用 2560x1440 分辨率、最高游戲設(shè)置的情況下,能以高幀率暢玩《心靈殺手2》、《黑神話:悟空》、《賽博朋克2077》等游戲。
不過在沒開DLSS的情況下,例如《生化危機4》,RTX 50系列相比上一代的提升幅度更小一些,約提升15%~30%。這些基準(zhǔn)測試性能對比已經(jīng)在官網(wǎng)公布。RTX 5070的硬件規(guī)格雖然難與旗艦卡相提并論,但通過DLSS 4等AI軟實力的提升,NVIDIA稱其性能表現(xiàn)已經(jīng)堪比前代旗艦卡4090。
02.Blackwell架構(gòu):支持神經(jīng)網(wǎng)絡(luò)渲染,F(xiàn)P4精度AI算力暴漲
RTX 50系列GPU采用Blackwell架構(gòu)。NVIDIA稱Blackwell融合了AI驅(qū)動的神經(jīng)網(wǎng)絡(luò)渲染和光線追蹤,是自25年前推出可編程著色以來最重要的計算機圖形創(chuàng)新。
RTX Blackwell架構(gòu)的設(shè)計目標(biāo)包括優(yōu)化新神經(jīng)網(wǎng)絡(luò)工作負(fù)載、減少顯存占用、提高能效等。
上一代Ada架構(gòu)的SM多單元流處理器里,Shader Core有一半僅支持FP32,一半可以同時支持FP32/INT32。Blackwell SM則變成所有Shader Core都支持FP32/INT32,并首次支持神經(jīng)網(wǎng)絡(luò)著色器,可提供125TFLOPS算力;承載AI計算的Tensor Core由第四代升級到第五代。
下圖中間灰框是著色器執(zhí)行重排序(SER),用于優(yōu)化GPU光線追蹤和圖形渲染。它會遍歷并重新排序工作,把相同工作分別放在一起,提高運行效率,將整體重排序性能翻倍。
負(fù)責(zé)光線追蹤計算的Blackwell第四代RT Core,能夠更好支持NVIDIA RTX Mega Geometry技術(shù)。該技術(shù)可將場景中的光線追蹤三角形數(shù)量增加多達100倍,能夠更有效地處理超大幾何圖形簇。
RT Core增加了對線性掃描球體(Linear-swept spheres)、三角形簇交匯引擎(Triangle Cluster Intersection Engine)、三角形簇解壓縮(Triangle Cluster Decompression)的支持,可支持的幾何復(fù)雜度增加很多。Blackwell也更擅長加速3D渲染,可將采用生成式AI的3D工作流的性能,較上一代提升50%。相比上一代,由第四代RT Core驅(qū)動的3D渲染,性能提升約40%。使用D5 Render時,RTX 5090的性能更是達到上一代的2.3倍。這對3D內(nèi)容創(chuàng)作大有裨益。
得益于神經(jīng)網(wǎng)絡(luò)渲染架構(gòu),Blackwell的每幀AI TOPS相比上一代最多提升達8倍。
針對AI運算,第五代Tensor Core首度增加對FP4精度的支持,AI推理性能是上一代Ada FP8的2倍,并使生成式AI模型能夠在PC本地運行,占用的顯存更小?,F(xiàn)在RTX 50系列GPU已經(jīng)能支持本地運行視頻生成模型了。舉個例子,同樣是跑Black forest labs圖像生成模型FLUX.1,用RTX 4090在FP16精度下要花15秒、占用超過23GB的顯存,而用RTX 5090在FP4精度下只花5秒、占用10GB顯存。
Blackwell還添加了一個可編程的AI管理處理器,可以實現(xiàn)對AI和圖形工作負(fù)載同時運行的智能調(diào)度分配。比如在玩游戲時,它能優(yōu)先保證AI隊友第一時間作出響應(yīng)。
Blackwell顯示引擎和編解碼器同樣更新迭代。顯示引擎首度支持DP 2.1,能運行更高的刷新率;還新增了對硬件級Flip Metering的支持,用于優(yōu)化多幀生成中的幀節(jié)奏邏輯。
升級的還有視頻編解碼,現(xiàn)支持4:2:2格式的硬件編解碼,能夠更好地服務(wù)于專業(yè)級視頻編輯。第9代視頻編碼器可在DaVinci Resolve、Adobe Premiere Pro等應(yīng)用中實現(xiàn)快速視頻導(dǎo)出,并使用AI驅(qū)動特效。
03.DLSS 4多幀生成:幀率暴漲至8倍,占用更少顯存
近年來DLSS(深度學(xué)習(xí)超級采樣)已經(jīng)成為RTX系列GPU升級的重頭戲,用于提高幀率,同時提供媲美原始分辨率渲染的清晰高質(zhì)量圖像。RTX 50系列里最搶眼的技術(shù)當(dāng)屬最新引入的DLSS 4,首次推出多幀生成功能。
▲支持DLSS技術(shù)的硬件
多幀生成可以為每個渲染幀額外生成最多3幀。整套DLSS技術(shù)全開,可將運行游戲或應(yīng)用的幀率提高到傳統(tǒng)圖像渲染時的8倍、單幀生成時的1.7倍。
僅用超分辨率或光線重建,4個像素中有3個是AI生成的;添加單幀生成時,8個像素中有7個是由AI生成的;最后通過DLSS 4多幀生成,16個像素中就有15個由AI生成。
可以看幾張對比圖,來直觀感受下開DLSS 4對畫面細(xì)節(jié)的優(yōu)化效果有多明顯。鏡中重影得到優(yōu)化:
紋理更精細(xì):
發(fā)絲、光影的質(zhì)量也顯著提升:
開了DLSS 4后,RTX 5090顯卡可以駕馭4K 240 FPS全景光線追蹤游戲。
比如玩《賽博朋克2077》,與傳統(tǒng)渲染相比,RTX 5090的幀率提高近8倍,PC延遲減少一半,圖像質(zhì)量也得到增強。
NVIDIA還針對RTX 40和50系列GPU強化了幀生成模型。新CNN模型速度提高了40%,顯存占用量減少了30%。例如在《戰(zhàn)錘40000:暗潮》中,使用DLSS幀生成,在4K、最高設(shè)置下提供了10%更快的幀率,同時減少了400MB的顯存使用量。
同時,DLSS光線重建、DLSS超分辨率和DLAA也轉(zhuǎn)由Transformer模型驅(qū)動, 它將進一步提升RTX20、30、40、50系卡的DLSS 性能體驗。在1月30日產(chǎn)品上市時,將有超過75款游戲和應(yīng)用支持DLSS 4?!逗谏裨挘何蚩铡芬矊⒃谛驴òl(fā)售當(dāng)天支持DLSS 4,并在未來提供對DLSS 4的原生支持。除了游戲外,DLSS 4還將用于虛幻引擎5、D5 Render、Chaos Vantage等創(chuàng)作應(yīng)用,顯著增強實時視圖的端口體驗,提高D5 Render中的幀速率,使得設(shè)計師能更好地迭代和協(xié)作工作。
04.多幀生成的技術(shù)難點:控制成本、幀節(jié)奏、延遲
RTX 50系列能用上多幀生成,得益于Blackwell硬件和DLSS軟件創(chuàng)新的相輔相成。DLSS 3幀生成功能在2022年發(fā)布,用AI模型來預(yù)測序列中的下一幀。該幀生成AI模型使用游戲里的運動矢量、深度等數(shù)據(jù)和RTX 40系列光流加速器的光流場,在每對傳統(tǒng)渲染的幀之間創(chuàng)建一個額外幀。
而要實現(xiàn)多幀生成,成本就變得很高。因為每個新生成的幀都需要光流加速器和AI模型,性能成本會限制GPU,導(dǎo)致輸入幀率降低。多幀生成難在需要一致且精確的幀節(jié)奏。DLSS 3幀生成使用基于CPU的幀節(jié)奏,由于不同游戲引擎在CPU和GPU之間劃分工作負(fù)載的方式不同,其可變性可能會隨著其他幀而增加,導(dǎo)致每幀之間的幀間隔是變化的,會造成卡頓。對此,NVIDIA研究團隊開發(fā)了一個全新AI模型,搭配Blackwell的硬件級Flip Metering,確保GPU提供一致且最佳的幀率。高效的AI模型取代了硬件光流加速器,來加快光流場生成速度,能顯著降低生成額外幀的計算成本。
Flip Metering可以調(diào)整幀傳送速度,使GPU在生成和渲染幀時能更高效地進行時序管理,實現(xiàn)更穩(wěn)定的幀生成,避免嚴(yán)重卡頓。
如果一款游戲運行所有DLSS 4功能,包括超分辨率、光線重建、多幀生成,GPU需要在幾毫秒內(nèi)為每個渲染幀運行5個AI模型,否則DLSS多幀生成可能會成為減速器。這就需要配備更強的硬件?;贐lackwell第五代Tensor Core,RTX 50系列的AI處理性能最高達到上一代GPU的2.5倍。新幀生成后,其節(jié)奏均勻,從而能提供流暢的體驗。針對AI補幀會增加延遲的問題,NVIDIA的解法是引入Reflex 2來優(yōu)化圖像渲染管線,最多能將延遲減少75%。Reflex低延遲模式通過在GPU與CPU之間進行精確渲染同步來降低PC延遲。Reflex 2引入了一種新技術(shù)Frame Warp,可以在將渲染幀發(fā)送到顯示器之前,根據(jù)最新鼠標(biāo)輸入數(shù)據(jù)來更新渲染幀,以提高游戲響應(yīng)速度。
NVIDIA還開發(fā)了一個Inpaint預(yù)測修補技術(shù),用于修復(fù)前一幀的顏色與深度數(shù)據(jù)的空白區(qū)域,讓畫面更加接近原生渲染。
05.DLSS 4全面引入Transformer:增強畫質(zhì),提升穩(wěn)定性,減少重影
DLSS 4的光線重建、超分辨率、深度學(xué)習(xí)抗鋸齒(DLAA),都采用了由NVIDIA超級計算機訓(xùn)練的全新Transformer模型。
DLSS 4是Transformer模型首次以高實時幀率生成連續(xù)圖像,由Blackwell Tensor Core提供額外硬件加速。新模型使用多達2倍以上的參數(shù)、4倍的Tensor Core計算能力,能夠更深入地理解場景、更好地渲染游戲場景中復(fù)雜部分,提高幀到幀之間的穩(wěn)定性,減少重影,增加光照細(xì)節(jié)和運動細(xì)節(jié)。以前DLSS使用卷積神經(jīng)網(wǎng)絡(luò)(CNN),通過將少量相鄰像素局部聚合并跟蹤連續(xù)幀中的區(qū)域變化來生成新像素。但經(jīng)過六年改進,這種方法已經(jīng)逐漸到達極限。
Transformer是當(dāng)前主流大模型所采用的架構(gòu)。新DLSS Transformer模型采用ViT(視覺Transformer),可實現(xiàn)自注意力操作來跟蹤評估整個幀和多幀中每個像素的相對重要性。與CNN相比,Transformer可以用更大的數(shù)據(jù)集訓(xùn)練,更具通用性和可擴展性,能在更大的像素窗口內(nèi)輕松識別更長距離的模式,而且更多關(guān)注到有問題的細(xì)微區(qū)域。光線重建改用Transformer模型,可大幅提升圖像質(zhì)量。例如《心靈殺手2》游戲場景中,相比CNN,Transformer模型改善了高度精細(xì)的鐵絲網(wǎng)圍欄的穩(wěn)定性,減少了風(fēng)扇葉片上的重影,并消除了電線周圍的閃爍。
超分辨率的Transformer模型效果也很好,顯示更穩(wěn)定,圖像細(xì)節(jié)也更豐富,將先以測試版的形式發(fā)布。
具有光線重建、超分辨率、DLAA的DLSS游戲都可以升級到新的DLSS Transformer模型。對于尚未更新到最新DLSS的游戲,NVIDIA app Driver設(shè)置菜單中增加了DLSS優(yōu)設(shè)(DLSS Override)選項,可在Frame Generation下拉菜單中設(shè)定所需的輸出模式。
06.將AI引入著色器,秀材質(zhì)、皮膚、毛發(fā)渲染黑科技
自2001年GeForce 3引入第一個可編程著色器起,NVIDIA 20多年來持續(xù)點亮圖形創(chuàng)新,推出高級著色語言、幾何著色器、計算著色器、Low-level編程,以及2018年發(fā)布的光線追蹤。到RTX 50系列GPU,Blackwell開發(fā)人員首次將小型AI網(wǎng)絡(luò)引入可編程著色器,在實時游戲中解鎖電影級材質(zhì)、光照等。NVIDIA將它命名為RTX神經(jīng)網(wǎng)絡(luò)著色器,稱其重塑了著色器的編程方式,可用于將紋理壓縮多達7倍。
DirectX將很快支持一個由NVIDIA和微軟合作創(chuàng)建的新API,Cooperative Vectors。它可以真正利用到Tensor Core的能力,更充分加速Windows上的神經(jīng)網(wǎng)絡(luò)著色器。相信神經(jīng)網(wǎng)絡(luò)技術(shù)將很快取代傳統(tǒng)圖形管線的一部分。
神經(jīng)網(wǎng)絡(luò)材質(zhì)就是一個例子。傳統(tǒng)材質(zhì)采用帶有實時圖形的著色編程,光線與材質(zhì)交互的計算量和數(shù)據(jù)存儲量浩大,如果是電影級渲染,可能要用成百上千行代碼。而RTX Neural Materials通過引入一個只有幾層的小型AI神經(jīng)網(wǎng)絡(luò),能大幅減少著色器編程代碼量和數(shù)據(jù)。在Zorah游戲演示中,用傳統(tǒng)材質(zhì)要占用47MB顯存,用RTX Neural Material則可將顯存占用量壓縮至16MB,視覺效果還更逼真。
RTX Neural Radiance Cache是一個更準(zhǔn)確地追蹤間接光線的方法。與許多只用推理的神經(jīng)網(wǎng)絡(luò)技術(shù)不同,該技術(shù)有一個實時自訓(xùn)練網(wǎng)絡(luò),接受了特定游戲數(shù)據(jù)訓(xùn)練,學(xué)習(xí)了任何給定陣列所應(yīng)達到的間接光照情況,能通過追蹤每像素一次光線彈射推斷出更多的彈射。還有RTX Skin,針對半透明材料,NVIDIA借鑒了迪士尼的電影渲染技術(shù),將次表面散射算法首次引入實時光線追蹤。
RTX Neural Faces采用簡單的光柵化面部和3D姿勢數(shù)據(jù)作為輸入,并使用生成式AI實時推理,渲染出穩(wěn)定、高質(zhì)量的數(shù)字面孔。NVIDIA在不同的光照條件下,用不同的情緒和動畫、不同的遮擋(比如部分臉被遮蓋),在每一個可能的姿勢下做渲染,然后在超級計算機上創(chuàng)建一個模型,用于構(gòu)建特色角色的照片級逼真圖像,再在游戲系統(tǒng)上進行部署。
渲染毛發(fā)也很有挑戰(zhàn)性。光線追蹤的毛發(fā)渲染成本高昂。傳統(tǒng)毛發(fā)渲染技術(shù)無法兼顧性能和圖像質(zhì)量,需要用很多三角形來保證精度。在NVIDIA展示的例子中,一個角色的毛發(fā)渲染要用到600萬個三角形。全新RTX Hair技術(shù)改用Linear-swept spheres單元,能夠讓角色頭發(fā)看起來更逼真細(xì)致、陰影更準(zhǔn)確。相比多邊形,球體能更好地貼近真正的毛發(fā)。這種渲染方式運行速度更快,圖像質(zhì)量更高,同時大幅減少顯存占用。
RTX Mega Geometry是一項突破性技術(shù),可以智能地聚集和更新復(fù)雜幾何體,以進行實時光線追蹤計算,能夠減少CPU開銷,提高幀率,并減少大量光線追蹤場景中的顯存消耗。
近30年來游戲里的幾何體數(shù)量一路飆漲,Zorah游戲場景有超過5億個三角形,啟用RTX Mega Geometry技術(shù)后能在RTX 50系列GPU上流暢運行?!秺Z寶奇兵:古老之圈》未來的更新將引入全新NVIDIA RTX Hair技術(shù)?!缎撵`殺手 2》將率先采用RTX Mega Geometry技術(shù)。
07.自主AI agent涌入游戲:AI隊友、AI助手、AI Boss
一個充滿生命感的游戲世界,會是什么樣子?可能是一個充滿自主AI的模擬空間,你的隊友、系統(tǒng)、敵人等角色都由自主AI agent驅(qū)動。而讓AI去復(fù)制人類決策,是一個困難的感知認(rèn)知行動,它要像人一樣具備感知、認(rèn)知、記憶、規(guī)劃與行動的能力。NVIDIA ACE便旨在為自主游戲角色提供支持。使用該技術(shù),開發(fā)者可以創(chuàng)建在本地設(shè)備上運行的自主AI隊友,協(xié)助玩家暢玩游戲。
感知方面,ACE有音頻理解模型Nemoaudio-4B-Instruct、視覺理解模型Cosmos Nemotron-4B-Instruct-v2。比如玩槍戰(zhàn)游戲,它能理解槍聲的狀態(tài)與位置,據(jù)此來制定計劃;在復(fù)雜游戲場景中,視覺理解模型能夠掌握很多關(guān)于游戲中發(fā)生事情的信息。認(rèn)知方面,ACE提供了Mistral NeMo Minitron instruct模型系列,有不同參數(shù)版本,規(guī)劃模型能輸出agent將要執(zhí)行計劃的純文本,基于這個計劃,行動選擇模型將產(chǎn)生一些行動;音頻生成模型Riva A2 Flow TTS是一個文本轉(zhuǎn)語音模型,可輸出自然、有感情的音頻。在呈現(xiàn)更好的動畫效果上,ACE提供由音頻驅(qū)動的全新AI面部模型新一代Audio2Face,能讓游戲角色說話時的表情和口型更貼合;還有由文本驅(qū)動的身體運動ACE AI Body Motion,只需輸入文本,就能從大量動作捕捉數(shù)據(jù)中生成動畫序列,可以幫動畫師節(jié)省時間。還可以用前文提過的RTX Neural Faces、RTX Skin、RTX Hair等套件,來渲染出栩栩如生的數(shù)字人。動作游戲《動物朋克》的demo中便使用ACE來實現(xiàn)游戲中的語音理解,使角色互動更自然細(xì)膩,從而增強游戲的代入感。玩家可以用語音或文本,要求AI更改游戲中的裝備涂裝,比如更換飛船的顏色或logo中的動物形象。
ACE驅(qū)動的自主角色正在集成到戰(zhàn)術(shù)競技游戲《絕地求生》、人生模擬游戲InZOI、多人在線角色扮演游戲《傳奇5》中。在《絕地求生》中,由ACE提供支持的AI隊友可以跟玩家討論戰(zhàn)略、提供游戲建議或者閑聊,也能計劃和執(zhí)行戰(zhàn)略行動,與人類玩家動態(tài)合作以確保生存。InZOI中由ACE支持的CPC角色Smart Zoi,可以根據(jù)生活目標(biāo)和游戲內(nèi)的事件自主調(diào)整行為,能做出規(guī)劃、制定決策、提供反饋。它支持通過自然語言來定制性格、關(guān)系、記憶。
每一天結(jié)束時,Smart Zoi會分析獲得的經(jīng)驗,由此影響它第二天的行為,從而塑造出一個真正獨特且個性化的性格?!秱髌?》則設(shè)置了一個AI Boss。以往基于固定腳本的Boss會遵循可預(yù)測的模式來行動,比較乏味。而由大語言模型驅(qū)動的突襲Boss能夠分析玩家信息,識別每個玩家的獨特技能,從而調(diào)整戰(zhàn)術(shù)。這樣一來,玩家在每次游戲會話中都能遇到獨特的Boss,它的攻擊策略變得更不可預(yù)測,也更具挑戰(zhàn)性??紤]到游戲玩家很難找到一個適合自己系統(tǒng)和喜好的最佳配置,NVIDIA發(fā)布了一個AI助手Project G-Assist。該AI助手通過NVIDIA app提供,可以幫助提高RTX PC系統(tǒng)的性能。
Project G-Assist支持用戶用語音或文本命令來控制系統(tǒng),可以優(yōu)化幀率、延遲、能效等,支持利用AI來診斷和監(jiān)控性能,還能通過插件調(diào)用不同系統(tǒng),定制周邊照明、管理風(fēng)扇噪音。NVIDIA創(chuàng)建了一個插件框架,使得外設(shè)制造商可以構(gòu)建和測試自己的插件和輔助工具、連接流行的AI工具。
08.RTX AI PC:輕松部署生成式AI模型,用AI增強視頻體驗和3D創(chuàng)作
除了暢玩游戲外,RTX 50系列GPU還有一個重要功能——加速AI模型訓(xùn)練和推理。GeForce做AI開發(fā)最早可以追溯到2012年,開啟深度學(xué)習(xí)革命的AlexNet模型就是用GeForce GTX 580訓(xùn)練的。根據(jù)NVIDIA披露的數(shù)據(jù),在去年發(fā)表的AI研究論文中,超過30%都提及對GeForce RTX的使用。全新Blackwell架構(gòu)首度支持FP4精度,AI推理性能翻倍。其使用案例涵蓋大語言模型、視覺語言模型、圖像生成、語音、用于檢索增強生成的嵌入模型、PDF提取、計算機視覺等。
你可以用ChatRTX定制專屬AI聊天機器人,通過文本或語音搜索個人筆記、文件及照片;用Broadcast應(yīng)用做AI降噪和背景替換,提升視頻會議通話、語音聊天和直播的體驗;用RTX Video通過AI超分辨率和視頻HDR技術(shù),將互聯(lián)網(wǎng)視頻升級為超清4K HDR視頻。Broadcast應(yīng)用為直播者提供了2項由AI提供支持的測試版功能:1)Studio Voice,用于去除噪音和混響,升級麥克風(fēng)音頻;2)Virtual Key Light,通過AI補光改善主播的面部光影,從而提升與玩家的互動氛圍。
Streamlabs正在推出由NVIDIA ACE和Inworld AI框架提供支持的智能流媒體助手。它可以充當(dāng)聯(lián)合主持人、制作人和技術(shù)助理來輔助直播,比如做些點評、和觀眾互動或者提供排除故障的建議。這個AI助手將在今年下半年發(fā)布。
包括NVIDIA Studio專屬AI工具套件在內(nèi),有超過100款由AI賦能并由RTX加速的創(chuàng)意應(yīng)用可輔助內(nèi)容創(chuàng)作,比如加速圖像生成、增強視頻編輯、助力3D設(shè)計等。利用NVIDIA NIM微服務(wù)和AI藍圖,你還可以在RTX AI PC上本地運行最新的生成式AI模型。
NIM微服務(wù)針對RTX GPU優(yōu)化,包括在PC上運行AI所需的各種組件,包含為RTX優(yōu)化的基礎(chǔ)模型、領(lǐng)域特定代碼、推理后端(TensorRT、TensorRT-LLM)、支持定制化的工具、行業(yè)標(biāo)準(zhǔn)API、預(yù)構(gòu)建容器??梢园堰@些微服務(wù)想象成堆積木,易組裝和使用。NIM微服務(wù)可從ChatRTX、AnythingLLM、ComfyUI、LM Studio等常用開發(fā)者工具中體驗前沿AI,讓做AI開發(fā)變?nèi)菀?。第一波RTX NIM微服務(wù)將在2月份上線。
NIM微服務(wù)針對Windows PC集成AI模型做了優(yōu)化。適用于Linux的Windows子系統(tǒng)為Windows 11上的AI開發(fā)以及Windows Copilot Runtime提供了跨平臺環(huán)境。
將NIM微服務(wù)與AI藍圖(AI Blueprint)結(jié)合,可以快速設(shè)置、定制和部署AI驅(qū)動的工作流。AI藍圖基于NIM微服務(wù)構(gòu)建,向開發(fā)者提供了如何使用微服務(wù)來構(gòu)建AI體驗的預(yù)配置參考,比如基于PDF創(chuàng)建播客、構(gòu)建數(shù)字人、生成由3D場景引導(dǎo)的圖像等應(yīng)用。NVIDIA展示了一款具有視覺能力的PC虛擬形象Project R2X,它可以協(xié)助桌面應(yīng)用和視頻電話會議、閱讀和總結(jié)文檔等。
R2X可以通過常用開發(fā)者框架連接到GPT-4o、Grok等云端AI服務(wù)以及NVIDIA NIM微服務(wù)和AI藍圖。該虛擬形象采用RTX Neural Faces渲染,用完全生成的像素來增強傳統(tǒng)光柵化渲染,然后用Audio2Face模型來優(yōu)化面部表情和對口型。還有一個由3D引導(dǎo)的生成式AI藍圖,可實現(xiàn)對圖像生成更精細(xì)的控制。創(chuàng)作者可以用Blender等3D渲染器中布置的簡單3D物體來引導(dǎo)AI圖像生成:手動或用AI生成創(chuàng)建3D資產(chǎn),將其放到場景中,設(shè)置3D視圖相機,由FLUX NIM微服務(wù)驅(qū)動的預(yù)打包工作流將可以通過插件使用當(dāng)前布景來生成與3D場景相匹配的高質(zhì)量圖像。
NVIDIA也提供了在RTX上開始使用NIM和AI藍圖的建議:先在網(wǎng)頁端體驗NIM,然后在RTX一鍵下載安裝和運行NIM;有一個管理AI開發(fā)項目的工具AI Workbench,便于共享項目和協(xié)同管理;你還可以嘗試集成agent、構(gòu)建數(shù)字人并連接到UI。消費級GPU RTX 50系列、4090、4080以及臺式工作站GPU RTX 6000、5000都將從2月起首發(fā)支持NIM微服務(wù)和AI藍圖。來自Black Forest Labs、Meta、Stability AI、Mistral等頂級模型開發(fā)商的NIM微服務(wù)和RTX AI PC AI藍圖流程即將發(fā)布。
GeForce RTX 50系列筆記本電腦將于今年3月開始發(fā)布。針對能效改進,AI驅(qū)動型技術(shù)Max-Q可從GPU、CPU、顯存、散熱、軟件、屏幕等方面優(yōu)化筆記本電腦。全新Blackwell Max-Q技術(shù)包括DLSS 4、GDDR7電壓優(yōu)化、加速頻率切換、低延遲休眠、高級電源門控等,有助于提升能效和性能、延長電池續(xù)航時間。
09.結(jié)語:AI與游戲的融合更加極致
正如前文所述,這次RTX 50系列將升級重點和賣點放在了AI軟實力上,把AI和游戲的融合玩得更加極致,不僅能駕馭高畫質(zhì)游戲,在專業(yè)3D內(nèi)容創(chuàng)作和渲染能力上也更具吸引力。想必不少骨灰級游戲發(fā)燒友、專業(yè)3D制作渲染人員已經(jīng)搓手準(zhǔn)備好將RTX 5090 D放進購物車了。隨著摩爾定律逐漸走到頭,硬件提升也會受到一定束縛。
而NVIDIA工程師的思路非常靈活,通過新硬件和AI驅(qū)動的神經(jīng)網(wǎng)絡(luò)渲染的結(jié)合顯著提高GPU性能。DLSS 等神經(jīng)網(wǎng)絡(luò)渲染技術(shù)提高了圖形性能,同時也提高了游戲的圖像質(zhì)量。隨著神經(jīng)網(wǎng)絡(luò)著色器的推出,Blackwell為游戲渲染的未來開啟了大門。
正如黃仁勛在主題演講強調(diào)的,GeForce顯卡系列和AI相輔相成的關(guān)系,過去 GeForce助力了AI的發(fā)展,現(xiàn)在AI又反過來加速革新GeForce。至于顯卡實際性能、用AI補幀對游戲體驗的真實影響,請關(guān)注將在不久后發(fā)布的評測。這次RTX 50系列GPU的主要升級,你怎么看?