【原】NVIDIA RTX 30系列筆記本電腦GPU解析

超能網(wǎng) 2021-02-05

展開全文

NVIDIA在CES 2021上除了公布了新一代甜點(diǎn)卡GeForce RTX 3060之外,，重點(diǎn)產(chǎn)品其實(shí)是GeForce RTX 30系列筆記本電腦GPU,。其實(shí)在桌面市場上我們早已經(jīng)見識過了NVIDIA新一代GeForce RTX 30系GPU，那相比GeForce RTX 20系翻倍的性能提升幅度,，這得益于全新NVIDIA Ampere架構(gòu)帶來的跨躍式進(jìn)步,，而現(xiàn)在GeForce RTX 30系列筆記本電腦也會(huì)是一次性能全面大提速。

NVIDIA首批發(fā)布的GeForce RTX 30系列筆記本電腦GPU包括GeForce RTX 3080,、RTX 3070與RTX 3060,，在CES 2021的發(fā)布會(huì)上，NVIDIA表示GeForce RTX 3080與RTX 3070是定位1440p分辨率游戲的,，前者可在開啟光線追蹤技術(shù)的情況下,，提供100+的FPS幀數(shù)表現(xiàn)，而后者則可提供90FPS最高畫質(zhì)表現(xiàn),，目前搭載這兩款筆記本電腦GPU的游戲本已經(jīng)開賣,，而GeForce RTX 3060筆記本電腦GPU則是面向1080p分辨率游戲的，可在最高畫質(zhì)達(dá)到平均90幀的畫面表現(xiàn),。

目前NVIDIA GeForce RTX 3080/3070 Laptop GPU是游戲本上1440p分辨率游戲的最佳選擇,，可提供最高畫質(zhì)的同時(shí)帶來流暢的幀數(shù)，并且現(xiàn)在NVIDIA Ampere架構(gòu)的新特性也應(yīng)用筆記本上,，包括NVIDIA Reflex,、NVIDIA Broadcast、NVIDIA Studio等,，還有新增的第三代Max-Q技術(shù)以及Resizable BAR技術(shù),。

NVIDIA Ampere架構(gòu)解析

GeForce RTX 3080、RTX 3070筆記本電腦GPU使用的是GA104核心,，而GeForce RTX 3060筆記本電腦GPU則使用GA106,，后者的詳細(xì)信息還沒有公布，而前者則是桌面版GeForce RTX 3070,、RTX 3060 Ti所使用的GPU,，核心面積392.5mm2，晶體管數(shù)量174億,，采用三星為NVIDIA定制的8nm工藝生產(chǎn),。

GeForce RTX 3080筆記本電腦GPU用的是完整版的GA104核心，擁有6組GPC,，每組有4組TPC,，一共24組TPC,，每組TPC包含2組SM(Streaming Multiprocess)，所以總共擁有48個(gè)SM(Streaming Multiprocess),，每組有128個(gè)CUDA,，一共有6144個(gè)CUDA，8組32位的顯存控制器組成256bit的顯存位寬,。

GeForce RTX 3080筆記本電腦GPU只啟用了40個(gè)SM(Streaming Multiprocess),，一共有5120個(gè)CUDA，但依然保留了256bit的顯存位寬,。

2倍性能的第二代RTX SM(Streaming Multiprocess)

2018年8月份,，NVIDIA在推出RTX 20系列顯卡的時(shí)候著重介紹了他們的RTX概念，將實(shí)時(shí)光線追蹤和AI計(jì)算引入到了GPU中,，其SM(Streaming Multiprocess)可以說是發(fā)生了翻天覆地的變化。NVIDIA在NVIDIA Ampere架構(gòu)上則是著重提升了整個(gè)SM(Streaming Multiprocess)的性能表現(xiàn),，雖然在結(jié)構(gòu)上沒有做出太大的修改,，但性能已經(jīng)不可同日而語。主要提升有三點(diǎn),，針對傳統(tǒng)圖形計(jì)算的FP32單元加倍,、引入第二代RT Core和第三代Tensor Core。

NVIDIA Ampere架構(gòu)SM(Streaming Multiprocess)的性能兩倍于Turing架構(gòu)

GA100（左）對比GA102（右）

雙倍的FP32單元,，雙倍的快樂

在NVIDIA Turing架構(gòu)上面,，NVIDIA引入了分?jǐn)?shù)據(jù)類型計(jì)算的理念，將整數(shù)型（INT32）和單精度浮點(diǎn)型（FP32）兩種不同的數(shù)據(jù)類型交給兩種不同的ALU進(jìn)行計(jì)算,，大大提高了SM(Streaming Multiprocess)的并行計(jì)算效率,。不過現(xiàn)代游戲應(yīng)用中最為常見的還是FP32，也就是單精度浮點(diǎn)類型的計(jì)算,，INT32 ALU的使用率是要比FP32 ALU的低的,。為了提升計(jì)算效率，NVIDIA引入了可同時(shí)支持INT32和FP32兩種數(shù)據(jù)類型的新ALU,，取代了原本只支持INT32計(jì)算的ALU,。也就是說，現(xiàn)在有兩條不同的數(shù)據(jù)路徑（Datapath）,，一條能夠處理整數(shù)或單精度浮點(diǎn),，另一條只能處理單精度浮點(diǎn)計(jì)算。

原本一個(gè)SM(Streaming Multiprocess)又被劃分成四個(gè)更小的區(qū)塊,，每個(gè)區(qū)塊有自己的調(diào)度器和寄存器,，能夠調(diào)度16個(gè)INT32 ALU和16個(gè)FP32 ALU，整個(gè)SM(Streaming Multiprocess)同時(shí)可以處理64個(gè)INT32計(jì)算指令和64個(gè)FP32計(jì)算指令,。到了NVIDIA Ampere架構(gòu)上則是變成128個(gè)FP32計(jì)算指令或64個(gè)INT 32計(jì)算指令和64個(gè)FP32計(jì)算指令,。在遇到以FP32為主的圖形計(jì)算時(shí),，其計(jì)算吞吐量最高可以提高到原本的兩倍。

另外NVIDIA也更新了CUDA核心的計(jì)數(shù)方式,，現(xiàn)在以一個(gè)FP32 ALU為一個(gè)CUDA核心,，所以在NVIDIA Ampere架構(gòu)上，每個(gè)SM(Streaming Multiprocess)擁有的CUDA核心數(shù)倍增到了128個(gè),。

為了配合規(guī)模有一定擴(kuò)張的計(jì)算單元,，NVIDIA對每個(gè)SM(Streaming Multiprocess)的緩存系統(tǒng)也進(jìn)行了一定的改良。NVIDIA Ampere架構(gòu)SM(Streaming Multiprocess)的共享緩存/L1數(shù)據(jù)緩存容量從96KB增長到了128KB,，同時(shí)其帶寬變?yōu)樵瓉淼膬杀?，?shí)現(xiàn)容量帶寬雙增長。

第二代RT Core帶來光追效率的顯著提升

在NVIDIA Turing架構(gòu)上,，NVIDIA首次引入了能夠針對實(shí)時(shí)光線追蹤運(yùn)算進(jìn)行加速的RT Core,。在執(zhí)行實(shí)時(shí)光線追蹤相關(guān)的計(jì)算時(shí)，現(xiàn)代的基于SIMD的CUDA核心在進(jìn)行光線和物體表現(xiàn)碰撞點(diǎn)等計(jì)算時(shí)表現(xiàn)出來的效率太低,，反而是基于MIMD架構(gòu)的特定用途計(jì)算模塊更為高效,。NVIDIA的RT Core就是這樣一種專門為實(shí)時(shí)光線追蹤計(jì)算進(jìn)行加速處理的專用硬件單元。

NVIDIA Ampere架構(gòu)GPU上的RT Core主要是增加了對動(dòng)態(tài)模糊的加速運(yùn)算支持,。在非光追情況下的動(dòng)態(tài)模糊往往只是對畫面套用后處理濾鏡,，其效果并不真實(shí)。在實(shí)時(shí)光追情況下,，動(dòng)態(tài)模糊則是通過實(shí)時(shí)計(jì)算物體與光線的交互情況所產(chǎn)生的,，其運(yùn)算非常復(fù)雜，就算是Turing上面的RT Core也難以承載,。到了NVIDIA Ampere架構(gòu),，其第二代RT Core中加入了NVIDIA設(shè)計(jì)的插值算法，在保證動(dòng)態(tài)模糊精確性的同時(shí)提高了該情況下的實(shí)時(shí)光線追蹤效率,，官方稱最高可以實(shí)現(xiàn)8倍于前代的速度,。另外，在基礎(chǔ)的BVH計(jì)算上面,，新一代RT Core也能夠快上2倍,。

第三代Tensor Core讓AI性能出現(xiàn)飛躍

從NVIDIA Volta架構(gòu)開始，NVIDIA就在SM(Streaming Multiprocess)中引入為AI計(jì)算優(yōu)化的Tensor Core,，這些張量計(jì)算單元能夠提高顯卡在機(jī)器學(xué)習(xí)計(jì)算上的效率,。在NVIDIA Ampere架構(gòu)上，Tensor Core已經(jīng)進(jìn)化到了第三代,，它能夠提供比第二代Tensor Core高出4倍的效能,。不過游戲卡上面的Tensor Core進(jìn)行了一定的精簡，其FP16 FMA計(jì)算的吞吐量只有GA100核心中的Tensor Core的一半,。

第三代Tensor Core除了在效能方面有提升之外,，還對稀疏矩陣運(yùn)算提供了支持,，詳細(xì)的介紹可以看我們之前對計(jì)算卡方向的NVIDIA Ampere架構(gòu)的解析：《NVIDIA新一代Ampere架構(gòu)簡單解讀：一次有改良有革命的架構(gòu)升級》?？偟膩碚f,，即便是面向游戲的NVIDIA Ampere架構(gòu)將每SM(Streaming Multiprocess)的Tensor Core數(shù)量從8個(gè)減到了4個(gè)，它的整體效能仍然是有很大提升,。

DLSS 2.0

新的Tensor Core帶來的更強(qiáng)勁的AI算力將會(huì)為DLSS助力,，在今年早些時(shí)候，NVIDIA開始全面推廣DLSS 2.0技術(shù),，相比起初代DLSS,，DLSS 2.0不管是在畫面質(zhì)量還是在渲染效率上都有很大的提升，已經(jīng)不再是所謂的雞肋功能,，能顯著提高游戲性能,，保障1440p分辨率下游戲本的流暢度，并且開啟DLSS后對GPU來說渲染壓力低了,，可以有效降低游戲時(shí)GPU功耗,，進(jìn)而延長電池的續(xù)航時(shí)間。

首先,，DLSS 2.0在效率和處理速度上有很大的提升，NVIDIA宣稱其速度可以達(dá)到原版的兩倍,，換到實(shí)際游戲中就是同樣的設(shè)置下可以提高更多的幀數(shù),。

然后是更好的圖像超采樣質(zhì)量，DLSS 2.0擴(kuò)展了超采樣的倍數(shù),，可以支持4x的分辨率拉伸,，也就是說，在1080p的渲染分辨率下通過DLSS 2.0即可拉伸到4K分辨率,，大大節(jié)約了GPU資源,，可以提供更高的幀數(shù)。

最重要的一點(diǎn)是,，DLSS 2.0不再需要針對單個(gè)游戲進(jìn)行模型學(xué)習(xí)推理了,，現(xiàn)在所有游戲都會(huì)使用一個(gè)模型，這大大降低了游戲開發(fā)商使用DLSS技術(shù)的門檻,，未來整合DLSS技術(shù)將會(huì)是一件非常簡單的事情,。

并行程度更高的渲染管線

將不同類型的計(jì)算交給不同的單元去處理是從NVIDIA Volta架構(gòu)就開始采納的一種理念，當(dāng)時(shí)引入的Tensor Core分流了很多AI相關(guān)的運(yùn)算,，而在其后引入的RT Core又將實(shí)時(shí)光線追蹤相關(guān)的計(jì)算給分流了,。那么它們可以并行執(zhí)行嗎？可以,，但并不是全部運(yùn)算都能夠并行執(zhí)行,。

如上圖所示,，Turing GPU在開啟實(shí)時(shí)光追和DLSS時(shí)，其RT Core和Tensor Core并不是并行工作的,，Tensor Core被調(diào)用的時(shí)間點(diǎn)已經(jīng)接近整個(gè)渲染流程的末尾,，它沒有和RT Core同時(shí)運(yùn)行。

在NVIDIA Ampere架構(gòu)上,，NVIDIA提升了GPU內(nèi)部各種單元之間的并行性,，現(xiàn)在傳統(tǒng)計(jì)算單元、RT Core和Tensor Core這三大單元可以同時(shí)工作,，在原本基礎(chǔ)上繼續(xù)縮短幀渲染時(shí)間,。

第三代Max-Q技術(shù)

Max-Q是一種系統(tǒng)層級的技術(shù)，它為輕薄游戲筆記本電腦提供出色的性能,。從芯片,、軟件、PCB 設(shè)計(jì),、到功耗分配和散熱系統(tǒng),，筆記本電腦的各個(gè)部分都針對功率和性能進(jìn)行了特別優(yōu)化。第三代Max-Q技術(shù)通過AI和全新的系統(tǒng)優(yōu)化選項(xiàng),，引入了WhisperMode 2.0和Dynamic Boost 2.0,，讓高性能游戲筆記本電腦的表現(xiàn)遠(yuǎn)超以往。

Dynamic Boost 2.0

在這次的GeForce RTX 30系列筆記本電腦GPU上,，NVIDIA還為游戲本引入Dynamic Boost 2.0技術(shù),，因?yàn)樵诮^大多數(shù)主流的游戲本內(nèi)部，都采用了GPU與CPU共享散熱系統(tǒng)和功耗的方案,，這就存在GPU和CPU可能會(huì)資源分配不合理的情況,，比如在游戲里面，有些是偏重GPU的,，也有可能CPU會(huì)在某些場景中調(diào)用得更多,，而一般游戲本都是固定的功耗分配，導(dǎo)致無論哪邊需求更高,，也不會(huì)分配到更多資源,。

而NVIDIA這個(gè)Dynamic Boost 2.0技術(shù)，就會(huì)根據(jù)不同游戲不同場景的性能需求,，結(jié)合AI技術(shù)分析游戲運(yùn)行情況,，自動(dòng)調(diào)節(jié)GPU和CPU的功耗分配、GPU與GPU顯存的功耗,，以發(fā)揮出各自最大的運(yùn)行效率,，官方宣稱最高可以帶來16%的性能提升。

WhisperMode 2.0

WhisperMode 2.0可將游戲筆記本電腦的噪音控制提升至新的高度,。WhisperMode經(jīng)過徹底的重新設(shè)計(jì),，并從系統(tǒng)層級定制化的構(gòu)建到筆記本電腦中,，但并不是所有搭載RTX 30系列GPU的筆記本都會(huì)配備此功能，決定權(quán)在廠商手上,。在選擇自己想要的噪音級別后,，WhisperMode 2.0 的AI驅(qū)動(dòng)算法便可通過管理 CPU、GPU,、系統(tǒng)溫度和風(fēng)扇轉(zhuǎn)速,，在為您提供良好的噪音表現(xiàn)的同時(shí)，依然保持卓越的性能,。

過去,，游戲筆記本電腦的靜音模式主要通過降低風(fēng)扇速度來實(shí)現(xiàn)的，這會(huì)限制系統(tǒng)性能或?qū)е聹囟壬?。WhisperMode 2.0是一種更為復(fù)雜的系統(tǒng)級控制器,，可在用戶選擇的噪音級別內(nèi)實(shí)現(xiàn)最大化性能。利用AI驅(qū)動(dòng)的算法可動(dòng)態(tài)管理CPU功率,，GPU功率,，系統(tǒng)溫度和系統(tǒng)風(fēng)扇速度，以在選定的噪音級別上提供最佳體驗(yàn),。

除了噪音級別外,，用戶還可調(diào)節(jié)最小幀率目標(biāo)來確保流暢的游戲體驗(yàn)，為用戶提供了超高效的模式,，使筆記本電腦在游戲和創(chuàng)作時(shí)更加安靜,。

Resizable BAR

為了利用上PCI-E接口的高速連通特性，NVIDIA還借著這次RTX 30系列GPU的更新,，公布了Resizable BAR技術(shù)，主要是讓CPU可以直接通過PCI-E訪問GPU的顯存,，讓兩者之間的數(shù)據(jù)交換更為直接,，而不用再通過系統(tǒng)內(nèi)存，特別是如今游戲文件越來越多,、越大,，在傳統(tǒng)的訪問模式中容易出現(xiàn)數(shù)據(jù)排隊(duì)等待的情況，Resizable BAR就可以讓CPU與GPU在游戲中做到更高效的處理,。

但NVIDIA這項(xiàng)技術(shù)其實(shí)不僅要靠GPU硬件來實(shí)現(xiàn)的,，還需要筆記本廠商在主板設(shè)計(jì)，以及游戲開發(fā)商這邊的優(yōu)化配合,，預(yù)計(jì)在今年內(nèi),，新款游戲本和游戲都陸續(xù)會(huì)有通過補(bǔ)丁升級支持Resizable BAR技術(shù)。

NVIDIA Reflex

伴隨GeForce RTX 30系桌面GPU一同發(fā)布的,，有一個(gè)對于電競游戲,，或者更仔細(xì)地說對于電競選手來說很重要的新東西,，那就是NVIDIA Reflex，現(xiàn)在該技術(shù)也被帶到筆記本上,。那么這個(gè)NVIDIA Reflex到底是什么東西呢,？其實(shí)它是分為兩部分的，一部分是硬件,，一部分是軟件,。

硬件部分是一個(gè)與我們這次使用的LDAT很相似的東西，叫Reflex Latency Analyzer,，它其實(shí)可以視作為LDAT的一個(gè)進(jìn)階版本,，是直接預(yù)安裝在顯示器里的，可以用來測量玩家從點(diǎn)擊鼠標(biāo)直到畫面出現(xiàn)變化之間的時(shí)間差,，也就是整套系統(tǒng)的所有延遲,。

而軟件部分則是NVIDIA Reflex SDK。這個(gè)NVIDIA Reflex SDK的作用是降低以及測量渲染延遲的,，開發(fā)者可以直接整合到游戲內(nèi),。而在開啟其低延遲模式后，可以讓CPU與顯卡同步,，大幅度減少渲染序列,，從而降低渲染延遲。

NVIDIA Broadcast

NVIDIA Broadcast是為直播主們推出的,，這用到RTX GPU的AI能力來對直播主的背景消除或替換,，還有攝像頭重構(gòu)圖，甚至幫助麥克風(fēng)進(jìn)行背景噪音消除,。

在安裝了NVIDIA Broadcast軟件后,，它會(huì)在攝像頭、耳麥與直播軟件之間建立一個(gè)中間者的角色,，讓外置設(shè)備可以利用到RTX GPU的AI能力來做一些AI增強(qiáng)效果,，耳機(jī)和麥克風(fēng)現(xiàn)在支持了降噪功能，AI會(huì)分析出哪些是主要音頻,，哪些是背景雜音進(jìn)行降噪,，給直播主和觀眾呈現(xiàn)清晰、有用的聲音,。

而攝像頭現(xiàn)在有了自動(dòng)重構(gòu)圖以及背景處理能力,，從攝像頭采集到畫面，可以設(shè)置經(jīng)過Broadcast進(jìn)行處理,，再傳到OBS這些直播軟件中,，這可以讓直播主的背景變得更為生動(dòng)靈活，同時(shí)也可以降低直播場景的搭建成本。

RTX Studio

RTX Studio這一概念是NVIDIA在2019年提出的,，因?yàn)镹VIDIA覺得GeForce RTX系列GPU其實(shí)不僅限于用在玩游戲上,，隨著近年內(nèi)容創(chuàng)作市場對硬件需求的增加，NVIDIA希望RTX系列顯卡也能讓內(nèi)容創(chuàng)作者們受益,，而RTX Studio筆記本則為滿足創(chuàng)作需求,，面向個(gè)人創(chuàng)作者、工作室用戶,。NVIDIA Ampere架構(gòu)在通用計(jì)算的SM(Streaming Multiprocess),、專為光線追蹤運(yùn)算的RT core，以及用于AI運(yùn)算的Tensor core,，這三個(gè)主要部分都作了大幅度的改進(jìn),，這三大特性對于如今主流的創(chuàng)意應(yīng)用，也能進(jìn)一步提速,。

因?yàn)樵赗TX Studio支持的創(chuàng)意應(yīng)用中,，目前已經(jīng)有大量主流軟件利用上了RTX系列GPU的這三大特性，比如視頻剪輯軟件Premiere Pro支持基于CUDA的水銀硬件加速,，3D動(dòng)畫制作軟件Blender可利用RT core來提高渲染速度,，還有DaVinci Reslove、Photoshop,、Lightroom在Tensor core幫助下,，實(shí)現(xiàn)更快更準(zhǔn)確的AI功能。

所以RTX 30系GPU這三個(gè)大提速,，相應(yīng)地也會(huì)幫助那些有利用到這三個(gè)特性的創(chuàng)意應(yīng)用,，獲得更快速度處理速度，而且不僅如此,，一些應(yīng)用還獲得新的功能特性,。比如Blender支持了第二代RT core的動(dòng)態(tài)模糊加速，在渲染帶有高速運(yùn)動(dòng)場景的3D動(dòng)畫中,，更好應(yīng)付當(dāng)中的動(dòng)態(tài)模糊效果,，還有就是基于AI的超采樣技術(shù)DLSS，現(xiàn)在也可以應(yīng)用到創(chuàng)意工作中了,，室內(nèi)設(shè)計(jì)和渲染軟件D5渲染器便是首個(gè)支持DLSS技術(shù)的3D渲染器，大幅提高了圖像在實(shí)時(shí)預(yù)覽時(shí)的幀率,。

最后RTX 30系GPU還升級了內(nèi)置的NVDEC到第五代,，支持最高8K分辨率HDR視頻的AV1硬解碼，這對于有8K HDR視頻回放需要的視頻后期工作者也會(huì)有很大幫助,，加上本來的第七代NVENC硬件編碼器,，最高縮短了五倍的視頻導(dǎo)出耗時(shí)，以及在直播串流中幫助降低硬件性能消耗,。

GeForce RTX 30系列筆記本電腦GPU強(qiáng)勁的性能,，讓游戲本在開啟最高畫質(zhì)加光追的情況下保持較高的幀率,。與此同時(shí)帶來的第三代Max-Q技術(shù)里的Dynamic Boost 2.0可自動(dòng)調(diào)節(jié)GPU和CPU的功耗分配，以發(fā)揮出各自最大的運(yùn)行效率,，WhisperMode 2.0可在用戶選擇的噪音級別內(nèi)實(shí)現(xiàn)最大化性能,。Resizable BAR可讓CPU與GPU在游戲中做到更高效的處理。擁有更強(qiáng)大AI性能的RTX 30系列筆記本電腦GPU無論在游戲上還是內(nèi)容創(chuàng)作上都能給用戶體驗(yàn)帶來質(zhì)的改變,。