【原】生成式AI,，GPU Busy,，游戲性能提升，Intel Arc顯卡又雙叒升級了

愛極物 2023-08-19 發(fā)布于上海

展開全文

我們在很多場合中不止一次提到過Intel Arc銳炫顯卡是一款會成長的GPU,，在推出僅一年多的時間內(nèi),，Intel Arc就歷經(jīng)了數(shù)次重大升級，包括對DX11,、DX9主流游戲的不斷優(yōu)化,，新游戲發(fā)售當天即刻適配等。在Intel Arc發(fā)售以來,，已經(jīng)有超過30次的驅(qū)動更新,，已經(jīng)頗有當年A/N卡驅(qū)動大戰(zhàn)，驅(qū)動大戰(zhàn)的味道,。

而就在最近,，在英特爾大灣區(qū)科技創(chuàng)新中心的英特爾技術分享會上，Intel Arc再次放出接大招,，包括DX9,、DX11和DX12游戲性能再次提升，并推出了全新的GPU Busy性能指標參考,，Apple ProRes到AV1的高效轉(zhuǎn)碼,，以及包括包括ChatGLM-6b、Llama 2-13b在內(nèi)的AI生成式內(nèi)容創(chuàng)作,。

海量的功能和技術更新讓筆者忍不住看了一下現(xiàn)在Intel Arc A380僅有三位數(shù)的實際售價,，嘖嘖，真的是Arc用戶血賺的節(jié)奏,。

GPU Busy：提升響應新法寶

如何降低游戲中可能遇到的各種延遲響應是每一家GPU廠商在提升技術和驅(qū)動時需要先考慮的問題,。比如NVIDIA Reflex會考慮I/O輸入到顯示器輸出過程中的整體系統(tǒng)響應表現(xiàn)，其中有一種情況是，如果遇到CPU性能太強勁,，比如Core i9,，那么就會通過CPU Boost來降低CPU速度來確保GPU跟上節(jié)奏。

讓CPU受限或者性能過剩,，顯然都是不對的。過往的大部分游戲情況中,，如果在Core i5上就能運行很好的游戲,，在Core i7和Core i9中很可能提升不明顯，原因是CPU與GPU之間沒有一個均衡的解決方案,，而隨著英特爾優(yōu)化驅(qū)動的引入,，這個問題得到了很好的解決，特別是引入的GPU Busy性能指標檢測,，就能很好的觀測到這一點,。

解鈴還須系鈴人，CPU和GPU之間搭配的問題,，實際上還是需要CPU與GPU之間溝通優(yōu)化來解決,。也就是降低CPU在每幀上花費的時間，并且縮短與GPU的溝通延遲,，因此就引出了CPU中的Frametime概念,。

不同于GPU在顯示過程中的大規(guī)模并行處理，游戲單幀畫面在CPU中需要歷經(jīng)游戲邏輯處理,、物理計算,、調(diào)用I/O、命中檢測等等,，而后才是調(diào)用渲染器將當下的游戲狀態(tài)傳遞給GPU進行下一步操作,。

但在動輒5GHz的時代，當下想讓GPU趕上CPU的頻率是不可能的,，在執(zhí)行的過程中,，CPU會執(zhí)行一段Wait的命令，等待GPU回饋之后再進行下一個流程,。顧名思義,，Wait就是CPU在等待GPU做出反應，而這個過程也包含在Frametime的過程中,，導致Frametime的實際時間被延長,。

當CPU的Frametime大于GPU渲染時間，英特爾就會將其稱為GPU Busy,。是的,，這個時候GPU真的很忙。

而原則上，F(xiàn)rametime時間與GPU渲染時間同步,，才能保持效率最大化,，不會有單方面的處理單元瞎忙活，費力不討好,。因此Intel在最新一版的驅(qū)動中降低了CPU Frametime,，特別是其中Wait的過程，并且消除一些無意義的行為,，讓每一次執(zhí)行變得更為高效,。

通過對比可以看到，F(xiàn)rametime在《守望先鋒2》1080p Ultra畫質(zhì)下成功降低了CPU Frametime與GPU渲染之間不同步的問題,，并將Frametime響應時間從原本的6-10ms,，降低至5ms左右，可以說進步是相當巨大的,。

同時這意味著如果與高性能CPU搭配,，CPU與GPU之間達到平衡，也可以給GPU帶來更多提升的機會,。

重點是GPU Busy是個通用性的概念,，它不局限于英特爾的CPU和GPU中，而是可以檢測到不同品牌CPU,、GPU之間的配合,，比如Intel CPU+NVIDIA GPU，Intel CPU+AMD GPU,，AMD CPU+Intel GPU等等,。在最新一版本的PresentMon Beta監(jiān)測工具工具中，英特爾已經(jīng)將GPU Busy作為一個獨立的檢測項,，在游戲的過程中提供CPU與GPU之間匹配度的參考,。

DirectX 11體驗再提升

讓我們把目光放回Intel Arc。我們知道Intel Arc在設計之初是針對DirectX 12進行硬件設計的,，但顯卡適配本質(zhì)上是個經(jīng)驗與體力活,，特別對于Intel Arc沒有出生之前的游戲適配，實際上會存在很多困難,。就好比一個英語專業(yè)的大學生,，畢業(yè)之后為了獲得更好的工作機會，必須重新去學習文言文,。

從實際情況來看Intel Arc在推出的一年多的時間內(nèi),，表現(xiàn)得很好。英特爾首先對DirectX 9驅(qū)動進行了重構,，放棄了之前轉(zhuǎn)換層兼容的低效模式,，從而獲得43%以上的平均性能提升,。

但只有DirectX 9是不夠的，因為DirectX 11也占據(jù)了主流游戲的半壁江山,，比如時下火熱的《永劫無間》,，不要看宣傳說即將支持DirectX 12，支持光追等大量新技術,，實際上它現(xiàn)在仍然是基于DirectX 11的游戲,。同等性能GPU下，你振刀的效率低于對手,，那作為玩家的你肯定是無法忍受的,。

現(xiàn)在Intel Arc針對DirectX 11再讀給出更新，這也是在第一季度驅(qū)動更新之后,，Arc針對DirectX 11的再次加強，從Intel官方數(shù)據(jù)來看,，所測試的11款游戲幀率平均提升幅度將近20%,。

而我們常說的1% Low幀，或是99th Percentile情況也更為明顯,，提升幅度也有20%,，最高提升可達45%。而所有的測試都是在Intel Core i5-13400F搭配Intel Arc A750完成,，可見Arc驅(qū)動的成熟度仍在在不斷提升,，現(xiàn)在已經(jīng)有了很好的執(zhí)行效率，并且未來的表現(xiàn)可能還會更好,。

生成式AI：用輕薄本也能跑

一旦提到大語言模型,，我們第一個反應是Grace Hopper集齊一套，上千萬美元投資使勁砸,，跟我們普通消費者沒什么直接關系,。相比之下，英特爾的想法其實會更激進一些,，就是在離線狀態(tài)下,，也能讓普通消費者體驗到本地生成式AI帶來的優(yōu)勢和高效。換而言之,，英特爾已經(jīng)著手將AIGC應用到了我們現(xiàn)在常見的輕薄型筆記本上,。

在現(xiàn)場，英特爾給我們展示了兩個DEMO,。一個是當下喜聞樂見的Stable Diffusion,，另一個則是基于ChatGLM-6b、Llama 2-13b的計算,。對于開源的AIGC,，英特爾的態(tài)度顯得非常積極,，同樣也得益于OpenVINO優(yōu)秀的兼容性以及對開發(fā)者的友好。

其中Stable Diffusion使用了社區(qū)中火熱的Automatic1111模型,，將一段推理關鍵詞交個Core i7-13700H的輕薄本來執(zhí)行,。英特爾還特別強調(diào)了，利用OpenVINO加速的Stable Diffusion在配置過程中,，只添加了一行代碼,，就能實現(xiàn)PyTorch模型的加速。

整個過程只依靠Core i7-13700H的核顯來完成,，一張512x512分辨率的圖片實現(xiàn)時間為17秒左右,，與獨顯比起來算不上快，但是對于移動過程中臨時生成一張圖片而言,，已經(jīng)完全足夠,。

如果是使用獨顯的Arc A770作為比較，同等條件下生成所需時間則只需要2秒,，生成速率大概在9.65it/s左右,，也就是每秒迭代9.65次，是個不錯的成績,。

另外一個演示則是基于ChatGLM-6b,、Llama 2-13b的表現(xiàn)。同樣是Core i7-13700H搭配Xe核顯,。其中ChatGLM-6b可以做到首個token生成first latency 241.7ms,，后續(xù)token平均生成率after latency 55.63ms/token。同時Llama 2-13b則執(zhí)行了更為復雜的中文與英文生成,，在幾乎不影響閱讀速度的情況下,，筆記本也能夠做到快速的生成效果。

順帶一提,，ChatGLM-6b,、Llama 2-13b中的b是billion的意思，即ChatGLM的60億參數(shù)版本,，和Llama 2的130億參數(shù)版本,，前者由清華大學知識工程和數(shù)據(jù)挖掘小組開發(fā)，后者由Facebook,，也就是現(xiàn)在的Meta開發(fā),，均為開源。

而根據(jù)現(xiàn)場演示,，英特爾輕薄本最高可以做到StarCoder-15.5b規(guī)模的大語言模型LLM推理演示,，將近160億個參數(shù)是目前13代酷睿輕薄本執(zhí)行的天花板，已經(jīng)非常驚人,。這也讓我們看到輕薄本實際上已經(jīng)具備了一定的AIGC實際應用體驗,，在未來不同場景,、客戶端中，通過AIGC替代繁瑣的人工,，實現(xiàn)更高效的內(nèi)容創(chuàng)作已經(jīng)近在咫尺,。

寫在最后：Intel Arc進階時

在游戲和AIGC之外，Intel還在現(xiàn)場利用Arc A770進行了通過單一攝像頭實現(xiàn)人物動作的3D數(shù)字重建,，通過抓去27個骨骼點實現(xiàn)快速的虛擬人物生成,、渲染，并且流暢度達到70FPS,。

同時利用Arc A380在極短的時間內(nèi)完成Apple ProRes到AV1的高效轉(zhuǎn)碼,，效率甚至高過NVIDIA GeForce RTX 4090，確是讓人倍感意外,。

不僅如此,，英特爾還在積極設計單槽GPU，計劃在未來一段時間中,，讓Intel Arc向邊緣計算進一步擴展,。

由此可見，Intel Arc仍然處在一個進階狀態(tài),，英特爾進軍GPU市場不一定要與A家和N家正面硬剛，通過挖掘Xe架構的優(yōu)勢,，挖掘新的GPU應用與生態(tài),，給消費市場提供更豐富且高性價比的選擇，讓人更喜聞樂見,。從GPU Busy提出,，到DX9、DX11驅(qū)動的全面優(yōu)化,，以及對開源大語言模型的積極應對,，對AIGC普適化給出解決方案，都已經(jīng)很好證明了Intel Arc深耕GPU的決心,。