我們在很多場合中不止一次提到過Intel Arc銳炫顯卡是一款會成長的GPU,,在推出僅一年多的時間內(nèi),,Intel Arc就歷經(jīng)了數(shù)次重大升級,包括對DX11,、DX9主流游戲的不斷優(yōu)化,,新游戲發(fā)售當天即刻適配等。在Intel Arc發(fā)售以來,,已經(jīng)有超過30次的驅(qū)動更新,,已經(jīng)頗有當年A/N卡驅(qū)動大戰(zhàn),驅(qū)動大戰(zhàn)的味道,。 而就在最近,,在英特爾大灣區(qū)科技創(chuàng)新中心的英特爾技術分享會上,Intel Arc再次放出接大招,,包括DX9,、DX11和DX12游戲性能再次提升,并推出了全新的GPU Busy性能指標參考,,Apple ProRes到AV1的高效轉(zhuǎn)碼,,以及包括包括ChatGLM-6b、Llama 2-13b在內(nèi)的AI生成式內(nèi)容創(chuàng)作,。 海量的功能和技術更新讓筆者忍不住看了一下現(xiàn)在Intel Arc A380僅有三位數(shù)的實際售價,,嘖嘖,真的是Arc用戶血賺的節(jié)奏,。 GPU Busy:提升響應新法寶 如何降低游戲中可能遇到的各種延遲響應是每一家GPU廠商在提升技術和驅(qū)動時需要先考慮的問題,。比如NVIDIA Reflex會考慮I/O輸入到顯示器輸出過程中的整體系統(tǒng)響應表現(xiàn),其中有一種情況是,如果遇到CPU性能太強勁,,比如Core i9,,那么就會通過CPU Boost來降低CPU速度來確保GPU跟上節(jié)奏。 讓CPU受限或者性能過剩,,顯然都是不對的。過往的大部分游戲情況中,,如果在Core i5上就能運行很好的游戲,,在Core i7和Core i9中很可能提升不明顯,原因是CPU與GPU之間沒有一個均衡的解決方案,,而隨著英特爾優(yōu)化驅(qū)動的引入,,這個問題得到了很好的解決,特別是引入的GPU Busy性能指標檢測,,就能很好的觀測到這一點,。 解鈴還須系鈴人,CPU和GPU之間搭配的問題,,實際上還是需要CPU與GPU之間溝通優(yōu)化來解決,。也就是降低CPU在每幀上花費的時間,并且縮短與GPU的溝通延遲,,因此就引出了CPU中的Frametime概念,。 不同于GPU在顯示過程中的大規(guī)模并行處理,游戲單幀畫面在CPU中需要歷經(jīng)游戲邏輯處理,、物理計算,、調(diào)用I/O、命中檢測等等,,而后才是調(diào)用渲染器將當下的游戲狀態(tài)傳遞給GPU進行下一步操作,。 但在動輒5GHz的時代,當下想讓GPU趕上CPU的頻率是不可能的,,在執(zhí)行的過程中,,CPU會執(zhí)行一段Wait的命令,等待GPU回饋之后再進行下一個流程,。顧名思義,,Wait就是CPU在等待GPU做出反應,而這個過程也包含在Frametime的過程中,,導致Frametime的實際時間被延長,。 當CPU的Frametime大于GPU渲染時間,英特爾就會將其稱為GPU Busy,。是的,,這個時候GPU真的很忙。 而原則上,F(xiàn)rametime時間與GPU渲染時間同步,,才能保持效率最大化,,不會有單方面的處理單元瞎忙活,費力不討好,。因此Intel在最新一版的驅(qū)動中降低了CPU Frametime,,特別是其中Wait的過程,并且消除一些無意義的行為,,讓每一次執(zhí)行變得更為高效,。 通過對比可以看到,F(xiàn)rametime在《守望先鋒2》1080p Ultra畫質(zhì)下成功降低了CPU Frametime與GPU渲染之間不同步的問題,,并將Frametime響應時間從原本的6-10ms,,降低至5ms左右,可以說進步是相當巨大的,。 同時這意味著如果與高性能CPU搭配,,CPU與GPU之間達到平衡,也可以給GPU帶來更多提升的機會,。 重點是GPU Busy是個通用性的概念,,它不局限于英特爾的CPU和GPU中,而是可以檢測到不同品牌CPU,、GPU之間的配合,,比如Intel CPU+NVIDIA GPU,Intel CPU+AMD GPU,,AMD CPU+Intel GPU等等,。在最新一版本的PresentMon Beta監(jiān)測工具工具中,英特爾已經(jīng)將GPU Busy作為一個獨立的檢測項,,在游戲的過程中提供CPU與GPU之間匹配度的參考,。 DirectX 11體驗再提升 讓我們把目光放回Intel Arc。我們知道Intel Arc在設計之初是針對DirectX 12進行硬件設計的,,但顯卡適配本質(zhì)上是個經(jīng)驗與體力活,,特別對于Intel Arc沒有出生之前的游戲適配,實際上會存在很多困難,。就好比一個英語專業(yè)的大學生,,畢業(yè)之后為了獲得更好的工作機會,必須重新去學習文言文,。 從實際情況來看Intel Arc在推出的一年多的時間內(nèi),,表現(xiàn)得很好。英特爾首先對DirectX 9驅(qū)動進行了重構,,放棄了之前轉(zhuǎn)換層兼容的低效模式,,從而獲得43%以上的平均性能提升,。 但只有DirectX 9是不夠的,因為DirectX 11也占據(jù)了主流游戲的半壁江山,,比如時下火熱的《永劫無間》,,不要看宣傳說即將支持DirectX 12,支持光追等大量新技術,,實際上它現(xiàn)在仍然是基于DirectX 11的游戲,。同等性能GPU下,你振刀的效率低于對手,,那作為玩家的你肯定是無法忍受的,。 現(xiàn)在Intel Arc針對DirectX 11再讀給出更新,這也是在第一季度驅(qū)動更新之后,,Arc針對DirectX 11的再次加強,從Intel官方數(shù)據(jù)來看,,所測試的11款游戲幀率平均提升幅度將近20%,。 而我們常說的1% Low幀,或是99th Percentile情況也更為明顯,,提升幅度也有20%,,最高提升可達45%。而所有的測試都是在Intel Core i5-13400F搭配Intel Arc A750完成,,可見Arc驅(qū)動的成熟度仍在在不斷提升,,現(xiàn)在已經(jīng)有了很好的執(zhí)行效率,并且未來的表現(xiàn)可能還會更好,。 生成式AI:用輕薄本也能跑 一旦提到大語言模型,,我們第一個反應是Grace Hopper集齊一套,上千萬美元投資使勁砸,,跟我們普通消費者沒什么直接關系,。相比之下,英特爾的想法其實會更激進一些,,就是在離線狀態(tài)下,,也能讓普通消費者體驗到本地生成式AI帶來的優(yōu)勢和高效。換而言之,,英特爾已經(jīng)著手將AIGC應用到了我們現(xiàn)在常見的輕薄型筆記本上,。 在現(xiàn)場,英特爾給我們展示了兩個DEMO,。一個是當下喜聞樂見的Stable Diffusion,,另一個則是基于ChatGLM-6b、Llama 2-13b的計算,。對于開源的AIGC,,英特爾的態(tài)度顯得非常積極,,同樣也得益于OpenVINO優(yōu)秀的兼容性以及對開發(fā)者的友好。 其中Stable Diffusion使用了社區(qū)中火熱的Automatic1111模型,,將一段推理關鍵詞交個Core i7-13700H的輕薄本來執(zhí)行,。英特爾還特別強調(diào)了,利用OpenVINO加速的Stable Diffusion在配置過程中,,只添加了一行代碼,,就能實現(xiàn)PyTorch模型的加速。 整個過程只依靠Core i7-13700H的核顯來完成,,一張512x512分辨率的圖片實現(xiàn)時間為17秒左右,,與獨顯比起來算不上快,但是對于移動過程中臨時生成一張圖片而言,,已經(jīng)完全足夠,。 如果是使用獨顯的Arc A770作為比較,同等條件下生成所需時間則只需要2秒,,生成速率大概在9.65it/s左右,,也就是每秒迭代9.65次,是個不錯的成績,。 另外一個演示則是基于ChatGLM-6b,、Llama 2-13b的表現(xiàn)。同樣是Core i7-13700H搭配Xe核顯,。其中ChatGLM-6b可以做到首個token生成first latency 241.7ms,,后續(xù)token平均生成率after latency 55.63ms/token。同時Llama 2-13b則執(zhí)行了更為復雜的中文與英文生成,,在幾乎不影響閱讀速度的情況下,,筆記本也能夠做到快速的生成效果。 順帶一提,,ChatGLM-6b,、Llama 2-13b中的b是billion的意思,即ChatGLM的60億參數(shù)版本,,和Llama 2的130億參數(shù)版本,,前者由清華大學知識工程和數(shù)據(jù)挖掘小組開發(fā),后者由Facebook,,也就是現(xiàn)在的Meta開發(fā),,均為開源。 而根據(jù)現(xiàn)場演示,,英特爾輕薄本最高可以做到StarCoder-15.5b規(guī)模的大語言模型LLM推理演示,,將近160億個參數(shù)是目前13代酷睿輕薄本執(zhí)行的天花板,已經(jīng)非常驚人,。這也讓我們看到輕薄本實際上已經(jīng)具備了一定的AIGC實際應用體驗,,在未來不同場景,、客戶端中,通過AIGC替代繁瑣的人工,,實現(xiàn)更高效的內(nèi)容創(chuàng)作已經(jīng)近在咫尺,。 寫在最后:Intel Arc進階時 在游戲和AIGC之外,Intel還在現(xiàn)場利用Arc A770進行了通過單一攝像頭實現(xiàn)人物動作的3D數(shù)字重建,,通過抓去27個骨骼點實現(xiàn)快速的虛擬人物生成,、渲染,并且流暢度達到70FPS,。 同時利用Arc A380在極短的時間內(nèi)完成Apple ProRes到AV1的高效轉(zhuǎn)碼,,效率甚至高過NVIDIA GeForce RTX 4090,確是讓人倍感意外,。 不僅如此,,英特爾還在積極設計單槽GPU,計劃在未來一段時間中,,讓Intel Arc向邊緣計算進一步擴展,。 由此可見,Intel Arc仍然處在一個進階狀態(tài),,英特爾進軍GPU市場不一定要與A家和N家正面硬剛,通過挖掘Xe架構的優(yōu)勢,,挖掘新的GPU應用與生態(tài),,給消費市場提供更豐富且高性價比的選擇,讓人更喜聞樂見,。從GPU Busy提出,,到DX9、DX11驅(qū)動的全面優(yōu)化,,以及對開源大語言模型的積極應對,,對AIGC普適化給出解決方案,都已經(jīng)很好證明了Intel Arc深耕GPU的決心,。 |
|