隨著人工智能和云計(jì)算等技術(shù)的不斷發(fā)展,,處理器需要處理的數(shù)據(jù)量越來越大,,對性能和效率的要求也越來越高。另一方面,,摩爾定律逼近極限,,在過去十幾年中,單個(gè)處理器中晶體管數(shù)目的增加速度逐漸放緩,,芯片工藝制程接近1nm時(shí),,開始接觸到量子效應(yīng)的極限。 當(dāng)制造工藝很難再發(fā)展的時(shí)候,,人們更多是希望在處理器架構(gòu)設(shè)計(jì)多下功夫,,以提高計(jì)算效率,NUMA架構(gòu)應(yīng)運(yùn)而生,。本篇文章,,跟大家介紹一下,什么是NUMA架構(gòu),? 早期的時(shí)候,,每臺服務(wù)器都是單CPU,隨著技術(shù)的發(fā)展,,出現(xiàn)了多CPU共同工作的需求,。NUMA(Non-Uniform Memory Access,非一致性內(nèi)存訪問)和SMP(Symmetric Multi-Processor,,對稱多處理器系統(tǒng))是兩種不同的解決多CPU共同工作的硬件體系架構(gòu),。 SMP架構(gòu)是比較常見的多CPU構(gòu)建方式,。其主要特征是共享,所有的CPU共享使用全部資源,,例如內(nèi)存,、總線和I/O,多個(gè)CPU對稱工作,,彼此之間沒有主次之分,,平等地訪問共享的資源。但是缺點(diǎn)也顯而易見,,這樣勢必引入資源的競爭問題,,隨著核數(shù)增多,內(nèi)存控制器讀取內(nèi)存的性能瓶頸越來越明顯,,從而導(dǎo)致它的擴(kuò)展內(nèi)力非常有限,。 為了解決這個(gè)問題,硬件設(shè)計(jì)師們將內(nèi)存控制器平分到每個(gè) die上,從而形成了NUMA 架構(gòu),。 NUMA架構(gòu)通過將CPU劃分成不同的組(Node),,每個(gè)Node由一個(gè)或多個(gè)(物理)CPU組成,并且有獨(dú)立的本地內(nèi)存,、I/O等資源,。在NUMA架構(gòu)中,每個(gè)節(jié)點(diǎn)都有自己的內(nèi)存和計(jì)算資源,,這使得處理器可以更靈活地分配資源,,提高了整體性能和效率。此外,,NUMA架構(gòu)還可以通過增加節(jié)點(diǎn)數(shù)量來擴(kuò)展處理器的計(jì)算和存儲能力,,這使得它成為一種非常適合大規(guī)模并行處理的架構(gòu)。 目前業(yè)界都認(rèn)為摩爾定律接近極限,,NUMA技術(shù)是CPU發(fā)展的一種必然趨勢,。 摩爾定律是由英特爾(Intel)創(chuàng)始人之一戈登·摩爾(Gordon Moore)提出來的。其內(nèi)容為:當(dāng)價(jià)格不變時(shí),,集成電路上可容納的晶體管數(shù)目,,約每隔18-24個(gè)月便會增加一倍,性能也將提升一倍,。換言之,,處理器的性能大約每兩年翻一倍,同時(shí)價(jià)格下降為之前的一半,。 然而,,在過去十幾年中,單個(gè)處理器中晶體管數(shù)目的增加速度逐漸放緩,,促使許多廠商推出雙核及多核計(jì)算機(jī),。在這樣的背景下,,NUMA架構(gòu)處理器可帶來更高的性能、核心密度和能效,,也會適用于更廣泛的計(jì)算環(huán)境,。 說了這么多,NUMA架構(gòu)處理器表現(xiàn)如何,?國內(nèi)外都哪些品牌采用了多NUMA架構(gòu)的方式去設(shè)計(jì)處理器,? (1)AMD AMD 的“Zen”架構(gòu)帶來全新的處理器設(shè)計(jì),較原來的 AMD “推土機(jī)”架構(gòu)實(shí)現(xiàn)了大幅的性能提升,。 “Zen”有三大目標(biāo) — 卓越的性能,、非凡的可擴(kuò)展性以及出色的能效。 為實(shí)現(xiàn)出色的可擴(kuò)展性,,AMD 在處理器中大膽采用全新理念:小芯片,。 AMD 沒有構(gòu)建更大、更昂貴的單片芯片,,而是采取了稱為小芯片的處理器構(gòu)建塊,。 每個(gè)小芯片都包含許多基于“Zen”的核心,而且封裝的小芯片越多,,處理器性能就越強(qiáng),。 目前,“Zen”處理器的核心數(shù)少則兩個(gè),,多則 128 個(gè),。 這種創(chuàng)新為消費(fèi)者帶來可擴(kuò)展性和靈活性,。 AMD Zen架構(gòu)誕生于2017年,,迄今已經(jīng)先后有了14nm Zen、12nm Zen+,、7nm Zen 2,、7nm Zen 3,以及現(xiàn)有的已應(yīng)用于AMD 4代服務(wù)器的5nm Zen 4 Genoa處理器產(chǎn)品,。比如,,早期的zen1如下圖所示4個(gè)numa的結(jié)構(gòu) AMD官網(wǎng)上展示的zen4的多numa架構(gòu),如下圖所示: 從AMD的產(chǎn)品路線圖上可以發(fā)現(xiàn),,采用多NUMA的架構(gòu)設(shè)計(jì),,能擴(kuò)展更多的物理Core,提供更強(qiáng)的性能,,例如:從zen1的32物理核,,到zen2/3的64物理核,雖然zen2采用7nm制程,,但是多NUMA方式讓zen2集成更多的核心,,性能也是提升2+倍不止,。 目前最新發(fā)布的zen4多達(dá)96核,多NUMA架構(gòu)的方式讓處理器可帶來更高的性能,、更高的核心密度和更低的能效,。從AMD的產(chǎn)品路線圖上,AMD一直在多NUMA上設(shè)計(jì),,產(chǎn)品性能也是遙遙領(lǐng)先,。 (2)Intel 英特爾今年創(chuàng)新推出的Sapphire Rapids,也為下一代數(shù)據(jù)中心處理器樹立了標(biāo)準(zhǔn)參考,。 據(jù)英特爾Linux工程師Andi Kleen提交的內(nèi)核補(bǔ)丁可知,,Sapphire Rapids將采用Golden Cove架構(gòu)核心,而不是目前Tiger Lake使用的Willow Cove架構(gòu)核心,,這意味著Sapphire Rapids將于即將到來的Alder Lake擁有同款架構(gòu)核心,。Sapphire Rapids芯片采用了與AMD霄龍服務(wù)器處理器類似的“膠水”設(shè)計(jì),4個(gè)MCM小芯片有望提供多達(dá)80個(gè)CPU核心,,單顆處理器則由4個(gè)NUMA組成,。 英特爾在2023年推出了至強(qiáng)鉑金 8490H 是一款 60 核服務(wù)器/工作站處理器,四個(gè)DIE(NUMA)的實(shí)現(xiàn)方式,。 通過lscpu可以看到9490H單顆處理器4個(gè)NUMA結(jié)構(gòu),。 (3)海光 在海光官網(wǎng)上直觀的看到海光也是4NUMA的設(shè)計(jì),同時(shí),,在現(xiàn)有的服務(wù)器驗(yàn)證結(jié)果來看,,海光確實(shí)是4NUMA結(jié)構(gòu),并且在高頻計(jì)算方面表現(xiàn)在同行業(yè)中表現(xiàn)出眾,,海光在國內(nèi)市場也已經(jīng)擠進(jìn)主流處理器的行列中,。 在NUMA架構(gòu)技術(shù)加持下,,海光在諸多場景下都能發(fā)揮出性能優(yōu)勢,。 如在數(shù)據(jù)庫管理系統(tǒng)領(lǐng)域,在大量讀寫的數(shù)據(jù)庫操作中,,NUMA架構(gòu)可以顯著提高數(shù)據(jù)庫的性能,,許多數(shù)據(jù)庫管理系統(tǒng),如Oracle,、MySQL等,,支持NUMA架構(gòu),可以利用NUMA特性進(jìn)行優(yōu)化,;在科學(xué)計(jì)算領(lǐng)域,,常常需要處理大量的數(shù)據(jù),使用NUMA架構(gòu)可以提高處理器的內(nèi)存訪問速度,,從而提高整體性能,;在服務(wù)器應(yīng)用領(lǐng)域,,NUMA架構(gòu)可以幫助平衡負(fù)載,提高服務(wù)器的整體性能,;在云計(jì)算領(lǐng)域,,NUMA架構(gòu)可以用于平衡虛擬機(jī)的資源分配,從而提高整個(gè)云環(huán)境的性能,。 據(jù)說,海光四號將采用Chiplet技術(shù),,在原有的NUMA架構(gòu)上,,進(jìn)一步優(yōu)化互聯(lián)技術(shù),、提升計(jì)算能力。海光不斷的技術(shù)創(chuàng)新,,以持續(xù)自研迭代,帶來好用,、易用的國產(chǎn)處理器,。 綜上所述,,NUMA架構(gòu)是處理器發(fā)展的一個(gè)重要趨勢,產(chǎn)品表現(xiàn)相對而言是不錯(cuò)的,。當(dāng)然,,技術(shù)發(fā)展都是任重道遠(yuǎn)的,未來處理器架構(gòu)的發(fā)展,,還需要不斷的創(chuàng)新優(yōu)化,,以克服未知的挑戰(zhàn)。 |
|