大模型之上,, 如何在硬件層面上打破算力桎梏,? 文 | 智能相對論(aixdlun) 作者 | 沈浪 全球人工智能產(chǎn)業(yè)正被限制在了名為“算力”的瓶頸中,一側(cè)是供不應(yīng)求的高端芯片,,另一側(cè)則是激戰(zhàn)正酣的“百模大戰(zhàn)”,,市場的供求兩端已然失衡。 然而,,大多數(shù)人的關(guān)注點仍舊還是在以英偉達(dá)為主導(dǎo)的高端芯片領(lǐng)域,。 半導(dǎo)體的創(chuàng)新固然關(guān)鍵,但是從現(xiàn)實處境來講,,芯片從造出來到用起來,,是一個龐大的系統(tǒng)工程,市場更需要一條能暫時繞開半導(dǎo)體創(chuàng)新的系統(tǒng)創(chuàng)新的技術(shù)路徑,,來同步釋放算力,,以滿足現(xiàn)階段爆發(fā)性的算力需求以及后期可持續(xù)的常態(tài)發(fā)展。 遵循著這一思路,,就不難發(fā)現(xiàn),,以浪潮信息為代表的本土廠商已經(jīng)開始了另一條釋放算力的創(chuàng)新路徑,即對服務(wù)器等硬件的基礎(chǔ)架構(gòu)進(jìn)行創(chuàng)新,,在硬件層面“拓荒”,,“壓榨”更多的硬件性能,打破算力桎梏,。 只是這樣的路徑,,似乎沒有想象中的那么簡單、輕松,。 向底層“拓荒”,, 激活“牛鞭效應(yīng)” 以服務(wù)器為例,一臺服務(wù)器有超過10000個零部件,同時還涉及30多個技術(shù)領(lǐng)域,,包括材料學(xué),、熱力學(xué)、電池技術(shù),、流體力學(xué),、化學(xué)等一系列學(xué)科。此外,,一臺服務(wù)器里還會應(yīng)用超過100種傳輸協(xié)議,。其制造過程更是需要經(jīng)歷30多道流程,使用100多種加工和制造工藝等等,。 若要對這樣的高精密硬件的基礎(chǔ)架構(gòu)進(jìn)行創(chuàng)新,,絕非易事。 在四五年前,,一些大規(guī)模數(shù)據(jù)中心用戶幾乎都遇到過一個相似的問題:風(fēng)扇轉(zhuǎn)速越快,,硬盤越有可能出現(xiàn)性能波動,嚴(yán)重時還會直接掉線,,非常影響硬盤的讀寫性能,。 浪潮信息的工程師團(tuán)隊做了大量實驗,最終鎖定原因:風(fēng)扇產(chǎn)生的噪音一旦達(dá)到120分貝,,就非常容易造成硬盤磁頭偏移,、讀寫效率下降,進(jìn)而導(dǎo)致扇區(qū)失效乃至硬盤報廢,、服務(wù)器宕機,。 盡管這樣的問題看起來很小,卻對服務(wù)器的性能有著嚴(yán)重制約,。如何解決服務(wù)器內(nèi)部的風(fēng)噪問題,,成為了一個業(yè)內(nèi)共同探索的議題,。國際開放計算社區(qū)OCP組織成員包括FaceBook(現(xiàn)為Meta公司),、微軟、浪潮信息,、戴爾等企業(yè),,共同發(fā)起Storage Vibration(存儲設(shè)備振動)項目,旨在解決相關(guān)的問題,。 最終,,浪潮信息的工程師們基于大量機理性研究和測試,發(fā)現(xiàn)了硬盤性能損失與聲壓強度間的數(shù)學(xué)規(guī)律,,并構(gòu)建出業(yè)界首個硬盤敏感度模型,,量化出不同硬盤受到各類噪聲影響后的性能表現(xiàn)。 以此為依據(jù),,浪潮信息也得以對最新G7服務(wù)器系統(tǒng)進(jìn)行了全方位的優(yōu)化設(shè)計,,譬如通過CFD流體動力學(xué)仿真改進(jìn)·不同機箱布局下的風(fēng)扇的葉片形態(tài),,抑制扇葉表面因渦流脫落形成的高頻噪音,提升硬盤讀寫效率50%,;或是在機箱內(nèi)通過設(shè)計40多種歌院式的消音結(jié)構(gòu),,消除特定的高頻噪聲等等。 這些“繡花針”功夫是創(chuàng)新底層架構(gòu)的關(guān)鍵,,而看似很微小的基礎(chǔ)改良,,卻是提升服務(wù)器性能、保障硬件平穩(wěn)運行的重要因素,。在經(jīng)濟(jì)學(xué)領(lǐng)域,,有一個專業(yè)術(shù)語叫作“牛鞭效應(yīng)”,指一端微小的擺動被不斷放大,,到了另一端將演變?yōu)榇蠓鶖[動的趨勢,。 從硬件的應(yīng)用來看,基礎(chǔ)部件的改良也將激活“牛鞭效應(yīng)”——從一張硬盤到一個服務(wù)器,,再到一個數(shù)據(jù)中心,,隨著硬件不斷疊加應(yīng)用,底層的改良價值將被逐步放大,,向上層傳遞,,成為服務(wù)器安全運作、釋放算力,、促進(jìn)人工智能產(chǎn)業(yè)發(fā)展的重要保障,。 類似的,現(xiàn)階段備受關(guān)注的芯片互聯(lián)技術(shù),,也是支撐大模型大規(guī)模算力場景的關(guān)鍵技術(shù),,尤其是單個服務(wù)器內(nèi)部芯片高速直連,是實現(xiàn)大規(guī)模算力集群高效協(xié)同工作的基礎(chǔ),。作為全球領(lǐng)先的服務(wù)器廠商,,浪潮信息在高速互連領(lǐng)域定義了業(yè)界第一個符合OAM(開放加速模塊)規(guī)范的8卡互連硬件系統(tǒng),解決了高速信號的速率提升和信號失真問題,,實現(xiàn)開放加速規(guī)范下芯片互連的最高速率,,助力著人工智能產(chǎn)業(yè)的持續(xù)突破。 一場對性能的極限“壓榨” 在人工智能行業(yè),,算力的巨大需求和供給緊張已然是擺上臺面的事實,。為什么業(yè)內(nèi)廠商想要不斷地改進(jìn)傳統(tǒng)的硬件架構(gòu)去釋放算力,哪怕只是一點細(xì)微的聲噪優(yōu)化,,都不遺余力地花上四五年的時間去研究,、探索和創(chuàng)新。 細(xì)究來說,算力的供應(yīng)大抵可以歸結(jié)為兩條路徑,,一是“增量拓展”,,比如接入更多的服務(wù)器、建更多的數(shù)據(jù)中心,,通過“堆量”的方式來提供更多的算力,。二是“存量優(yōu)化”,對原有架構(gòu),、原有機器進(jìn)行優(yōu)化升級,,通過“提質(zhì)”的方式來把性能和效率提升起來。 其中,,在這兩條路徑之下,,“存量優(yōu)化”又是必然的一條。無關(guān)乎未來算力是否緊張或?qū)捲?,如何對現(xiàn)有的機器和架構(gòu)進(jìn)行升級優(yōu)化,,是行業(yè)發(fā)展的一個重要階段,只是時間早晚的問題,。 值得一提的是,,現(xiàn)階段,服務(wù)器行業(yè)已經(jīng)有著充分的理由去推進(jìn)“存量優(yōu)化”這一路徑,。 一方面,,算力領(lǐng)域正在面臨著高端芯片緊張的問題,“增量拓展”被限制,,那么業(yè)內(nèi)廠商就不得不考慮“存量優(yōu)化”的事情,。 另一方面,源于服務(wù)器的特殊性,,在服務(wù)器概念上的簡單的“堆量”只能堆出各種形態(tài)和規(guī)格的服務(wù)器,,但對數(shù)據(jù)中心計算能力的提升并沒有什么實質(zhì)性的幫助。 對此,,在2014年,,浪潮信息提出了“融合架構(gòu)”的技術(shù)理念,旨在創(chuàng)造一種新的體系架構(gòu),,將硬件設(shè)備中的同類資源整合成一個資源池,,即便是不同的設(shè)備也能夠任意地整合,,再通過軟件動態(tài)感知業(yè)務(wù)的資源需求,,從而利用硬件重組的能力來滿足各類應(yīng)用的性能需求。 這種“融合架構(gòu)”看似是“增量拓展”,,但核心則是“存量優(yōu)化”,。直到融合架構(gòu)3.0的發(fā)布,就可以清晰地看到,,這一技術(shù)理念打破了現(xiàn)有服務(wù)器的邏輯架構(gòu)和應(yīng)用模式,,實現(xiàn)了整機柜級別的計算、內(nèi)存,、存儲與互聯(lián)等各種IT資源的池化,,形成了以系統(tǒng)設(shè)計為中心的新架構(gòu)模式,對構(gòu)建高速高性能的互聯(lián)網(wǎng)絡(luò)起到了重要作用,。 簡單來說,,基于“池化”的概念,融合架構(gòu)3.0將服務(wù)器內(nèi)的計算資源,、存儲資源,、內(nèi)存資源、異構(gòu)加速資源等核心IT資源重新細(xì)化,,并做了“重組”,,從而能使其發(fā)揮出更高的性能和應(yīng)用價值。 這相當(dāng)于對現(xiàn)有的服務(wù)器性能做了一次極限地“壓榨”,。眾所周知,,傳統(tǒng)服務(wù)器的性能利用率是無法達(dá)到100%,兩臺服務(wù)器相連得到大多是1+1<2結(jié)果,,而基于融合架構(gòu)3.0的支持,,就有可能實現(xiàn)1+1>2的情況。 當(dāng)然,,這只是一個便于理解的理想化公式,現(xiàn)實大抵是達(dá)不到這個效果的,。但是,,其中的進(jìn)步也是看得見的,特別是隨著服務(wù)器的增加,,當(dāng)我們再來估算1+1+1+...+N的效果時,在融合架構(gòu)3.0下的服務(wù)器便能發(fā)揮出遠(yuǎn)超傳統(tǒng)架構(gòu)的性能和價值,。 這是融合架構(gòu)3.0的價值展望,,同時也是“存量優(yōu)化”這一路徑在服務(wù)器行業(yè)的價值呈現(xiàn),。正如上文提及的“牛鞭效應(yīng)”,當(dāng)?shù)讓蛹?xì)微的創(chuàng)新不斷被放大到一個硬件,、一個計算集群,、一個產(chǎn)業(yè)生態(tài),那么其發(fā)揮出來的作用將遠(yuǎn)超過往,。 在算力之外 當(dāng)前,,在服務(wù)器行業(yè),就能看到類似的信號,。 繼續(xù)以融合架構(gòu)3.0為例,,其打破了以往“以CPU為中心”的設(shè)計理念,從整體出發(fā),,以系統(tǒng)為中心,,通過硬件解耦將異構(gòu)計算、內(nèi)存,、存儲等資源轉(zhuǎn)變?yōu)榭瑟毩U(kuò)展的資源池,。 在這個過程中,不僅實現(xiàn)了亞微秒級遠(yuǎn)端內(nèi)存訪問,,并且還構(gòu)建出了一種邏輯上可遠(yuǎn)端共享的內(nèi)存資源池,,讓多臺主機訪問同一個內(nèi)存池,從而大大提高了數(shù)據(jù)交換的效率,,讓Spark,、Hadoop和機器學(xué)習(xí)等使用分布式數(shù)據(jù)框架的應(yīng)用,能夠更順暢地實現(xiàn)框架內(nèi)各節(jié)點間的數(shù)據(jù)交換與協(xié)作,。 也就是說,融合架構(gòu)3.0解決的不僅僅是服務(wù)器性能,、算力釋放等問題,,實際上還繼續(xù)向上層拓展,解決了系統(tǒng)應(yīng)用的問題——服務(wù)器的架構(gòu)創(chuàng)新在算力之外,,帶來了全新的價值呈現(xiàn),。 類似的,放眼全球市場,,微軟與英偉達(dá)合作推出的虛擬機Azure ND H100 v5 VM系列,,正基于強大的硬件能力支持結(jié)合Quantum-2InfiniBand網(wǎng)絡(luò)互連,從而幫助企業(yè)更好,、更高效地處理生成式AI任務(wù),。 現(xiàn)階段,大多數(shù)硬件升級并非單線的,,而是考慮到上層的應(yīng)用需求,,如大模型訓(xùn)練、生成式AI任務(wù)等,,結(jié)合軟件系統(tǒng),、網(wǎng)絡(luò)服務(wù)等進(jìn)行融合創(chuàng)新,從而為應(yīng)用場景服務(wù),。 縱觀當(dāng)前人工智能產(chǎn)業(yè)在算力層面的困頓處境,,以算力牽動整個人工智能產(chǎn)業(yè)的發(fā)展是必然的趨勢。而業(yè)內(nèi)廠商在解決算力供給問題的過程,,也將同步帶動其他模塊的升級,。換句話說,解決算力問題就不能局限在高端芯片領(lǐng)域,,更要從其他的路徑尋求多元化的發(fā)展,。 在這個階段,以英偉達(dá)為主導(dǎo)的高端芯片領(lǐng)域和以浪潮信息為代表的服務(wù)器硬件升級,,都將站在市場的聚光燈下,。今天的市場,需要更多元,、更勇敢,、更執(zhí)著的探索者、創(chuàng)新者,。 |
|