近年來,AI技術的崛起,,加速推動數(shù)據(jù)中心等基礎設施全面走向重塑,。 然而,,與AI服務器、AI芯片等炙手可熱相比,,BMC(Baseboard Management Controller,,即基板管理控制器)固件似乎并非聚光燈下的主角,卻又在基礎設施演進中發(fā)揮著不可替代的作用,。尤其是AI應用井噴,、AI集群規(guī)模愈發(fā)龐大、數(shù)據(jù)中心各類設備數(shù)量持續(xù)攀升的背景下,,服務器的BMC固件堪稱解鎖大規(guī)模多元算力基礎設施運維管理的“金鑰匙”,。 正所謂見微知著、睹始知終,,作為大規(guī)模算力基礎設施的運維管理的關鍵,,BMC固件自身在AI時代也在發(fā)生巨大變化。以OpenBMC為代表的開放固件,,全面驅動著BMC固件技術走向開放與協(xié)作,,從產業(yè)生態(tài)、產品技術和解決方案等方面突破傳統(tǒng)技術的瓶頸,,探索出基礎設施運維管理的共贏之路,。 近日,《BMC開放固件產業(yè)報告》(以下簡稱:《報告》)出爐,,不僅總結開放固件產業(yè)十年發(fā)展狀況,,更展望BMC管理技術未來的演進趨勢和方向,標志著開放固件產業(yè)以積跬步至千里,、積小流成江海的態(tài)勢,,全面開啟產業(yè)快速發(fā)展的新篇章。 傳統(tǒng)技術路線瓶頸凸顯在算力基礎設施向多元化演進,,算力架構全面轉向以加速器為中心的趨勢下,,傳統(tǒng)BMC固件的技術路線正遇到巨大的瓶頸。 究其原因,,人工智能,、大數(shù)據(jù)、云計算等多樣性業(yè)務應用的驅動,,使得算力基礎設施發(fā)生根本性變化,基礎設施的監(jiān)控管理需要在架構兼容性,、平臺適應性及業(yè)務場景靈活支持等方面適配全新的需求,。AIGC的爆發(fā),給數(shù)據(jù)中心等基礎設施帶來一系列全新的挑戰(zhàn),,也是BMC固件加速變革的重要時間點,。 面對這些變化,,傳統(tǒng)BMC固件技術逐漸“捉襟見肘”。 其一,、無法滿足多處理器平臺架構的兼容性需求,,傳統(tǒng)BMC固件采用耦合設計,架構封閉且可擴展性差,,難以適配多元算力芯片,、用戶需求的多樣性和業(yè)務場景的快速變化; 其二,、固件開發(fā)迭代與算力快速發(fā)展嚴重不匹配,,傳統(tǒng)IBV Codebase長達半年乃至一年的固件迭代周期,與AI時代多元異構算力芯片的快速迭代周期脫節(jié),,加上傳統(tǒng)固件處理問題效率低下,,嚴重制約了算力基礎設施的快速演進。 其三,、封閉生態(tài)與快速變化的創(chuàng)新需求矛盾突出,,傳統(tǒng)BMC采取閉源模式與嚴格的許可協(xié)議,限制用戶對于固件的分發(fā),、修改與定制化開發(fā),,難以滿足數(shù)據(jù)中心對基礎設施運維管理的標準化、智能化和精細化等需求,。 傳統(tǒng)IBV還是以封閉架構為主,,代碼轉發(fā)受制于商業(yè)考量,需要付費授權等,,從最重要的客戶側來看,,國內外一些大型互聯(lián)網(wǎng)、CSP廠商均在加速從傳統(tǒng)方案向開放性方案遷移,。 事實上,,與數(shù)據(jù)中心硬件開放的大趨勢一樣,BMC固件在傳統(tǒng)技術瓶頸凸顯之際,,也全面走向開放,。以OpenBMC為代表的開源項目,通過十年時間的耕耘,,為開放固件產業(yè)的發(fā)展夯實了牢固的生態(tài),、技術基礎。 OpenBMC十年,,開放固件產業(yè)成型開放與協(xié)作是BMC固件領域近年來最大的呼聲,。 如今,開放固件已然形成產業(yè)良好發(fā)展的態(tài)勢,,哪怕是傳統(tǒng)BMC技術方案商,,也在積極擁抱開源項目和推出開放固件場景,。這一切源于2014年OpenBMC開源項目的成立,以及數(shù)據(jù)中心用戶,、系統(tǒng)廠商,、芯片廠商等產業(yè)上下游伙伴之后的持續(xù)推動。 《報告》就指出,,OpenBMC相較傳統(tǒng)BMC固件,,在技術架構、開發(fā)模式上具有顯著優(yōu)勢,,通過高度可擴展的軟件框架,、歸一化的接口,實現(xiàn)多元算力的兼容適配,,并提升平臺的穩(wěn)定性,,為產業(yè)聯(lián)合創(chuàng)新提供統(tǒng)一的平臺。2024年可謂是開放固件產業(yè)化落地的元年,。上至用戶側,,下至芯片廠商,均在積極擁抱基于OpenBMC的開放固件方案,。 OpenBMC之所以能成功引領開放固件產業(yè)的快速發(fā)展,,首先離不開過去十年產業(yè)界上下游伙伴的廣泛參與,并形成良性的產業(yè)生態(tài),。從2014年OpenBMC項目正式成立,,到后續(xù)國內外互聯(lián)網(wǎng)公司、CSP廠商陸續(xù)加入,,再到2018年Linux基金會正式接納,,OpenBMC項目用十年時間建成完善的產業(yè)生態(tài)和活躍的技術社區(qū)。 目前,,OpenBMC社區(qū)用戶涵蓋最終用戶,、處理器廠商、系統(tǒng)廠商,、IBV等43家企業(yè),;2018年至2024年9月,OpenBMC代碼貢獻量每年超過25萬行,,社區(qū)持續(xù)保持高度活躍狀態(tài),,在CSP客戶的大規(guī)模數(shù)據(jù)中心,部署節(jié)點均已超過上萬臺,,像IBM,、Intel、AMD、浪潮信息等上下游企業(yè)均積極參與,,其中浪潮信息已連續(xù)5年在社區(qū)代碼貢獻榜中穩(wěn)居中國第一。 其次,,OpenBMC在技術層面經(jīng)過十年的打磨,,穩(wěn)步構建起層次分明、易于擴展,、穩(wěn)定性強的開放軟件框架,,并且與Linux開源生態(tài)深度整合,廣泛兼容多種處理器平臺與算力芯片,,支持快速,、靈活的模塊化開發(fā)與適配,采用C++面向對象編程也極大地豐富了函數(shù)庫資源和提升開發(fā)效率,。 更為難得的是,,OpenBMC遵循Apache 2.0開源許可,徹底打破過去傳統(tǒng)BMC封閉開發(fā)的模式,,鼓勵代碼自由使用,、修改和分發(fā),大幅提升開發(fā)效率和技術創(chuàng)新活力,。 OpenBMC軟件架構 第三,,OpenBMC真正成為技術創(chuàng)新的催化劑,成功將用戶快速變化的場景需求與技術創(chuàng)新進行對接,,讓快速響應,、高效創(chuàng)新切實可行。 相比于一些傳統(tǒng)IBV廠商的產品,,OpenBMC在BMC如何與AI融合,、精準預測等均走在產業(yè)探索的最前沿,功能創(chuàng)新和性能等方面更具優(yōu)勢,。 例如,,隨著大模型進入到各行各業(yè),萬卡規(guī)模的AI集群也越來越多,,但是AI集群隨著規(guī)模的持續(xù)增加,,遇到突出的挑戰(zhàn)就是內存故障而引發(fā)的大量訓練任務中斷,嚴重影響到大模型的訓練效果和AI應用創(chuàng)新,。這是當前乃至今后很多用戶均會遇到的挑戰(zhàn),,但如果依靠傳統(tǒng)BMC技術的迭代方式和開發(fā)速度,顯然很難滿足市場中的新需求,。 對此,,作為OpenBMC項目的深度參與者,浪潮信息快速創(chuàng)新,成功研發(fā)內存故障智能預警修復技術,,基于對上萬臺服務器故障數(shù)據(jù)的建模分析和AI模型算法的訓練,,從內存故障提前預警、內存錯誤實時隔離,、內存故障智能修復等技術層級創(chuàng)新,,實現(xiàn)在架構設計、錯誤類型,、防護等級等方面全面增強,,讓內存故障導致的服務器宕機風險降低80%+,保障客戶業(yè)務高效穩(wěn)定運行,。 開放固件產業(yè)壯大,,OpenBMC任重道遠問渠哪得清如許,唯有源頭活水來,。 如今,,憑借開源共享的理念和前沿的技術架構,OpenBMC實現(xiàn)對服務器管理市場格局的重塑,,打破了傳統(tǒng)BMC市場的高門檻和專有技術壁壘,,大幅提升市場創(chuàng)新活力,贏得產業(yè)鏈上下游的廣泛認可和積極參與,,成為開放固件產業(yè)的創(chuàng)新源頭和活水,,推動開放固件產業(yè)的建立和穩(wěn)步發(fā)展。 不過,,要想讓開放固件產業(yè)持續(xù)壯大,,OpenBMC依然任重道遠,需要在標準化,、產業(yè)拓展和生態(tài)協(xié)同發(fā)展等方面持續(xù)下功夫,,逐步形成可持續(xù)的發(fā)展模式,真正滿足更加廣泛的市場需求,。 首先是如何加速標準化的進程,,逐步破解兼容性與互操作性難題。越來越多產業(yè)伙伴,、用戶加入其中,,OpenBMC對于標準化的進一步深化,無疑將有助于降低系統(tǒng)整合的復雜性和提高不同設備之間的互操作性,,提升數(shù)據(jù)中心運維效率與穩(wěn)定性,。 例如,近年來《服務器基板管理控制器(BMC)技術要求》與《服務器基板管理控制器(BMC)測試方法》等一系列關鍵標準的頒布,,對于BMC固件的規(guī)范化發(fā)展奠定堅實基礎,。后續(xù),隨著更多標準化舉措的實施與完善,BMC開放固件的標準化水平也有望得到持續(xù)提升,。 第二,,OpenBMC用十年時間征服了互聯(lián)網(wǎng)公司、CSP廠商,,接下來最重要的工作就是如何實現(xiàn)行業(yè),、應用場景的延伸與擴展,逐漸延伸到金融,、運營商等行業(yè)之中。眾所周知,,金融,、運營商等傳統(tǒng)行業(yè)由于自身業(yè)務的需求不同,對于BMC固件的穩(wěn)定性,、可靠性要求更高,,對于像OpenBMC等開源方案也會更加謹慎。但隨著開放固件在技術上的成熟,,加上有互聯(lián)網(wǎng)的標桿效應,,像金融等傳統(tǒng)行業(yè)也會積極擁抱OpenBMC。 第三,,OpenBMC社區(qū)的繁榮發(fā)展,,參與者越來越多,不可避免地會出現(xiàn)版本分化的情況出現(xiàn),,影響系統(tǒng)的統(tǒng)一性和兼容性,,需要OpenBMC項目在保持開放性的同時,也需要確保項目的統(tǒng)一性和方向性,。 社區(qū)主線不會無限吸納各種Feature,,且每個代碼模塊都有資深專家來維護,以確保代碼的通用性,。此外,,從長期來看,OpenBMC會類似Llama那樣,,形成一個開放的方案和多個分支,,在開放性、統(tǒng)一性等方面取得一定的平衡,。 |
|
來自: 大數(shù)據(jù)在線 > 《待分類》