從古代的算盤到如今的超級計算機,,人類計算能力的承載形式在不斷演化。 隨著以ChatGPT為代表的生成式AI席卷全球,,大模型已經(jīng)成為推動技術創(chuàng)新的關鍵驅(qū)動力,。無論是自然語言處理中的GPT系列、BERT等預訓練模型,,還是計算機視覺領域的ViT和SWIN Transformer,,這些模型的參數(shù)量往往以數(shù)十億甚至數(shù)萬億計,對計算資源的需求呈指數(shù)級增長,。 面對如此巨大的算力需求,,企業(yè)如何在平衡算力與能耗開支的前提下,高效地利用和管理算力資源,,是實現(xiàn)降本增效的重要命題,。這其中,對算力基礎設施和軟件平臺的精細化運營管理成為破題的關鍵,。
全球AI持續(xù)井噴 大模型與智算共振 超大基礎模型的訓練需要多項關鍵技術作為支撐,,其中算力、算法和數(shù)據(jù)被喻為驅(qū)動人工智能向前的“三駕馬車”,。 自生成式人工智能服務(AIGC)和GPT大模型訓練爆火后,,圍繞算力、算法和數(shù)據(jù)相關的討論此起彼伏,,國產(chǎn)大模型應用更是呈現(xiàn)出“千模大戰(zhàn)”的狀態(tài),。 眾所周知,大模型是一項“燒錢”的業(yè)務,,而“燒錢”的最主要原因由于大模型的計算復雜度很高,,每次訓練都需要使用大量的算力來進行計算和推理。 根據(jù)阿伯丁大學,、MIT等機構的研究者對算力需求的研究發(fā)現(xiàn),,在2010年之前訓練所需的算力增長符合摩爾定律,,大約每20個月翻一番,。自2010年初深度學習問世以來,訓練所需的算力快速增長,,大約每6個月翻一番,。 2015年末,隨著大規(guī)模機器學習模型的出現(xiàn),,訓練算力的需求提高了10到100倍,,出現(xiàn)了一種新的趨勢,。 根據(jù)OpenAI公開數(shù)據(jù)推測,如果按照每秒1000萬億次的計算,,每次模型訓練需3640天的計算能力,,且全球AI訓練所用的計算量,平均每3.43個月便會翻一番,,算力需求的指數(shù)級增長曲線將更加陡峭,。 大模型對算力的需求是顯而易見的,但更關鍵的點可能在于能否把算力更高效地挖掘出來,。在不同的階段,,企業(yè)對于算力需求也不盡相同。在訓練階段,,企業(yè)對算力的追求可能是“大”,,這一方面能夠做出更大的模型,另一方面也能夠進行更快速的迭代,。 但到用戶開始接受這個效果的時候,,就要涉及到怎樣做才能更劃算的問題,也就是說在部署階段,,可能要更關注“精”的問題,,盡可能用相對少的算力實現(xiàn)最大程度的作用。 與算力需求一路高歌猛進形成鮮明對比的是,,當前在算力使用上仍面臨許多挑戰(zhàn),,存在著利用率低、混合算力協(xié)同調(diào)度難等問題,?!吨袊懔Πl(fā)展觀察報告》顯示,有些算力中心整體算力利用率不足30%,,大量的算力資源在沉睡中等待被喚醒,,算力供需矛盾凸顯。 在此背景下,,如何汲取硬件資源提供的每一滴能力,、加速模型的訓練速度成為行業(yè)首要考慮的問題。為此,,智能算力作為新型算力服務模式的重要性愈加突顯,,其不僅可以實現(xiàn)算力資源的最優(yōu)利用,還能夠靈活地適應不同業(yè)務場景的需求,,提高整體效率,。 當前,人工智能技術在多模態(tài)感知,、決策規(guī)劃,、自主控制等多個特定領域突破,,向更開放的通用場景加速融合,以創(chuàng)造能在復雜,、多元開放環(huán)境中不斷重構的超級智能算力場景,。這種演進使智能算力變得不可或缺,且不再局限于簡單的算力疊加或升級,,而是在多元重構驅(qū)動下實現(xiàn)算力的極致拓展與躍遷,。 智能算力作為新型基礎設施,已是萬千行業(yè)智能化變革的核心驅(qū)動力,,智算服務由此也將成為重要的IT基礎服務,,將重塑整個IT基礎設施領域的市場格局。根據(jù)IDC預測,,中國智算服務市場2023-2028年復合增長率達56.2%,,這反映出中國智算服務市場的巨大潛力。 智算服務市場未來增長潛力一方面在于智能算力供給提升背景下,,智算中心加碼建設,,基于其配套的智算服務也將迎來發(fā)展基礎。另一方面,,生成式AI正從單模態(tài)向多模態(tài)升級,、從訓練向推理落地、從通用向垂直行業(yè)滲透,,智算服務需求尤其是生成式AI IaaS的服務需求也將不斷高增,。 2024年出現(xiàn)一個明顯的轉(zhuǎn)折,隨著國內(nèi)互聯(lián)網(wǎng)大廠在算力基礎設方面資本支出的不斷增加,,云時代的數(shù)據(jù)中心已經(jīng)基本消化完畢,,或者無法滿足現(xiàn)有的智能算力要求,而新購買的大量智能算力設備又需要放到擁有更大規(guī)模綠色電力供應和更大規(guī)模機柜的智算中心里,,這也在很大程度上刺激了2024年以來國內(nèi)智算中心的建設熱潮,。 據(jù)IDC圈不完全統(tǒng)計,截至2024年11月20日,,中國智算中心項目已經(jīng)達到634個,,大規(guī)模集群數(shù)量也不斷增加。 2025年,,大模型將繼續(xù)向生產(chǎn)場景深度滲透,。在這一過程中,大模型尤其是垂類大模型應用的發(fā)展,,對智算中心提出了更高要求,,精細化、綠色化是智算算力高質(zhì)量發(fā)展的必然方向,,投建邏輯將進入服務為主的2.0時代,。
全棧智算新引擎軟硬協(xié)同 一站式按需服務 如果將大模型的運行環(huán)境比喻成一幢房屋,那么這幢房屋的居住品質(zhì)直接關系到大模型的運行效率,。 談到居住品質(zhì),,必然涉及到其中的裝修質(zhì)量。通常,,裝修分為三步:基裝,、硬裝、軟裝,。 “基裝”就像蓋房子打地基一樣,,是裝修的第一步,包括了房屋結(jié)構的改造,、水電改造,、墻面處理等,讓房子“骨骼”更結(jié)實,,為后續(xù)的裝修打下堅實基礎,。 “硬裝”是基裝之上的進一步施工,涉及到房屋的固定裝飾,,比如地板,、墻面磚、天花板,、櫥柜等,,決定了房屋的風格,是裝修中的中堅力量,。 “軟裝”是裝修中的點睛之筆,,包括了家具、窗簾,、床品,、裝飾品等物品,展現(xiàn)房屋的品味,。 總體來說,,基裝要牢固,硬裝要風格統(tǒng)一,,軟裝要個性鮮明,,切換到智算領域亦是如此。 在2024世界互聯(lián)網(wǎng)大會期間,,寧暢在業(yè)內(nèi)首次創(chuàng)新性地提出了“精裝算力”概念,,并引發(fā)媒體和行業(yè)的熱議解讀。所謂“精裝算力”,就是依托寧暢定制化與全棧全液能力,,以算力棧為交付形態(tài),,從用戶需求與體驗出發(fā),提供全體系軟硬協(xié)同的精細化算力服務,。 這一概念的提出,,也讓寧暢成為了“智算領域裝修公司”,通過提供從基裝,、硬裝到軟裝的一站式全棧智算服務,,滿足不同行業(yè)客戶對算力服務的需求,加速業(yè)務效率,。 從概念來看,,“定制化”和“全棧全液”可以視為寧暢的兩大“基裝”能力基石。 定制化方面,,寧暢圍繞用戶實際應用場景和算力需要,,可以為用戶定制對應各種算力需求的解決方案,方案完整覆蓋用戶交付,、部署,、應用、運維體驗和業(yè)務需求,,本身就涵蓋了硬件,、軟件平臺搭建、算法模型優(yōu)化,、應用場景定制等內(nèi)容,,最終實現(xiàn)算力資源不浪費、使用成本更節(jié)省,。 在大模型復雜的訓練過程中,,軟硬件的全盤適配至關重要,寧暢的“全棧全液”AI基礎設施解決方案便是基于這一思路打造,。寧暢將場景,、業(yè)務、中臺再到硬件資源的能力進行全面整合,,全面滿足大模型對于計算,、網(wǎng)絡、存儲等全面需求,。 作為業(yè)內(nèi)少數(shù)能夠?qū)崿F(xiàn)“全棧全液”的智算基礎設施方案,,該方案不僅涵蓋了從底層硬件到上層軟件的全方位支持,還通過全液冷技術的應用,,幫助智算中心實現(xiàn)高效與綠色并行,。 基于堅實的底座能力,寧暢為客戶提供符合需求的“硬裝”和“軟裝”智算服務。從“硬裝”層面,,算力,、存儲、網(wǎng)絡這類基礎設施要標準規(guī)范,、布局合理,、節(jié)能低碳,,做到對硬件設施的管理省時省錢,。 一直以來,硬件都是寧暢擅長并且專業(yè)的部分,,產(chǎn)品體系覆蓋云邊端全場景,,涵蓋通用、人工智能,、高密度,、存儲、整機柜等多種類型服務器,,及AI工作站等邊端產(chǎn)品,,可實現(xiàn)多種交付形態(tài)靈活組合。 為兼顧綠色低碳,,寧暢依托液冷領域的諸多首創(chuàng)性先進技術,,提供全時全域液冷方案,不論是液冷服務器,,還是液冷基礎設施產(chǎn)品應有俱有,,可以完全滿足不同業(yè)務場景的算力建設需求。 在服務器方面,,寧暢突破性實現(xiàn)標準化,、可移植、大解耦全冷板液冷服務器技術,,冷板形式覆蓋CPU,、內(nèi)存、硬盤,、GPU,、各種形態(tài)PCIe設備以及PSU等服務器內(nèi)全部散熱單元,實現(xiàn)了無風扇形態(tài)的原生全液冷服務器,。 在智算中心方面,,寧暢提供了液冷、風冷或風液混冷等多種定制化建設方案,,可以根據(jù)實際需求,,靈活選擇最適合的散熱方式,從而有效控制能耗。同時,,還確保了芯片在長時間高負載運行下的性能穩(wěn)定輸出,,為大模型的訓練和推理提供了堅實的支撐。 在“軟裝”層面,,寧暢提供從集群,、算子再到模型軟件優(yōu)化的全局服務和涵蓋算存網(wǎng)管用全體系優(yōu)化。也就是說從算力集群環(huán)境搭建,,到AI開發(fā)算力調(diào)度,,再到集群運維和算力運營,都有相對應的軟件提供支持,。 NEX AIOM和NexData可將分散的硬件整合為統(tǒng)一的算力和存儲資源池,;AI Manager人工智能平臺能夠幫助用戶實現(xiàn)AI開發(fā)的全鏈路業(yè)務覆蓋;NVIDIA AI Enterprise平臺可加速數(shù)據(jù)科學工作流,,加速生成式AI的部署和應用,,大幅度降低用戶AI開發(fā)門檻;運維方面有NCenter智能運維工具集,,實現(xiàn)全生命周期的運維管理,。 此外,針對大型企業(yè)級用戶,,SIMS算力互聯(lián)云平臺還可助力實現(xiàn)本地資源與云端資源的融合調(diào)度及統(tǒng)一管理,,協(xié)助客戶高效構建更適合自己的算力平臺,讓大模型的運行管理更加省心省力省時省錢,,從而讓客戶更關注于應用層面的落地,。 “精裝算力”概念的提出,不僅從服務模式上縮短了企業(yè)與智算之間的路徑,,還幫助企業(yè)最大限度降本增效,,實現(xiàn)了從效率到經(jīng)濟性的精益管理。 比如在液冷領域,,寧暢原生全液冷技術,,不僅液冷成本可控、運維方式與風冷無異,,數(shù)據(jù)中心運行PUE值更可低至1.09,,遠低于業(yè)內(nèi)風液混合形態(tài)冷板式服務器平均水平,致力于實現(xiàn)數(shù)據(jù)中心能效極致,、最大限度釋放冷空調(diào)電力加速算力提升,。 在“增效”方面,以某三甲醫(yī)院為例,,在引入寧暢算力棧后,,該醫(yī)院的醫(yī)學影像處理與分析的速度和精度得到顯著提升,,醫(yī)學影像處理速度相較于之前提升688%,效率提升7倍,,幫助醫(yī)生更快地識別病變區(qū)域,,提高了診斷效率。 在科研領域,,某大學在寧暢算力棧助力下,,不僅在物理模擬和氣象預報中顯著提高了運算速度,還在藥物分子模擬研究中大幅縮短了計算時間,,寧暢算力棧支持復雜的深度學習模型訓練,,加快了自然語言處理、圖像識別等領域的研究進度,,將計算時間最高節(jié)省了82%,,科研工作效率提升20%,,直接推動了科研成果的快速轉(zhuǎn)化,。 可以預見的是,隨著人工智能技術的不斷創(chuàng)新,,算力應用場景的日益豐富,,企業(yè)對高質(zhì)量算力需求將會持續(xù)激增,靠不計成本,、堆算卡,、堆規(guī)模就期望能做好算力服務的日子已經(jīng)一去不復返了。而寧暢的“精裝算力”概念不僅是對智算服務的一次大膽創(chuàng)新,,更是為企業(yè)適應未來智算時代發(fā)展的一次積極探索,。 面對未來行業(yè)發(fā)展的諸多不確定性因素,寧暢這類創(chuàng)新型的AI基礎設施服務商為大模型的持續(xù)發(fā)展提供確定性的技術支撐,,讓企業(yè)能夠從容應對時刻變化的市場行情,,不斷穿越一個又一個市場周期。 【科技云報到原創(chuàng)】 轉(zhuǎn)載請注明“科技云報到”并附本文鏈接 |
|