久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

老黃祭出新核彈B200!30倍H100單機(jī)可訓(xùn)15個(gè)GPT-4模型,,AI迎新摩爾時(shí)代

 齊一攝現(xiàn)美 2024-03-19 發(fā)布于湖南

Image


  新智元報(bào)道  

編輯:編輯部
【新智元導(dǎo)讀】就在剛剛,,老黃又來打破摩爾定律了:英偉達(dá)新核彈B200,一塊能頂5個(gè)H100,,30倍推理加速,,能訓(xùn)萬億參數(shù)大模型!同時(shí)推出的AI推理微服務(wù)NIM,,號(hào)稱讓全世界用上AI,。

就在剛剛結(jié)束的GTC人工智能大會(huì)上,英偉達(dá)的新一代性能巨獸Backwell誕生了,!

Image

Blackwell B200 GPU,,是如今世界上最強(qiáng)大的AI芯片,旨在「普惠萬億參數(shù)的AI」,。

Image

本來,,H100已經(jīng)使英偉達(dá)成為價(jià)值數(shù)萬億美元的公司,趕超了谷歌和亞馬遜,,但現(xiàn)在,憑著Blackwell B200和GB200,,英偉達(dá)的領(lǐng)先優(yōu)勢(shì)還要繼續(xù)領(lǐng)先,。

老黃表示——「H100很好,但我們需要更大的GPU」,!

新的B200 GPU,,從2080億個(gè)晶體管中能提供高達(dá)20 petaflops的FP4性能,。(H100僅為4 petaflops)

而將兩個(gè)B200與單個(gè)Grace CPU相結(jié)合的GB200,則可以為L(zhǎng)LM推理工作負(fù)載提供30倍的性能,,同時(shí)大大提高效率,。

比起H100,GB200的成本和能耗降低了25倍,!

Image

Blackwell芯片和Hopper H100芯片的尺寸比較

這種額外的處理能力,,就能讓AI公司訓(xùn)練更大、更復(fù)雜的模型,,甚至可以部署一個(gè)27萬億參數(shù)的模型,。

更大的參數(shù),更多的數(shù)據(jù),,未來的AI模型,,無疑會(huì)解鎖更多新功能,涌現(xiàn)出更多新的能力,。

現(xiàn)在,,老黃拿在手里的,或許是100億美元,。

Image

新一代性能巨獸,,深夜重磅登場(chǎng)

憑借H100成為全球市值第三大公司的英偉達(dá),今天再次推出了性能野獸——Blackwell B200 GPU和GB200「超級(jí)芯片」,。
Image
它以著名數(shù)學(xué)家David Blackwell(1919-2010)命名,。他一生中對(duì)博弈論、概率論做出了重要的貢獻(xiàn),。
Image
老黃表示,,「30年來,我們一直在追求加速計(jì)算,,目標(biāo)是實(shí)現(xiàn)深度學(xué)習(xí)和AI等變革性突破,。生成式AI已然成為我們這個(gè)時(shí)代的標(biāo)志性技術(shù),而Blackwell將是推動(dòng)這場(chǎng)新工業(yè)革命的引擎」,。
「我們認(rèn)為這是個(gè)完美的博弈概率」,。
全新B200 GPU擁有2080億個(gè)晶體管,采用臺(tái)積電4NP工藝節(jié)點(diǎn),,提供高達(dá)20 petaflops FP4的算力,。
與H100相比,B200的晶體管數(shù)量是其(800億)2倍多,。而單個(gè)H100最多提供4 petaflops算力,,直接實(shí)現(xiàn)了5倍性能提升。
Image
而GB200是將2個(gè)Blackwell GPU和1個(gè)Grace CPU結(jié)合在一起,,能夠?yàn)長(zhǎng)LM推理工作負(fù)載提供30倍性能,,同時(shí)還可以大大提高效率,。
Image
值得一提的是,與H100相比,,它的成本和能耗「最多可降低25倍」,。
過去,訓(xùn)練一個(gè)1.8萬億參數(shù)的模型,,需要8000個(gè)Hopper GPU和15MW的電力,。
Image
如今,2000個(gè)Blackwell GPU就能完成這項(xiàng)工作,,耗電量?jī)H為4MW,。
在GPT-3(1750億參數(shù))大模型基準(zhǔn)測(cè)試中,GB200的性能是H100的7倍,,訓(xùn)練速度是H100的4倍,。

Image

GB200由2個(gè)GPU、1個(gè)CPU,、一個(gè)主板組成
全新芯片其中一個(gè)關(guān)鍵改進(jìn)是,,采用了第二代Transformer引擎。
對(duì)每個(gè)神經(jīng)元使用4位(20 petaflops FP4)而不是8位,,直接將算力,、帶寬和模型參數(shù)規(guī)模提高了一倍。
與此同時(shí),,英偉達(dá)還推出了第五代NVLink網(wǎng)絡(luò)技術(shù),。
最新的NVLink迭代增強(qiáng)了數(shù)萬億參數(shù)AI模型的性能,提供了突破性的每GPU雙向吞吐量,,促進(jìn)了無縫高速通信,。
Image
這也就是第二個(gè)關(guān)鍵區(qū)別,只有當(dāng)你連接大量這些GPU時(shí)才會(huì)出現(xiàn):新一代NVLink交換機(jī)可以讓576個(gè)GPU相互通信,,雙向帶寬高達(dá)1.8TB/秒,。
這就要求英偉達(dá)打造一個(gè)全新的網(wǎng)絡(luò)交換芯片,其中包含500億個(gè)晶體管和一些自己的板載計(jì)算:擁有3.6 teraflops FP8處理能力,。
在此之前,,由16個(gè)GPU組成的集群,有60%的時(shí)間用于相互通信,,只有40%的時(shí)間用于實(shí)際計(jì)算,。

Image

Blackwell GPU增加了對(duì)FP4和FP6的支持
另外,Blackwell還配備了RAS引擎,。
為了確??煽啃浴⒖捎眯院涂删S護(hù)性,,Blackwell GPU集成了專用引擎和基于AI的預(yù)防性維護(hù)功能,,以最大限度地延長(zhǎng)系統(tǒng)正常運(yùn)行時(shí)間并最大限度地降低運(yùn)營(yíng)成本。
老黃表示,,「過去8年,,計(jì)算規(guī)模擴(kuò)展已經(jīng)增加了1000倍」。
Image

網(wǎng)友:新的摩爾定律誕生了,!

網(wǎng)友們紛紛驚嘆,,Blackwell再一次改變了摩爾定律。
英偉達(dá)高級(jí)科學(xué)家Jim Fan表示:Blackwell,,城里的新野獸,。
- DGX Grace-Blackwell GB200:?jiǎn)螜C(jī)架計(jì)算能力超過1 Exaflop。
- 從這個(gè)角度來看:老黃交付給OpenAI的第一臺(tái)DGX是0.17 Petaflops,。
- GPT-4-1.8T參數(shù)在2000張Blackwell上可在90天內(nèi)完成訓(xùn)練,。
新摩爾定律誕生了。
Image
賈揚(yáng)清回憶道,,「我記得在Meta,,當(dāng)我們?cè)谝恍r(shí)內(nèi)(2017年)訓(xùn)練ImageNet時(shí),總計(jì)算量約為1exaflop,。這意味著有了新的DGX,,理論上你可以在一秒鐘內(nèi)訓(xùn)練ImageNet」。
Image
還有網(wǎng)友表示,,「這簡(jiǎn)直就是野獸,,比H100強(qiáng)太多」。
Image
另有網(wǎng)友戲稱,,「老黃確認(rèn)GPT-4是1.8萬億參數(shù)」,。
Image
所以,GB200的成本是多少呢,?英偉達(dá)目前并沒有公布,。
此前據(jù)分析師估計(jì),英偉達(dá)基于Hopper的H100芯片,,每顆的成本在25,000美元到40,000美元之間,,整個(gè)系統(tǒng)的成本高達(dá)200,000美元。
而GB200的成本,,只可能更高,。

新超算可訓(xùn)萬億參數(shù)大模型

當(dāng)然,有了Blackwell超級(jí)芯片,,當(dāng)然還會(huì)有Blackwell組成的DGX超算,。
這樣,公司就會(huì)大量購(gòu)入這些GPU,并將它們封裝在更大的設(shè)計(jì)中,。
GB200 NVL72是將36個(gè)Grace CPU和72個(gè)Blackwell GPU集成到一個(gè)液冷機(jī)柜中,,可實(shí)現(xiàn)總計(jì)720 petaflops的AI訓(xùn)練性能,或是1,440 petaflops(1.4 exaflops)的推理性能,。
它內(nèi)部共有5000條獨(dú)立電纜,,長(zhǎng)度近兩英里。
Image
它的背面效果如下圖所示,。
Image
機(jī)柜中的每個(gè)機(jī)架包含兩個(gè)GB200芯片,,或兩個(gè)NVLink交換機(jī)。一共有18個(gè)GB200芯片托盤,,9個(gè)NVLink交換機(jī)托盤有,。
老黃現(xiàn)場(chǎng)表示,「一個(gè)GB200 NVL72機(jī)柜可以訓(xùn)練27萬億參數(shù)的模型」,。
此前傳言稱,,GPT-4的參數(shù)規(guī)模達(dá)1.8萬億,相當(dāng)于能訓(xùn)練近15個(gè)這樣的模型,。
Image
與H100相比,,對(duì)于大模型推理工作負(fù)載,GB200超級(jí)芯片提供高達(dá)30倍的性能提升,。
Image
那么,,由8個(gè)系統(tǒng)組合在一起的就是DGX GB200。
總共有288個(gè)Grace CPU,、576個(gè)Blackwell GPU,、240 TB內(nèi)存和11.5 exaflop FP4計(jì)算。
Image
這一系統(tǒng)可以擴(kuò)展到數(shù)萬個(gè)GB200超級(jí)芯片,,通過Quantum-X800 InfiniBand(最多144個(gè)連接)或Spectrum-X800ethernet(最多64個(gè)連接)與800Gbps網(wǎng)絡(luò)連接在一起,。
Image
配備DGX GB200系統(tǒng)的全新DGX SuperPod采用統(tǒng)一的計(jì)算架構(gòu)。
除了第五代NVIDIA NVLink,,該架構(gòu)還包括NVIDIA Bluefield-3 DPU,,并將支持Quantum-X800 InfiniBand網(wǎng)絡(luò)。
這種架構(gòu)可以為平臺(tái)中的每個(gè)GPU提供高達(dá)每秒1,800 GB的帶寬,。
除此之外,,英偉達(dá)還發(fā)布了統(tǒng)一的超算平臺(tái)DGX B200,用于AI模型訓(xùn)練,、微調(diào)和推理,。
它包括8個(gè)Blackwell GPU和2個(gè)第五代Intel Xeon處理器,包含F(xiàn)P4精度功能,,提供高達(dá)144 petaflops的AI性能,、1.4TB的GPU內(nèi)存和64TB/s的內(nèi)存帶寬,。
這使得萬億參數(shù)模型的實(shí)時(shí)推理速度,比上一代產(chǎn)品提高了15倍,。
用戶還可以使用DGX B200系統(tǒng)構(gòu)建DGX SuperPOD,,創(chuàng)建人工智能卓越中心,為運(yùn)行多種不同工作的大型開發(fā)團(tuán)隊(duì)提供動(dòng)力,。
目前,,亞馬遜、谷歌,、微軟已經(jīng)成為最新芯片超算的首批用戶。
亞馬遜網(wǎng)絡(luò)服務(wù),,將建立一個(gè)擁有20,000 GB200芯片的服務(wù)器集群,。
Image

「不只是一個(gè)芯片,更是一個(gè)平臺(tái)」


自從ChatGPT于2022年底掀起AI熱潮以來,,英偉達(dá)的股價(jià)已經(jīng)上漲了五倍之多,,總銷售額增長(zhǎng)了兩倍多。
因?yàn)橛ミ_(dá)的GPU對(duì)于訓(xùn)練和部署大型AI模型至關(guān)重要,,微軟,、Meta等大公司都已紛紛豪擲數(shù)十億購(gòu)買。
如今各大公司和軟件制造商還在爭(zhēng)先恐后地?fù)屬?gòu)Hopper H100等芯片呢,,GB200就已經(jīng)出了,。
老黃表示,Blackwell不是一個(gè)芯片,,而是一個(gè)平臺(tái)的名稱,。
從此,英偉達(dá)不再是芯片供應(yīng)商,,而更像是微軟,、蘋果這樣的平臺(tái)提供商,可以讓其他公司在平臺(tái)上構(gòu)建軟件,。
英偉達(dá)副總裁Manuvir Das表示,,GPU是可銷售的商業(yè)產(chǎn)品,而軟件,,是為了幫人們用不同的方式使用GPU,。
雖然英偉達(dá)現(xiàn)在仍然售賣GPU,但真正不同的是,,英偉達(dá)現(xiàn)在有了商業(yè)軟件業(yè)務(wù),。
Image
新軟件NIM,代表著英偉達(dá)的推理微服務(wù),。
NIM使得在英偉達(dá)的任何GPU上運(yùn)行程序都變得更容易,,即使是可能更適合部署但不適合構(gòu)建AI的舊GPU,。
也就是說,假如一名開發(fā)者有一個(gè)有趣的模型,,希望向人們推廣,,就可以把它放到NIM中。英偉達(dá)會(huì)確保它可以在所有的GPU上運(yùn)行,,這樣模型的受眾就大大擴(kuò)展了,。
NIM使得部署AI變得更容易,這就更加增加了客戶使用英偉達(dá)芯片的粘性,。
并且,,與新AI模型的初始訓(xùn)練相比,NIM的推理需要更少的算力,。
這樣,,想要運(yùn)行自己AI模型的公司,就能運(yùn)行自己的AI模型,,而不是從OpenAI等公司購(gòu)買對(duì)AI結(jié)果的訪問權(quán),。
Image
需要購(gòu)買基于英偉達(dá)服務(wù)器的客戶,需要注冊(cè)Nvidia企業(yè)版,,每個(gè)GPU每年需要花費(fèi)4,500美元,。
英偉達(dá)將與微軟或Hugging Face等人工智能公司合作,確保他們的人工智能模型經(jīng)過調(diào)整,,可以在所有兼容的英偉達(dá)芯片上運(yùn)行,。
然后,使用NIM,,開發(fā)者可以在自己的服務(wù)器或基于云的英偉達(dá)服務(wù)器上,,高效運(yùn)行模型,而無需冗長(zhǎng)的配置過程,。
Das介紹說,,在自己調(diào)用OpenAI的代碼中,他只替換了一行代碼,,就指向了NIM,。
另外,NIM軟件還將幫助AI在配備GPU的筆記本電腦上運(yùn)行,,而不是在云端的服務(wù)器上,。
Image
NIM支持跨多個(gè)領(lǐng)域的AI用例,包括LLMs,、視覺語言模型(VLM)以及用于語音,、圖像、視頻,、3D,、藥物發(fā)現(xiàn),、醫(yī)學(xué)成像等的模型。
AI API就是未來的軟件,。在未來,,所有LLM都可以從云端獲取,從云上下載,,運(yùn)行它的工作站,。

終極生成式AI模型

而現(xiàn)在,整個(gè)行業(yè)都已經(jīng)為Blackwell準(zhǔn)備好了,。
2012年,,將一只小貓的圖片輸入,AlexNet識(shí)別后輸出「cat」,,讓世界所有人為之震驚,,并高呼這改變了一切。
Image
而現(xiàn)在從三個(gè)字「cat」輸出10 million 像素成為了可能,。僅用了10年時(shí)間,我們就可以識(shí)別文本,、圖像,、視頻。
萬物都皆可數(shù)字化,。
Image
網(wǎng)友表示,,老黃向我們展示了GenAI的終極游戲:多模態(tài)輸入——多模態(tài)輸出。
「這是我們總有一天都會(huì)使用的最終模型,。它可以獲取任何模態(tài)并生成任何模態(tài),。同時(shí),它還能在沒有每個(gè)部件的情況下工作」,。
Image
數(shù)字化的目的是讓所有的目標(biāo)都能成為機(jī)器學(xué)習(xí)的目標(biāo),,從而讓它們都能被AI生成。
比如,,數(shù)字孿生地球,,可以很好地幫助我們了解全球氣象氣候的變化。
Image
將基因,、蛋白質(zhì),、氨基酸數(shù)字化,可以讓人類去理解生命的力量,。
Image
在大會(huì)接近尾聲時(shí),,活動(dòng)迎來了一個(gè)小高潮:WALL-E機(jī)器人也登臺(tái)表演了。
Image
而生成式AI的未來應(yīng)用不僅于此,。
現(xiàn)在,,有了世界最強(qiáng)的處理器Blackwell,,新一輪技術(shù)革命即將開啟。
Image
參考資料:
https:///Y2F8yisiS6E?list=TLGGFIbdOwQMZx4xODAzMjAyNA


Image

Image

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,,所有內(nèi)容均由用戶發(fā)布,,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購(gòu)買等信息,,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,,請(qǐng)點(diǎn)擊一鍵舉報(bào),。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多