久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

秒殺英特爾至強(qiáng),,NVIDIA的深度學(xué)習(xí)超級(jí)計(jì)算機(jī)強(qiáng)在哪,?

 昵稱71360118 2020-09-01

硬件和算法在人工智能領(lǐng)域的作用可以說是各占一半的,而在芯片層面上,,業(yè)界幾乎觀點(diǎn)一致——GPU在人工智能深度學(xué)習(xí)算法上的重要性遠(yuǎn)高于CPU,,這也就是為何NVIDIA在人工智能領(lǐng)域的風(fēng)頭甚至蓋過了英特爾。

毫無疑問,,GPU是當(dāng)下訓(xùn)練深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)最熱門的方法,,這種方案已經(jīng)受到了谷歌、微軟,、IBM,、豐田以及百度等企業(yè)的青睞,因此GPU廠商在最近兩年逐漸成為眾企業(yè)膜拜的對(duì)象。

作為GPU領(lǐng)域的絕對(duì)主導(dǎo)者,,NVIDIA最近動(dòng)作頻頻,,今年早些時(shí)候公司專為深度神經(jīng)網(wǎng)絡(luò)推出了Tesla P100 GPU,并且發(fā)布了基于該GPU的單機(jī)箱深度學(xué)習(xí)超級(jí)計(jì)算機(jī)——NVIDIA DGX-1,。

如今這款深度學(xué)習(xí)超級(jí)計(jì)算機(jī)已經(jīng)問世,,NVIDIA CEO黃仁勛日前將DGX-1交付給了馬斯克創(chuàng)辦的人工智能項(xiàng)目OpenAI,OpenAI會(huì)用DGX-1做什么項(xiàng)目,?如何使用,?還不得而知,不過我們可以先聊一聊這款深度學(xué)習(xí)超級(jí)計(jì)算機(jī)到底是什么,?它有什么牛逼的地方,。

| 深度學(xué)習(xí)超級(jí)計(jì)算機(jī)是什么?

顧名思義,,深度學(xué)習(xí)超級(jí)計(jì)算機(jī)是深度學(xué)習(xí)和超級(jí)計(jì)算機(jī)的結(jié)合體,,我們所熟知的“天河一號(hào)”、“天河二號(hào)”等都是超級(jí)計(jì)算機(jī),,當(dāng)然不僅如此,,通常情況下具備高性能計(jì)算(HPC)的計(jì)算機(jī)都可算作超級(jí)計(jì)算機(jī),如NVIDIA的Tesla系列,。

因?yàn)樯疃葘W(xué)習(xí)神經(jīng)網(wǎng)絡(luò)尤其是幾百上千層的神經(jīng)網(wǎng)絡(luò)需對(duì)計(jì)算和吞吐能力的需求非常高,,GPU對(duì)處理復(fù)雜運(yùn)算擁有天然的優(yōu)勢:它有出色的浮點(diǎn)計(jì)算性能,可以同時(shí)保證分類和卷積的性能以及精準(zhǔn)度,。

所以搭載GPU的超級(jí)計(jì)算機(jī)已經(jīng)成為訓(xùn)練各種深度神經(jīng)網(wǎng)絡(luò)的不二選擇,。例如在谷歌Brain項(xiàng)目中,其3臺(tái)機(jī)器中配置了12顆GPU,,性能就達(dá)到了包含1000個(gè)節(jié)點(diǎn)的CPU簇的水平,。

| NVIDIA DGX-1性能如何?

黃仁勛曾表示,,3000人花費(fèi)3年時(shí)間才研發(fā)出來這樣一款DGX-1,,深度學(xué)習(xí)超級(jí)計(jì)算機(jī)研發(fā)的難度之大可見一斑。

根據(jù)NVIDIA官方的介紹,,DGX-1的規(guī)格如下:

  • 半精度 (FP16) 峰值性能最高可達(dá) 170 Teraflops,;

  • 8 個(gè) Tesla P100 GPU 加速器,每顆 GPU 16GB 內(nèi)存,;

  • NVLink Hybrid Cube Mesh (NVLink 混合立方網(wǎng)格),;

  • 7TB 固態(tài)硬盤 DL 高速緩存,;

  • 雙萬兆以太網(wǎng),,四路 InfiniBand 100Gb 網(wǎng)絡(luò)連接;

  • 功耗:3U – 3200W。

因?yàn)镹VIDIA將這些硬件設(shè)計(jì)在了一個(gè)機(jī)箱內(nèi),,所以DGX-1被稱為單機(jī)箱深度學(xué)習(xí)超級(jí)計(jì)算機(jī),。

Tesla P100有153億個(gè)16nm FinFET晶體管,其核心面積達(dá)到了610mm2,,按照黃仁勛的說法,,這款GPU是迄今為止最大的芯片。

DGX-1集成的8個(gè)16GB顯存GPU吞吐量相當(dāng)于 250臺(tái)傳統(tǒng)服務(wù)器的水平,,其配置的7 TB固態(tài)硬盤用于儲(chǔ)存神經(jīng)網(wǎng)絡(luò)訓(xùn)練的大量原始數(shù)據(jù),。

除此之外,DGX-1系統(tǒng)還包含一套深度學(xué)習(xí)軟件,,即深度學(xué)習(xí)GPU訓(xùn)練系統(tǒng) (DIGITS?),,它可用于設(shè)計(jì)深度神經(jīng)網(wǎng)絡(luò) (DNN),據(jù)了解DGX-1可以將深度學(xué)習(xí)的培訓(xùn)速度加快75倍,,將CPU性能提升56倍,。這是什么樣的概念呢?

英特爾雙路至強(qiáng)系統(tǒng)需要250多個(gè)節(jié)點(diǎn)和150個(gè)小時(shí)來訓(xùn)練Alexnet,,而DGX-1只需要一個(gè)節(jié)點(diǎn)2個(gè)小時(shí),,后者在性能和節(jié)點(diǎn)總帶寬上都有明顯的優(yōu)勢。當(dāng)然在性能的提升下,,功耗達(dá)到了3200W,,售價(jià)更是高達(dá)129000美元。

| GPU是唯一選擇嗎,?

雖然GPU相比CPU有一定的優(yōu)勢,,但是在FPGA和神經(jīng)網(wǎng)絡(luò)芯片面前,GPU依然要遜色不少,。

有研究人員測試,,相比GPU,F(xiàn)PGA的架構(gòu)更靈活,,單位能耗下性能更強(qiáng),。深度學(xué)習(xí)算法在FPGA上能夠更快、更有效地運(yùn)行,,而且功耗也能做到更低,。英特爾甚至為此推出了FPGA和CPU的混合芯片架構(gòu)。

另一個(gè)研究方向就是神經(jīng)網(wǎng)絡(luò)芯片,,這一領(lǐng)域的代表當(dāng)屬IBM的TrueNorth和寒武紀(jì)的DianNao,。根據(jù)模擬實(shí)驗(yàn)測試的結(jié)果,采用DianNaoYu指令集的寒武紀(jì)深度學(xué)習(xí)處理器相對(duì)于x86指令集的CPU有兩個(gè)數(shù)量級(jí)的性能提升,;而IBM的Truenorth里含有54億個(gè)低成本晶體管神經(jīng)突觸芯片,,功耗卻低至700毫瓦,,在性能以及功耗的優(yōu)化上都提升到了一個(gè)新的高度。

寒武紀(jì)神經(jīng)網(wǎng)絡(luò)處理器研究者,、中國科學(xué)院計(jì)算技術(shù)研究所研究員陳云霽表示,,“加速芯片是神經(jīng)網(wǎng)絡(luò)芯片的最終形態(tài)?!?/span>

但是理想很豐滿,,現(xiàn)實(shí)很骨感!就目前來說,,GPU是唯一實(shí)現(xiàn)大規(guī)模應(yīng)用的方案,,F(xiàn)PGA或者神經(jīng)網(wǎng)絡(luò)芯片想要取代GPU的地位只能說是路漫漫了!

    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多