Orin是英偉達(dá)花費(fèi)4年時(shí)間投入數(shù)十億美元打造,性能比最新一代Xavier提升7倍,,算力最高可達(dá)200TOPS,。 文 | 包永剛 郭利榮 今年三月的英偉達(dá) GTC(GPU Technology Conference)上,最低售價(jià)僅99美元可運(yùn)行所有AI模型的Jetson Nano成為關(guān)注的焦點(diǎn)。今天,,英偉達(dá)首席執(zhí)行官黃仁勛(Jensen Huang)在參會(huì)人數(shù)創(chuàng)新高的GTC China 2019上再次發(fā)布重磅新品——下一代SoC Orin,。雷鋒網(wǎng)了解到,Orin是英偉達(dá)花費(fèi)4年時(shí)間投入數(shù)十億美元打造,,性能比最新一代Xavier提升7倍,,算力最高可達(dá)200TOPS。 目前,,英偉達(dá)已經(jīng)售出15億塊GPU,,它們都有相同的架構(gòu)CUDA。黃仁勛表示,,通過全棧優(yōu)化,,GPU可以實(shí)現(xiàn)摩爾定律的加速。 英偉達(dá)想要做的不僅是加速摩爾定律,,也要推動(dòng)顯示技術(shù)的創(chuàng)新,。 去年,英偉達(dá)發(fā)布了RTX新一代GPU架構(gòu)——Turing(圖靈),,以及一系列基于圖靈架構(gòu)的RTX GPU,。黃仁勛表示圖靈架構(gòu)為英偉達(dá)十多年來在計(jì)算機(jī)圖形領(lǐng)域最重要的創(chuàng)新,將光線追蹤技術(shù)引入英偉達(dá)的GPU中,。發(fā)布之后,,已經(jīng)有多款游戲支持RTX,并且采用RTX技術(shù)的開發(fā)者數(shù)量迅速增長,。 黃仁勛今天宣布了6款支持RTX的游戲,,還展示了僅由一個(gè)人使用RTX技術(shù)制作的視頻。 除此之外,,英偉達(dá)還創(chuàng)造出了Max-Q設(shè)計(jì),,它將超高的GPU能效和總體系統(tǒng)優(yōu)化集于一身,可以用于輕薄的高性能筆記本電腦,。 高性能的筆記本是游戲必不可少的,,但隨著云計(jì)算的普及,云游戲也將越來越普及,。黃仁勛在GTC China 2019上也宣,,英偉達(dá)與騰訊游戲合作推出START云游戲服務(wù),該服務(wù)已從今年初開始進(jìn)入測試階段,。START使游戲玩家可以隨時(shí)隨地,,即使是在配置不足的設(shè)備上也能玩AAA游戲。 光線追蹤GPU是英偉達(dá)去年最重磅的發(fā)布,,英偉達(dá)也正在推動(dòng)這項(xiàng)技術(shù)更多的應(yīng)用,。今年,,“核彈”產(chǎn)品無疑是面向下一代汽車和機(jī)器人的Orin的發(fā)布。 黃仁勛在演講當(dāng)中提到,, 該芯片由170億個(gè)晶體管組成,,凝聚著英偉達(dá)團(tuán)隊(duì)為期四年的努力。Orin系統(tǒng)級(jí)芯片集成了英偉達(dá)新一代GPU架構(gòu)和Arm Hercules CPU內(nèi)核以及全新深度學(xué)習(xí)和計(jì)算機(jī)視覺加速器,,每秒可運(yùn)行200萬億次計(jì)算(200TOPS),,幾乎是英偉達(dá)上一代Xavier系統(tǒng)級(jí)芯片性能的7倍。Orin計(jì)劃2022年投產(chǎn),。 Orin可處理在自動(dòng)駕駛汽車和機(jī)器人中同時(shí)運(yùn)行的大量應(yīng)用和深度神經(jīng)網(wǎng)絡(luò),,達(dá)到了ISO 26262 ASIL-D等系統(tǒng)安全標(biāo)準(zhǔn)。 作為一個(gè)軟件定義平臺(tái),,DRIVE AGX Orin能夠賦力從L2級(jí)到L5級(jí)完全自動(dòng)駕駛汽車開發(fā)的兼容架構(gòu)平臺(tái),,助力OEM開發(fā)大型復(fù)雜的軟件產(chǎn)品系列。由于Orin和Xavier均可通過開放的CUDA,、TensorRT API及各類庫進(jìn)行編程,,因此開發(fā)者能夠在一次性投資后使用跨多代的產(chǎn)品。 Orin也已經(jīng)獲得了合作伙伴的支持,,滴滴與英偉達(dá)一起共同推進(jìn)自動(dòng)駕駛和云計(jì)算領(lǐng)域的發(fā)展和合作。據(jù)悉,,滴滴已經(jīng)選擇英偉達(dá)DRIVE作為他們的L4級(jí)的AV平臺(tái)和云計(jì)算平臺(tái),。另外,滴滴會(huì)采用英偉達(dá)的AI技術(shù)應(yīng)用,,用在它們的自動(dòng)駕駛車輛當(dāng)中,,并且也支持“滴滴云”。 5年以前很多人就說:“2020年就能夠看到自動(dòng)駕駛的車輛了,。”如今馬上進(jìn)入2020年了,,但是到現(xiàn)在還沒有實(shí)現(xiàn)這個(gè)目標(biāo),技術(shù)還在向前推進(jìn),,整個(gè)業(yè)界也意識(shí)到這個(gè)事情的復(fù)雜度遠(yuǎn)比我們想像的要高,。 面對(duì)自動(dòng)駕駛最核心的需求“安全”,英偉達(dá)開發(fā)了 “端到端平臺(tái)”,,即:在數(shù)據(jù)中心中的AI,。也就是說,真正技術(shù)在道路上使用之前,,首先是要在數(shù)據(jù)中心進(jìn)行驗(yàn)證,。 對(duì)于自動(dòng)駕駛來說,第一步就是海量的數(shù)據(jù)收集工作,。在有人駕駛的車輛上,,需要安裝很多的傳感器,。包括攝像頭、雷達(dá),,它們的作用就是收集大量的數(shù)據(jù),。 一般情況下,一輛車一天在外面開6小時(shí)-8小時(shí),,每周就會(huì)收集到PB級(jí)的數(shù)據(jù),。意味著有海量的信息需要進(jìn)行處理、標(biāo)記,、存儲(chǔ),、訓(xùn)練,從而更好的了解周圍的環(huán)境,,并且識(shí)別其它的車輛,、車道信息等。 其實(shí),,早前基于英偉達(dá)的DRIVE結(jié)構(gòu),,汽車廠商已經(jīng)可以構(gòu)建和部署具有功能安全性、并符合諸如ISO 26262等國際安全標(biāo)準(zhǔn)的自動(dòng)駕駛乘用車和卡車,。此外,,英偉達(dá)也開發(fā)了一個(gè)開放的軟件平臺(tái),包括駕駛的操作系統(tǒng)等,。 除此之外,,英偉達(dá)也開發(fā)了很多“深度神經(jīng)網(wǎng)絡(luò)”來識(shí)別各種各樣的東西。也就是遷移學(xué)習(xí),,預(yù)訓(xùn)練的模型可以進(jìn)行調(diào)整以適應(yīng)原始的設(shè)備制造商,,包括主機(jī)廠、傳感器和具體的地區(qū)要求,,當(dāng)然調(diào)整的自由度是有限制的,。 例如:檢測路上的一些物體、路標(biāo),,以及處理雷達(dá),、激光雷達(dá)。按照英偉達(dá)的說法,,目前整個(gè)的這一系列軟件,,現(xiàn)在都可以給業(yè)界開放使用。這些都是基于英偉達(dá)自主知識(shí)產(chǎn)權(quán)的“預(yù)訓(xùn)練”模型,,也是在他們的“云”上來進(jìn)行訓(xùn)練的,。 英偉達(dá)的策略是“深度開放”,無論是乘用車還是卡車,,他們都可以對(duì)這些進(jìn)行定制化,。也就是說,,客戶可以把自己的數(shù)據(jù)放到這些模型當(dāng)中,然后基于這些模型不斷的進(jìn)行優(yōu)化,。不過,,這些都是基于TensorRT來實(shí)現(xiàn)的,這也能夠進(jìn)一步加速這些自動(dòng)駕駛公司研發(fā)的進(jìn)程,。 英偉達(dá)推出的另外一個(gè)技術(shù),,就叫“聯(lián)邦學(xué)習(xí)”。這項(xiàng)技術(shù)是極其重要的,,它不僅僅是在汽車行業(yè),,在很多行業(yè)都能夠充分利用,尤其是那些對(duì)于數(shù)據(jù)隱私非??粗氐男袠I(yè),,例如醫(yī)療。在醫(yī)療行業(yè),,很多的數(shù)據(jù)是不能夠跟其他人共享的,。所以它可以利用我們的這項(xiàng)技術(shù),基于他們的數(shù)據(jù)來創(chuàng)建各種各樣的AI模型,。 “聯(lián)邦學(xué)習(xí)”最主要的功能就是能夠保證數(shù)據(jù)隱私不被侵犯,。按照官方說法,無論是醫(yī)院,、實(shí)驗(yàn)室,、汽車公司,大家都可以去開發(fā)并且訓(xùn)練這些神經(jīng)網(wǎng)絡(luò),,數(shù)據(jù)還可以保存在本地。 黃仁勛舉例道,,目前很多公司都在美國和中國有往來業(yè)務(wù),,數(shù)據(jù)在傳輸方面其實(shí)是有一些限制的。運(yùn)用“聯(lián)邦學(xué)習(xí)”,,他們就可以保證數(shù)據(jù)還存在本地,,但是可以把一些訓(xùn)練和處理后的結(jié)果上傳到一些全球的服務(wù)器上。所以 聯(lián)邦學(xué)習(xí)其實(shí)對(duì)于公司之間的合作,,包括各品牌之間的合作,、各地區(qū)之間的合作是非常有用的,因?yàn)樗軌虮WC數(shù)據(jù)隱私不被侵犯,。 更重要的是,,這些工具讓汽車客戶能夠去針對(duì)他們自己的車型來定制化自己的軟件,這個(gè)是之前做不到的,。 英偉達(dá)全新版本Isaac軟件開發(fā)套件(SDK),,為機(jī)器人提供更新的AI感知和仿真功能,。黃仁勛提到,在建立統(tǒng)一的機(jī)器人開發(fā)平臺(tái)以實(shí)現(xiàn)AI,、仿真和操控功能方面,,Isaac SDK邁出了重要的里程碑。Isaac SDK包括Isaac Robotics Engine(提供應(yīng)用程序框架),,Isaac GEM(預(yù)先構(gòu)建的深度神經(jīng)網(wǎng)絡(luò)模型,、算法、庫,、驅(qū)動(dòng)程序和API),,用于室內(nèi)物流的參考應(yīng)用程序以及Isaac Sim的第一個(gè)版本(提供導(dǎo)航功能)。 值得注意的是,,新版本引入了一項(xiàng)重要功能——使用Isaac Sim訓(xùn)練機(jī)器人,,并將所生成的軟件部署到在現(xiàn)實(shí)世界中運(yùn)行的真實(shí)機(jī)器人中。這有望大大加快機(jī)器人的開發(fā)速度,,從而實(shí)現(xiàn)綜合數(shù)據(jù)的訓(xùn)練,。 自動(dòng)駕駛,、機(jī)器人是AI落地的代表應(yīng)用,AI技術(shù)如今在數(shù)據(jù)分析和挖掘,、高性能計(jì)算中發(fā)揮著更加重要的作用,,英偉達(dá)已經(jīng)推出了面向訓(xùn)練、云端,、終端,、自動(dòng)駕駛的AI平臺(tái)。AI對(duì)于擁有大量數(shù)據(jù)的科技公司尤為重要,,比如推薦系統(tǒng),,如果沒有推薦系統(tǒng),人們無法從上萬億次網(wǎng)頁檢索,、幾十億淘寶商品,、幾十億抖音視頻、各種新聞中找到自己需要的內(nèi)容,。 因此,,一個(gè)能夠深度理解每一個(gè)用戶,在正確時(shí)間給出正確的推薦的推薦系統(tǒng)極為關(guān)鍵,。 百度AIBox推薦系統(tǒng)采用英偉達(dá)AI,,100多個(gè)推薦模型被使用在百度的眾多應(yīng)用中。雷鋒網(wǎng)網(wǎng))了解到,,這個(gè)系統(tǒng)基于英偉達(dá)Telsa v100 GPU,,利用這些TB級(jí)的數(shù)據(jù)集去創(chuàng)建一個(gè)模型,、在GPU上訓(xùn)練這些數(shù)據(jù),然后把它放到GPU的內(nèi)存當(dāng)中去訓(xùn)練這種TB級(jí)別的數(shù)據(jù),,GPU訓(xùn)練成本只有CPU的十分之一,,并且支持更大規(guī)模的模型訓(xùn)練。 還有線上購物,,今年淘寶雙十一成交額達(dá)到了2684億元,,較 2018 年的 2135 億同比增長了 25.7%,這需要強(qiáng)大的云計(jì)算平臺(tái)來支撐,。同樣關(guān)鍵的是,,雙十一5億的淘寶的用戶要從20億商品中挑選最合適的產(chǎn)品是一件非常困難的事情,如果一個(gè)用戶每一秒看1個(gè)商品,,需要花費(fèi)32年時(shí)間才能瀏覽完20億個(gè)商品,。 阿里巴巴搭建的推薦系統(tǒng)采用了英偉達(dá)的T4 GPU,推薦系統(tǒng)的吞吐量得到了大幅提升,。面對(duì)每秒幾十億次的推薦請(qǐng)求,,CPU速度只有3 QPS,英偉達(dá)GPU則提升到了780 QPS,,提升百倍,。 雖然擁有自研云端AI芯片,但為了解決推薦系統(tǒng)面臨的兩大挑戰(zhàn),,阿里和百度都選擇使用英偉達(dá)的GPU構(gòu)建推薦系統(tǒng),,這其中很重要的原因是系統(tǒng)的構(gòu)建面臨兩大挑戰(zhàn)。一個(gè)是推薦模型及其復(fù)雜,,需要處理的參數(shù)非常多,,這就意味著需要非常強(qiáng)的計(jì)算能力,另一大挑戰(zhàn)是推薦系統(tǒng)需要進(jìn)行實(shí)時(shí)計(jì)算并給出反饋,。 從結(jié)果來看,,使用擅長并行計(jì)算的GPU構(gòu)建推薦系統(tǒng)比使用CPU構(gòu)建推薦系統(tǒng)成本大幅降低或性能實(shí)現(xiàn)了百倍提升。,。 當(dāng)然,AI功能的實(shí)現(xiàn)并非單純來自硬件,,軟件和模型的優(yōu)化也非常重要,,這也是實(shí)現(xiàn)會(huì)話式AI的關(guān)鍵。 業(yè)界越來越意識(shí)到,,即便AI芯片算力再強(qiáng),,不能充分使用其算力并不能實(shí)現(xiàn)很好的AI功能,因此AI芯片的有效算力正成為衡量AI芯片的關(guān)鍵指標(biāo),。軟硬件結(jié)合以及軟件優(yōu)化意義重大,,比如在高性能計(jì)算的應(yīng)用中,,要使用CUDA進(jìn)行全基因組測序,或用于研究畜牧業(yè),、農(nóng)業(yè)和導(dǎo)致疾病的微生物,。 英偉達(dá)今年6月也宣布CUDA年底前支持Arm生態(tài)系統(tǒng),讓基于Arm的芯片可以更多地應(yīng)用于超算系統(tǒng)中進(jìn)行更多地深度學(xué)習(xí)計(jì)算,。 根據(jù)黃仁勛給出的數(shù)據(jù),,GPU+Arm的硬件,加上CUDA以及TensorFlow的優(yōu)化,,Arm進(jìn)行深度學(xué)習(xí)的性能是x86處理器性能的96%,。 一個(gè)更為關(guān)鍵的軟件平臺(tái)是此前推出的計(jì)算圖優(yōu)化編譯器TensorRT,去年英偉達(dá)發(fā)布了 TensorRT5,,通過優(yōu)化PyTorch和TensorFlow等框架中訓(xùn)練出來的AI模型,,減少計(jì)算和內(nèi)潤訪問,讓模型在GPU上運(yùn)行的效率大幅提升,。 GTC China 2019上,,黃仁勛宣布推出TensorRT 7,它支持各種類型的RNN,、Transformer和CNN,。TensorRT 7能夠融合水平和垂直方向的運(yùn)算,可以為開發(fā)者設(shè)計(jì)的大量RNN配置自動(dòng)生成代碼,,逐步融合LSTM單元,,甚至可跨多個(gè)時(shí)間步長今日那個(gè)融合。相比TensorRT5只支持30中變換,,TensorRT 7能支持1000多種不同的計(jì)算變換和優(yōu)化,。 Transformer一個(gè)典型的例子就是BERT,它有很多非常先進(jìn)的自然語言理解的功能,。RNN一多用于語音識(shí)別或者是將文本轉(zhuǎn)化成語音,。這些模型和算法對(duì)于會(huì)話式AI非常關(guān)鍵,也正是TensorRT 7可以發(fā)揮作用的典型應(yīng)用,。 因?yàn)橄胍獙?shí)現(xiàn)會(huì)話式AI,,首先需要把語音轉(zhuǎn)化為文字,然后通過AI語音算法模型獲得需要的語音,,并理理解其含義,,再將回應(yīng)合成為語音進(jìn)行回復(fù)。對(duì)話式AI需要可編程性,、豐富的軟件堆棧以及低GPU延遲,,基于TensorRT 7這一系列復(fù)雜的在300毫秒(0.3秒)內(nèi)就能完成。 有意思的是,去年的GTC China上,,黃仁勛因?yàn)楝F(xiàn)場觀眾沒能實(shí)時(shí)理解他的演講,,他表示希望未來借助AI能夠把他的英文演講實(shí)時(shí)翻譯成中文。今年的GTC China剛開場,,黃仁勛就表示他今天的演講依舊會(huì)使用英文,,希望未來某一天他用英文演講,但AI可以把它翻譯成任何一種聽眾需要的語言,。 看來,,距離這一天的到來又近了一步。 無論是云端,、終端還是高性能計(jì)算,,英偉達(dá)都已經(jīng)推出了對(duì)應(yīng)的硬件平臺(tái)和產(chǎn)品,軟件優(yōu)化的重要性也正在突顯,,軟件定義也能大大提高AI的效率,。 AI的競爭正變得越來越激烈,對(duì)于AI芯片公司而言,,提供更高有效算力,、更易用的軟件平臺(tái)無疑是吸引用戶的關(guān)鍵,因此英偉達(dá)花費(fèi)數(shù)十億美金打造了下一代SoC,,算力高達(dá)200TOPS,。同時(shí)也推出的新一代推理優(yōu)化軟件平臺(tái)Tensor RT,轉(zhuǎn)移學(xué)習(xí),、聯(lián)邦學(xué)習(xí)的方式,,能更好地推動(dòng)AI落地,這也是英偉達(dá)發(fā)布更多軟件產(chǎn)品的原因,。 同時(shí)也要看到,,對(duì)于任何一家想要使用AI技術(shù)保持領(lǐng)先的公司而言,他們?cè)敢鈬L試任何一種能夠?qū)崿F(xiàn)最好效果,,總體擁有成本最低的軟硬件方案,,這是英偉達(dá)能夠說服阿里和百度使用GPU構(gòu)建推薦系統(tǒng)的原因。 GPU的通用性搭配上更好的軟件優(yōu)化顯然能夠繼續(xù)在AI的應(yīng)用中發(fā)揮重要作用,,而軟件定義硬件能夠讓硬件擁有更長的生命周期,,但正如GTC China 2019開場視頻中所提到的AI的應(yīng)用涉及工業(yè)、醫(yī)療,、物流等等,,黃仁勛也表示GPU不是要替代CPU,而是AI負(fù)載一個(gè)更好的選擇,。 隨著算法的演進(jìn)以及眾多AI軟硬件解決方案的推出,未來誰將主導(dǎo)市場仍然未知。 老黃的演講一直是一年一度 GTC CHINA 最不容錯(cuò)過的精彩環(huán)節(jié),,今年的分享,,他對(duì) AI 領(lǐng)域的未來提出自己獨(dú)到見解與預(yù)測。AI研習(xí)社作為AI向的開發(fā)者和學(xué)生群體的聚集地,,依舊對(duì)本次演講進(jìn)行完整直播,。錯(cuò)過直播的童鞋別桑心,我們已貼心準(zhǔn)備了回放,,歡迎網(wǎng)站搜索“AI研習(xí)社” 或者掃下方二維碼免費(fèi)預(yù)約查看視頻回放,。
|
|