對(duì)全球人工智能芯片領(lǐng)域最具影響力的 1000 人的遷徙路徑進(jìn)行了統(tǒng)計(jì)分析,,得出下圖所示的各國(guó)人才逆順差對(duì)比,。
▲各國(guó)人才逆順差
可以看出,各國(guó)人才的流失和引進(jìn)是相對(duì)比較均衡的,,其中美國(guó)為人才流動(dòng)大國(guó),,人才輸入和輸出幅度都大幅度領(lǐng)先。英國(guó),、 中國(guó),、 德國(guó)和瑞士等國(guó)次于美國(guó),但各國(guó)之間人才流動(dòng)相差并不明顯,。
AI 芯片的分類及技術(shù) 人工智能芯片目前有兩種發(fā)展路徑:一種是延續(xù)傳統(tǒng)計(jì)算架構(gòu),,加速硬件計(jì)算能力,主要以 3 種類型的芯片為代表,,即 GPU,、 FPGA,、 ASIC,但 CPU依舊發(fā)揮著不可替代的作用,;另一種是顛覆經(jīng)典的馮·諾依曼計(jì)算架構(gòu),,采用類腦神經(jīng)結(jié)構(gòu)來(lái)提升計(jì)算能力, 以 IBM TrueNorth 芯片為代表,。
1,、傳統(tǒng) CPU 計(jì)算機(jī)工業(yè)從 1960 年代早期開(kāi)始使用 CPU 這個(gè)術(shù)語(yǔ)。迄今為止,, CPU 從形態(tài),、設(shè)計(jì)到實(shí)現(xiàn)都已發(fā)生了巨大的變化,但是其基本工作原理卻一直沒(méi)有大的改變,。 通常 CPU 由控制器和運(yùn)算器這兩個(gè)主要部件組成,。 傳統(tǒng)的 CPU 內(nèi)部結(jié)構(gòu)圖如圖 3 所示, 從圖中我們可以看到:實(shí)質(zhì)上僅單獨(dú)的 ALU 模塊(邏輯運(yùn)算單元)是用來(lái)完成數(shù)據(jù)計(jì)算的,,其他各個(gè)模塊的存在都是為了保證指令能夠一條接一條的有序執(zhí)行,。這種通用性結(jié)構(gòu)對(duì)于傳統(tǒng)的編程計(jì)算模式非常適合,同時(shí)可以通過(guò)提升 CPU 主頻(提升單位時(shí)間內(nèi)執(zhí)行指令的條數(shù))來(lái)提升計(jì)算速度,。 但對(duì)于深度學(xué)習(xí)中的并不需要太多的程序指令,、 卻需要海量數(shù)據(jù)運(yùn)算的計(jì)算需求, 這種結(jié)構(gòu)就顯得有些力不從心,。尤其是在功耗限制下,, 無(wú)法通過(guò)無(wú)限制的提升 CPU 和內(nèi)存的工作頻率來(lái)加快指令執(zhí)行速度, 這種情況導(dǎo)致 CPU 系統(tǒng)的發(fā)展遇到不可逾越的瓶頸,。
▲傳統(tǒng) CPU 內(nèi)部結(jié)構(gòu)圖(僅 ALU 為主要計(jì)算模塊)
2,、并行加速計(jì)算的 GPU GPU 作為最早從事并行加速計(jì)算的處理器,相比 CPU 速度快,, 同時(shí)比其他加速器芯片編程靈活簡(jiǎn)單,。
傳統(tǒng)的 CPU 之所以不適合人工智能算法的執(zhí)行,主要原因在于其計(jì)算指令遵循串行執(zhí)行的方式,,沒(méi)能發(fā)揮出芯片的全部潛力,。與之不同的是, GPU 具有高并行結(jié)構(gòu),,在處理圖形數(shù)據(jù)和復(fù)雜算法方面擁有比 CPU 更高的效率,。對(duì)比 GPU 和 CPU 在結(jié)構(gòu)上的差異, CPU大部分面積為控制器和寄存器,,而 GPU 擁有更ALU(ARITHMETIC LOGIC UNIT,邏輯運(yùn)算單元)用于數(shù)據(jù)處理,,這樣的結(jié)構(gòu)適合對(duì)密集型數(shù)據(jù)進(jìn)行并行處理,, CPU 與 GPU 的結(jié)構(gòu)對(duì)比如圖 所示,。程序在 GPU系統(tǒng)上的運(yùn)行速度相較于單核 CPU往往提升幾十倍乃至上千倍。隨著英偉達(dá),、 AMD 等公司不斷推進(jìn)其對(duì) GPU 大規(guī)模并行架構(gòu)的支持,,面向通用計(jì)算的 GPU(即GPGPU, GENERAL PURPOSE GPU,,通用計(jì)算圖形處理器)已成為加速可并行應(yīng)用程序的重要手段,。
▲CPU 及 GPU 結(jié)構(gòu)對(duì)比圖(引用自 NVIDIA CUDA 文檔)
GPU 的發(fā)展歷程可分為 3 個(gè)階段, 發(fā)展歷程如圖所示: 第 一 代 GPU(1999 年 以 前 ) ,, 部 分 功 能 從 CPU 分 離 ,, 實(shí) 現(xiàn) 硬 件 加 速 , 以GE(GEOMETRY ENGINE)為代表,,只能起到 3D 圖像處理的加速作用,,不具有軟件編程特性。
第二代 GPU(1999-2005 年),, 實(shí)現(xiàn)進(jìn)一步的硬件加速和有限的編程性,。 1999 年,英偉達(dá)發(fā)布了“專為執(zhí)行復(fù)雜的數(shù)學(xué)和幾何計(jì)算的” GeForce256 圖像處理芯片,,將更多的晶體管用作執(zhí)行單元,, 而不是像 CPU 那樣用作復(fù)雜的控制單元和緩存,將 T&L(TRANSFORM AND LIGHTING)等功能從 CPU 分離出來(lái),,實(shí)現(xiàn)了快速變換,,這成為 GPU 真正出現(xiàn)的標(biāo)志。之后幾年,, GPU 技術(shù)快速發(fā)展,,運(yùn)算速度迅速超過(guò) CPU。 2001 年英偉達(dá)和 ATI 分別推出的GEFORCE3 和 RADEON 8500,,圖形硬件的流水線被定義為流處理器,,出現(xiàn)了頂點(diǎn)級(jí)可編程性,同時(shí)像素級(jí)也具有有限的編程性,,但 GPU 的整體編程性仍然比較有限,。
第三代 GPU(2006年以后), GPU實(shí)現(xiàn)方便的編程環(huán)境創(chuàng)建,, 可以直接編寫(xiě)程序,。 2006年英偉達(dá)與 ATI分別推出了 CUDA(Compute United Device Architecture,計(jì)算統(tǒng)一設(shè)備架構(gòu))編程環(huán)境和 CTM(CLOSE TO THE METAL)編程環(huán)境,, 使得 GPU 打破圖形語(yǔ)言的局限成為真正的并行數(shù)據(jù)處理超級(jí)加速器,。
2008 年,蘋(píng)果公司提出一個(gè)通用的并行計(jì)算編程平臺(tái) OPENCL(OPEN COMPUTING LANGUAGE,,開(kāi)放運(yùn)算語(yǔ)言),,與 CUDA 綁定在英偉達(dá)的顯卡上不同,,OPENCL 和具體的計(jì)算設(shè)備無(wú)關(guān)。
▲GPU 芯片的發(fā)展階段 |
|
來(lái)自: ljming8888 > 《待分類》