1 新智元原創(chuàng) 新智元啟動(dòng)新一輪大招聘:COO,、執(zhí)行總編,、主編、高級(jí)編譯,、主筆、運(yùn)營總監(jiān)、客戶經(jīng)理,、咨詢總監(jiān)、行政助理等 9 大崗位全面開放,。 簡歷投遞:j[email protected] HR 微信:13552313024 新智元為COO和執(zhí)行總編提供最高超百萬的年薪激勵(lì),;為骨干員工提供最完整的培訓(xùn)體系、高于業(yè)界平均水平的工資和獎(jiǎng)金,。 加盟新智元,,與人工智能業(yè)界領(lǐng)袖攜手改變世界。 【新智元導(dǎo)讀】Data Science Central 網(wǎng)站主編,、有多年數(shù)據(jù)科學(xué)和商業(yè)分析模型從業(yè)經(jīng)驗(yàn)的 Bill Vorhies曾撰文指出,,過去一年人工智能和深度學(xué)習(xí)最重要的發(fā)展不在技術(shù),,而是商業(yè)模式的轉(zhuǎn)變——所有巨頭紛紛將其深度學(xué)習(xí) IP 開源,。 毋庸置疑,“開源浪潮”是 2016 年人工智能領(lǐng)域不可忽視的一大趨勢(shì),,而其中最受歡迎的項(xiàng)目則是谷歌的深度學(xué)習(xí)平臺(tái) TensorFlow,。下文就從TensorFlow 說起,盤點(diǎn)2016年AI開源項(xiàng)目,,最后統(tǒng)計(jì)了 Github 最常用深度學(xué)習(xí)開源項(xiàng)目 Top 50。 1. Google第二代深度學(xué)習(xí)引擎TensorFlow開源 2015年11月,,谷歌開源深度學(xué)習(xí)平臺(tái) TensorFlow。2016年4月,,谷歌推出了分布式 TensorFlow。現(xiàn)在,,TensorFlow 已經(jīng)成為業(yè)內(nèi)最受歡迎的深度學(xué)習(xí)平臺(tái)之一,。 2. 谷歌開源全球最精準(zhǔn)語言解析器SnytaxNet 2016年5月13日,,Google Research宣布,世界準(zhǔn)確度最高的自然語言解析器 SyntaxNet 開源,。谷歌開源再進(jìn)一步。據(jù)介紹,,谷歌在該平臺(tái)上訓(xùn)練的模型的語言理解準(zhǔn)確率超過90%,。SyntaxNet 是一個(gè)在TensoFlow中運(yùn)行的開源神經(jīng)網(wǎng)絡(luò)框架,提供自然語言理解系統(tǒng)基礎(chǔ),。谷歌公開了所有用用戶自己的數(shù)據(jù)訓(xùn)練新SyntaxNet模型所需要的代碼,,以及谷歌已經(jīng)訓(xùn)練好的,可用于分析英語文本的模型 Paesey McParseface,。 Paesey McParseface 建立于強(qiáng)大的機(jī)器學(xué)習(xí)算法,,可以學(xué)會(huì)分析句子的語言結(jié)構(gòu),能解釋特定句子中每一個(gè)詞的功能,。此類模型中,,Paesey McParseface是世界上最精確的,谷歌希望它能幫助對(duì)自動(dòng)提取信息,、翻譯和其他自然語言理解(NLU)中的應(yīng)用感興趣的研究者和開發(fā)者,。 3. 谷歌推出 Deep&Wide Learning,開源深度學(xué)習(xí) API 2016年6月29日,,谷歌推出 Wide & Deep Learning,,并將 TensorFlow API 開源,歡迎開發(fā)者使用這款最新的工具,。同時(shí)開源的還有對(duì) Wide & Deep Learning 的實(shí)現(xiàn),,作為 TF.Learn 應(yīng)用程序接口的一部分,讓開發(fā)者也能自己訓(xùn)練模型,。 4. 谷歌開源 TensorFlow 自動(dòng)文本摘要生成模型 2016年8月25日,,谷歌開源了 TensorFlow 中用于文本信息提取并自動(dòng)生成摘要的模型,尤其擅長長文本處理,,這對(duì)自動(dòng)處理海量信息十分有用,。自動(dòng)文本摘要最典型的例子便是新聞報(bào)道的標(biāo)題自動(dòng)生成,為了做好摘要,,機(jī)器學(xué)習(xí)模型需要能夠理解文檔,、提取重要信息,這些任務(wù)對(duì)于計(jì)算機(jī)來說都是極具挑戰(zhàn)的,,特別是在文檔長度增加的情況下,。 5. 谷歌開源圖像分類工具TF-Slim,定義TensorFlow 復(fù)雜模型 2016年8月31日,,谷歌宣布開源 TensorFlow 高級(jí)軟件包 TF-Slim,,能使用戶快速準(zhǔn)確地定義復(fù)雜模型,,尤其是圖像分類任務(wù)。自發(fā)布以來,,TF-Slim 已經(jīng)得到長足發(fā)展,,無論是網(wǎng)絡(luò)層、代價(jià)函數(shù),,還是評(píng)估標(biāo)準(zhǔn),,都增加了很多類型,訓(xùn)練和評(píng)估模型也有了很多便利的常規(guī)操作手段,。這些手段使你在并行讀取數(shù)據(jù)或者在多臺(tái)機(jī)器上部署模型等大規(guī)模運(yùn)行時(shí),,不必為細(xì)節(jié)操心。此外,,谷歌研究員還制作了 TF-Slim 圖像模型庫,,為很多廣泛使用的圖像分類模型提供了定義以及訓(xùn)練腳本,這些都是使用標(biāo)準(zhǔn)的數(shù)據(jù)庫寫就的,。TF-Slim 及其組成部分都已經(jīng)在谷歌內(nèi)部得到廣泛的使用,,很多升級(jí)也都整合進(jìn)了 tf.contrib.slim。 6. 谷歌開源大規(guī)模數(shù)據(jù)庫,,10億+數(shù)據(jù),,探索 RNN 極限 2016年9月13日,谷歌宣布開源大規(guī)模語言建模模型庫,,這項(xiàng)名為“探索RNN極限”的研究今年2月發(fā)表時(shí)就引發(fā)激論,,如今姍姍來遲的開源更加引人矚目。研究測(cè)試取得了極好的成績,,另外開源的數(shù)據(jù)庫含有大約 10 億英語單詞,,詞匯有 80 萬,大部分是新聞數(shù)據(jù),。這是典型的產(chǎn)業(yè)研究,,只有在谷歌這樣的大公司才做得出來。這次開源也應(yīng)該會(huì)像作者希望的那樣,,在機(jī)器翻譯,、語音識(shí)別等領(lǐng)域起到推進(jìn)作用。 7. 谷歌開源 TensorFlow 圖說生成模型,,可真正理解圖像 2016年9月23日,谷歌宣布開源圖說生成系統(tǒng) Show and Tell 最新版在 TensorFlow 上的模型,。該系統(tǒng)采用編碼器-解碼器神經(jīng)網(wǎng)絡(luò)架構(gòu),,分類準(zhǔn)確率達(dá) 93.9%,在遇到全新的場(chǎng)景時(shí)能夠生成準(zhǔn)確的新圖說,。谷歌表示,,這說明該系統(tǒng)能夠真正理解圖像,。 8. 谷歌開源超大數(shù)據(jù)庫,含800萬+視頻 2016年9月28日,,谷歌在官方博客上宣布,,將含有800萬個(gè)Youtube 視頻URL 的視頻數(shù)據(jù)庫開源,視頻總時(shí)長達(dá)到了50萬個(gè)小時(shí),。一并發(fā)布的還有從包含了4800個(gè)知識(shí)圖譜分類數(shù)據(jù)集中提取的視頻級(jí)別標(biāo)簽,。這一數(shù)據(jù)庫在規(guī)模和覆蓋的種類上都比現(xiàn)有的視頻數(shù)據(jù)庫有顯著提升。例如,,較為著名的Sports-1M數(shù)據(jù)庫,,就只由100萬個(gè)Youtube 視頻和500個(gè)運(yùn)動(dòng)類目。谷歌官方博客上說,,在視頻的數(shù)量和種類上,,Youtube-8M代表的是幾乎指數(shù)級(jí)的增長。 9. 谷歌發(fā)布 Open Images 圖片數(shù)據(jù)集,,包含900萬標(biāo)注圖片 2016年10月1日,,繼前天發(fā)布800萬視頻數(shù)據(jù)集之后,谷歌又發(fā)布了圖片數(shù)據(jù)庫Open Images,,包含了900萬標(biāo)注數(shù)據(jù),,標(biāo)簽種類超過6000種。谷歌在官方博客中寫到,,這比只擁有1000個(gè)分類的ImageNet 更加貼近實(shí)際生活,。對(duì)于想要從零開始訓(xùn)練計(jì)算機(jī)視覺模型的人來說,這些數(shù)據(jù)遠(yuǎn)遠(yuǎn)足夠了,。就在 12月,,谷歌還開源了 Open Images 并行下載工具的腳本,5 天速度最高超過 200 M,。 10. DeepMind 開源 AI 核心平臺(tái) DeepMind Lab(附論文) 2016年 12月 5日,,DeepMind 宣布將其AI 核心平臺(tái) DeepMind Lab 開源。DeepMind 實(shí)驗(yàn)室把全部代碼上傳至 Github,,供研究人員和開發(fā)者進(jìn)行實(shí)驗(yàn)和研究,。DeepMind Lab 這一平臺(tái)將幾個(gè)不同的 AI 研究領(lǐng)域整合至一個(gè)環(huán)境下,方便研究人員測(cè)試AI 智能體導(dǎo)航,、記憶和3D成像等能力,。值得一提的是,這些代碼也包括 AlphaGO 的代碼,,谷歌希望以此增加 AI 能力的開放性,,讓更多開發(fā)者參與 AI 研究,觀察其他開發(fā)者是否能夠挑戰(zhàn)并打破 DeepMind 現(xiàn)在的紀(jì)錄,。 1. Facebook 開源圍棋引擎 DarkForest 6 個(gè)月前,,F(xiàn)acebook 將其圍棋引擎 DarkForest 開源,。現(xiàn)在訓(xùn)練代碼已經(jīng)全部發(fā)布。Github 鏈接:https://github.com/facebookresearch/darkforestGo,。 2. Facebook 開源文本分類工具 fastText,,不用深度學(xué)習(xí)也可以又快又準(zhǔn) 2016 年 8 月19日,Facebook AI 實(shí)驗(yàn)室(FAIR)宣布開源文本分析工具 fastText,。fastText 既可以用于文本分類,,又能用于學(xué)習(xí)詞匯向量表征。在文本分類的準(zhǔn)確率上與一些常用的深度學(xué)習(xí)工具不相上下,,但是在時(shí)間上卻快很多——模型訓(xùn)練時(shí)間從幾天減少到幾秒,。除了文本分類,fastText 也能被用于學(xué)習(xí)詞語的向量表征,,F(xiàn)acebook 稱 fastText 比常用的 Word2vec 等最先進(jìn)的詞態(tài)表征工具表現(xiàn)都要好得多,。 3. Facebook 開源計(jì)算機(jī)視覺系統(tǒng) deepmask,從像素水平理解圖像(附論文及代碼) 2016 年 8 月 26日,,Facebook 宣布開源計(jì)算機(jī)視覺系統(tǒng) deepmask,,稱該系統(tǒng)能“從像素水平理解物體”,Facebook 希望開源能加速計(jì)算機(jī)視覺的發(fā)展,。不過,,F(xiàn)acebook 并沒有在自家產(chǎn)品中使用這些工具,像這樣落實(shí)到具體應(yīng)用前就開源,,跟通常所說的“開源”有些不同,。對(duì)此,F(xiàn)acebook 人工智能團(tuán)隊(duì) FAIR 的負(fù)責(zé)人 Yann LeCun 曾表示,,正是因?yàn)?FAIR 做基礎(chǔ)的,、不受制于公司短期效益的研究,才能真正推進(jìn)人工智能技術(shù)發(fā)展,。 4. Facebook 開源 AI 訓(xùn)練和測(cè)試環(huán)境 CommAI-env 2016 年 9 月 27日,,F(xiàn)acebook 宣布開放 AI 訓(xùn)練和測(cè)試環(huán)境 CommAI-env,可以用任何編程語言設(shè)置智能體,。據(jù)介紹,,CommAI-env 這個(gè)平臺(tái)用于訓(xùn)練和評(píng)估 AI 系統(tǒng),尤其是注重溝通和學(xué)習(xí)的 AI 系統(tǒng),。與用強(qiáng)化學(xué)習(xí)從玩游戲到下圍棋都能做的 OpenAI Gym 不同,,F(xiàn)acebook 的 CommAI-env 側(cè)重基于溝通的訓(xùn)練和測(cè)試,這也是為了鼓勵(lì)開發(fā)人員更好地打造能夠溝通和學(xué)習(xí)的人工智能,,呼應(yīng)該公司的十年規(guī)劃,。Facebook 還表示,CommAI-env 會(huì)持續(xù)更新,,并在成熟后舉辦競(jìng)賽推進(jìn) AI 的開發(fā),。 在AI 測(cè)試環(huán)境方面,F(xiàn)acebook 還開源了 CommNet,,這是一個(gè)讓基于神經(jīng)網(wǎng)絡(luò)的代理更好交互,、實(shí)現(xiàn)合作而研發(fā)的模型,與 CommAI-env 配套,。12 月,,F(xiàn)acebook 還開源了 TorchCraft,在深度學(xué)習(xí)環(huán)境 Torch 與星際爭(zhēng)霸之間搭起了橋梁,,方便研究人員使用控制器,,編寫能夠玩星際爭(zhēng)霸游戲的智能代理。 5. Facebook 賈揚(yáng)清發(fā)文介紹 Caffe2go,,手機(jī)就能運(yùn)行神經(jīng)網(wǎng)絡(luò) 2016 年 11月 8日,,Caffe作者、Facebook 研究員賈揚(yáng)清在官方網(wǎng)站上發(fā)文介紹了新的機(jī)器學(xué)習(xí)框架 Caffe2go,,并表示在接下來的幾個(gè)月將其部分開源,。Caffe2go 規(guī)模更小,訓(xùn)練速度更快,,對(duì)計(jì)算性能要求較低,,在手機(jī)上就行運(yùn)行,已經(jīng)成為 Facebook 機(jī)器學(xué)習(xí)的核心技術(shù),。 1. OpenAI 推出代理訓(xùn)練環(huán)境 OpenAI Gym 創(chuàng)立于 2015 年底的非盈利機(jī)構(gòu) OpenAI 的成立打破了谷歌,、Facebook 等巨頭霸占 AI 領(lǐng)域的格局,但其創(chuàng)始人,、特斯拉CEO馬斯克多次發(fā)表人工智能威脅論,。馬斯克創(chuàng)立 OpenAI 目的何在?2016年 5 月 4日,,OpenAI 發(fā)布了人工智能研究工具集 OpenAI Gym,,用于研發(fā)和比較強(qiáng)化學(xué)習(xí)算法,分析 OpenAI Gym 或可找出馬斯克的真正動(dòng)機(jī),。 2. 另一種開源:OpenAI 介紹深度學(xué)習(xí)基礎(chǔ)框架 2016 年 8 月 30 日,,OpenAI 研究員在博客發(fā)文,結(jié)合實(shí)例介紹了 OpenAI 進(jìn)行深度學(xué)習(xí)研究時(shí)采用的基礎(chǔ)設(shè)施配置,,并且提供了相關(guān)開源代碼,。文章激起了很多反響,相對(duì)于軟硬件開源,,OpenAI 從另一個(gè)側(cè)面,,對(duì)深度學(xué)習(xí)模型的實(shí)際部署提供了幫助。 3. OpenAI 重磅發(fā)布 AGI 測(cè)試訓(xùn)練平臺(tái) Universe 2016年12月 4日,在今年 NIPS 大會(huì)召開的前一晚,,OpenAI 發(fā)布了 Universe,,用于訓(xùn)練解決通用問題 AI 的基礎(chǔ)架構(gòu)。據(jù)悉,,這是一個(gè)能在幾乎所有環(huán)境中衡量和訓(xùn)練 AI 通用智能水平的開源平臺(tái),,目標(biāo)是讓智能體能像人一樣使用計(jì)算機(jī)。目前,,Universe 已經(jīng)有1000種訓(xùn)練環(huán)境,,由微軟、英偉達(dá)等公司參與建設(shè),。有了 Universe,,任何程序都能被接入到 OpenAI Gym 的環(huán)境中。很快,,OpenAI 還推出了 Mini World of Bits(MiniWoB),,這個(gè)與 OpenAI Universe 配套的環(huán)境基準(zhǔn)可以測(cè)試代理與常見網(wǎng)頁瀏覽器元素的交互能力,比如按鈕,、文本框,、滑塊。
根據(jù) Github 2016 年度的《Octoverse 觀察報(bào)告》,,微軟不僅是擁有開源項(xiàng)目最多的公司,,也是貢獻(xiàn)人數(shù)最多的公司。 在人工智能方面,,微軟的開源項(xiàng)目有很多,,包括 CNTK計(jì)算網(wǎng)絡(luò)工具包、DMTK分布式機(jī)器學(xué)習(xí)工具包,,Send2vec語義相似映射器,, 以及 CodaLab 研究平臺(tái)(基于Web的開源平臺(tái),旨在通過其在線社區(qū)幫助解決數(shù)據(jù)導(dǎo)向的許多常見問題,,從而促進(jìn)機(jī)器學(xué)習(xí)和高性能計(jì)算的研究領(lǐng)域的發(fā)展),。 2016 年 10 月 27日,微軟開源深度學(xué)習(xí)認(rèn)知工具包 CNTK 升級(jí)版,,其中最矚目的功能是增加了 Python 綁定,,支持增強(qiáng)學(xué)習(xí)。新版的 CNTK 性能大幅提升,,尤其是在多臺(tái)機(jī)器上處理較大數(shù)據(jù)集的情況下能高速運(yùn)行,,這種類型的大規(guī)模部署對(duì)于多GPU上的深度學(xué)習(xí)是不可或缺的,也是開發(fā)消費(fèi)產(chǎn)品和專業(yè)產(chǎn)品的必需,。 微軟研究人員表示,,在多服務(wù)器間運(yùn)行的能力是一大進(jìn)步。CNTK 升級(jí)版還包含了一些算法,用于將大規(guī)模數(shù)據(jù)處理的計(jì)算消耗降到最低,。 1. 百度開源深度學(xué)習(xí)代碼 Warp-CTC 詳解 2016 年 1月 15 日,,百度公布了代碼 Warp-CTC,能夠讓 AI 軟件運(yùn)行得更高效,。說 Warp-CTC 知道的人可能還少,,百度語音識(shí)別系統(tǒng) Deep Speech 2 就是用它搭建的。百度位于硅谷的 AI 實(shí)驗(yàn)室主管 Adam Coates 在接受 Re-Work 采訪時(shí)表示,,他們?cè)跇?gòu)建深度語音端對(duì)端系統(tǒng)的過程中發(fā)明了Warp-CTC 方法,進(jìn)而使用 CTC 提高模型的可伸縮性,?!坝捎跊]有相似的工具,我們決定將其分享給人們,。它是一款很實(shí)用的工具,,可以用到現(xiàn)有的AI框架中。現(xiàn)在有很多深度學(xué)習(xí)的開源軟件,,但是之前用于訓(xùn)練序列數(shù)據(jù)的端對(duì)端網(wǎng)絡(luò)一直很慢,。我們?cè)赪arp-CTC上的投入是對(duì)“我們堅(jiān)信深度學(xué)習(xí)與高性能計(jì)算技術(shù)(HPC)的結(jié)合會(huì)有巨大潛力”的一種證明?!?/span> 2. 百度開源分布式深度學(xué)習(xí)平臺(tái),,挑戰(zhàn) TensorFlow(附教程) 2016 年 8 月 31日,百度宣布開源深度學(xué)習(xí)平臺(tái) PaddlePaddle,。實(shí)際上,,百度深度學(xué)習(xí)實(shí)驗(yàn)室在幾年前就投入 PaddlePaddle 的開發(fā),業(yè)內(nèi)對(duì)這個(gè)云端托管的分布式深度學(xué)習(xí)平臺(tái)贊譽(yù)有加:代碼簡潔,、設(shè)計(jì)干凈,,沒有太多抽象……PaddlePaddle 對(duì)于序列輸入、稀疏輸入和大規(guī)模數(shù)據(jù)的模型訓(xùn)練有著良好的支持,,支持GPU運(yùn)算,,支持?jǐn)?shù)據(jù)并行和模型并行,僅需少量代碼就能訓(xùn)練深度學(xué)習(xí)模型,,大大降低了用戶使用深度學(xué)習(xí)技術(shù)的成本,。 3. 百度公開硬件基準(zhǔn) DeepBench,推動(dòng)深度學(xué)習(xí)專用芯片研發(fā)競(jìng)爭(zhēng) 2016 年 9月,,百度發(fā)表論文,,開源 DeepBench 基準(zhǔn)測(cè)試,AI研究者和芯片制造商可以用它測(cè)試不同的芯片運(yùn)行軟件時(shí)的性能,,尤其是哪款硬件加速深度學(xué)習(xí)性能最好,。目前 DeepBench 只能測(cè)試深度學(xué)習(xí)的訓(xùn)練模型,能提供在三種 Nvidia GPU和一種 Intel Xeon Phi 處理器的基準(zhǔn)化測(cè)試結(jié)果,未來還可能測(cè)試用于圖像和語音識(shí)別之類任務(wù)的“推理”模型,。百度希望 DeepBench 能促進(jìn)特定任務(wù)深度學(xué)習(xí)加速器的研發(fā),,“GPU顯然不是終點(diǎn),我們希望這能鼓勵(lì)競(jìng)爭(zhēng)”,。 最后,,在這里附上一份非常有用的資料表:GitHub 最常用的 54 個(gè)深度學(xué)習(xí)項(xiàng)目,最后更新時(shí)間是今年 8 月,。表格的整理人ID分別是 aymericdamien,、lenck、pjreddie,、vmarkovtsev,、JohnAllen。
新智元招聘 職位 運(yùn)營總監(jiān) 職位年薪:36- 50萬(工資+獎(jiǎng)金) 工作地點(diǎn):北京-海淀區(qū) 所屬部門:運(yùn)營部 匯報(bào)對(duì)象:COO 下屬人數(shù):2人 年齡要求:25 歲 至 35 歲 性別要求:不限 工作年限:3 年以上 語 言:英語6級(jí)(海外留學(xué)背景優(yōu)先) 職位描述
崗位要求
新智元?dú)g迎有志之士前來面試,,更多招聘崗位請(qǐng)?jiān)L問新智元公眾號(hào),。 |
|