1 新智元編譯 來源:github.com 翻譯&整理:劉小芹 新智元啟動新一輪大招聘:COO、執(zhí)行總編,、主編、高級編譯,、主筆,、運營總監(jiān)、客戶經理,、咨詢總監(jiān),、行政助理等 9 大崗位全面開放。 簡歷投遞:j[email protected] HR 微信:13552313024 新智元為COO和執(zhí)行總編提供最高超百萬的年薪激勵,;為骨干員工提供最完整的培訓體系,、高于業(yè)界平均水平的工資和獎金,。 加盟新智元,與人工智能業(yè)界領袖攜手改變世界,。 【新智元導讀】新智元不久前盤點了2016年 Top50 的深度學習庫,,本文則根據 GitHub里星標(Star)數(shù)多少,整理了排名前16的深度學習應用項目,,從風格遷移到生成圖說,、玩FlappyBird游戲、分辨視頻里的不宜內容等,,供你參考實踐,。這份榜單還會持續(xù)更新哦~ 在新智元微信公眾號回復0114,可下載本文提到的論文合集,。 Star:12122 Github 地址:https://github.com/jcjohnson/neural-style 這個項目是用 Torch 對 Leon A. Gatys, Alexander S. Ecker, 和 Matthias Bethge 等人的論文“A Neural Algorithm of Artistic Style”的一個實現(xiàn),。論文中提出一種算法,,用卷積神經網絡將一幅圖像的內容與另一幅圖像的風格進行組合,。下面是一個將梵高《星夜》的藝術風格轉移到斯坦福大學校園夜景的照片中的效果: 將不同的藝術風格應用到同樣一幅圖像中會得出有趣的效果。論文中提供了各種風格的德國賓根大學圖像: Star:10563 GitHub 地址:https://github.com/tensorflow/models/tree/master/im2txt 這是 Oriol Vinyals et. al.(2016)的論文“Show and Tell: Lessons learned from the 2015 MSCOCO Image Captioning Challenge”的用TensorFlow實現(xiàn)的 image-to-text 圖片說明生成模型,。 Show and Tell 模型是一個學習如何描述圖片的深度神經網絡,。生成的圖片說明是一個完整的句子,下面是一些例子: Star:7734 Github 地址:https://github.com/Rochester-NRT/RocAlphaGo 這個項目是有學生主導的一個獨立項目,,使用 Python 和 Keras 重新實現(xiàn)了 DeepMind 在2016年發(fā)表的論文 'Mastering the game of Go with deep neural networks and tree search'(《用深度神經網絡和樹搜索學習圍棋》),。使用 Python 和 Keras 的這個選擇優(yōu)先考慮了代碼清晰度,至少在早期階段是如此,。 這個項目目前仍在進行中,,還不是 AlphaGo 的完全實現(xiàn)。項目先期關注 DeepMind AlphaGo 中神經網絡的訓練方面,,而且已經得到論文中的樹搜索算法(tree search algorithm)的一個簡單單線程的實現(xiàn),,雖然速度上無法與 DeepMind 相比。 Star:7306 Github 地址:https://github.com/alexjc/neural-doodle 使用深度神經網絡把你的二流涂鴉變成藝術一般的作品,!這個項目是 Champandard(2016)的論文 “Semantic Style Transfer and Turning Two-Bit Doodles into Fine Artworks”的一個實現(xiàn),,基于 Chuan Li 和 Michael Wand(2016)在論文“Combining Markov Random Fields and Convolutional Neural Networks for Image Synthesis”中提出的 Neural Patches 算法。這篇文章中深入解釋了這個項目的動機和靈感來源:https:///blog/neural-doodles/ doodle.py 腳本通過使用1個,,2個,,3個或4個圖像作為輸入來生成新的圖像,輸入的圖像數(shù)量取決于你希望生成怎樣的圖像:原始風格及它的注釋(annotation),,以及帶有注釋(即你的涂鴉)的目標內容圖像(可選),。該算法從帶風格圖像中提取 annotated patches,然后根據它們匹配的緊密程度用這些 annotated patches 漸進地改變目標圖像的風格,。 Star:6072 Github 地址:https://github.com/cmusatyalab/openface OpenFace 是一個使用深度神經網絡,,用 Python 和 Torch 實現(xiàn)人臉識別的項目,。神經網絡模型基于 Google Florian Schroff 等人的 CVPR 2015 論文“FaceNet: A Unified Embedding for Face Recognition and Clustering” ,Torch 讓網絡可以在 CPU 或 CUDA 上運行,。 這是CMU的一個使用深度神經網絡進行人臉識別的免費,、開源項目。該項研究得到美國國家科學基金會(NSF)的支持,,以及英特爾,、谷歌、 Vodafone,、英偉達和 Conklin Kistler 的額外支持,。這個 Github 庫中包含 batch-represent、real-time web,、compare.py,、vis-outputs.lua、classifier.py 等的 demo 和測試,、訓練,、評估等的代碼。 Star:3951 Github 地址:https://github.com/david-gpu/srez srez(super-resolution through deep learning),,即通過深度學習實現(xiàn)圖像超分辨率,。這個項目是利用深度學習將 16x16 的圖像分辨率增加 4 倍,基于用來訓練神經網絡的數(shù)據集,,所得到的圖像具有鮮明的特征,。 下圖是這個網絡所能做到的一個隨機、沒有特意挑選的示例,。從左到右,,第一列是 16x16 的輸入圖像,第二列是利用標準的雙三次插值算法(bicubic interpolation)所能得到的結果,,第三列是我們的神經網絡的結果,,然后最右列是原本的真實圖像。 如你所見,,神經網絡能夠產生與原始的人臉非常相似的圖像,。由于用于訓練的數(shù)據集主要由面朝正前方而且光線良好的人臉圖像組成,所以當臉的朝向不是正前方,、光線不足或臉被眼鏡或手遮住了部分時,,輸出的效果會比較差。 Star:3076 Github 地址:https://github.com/yahoo/open_nsfw 這是雅虎構建的用于檢測圖片是否包含不適宜工作場所(NSFW)內容的深度神經網絡項目,,GitHub 庫中包含了網絡的 Caffe 模型的代碼,。檢測具有攻擊性或成人內容的圖像是研究人員進行了幾十年的一個難題。隨著計算機視覺技術和深度學習的發(fā)展,算法已經成熟,,雅虎的這個模型能以更高的精度分辨色情圖像,。 由于 NSFW 界定其實是很主觀的,有的人反感的東西可能其他人并不覺得如何,。雅虎的這個深度神經網絡只關注NSFW內容的一種類型,,即色情圖片,所以該模型不適用于檢測素描,、文字,、動畫、暴力圖片等內容,。 Star:3010 Github 地址:https://github.com/karpathy/neuraltalk2 循環(huán)神經網絡(RNN)可以用于給圖像取標題,。NeuralTalk2 比原始版本的 NeuralTalk 更快而且性能更好。與原來的 NeuralTalk 相比,,NeuralTalk2 的實現(xiàn)是批量的,,可以使用 Torch 在 GPU上運行,并且支持 CNN 微調,。這些都使得語言模型(~100x)的訓練速度大大加快,,但由于我們還有一個 VGGNet,因此總體上的提升沒有很多,。但是這仍然是個好模型,,可以在 2~3 天里訓練好,而且表現(xiàn)出的性能非常好,。 Google Brain 2016年9月22日發(fā)布了 Vinyals et al.(2015)的圖說模型(前文介紹的Show and Tell 模型)。它的核心模型與 NeuralTalk2(一個CNN后面跟著RNN)非常相似,,但由于 Google 有更好的CNN,,加上一些小技巧和更細致的工程,Google 發(fā)布的模型應該比 NeuralTalk2 的效果更好,。這個項目里用 Torch 實現(xiàn)的代碼將作為教育目的保留,。 Star:2956 Github 地址:https://github.com/pavelgonchar/colornet Colornet 是一個給灰度圖像自動上色的神經網絡。效果如上圖所示,。 Star:2769 GitHub 地址:https://github.com/awentzonline/image-analogies “神經圖像類比”(neural image analogies)這個項目基本上是 A. Hertzmann et. al(2001)的論文“Image Analogies”的一個實現(xiàn),。在這個項目中,我們使用了 VGG16 的特征,,利用 Chuan Li, Michael Wand (2016) 的論文“Combining Markov Random Fields and Convolutional Neural Networks for Image Synthesis”中描述的方法進行patch的匹配和混合,。初始代碼改編自 Keras 的“神經風格遷移”示例。 Star:2143 Github 地址:https://github.com/yenchenlin/DeepLearningFlappyBird 這個項目使用深度Q網絡(Deep Q-Network,,DQN)學習玩 Flappy Bird 游戲,。 這個項目靈感來自使用深度增強學習玩 Atari 游戲(Mnih, Volodymyr, et al. 'Playing atari with deep reinforcement learning.' 2013),論文中提出深度Q學習算法(Deep Q Learning algorithm),我們發(fā)現(xiàn)這個算法可以推廣到 Flappy Bird 游戲上,。 DQN 是一個卷積神經網絡,,用 Q-learning 的變體進行訓練,其輸入是原始像素,,輸出是一個預估未來的獎勵的價值函數(shù),。由于DQN的訓練的每個時間步驟都需要觀察屏幕中的原始像素值,Kevin Chen 發(fā)現(xiàn)刪除原始游戲中的背景可以讓收斂更快,。這個過程如下圖所示: Star:1753 GitHub 地址:https://github.com/ryankiros/neural-storyteller Neural-storyteller 是一個能夠根據圖像內容生成一個小故事的循環(huán)神經網絡,。這個 GitHub 庫里包含了使用任意圖像生成故事的代碼,以及用于訓練新模型的說明,。整個方法包含以下4個部分:
例如,,對下面這張圖像,模型生成的故事如下: We were barely able to catch the breeze at the beach, and it felt as if someone stepped out of my mind. She was in love with him for the first time in months, so she had no intention of escaping. The sun had risen from the ocean, making her feel more alive than normal. She's beautiful, but the truth is that I don't know what to do. The sun was just starting to fade away, leaving people scattered around the Atlantic Ocean. I'd seen the men in his life, who guided me at the beach once more. Star:1715 GitHub 地址:https://github.com/ryanjay0/miles-deep 這是一個在 Caffe 上實現(xiàn)的深度學習色情視頻分類器/編輯器,。使用有殘差連接的卷積神經網絡,,Miles Deep 能根據性行為的類別將色情視頻按沒秒的場景快速分為六個類別,準確率達到 95%,。然后,,它能夠利用該分類自動編輯視頻,可以刪除所有不包含性接觸的場景,,或者編輯出一個特定的行為,。 與雅虎的使用相似架構的 NSFW 模型不同,Miles Deep 能區(qū)分裸體和其他顯性的性行為之間的區(qū)別,。這是第一個也是唯一一個也是唯一一個公開發(fā)布的色情內容分類及編輯工具,。 Star:1381 GitHub 地址:https://github.com/jisungk/deepjazz 這是一個使用 Keras 和 Theano 生成爵士樂的深度學習項目。作者 Ji-Sung Kim 在參加黑客馬拉松(hackathon)的36個小時內建成這個模型,,它使用兩個深度學習庫 Keras 和 Theano 生成爵士音樂,。具體來說,它構建兩層的 LSTM,,從跟定的 MIDI 文件中學習,,利用深度學習技術生成音樂。 Deep Jazz 生成的 Jazz 可以在這個網站上欣賞:https:///deepjazz-ai Star:1252 GitHub 地址:https://github.com/buriburisuri/speech-to-text-wavenet 這是一個基于 DeepMind 的 WaveNet 和 TensorFlow 的端到端句子級語音識別項目,。這是DeepMind 的論文“WaveNet: A Generative Model for Raw Audio”的一個實現(xiàn),。雖然已經有研究者用 TensorFlow 實現(xiàn)了 WaveNet,但他們沒有實現(xiàn)語音識別,。DeepMind 最近的一些論文很難復制,。這篇論文中省略了有關實現(xiàn)的具體細節(jié),所以這個 GitHub 庫中提供了作者的方式來補充缺失的細節(jié),。 最終的架構如下: Star:1193 GitHub 地址:https://github.com/kuz/DeepMind-Atari-Deep-Q-Learner 這個項目包含 DQN 3.0 的源代碼,,DQN 3.0 是一個基于 Lua 的深度增強學習架構,該架構對再現(xiàn) DeepMind 2015年的 Nature 論文“Human-level control through deep reinforcement learning”是必要的,。為了復制 DeepMind 的實驗結果,,需要安裝以下內容:
這個 GitHub 庫包含 Nature 論文上的原始代碼以及作者的實驗代碼,。使用 nVidia GTX 970 在Ubuntu 14.04上的測試結果如下: 新智元招聘 職位 運營總監(jiān) 職位年薪:36- 50萬(工資+獎金) 工作地點:北京-海淀區(qū) 所屬部門:運營部 匯報對象:COO 下屬人數(shù):2人 年齡要求:25 歲 至 35 歲 性別要求:不限 工作年限:3 年以上 語 言:英語6級(海外留學背景優(yōu)先) 職位描述
崗位要求
新智元歡迎有志之士前來面試,更多招聘崗位請訪問新智元公眾號,。
|
|
來自: 天天向上HotRun > 《深度學習》