機器學習依然奇貨可居，但不是只有博士才能玩得轉

天道酬勤YXJ1 2017-03-22

展開全文

【AI100 導讀】AI100 正在播出 Jeremy Howard 教授講授的 Fast.ai 課程,。最近,，F(xiàn)ast.ai 的另一位創(chuàng)始人 Rachel Thomas 發(fā)表了一篇文章，強調了,，也可以說是重申了她和 Jeremy Howard 對于 AI 教育的看法——只要方法對路,，任何有決心和毅力的人都可以學會深度學習。

上周我收到兩個截然相反的觀點：一個對機器學習的自動化感到激動,，另一個則對研究機器學習需花費多年深表擔憂,。這兩個問題如下：

問題 1：我聽說谷歌云宣布企業(yè)能夠輕松、快速地在 ML/NLP API 構建數據,。以下說法是否正確：“機器學習和數據提交谷歌云——未來就在眼前,，谷歌已實現(xiàn)自然語言處理和語言技術的進步，用戶可通過 API 享受這些服務,。這項秘密技術已經商業(yè)化,，您可以利用它構建您自己的秘密技術。該秘密技術是否離我們越來越近,？”

問題 2：從事機器學習方面的工作是否要求獲得相關領域的博士學位,？在開始研讀機器學習之前,，是否必須先學數學,，完成微積分、線性代數和概率/統(tǒng)計學的全套大學課程,，然后再學習C/C++ 語言,、并行與分布式程序設計（如 CUDA，MPI,，OpenMP）,。根據 Hacker News 網站上的一個熱門評論，即使在完成以上學習之后,，還必須先后在 plain C,、MPI 或 CUDA、Numpy 上練習應用機器學習算法,，最后才能在 Theano 或 TensorFlow 上應用,。

A：在各種夸張宣傳以及“只有天才才能研究人工智能”的警告面前,，人們感到迷惑是完全可以理解的。對于新聞工作者而言,，人工智能是個很難報道的題目,，不幸的是失實報道到處可見。例如：文章（https:///articles/2017/deepcoder_and_ai_hype.html）針對媒體曲解 DeepCoder 的一個近期案例分析進行了論述,。

這兩個問題的答案都是：否,。表面上，它們聽起來像是截然不同,。但是,，它們的思路相同——許多從事機器學習領域的人都傾向于：

說服你購買他們的多用途機器學習 API（他們都動機不純，只是想獲得人才收購）,。
說服你相信他們從事的工作相當復雜,、困難并且從業(yè)門檻高，非一般人可以理解,。（最近有關這個常見話題的一篇 reddit 戲仿文在經過投票后躍居機器學習版面頭條：A super harsh guide to machine learning,，https://www./r/MachineLearning/comments/5z8110/d_a_super_harsh_guide_to_machine_learning/）

的確，機器學習領域正在快速進步,，但是你必須學會編碼才能高效地使用這項技術,。學習我們的免費在線課程 Practical Deep Learning for Coders ，http://course./（AI100 已推出該課程）,，僅需70 個小時,，你即可高效地使用深度學習技術。

為什么“機器學習即服務”（MLaaS）在實踐上令人失望

多用途機器學習 API 似乎是個不錯的主意,，但是該技術方面還未成熟?，F(xiàn)有的API 面向的對象過于局限而不能被廣泛應用，或者在嘗試拓寬應用范圍后表現(xiàn)不佳,。我同意 Flightcaster and Prismatic 前創(chuàng)始人和 DataCollective VC 合伙人 Bradford Cross 的觀點,，他最近寫道許多人工智能公司在嘗試開發(fā)客戶需要并且愿意購買的產品時遭遇的失敗：“僅僅因為人工智能十分重要,，相關領域的從業(yè)人員就認為自己引領所有的人類進步,，這種態(tài)度是錯誤的。這股傲慢的風潮使人們看不清當前局勢：每個人都在人云亦云地談論著技術動向,，而無人關心客戶需求以及企業(yè)的經濟意義,。”（筆者強調）

Cross 還說,，“機器學習即服務這個想法已經提出了近10 年,，但是這期間越來越被唱衰。它未實現(xiàn)的根本問題是：懂行的人只使用開源,，而不懂行的人即使使用 API 也無法進行開發(fā),。很多非常聰明的朋友都落入了這個陷阱中,。行業(yè)巨頭為了壯大他們的機器學習團隊而進行收并，例如：IBM 收并了 Alchemy API,，英特爾收并了 Saffron,，Salesforce 收并了 Metamind。但是,，一些陷入困境的公司仍受到誘惑,，將機器學習模式附加在 API 功能后以賺取唾手可得的利潤。亞馬遜,、谷歌和微軟都試圖將 MLaaS 層作為他們云服務的一部分進行銷售,。我還未見過創(chuàng)業(yè)公司或大公司在開源下使用 API，但更多的是使用人工智能,，由于我觀察樣本很小,，結論仍存疑問。

谷歌云是否為答案,？

谷歌在將幫助推廣學習領域方面表現(xiàn)不佳,。這并不是因為谷歌意圖不良——而是因為它服務器太多、現(xiàn)金太多且數據太多,，而無暇顧及大多數人所面臨的挑戰(zhàn),，幫助他們以有限的預算（AWS 花費速增！）以及數據集充分利用有限的 GPU,。谷歌大腦技術性過高,，無法被普通開發(fā)者利用。

例如,，TensorFlow 是一種低級語言,，但是谷歌在發(fā)行時似乎并不知曉這一點，也不知如何銷售,。TensorFlow 的設計者本可以使用更加標準的面向對象的方法（例如 PyTorch 就很好）,，但是他們謹遵谷歌傳統(tǒng)，為谷歌創(chuàng)造新的規(guī)則,。

因此如果谷歌甚至無法設計一個數據科學家可輕易使用的數據庫,，那么它又怎么能創(chuàng)造出能使普通人用來解決日常問題的技術呢？

Hacker News 計劃：“在 plain C 和 CUDA 上先后應用算法,，最后再在 Numpy/MATLAB 上應用”

為什么 Hacker News 的投稿人經常作出有關機器學習的糟糕建議？雖然機器學習背后的理論從高級數學上借鑒了不少,，但是機器學習的實際應用需要的實踐知識大不相同,。作為一名數學博士，相對于構建實際工作模型,，精通數學在機器學習方面并無多大用處,。

Hacker News 評論區(qū)刊載的思路的害處在于：

完全錯誤,。
好的教育激發(fā)對深層概念的學習。借用 Paul Lockhart 在《數學家的感嘆》（Mathmatician’s Lament,，https://www./external_archive/devlin/LockhartsLament.pdf）中的比喻,，如果讓小孩長年學習音樂理論，期間不允許他們唱歌或彈樂器,，他們便會放棄學習音樂,。
好的教育不會過分將學習材料復雜化。如果您真正理解什么東西,，您就能以用易于理解的方式對其進行解釋,。在對“開發(fā)者深度學習實踐課程”進行了幾周的研究后，Jeremy Howard 在 Excel 中應用了幾種不同的現(xiàn)代優(yōu)化技巧（通常被認為是一個復雜的課題）以使這項技巧更加清晰,。

正如我數周前所寫的那樣：相比將一位深度學習領域的專家插入到你的機構中,，在你的組織中挑選一名領域專家并教授他深度學習的知識更為容易。深度學習專業(yè)的博士畢業(yè)生不太可能像你最能干的員工那樣,，擁有廣泛的相關經驗,，他們更有可能多解決有趣的工程問題感興趣，而不是對具有重大商業(yè)意義的問題保存緊密關注,。

“通過我們多年來在眾多行業(yè)將機器學習應用于解決一系列問題的經驗,，我們總是看到一些組織機構對他們現(xiàn)有內部人才的重視程度和投資力度不足。在大數據浪潮的背景下,，這意味著這些公司將他們的錢花在聘請外部咨詢上,。當今“深度學習排他性”虛假宣傳風潮的掀起意味著搜尋如鳳毛麟角般的深度學習專家，通常經營狀況不佳的深度學習創(chuàng)業(yè)公司需向這些專家支付昂貴的費用,。

停止夸張宣傳（當你不是深度學習專家時）

計算機語言家 Dan Simonson 撰寫了一本答疑手冊（http://blog./?p=461）評價 NLP,、ML 和 AI 并鑒別虛假宣傳：

是否有現(xiàn)存培訓數據？如果沒有,，他們如何獲取這些數據,？
他們的應用程序開發(fā)過程中是否有一個評價流程？
他們提議的應用程序是否依賴特定人工智能元件擁有空前高的性能,？
提議的解決方案是否依賴經過證明的可靠事件,？
如果使用預裝人工智能元件，他們是否制定有明確的計劃,，對從使用這些元件到獲得重要的應用程序輸出進行規(guī)劃,。

作為一名自然語言處理研究人員，Simonson 對現(xiàn)今人工智能領域取得的成就感到高興,，但是他指出,，當人們利用從業(yè)人員與公眾之間的知識差距謀利時，整個行業(yè)就受到傷害,。

深度學習研究人員 StephenMerity （就職于 Salesforce/Metamind）發(fā)表了一篇命名貼切的文章《是深度學習而不是魔法：破除人工智能虛假宣傳需問的簡單問題》（It’s ML, not magic: simple questions you should ask to help reduce AI hype,，https:///articles/2016/ml_not_magic.html）,。他列出的問題包括：

需要多少培訓數據？
這項工作是否可以不受監(jiān)督（即不標示例子）,？
系統(tǒng)能否根據詞匯名稱進行預測,？“例如，如果我說“我的朋友 Rudinyard 對我很刻薄”—— 許多人工智能系統(tǒng)無法回答“誰對我很刻??？”，因為它的詞匯庫沒有 Rudinyard 這個詞,。
準確性如何隨著輸入內容長度的增加而下降,？
該模型性能的穩(wěn)定性是否會隨著時間的推移而變化？

Merity 還提醒道,，評價模型時通常使用處理和制作程度很高的有限數據集,，結論并不能反映日常處理中的實際數據。

這對你來說意味著什么,？

如果你是一位有志向的機器學習從業(yè)者：恭喜你,！你不需要取得博士學位，你不必從CUDA 或 MPI 開始編寫算法,。如果你擁有一年的編碼經驗,，我們推薦你試試開發(fā)者深度學習實踐課程（Practical Deep Learning for Coders，http://course./）,，或者考慮一下我們關于《如何成為數據科學家》（how to become a data scientist,，http://www./2017/03/01/changing-careers/）的建議。

如果你在科技領域工作,，想要創(chuàng)立使用機器學習的公司：恭喜你,！你不必從OpenAI 聘請難找并且昂貴的人工智能博士生。為你的開發(fā)人員的成長和進步提供相應的資源和時間,。著重研究某一特定領域（與該領域的專家合作）,，開發(fā)出該領域人們需要且能夠使用的產品。

這是 Ask-A-Data-Scientist 建議專欄最新一期,。請將你關于數據科學的疑問發(fā)送至 rachel@,。

本文作者 Rachel Thomas 是 Fast.ai 的創(chuàng)始人及深度學習研究員。

本文已獲作者授權,，轉載需得到本公眾號同意,。

編譯：AI100

原文鏈接：http://www./2017/03/17/not-commoditized-no-phd/