上周我收到兩個截然相反的觀點:一個對機器學習的自動化感到激動,,另一個則對研究機器學習需花費多年深表擔憂,。這兩個問題如下: 問題 1:我聽說谷歌云宣布企業(yè)能夠輕松、快速地在 ML/NLP API 構建數據,。以下說法是否正確:“機器學習和數據提交谷歌云——未來就在眼前,,谷歌已實現(xiàn)自然語言處理和語言技術的進步,用戶可通過 API 享受這些服務,。這項秘密技術已經商業(yè)化,,您可以利用它構建您自己的秘密技術。該秘密技術是否離我們越來越近,?” 問題 2:從事機器學習方面的工作是否要求獲得相關領域的博士學位,?在開始研讀機器學習之前,,是否必須先學數學,,完成微積分、線性代數和概率/統(tǒng)計學的全套大學課程,,然后再學習C/C++ 語言,、并行與分布式程序設計(如 CUDA,MPI,,OpenMP),。根據 Hacker News 網站上的一個熱門評論,即使在完成以上學習之后,,還必須先后在 plain C,、MPI 或 CUDA、Numpy 上練習應用機器學習算法,,最后才能在 Theano 或 TensorFlow 上應用,。 A:在各種夸張宣傳以及“只有天才才能研究人工智能”的警告面前,,人們感到迷惑是完全可以理解的。對于新聞工作者而言,,人工智能是個很難報道的題目,,不幸的是失實報道到處可見。例如:文章(https:///articles/2017/deepcoder_and_ai_hype.html)針對媒體曲解 DeepCoder 的一個近期案例分析進行了論述,。 這兩個問題的答案都是:否,。表面上,它們聽起來像是截然不同,。但是,,它們的思路相同——許多從事機器學習領域的人都傾向于:
的確,機器學習領域正在快速進步,,但是你必須學會編碼才能高效地使用這項技術,。學習我們的免費在線課程 Practical Deep Learning for Coders ,http://course./(AI100 已推出該課程),,僅需70 個小時,,你即可高效地使用深度學習技術。 為什么“機器學習即服務”(MLaaS)在實踐上令人失望 多用途機器學習 API 似乎是個不錯的主意,,但是該技術方面還未成熟?,F(xiàn)有的API 面向的對象過于局限而不能被廣泛應用,或者在嘗試拓寬應用范圍后表現(xiàn)不佳,。我同意 Flightcaster and Prismatic 前創(chuàng)始人和 DataCollective VC 合伙人 Bradford Cross 的觀點,,他最近寫道許多人工智能公司在嘗試開發(fā)客戶需要并且愿意購買的產品時遭遇的失敗:“僅僅因為人工智能十分重要,,相關領域的從業(yè)人員就認為自己引領所有的人類進步,,這種態(tài)度是錯誤的。這股傲慢的風潮使人們看不清當前局勢:每個人都在人云亦云地談論著技術動向,,而無人關心客戶需求以及企業(yè)的經濟意義,。”(筆者強調) Cross 還說,,“機器學習即服務這個想法已經提出了近10 年,,但是這期間越來越被唱衰。它未實現(xiàn)的根本問題是:懂行的人只使用開源,,而不懂行的人即使使用 API 也無法進行開發(fā),。很多非常聰明的朋友都落入了這個陷阱中,。行業(yè)巨頭為了壯大他們的機器學習團隊而進行收并,例如:IBM 收并了 Alchemy API,,英特爾收并了 Saffron,,Salesforce 收并了 Metamind。但是,,一些陷入困境的公司仍受到誘惑,,將機器學習模式附加在 API 功能后以賺取唾手可得的利潤。亞馬遜,、谷歌和微軟都試圖將 MLaaS 層作為他們云服務的一部分進行銷售,。我還未見過創(chuàng)業(yè)公司或大公司在開源下使用 API,但更多的是使用人工智能,,由于我觀察樣本很小,,結論仍存疑問。 谷歌云是否為答案,? 谷歌在將幫助推廣學習領域方面表現(xiàn)不佳,。這并不是因為谷歌意圖不良——而是因為它服務器太多、現(xiàn)金太多且數據太多,,而無暇顧及大多數人所面臨的挑戰(zhàn),,幫助他們以有限的預算(AWS 花費速增!)以及數據集充分利用有限的 GPU,。谷歌大腦技術性過高,,無法被普通開發(fā)者利用。 例如,,TensorFlow 是一種低級語言,,但是谷歌在發(fā)行時似乎并不知曉這一點,也不知如何銷售,。TensorFlow 的設計者本可以使用更加標準的面向對象的方法(例如 PyTorch 就很好),,但是他們謹遵谷歌傳統(tǒng),為谷歌創(chuàng)造新的規(guī)則,。 因此如果谷歌甚至無法設計一個 數據科學家可輕易使用的數據庫,,那么它又怎么能創(chuàng)造出能使普通人用來解決日常問題的技術呢? Hacker News 計劃:“在 plain C 和 CUDA 上先后應用算法,,最后再在 Numpy/MATLAB 上應用” 為什么 Hacker News 的投稿人經常作出有關機器學習的糟糕建議?雖然機器學習背后的理論從高級數學上借鑒了不少,,但是機器學習的實際應用需要的實踐知識大不相同,。作為一名數學博士,相對于構建實際工作模型,,精通數學在機器學習方面并無多大用處,。 Hacker News 評論區(qū)刊載的思路的害處在于:
正如我數周前所寫的那樣:相比將一位深度學習領域的專家插入到你的機構中,,在你的組織中挑選一名領域專家并教授他深度學習的知識更為容易。深度學習專業(yè)的博士畢業(yè)生不太可能像你最能干的員工那樣,,擁有廣泛的相關經驗,,他們更有可能多解決有趣的工程問題感興趣,而不是對具有重大商業(yè)意義的問題保存緊密關注,。 “通過我們多年來在眾多行業(yè)將機器學習應用于解決一系列問題的經驗,,我們總是看到一些組織機構對他們現(xiàn)有內部人才的重視程度和投資力度不足。在大數據浪潮的背景下,,這意味著這些公司將他們的錢花在聘請外部咨詢上,。當今“深度學習排他性”虛假宣傳風潮的掀起意味著搜尋如鳳毛麟角般的深度學習專家,通常經營狀況不佳的深度學習創(chuàng)業(yè)公司需向這些專家支付昂貴的費用,。 停止夸張宣傳(當你不是深度學習專家時) 計算機語言家 Dan Simonson 撰寫了一本答疑手冊(http://blog./?p=461)評價 NLP,、ML 和 AI 并鑒別虛假宣傳:
作為一名自然語言處理研究人員,Simonson 對現(xiàn)今人工智能領域取得的成就感到高興,,但是他指出,,當人們利用從業(yè)人員與公眾之間的知識差距謀利時,整個行業(yè)就受到傷害,。 深度學習研究人員 StephenMerity (就職于 Salesforce/Metamind)發(fā)表了一篇命名貼切的文章《是深度學習而不是魔法:破除人工智能虛假宣傳需問的簡單問題》(It’s ML, not magic: simple questions you should ask to help reduce AI hype,,https:///articles/2016/ml_not_magic.html),。他列出的問題包括:
Merity 還提醒道,,評價模型時通常使用處理和制作程度很高的有限數據集,,結論并不能反映日常處理中的實際數據。 這對你來說意味著什么,? 如果你是一位有志向的機器學習從業(yè)者:恭喜你,!你不需要取得博士學位,你不必從CUDA 或 MPI 開始編寫算法,。如果你擁有一年的編碼經驗,,我們推薦你試試開發(fā)者深度學習實踐課程(Practical Deep Learning for Coders,http://course./),,或者考慮一下我們關于《如何成為數據科學家》(how to become a data scientist,,http://www./2017/03/01/changing-careers/)的建議。 如果你在科技領域工作,,想要創(chuàng)立使用機器學習的公司:恭喜你,!你不必從OpenAI 聘請難找并且昂貴的人工智能博士生。為你的開發(fā)人員的成長和進步提供相應的資源和時間,。著重研究某一特定領域(與該領域的專家合作),,開發(fā)出該領域人們需要且能夠使用的產品。 這是 Ask-A-Data-Scientist 建議專欄最新一期,。請將你關于數據科學的疑問發(fā)送至 rachel@,。 本文作者 Rachel Thomas 是 Fast.ai 的創(chuàng)始人及深度學習研究員。 本文已獲作者授權,,轉載需得到本公眾號同意,。 編譯:AI100 原文鏈接:http://www./2017/03/17/not-commoditized-no-phd/ |
|