請(qǐng)注意,,這篇文章的標(biāo)題不是關(guān)于機(jī)器學(xué)習(xí)的'最重要的5件事情'或'前5件事',;這只是'5件事'。它不具有權(quán)威性的,,也并不是事無巨細(xì)的,,僅僅是5件可能有用的東西的集合。 1.數(shù)據(jù)準(zhǔn)備是機(jī)器學(xué)習(xí)的80%,,所以…… 在機(jī)器學(xué)習(xí)任務(wù)中,,數(shù)據(jù)準(zhǔn)備花費(fèi)了很大一部分的時(shí)間;或者,,至少花費(fèi)了一個(gè)看似很大一部分的時(shí)間,。許多人都是這樣認(rèn)為的。 我們經(jīng)常討論執(zhí)行數(shù)據(jù)準(zhǔn)備時(shí)的細(xì)節(jié)以及其重要性的原因,;但除了這些之外,,我們還應(yīng)該關(guān)注到更多的東西。那就是為什么我們應(yīng)該關(guān)心數(shù)據(jù)準(zhǔn)備,。我的意思不是僅僅為了得到一致性的數(shù)據(jù),,但更像一個(gè)哲學(xué)性的謾罵,以便讓你明白為什么應(yīng)該接受數(shù)據(jù)準(zhǔn)備,。做好數(shù)據(jù)準(zhǔn)備工作,,做一個(gè)有數(shù)據(jù)準(zhǔn)備的人。 CRISP-DM模型中的數(shù)據(jù)準(zhǔn)備,。 我可以想到的一些關(guān)于機(jī)器學(xué)習(xí)最好的建議就是,,既然你注定要為一個(gè)大項(xiàng)目花非常多的時(shí)間準(zhǔn)備數(shù)據(jù),那么決心做一名最好的數(shù)據(jù)準(zhǔn)備的專業(yè)人士,,是一個(gè)相當(dāng)好的目標(biāo),。因?yàn)樗粌H僅只是費(fèi)時(shí)費(fèi)力的工作,數(shù)據(jù)準(zhǔn)備其實(shí)對(duì)對(duì)后續(xù)的步驟(無效數(shù)據(jù)的輸入,、無效數(shù)據(jù)的輸出等)有很大的重要性,,并且因?yàn)樽鳛橐粋€(gè)糟糕的數(shù)據(jù)準(zhǔn)備人員而產(chǎn)生壞名聲也不會(huì)是世界上最糟糕的事情,。 所以,是的,,雖然數(shù)據(jù)準(zhǔn)備可能需要一段時(shí)間來執(zhí)行和掌握,,但這真的不是一件壞事。在數(shù)據(jù)準(zhǔn)備存在的必要性中有著很多機(jī)會(huì),,無論是對(duì)一名脫穎而出的專業(yè)人士,,還是展現(xiàn)你工作能力很強(qiáng)的內(nèi)在價(jià)值。 2.性能基線的值 當(dāng)你用一個(gè)特定的算法模擬了一些數(shù)據(jù),,并且花了很多時(shí)間來調(diào)整你的超參數(shù),,執(zhí)行一些工程特點(diǎn)和/或著挑選;你很高興,,因?yàn)槟阋呀?jīng)鉆研出了如何訓(xùn)練準(zhǔn)確性,,比方說,準(zhǔn)確性是75%,。你對(duì)自己完成的工作十分滿意,。 但是,你將你得到的結(jié)果與什么進(jìn)行了比較,?如果你沒有基線——一個(gè)比拇指規(guī)則都簡(jiǎn)單的完整檢查來比較你的數(shù)據(jù)——然后你實(shí)際上并沒有把那些辛勤勞動(dòng)的結(jié)果與任何東西進(jìn)行比較,。所以就有理由理所當(dāng)然的認(rèn)為任何準(zhǔn)確性在沒有與其他數(shù)據(jù)比較時(shí)都是有價(jià)值的了么?顯然不是,。 隨機(jī)猜測(cè)不是基線的最佳方案,;相反,的確存在廣為接受的用于確定比較基準(zhǔn)精度的方法,。例如,Scikit-learn在其DummyClassifier的分類中提供了一系列基線分類器:
基線也不僅是分類器;例如,,基線回歸任務(wù)中也存在統(tǒng)計(jì)方法,。在探索性數(shù)據(jù)分析、數(shù)據(jù)準(zhǔn)備和預(yù)處理之后,,建立基線是機(jī)器學(xué)習(xí)工作流程中的一個(gè)合乎邏輯的下一步,。
3.驗(yàn)證:不止于訓(xùn)練和測(cè)試 當(dāng)我們建立機(jī)器學(xué)習(xí)模型時(shí),我們訓(xùn)練他們使用訓(xùn)練數(shù)據(jù),。當(dāng)我們測(cè)試結(jié)果模型時(shí),,我們使用測(cè)試數(shù)據(jù),。那么驗(yàn)證是在哪里出現(xiàn)的呢? fast.ai的Rachel Thomas最近寫了一篇關(guān)于如何以及為什么創(chuàng)建良好的驗(yàn)證集的文章,,并介紹了以下3類數(shù)據(jù):
(例如,,隨機(jī)森林和神經(jīng)網(wǎng)絡(luò)哪個(gè)更好地解決了您的問題?你想要一個(gè)有40棵或者50棵樹的隨機(jī)森林嗎,?)
因此,,將數(shù)據(jù)隨機(jī)拆分為測(cè)試,、訓(xùn)練和驗(yàn)證集一定是個(gè)好主意嗎?事實(shí)證明,,答案是否定的,。雷切爾在時(shí)間序列數(shù)據(jù)的文中解答了此問題:Kaggle目前正努力解決預(yù)測(cè)厄瓜多爾雜貨店銷售量的預(yù)測(cè)問題。Kaggle的'訓(xùn)練數(shù)據(jù)'從2013年1月1日運(yùn)行到2017年8月15日,,測(cè)試數(shù)據(jù)跨越了2017年8月16日到2017年8月31日,。使用2017年8月1日到8月15日作為您的驗(yàn)證集不失為一種好的方法,并且所有早期的數(shù)據(jù)也可以作為您的訓(xùn)練集,。 這篇文章的其余部分將涉及到分裂到Kaggle競(jìng)爭(zhēng)數(shù)據(jù)的數(shù)據(jù)集,,這是十分實(shí)用的;并且我將會(huì)把交叉驗(yàn)證納入討論,,讀者可以按照我的方法自行探究,。 其他許多時(shí)候,數(shù)據(jù)的隨機(jī)分割會(huì)是有用的,;它取決于進(jìn)一步的因素,,如當(dāng)你得到數(shù)據(jù)時(shí)數(shù)據(jù)的狀態(tài),(它是否已被分為訓(xùn)練/測(cè)試數(shù)據(jù),?),,以及它是什么類型的數(shù)據(jù)(見上面的時(shí)間序列分類)。 對(duì)于什么條件下隨機(jī)拆分是可行的,,Scikit可能沒有train_validate_test_split的方法,,但您可以利用標(biāo)準(zhǔn)的Python庫(kù)來創(chuàng)建您自己的方法。
4.集成方法可比樹還要多 選擇算法對(duì)于機(jī)器學(xué)習(xí)新手來說可能是一個(gè)挑戰(zhàn),。在構(gòu)建分類器時(shí),,特別是對(duì)于初學(xué)者來說,通常采用一種方法來解決單個(gè)算法的單實(shí)例問題,。然而,,在給定的情況下,,把分類器串聯(lián)或是組合起來會(huì)更加有效;這種方式使用了投票,、加權(quán),、和組合的技術(shù),以追求最準(zhǔn)確的分類器,。集成學(xué)習(xí)就是用多種方式來提供此功能的分類器,。 隨機(jī)森林是集合學(xué)習(xí)者的一個(gè)非常重要的例子,它在一個(gè)預(yù)測(cè)模型中使用許多個(gè)決策樹,。隨機(jī)森林已成功地應(yīng)用于各種問題,,并據(jù)此取得了很好的效果。但它們不是唯一存在的集成方法,,許多其他的也值得一試,。 關(guān)于套袋操作的簡(jiǎn)單概念:建立多個(gè)模型,觀察這些模型的結(jié)果,,并解決大多數(shù)的結(jié)果,。我最近有一個(gè)關(guān)于我的車后橋總成的問題:我沒有采取診斷問題的經(jīng)銷商的建議,并且我把它帶到其他兩個(gè)修車的地方,,這兩個(gè)都認(rèn)為這個(gè)問題是和經(jīng)銷商所提出的不同問題,。這就說明,套袋在實(shí)際生活中的運(yùn)用,。隨機(jī)森林就是基于套袋技術(shù)所改進(jìn)的,。 加速類似于套袋,但有一個(gè)概念上的略微不同,。它不是將相等的權(quán)重分配給模型,,而是增加了對(duì)分類器的權(quán)重分配,并導(dǎo)出了基于加權(quán)投票的最終結(jié)果,。再以我的汽車問題為例,,也許我過去曾多次去過一個(gè)修車行,并且比其他人更信任他們的診斷,。同時(shí)假設(shè)我之前并沒有和經(jīng)銷商有過互動(dòng)或打過交道,并且相比較而言我更不相信他們的能力,。我分配的重量將是反射性的,。 堆疊與前兩個(gè)技術(shù)有所不同,因?yàn)樗?xùn)練多個(gè)單一分類器,,而不是各種相同的學(xué)習(xí)者的集合,。雖然套袋和加速使用了許多建立的模型,使用了相同的分類算法的不同實(shí)例(如決策樹),,但堆疊建立模型也使用了不同的分類算法(比如決策樹,,邏輯回歸,,一個(gè)ANNs或其他的組合)。 然后,,通過對(duì)其他算法的預(yù)測(cè),,對(duì)合并算法進(jìn)行訓(xùn)練,以得到最終的預(yù)測(cè),。這種組合可以是任何集成技術(shù),,但邏輯回歸往往被認(rèn)為是一個(gè)來執(zhí)行這一組合最充分和最簡(jiǎn)單的算法。隨著分類的進(jìn)行,,堆疊也可以在非監(jiān)督學(xué)習(xí)任務(wù)(如密度估計(jì))中使用,。 5.谷歌Colab?
最后,,讓我們來看看一些更實(shí)用的東西,。Jupyter Notebook事實(shí)上已成為數(shù)據(jù)科學(xué)開發(fā)最實(shí)用的工具,大多數(shù)人都在個(gè)人電腦,,或者通過一些其他配置——比較復(fù)雜的方法(如在Docker容器或虛擬機(jī)中) 運(yùn)行該軟件,。首先第一個(gè)受到關(guān)注的就是谷歌的Colaboratory,它允許Jupyter風(fēng)格和兼容的Notebook直接運(yùn)行在您的Google驅(qū)動(dòng)器中,,不需要任何配置,。 Colaboratory是預(yù)先配置了一些近期較為流行的Python庫(kù),并通過支持的打包管理,,使其可以把自己安裝在Notebooks中,。例如,TensorFlow就屬于這一類,,但Keras不是,;但通過pip安裝Keras僅需要幾秒鐘的時(shí)間。 在這一問題上的好消息就是,,如果你使用的是神經(jīng)網(wǎng)絡(luò),,你可以在你的訓(xùn)練中啟用GPU硬件加速,開啟一次就可以享受長(zhǎng)達(dá)12小時(shí)的免費(fèi)服務(wù),。這個(gè)好消息其實(shí)并沒有它一開始看起來那么完美,,但這也算是一個(gè)額外的好處,也是一個(gè)全民化GPU加速的良好開端,。
|
|