源 / 大數(shù)據(jù)應(yīng)用 文 /Kelly卡里 Kaggle 是數(shù)據(jù)領(lǐng)域最廣為人知的一個社區(qū),數(shù)據(jù)玩兒的溜的大佬們都會不厭其煩地參與其中,,去調(diào)整有意思的機器學(xué)習(xí)項目,發(fā)揮好了拿點小錢,,沒發(fā)揮好也能拿個銀牌銅牌什么的。一個有價值有意義有理想有追求的機器學(xué)習(xí)項目可以有效地幫助競賽者充分展現(xiàn)自己的能力和自己的價值,。并且在很多時候,對于求職者而言,,Kaggle 比賽可以幫助你在宛如魚缸的求職市場里脫穎而出,,變成整個魚缸最靚的 Gold Fish。 想要問鼎 Kaggle 比賽,,你大概需要拿出三分鐘的時間看完這篇文章了,。在這篇文章里,,我們會給你提出十條想要問鼎 Kaggle 你必須知道的十個小tip。 選一個好環(huán)境 客官你覺著星巴克環(huán)境好點兒還是blue bottle強點兒,? 想什么呢你? 這里我們提到的環(huán)境,,是編程環(huán)境,!就是你的代碼過的舒不舒服,;代碼不出bug才是爸爸,誰在乎你這個寫bug的小能手呢,? 機器學(xué)習(xí)的編程環(huán)境有很多種,你也會像一個射手座一樣沾花惹草用一堆,,但是 Kaggle 這種嚴肅認真的環(huán)境,,我們建議你只用一種。最紅火的兩個環(huán)境就是 R 和 Python。 學(xué)過統(tǒng)計的朋友們對 R 肯定不陌生了,,這個語言被拿來輔助統(tǒng)計教學(xué)已經(jīng)很久很久了,,它大概是從 1993 年左右開始被大家接觸到的,。Python 的話,相比于 R,,就更多功能一點。中央空調(diào)大暖男,,也是在90年代初和大家認識的。使用到這兩種語言的時候配套所需的 everything 都發(fā)展的比較成熟了,,R語言已經(jīng)被發(fā)掘出了超過13,000個Packages,,Python也被非常廣泛地使用Package,,比如 scikit-learn,,pandas,NumPy 等等,。最近 Python 還參與到了深度學(xué)習(xí)的小家庭里,,和 Theano,TensorFlow,,Keras 處的都不錯。 找個熟悉的下手 熟悉的嘛,,一般比較容易信任你,,輕輕松松就.。,。。是吧 想什么呢你,? 我說的是數(shù)據(jù)集啊兄dei!當(dāng)你選定了你要從一而終的語言以后,,你就需要開始和真實的數(shù)據(jù)集一起訓(xùn)練啦,!一個非常值得被你借鑒的建議就是,去找一個真實的,,簡單的,廣為人知的數(shù)據(jù)集去練一練先,。給你們推薦一個絕好的東西:UCI Machine Learning Repository,搜搜看有驚喜,。你可以把每一個項目都當(dāng)做一個迷你 Kaggle 來練習(xí),。 迷你項目拆分秘籍 1. 把數(shù)據(jù)集分為訓(xùn)練集(training set)和測試集(test set),,然后測試集(test set)分為公共的(public)和私密的(private)從而無限接近 Kaggle 的設(shè)置。 2. 還記得那個你選中的要和你從一而終的仔么,?用那個語言配合著統(tǒng)計算法去對每個數(shù)據(jù)集做預(yù)測(prediction)這一步需要你用不同的數(shù)據(jù)集反復(fù)練習(xí),練多少遍合適呢,?越多越好。 3. 然后你就要去給每一個你做的練習(xí)找一個標準答案了,。哪兒找呢?谷歌一下,,你就知道,。這就是為什么我們最開始說要用廣為人知的數(shù)據(jù)集,,這樣就很方便你找到別人給出的solution。舉個栗子,,你不找你都不會知道有多少人拿 Iris Data Set 做數(shù)據(jù)練習(xí)。 撕破“小丫頭”的兩幅面孔 金星老師的話是不是突然在你耳邊團團團團團團團團轉(zhuǎn),? 想什么呢你? 我說的是數(shù)據(jù)轉(zhuǎn)換這個小丫頭啦,!要去探究一下數(shù)據(jù)轉(zhuǎn)換的多面性。業(yè)內(nèi)給數(shù)據(jù)轉(zhuǎn)換起了很多名字,,最常見的 Data Transformation,,還有 Data Wrangling,或者 Data Munging,。數(shù)據(jù)轉(zhuǎn)換的過程包括了很多:merging data, aggregating data, cleansing data, handle missing data, making data consistent 等等等等,。數(shù)據(jù)轉(zhuǎn)換通常會占用整個 project 超過百分之70的時間成本和金錢成本,,所以是爸爸。所以需要你多去探究一下,,別虧待了爸爸,。 撩人要撩心 這個你真的得聽我的,我是射手座,。 想什么呢你? Feature Engineering 你聽說過么,?這是一種教會你如何透過冰冷的數(shù)據(jù)洞悉對方內(nèi)心的高科技!Feature Engineering 是當(dāng)你這場數(shù)據(jù)殺里玩預(yù)言家的那位擁有超強預(yù)測能力的時候,,我們提到的一種讀心術(shù),。 據(jù)我們最精準的消息返回來的報告來看,,Kaggle 的參賽者中,拿獎拿錢的那一小波精英中,,更多的是金牌預(yù)言家,而不是算法快男/女,。如果你想要真正地了解到你所研究的問題本質(zhì),,那你在選擇你研究的 feature 的時候就需要更大膽的猜想和假設(shè)。把 Creative Feature Variable Selection 技能和 Forward & Backward Elimination (追趕法) 技能結(jié)合起來,,就可以進一步讓你的 Feature Engineering 程序接近自動化。 做戲要做全套 為什么這么說呢,?因為全套的戲可以從個方面提升幸福感和滿足感,,也可以幫助你更高更強地達成目的。 想什么呢你,? 這里說的全套,,專業(yè)數(shù)據(jù)叫 Ensemble!什么意思呢,?意思就是讓你通過統(tǒng)計算構(gòu)建一組增強預(yù)測性能的分類器(classifier)然后通過對不同測試預(yù)測的加權(quán)處理來對分類出新的數(shù)據(jù)點。在這里,,我們呼吁大家摒棄專一的原則,,我們希望大家能夠吸納多元化的模型參與到你的數(shù)據(jù)集預(yù)測中,。很多 Kaggle 的最終贏家通常都是通過多模型的預(yù)測方法來獲得最終的 錢。 戲不要太多 中央戲劇學(xué)院的資深教授告訴過我這么一件事情,,戲要好,得深情,,得讓觀眾覺得有嚼頭,,但,!不能過,戲多會讓人惡心,。 想什么呢你? 這是 Kaggle 王者的誕生,,不是演員的誕生!這里說的戲多是什么意思,?Overfitting,,過度擬合,。什么是過度擬合?我們從知乎上找到了一個非常精彩的答案,,分享給大家。 截圖來源自知乎ID# 瘋癲的A兵者 在 Kaggle 比賽中,,過度擬合會出想什么問題呢,?你通過你的訓(xùn)練集做出來的過度擬合模型對你的測試集而言,可能并不合適,。在 Kaggle 的系統(tǒng)里,過度擬合會影響到你在“領(lǐng)袖者先鋒榜單”(leaderboard)的分數(shù),。這些分數(shù)是怎么算出來的呢,?會隨機取一小撮數(shù)據(jù)(你數(shù)據(jù)的百分之20),,然后在這組數(shù)據(jù)上跑你的模型,然后誰跑的好看誰拿冠軍咯,。 要學(xué)會使用在線激情聊天功能 是啦,,無論在什么關(guān)系中,交流確實都是非常非常重要的一件事情啦,。 想什么呢你? 常備工具箱,該帶的都帶齊了 出門在外,,該帶的都得帶齊了,別到了關(guān)鍵時候發(fā)現(xiàn)要啥啥沒有,。 想什么呢你,? 說的是你比賽的“工具箱”啦,,不是硬硬的工具箱,而是軟軟的那種,。那種充滿了各式各樣代碼序列(code sequence)的那種。在很多次的練習(xí)過后,,你就會有一些你自己用的特別順手效率比較高的代碼序列,。另外,,在練習(xí)的過程中,不要忽略對于構(gòu)建 data pipeline 的思考,。在很多次的練習(xí)以后,你就會有一個可以重復(fù)使用的 pipeline,,就跟 GRE 寫作模版一樣!對于小白來說,,如果你沒有一個用的順手的模版,,也沒有反復(fù)練習(xí)過,,即便是你做過的東西,你也有可能會出錯,。 看看那些過去式都有什么特點 我們啊要善于總結(jié),,要對過去的經(jīng)驗,取其精華棄其糟粕,,才能保證我們想要的都緊緊握在手里,這都是愛的箴言,。 想什么呢你,? 說的是讓你去練一練之前的那些 Kaggle 比賽項目啦,!想要熟練操作你準備好這些東西,當(dāng)然是要“是騾子是馬拉出來溜溜”先,。如果你去到 Kaggle 的官網(wǎng),你就能看到之前的一些已經(jīng)結(jié)束的 project,,先拿他們練練手啦!如果你不知道選哪個,?我們可以給你推薦一個作為你 Kaggle 旅程的第一步,。 ??https://www./c/avito-demand-prediction |
|
來自: 萬皇之皇 > 《IT互聯(lián)》