如果不知道這10點大佬忠告，Kaggle比賽你壓根別想進Top 10%,！

萬皇之皇 2019-01-28

展開全文

源 / 大數(shù)據(jù)應(yīng)用文 /Kelly卡里

Kaggle 是數(shù)據(jù)領(lǐng)域最廣為人知的一個社區(qū)，數(shù)據(jù)玩兒的溜的大佬們都會不厭其煩地參與其中,，去調(diào)整有意思的機器學(xué)習(xí)項目，發(fā)揮好了拿點小錢,，沒發(fā)揮好也能拿個銀牌銅牌什么的。一個有價值有意義有理想有追求的機器學(xué)習(xí)項目可以有效地幫助競賽者充分展現(xiàn)自己的能力和自己的價值,。并且在很多時候，對于求職者而言,，Kaggle 比賽可以幫助你在宛如魚缸的求職市場里脫穎而出,，變成整個魚缸最靚的 Gold Fish。

想要問鼎 Kaggle 比賽,，你大概需要拿出三分鐘的時間看完這篇文章了,。在這篇文章里,，我們會給你提出十條想要問鼎 Kaggle 你必須知道的十個小tip。

選一個好環(huán)境

客官你覺著星巴克環(huán)境好點兒還是blue bottle強點兒,？

想什么呢你？

這里我們提到的環(huán)境,，是編程環(huán)境,！就是你的代碼過的舒不舒服,；代碼不出bug才是爸爸，誰在乎你這個寫bug的小能手呢,？

機器學(xué)習(xí)的編程環(huán)境有很多種，你也會像一個射手座一樣沾花惹草用一堆,，但是 Kaggle 這種嚴肅認真的環(huán)境,，我們建議你只用一種。最紅火的兩個環(huán)境就是 R 和 Python。

學(xué)過統(tǒng)計的朋友們對 R 肯定不陌生了,，這個語言被拿來輔助統(tǒng)計教學(xué)已經(jīng)很久很久了,，它大概是從 1993 年左右開始被大家接觸到的,。Python 的話，相比于 R,，就更多功能一點。中央空調(diào)大暖男,，也是在90年代初和大家認識的。使用到這兩種語言的時候配套所需的 everything 都發(fā)展的比較成熟了,，R語言已經(jīng)被發(fā)掘出了超過13,000個Packages,，Python也被非常廣泛地使用Package,，比如 scikit-learn,，pandas，NumPy 等等,。最近 Python 還參與到了深度學(xué)習(xí)的小家庭里,，和 Theano，TensorFlow,，Keras 處的都不錯。

找個熟悉的下手

熟悉的嘛,，一般比較容易信任你,，輕輕松松就.。,。。是吧

想什么呢你,？

我說的是數(shù)據(jù)集啊兄dei！當(dāng)你選定了你要從一而終的語言以后,，你就需要開始和真實的數(shù)據(jù)集一起訓(xùn)練啦,！一個非常值得被你借鑒的建議就是，去找一個真實的,，簡單的，廣為人知的數(shù)據(jù)集去練一練先,。給你們推薦一個絕好的東西：UCI Machine Learning Repository，搜搜看有驚喜,。你可以把每一個項目都當(dāng)做一個迷你 Kaggle 來練習(xí),。

迷你項目拆分秘籍

1. 把數(shù)據(jù)集分為訓(xùn)練集（training set）和測試集（test set）,，然后測試集（test set）分為公共的（public）和私密的（private）從而無限接近 Kaggle 的設(shè)置。

2. 還記得那個你選中的要和你從一而終的仔么,？用那個語言配合著統(tǒng)計算法去對每個數(shù)據(jù)集做預(yù)測（prediction）這一步需要你用不同的數(shù)據(jù)集反復(fù)練習(xí)，練多少遍合適呢,？越多越好。

3. 然后你就要去給每一個你做的練習(xí)找一個標準答案了,。哪兒找呢？谷歌一下,，你就知道,。這就是為什么我們最開始說要用廣為人知的數(shù)據(jù)集,，這樣就很方便你找到別人給出的solution。舉個栗子,，你不找你都不會知道有多少人拿 Iris Data Set 做數(shù)據(jù)練習(xí)。

撕破“小丫頭”的兩幅面孔

金星老師的話是不是突然在你耳邊團團團團團團團團轉(zhuǎn),？

想什么呢你？

我說的是數(shù)據(jù)轉(zhuǎn)換這個小丫頭啦,！要去探究一下數(shù)據(jù)轉(zhuǎn)換的多面性。業(yè)內(nèi)給數(shù)據(jù)轉(zhuǎn)換起了很多名字,，最常見的 Data Transformation,，還有 Data Wrangling，或者 Data Munging,。數(shù)據(jù)轉(zhuǎn)換的過程包括了很多：merging data, aggregating data, cleansing data, handle missing data, making data consistent 等等等等,。數(shù)據(jù)轉(zhuǎn)換通常會占用整個 project 超過百分之70的時間成本和金錢成本,，所以是爸爸。所以需要你多去探究一下,，別虧待了爸爸,。

撩人要撩心

這個你真的得聽我的，我是射手座,。

想什么呢你？

Feature Engineering 你聽說過么,？這是一種教會你如何透過冰冷的數(shù)據(jù)洞悉對方內(nèi)心的高科技！Feature Engineering 是當(dāng)你這場數(shù)據(jù)殺里玩預(yù)言家的那位擁有超強預(yù)測能力的時候,，我們提到的一種讀心術(shù),。

據(jù)我們最精準的消息返回來的報告來看,，Kaggle 的參賽者中，拿獎拿錢的那一小波精英中,，更多的是金牌預(yù)言家，而不是算法快男/女,。如果你想要真正地了解到你所研究的問題本質(zhì),，那你在選擇你研究的 feature 的時候就需要更大膽的猜想和假設(shè)。把 Creative Feature Variable Selection 技能和 Forward & Backward Elimination （追趕法）技能結(jié)合起來,，就可以進一步讓你的 Feature Engineering 程序接近自動化。

做戲要做全套

為什么這么說呢,？因為全套的戲可以從個方面提升幸福感和滿足感,，也可以幫助你更高更強地達成目的。

想什么呢你,？

這里說的全套,，專業(yè)數(shù)據(jù)叫 Ensemble！什么意思呢,？意思就是讓你通過統(tǒng)計算構(gòu)建一組增強預(yù)測性能的分類器（classifier）然后通過對不同測試預(yù)測的加權(quán)處理來對分類出新的數(shù)據(jù)點。在這里,，我們呼吁大家摒棄專一的原則,，我們希望大家能夠吸納多元化的模型參與到你的數(shù)據(jù)集預(yù)測中,。很多 Kaggle 的最終贏家通常都是通過多模型的預(yù)測方法來獲得最終的錢。

戲不要太多

中央戲劇學(xué)院的資深教授告訴過我這么一件事情,，戲要好，得深情,，得讓觀眾覺得有嚼頭,，但,！不能過，戲多會讓人惡心,。

想什么呢你？

這是 Kaggle 王者的誕生,，不是演員的誕生！這里說的戲多是什么意思,？Overfitting,，過度擬合,。什么是過度擬合？我們從知乎上找到了一個非常精彩的答案,，分享給大家。

截圖來源自知乎ID# 瘋癲的A兵者

在 Kaggle 比賽中,，過度擬合會出想什么問題呢,？你通過你的訓(xùn)練集做出來的過度擬合模型對你的測試集而言，可能并不合適,。在 Kaggle 的系統(tǒng)里，過度擬合會影響到你在“領(lǐng)袖者先鋒榜單”（leaderboard）的分數(shù),。這些分數(shù)是怎么算出來的呢,？會隨機取一小撮數(shù)據(jù)（你數(shù)據(jù)的百分之20）,，然后在這組數(shù)據(jù)上跑你的模型，然后誰跑的好看誰拿冠軍咯,。

要學(xué)會使用在線激情聊天功能

是啦,，無論在什么關(guān)系中，交流確實都是非常非常重要的一件事情啦,。

想什么呢你？
我們說的是論壇啦,。什么論壇,？你說呢,？Kaggle 論壇咯，不然還能是百度 Kaggle 么,？Kaggle 的用戶論壇，臥虎藏龍,，有很多很多的資源等待你去挖掘,。你哪怕只是搬著小板凳，帶著瓜子,，去看別人聊天,，都能學(xué)到很多。多問問題,，多請教，然后你就能發(fā)現(xiàn)論壇里的虎和龍有多生猛,。

常備工具箱，該帶的都帶齊了

出門在外,，該帶的都得帶齊了，別到了關(guān)鍵時候發(fā)現(xiàn)要啥啥沒有,。

想什么呢你,？

說的是你比賽的“工具箱”啦,，不是硬硬的工具箱，而是軟軟的那種,。那種充滿了各式各樣代碼序列（code sequence）的那種。在很多次的練習(xí)過后,，你就會有一些你自己用的特別順手效率比較高的代碼序列,。另外,，在練習(xí)的過程中，不要忽略對于構(gòu)建 data pipeline 的思考,。在很多次的練習(xí)以后，你就會有一個可以重復(fù)使用的 pipeline,，就跟 GRE 寫作模版一樣！對于小白來說,，如果你沒有一個用的順手的模版,，也沒有反復(fù)練習(xí)過,，即便是你做過的東西，你也有可能會出錯,。

看看那些過去式都有什么特點

我們啊要善于總結(jié),，要對過去的經(jīng)驗，取其精華棄其糟粕,，才能保證我們想要的都緊緊握在手里，這都是愛的箴言,。

想什么呢你,？

說的是讓你去練一練之前的那些 Kaggle 比賽項目啦,！想要熟練操作你準備好這些東西，當(dāng)然是要“是騾子是馬拉出來溜溜”先,。如果你去到 Kaggle 的官網(wǎng)，你就能看到之前的一些已經(jīng)結(jié)束的 project,，先拿他們練練手啦！如果你不知道選哪個,？我們可以給你推薦一個作為你 Kaggle 旅程的第一步,。

??https://www./c/avito-demand-prediction