久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

如果不知道這10點大佬忠告,Kaggle比賽你壓根別想進Top 10%,!

 萬皇之皇 2019-01-28


源 / 大數(shù)據(jù)應(yīng)用       文 /Kelly卡里

Kaggle 是數(shù)據(jù)領(lǐng)域最廣為人知的一個社區(qū),數(shù)據(jù)玩兒的溜的大佬們都會不厭其煩地參與其中,,去調(diào)整有意思的機器學(xué)習(xí)項目,發(fā)揮好了拿點小錢,,沒發(fā)揮好也能拿個銀牌銅牌什么的。一個有價值有意義有理想有追求的機器學(xué)習(xí)項目可以有效地幫助競賽者充分展現(xiàn)自己的能力和自己的價值,。并且在很多時候,對于求職者而言,,Kaggle 比賽可以幫助你在宛如魚缸的求職市場里脫穎而出,,變成整個魚缸最靚的 Gold Fish。

想要問鼎 Kaggle 比賽,,你大概需要拿出三分鐘的時間看完這篇文章了,。在這篇文章里,,我們會給你提出十條想要問鼎 Kaggle 你必須知道的十個小tip。

選一個好環(huán)境

客官你覺著星巴克環(huán)境好點兒還是blue bottle強點兒,?

想什么呢你?

這里我們提到的環(huán)境,,是編程環(huán)境,!就是你的代碼過的舒不舒服,;代碼不出bug才是爸爸,誰在乎你這個寫bug的小能手呢,?

機器學(xué)習(xí)的編程環(huán)境有很多種,你也會像一個射手座一樣沾花惹草用一堆,,但是 Kaggle 這種嚴肅認真的環(huán)境,,我們建議你只用一種。最紅火的兩個環(huán)境就是 R 和 Python。

學(xué)過統(tǒng)計的朋友們對 R 肯定不陌生了,,這個語言被拿來輔助統(tǒng)計教學(xué)已經(jīng)很久很久了,,它大概是從 1993 年左右開始被大家接觸到的,。Python 的話,相比于 R,,就更多功能一點。中央空調(diào)大暖男,,也是在90年代初和大家認識的。使用到這兩種語言的時候配套所需的 everything 都發(fā)展的比較成熟了,,R語言已經(jīng)被發(fā)掘出了超過13,000個Packages,,Python也被非常廣泛地使用Package,,比如 scikit-learn,,pandas,NumPy 等等,。最近 Python 還參與到了深度學(xué)習(xí)的小家庭里,,和 Theano,TensorFlow,,Keras 處的都不錯。

找個熟悉的下手

熟悉的嘛,,一般比較容易信任你,,輕輕松松就.。,。。是吧

想什么呢你,?

我說的是數(shù)據(jù)集啊兄dei!當(dāng)你選定了你要從一而終的語言以后,,你就需要開始和真實的數(shù)據(jù)集一起訓(xùn)練啦,!一個非常值得被你借鑒的建議就是,去找一個真實的,,簡單的,廣為人知的數(shù)據(jù)集去練一練先,。給你們推薦一個絕好的東西:UCI Machine Learning Repository,搜搜看有驚喜,。你可以把每一個項目都當(dāng)做一個迷你 Kaggle 來練習(xí),。

迷你項目拆分秘籍

1. 把數(shù)據(jù)集分為訓(xùn)練集(training set)和測試集(test set),,然后測試集(test set)分為公共的(public)和私密的(private)從而無限接近 Kaggle 的設(shè)置。

2. 還記得那個你選中的要和你從一而終的仔么,?用那個語言配合著統(tǒng)計算法去對每個數(shù)據(jù)集做預(yù)測(prediction)這一步需要你用不同的數(shù)據(jù)集反復(fù)練習(xí),練多少遍合適呢,?越多越好。

3. 然后你就要去給每一個你做的練習(xí)找一個標準答案了,。哪兒找呢?谷歌一下,,你就知道,。這就是為什么我們最開始說要用廣為人知的數(shù)據(jù)集,,這樣就很方便你找到別人給出的solution。舉個栗子,,你不找你都不會知道有多少人拿 Iris Data Set 做數(shù)據(jù)練習(xí)。

撕破“小丫頭”的兩幅面孔

金星老師的話是不是突然在你耳邊團團團團團團團團轉(zhuǎn),?

想什么呢你?

我說的是數(shù)據(jù)轉(zhuǎn)換這個小丫頭啦,!要去探究一下數(shù)據(jù)轉(zhuǎn)換的多面性。業(yè)內(nèi)給數(shù)據(jù)轉(zhuǎn)換起了很多名字,,最常見的 Data Transformation,,還有 Data Wrangling,或者 Data Munging,。數(shù)據(jù)轉(zhuǎn)換的過程包括了很多:merging data, aggregating data, cleansing data, handle missing data, making data consistent 等等等等,。數(shù)據(jù)轉(zhuǎn)換通常會占用整個 project 超過百分之70的時間成本和金錢成本,,所以是爸爸。所以需要你多去探究一下,,別虧待了爸爸,。

撩人要撩心

這個你真的得聽我的,我是射手座,。

想什么呢你?

Feature Engineering 你聽說過么,?這是一種教會你如何透過冰冷的數(shù)據(jù)洞悉對方內(nèi)心的高科技!Feature Engineering 是當(dāng)你這場數(shù)據(jù)殺里玩預(yù)言家的那位擁有超強預(yù)測能力的時候,,我們提到的一種讀心術(shù),。

據(jù)我們最精準的消息返回來的報告來看,,Kaggle 的參賽者中,拿獎拿錢的那一小波精英中,,更多的是金牌預(yù)言家,而不是算法快男/女,。如果你想要真正地了解到你所研究的問題本質(zhì),,那你在選擇你研究的 feature 的時候就需要更大膽的猜想和假設(shè)。把 Creative Feature Variable Selection 技能和 Forward & Backward Elimination (追趕法) 技能結(jié)合起來,,就可以進一步讓你的 Feature Engineering 程序接近自動化。

做戲要做全套

為什么這么說呢,?因為全套的戲可以從個方面提升幸福感和滿足感,,也可以幫助你更高更強地達成目的。

想什么呢你,?

這里說的全套,,專業(yè)數(shù)據(jù)叫 Ensemble!什么意思呢,?意思就是讓你通過統(tǒng)計算構(gòu)建一組增強預(yù)測性能的分類器(classifier)然后通過對不同測試預(yù)測的加權(quán)處理來對分類出新的數(shù)據(jù)點。在這里,,我們呼吁大家摒棄專一的原則,,我們希望大家能夠吸納多元化的模型參與到你的數(shù)據(jù)集預(yù)測中,。很多 Kaggle 的最終贏家通常都是通過多模型的預(yù)測方法來獲得最終的 錢。

戲不要太多

中央戲劇學(xué)院的資深教授告訴過我這么一件事情,,戲要好,得深情,,得讓觀眾覺得有嚼頭,,但,!不能過,戲多會讓人惡心,。

想什么呢你?

這是 Kaggle 王者的誕生,,不是演員的誕生!這里說的戲多是什么意思,?Overfitting,,過度擬合,。什么是過度擬合?我們從知乎上找到了一個非常精彩的答案,,分享給大家。

截圖來源自知乎ID# 瘋癲的A兵者

在 Kaggle 比賽中,,過度擬合會出想什么問題呢,?你通過你的訓(xùn)練集做出來的過度擬合模型對你的測試集而言,可能并不合適,。在 Kaggle 的系統(tǒng)里,過度擬合會影響到你在“領(lǐng)袖者先鋒榜單”(leaderboard)的分數(shù),。這些分數(shù)是怎么算出來的呢,?會隨機取一小撮數(shù)據(jù)(你數(shù)據(jù)的百分之20),,然后在這組數(shù)據(jù)上跑你的模型,然后誰跑的好看誰拿冠軍咯,。

要學(xué)會使用在線激情聊天功能

是啦,,無論在什么關(guān)系中,交流確實都是非常非常重要的一件事情啦,。

想什么呢你?
我們說的是論壇啦,。什么論壇,?你說呢,?Kaggle 論壇咯,不然還能是百度 Kaggle 么,?Kaggle 的用戶論壇,臥虎藏龍,,有很多很多的資源等待你去挖掘,。你哪怕只是搬著小板凳,帶著瓜子,,去看別人聊天,,都能學(xué)到很多。多問問題,,多請教,然后你就能發(fā)現(xiàn)論壇里的虎和龍有多生猛,。

常備工具箱,該帶的都帶齊了

出門在外,,該帶的都得帶齊了,別到了關(guān)鍵時候發(fā)現(xiàn)要啥啥沒有,。

想什么呢你,?

說的是你比賽的“工具箱”啦,,不是硬硬的工具箱,而是軟軟的那種,。那種充滿了各式各樣代碼序列(code sequence)的那種。在很多次的練習(xí)過后,,你就會有一些你自己用的特別順手效率比較高的代碼序列,。另外,,在練習(xí)的過程中,不要忽略對于構(gòu)建 data pipeline 的思考,。在很多次的練習(xí)以后,你就會有一個可以重復(fù)使用的 pipeline,,就跟 GRE 寫作模版一樣!對于小白來說,,如果你沒有一個用的順手的模版,,也沒有反復(fù)練習(xí)過,,即便是你做過的東西,你也有可能會出錯,。

看看那些過去式都有什么特點

我們啊要善于總結(jié),,要對過去的經(jīng)驗,取其精華棄其糟粕,,才能保證我們想要的都緊緊握在手里,這都是愛的箴言,。

想什么呢你,?

說的是讓你去練一練之前的那些 Kaggle 比賽項目啦,!想要熟練操作你準備好這些東西,當(dāng)然是要“是騾子是馬拉出來溜溜”先,。如果你去到 Kaggle 的官網(wǎng),你就能看到之前的一些已經(jīng)結(jié)束的 project,,先拿他們練練手啦!如果你不知道選哪個,?我們可以給你推薦一個作為你 Kaggle 旅程的第一步,。

??https://www./c/avito-demand-prediction 

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息,謹防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報,。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多