久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

微軟高級(jí)數(shù)據(jù)科學(xué)家教你如何做數(shù)據(jù)科學(xué)

 靖勛山人 2016-04-09

微軟高級(jí)數(shù)據(jù)科學(xué)家教你如何做數(shù)據(jù)科學(xué)

1.學(xué)會(huì)獲取更多的數(shù)據(jù)

數(shù)據(jù)科學(xué)的數(shù)據(jù)源是數(shù)字和字段的集合,。測(cè)量,、價(jià)格、日期,、時(shí)間,、產(chǎn)品、標(biāo)題等,,都是簡(jiǎn)單的數(shù)據(jù)集,;你也可以用圖像、音頻,、視頻等復(fù)雜結(jié)構(gòu)的數(shù)據(jù)集,,這時(shí)需要你去降維分解成數(shù)字和字段的集合。數(shù)據(jù)獲取是一個(gè)復(fù)雜的機(jī)制,,數(shù)據(jù)工程師各種被揉捏,,但本篇文章重點(diǎn)是講述數(shù)據(jù)科學(xué),數(shù)據(jù)獲取將會(huì)是下一個(gè)topic,。

2.學(xué)會(huì)聰明的提出問題

簡(jiǎn)單點(diǎn)講,,就是提出的問題要問到點(diǎn)子上。數(shù)據(jù)科學(xué)是通過對(duì)數(shù)字和字段組成的數(shù)據(jù)集合進(jìn)行處理,,然后回答問題,。你描述的問題越精確,越容易找到令你滿意的精確答案,。含糊不清的問法:“我的數(shù)據(jù)能為業(yè)務(wù)提供什么,?”,,”有了數(shù)據(jù)我該做什么?”,;相對(duì)應(yīng)地,,清晰的問法:“第三季度在蒙特利爾賣了多少Q(mào)型小物件?” 你有了一個(gè)問題,,現(xiàn)在你得看自己的數(shù)據(jù)是否可以回答,。如果你的問題是“我的股票下周的銷售價(jià)是多少?”,,那需要確保你的數(shù)據(jù)包括股票的歷史數(shù)據(jù),;如果你的問題是“88型發(fā)動(dòng)機(jī)多少小時(shí)會(huì)發(fā)生故障?”,,那需要確保你的數(shù)據(jù)包括88型發(fā)動(dòng)機(jī)失敗的次數(shù),。這些問答案例被稱之為目標(biāo),你的目標(biāo)是定量或者分類預(yù)測(cè)或任務(wù),。如果你沒有任何目標(biāo)數(shù)據(jù),,需要回到步驟1,獲取更多的數(shù)據(jù),。

3.裝載數(shù)據(jù)進(jìn)表

大部分機(jī)器學(xué)習(xí)算法都是假設(shè)數(shù)據(jù)以表的形式呈現(xiàn),。每行是一個(gè)事件、item,、或者實(shí)體,;每列是行數(shù)據(jù)的一個(gè)特征或者屬性。一個(gè)描述美國(guó)足球比賽的數(shù)據(jù)集,,每行代表一場(chǎng)比賽,,每列分為主場(chǎng)足球隊(duì)、客場(chǎng)足球隊(duì),、主場(chǎng)得分,、客場(chǎng)得分、日期,、開始時(shí)間和出場(chǎng)等等。選擇你所需的數(shù)據(jù)行經(jīng)常有許多種方式將數(shù)據(jù)集分割成行,,但只有一種方法能幫助你回答問題:每行有且僅有一個(gè)目標(biāo)實(shí)體,。拿零售店數(shù)據(jù)舉例,一條交易記錄一行,,一天的記錄一行,,一個(gè)零售店一行,一個(gè)顧客的數(shù)據(jù)一行,,等等,。如果你的問題是”剛進(jìn)過店的顧客會(huì)回訪嗎,?“,那數(shù)據(jù)以一個(gè)顧客為一行來組織為好,。你的目標(biāo)whether_the_customer_returned將呈現(xiàn)在每行,;但如果以一個(gè)零售店或者一天進(jìn)行數(shù)據(jù)組織,將不能回答目標(biāo)問題,。有時(shí)你必須向上鉆取數(shù)據(jù)來獲得相應(yīng)的維度數(shù)據(jù),。如果你的問題是“我每天能賣多少拿鐵咖啡?”,,那你需要每行一天的數(shù)據(jù)記錄(目標(biāo)列為number_of_lattes_sold),,但是你的數(shù)據(jù)是每次的交易記錄(帶有日期和時(shí)間)。為了獲取每行一天的數(shù)據(jù)記錄,,你必須向上鉆取數(shù)據(jù),。

4.數(shù)據(jù)質(zhì)量校驗(yàn)

數(shù)據(jù)檢查接下來是仔細(xì)的查看數(shù)據(jù)。檢查數(shù)據(jù)有兩個(gè)目的:第一,,發(fā)現(xiàn)錯(cuò)誤數(shù)據(jù),,修復(fù)或者去除它;第二,,對(duì)每行每列有足夠的了解,。檢查每列數(shù)據(jù),它的符號(hào)是什么,?符號(hào)意味著什么,?有文檔解釋列的意思嗎?數(shù)據(jù)是如何測(cè)試的,?誰來測(cè)試的,?如果你足夠的幸運(yùn)知道記錄數(shù)據(jù)的人,可以去問問他們是怎樣測(cè)試這些數(shù)據(jù),。把數(shù)據(jù)列作為縱軸畫圖表,,看下整體分布是否符合預(yù)期,?是否有異常數(shù)據(jù)點(diǎn),?異常點(diǎn)是否有意義?校正縱觀所有的數(shù)據(jù)列,,你能發(fā)現(xiàn)字段和文檔的錯(cuò)誤,,并記錄下來你學(xué)到了什么,這樣你會(huì)比其他人都要了解這些數(shù)據(jù)(除了紀(jì)錄數(shù)據(jù)的人外),。你也可能發(fā)現(xiàn)一些值是錯(cuò)誤的,。一些值超過了正常范圍,比如,,一個(gè)人72米高,,或一個(gè)“7777777777 Mani St”的地址,。當(dāng)這些事情發(fā)生后你有三種選擇:如果這個(gè)值很容易更改正確,比如,,把高72米改成72英寸,;如果錯(cuò)誤的值不明顯,你可以直接刪除或者缺失,;如果這個(gè)值是關(guān)鍵信息,,你應(yīng)該刪除整行或者整列,這可以讓你訓(xùn)練的模型遠(yuǎn)離錯(cuò)誤數(shù)據(jù),,因?yàn)殄e(cuò)誤的數(shù)據(jù)對(duì)你的訓(xùn)練模型的影響比缺失數(shù)據(jù)更大,。替換缺失的值在大部分情況下,數(shù)據(jù)集都存在缺失的值,。但不管什么情況,,機(jī)器學(xué)習(xí)算法都要希望數(shù)據(jù)無缺失或者填充默認(rèn)值。對(duì)于你來說,,你比機(jī)器學(xué)習(xí)算法更懂你的數(shù)據(jù),,所有補(bǔ)全缺失數(shù)據(jù)的工作你更適合。有許多替換缺失值的方法,,最保險(xiǎn)的一種是采用其它正常數(shù)據(jù)的平均值來替代,。

5.抽取特征

在做機(jī)器學(xué)習(xí)之前有一個(gè)非常重要的步驟:特征工程。特征工程簡(jiǎn)單講,,就是對(duì)現(xiàn)有特征數(shù)據(jù)進(jìn)行組合,,以獲得更好的特征來預(yù)測(cè)目標(biāo)。舉個(gè)例子,,火車到達(dá)和離開的時(shí)間相減獲得運(yùn)輸時(shí)間,,這個(gè)特征對(duì)預(yù)測(cè)速度的峰值更有用。嚴(yán)格來講,,特征工程并不會(huì)增加任何數(shù)據(jù)信息,,只是使用各種方法對(duì)原有數(shù)據(jù)進(jìn)行組合。特征工程是數(shù)據(jù)科學(xué)的“黑科技”,,并沒有什么特別的,、大一統(tǒng)的處理原則,雖然很多深度學(xué)習(xí)試圖自動(dòng)化這個(gè)過程,,但都是失敗了,,特征工程一般是數(shù)據(jù)科學(xué)家的經(jīng)驗(yàn)決定。不過即使你沒有特征工程的技能,,也有些小技巧可以使用。你可以對(duì)變量畫圖,,并標(biāo)記不同的顏色,,可以幫你方便的發(fā)現(xiàn)變量之間的關(guān)系,。如果你發(fā)現(xiàn)經(jīng)過特征工程之后還未找到特征來預(yù)測(cè)目標(biāo),那你得重寫回到第一步獲取數(shù)據(jù),。

6.正確的回答問題

現(xiàn)在到了數(shù)據(jù)科學(xué)家鐘愛的部分:機(jī)器學(xué)習(xí),,有許多資源講這部分,這里就不再總結(jié)所有的方法,。簡(jiǎn)單地講,,你可以在參考文章《你的問題屬于哪種算法?》和《選擇一到多種算法》來選擇算法,,并用傳統(tǒng)機(jī)器學(xué)習(xí)技術(shù)來分割數(shù)據(jù)進(jìn)行訓(xùn)練,、調(diào)優(yōu)、測(cè)試數(shù)據(jù),、根據(jù)選擇的模型優(yōu)化參數(shù),。如果你的模型并不能很好的解決問題,或者你想避免使用機(jī)器學(xué)習(xí),,也有兩種非傳統(tǒng)的方法回答:第一種,,簡(jiǎn)單的看你收集數(shù)據(jù)的圖像,有一半的情況下可視化數(shù)據(jù)就可以找到答案,。比如,,如果你的問題是“在波士頓明年7月4號(hào)的最高溫度是多少?”,,對(duì)過去100年的溫度可視化,,查看直方圖就基本可以解決問題。第二種,,更多技術(shù)需求,。如果由于數(shù)據(jù)集太小而得不到結(jié)果,你可以考慮優(yōu)化,。機(jī)器學(xué)習(xí)是基于弱先驗(yàn)假設(shè)的結(jié)構(gòu)化數(shù)據(jù),。這種方法的優(yōu)點(diǎn)在于你使用算法之前你不需要知道太多數(shù)據(jù),它能夠訓(xùn)練出一個(gè)大范圍的模型,;副作用就是需要大量數(shù)據(jù)才能獲得一個(gè)可信的答案,。

7.應(yīng)用數(shù)據(jù)

不管你如何優(yōu)雅的回答提出的問題,但數(shù)據(jù)科學(xué)家的工作直到用戶去使用才算完成,。把結(jié)果以某種形式呈現(xiàn)給用戶作為參考來做對(duì)應(yīng)的決策,,展示的形式有很多種:將結(jié)果在web頁面上畫出來;把你發(fā)現(xiàn)的有用信息保存成PDF,;在GitHub上分享你的代碼,;把結(jié)論做成視頻給你的商業(yè)客戶,等等??傊痪湓?,要把你做的工作讓其他人來使用。

原文來自:http://www.

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,,所有內(nèi)容均由用戶發(fā)布,,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購(gòu)買等信息,,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,,請(qǐng)點(diǎn)擊一鍵舉報(bào),。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多