久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

數(shù)據(jù)挖掘經(jīng)典書籍推薦

 oskycar 2014-11-14
記得2008年初,,當(dāng)我剛接觸到數(shù)據(jù)挖掘的時(shí)候,,看過一篇文章,介紹了數(shù)據(jù)挖掘方面有三本經(jīng)典書籍:
(1) J. Han and M. Kamber, Data Mining: Concepts and Techniques.
  本書從數(shù)據(jù)庫角度看待數(shù)據(jù)挖掘,,強(qiáng)調(diào)效率(Efficiency),。按照本書觀點(diǎn),數(shù)據(jù)挖掘是從存儲(chǔ)在數(shù)據(jù)庫,、數(shù)據(jù)倉庫或者其他信息庫中的大量數(shù)據(jù)中發(fā)現(xiàn)知識(shí)的過程,。
(2) I.H. Written and E.Frank. Data Mining: Practical Machine Learnings and Techniques.
  本書從機(jī)器學(xué)習(xí)角度看待數(shù)據(jù)挖掘,強(qiáng)調(diào)有效(Effectiveness),。按照這本書的觀點(diǎn),,數(shù)據(jù)挖掘是從數(shù)據(jù)中提取隱含在其中的、人們事先不知道的,、但又是潛在有用的信息和知識(shí)的過程,。
(3) D. Hand, H.Mannila and P. Smith, Principle of Data Mining.
  本書從統(tǒng)計(jì)學(xué)的角度看待數(shù)據(jù)挖掘,因?yàn)榻y(tǒng)計(jì)學(xué)是一門數(shù)學(xué),,所以本書強(qiáng)調(diào)數(shù)學(xué)上的正確性(Validity),。按照本書觀點(diǎn),,數(shù)據(jù)挖掘是分析(往往是大量的)數(shù)據(jù)集以找到未曾預(yù)料的關(guān)系,,并以可理解又有用的新穎方式呈現(xiàn)給數(shù)據(jù)用戶的過程。
    這幾年實(shí)際做數(shù)據(jù)挖掘,,補(bǔ)充基礎(chǔ)知識(shí)時(shí)也主要以這幾本書為指導(dǎo),。然后最后自己用來研讀的書卻是以下這本:
(4)Pang-Ning Tan, Vipin Kumar etc. Introduction to Data Mining
 http://book.douban.com/subject/1465939/)。
    國內(nèi)目前有翻譯版(http://book.douban.com/subject/1786120/),,這是我現(xiàn)在覺得最好的數(shù)據(jù)挖掘教材,。關(guān)于分類、關(guān)聯(lián)規(guī)則,、聚類每一主題都分兩章來講述:第一章講基本部分,,第二章講高級(jí)部分,,讓人由淺入深。另有單獨(dú)的一章介紹異常檢測(cè),。本書的第一作者是物理背景出身,,所以講解很重視對(duì)于算法的理解(優(yōu)缺點(diǎn)與適用范圍等)。本書能找到PDF版完整的習(xí)題答案,,非常適合于自學(xué),。
    若要從以上三本書再推薦另一本入門書,我會(huì)推薦I.H. Written的那本,,這本書第I部分以輸入,、輸出、算法,、評(píng)估的脈絡(luò)來講解數(shù)據(jù)挖掘,;第II部分介紹Weka軟件使用。讀這本書的好處讀了之后馬上可以用Weka來實(shí)驗(yàn)各種數(shù)據(jù)挖掘算法,。
    其次推薦的是David Hand的《數(shù)據(jù)挖掘原理》(http://book.douban.com/subject/1103515/),,本書作者是一名統(tǒng)計(jì)學(xué)家,所以里面會(huì)涉及到數(shù)據(jù)挖掘相對(duì)于統(tǒng)計(jì)的獨(dú)特之處的內(nèi)容,,非常有價(jià)值,;另外,本書以約化主義的觀點(diǎn)來看待數(shù)據(jù)挖掘算法,,認(rèn)為有了數(shù)據(jù)集與明確的數(shù)據(jù)挖掘任務(wù),,數(shù)據(jù)挖掘算法可以看成是{模型結(jié)構(gòu)、評(píng)分函數(shù),、搜索方法,、數(shù)據(jù)管理技術(shù)}的四元組,然后逐一來講解每一數(shù)據(jù)挖掘算法組件,,讓人覺得清楚明了,。本書的第二章“測(cè)量與數(shù)據(jù)”也是很有價(jià)值的,因?yàn)槲覀冸m然通過數(shù)據(jù)來做推斷,,但是數(shù)據(jù)是通過測(cè)量理論與事實(shí)(Reality)相聯(lián)系的,。
      最不怎么推薦的是《數(shù)據(jù)挖掘:概念與技術(shù)》,雖然我是從這本書的第一版最初得知數(shù)據(jù)挖掘這一概念,。2005年10月份,,我在海淀圖書城逛,想看看有什么好書可以帶到南極去看,,當(dāng)時(shí)發(fā)覺了這本書的第一版,。看了看前言,,就買了下來,,因?yàn)樵瓉碇唤佑|過數(shù)據(jù)庫的我,,數(shù)據(jù)挖掘這一概念太吸引自己了。雖然在南極期間自己只是將這本書蓋了兩個(gè)南極的紀(jì)念章,,而沒有真正看,,但畢竟它在自己心中播種下了“數(shù)據(jù)挖掘”的種子。07年底轉(zhuǎn)行做計(jì)算機(jī)的時(shí)候,,雖然最初不是申請(qǐng)的數(shù)據(jù)挖掘的職位,,當(dāng)公司讓我當(dāng)“數(shù)據(jù)挖掘工程師”時(shí),我還是很高興地接受了,。這五年來,,我見證了數(shù)據(jù)挖掘這一行業(yè)的如火如荼的發(fā)展,也很慶幸自己入對(duì)了行,,也要很感激這本書的作者與翻譯者吧,。從書的內(nèi)容看,這本書將數(shù)據(jù)挖掘看成是數(shù)據(jù)庫技術(shù)的自然演化,,所以第2章講的是數(shù)據(jù)倉庫與OLAP,,但是這部分內(nèi)容對(duì)于怎樣建數(shù)據(jù)倉庫其實(shí)沒有太大的幫助。數(shù)據(jù)挖掘作為一門交叉學(xué)科,,一般認(rèn)為其最重要的三門學(xué)科基礎(chǔ)是機(jī)器學(xué)習(xí),、統(tǒng)計(jì)學(xué)與數(shù)據(jù)庫技術(shù)。但是個(gè)人認(rèn)為隨著大數(shù)據(jù)時(shí)代的來臨,,傳統(tǒng)數(shù)據(jù)庫技術(shù)所起的作用在減弱,,因?yàn)楹芏噙M(jìn)行的數(shù)據(jù)挖掘的數(shù)據(jù)根本不會(huì)先被放到數(shù)據(jù)庫中,而是直接通過文件來存儲(chǔ),。本書的第二版中雖然增加了時(shí)間序列挖掘,、圖挖掘、社交網(wǎng)絡(luò)分析,、多媒體挖掘等新的內(nèi)容,,但這只是增加了廣度,而沒有讓我們對(duì)數(shù)據(jù)挖掘的核心部分有更深的理解,。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn),。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息,謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào),。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多