標簽: 前話: 最近一直想學(xué)機器學(xué)習(xí)的東西,無奈自己的書太多但無法專心看一本,純理論的東西看了感覺不記下來就忘記類,所以我想理論學(xué)習(xí)和實踐一起. 所以最近想把機器學(xué)習(xí)實戰(zhàn)這本書看完,并做好記錄.加油.!~ 一:什么是監(jiān)督學(xué)習(xí)? 監(jiān)督學(xué)習(xí)(supervised learning):通過已有的訓(xùn)練樣本(即已知數(shù)據(jù)以及其對應(yīng)的輸出)來訓(xùn)練,,從而得到一個最優(yōu)模型,,再利用這個模型將所有新的數(shù)據(jù)樣本映射為相應(yīng)的輸出結(jié)果,,對輸出結(jié)果進行簡單的判斷從而實現(xiàn)分類的目的,,那么這個最優(yōu)模型也就具有了對未知數(shù)據(jù)進行分類的能力,。 監(jiān)督學(xué)習(xí)中只要輸入樣本集,機器就可以從中推演出制定目標變量的可能結(jié)果.如協(xié)同過濾推薦算法,通過對訓(xùn)練集進行監(jiān)督學(xué)習(xí),并對測試集進行預(yù)測,從而達到預(yù)測的目的. 一:什么是無監(jiān)督學(xué)習(xí)? 無監(jiān)督學(xué)習(xí)(unsupervised learning):我們事先沒有任何訓(xùn)練數(shù)據(jù)樣本,,需要直接對數(shù)據(jù)進行建模。比如我們?nèi)⒂^一個畫展,,我們對藝術(shù)一無所知,,但是欣賞完很多幅作品之后,我們面對一幅新的作品之后,,至少可以知道這幅作品是什么派別的吧,,比如更抽象一些還是更寫實一點,雖然不能很清楚的了解這幅畫的含義,,但是至少我們可以把它分為哪一類,。再比如我們在電影院看電影,對于之前沒有學(xué)過相關(guān)電影藝術(shù)知識的我們,可能不知道什么是一部好電影,,什么是一部不好的電影,,可是在觀看了很多部電影之后,我們腦中對電影就有了一個潛在的認識,,當我們再次坐在電影院認真觀看新上映的電影時,,腦中就會對這部電影產(chǎn)生一個評價:怎么這電影這么不好啊,整個故事線是混亂的,,一點也不清晰,,比我之前看過的那些電影差遠了,人物的性格也沒有表現(xiàn)出來,,關(guān)鍵是電影主題還搞偏了,;哎呀,這個電影拍得確實好啊,,故事情節(jié)和人物性格都很鮮明,,而且場景很逼真,主角的實力表演加上他與生俱來的憂郁眼神一下把人物演活了,。 再給大家舉一個無監(jiān)督學(xué)習(xí)的例子,。遠古時期,我們的祖先打獵吃肉,,他們本身之前是沒有經(jīng)驗而言的,,當有人用很粗的石頭去割動物的皮的時候,發(fā)現(xiàn)很難把皮隔開,,但是又有人用很薄的石頭去割,,發(fā)現(xiàn)比別人更加容易的隔開動物的毛皮,于是,,第二天,、第三天、……,,他們就知道了需要尋找比較薄的石頭片來割。這些就是無監(jiān)督學(xué)習(xí)的思想,,外界沒有經(jīng)驗和訓(xùn)練數(shù)據(jù)樣本提供給它們,,完全靠自己摸索。 總結(jié)回想剛才所提到的監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)兩種方法,,或許很多人都會認為任何事情有人教當然很好了啊,,所有監(jiān)督學(xué)習(xí)更方便快捷嘛,大部分情況確實這樣,,但是如果有些情況比如無法提供訓(xùn)練數(shù)據(jù)樣本或者提供訓(xùn)練數(shù)據(jù)樣本的成本太高的話,,或許我們就應(yīng)該采取無監(jiān)督學(xué)習(xí)的策略了。監(jiān)督學(xué)習(xí)的典型例子就是決策樹、神經(jīng)網(wǎng)絡(luò)以及疾病監(jiān)測,,而無監(jiān)督學(xué)習(xí)就是很早之前的西洋雙陸棋和聚類,。 參考自:http://www.cnblogs.com/BaiYiShaoNian/p/4558279.html -----------0-------------------------------------------------------------------------------------------------------------------------------- 2 . 1 何謂機器學(xué)習(xí) 機器學(xué)習(xí)的主要任務(wù)就是分類。 通常我們?yōu)樗惴ㄝ斎舜罅恳逊诸悢?shù)據(jù)作為算法的訓(xùn)練集,。 訓(xùn)練集是用于訓(xùn)練機器學(xué)習(xí)算法的數(shù)據(jù)樣本集 合,訓(xùn)練集的每一個樣本都包含了特征,、一目標變量.目標變量是機器學(xué)習(xí)算法的預(yù)測結(jié)果,在分類算法中目標變量的類型通常是標稱型的,而在回歸算法中通常是連續(xù)型的。 訓(xùn)練樣本集必須確定知道目標變量的值,以便機器學(xué)習(xí)算法可以發(fā)現(xiàn)特征和目標變量之間的關(guān)系,。 與監(jiān)督學(xué)習(xí)相對應(yīng)的是無監(jiān)督學(xué)習(xí),此時數(shù)據(jù)沒有類別信息,也不會給定目標值,。在無監(jiān)督學(xué)習(xí) 中 , 將數(shù)據(jù)集合分成由類似的對象組成的多個類的過程被稱為聚類;將尋找描述數(shù)據(jù)統(tǒng)計值的過程稱之為密度估計。此外 , 無監(jiān)督學(xué)習(xí)還可以減少數(shù)據(jù)特征的維度,以便我們可以使用二維或三維圖形更加直觀地展示數(shù)據(jù)信息,。 2 . 2 如何選擇合適的算法 考慮下面兩個問題: 一 ,、 使用機器學(xué)習(xí)算法的目的, 想要算法完成何種任務(wù),比如是預(yù)測明天下雨的概率還是對投票者按照興趣分組; 二 需要分析或者收集的數(shù)據(jù)是什么 如果目標變量是離散型,如是 / 否 、 1/2/3 ,、 ― 冗或者紅 / 黃 / 黑 等 ,則可以選擇分類器算法; 如果目標變量是連續(xù)型的數(shù)值,如 0.0~ 100.00 ,、 -999~999 或者 +00~-00 等 ,則需要選擇回歸算法。 其次需要考慮的是數(shù)據(jù)問題,。我們應(yīng)該充分了解數(shù)據(jù), 對實際數(shù)據(jù)了解得越充分, 越容易創(chuàng)建符合實際需求的應(yīng)用程序,。主要應(yīng)該了解數(shù)據(jù)的以下特性: 特征值是離散型變量還是連續(xù)型變量 ,特征值中是否存在缺失的值, 何種原因造成缺失值,數(shù)據(jù)中是否存在異常值, 某個特征發(fā)生的 頻 率 如 何 (是否罕見得如同海底撈針),等等。充分了解上面提到的這些數(shù)據(jù)特性可以縮短選擇機器學(xué)習(xí)算法的時間,。 三 使用Python的原因 Python語言得到了廣泛應(yīng)用,。 SciPy和 Numpy等許多科學(xué)函數(shù)庫都實現(xiàn)了向量和矩陣操作, 這些函數(shù)庫增加了代碼的可讀性, 學(xué)過線性代數(shù)的人都可以看懂代碼的實際功能。 Python 的科學(xué)工具可以與繪圖工具 Matplotlib 協(xié)同工作,。 Matplotlib 可以繪制 2D ,、 3 0 圖形. 安裝Numpy的時候安裝了很久,原因在于自己Pycharm的python版本和系統(tǒng)默認python版本不同,Pychram使用3.0,但在命令行import numpy的時候是2.7所以在Pycham里面換回2,7就ok了. Numpy安裝方法: Ubuntu-Python2.7安裝 scipy,numpy,matplotlibhttp://blog.csdn.net/adream307/article/details/8564441 機器學(xué)習(xí) 一 監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的區(qū)別 標簽: |
|
來自: 湖北劉恒 > 《數(shù)據(jù)分析》