機器學(xué)習(xí) 一監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的區(qū)別

湖北劉恒 2017-03-06

展開全文

標簽：

前話:

最近一直想學(xué)機器學(xué)習(xí)的東西,無奈自己的書太多但無法專心看一本,純理論的東西看了感覺不記下來就忘記類,所以我想理論學(xué)習(xí)和實踐一起.

所以最近想把機器學(xué)習(xí)實戰(zhàn)這本書看完,并做好記錄.加油.!~

一:什么是監(jiān)督學(xué)習(xí)?

監(jiān)督學(xué)習(xí)（supervised learning）：通過已有的訓(xùn)練樣本（即已知數(shù)據(jù)以及其對應(yīng)的輸出）來訓(xùn)練,，從而得到一個最優(yōu)模型,，再利用這個模型將所有新的數(shù)據(jù)樣本映射為相應(yīng)的輸出結(jié)果,，對輸出結(jié)果進行簡單的判斷從而實現(xiàn)分類的目的,，那么這個最優(yōu)模型也就具有了對未知數(shù)據(jù)進行分類的能力,。

監(jiān)督學(xué)習(xí)中只要輸入樣本集,機器就可以從中推演出制定目標變量的可能結(jié)果.如協(xié)同過濾推薦算法,通過對訓(xùn)練集進行監(jiān)督學(xué)習(xí),并對測試集進行預(yù)測,從而達到預(yù)測的目的.

一:什么是無監(jiān)督學(xué)習(xí)?

無監(jiān)督學(xué)習(xí)（unsupervised learning）：我們事先沒有任何訓(xùn)練數(shù)據(jù)樣本,，需要直接對數(shù)據(jù)進行建模。比如我們?nèi)⒂^一個畫展,，我們對藝術(shù)一無所知,，但是欣賞完很多幅作品之后，我們面對一幅新的作品之后,，至少可以知道這幅作品是什么派別的吧,，比如更抽象一些還是更寫實一點，雖然不能很清楚的了解這幅畫的含義,，但是至少我們可以把它分為哪一類,。再比如我們在電影院看電影，對于之前沒有學(xué)過相關(guān)電影藝術(shù)知識的我們，可能不知道什么是一部好電影,，什么是一部不好的電影,，可是在觀看了很多部電影之后，我們腦中對電影就有了一個潛在的認識,，當我們再次坐在電影院認真觀看新上映的電影時,，腦中就會對這部電影產(chǎn)生一個評價：怎么這電影這么不好啊，整個故事線是混亂的,，一點也不清晰,，比我之前看過的那些電影差遠了，人物的性格也沒有表現(xiàn)出來,，關(guān)鍵是電影主題還搞偏了,；哎呀，這個電影拍得確實好啊,，故事情節(jié)和人物性格都很鮮明,，而且場景很逼真，主角的實力表演加上他與生俱來的憂郁眼神一下把人物演活了,。

再給大家舉一個無監(jiān)督學(xué)習(xí)的例子,。遠古時期，我們的祖先打獵吃肉,，他們本身之前是沒有經(jīng)驗而言的,，當有人用很粗的石頭去割動物的皮的時候，發(fā)現(xiàn)很難把皮隔開,，但是又有人用很薄的石頭去割,，發(fā)現(xiàn)比別人更加容易的隔開動物的毛皮，于是,，第二天,、第三天、……,，他們就知道了需要尋找比較薄的石頭片來割。這些就是無監(jiān)督學(xué)習(xí)的思想,，外界沒有經(jīng)驗和訓(xùn)練數(shù)據(jù)樣本提供給它們,，完全靠自己摸索。

總結(jié)

回想剛才所提到的監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)兩種方法,，或許很多人都會認為任何事情有人教當然很好了啊,，所有監(jiān)督學(xué)習(xí)更方便快捷嘛，大部分情況確實這樣,，但是如果有些情況比如無法提供訓(xùn)練數(shù)據(jù)樣本或者提供訓(xùn)練數(shù)據(jù)樣本的成本太高的話,，或許我們就應(yīng)該采取無監(jiān)督學(xué)習(xí)的策略了。監(jiān)督學(xué)習(xí)的典型例子就是決策樹、神經(jīng)網(wǎng)絡(luò)以及疾病監(jiān)測,，而無監(jiān)督學(xué)習(xí)就是很早之前的西洋雙陸棋和聚類,。

參考自:http://www.cnblogs.com/BaiYiShaoNian/p/4558279.html

-----------0--------------------------------------------------------------------------------------------------------------------------------

2 . 1 何謂機器學(xué)習(xí)

機器學(xué)習(xí)的主要任務(wù)就是分類。

通常我們?yōu)樗惴ㄝ斎舜罅恳逊诸悢?shù)據(jù)作為算法的訓(xùn)練集,。訓(xùn)練集是用于訓(xùn)練機器學(xué)習(xí)算法的數(shù)據(jù)樣本集合,訓(xùn)練集的每一個樣本都包含了特征,、一目標變量.目標變量是機器學(xué)習(xí)算法的預(yù)測結(jié)果,在分類算法中目標變量的類型通常是標稱型的,而在回歸算法中通常是連續(xù)型的。訓(xùn)練樣本集必須確定知道目標變量的值,以便機器學(xué)習(xí)算法可以發(fā)現(xiàn)特征和目標變量之間的關(guān)系,。

與監(jiān)督學(xué)習(xí)相對應(yīng)的是無監(jiān)督學(xué)習(xí),此時數(shù)據(jù)沒有類別信息,也不會給定目標值,。在無監(jiān)督學(xué)習(xí) 中 , 將數(shù)據(jù)集合分成由類似的對象組成的多個類的過程被稱為聚類;將尋找描述數(shù)據(jù)統(tǒng)計值的過程稱之為密度估計。此外 , 無監(jiān)督學(xué)習(xí)還可以減少數(shù)據(jù)特征的維度,以便我們可以使用二維或三維圖形更加直觀地展示數(shù)據(jù)信息,。

2 . 2 如何選擇合適的算法

考慮下面兩個問題:

一 ,、使用機器學(xué)習(xí)算法的目的,

想要算法完成何種任務(wù),比如是預(yù)測明天下雨的概率還是對投票者按照興趣分組;

二需要分析或者收集的數(shù)據(jù)是什么

如果目標變量是離散型,如是 / 否、 1/2/3 ,、 ― 冗或者紅 / 黃 / 黑等 ,則可以選擇分類器算法;

如果目標變量是連續(xù)型的數(shù)值,如 0.0~ 100.00 ,、 -999~999 或者 +00~-00 等 ,則需要選擇回歸算法。

其次需要考慮的是數(shù)據(jù)問題,。我們應(yīng)該充分了解數(shù)據(jù), 對實際數(shù)據(jù)了解得越充分, 越容易創(chuàng)建符合實際需求的應(yīng)用程序,。主要應(yīng)該了解數(shù)據(jù)的以下特性: 特征值是離散型變量還是連續(xù)型變量 ,特征值中是否存在缺失的值, 何種原因造成缺失值,數(shù)據(jù)中是否存在異常值, 某個特征發(fā)生的頻率如何 (是否罕見得如同海底撈針),等等。充分了解上面提到的這些數(shù)據(jù)特性可以縮短選擇機器學(xué)習(xí)算法的時間,。

三使用Python的原因

Python語言得到了廣泛應(yīng)用,。 SciPy和 Numpy等許多科學(xué)函數(shù)庫都實現(xiàn)了向量和矩陣操作, 這些函數(shù)庫增加了代碼的可讀性, 學(xué)過線性代數(shù)的人都可以看懂代碼的實際功能。

Python 的科學(xué)工具可以與繪圖工具 Matplotlib 協(xié)同工作,。 Matplotlib 可以繪制 2D ,、 3 0 圖形.

安裝Numpy的時候安裝了很久,原因在于自己Pycharm的python版本和系統(tǒng)默認python版本不同,Pychram使用3.0,但在命令行import numpy的時候是2.7所以在Pycham里面換回2,7就ok了.

Numpy安裝方法: