什么是監(jiān)督學(xué)習(xí),？如何理解分類和回歸,？

nacei 2019-09-18

展開全文

監(jiān)督學(xué)習(xí)是機器學(xué)習(xí)中的一種訓(xùn)練方式/學(xué)習(xí)方式：

監(jiān)督學(xué)習(xí)需要有明確的目標(biāo)，很清楚自己想要什么結(jié)果,。比如：按照“既定規(guī)則”來分類,、預(yù)測某個具體的值...

監(jiān)督并不是指人站在機器旁邊看機器做的對不對，而是下面的流程：

選擇一個適合目標(biāo)任務(wù)的數(shù)學(xué)模型
先把一部分已知的“問題和答案”（訓(xùn)練集）給機器去學(xué)習(xí)
機器總結(jié)出了自己的“方法論”
人類把'新的問題'（測試集）給機器,，讓他去解答

上面提到的問題和答案只是一個比喻,，假如我們想要完成文章分類的任務(wù)，則是下面的方式：

選擇一個合適的數(shù)學(xué)模型
把一堆已經(jīng)分好類的文章和他們的分類給機器
機器學(xué)會了分類的“方法論”
機器學(xué)會后,，再丟給他一些新的文章（不帶分類）,，讓機器預(yù)測這些文章的分類

監(jiān)督學(xué)習(xí)的2個任務(wù)：回歸、分類

監(jiān)督學(xué)習(xí)有2個主要的任務(wù)：

回歸
分類

回歸：預(yù)測連續(xù)的,、具體的數(shù)值,。比如：支付寶里的芝麻信用分?jǐn)?shù)(下面有詳細講解)

分類：對各種事物分門別類，用于離散型（什么是離散,？）預(yù)測,。比如：

「回歸」案例：芝麻信用分是怎么來的？

下面要說的是個人信用評估方法——FICO,。

他跟芝麻信用類似,，用來評估個人的信用狀況。FICO 評分系統(tǒng)得出的信用分?jǐn)?shù)范圍在300～850分之間,，分?jǐn)?shù)越高,，說明信用風(fēng)險越小。

下面我們來模擬一下 FICO 的發(fā)明過程,，這個過程就是監(jiān)督學(xué)習(xí)力的回歸,。

步驟1：構(gòu)建問題，選擇模型

我們首先找出個人信用的影響因素,，從邏輯上講一個人的體重跟他的信用應(yīng)該沒有關(guān)系,，比如我們身邊很講信用的人，有胖子也有瘦子,。

而財富總額貌似跟信用有關(guān),，因為馬云不講信用的損失是非常巨大的，所以大家從來沒有聽說馬云會不還信用卡,！而一個乞丐不講信用的損失是很小的,，這條街混不下去了換一條街繼續(xù),。

所以根據(jù)判斷，找出了下面5個影響因素：

付款記錄
賬戶總金額
信用記錄跨度(自開戶以來的信用記錄,、特定類型賬戶開戶以來的信用記錄...)
新賬戶(近期開戶數(shù)目,、特定類型賬戶的開戶比例...)
信用類別(各種賬戶的數(shù)目)

這個時候，我們就構(gòu)建了一個簡單的模型：

f 可以簡單理解為一個特定的公式,，這個公式可以將5個因素跟個人信用分形成關(guān)聯(lián),。

我們的目標(biāo)就是得到 f 這個公式具體是什么，這樣我們只要有了一個人的這5種數(shù)據(jù),，就可以得到一個人的信用分?jǐn)?shù)了,。

步驟2：收集已知數(shù)據(jù)

為了找出這個公式 f，我們需要先收集大量的已知數(shù)據(jù),，這些數(shù)據(jù)必須包含一個人的5種數(shù)據(jù)和他/她的信用狀態(tài)（把信用狀態(tài)轉(zhuǎn)化為分?jǐn)?shù)）,。

我們把數(shù)據(jù)分成幾個部分，一部分用來訓(xùn)練,，一部分用來測試和驗證,。

步驟3：訓(xùn)練出理想模型

有了這些數(shù)據(jù)，我們通過機器學(xué)習(xí),，就能'猜測'出這5種數(shù)據(jù)和信用分?jǐn)?shù)的關(guān)系,。這個關(guān)系就是公式 f。

然后我們再用驗證數(shù)據(jù)和測試數(shù)據(jù)來驗證一下這個公式是否 OK,。

測試驗證的具體方法是：

將5種數(shù)據(jù)套入公式,，計算出信用分
用計算出來的信用分跟這個人實際的信用分(預(yù)先準(zhǔn)備好的)進行比較
評估公式的準(zhǔn)確度，如果問題很大再進行調(diào)整優(yōu)化

步驟4：對新用戶進行預(yù)測

當(dāng)我們想知道一個新用戶的信用狀況時,，只需要收集到他的這5種數(shù)據(jù),，套進公式 f 計算一遍就知道結(jié)果了！

好了,，上面就是一個跟大家息息相關(guān)的回歸模型,，大致思路就是上面所講的思路，整個過程做了一些簡化,，如果想查看完整的過程,，可以查看《機器學(xué)習(xí)-機器學(xué)習(xí)實操的7個步驟》

「分類」案例：如何預(yù)測離婚

美國心理學(xué)家戈特曼博士用大數(shù)據(jù)還原婚姻關(guān)系的真相,，他的方法就是分類的思路,。

戈特曼博士在觀察和聆聽一對夫妻5分鐘的談話后，便能預(yù)測他們是否會離婚,，且預(yù)測準(zhǔn)確率高達94%,！他的這項研究還出了一本書《幸福的婚姻》（豆瓣８.４分）。

步驟1：構(gòu)建問題,，選擇模型

戈特曼提出,，對話能反映出夫妻之間潛在的問題，他們在對話中的爭吵、歡笑,、調(diào)侃和情感表露創(chuàng)造了某種情感關(guān)聯(lián),。通過這些對話中的情緒關(guān)聯(lián)可以將夫妻分為不同的類型，代表不同的離婚概率,。

步驟2：收集已知數(shù)據(jù)

研究人員邀請了700對夫妻參與實驗,。他們單獨在一間屋子里相對坐下，然后談?wù)撘粋€有爭論的話題,，比如金錢和性,，或是與姻親的關(guān)系。默里和戈特曼讓每一對夫妻持續(xù)談?wù)撨@個話題15分鐘,，并拍攝下這個過程,。觀察者看完這些視頻之后，就根據(jù)丈夫和妻子之間的談話給他們打分,。

步驟3：訓(xùn)練出理想模型

戈特曼的方法并不是用機器學(xué)習(xí)來得到結(jié)果,，不過原理都是類似的。他得到的結(jié)論如下：

首先,，他們將夫妻雙方的分?jǐn)?shù)標(biāo)繪在一個圖表上,，兩條線的交叉點就可以說明婚姻能否長久穩(wěn)定。如果丈夫或妻子持續(xù)得負分,，兩人很可能會走向離婚,。重點在于定量談話中正負作用的比率。理想中的比率是5∶1,，如果低于這個比例,，婚姻就遇到問題了。最后,，將結(jié)果放在一個數(shù)學(xué)模型上,，這個模型用差分方程式凸顯出成功婚姻的潛在特點。

戈特曼根據(jù)得分,，將這些夫妻分成5組：

幸福的夫妻：冷靜,、親密、相互扶持,、關(guān)系友好,。他們更喜歡分享經(jīng)驗。
無效的夫妻：他們盡最大努力避免沖突,，只是通過積極回應(yīng)對方的方式,。
多變的夫妻：他們浪漫而熱情，可爭論異常激烈,。他們時而穩(wěn)定時而不穩(wěn)定,，可總的來說不怎么幸福,。
敵對的夫妻：一方不想談?wù)撃臣拢硪环揭餐?，所以,，兩者之間沒有交流。
彼此無感的夫妻：一方興致勃勃地想要爭論一番,，可另一方對討論的話題根本不感興趣,。

該數(shù)學(xué)模型呈現(xiàn)了兩種穩(wěn)定型夫妻（關(guān)系和諧的夫妻和關(guān)系不和諧的夫妻）和兩種不穩(wěn)定型夫妻（敵對夫妻和無感夫妻）之間的區(qū)別。而據(jù)預(yù)測,，不穩(wěn)定的夫妻可能會一直保持婚姻關(guān)系,，盡管他們的婚姻不穩(wěn)定。

步驟4：對新用戶進行預(yù)測

12年以來,，每隔一兩年,，默里和戈特曼都會與參與研究的那700對夫妻交流。兩個人的公式對離婚率的預(yù)測達到了94%的準(zhǔn)確率,。

主流的監(jiān)督學(xué)習(xí)算法

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點,。請注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息，謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,，請點擊一鍵舉報。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻花（0） +1

來自： nacei > 《大數(shù)據(jù)與人工智能》

舉報/認(rèn)領(lǐng)