監(jiān)督學(xué)習(xí)是機器學(xué)習(xí)中的一種訓(xùn)練方式/學(xué)習(xí)方式: 監(jiān)督學(xué)習(xí)需要有明確的目標(biāo),很清楚自己想要什么結(jié)果,。比如:按照“既定規(guī)則”來分類,、預(yù)測某個具體的值... 監(jiān)督并不是指人站在機器旁邊看機器做的對不對,而是下面的流程:
上面提到的問題和答案只是一個比喻,,假如我們想要完成文章分類的任務(wù),則是下面的方式:
監(jiān)督學(xué)習(xí)的2個任務(wù):回歸、分類監(jiān)督學(xué)習(xí)有2個主要的任務(wù):
回歸:預(yù)測連續(xù)的,、具體的數(shù)值,。比如:支付寶里的芝麻信用分?jǐn)?shù)(下面有詳細講解) 分類:對各種事物分門別類,用于離散型(什么是離散,?)預(yù)測,。比如: 「回歸」案例:芝麻信用分是怎么來的?下面要說的是個人信用評估方法——FICO,。 他跟芝麻信用類似,,用來評估個人的信用狀況。FICO 評分系統(tǒng)得出的信用分?jǐn)?shù)范圍在300~850分之間,,分?jǐn)?shù)越高,,說明信用風(fēng)險越小。 下面我們來模擬一下 FICO 的發(fā)明過程,,這個過程就是監(jiān)督學(xué)習(xí)力的回歸,。 步驟1:構(gòu)建問題,選擇模型 我們首先找出個人信用的影響因素,,從邏輯上講一個人的體重跟他的信用應(yīng)該沒有關(guān)系,,比如我們身邊很講信用的人,有胖子也有瘦子,。 而財富總額貌似跟信用有關(guān),,因為馬云不講信用的損失是非常巨大的,所以大家從來沒有聽說馬云會不還信用卡,!而一個乞丐不講信用的損失是很小的,,這條街混不下去了換一條街繼續(xù),。 所以根據(jù)判斷,找出了下面5個影響因素:
這個時候,我們就構(gòu)建了一個簡單的模型: f 可以簡單理解為一個特定的公式,,這個公式可以將5個因素跟個人信用分形成關(guān)聯(lián),。 我們的目標(biāo)就是得到 f 這個公式具體是什么,這樣我們只要有了一個人的這5種數(shù)據(jù),,就可以得到一個人的信用分?jǐn)?shù)了,。 步驟2:收集已知數(shù)據(jù) 為了找出這個公式 f,我們需要先收集大量的已知數(shù)據(jù),,這些數(shù)據(jù)必須包含一個人的5種數(shù)據(jù)和他/她的信用狀態(tài)(把信用狀態(tài)轉(zhuǎn)化為分?jǐn)?shù)),。 我們把數(shù)據(jù)分成幾個部分,一部分用來訓(xùn)練,,一部分用來測試和驗證,。 步驟3:訓(xùn)練出理想模型 有了這些數(shù)據(jù),我們通過機器學(xué)習(xí),,就能'猜測'出這5種數(shù)據(jù)和信用分?jǐn)?shù)的關(guān)系,。這個關(guān)系就是公式 f。 然后我們再用驗證數(shù)據(jù)和測試數(shù)據(jù)來驗證一下這個公式是否 OK,。 測試驗證的具體方法是:
步驟4:對新用戶進行預(yù)測 當(dāng)我們想知道一個新用戶的信用狀況時,,只需要收集到他的這5種數(shù)據(jù),,套進公式 f 計算一遍就知道結(jié)果了! 好了,,上面就是一個跟大家息息相關(guān)的回歸模型,,大致思路就是上面所講的思路,整個過程做了一些簡化,,如果想查看完整的過程,,可以查看《機器學(xué)習(xí)-機器學(xué)習(xí)實操的7個步驟》 「分類」案例:如何預(yù)測離婚美國心理學(xué)家戈特曼博士用大數(shù)據(jù)還原婚姻關(guān)系的真相,,他的方法就是分類的思路,。 戈特曼博士在觀察和聆聽一對夫妻5分鐘的談話后,便能預(yù)測他們是否會離婚,,且預(yù)測準(zhǔn)確率高達94%,!他的這項研究還出了一本書《幸福的婚姻》(豆瓣8.4分)。 步驟1:構(gòu)建問題,,選擇模型 戈特曼提出,,對話能反映出夫妻之間潛在的問題,他們在對話中的爭吵、歡笑,、調(diào)侃和情感表露創(chuàng)造了某種情感關(guān)聯(lián),。通過這些對話中的情緒關(guān)聯(lián)可以將夫妻分為不同的類型,代表不同的離婚概率,。 步驟2:收集已知數(shù)據(jù) 研究人員邀請了700對夫妻參與實驗,。他們單獨在一間屋子里相對坐下,然后談?wù)撘粋€有爭論的話題,,比如金錢和性,,或是與姻親的關(guān)系。默里和戈特曼讓每一對夫妻持續(xù)談?wù)撨@個話題15分鐘,,并拍攝下這個過程,。觀察者看完這些視頻之后,就根據(jù)丈夫和妻子之間的談話給他們打分,。 步驟3:訓(xùn)練出理想模型 戈特曼的方法并不是用機器學(xué)習(xí)來得到結(jié)果,,不過原理都是類似的。他得到的結(jié)論如下: 首先,,他們將夫妻雙方的分?jǐn)?shù)標(biāo)繪在一個圖表上,,兩條線的交叉點就可以說明婚姻能否長久穩(wěn)定。如果丈夫或妻子持續(xù)得負分,,兩人很可能會走向離婚,。重點在于定量談話中正負作用的比率。理想中的比率是5∶1,,如果低于這個比例,,婚姻就遇到問題了。最后,,將結(jié)果放在一個數(shù)學(xué)模型上,,這個模型用差分方程式凸顯出成功婚姻的潛在特點。 戈特曼根據(jù)得分,,將這些夫妻分成5組:
該數(shù)學(xué)模型呈現(xiàn)了兩種穩(wěn)定型夫妻(關(guān)系和諧的夫妻和關(guān)系不和諧的夫妻)和兩種不穩(wěn)定型夫妻(敵對夫妻和無感夫妻)之間的區(qū)別。而據(jù)預(yù)測,,不穩(wěn)定的夫妻可能會一直保持婚姻關(guān)系,,盡管他們的婚姻不穩(wěn)定。 步驟4:對新用戶進行預(yù)測 12年以來,,每隔一兩年,,默里和戈特曼都會與參與研究的那700對夫妻交流。兩個人的公式對離婚率的預(yù)測達到了94%的準(zhǔn)確率,。 主流的監(jiān)督學(xué)習(xí)算法 |
|