小朋友也能看懂的機(jī)器學(xué)習(xí)

臨淵草堂 2020-04-14

展開全文

盡可能簡單地解釋ML模型的工作方式

小朋友也能看懂的機(jī)器學(xué)習(xí)

如果您是數(shù)據(jù)科學(xué)的新手,，那么這個標(biāo)題并不是要侮辱您。這是我的第二篇帖子,，主題是一個受歡迎的面試問題,，內(nèi)容類似于：'像我五歲那樣向我解釋[插入技術(shù)主題]。'

事實(shí)證明,，達(dá)到5歲的理解水平相當(dāng)困難,。因此，盡管這篇文章可能對幼稚園學(xué)習(xí)者來說不是很清楚,，但對于沒有或幾乎沒有數(shù)據(jù)科學(xué)背景的人來說,，它應(yīng)該是清楚的（如果不是最后，請在評論中讓我知道）,。

我將首先解釋什么是機(jī)器學(xué)習(xí)以及不同類型的機(jī)器學(xué)習(xí),，然后再介紹常見的模型。我不會進(jìn)行任何數(shù)學(xué)運(yùn)算,，但是將來我會在另一篇文章中考慮這樣做,。請享用！

監(jiān)督機(jī)器學(xué)習(xí)的定義

監(jiān)督學(xué)習(xí)是一種機(jī)器學(xué)習(xí),，其中您放入模型中的數(shù)據(jù)被'標(biāo)記',。標(biāo)記只是簡單地表示觀測結(jié)果（也就是數(shù)據(jù)行）是已知的。例如,，如果您的模型試圖預(yù)測您的朋友是否會打高爾夫球,，那么您可能會有諸如溫度，星期幾等變量,。如果您的數(shù)據(jù)帶有標(biāo)簽,，那么您的變量也將包含如果您的朋友實(shí)際打高爾夫球，則值為1,；否則,，則為0。

無監(jiān)督機(jī)器學(xué)習(xí)的定義

您可能已經(jīng)猜到了，在涉及標(biāo)簽數(shù)據(jù)時,，無監(jiān)督學(xué)習(xí)與有監(jiān)督學(xué)習(xí)相反,。在無監(jiān)督學(xué)習(xí)的情況下，您不知道朋友是否打高爾夫球,，這取決于計算機(jī)通過模型找到模式來猜測發(fā)生的事情或預(yù)測發(fā)生的事情,。

監(jiān)督機(jī)器學(xué)習(xí)模型

[需要成人監(jiān)督]

邏輯回歸

遇到分類問題時，將使用邏輯回歸,。這意味著您的目標(biāo)變量（也就是您要預(yù)測的變量）由類別組成,。這些類別可以是'是/否',，也可以是代表客戶滿意度的介于1到10之間的數(shù)字,。

邏輯回歸模型使用方程式創(chuàng)建包含數(shù)據(jù)的曲線，然后使用該曲線預(yù)測新觀測的結(jié)果,。

小朋友也能看懂的機(jī)器學(xué)習(xí)

> Illustration of Logistic Regression

在上圖中,，新觀測值的預(yù)測值為0，因?yàn)樗挥谇€的左側(cè),。如果查看此曲線所基于的數(shù)據(jù),，這是有道理的，因?yàn)樵趫D形的'預(yù)測值為0'區(qū)域中,，大多數(shù)數(shù)據(jù)點(diǎn)的y值為0,。

線性回歸

線性回歸通常是人們學(xué)習(xí)的最早的機(jī)器學(xué)習(xí)模型之一。這是因?yàn)閮H使用一個x變量時,，它的算法（即幕后方程式）相對容易理解-它只是畫出一條最合適的線,，這是在小學(xué)階段教授的一種概念。然后,，該最佳擬合線用于做出有關(guān)新數(shù)據(jù)點(diǎn)的預(yù)測（參見插圖）,。

小朋友也能看懂的機(jī)器學(xué)習(xí)

> Illustration of Linear Regression

線性回歸與邏輯回歸相似，但是當(dāng)目標(biāo)變量是連續(xù)的時使用線性回歸,，這意味著它可以采用任何數(shù)值,。實(shí)際上，任何具有連續(xù)目標(biāo)變量的模型都可以歸類為'回歸',。連續(xù)變量的一個例子是房屋的售價,。

線性回歸也很容易解釋。模型方程式包含每個變量的系數(shù),，并且這些系數(shù)指示目標(biāo)變量針對自變量（x變量）中的每個小變化而變化了多少,。以房價為例，這意味著您可以看一下回歸方程,，并說'哦,，這告訴我，每增加1平方英尺的房屋大小（x變量）,，便要賣出價格（目標(biāo)變量）增加25美元,。'

K最近鄰居（KNN）

該模型可用于分類或回歸！名稱' K最近的鄰居'并不旨在造成混淆,。該模型首先繪制出所有數(shù)據(jù),。標(biāo)題的' K'部分是指模型為了確定預(yù)測值應(yīng)使用的最鄰近數(shù)據(jù)點(diǎn)的數(shù)量（請參見下圖）。您作為未來的數(shù)據(jù)科學(xué)家,，可以選擇K,，然后您可以使用這些值來查看哪個值提供最佳預(yù)測。

小朋友也能看懂的機(jī)器學(xué)習(xí)

> Illustration of K Nearest Neighbors

K = __圈中的所有數(shù)據(jù)點(diǎn)都會對此新數(shù)據(jù)點(diǎn)的目標(biāo)變量值進(jìn)行'投票',。得票最多的那個值是KNN為新數(shù)據(jù)點(diǎn)預(yù)測的值,。在上圖中，最近的鄰居中有2個是1類,，而鄰居中的1個是2類,。因此，模型將為此數(shù)據(jù)點(diǎn)預(yù)測1類,。如果模型試圖預(yù)測數(shù)值而不是類別,，則所有'投票'都是對數(shù)值進(jìn)行平均以獲得預(yù)測。

支持向量機(jī)（SVM）

支持向量機(jī)通過在數(shù)據(jù)點(diǎn)之間建立邊界來工作,，其中一類的大多數(shù)位于邊界的一側(cè)（在2D情況下也稱為線）,，而另一類的大多數(shù)位于另一側(cè)。

小朋友也能看懂的機(jī)器學(xué)習(xí)

> Illustration of Support Vector Machines

它的工作方式是機(jī)器尋求找到最大邊距的邊界,。邊距定義為每個類的最近點(diǎn)與邊界之間的距離（請參見插圖）,。然后繪制新的數(shù)據(jù)點(diǎn)，并根據(jù)它們落在邊界的哪一側(cè)將其分類,。

我對此模型的解釋是針對分類情況的,，但是您也可以使用SVM進(jìn)行回歸！

決策樹和隨機(jī)森林

小朋友也能看懂的機(jī)器學(xué)習(xí)

> Illustration of Machine Learning

機(jī)器學(xué)習(xí)是指將大量數(shù)據(jù)加載到計算機(jī)程序中并選擇一種模型以'擬合'數(shù)據(jù)時,，這將使計算機(jī)（無需您的幫助）可以得出預(yù)測,。計算機(jī)制作模型的方式是通過算法進(jìn)行的，算法的范圍從簡單的方程式（如直線方程式）到非常復(fù)雜的邏輯/數(shù)學(xué)系統(tǒng),，可以使計算機(jī)獲得最佳預(yù)測,。

無監(jiān)督機(jī)器學(xué)習(xí)模型

[謹(jǐn)慎使用]

現(xiàn)在，我們正在嘗試無監(jiān)督的學(xué)習(xí)（又稱'雙關(guān)'）,。提醒一下,，這意味著我們的數(shù)據(jù)集未標(biāo)記，因此我們不知道觀察結(jié)果,。

K均值聚類

當(dāng)使用K表示聚類時,，必須首先假設(shè)數(shù)據(jù)集中有K個聚類,。由于您不知道數(shù)據(jù)中實(shí)際上有多少個組，因此必須嘗試不同的K值,，并使用可視化和度量標(biāo)準(zhǔn)來查看哪個K值有意義,。 K表示最適合圓形和相似大小的簇。

K Means算法首先選擇最佳的K個數(shù)據(jù)點(diǎn),，以形成K個聚類中每個聚類的中心,。然后，它對每個點(diǎn)重復(fù)以下兩個步驟：

· 將數(shù)據(jù)點(diǎn)分配到最近的集群中心

· 通過獲取此集群中所有數(shù)據(jù)點(diǎn)的平均值來創(chuàng)建一個新中心

小朋友也能看懂的機(jī)器學(xué)習(xí)

> Illustration of K Means Clustering

DBSCAN集群

DBSCAN集群模型與K的不同之處在于,，它不需要您輸入K的值,，并且它還可以找到任何形狀的集群（請參見下圖）。您無需輸入簇的數(shù)量,，而是輸入簇中所需的最小數(shù)據(jù)點(diǎn)數(shù)以及搜索簇的數(shù)據(jù)點(diǎn)周圍的半徑,。 DBSCAN將為您找到集群！然后,，您可以更改用于制作模型的值,，直到獲得對數(shù)據(jù)集有意義的聚類為止,。

小朋友也能看懂的機(jī)器學(xué)習(xí)

此外,，DBSCAN模型會為您分類'噪聲'點(diǎn)（即，遠(yuǎn)離所有其他觀測值的點(diǎn)）,。當(dāng)數(shù)據(jù)點(diǎn)非?？拷鼤r，此模型比K表示的效果更好,。

神經(jīng)網(wǎng)絡(luò)

在我看來,，神經(jīng)網(wǎng)絡(luò)是最酷，最神秘的模型,。它們之所以稱為神經(jīng)網(wǎng)絡(luò),，是因?yàn)樗鼈兪前凑瘴覀兇竽X中神經(jīng)元的工作方式建模的。這些模型用于在數(shù)據(jù)集中查找模式,。有時他們發(fā)現(xiàn)人類可能永遠(yuǎn)無法識別的模式,。

神經(jīng)網(wǎng)絡(luò)可以很好地處理圖像和音頻等復(fù)雜數(shù)據(jù)。它們是當(dāng)今我們一直看到的許多軟件功能的背后,，從面部識別（不再令人毛骨悚然,，F(xiàn)acebook）到文本分類。

對于本文而言,，即使只是觸及神經(jīng)網(wǎng)絡(luò)的運(yùn)行方式,，也可能過于復(fù)雜。如果您想了解更多信息,，請參閱'初學(xué)者'指南：https：//pathmind.com/wiki/neural-network,。

結(jié)論

希望本文不僅增加了您對這些模型的理解,，還使您意識到它們是多么的酷和有用！當(dāng)我們讓計算機(jī)進(jìn)行工作/學(xué)習(xí)時,，我們可以坐下來看看它能找到什么模式,。有時可能會造成混淆，因?yàn)榧词箤＜乙矡o法理解計算機(jī)得出其結(jié)論的確切邏輯,，但是在某些情況下,，我們關(guān)心的只是它擅長預(yù)測！

但是,，有時候我們確實(shí)會關(guān)心計算機(jī)如何達(dá)到其預(yù)測,，例如是否正在使用模型來確定哪些求職者將獲得第一輪面試。有關(guān)此的更多信息,，以下是TED的精彩演講,，您不必成為數(shù)據(jù)科學(xué)家即可理解或欣賞：

與往常一樣，非常感謝您的閱讀,，如果發(fā)現(xiàn)有用,，請分享這篇文章！ :)

所有圖形都是我在www.canva.com上制作的（充滿愛意）,。如果您希望使用它們,，請與我聯(lián)系。

還要向Sean Davern,，Scott Kroeger,，Dotun Opasina和Bhanu Yerra表示感謝，以幫助他們通過我們的數(shù)據(jù)科學(xué)訪談實(shí)踐課程更好地理解這些模型,。

(本文翻譯自Megan Dibble的文章《Machine Learning Models Explained to a Five-year-old》,，參考：https:///machine-learning-models-explained-to-a-five-year-old-f2f540d9dcea)

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布,，不代表本站觀點(diǎn),。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,，謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報,。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：臨淵草堂 > 《教育博覽》

舉報/認(rèn)領(lǐng)