久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

小朋友也能看懂的機(jī)器學(xué)習(xí)

 臨淵草堂 2020-04-14

盡可能簡單地解釋ML模型的工作方式

小朋友也能看懂的機(jī)器學(xué)習(xí)

如果您是數(shù)據(jù)科學(xué)的新手,,那么這個標(biāo)題并不是要侮辱您。 這是我的第二篇帖子,,主題是一個受歡迎的面試問題,,內(nèi)容類似于:'像我五歲那樣向我解釋[插入技術(shù)主題]。'

事實(shí)證明,,達(dá)到5歲的理解水平相當(dāng)困難,。 因此,盡管這篇文章可能對幼稚園學(xué)習(xí)者來說不是很清楚,,但對于沒有或幾乎沒有數(shù)據(jù)科學(xué)背景的人來說,,它應(yīng)該是清楚的(如果不是最后,請在評論中讓我知道),。

我將首先解釋什么是機(jī)器學(xué)習(xí)以及不同類型的機(jī)器學(xué)習(xí),,然后再介紹常見的模型。 我不會進(jìn)行任何數(shù)學(xué)運(yùn)算,,但是將來我會在另一篇文章中考慮這樣做,。 請享用!

監(jiān)督機(jī)器學(xué)習(xí)的定義

監(jiān)督學(xué)習(xí)是一種機(jī)器學(xué)習(xí),,其中您放入模型中的數(shù)據(jù)被'標(biāo)記',。 標(biāo)記只是簡單地表示觀測結(jié)果(也就是數(shù)據(jù)行)是已知的。 例如,,如果您的模型試圖預(yù)測您的朋友是否會打高爾夫球,,那么您可能會有諸如溫度,星期幾等變量,。如果您的數(shù)據(jù)帶有標(biāo)簽,,那么您的變量也將包含 如果您的朋友實(shí)際打高爾夫球,則值為1,;否則,,則為0。

無監(jiān)督機(jī)器學(xué)習(xí)的定義

您可能已經(jīng)猜到了,在涉及標(biāo)簽數(shù)據(jù)時,,無監(jiān)督學(xué)習(xí)與有監(jiān)督學(xué)習(xí)相反,。 在無監(jiān)督學(xué)習(xí)的情況下,您不知道朋友是否打高爾夫球,,這取決于計算機(jī)通過模型找到模式來猜測發(fā)生的事情或預(yù)測發(fā)生的事情,。

監(jiān)督機(jī)器學(xué)習(xí)模型

[需要成人監(jiān)督]

邏輯回歸

遇到分類問題時,將使用邏輯回歸,。 這意味著您的目標(biāo)變量(也就是您要預(yù)測的變量)由類別組成,。 這些類別可以是'是/否',,也可以是代表客戶滿意度的介于1到10之間的數(shù)字,。

邏輯回歸模型使用方程式創(chuàng)建包含數(shù)據(jù)的曲線,然后使用該曲線預(yù)測新觀測的結(jié)果,。

小朋友也能看懂的機(jī)器學(xué)習(xí)

> Illustration of Logistic Regression

在上圖中,,新觀測值的預(yù)測值為0,因?yàn)樗挥谇€的左側(cè),。 如果查看此曲線所基于的數(shù)據(jù),,這是有道理的,因?yàn)樵趫D形的'預(yù)測值為0'區(qū)域中,,大多數(shù)數(shù)據(jù)點(diǎn)的y值為0,。

線性回歸

線性回歸通常是人們學(xué)習(xí)的最早的機(jī)器學(xué)習(xí)模型之一。 這是因?yàn)閮H使用一個x變量時,,它的算法(即幕后方程式)相對容易理解-它只是畫出一條最合適的線,,這是在小學(xué)階段教授的一種概念。 然后,,該最佳擬合線用于做出有關(guān)新數(shù)據(jù)點(diǎn)的預(yù)測(參見插圖),。

小朋友也能看懂的機(jī)器學(xué)習(xí)

> Illustration of Linear Regression

線性回歸與邏輯回歸相似,但是當(dāng)目標(biāo)變量是連續(xù)的時使用線性回歸,,這意味著它可以采用任何數(shù)值,。 實(shí)際上,任何具有連續(xù)目標(biāo)變量的模型都可以歸類為'回歸',。 連續(xù)變量的一個例子是房屋的售價,。

線性回歸也很容易解釋。 模型方程式包含每個變量的系數(shù),,并且這些系數(shù)指示目標(biāo)變量針對自變量(x變量)中的每個小變化而變化了多少,。 以房價為例,這意味著您可以看一下回歸方程,,并說'哦,,這告訴我,每增加1平方英尺的房屋大小(x變量),,便要賣出價格(目標(biāo)變量) 增加25美元,。'

K最近鄰居(KNN)

該模型可用于分類或回歸! 名稱' K最近的鄰居'并不旨在造成混淆,。 該模型首先繪制出所有數(shù)據(jù),。 標(biāo)題的' K'部分是指模型為了確定預(yù)測值應(yīng)使用的最鄰近數(shù)據(jù)點(diǎn)的數(shù)量(請參見下圖)。 您作為未來的數(shù)據(jù)科學(xué)家,,可以選擇K,,然后您可以使用這些值來查看哪個值提供最佳預(yù)測。

小朋友也能看懂的機(jī)器學(xué)習(xí)

> Illustration of K Nearest Neighbors

K = __圈中的所有數(shù)據(jù)點(diǎn)都會對此新數(shù)據(jù)點(diǎn)的目標(biāo)變量值進(jìn)行'投票',。 得票最多的那個值是KNN為新數(shù)據(jù)點(diǎn)預(yù)測的值,。 在上圖中,最近的鄰居中有2個是1類,,而鄰居中的1個是2類,。因此,模型將為此數(shù)據(jù)點(diǎn)預(yù)測1類,。 如果模型試圖預(yù)測數(shù)值而不是類別,,則所有'投票'都是對數(shù)值進(jìn)行平均以獲得預(yù)測。

支持向量機(jī)(SVM)

支持向量機(jī)通過在數(shù)據(jù)點(diǎn)之間建立邊界來工作,,其中一類的大多數(shù)位于邊界的一側(cè)(在2D情況下也稱為線),,而另一類的大多數(shù)位于另一側(cè)。

小朋友也能看懂的機(jī)器學(xué)習(xí)

> Illustration of Support Vector Machines

它的工作方式是機(jī)器尋求找到最大邊距的邊界,。 邊距定義為每個類的最近點(diǎn)與邊界之間的距離(請參見插圖),。 然后繪制新的數(shù)據(jù)點(diǎn),并根據(jù)它們落在邊界的哪一側(cè)將其分類,。

我對此模型的解釋是針對分類情況的,,但是您也可以使用SVM進(jìn)行回歸!

決策樹和隨機(jī)森林

小朋友也能看懂的機(jī)器學(xué)習(xí)

> Illustration of Machine Learning

機(jī)器學(xué)習(xí)是指將大量數(shù)據(jù)加載到計算機(jī)程序中并選擇一種模型以'擬合'數(shù)據(jù)時,,這將使計算機(jī)(無需您的幫助)可以得出預(yù)測,。 計算機(jī)制作模型的方式是通過算法進(jìn)行的,算法的范圍從簡單的方程式(如直線方程式)到非常復(fù)雜的邏輯/數(shù)學(xué)系統(tǒng),,可以使計算機(jī)獲得最佳預(yù)測,。

無監(jiān)督機(jī)器學(xué)習(xí)模型

[謹(jǐn)慎使用]

現(xiàn)在,我們正在嘗試無監(jiān)督的學(xué)習(xí)(又稱'雙關(guān)'),。 提醒一下,,這意味著我們的數(shù)據(jù)集未標(biāo)記,因此我們不知道觀察結(jié)果,。

K均值聚類

當(dāng)使用K表示聚類時,,必須首先假設(shè)數(shù)據(jù)集中有K個聚類,。 由于您不知道數(shù)據(jù)中實(shí)際上有多少個組,因此必須嘗試不同的K值,,并使用可視化和度量標(biāo)準(zhǔn)來查看哪個K值有意義,。 K表示最適合圓形和相似大小的簇。

K Means算法首先選擇最佳的K個數(shù)據(jù)點(diǎn),,以形成K個聚類中每個聚類的中心,。 然后,它對每個點(diǎn)重復(fù)以下兩個步驟:

· 將數(shù)據(jù)點(diǎn)分配到最近的集群中心

· 通過獲取此集群中所有數(shù)據(jù)點(diǎn)的平均值來創(chuàng)建一個新中心

小朋友也能看懂的機(jī)器學(xué)習(xí)

> Illustration of K Means Clustering

DBSCAN集群

DBSCAN集群模型與K的不同之處在于,,它不需要您輸入K的值,,并且它還可以找到任何形狀的集群(請參見下圖)。 您無需輸入簇的數(shù)量,,而是輸入簇中所需的最小數(shù)據(jù)點(diǎn)數(shù)以及搜索簇的數(shù)據(jù)點(diǎn)周圍的半徑,。 DBSCAN將為您找到集群! 然后,,您可以更改用于制作模型的值,,直到獲得對數(shù)據(jù)集有意義的聚類為止,。

小朋友也能看懂的機(jī)器學(xué)習(xí)

此外,,DBSCAN模型會為您分類'噪聲'點(diǎn)(即,遠(yuǎn)離所有其他觀測值的點(diǎn)),。 當(dāng)數(shù)據(jù)點(diǎn)非??拷鼤r,此模型比K表示的效果更好,。

神經(jīng)網(wǎng)絡(luò)

在我看來,,神經(jīng)網(wǎng)絡(luò)是最酷,最神秘的模型,。 它們之所以稱為神經(jīng)網(wǎng)絡(luò),,是因?yàn)樗鼈兪前凑瘴覀兇竽X中神經(jīng)元的工作方式建模的。 這些模型用于在數(shù)據(jù)集中查找模式,。 有時他們發(fā)現(xiàn)人類可能永遠(yuǎn)無法識別的模式,。

神經(jīng)網(wǎng)絡(luò)可以很好地處理圖像和音頻等復(fù)雜數(shù)據(jù)。 它們是當(dāng)今我們一直看到的許多軟件功能的背后,,從面部識別(不再令人毛骨悚然,,F(xiàn)acebook)到文本分類。

對于本文而言,,即使只是觸及神經(jīng)網(wǎng)絡(luò)的運(yùn)行方式,,也可能過于復(fù)雜。 如果您想了解更多信息,,請參閱'初學(xué)者'指南:https://pathmind.com/wiki/neural-network,。

結(jié)論

希望本文不僅增加了您對這些模型的理解,,還使您意識到它們是多么的酷和有用! 當(dāng)我們讓計算機(jī)進(jìn)行工作/學(xué)習(xí)時,,我們可以坐下來看看它能找到什么模式,。 有時可能會造成混淆,因?yàn)榧词箤<乙矡o法理解計算機(jī)得出其結(jié)論的確切邏輯,,但是在某些情況下,,我們關(guān)心的只是它擅長預(yù)測!

但是,,有時候我們確實(shí)會關(guān)心計算機(jī)如何達(dá)到其預(yù)測,,例如是否正在使用模型來確定哪些求職者將獲得第一輪面試。 有關(guān)此的更多信息,,以下是TED的精彩演講,,您不必成為數(shù)據(jù)科學(xué)家即可理解或欣賞:

與往常一樣,非常感謝您的閱讀,,如果發(fā)現(xiàn)有用,,請分享這篇文章! :)

所有圖形都是我在www.canva.com上制作的(充滿愛意),。 如果您希望使用它們,,請與我聯(lián)系。

還要向Sean Davern,,Scott Kroeger,,Dotun Opasina和Bhanu Yerra表示感謝,以幫助他們通過我們的數(shù)據(jù)科學(xué)訪談實(shí)踐課程更好地理解這些模型,。

(本文翻譯自Megan Dibble的文章《Machine Learning Models Explained to a Five-year-old》,,參考:https:///machine-learning-models-explained-to-a-five-year-old-f2f540d9dcea)

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,,不代表本站觀點(diǎn),。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,,謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報,。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多