1萬字原創(chuàng)讀書筆記，機(jī)器學(xué)習(xí)的知識點(diǎn)全在這篇文章里了

aruogu 2019-08-11

展開全文

【導(dǎo)讀】作者用超過1.2萬字的篇幅,，總結(jié)了自己學(xué)習(xí)機(jī)器學(xué)習(xí)過程中遇到知識點(diǎn),?！叭腴T后，才知道機(jī)器學(xué)習(xí)的魅力與可怕,。”希望正在閱讀本文的你,，也能在機(jī)器學(xué)習(xí)上學(xué)有所成,。

00 準(zhǔn)備

機(jī)器學(xué)習(xí)是什么，人工智能的子類,，深度學(xué)習(xí)的父類,。

機(jī)器學(xué)習(xí)：使計(jì)算機(jī)改進(jìn)或是適應(yīng)他們的行為，從而使他們的行為更加準(zhǔn)確,。也就是通過數(shù)據(jù)中學(xué)習(xí),，從而在某項(xiàng)工作上做的更好。

引用王鈺院士在2008年會議的一句話,，假定W是給定世界的有限或者無限的所有對象的集合,，Q是我們能夠或得到的有限數(shù)據(jù)，Q是W的一個(gè)很小的真子集,，機(jī)器學(xué)習(xí)就是根據(jù)世界的樣本集來推算世界的模型,，使得模型對于整體世界來說為真。

機(jī)器學(xué)習(xí)的兩個(gè)驅(qū)動：神經(jīng)網(wǎng)絡(luò),，數(shù)據(jù)挖掘,。

機(jī)器學(xué)習(xí)的分類：

監(jiān)督學(xué)習(xí)：提供了包含正確回答的訓(xùn)練集，并以這個(gè)訓(xùn)練集為基礎(chǔ),，算法進(jìn)行泛化,，直到對所有的可能輸入都給出正確回答，這也稱在范例中學(xué)習(xí),。
無監(jiān)督學(xué)習(xí)：沒有提供正確回答,，算法試圖鑒別出輸入之間的相似，從而將同樣的輸入歸為一類,，這種方法稱密度學(xué)習(xí),。
強(qiáng)化學(xué)習(xí)：介于監(jiān)督和無監(jiān)督之間，當(dāng)答案不正確時(shí),，算法被告知,，如何改正則不得而知，算法需要去探索，試驗(yàn)不同情況,，直到得到正確答案,，強(qiáng)化學(xué)習(xí)有時(shí)稱為伴隨評論家的學(xué)習(xí)，因?yàn)樗粚Υ鸢冈u分,，而不給出改進(jìn)建議,。
進(jìn)化學(xué)習(xí)：將生物學(xué)的進(jìn)化看成一個(gè)學(xué)習(xí)過程，我們研究如何在計(jì)算機(jī)中對這一過程進(jìn)行建模,，采用適應(yīng)度的概念,，相當(dāng)于對當(dāng)前解答方案好壞程度的評分。（不是所有機(jī)器學(xué)習(xí)書籍都包含進(jìn)化學(xué)習(xí)）

優(yōu)點(diǎn)：泛化,，對于未曾碰到的輸入也能給出合理的輸出,。

監(jiān)督學(xué)習(xí)：回歸、分類,。

機(jī)器學(xué)習(xí)過程：

數(shù)據(jù)的收集和準(zhǔn)備
特征選擇
算法選擇
參數(shù)和模型選擇
訓(xùn)練
評估

專業(yè)術(shù)語：

輸入：輸入向量x作為算法輸入給出的數(shù)據(jù)
突觸：wij是節(jié)點(diǎn)i和節(jié)點(diǎn)j之間的加權(quán)連接,，類似于大腦中的突觸，排列成矩陣W
輸出：輸出向量y,，可以有n個(gè)維度
目標(biāo)：目標(biāo)向量t,，有n個(gè)維度，監(jiān)督學(xué)習(xí)所需要等待額外數(shù)據(jù),，提供了算法正在學(xué)習(xí)的“正確答案”
維度：輸入向量的個(gè)數(shù)
激活函數(shù)：對于神經(jīng)網(wǎng)絡(luò),，g（·）是一種數(shù)學(xué)函數(shù)，描述神經(jīng)元的激發(fā)和作為對加權(quán)輸入的響應(yīng)
誤差：E是根據(jù)y和t計(jì)算網(wǎng)絡(luò)不準(zhǔn)確性的函數(shù)
權(quán)重空間：當(dāng)我們的輸入數(shù)據(jù)達(dá)到200維時(shí),，人類的限制使得我們無法看見,，我們最多只能看到三維投影，而對于計(jì)算機(jī)可以抽象出200個(gè)相互正交的軸的超平面進(jìn)行計(jì)算,，神經(jīng)網(wǎng)絡(luò)的參數(shù)是將神經(jīng)元連接到輸入的一組權(quán)重值,，如將神經(jīng)元的權(quán)重視為一組坐標(biāo)，即所謂的權(quán)重空間
維度災(zāi)難：隨著維度的增加,，單位超球面的體積也在不斷增加,，2d中，單位超球面為圓,，3d中則為求,，而更高的維度便稱為超球面，Vn = （2π/n）*Vn-2,，于是當(dāng)n>2π時(shí),，體積開始縮小，因此可用數(shù)據(jù)減少,，意味著我們需要更多的數(shù)據(jù),，當(dāng)數(shù)據(jù)到達(dá)100維以上時(shí),，單位數(shù)據(jù)變得極小,，進(jìn)而需要更多的數(shù)據(jù),，從而造成維度災(zāi)難

維度和體積的關(guān)系：

機(jī)器學(xué)習(xí)算法測試：

算法成功程度是預(yù)測和一直目標(biāo)進(jìn)行比較，對此我們需要一組新的數(shù)據(jù),，測試集,。

當(dāng)對算法進(jìn)行訓(xùn)練時(shí)，過度的訓(xùn)練將會導(dǎo)致過擬合,，即擬合曲線與數(shù)據(jù)完美擬合,，但是失去了泛化能力，為檢測過擬合我們需要用測試集進(jìn)行驗(yàn)證,，稱為統(tǒng)計(jì)中的交叉驗(yàn)證,，它是模型選擇中的一部門：為模型選擇正確的參數(shù)，以便盡可能的泛化,。

數(shù)據(jù)的準(zhǔn)備,，我們需要三組數(shù)據(jù)集，訓(xùn)練算法的訓(xùn)練集,，跟蹤算法學(xué)習(xí)效果的驗(yàn)證集,，用于產(chǎn)生最終結(jié)果的測試集，數(shù)據(jù)充足情況便執(zhí)行50:25:25或60:20:20的劃分,，數(shù)據(jù)集分配應(yīng)隨機(jī)處理,，當(dāng)數(shù)據(jù)請核實(shí)板塊，則采用流出方法或多折交叉驗(yàn)證,。

混淆矩陣是檢測結(jié)果是否良好的分類,，制作一個(gè)方陣，其包含水平和垂直方向上所有可能的類,，在（i,，j）處的矩陣元素告訴我們在目標(biāo)中有多少模式被放入類i中，主對角線上任何東西都是正確答案,，主對角線元素之和除以所有元素的和,，從而得到的百分比便是精度。

精度指標(biāo)：真正例是被正確放入類1,，假正例是被錯(cuò)誤放入類1,，而真反例是被正確放入類2，假反例是被錯(cuò)誤放入類2,。

真正例（TP）	假正例（FP）
假反例（FN）	真反例（TN）

敏感率=#TP/(#TP+#FN) 特異率=#TN/(#TN+#FP)
查準(zhǔn)率=#TP/(#TP+#FP) 查全率=#TP/(#TP+#FN)
F1 = 2*(查準(zhǔn)率*查全率)/(查準(zhǔn)率+查全率)

受試者工作曲線：y軸真正例率,，x軸假正例率，線下區(qū)面積：AUC,。

數(shù)據(jù)與概率的轉(zhuǎn)換：通過貝葉斯法則處理聯(lián)合概率P(C,X)和條件概率P(X|C)得出P(C|X),，MAP問題是訓(xùn)練數(shù)據(jù)中最可能的類是什么。將所有類的最終結(jié)果考慮在內(nèi)的方法稱為貝葉斯最優(yōu)分類。

損失矩陣：指定類Ci被分為類Cj所涉及的風(fēng)險(xiǎn),。

基本統(tǒng)計(jì)概念：協(xié)方差,，度量兩個(gè)變量的依賴程度。

Cov（{xi},{yi}）=E({xi} – u)E({yi} – v)

權(quán)衡偏差與方差：偏差-方差困境：更復(fù)雜的模型不一定能產(chǎn)生更好的結(jié)果,；模型糟糕可能由于兩個(gè)原因,，模型不準(zhǔn)確而與數(shù)據(jù)不匹配，或者不精確而有極大的不穩(wěn)定性,。第一種情況稱為偏差,，第二種情況稱為方差。

01 神經(jīng)元,、神經(jīng)網(wǎng)絡(luò)和線性判別

1. 魯棒性

魯棒是Robust的音譯,，也就是健壯和強(qiáng)壯的意思。它是在異常和危險(xiǎn)情況下系統(tǒng)生存的關(guān)鍵,。比如說,，計(jì)算機(jī)軟件在輸入錯(cuò)誤、磁盤故障,、網(wǎng)絡(luò)過載或有意攻擊情況下,，能否不死機(jī)、不崩潰,，就是該軟件的魯棒性,。

2. 神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)模仿的便是生物學(xué)中的神經(jīng)網(wǎng)絡(luò)，通過輸入進(jìn)而判定神經(jīng)元激活否,。

將一系列的神經(jīng)元放置在一起,，假設(shè)數(shù)據(jù)存在模式。通過神經(jīng)元一些已知的樣例,，我們希望他能夠發(fā)現(xiàn)這種模式,，并且正確預(yù)測其他樣例，稱為模式識別,。為了讓神經(jīng)網(wǎng)絡(luò)能夠?qū)W習(xí),，我們需要改變神經(jīng)元的權(quán)重和閾值進(jìn)而得到正確的結(jié)果，歷史上的第一個(gè)神經(jīng)網(wǎng)絡(luò)——感知器,。

3. Hebb法則

突觸連接強(qiáng)度的變化和兩個(gè)相連神經(jīng)元激活得相關(guān)性成比例,，如果兩個(gè)神經(jīng)元始終同時(shí)激活，那么他們之間連接的強(qiáng)度會變大,，反之,，如果兩個(gè)神經(jīng)元從來不同時(shí)激活，那么他們之間的連接會消失,。也被成為長時(shí)效增強(qiáng)法則和神經(jīng)可塑性,。

4. McCulloch和Pitts神經(jīng)元

建模,，一組輸入加權(quán)wi相當(dāng)于突觸，一個(gè)加法器把輸入信號相加（等價(jià)于收集電荷的細(xì)胞膜）,，一個(gè)激活函數(shù),，決定細(xì)胞對于當(dāng)前的輸入是否激活，輸入乘于權(quán)重的和與閾值進(jìn)行判斷,，大于則激活，否則抑制,。局限性：現(xiàn)實(shí)中的神經(jīng)元不給出單一的輸出相應(yīng),，而是給出一個(gè)點(diǎn)位序列，一種連續(xù)的方式給出分等級的輸出,。神經(jīng)元不會根據(jù)電腦的時(shí)鐘脈沖去順序更新,，而是隨機(jī)的異步更新。

5. 感知器

感知器神經(jīng)網(wǎng)絡(luò)

權(quán)重更新規(guī)則

Wij <- Wij – n(yi – ti)*xi

N為學(xué)習(xí)效率,，過大會造成網(wǎng)絡(luò)不穩(wěn)定,，過小會造成學(xué)習(xí)時(shí)間久；yi為神經(jīng)元輸出,，ti為神經(jīng)元目標(biāo),，xi為神經(jīng)元輸入，Wij為權(quán)重,。

感知器學(xué)習(xí)算法

分為兩部分,，訓(xùn)練階段和再現(xiàn)階段。

初始化：設(shè)置所有的權(quán)重wij為小的隨機(jī)數(shù)（正或負(fù)都可）,。
訓(xùn)練：對T次循環(huán),，對每一個(gè)輸入向量利用激活函數(shù)g計(jì)算每一個(gè)神經(jīng)元j的激活狀態(tài)：

利用下式更新每一個(gè)權(quán)重：

再現(xiàn)：利用下式計(jì)算每一個(gè)神經(jīng)元j的激活狀態(tài)

6. 線性可分性

一條直線將神經(jīng)元激活的和不激活的神經(jīng)元?jiǎng)澐珠_來，這條直線稱為決策邊界,，也稱為判別函數(shù),，在三維空間該決策邊界為平面，更高維則為超平面,。

7. 感知器收斂定理

感知器以1/γ*γ為界,，其中γ為分離超平面與最接近的數(shù)據(jù)點(diǎn)之間的距離。

只要把數(shù)據(jù)映射到正確的維度空間,，那么總是可以用一個(gè)線性函數(shù)來把兩個(gè)類別區(qū)分開,，為了較有效率的解決這個(gè)問題，有一整類的方法稱為核分類器,，也是支持向量機(jī)的基礎(chǔ),。

8. 數(shù)據(jù)項(xiàng)預(yù)處理

特征選擇，我們每次去掉一個(gè)不同的特征,，然后試著在所得的輸入子集上訓(xùn)練分類器,，看結(jié)果是否有所提高,，如果去掉某一個(gè)特征能使得結(jié)果有所改進(jìn)，那么久徹底去掉他,，在嘗試能否去掉其他的特征,，這是一個(gè)測試輸出與每一個(gè)特征的相關(guān)性的過于簡單方法。

9. 線性回歸

回歸問題是用一條線去擬合數(shù)據(jù),，而分類問題是尋找一條線來劃分不同類別,。回歸方法,，引入一個(gè)指示變量,，它簡單的標(biāo)識每一個(gè)數(shù)據(jù)點(diǎn)所屬的類別。現(xiàn)在問題就變成了用數(shù)據(jù)去預(yù)測指示變量,，第二種方法是進(jìn)行重復(fù)的回歸,，每一次對其中的一個(gè)類別，指示值為1代表樣本屬于該類別,，0代表屬于其他類別,。

02 維度簡約

1. 降維的三種算法

特征選擇法：仔細(xì)查找可見的并可以利用的特征而無論他們是否有用，把它與輸出變量關(guān)聯(lián)起來
特征推導(dǎo)法：通過應(yīng)用數(shù)據(jù)遷移,，即通過可以用矩陣來描述的平移和旋轉(zhuǎn)來改變圖標(biāo)的坐標(biāo)系,，從而用舊的特征推導(dǎo)出新的特征，因?yàn)樗试S聯(lián)合特征,，并且堅(jiān)定哪一個(gè)是有用的,，哪一個(gè)沒用
聚類法：把相似的數(shù)據(jù)點(diǎn)放一起，看能不能有更少的特征

2. 特征選擇方法

建設(shè)性方法：通過迭代不斷加入,，測試每一個(gè)階段的錯(cuò)誤以了解某個(gè)特征加入時(shí)是否會發(fā)生變化,。破壞性方法是去掉應(yīng)用在決策樹上的特征。

主成分分析（PCA）

主成分的概念是數(shù)據(jù)中變化最大的方向,。算法首先通過減去平均值來把數(shù)據(jù)集中,，選擇變化最大的方向并把它設(shè)為坐標(biāo)軸，然后檢查余下的變化并且找一個(gè)坐標(biāo)軸使得它垂直于第一個(gè)并且覆蓋盡可能多的變化,。

不斷重復(fù)這個(gè)方法直到找到所有可能的坐標(biāo)軸,。這樣的結(jié)果就是所有的變量都是沿著直角坐標(biāo)系的軸，并且協(xié)方差矩陣是對角的——每個(gè)新變量都與其他變量無關(guān),，而只與自己有關(guān),。一些變化非常小的軸可以去掉不影響數(shù)據(jù)的變化性。

具體算法

寫成N個(gè)點(diǎn)Xi=(X1i,，X2i,，... xXi)作為行向量。
把這些向量寫成一個(gè)矩陣X(X將是N*M階矩陣),。
通過減去每列的平均值來把數(shù)據(jù)中心化,，并令變化好的矩陣為B,。
計(jì)算協(xié)方差陣C= 1/N *B^TB。
計(jì)算C的特征向量和特征值,，即V^-1CV=D,其中V由C的特征向量組成,，D是由特征值組成的M*M階對角矩陣。
把D對角線上元素按降序排列,，并對V的列向量做同樣的排列,。
去掉那些小于η的特征值，剩下L維的數(shù)據(jù),。

3. 基于核的PCA算法

選擇核并且把它應(yīng)用于距離矩陣從而得到矩陣K,。
計(jì)算K的特征值和特征向量。
通過特征值的平方根標(biāo)準(zhǔn)化特征向量,。
保留與最大特征值對應(yīng)的特征向量。

4. 因素分析

觀察數(shù)據(jù)是否可以被少量不相關(guān)的因素或潛在的變量解釋,，目的用于發(fā)現(xiàn)獨(dú)立因素和測量每一個(gè)因素固有的誤差,。

5. 獨(dú)立成分分析（ICA）

統(tǒng)計(jì)成分是獨(dú)立的，即對于E[bi,bj] = E[bi]E[bj]與及bi是不相關(guān)的,。

6. 局部線性嵌入算法

找出每個(gè)點(diǎn)的鄰近點(diǎn)(即前k個(gè)近的點(diǎn)):計(jì)算每對點(diǎn)間的距離,。找到前k個(gè)小的距離。對于其他點(diǎn),，令Wij=0.對每個(gè)點(diǎn)xi:創(chuàng)建一個(gè)鄰近點(diǎn)的位置表z,計(jì)算zi=zi-xi,。

根據(jù)約束條件計(jì)算令等式（6.31）最小的權(quán)矩陣W:計(jì)算局部協(xié)方差C=ZZ^T，其中Z是zi組成的矩陣,。利用CW=I計(jì)算W,其中I是N*N單位矩陣,。對于非鄰近點(diǎn)，令Wij=0,。

對W/∑W設(shè)置其他元素計(jì)算使得等式(6.32)最小的低維向量 yi:創(chuàng)建M=(I-W)T(I-W).計(jì)算M的特征值和特征向量,。根據(jù)特征值的大小給特征向量排序。對應(yīng)于第q小的特征值,，將向量y的第q行設(shè)置為第q+1 個(gè)特征向量(忽略特征值為0)

7. 多維標(biāo)度算法

計(jì)算由每對點(diǎn)平方相似度組成的矩陣D, Dij=|xi-xj|.計(jì)算J=IN – 1/N (IN是N*N單位矩陣,，N是數(shù)據(jù)點(diǎn)個(gè)數(shù))。
計(jì)算B=-1/2JDJ^T.
找到B的L個(gè)最大的特征值入i,,，以及相對應(yīng)的特征向量ei,。
用特征值組成對角矩陣V并且用特征向量組成矩陣P的列向量。
計(jì)算嵌入x=pv^0.5

8. ISOMAP算法

創(chuàng)建所有點(diǎn)對之間的距離
確定每個(gè)點(diǎn)的鄰近點(diǎn),，并做成一個(gè)權(quán)重表G
通過找最短路徑估計(jì)測地距離dG
把經(jīng)典MDS算法用于一系列dG

03 概率學(xué)習(xí)

1. 期望最大算法（EM）

額外加入位置變量,，通過這些變量最大化函數(shù)。

2. 高斯混合模型的期望最大算法

初始化

設(shè)置

是從數(shù)據(jù)集中隨機(jī)選出來的值

設(shè)置

（這里

是整個(gè)數(shù)據(jù)集的平均值）

設(shè)置

=0.5

迭代直到收斂：

3. 通常的期望最大化算法

初始化

猜測參數(shù)

迭代直到收斂：

4. 信息準(zhǔn)則

除了通過模型選擇確定停止學(xué)習(xí)的時(shí)間,，前期采用驗(yàn)證集思想,，而信息準(zhǔn)則則是確定一些方法從而期待這個(gè)訓(xùn)練過的模型可以表現(xiàn)的多好,。

艾卡信息準(zhǔn)則：AIC = ln（C）-k
貝葉斯信息準(zhǔn)則：BIC = 2ln（C）-klnN

K是模型中參數(shù)的數(shù)目，N是訓(xùn)練樣本的數(shù)量,，C是模型的最大似然,。以上兩種方法都是奧卡姆剃刀的一種形式。

5. 奧卡姆剃刀

如無必要,，勿增實(shí)體,，即簡單有效原理。

6. 最近鄰法

如果沒有一個(gè)描述數(shù)據(jù)的模型,，那么最好的事情就是觀察相似的數(shù)據(jù)并且把他們選擇成同一類,。

7. 核平滑法

用一個(gè)和（一堆點(diǎn)的權(quán)重函數(shù)）來根據(jù)輸入的距離來決定每一個(gè)數(shù)據(jù)點(diǎn)有多少權(quán)重。當(dāng)兩個(gè)核都會對離當(dāng)前輸入更近的點(diǎn)給出更高的權(quán)重,，而當(dāng)他們離當(dāng)前輸入點(diǎn)越遠(yuǎn)時(shí),，權(quán)重會光滑的減少為0，權(quán)重通過λ來具體化,。

8. KD-Tree

在一個(gè)時(shí)刻選擇一個(gè)維度并且將它分裂成兩個(gè),，從而創(chuàng)建一顆二進(jìn)制樹，并且讓一條直線通過這個(gè)維度里點(diǎn)的坐標(biāo)的中位數(shù),。這與決策樹的差別不大,。數(shù)據(jù)點(diǎn)作為樹的樹葉。

制作樹與通常的二進(jìn)制樹的方法基本相同：我們定義一個(gè)地方來分裂成兩種選擇——左邊和右邊,，然后沿著它們向下,。可以很自然地想到用遞歸的方法來寫算法,。

選擇在哪分裂和如何分裂使得KD-Tree是不同的,。在每一步只有一個(gè)維度分裂，分裂的地方是通過計(jì)算那一維度的點(diǎn)的中位數(shù)得到的,，并且在那畫一條直線,。通常，選擇哪一個(gè)維度分裂要么通過不同的選擇要么隨機(jī)選擇,。

算法向下搜索可能的維度是基于到目前為止樹的深度,，所以在二維里，它要么是水平的要么是垂直的分裂,。組成這個(gè)方法的核心是簡單地選代選取分裂的函數(shù),，找到那個(gè)坐標(biāo)的中位數(shù)的值，并且根據(jù)那個(gè)值來分裂點(diǎn),。

04 支持向量機(jī)

1. 支持向量機(jī)（SVM）

當(dāng)前現(xiàn)代機(jī)器學(xué)習(xí)中最流行的算法之一,，其在大小合理的數(shù)據(jù)集上經(jīng)常提供比其他機(jī)器學(xué)習(xí)算法更好的分類性能。

2. 支持向量

在每個(gè)類中距離分類線最近的那些點(diǎn)則被稱為支持向量,。

如果有一個(gè)非線性可分?jǐn)?shù)據(jù)集,，那么就不能滿足所有數(shù)據(jù)點(diǎn)的約束條件,，解決方法是引入一些松弛變量η>=0。

3. 選擇核

任何一個(gè)對稱函數(shù)如果是正定的,，都可以用來做核,。這就是Mercer定理的結(jié)果，Mercer定理也指出一些核旋繞到一起的結(jié)果可能是另一個(gè)核,。

4. 支持向量機(jī)算法

初始化：

對于指定的內(nèi)核和內(nèi)核參數(shù),，計(jì)算數(shù)據(jù)之間距離的內(nèi)核

這里主要的工作是計(jì)算K=XX^T。

對于線性內(nèi)核,，返回K,，對于多項(xiàng)式的次數(shù)d，返回1/σ 8 K^d,。

對于RBF核,，計(jì)算K=exp(-(x-x')^2/2σ*σ。

訓(xùn)練：

將約束集組裝為要求解的矩陣：

約束于

將這些矩陣傳遞給求解器,。

將文持向量標(biāo)識為距高最近點(diǎn)一定距離內(nèi)的向量,并處理其余的訓(xùn)練集,。

用公式(8.10)計(jì)算b^*

5. 分類

對于給定的測試數(shù)據(jù)z，使用支持向量對相關(guān)內(nèi)核的數(shù)據(jù)進(jìn)行分類,，計(jì)算測試數(shù)據(jù)與支持向量的內(nèi)積,，進(jìn)行分類,，返回標(biāo)記或值,。

05 優(yōu)化和搜索

1. 下山法

朝哪個(gè)方向移動才能下降盡可能快：

采用線性搜索，知道方向,，那么久沿著他一直走,，直到最小值，這僅是直線的搜索,；
信賴域,，通過二次型建立函數(shù)的局部模型并且找到這個(gè)局部模型的最小值。由于我們不知道防線,，因此可以采用貪婪選擇法并且在每個(gè)點(diǎn)都沿著下降最快的方向走,，這就是所知的最速下降，它意味著pk=-▽f（xk）,。最速下降基于函數(shù)中的泰勒展開,，這是一種根據(jù)導(dǎo)數(shù)近似函數(shù)值的方法。

2. Lenenberg-Marquardt算法

給定一個(gè)初始點(diǎn)X0
當(dāng)J^Tr(x)>公差并且沒有超出最大迭代次數(shù):
重復(fù):
用線性最小二乘法算出(J^TJ+vI)dx=一J^Tr中的dx,。令Xnew=x+dx,。
計(jì)算實(shí)際減少和預(yù)測減少的比例:
實(shí)際=||f(x)- f(xnew)||
預(yù)測=▽f^T(x)*xnew-x
p=實(shí)際/預(yù)測
如果0<p<0.25:
接受:x=Xnew。
或者如果p>0.25:
接受: x=Xnew,。
增加信賴城大小(減少v),。
或者:
拒絕,。
減少信賴域大小(增加v)。
一直到x被更新或超出跌代的最大次數(shù)

3. 共軛梯度

二維空間中,，如下圖所示,，一步沿x軸方向，另一部沿y方向,，這樣足以足以達(dá)到最小值,。而在n維空間我們應(yīng)該走n步以達(dá)到最小值，它嘗試在線性情況下實(shí)現(xiàn)這個(gè)想法,，但是我們通常感興趣的非線性情況下,，只需要多一點(diǎn)迭代就可以達(dá)到最小。

左邊：如果方向之間是相互正交的并且步長是正確的,，每一個(gè)維度只需要走一步,，這里走了兩步。右邊：在橢圓上共軛的方向不是相互正交的,。

具體算法：

給一個(gè)初始點(diǎn)x0和停止參數(shù)ε,令p0=-▽f(x),。
設(shè)置Pnew=P0
當(dāng)Pnew>εεp0時(shí):
用牛頓-拉夫森迭代法計(jì)算αkP
當(dāng)ααdp>ε2時(shí):
α=-(▽f(x)^T p)(p^T H(x)p)
x=x+αP
dp=P^TP
評價(jià)▽f(xnew)。
計(jì)算βn+1-更新p←▽f(xnew)+βk+1p,。
檢查及重新啟動,。

4. 搜索的三種基本方法

窮舉法：檢查所有方法，保證找到全局最優(yōu)
貪婪搜索：整個(gè)系統(tǒng)只找一條路,，在每一步都找局部最優(yōu)解,。所以對于TSP,任意選擇第-個(gè)城市，然后不斷重復(fù)選擇和當(dāng)前所在城市最近并且沒有訪問過的城市,，直到走完所有城市,。它的計(jì)算量非常小，只有O(NlogN),但它并不保證能找到最優(yōu)解,，并且我們無法預(yù)測它找到的解決方案如何,，有可能很糟糕。
爬山法：爬山法的基本想法是通過對當(dāng)前解決方案的局部搜索,，選擇任一個(gè)選項(xiàng)來改善結(jié)果,，進(jìn)行局部搜索時(shí)做出的選擇來自于一個(gè)移動集(moveset)。它描述了當(dāng)前解決方案如何被改變從而用來產(chǎn)生新的解決方案,。所以如果我們想象在2D歐幾里得空間中移動,，可能的移動就是東、南,、西,、北。

對于TSP，爬山法要先任意選一個(gè)解決方案,，然后調(diào)換其中一對城市的順序,，看看總的旅行距離是否減少。當(dāng)交換的對數(shù)達(dá)到預(yù)先給定的數(shù)時(shí),，或找不到一個(gè)調(diào)換可以改善相對于預(yù)先給定的長度的結(jié)果時(shí)停止算法,。

就像貪婪算法一樣，我們無法預(yù)測結(jié)果將會怎樣：有可能找到全局最優(yōu)解,，也有可能陷在第一個(gè)局部最大值上,，從而并不定能找到全局最優(yōu)解，爬山法的核心循環(huán)僅僅是調(diào)換對城市,，并且僅當(dāng)它使得距離變小時(shí)才保留調(diào)換,。

5. 模擬退火算法

開始時(shí)選擇一個(gè)任意的很高的溫度T，之后我們將隨機(jī)選擇狀態(tài)并且改變它們的值,，監(jiān)視系統(tǒng)變化前后的能量,。如果能量變低了，系統(tǒng)就會喜歡這種解決方法,，所以我們接受這個(gè)變化,。目前為止，這和梯度下降法很像,。

然而,，如果能量不變低，我們?nèi)匀豢紤]是否接受這個(gè)解決方法,，并且接受的概率是exp((Ebefore- Eafter)/T),。這叫作波爾茲曼分布(Boltzmann distribution)。注意到Ebefore Eafter 是負(fù)的,，所以我們定義的概率是合理的,。偶爾接受這個(gè)不好的狀態(tài)是因?yàn)槲覀兛赡苷业降氖蔷植孔钚?，并且通過接受這個(gè)能量更多的狀態(tài),，我們可以逃離出這個(gè)區(qū)域。

在重復(fù)上述方法幾次后,，我們采用一個(gè)退火時(shí)間表以便降低溫度并且使得該方法能延續(xù)下去直到溫度達(dá)到0,。由于溫度變低，所以接受任一個(gè)特殊的較高的能量狀態(tài)的機(jī)會就會變少,。最常用的退火時(shí)間表是T(l+1)=cT(t),，這里0<c<1(更加常用的是0.8<c<1)。需要減慢退火的速度以允許更多的搜索,。

6. 四種算法TSP結(jié)果比較

第一行為最好的解決方案和距離,，第二行為運(yùn)行時(shí)間，城市為10個(gè)。

Exhaustive search

((1, 5, 10, 6, 3, 9, 2, 4, 8, 7, 0), 4.18)

1781.0613

Greedy search

((3, 9, 2, 6, 10, 5, 1, 8, 4, 7, 0]), 4.49)

0.0057

Hill Climbing

((7, 9, 6, 2, 4, 0, 3, 8, 1, 5, 10]), 7.00)

0.4572

Simulated Annealing

((10, 1, 6, 9, 8, 0, 5, 2, 4, 7, 3]), 8.95)

0.0065

06 進(jìn)化學(xué)習(xí)

1. 遺傳算法（GA）

模擬進(jìn)化是如何搜索的,，通過改變基因來改變個(gè)體的適應(yīng)度,。

GA使用字符串（類似染色體的作用），字符串中的每個(gè)元素都是從某些字母表中選擇,，字母表中的值通常是二進(jìn)制的相當(dāng)于等位基因,，對于解決方法，將被變?yōu)橐粋€(gè)字符串,，然后我們隨機(jī)生產(chǎn)字符串作為初始種群,。

評價(jià)適應(yīng)度可以被看成一個(gè)預(yù)測，它作用于一個(gè)字符串并且返回一個(gè)值,，它是遺傳算法中唯一因具體問題不同而不同的部分,。最好的字符串有最高的適應(yīng)值，當(dāng)解決方案不好時(shí),，適應(yīng)度也隨之下降,，GA工作于由種群組成的字符串，然后評價(jià)每個(gè)字符串的適應(yīng)度,，并進(jìn)行培養(yǎng),。

產(chǎn)生后代的常用3種方法：

聯(lián)賽選擇：反復(fù)從種群中挑選四個(gè)字符串，替換并將最適合的兩個(gè)字符串放人交配池中,。
截?cái)噙x擇：僅按比例f挑出適應(yīng)度最好的一-部分并且忽略其他的,。比如，f= 0.5經(jīng)常被使用,，所以前50%的字符串被放入交配池,，并且被等可能地選擇。這很顯然是一個(gè)非常簡單的實(shí)施方法,，但是它限制了算法探索的數(shù)量,，使得GA偏向于進(jìn)化。
適應(yīng)度比例選擇：最好的方法是按概率選擇字符串,，每個(gè)字符串被選擇的概率與它們的適應(yīng)度成比例,。通常采用的函數(shù)是(對于字符串a(chǎn))：

這里F^α是適應(yīng)度，如果適應(yīng)度不是正值,，則F需要在整個(gè)過程中被exp?(sF)替換,，這里s是選擇強(qiáng)度(selection strength)參數(shù)，并且你會意識到這個(gè)等式作為第4章的softmax激活）：

2. 遺傳算子產(chǎn)生

最常用時(shí)實(shí)現(xiàn)方法是在字符串中隨機(jī)找一個(gè)點(diǎn),，在這個(gè)點(diǎn)之前的部分用字符串1的,，而在交叉點(diǎn)之后，用字符串2的剩下部分,。我們實(shí)際上產(chǎn)生了兩個(gè)后代,，第2個(gè)是由字符串2的第一部分和字符串1的第二部分組成的。這個(gè)方式稱為單點(diǎn)交叉，顯然,，它的擴(kuò)展是多點(diǎn)交叉,。

最極端的情形是均勻交叉，它的字符串中的每一個(gè)元素都隨機(jī)地選自與他的父母,，下圖展示了三中類型的交叉法：

交叉算子的不同形式,。（a）單點(diǎn)交叉。隨機(jī)選擇字符串中的一個(gè)位置,，然后用字符串1的第一部分和字符串2的第二部分組成后代,。（b）多點(diǎn)交叉。選擇多個(gè)點(diǎn),，后代的生成方式和前面一樣,。（c）均勻交叉。每個(gè)元素都隨機(jī)的選自于它的父母,。

對當(dāng)前最好的字符串實(shí)現(xiàn)進(jìn)化通過編譯算子實(shí)現(xiàn),，字符串中每個(gè)元素的值以概率p（通常很小）改變,。

3. 基本遺傳算法

初始化
進(jìn)過我們選的字母表產(chǎn)生N個(gè)長為L的字符事,。
學(xué)習(xí)
生成一個(gè)(開始是空的)新的種群。
重復(fù)：
        通過適應(yīng)度在當(dāng)前種群中選擇兩個(gè)字符串,。
        重組它們產(chǎn)生兩個(gè)新的字符串,。
        讓后代變異。
        要么把兩個(gè)后代加到種群中,，要么使用精英法和比賽法
        保持記錄種群中最好的字符串,。
直到新種群中產(chǎn)生N個(gè)字符串
可選性地，使用精英法從父代中挑選最合適的字符串,，并替換子代中的一些其他字符串,。
追蹤新種群中最好的字符串。
用新種群代替當(dāng)前種群
直到到達(dá)停止標(biāo)準(zhǔn),。

4. 使用遺傳算法進(jìn)行圖著色

把方案編碼成字符串,，選擇合適的適應(yīng)度函數(shù)，選擇合適的遺傳算子,。

5. 與采樣結(jié)合的進(jìn)化學(xué)習(xí)

最基礎(chǔ)的版本是我們熟知的基于種群的增長學(xué)習(xí)算法(PBIL).該算法非常簡單,，像基本的GA一樣,，它采用一個(gè)二進(jìn)制字母表,，但不保留種群，而是利用一個(gè)概率向來給出每一個(gè)元素是0或1的概率,。

起初,，向量的每一個(gè)值都是0.5，所以每一個(gè)元素有相等的機(jī)會變成0或1，之后通過從分布指定的向量中取樣來構(gòu)建群體,并計(jì)算群體中每個(gè)成員的適合度,。

我們使用這個(gè)種群中的一個(gè)子集(通常只有前兩個(gè)適應(yīng)度最高的向量)和一個(gè)學(xué)習(xí)速率p來更新概率向量,，學(xué)習(xí)速率通常被設(shè)置為0.005(這里best和second代表種群中最好的和第二好的成員):p= pX(1 - η)+ η(best十second)/2。

之后丟棄這些種群,，并且利用更新的概率向量重新取樣來產(chǎn)生新的種群,，算法的核心就是簡單地利用適應(yīng)度最高的兩個(gè)字符串和更多的向量來尋找新的字符串。

07 強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)是狀態(tài)(state)或情形(situation)與動作(action)之間的映射,，目的是最大化一些數(shù)值形式的獎(jiǎng)賞(reward),。也就是說，算法知道當(dāng)前的輸人(狀態(tài)),，以及它可能做的一些事(動作),，目的是最大化獎(jiǎng)賞。進(jìn)行學(xué)習(xí)的智能體和環(huán)境之間有著明顯的區(qū)別,，環(huán)境是智能體完成動作的地方,，也是產(chǎn)生狀態(tài)和獎(jiǎng)賞的地方。

1. 馬爾可夫決策過程

馬爾可夫性：當(dāng)前的狀態(tài)對于計(jì)算獎(jiǎng)賞提供了足夠的信息而不需要以前的狀態(tài)信息,，一個(gè)具有馬爾可夫性的強(qiáng)化學(xué)習(xí)成為馬爾可夫決策過程,。它意味著基于以前的經(jīng)歷，我們只需要知道當(dāng)前的狀態(tài)和動作就可以計(jì)算下一步獎(jiǎng)賞的近似,，以及下一步的狀態(tài),。

2. 值

強(qiáng)化學(xué)習(xí)嘗試決定選擇哪一個(gè)動作來最大化未來的期望獎(jiǎng)賞，這個(gè)期望獎(jiǎng)賞就是值,，可以考慮當(dāng)前狀態(tài),，對所有采取的動作進(jìn)行平均，讓策略來自己解決這個(gè)問題,，即狀態(tài)值函數(shù),，或者考慮當(dāng)前狀態(tài)和可能采取的動作即動作值函數(shù)。

3. O-learning算法

初始化
對于所有的s和a, 設(shè)置Q(s, a)為一個(gè)很小的隨機(jī)數(shù),。
重復(fù):
初始化s,。
用目前的策略選擇動作a。
重復(fù)：
        使用ε-greedy或者其他策略來選擇動作a,。
        采取動作a并得到獎(jiǎng)賞r,。
        采樣新的狀態(tài)s’
        更新Q(s, a)←Q(s, a)+u(r+γmaxa’ (s', a')-Q(s, a))
        設(shè)置s←s'
應(yīng)用到當(dāng)前情節(jié)的每一步。直到?jīng)]有更多的情節(jié),。

4. Sarsa算法

初始化
對于所有的s和a,設(shè)置Q(s, a)為一個(gè)很小的隨機(jī)數(shù),。
重復(fù):
初始化s。
用當(dāng)前策略選擇動作
重復(fù):
        實(shí)行動作a并得到獎(jiǎng)賞r
        采樣新的狀態(tài)s'
        用當(dāng)前策略選擇動作a
        更新Q(s, a)<-Q(s, a)+u(r+yYQ(s',a')-Q(s,a)).
        s<-s’,a<-a’
應(yīng)用到當(dāng)前情節(jié)的每一步
直到?jīng)]有更多的情節(jié),。

兩種算法的相同

都是bootstrap方法,，因?yàn)樗麄兌际菑膶φ_答案很少的估計(jì)開始,，并且在算法進(jìn)行過程中不斷迭代。

不同

兩個(gè)算法一開始都沒有環(huán)境的任何信息,，因此會利用ε-greedy策略隨機(jī)探索,。然而，隨著時(shí)間的推移,，兩個(gè)算法所產(chǎn)生的決策出現(xiàn)了很大的不同,。

產(chǎn)生不同的主要原因是Q-learning總是嘗試跟著最優(yōu)的路徑，也就是最短的路,，這使它離懸崖很近,。并且，ε-greedy也意味著有時(shí)將會不可避免地翻倒,。通過對比的方式,，sarsa 算法將會收斂到一個(gè)非常安全的路線，它遠(yuǎn)離懸崖,，即使走的路線很長,。

sarsa 算法產(chǎn)生了一個(gè)非常安全的路線，因?yàn)樵谒腝的估計(jì)中包含了關(guān)于動作選擇的信息,，而Q-learning生成了一條冒險(xiǎn)但更短的路線,。哪種路線更好由你決定，并且依賴于跌落懸崖的后果有多么嚴(yán)重,。

08 樹的學(xué)習(xí)

決策樹的主要思想是從樹根開始,，把分類任務(wù)按順序分類成一個(gè)選擇，一步步進(jìn)行到葉子節(jié)點(diǎn)最終得到分類的結(jié)果,，樹結(jié)構(gòu)可以表示成if-then規(guī)則的集合,，適合應(yīng)用于規(guī)則歸納系統(tǒng)。

1. ID3

在決策樹下一次分類是,，對于每一個(gè)特征,，通過計(jì)算真?zhèn)€訓(xùn)練集的熵減少來選擇特征，這成為信息增益,，描述為整個(gè)集合的熵減去每一個(gè)特定特征被選擇后的熵減去每一個(gè)特定特征被選中后的熵,。

具體算法

如果所有的樣本都具有同一標(biāo)記:返回標(biāo)記為該類標(biāo)記的葉子節(jié)點(diǎn)。
否則,，如果沒有剩余特征用于測試:返回標(biāo)記為最常見標(biāo)記的葉子節(jié)點(diǎn),，
否則:使用公式選擇S中具有最大信息增益的特征戶作為下一個(gè)節(jié)點(diǎn)。為每一個(gè)特征戶的可能取值f增加一個(gè)分支,。對于每個(gè)分支:計(jì)算除去F后的每一個(gè)特征的Sf,，使用Sf遞歸調(diào)用算法，計(jì)算目前樣本集合的信息增益,。

決策樹復(fù)雜度

假設(shè)樹是近似平衡的,，那么每個(gè)節(jié)點(diǎn)的成本包括搜索d個(gè)可能的特征（盡管每個(gè)層級減少1,，但這不會影響O(·)符號的復(fù)雜性）,，然后計(jì)算每個(gè)分裂的數(shù)據(jù)集的信息贈與,，這需要花費(fèi)O（dnlogn），其中n為該節(jié)點(diǎn)上數(shù)據(jù)及的大小,，對于根節(jié)點(diǎn),，n=N，并且如果樹是平衡的,，則在樹的每個(gè)階段將n除于2,。在樹種的大約logN層級上對此求和，得到計(jì)算成本O(dN^2logN),。

09 委員會決策：集成學(xué)習(xí)

下圖為集成學(xué)習(xí)的基本思想,，給定一個(gè)相對簡單的二類分類問題和一些學(xué)習(xí)器，一個(gè)學(xué)習(xí)器的橢圓覆蓋數(shù)據(jù)的一個(gè)子集,，組合多個(gè)橢圓給出相當(dāng)復(fù)雜的決策邊界,。

通過組合許多簡單的分類器（這里簡單地將橢圓決策邊界放在數(shù)據(jù)上），決策邊界可以變得更加復(fù)雜,，使得正例與圓圈難以分離,。

1. AdaBoost（自適應(yīng)提升）

每次迭代中，一個(gè)新的分類器在訓(xùn)練集上訓(xùn)練,，而訓(xùn)集中的每-個(gè)數(shù)據(jù)點(diǎn)在每一步迭代時(shí)都會調(diào)整權(quán)重,，改變權(quán)重的根據(jù)是數(shù)據(jù)點(diǎn)被之前的分類器成功分類的難度。一開始,，這些權(quán)重都被初始化為1/N,其中N是訓(xùn)練集中點(diǎn)的個(gè)數(shù)然后,，每次迭代時(shí)，用所有被錯(cuò)分的點(diǎn)的權(quán)重之和作為誤差函數(shù)ε,。

對于錯(cuò)誤分類的點(diǎn),，其權(quán)重更新乘子為a=(1-ε)/ ε。對于正確分類的點(diǎn),，其權(quán)重不變,。接著在整個(gè)數(shù)層集上做歸一化(這是降低被正確分類的數(shù)據(jù)點(diǎn)的重要性的有效方法)。在設(shè)定的迭代次數(shù)結(jié)束之后訓(xùn)練終止,，或者當(dāng)所有的數(shù)據(jù)點(diǎn)都被正確分類后訓(xùn)練終止,，或者一個(gè)點(diǎn)的權(quán)重大于最大可用權(quán)重的一半時(shí)訓(xùn)練也終止。

具體算法：

初始化所有的權(quán)值為1/N,，其中N為數(shù)據(jù)點(diǎn)的個(gè)數(shù)

當(dāng)

(t<T,最大迭代次數(shù))：

在

上訓(xùn)練分類器,，得到數(shù)據(jù)點(diǎn)

的假設(shè)

計(jì)算訓(xùn)練誤差

設(shè)置

使用如下公式更新權(quán)值：

其中Zn為標(biāo)準(zhǔn)化常量

返回標(biāo)記為最普通類標(biāo)的葉子節(jié)點(diǎn)

2. 隨機(jī)森林

如果一棵樹是好的，那么許多樹木應(yīng)該更好,，只要他們有足夠的變化,。

3. 基本的隨機(jī)森林訓(xùn)練算法

對于每N個(gè)樹:
創(chuàng)建一個(gè)訓(xùn)練集的bootstrap樣本,。
使用這個(gè)bootstrap樣本訓(xùn)練決策樹。
在決策樹的每一個(gè)節(jié)點(diǎn),，隨機(jī)選擇m個(gè)特征,，然后只在這些特征集合中計(jì)算信息增益(或者基尼不純度)，選擇最優(yōu)的一個(gè),。
重復(fù)過程直到?jīng)Q策樹完成,。

4. 專家混合算法

對于每一個(gè)專家：

計(jì)算屬于每一個(gè)可能的類別的輸入的概率，通過如下公式計(jì)算（其中w_i是對于每個(gè)分類器的權(quán)重）：

對于樹上的每個(gè)門控網(wǎng)絡(luò)：

計(jì)算：

傳遞一個(gè)輸入到下一層門（這里的和是和該門相關(guān)的輸入上的和）：

10 無監(jiān)督學(xué)習(xí)

無監(jiān)督學(xué)習(xí)在不知道數(shù)據(jù)點(diǎn)屬于這一類而那些數(shù)據(jù)點(diǎn)屬于另一類的情況下找到數(shù)據(jù)中相似輸入的簇,。

1. k-means算法

初始化

選擇一個(gè)k值,。

在輸入空間中選擇k個(gè)隨機(jī)位置。

將簇中心μj,安排到這些位置,。

學(xué)習(xí)

重復(fù):

對每一個(gè)數(shù)據(jù)點(diǎn)Xi:

計(jì)算到每一個(gè)簇中心的距離,。

用下面的距離將數(shù)據(jù)點(diǎn)安排到最近的簇中心。

對每個(gè)簇中心:

將中心的位置移到這個(gè)簇中點(diǎn)的均值處(Nj是簇j中點(diǎn)的個(gè)數(shù)):

直到簇中心停止移動

使用

對每個(gè)測試點(diǎn):

計(jì)算到每個(gè)簇中心的距離,。

用下面的距離將數(shù)據(jù)點(diǎn)安排到最近的簇中心

2. 在線k-Means算法

初始化
選擇一個(gè)值k,它與輸出節(jié)點(diǎn)的數(shù)目有關(guān),。
用小的隨機(jī)值來初始化權(quán)重。
學(xué)習(xí)
歸一化數(shù)據(jù)以便所有的點(diǎn)都在單位球上,。
重復(fù):
        對每一個(gè)數(shù)據(jù)點(diǎn):
        計(jì)算所有節(jié)點(diǎn)的激活,。
        選出激活最高的那個(gè)節(jié)點(diǎn)作為勝利者。
        用公式更新權(quán)重,。
直到迭代的次數(shù)超過閾值,。
使用
對于每個(gè)測試點(diǎn)：
        計(jì)算所有節(jié)點(diǎn)的激活
        選擇激活最高的節(jié)點(diǎn)作為勝利者。

3. 自組織特征映射算法

初始化

選擇大?。ㄉ窠?jīng)元數(shù)目）和映射的維度d

或者

隨機(jī)選擇權(quán)重向量的值使得它們都是不同的OR

設(shè)置權(quán)值來增加數(shù)據(jù)的前d個(gè)主成分的方向

學(xué)習(xí)

重復(fù)

對每一個(gè)數(shù)據(jù)點(diǎn)：

用權(quán)重和輸入間的歐氏距離的最小值來選擇最匹配的神經(jīng)元

,，

用下面的公式來更新最匹配節(jié)點(diǎn)的權(quán)重向量：

這里η(t)是學(xué)習(xí)效率

其他的神經(jīng)元用下面的公式更新權(quán)重向量：

這里

是鄰居節(jié)點(diǎn)的學(xué)習(xí)效率，而是鄰居函數(shù)

,，它決定是否每個(gè)神經(jīng)元應(yīng)該是勝利神經(jīng)元的鄰居（所以h=1是鄰居,，h=0不是鄰居）

減少學(xué)習(xí)效率并且調(diào)整鄰居函數(shù)，一般通過

,，這里0≤α≤1決定大小下降的速度,，k是算法已經(jīng)運(yùn)行的迭代次數(shù)，k_max是算法停止的迭代次數(shù),。相同的公式被用于學(xué)習(xí)效率(η,ηn)和鄰居函數(shù)

直到映射停止改變或超出了最大迭代的次數(shù)

使用

對每個(gè)測試點(diǎn)：

用權(quán)重和輸入間的歐氏距離的最小值來選擇最匹配的神經(jīng)元n_b：

(*本文為 AI科技大本營轉(zhuǎn)載文章,，轉(zhuǎn)載請聯(lián)系作者)

【END】

◆

本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布,，不代表本站觀點(diǎn),。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,，謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： aruogu > 《公共服務(wù)及新經(jīng)濟(jì)》

舉報(bào)/認(rèn)領(lǐng)