久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

多層神經(jīng)網(wǎng)絡(luò)——梯度下降法的優(yōu)化

 irum 2023-02-28 發(fā)布于上海

駐點(diǎn)和鞍點(diǎn)

梯度下降法是一種求解函數(shù)極值的方法,函數(shù)在某一點(diǎn)的梯度是一個(gè)向量,,梯度方向?yàn)楹瘮?shù)值變化最快的方向(也就是取得最大方向?qū)?shù)的方向),。
在這里插入圖片描述
梯度下降法沿著損失函數(shù)的梯度方向更新權(quán)值,
在這里插入圖片描述
不斷的逼近極小值點(diǎn),,直到梯度為0時(shí),,停止迭代。
在這里插入圖片描述
凸函數(shù)只有一個(gè)駐點(diǎn),,
在這里插入圖片描述
即最小值點(diǎn),。

因此,當(dāng)機(jī)器學(xué)習(xí)模型的損失函數(shù)是凸函數(shù)時(shí),,采用梯度下降法,,只要步長(zhǎng)足夠小,那么一定可以收斂于最小值點(diǎn),。例如,,前面介紹的線性回歸和邏輯回歸,它們的損失函數(shù)就是凸函數(shù),。

但是多層損失函數(shù)的損失函數(shù)不再是凸函數(shù),,而是一個(gè)復(fù)雜的非凸函數(shù)。非凸函數(shù)可能有不止一個(gè)極值點(diǎn),,例如,,在下面函數(shù)中,
在這里插入圖片描述
它有四個(gè)點(diǎn)的導(dǎo)數(shù)都為0,,他們都是極小值點(diǎn),。采用梯度下降法,,可能達(dá)到全局最小值點(diǎn),
在這里插入圖片描述
也有可能達(dá)到局部極小值點(diǎn),,
在這里插入圖片描述
雖然并不是全局最小值點(diǎn),,但是非常接近,也是一個(gè)可以接受的終點(diǎn),。

但是,,如果不幸陷入了這個(gè)極小值點(diǎn),
在這里插入圖片描述
那么結(jié)果就會(huì)非常的不好,。

下圖為三維空間中的函數(shù)曲面,,
在這里插入圖片描述
★為全局最小值點(diǎn),黑色的折線為初始值通過(guò)不斷迭代更新參數(shù)到達(dá)全局最小值點(diǎn)的路徑,。
在這里插入圖片描述
○為局部極小值點(diǎn),,從一個(gè)點(diǎn)出發(fā),,在訓(xùn)練過(guò)程中,也可能會(huì)陷入這個(gè)局部極小值點(diǎn)。

另外,,對(duì)于非凸函數(shù),,導(dǎo)數(shù)為0的點(diǎn)不一定都是極值點(diǎn),,例如,,在下圖曲線中,
在這里插入圖片描述
○位置點(diǎn)的導(dǎo)數(shù)為0,,但是,,它并不是極值點(diǎn)。這種既不是極大值,,也不是極小值的駐點(diǎn),,稱為鞍點(diǎn)。

在下圖所示的空間曲面上,,
在這里插入圖片描述
○位置點(diǎn)也是鞍點(diǎn),。
在這里插入圖片描述
在 A -> B方向?yàn)闃O小值,
在這里插入圖片描述
但是在C -> D方向?yàn)闃O大值,。
在這里插入圖片描述
這個(gè)曲面看起來(lái)就像馬鞍,。

對(duì)于非凸函數(shù),在局部極小值點(diǎn)或者鞍點(diǎn),,梯度接近與0,,無(wú)法提供向哪個(gè)方向更新的信息,迭代就會(huì)停止,,也可能并沒(méi)有到達(dá)梯度恰好為0的位置,,而是在這個(gè)點(diǎn)的旁邊很近的地方來(lái)回震蕩,陷入局部極小值區(qū)域,,很難從這里逃脫出去,,到達(dá)全局最小值的位置,,因此,對(duì)于多層神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō),,使用梯度下降法,,無(wú)法保證一定可以到達(dá)最小值點(diǎn),這也是神經(jīng)網(wǎng)絡(luò)被詬病的原因之一,。

我們只能夠盡量改進(jìn)訓(xùn)練方法,,調(diào)整參數(shù),優(yōu)化算法,,使其盡可能的收斂與全局最小值點(diǎn)。

通過(guò)上節(jié)課的學(xué)習(xí),,我們知道小批量梯度下降算法是訓(xùn)練大規(guī)模數(shù)據(jù)集的首選算法,。

影響小批量梯度下降法的主要因素

這是,一元線性回歸采用小批量梯度下降算法時(shí)的損失函數(shù),,
在這里插入圖片描述
以及對(duì)應(yīng)的參數(shù)更新迭代公式:
在這里插入圖片描述
可以看出,,影響小批量梯度下降法的主要因素有每次抽取的小批量樣本的選擇、批量中的樣本數(shù),、學(xué)習(xí)率以及梯度,。

下面就分別從上述幾點(diǎn)入手,來(lái)改進(jìn)和優(yōu)化訓(xùn)練算法,。

1,、每次抽取的小批量樣本的選擇

在批量梯度下降法中,每次訓(xùn)練都使用整個(gè)樣本集中的所有數(shù)據(jù),,因此,,不存在樣本這個(gè)不確定因素,而在小批量梯度下降法中,,每次選擇不同的小批量樣本,,損失函數(shù)是這個(gè)小批量中所有樣本的殘差總和,這些樣本的屬性值 xi 和 標(biāo)簽值 yi 也成為了損失函數(shù)中的自變量,。也就是說(shuō),,每一次迭代的梯度會(huì)受到抽樣的影響,為了盡可能的減少樣本對(duì)訓(xùn)練的影響,,在每輪訓(xùn)練之前,,最好打亂樣本順序,使其盡可能的均勻分布,,然后再?gòu)闹幸来纬槿⌒∨繕颖炯?/p>

這就好像我們?cè)诖驌淇伺浦?,總是要先洗牌一樣,特別是有些數(shù)據(jù)集中的數(shù)據(jù)是自然排列的,,連續(xù)的樣本直接有著高度的相關(guān)性,。

2,、批量中的樣本數(shù)

另外,小批量樣本的數(shù)量,,也就是批的數(shù)量,,也會(huì)影響訓(xùn)練的效果。在一定的范圍之內(nèi),,批量中的樣本數(shù)量越來(lái)越多,,梯度方向約越準(zhǔn)確,迭代次數(shù)越少,。但是每次迭代所需要的時(shí)間也就越長(zhǎng),。

因此,當(dāng)批量中的樣本增加到一定程度時(shí),,模型的性能會(huì)開(kāi)始下降,。如果小批量中,樣本的數(shù)量等于整個(gè)數(shù)據(jù)集,,
在這里插入圖片描述
就是批量梯度下降法,。

另一方面,批量中的樣本數(shù)量越少,,隨機(jī)性也就越大,,迭代次數(shù)越多。
在這里插入圖片描述
我們?cè)谟?xùn)練神經(jīng)網(wǎng)絡(luò)時(shí),,應(yīng)該盡可能選擇合適的批量大小,,使得模型效率更高,更穩(wěn)定,,并且具有比較好的泛化能力,。

在一些硬件系統(tǒng)中,使用特定大小的數(shù)組,,可以充分利用處理器資源,,進(jìn)行并行計(jì)算。例如,,在使用 GPU 時(shí),,通常使用 2 的冪數(shù),
在這里插入圖片描述
作為批量大小,。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn),。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,,請(qǐng)點(diǎn)擊一鍵舉報(bào),。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多