二、實踐應(yīng)用

Behindrain 2018-06-19

展開全文

一,、數(shù)據(jù)擴充

Random Erasing,尤其是對噪聲和遮擋具有更好的魯棒性,。

1.data augmentation有哪些技巧？

（1）

Color Jittering：對顏色的數(shù)據(jù)增強：圖像亮度,、飽和度,、對比度變化（此處對色彩抖動的理解不知是否得當(dāng)）；
PCA Jittering：首先按照RGB三個顏色通道計算均值和標(biāo)準(zhǔn)差,，再在整個訓(xùn)練集上計算協(xié)方差矩陣,，進行特征分解,，得到特征向量和特征值,，用來做PCA Jittering；

Noise：高斯噪聲,、模糊處理,；

（2）

Random Scale：尺度變換；
Random Crop：采用隨機圖像差值方式,，對圖像進行裁剪,、縮放；包括Scale Jittering方法（VGG及ResNet模型使用）或者尺度和長寬比增強變換,；
Horizontal/Vertical Flip：水平/垂直翻轉(zhuǎn),；
Shift：平移變換；
Rotation/Reflection：旋轉(zhuǎn)/仿射變換,；

（3）

Supervised Data Augmentation：根據(jù)目標(biāo)物體出現(xiàn)在不同位置的概率信息,，去選擇不同的Crop區(qū)域,，送進模型訓(xùn)練。通過引入這種有監(jiān)督的信息,，我們可以利用正確的信息來更好地訓(xùn)練模型,，以提升識別準(zhǔn)確率,。 (+0.5~0.7)

Label shuffle（類別不平衡）：首先對原始的圖像列表,，按照標(biāo)簽順序進行排序,；然后計算每個類別的樣本數(shù)量,，并得到樣本最多的那個類別的樣本數(shù),。根據(jù)這個最多的樣本數(shù),，對每類隨機都產(chǎn)生一個隨機排列的列表,；然后用每個類別的列表中的數(shù)對各自類別的樣本數(shù)求余,，得到一個索引值,，從該類的圖像中提取圖像,，生成該類的圖像隨機列表；然后把所有類別的隨機列表連在一起,，做個Random Shuffling,，得到最后的圖像列表，用這個列表進行訓(xùn)練,。每個列表,，到達最后一張圖像的時候，然后再重新做一遍這些步驟,，得到一個新的列表,，接著訓(xùn)練。Label Shuffling方法的優(yōu)點在于,，只需要原始圖像列表,，所有操作都是在內(nèi)存中在線完成，非常易于實現(xiàn),。

2. 數(shù)據(jù)不足時

（1）數(shù)據(jù)增強,、

（2）transfer learning（fine-tuning：根據(jù)數(shù)據(jù)集的大小，訓(xùn)練網(wǎng)絡(luò)的最后一層或者最后幾層）

Fine-tuning:固定網(wǎng)絡(luò),，即為學(xué)習(xí)率為0,、需要訓(xùn)練的層的學(xué)習(xí)率比較高（原來訓(xùn)練好的網(wǎng)絡(luò)的學(xué)習(xí)率的十分之一）、當(dāng)預(yù)訓(xùn)練的層（中間層）需要改變時,，學(xué)習(xí)率很?。ㄈ缭瓕W(xué)習(xí)率的一百分之一）

（3）修改網(wǎng)絡(luò)

二、數(shù)據(jù)預(yù)處理

1,、數(shù)據(jù)為什么要做歸一化,？

（1）神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)過程本質(zhì)就是為了學(xué)習(xí)數(shù)據(jù)分布，一旦訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)的分布不同，那么網(wǎng)絡(luò)的泛化能力也大大降低,；

（2）一旦每批訓(xùn)練數(shù)據(jù)的分布各不相同(batch 梯度下降),，那么網(wǎng)絡(luò)就要在每次迭代都去學(xué)習(xí)適應(yīng)不同的分布，這樣將會大大降低網(wǎng)絡(luò)的訓(xùn)練速度,，這也正是為什么我們需要對數(shù)據(jù)都要做一個歸一化預(yù)處理的原因,。

（3）歸一化后，最優(yōu)解的尋優(yōu)過程明顯會變得平緩,，更容易正確的收斂到最優(yōu)解,。

歸一化化就是要把你需要處理的數(shù)據(jù)經(jīng)過處理后（通過某種算法）限制在你需要的一定范圍內(nèi)。

1）歸一化后加快了梯度下降求最優(yōu)解的速度,。等高線變得顯得圓滑,，在梯度下降進行求解時能較快的收斂。如果不做歸一化,，梯度下降過程容易走之字,，很難收斂甚至不能收斂

2）把有量綱表達式變?yōu)闊o量綱表達式, 有可能提高精度。一些分類器需要計算樣本之間的距離（如歐氏距離）,，例如KNN,。如果一個特征值域范圍非常大，那么距離計算就主要取決于這個特征,，從而與實際情況相悖（比如這時實際情況是值域范圍小的特征更重要）

3) 邏輯回歸等模型先驗假設(shè)數(shù)據(jù)服從正態(tài)分布,。

歸一化的類型有線性歸一化、標(biāo)準(zhǔn)差歸一化,、非線性歸一化

2,、歸一化和標(biāo)準(zhǔn)化的區(qū)別？

歸一化：

１）把數(shù)據(jù)變成(０,，１)之間的小數(shù)

２）把有量綱表達式變成無量綱表達

常見的有線性轉(zhuǎn)換,、對數(shù)函數(shù)轉(zhuǎn)換、反余切函數(shù)轉(zhuǎn)換等

標(biāo)準(zhǔn)化：

數(shù)據(jù)的標(biāo)準(zhǔn)化（normalization）是將數(shù)據(jù)按比例縮放,，使之落入一個小的特定區(qū)間,。在某些比較和評價的指標(biāo)處理中經(jīng)常會用到，去除數(shù)據(jù)的單位限制,，將其轉(zhuǎn)化為無量綱的純數(shù)值,，便于不同單位或量級的指標(biāo)能夠進行比較和加權(quán)。

1 ) 最?。畲笠?guī)范化(線性變換)

y=((x-MinValue) / (MaxValue-MinValue))(new_MaxValue-new_MinValue)+new_minValue

2）z-score規(guī)范化(或零－均值規(guī)范化)

y=(x-X的平均值)／X的標(biāo)準(zhǔn)差

3）小數(shù)定標(biāo)規(guī)范化：通過移動X的小數(shù)位置來進行規(guī)范化

y= x/10的j次方　　(其中,j使得Max(|y|) <1的最小整數(shù)

4）.對數(shù)Logistic模式：

新數(shù)據(jù)=1/（1+e^(-原數(shù)據(jù))）

5）模糊量化模式

新數(shù)據(jù)=1/2+1/2sin[派3.1415/（極大值-極小值）

三、網(wǎng)絡(luò)參數(shù)初始化

1.權(quán)重初始化方法

caffe7種權(quán)值初始化的方法：常量初始化（constant）,、高斯分布初始化（gaussian）,、positive_unitball初始化、均勻分布初始化（uniform）、xavier初始化,、msra初始化,、雙線性初始化（bilinear）。

（1）常量初始化(constant)

把權(quán)值或者偏置初始化為一個常數(shù),，具體是什么常數(shù),，可以自己定義

（2）高斯分布初始化（gaussian）

需要給定高斯函數(shù)的均值與標(biāo)準(zhǔn)差

（3）positive_unitball初始化

讓每一個神經(jīng)元的輸入的權(quán)值和為 1，例如：一個神經(jīng)元有100個輸入,，讓這100個輸入的權(quán)值和為1. 首先給這100個權(quán)值賦值為在（0,，1）之間的均勻分布，然后,，每一個權(quán)值再除以它們的和就可以啦,。這么做，可以有助于防止權(quán)值初始化過大,，從而防止激活函數(shù)（sigmoid函數(shù)）進入飽和區(qū),。所以，它應(yīng)該比較適合simgmoid形的激活函數(shù)

（4）均勻分布初始化（uniform）

將權(quán)值與偏置進行均勻分布的初始化,，用min 與 max 來控制它們的的上下限,，默認(rèn)為（0，1）

（5）xavier初始化

對于權(quán)值的分布：均值為0,，方差為（1 / 輸入的個數(shù)）的均勻分布,。如果我們更注重前向傳播的話，我們可以選擇 fan_in,，即正向傳播的輸入個數(shù),；如果更注重后向傳播的話，我們選擇 fan_out, 因為在反向傳播的時候,，fan_out就是神經(jīng)元的輸入個數(shù),；如果兩者都考慮的話，就選 average = (fan_in + fan_out) /2,。對于ReLU激活函數(shù)來說,，XavierFiller初始化也是很適合。關(guān)于該初始化方法,，具體可以參考文章1,、文章2，該方法假定激活函數(shù)是線性的,。

（6）msra初始化

對于權(quán)值的分布：基于均值為0,，方差為( 2/輸入的個數(shù))的高斯分布；它特別適合 ReLU激活函數(shù),，該方法主要是基于Relu函數(shù)提出的,，推導(dǎo)過程類似于xavier,，可以參考博客。

（7）雙線性初始化（bilinear）

常用在反卷積神經(jīng)網(wǎng)絡(luò)里的權(quán)值初始化

2.HE初始化

He initialization的思想是：在ReLU網(wǎng)絡(luò)中,，假定每一層有一半的神經(jīng)元被激活,，另一半為0，所以,，要保持variance不變,，只需要在Xavier的基礎(chǔ)上再除以2：

四、網(wǎng)絡(luò)正則化

1. l1 l2詳細(xì)介紹,，解決梯度爆炸／彌散方法 ,，L1和L2正則化各自的特點和適用場景。

L1對應(yīng)拉普拉斯分布,，L2對應(yīng)高斯分布,。

（1）L1正則化

加權(quán)值向量w中各個元素的絕對值之和。產(chǎn)生一個稀疏模型,，可以用于特征選擇,。當(dāng)L1的正則化系數(shù)很小時，得到的最優(yōu)解會很小,，可防止過擬合,。

在預(yù)測或分類時，那么多特征顯然難以選擇,，稀疏模型,，表示只有少數(shù)特征對這個模型有貢獻，絕大部分特征是沒有貢獻的,，或者貢獻微小,，即使去掉對模型也沒有什么影響。

圖中等值線是

J_{0}

的等值線,，黑色方形是

L

函數(shù)的圖形,。在圖中，當(dāng)

J_{0}

等值線與

L

圖形首次相交的地方就是最優(yōu)解,。

問題1：

L1正則為什么可以把系數(shù)壓縮成0,。

L1正則因為是絕對值形式，很多系數(shù)被壓縮為0

l1在0處不可導(dǎo),，怎么處理,？如何解決 L1 求導(dǎo)困難？

目標(biāo)函數(shù)不是連續(xù)可微的情況,，可以用次梯度來進行優(yōu)化,。但會產(chǎn)生

求解慢
通常不會產(chǎn)生稀疏解

可用 Proximal Algorithm或者ADMM

通常越大的

λ

可以讓代價函數(shù)在參數(shù)為0時取到最小值

（2）L2正則化

權(quán)值向量ww中各個元素的平方和然后再求平方根。限制解空間范圍,，縮小解空間,，控制模型復(fù)雜度 ,。

讓權(quán)值盡可能小,，最后構(gòu)造一個所有參數(shù)都比較小的模型,。參數(shù)足夠小，數(shù)據(jù)偏移得多一點也不會對結(jié)果造成什么影響,，抗擾動能力強,。L2迭代計算參數(shù)時，參數(shù)會不斷乘以一個小于1的數(shù),，估逐漸減少,。

2.1.1 正則化：正則化表現(xiàn)的是對高維度W的懲罰力度，當(dāng)正則化系數(shù)（lambda）很大時,，使w變的非常小,，最終的結(jié)果是函數(shù)變得非常平滑。正則化系數(shù)（lambda）越小,，擬合程度越高,，效果越好。

L0 范數(shù)：向量中非0元素的個數(shù),。
L1 范數(shù) (Lasso Regularization)：向量中各個元素絕對值的和,。
L2 范數(shù)(Ridge Regression)：向量中各元素平方和再求平方根。
L0 范數(shù)和 L1 范數(shù)都能夠達到使參數(shù)稀疏的目的,，但 L0 范數(shù)更難優(yōu)化求解,，L1 范數(shù)是 L0 范數(shù)的最優(yōu)凸近似，而且它比 L0 范數(shù)要容易優(yōu)化求解,。
L2 范數(shù)不但可以防止過擬合,，提高模型的泛化能力，還可以讓我們的優(yōu)化求解變得穩(wěn)定和快速,。L2 范數(shù)對大數(shù)和 outlier 更敏感,！

五、超參數(shù)設(shè)定和網(wǎng)絡(luò)訓(xùn)練

1. batch size對收斂速度的影響,。

批梯度下降法（Mini-batches Learning）,？

（1）太小，迭代次數(shù)要很多次才能收斂,。

（2）增大,，處理速度變快。一定范圍內(nèi),，越大,，下降得越準(zhǔn)，

（3）太大,，內(nèi)存利用率提高,，但是內(nèi)存容量可能撐不住了,。跑完一次epoch所需迭代次數(shù)減少，所花費時間打打增大,。增大到一定程度,，確定的下降方向不再變化。

達到某個時候,，時間上最優(yōu),。某個時候，精度上最優(yōu),。

六,、不平衡類別樣本處理

1.類別不平衡的時候怎么辦

（1）重采樣，少的樣本重復(fù)利用,。改變數(shù)據(jù)分布消除不平衡,，可能導(dǎo)致過擬合。

（2）欠采樣,，即多的樣本通過取其中一部分,，如果1：10算是均勻的話，可以將多數(shù)類分割成為1000份,。然后將每一份跟少數(shù)類的樣本組合進行訓(xùn)練得到分類器,。而后將這1000個分類器用assemble的方法組合位一個分類器。

（3）通過修改loss 函數(shù),，修改樣本的權(quán)值,，讓少樣本的有更大權(quán)值。

（4）數(shù)據(jù)增強,。

七,、模型集成方法

1.模型集成

先單獨訓(xùn)練多個不同的模型；在訓(xùn)練時,，將每個模型的結(jié)果取平均值即可,。-->可提升精度。常見的Ensemble方法有Bagging,、Boosting,、Stacking、Blending,。

缺點是必須單獨訓(xùn)練不同的模型,。

（1）多數(shù)表決融合
（2）加權(quán)表決融合

（3）對結(jié)果取平均

（4）Stacking用一些基分類器進行分類，然后使用令一個分類器對結(jié)果進行整合,。在實現(xiàn)Stacking時,，要注意的一點是，避免標(biāo)簽泄漏(Label Leak),。在訓(xùn)練次學(xué)習(xí)器時,，需要上一層學(xué)習(xí)器對Train Data的測試結(jié)果作為特征,。如果我們在Train Data上訓(xùn)練，然后在Train Data上預(yù)測,，就會造成Label Leak,。為了避免Label Leak，需要對每個學(xué)習(xí)器使用K-fold,，將K個模型對ValidSet的預(yù)測結(jié)果拼起來,，作為下一層學(xué)習(xí)器的輸入,。

（5）Blending的主要區(qū)別在于訓(xùn)練集不是通過K-Fold的CV策略來獲得預(yù)測值從而生成第二階段模型的特征,，而是建立一個Holdout集，例如說10%的訓(xùn)練數(shù)據(jù),，第二階段的stacker模型就基于第一階段模型對這10%訓(xùn)練數(shù)據(jù)的預(yù)測值進行擬合,。說白了，就是把Stacking流程中的K-Fold CV 改成 HoldOut CV,。

（6）Bagging：使用訓(xùn)練數(shù)據(jù)的不同隨機子集來訓(xùn)練每個 Base Model,，最后進行每個 Base Model 權(quán)重相同的 Vote。也即 Random Forest 的原理,。
（7）Boosting：迭代地訓(xùn)練 Base Model,，每次根據(jù)上一個迭代中預(yù)測錯誤的情況修改訓(xùn)練樣本的權(quán)重。也即 Gradient Boosting,，Adaboost 的原理,。比 Bagging 效果好，但更容易 Overfit,。

八,、常見問題以及解決方法

1. loss變化問題，以及調(diào)參

1.1 loss變化問題,，以及調(diào)參

（1）當(dāng)訓(xùn)練到最后,，loss值很大，但精度在上升,？-->說明loss變化很小,，需要增大學(xué)習(xí)率

（2）梯度爆炸（loss發(fā)散，出現(xiàn)nan）-->學(xué)習(xí)率很大,，需要減小學(xué)習(xí)率

（3）如果loss開始一直不變,，但是從某點開始下降的原因à因為初始值選定的不好，錯誤的初始值會讓梯度一開始接近0,。

（4）Loss下降了,，但是準(zhǔn)確率沒有明顯變化？解決辦法：訓(xùn)練前首先shuffle,，其次學(xué)習(xí)率是否合適,。

train loss 不斷下降,，test loss不斷下降，說明網(wǎng)絡(luò)仍在學(xué)習(xí);

train loss 不斷下降,，test loss趨于不變,，說明網(wǎng)絡(luò)過擬合;

train loss 趨于不變，test loss不斷下降,，說明數(shù)據(jù)集100%有問題;

train loss 趨于不變,，test loss趨于不變，說明學(xué)習(xí)遇到瓶頸,，需要減小學(xué)習(xí)率或批量數(shù)目;

train loss 不斷上升,，test loss不斷上升，說明網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計不當(dāng),，訓(xùn)練超參數(shù)設(shè)置不當(dāng),，數(shù)據(jù)集經(jīng)過清洗等問題。

1.2 梯度消失的原因是什么,？有哪些解決方法,？
神經(jīng)網(wǎng)絡(luò)的訓(xùn)練中，通過改變神經(jīng)元的權(quán)重,，使網(wǎng)絡(luò)的輸出值盡可能逼近標(biāo)簽以降低誤差值,，訓(xùn)練普遍使用BP算法，核心思想是,，計算出輸出與標(biāo)簽間的損失函數(shù)值,，然后計算其相對于每個神經(jīng)元的梯度，進行權(quán)值的迭代,。
梯度消失會造成權(quán)值更新緩慢,，模型訓(xùn)練難度增加。造成梯度消失的一個原因是,，許多激活函數(shù)將輸出值擠壓在很小的區(qū)間內(nèi),，在激活函數(shù)兩端較大范圍的定義域內(nèi)梯度為0。造成學(xué)習(xí)停止,。

梯度消失：

1）在深層網(wǎng)絡(luò)中,，

2）采用了不合適的損失函數(shù)，比如sigmoid,。

方案1-預(yù)訓(xùn)練加微調(diào)

提出采取無監(jiān)督逐層訓(xùn)練方法,，其基本思想是每次訓(xùn)練一層隱節(jié)點，訓(xùn)練時將上一層隱節(jié)點的輸出作為輸入,，而本層隱節(jié)點的輸出作為下一層隱節(jié)點的輸入,，此過程就是逐層“預(yù)訓(xùn)練”（pre-training）；在預(yù)訓(xùn)練完成后，再對整個網(wǎng)絡(luò)進行“微調(diào)”（fine-tunning）,。先尋找局部最優(yōu),，然后整合起來尋找全局最優(yōu)。

方案2-relu,、leakrelu,、elu等激活函數(shù)

-- 解決了梯度消失、爆炸的問題
-- 計算方便,，計算速度快
-- 加速了網(wǎng)絡(luò)的訓(xùn)練
-- 由于負(fù)數(shù)部分恒為0,，會導(dǎo)致一些神經(jīng)元無法激活（可通過設(shè)置小學(xué)習(xí)率部分解決）
-- 輸出不是以0為中心的

方案3-BN

batchnorm就是通過對每一層的輸出規(guī)范為均值和方差一致的方法，消除了w

w

帶來的放大縮小的影響,，進而解決梯度消失和爆炸的問題,。

方案4-殘差結(jié)構(gòu)

相比較于以前網(wǎng)絡(luò)的直來直去結(jié)構(gòu)，殘差中有很多這樣的跨層連接結(jié)構(gòu),，這樣的結(jié)構(gòu)在反向傳播中具有很大的好處

式子的第一個因子

\frac{\partial l o s s}{\partial x_{L}}

表示的損失函數(shù)到達 L 的梯度,，小括號中的1表明短路機制可以無損地傳播梯度，而另外一項殘差梯度則需要經(jīng)過帶有weights的層,，梯度不是直接傳遞過來的。殘差梯度不會那么巧全為-1,，而且就算其比較小,，有1的存在也不會導(dǎo)致梯度消失。所以殘差學(xué)習(xí)會更容易,。

方案6-LSTM

長短期記憶網(wǎng)絡(luò)（long-short term memory networks）,，于LSTM內(nèi)部復(fù)雜的“門”(gates)，如下圖,，LSTM通過它內(nèi)部的“門”可以接下來更新的時候“記住”前幾次訓(xùn)練的”殘留記憶“,。

LSTM把原本RNN的單元改造成一個叫做CEC的部件，這個部件保證了誤差將以常數(shù)的形式在網(wǎng)絡(luò)中流動 ,，并在此基礎(chǔ)上添加輸入門和輸出門使得模型變成非線性的,，并可以調(diào)整不同時序的輸出對模型后續(xù)動作的影響。

傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)層數(shù)一多,，就會有梯度消逝和爆炸的現(xiàn)象,，究其原因上一個答案已經(jīng)說的很清楚了，導(dǎo)數(shù)的鏈?zhǔn)椒▌t導(dǎo)致了連乘的形式,。造成梯度指數(shù)級的消失,，lstm使用cec機制，使得遠(yuǎn)處的梯度傳到近處沒有改變,、但這樣又會造成input weight /output weight conflict,。所以又使用了gateunit來解決。

1.3 如果訓(xùn)練的神經(jīng)網(wǎng)絡(luò)不收斂，可能有哪些原因,？

（1）學(xué)習(xí)率太小
（2）神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)有問題
（3）數(shù)據(jù)有沒有歸一化

1.3 梯度爆炸的原因是什么,？有哪些解決方法？

梯度爆炸：

1）在深層網(wǎng)絡(luò)

2）權(quán)值初始化值太大的情況下

解決方法：

1）方案2-梯度剪切,、正則

設(shè)置一個梯度剪切閾值,，然后更新梯度的時候，如果梯度超過這個閾值,，那么就將其強制限制在這個范圍之內(nèi),。防止梯度爆炸。

權(quán)重正則化（weithts regularization）,，網(wǎng)絡(luò)權(quán)重做正則限制過擬合,。

正

Loss=(y?WTx)2+α||W||2

α是指正則項系數(shù)，因此,，如果發(fā)生梯度爆炸,，權(quán)值的范數(shù)就會變的非常大，通過正則化項,，可以部分限制梯度爆炸的發(fā)生,。

2）BN

3）relu、leakrelu,、elu等激活函數(shù)

4）減小損失函數(shù)

5）caffe 設(shè)置clip gradient,，用于限制過大的diff

6）措施：減少base_lr (在solver.prototxt中) 至少一個數(shù)量級。如果model有多個loss_layer,，你應(yīng)該檢查日志,，查看哪個層導(dǎo)致了梯度爆炸，并減少該層的loss_weight 值 (在train. prototxt中),，而不是簡單的減少base_lr,。

1.4 梯度消失CNN和RNN的梯度消失是一樣的嗎？

會使RNN的長時記憶失效,，因為無法更新參數(shù),。

1.5 為什么網(wǎng)絡(luò)夠深(Neurons 足夠多)的時候，總是可以避開較差Local Optima,？
參考文章：The Loss Surfaces of Multilayer Networks

2.模型欠擬合的解決方法：

答案：我就說到了curriculum learning里面的sample reweight和增加模型復(fù)雜度,；還有一些特征工程；然后問了常用的特征工程的方法,；

模型簡單,，加深神經(jīng)網(wǎng)絡(luò)，svm用核函數(shù)等等

解決方法：

1）添加其他特征項,，有時候我們模型出現(xiàn)欠擬合的時候是因為特征項不夠?qū)е碌?，可以添加其他特征項來很好地解決。例如，“組合”,、“泛化”,、“相關(guān)性”三類特征是特征添加的重要手段，無論在什么場景,，都可以照葫蘆畫瓢,，總會得到意想不到的效果。除上面的特征之外,，“上下文特征”,、“平臺特征”等等，都可以作為特征添加的首選項,。

2）添加多項式特征,，這個在機器學(xué)習(xí)算法里面用的很普遍，例如將線性模型通過添加二次項或者三次項使模型泛化能力更強,。例如上面的圖片的例子,。

3）減少正則化參數(shù)，正則化的目的是用來防止過擬合的,，但是現(xiàn)在模型出現(xiàn)了欠擬合,，則需要減少正則化參數(shù)。

3.解決過擬合方法,。防止過擬合,，提高泛化能力

增加數(shù)據(jù)：

（1）數(shù)據(jù)增強（data augmentation），增大數(shù)據(jù)的訓(xùn)練量

（2）重新清洗數(shù)據(jù)

減少模型復(fù)雜度->正則化：

（2）dropout

（3）L1 L2

（4）BN

（5）early Stopping

八,、經(jīng)驗總結(jié)

13.提升學(xué)習(xí)算法性能

1 通過數(shù)據(jù)

1）獲取更多的數(shù)據(jù)
2）發(fā)明更多的數(shù)據(jù)，數(shù)據(jù)增強
3）重新調(diào)整你的數(shù)據(jù),歸一化
4）變換你的數(shù)據(jù),，數(shù)據(jù)不均衡
5）特征選擇,，sift等

2 通過算法

3 通過微調(diào)算法

4 采用集成ensembles方式，

14.fine-tune的選擇經(jīng)驗

根據(jù)新數(shù)據(jù)庫的規(guī)模和它與預(yù)訓(xùn)練數(shù)據(jù)庫的相似程度存在四種場景：
　　1）新數(shù)據(jù)庫小,，和預(yù)訓(xùn)練數(shù)據(jù)庫相似,。因為數(shù)據(jù)庫比較小，fine-tune的話可能會產(chǎn)生過擬合,，比較好的做法是用預(yù)訓(xùn)練的網(wǎng)絡(luò)作為特征提取器,，然后訓(xùn)練線性分類器用在新的任務(wù)上。
　　2）新數(shù)據(jù)庫比較大,，和預(yù)訓(xùn)練數(shù)據(jù)庫相似,。這種情況下，不用擔(dān)心過擬合,，可以放心地微調(diào)整個網(wǎng)絡(luò),。
　　3）新數(shù)據(jù)庫小，和預(yù)訓(xùn)練數(shù)據(jù)庫不相似。這時,，既不能微調(diào),，用預(yù)訓(xùn)練網(wǎng)絡(luò)去掉最后一層作為特征提取器也不合適，可行的方案是用預(yù)訓(xùn)練網(wǎng)絡(luò)的前面幾層的激活值作為特征,，然后訓(xùn)練線性分類器,。
　　4）新數(shù)據(jù)庫大，和預(yù)訓(xùn)練數(shù)據(jù)庫不相似,。這時可以從頭開始訓(xùn)練,，也可以在預(yù)訓(xùn)練的基礎(chǔ)上進行微調(diào)。

15.增大感受野方法

dilated 卷積(空洞卷積),、池化,、增大卷積核

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布,，不代表本站觀點,。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,，謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊一鍵舉報,。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻花（0） +1

來自： Behindrain > 《秋招面試題準(zhǔn)備》

舉報/認(rèn)領(lǐng)