久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

經(jīng)典重溫:理解神經(jīng)網(wǎng)絡(luò)的“知識一致性”(ICLR 2020)

 我愛計算機視覺 2022-07-19 發(fā)布于江蘇
最近在看知識蒸餾相關(guān)論文,因此打算重讀一下張拳石老師的這篇神經(jīng)網(wǎng)絡(luò)知識一致性理解的論文,,從而可以更深入理解知識的概念,,并進行了詳細解讀與自己的思考。

  • Paper: Knowledge Consistency between Neural Networks and Beyond
  • Publisher: ICLR 2020
  • Website: https:///forum?id=BJeS62EtwH
  • Code: https://github.com/nexuslrf/knowledge_consistency


      01      

背景與概述

背景概述:深度神經(jīng)網(wǎng)絡(luò)(DNN)應(yīng)用廣泛,,但是仍然缺乏數(shù)學(xué)工具來診斷DNN的中間層中的表示信息,,例如發(fā)現(xiàn)表示中的缺陷或分辨出可靠和不可靠的特征。本文中,,作者提出了一種從知識一致性的角度來診斷DNN的中間層特征表示信息的方法,,具體而言,給定兩個為同一任務(wù)預(yù)先訓(xùn)練的DNN(無論DNN架構(gòu)是否相同),,目的是檢查這兩個DNN的中間層是否編碼了相似的視覺表示信息,。

在這里,作者將DNN的中間層的知識定義為由中間層的特征表示所編碼的一組視覺信息,,并且本文主要研究的是DNN之間知識的一致性,,而不是特征表示之間的相似性。進一步而言,,我們將特征視為一種顯式輸出,,即不同的特征可以通過DNN的知識來計算得出。

根據(jù)已有研究可知,,具有高魯棒性的DNN通常會對各種類型的識別特征進行綜合編碼,,并在特征的完整性和識別能力之間保持良好的平衡。因此,,良好的DNN應(yīng)該收斂到相似的知識表示,。

知識一致性:假設(shè)A和B是基于同一任務(wù)所學(xué)習(xí)到的兩個DNN,X_A和X_B則分別表示A和B的中間層特征,進一步而言,,X_A和X_B可以拆解為X_A = X_A’+ε_A,,X_B = X_B’+ε_B,其中X_A’和X_B’的神經(jīng)激活由相同的圖像區(qū)域觸發(fā),,從而表示一致的知識,,也被稱為A和B之間的一致特征。

特征ε_A和ε_B相互獨立,,它們被稱為不一致特征,。進一步的我們認為X_A’和X_B’之間可以相互重構(gòu),即X_A’可以通過X_B’重構(gòu),,反之亦然,。

從特征可靠性方面來看,,X_A’和X_B’可以認為代表了DNN中通用的和可靠的知識,,ε_A和ε_B則被認為主要代表不可靠的知識或噪聲。

模糊性水平:由于兩個DNN之間沒有嚴格的知識一致性,,因此需要在不同的模糊度水平上定義DNN之間的知識一致性,。具體而言,知識一致性的模糊性水平衡量了將一個DNN的特征轉(zhuǎn)化為另一個DNN的特征的難度,。低層次的模糊性水平表明一個DNN的特征可以直接重構(gòu)另一個DNN的特征,,而不需要進行復(fù)雜的變換。如下圖1所示,,代表不同模糊性水平上的特征可視化結(jié)果,。

分離與量化:需要分離和量化出那些一致性特征或不一致特征,同時目前還沒有一種標準的方法來量化知識一致性的模糊性(即特征轉(zhuǎn)換的難度),,作者提出在特征重建過程中使用的非線性變換來近似表示其模糊性水平,。

具體而言,特征重建模型g_k,,下標k表示模型共包含k個非線性激活層,。X_A’=g_k(X_B)表示B在第k個模糊性水平上的一致知識。因此,,最嚴格的一致性是0階一致性,,即僅通過線性變換便可重構(gòu)。k越小,,表示重建中涉及的非線性預(yù)測越少,,一致性越強。

關(guān)于模型g_k架構(gòu)圖如下圖2所示,,其中k被設(shè)置為g_k中的非線性層數(shù)目,,g_k被設(shè)計用于分離和量化不同DNN之間不同模糊度水平階段的一致特征成分。

圖1:知識一致性可視化結(jié)果

圖2:分離與量化一致性知識模型

      02      

方法詳解

當使用一個DNN的中間層特征X來重構(gòu)另一個DNN的中間層特征X*時,需要引入重建模型結(jié)構(gòu),,然后在一定級別的模糊度水平上分離一致性特征知識,。

如上圖2所示,參數(shù)為θ的網(wǎng)絡(luò)g是具有K+1個block的遞歸體系結(jié)構(gòu),,其中第k個block的函數(shù)如下所示:


可以看出來主要是殘差連接+卷積運算,,最后一個塊則是為h(k)=W(k)*X,是一種線性操作,。Σ(k+1)用于歸一化神經(jīng)激活的大小,,標量值p(k+1)則大致控制了激活量大小。因此,,整體網(wǎng)絡(luò)可以被劃分為 K+1 分支,,并且其中第k個分支包含k個非線性層,并且底層的知識可以通過淺層知識進行表示,,即如果 k1 < k2,,那么k1階知識可以被k2階知識表示。

為了解開不同階的一致特征,,提出如下?lián)p失函數(shù):


其中X和X*示兩個預(yù)先訓(xùn)練過的DNN的中間層特征,,損失函數(shù)的第二項則懲罰了來自高階分支的神經(jīng)激活,從而迫使盡可能多的一致性知識通過低階分支表示,。

此外,,對于K+1階分支知識,可以由K+2階分支進行表示:


其中X(k)表示僅由k階分支所表示的特征組件,,而X△表示不能由X所表示的特征(可以看作是某種噪聲,,即不一致知識)。

      03      

實驗分析

作為一種通用的工具,,基于重建模型g的知識一致性方法可以應(yīng)用于不同的任務(wù),。作者設(shè)計了各種比較研究:診斷和調(diào)試預(yù)訓(xùn)練網(wǎng)絡(luò)、評估學(xué)習(xí)訓(xùn)練過程中的穩(wěn)定性,、分析模型壓縮過程中的信息丟失情況,、解釋知識蒸餾在知識表示中的影響。

實驗過程中一共使用了五個經(jīng)典DNN用于圖像分類任務(wù),,即AlexNet,、VGG-16、ResNet-18,、ResNet-34以及ResNet-50,。并且這些DNN使用了三個基準數(shù)據(jù)集(CUB200-2011,、Stanford Dogs、Pascal VOC 2012)進行預(yù)訓(xùn)練。
3.1診斷和調(diào)試預(yù)訓(xùn)練網(wǎng)絡(luò)
知識一致性最直接的應(yīng)用是使用強(學(xué)習(xí)良好的)DNN來診斷隱藏在弱DNN中的表示缺陷(噪聲特征),。這在實際應(yīng)用中具有特殊的價值,例如淺模型比深模型更適合用于移動設(shè)備。實驗使用CUB200-2011數(shù)據(jù)集訓(xùn)練DNN進行細粒度分類,使用AlexNet(X_A)作為弱模型并將ResNet-34(X_B)作為強模型,。

如下圖3所示,通過AlexNet最后一個卷積層輸出特征(14*14*256)進行可視化,。從X_A中分離出并可視化了不可靠的組件(不一致知識特征),,還可視化了從X_B中分離出的組件(即X_B中不一致的組件),這對應(yīng)于弱DNN模型的盲點,。盲點:強DNN中的特征組件,,與弱DNN中的特征不一致的部分;不可靠特征:弱DNN中不能由強DNN的特征來重建的部分,。

此外,,我們還進行了兩個實驗,進一步驗證DNN中盲點和不可靠特征的主張,。
  • 實驗一的基本思想是,,當我們在原始特征中添加盲點信息時,檢查分類精度的提高,。即使用AlexNet重建ResNet-34特征,,與原本ResNet-34特征不一致部分稱為盲點,,當將盲點的特征組件添加到AlexNet的特征中后,,新特征的分類準確率提高了16.1%。

  • 實驗二是為了驗證不可靠的特征,,其基本思想是當我們從原始特征中去除不可靠特征的信息時,,檢查分類精度的提高。使用相同的AlexNet架構(gòu)網(wǎng)絡(luò),,當去除不可靠的特征成分后,,發(fā)現(xiàn)分類準確率提高了5.3%。上述兩個實驗成功地證明了插入盲點和去除不可靠特征都提高了分類精度,。


圖3:弱DNN的盲點與不可靠特征
3.2評估學(xué)習(xí)訓(xùn)練過程中的穩(wěn)定性
DNN的穩(wěn)定性在深度學(xué)習(xí)中具有相當大的價值,,當人們?yōu)橥蝗蝿?wù)重復(fù)學(xué)習(xí)多個DNN時,檢查是否所有的DNN都代表/學(xué)習(xí)到相同的知識,,DNN之間較高的知識一致性通常意味著較高的學(xué)習(xí)穩(wěn)定性,。

具體而言,使用相同架構(gòu)訓(xùn)練兩個DNN,,分別為A和B,,然后將A和B中不一致特征進行抽離出來,然后通過不同的輸入圖像(訓(xùn)練數(shù)據(jù))來衡量每次抽離的不一致特征之間的差異,,從而測量DNN學(xué)習(xí)過程中的不穩(wěn)定性,。

如下表1比較了學(xué)習(xí)不同DNN的不穩(wěn)定性,表2則報告了不同層的一致成分的方差,我們發(fā)現(xiàn)DNN的淺層學(xué)習(xí)通常比深層學(xué)習(xí)更穩(wěn)定,。具有更多層的DNN通??梢员硎靖鼜?fù)雜的視覺模式,因此需要更多的訓(xùn)練樣本,。如果沒有一個巨大的訓(xùn)練集,,深度網(wǎng)絡(luò)可能遭受過擬合問題,即具有不同初始參數(shù)的DNN可能學(xué)習(xí)不同的知識表示,。

表1和2:評估學(xué)習(xí)訓(xùn)練過程中的穩(wěn)定性
3.3分析模型壓縮過程中的信息丟失情況
壓縮網(wǎng)絡(luò)與原始網(wǎng)絡(luò)之間的知識一致性可以評估壓縮過程中知識的丟棄度,,即可以將原始網(wǎng)絡(luò)中與壓縮網(wǎng)絡(luò)中的不一致知識的特征組件進行可視化分析,從而表示壓縮網(wǎng)絡(luò)中被丟棄的知識,。

在實驗中,,使用CUB200-2011數(shù)據(jù)集訓(xùn)練VGG-16網(wǎng)絡(luò)進行細粒度分類,然后對VGG-16網(wǎng)絡(luò)進行模型壓縮,,即以不同的剪枝閾值壓縮VGG-16網(wǎng)絡(luò),。接著,利用壓縮DNN的特征來重建原始DNN的特征,。

因此,,從原始DNN中分離出的不一致特征組件通常對應(yīng)于壓縮過程中的知識丟棄信息,如下圖4左圖所示,,顯示了被丟棄的特征組件,,使用方差來量化信息丟棄程度,如下圖4左圖所示,,比較了特征信息丟棄導(dǎo)致精度下降的程度,,發(fā)現(xiàn)在壓縮過程中較小的知識損失會有更高的分類正確率。


圖4:基于VGG-16模型壓縮過程中的信息丟失情況
3.4解釋知識蒸餾在知識表示中的影響
此外,,還可以通過知識一致性算法解釋知識蒸餾的成功之處,。一般來說,蒸餾得到的新一代的網(wǎng)絡(luò)既從舊的教師網(wǎng)絡(luò)中繼承知識,,又從數(shù)據(jù)中學(xué)習(xí)新的知識,。進一步而言,其成功可以被解釋為,,在遞歸蒸餾過程中,,新一代網(wǎng)絡(luò)的知識特征表示逐漸豐富。

如上圖4右圖所示,,使用CUB200-2011數(shù)據(jù)集訓(xùn)練VGG-16進行細粒度分類,,并訓(xùn)練了迭代4個輪次的遞歸蒸餾網(wǎng)絡(luò),通過量化不同代的再生神經(jīng)網(wǎng)絡(luò)中不一致的特征分量,,可以發(fā)現(xiàn)隨著蒸餾輪數(shù)的增加,,不可靠的特征分量在逐漸減少,。


      04      

總結(jié)思考

論文給出了兩個DNN中間層之間知識一致性的一般定義,并提出了一種任務(wù)不可知的方法,,從中間層特征中分離和量化不同階數(shù)的一致性特征,。對于任務(wù)而言,一致的特征組件通常比不一致的組件更可靠,,因此可以用于進一步細化篩選預(yù)先訓(xùn)練過的DNN,,而不需要額外的監(jiān)督。作為一種數(shù)學(xué)工具,,知識的一致性也可以幫助解釋現(xiàn)有的深度學(xué)習(xí)技術(shù),,實驗證明了方法的有效性。

進一步而言,,對于知識蒸餾和聯(lián)邦學(xué)習(xí),,知識一致性都帶來了可能的思考,從知識蒸餾的角度出發(fā),,通過知識一致性定義可以更好的量化出不同DNN之間的一致性特征,,進而可以幫助篩選出一種通用的結(jié)構(gòu)化知識作為知識蒸餾中教師模型向?qū)W生模型傳遞的知識;對于聯(lián)邦學(xué)習(xí)而言,,知識一致性提供了一個更好的角度去量化不同客戶端參數(shù)融合的效果,,可以篩選出一致性特征進行參數(shù)聚合,這也可以降低通信效率,。

END

    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多