來(lái)源:新智元 目前,已經(jīng)有不少深度學(xué)習(xí)模型被廣泛地用于輔助性的胸片(Chest X-Ray)解釋?zhuān)@有助于幫助減輕臨床醫(yī)生的日常工作,。 其中,,使用預(yù)訓(xùn)練的 ImageNet 模型進(jìn)行遷移學(xué)習(xí),已經(jīng)成為開(kāi)發(fā)模型的標(biāo)準(zhǔn)方法,,不僅適用于胸片,,也適用于許多其他醫(yī)學(xué)成像模式。 因此,,有觀點(diǎn)認(rèn)為,,經(jīng) ImageNet 檢驗(yàn)的架構(gòu)越好,性能效果便越佳,,以及調(diào)整預(yù)訓(xùn)練的權(quán)重可以提高目標(biāo)醫(yī)療任務(wù)的性能等,。 用于胸片解釋的深度學(xué)習(xí)方法通常依賴(lài)于為 ImageNet 開(kāi)發(fā)的預(yù)訓(xùn)練模型。與此同時(shí),該范例假設(shè),,更好的 ImageNet 架構(gòu)在胸片任務(wù)上表現(xiàn)得更好,,并且 ImageNet 預(yù)訓(xùn)練的權(quán)重比隨機(jī)初始化所提供的性能更高。 本文所講述的這項(xiàng)工作 “CheXtransfer: Performance and Parameter Efficiency of ImageNet Models for Chest X-Ray Interpretation” 中,,斯坦福大學(xué)吳恩達(dá)團(tuán)隊(duì)則給出不一樣答案,。 通過(guò)在大型胸片數(shù)據(jù)集 CheXpert 上比較 16 種流行的卷積架構(gòu)的遷移性能和參數(shù)效率,他們探索了 ImageNet 架構(gòu)和權(quán)重兩個(gè)因素與胸片任務(wù)的性能之間的關(guān)系,。 團(tuán)隊(duì)發(fā)現(xiàn),,無(wú)論模型是否經(jīng)過(guò)預(yù)訓(xùn)練,基于 ImageNet 的體系結(jié)構(gòu)改進(jìn)帶來(lái)的性能提升,,和 CheXpert 性能之間并無(wú)明顯關(guān)系,。 CheXpert 數(shù)據(jù)集和模型的選擇 該研究所使用的 CheXpert 數(shù)據(jù)集,由吳恩達(dá)帶領(lǐng)的斯坦福團(tuán)隊(duì)所開(kāi)發(fā)的,,相關(guān)文章 “CheXpert: A Large Chest Radiograph Dataset with Uncertainty Labels and Expert Comparison” 發(fā)表在 AAAI2019 上,。 這個(gè)大型數(shù)據(jù)集包含了源自 65,240 例患者的 224,316 張帶標(biāo)注的胸片,以及放射科醫(yī)師為每張胸片寫(xiě)的病理報(bào)告,。每份報(bào)告都對(duì) 14 項(xiàng)觀察進(jìn)行具體標(biāo)記:陽(yáng)性(positive),,陰性 (negative) 或不確定性 (uncertain)。 團(tuán)隊(duì)比較感興趣的任務(wù)是,,從單張或多張胸片中預(yù)測(cè)不同病理的可能性,。 他們使用的便是上文所說(shuō)的 CheXpert 數(shù)據(jù)集中曾指定的 5 個(gè)比賽任務(wù) —— 肺不張(Atelectasis)、心臟肥大(Cardiomegaly),、肺實(shí)變(Consolidation),、肺水腫(Edema)、胸腔積液(Pleural Effusion)以及健康(No Finding)類(lèi)別中的 AUROC 指標(biāo)(AUC)的平均值對(duì)模型進(jìn)行評(píng)估,,以平衡驗(yàn)證集中的臨床重要性和患病率,。 他們從 PyTorch 1.4.0 上實(shí)現(xiàn)的公共檢查點(diǎn)中選擇了 16 個(gè)在 ImageNet 上預(yù)訓(xùn)練的模型:DenseNet(121、169,、201),,ResNet (18、34,、 50,、101),Inception (V3,、V4),,MNASNet,EfficientNet (B0,、B1,、B2,、B3)和 MobileNet(V2、V3),,并分別在有 / 無(wú)預(yù)訓(xùn)練參與的情況下對(duì)這些架構(gòu)進(jìn)行了微調(diào)和評(píng)估,。 對(duì)于每個(gè)模型,團(tuán)隊(duì)對(duì) CheXpert 訓(xùn)練集上的參數(shù)進(jìn)行微調(diào),。如果模型經(jīng)過(guò)了預(yù)訓(xùn)練,,使用從 ImageNet 學(xué)習(xí)的均值和標(biāo)準(zhǔn)差對(duì)輸入進(jìn)行歸一化;反之,,使用 CheXpert 學(xué)習(xí)的均值和標(biāo)準(zhǔn)差進(jìn)行歸一化,。 至于參數(shù)的更新,團(tuán)隊(duì)選擇使用 Adam 優(yōu)化器,,其中,,學(xué)習(xí)率為 ,批處理大小設(shè)置為 16,,并且采用交叉熵?fù)p失函數(shù),。 模型分為 3 個(gè) epochs 進(jìn)行訓(xùn)練,并按照 8192 個(gè)梯度步長(zhǎng)來(lái)評(píng)估每個(gè)模型,。團(tuán)隊(duì)成員對(duì)每個(gè)模型進(jìn)行訓(xùn)練,,并從 10 個(gè)檢查點(diǎn)中創(chuàng)建最終的集成模型,該模型在驗(yàn)證集的 6 個(gè)任務(wù)中獲得了最佳的 CheXpert AUC 均值,。所有結(jié)果均在 CheXpert 測(cè)試集中給出報(bào)告,。 此外,團(tuán)隊(duì)使用非參數(shù) bootstrap 估計(jì)每個(gè)統(tǒng)計(jì)量的置信區(qū)間:從測(cè)試集中抽取 1000 個(gè)副本,,并計(jì)算每個(gè)副本的統(tǒng)計(jì)量并生成分布,,使用 bootstrap 值的第 2.5 個(gè)百分位數(shù)和第 97.5 個(gè)百分位數(shù)作為 95% 的置信區(qū)間。 對(duì)挑選出的四個(gè)模型(DenseNet121,、MNASNet,、ResNet18 和 EfficientNetB0)進(jìn)行截?cái)嗖僮骱螅瑘F(tuán)隊(duì)附加了一個(gè)分類(lèi)塊,,其中包含一個(gè)全局平均池化層,,既大量減少了參數(shù)量,,還保持了圖像的空間結(jié)構(gòu),;然后使用一個(gè)全連接層,分配權(quán)重,,以產(chǎn)生正確形狀(shape)的輸出,。除了隨機(jī)初始化分類(lèi)塊外,團(tuán)隊(duì)使用 ImageNet 預(yù)訓(xùn)練的權(quán)重來(lái)初始化模型,,并使用與 16 個(gè) ImageNet 模型相同的訓(xùn)練過(guò)程進(jìn)行微調(diào),。 局限性所在 上圖形象展現(xiàn)了是否經(jīng)過(guò) ImageNet 預(yù)訓(xùn)練的 CheXpert AUC 與 ImageNet top-1 精度之間的關(guān)系,,其中左側(cè)圖表示沒(méi)有進(jìn)行預(yù)訓(xùn)練,右側(cè)則表示模型經(jīng)過(guò)預(yù)訓(xùn)練,。 顯然,,在沒(méi)有預(yù)訓(xùn)練的情況下,團(tuán)隊(duì)發(fā)現(xiàn) ImageNet top-1 的準(zhǔn)確率與 CheXpert AUC(斯皮爾曼相關(guān)系數(shù) =0.082,,=0.762)均值無(wú)明顯單調(diào)關(guān)系(monotonic relationship),。 而在模型經(jīng)過(guò)預(yù)訓(xùn)練的情況下,研究團(tuán)隊(duì)再次觀察到 ImageNet top-1 的準(zhǔn)確率與 CheXpert AUC(斯皮爾曼相關(guān)系數(shù) =0.059,,=0.829)均值沒(méi)有單調(diào)關(guān)系,。 由此,可得出以下結(jié)論,, ImageNet 和 CheXpert 的性能之間無(wú)關(guān),,所以在 ImageNet 上成功的模型不一定在 CheXpert 上仍然成功。 換句話說(shuō),,ImageNet 性能與 CheXpert 性能之間的關(guān)系遠(yuǎn)弱于 ImageNet 性能與各種自然圖像任務(wù)性能之間的關(guān)系,。 其次,研究團(tuán)隊(duì)還比較了 CheXpert 在架構(gòu)族內(nèi)部和跨架構(gòu)族的性能,,同樣也是分兩種情況進(jìn)行討論,。在沒(méi)有預(yù)訓(xùn)練的情況下,ResNet101 的 AUC 性能表現(xiàn)只比 ResNet18 高出 0.005,,這完全在該度量的置信區(qū)間內(nèi),。 與之相類(lèi)似,DenseNet201 的 AUC 性能表現(xiàn)比 DenseNet121 高 0.004,,EfficientNetB3 的 AUC 性能表現(xiàn)比 EfficientNetB0 高 0.003,。 而在經(jīng)過(guò)預(yù)訓(xùn)練的情況下,團(tuán)隊(duì)繼續(xù)發(fā)現(xiàn)了在每個(gè)族中進(jìn)行測(cè)試的最大模型和最小模型間的微小性能差異,。 其中,,ResNet、DenseNet 和 EfficientNet 的 AUC 值分別增加了 0.002,、0.004 和 - 0.006,。由此說(shuō)明,在一個(gè)模型族內(nèi)增加復(fù)雜性并不會(huì)像在 ImageNet 中增加相應(yīng)的性能那樣對(duì) CheXpert 的性能帶來(lái)影響,。 模型架構(gòu)重要嗎,? 這項(xiàng)研究中,在沒(méi)有預(yù)訓(xùn)練參與的情況下,,所研究的最好的模型的性能顯著高于所研究的最差模型,。 其中,InceptionV3 的性能最好,,AUC 值為 0.866,,而 MobileNetV2 的 AUC 值最差,,為 0.814。顯然,,兩者性能差值為 0.052,。對(duì)應(yīng)于前面的介紹,InceptionV3 是研究團(tuán)隊(duì)選擇的所有研究體系中的第三大架構(gòu),,而 MobileNetV2 則是最小的,。這些模型的 CheXpert 性能存在顯著差異,這種差異也再次暗示出模型架構(gòu)設(shè)計(jì)的重要性,。 在團(tuán)隊(duì)研究的過(guò)程中,,模型架構(gòu)的大小是由多參數(shù)來(lái)衡量的,如上圖所示,。 在未經(jīng)過(guò) ImageNet 預(yù)訓(xùn)練的情況下,,體系結(jié)構(gòu)的參數(shù)數(shù)量和 CheXpert 性能(斯皮爾曼相關(guān)系數(shù) =0.791,)之間存在正單調(diào)關(guān)系,;而在經(jīng)過(guò) ImageNet 的預(yù)訓(xùn)練中,,參數(shù)數(shù)量與 CheXpert AUC 均值(斯皮爾曼相關(guān)系數(shù)=0.565,=0.023)之間存在較弱的正單調(diào)關(guān)系,。然而,,盡管在模型架構(gòu)的參數(shù)數(shù)量和 CheXpert AUC 均值之間存在正單調(diào)關(guān)系,但并沒(méi)有突顯實(shí)現(xiàn) CheXpert AUC 邊際增長(zhǎng)所需的參數(shù)量的增加,。 舉例來(lái)說(shuō),,ResNet101 的模型架構(gòu)比 EfficientNetB0 要大 11.1 倍,而 CheXpert AUC 值在預(yù)訓(xùn)練的情況下卻只增加了 0.005,。這說(shuō)明,,在模型族中,增加參數(shù)數(shù)量并不會(huì)給 CheXpert AUC 值帶來(lái)有意義的收益,。如圖 3 所示,,研究團(tuán)隊(duì)所研究所有未經(jīng)過(guò)預(yù)訓(xùn)練的模型族(EfficientNet、DenseNet,、ResNet)中均可以發(fā)現(xiàn)這種關(guān)系,。 例如,DenseNet201 模型的 AUC 值比 DenseNet121 僅高出 0.003,,但模型規(guī)模上卻比 DenseNet121 要大 2.6 倍,。EfficientNetB3 的 AUC 值比 EfficientNetB0 高出 0.004,但模型規(guī)模上卻比 EfficientNetB0 大 1.9 倍,。 這顯然說(shuō)明,,盡管在所有的模型中,,模型的規(guī)模與 CheXpert 性能之間存在正相關(guān)關(guān)系,,但在模型族中,,規(guī)模越大卻并不一定意味著性能越好。因?yàn)樵谀P妥逯?,模型的?guī)模大小與 CheXpert 性能之間的關(guān)系比在所有模型中都弱,。 并且,CheXpert 性能更多地受宏觀架構(gòu)設(shè)計(jì)的影響,,而非大小,。族內(nèi)的模型具有相似的架構(gòu)設(shè)計(jì)選擇,但大小不同,,因此它們?cè)?CheXpert 上的性能表現(xiàn)相似,。此外,團(tuán)隊(duì)還觀察到不同架構(gòu)族之間的性能差異很大,。舉例來(lái)說(shuō),,無(wú)論規(guī)模大小如何,DenseNet,、ResNet 和 Inception 通常都優(yōu)于 EfficientNet 和 MobileNet 架構(gòu),。 需要注意的是,EfficientNet,、MobileNet 以及 MNASNet 等架構(gòu)在某種程度上均通過(guò)神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索(NAS,,Neural Architecture Search)而生成,這一過(guò)程對(duì) ImageNet 的性能進(jìn)行了優(yōu)化,。研究團(tuán)隊(duì)的這一發(fā)現(xiàn)也就暗示出,,上述的搜索可能對(duì)自然圖像目標(biāo)過(guò)度擬合,從而在胸片任務(wù)上造成一定程度上的削弱,。 ImageNet 預(yù)訓(xùn)練對(duì) CheXpert 性能有幫助嗎,? 上圖顯示了預(yù)訓(xùn)練增強(qiáng)與模型大小的關(guān)系。 團(tuán)隊(duì)發(fā)現(xiàn) ImageNet 預(yù)訓(xùn)練對(duì)大多數(shù)架構(gòu)(AUC 均值為 0.015)提供了有意義的提升,。并且斯皮爾曼系數(shù)為 =0.718,,p=0.002 時(shí),剛好處于給定模型的參數(shù)數(shù)量和預(yù)訓(xùn)練提升之間,。 因此,,對(duì)于較小的架構(gòu),如 EfficientNetB0 (0.023),,MobileNetV2 (0.040) 和 MobileNetV3 (0.033),,這種提升往往會(huì)更大;而對(duì)于較大的架構(gòu),,像 InceptionV4 (?0.002) 和 ResNet101 (0.013),,提升則較小。但這種關(guān)系仍需要進(jìn)一步地研究才能得到更好的解釋,。 在模型族內(nèi),,預(yù)訓(xùn)練提升不會(huì)隨著模型尺寸大小的增加而有意義地增加,。例如,DenseNet201 的預(yù)訓(xùn)練提升的 AUC 值僅比 DenseNet121 高 0.002,。這一發(fā)現(xiàn)也剛好支撐了團(tuán)隊(duì)先前的結(jié)論,,即無(wú)論規(guī)模大小,模型族在 CheXpert 上的性能表現(xiàn)都是相似的,。 最后,,簡(jiǎn)單總結(jié),本研究的主要貢獻(xiàn)在于以下 4 點(diǎn): (1)ImageNet 和 CheXpert 性能之間并沒(méi)有統(tǒng)計(jì)學(xué)上的顯著關(guān)系,,胸片解釋任務(wù)與自然圖像分類(lèi)存在很多不同之處,。 (2)模型架構(gòu)的選擇很重要,對(duì)于未進(jìn)行預(yù)訓(xùn)練的模型,,模型架構(gòu)族的選擇對(duì)性能的影響可能大于模型的規(guī)模大小,。 (3)ImageNet 的預(yù)訓(xùn)練是有幫助的,團(tuán)隊(duì)發(fā)現(xiàn) ImageNet 的預(yù)訓(xùn)練在胸片分類(lèi)的性能上具有顯著提高,。 (4)模型架構(gòu)可以通過(guò)截?cái)嗖呗远兊酶?,這種方法可以保留結(jié)構(gòu)體系設(shè)計(jì)的關(guān)鍵組成部分,同時(shí)減小其規(guī)模,,研究團(tuán)隊(duì)通過(guò)截?cái)?ImageNet 預(yù)訓(xùn)練的體系結(jié)構(gòu)的最終塊,,可以使模型的參數(shù)效率平均提高 3.25 倍,而性能沒(méi)有統(tǒng)計(jì)學(xué)上的顯著下降,。 Refrence: 1,、https:///pdf/2101.06871.pdf 本文來(lái)自公眾號(hào)“數(shù)據(jù)實(shí)戰(zhàn)派”。“數(shù)據(jù)實(shí)戰(zhàn)派”希望用真實(shí)數(shù)據(jù)和行業(yè)實(shí)戰(zhàn)案例,,幫助讀者提升業(yè)務(wù)能力,,共建有趣的大數(shù)據(jù)社區(qū)。 (聲明:本文僅代表作者觀點(diǎn),,不代表新浪網(wǎng)立場(chǎng),。) |
|