本文介紹了利用機(jī)器學(xué)習(xí)實(shí)現(xiàn)胸部CT掃描圖像自動判讀的任務(wù),這對我來說是一個有趣的課題,,因?yàn)樗俏也┦空撐难芯康闹攸c(diǎn),。這篇文章的主要參考資料是我最近的預(yù)印本 “Machine-Learning-Based Multiple Abnormality Prediction with Large-Scale Chest Computed Tomography Volumes.” CT掃描圖像是一種大體積圖像,大小約為512×512×1000灰度體素,,用于描繪心臟,、肺和胸部的其他解剖結(jié)構(gòu)。胸部CT掃描圖像用于診斷和治療多種疾病,,包括癌癥,、感染和骨折,。這篇文章討論了如何獲得CT圖像,如何對CT圖像進(jìn)行判讀,,以及為什么CT圖像的自動判讀具有挑戰(zhàn)性,,最后,我們將介紹如何使用機(jī)器學(xué)習(xí)來實(shí)現(xiàn)CT圖像的自動判讀任務(wù),。 什么是CT掃描圖像胸部CT用于顯示胸部,,包括左肺、右肺,、氣道,、心臟和大血管: 有關(guān)胸部解剖學(xué)的更詳細(xì)概述,請參閱 本文 ,。 因?yàn)樾夭緾T掃描是一種三維圖像,,所以會在三個不同的解剖學(xué)平面上分辨觀察,這三種解剖學(xué)平面分別是冠狀面,、橫斷面與矢狀面,。 下面是一個 橫斷面CT圖像 的例子: 下面是 另一個橫斷面CT圖像 的例子: 想要了解同一張CT掃描圖像在三個解剖學(xué)平面上的不同視圖,請參閱 本文 ,,它含有一張可以滾動查看的健康人的高分辨率胸部CT圖像,。 CT圖像是怎么獲得的?下圖顯示的是CT掃描儀,,它是一個甜甜圈形狀的儀器: 病人躺在桌子上,,通過CT掃描儀的“甜甜圈孔”移動。以下是CT掃描儀的內(nèi)部結(jié)構(gòu): CT掃描是基于X射線的,。然而,,CT不同于“投影X射線”,因?yàn)镃T是3D的,,而投影X射線是2D的(關(guān)于自動投影X射線請參閱 本文 ),。 CT掃描儀的X射線源將X射線束(如上圖紅色所示)通過患者的身體發(fā)送到探測器上。當(dāng)患者通過中心孔時,,整個放射源/探測器設(shè)備圍繞患者旋轉(zhuǎn),,因此可以在三維空間的多個點(diǎn)上測量患者身體的輻射密度。 最后,,CT掃描圖像使用Hounsfield單位對患者體內(nèi)數(shù)百萬個點(diǎn)的放射密度進(jìn)行編碼,其中空氣顯示為黑色,,骨骼顯示為白色,。中等密度的組織呈灰色。 放射科醫(yī)生如何判讀CT掃描,?CT掃描是一種常見的影像學(xué)檢查形式,,對許多疾病的診斷和治療非常有用,。放射科醫(yī)生是判讀醫(yī)學(xué)放射圖像并撰寫診斷報(bào)告的醫(yī)生,這些報(bào)告供其他醫(yī)生在患者的護(hù)理中使用,。 當(dāng)一個放射科醫(yī)生需要判讀一張CT掃描圖像時,,他會做兩件事。首先,,放射科醫(yī)生必須確定出現(xiàn)了哪些異常,,例如肺炎、肺不張,、心臟腫大,、結(jié)節(jié)、腫塊,、胸腔積液等,。接下來,放射科醫(yī)生必須在他們的描述中指定出現(xiàn)異常的位置,。病灶位置在醫(yī)學(xué)上往往非常重要——例如,,不同類型的肺癌往往位于不同的位置。下表總結(jié)了放射科醫(yī)生的任務(wù): CT報(bào)告示例 以下是美國國家診斷成像中心的胸部CT報(bào)告示例,,其中文本是從 本份公開報(bào)告 中復(fù)制的: > *EXAM: CTA CHEST W W/O CONTRAST* > > *CLINICAL HISTORY: SOB, dyspnea, R/O PE, ILD, possible occupational lung disease* > > *INDICATIONS: 49 year-old patient with shortness of breath. Possible PE. Possible occupational lung disease.* > > *PROCEDURE: Consecutive axial slices were obtained without and with intravenous contrast. Bolus thin slices were performed through the pulmonary arteries.* > > *The pulmonary trunk shows no evidence for thrombus or embolus. There is no evidence for a saddle embolus. The right and left main pulmonary arteries appear unremarkable. The first and second order pulmonary branches bilaterally do not show evidence for embolus. The axillary regions show no adenopathy. The mediastinum and hilar regions show no masses or adenopathy. The included upper abdomen shows splenic calcification which could indicate remote granulomatous disease. There is some focal renal cortical thickening on the right where there may be prior scarring. There is no evidence for pulmonary parenchymal interstitial lung disease. On image 2 series 4 in the left lower lung there is a 3 mm nodule. This could be followed with surveillance CT in 12 months if there is further concern. There is also a small similar nodule on the same series image 49 on the left. There are no infiltrates or effusions. There is no acute bony abnormality seen.* > > *IMPRESSION: No evidence for pulmonary embolic disease. Some small lung nodules on the left could be followed at 12 months with a CT if there is sufficient concern. No evidence for interstitial lung disease.* 為什么CT自動判讀饒有趣味又充滿挑戰(zhàn),?對于放射科醫(yī)生來說,為每張CT掃描圖像都撰寫這么詳細(xì)的報(bào)告是非常耗時的,。如果患者接受了多次不同期的CT掃描(例如,,首次掃描后的三個月又接受了后續(xù)的掃描),這就更加耗時了,,因?yàn)樵谶@種情況下,,放射科醫(yī)生還要同時比較兩次掃描,以了解患者的健康狀況產(chǎn)生了什么變化,。人們對開發(fā)機(jī)器學(xué)習(xí)方法自動判讀CT圖像非常感興趣,,因?yàn)檫@可以加速放射工作流程并降低放射科醫(yī)生的實(shí)時診斷錯誤率(目前為3-5%)。 CT掃描圖像的自動判讀具有挑戰(zhàn)性,,原因如下: 挑戰(zhàn)1:患者的解剖結(jié)構(gòu)根據(jù)性別,、年齡、體重和正常的解剖變異而自然變化,。因此,,“變異”并不一定意味著“異常”,。 挑戰(zhàn)2:胸部CT圖像可以顯示數(shù)百種可能的異常,。下圖僅顯示了幾個例子,包括嗜酸性肺炎,、空洞性病變,、囊腫,、肺氣腫、氣胸和肺纖維化: ) 挑戰(zhàn)3:一張CT圖像上常會出現(xiàn)多種不同的異常,。平均一張CT圖像包含了10±6種不同的異常,。下面是幾個一張CT掃描切片上存在一個以上異常的例子: 挑戰(zhàn)4:此外,在一次掃描中經(jīng)常出現(xiàn)多個同一類型的異常,。下面,,我們可以分別看到一張含有多處肺氣腫的圖像,一張含有多個肺部結(jié)節(jié)的圖像,,以及一張含有多個腫塊的圖像: 挑戰(zhàn)5:不同種類的異??赡芸雌饋肀舜朔浅O嗨啤T谶@些情況下,,放射科醫(yī)生必須依靠他們多年的經(jīng)驗(yàn)和患者的病史來確定異常的性質(zhì),。下面的圖像分別顯示腫瘤(“TUM”)和肺不張(“ATL”),兩者在這次掃描中看起來十分相似: 挑戰(zhàn)6:同種病變可能在外觀上卻有所不同,。例如,,同種類型的病變會因嚴(yán)重程度不同而在外觀上出現(xiàn)差異,例如下面的肺炎掃描,,左邊的掃描顯示整個肺部因肺炎而白化,,而右邊的掃描顯示只有一小部分肺部因肺炎而白化: 同樣的異常也可能因其形狀和紋理而看起來不同。下圖顯示了各種外觀的肺結(jié)節(jié),,這些結(jié)節(jié)根據(jù)其形狀(如分葉狀,、尖狀、圓形)和紋理(如磨玻璃狀,、固體狀)而不同: 下圖總結(jié)了CT圖像自動判讀面對的挑戰(zhàn): 如何利用機(jī)器學(xué)習(xí)實(shí)現(xiàn)CT自動判讀 為了了解如何使用機(jī)器學(xué)習(xí)進(jìn)行CT自動判讀,,首先要考慮用什么類型的數(shù)據(jù)來訓(xùn)練模型。 醫(yī)療信息系統(tǒng)將CT圖像與相應(yīng)的CT報(bào)告成對保存: 有些病人只有一張CT圖像和報(bào)告,,如上圖中的病人000000,。其他病人將有多個CT圖像和報(bào)告。這些多個CT圖像可能是在不同的時間和/或身體的不同部位進(jìn)行的(盡管本文重點(diǎn)著眼于胸部CT,,但也有可能是頭部,、腹部、骨盆和其他部位的CT),。 我們還需要考慮哪些數(shù)據(jù)是無法在醫(yī)療信息系統(tǒng)中獲得的: 如上圖所示,,一般來說,我們無法獲得:
考慮到我們只有成對的圖像與檢查報(bào)告,,一種直觀的方法是嘗試直接從圖像生成文本,。在這一方案中,我們首先將CT圖像處理為低維表示(例如使用卷積神經(jīng)網(wǎng)絡(luò)),,然后從該低維表示生成文本(例如使用LSTM): 截至目前為止,,我還沒有看到任何關(guān)于從CT影像直接生成診斷報(bào)告的研究。然而,,我倒是發(fā)現(xiàn)了幾項(xiàng)關(guān)于從胸部X光片自動生成報(bào)告的研究,,相比之下這一課題看起來更加可行,因?yàn)樾夭縓光片的大小相對CT影像要小得多(小1000倍左右),,而診斷報(bào)告的長度要短得多(短6倍),。然而,即使在這項(xiàng)更直接簡單的任務(wù)中,,模型也難以生成準(zhǔn)確的報(bào)告,。我懷疑一部分原因在于模型生成的句子中,有很多是描述病人的某些健康生理指標(biāo)的句子,。生成大量這種語句的模型可能獲得一個不錯的模型分?jǐn)?shù),,然而這個模型卻很有可能在描述病人的病理與異常的時候糟糕得一塌糊涂——而這恰好是醫(yī)生最關(guān)心的部分! 盡管從CT圖像生成文本可能是一項(xiàng)有趣的學(xué)術(shù)研究,但是這個課題有很多實(shí)際缺陷,,包括:
一個更實(shí)際的方法是建立一個機(jī)器學(xué)習(xí)系統(tǒng),,它可以以結(jié)構(gòu)化的方式預(yù)測病變類型與位置,。然后,我們可以評估模型對每一類病變的檢測效果,,同時,,我們還可以在原始影像上高亮標(biāo)記出現(xiàn)病變的位置。這種系統(tǒng)可用于自動分類(例如,,“將顯示氣胸的所有CT影像移動到放射科醫(yī)生隊(duì)列的頂部”),,并且結(jié)合放射科醫(yī)生人工看片,以提高診斷準(zhǔn)確性,。此外,,一個良好的病變類型/位置的預(yù)測模型也可以用來生成文本(如果這是人們期望的目標(biāo)之一)。因?yàn)榻o定影像中出現(xiàn)的病變類型與病變位置的列表,,按照特定規(guī)則生成基本的文本報(bào)告是很簡單的,,因?yàn)榉派鋵W(xué)語言是高度結(jié)構(gòu)化的。 單一病變CT分類由于前一節(jié)所列的原因,,基于CT影像的病變分類引起了人們的極大興趣,。在單一病變CT分類中,一個模型(通常是卷積神經(jīng)網(wǎng)絡(luò))處理一幅CT圖像,,并根據(jù)所關(guān)注的某種特定病變是否存在產(chǎn)生0或1(即二分類): 這些工作都著眼于于一次預(yù)測一種異?;蛞活惍惓#鼈円蕾囀止ぶ谱鞯男⌒蛿?shù)據(jù)集,,這些數(shù)據(jù)集已經(jīng)由人類專家在切塊或切片級別上精心標(biāo)記,。 這是一張我整理的表格,總結(jié)了一些先前的工作,,這些工作集中于從胸部CT影像預(yù)測間質(zhì)性肺病,。此處顯示的模型通常對每張切片指定一個類別標(biāo)簽,,顯示影像中的患者是否罹患間質(zhì)性肺病: 下面是我整理的另一張表,,總結(jié)了先前基于CT影像預(yù)測其他病變(包括肺癌,、顱內(nèi)出血和氣胸)的其他工作: 訓(xùn)練基于切塊或切片的模型的一個優(yōu)點(diǎn)是訓(xùn)練好的模型可以輕易地在切塊或切片水平上預(yù)測病變。而缺點(diǎn)在于,,訓(xùn)練模型自然也需要切塊或切片的模型標(biāo)注,,這在現(xiàn)實(shí)的醫(yī)療衛(wèi)生系統(tǒng)中是獲取不到的,這將會導(dǎo)致:
盡管單一病變分類模型可以獲得很高的性能,,但是這一研究方向受限于其固有的局限性。要進(jìn)行全面的CT判讀,,需要數(shù)百個獨(dú)立的二分類器,。CT自動判讀的另一個研究路線是多標(biāo)簽分類,可以實(shí)現(xiàn)在一張CT圖像上同時預(yù)測多種病變類型,。有關(guān)多類別分類與多標(biāo)簽分類的綜述,,請參閱 這篇文章 。 多標(biāo)簽病變分類如下圖所示: 直到我最近的工作之前,,多標(biāo)簽胸部CT分類的問題還沒有被深入探討,。然而,多標(biāo)簽胸部X光片分類已經(jīng)被深入研究,,這得益于多個公開的大型胸部X光片公共數(shù)據(jù)集: 受之前胸部X光片多標(biāo)簽分類的啟發(fā),,我最近研究了胸部CT的多標(biāo)簽分類。我在多標(biāo)簽胸部CT分類方面的工作分為三個部分:
在以后的文章中,,我將更詳細(xì)地分別探討我的工作的三個方面:如何準(zhǔn)備一個包含成對的CT圖像和診斷報(bào)告的大型CT數(shù)據(jù)集,;如何從報(bào)告中提取結(jié)構(gòu)化標(biāo)簽;如何構(gòu)建一個完整的CT分類器。 基于CT數(shù)據(jù)的其他任務(wù)基于CT影像數(shù)據(jù)的其他任務(wù)包括:
|
|