肺癌檢測 DICOM 醫(yī)學(xué)數(shù)字影像數(shù)據(jù)集

此前,在跨象乘云??近日開源發(fā)布的《DICOM 醫(yī)學(xué)數(shù)字影像預(yù)處理 - 人工智能垂直領(lǐng)域工程項目案例庫》中,采用的數(shù)據(jù)集來自 2017 年數(shù)據(jù)科學(xué)碗比賽。在這個數(shù)據(jù)集中,有超過 1000 張來自高?;颊叩?DICOM 格式 CT 圖像。每個圖像包含一系列的胸部軸向切片。每個圖像都有不同數(shù)量的 2D 切片,這些切片可以根據(jù)掃描的機器和病人的不同而變化。你利用 Pydicom 庫實現(xiàn)了對 DICOM 醫(yī)學(xué)數(shù)字影像的預(yù)處理。通過上面的步驟,圖像已經(jīng)可供 CNN 或其他機器學(xué)習(xí)方法使用。

在此數(shù)據(jù)集中,您將獲得一千多張來自高?;颊叩?DICOM 格式的低劑量 CT 圖像。每個圖像都包含一系列胸腔的多個軸向切片。每個圖像都有可變數(shù)量的 2D 切片,這些切片可能因進行掃描的機器和患者而異。DICOM 文件有一個標題,其中包含有關(guān)患者 ID 的必要信息,以及切片厚度等掃描參數(shù)。競賽任務(wù)是創(chuàng)建一種自動化方法,能夠確定患者是否會在掃描之日起一年內(nèi)被診斷出患有肺癌?;臼聦崢撕炌ㄟ^病理學(xué)診斷得到確認。由于完整的數(shù)據(jù)集非常龐大,超過 160 GB,在本案例實驗環(huán)節(jié),僅抽取其中一名病患的?DICOM 圖像進行處理。

該數(shù)據(jù)集中的圖像來自許多來源,并且質(zhì)量會有所不同。例如,較舊的掃描使用不太復(fù)雜的設(shè)備進行成像??傮w而言,您應(yīng)該期望第 2 階段的數(shù)據(jù)比第 1 階段的數(shù)據(jù)更新且質(zhì)量更高(通常具有更薄的切片厚度)。理想情況下,您的算法應(yīng)該在一系列圖像質(zhì)量上表現(xiàn)良好。
文件說明:每個患者 ID 都有一個關(guān)聯(lián)的 DICOM 文件目錄?;颊?ID 位于 DICOM 標頭中,與患者姓名相同。圖像的確切數(shù)量會因情況而異,根據(jù)切片的數(shù)量而有所不同。由于數(shù)據(jù)集的大小,圖像被壓縮為 .7z 文件。
stage1.7z - 包含比賽第一階段的所有圖像,包括訓(xùn)練集和測試集
stage2.7z?-?包含比賽第二階段的所有圖像,包括訓(xùn)練集和測試集
stage1_labels.csv - 包含第 1 階段訓(xùn)練集圖像的癌癥基本事實
stage2_sample_submission.csv - 顯示第 2?階段的提交格式
然而,由于數(shù)據(jù)集使用限制,本次比賽的數(shù)據(jù)在 Kaggle 上不再可供下載。您可以通過以下鏈接下載完整的原始數(shù)據(jù)集。
鏈接:?https://pan.baidu.com/s/1y8WSIfNPRs9OzoGqchNKaA? ?提取碼: n5i3
備用: https://pan.baidu.com/s/1qePTL1vsjmScuSqG9SEoDQ? ?提取碼: vfhd

個人用戶請微信搜索【跨象乘云】公眾號(kxcy_ai)或掃描下方二維碼,關(guān)注后發(fā)送關(guān)鍵字【220402】,免費獲取視頻內(nèi)代碼與數(shù)據(jù)集??缦蟪嗽? 原創(chuàng)實驗演示視頻內(nèi)全部代碼、數(shù)據(jù)集僅授權(quán)予個人用戶學(xué)習(xí)與實驗使用。禁止用于二次銷售、分發(fā)傳播、課堂教學(xué)及培訓(xùn)用途。校企用戶采購請通過公眾號菜單【了解我們】->【商務(wù)合作】聯(lián)系。
