21個(gè)深度學(xué)習(xí)開(kāi)源數(shù)據(jù)集分類匯總
編輯丨極市平臺(tái)
一、目標(biāo)檢測(cè)
1.COCO2017數(shù)據(jù)集
COCO2017是2017年發(fā)布的COCO數(shù)據(jù)集的一個(gè)版本,主要用于COCO在2017年后持有的物體檢測(cè)任務(wù)、關(guān)鍵點(diǎn)檢測(cè)任務(wù)和全景分割任務(wù)。

二、圖像分割
1.LVIS數(shù)據(jù)集
LVIS是一個(gè)大規(guī)模細(xì)粒度詞匯集標(biāo)記數(shù)據(jù)集,該數(shù)據(jù)集針對(duì)超過(guò) 1000 類物體進(jìn)行了約 200 萬(wàn)個(gè)高質(zhì)量的實(shí)例分割標(biāo)注,包含 164k 張圖像。

2.高密度人群及移動(dòng)物體視頻數(shù)據(jù)集
Crowd Segmentation Dataset 是一個(gè)高密度人群和移動(dòng)物體視頻數(shù)據(jù),視頻來(lái)自BBC Motion Gallery 和 Getty Images 網(wǎng)站。

3.DAVIS 視頻分割數(shù)據(jù)集
Densely Annotated Video Segmentation 是一個(gè)高清視頻中的物體分割數(shù)據(jù)集,包括 50個(gè) 視頻序列,3455個(gè) 幀標(biāo)注,視頻采集自高清 1080p 格式。

三、圖像分類
1.MNIST 手寫數(shù)字圖像數(shù)據(jù)集
MNIST數(shù)據(jù)集是一個(gè)手寫阿拉伯?dāng)?shù)字圖像識(shí)別數(shù)據(jù)集,圖片分辨率為 20x20 灰度圖圖片,包含‘0 - 9’ 十組手寫手寫阿拉伯?dāng)?shù)字的圖片。其中,訓(xùn)練樣本 60000 ,測(cè)試樣本 10000,數(shù)據(jù)為圖片的像素點(diǎn)值,作者已經(jīng)對(duì)數(shù)據(jù)集進(jìn)行了壓縮。

2.Kaggle 垃圾分類圖片數(shù)據(jù)集
該數(shù)據(jù)集是圖片數(shù)據(jù),分為訓(xùn)練集85%(Train)和測(cè)試集15%(Test)。其中O代表Organic(有機(jī)垃圾),R代表Recycle(可回收)

四、人臉
1.IMDB-WIKI人臉數(shù)據(jù)集
IMDB-WIKI 500k+ 是一個(gè)包含名人人臉圖像、年齡、性別的數(shù)據(jù)集,圖像和年齡、性別信息從 IMDB 和 WiKi 網(wǎng)站抓取,總計(jì) 524230 張名人人臉圖像及對(duì)應(yīng)的年齡和性別。其中,獲取自 IMDB 的 460723 張,獲取自 WiKi 的 62328 張。

2.WiderFace人臉檢測(cè)數(shù)據(jù)集
WIDER FACE數(shù)據(jù)集是人臉檢測(cè)的一個(gè)benchmark數(shù)據(jù)集,包含32203圖像,以及393,703個(gè)標(biāo)注人臉,其中,158,989個(gè)標(biāo)注人臉位于訓(xùn)練集,39,,496個(gè)位于驗(yàn)證集。每一個(gè)子集都包含3個(gè)級(jí)別的檢測(cè)難度:Easy,Medium,Hard。這些人臉在尺度,姿態(tài),光照、表情、遮擋方面都有很大的變化范圍。WIDER FACE選擇的圖像主要來(lái)源于公開(kāi)數(shù)據(jù)集WIDER。制作者來(lái)自于香港中文大學(xué),他們選擇了WIDER的61個(gè)事件類別,對(duì)于每個(gè)類別,隨機(jī)選擇40%10%50%作為訓(xùn)練、驗(yàn)證、測(cè)試集。

3.LFW 人像圖像數(shù)據(jù)集
該數(shù)據(jù)集是用于研究無(wú)約束面部識(shí)別問(wèn)題的面部照片數(shù)據(jù)庫(kù)。數(shù)據(jù)集包含從網(wǎng)絡(luò)收集的13000多張圖像。每張臉都貼上了所畫的人的名字,圖片中的1680人在數(shù)據(jù)集中有兩個(gè)或更多不同的照片。

4.GENKI 人臉圖像數(shù)據(jù)集?
GENKI數(shù)據(jù)集是由加利福尼亞大學(xué)的機(jī)器概念實(shí)驗(yàn)室收集。該數(shù)據(jù)集包含GENKI-R2009a,GENKI-4K,GENKI-SZSL三個(gè)部分。GENKI-R2009a包含11159個(gè)圖像,GENKI-4K包含4000個(gè)圖像,分為“笑”和“不笑”兩種,每個(gè)圖片的人臉的尺度大小,姿勢(shì),光照變化,頭的轉(zhuǎn)動(dòng)等都不一樣,專門用于做笑臉識(shí)別。GENKI-SZSL包含3500個(gè)圖像,這些圖像包括廣泛的背景,光照條件,地理位置,個(gè)人身份和種族等。
五、姿態(tài)估計(jì)
1.MPII人體模型數(shù)據(jù)集
MPII Human Shape 人體模型數(shù)據(jù)是一系列人體輪廓和形狀的3D模型及工具。模型是從平面掃描數(shù)據(jù)庫(kù) CAESAR 學(xué)習(xí)得到。

2.MPII人類姿態(tài)數(shù)據(jù)集
MPII 人體姿態(tài)數(shù)據(jù)集是用于評(píng)估人體關(guān)節(jié)姿勢(shì)估計(jì)的最先進(jìn)基準(zhǔn)。該數(shù)據(jù)集包括大約 25,000 張圖像,其中包含超過(guò) 40,000 個(gè)帶有注釋身體關(guān)節(jié)的人。這些圖像是使用已建立的人類日常活動(dòng)分類法系統(tǒng)收集的??偟膩?lái)說(shuō),數(shù)據(jù)集涵蓋了 410 項(xiàng)人類活動(dòng),每個(gè)圖像都提供了一個(gè)活動(dòng)標(biāo)簽。每張圖像都是從 YouTube 視頻中提取的,并提供前后未注釋的幀。此外,測(cè)試集有更豐富的注釋,包括身體部位遮擋和 3D 軀干和頭部方向。

六、自動(dòng)駕駛
1.KITTI 道路數(shù)據(jù)集
道路和車道估計(jì)基準(zhǔn)包括289次培訓(xùn)和290幅測(cè)試圖像。我們?cè)邙B瞰空間中評(píng)估道路和車道的估計(jì)性能。它包含不同類別的道路場(chǎng)景:城市無(wú)標(biāo)記、城市標(biāo)記、 城市多條標(biāo)記車道以及以上三者的結(jié)合。

2.CrackForest數(shù)據(jù)集
CrackForest數(shù)據(jù)集是一個(gè)帶注釋的道路裂縫圖像數(shù)據(jù)庫(kù),可以大致反映城市路面狀況。

3.KITTI-2015立體聲數(shù)據(jù)集
stero 2015 基準(zhǔn)測(cè)試包含 200 個(gè)訓(xùn)練場(chǎng)景和 200 個(gè)測(cè)試場(chǎng)景(每個(gè)場(chǎng)景 4 幅彩色圖像,以無(wú)損 png 格式保存)。與stereo 2012 和flow 2012 基準(zhǔn)測(cè)試相比,它包含動(dòng)態(tài)場(chǎng)景,在半自動(dòng)過(guò)程中為其建立了真值。該數(shù)據(jù)集是通過(guò)在卡爾斯魯厄中等規(guī)模城市、農(nóng)村地區(qū)和高速公路上行駛而捕獲的。每張圖像最多可以看到 15 輛汽車和 30 名行人。

4.KITTI-2015光流數(shù)據(jù)集
Flow 2015 基準(zhǔn)測(cè)試包含 200 個(gè)訓(xùn)練場(chǎng)景和 200 個(gè)測(cè)試場(chǎng)景(每個(gè)場(chǎng)景 4 幅彩色圖像,以無(wú)損 png 格式保存)。與stereo 2012 和flow 2012 基準(zhǔn)測(cè)試相比,它包含動(dòng)態(tài)場(chǎng)景,在半自動(dòng)過(guò)程中為其建立了真值。該數(shù)據(jù)集是通過(guò)在卡爾斯魯厄中等規(guī)模城市、農(nóng)村地區(qū)和高速公路上行駛而捕獲的。每張圖像最多可以看到 15 輛汽車和 30 名行人。
5.KITTI-2015場(chǎng)景流數(shù)據(jù)集
Sceneflow 2015 基準(zhǔn)測(cè)試包含 200 個(gè)訓(xùn)練場(chǎng)景和 200 個(gè)測(cè)試場(chǎng)景(每個(gè)場(chǎng)景 4 幅彩色圖像,以無(wú)損 png 格式保存)。與stereo 2012 和flow 2012 基準(zhǔn)測(cè)試相比,它包含動(dòng)態(tài)場(chǎng)景,在半自動(dòng)過(guò)程中為其建立了真值。該數(shù)據(jù)集是通過(guò)在卡爾斯魯厄中等規(guī)模城市、農(nóng)村地區(qū)和高速公路上行駛而捕獲的。每張圖像最多可以看到 15 輛汽車和 30 名行人。
6.KITTI深度數(shù)據(jù)集
KITTI-depth 包含超過(guò) 93,000 個(gè)深度圖以及相應(yīng)的原始 LiDaR 掃描和 RGB 圖像。鑒于大量的訓(xùn)練數(shù)據(jù),該數(shù)據(jù)集應(yīng)允許訓(xùn)練復(fù)雜的深度學(xué)習(xí)模型,以完成深度補(bǔ)全和單幅圖像深度預(yù)測(cè)的任務(wù)。此外,該數(shù)據(jù)集提供了帶有未發(fā)布深度圖的手動(dòng)選擇圖像,作為這兩個(gè)具有挑戰(zhàn)性的任務(wù)的基準(zhǔn)。

七、目標(biāo)跟蹤
1.ALOV300++跟蹤數(shù)據(jù)集
ALOV++,Amsterdam Library of Ordinary Videos for tracking 是一個(gè)物體追蹤視頻數(shù)據(jù),旨在對(duì)不同的光線、通透度、泛著條件、背景雜亂程度、焦距下的相似物體的追蹤。

八、動(dòng)作識(shí)別
1.HMDB人類動(dòng)作視頻數(shù)據(jù)集
由布朗大學(xué)發(fā)布的人類動(dòng)作視頻數(shù)據(jù)集,該數(shù)據(jù)集視頻多數(shù)來(lái)源于電影,還有一部分來(lái)自公共數(shù)據(jù)庫(kù)以及YouTube等網(wǎng)絡(luò)視頻庫(kù)。數(shù)據(jù)庫(kù)包含有6849段樣本,分為51類,每類至少包含有101段樣本。

2.UCF50動(dòng)作識(shí)別數(shù)據(jù)集
UCF50 是一個(gè)由中佛羅里達(dá)大學(xué)發(fā)布的動(dòng)作識(shí)別數(shù)據(jù)集,由來(lái)自 youtube 的真實(shí)視頻組成,包含 50 個(gè)動(dòng)作類別,如棒球投球、籃球投籃、臥推、騎自行車、騎自行車、臺(tái)球、蛙泳、挺舉、跳水、擊鼓等。對(duì)于所有 50 個(gè)類別,視頻分為 25 組,其中每組由超過(guò) 4 個(gè)動(dòng)作剪輯。同一組中的視頻片段可能具有一些共同的特征,例如同一個(gè)人、相似背景、相似視點(diǎn)等。

3.SBU Kinect 交互數(shù)據(jù)集
SBU Kinect Interaction是一個(gè)復(fù)雜的人類活動(dòng)數(shù)據(jù)集,描述了兩個(gè)人的交互,包括同步視頻、深度和運(yùn)動(dòng)捕捉數(shù)據(jù)。
