數(shù)據(jù)集查找器Google Dataset Search:與Google Scholar的工作方式類似,,Dataset Search 可以讓你在任何托管的地方找到數(shù)據(jù)集,無論是一個出版商的網(wǎng)站,,一個數(shù)字圖書館,,還是一個作者的網(wǎng)頁。它是一個非凡的數(shù)據(jù)集查找器,,它包含超過2500萬個數(shù)據(jù)集,。
Kaggle:Kaggle提供了一個龐大的數(shù)據(jù)集容器,對于熱衷于此的專家來說足夠了,。
UCI機(jī)器學(xué)習(xí)庫:UCI的機(jī)器學(xué)習(xí)庫為開源數(shù)據(jù)集提供了最新的資源,。
VisualData:按類別搜索計算機(jī)視覺數(shù)據(jù)集;它允許搜索查詢,。
CMU庫:通過在CMU收集的Wang Huajin Wang,,發(fā)現(xiàn)高質(zhì)量的數(shù)據(jù)集。
一般數(shù)據(jù)集住房數(shù)據(jù)集波士頓住房數(shù)據(jù)集:包含美國人口普查局收集的有關(guān)波士頓地區(qū)住房的信息,。它是從StatLib檔案中獲得的,,在整個文獻(xiàn)中被廣泛用于對算法進(jìn)行基準(zhǔn)測試,。
地理數(shù)據(jù)集Google-Landmarks-v2:用于地標(biāo)識別和檢索的改進(jìn)數(shù)據(jù)集。這個數(shù)據(jù)集包含了來自世界各地的5百萬張20萬多個地標(biāo)的圖片,,這些圖片由Wiki Commons社區(qū)提供和注釋,。
機(jī)器學(xué)習(xí)數(shù)據(jù)集:購物中心客戶數(shù)據(jù)集: 購物中心客戶數(shù)據(jù)集包含特定城市中訪問購物中心的人的信息。數(shù)據(jù)集由不同的列組成,,如性別,、客戶id、年齡,、年收入和支出分?jǐn)?shù),。它通常用于根據(jù)年齡、收入和興趣對客戶進(jìn)行細(xì)分,。
IRIS數(shù)據(jù)集:IRIS數(shù)據(jù)集是一個簡單的初學(xué)者友好的數(shù)據(jù)集,,包含有關(guān)花瓣和萼片寬度的信息。數(shù)據(jù)分為三個類,,每個類有50行,。它通常用于分類和回歸建模。
MNIST數(shù)據(jù)集:這是一個手寫數(shù)字的數(shù)據(jù)集,。它包含60000個訓(xùn)練圖像和10000個測試圖像,。這是一個完美的開始實現(xiàn)圖像分類的數(shù)據(jù)集,你可以從0到9對數(shù)字進(jìn)行分類,。
波士頓住房數(shù)據(jù)集:包含美國人口普查局收集的有關(guān)波士頓地區(qū)住房的信息,。它是從StatLib檔案中獲得的,在整個文獻(xiàn)中被廣泛用于對算法進(jìn)行基準(zhǔn)測試,。
假新聞檢測數(shù)據(jù)集:它是一個CSV文件,,有7796行,有四列,。共有四列:新聞,、標(biāo)題、新聞文本,、結(jié)果。
葡萄酒質(zhì)量數(shù)據(jù)集:該數(shù)據(jù)集包含有關(guān)葡萄酒的不同化學(xué)信息,。數(shù)據(jù)集適用于分類和回歸任務(wù),。
SOCR 數(shù)據(jù) - 高度和重量數(shù)據(jù)集:這是初學(xué)者的基本數(shù)據(jù)集。它只包含25000個18歲的不同人類的身高和體重,。這個數(shù)據(jù)集可以用來建立一個模型,,可以預(yù)測一個人的身高或體重。
Titanic數(shù)據(jù)集:該數(shù)據(jù)集包含諸如姓名,、年齡,、性別,、船上兄弟姐妹人數(shù)等信息,以及訓(xùn)練集中891名乘客和測試集中418名乘客的其他信息,。
信用卡欺詐檢測數(shù)據(jù)集:該數(shù)據(jù)集包含由信用卡進(jìn)行的交易,;它們被標(biāo)記為欺詐性或真實性。這對于擁有交易系統(tǒng)的公司來說,,建立一個檢測欺詐活動的模型非常重要,。
計算機(jī)視覺數(shù)據(jù)集xView:xView是最龐大的空中影像公開數(shù)據(jù)集之一。它包含來自世界各地復(fù)雜場景的圖像,,并使用邊界框進(jìn)行注釋,。
ImageNet:最大的計算機(jī)視覺圖像數(shù)據(jù)集。根據(jù)WordNet的說法,,它提供了一個可訪問的圖像數(shù)據(jù)庫,,它是按層次組織的。
Kinetics-700:Youtube視頻url的大規(guī)模數(shù)據(jù)集,。包括以人為中心的行動,。它包含超過70萬個視頻。
谷歌的開放圖像:來自谷歌人工智能的一個巨大的數(shù)據(jù)集,,包含超過1000萬張圖片,。
城市景觀數(shù)據(jù)集:這是一個用于計算機(jī)視覺項目的開源數(shù)據(jù)集。它包含在50個不同城市街道拍攝的視頻序列的高質(zhì)量像素級注釋,。該數(shù)據(jù)集可用于語義分割和訓(xùn)練深層神經(jīng)網(wǎng)絡(luò)以了解城市場景,。
imdbwiki數(shù)據(jù)集:imdbwiki數(shù)據(jù)集是針對帶有性別和年齡標(biāo)簽的人臉圖像的最廣泛的開源數(shù)據(jù)集之一。圖片來自IMDB和Wikipedia,。它有五百萬多個標(biāo)簽圖像,。
顏色檢測數(shù)據(jù)集:該數(shù)據(jù)集包含一個CSV文件,其中有865個顏色名稱及其相應(yīng)的RGB(紅色,、綠色和藍(lán)色)值,。它還有顏色的十六進(jìn)制值。
斯坦福狗數(shù)據(jù)集:它包含20580張圖片和120個不同品種的狗,。
情緒分析數(shù)據(jù)集詞典編纂者情緒詞典:這個數(shù)據(jù)集是專門用于情緒分析的,。數(shù)據(jù)集包含3000多個負(fù)面詞匯和2000多個積極情緒詞。
IMDB評論:一個有趣的數(shù)據(jù)集,,包含來自Kaggle的50000多個電影評論,。
斯坦福情緒樹庫:帶情緒注釋的標(biāo)準(zhǔn)情緒數(shù)據(jù)集。
Twitter美國航空公司情緒:2015年2月美國航空公司Twitter數(shù)據(jù),,分為正面,、負(fù)面和中性推文
自然語言處理(NLP)數(shù)據(jù)集HotspotQA數(shù)據(jù)集:問答數(shù)據(jù)集,具有自然的,、多跳的問題,,并對事實進(jìn)行嚴(yán)格監(jiān)督,,以實現(xiàn)更易于解釋的問答系統(tǒng)。
亞馬遜評論:來自亞馬遜的龐大數(shù)據(jù)集,,包含超過4500萬條亞馬遜評論,。
爛番茄評論:超過48萬評論檔案(新鮮或腐爛)。
英語短信垃圾收集:一個由5574條英語短信垃圾信息組成的數(shù)據(jù)集,。
安然電子郵件數(shù)據(jù)集:它包含超過150個用戶的大約50萬封電子郵件,。
推薦系統(tǒng)數(shù)據(jù)集:它包含來自流行網(wǎng)站的各種數(shù)據(jù)集,如Goodreads書評,、亞馬遜產(chǎn)品評論,、調(diào)酒數(shù)據(jù)、社交媒體數(shù)據(jù)以及其他用于構(gòu)建推薦系統(tǒng)的數(shù)據(jù)集,。
UCI Spambase數(shù)據(jù)集:將電子郵件分類為垃圾郵件或非垃圾郵件是一項普遍而有用的任務(wù),。該數(shù)據(jù)集包含4601封電子郵件和57封有關(guān)電子郵件的元信息。你可以建立模型來過濾垃圾郵件,。
IMDB評論:大型電影評論數(shù)據(jù)集包括來自IMDB網(wǎng)站的電影評論,,其中超過25000條評論用于培訓(xùn),25000條評論用于測試集,。
自動駕駛(自動駕駛)數(shù)據(jù)集Waymo開放數(shù)據(jù)集:這是來自Waymo員工的一個很棒的數(shù)據(jù)集資源,。包括大量的自動駕駛數(shù)據(jù)集,足以從零開始訓(xùn)練深度網(wǎng)絡(luò),。
Berkeley DeepDrive BDD100k:最大的自動駕駛汽車數(shù)據(jù)集之一,,包含紐約和加利福尼亞州超過2000小時的駕駛體驗。
博世小交通燈數(shù)據(jù)集:用于深入學(xué)習(xí)的小交通燈數(shù)據(jù)集,。
LaRa紅綠燈識別:另一個紅綠燈數(shù)據(jù)集,。這個數(shù)據(jù)集是從巴黎收集的。
WPI數(shù)據(jù)集:用于交通燈,、行人和車道檢測的數(shù)據(jù)集,。
Comma.ai:它包含諸如車速、加速度,、轉(zhuǎn)向角和GPS坐標(biāo)等詳細(xì)信息,。
MIT AGE Lab:年齡實驗室收集的1000多小時多傳感器駕駛數(shù)據(jù)集的樣本。
LISA:智能與安全汽車實驗室,,加州大學(xué)圣地亞哥數(shù)據(jù)集:該數(shù)據(jù)集包括交通標(biāo)志,、車輛檢測、交通燈和軌跡模式,。
城市景觀數(shù)據(jù)集:這是一個廣泛的數(shù)據(jù)集,,包含50個不同城市的街道場景,。
臨床數(shù)據(jù)集COVID-19數(shù)據(jù)集:艾倫人工智能研究所(Allen Institute of AI research)發(fā)布了一個龐大的研究數(shù)據(jù)集,,包含了45000多篇關(guān)于COVID-19的學(xué)術(shù)文章,。
MIC-III:由麻省理工學(xué)院計算生理學(xué)實驗室開發(fā)的公開可用數(shù)據(jù)集,包括與約40000名危重病人相關(guān)的未識別健康數(shù)據(jù),。它包括人口統(tǒng)計,、生命體征、實驗室檢查,、藥物治療等,。
推薦系統(tǒng)的數(shù)據(jù)集MovieLens:它包含來自MovieLens網(wǎng)站的分級數(shù)據(jù)集。
Jester:它包含了來自73421個用戶的100個笑話的410萬個連續(xù)評級(-10.00到 10.00),。它主要用于協(xié)同過濾,。
百萬歌曲數(shù)據(jù)集:它可以用于協(xié)作和基于內(nèi)容的過濾。
尾注:如果你知道其他高質(zhì)量,、免費的數(shù)據(jù)集,,你會推薦給人們用于機(jī)器學(xué)習(xí)、深度學(xué)習(xí),、數(shù)據(jù)科學(xué)等的研究和應(yīng)用,。請隨時在下面的評論中提出建議,或直接發(fā)送電子郵件至 [email protected],。 如果推薦理由是可靠的,,我們將對其進(jìn)行分析,并將其列入此列表,。另外,,請在評論部分告訴我們你使用這些數(shù)據(jù)集的經(jīng)驗。 參考和來源[1] The 50 Best Free Datasets for Machine Learning, Lionbridge AI, https:///datasets/the-50-best-free-datasets-for-machine-learning/ [2] Google Cloud Public Datasets, Google, https://cloud.google.com/public-datasets/ [3] Machine Learning and AI Datasets, Carnegie Mellon University, https://guides.library./c.php?g=844845&p=6191907 [4] Big Data and AI: 30 Amazing and Free Public Data Sources, Forbes, https://www./sites/bernardmarr/2018/02/26/big-data-and-ai-30-amazing-and-free-public-data-sources-for-2018/#f3bdeb5f8aec [5] Awesome Autonomous Vehicles Datasets, Github, https://github.com/takeitallsource/awesome-autonomous-vehicles#datasets [6] Fueling the Gold Rush, The Greatest Public Datasets for AI, StartupGrind, https:///startup-grind/fueling-the-ai-gold-rush-7ae438505bc2 [7] Places to Find Free Datasets for Data Science Projects, Dataquest, https://www./blog/free-datasets-for-projects/ [8] The Best Datasets for Natural Language Processing, Gengo AI, https:///datasets/the-best-25-datasets-for-natural-language-processing/ [9] Awesome Public Datasets, Github, https://github.com/awesomedata/awesome-public-datasets#machinelearning [10] StatLib Datasets Archive, Carnegie Mellon, http://lib.stat./datasets/ [11] Institutional Research and Analysis | Common Datasets | https://www./ira/CDS/index.html [12] Datasets and Project Suggestions | Andrew W. Moore | http://www.cs./~awm/15781/project/data.html [13] Datasets | Machine Learning Repository | MIT | https://ocw./courses/sloan-school-of-management/15-097-prediction-machine-learning-and-statistics-spring-2012/datasets/ [14] Datasets | MIT Lincoln Laboratory | https://www.ll./r-d/datasets [15] Stanford Large Network Dataset Collection | Stanford University | https://snap./data/ [16] Stanford Common Dataset | Stanford University | https://snap./data/ [17] Datalab | UC Berkeley | http://www.lib./libraries/data-lab [18] Exploring Datasets | Data Science at Berkeley | https://datascience./open-data-sets/ [19] DeepDrive | UC Berkeley | https://bdd-data./ [20] Machine Learning Datasets and Project Ideas — Work on real-time Data Science Projects | Data Flair | https://aining/blogs/machine-learning-datasets/ |
|