機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)的最佳公共數(shù)據(jù)集

昵稱16619343 2020-10-06

展開全文

數(shù)據(jù)集查找器

Google Dataset Search：與Google Scholar的工作方式類似,，Dataset Search 可以讓你在任何托管的地方找到數(shù)據(jù)集，無論是一個出版商的網(wǎng)站,，一個數(shù)字圖書館,，還是一個作者的網(wǎng)頁。它是一個非凡的數(shù)據(jù)集查找器,，它包含超過2500萬個數(shù)據(jù)集,。

https://toolbox.google.com/datasetsearch

Kaggle:Kaggle提供了一個龐大的數(shù)據(jù)集容器，對于熱衷于此的專家來說足夠了,。

https://www./

UCI機(jī)器學(xué)習(xí)庫：UCI的機(jī)器學(xué)習(xí)庫為開源數(shù)據(jù)集提供了最新的資源,。

http://mlr.cs./ml/

VisualData：按類別搜索計算機(jī)視覺數(shù)據(jù)集；它允許搜索查詢,。

https://www./

CMU庫：通過在CMU收集的Wang Huajin Wang,，發(fā)現(xiàn)高質(zhì)量的數(shù)據(jù)集。

https://guides.library./machine-learning/datasets

一般數(shù)據(jù)集

住房數(shù)據(jù)集

波士頓住房數(shù)據(jù)集：包含美國人口普查局收集的有關(guān)波士頓地區(qū)住房的信息,。它是從StatLib檔案中獲得的,，在整個文獻(xiàn)中被廣泛用于對算法進(jìn)行基準(zhǔn)測試,。

https://www.cs./~delve/data/boston/bostonDetail.html

地理數(shù)據(jù)集

Google-Landmarks-v2：用于地標(biāo)識別和檢索的改進(jìn)數(shù)據(jù)集。這個數(shù)據(jù)集包含了來自世界各地的5百萬張20萬多個地標(biāo)的圖片,，這些圖片由Wiki Commons社區(qū)提供和注釋,。

https://www./xiuchengwang/python-dataset-download

機(jī)器學(xué)習(xí)數(shù)據(jù)集：

購物中心客戶數(shù)據(jù)集： 購物中心客戶數(shù)據(jù)集包含特定城市中訪問購物中心的人的信息。數(shù)據(jù)集由不同的列組成,，如性別,、客戶id、年齡,、年收入和支出分?jǐn)?shù),。它通常用于根據(jù)年齡、收入和興趣對客戶進(jìn)行細(xì)分,。

https://www./shwetabh123/mall-customers

IRIS數(shù)據(jù)集：IRIS數(shù)據(jù)集是一個簡單的初學(xué)者友好的數(shù)據(jù)集,，包含有關(guān)花瓣和萼片寬度的信息。數(shù)據(jù)分為三個類,，每個類有50行,。它通常用于分類和回歸建模。

https://archive.ics./ml/datasets/Iris

MNIST數(shù)據(jù)集：這是一個手寫數(shù)字的數(shù)據(jù)集,。它包含60000個訓(xùn)練圖像和10000個測試圖像,。這是一個完美的開始實現(xiàn)圖像分類的數(shù)據(jù)集，你可以從0到9對數(shù)字進(jìn)行分類,。

http://yann./exdb/mnist/

波士頓住房數(shù)據(jù)集：包含美國人口普查局收集的有關(guān)波士頓地區(qū)住房的信息,。它是從StatLib檔案中獲得的，在整個文獻(xiàn)中被廣泛用于對算法進(jìn)行基準(zhǔn)測試,。

https://www.cs./~delve/data/boston/bostonDetail.html

假新聞檢測數(shù)據(jù)集：它是一個CSV文件,，有7796行，有四列,。共有四列：新聞,、標(biāo)題、新聞文本,、結(jié)果。

https://www./c/fake-news/data

葡萄酒質(zhì)量數(shù)據(jù)集：該數(shù)據(jù)集包含有關(guān)葡萄酒的不同化學(xué)信息,。數(shù)據(jù)集適用于分類和回歸任務(wù),。

https://archive.ics./ml/datasets/wine quality

SOCR 數(shù)據(jù) - 高度和重量數(shù)據(jù)集：這是初學(xué)者的基本數(shù)據(jù)集。它只包含25000個18歲的不同人類的身高和體重,。這個數(shù)據(jù)集可以用來建立一個模型,，可以預(yù)測一個人的身高或體重。

http://wiki.stat./socr/index.php/SOCR_Data_Dinov_020108_HeightsWeights

Titanic數(shù)據(jù)集：該數(shù)據(jù)集包含諸如姓名,、年齡,、性別,、船上兄弟姐妹人數(shù)等信息，以及訓(xùn)練集中891名乘客和測試集中418名乘客的其他信息,。

https://web./class/archive/cs/cs109/cs109.1166/problem12.html

信用卡欺詐檢測數(shù)據(jù)集：該數(shù)據(jù)集包含由信用卡進(jìn)行的交易,；它們被標(biāo)記為欺詐性或真實性。這對于擁有交易系統(tǒng)的公司來說,，建立一個檢測欺詐活動的模型非常重要,。

https://www./mlg-ulb/creditcardfraud

計算機(jī)視覺數(shù)據(jù)集

xView:xView是最龐大的空中影像公開數(shù)據(jù)集之一。它包含來自世界各地復(fù)雜場景的圖像,，并使用邊界框進(jìn)行注釋,。

http:///#dataset

ImageNet：最大的計算機(jī)視覺圖像數(shù)據(jù)集。根據(jù)WordNet的說法,，它提供了一個可訪問的圖像數(shù)據(jù)庫,，它是按層次組織的。

http:///

Kinetics-700:Youtube視頻url的大規(guī)模數(shù)據(jù)集,。包括以人為中心的行動,。它包含超過70萬個視頻。

https:///research/open-source/open-source-datasets/kinetics/

谷歌的開放圖像：來自谷歌人工智能的一個巨大的數(shù)據(jù)集,，包含超過1000萬張圖片,。

https://research./2016/09/introducing-open-images-dataset.html

城市景觀數(shù)據(jù)集：這是一個用于計算機(jī)視覺項目的開源數(shù)據(jù)集。它包含在50個不同城市街道拍攝的視頻序列的高質(zhì)量像素級注釋,。該數(shù)據(jù)集可用于語義分割和訓(xùn)練深層神經(jīng)網(wǎng)絡(luò)以了解城市場景,。

https://www./

imdbwiki數(shù)據(jù)集：imdbwiki數(shù)據(jù)集是針對帶有性別和年齡標(biāo)簽的人臉圖像的最廣泛的開源數(shù)據(jù)集之一。圖片來自IMDB和Wikipedia,。它有五百萬多個標(biāo)簽圖像,。

https://data.vision.ee./cvl/rrothe/imdb-wiki/

顏色檢測數(shù)據(jù)集：該數(shù)據(jù)集包含一個CSV文件，其中有865個顏色名稱及其相應(yīng)的RGB（紅色,、綠色和藍(lán)色）值,。它還有顏色的十六進(jìn)制值。

https://github.com/codebrainz/color-names/blob/master/output/colors.csv

斯坦福狗數(shù)據(jù)集：它包含20580張圖片和120個不同品種的狗,。

http://vision./aditya86/ImageNetDogs/

情緒分析數(shù)據(jù)集

詞典編纂者情緒詞典：這個數(shù)據(jù)集是專門用于情緒分析的,。數(shù)據(jù)集包含3000多個負(fù)面詞匯和2000多個積極情緒詞。

http://www./

IMDB評論：一個有趣的數(shù)據(jù)集,，包含來自Kaggle的50000多個電影評論,。

https://www./lakshmi25npathi/imdb-dataset-of-50k-movie-reviews

斯坦福情緒樹庫：帶情緒注釋的標(biāo)準(zhǔn)情緒數(shù)據(jù)集。

http://nlp./sentiment/code.html

Twitter美國航空公司情緒：2015年2月美國航空公司Twitter數(shù)據(jù),，分為正面,、負(fù)面和中性推文

https://www./crowdflower/twitter-airline-sentiment

自然語言處理（NLP）數(shù)據(jù)集

HotspotQA數(shù)據(jù)集：問答數(shù)據(jù)集，具有自然的,、多跳的問題,，并對事實進(jìn)行嚴(yán)格監(jiān)督,，以實現(xiàn)更易于解釋的問答系統(tǒng)。

https://hotpotqa./

亞馬遜評論：來自亞馬遜的龐大數(shù)據(jù)集,，包含超過4500萬條亞馬遜評論,。

https://snap./data/web-Amazon.html

爛番茄評論：超過48萬評論檔案（新鮮或腐爛）。

https://drive.google.com/file/d/1w1TsJB-gmIkZ28d1j7sf1sqcPmHXw352/view

英語短信垃圾收集：一個由5574條英語短信垃圾信息組成的數(shù)據(jù)集,。

http://www.dt.fee./~tiago/smsspamcollection/

安然電子郵件數(shù)據(jù)集：它包含超過150個用戶的大約50萬封電子郵件,。

https://www.cs./~enron/

推薦系統(tǒng)數(shù)據(jù)集：它包含來自流行網(wǎng)站的各種數(shù)據(jù)集，如Goodreads書評,、亞馬遜產(chǎn)品評論,、調(diào)酒數(shù)據(jù)、社交媒體數(shù)據(jù)以及其他用于構(gòu)建推薦系統(tǒng)的數(shù)據(jù)集,。

https://cseweb./~jmcauley/datasets.html

UCI Spambase數(shù)據(jù)集：將電子郵件分類為垃圾郵件或非垃圾郵件是一項普遍而有用的任務(wù),。該數(shù)據(jù)集包含4601封電子郵件和57封有關(guān)電子郵件的元信息。你可以建立模型來過濾垃圾郵件,。

https://archive.ics./ml/datasets/Spambase

IMDB評論：大型電影評論數(shù)據(jù)集包括來自IMDB網(wǎng)站的電影評論,，其中超過25000條評論用于培訓(xùn)，25000條評論用于測試集,。

http://ai./~amaas/data/sentiment/

自動駕駛（自動駕駛）數(shù)據(jù)集

Waymo開放數(shù)據(jù)集：這是來自Waymo員工的一個很棒的數(shù)據(jù)集資源,。包括大量的自動駕駛數(shù)據(jù)集，足以從零開始訓(xùn)練深度網(wǎng)絡(luò),。

https:///open/

Berkeley DeepDrive BDD100k：最大的自動駕駛汽車數(shù)據(jù)集之一,，包含紐約和加利福尼亞州超過2000小時的駕駛體驗。

http://bdd-data./

博世小交通燈數(shù)據(jù)集：用于深入學(xué)習(xí)的小交通燈數(shù)據(jù)集,。

https://hci.iwr./node/6132

LaRa紅綠燈識別：另一個紅綠燈數(shù)據(jù)集,。這個數(shù)據(jù)集是從巴黎收集的。

http://www.lara./benchmarks/trafficlightsrecognition

WPI數(shù)據(jù)集：用于交通燈,、行人和車道檢測的數(shù)據(jù)集,。

http://computing./dataset.html

Comma.ai：它包含諸如車速、加速度,、轉(zhuǎn)向角和GPS坐標(biāo)等詳細(xì)信息,。

https:///details/comma-dataset

MIT AGE Lab：年齡實驗室收集的1000多小時多傳感器駕駛數(shù)據(jù)集的樣本。

http:///automated-synchronization-of-driving-data-video-audio-telemetry-accelerometer/

LISA：智能與安全汽車實驗室,，加州大學(xué)圣地亞哥數(shù)據(jù)集：該數(shù)據(jù)集包括交通標(biāo)志,、車輛檢測、交通燈和軌跡模式,。

http://cvrr./LISA/datasets.html

城市景觀數(shù)據(jù)集：這是一個廣泛的數(shù)據(jù)集,，包含50個不同城市的街道場景,。

https://www./

臨床數(shù)據(jù)集

COVID-19數(shù)據(jù)集：艾倫人工智能研究所（Allen Institute of AI research）發(fā)布了一個龐大的研究數(shù)據(jù)集,，包含了45000多篇關(guān)于COVID-19的學(xué)術(shù)文章,。

https://www./cord19

MIC-III：由麻省理工學(xué)院計算生理學(xué)實驗室開發(fā)的公開可用數(shù)據(jù)集，包括與約40000名危重病人相關(guān)的未識別健康數(shù)據(jù),。它包括人口統(tǒng)計,、生命體征、實驗室檢查,、藥物治療等,。

https://mimic./

尾注：

如果你知道其他高質(zhì)量,、免費的數(shù)據(jù)集,，你會推薦給人們用于機(jī)器學(xué)習(xí)、深度學(xué)習(xí),、數(shù)據(jù)科學(xué)等的研究和應(yīng)用,。請隨時在下面的評論中提出建議，或直接發(fā)送電子郵件至 [email protected],。

如果推薦理由是可靠的,，我們將對其進(jìn)行分析，并將其列入此列表,。另外,，請在評論部分告訴我們你使用這些數(shù)據(jù)集的經(jīng)驗。

參考和來源

[1] The 50 Best Free Datasets for Machine Learning, Lionbridge AI, https:///datasets/the-50-best-free-datasets-for-machine-learning/

[2] Google Cloud Public Datasets, Google, https://cloud.google.com/public-datasets/

[3] Machine Learning and AI Datasets, Carnegie Mellon University, https://guides.library./c.php?g=844845&p=6191907

[4] Big Data and AI: 30 Amazing and Free Public Data Sources, Forbes, https://www./sites/bernardmarr/2018/02/26/big-data-and-ai-30-amazing-and-free-public-data-sources-for-2018/#f3bdeb5f8aec

[5] Awesome Autonomous Vehicles Datasets, Github, https://github.com/takeitallsource/awesome-autonomous-vehicles#datasets

[6] Fueling the Gold Rush, The Greatest Public Datasets for AI, StartupGrind, https:///startup-grind/fueling-the-ai-gold-rush-7ae438505bc2

[7] Places to Find Free Datasets for Data Science Projects, Dataquest, https://www./blog/free-datasets-for-projects/

[8] The Best Datasets for Natural Language Processing, Gengo AI, https:///datasets/the-best-25-datasets-for-natural-language-processing/

[9] Awesome Public Datasets, Github, https://github.com/awesomedata/awesome-public-datasets#machinelearning

[10] StatLib Datasets Archive, Carnegie Mellon, http://lib.stat./datasets/

[11] Institutional Research and Analysis | Common Datasets | https://www./ira/CDS/index.html

[12] Datasets and Project Suggestions | Andrew W. Moore | http://www.cs./~awm/15781/project/data.html

[13] Datasets | Machine Learning Repository | MIT | https://ocw./courses/sloan-school-of-management/15-097-prediction-machine-learning-and-statistics-spring-2012/datasets/

[14] Datasets | MIT Lincoln Laboratory | https://www.ll./r-d/datasets

[15] Stanford Large Network Dataset Collection | Stanford University | https://snap./data/

[16] Stanford Common Dataset | Stanford University | https://snap./data/

[17] Datalab | UC Berkeley | http://www.lib./libraries/data-lab

[18] Exploring Datasets | Data Science at Berkeley | https://datascience./open-data-sets/

[19] DeepDrive | UC Berkeley | https://bdd-data./

[20] Machine Learning Datasets and Project Ideas — Work on real-time Data Science Projects | Data Flair | https://aining/blogs/machine-learning-datasets/

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,，所有內(nèi)容均由用戶發(fā)布,，不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息,，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,，請點擊一鍵舉報,。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：昵稱16619343 > 《Python數(shù)據(jù)挖掘與分析，機(jī)器學(xué)習(xí),，深度學(xué)習(xí)》

舉報/認(rèn)領(lǐng)