久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)的最佳公共數(shù)據(jù)集

 昵稱16619343 2020-10-06

數(shù)據(jù)集查找器

Google Dataset Search:與Google Scholar的工作方式類似,,Dataset Search 可以讓你在任何托管的地方找到數(shù)據(jù)集,無論是一個出版商的網(wǎng)站,,一個數(shù)字圖書館,,還是一個作者的網(wǎng)頁。它是一個非凡的數(shù)據(jù)集查找器,,它包含超過2500萬個數(shù)據(jù)集,。

  • https://toolbox.google.com/datasetsearch

Kaggle:Kaggle提供了一個龐大的數(shù)據(jù)集容器,對于熱衷于此的專家來說足夠了,。

  • https://www./

UCI機(jī)器學(xué)習(xí)庫:UCI的機(jī)器學(xué)習(xí)庫為開源數(shù)據(jù)集提供了最新的資源,。

  • http://mlr.cs./ml/

VisualData:按類別搜索計算機(jī)視覺數(shù)據(jù)集;它允許搜索查詢,。

  • https://www./

CMU庫:通過在CMU收集的Wang Huajin Wang,,發(fā)現(xiàn)高質(zhì)量的數(shù)據(jù)集。

  • https://guides.library./machine-learning/datasets

一般數(shù)據(jù)集

住房數(shù)據(jù)集

波士頓住房數(shù)據(jù)集:包含美國人口普查局收集的有關(guān)波士頓地區(qū)住房的信息,。它是從StatLib檔案中獲得的,,在整個文獻(xiàn)中被廣泛用于對算法進(jìn)行基準(zhǔn)測試,。

  • https://www.cs./~delve/data/boston/bostonDetail.html

地理數(shù)據(jù)集

Google-Landmarks-v2:用于地標(biāo)識別和檢索的改進(jìn)數(shù)據(jù)集。這個數(shù)據(jù)集包含了來自世界各地的5百萬張20萬多個地標(biāo)的圖片,,這些圖片由Wiki Commons社區(qū)提供和注釋,。

  • https://www./xiuchengwang/python-dataset-download

機(jī)器學(xué)習(xí)數(shù)據(jù)集:

購物中心客戶數(shù)據(jù)集: 購物中心客戶數(shù)據(jù)集包含特定城市中訪問購物中心的人的信息。數(shù)據(jù)集由不同的列組成,,如性別,、客戶id、年齡,、年收入和支出分?jǐn)?shù),。它通常用于根據(jù)年齡、收入和興趣對客戶進(jìn)行細(xì)分,。

  • https://www./shwetabh123/mall-customers

IRIS數(shù)據(jù)集:IRIS數(shù)據(jù)集是一個簡單的初學(xué)者友好的數(shù)據(jù)集,,包含有關(guān)花瓣和萼片寬度的信息。數(shù)據(jù)分為三個類,,每個類有50行,。它通常用于分類和回歸建模。

  • https://archive.ics./ml/datasets/Iris

MNIST數(shù)據(jù)集:這是一個手寫數(shù)字的數(shù)據(jù)集,。它包含60000個訓(xùn)練圖像和10000個測試圖像,。這是一個完美的開始實現(xiàn)圖像分類的數(shù)據(jù)集,你可以從0到9對數(shù)字進(jìn)行分類,。

  • http://yann./exdb/mnist/

波士頓住房數(shù)據(jù)集:包含美國人口普查局收集的有關(guān)波士頓地區(qū)住房的信息,。它是從StatLib檔案中獲得的,在整個文獻(xiàn)中被廣泛用于對算法進(jìn)行基準(zhǔn)測試,。

  • https://www.cs./~delve/data/boston/bostonDetail.html

假新聞檢測數(shù)據(jù)集:它是一個CSV文件,,有7796行,有四列,。共有四列:新聞,、標(biāo)題、新聞文本,、結(jié)果。

  • https://www./c/fake-news/data

葡萄酒質(zhì)量數(shù)據(jù)集:該數(shù)據(jù)集包含有關(guān)葡萄酒的不同化學(xué)信息,。數(shù)據(jù)集適用于分類和回歸任務(wù),。

  • https://archive.ics./ml/datasets/wine quality

SOCR 數(shù)據(jù) - 高度和重量數(shù)據(jù)集:這是初學(xué)者的基本數(shù)據(jù)集。它只包含25000個18歲的不同人類的身高和體重,。這個數(shù)據(jù)集可以用來建立一個模型,,可以預(yù)測一個人的身高或體重。

  • http://wiki.stat./socr/index.php/SOCR_Data_Dinov_020108_HeightsWeights

Titanic數(shù)據(jù)集:該數(shù)據(jù)集包含諸如姓名,、年齡,、性別,、船上兄弟姐妹人數(shù)等信息,以及訓(xùn)練集中891名乘客和測試集中418名乘客的其他信息,。

  • https://web./class/archive/cs/cs109/cs109.1166/problem12.html

信用卡欺詐檢測數(shù)據(jù)集:該數(shù)據(jù)集包含由信用卡進(jìn)行的交易,;它們被標(biāo)記為欺詐性或真實性。這對于擁有交易系統(tǒng)的公司來說,,建立一個檢測欺詐活動的模型非常重要,。

  • https://www./mlg-ulb/creditcardfraud

計算機(jī)視覺數(shù)據(jù)集

xView:xView是最龐大的空中影像公開數(shù)據(jù)集之一。它包含來自世界各地復(fù)雜場景的圖像,,并使用邊界框進(jìn)行注釋,。

  • http:///#dataset

ImageNet:最大的計算機(jī)視覺圖像數(shù)據(jù)集。根據(jù)WordNet的說法,,它提供了一個可訪問的圖像數(shù)據(jù)庫,,它是按層次組織的。

  • http:///

Kinetics-700:Youtube視頻url的大規(guī)模數(shù)據(jù)集,。包括以人為中心的行動,。它包含超過70萬個視頻。

  • https:///research/open-source/open-source-datasets/kinetics/

谷歌的開放圖像:來自谷歌人工智能的一個巨大的數(shù)據(jù)集,,包含超過1000萬張圖片,。

  • https://research./2016/09/introducing-open-images-dataset.html

城市景觀數(shù)據(jù)集:這是一個用于計算機(jī)視覺項目的開源數(shù)據(jù)集。它包含在50個不同城市街道拍攝的視頻序列的高質(zhì)量像素級注釋,。該數(shù)據(jù)集可用于語義分割和訓(xùn)練深層神經(jīng)網(wǎng)絡(luò)以了解城市場景,。

  • https://www./

imdbwiki數(shù)據(jù)集:imdbwiki數(shù)據(jù)集是針對帶有性別和年齡標(biāo)簽的人臉圖像的最廣泛的開源數(shù)據(jù)集之一。圖片來自IMDB和Wikipedia,。它有五百萬多個標(biāo)簽圖像,。

  • https://data.vision.ee./cvl/rrothe/imdb-wiki/

顏色檢測數(shù)據(jù)集:該數(shù)據(jù)集包含一個CSV文件,其中有865個顏色名稱及其相應(yīng)的RGB(紅色,、綠色和藍(lán)色)值,。它還有顏色的十六進(jìn)制值。

  • https://github.com/codebrainz/color-names/blob/master/output/colors.csv

斯坦福狗數(shù)據(jù)集:它包含20580張圖片和120個不同品種的狗,。

  • http://vision./aditya86/ImageNetDogs/

情緒分析數(shù)據(jù)集

詞典編纂者情緒詞典:這個數(shù)據(jù)集是專門用于情緒分析的,。數(shù)據(jù)集包含3000多個負(fù)面詞匯和2000多個積極情緒詞。

  • http://www./

IMDB評論:一個有趣的數(shù)據(jù)集,,包含來自Kaggle的50000多個電影評論,。

  • https://www./lakshmi25npathi/imdb-dataset-of-50k-movie-reviews

斯坦福情緒樹庫:帶情緒注釋的標(biāo)準(zhǔn)情緒數(shù)據(jù)集。

  • http://nlp./sentiment/code.html

Twitter美國航空公司情緒:2015年2月美國航空公司Twitter數(shù)據(jù),,分為正面,、負(fù)面和中性推文

  • https://www./crowdflower/twitter-airline-sentiment

自然語言處理(NLP)數(shù)據(jù)集

HotspotQA數(shù)據(jù)集:問答數(shù)據(jù)集,具有自然的,、多跳的問題,,并對事實進(jìn)行嚴(yán)格監(jiān)督,,以實現(xiàn)更易于解釋的問答系統(tǒng)。

  • https://hotpotqa./

亞馬遜評論:來自亞馬遜的龐大數(shù)據(jù)集,,包含超過4500萬條亞馬遜評論,。

  • https://snap./data/web-Amazon.html

爛番茄評論:超過48萬評論檔案(新鮮或腐爛)。

  • https://drive.google.com/file/d/1w1TsJB-gmIkZ28d1j7sf1sqcPmHXw352/view

英語短信垃圾收集:一個由5574條英語短信垃圾信息組成的數(shù)據(jù)集,。

  • http://www.dt.fee./~tiago/smsspamcollection/

安然電子郵件數(shù)據(jù)集:它包含超過150個用戶的大約50萬封電子郵件,。

  • https://www.cs./~enron/

推薦系統(tǒng)數(shù)據(jù)集:它包含來自流行網(wǎng)站的各種數(shù)據(jù)集,如Goodreads書評,、亞馬遜產(chǎn)品評論,、調(diào)酒數(shù)據(jù)、社交媒體數(shù)據(jù)以及其他用于構(gòu)建推薦系統(tǒng)的數(shù)據(jù)集,。

  • https://cseweb./~jmcauley/datasets.html

UCI Spambase數(shù)據(jù)集:將電子郵件分類為垃圾郵件或非垃圾郵件是一項普遍而有用的任務(wù),。該數(shù)據(jù)集包含4601封電子郵件和57封有關(guān)電子郵件的元信息。你可以建立模型來過濾垃圾郵件,。

  • https://archive.ics./ml/datasets/Spambase

IMDB評論:大型電影評論數(shù)據(jù)集包括來自IMDB網(wǎng)站的電影評論,,其中超過25000條評論用于培訓(xùn),25000條評論用于測試集,。

  • http://ai./~amaas/data/sentiment/

自動駕駛(自動駕駛)數(shù)據(jù)集

Waymo開放數(shù)據(jù)集:這是來自Waymo員工的一個很棒的數(shù)據(jù)集資源,。包括大量的自動駕駛數(shù)據(jù)集,足以從零開始訓(xùn)練深度網(wǎng)絡(luò),。

  • https:///open/

Berkeley DeepDrive BDD100k:最大的自動駕駛汽車數(shù)據(jù)集之一,,包含紐約和加利福尼亞州超過2000小時的駕駛體驗。

  • http://bdd-data./

博世小交通燈數(shù)據(jù)集:用于深入學(xué)習(xí)的小交通燈數(shù)據(jù)集,。

  • https://hci.iwr./node/6132

LaRa紅綠燈識別:另一個紅綠燈數(shù)據(jù)集,。這個數(shù)據(jù)集是從巴黎收集的。

  • http://www.lara./benchmarks/trafficlightsrecognition

WPI數(shù)據(jù)集:用于交通燈,、行人和車道檢測的數(shù)據(jù)集,。

  • http://computing./dataset.html

Comma.ai:它包含諸如車速、加速度,、轉(zhuǎn)向角和GPS坐標(biāo)等詳細(xì)信息,。

  • https:///details/comma-dataset

MIT AGE Lab:年齡實驗室收集的1000多小時多傳感器駕駛數(shù)據(jù)集的樣本。

  • http:///automated-synchronization-of-driving-data-video-audio-telemetry-accelerometer/

LISA:智能與安全汽車實驗室,,加州大學(xué)圣地亞哥數(shù)據(jù)集:該數(shù)據(jù)集包括交通標(biāo)志,、車輛檢測、交通燈和軌跡模式,。

  • http://cvrr./LISA/datasets.html

城市景觀數(shù)據(jù)集:這是一個廣泛的數(shù)據(jù)集,,包含50個不同城市的街道場景,。

  • https://www./

臨床數(shù)據(jù)集

COVID-19數(shù)據(jù)集:艾倫人工智能研究所(Allen Institute of AI research)發(fā)布了一個龐大的研究數(shù)據(jù)集,,包含了45000多篇關(guān)于COVID-19的學(xué)術(shù)文章,。

  • https://www./cord19

MIC-III:由麻省理工學(xué)院計算生理學(xué)實驗室開發(fā)的公開可用數(shù)據(jù)集,包括與約40000名危重病人相關(guān)的未識別健康數(shù)據(jù),。它包括人口統(tǒng)計,、生命體征、實驗室檢查,、藥物治療等,。

  • https://mimic./

推薦系統(tǒng)的數(shù)據(jù)集

MovieLens:它包含來自MovieLens網(wǎng)站的分級數(shù)據(jù)集。

  • https:///datasets/movielens/

Jester:它包含了來自73421個用戶的100個笑話的410萬個連續(xù)評級(-10.00到 10.00),。它主要用于協(xié)同過濾,。

  • http://www.ieor./~goldberg/jester-data/

百萬歌曲數(shù)據(jù)集:它可以用于協(xié)作和基于內(nèi)容的過濾。

  • https://www./c/msdchallenge#description

尾注:

如果你知道其他高質(zhì)量,、免費的數(shù)據(jù)集,,你會推薦給人們用于機(jī)器學(xué)習(xí)、深度學(xué)習(xí),、數(shù)據(jù)科學(xué)等的研究和應(yīng)用,。請隨時在下面的評論中提出建議,或直接發(fā)送電子郵件至 [email protected],。

如果推薦理由是可靠的,,我們將對其進(jìn)行分析,并將其列入此列表,。另外,,請在評論部分告訴我們你使用這些數(shù)據(jù)集的經(jīng)驗。

參考和來源

[1] The 50 Best Free Datasets for Machine Learning, Lionbridge AI, https:///datasets/the-50-best-free-datasets-for-machine-learning/

[2] Google Cloud Public Datasets, Google, https://cloud.google.com/public-datasets/

[3] Machine Learning and AI Datasets, Carnegie Mellon University, https://guides.library./c.php?g=844845&p=6191907

[4] Big Data and AI: 30 Amazing and Free Public Data Sources, Forbes, https://www./sites/bernardmarr/2018/02/26/big-data-and-ai-30-amazing-and-free-public-data-sources-for-2018/#f3bdeb5f8aec

[5] Awesome Autonomous Vehicles Datasets, Github, https://github.com/takeitallsource/awesome-autonomous-vehicles#datasets

[6] Fueling the Gold Rush, The Greatest Public Datasets for AI, StartupGrind, https:///startup-grind/fueling-the-ai-gold-rush-7ae438505bc2

[7] Places to Find Free Datasets for Data Science Projects, Dataquest, https://www./blog/free-datasets-for-projects/

[8] The Best Datasets for Natural Language Processing, Gengo AI, https:///datasets/the-best-25-datasets-for-natural-language-processing/

[9] Awesome Public Datasets, Github, https://github.com/awesomedata/awesome-public-datasets#machinelearning

[10] StatLib Datasets Archive, Carnegie Mellon, http://lib.stat./datasets/

[11] Institutional Research and Analysis | Common Datasets | https://www./ira/CDS/index.html

[12] Datasets and Project Suggestions | Andrew W. Moore | http://www.cs./~awm/15781/project/data.html

[13] Datasets | Machine Learning Repository | MIT | https://ocw./courses/sloan-school-of-management/15-097-prediction-machine-learning-and-statistics-spring-2012/datasets/

[14] Datasets | MIT Lincoln Laboratory | https://www.ll./r-d/datasets

[15] Stanford Large Network Dataset Collection | Stanford University | https://snap./data/

[16] Stanford Common Dataset | Stanford University | https://snap./data/

[17] Datalab | UC Berkeley | http://www.lib./libraries/data-lab

[18] Exploring Datasets | Data Science at Berkeley | https://datascience./open-data-sets/

[19] DeepDrive | UC Berkeley | https://bdd-data./

[20] Machine Learning Datasets and Project Ideas — Work on real-time Data Science Projects | Data Flair | https://aining/blogs/machine-learning-datasets/

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,,所有內(nèi)容均由用戶發(fā)布,,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息,,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,,請點擊一鍵舉報,。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多