这个回答将持续更新尽量包含尽可能多的数据集来源。
首先我要强推一个Github项目名字是awesome-public-datasets项目地址如下。awesomedata/awesome-public-datasetsgithub.com
已经有40.3k的☆并且还是不断的更新中。
awesome-public-datasets是一个高质量的以主题为中心的公共数据源列表从博客一些回答和用户回复中获取整理而成。绝大多数的数据集是免费的当然不排除极个别是付费的。其中包含了32个主题例如农业生物学气候数据挑战赛教育能源经济图像处理博物馆医学信息时间序列等。
拿我的研究方向时间序列来说包含了一下7个子数据集基本可以满足学习的要求。
因为介绍的这个库是全英文的所以还是需要一定的英语水平这里我建议大家可以尝试下下面的免费课程对于英语整体能力提升很有效。
除此之外还有一些常用的数据集公开网站
1 UCI机器学习数据库
大名鼎鼎的数据集网站现在包含了557个数据集其中绝大多数可以直接下载并且很多的论文中benchmark也来源于此。
2 多类别分类数据集
这是我常用的一个里面包含了很多了多分类的数据集有时序的和非时序的。
3 Kaggle数据集
即著名的kaggle大赛里面有非常多的经典数据集并且有很多在此基础上的成熟算法和代码可以借鉴是小白的强推数据集。
4 百度数据开放平台
包含了很多类别的数据
5 亚马逊数据集
同样包含了非常多种类的数据集
6 谷歌数据集搜索引擎
简单的搜索来寻找自己需要的数据集
7 微软数据集
8 中国统计信息网
部分数据免费
9 国家统计局
完全免费
10 世界银行
11 Youtube 8M视频数据集
持续更新中
12 维基百科
很多人忽略了维基百科里面有很多的数据集还包含生成器某些含有数据集的私人网站等等一个宝藏网站。
13 Data world
Data.world是一个用户驱动的数据收集站点可以在其中搜索复制分析和下载数据集。 也可以将自己的数据上传到data.world并与他人协作。data.world | The Cloud-Native Data Catalogdata.world
14 北京大学 PKUVIS 微博可视分析工具
这是一个可以分析微博内容的一个很棒的工具可以针对某条微博信息进行全面分析并生成可定制的多种可视化图。
有些情况需要自己生成一些数据这种情况可以找针对性的数据生成器
比如concept drift datasets
可以谷歌这几个词通常都会有data generation framework这个部分通过这个可以定制自己人造数据集
还有情况是论文中的数据很多作者并不公开但如果要和其比较在数据集上的性能通常还是需要原数据集这时候email索要的话通常还是会收到回复。