本文来自微信公众号“优达学城Udacity”
作者 小灰
在这个用数据说话的时代能够打动人的往往是用数据说话的理性分析无论是对于混迹职场的小年轻还是需要数据进行分析和研究的同学能够找到合适的数据源都是非常重要的。特别是想要对一个新的领域进行研究和探索拥有这个领域的数据那都是有十分重要的意义的。
在这里给大家推荐一些能够用上数据获取方式有了这些资源不仅可以在数据收集的效率上能够得到很大的提升同时也可以学习更多思维方式。
0
公开的数据库
国家数据
http://data.stats.gov.cn/index.htm
数据来源于中国国家统计局包含了我国经济民生等多个方面的数据并且在月度、季度、年度都有覆盖较为全面和权威对于社会科学的研究不要太有帮助。最关键的是网站简洁美观还有专门的可视化读物。
CEIC
http://www.ceicdata.com/zh-hans
最完整的一套超过128个国家的经济数据能够精确查找GDP, CPI, 进口出口外资直接投资零售销售以及国际利率等深度数据。其中的“中国经济数据库”收编了300,000多条时间序列数据数据内容涵盖宏观经济数据、行业经济数据和地区经济数据。
wind万得
http://www.wind.com.cn/
万得被誉为中国的Bloomberg在金融业有着全面的数据覆盖金融数据的类目更新非常快据说很受国内的商业分析者和投资人的亲睐。
搜数网
http://www.soshoo.com/
已加载到搜数网站的统计资料达到7,874本,涵盖1,761,009张统计表格和364,580,479个统计数据汇集了中国资讯行自92年以来收集的所有统计和调查数据并提供多样化的搜索功能。
中国统计信息网
http://www.tjcn.org/
国家统计局的官方网站汇集了海量的全国各级政府各年度的国民经济和社会发展统计信息建立了以统计公报为主统计年鉴、阶段发展数据、统计分析、经济新闻、主要统计指标排行等。
亚马逊aws
http://aws.amazon.com/cn/datasets/?nc1h_ls
来自亚马逊的跨科学云数据平台包含化学、生物、经济等多个领域的数据集。
figshare
https://figshare.com/
研究成果共享平台在这里你会发现来自世界的大牛们的研究成果分享同时get其中的研究数据内容很有启发性网站颇具设计感。
github
https://github.com/caesar0301/awesome-public-datasets
如果觉得前面的数据源还不够github上的大神已经为大家整理好了一个非常全面的数据获取渠道包含各个细分领域的数据库资源自然科学和社会科学的覆盖都很全面简直是做研究和数据分析的利器。
随便上几个图满满的都是资源啊
1
数据交易平台
钱塘大数据交易中心
http://www.qtjiaoyi.com/
钱塘大数据交易中心是为工业制造行业提供数据交易,预处理交易算法交易及大数据分析平台开发技术服务数据定价数据金融交易监督等综合服务的机构中心并基于数据金融资产化方向提供撮合买卖典当融资抵押贷款等多种合作模式为工业制造行业各经济主体盘活数据存量资源提供全面的解决方案。
优易数据
http://www.youedata.com/
由国家信息中心发起拥有国家级信息资源的数据平台国内领先的数据交易平台。平台有B2B、B2C两种交易模式包含政务、社会、社交、教育、消费、交通、能源、金融、健康等多个领域的数据资源。
数据堂
http://www.datatang.com/
专注于互联网综合数据交易提供数据交易、处理和数据API服务包含语音识别、医疗健康、交通地理、电子商务、社交网络、图像识别等方面的数据。
2
网络指数
百度指数
http://index.baidu.com/
大家都很熟悉的指数查询平台可以根据指数的变化查看某个主题在各个时间段受关注的情况进行趋势分析、舆情预测有很好的指导作用。除了关注趋势之外还有需求分析、人群画像等精准分析的工具对于市场调研来说具有很好的参考意义。同样的另外两个搜索引擎搜狗、360也有类似的产品都可以作为参考。
阿里指数
https://alizs.taobao.com/
国内权威的商品交易分析工具可以按地域、按行业查看商品搜索和交易数据基于淘宝、天猫和1688平台的交易数据基本能够看出国内商品交易的概况对于趋势分析、行业观察意义不小。
艾瑞咨询
http://www.iresearch.com.cn/
艾瑞作为老牌的互联网研究机构在数据的沉淀和数据分析上都有得天独厚的优势在互联网的趋势和行业发展数据分析上面比较权威艾瑞的互联网分析报告可以说是互联网研究的必读刊物。
友盟指数
http://www.umeng.com/
友盟在移动互联网应用数据统计和分析具有较为全面的统计和分析对于研究移动端产品、做市场调研、用户行为分析很有帮助。除了友盟指数友盟的互联网报告同样是了解互联网趋势的优秀读物。
爱奇艺指数
http://index.iqiyi.com/
爱奇艺指数是专门针对视频的播放行为、趋势的分析平台对于互联网视频的播放有着全面的统计和分析涉及到播放趋势、播放设备、用户画像、地域分布、等多个方面。由于爱奇艺庞大的用户基数该指数基本可以说明实际情况。
猫眼专业版
http://piaofang.maoyan.com/
电影票房统计分析平台猫眼专业版有实时的票房统计影片的排盘情况、上座率和影院数据对于当前电影的分析是必不可少的。
3
网络采集器
网络采集器是通过软件的形式实现简单快捷地采集网络上分散的内容具有很好的内容收集作用而且不需要技术成本被很多用户作为初级的采集工具。
火车采集器
http://www.locoy.com/
一款专业的互联网数据抓取、处理、分析挖掘软件可以灵活迅速地抓取网页上散乱分布的数据信息并通过一系列的分析处理准确挖掘出所需数据最常用的就是采集某些网站的文字、图片、数据等在线资源。接口比较齐全支持的扩展比较好用懂代码的话可以使用PHP或C#开发任意功能的扩展。
八爪鱼
http://www.bazhuayu.com/
简单实用的采集器功能齐全操作简单不用写规则。特有的云采集关机也可以在云服务器上运行采集任务。
集搜客
http://www.gooseeker.com/
一款简单易用的网页信息抓取软件,能够抓取网页文字、图表、超链接等多种网页元素提供好用的网页抓取软件、数据挖掘攻略、行业资讯和前沿科技等。
4
网络爬虫
作为极客们最喜欢的数据收集方式爬虫高度的自由性、自主性都使其成为数据挖掘的必备技能当然精通python等语言是必要前提。
利用爬虫可以做很多有意思的事情当然也可以获取一些从其它渠道获取不到的数据资源更重要的是帮你打开寻找和搜集数据的思路。
利用爬虫爬取网络图片
爬取的图像素材
你看到某个网站上的图片恰好是你需要的但是量大单个下载太麻烦那么利用爬虫你可以快速地进行抓取并可以根据标签、特征、颜色等信息进行分类储存。从此不缺设计素材不缺美女图片连斗图都多了几分自信。
利用爬虫爬取高质量资源
爬取的音乐资源
我们总是想快速地去搜集高质量的网络资源但是人工查找比对实在太麻烦利用爬虫你就可以轻松解决。比如爬取知乎点赞最多的文章列表爬取网易云音乐评论最多的音乐爬取豆瓣网高评分的电影或图书……总之你可以从此拒绝平庸。
利用爬虫获取舆情数据
爬取的某招聘网站职位信息
比如你可以批量爬取社交平台的数据资源可以爬取网站的交易数据爬取招聘网站的职位信息等可以用于个性化的分析研究。
总之爬虫是非常强大的甚至有人说天下没有不能爬的网站因而爬取数据也成为了很多极客的乐趣。开发出高效的爬虫工具可以帮助我们节省很多时间可以完全按照自己的需求来订制想想这个世界就太美好。
5
小工具
Web Plot Digitizer
http://arohatgi.info/WebPlotDigitizer/app/
比如我们在查看期刊文献的时候看到一张成型的图表但其本身数据是缺失的你想获得这个图表的相关数据怎么办有了这个小工具就非常easy了。直接上传我们需要获得数据的图表如下
然后我们就会获得如下的数据反馈感觉运筹帷幄有木有对于一些不需要十分精确的分析研究足够使用。
当然并不推荐用这个作为量化分析的依赖对于定性的分析做ppt级的数据统计分析就足够了。
you-get
https://you-get.org/
这是一个程序员基于python 3开发的项目已经在github上面开源支持64个网站包括优酷、土豆、爱奇艺、b站、酷狗音乐、虾米……总之你能想到的网站都有! 还有一个黑科技的地方即使是名单上没有的网站当你输入链接程序也会猜测你想要下载什么然后帮你下载。
下载优酷视频
批量下载图片
当然you-get要在python3环境下进行安装用pip安装好后在终端输入“you get你想下载资源的链接”就可以等着收藏资源了。
6
数据导航
收集数据是一种能力学习收集数据也是一种能力数据的来源是没有穷尽的转换一种思维你就可以获得不一样的数据下面推荐几个可以用到的大数据导航从这里面你可能会发现一些你自己想要的东西。每个人喜欢的收集数据的渠道不尽相同只有尽量多地去见识和实践才会发现更多的适合自己的数据获取方式。
199IT大数据导航
http://hao.199it.com/
数据分析网导航
http://www.afenxi.com/hao
大数据人导航
http://hao.bigdata.ren/
在互联网高度发达的今天数据资源异常的丰富和庞大如何高效地获取数据成为一种重要的能力毕竟获取数据是一切用数据说话的前提。当然往往只需要熟练掌握一两种方法便足够大多数人应付大多数场景和需求所以选择合适的数据获取渠道还需要亲自探究。
【文章原创作者:滨海网站制作 http://www.1234xp.com/binhai.html 复制请保留原URL】