对于数据分析而言,实战操作是最佳的学习方式。在自己没有测序数据的情况下,可以从公共数据库中寻找我们需要的数据集。最为广泛使用的公共数据库包括GEO, TCGA, Encode等等,这
对于数据分析而言,实战操作是最佳的学习方式。在自己没有测序数据的情况下,可以从公共数据库中寻找我们需要的数据集。最为广泛使用的公共数据库包括GEO, TCGA, Encode等等,这些数据库称得上包罗万象,囊括了各种组学的数据。在没有实际数据集的情况下,都可以上这些数据库来找一找。
除了这些包罗万象的数据库之外,还有一些数据库,针对某一类型的数据集进行收集整理,其提供的数据集更加具有针对性。本文我们的主角就是一个专注表观修饰的数据库,Cistrome 。
该数据库的网址如下
http://cistrome.org/db/#/
对应的文章发表在Nucleic Acids Research杂志上,链接如下
https://academic.oup.com/nar/article/47/D1/D729/5193328
收录了以下3种类型的测序数据
该数据库最大的亮点在于提供了一个标准化的分析结果模板, 整个分析结果包含了下图所示的3大内容
- Visualization, 提供了对应的物种,转录因子名称,文献等注释信息,以及常规的QC指标和基因组浏览器的可视化结果
- Data, 提供了bed,bigwig格式的peak calling结果,以及BETA软件预测的peak对应的靶基因
- Toolkit, 提功了3种最经典的分析结果,对于感兴趣的基因,预测调控该基因的转录因子,对于感兴趣的染色体区间,查找结合到该区间的转录因子,对于输入的peak区间,查找结合区域与输入区间高度重叠的转录因子
通过首页的检索功能,可以快速检索感兴趣的数据集,以ATAC为例,检索条件示意如下
检索完成后,在下方的表格中会列出对应的结果,示意如下
点击每一行的结果,会在页面最下方显示其详细信息,包括了两个部分的结果,第一部分是visualization的结果,示意如下
第二部分是 Data的结果,示意如下
除了检索之外,该数据库还有很多的功能,更多的用法请参考官方文档。
·end·
一个只分享干货的
生信公众号