当前位置 : 主页 > 编程语言 > java >

跟着ENCODE学习ATAC文库的质控标准

来源:互联网 收集:自由互联 发布时间:2022-06-23
​ ENCODE称之为基因组百科全书,该数据库包含了基因组学,转录组学,表观遗传学等许多组学的数据。在提供公共数据的同时,还开源了许多组学数据分析的pipeline,当然也包含了ATA


ENCODE称之为基因组百科全书,该数据库包含了基因组学,转录组学,表观遗传学等许多组学的数据。在提供公共数据的同时,还开源了许多组学数据分析的pipeline,当然也包含了ATAC数据分析的pipeline, 对应的网址如下

​​https://www.encodeproject.org/atac-seq/​​

目前最新版的pipeline网址如下

​​https://github.com/ENCODE-DCC/atac-seq-pipeline​​

ENCODE不仅给出了pipeline, 同时还根据处理ATAC数据的经验,给出了质控的标准,非常值得参考。质控标准有以下几点

  • 实验设计时需要考虑生物学重复,每组至少2个生物学重复,对于实现材料有限,无法达到2个生物学重复的样本,也要设计至少2个技术重复
  • 每个样本需要至少25M的有效序列,这里的有效序列指的是去除PCR重复,去除线粒体之后的序列,单位是fragments。对于单端测序而言,需要至少25M的reads, 对于双端测序而言,需要至少50M的reads
  • mapping比例,即比对上参考基因组的reads所占比例大于95%, 当然80%以上也可以接受
  • 文库复杂度, 和chip_seq类似,采用PBC1, PBC2, NRF共3个指标来描述文库复杂度,对应的标准如下

    跟着ENCODE学习ATAC文库的质控标准_数据
    关于文库复杂度的解释可以参考这篇文章
    ​​chip_seq质量评估之文库复杂度​​
  • 每个样本的peak数量要在15万以上,10万以上是最低标准;使用IDR评估生物学重复样本的一致性,经过IDR处理后的peak为IDR peak,同时也会给出一个IDR score值, IDR peak的数量要在7万以上,5万是最低标准,IDR score的值应小于2
  • peak结果中要存在NFR和mononucleosome peak区域,NFR peak指的是长度小于1个核小体单位长度的peak区域,1个核小体的DNA长度为146bp, NFR peak长度小于146b;ppmononucleosome peak指的是只跨越了1个核小体的peak, 长度在1个到2个核小体单位长度之间,即146到292bp之间,考虑两个核小
  • peak区域的reads所占比例,即FRIrScore值应该大于0.3, 最低标准是0.2
  • TSS Enrichment soce,称之为TSS富集分数,就是计算所有TSS位点测序深度的平均值,这个数值的大小与所用的参考基因组有关系,不同参考基因组对应的阈值标准如下
  • 跟着ENCODE学习ATAC文库的质控标准_数据分析_02

    高质量的文库是确保分析结果准确的前提和保障,参考以上几个指标,有助于我们判断ATAC文库的质量。


    ·end·


    跟着ENCODE学习ATAC文库的质控标准_数据_03

    一个只分享干货的

    生信众号





    上一篇:懒人的年终总结
    下一篇:没有了
    网友评论