在对SNV位点进行注释时,往往需要综合采用多个数据库的注释结果,为了方便肿瘤研究人员,dbNSFP对人类基因组上的突变位点进行了丰富全面的功能注释,其目的是提供一站式服务,通过这一个数据库就可以完成突变位点的功能注释,文章链接如下
http://onlinelibrary.wiley.com/doi/10.1002/humu.22932/abstract
该数据库网址如下
https://sites.google.com/site/jpopgen/dbNSFP
最新版本为v4.0, 收录了来自外显子测序的84,013,490个SNV位点,包含以下3种类型
该数据库中采用了多种软件和算法对SNV的功能和保守性进行打分,用到的软件示意如下
为了对这些不同得分系统的效能有一个更加清晰的认识,基于模拟数据进一步分析了这些不同指标的预测效果,模拟数据集I的ROC曲线如下
可以看到VEST3的效果最佳,MetaSVM和MetaLR这两个打分系统的AUC也在0.9以上,模拟测试集II的ROC曲线如下
最好的两个为MetaLR和MetaSVM, 再进一步对这些打分系统进行聚类,结果示意如下
聚为一类的打分系统其作用较为接近,可以看到这些打分系统分为了4大类别,如果觉得指标太多无从下手,可以从功能相近的指标中挑出一个作为代表,可以大大减少筛选时的复杂度。
除了功能和保守性打分外,该数据库也提供了频率和基因注释,比如常见的1000G, ESP, Exac, gnomAD等频率数据库和HCNC, GO, kegg pathway等基因注释数据库中的信息。
官网只提供了下载功能,如果需要查看该数据库中的数据,可以通过以下网站
https://myvariant.info
如果想利用该数据库对自己的SNV进行注释,可以采用官方推荐的WGSA软件,官网如下
https://sites.google.com/site/jpopgen/wgsa
需要注意的是,该数据库需要科学上网才可以得到。
·end·