OncodriveCLUST是一款驱动基因识别软件, 主要针对功能获得性突变,即gain-of-funciton mutations进行分析,这些突变通常聚集在蛋白质的特定区域,可能是肿瘤细胞生长优势和肿瘤细胞克隆进化过程中正向选择的信号,通过对这些突变进行分析,来预测潜在的驱动基因。
对应的文章发表在Bioinformatics上,链接如下
http://bioinformatics.oxfordjournals.org/content/29/18/2238.full
该软件以基因为单位进行分析,主要步骤分为5步,图示如下
第一步统计蛋白质上每个位置的功能获得性突变的频率分布,结果如图I所示,横坐标为蛋白质的位置,纵坐标表示每个位置上突变位点对应的频率;第二步筛选非随机的突变位置,利用二项分布累计函数筛选非随时的突变位置,在图II中,虚线表示阈值,虚线以上的位置为非随机的突变位置, 非随机即代表有潜在的生物学意义。
第三步对这些非随机位置进行聚类,每个cluster对应图III中的灰色区域,每个cluster下相邻的两个位置的距离小于5个氨基酸;第四步将原始的cluster位置进行扩展,相邻的区域内突变位置也被包括进来,对应图IV中的灰色区域,可以看到相比图III,灰色区域变宽了;第五步利用每个基因上的cluster对基因进行打分。
利用基因上的同义突变按照相同的规则计算对应的打分,作为背景,比较每个基因利用非同义突变计算出的打分是否与背景不同,从而筛选出不同于背景模型的驱动基因。
官网如下
http://bg.upf.edu/group/projects/oncodrive-clust.php
源代码保存在bitbucket上,链接如下
https://bitbucket.org/bbglab/oncodriveclust
该软件基于python3开发,安装过程如下
yum install -y epel-releaseyum install -y gcc
yum install -y gcc-c++
yum install -y python34
yum install -y python34-devel
yum install -y python34-pip
pip3 install oncodriveclust
官网提供了测试数据集,下载方式如下
curl -o oncodriveclust.tar.gz https://bitbucket.org/bbglab/oncodriveclust/get/0.3.tar.gztar xzvf oncodriveclust.tar.gz
基本用法如下
oncodriveclust \-m 3 \
--cgc \
data/CGC_phenotype.tsv \
examples/tcga.BRCA.nonsyn.txt \
examples/tcga.BRCA.syn.txt \
data/gene_transcripts.tsv
最少需要3个输入文件,非同义突变和同义突变对应的txt文件,内容示意如下
最重要的是第一列和最后一列,第一列表示基因,最后一列表示突变所在的蛋白质位置。gene_transcripts.tsv对应的内容如下
--cgc参数指定的是基因在CGC数据库中对应的注释信息,是可选的,内容示意如下
指定了这个文件,在输出结果的第二列,会包含基因的注释信息。运行成功后,默认输出文件为oncodriveclust-results.tsv,内容如下
根据pvalue和qvalue对结果进行筛选,挑选显著性的驱动基因。
·end·