GWAS称之为全基因组关联分析,传统意义上的GWAS针对单个SNP位点进行分析,来寻找与疾病或者性状相关联的SNP位点。在过去的几十年,依托高通量基因分型技术的快速发展,GWAS广泛应用于很多复杂疾病和性状的研究中,取得了不错的进展。
然而SNP水平的GWAS分析还存在着一些问题,通常情况下我们根据经验阈值,比如1X10-6,5X10-8来筛选统计学显著的SNP位点,这样的做法会过滤到很多p值不够小,即关联效应较弱的基因。对于复杂疾病而言,其易感基因往往是很多关联效用较弱的微效基因构成,这样的筛选方式会漏掉很多重要的信息。
为此,科学家们尝试在更高水平整合SNP GWAS分析的结果,以提高GWAS检验的效能,常见的有以下两种水平
第一个为基因水平,综合考虑某个基因上多个SNP位点的关联分析结果,来计算该基因与疾病的关联性;第二种为基因集水平,也可以称之为pathway水平,是基因水平的进阶,考虑了基因生物学功能的关联性,站在生物学功能的角度来研究突变与疾病的关联性。通过这两种level的关联分析,可以更加有效的检测与疾病存在关联的基因或功能,而且这两种分析是建立在SNP GWAS水平的基础上的,这样方便我们对已有的GWAS分析结果进行二次分析,深入挖掘新的信息。
实现这两种分析有很多的算法,比如线性回归,逻辑回归等等,最好的办法就是使用别人已经开发好的成熟软件。MAGMA这款软件就可以实现上述两种水平的关联分析,官网如下
https://ctg.cncr.nl/software/magma
对于基因水平的关联分析,采用了多元线性回归模型, 首先对某个基因内所有SNP位点的基因型矩阵进行PCA分析,挑选其中的几个主成分作为回归分析的自变量,通过线性回归来分析与疾病的关联性;对于pathway水平的关联分析,则采用了self-contained的方法,示意如下
首先通过一个宽松的阈值,比如0.05来筛选某个基因上的候选SNP位点,在候选SNP位点的基础上,进一步通过严格的阈值来划分类别,比如5X10-8, 划分为显著和非显著两类。然后根据Alleles或者genotypes, 选择对应的模型来计算关联性。
该软件由于采用了线性回归模型,还可以在已有自变量的基础上,添加协变量和自变量的交互作用,进一步提高了检验效能,在后面文章中会详细介绍其用法。
·end·
生物信息入门
只差这一个
公众号