尽管通过GWAS能够识别到一些与疾病存在关联的SNP位点,然而很多复杂疾病的遗传因素并不能被GWAS分析的结果完全解释,这一现象称之为遗传力缺失missing heritability。
造成遗传力缺失的原因有有很多种,其中有两种因素被认为是最可能和这一现象相关的
第一种用GxG表示, 第二种GxE表示。研究相互作用有两种方式,第一种是基于回归分析的方法,在回归方程中引入自变量间的相互作用;第二种方法是机器学习,主流的方法是多因子降维法
multifactor dimensionality reduction
简称MDR, 该方法中的因子为具有交互作用的变量,而维度指的是交互作用因子的组合,比如两个交互作用的位点对应的基因型的组合。示意如下
左侧代表两个基因A和B对应的基因型组合,以二倍体生物为例,每个基因有3种可能的基因型,对于两个基因而言,就有3X3共9种组合,最后一列代表个体所属的分组。
在这个例子中,因子就是基因,所以有两个因子,维度指的是两个基因的交互组合,有9种组合。首先针对每种基因型组合,进行关联分析,然后根据阈值将其划分为高危和低危两个值,这样够构建了一个右图所示的新变量,从而实现了降维的目的,用这个新的变量在进行关联分析即可。
上述示例是两个基因间的相互作用,3个基因或以上的相互作用分析也是同样的方式,通过降维的方法,弥补了逻辑回归在处理高阶交互作用时的局限性。该方法属于无参分析,在分析时不考虑遗传模型。在高血压,糖尿病,恶性肿瘤等多个多种复杂疾病中广泛应用。
MDR模型只能用于处理二分类的变量数据,对于连续性状,无法进行分析,所以科学家们在MDR的基础上进行了扩展,提出了GMDR模型。GMDR全称如下
generalized multifactor dimensionality reduction
称之为广义多因子降维法,在MDR的基础上结合了广义线性模型,比如逻辑回归,泊松回归,线性回归,cox回归等等,适用于二分类, 计数型,连续型,生存数据等多种数据,应用范围更加广泛。在后续文章中,会详解介绍对应的软件和用法。
·end·
生物信息入门
只差这一个
公众号