MDR多因子降维法作为逻辑回归的一种补充,有效克服了逻辑回归在处理高阶稀疏数据时的局限性,广泛应用于分析基因-基因,基因-环境之间的相互作用,但是该方法存在一些局限性
为了克服上述两个问题,增加MDR方法的适用性,科学家们在MDR核心思想的基础上进行了扩展,引入了score statistic的概念,提出了GMDR的方法,原理示意如下
MDR算法的核心是统计不同因子组合对应的频数,对应第三步中的单元格内的频数,然后用该频数的比值进行降维,并进行分类准确性和预测错误率的分析,从而挑选佳的模型。
GMDR仍然沿用了相同的算法框架,只不过将频数改为了打分,关于其打分系统的详细介绍参见下面这篇文章
https://www.cell.com/action/showPdf?pii=S0002-9297(07)61030-161030-1)
然后根据该打分值来进行后续的降维,分类准确性,预测错误率等分析。在文章中也比较了MDR和GMDR的分析结果,结果如下
可以看到,MDR和GMDR结果的一致性非常高,而同样的因子组合,GMDR的预测准确率和交叉验证的一致率都比MDR方法好。GMDR支持广义线性回归等多种模型,图示如下
可以用于处理各种类型的数据,软件下载的网址如下
http://www.ssg.uab.edu/gmdr/
和MDR软件的用法完全一致,导入文件即可。至少要求输入SNP位点的分型结果文件,内容如下
如果需要进行协变量的校正,也可以输入对应的文件,内容如下
每一行对应的都是一个样本,分型结果和协变量两个文件中每一行对应同一个样本,最后一列为因变量y。导入文件后,点击Run Analysis即可开始分析,分析结果如下所示
和MDR输出结果类似,也是有两个部分,第一部分显示了不同数量的因子相互作用中最显著的结果, Training Bal.Acc表示训练集中的准确率,Testing Bal.Acc表示测试集中的准确率,数字越大,范围为0-1,数值越大,准确率越高,CV Consistency表示交叉验证的一致率,8/10表示10次交叉验证中8次该结果都显著。Sign Test(p)表示p值;第二部分则显示了对应的score值等详细信息。
该软件也可以通过命令行运行,更多用法请参考官方文档。
·end·
生物信息入门
只差这一个
公众号