核心提示: 2月1日,遗传学主流期刊PLoS Genetics刊登了我校农业动物遗传育种与繁殖教育部重点实验室在全基因组关联分析算法研究方向取得的进展。文章题为“Iterative Usage of Fixed and Random Effect Models for Powerful and Efficient Genome-Wide Association Studies”。本研究是我校刘小磊博士等与美国康奈尔大学及美国华盛顿州立大学等校学者合作完成。开元·体育(中国)官方网站为第一完成单位。
南湖网讯(通讯员 刘小磊)2月1日,遗传学主流期刊PLoS Genetics刊登了我校农业动物遗传育种与繁殖教育部重点实验室在全基因组关联分析算法研究方向取得的进展。
在全基因组关联分析策略的帮助下,更多的人类疾病和重要农业经济性状的候选基因被发掘出来。但是全基因组关联分析一直饱受两个问题的困扰:大量的假阳性和令人惋惜的假阴性。假阳性是指关联分析结果中对检测标记p值的高估。通常这种高估是由群体结构和个体之间的亲缘关系造成的。将群体结构作为固定效应加入到一般线性模型中或者同时将群体结构作为固定效应,亲缘关系矩阵作为随机效应加在混合线性模型中可以很好的控制假阳性,但同时两种效应变量与待检测位点之间的混杂问题降低了模型对关联位点的检测效力,造成了一定程度的假阴性。因此,我校农业动物遗传育种与繁殖教育部重点实验室开发了一个新的算法来解决混合线性模型中存在的混杂问题,名字为 “Fixed and random model Circulating Probability Unification”,简称为FarmCPU。FarmCPU通过交替使用一个固定效应模型和一个随机效应模型来解决模型中的混杂问题。相比混合线性模型,FarmCPU显著的提高了统计效力和计算速度:(1)FarmCPU方法在人类,猪,小鼠,拟南芥,玉米等不同物种数据都有良好的表现;(2)模拟性状的研究结果显示FarmCPU相比当前的混合线性模型具有更高的统计效力,对一个由500个等效关联位点模拟的具有75%遗传力的性状,在10%错误率下,FarmCPU相比混合线性模型多检测到50个关联位点;(3)FarmCPU的计算时间与样本数和标记数成线性比例,一个包含五十万个体、五十万标记的数据可以在三天内完成。因此,研究人员可以用FarmCPU来处理以指数级增长的大数据,而且有更大的可能性成功的检测到感兴趣的候选基因。
该研究得到了国家自然科学基金和新世纪人才计划的资助。
全文链接:http://journals.plos.org/plosgenetics/article?id=10.1371/journal.pgen.1005767