全转录组关联分析中分类表型的网络回归统计推断方法研究

背景:当今组学时代,各种高通量组学技术蓬勃发展且日趋成熟。已经基本实现了将影响疾病发生发展的组学分子标记映射到生物分子网络中,从而形成整合系统生物学与网络医学的研究框架。从网络医学的角度来看,复杂疾病很少是由单个基因的异常引起的,而是由多个基因联合作用的结果,多个基因往往错综交织成一个交互网络,正是该网络控制着疾病的发生、发展和转归。识别与复杂疾病相关的基因网络可以更全面的解释疾病的内在网络遗传机制。然而,要探索基因网络和复杂疾病间的关联性,需要在同一样本中同时获取基因表达谱数据和疾病表型数据,目前有很多研究转录组与疾病关系的国际公开数据集,但其样本量往往不大,会产生较低的检验效能。以全转录组关联研究(transcriptomewide association study,TWAfever of intermediate durationS)为代表的,跨组学数据整合思路为我们提供了一个得到大样本基因表达数据的设计框架。然而,现有的大多数TWAS方法局限于单基因连续型性状,仅有的两种多基因TWAS方法(FOCUS和FOGS)也忽略了多基因间复杂的网络关系。此外,生物医学研究中分类表型是很常见的,若直接将其作为数量性状代入到已有的TWAS分析框架,势必会损失信息。为此,亟需发展针对分类表型的TWAS网络回归统计方法,更好的为解释复杂性状背后的基因网络生物学机制提供统计学支撑。目的:本研究将识别复杂疾病潜在生物网络标记问题与跨组学TWAS方法相结合,针对分类性状,秉承“结构拆分→数理整合”的建模理念,提出基于两阶段TWAS设计的网络回归比例优势逻辑模型,用于检测特定基因网络与分类表型之间的关联,识别疾病相关的显著基因和基因-基因相互作用,以期为探索复杂疾病内在网络机制提供统计学新思路和新方法。方法:在全转录组关联研究中针对分类表型建立网络回归比例优势逻辑模型(Proportional Odds LOgistic model for NEtwork regression,PoLoNet),以检测基因网络与分类表型之间的关联。PoLoNet依赖于两阶段TWAS框架。首先在eQTL研究中采用分布鲁棒的非参数狄利克雷过程回归模型(Dirichlet process regression model,DPR),得到基因型对基因表达的效应估计,进而将该效应估计代入GWAS研究,获得GWAS研究中基因表达预测值,并将其作为网络中的点。然后,PoLoNet使用点互信息(pointwise mutual information,PMI)来表征网络节点之间的多类型复杂关系,即网络中的边。为了突出PoLoNet检测节点之间复杂关系的优势,本研究将其与基于积矩项(product moment,PM)表示边的方法进行比较,积矩项在捕获线性关系时具有良好的性能。最后将所有节点和边纳入模型进行关联分析。本研究使用的数据均来自于公共数据库,其中,基因表达数据来GSK1349572研究购买自GEUVADIS研究,疾病网络结构数据来自KEGG(Kyoto Encyclopedia of Genes and Genomes,KEGG),GWAS 数据以及表型数据来自UK Biobank。1.统计模拟部分,使用KEGG中阿尔兹海默症通路的一个分支进行模拟研究(Alzheimer disease,AD,hsa05010-nt06412)。AD 分支网络包括 12 个点和 13 条边,根据GEUVADIS数据集,分别用DPR和贝叶斯稀疏线性混合模型(Bayesian Sparse Linear Mixed Model,BSLMM)得到基因表达预测值,并用PMI和积矩项表示节点间的多类型关系,用积矩项表示边的方法称为PPNT(Proportional odds logistic model using the Productmoment in Network TWAS,PPNT)。随后分别在不同结局分类类型、不同样本量、不同类别间样本比例(包括样本极度不平衡)、不同节点间相关模式、不同基因表达预测方法等模拟情形下,全面评估PoLoNet的一类错误率和检验效能。此外,为了模拟实验的完整性,还补充了随机挑选节点和边、与单基因TWAS方法的比较、网络中某些基因节点缺失等方面的模拟。2.实际数据分析部分,选择UK Biobank中血压(blood pressure)和双相情感障碍与重度抑郁(bipolar and major depression status)两种性状,并根据指南将数据类型分为二分类和有序多分类。在KEGG中选择与这两种性状相关的生物网络,包括与血压相关的22个网络和与双相情感障碍相关的9个网络,并将每个网络中包含的基因与GEUVADIS研究中eQTL数据相匹配,获取最终纳入模型的基因网络。进一步基于TWAS框架获得基因的预测表达值(网络节点),并分别计算PMI和PM表征网络边,最后,对疾病的两种分类结局进行分析,以说明PoLoNet在实际数据分析中发现疾病相关的显著基因和基因-基因相互作用方面的优势。考虑到TWAS的网络回归中节点和边往往高度相关,而常用的多重检验方法Bonferroni校正过于严格,所以本研究采用错误发现率(false discover rate,FDR)调整P值,并将FDR显著性阈值设置为0.05。结果:1.在二分类结局的各类模拟情形结果中,PoLoNet和PPNT在检测节点效应和边效应时都有稳定的一类错误控制率。正如预期的那样,当仅评估点效应时,随着样本量的增加和类别间样本比例逐渐趋于平衡,两种方法对点效应的检验效能都随之增加,但相差不大。当评估边效应时,随着样本量的增加和类别间样本比例逐渐趋于平衡,当节点之间的关系是非线性时,PoLoNet在检验效能上明显高于PPNT并且增长速度也快于PPNT,即使是在类别间样本比例极度不平衡的条件下也能体现明显优势。此外,节点间非线性关系的种类也会影响PoLoNet的检验效能,特定的非线性关系(例如:y=sin(x)2)会使PoLoNet有更高的统计效能。当节点之间的关系是线性时,PoLoNet的效能略低于PPNT,这是由于在这种情况下,积矩项是衡量线性关系的金标准。当用BSLMM预测基因表达时,也得到了相同的结论。当结局是有序多分类表型时,用DPR和BSLMM预测基因表达,PoLoNet和PPNT在所有模拟情形中同样能很好的控制一类错误率,并且检验效能的优势与二分类情形相似。2.与血压相关的22个基因网络实际数据分析结果中,PoLoNet和PPNT检测节点和边效应的结果与模拟一致。当把血压作为二分类变量时,PoLoNet成功识别了 39个基因、71条边,PPNT识别了 39个基因、66条边,其中37个基因基因重叠、63条边重叠;当把血压作为有序多分类变量时,PoLoNet识别了 63个基因、78条边,PPNT识别出58个基因、68条边,其中56个基因重叠、67条边重叠。对双相情感障碍与重度抑郁的9个基因网络实际数据分析中,在检验节点效应时,PoLoNet和PPNT在检验效能上同样具有类似的性能,但PoLoNet相比PPNT识别了更多的边,这与血压分析结果一致,从一定程度上说明了 PoLoNet在检验复杂疾病基因网络中显著基因和基因-基因相互作用方面的优势。结论:本研究将基因网络纳入到两阶段TWAS框架,针对二分类和有序多分类表型,发展了新型网络回归方法——PoLoNet,旨在检测特定网络与感兴趣的分类表型之间的关联。PoLoNet依赖于DPR来获得最优的基因表达预测权值,引入PMI来捕捉节点间的多类型相关性,更重要的是,PoLoNet可以同时识别网络中特定的节点效应和边效应。PoLoNet选择非参数核密度估计来估计PMI,以避免网络中两个基因Erdafitinib节点联合分布的错误指定的风险。大量模拟结果表明,PoLoNet能够有效地捕获不同基因节点之间的复杂关系,并且比其它方法具有更高的检验效能。此外,PoLoNet对TWAS中不同的基因表达预测模型以及不同类别表型的不同比例仍然具有稳健性。同时,PoLoNet具有很高的运算效率。