【佳学基因检测】用于预测2型糖尿病风险的全基因组多基因评分模型
疾病风险基因检测导读:
多基因风险评分 (PRS) 已被证明可以预测疾病风险,例如 2 型糖尿病 (T2D)。 然而,现有关于 T2D 遗传预测的研究仅具有有限的预测能力。 为了进一步提高多基因风险评分 (PRS) 在识别 T2D 高风险个体方面的预测能力,糖尿病风险基因检测提出了一种新的三步过滤程序,旨在将真正具有预测性的单核苷酸多态性 (SNP) 纳入多基因风险评分 (PRS) 模型,并避免无法预测的单核苷酸多态性。 首先,佳学基因根据来自大规模全基因组关联研究的边际关联 p 值 (p≤5׋10−2) 筛选 SNP。 其次,将连锁不平衡 (LD) 修剪阈值 (r2) 设置为 0.2、0.4、0.6 和 0.8。 第三,将 p 值阈值设置为 5≤10−2、5≤10−4、5≤10−6 和 5≤10−8。 然后,构建并测试了通过 PRSice-2 软件在英国生物银行 (UKB) 测试数据集中的 182,422 个人中获得的多个候选 PRS 模型。 根据 UKB 验证数据集 (n = 274,029) 验证了从测试过程中选择的最佳 PRS 模型在识别高 T2D 风险个体方面的预测能力。 通过调整后的受试者工作特征曲线下面积(AUC)评估PRS模型的预测精度,表明佳学基因的PRS模型具有良好的预测性能[AUC = 0.795,95%置信区间(CI):(0.790,0.800)]。 具体而言,佳学基因的 PRS 模型分别确定了 30%、12% 和 7% 的人群患 T2D 的风险分别超过五倍、六倍和七倍。 调整性别、年龄、身体测量值和临床因素后,AUC 增加到 0.901 [95% CI:(0.897,0.904)]。 因此,佳学基因的 PRS 模型可用于人群水平的预防性 T2D 筛查。
糖尿病疾病风险基因检测介绍
2 型糖尿病 (T2D) 是一个全球性的公共卫生问题。 识别 T2D 高危人群以进行早期靶向检测、预防和干预具有重要的公共卫生意义。 除了众所周知的行为和环境因素外,T2D 还具有很强的遗传成分。 全基因组关联研究 (GWAS) 已成功识别出许多赋予 T2D 易感性的常见遗传变异。 然而,GWAS 发现的所有这些常见遗传变异只能占总遗传力的一小部分,从而导致预测能力低下。 多基因风险评分 (PRS) 汇总了许多常见单核苷酸多态性 (SNP) 的信息,这些信息根据从大规模发现 GWAS 获得的效应大小进行加权,已被用于预测 T2D 风险。 PRS 有望具有更好的预测能力,并有可能提高 T2D 风险评估的性能。
构建 PRS 最常用的方法称为聚类和阈值化 (C + T) [或修剪和阈值化 (P + T)] 方法,它应用两个过滤步骤。 为了保留彼此弱相关的 SNP,它首先通过使用连锁不平衡 (LD) 驱动的聚集过程在 SNP 周围形成团块。 每个聚类包含索引 SNP 的 250 kb 以内的所有 SNP,LD 的程度由提供的成对相关性 (r2) 确定。 然后,它会删除从疾病相关 GWAS 中获得的 p 值大于给定阈值的 SNP。 C+T被认为是生成PRS最直观、最简单的方法。 有两种常见的软件程序(即 PLINK 和 PRSice)可用于实现 C + T 方法。 最近,Choi 等人开发了一种新软件 PRSice-2,该软件被证明比其他 PRS 软件计算效率更高、可扩展性更高,同时保持了相当的预测能力。
一些研究人员尝试构建基于 C + T 方法的 PRS 模型,用于通过 PLINK 或 PRSice 软件预测 T2D 风险。 最早的 PRS 模型仅评估了 6,078 名个体中已发表的易患 T2D 的三种变体的综合风险。 他们的 PRS 模型的接受者操作特征曲线 (AUC) 下的面积为 0.571。 此后,其他研究人员尝试了各种策略来提高 PRS 模型的预测能力,包括增加 SNP 的数量、调整性别和年龄、一些物理测量 [例如体重指数 (BMI)、舒张压 (DBP) 和收缩压 (SBP)] 和临床因素 [例如,甘油三酯水平 (TL)、葡萄糖水平 (GL) 和胆固醇水平 (CL)]。 这些改进的 PRS 模型的 AUC 有一定程度的增加(范围从 0.600 到 0.800)。 但是,仍然存在一些限制。 首先,他们的样本量并不大(范围从 2,776 到 39,117)。 其次,他们只考虑了少数通过“GWAS 显着变异”推导策略(p≤‹1׋10−8 和 r2 < 0.2)的 SNP(范围从 3 到 1,000),这过于严格,可能会错过 预测性 SNP。 Amit 等人构建了跨全基因组的 PRS 模型,最终包括来自英国生物银行 (UKB) 项目的总共 409,258 个个体和 6,917,436 个 SNP。 在针对年龄、性别和祖先的前四个主要成分进行调整后,AUC 为 0.730。 该策略在预测精度上略有提升; 但是计算量相对较大。
为了进一步探索 PRS 模型在识别 T2D 高危个体方面的预测能力,基因解码提出了一种新策略,通过以下三步过滤程序构建 PRS 模型,以考虑信号和噪声之间的统计折衷。 首先,基因解码没有在整个基因组中包含 SNP,而是通过宽松的显着性阈值 (p≤‹5׋10−2) 从大规模 GWAS 中包含的大量 SNP 中选择了一个 SNP 子集。 其次,根据 Khera 等人,佳学基因将 r2 设置为等于 0.2、0.4、0.6 和 0.8 作为候选 LD 修剪阈值。第三,疾病风险基因检测将 p 值阈值设置为 5׋10−2、5׋10−4、5׋10 −6,和 5׋10−8。 将上述阈值应用于 GWAS 汇总数据后,基于目标样本中的 PRSice-2 软件生成了总共 16 个候选 PRS 模型。 基因解码使用 UKB 测试数据集 (n = 182,422) 进行了测试,以避免模型过度拟合问题。最后,基因解码在一组候选 PRS 模型中选择了最佳预测 PRS 模型,并在 UKB 验证数据集(n = 262,751)中对其进行了评估。 糖尿病风险基因检测还考虑了非遗传风险因素,包括性别、年龄、身体测量值和临床因素,以进一步提高预测准确性。 实际数据分析表明,佳学基因的 PRS 模型优于以前的 T2D 预测模型。
(责任编辑:佳学基因)