【佳学基因检测】用于预测2型糖尿病风险的全基因组多基因评分模型

疾病风险基因检测导读：

多基因风险评分 (PRS) 已被证明可以预测疾病风险，例如 2 型糖尿病 (T2D)。然而，现有关于 T2D 遗传预测的研究仅具有有限的预测能力。为了进一步提高多基因风险评分 (PRS) 在识别 T2D 高风险个体方面的预测能力，糖尿病风险基因检测提出了一种新的三步过滤程序，旨在将真正具有预测性的单核苷酸多态性 (SNP) 纳入多基因风险评分 (PRS) 模型，并避免无法预测的单核苷酸多态性。首先，佳学基因根据来自大规模全基因组关联研究的边际关联 p 值 (p≤5×‹10−2) 筛选 SNP。其次，将连锁不平衡 (LD) 修剪阈值 (r2) 设置为 0.2、0.4、0.6 和 0.8。第三，将 p 值阈值设置为 5≤10−2、5≤10−4、5≤10−6 和 5≤10−8。然后，构建并测试了通过 PRSice-2 软件在英国生物银行 (UKB) 测试数据集中的 182,422 个人中获得的多个候选 PRS 模型。根据 UKB 验证数据集 (n = 274,029) 验证了从测试过程中选择的最佳 PRS 模型在识别高 T2D 风险个体方面的预测能力。通过调整后的受试者工作特征曲线下面积（AUC）评估PRS模型的预测精度，表明佳学基因的PRS模型具有良好的预测性能[AUC = 0.795，95%置信区间（CI）：（0.790，0.800）]。具体而言，佳学基因的 PRS 模型分别确定了 30%、12% 和 7% 的人群患 T2D 的风险分别超过五倍、六倍和七倍。调整性别、年龄、身体测量值和临床因素后，AUC 增加到 0.901 [95% CI：（0.897，0.904）]。因此，佳学基因的 PRS 模型可用于人群水平的预防性 T2D 筛查。

糖尿病疾病风险基因检测介绍

2 型糖尿病 (T2D) 是一个全球性的公共卫生问题。识别 T2D 高危人群以进行早期靶向检测、预防和干预具有重要的公共卫生意义。除了众所周知的行为和环境因素外，T2D 还具有很强的遗传成分。全基因组关联研究 (GWAS) 已成功识别出许多赋予 T2D 易感性的常见遗传变异。然而，GWAS 发现的所有这些常见遗传变异只能占总遗传力的一小部分，从而导致预测能力低下。多基因风险评分 (PRS) 汇总了许多常见单核苷酸多态性 (SNP) 的信息，这些信息根据从大规模发现 GWAS 获得的效应大小进行加权，已被用于预测 T2D 风险。 PRS 有望具有更好的预测能力，并有可能提高 T2D 风险评估的性能。

构建 PRS 最常用的方法称为聚类和阈值化 (C + T) [或修剪和阈值化 (P + T)] 方法，它应用两个过滤步骤。为了保留彼此弱相关的 SNP，它首先通过使用连锁不平衡 (LD) 驱动的聚集过程在 SNP 周围形成团块。每个聚类包含索引 SNP 的 250 kb 以内的所有 SNP，LD 的程度由提供的成对相关性 (r2) 确定。然后，它会删除从疾病相关 GWAS 中获得的 p 值大于给定阈值的 SNP。 C+T被认为是生成PRS最直观、最简单的方法。有两种常见的软件程序（即 PLINK 和 PRSice）可用于实现 C + T 方法。最近，Choi 等人开发了一种新软件 PRSice-2，该软件被证明比其他 PRS 软件计算效率更高、可扩展性更高，同时保持了相当的预测能力。

一些研究人员尝试构建基于 C + T 方法的 PRS 模型，用于通过 PLINK 或 PRSice 软件预测 T2D 风险。最早的 PRS 模型仅评估了 6,078 名个体中已发表的易患 T2D 的三种变体的综合风险。他们的 PRS 模型的接受者操作特征曲线 (AUC) 下的面积为 0.571。此后，其他研究人员尝试了各种策略来提高 PRS 模型的预测能力，包括增加 SNP 的数量、调整性别和年龄、一些物理测量 [例如体重指数 (BMI)、舒张压 (DBP) 和收缩压 (SBP)] 和临床因素 [例如，甘油三酯水平 (TL)、葡萄糖水平 (GL) 和胆固醇水平 (CL)]。这些改进的 PRS 模型的 AUC 有一定程度的增加（范围从 0.600 到 0.800）。但是，仍然存在一些限制。首先，他们的样本量并不大（范围从 2,776 到 39,117）。其次，他们只考虑了少数通过“GWAS 显着变异”推导策略（p≤‹1×‹10−8 和 r2 < 0.2）的 SNP（范围从 3 到 1,000），这过于严格，可能会错过预测性 SNP。 Amit 等人构建了跨全基因组的 PRS 模型，最终包括来自英国生物银行 (UKB) 项目的总共 409,258 个个体和 6,917,436 个 SNP。在针对年龄、性别和祖先的前四个主要成分进行调整后，AUC 为 0.730。该策略在预测精度上略有提升；但是计算量相对较大。

为了进一步探索 PRS 模型在识别 T2D 高危个体方面的预测能力，基因解码提出了一种新策略，通过以下三步过滤程序构建 PRS 模型，以考虑信号和噪声之间的统计折衷。首先，基因解码没有在整个基因组中包含 SNP，而是通过宽松的显着性阈值 (p≤‹5×‹10−2) 从大规模 GWAS 中包含的大量 SNP 中选择了一个 SNP 子集。其次，根据 Khera 等人，佳学基因将 r2 设置为等于 0.2、0.4、0.6 和 0.8 作为候选 LD 修剪阈值。第三，疾病风险基因检测将 p 值阈值设置为 5×‹10−2、5×‹10−4、5×‹10 −6，和 5×‹10−8。将上述阈值应用于 GWAS 汇总数据后，基于目标样本中的 PRSice-2 软件生成了总共 16 个候选 PRS 模型。基因解码使用 UKB 测试数据集 (n = 182,422) 进行了测试，以避免模型过度拟合问题。最后，基因解码在一组候选 PRS 模型中选择了最佳预测 PRS 模型，并在 UKB 验证数据集（n = 262,751）中对其进行了评估。糖尿病风险基因检测还考虑了非遗传风险因素，包括性别、年龄、身体测量值和临床因素，以进一步提高预测准确性。实际数据分析表明，佳学基因的 PRS 模型优于以前的 T2D 预测模型。

(责任编辑：admin)