【佳学基因检测】人类基因组检测中罕见等位基因所导致的疾病严重程度分析与评估
基因检测的目的是确定个人基因组内的遗传变异。基因变异是个人疾病和表型的主要决定因素。基因组和外显子组大规模测序项目的加快步伐极大地扩展了人类遗传变异的范围。评估这些变化的功能影响对于基于数据库比对的基因检测来说仍然是一项具有挑战性的任务。对遗传变异的综合分析,尤其是在蛋白质编码基因外显子中和附近发现的遗传变异,可能会阐明基因与疾病的关系,并提供对疾病机制和表型变异的深入了解。来自普通人群的测序人类基因组和外显子组数量的增加所抽出的基因解码需求将增强此类分析的统计能力。
不同类型的遗传变异发生在一系列尺度上,从染色体重排和拷贝数变异 (CNV) 等大型结构变异,到多达数百个核苷酸位置的插入和缺失 (indels),再到单碱基对 (单核苷酸)变异(SNV)。任何类型的遗传变异都可能通过多种机制导致人类疾病,包括对染色质组织、基因表达和调控、蛋白质功能和遗传不稳定性的影响。在普通人群中观察到的遗传变异频率与其适应度成本以及人类及其祖先的进化史有关。虽然常见变异,尤其是 SNV,首先被记录在案,但在普通人群的大规模测序项目中也发现了个体水平上更罕见的遗传变异(例如,次要等位基因频率 (MAF) 小于 0.0001 的变异)作为患有某些疾病的患者,例如癌症和智力障碍。尽管一些反复出现的变异已被确定为疾病的驱动因素,但仍不断发现大量罕见突变,其临床意义难以评估。全基因组关联研究可以查明遗传位点,主要由常见的 SNV 标记,具有统计学上显着的疾病或表型关联。罕见和从头突变与常见和罕见疾病的关联可以通过如今由基因组或外显子组测序促进的家族或三重研究来揭示。结合通路分析,对患者遗传变异的系统分析可以揭示疾病的生物学过程。然而,疾病基因优先排序和致病变异发现仍然很困难。
单个碱基对位置的同一性变化是最常见的遗传变异类型。在蛋白质编码区,非同义变异(错义突变)导致蛋白质产物中单个氨基酸发生变化。这些被称为单氨基酸变异 (SAV) 的错义突变的临床后果通常比同义突变(通常是良性的)和无义(终止密码子)突变(通常导致功能丧失)更难评估。有害的 SAV 可能影响蛋白质功能的各个方面,包括蛋白质折叠和稳定性、蛋白质-蛋白质相互作用、蛋白质定位和降解、翻译后修饰以及酶的活性。已经开发了许多计算方法来评估在由大约 20,000 个蛋白质编码基因编码的人类蛋白质组中发现的 SAV 的突变效应。
必需基因在功能丧失时会损害个体的生存能力。可以通过观察群体水平对功能丧失变异体的不耐受来识别此类基因。在遗传学术语中,必需基因往往表现出单倍体不足,其中两个基因等位基因之一的丢失是有害的。单倍体不足基因的遗传改变不仅是显性疾病的主要原因,而且在发育障碍中起着关键作用。一方面,单倍体不足的基因可以起到肿瘤抑制因子的作用。另一方面,必需基因在癌细胞中的表达水平往往高于正常细胞。因此,关于基因必要性的知识可以帮助确定遗传研究中有害变异的优先顺序,并有助于确定癌症治疗靶点的优先顺序。鉴于必需基因在人类疾病中的作用,人们已经付出了相当大的努力来开发单倍剂量不足预测的方法。
在致病基因鉴定基因解码研究中,遗传病基因解码基因检测开发了一种基于深度卷积神经网络的方法,用于根据对其序列、结构和功能特性的分析来预测 SAV 在人类蛋白质组中的临床影响。在一般人群中观察到的 SAV 的神经网络预测结果被用于计算突变严重性度量,该度量估计每个人类蛋白质编码基因对有害错义突变的耐受性。该指标与基因必要性和特定疾病类别(如癌症和自闭症)相关。 最后,佳学基因观察到疾病相关基因突变严重程度的二分法:突变不耐受的基因倾向于在发育和信号转导途径中发挥作用,而突变耐受的基因倾向于在新陈代谢中发挥作用。
在普通人群和患者的全基因组和外显子组测序中,不断发现各种形式的人类遗传变异。评估这些变化的功能影响仍然是一项具有挑战性的任务。在这项研究中,我们对单氨基酸变异 (SAV) 的序列、结构和功能特性进行了全面分析。我们进一步开发了一种基于深度神经网络的方法来预测 SAV 的功能影响。与区分致病性和良性 SAV 的现有程序相比,我们的方法是表现最好的方法之一。我们通过汇总在人类一般人群中发现的 SAV 的预测分数,为人类蛋白质编码基因设计了突变严重性度量。这种测量反映了基因对有害错义突变的耐受性,并可作为研究基因-疾病关联的有用工具。我们发现,与癌症、自闭症和病毒相互作用有关的基因比其他疾病的基因更可能无法耐受突变。具有强突变不耐受性的疾病相关基因倾向于在发育和信号转导通路中发挥作用。在突变严重程度范围的另一端,突变耐受基因通常编码在线粒体和代谢途径中起作用的蛋白质。
什么是参考基因组?
参考基因组(也称为对照基因组),是根据基因测序所产生的结果构建的一个初始核酸序列数据库,作为一种物种中基因序列比对的一个参照。由于它们是从许多个体的DNA测序组装而成的,参考基因组不是任何一个人的基因序列。相反,参考基因组是不同个体的单倍体基因序列的拼合体。例如,最近的人类参考基因组(GRCh38/hg38组装)来自于60多个基因组克隆文库的测序。病毒、细菌、真菌、植物和动物都有各自的考基因组。参考基因组通常用作新基因组构建的指南,使其可以比最初的人类基因组计划更快、更便宜地组装。佳学基因在参考基因组的基础上,进一步提出了标准人体基因组、标准族群基因组序列,从而使疾病性状的鉴定更为方便与快速。
人类基因组的参照序列的构建
最初的人类参考基因组来自于纽约布法罗市的13名匿名志愿者。招募者通过1997年3月23日星期日在《布法罗新闻》上刊登广告招募。前十名男性和十名女性志愿者被邀请与该项目的遗传咨询师预约并捐献血液,从中提取DNA。由于DNA样本的处理方式,约80%的参考基因组来自八个人,其中一个男性RP11占总数的66%。人类ABO血型系统在不同人类之间有所不同,但人类参考基因组仅包含O等位基因,尽管其他等位基因已进行注释。
随着DNA测序成本的降低和新的全基因组测序技术的出现,基因解码获得了越来越多的基因组。比如, 詹姆斯·沃森,他们的基因组使用大规模并行DNA测序进行组装。参考基因组(NCBI36/hg18组装)和沃森的基因组的比较显示了330万个单核苷酸多态性差异,而他的DNA中约1.4%无法与参考基因组匹配。对于已知存在大规模变异的区域,参考位点旁边组装了一组可替代位点。
人类参考基因组最新的组装版本是2017年发布的GRCh38,由基因组参考联合会发布。增加了几个补丁来更新它,最新的补丁是GRCh38.p14,于2022年3月发布。此版本在整个组装中只有349个间隙,与第一个版本相比有很大的改进,第一个版本大约有15万个间隙。这些间隙主要位于端粒、着丝粒和长的重复序列等区域,其中沿Y染色体长臂的最大间隙长度为约30 Mb,占Y染色体长度的约52%。多年来贡献参考基因组的基因组克隆文库数量的稳步增加,但是单个RP11仍占参考基因组的70%。对这个匿名男性的基因组分析表明,他的血统是非洲 - 欧洲混血。
2022年,端粒到端粒(T2T)联盟发布了第一个完全组装的参考基因组(T2T-CHM13版本),组装中没有任何间隙。端粒到端粒(T2T)联盟不仅是一项开放的、基于社区的努力,旨在生成第一个完整的人类基因组组装,而且还提供了一次研究着丝粒和着丝粒附近(靠近着丝粒)序列如何演化的机会。这一努力依靠谨慎的措施,以组装、优化和验证整个着丝粒和着丝粒附近的重复序列。通过深入表征这些最近组装的序列,联盟呈现了人类着丝粒和着丝粒附近区域的高分辨率、全基因组序列内容和结构图。另一方面,根据GRC网站,他们下一个人类基因组组装版本是GRCh39版本。
(责任编辑:admin)