【佳学基因检测】通过外显子组测序鉴定常见癌症的易感基因:以家族性乳腺癌为例
肿瘤易感基因鉴定及肿瘤风险基因检测导读
乳腺癌易感性的遗传成分在很大程度上是由基因决定的。候选基因病例对照重测序已经确定了以罕见的蛋白质截短突变为特征的易感基因,这些突变具有中等的疾病风险。理论上,外显子组测序应该会产生更多此类基因。在这里,肿瘤风险基因列表编写组探讨了这种方法的可行性和设计考虑。肿瘤风险基因列表编写组对 50 名家族性乳腺癌患者进行了外显子组测序,应用频率和蛋白质功能过滤器来识别最有可能致病的变异。肿瘤风险基因列表编写组确定了通过筛选符进入t质量过滤器的 867,378 个基因突变,其中 1,296 个基因突变通过了频率和蛋白质截断过滤器。在已知基因中存在和不存在突变的个体中,经过验证的、罕见的蛋白质截短基因突变 (PTV) 的中位数为 10。两组中突变基因的功能候选者相似。如果没有基因解码技术先验知识,这些基因基因将不会被识别为乳腺癌易感基因。每个人都携带多种可能与疾病有关的罕见突变。
肿瘤易感基因鉴定及肿瘤风险基因检测关键词
乳腺癌易感性,外显子组测序,常见疾病遗传学,缺失遗传力外显子组测序基因检测与肿瘤风险判定
外显子组测序已被证明在鉴定导致罕见孟德尔疾病的基因方面非常成功。在这种情况下,潜在的遗传模型通常是已知的,并且突变谱是独特的,并且很容易与未受影响个体的模式区分开来(在 Ku 等人 中进行了评论)。事实证明,识别导致常见疾病的罕见遗传变异更具挑战性。潜在的遗传结构通常很复杂,而且通常知之甚少,外显率可能是适度的和/或不完整的,肿瘤风险基因列表编写组强有力地预测遗传变异对基因功能和疾病因果关系的影响的能力仍然有限。然而,许多常见疾病的遗传力缺失的一个组成部分可能存在于中/低外显率的罕见基因变异中,这些变异可能通过外显子组测序来处理。
乳腺癌是少数已发现此类变异的常见疾病之一。使用候选基因病例对照重测序,DNA 修复基因如CHEK2、PALB2、BRIP1和ATM已被证明是乳腺癌易感基因 。这些基因的特点是与中等疾病风险(RR 2-4)相关的多个非常罕见的失活(主要是截断)突变。与高外显率基因和低外显率变异体一起,这些中等外显率基因估计仅占乳腺癌家族风险的约 35% 。因此,很大一部分遗传对乳腺癌的贡献仍然无法解释。
鉴于少数候选基因研究已经在乳腺癌中产生了罕见的中等外显率易感基因,因此极有可能存在此类其他基因。这些基因不能通过连锁分析(风险不够高)或全基因组关联研究(突变不够常见)来识别,但应该可以通过适当的外显子组测序研究来检测。外显子组测序提供了应用不可知论而不是候选基因方法来发现它们的潜力,因此是一种极具吸引力的策略。然而,查询生成的大量数据集以提供给定基因与乳腺癌关联的有力证据是令人生畏的。探讨利用外显子组测序鉴定乳腺癌易感基因的可行性,肿瘤风险基因列表编写组对 50 名家族性乳腺癌患者的外显子组进行了测序。基于现有的范例,肿瘤风险基因列表编写组应用频率和蛋白质截断过滤器来优先考虑最有可能充当中等外显率乳腺癌易感性等位基因的基因突变。肿瘤风险基因列表编写组在四个个体中发现了已知乳腺癌易感基因的突变,证明了这种方法在已经建立的易感基因中检测突变的实用性。然后,肿瘤风险基因列表编写组将这些病例中的突变谱与已知基因中没有突变的 8 个个体进行了比较,以研究在发现新的疾病易感基因方面的效用。
患者和方法
补充材料中提供了样品和方法的全部详细信息。简而言之,肿瘤风险基因列表编写组对招募到家族性乳腺癌研究 (FBCS) 的 50 名个体进行了外显子组测序。这些家族的特征总结在表格1。所有个体都患有乳腺癌并且BRCA1和BRCA2突变均为阴性(通过 Sanger 测序和/或异源双链分析和 MLPA)。肿瘤风险基因列表编写组在 30 个个体中使用了市售的 38 Mb 外显子组阵列,在 20 个个体中使用了 47.9 Mb 定制的 GENCODE 外显子组阵列 。在 Illumina Genome Analyzer IIx 平台上进行测序。肿瘤风险基因列表编写组使用 NextGENe 软件(2.10 版)进行读取映射和变异分析,并应用调用质量、频率和蛋白质截断过滤器来优先考虑变异以供进一步考虑。肿瘤风险基因列表编写组选择了12个案例进行详细分析;四个已知乳腺癌易感基因发生突变,八个没有。肿瘤风险基因列表编写组通过 Sanger 测序对 12 个样本中的所有优先基因突变进行了验证分析。肿瘤风险基因列表编写组使用 ToppGene Suite 进行了基因列表富集分析。表格1:家族性乳腺癌外显子组研究先证者总结
乳腺癌病例的特征 | |
案例总数 | 50 |
双边案例 | 42 |
单方面案件 | 8 |
中位诊断年龄 | |
第一个乳腺癌 | 53 |
第二乳腺癌 | 60 |
中位家族史分数* (FHS) | 3 |
*患有双侧乳腺癌的个体和两个患有乳腺癌的一级亲属(或同等学历)的 FHS = 3
结果
外显子组测序
总体而言,每个样本平均产生 5350 万条读数,通常 99% 的读数映射到参考基因组。目标区域内 83%(范围 41%-88%)碱基的中位数覆盖率≥15/样本(在线补充表 2)。由于使用了两个不同的外显子组阵列并且测序进行了几个月,因此存在相当大的样本间差异。总体而言,肿瘤风险基因列表编写组在 NextGENe 默认设置下的 50 个外显子组中确定了 1,592,412 个基因突变。在肿瘤风险基因列表编写组排除所有读取覆盖率 <15 读取的变异、具有突基因突变的碱基替换:野生型读取百分比 <30%、内含子变异(剪接点处的变异除外)和同义变异后,仍有 353,948 个变异。为了进一步优先考虑最有可能导致疾病的变异,肿瘤风险基因列表编写组应用过滤器来检测导致蛋白质截断的序列变异,如前所述 。这确定了所有预测会导致蛋白质过早截断的基因突变:移码插入和缺失、无义突变和共有剪接残基处的突变。该脚本还删除了具有 5 个或更多不同截断基因突变的基因中的基因突变(因为这些很可能是假基因或耐受单倍体不足而不引起疾病)。该过滤器识别了 15,784 个截断基因突变。为了对后续变异进行优先排序,肿瘤风险基因列表编写组接下来应用了频率过滤器来识别 50 例家族性乳腺癌病例中的 1 例中存在的变异,这与已知乳腺癌易感基因的突变流行率一致 。在此过滤器之后,剩下 1,296 个基因突变。12 个外显子组的变异验证
在 1,296 个基因突变中,肿瘤风险基因列表编写组确定了已知易感基因中的四个突变,肿瘤风险基因列表编写组通过 Sanger 测序证实了这些突变;三个位于中等外显率基因CHEK2(n = 2)和ATM(n = 1)中。第四个是BRCA2中的剪接突变,它逃避了异源双链分析的检测,这被认为降低了对碱基取代的敏感性(表 2)。表 2:在已知乳腺癌易感基因中存在突变的家族性乳腺癌先证者中确认的杂合截断基因突变。
ID | 基因 | 截断突变 | 疾病相关性 |
1 | BRCA2 | c.7977-1G>C | 乳腺癌+卵巢癌(单等位基因),FA-D1(双等位基因) |
BRIX1 | c.793-2_793-1insA | ||
CASP5 | c.1135+1C>T | ||
CXCL6 | c.239_240insT | ||
FILIP1 | c.303delG | ||
HEATR7B | c.2214+5A>G | ||
IGSF22 | c.479-2T>A | ||
MLL4 | c.3059_3060dupG | ||
PTCHD3 | c.923_924dupG | ||
SLAMF6 | c.321G>C, p.Y107X | ||
SMARCD2 | c.574G>A,p.R136X | ||
SSX9 | c.110delC | ||
TNFAIP6 | c.90G>A,p.W30X | ||
2 | CHEK2 | c.1100delC | 乳腺癌(单等位基因) |
C2orf63 | c.1384+2A>T | ||
CFHR5 | c.486_487insA | 膜增生性肾小球肾炎,II型 | |
PPEF2 | c.1960G>A, p.R654X | ||
SERPINI2 | c.628_629delAC | ||
3 | CHEK2 | c.658T>A, p.K220X | 乳腺癌(单等位基因) |
ABCC11 | c.2813C>G, p.S938X | ||
DNMT3A | c.1025_1026insC | AML | |
EPS8L1 | c.1514_1515dupT | ||
FTMT | c.436A>T,p.K146X | ||
LOC64702 | c.303_304delAT | ||
MCAT | c.729+1G>T | ||
NOD2 | c.3019_3020dupC | 克罗恩病(单等位基因) | |
PRMT7 | c.1056-1G>T | ||
PRSS7 | c.2042_2043dupT | 肠激酶缺乏症(双等位基因) | |
VPS13B | c.6732+1G>A | 科恩综合征(双等位基因) | |
WRN | c.1230_1231insA | Werner 综合征(双等位基因) | |
ZNF451 | c.488G>G/A, p.W163X | ||
ZNF582 | c.136+1G>T | ||
4 | ATM | c.4396C>T, p.R1466X | 乳腺癌(单等位基因)、共济失调性远端血管扩张症(双等位基因) |
FETUB | c.127_128insCA | ||
KIAA1919 | c.614delT | ||
SLC26A10 | c.1483C>T, p.R495X | ||
TAOK1 | c.2544+5A>G | ||
ZIM2 | c.1513C>T, p.R505X |
肿瘤风险基因列表编写组对 292 个扩增子中的 12 个样本(4 个具有已知基因突变,8 个没有)中通过所有过滤器的所有 316 个基因突变进行了 Sanger 测序评估。241 个扩增子的测序成功。51 个扩增子未能通过自动化设计和测序过程。确认了 127 个基因突变(68 个碱基替换,59 个插入缺失),尽管对于三个基因突变,Sanger 测序显示缺失是框内的。这些从最终分析中删除,因为它们不会导致过早的蛋白质截断。在剩余的 114 个扩增子中未检测到变异,即这些是假阳性调用(23 个碱基替换,91 个插入缺失)。这种相对较高的误报率反映了肿瘤风险基因列表编写组故意降低插入和删除基因突变的调用质量过滤器设置;此类基因突变与疾病相关的先验可能性很高,但很难调用短读数据。在具有已知基因突变(中位数 = 10,范围 5-13)和没有(中位数 = 10,范围 7-15,p = 0.55)的样本中看到的截断基因突变数量之间没有差异。只有两个基因包含两个截断基因突变;CHEK2和USP45,其余 122 个截短基因突变出现在不同的基因中。
验证截断基因突变的基因列表富集分析
肿瘤风险基因列表编写组使用 ToppGene Suite ToppFun 软件 对所有 122 个基因进行了基因富集分析,其中肿瘤风险基因列表编写组鉴定了截断变异体,以及 85 个已知基因没有突变的病例中存在截断突变的 85 个基因的子集。在任一分析中,在 Bonferroni 校正下,在P值截止值为 0.05 时,没有基因本体术语被确定为显着。通过外显子组测序鉴定肿瘤风险基因的技术应用讨论
外显子组测序正在彻底改变肿瘤风险基因列表编写组识别易患疾病的罕见遗传变异的能力。然而,在罕见的孟德尔综合征背景之外对结果数据的询问和解释是非常具有挑战性的。在这里,肿瘤风险基因列表编写组在家族性乳腺癌中进行了外显子组测序,这是少数有令人信服的证据表明罕见的中/低外显率易感基因的疾病之一。肿瘤风险基因列表编写组使用了许多策略来增强分析能力。首先,肿瘤风险基因列表编写组使用了富含遗传易感因素的病例,特别是患有双侧乳腺癌和/或乳腺癌家族史的个体。如前所述,这显着提高了基因发现的能力。在疾病基因鉴定研究中经常考虑的另一种方法是优先考虑远亲受影响个体共享的基因突变以进行进一步评估。这种策略在识别罕见条件下的高渗透突变方面最有效。在常见的情况下,如乳腺癌,表型率通常很高,易感突变的外显率通常是中/低,这两者都会降低这种策略的效用。其次,肿瘤风险基因列表编写组使用了一种数据过滤策略,允许对罕见的蛋白质截断突变进行优先排序;这类突变具有疾病关联的强有力的先前证据,特别是在乳腺癌中。此外,对复杂疾病中的 NGS 数据过滤的基于模拟的分析支持对预测会导致蛋白质过早截断的基因突变进行优先排序,作为疾病基因鉴定的有用策略 。即使经过严格筛选,在 50 个病例中仍识别出 1,296 个 PTV。这包括已知乳腺癌易感基因中的四个突变,进一步证明了外显子组测序在识别疾病相关突变方面的实用性。
为了探索识别新型乳腺癌易感基因的可行性,肿瘤风险基因列表编写组首先在 50 例中的 12 例中进行了验证实验,以确定哪些 PTV 是真实的。肿瘤风险基因列表编写组总共确认了 12 个样本中的 124 个 PTV。在已知基因发生突变和不发生突变的情况下,PTV 的中位数相似,这表明仅识别罕见的 PTV 不足以证明因果关系,正如一些论文所暗示的那样 ;需要额外的证据。观察结果进一步支持了这一点,即已知基因突变的病例在可能与疾病相关的基因中也携带其他 PTV。例如,具有BRCA2突变的个体(案例 1)在凋亡调节因子 CASP5 中也携带PTV,以及转录调节因子SMARCD2和SSX9,所有这些似乎都与肿瘤发生有关(表 2)。同样,案例 3在与多种疾病有关的其他五个基因中携带CHEK2突变和 PTV,包括 DNA 修复基因WRN,它会导致双等位基因突变携带者中的 Werner 综合征 。这些额外的突变中的一些也可能导致乳腺癌,实际上预计个体将具有多种遗传变异,这些变异赋予疾病易感性,特别是中等外显率突变的携带者。然而,肿瘤风险基因列表编写组仅在 12 例病例中鉴定了 122 个不同基因中的 PTV,这表明,首先,大多数突变必须与癌症无关,其次,证明疾病关联所需的举证责任,即使对于罕见的截断突变,也是非常重要的。重大的。证明健康个体中罕见的 PTV 的研究进一步支持了这一点 。将需要将病例数据与通过类似方法获得的对照数据进行比较,并与覆盖率等指标相匹配,以可靠地区分耐受单倍体不足的基因与疾病易感基因。
在基因鉴定研究中,考虑基因功能已被证明是一种有用的优先策略。对于乳腺癌,DNA 修复基因的突变分析,特别是那些与高外显率乳腺癌易感基因BRCA1和BRCA2相互作用的基因,是鉴定乳腺癌易感基因如PALB2和BRIP1 的基础。然而,肿瘤风险基因列表编写组的计算机分析并未揭示在肿瘤风险基因列表编写组进行了全面验证的 12 例家族性乳腺癌病例中 PTV 基因中任何一组功能相关基因的富集。
只有两个基因包含两种不同的截断基因突变,其中之一是CHEK2,一种完全的乳腺癌易感基因。这表明在更大的实验中,具有多个不同截断突变的基因可以作为识别真正易感基因的有用过滤器。这种模式对于在 1000-3000 个样本的研究中鉴定该类别的其他基因至关重要 。外显子组测序研究所需的样本数量未知,并且会受到多种因素的影响,包括相关基因突变的普遍性和外显率、分析的样本类型(基因富集与未选择)以及多重测试的校正。但是,很可能需要对数百/数千个样本进行外显子分析。后续研究,类似于某些 GWAS 的分阶段方法,可能有助于复制外显子组的发现并提供基因易患疾病的明确证据。对数千个样本中的单个基因或一小组基因进行复制测序研究变得可行,并且可以针对例如外显子组研究中具有多种、不同、
总之,肿瘤风险基因列表编写组的实验提供了进一步的证据,表明外显子组分析可以识别已知疾病相关基因中的致病突变。这项技术在常见、复杂条件下用于基因发现的潜力很高。然而,这将需要精心设计的大规模实验,通过明智的样本选择和分析优先级排序方法,再加上复制分析,以提供疾病关联的有力证据。
Predisposition gene identification in common cancers by exome sequencing: insights from familial breast cancer.
Snape K, Ruark E, Tarpey P, Renwick A, Turnbull C, Seal S, Murray A, Hanks S, Douglas J, Stratton MR, Rahman N.
Breast Cancer Res Treat. 2012 Jul;134(1):429-33. doi: 10.1007/s10549-012-2057-x. Epub 2012 Apr 18.
PMID: 22527104
(责任编辑:佳学基因)