【惊喜！】佳学基因发布人体基因序列变异描述标准！

遗传病、罕见病基因检测导读：随着基因解码逐渐取代基因检测技术，基因信息在人类生活中的应用越来越广泛。基因序列的变化不仅可以用来发现遗传病的基因原因，也可以用来描述一切人类参与的生命活动。佳学基因在建立《人类基因序列变化与人体疾病表征》数据库的过程中，发现推广、规范人类基因序列变异描述的重要性。结合人类基因组变异协会（HGVS：Human Genome Variation Society）的规则，提出系统性的基因变异序列描述规则，供大家参考使用。建议和评论请发EMAIL至jiaxue@jiyinjiema.com。

发布和推广人类基因序列变异的命名规则可以规范人们对于人类基因序列描述的方法。基因解码发现，人类基因序列的变异是人与人之间的体型、身高、胖瘦、性格、智商、情商、疾病、天赋产生差异的基础。尽管佳学基因利用已经产生的基因解码结果推出了天赋基因解码、疾病风险基因解码、用药指导基因解码及治病基因鉴定基因解码，但是人类基因变异序列的解码需要学术界、医疗界、药物研究领域、人工智能专家的广泛参与，并经个性化教育、个性化健康管理、精准营养、个性化护肤、精准医学等第四次产业革命的多种形式深入到人类生活的每一个角落，从而实现基因信息变革人类生活的历史使命。为推进这一历史性事件的发生，佳学基因发布、分享人类基因序列变异描述标准，降低多行业参与基因解码技术研发的门槛，促进基因解码的应用开发，并让更多的人更快的收益于基因解码所带来的生活质量的改变。

人体基因序列变异描述标准化对基因变异进行统一和规范化命名可以减少基因描述中所发生的混淆现象，以更精准地描述基因所发生的特定突变，同时该命名方式又应当容易被基因变异研究者所接受。佳学基因发布、分享人体基因序列变异描述标准，使基因解码的研究结果更容易传播、理解。让基因检测报告更标准。

通用命名规则

基因表达是指储存于DNA顺序中的遗传信息经过转录和翻译，转变成具有生物活性的蛋白质分子。生物体内的各种功能蛋白质和酶都是由相应的结构基因编码的。

外显子和内含子是真核生物结构基因中的编码序列，前者在mRNA加工过程中会被保存下来，并可在蛋白质生物合成过程中表达为特定的蛋白质，后者在mRNA加工过程中被剪切掉，不能表达蛋白质；剪接位点是内含子和外显子连接边界的序列和接头位点；密码子是RNA分子中每相邻的3个一组的核苷酸，在蛋白质合成时可代表一种特定氨基酸；转录起始位点是RNA转录开始的位点；翻译起始位点是翻译成蛋白质开始的位点；编码区是指能够转录为RNA的部分，包括外显子和内含子，只是内含子不能表达为蛋白质，在RNA加工过程中被剪切掉了；非翻译区是成熟mRNA分子5′或3′端不被翻译的部分。

描述基因变异时，研究者应遵循3条规则：（1）首先描述DNA水平的变异，然后再描述RNA水平和蛋白质水平的变异；（2）应描述清楚所发生的变异是经过检测确切发生的变异还是理论上推导出的变异；（3）应当指出所参考的原始基因序列。

1.序列变异描述与参考序列有关，在参考序列中，应在出版物/数据库提交中提及来自主序列数据库（Genbank，EMBL，DDJB，SWISS-PROT）的登录号（如M18533）

2.为了避免在序列改变的描述中混淆，在描述之前用表示所用参考序列类型的字母：

“g.”表示基因组序列（例如，g.76A> T）

“c.”对于cDNA序列（例如，c.76A> T）

“m.”线粒体序列（例如，m.76A> T）

“r.”的RNA序列（例如，r.76a> u）

“p.”对于蛋白质序列（例如，p.K76A)

3.为了区分不同的水平（DNA，RNA或蛋白质），描述是独特的：

在DNA水平，用大写字母，从受影响的领先个核苷酸数字开始（例如，c.76A> T）

在RNA水平，用小写字母，受影响的领先个核苷酸数字开始（如r.76a> u）

在蛋白质水平，用大写字母，从受到影响的领先个氨基酸字母开始（单字母代码）（例如，p.T26P）

4.一系列受影响的残基用“_” - 字符（下划线）表示，将受影响的领先个和最后一个残基分开（例如，76–78delACT）

5.对于单核苷酸（或氨基酸）延伸或串联重复的缺失或重复，最多3'拷贝被任意指定为已更改（例如，ACTTTGTGCC-ACTTTGCC，被描述为7_8delTG

6.一个等位基因中的两个序列变异列在括号之间，用“;”字符分隔（例如，[76A> C; 83G> C]）

7.不同等位基因（例如隐性疾病）的序列变化列在括号之间，用“+”字符分隔（例如，[76A> C] + [87delG]

一、DNA水平（ATG起始密码子中A为+1，5’区为-1，没有0碱基）

非编码区：ATG翻译起始密码子的核苷酸5'区为-1，翻译终止密码子的核苷酸3'区为* 1

内含子核苷酸：

内含子的起始：前一个外显子的最后一个核苷酸的数量，一个加号，以及内含子的位置，例如77 + 1G，77 + 2T（当外显子数已知时，符号可以也可称为IVS1 + 1G，IVS1 + 2T）

内含子的末端：下一个外显子的领先个核苷酸的数目，一个减号，以及内含子上游的位置，例如78-2A，78-1G（当外显子数已知时，符号可以也可称为IVS1-2A，IVS1-2G）

核苷酸变化的描述

1.取代用“>”表示

76A> C表示在核苷酸76处A变为C。

88 + 1G> T（或者IVS2 + 1G> T）表示在内含子2的核苷酸+1处的G取代T。相对于cDNA位于核苷酸88和89之间。

89-2A> C（或IVS2-2A> C）表示内含子2的核苷酸-2处的A至C取代，相对于cDNA定位在核苷酸88和89之间。

2.缺失用“del”表示

76_78del（或76_78delACT）表示从核苷酸76到78的ACT缺失。

82_83del（或者82_83delTG）表示ACTTTGTGCC（A是核苷酸76）到ACTTTGCC的序列中的TG缺失。

IVS2_IVS5del（或88+?-923-? 或EX3_5del）表示外显子缺失从内含子2中的未知位置开始（在cDNA核苷酸88之后）并且在内含子5中的未知位置结束（在cDNA核苷酸923之前）。

3.重复用“Dup”表示

77-79dup（或77_79dupCTG）表示核苷酸77至79是重复的。

单核苷酸区段（或短串联重复序列）中的重复插入被优先描述为重复，例如，ACTTTGTGCC至ACTTTGTGTGCC的TG串联重复序列中的TG插入（A是nt 76）被描述为82_83dupTG（现为83_84insTG）

4.插入由“ins”表示

注意：作为分隔符，有时使用“^” - 字符，但不建议这样做（例如，83 ^ 84insTG）

76_77insT表示在核苷酸76和77之间插入T 。

83_84dupTG表示ACTTTGTGCC（A是核苷酸76）的TG-串联重复序列中的TG插入到ACTTTGTGTGCC（参见“重复”）。

5.短序列重复的可变性，例如在ACTGTGTGCC（A是1991年）中，被命名为1993（TG）3-6，核苷酸1993含有领先个TG-二核苷酸，在人群中重复3至6次。

6.插入/缺失（indel）被描述为缺失，然后在核苷酸受影响后插入。

112_117delinsTG（或112_117delAGGTCAinsTG或112_117> TG）表示TG取代核苷酸112至117（AGGTCA）

7.倒位由“inv”表示

203_506inv（或203_506inv304）表示位置203至506的304个核苷酸已被倒置。

8.易位

9.不同等位基因的变化（例如隐性疾病）被描述为“[改变等位基因1] + [改变等位基因2]”

[76A> C] + [76A> C]表示核苷酸76处的纯合子A至C变化。

[76A> C] + [?]表示一个等位基因中核苷酸76的A至C变化和另一个等位基因的未知变化。

10.一个等位基因的两个变异被描述为“[领先次变化+第二次变化]”

[76A> C; 83G> C]表示核苷酸76处的A至C变化以及同一等位基因中核苷酸83处的G至C变化。

二、RNA水平

RNA水平的序列变化基本上被描述为DNA水平的变化，具有以下修饰/添加。

“r.”用于表示在RNA水平上描述了变化。

1.核苷酸由碱基指定（小写）; a（腺嘌呤），c（胞嘧啶），g（鸟嘌呤）和u（尿嘧啶）

78u> a表示在核苷酸78处U变为A。

2.当一个变化影响RNA处理，产生两个或多个转录本时，这些在方括号之间描述，用“，”字符分隔。

[r.76a> c，r.76a> c; r.73_88del]表示核苷酸变化c.76A> C导致两个RNA分子的出现，一个仅携带这种变异，另一个含有核苷酸73-88的缺失（剪接供体位点移位到外显子）

[r.=，r.88_89ins88 + 1_88 + 10; r.88 + 2t> c]表示内含子突变c.88 + 2T> C导致两个RNA分子的出现，一个正常（r.=），一个含有插入内含子核苷酸88 + 1到88 + 10，核苷酸变化88 + 2t> c。

[r.88g>a; r.88_89ins88+1_88+10]表示核苷酸变化c.88G> A导致内含子核苷酸88 + 1至88 + 10的插入（剪接供体位点向内含位置的移位）

三、蛋白水平

蛋白质水平的序列变化基本上描述为DNA水平的序列变化，具有以下修饰/添加。

使用单字母氨基酸代码，“X”表示翻译终止密码子。

氨基酸编号;翻译起始蛋氨酸编号为+1。

氨基酸变化的描述

1.替换

错义变化W26C表示氨基酸26（色氨酸，W）变为半胱氨酸（C）

注意：多态变体有时被描述为36L / I，但这并未被推荐

无义变化W26X表示氨基酸26（色氨酸，W）变为终止密码子（X）

翻译起始甲硫氨酸（M1）的突变主要被描述为取代，例如M1V。这是不正确的。不产生蛋白质或翻译起始位点向上或向下移动。除非有实验证据，否则最好将蛋白质水平的影响报告为“p.？”（未知）。当实验数据显示没有制造蛋白质时，描述“p.0”可能是最合适的

2.缺失

K29del（C是氨基酸28）表示氨基酸赖氨酸29（K）缺失从序列CKMGHQQQCC至CMGHQQQCC

C28_M30del表示从半胱氨酸28到甲硫氨酸30的三个氨基酸的缺失

序列CKMGHQQQCC中的Q35del（C是氨基酸28）表示对CKMGHQQCC的谷氨酰胺35（Q）缺失。

如果缺失在缺失连接处产生新的氨基酸，则该变化被描述为插入/缺失，例如C28_M30delinsW（见下文）

3.重复

序列CKMGHQQQCC中的G31_Q33dup（C是氨基酸28）表示氨基酸甘氨酸31（G）到谷氨酰胺33（Q）CKMGHQGHQQQCC的重复

单个氨基酸序列（或短串联重复序列）中的重复插入被描述为重复，例如，CKMGHQHQCC（C是氨基酸28）的HQ-串联重复序列中的HQ插入至CKMGHQHQHQCC是H34_Q35dup（现在Q35_C36insHQ）

4.插入

注意：作为分隔符，有时会使用“^” - 字符，但不建议这样做（例如，Q83 ^ C84 insQ）

K29_M29insQSK表示序列QSK插入氨基酸赖氨酸29（K）和甲硫氨酸30（M）之间，将CKMGHQQQCC（C为氨基酸28）改变为CKQSKMGHQQQCC

序列中的Q35dup CKMGHQQQCC（C是氨基酸28）表示谷氨酰胺（Q）重复插入 CKMGHQQQQCC（参见“重复”）

如果插入在插入连接处产生新的氨基酸，则该变化被描述为插入/缺失，例如C28 delin sWV（见下文）

5.短序列重复的可变性，例如在CKMGHQQQCC（C是氨基酸28）中，被指定为33（Q）3-6，其中氨基酸谷氨酰胺33（Q，领先个重复的氨基酸）被发现在人群中重复3-6次

6.插入/缺失（indel）被描述为缺失，然后在核苷酸受影响后插入

C28_K29delinsW表示影响半胱氨酸28和赖氨酸29的密码子的3bp缺失，将它们替换为色氨酸

密码子C28delinsWV表示在半胱氨酸28的密码子中插入3bp，是使密码子产生色氨酸（W）和缬氨酸（V）

7.移框突变

R97fsX121（替代R97Xfs）表示精氨酸97作为领先个受影响的氨基酸移码突变，新的阅读框开放23个氨基酸。

四：基因检测报告看得懂啦！

规范和严谨的基因检测报告需要遵循上述标准，学习本文后，基因检测报告看得懂啦。

(责任编辑：佳学基因)

【惊喜！】佳学基因发布人体基因序列变异描述标准，基因检测报告看得懂啦！

通用命名规则

四：基因检测报告看得懂啦！