【佳学基因检测】如何贮存用于基因序列比对的全部基因组序列?
人类全基因组参照序列的组成成分
Analysis set 参照基因组分析数据集
分析集参考基因组的设计参照了与读取序列进行比对地需求,它与出于浏览目的基因序列可能不同。
Contig 连续序列单元
连续序列单元,有时候被称为重叠群,是指没“物理”间隙的连续序列(“N”碱基的延伸在这种情况下不被认为是间隙),例如染色体。 也可以是还没有完全组装的支架、细菌基因组中的质粒等。
Alternate contigs, alternate scaffolds
或者是alternate loci: 替代连续序列单元、替代支架、替代位点
替代重叠群、替代支架或替代基因座是指在一种表示方案无法完全准确表示的不同的单倍型。
Primary Assembly 主要组装体
主要组装体由 (i) 组装的染色体、(ii) 未定位(已知属于特定染色体但顺序或方向未知)的基因组序列和 (iii) 未归属染色体的序列组成。 它是一个非冗余的单倍体基因组序列。
PAR
PAR 是指假常染色体区域。 哺乳动物 X 和 Y 染色体中的 PAR 区域允许性染色体之间进行重组。 因为 PAR 序列一起创建了一个二倍体或伪常染色体序列区域,所以 X 和 Y 染色体序列在基因组的组装中是相同的。 分析集基因组通过遮蔽Y染色体上的两个PAR区域,从而使基因测序数据仅仅被定位到X染色体的PAR区域。
不同的主要组装体会改变基因座的坐标,并且这种改变很少发布。 对于人类基因组来说,Hg19 和 GRCh38/hg38是两个不同的组装体。比较来自不同组装体的数据需要采用提升工具来调整基因组坐标,从而实现基因组的匹配,但有时并不完美。
PATCHES修复补丁
补丁是针对特定的组装体的的特定区域的修改。 它们旨在在不破坏染色体坐标的情况下提示基因组的组装或者是添加信息。 有两种类型的补丁,修改补丁和新补定,它们是指不同类型的序列变化。
修复补丁表示将在下一个主要装配版本中替换主要装组装体的序列。 在解释数据时,修复补丁应优先于染色体。
新补丁代表替代基因座。 在解释数据时,将新补丁视为种群序列变体。
主要参照基因组组装体的组成成分示意图
GRCh38/hg38 是佳学基因自 2013 年 12 月开始的人类基因组的序列组体。在这一基因组装体中,使用替代或 ALT 重叠群来表示常见的复杂变异,包括 HLA 位点。 替代重叠群也出现在过去的组件中,但没有达到在 GRCh38 中看到的程度。 在改进GRCh38的准确性和完全性的过程中,使用了 自其他基因组测序和分析的结果。除了添加许多替代重叠群外,GRCh38 还纠正了数以千计的序列错误,这些错误会导致产生错误的SNP 和插入缺失检测结果。GRCh38版本它还包括合成着丝粒序列和对非核基因组序列的更新。
GRCh38版本的主要内容介绍
主要组装体:
hg38 的组装染色体是染色体 1–22 (chr1–chr22)、X (chrX)、Y (chrY) 和线粒体 (chrM)。
未定位的序列
是指在组装GRCh38初组组装体时,已明确来自于特定的染色体,但在特定染色体的坐标和方向尝未明确的基因序列,在参照基因组数据库中采用_random 后缀来表示。
未放置的序列
对于基因序列来源于哪一条染色体还没有明确的碱基序列,由 chrU_ 前缀来标识。
GRCh38 ALT 重叠群
GRCh38 ALT 重叠群可通过其 _alt 后缀识别; 它们的总长度为 109Mb,跨越了 60Mb 的主要组装序列。 替代重叠群序列可以是新颖的、也可以是高度变化的,也会与相应的主要组装序列几乎相同。 与主要组装高度不同的序列仅有几百万个碱基。 大多数 ALT 重叠群的子序列与主要组装体非常相似。 这意味着如果盲目地将测序序列定位到 GRCh38+ALT 序列上,那么我们将获得许多测序质理为零的多定位结果。 许多基因检测机构在对测序序列进行分析时,会采用 GATK 工具中的ZeroMappingQuality 过滤器,因此会错过与此类位点对应的基因突变序列。
佳学基因解码介绍了如何以检测替代重叠群的方式对测序序列进行比对分析,并讨论使用参考基因组替代重叠群进行比对对基因测序结果的影响。
伪常染色体区域
X 和 Y 上的伪常染色体区域 (PAR) 序列共同创建了一个二倍体区域,因此它们在基因组组装体中是相同的。 在基因组的分析集版本中,对两个 Y 染色体 PAR 区域采用了硬掩蔽技术,以便允许将基因测序结果仅仅定位到X 染色体 PAR 区域。 PAR1和PAR2在GRCh38上的chrY位置是chrY:10,000-2,781,479和chrY:56,887,902-57,217,415。 在下面采用 IGV 查看基因组序列的图中,可以看到在分析集基因组中,chrY PAR1区域部分被硬遮蔽。
参考集中的序列是大小写字母的混合。 小写字母是采用RepeatMasker 和 Tandem Repeats Finder发现的重复序列,采用了软遮蔽形式。
同源着丝粒和基因组重复阵列
5、14、19、21 和 22 号染色体上具有同源着丝粒和基因组重复阵列的一些其他区域在分析用基因组组装中也采用了硬掩蔽方式被遮蔽。
EBV 和诱饵
GRCh38 分析集还包括一个重叠群,用于获取对应于 Epstein-Barr 病毒序列的测序序列,以及诱饵重叠群。 EBV 重叠群可以帮助纠正因 EBV 转化使人血淋巴细胞永生化而产生的假序。 它还可以用来识别人体基因组中的内源性 EBV 序列,因为在自然情况下,EBV感染人类约 90% 的 B 细胞。
补丁序列
补丁序列是指在不破坏染色体坐标的情况下,用提高基因组组装的质量,并向组装本添加信息。 如:GRCh38.p7 表示 GRCh38 的第七个补丁版本。
染色体 | 全长(bp) | 基因库数据获取代码 | 参照基因组获取代码 |
---|---|---|---|
1 | 248,956,422 | CM000663.2 | NC_000001.11 |
2 | 242,193,529 | CM000664.2 | NC_000002.12 |
3 | 198,295,559 | CM000665.2 | NC_000003.12 |
4 | 190,214,555 | CM000666.2 | NC_000004.12 |
5 | 181,538,259 | CM000667.2 | NC_000005.10 |
6 | 170,805,979 | CM000668.2 | NC_000006.12 |
7 | 159,345,973 | CM000669.2 | NC_000007.14 |
8 | 145,138,636 | CM000670.2 | NC_000008.11 |
9 | 138,394,717 | CM000671.2 | NC_000009.12 |
10 | 133,797,422 | CM000672.2 | NC_000010.11 |
11 | 135,086,622 | CM000673.2 | NC_000011.10 |
12 | 133,275,309 | CM000674.2 | NC_000012.12 |
13 | 114,364,328 | CM000675.2 | NC_000013.11 |
14 | 107,043,718 | CM000676.2 | NC_000014.9 |
15 | 101,991,189 | CM000677.2 | NC_000015.10 |
16 | 90,338,345 | CM000678.2 | NC_000016.10 |
17 | 83,257,441 | CM000679.2 | NC_000017.11 |
18 | 80,373,285 | CM000680.2 | NC_000018.10 |
19 | 58,617,616 | CM000681.2 | NC_000019.10 |
20 | 64,444,167 | CM000682.2 | NC_000020.11 |
21 | 46,709,983 | CM000683.2 | NC_000021.9 |
22 | 50,818,468 | CM000684.2 | NC_000022.11 |
X | 156,040,895 | CM000685.2 | NC_000023.11 |
Y | 57,227,415 | CM000686.2 | NC_000024.10 |
(责任编辑:佳学基因)