【佳学基因检测】基因解码基础:如何从VCF格式文件中获取基因测序数据?
遗传病、罕见病基因检测导读:
VCF格式是一种基因测序领域常用的基因序列存储格式。了解VCF格式是基因信息注释工作与基因测序工作进行对接的第一步。本文介结从采用VCF格式存储的基因数据中获取受检者基因信息的一个工具,以及使用这一个工具的方法。
为什么要开发vcfR工具包?vcfR有什么用途?
VCF文件格式成为记录一个人基因信息的通用格式文件,正如JPG是照片和图形的通用格式文件一样。由于测序成本的大幅度降低,数据库比对成为现行基因检测的通行技术,而基因解码进一步对数据库比对方法进行升级换对,读取和理解基因信息成为基因信息阅读、传递和交流的一个重要需要。因此,我们需要掌握对VCF格式文件进行处理的软件。vcfR软件不仅可提取基因型,还可以提取与基因型测定的质量的数据。vcfR是一个在R语言下开发的工具,因为R提供了一个交互体验和一个通常用于基因信息分析的环境。通过vcfR可以读取VCF文件,存储到R语言支持的各种文件格式。并采用R语言进行汇总、绘图、统计。VcfR还提供了通过修改各种参数,用可视化的方式再现这些参数对分析结果的影响的功能。另外vcfR还可以使用基因序列文件(FASTA)和基因注释文件(GFF),使得基因组的特定区域如染色体可以以图形的方式展现。vcfR还可以通过转换函数将vcfR的数据结构转换成为R环境下其他基因信息分析工具可以使用的文件格式。更为复杂的运算可以通过C++语言来实现。
VCF文件的存储格式:
vcf文件分为三个部分
- ‘#’号开头行——meta
- 非#号开头行分为fix和gt两个部分
fix部分存储vcf文件中非#号开头行的前7列,分别是
- 染色体编号
- 碱基位置
- ID
- 参考碱基
- 变异碱基
- 质量值
- 是否过滤
gt 部分存储两部分内容
- format
- 样本基因型
vcfR的主要功能
2、解析功能可有效提取基因型矩阵或其相关信息。
3、绘图功能提供了一种直观地评估变体特征的快速方法。
4、提供了对R环境提供的大量统计和图形工具的便捷访问。
5、通过有效的解析和可视化,可以快速开发针对质量指标的硬过滤器,可以轻松地针对单个项目和实验设计进行量身定制。
6、vcfR的关键组件以C ++实现,并从R中调用以最大程度地减少计算时间。
vcf主要功能介绍:
通过参数设置,通过读取表格数据的函数utils :: read.table()和data.table :: fread()以跳过非表格元区域,从而为这些函数提供了一点优势。
通过data.table :: fread('zcat filename.gz')调用data.table :: fread()函数,是因为它当前不能读取压缩的数据。
2、读取基因型函数:
extract.gt()
chromoqc()可用于可视化chromR对象。