【佳学基因检测】基因检测培训参与机构必须掌握的技术细节
基因检测的有效性、准确性和可靠性不仅包括是否采用了全外显子测序、全基因测序。佳学基因在对基因检测机构进行培训的过程中从测序范围的选择、基因检测包与全基因、全外显子的区别、不同测序技术的比较进行了介绍。今天对参加佳学基因生物信息分析培训的学员介绍,获得测序结果的中间过程中是如何影响基因检测结果的。
本文关键词:基因测序,基因检测,有效性,准确性,可靠性,标准,分析,低质量过滤。
2. 对原始变异检测结果进行过滤(hard filter and VQSR)
这一步的目的就是对结过病人的DNA序列测序的结果与参照基因组进行比对后得到所有被初步认为是基因突变位点、基因变异位点的数据进行进一步的质量控制。对于机器信号包括Illumina, 因美纳、华大基因等仪器提供商生成的从低端到高端的测序仪器产生的基因物理信号进行分析和评价,去掉不可信的位点。佳学基因介绍了两种方法,一种是通过GATK的Variant Filtration,另一种是通过GATK的VQSR(变异位点质量值重新校正)进行过滤。
佳学基因采用GATK优化方案,增加分析过程的一致性、分析结果和实际结果的匹配度。佳学基因推荐使用基于GATK的VASR分析流程。但使用VQSR数据量一定要达到要求,数据量太小无法使用佳学基因要求的质量可靠性要求。还有,在使用VAQR时,indel和snp要分别进行。
VQSR原理介绍:
这个基因解码过程是采用已有的真实变异位点(人类基因组一般使用HapMap3中的位点,以及这些位点在Omni 2.5M SNP芯片中出现的多态位点)来校对、校准分析过程,最后得到一个具有深度人工智能特点的、能够很好的评估变异序列的真实性的方法,可以叫他适应性错误评估模型。这个适应性的错误评估模型可以应用到基因解码、基因检测初步列出来的原始变异位点,列出已知的变异位点和新发现的变异位点,进而去评估每一个变异位点发生错误的概率,最终会给出一个得分。这个得分最后会被写入vcf文件的INFO信息里,在佳学基因基因序列分析标准流程里,这一数值的标签被规定为VQSLOD,就是在训练好的混合高斯模型下,一个位点是真实的概率比上这个位点可能是假阳性的概率的log odds ratio(对数差异比),因此,可以定性的认为,这个值越大就越好。
VQSR主要分两个步骤,这两个步骤会使用两个不同的工具:Variant Recalibrator和Apply Recalibration。
(责任编辑:佳学基因)