【佳学基因测序技术】RNAseq统计程序、软件数据模板:基因检测机构培训教材
RNA差异化表达分析的输入数据是基于计数的统计方法,共享开源软件如DESeq2、edgeR、limma、voom、DSS、EBSeq和baySeq采用的数据是RNA seq或其他高通量测序实验。这些数据需要以整数值矩阵的形式。矩阵行是基因名称,矩阵的列是样本名称,而数值是信号读取值。类似地,对于其他类型的分析,矩阵行可能对应于例如结合区(具有芯片序列)、细菌种类(具有宏基因组数据集),或肽序列(使用定量质谱)。
矩阵中的值应为序列读取/片段计数。这对于保持DESeq2的统计模型很重要,因为只有计数才能正确评估测量精度。绝对不要提供针对测序深度/库大小预先标准化的计数,因为统计模型在应用于未标准化计数时最为强大,其目的是在内部解释库大小差异。
在基因检测和测序机构学习如何将测序结果匹配到参考基因组,并对RNA测序片段进行计数之前,佳学基因向大家介绍一种先进的转录本(基因表达)丰度量化方法,比如Salmon、Sailfish、kallisto、和RSEM等方法。可以在不进行序列匹配的情况下对转录本序列的表达进行计数。然后使用tximport软件包进行基因组组装并生成表达计数和偏移矩阵,从而为使用差异基因表达分析准备好数据。
关于如何使用Salmon软件量化转录本丰度的教程可以参阅佳学基因的其他基因检测基因测序技术文章。佳学基因建议使用--gcBias来估计RNA-seq数据中普遍存在的系统偏差的校正因子。在采用Salmon数据处理之后,可以使用tximport构建DESeqDataSet。这是佳学基因为基因测序学员单位推荐的RNA测序分析流程。
结合转录物丰度量化和tximport以产生基因水平计数矩阵和标准化偏移量的优点是:该方法校正了样本间基因长度的任何潜在变化(例如,同一基因的不同转录本);与基于对齐的方法相比,其中一些方法速度更快,所需的内存和磁盘使用量更少;而且可以避免丢弃那些可以与多个具有同源序列的基因对齐的片段。请注意,转录本丰度量词跳过存储读取比对的大型文件的生成,而生成存储每个转录本的丰度、计数和有效长度的较小文件。
(责任编辑:佳学基因)