佳学基因遗传病基因检测机构排名,三甲医院的选择

热门搜索
  • 癫痫
  • 精神分裂症
  • 鱼鳞病
  • 白癜风
  • 唇腭裂
  • 多指并指
  • 特发性震颤
  • 白化病
  • 色素失禁症
  • 狐臭
  • 斜视
  • 视网膜色素变性
  • 脊髓小脑萎缩
  • 软骨发育不全
  • 血友病

客服电话

在线咨询

CONSULTATION

一键分享

CLICK SHARING

返回顶部

BACK TO TOP

分享基因科技,实现人人健康!
×
查病因,阻遗传,哪里干?佳学基因准确有效服务好! 靶向用药怎么搞,佳学基因测基因,优化疗效 风险基因哪里测,佳学基因
当前位置:    

【佳学基因检测】基因突变对疾病发生的影响分析:GWAS分析的技术

【佳学基因检测】基因突变对疾病发的影响分析:GWAS分析的技术 基因检测的科学依据来源: 全基因组关联研究 (GWAS)是以佳学基因为代表的基因解码机构所采用的一个客观获取基因位点的不同

【佳学基因检测】基因突变对疾病发生的影响分析:GWAS分析的技术


基因检测的科学依据来源:GWAS


全基因组关联研究 (GWAS)是以佳学基因为代表的基因解码机构所采用的一个客观获取基因位点的不同等位基因对人体健康、疾病与用药指导的相关性的一种研究方法。佳学基因GWAS在一个分析中可以测试许多基因组中的数十万个遗传变异,以发现与特定性状、疾病或生理功能具有统计相关性的变异。这种方法已经发现了与一系列性状和疾病具有强相关性基因位点,揭示了它们之间的相关性。并且随着 GWAS 样本量的增加,相关变异的数量预计将稳步增长。GWAS 结果具有广泛的应用,例如深入了解表型的潜在生物学、估计其遗传力、计算遗传相关性、进行临床风险预测、为药物开发计划提供信息以及推断风险因素与健康结果之间的潜在因果关系。佳学基因检测向介绍了 GWAS,解释了它们的统计基础以及它们是如何进行的,描述了最先进的方法并讨论了局限性和挑战,并简单说明了 GWAS 当前和未来的应用 结果。

基因解码技术之一:GWAS基因检测与分析方法介绍

全基因组关联研究 (GWAS) 旨在通过测试祖先相似但表型不同的个体之间遗传变异等位基因频率的差异来确定基因型与表型的关联。 GWAS 可以考虑人类基因组中的拷贝数变异或序列变异,尽管 GWAS 中最常研究的遗传变异是单核苷酸多态性 (SNP)。 GWAS 通常会报告相关 SNP 的块,这些 SNP 都显示出与感兴趣的性状(称为基因组风险位点)具有统计学意义的关联。 经过 15 年的 GWAS,许多复制的基因组风险位点与疾病和性状相关,例如肥胖的 FTO2 和自身免疫性疾病的 PTPN22。 这些结果有时为疾病生物学提供了线索; 例如,GWAS 表明 IL-12/IL-23 通路与克罗恩病的发展有关,这支持了随后针对 IL-12/IL-23 通路的药物的临床试验。

GWAS 的结果可用于一系列应用。 例如,与性状相关的遗传变异可以用作流行病学研究中的控制变量,以解释混杂的遗传群体差异。 此外,结果可用于根据个人的基因特征预测个人患身
心疾病的风险。 事实上,最近的一项研究表明,使用全基因组多基因风险评分 (PRS) 对冠状动脉疾病、心房颤动、2 型糖尿病、炎症性肠病和乳腺癌进行基因组风险预测可以识别疾病风险以及基于单基因风险预测策略 关于罕见的、高度渗透的突变。 基因组风险预测可能很快被允许用于临床,作为分层工具和基于遗传的生物标志物。

在佳学基因的GWAS:基因解码与基因检测系列技术介绍中,佳学基因为生物信息技术爱好者提供 GWAS 的全面概述,涵盖实际考虑因素,例如实验设计、稳健的数据分析和数据沉积、伦理意义和结果的可重复性。 佳学基因还提供有关如何使用 GWAS 后策略和功能性后续实验解释 GWAS 结果的方法学,以及如何应对 GWAS 的技术局限性和未来的挑战。

佳学基因GWAS基因检测:实验设计

GWAS 的实验工作流程涉及几个步骤,包括从一组个体中收集 DNA 和表型信息(例如疾病状态和年龄和性别等人口统计信息); 使用可用的 GWAS 阵列或测序策略对每个个体进行基因分型; 质量控制; 使用单倍型定分析和参考群体估算未分类的变异; 进行关联统计检验; 进行荟萃分析(可选); 寻求独立重复; 并通过进行多个 GWAS 后分析来解释结果(图 1)。 每一步都会引入可能的偏差和错误,因此在设计 GWAS 时需要仔细规划,并建议遵守标准化的质量控制和分析流程。 佳学基因检测在下面详细介绍这些步骤。 佳学基因提醒大家,在进行 GWAS 时可能出现的大多数问题,例如仔细选择参与者或质量控制所需的步骤,都适用于包含常见变异的 GWAS 和包含罕见变异的研究,例如全外显子组测序 (WES) 研究和全基因组测序 (WGS) 研究。以下部分涉及常见等位基因的分析,除非明确说明(专栏 1)。

【佳学基因检测】基因突变对疾病发生的影响分析:GWAS分析的技术
a: | 可以从研究队列中收集数据,或者可以使用来自生物库或者是国际共享数据库中遗传和表型信息。 需要仔细考虑混杂因素,数据选择策略不得引入碰撞偏倚(Collider Bias)等偏差。 b: | 可以使用微阵列基因检测以获取常见变异位点的基因型数据,或使用下一代测序方法进行全基因组测序 (WGS) 或全外显子组测序 (WES)。 c | 质量控制包括湿实验室阶段的步骤,例如基因型检出和 DNA更换,以及被检基因型的干实验室阶段,例如不良单核苷酸多态性 (SNP) 和个体的删除、样本中群体层的检测 和主成分的计算。 本图描绘了根据遗传基质的个体聚类。 d | 基因型数据可以分阶段进行,未分型的基因型可以使用 1000 Genomes Project 或 TopMed 等存储库中匹配参考人群的信息进行估算。 在本例中,SNP1 和 SNP3 的基因型是根据直接检出的其他 SNP基因型估算的。 e | 使用适当的模型(例如,加性、非加性、线性或逻辑回归)对每个遗传变异进行遗传关联测试。 校正了混杂因素,包括人口阶层,并且需要控制多重测试。 检查输出是否存在异常模式并生成摘要统计信息。 f | 来自多个较小队列的结果使用标准化统计方法进行组合。 g | 可以在独立队列中使用内部重复或外部重复来重复结果。 对于外部复制,独立队列必须是祖先匹配的,并且不与发现队列共享个人或家庭成员。 h | 使用来自外部资源的信息对全基因组关联研究 (GWAS) 进行计算机分析。 这可以包括计算机精细作图、SNP 到基因作图、基因到功能作图、通路分析、遗传相关性分析、孟德尔随机化和多基因风险预测。 在 GWAS 之后,可以使用 CRISPR 或大规模并行报告分析等实验技术来测试功能假设,或者可以在人类特征/疾病模型(未显示)中验证结果。

佳学基因解码基础概念诠释:常见突变和罕见突变


全基因组关联研究 (GWAS) 通常需要使用微阵列对特定和预选的基因位点进行靶向基因分型,而全外显子组测序 (WES) 和全基因组测序 (WGS) 研究旨在捕获所有遗传变异。 严格来说,WES 和 WGS 研究也是 GWAS,尽管在文献中“GWAS”主要指的是常见变异的全基因组研究,有时被认为与 WGS 和 WES 研究分开。 将变异声明为常见或罕见是特定于人群的,不能在人群中推广。 通常,常见变异是那些次要等位基因频率超过 10% 的变异,尽管随着人群数值的增长,该阈值可能低至 1%,因为研究人员通常坚持最低次要等位基因计数; 例如,至少有 100 个人携带至少一份次要等位基因。 随着 WGS 和 WES 研究刚刚开始成熟,当前的分析方案可能需要扩展,以涵盖分析罕见变异时出现的特定问题,例如,控制群体分层或估算缺失基因型时。
 

基因解码GWAS的实施流程

选择研究人群

GWAS 通常需要非常大的样本量来识别可重现的全基因组显着关联,并且可以使用 CaTS或 GPC等软件工具中的功效计算来确定所需的样本量。 当要研究的性状是二分法时,研究设计可以包括案例和对照。或者当性状是定量时,可以包括对整个研究样本的定量测量。 此外,人们可以在基于人口的设计和基于家庭的设计之间进行选择。 GWAS 的数据资源和研究设计的选择取决于所需的样本量、实验问题和现有数据的可用性或收集新数据的难易程度。 GWAS 可以使用来自生物库或以疾病为中心或基于人群的队列等资源的数据,或通过直接面向消费者的研究来进行。拼凑足够大的数据集以针对复杂性状运行强大的 GWAS 需要大量的时间和金钱投资,这超出了大多数单个实验室的能力。 然而,有一些优秀的公共资源可以提供对具有基因型和表型信息的大型队列的访问,并且大多数 GWAS 都是使用这些预先存在的资源进行的。 即使在内部收集了新数据,这些数据通常也会与现有资源的数据进行共同分析; 当需要更精细的表型分析时,通常需要收集新数据。

对于所有研究设计,必须仔细考虑患者的入组策略,因为这些策略可能会在结果数据中引起对撞偏差和其他形式的偏差。 例如,英国生物银行等广泛使用的研究队列通过基于志愿者的策略招募参与者,这导致参与者平均比一般人群更健康、更富有且受教育程度更高。 此外,根据疾病状况从医院(例如 BioBank Japan)招募参与者的队列与从普通人群招募的队列具有不同的选择偏差。 不同的种族可以包括在同一研究中,只要考虑人口亚结构以避免假阳性结果。 具有详细临床措施的个体队列可能无法满足所需的样本量; 在这些情况下,可以使用更容易测量并且有更多数据的“代理”表型(例如,教育程度可以用作智力的代理,或者抑郁症状可以用作临床抑郁症的诊断的代表) 。

基因分型

个体的基因分型通常使用常见变异的微阵列或下一代测序方法( 如 WES 或 WGS, WES和WGS也包括罕见变异)来完成。 由于当前下一代测序的成本,基于微阵列的基因分型是获得 GWAS 基因型的最常用方法。 然而,基因分型平台的选择取决于许多因素,并且往往因为 GWAS 的目的而不同; 例如,在联合体主导的 GWAS 中,在同一基因分型平台上对所有个体队列进行基因分型通常是明智的。 理想情况下,WGS——几乎可以确定全基因组的每个基因型——优于 WES 和微阵列,并且随着低成本 WGS 技术的日益普及,预计将成为未来几年的首选方法。

数据处理

GWAS 的输入文件包括匿名的个人 ID 号、个人之间的家庭关系编码、性别、表型信息、协变量、所有调用的基因位点的基因型以及基因分型批次的信息。 输入数据后,从 GWAS 生成可靠的结果需要仔细的质量控制。 一些示例步骤包括移除稀有或单态变异、移除不在 Hardy-Weinberg 平衡中的变异、过滤队列中部分个体缺失的 SNP、识别和移除基因分型错误,以及确保表型与遗传匹配良好 数据,通常通过比较自我报告的性别与基于 X 和 Y 染色体的性别。 PLINK 等软件工具专为分析遗传数据而设计,可用于执行许多此类质量控制步骤(用于质量控制分析和 GWAS 其他阶段的其他软件在表 1 中进行了总结)。 一旦对 GWAS 阵列数据进行了样本和基因位点基因分型质量控制,变体通常会进行定相,并使用已排序的单倍型参考面板(例如 1000 基因组计划或 TOPMed21,22)进行估算,这涉及尚未进行直接分析的基因型的统计推断 (专栏 2)。 GWAS 联盟通常遵循执行质量控制步骤和推算的分析流程,使用例如 RICOPILI 或类似软件,或将其数据上传到运算服务器(例如,密歇根运算服务器或 TOPMed 运算服务器),这些标准化分晰流程已在这些服务器上运行 实施的。 由于遗传数据集通常很大并且分析管道可以并行运行,因此经常使用可以将作业分配给许多计算机的计算机集群或云环境。 为了以遵循数据保护规则的后勤可行方式实现遗传研究中典型的大样本量,上述步骤通常针对不同样本量的许多不同队列分别完成(参见全基因组关联荟萃分析 (GWAMA) 部分) .
 

表3 可应用于GWAS各阶段的开源工具

软件

用途

质量控制

PLINK / PLINK2

可用于质量控制的许多关键步骤,包括过滤不良 SNP(基于偏离 Hardy-Weinberg 平衡、基因分型检出率和次要等位基因频率)和不良个体(基于性别检查、基因分型检出率、样本检出率,杂合性和相关性检查)

RICOPILI

用于元分析输入的原始遗传数据和汇总统计数据的质量控制

SMARTPCA

原始基因分型数据的主成分分析;提供可用于校正人口分层的个体水平主成分

FlashPCA

类似于SMARTPCA;随着样本量的增加,速度更快,更具可扩展性

分型

IMPUTE2

根据与祖先匹配的现有参考小组估算缺失的基因型;往往比其他分型工具使用更多的内存

BEAGLE

根据与祖先匹配的现有参考小组估算缺失的基因型

MACH/Minimac

根据与祖先匹配的现有参考小组估算缺失的基因型;Minimac 包括预定相,可加快分型时间

关联性分析

PLINK / PLINK2

进行遗传关联的最广为人知的工具

SNPTEST

遗传关联测试;适用于 IMPUTE2

GEMMA

基于线性混合模型的遗传关联检验

SAIGE

二元表型的遗传关联;分析非常大的样本(N  > 100,000)

BOLT-LMM

基于用于混合模型关联测试的 BOLT-LMM 算法和用于方差成分分析的 BOLT-REML 算法的遗传关联测试(基于 SNP 的遗传力的划分和遗传相关性的估计)

REGENIE

遗传关联测试;分析非常大的样本(N  > 100,000);可以一次评估多种表型;快速且内存高效

BGENIE

连续表型的遗传关联;分析非常大的样本(N  > 100,000);为英国生物银行 BGENv1.2 文件格式定制

fastGWA

混合模型遗传关联分析

统计精细映射

CAVIAR

根据观察到的P值模式和连锁不平衡水平估计基因座中每个变异是因果关系的概率;允许任意数量的因果变异

PAINTOR

使用 GWAS 汇总统计数据和功能基因组数据进行统计精细定位,以确定可能的因果变异的优先级

SuSIE

使用 GWAS 汇总统计数据和来自参考面板的连锁不平衡信息进行统计精细定位;基于前向选择模型的贝叶斯修正

FINEMAP

使用 GWAS 汇总统计作为输入的统计精细映射;由于可能的因果 SNP,计算效应量和遗传力

荟萃分析

GWAMA

固定和随机效应荟萃分析;允许指定不同的遗传模型

METAL

使用 GWAS 汇总统计数据作为输入的加权荟萃分析

变异注释

VEP

遗传变异的功能注释及其对基因、转录本和蛋白质序列以及调控区域的影响

ANNOVAR

遗传变异的功能注释及其对基因、转录本和蛋白质序列以及调控区域的影响

FUMA

遗传变异的功能注释及其对基因、转录本和蛋白质序列以及调控区域的影响;包括染色质相互作用信息并整合和可视化所有输出

富集或基因集分析

MAGMA

使用具有回归框架的竞争性测试进行基于基因和基因集的分析;允许测试自定义基因集,并包括用于基因集之间的条件和交互测试的选项

DEPICT

使用预测的基因功能对基因进行系统的优先排序和对富集途径的评估

LDSC

基于 SNP 的分区遗传力分析显示功能相关 SNP 集的富集

QTL分析

QTLTools

分子QTL发现与分析;使用原始基因组(序列)数据作为输入

遗传相关性

LDSC

使用汇总统计作为输入评估表型之间的遗传相关性;具有各种其他功能,包括基于 SNP 的分区遗传力和选择偏倚评估

GCTA

使用原始基因型数据作为输入评估表型之间的遗传相关性

SumHer

使用汇总统计作为输入评估表型之间的遗传相关性;具有各种其他功能,包括基于 SNP 的分区遗传力和选择偏倚评估

superGNOVA

使用 GWAS 汇总统计评估局部遗传相关性

ρ-HESS

使用 GWAS 汇总统计评估基于局部 SNP 的遗传力和遗传相关性

LAVA

使用 GWAS 汇总统计评估局部多变量遗传相关性

GenomicSEM

基于 GWAS 汇总统计的多变量遗传相关性评估

因果关系

Mendelian randomization

基于遗传重叠的性状因果关系评估,使用 GWAS 汇总统计作为输入。

PRS分析

PRScs

使用贝叶斯收缩法估计 SNP 的后验效应大小

LDPred/LDPred-2

使用贝叶斯收缩法估计 SNP 的后验效应大小

SBayesR

使用贝叶斯收缩法估计 SNP 的后验效应大小

PRSice

使用P值阈值和聚集方法的 PRS 分析

TWAS

FUSION

通过基于参考数据预测功能/分子表型来执行 TWAS;使用 GWAS 汇总统计作为输入

PrediXcan

根据转录数据对可能的致病基因进行优先排序;使用 GWAS 汇总统计作为输入

SMR

使用孟德尔随机化方法测试 SNP 性状关联是否由基因表达水平介导

GWAMA,全基因组关联荟萃分析;GWAS,全基因组关联研究;PRS,多基因风险评分;QTL,数量性状位点;SNP,单核苷酸多态性;TWAS,转录组范围的关联研究。

在 GWAS 中必须仔细考虑和解释祖先和亲缘关系,实际上所有的遗传研究——特别是在来自不同背景的参与者的数据集中,以避免由于人口分层导致的假阳性或阴性遗传信号和有偏差的测试统计数据。 在 GWAS 中,这些信号可能导致高估基于 SNP 的遗传力和有偏见的 PRS。 它们也可能使孟德尔随机化研究的结果产生偏差。 病例和对照应按血统匹配以避免混淆; 例如,如果将案例定义为“经常使用筷子”并将对照定义为“不使用筷子”,则用于筷子使用的 GWAS 可能会导致案例更多地来自东亚人口而不是对照。 在这项研究中不考虑血统将确定在东亚人群中比其他人群更常见的变异之间的关联,例如特定人类白细胞抗原 (HLA) 等位基因的变异,不是因为这些变异有助于灵活性,而是因为文化习俗,在这种情况下 , 作为混杂因素。 GWAS 通常通过使用主成分分析的迭代过程来考虑祖先; 所有个体的基因型用于定义具有相似基因型的个体簇。 这样做首先是为了识别和排除异常值,然后计算主成分并将其作为协变量包含在后续的 GWAS 回归模型中。
 

专栏 2 基因型分析流程
可以使用在线基因型分析服务器(例如密歇根插补服务器或 TOPMed 插补服务器)对未分型的单核苷酸多态性 (SNP) 进行插补。 或者,可以使用 IMPUTE2、BEAGLE、MACH 和 SHAPEIT2 等工具在本地进行插补。 插补涉及几个步骤。
 
  1. 统计阶段个体基因型
  2. 决定是否使用硬调用或权重来确定不确定性
  3. 选择合适的参考人群面板
  4. 将参考面板和目标人群转换为相同的基因组构建
  5. 检查链问题,解决不同平台之间的问题,可能会删除不明确的 SNP
  6. 检查异常次要等位基因频率和参考组与目标数据之间的连锁不平衡模式
  7. 针对选定的群体面板估算缺失的基因型,理想情况下使用集群计算资源来分配分析作业,或使用估算服务器
  8. 检查插补质量并可能删除插补错误的 SNP(例如,信息分数 <0.7 的 SNP)

关联性测试

遗传关联理论基于生物统计学模型(更多细节见补充说明)。 通常在 GWAS 中,线性或逻辑回归模型用于测试关联,具体取决于表型是连续的(例如身高、血压或体重指数)还是二元的(例如存在或不存在疾病)。 包括年龄、性别和血统等协变量以解释分层并避免人口因素的混杂影响,但需要注意的是,这可能会降低已确定样本中二元特征的统计功效。 包括一个额外的随机效应项——它在线性或逻辑混合模型中是个体特定的,以解释个体之间的遗传相关性——可以提高基因组发现的统计能力,并增加对分层的控制,但代价是需要更多的计算资源 (尽管 这个限制可以通过使用诸如 fastGWA之类的工具来解决)。 在进行 GWAS 时,应该注意物理上靠近的遗传变异的基因型并不是独立的,因为它们往往处于连锁不平衡状态; 在进行 GWAS 时也应考虑测试的这种依赖性。

GWAS 的线性回归模型可以写成如下: