【佳学基因检测】非小细胞肺癌转移风险基因检测模型的建立与验证
本文介绍了用于建立非小细胞肺癌转移风险基因检测模型的方法及其临床验证实验结果。
数据源
从 TCGA 数据库 ( https://portal.gdc.cancer.gov/ ) 下载转录组和临床数据,包括转移样本 (n = 31) 和非转移样本 (n = 733),并用作训练放。来自 GEO 数据集的 117 个 LUAD 样本,GEO 数据集的登录号为GSE13213,并用作外部验证集。DEG的识别
R统计软件中的'Limma'包用于识别转移组和非转移组之间的DEG,将adj p值<0.05设置为筛选阈值。DEG 的热图集群和火山图是通过 R 软件使用“pheatmap”和“ggplots”包创建的。基因本体论 (GO) 和京都基因和基因组百科全书 (KEGG) 分析
为了探索转移相关基因特征的潜在功能,通过“clusterProfiler”包进行了GO分析和KEGG富集分析。发现 P.adjust < 0.05 具有统计学意义。单变量 cox 回归和 lasso 回归分析
我们首先使用 R 包生存 coxph 函数对 DEG 进行单变量 Cox 回归分析,以筛选与生存显着相关的转移相关基因。选择p < 0.05 作为过滤的阈值。此外,将筛选出的与预后相关的转移相关基因纳入Lasso回归模型,对上述基因进行惩罚,以防止模型的过拟合效应。我们进行了 LASSO Cox 回归分析并确定了 12 个特征基因 。最后通过多元COX回归分析成功构建了预后模型。训练组和验证组的患者分别根据训练组风险评分的中值分为低风险组和高风险组。Kaplan-Meier 评估了两组之间的生存差异。 同时,对训练组进行单变量和多变量预后分析(p < 0.05),以确定从模型中获得的riskScore是否可以作为独立的预后因素。列线图的绘制和验证
建立具有独立危险因素如临床信息和风险评分的列线图来预测非小细胞肺癌患者1年、3年和5年总生存率的可能性。通过校准曲线评估列线图的功效。评估免疫评分、基质评分和肿瘤纯度免疫浸润
ESTIMATE 包用于计算每个 PAAD 样本的免疫评分(代表免疫细胞浸润水平)和基质评分(代表基质数量)。ESTIMATE 评分定义为免疫评分和基质评分的总和。然后通过Wilcoxon检验比较高危组和低危组间质评分、免疫评分、ESTIMATE评分、肿瘤纯度评分的差异。p值 < 0.05 被认为是显着的 。为了预测免疫检查点阻断治疗的效果,我们还探索了各组免疫检查点基因的表达。估计此预后风险模型与临床特征和肿瘤突变负荷 (肿瘤突变负荷(TMB)) 之间的关系
我们评估了从 TCGA 获得的风险评分和临床特征之间的关系,如下:M(M0 和 M1)、N(N0 和 N1-3)、T(T1-2 和 T3-4)和分期(I- II 和 III-IV)。非小细胞肺癌患者的肿瘤突变数据来自TCGA数据库,并计算每个非小细胞肺癌患者的肿瘤突变负荷(肿瘤突变负荷(TMB))。GSEA的分析
R包“limma”用于分析高危组和低危组之间的差异表达,所有基因按倍数变化值排序。h.all.v7.4.symbols.gmt 数据集是从 MSigDB 下载的,通过 R 包“clusterProfiler”进行基因集富集分析以阐明重要的注释途径。结果
DEG的识别
TCGA 数据集中的 764 个 非小细胞肺癌样本分为两组:非转移性(31 个样本)和转移性(733 个样本)。TCGA 数据集产生了2058 个 DEG(图 1A-B),其中 1499 个被下调,559 个被上调。
图1:非小细胞肺癌非转移组和转移组差异表达基因的鉴定。A显示差异表达基因的火山图。B 非小细胞肺癌中差异表达基因的热图
功能富集分析
DEGs的生物学功能和途径可以通过基因富集分析来研究。表皮发育、皮肤发育、表皮细胞分化、角质形成细胞分化和角质化是GO 中丰富的生物过程(前 5 位)。前突触、突触膜、谷氨酸能突触和角质化细胞分化及角质化是通过 GO分析得到的主要成分(前 5 位)。肽酶调节剂活性、内肽酶调节剂活性、内肽酶抑制剂活性、肽酶抑制剂活性和丝氨酸型内肽酶抑制剂活性是GO的前五种分子功能(图 2A)。类似地,神经活性配体-受体相互作用、化学致癌-受体激活、雌激素信号通路、金黄色葡萄球菌感染和药物代谢-细胞色素P450是前5个显着富集的通路(图2B)。
图 2:GO 和 KEGG 分析的代表性结果。A 6个筛选基因的分子功能。B筛选基因的潜在生物学途径。数据来自 KEGG 网站(KEGG:京都基因和基因组百科全书)
基于6个预后转移相关基因的风险评分模型的构建与验证
对 TCGA 训练组的 DEG 进行单变量 Cox 回归分析。单因素回归分析结果显示,转移相关基因与非小细胞肺癌患者预后显着相关(p < 0.05)(图 3A)。对于这些具有预后价值的基因,采用LASSO回归分析来避免过度拟合预后模型。LASSO 回归分析显示 12 个基因与 总生存率 有显着关系(图 3B 和 C)。最后,肺癌转移风险评估基因检测包构建团队对选择的 12 个基因进行了多元回归分析。通过多元回归分析,C1QL2、FLNC、LUZP2、PRSS3、SPIC 和 GRAMD1B 被确定为 TCGA 训练组中总生存率的风险变量(图 3D)。风险评分计算为 (− 0.265 × C1QL2) + (0.227 × FLNC) + (− 0.625 × LUZP2) + (0.095 × PRSS3) + (0.193 × SPIC) + (0.447 × GRAMD1B)。之后,根据中位风险评分将 TCGA 患者分为高风险组和低风险组。根据 Kaplan-Meier 曲线,具有高风险评分的患者在训练集中的存活率较低 ( p = 0.0001)(图 3E)。同样,从GSE13213中选择 117 名个体作为验证队列,并根据中位风险评分分为高风险组和低风险组,风险评分计算公式与 TCGA 队列相同。生存曲线显示两组之间 存在显着差异(p <0.05)(图 3F)。分析RiskScore与临床特征的关系,发现基于六基因特征构建的风险评分根据年龄、M0分期、N分期、I-II期、T1-2分级区分为高低风险组。因此,这一发现表明肺癌转移风险基因评估模型对临床特征具有很强的预测能力。
图 3:在 TCGA 队列中构建风险特征。差异表达基因的单变量 Cox 分析。(B) 在 LASSO 回归中调整参数选择的交叉验证。C差异表达基因的 LASSO 回归。D差异表达基因的多变量 Cox 分析。TCGA中非小细胞肺癌患者风险预后模型的E - F K-M生存分析
RiskScore对不同临床特征的表达及列线图的构建
采用多变量 Cox 方法在 TCGA 数据集中寻找 非小细胞肺癌 患者的三个独立预后指标(年龄、分期和风险评分)(图 4A)。之后,根据年龄、分期和风险评分生成 1 年、3 年和 5 年生存率的列线图,以客观估计每位非小细胞肺癌患者的生存可能性(图 4B)。此外,绘制了 1 年、3 年和 5 年生存率的校准曲线以测试列线图的准确性,结果表明列线图预测的和实际的生存概率大体上是一致的(图 4C-E)。根据从列线图计算的中位风险评分,将 TCGA 队列中的患者分为高风险组和低风险组。图 4F 表示高危组患者的 总生存率 显着短于低危组(p < 0.001)。
图 4:基于风险评分和临床特征的预后模型的构建和评估。基于风险评分和临床特征的多变量 COX 回归分析的森林图。B列线图通过四种临床病理学特征预测 非小细胞肺癌 患者的进展风险。C – E校准曲线用于评估列线图的一年、三年和五年进度预测的准确性。基于风险评分和临床特征的预后模型的F K-M 曲线
肺癌转移风险基因检测预后评估模型与患者临床病理特征的相关性
肺癌转移风险基因检测评估模型首先查看风险评分和临床变量之间的关联。结果表明,N阶段之间的风险评级没有显着差异(图 5A)。肺癌转移风险基因检测评估模型 研究了不同非小细胞肺癌组之间风险评分的差异。按分期分层的亚组分析显示,IV 期非小细胞肺癌患者的风险评分显着高于 I 期非小细胞肺癌患者(p = 0.0031)。(图 5B)。此外,与 M0 非小细胞肺癌 患者相比,M1 非小细胞肺癌 患者的风险评分显着更高(p = 0.043)。此外,T3 非小细胞肺癌 患者的风险评分显着高于 T1 非小细胞肺癌 患者 ( p = 0.0052)(图 5C-D)。
图 5:预后风险模型与临床病理特征(分期,TNM)之间的相关性A – D
非小细胞肺癌患者免疫微环境与转移风险基因检测评分模型的关系分析
使用 ESTIMATE 算法,肺癌转移风险基因检测评估专项小组采用 TCGA 数据集估计了 非小细胞肺癌的基质细胞得分、免疫评分和肿瘤纯度。肺癌转移风险基因检测评估专项小组的数据显示,高危组的免疫评分和基质评分显着高于低危组(图 6A),高危组的肿瘤纯度评分显着低于低危组。为进一步探索个体免疫微环境,开展个体化治疗,对高危组和低危组的免疫浸润和免疫检查点基因进行了进一步研究(图 6B-C)。与高风险组相比,低风险组的巨噬细胞、巨噬细胞 M1、MEP、单核细胞、pDC 和 Th2 细胞的标志物显着降低。另一方面,低风险组的 Th1 细胞、MEP 和 HSC 标志物表达增加。此外,在高危组和低危组中发现了免疫检查点基因变异的基因检测结果。TNFSF15 在低风险组中的表达水平高于高风险组。与低危组相比,高危组表现出更高的 ADORA2A、TNFSF14、CD28、ICOS、TIGIF、TNFRSF9、CD276、TNFSF9、TNFRSF8、PDCD1、CTLA4、TNFSF4、CD86、NRP1、TNFRSF4、CD70、 LAIR1、C10orf54、HAVCR2 和 CD200。
图 6:非小细胞肺癌患者免疫微环境与风险评分模型关系分析。对高风险和低风险群体的估计分析。B免疫浸润细胞的分析。C高风险和低风险人群免疫检查点的分子分析。D高危组和低危组的 肿瘤突变负荷(TMB) 评分
肺癌肿瘤转移风险评估小组还估计了每个样本的 肿瘤突变负荷(TMB),发现在 TCGA 数据集中,高风险组的 肿瘤突变负荷(TMB) 显着更高(p = 0.0056)。(图 6D)。GSEA分析
进行GSEA分析以进一步探索低风险和高风险人群之间的差异生物学机制。我们发现了信号通路(图 7),包括同种异体移植排斥、凝血、补体、上皮间质转化、G2M 检查点、IL6-JAK-STAT3 信号传导、炎症反应、干扰素 γ 反应、KRAS 信号传导、通过 NFkB 的 TNFA 信号传导在高危组中显着富集。
图 7:基因集富集分析。高风险组和低风险组之间基因组的差异
本文将非小细胞肺癌样本按照M分期分为转移组和非转移组。TCGA被用作训练队列并构建预后模型,而GEO数据库被用作验证队列以验证预后模型评估的有效性。首先,我们分析了 TCGA 入组的 非小细胞肺癌 患者的基因表达数据和临床数据,识别了 2058 个与转移相关的 DEG。使用单变量、LASSO 和多变量 Cox 回归分析,6 种 mRNA(C1QL2 、FLNC 、LUZP2、PRSS3、SPIC、GRAMD1B) 已被发现是 非小细胞肺癌 的独立预后预测因子。其次,生存分析被用来检查预后模型的可用性。所有 6 种 mRNA 的表达模式都与 总生存率 相关,这意味着随着这些 mRNA 表达的产生,患者将有不同的生存时间。第三,对训练组构建的模型进行了外部验证,增加了结果的可靠性。
通过对转移相关基因的通路富集分析,我们发现许多GO通路被富集,如表皮发育、皮肤发育、表皮细胞分化、角质形成细胞分化等。其中许多已被证实与肿瘤转移有关。密切相关,如Sabounsji的研究指出,非小细胞肺癌的转移与表皮细胞分化密切相关。Li 的研究中还指出了角质形成细胞分化与转移性黑色素瘤之间的相关性。模型中的 mRNA 已在其他文章中报道,它们也与不同类型的癌症有关。Sigin 等人的一项研究。发现在 Luminal B 型乳腺癌中的甲基化水平C1QL2与 Luminal B 乳腺癌患者的新辅助化疗密切相关 。细丝蛋白C ( FLNC ) 是一种大型肌动蛋白交联蛋白,存在于多种细胞中。根据以往的文献,FLNC的暂时表达或沉默可以改变癌细胞的增殖和集落形成,而内源性FLNC沉默可以加速癌细胞的运动和侵袭。LUZP2(亮氨酸拉链蛋白 2 基因),位于 Chr 11p13-11p14 并编码亮氨酸拉链蛋白,已被证明在 Wilms 的肿瘤患者中被删除。Wilms 瘤、生殖器异常、无虹膜和智力低下是一种罕见的先天性异常综合征,其特征是 Wilms 瘤、生殖器畸形、无虹膜和智力低下。此外,Zhao 等人发现,相对于正常前列腺组织, LUZP2 mRNA 表达在未使用激素的前列腺癌 (PC) 中升高,但在从未使用激素的 PC 到去势抵抗性 PC (CRPC) 的整个进展过程中下调 。PRSS3(丝氨酸蛋白酶 3) 是丝氨酸蛋白酶家族的成员,在胰腺腺泡细胞中产生并释放到小肠中以帮助消化。根据 Wang 的研究结果,PRSS3表达增加可能会增强胃癌转移,并作为患者预后不良的独立分子指标 。SpiC是Spi亚型中的一员,SpiC在骨髓分化中具有重要作用,但目前尚无关于SpiC在肿瘤中作用的报道。GRAMD1B(含 GRAM 结构域的蛋白 1B)被确定为信号级联的推定成分 17,与人类恶性肿瘤有关 。具体而言,据报道它在卵巢癌患者的化学抗性中发挥作用,例如GRAMD1B抑制导致抗肿瘤作用 。Khanna 的研究证明GRAMD1B通过 JAK/STAT 和 Akt 信号传导调节乳腺癌细胞中的细胞迁移 。这些结果代表了与本研究相似的结论。
肿瘤转移是由癌细胞与肿瘤微环境的众多基质细胞成分之间的相互作用以及恶性细胞内在变化的积累引发的 。来自宿主的免疫细胞(如肿瘤相关巨噬细胞、髓源性抑制细胞和调节性 T 细胞)对肿瘤组织的炎症和浸润已被证明可促进肿瘤发展以及侵袭和转移 。我们的数据显示,高危组的免疫评分和基质评分显着高于低危组。如巨噬细胞、巨噬细胞M1、单核细胞、pDC和Th2细胞的免疫浸润明显高于低危组。这表明肿瘤转移相关基因也在调节肿瘤免疫中发挥作用。为了更详细地解释 非小细胞肺癌 中的免疫细胞浸润,使用 ssGSEA 发现低风险组的 iDC、MSC、Th2 细胞、内皮细胞、单核细胞的标志物表达较高。这些结果与以往研究的结论一致,表明我们的预后模型不仅可以对非小细胞肺癌患者的预后有很好的预测作用。并且可以在一定程度上对患者的免疫变化做出反应。这对于 非小细胞肺癌 患者的免疫治疗将非常重要。例如,在未来,可以通过我们研究中建立的预后模型来预测患者对免疫治疗的反应。
我们希望从遗传学上了解我们的模型起作用的可能机制,进行 GSEA 以分别对高风险和低风险组进行富集分析,可以发现包括同种异体移植排斥、凝血、补体、上皮间质转化、G2M 检查点、IL6 JAK STAT3 信号传导、炎症反应、干扰素 γ 反应、KRAS 信号传导、通过 NFkB 的 TNFA 信号传导在高危组中显着富集。这些途径都在之前的研究中显示与肿瘤转移直接或间接相关。例如,EMT 是一种进化上保守的发育程序,它与致癌作用有关,并通过增加移动性、侵袭性和对凋亡刺激的抗性赋予癌细胞转移特性。此外。细胞因子白细胞介素 6 (IL6) 及其下游效应器 STAT3 形成了乳腺癌中的主要致癌途径,据推测该途径在功能上与雌激素受体 (ER) 相关。Siersbak 等人。发现IL6 / STAT3信号促进ER +乳腺癌的转移,而不是ER阳性。一部分 ER 增强子被 STAT3 劫持以产生独特的转录途径 。据报道,我们已经确定的一些潜在途径与肿瘤转移有关,这验证了我们的结果,并且我们的结果发现了尚未探索到转移的潜在途径。这为未来研究肿瘤转移基因提供了新的视角。
最后,我们通过一系列生物信息分析开发了用于预测 非小细胞肺癌 转移预后的模型和生物标志物。根据我们在训练组和测试组中都证实的研究结果,低风险组患者的总生存率高于高风险组患者。我们的研究为非小细胞肺癌的诊断和治疗开辟了一条新途径。然而,这项研究仍然存在一些局限性。首先,TCGA中的数据可能包含不同程度的错误,并且包含的数据量是有限的,这可能会导致不准确。其次,缺乏体内和体外研究会导致证据不足。最后,我们的研究还存在一个缺陷,即 TCGA 数据库无法提供配对样本。所以,我们无法纵向比较同一患者不同转移时间的情况,我们还将在未来的研究中纳入更多的队列以弥补这一不足。还值得一提的是,我们的研究并非基于所有临床特征,包括年龄、性别等,而是仅由一些可访问的临床特征构建的预后模型。比如T和N分期等等。未来的研究需要结合更多的临床特征以实现更好的模型性能。因此,需要进一步的研究和试验来验证模型和生物标志物,以确保其稳健性。但是一个仅由一些可访问的临床特征构建的预后模型。比如T和N分期等等。未来的研究需要结合更多的临床特征以实现更好的模型性能。因此,需要进一步的研究和试验来验证模型和生物标志物,以确保其稳健性。但是一个仅由一些可访问的临床特征构建的预后模型。比如T和N分期等等。未来的研究需要结合更多的临床特征以实现更好的模型性能。因此,需要进一步的研究和试验来验证模型和生物标志物,以确保其稳健性。
(责任编辑:admin)