摘要:癌症基因组研究是一种相对较新的方法。它显示出巨大的潜力,但也面临一定的挑战。研究人员经常不得不处理数以万计的基因,而患者病例样本量相对较小——这种困境被称为“维度的诅咒” [1] ——而且由于相对稀疏,因此很难很好地学习数据高维空间中的数据。为了解决这一难题,本研究使用单个基因的 p 值进行通路富集,以找到具有统计学意义的通路。本研究的目的是通过统计方法和通路富集分析发现与肺癌相关的重要基因和生物学通路。几个重要基因,如 WNT2B、VAV2 和重要途径,如代谢 细胞色素 P450-Homo sapiens(人类)和脂肪酸降解-Homo sapiens(人类)产生的异生物质 m 具有统计学意义和生物学研究支持。重要的基因——包括TESK2、C5orf43 和 ZSCAN21——以及重要的途径,如戊糖和葡萄糖醛酸相互转化——智人(人类),被发现是值得实验室研究的新的癌症相关基因和途径。本研究中使用的思想和方法可用于寻找更重要的基因和通路,值得进行实验研究。
关键词
.癌症 基因组,基因 和 通路,维度 诅咒,生物 统计学;
一、简介
在 21世纪,与生物学、遗传学、细胞学和统计学相结合的癌症研究仍然是一个热点。自上个世纪以来,许多研究人员一直致力于该领域的临床观察和理论推演。在许多研究中,此类的一般方面,一种相对较新的了解癌症原因和预防方法的方法,已经开始显示其潜力。癌症基因组学研究可以揭示驱动肺癌发展和生长的某些基因的异常 [ 2] . 在过去的十年里,大规模的研究项目已经启动,但也面临着一定的挑战。获取基因组研究所需的高质量生物样本,管理和分析所涉及的大量数据,并最终获得融合的遗传异常结果,这些都对基因组研究方法提出了挑战 [ 3 ] [ 4 ]。
肺癌是每年导致全世界死亡人数最多的癌症之一。大约四分之一的癌症死亡病例来自肺癌。每年死于肺癌的人数比死于结肠癌、乳腺癌和前列腺癌的人数总和还要多 [ 5 ]。不出所料,它已被深入研究。早在 1930 年代,人们就已经开始接受吸烟是肺癌的主要原因 [ 6 ] ,但最近的研究表明,基因异常也可以显着增加患癌症的风险 [ 7 ] ,尽管对特定基因如何影响肺癌的研究仍然有很大的不足。 .
在本文中,我们关注肺癌及其相关的基因表达。我们的数据集是从 GSEA 检索的,该数据集与美国国立癌症研究所、美国国立卫生研究院、美国国立综合医学科学研究所等合作收集数据。通过患者的临床观察对 868 名肺癌患者的标准化 RNA 测序数据进行了统计研究。根据肺癌患者的临床观察和基因表达,研究重要基因和基因通路。选择两个特定的临床数据,即无复发生存期 (RFS) 和患者在初始治疗后是否有新的肿瘤事件(癌症复发)进行回归。RFS 是一个连续变量,我们应用线性回归来识别相关基因和途径 [ 8] ; 癌症复发是一个二元变量,因此应用了逻辑回归 [ 9 ]。然后通过在线通路富集工具基因集富集分析 (GSEA) 分析所得基因的 p 值,以找到具有统计学意义的基因通路 [ 10 ]。
2.方法
2.1。多元线性回归
线性回归是一种用于对标量因变量和一个或多个自变量之间的关系进行建模的线性方法。多元线性回归采用自变量向量并找到每个自变量与因变量的关联。这里对于每个患者,让 Y 表示每个患者的因变量 (RFS),β 表示因变量和自变量之间的关联向量,让 X 表示自变量向量(基因表达):
X一世= ( 1 ,X我1, ⋯ ,X我p)(1)
β= (β0,β1, ⋯ ,βp)(2)
因此,在以下假设下拟合多重线性模型:
是的一世=β0+X我1β1+X我2β2+ ⋯ +X我pβp+ ε(3)
其中 ε 是自然噪声,分布如下:
ε ~ N( 0 , σ)我.我.d 。 (4)
其中N代表正态分布,假设为真实随机值的分布,iid代表“独立同分布”,因为自然噪声具有相同的概率分布并且相互独立。
当 β 为正时,x 和 y 呈正关系,并且随着 x 的增加 y 增加;反之亦然。请注意,解释变量也被赋予截距 β 0。β 和 β 0由最小二乘估计找到,严格定义为:
分钟β∑n我= 1(是的一世-X吨一世β)2(5)
在这样的假设下,β 是使用封闭形式的解决方案找到的:
β=(X吨X)− 1X吨是的(6)
然后拟合线性模型来描述因变量和自变量向量之间的关系。计算每个 β 的 p 值以检验其统计显着性。更多的 p 值分析将在 2.2 节中讨论。
2.2. 多元逻辑回归
逻辑回归是一种处理分类因变量的回归模型,它只能取“0”或“1”两个值。它基于一个或多个解释变量估计二元响应的概率。只有两种可能的结果:有(y = 1)或没有(y = 0)新肿瘤。假设两个概率之和为 1,如下所述:
p (是的一世= 1 ) =p一世, p (是的一世= 0 ) =1-p一世(7)
多元逻辑回归采用一个自变量向量,并找出每个自变量对因变量分类结果的贡献。线性模型仍然可以用于逻辑回归,除了一个问题:允许概率小于 0 和大于 1。因此联合概率进行逻辑转换:
p一世=经验(X吨一世β)1 +经验(X吨一世β),(8)
其中 X 表示自变量向量(基因表达),β 表示自变量在确定因变量分类中的贡献:
X一世= ( 1 ,X我1, ⋯ ,X我p)(9)
β= (β0,β1, ⋯ ,βp)(10)
与线性回归不同,在逻辑回归中找不到最小二乘估计,因此寻求最大似然估计。以下似然函数被最大化:
∏n我= 1p是的一世一世( 1 -p一世)1 -是的一世(11)
与线性回归不同的是,优化后的 β 没有封闭形式的解,因此只能使用迭代算法(例如 Newton Raphson 算法 [ 11 ])找到使似然函数最大化的 β。然后拟合逻辑模型来描述每个自变量在决定因二元变量的类别中所做的贡献。然后为每个 β 计算一个 p 值以测试其统计显着性。更多的 p 值分析将在 2.3 节中讨论。
2.3. 多重测试的校正
多重测试是同时测试一组统计推断。在这项研究中,通过对所有模型拟合的多次测试,每个基因都被赋予了一个 p 值。当模型适合每个基因时,就会进行假设检验。原假设 (H0) 表明实系数 (β) 为零(该特定自变量的值与因变量的值没有关联),而备择假设 (H1) 则相反。
根据每个零假设,假设 T 总体分布。然后通过使用 t 检验,计算 p 值——由替代假设得出的 T 统计量在 F 分布下出现的可能性有多大。换句话说,假设原假设为真,p 值衡量获得至少与样本数据一样极端的结果的概率。所以当 p 值较小时,拒绝原假设是合理的。在本研究中,p 值用作选择顶级基因和途径的指标。
在多重检验的情况下,一般规则 0.05 作为统计显着性 p 值的截止值是不够的。考虑一个大的测试数,例如 10,000。如果使用 0.05 作为截止值,那么即使所有零假设都为真,预计也会拒绝 500 个真假设。此外,由于 p 值不能大于 1,因此使用 0.05 截止值会偶然产生许多“统计显着”案例。因此,一个适应的截止值将应用于多重测试。
有多种方法可以计算 p 值的截止值。例如,Bonferroni 截止值是对多重比较的严格校正,它控制单个错误发现的总体概率。它将显着性截止值调整为 α/m,其中 α 是正常的 0.05 截止值,m 是假设数。在这项研究中,Bonferroni 截止值将非常小,因为有数万个基因,因此 m 值为数万 [ 12 ]。
另一个校正截止值是错误发现率 (FDR),旨在控制错误的被拒绝零假设的预期比例。它没有 Bonferroni 截止 [ 13 ] 严格。根据 Benjamini-Hochberg (BH) 的方法,截止值计算为:
p乙_=最大{磷一世:磷一世≤ α一世米}
本研究中使用了这两种校正,结果将在第 3 节中讨论。
2.4. 通路富集分析
由于基因性状的复杂性,有时很难解释所有基因的 p 值。因此,还使用基因集途径富集分析。它有助于找出差异表达的基因是否与某种生物学过程或分子功能相关,从而可以得出癌症与某些基因途径之间的关联。在这里,使用基因集富集分析 (GSEA) 通过 KEGG 途径分析基因列表及其 p 值。
3. 结果与讨论
本研究中感兴趣的变量 RFS 和癌症复发在癌症研究中都非常重要。RFS,也称为 DFS(无病生存期),是在癌症初步治疗结束后,患者在没有任何癌症迹象或症状的情况下存活的时间长度 [ 14 ]。癌症复发是判断治疗是否有效的主要方式。这两个变量都提供了一种方法来检查治疗对患者的效果。具体到本研究,这两个变量提供了一个标准来确定某些不同表达的基因或某些途径是否与治疗是否有用具有高度相关性。
3.1。基因水平结果
绘制两个回归的排序 p 值(升序)以帮助可视化。在两个回归中,有三到四千个 p 值通过了经验法则 0.05 截止值,因此我们继续使用更严格的截止值校正:FDR 校正和 Bonferroni 截止值。
3.1.1。逻辑回归
在 FDR 校正中发现的最大 Pi 是第 528个p 值的 Pi:1.280e-3;Bonferroni 截止值为 2.435e-6(图 1)。
前 10 个基因如下表所示(请注意,有 528 个基因通过了 FDR 校正,并且突出显示了通过 Bonferroni 截止的 p 值):
在研究现有文献后,我们发现了一些上述基因与肺癌相关的医学和实验室证据。
WNT2B 是列表中排名靠前的基因,是一种编码高度保守的无翼型 MMTV 整合位点 (WNT) 家族成员的蛋白质,
图 1。P值-癌症复发的基因数。
前 10 名基因 | 表列头 | |
基因名称 | P值 | |
1 | WNT2B | 4.395e−7 |
2 | OPN3 | 8.234e-7 |
3 | TESK2 | 1.344e−6 |
4 | C5orf43 | 1.889e−6 |
5 | LOC541473 | 2.779e−6 |
6 | STK11 | 3.000e−6 |
7 | PTPRS | 4.010e-6 |
8 | KRT15 | 4.521e-6 |
9 | RDH14 | 4.842e-6 |
10 | LOC221442 | 4.955e-6 |
表 1。前 10 个基因及其 P 值。
分泌的信号因子。WNT 家族成员在多种发育过程中发挥作用,包括调节细胞生长和分化 [ 15 ]。一项关于 WNT2B 在人类癌症中表达的研究表明,WNT2B(大多数只有 WNT2B,而不是 WNT2 或 WNT2B,它们也属于 WNT 家族)在乳腺癌、畸胎癌和胃癌中的表达不同 [ 16 ]。另一项旨在发现 WNT2B 在 GLUT1 过表达中的影响的研究也得出结论,WNT2B 在肿瘤发生和化疗耐药中发挥作用 [ 17] . 该研究还提到,在包括乳腺癌和肺癌在内的几种恶性肿瘤中检测到 GLUT1 过表达。研究还得出结论,WNT2B 具有致癌性,尤其与非小细胞肺癌有关 [ 18 ]。
OPN3 是一种蛋白质编码基因,是鸟嘌呤核苷酸结合(G 蛋白)偶联受体超家族的成员 [ 19 ]。一项发现 OPN3 和 5-氟尿嘧啶治疗之间相关性的研究发现,针对 OPN3 的治疗策略可能会改善化疗功能 [ 20 ]。另一项研究直接指出了 OPN3 调控序列在肿瘤发生和耐药性中的作用 [ 21 ]。
列表中的其他基因,如 TESK2 和 C5orf43,尚未在实验室或医学研究中进行深入研究,但在其他现有文献中与癌症间接相关。列表后面的基因也值得研究。
3.1.2。线性回归
在 FDR 校正中发现的最大 Pi 是第 374个p 值的 Pi:9.106e-4;Bonferroni 截止值为 2.435e-6(图 2)。
前 10 个基因如下表 2所示(请注意,有 374 个基因通过了 FDR 校正,并且突出显示了通过 Bonferroni 截止的 p 值):
在研究现有研究后,我们发现了一些医学和实验室证据表明上述某些基因与肺癌之间存在相关性。
LSM2是蛋白质编码基因,是RNA结合蛋白LSm家族的成员。它与 U6 snRNA 的 3 末端 U 束特异性结合,可能与前 mRNA 剪接有关 [ 22 ]。已发现 LSm 家族对乳腺癌有很强的影响[ 23 ],据报道,LSm1 的过表达在许多肺癌病例中表现出 [ 24 ]。
图 2。RFS 的 P 值基因数。
前 10 名基因 | 表列头 | |
基因名称 | P值 | |
1 | NACC2 | 6.653e−7 |
2 | ZSCAN21 | 8.739e-7 |
3 | LSM2 | 1.474e-6 |
4 | VAV2 | 1.717e-6 |
5 | NCOR2 | 2.656e-6 |
6 | NCOR1 | 2.861e-6 |
7 | BUD31 | 2.913e-6 |
8 | PMEPA1 | 3.306e-6 |
9 | SFRS3 | 3.726e-6 |
10 | C15orf28 | 4.993e-6 |
表 2。TOP 10 基因及其 P 值。
VAV2是一种蛋白质编码基因,是VAV鸟嘌呤核苷酸交换因子家族的癌基因成员。它的转录本存在于大多数组织中,在血管生成中起重要作用 [ 25 ]。对一种著名的癌症相关蛋白的研究表明,VAV2 促进了癌细胞的运动性和分子水平。波形蛋白是一种中间丝蛋白,其表达与癌症疾病相关。在探索波形蛋白在癌细胞运动中的分子作用时,他们发现 VAV2 定位于肺癌细胞中波形蛋白阳性的粘着斑。基于他们的研究,该小组建立了波形蛋白-VAV2通路模型,并提出将其作为肺癌运动的潜在新型调节剂[ 26 ]。
NCOR1 和 NCOR2 都是属于核受体辅阻遏物家族的蛋白质编码基因。它们都编码蛋白质,通过阻止基础转录因子的访问来介导转录抑制 [ 27 ] [ 28 ]。在一项转录因子辅助抑制因子的研究中,该小组研究了这些辅助抑制因子在癌症中的作用,并指出 NCOR1 和 NCOR2 作为转录刚性特征如何影响癌细胞的例子 [ 29 ]。
BUD31 是与转录因子活性和序列特异性 DNA 结合相关的蛋白质编码基因 [ 30 ]。MYC 过度表达是人类癌症最常见的驱动因素之一,但迄今为止它对治疗性抑制具有抗拒性。为了解决这个问题,Hsu 和她的团队进行了一项研究,发现剪接体可能是 MYC 的一个漏洞。团队确定的 BUD31 是其组装和催化活性所需的核心剪接体的一个组成部分,因此是人类细胞中的一种 MYC 合成致死基因 [ 31 ]。
有趣的是,回归结果的前两个基因与许多现有研究无关。事实上,很少有研究关注这些基因与癌症之间的相关性(除了 NACC2 被遥远地提到与膀胱癌存活率相关 [ 32 ])。根据列表中紧随其后的基因的重要性,可能应该更具体地尝试这两个顶级基因 NACC2 和 ZSCAN21 来寻找与癌症的相关性。
3.2. 通路富集结果
就主要途径和基因而言,这两个变量的分析结果似乎非常相似。五个途径出现在两个结果的前六位。(表 3)。
在研究现有研究后,我们发现了一些医学证据表明上述某些途径与癌症之间存在相关性。
药物代谢——细胞色素 P450-Homo sapiens (human),id hsa00982,属于异生素生物降解、代谢类 [ 33 ]。1991年的一项研究将药物代谢与癌症预测相关联,并提出利用这一基因通路预测个体患癌风险[ 34 ]。
细胞色素 P450-Homo sapiens (human) 对异生素的代谢,id hsa00980,属于异生素生物降解,代谢 [ 33 ] 类。一项寻找癌症诊断新方法的研究发现了细胞色素 P450 的特定表达如何与包括肺癌在内的多种癌症相关。研究小组发现,细胞色素 P450 家族的二恶英诱导型克隆 CYP1B1 在多种癌症中以高频率表达,因此对该途径的测试可以提供一种新的诊断方法 [ 35 ]。
脂肪酸降解―Homo sapiens (human), id hsa00071, 属于脂质代谢类,代谢[ 33 ]。一项从脂质角度对癌症的研究表明,通过控制脂肪酸途径,可以控制癌细胞的增殖,因为它需要脂肪酸来合成膜和信号分子 [ 36 ]。
名单上的五种途径中的另外两种,虽然似乎名列前茅,但尚未针对癌症关联进行研究。很有可能通过这两种途径发现癌症的新观点。
4。讨论
目前,关于肺癌的预防、诊断和治疗已经进行了广泛的研究。遗传学为癌症研究提供了广泛的机会,到目前为止,仍然存在进一步研究的潜力。在
姓名
#基因
FDR(是否出现新肿瘤)
FDR(无复发生存)
hsa00040
戊糖和葡萄糖醛酸相互转化——智人(人类)
31
0.242
0.18
hsa00053
抗坏血酸和醛糖酸代谢―Homo sapiens (human)
25
0.288
0.328
hsa00982
药物代谢——细胞色素P450-智人(人)
66
0.339
0.296
hsa00980
细胞色素 P450-智人(人)对异生素的代谢
70
0.393
0.423
hsa00071
脂肪酸降解——智人(人)
42
0.413
0.475
表 3。根据顶级途径和基因分析这两个变量。
本研究以现有医学证据指出了与肺癌相关的一些重要基因和通路。另一方面,一些似乎同样重要甚至更重要的基因或途径尚未得到研究。例如,应该尝试 TESK2、C5orf43、NACC2 和 ZSCAN21 来寻找与肺癌的特定关联,因为列表后面的许多基因已被证明与癌症相关。此外,富集结果的前两个途径,hsa00040,戊糖和葡萄糖醛酸相互转化——智人(人),和 hsa00053,抗坏血酸和醛糖酸代谢——智人(人),应该进一步进行生物学研究,因为以下途径已证实与癌症。
在本文中,一个重要的方法是通路富集分析,通过它可以研究与肺癌相关的通路。然而,与单基因相比,通路与癌症的关联的研究相对较少。在pathway session中可以找到支持本文统计结果的文献较少,而许多资源可以支持基因水平的研究结果,只是由于时间长,更多的没有被研究。据了解,通路是一个比单个基因复杂得多的系统,因此这个结果或多或少是意料之中的。
本文中使用的两种主要统计方法,线性回归和逻辑回归,似乎做得很好,因为它们指出了一些得到实验室研究支持的重要结果。可能会使用更复杂的统计方法,并且可能会添加更好的生物学解释以在顶级基因之间绘制更全面的联系。总的来说,这是人类为了解并最终战胜癌症所采取的众多步骤之一。随着统计学、生物学和遗传学的更先进的发展,一个没有癌症的世界正在稳步接近。
利益冲突
作者宣称没有利益冲突。
参考
[ 1 ] Keogh, E. 和 Mueen, A. (2011) 维度的诅咒。机器学习百科全书,美国施普林格,257-258。
[ 2 ] Hu, Z., Chen, J., Tian, T., Zhou, X., Gu, H., Xu, L., Chen, Y, et al. (2008) miRNA 序列的遗传变异和非小细胞肺癌的生存。临床研究杂志,118, 2600-2608。
[ 3 ] 癌症基因组学研究(2016 年)国家癌症研究所。
https://www.cancer.gov/research/areas/genomics
[ 4 ] Detterbeck, FC, Boffa, DJ, Tanoue, LT 和 Wilson, LD (2010) 有关新肺癌分期系统的详细信息和困难。胸部,137、1172-1180。
[ 5 ] 美国癌症协会医学和编辑内容团队 (2017) 肺癌的关键统计数据。美国癌症协会。
https://www.cancer.org/cancer/non-small-cell-lung-cancer/about/key-statistics.html
[ 6 ] 佛罗里达州霍夫曼 (1931) 癌症和吸烟习惯。外科年鉴, 93, 50.
[ 7 ] Hopkin, M. (nd) 确定肺癌的遗传联系。自然。
[ 8 ] Weisberg, S. (2005) 应用线性回归。卷。528,约翰威利父子公司。
[ 9 ] Hosmer Jr., DW, Lemeshow, S. 和 Sturdivant, RX (2013) 应用逻辑回归。卷。398,约翰威利父子公司。
[ 10 ] Subramanian, A., Tamayo, P., Mootha, VK, Mukherjee, S., Ebert, BL, Gillette, MA, Mesirov, JP 等。(2005) 基因集富集分析:解释全基因组表达谱的基于知识的方法。美国国家科学院院刊,102, 15545-15550。
[ 11 ] Hastie, T. 和 Tibshirani, R. (1990) 广义加法模型。约翰威利父子公司
[ 12 ] Armstrong, RA (2014) 何时使用 Bonferroni 校正。眼科和生理光学,34, 502-508。
[ 13 ] Benjamini, Y. 和 Hochberg, Y. (1995) 控制错误发现率:一种实用且强大的多重测试方法。皇家统计学会杂志。B 系列(方法论),289-300。
[ 14 ] 国家癌症研究所癌症术语词典(2015 年)国家癌症研究所。